DE102017125745A1

DE102017125745A1 - Fokussitzung an einem Sprachschnittstellengerät

Info

Publication number: DE102017125745A1
Application number: DE102017125745.4A
Authority: DE
Inventors: Kenneth Mixter; Tomer Shekel; Tuan Anh Nguyen
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-03
Filing date: 2017-11-03
Publication date: 2018-05-03
Also published as: JP7130637B2; US20230046924A1; DE202017106668U1; CN117351953A; US10783883B2; KR20190071794A; WO2018085671A1; GB2558066B; US11990128B2; KR102242917B1; US20180122378A1; GB2558066A; CN108022590B; GB201718184D0; EP3535753A1; JP2020500330A; EP3535753B1; EP3940694A1; US11527246B2; US20210005202A1

Abstract

Ein Verfahren bei einem ersten elektronischen Gerät einer lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet: Empfangen eines ersten Sprachbefehls, beinhaltend eine Anfrage nach einem ersten Vorgang; Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe; Einrichten einer Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der erste Vorgang durch das erste Zielgerät ausgeführt wird; Empfangen eines zweiten Sprachbefehls, beinhaltend eine Anfrage nach einem zweiten Vorgang; Bestimmen, dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts beinhaltet; Bestimmen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt werden kann; Bestimmen, ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt; und wenn der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Veranlassen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt wird.

Description

TECHNISCHES GEBIET
Die offenbarten Implementierungen betreffen im Allgemeinen Sprachschnittstellen und zugehörige Geräte, einschließlich, aber nicht beschränkt auf Verfahren und Systeme zum Richten eines Sprachbefehls an ein Zielgerät, wenn das Zielgerät unbekannt, oder von dem Sprachbefehl her selbst zweideutig ist.
HINTERGRUND
Elektronische Geräte mit Sprachschnittstellen wurden in großem Umfang verwendet, um Spracheingaben zu sammeln und unterschiedliche sprachaktivierte Funktionen gemäß den Spracheingaben auszuführen. Diese sprachaktivierten Funktionen können Anleiten oder Anweisen eines Zielgeräts zum Ausführen eines Vorgangs beinhalten. Beispielsweise kann der Benutzer eine Spracheingabe an ein Sprachschnittstellengerät ausgeben, um ein Zielgerät zum Ein- oder Ausschalten anzuweisen, oder um Medienwiedergabe auf dem Zielgerät zu steuern.
Typischerweise, wenn ein Benutzer eine Spracheingabe ausführen möchte, die ein Zielgerät zum Ausführen eines Vorgangs anleitet, dann würde der Benutzer das Zielgerät in der Spracheingabe spezifizieren. Die Tatsache jedoch, das Zielgerät für alle diese Spracheingaben explizit spezifizieren zu müssen, ist langwierig und mühsam für den Benutzer. Es ist selbst dann wünschenswert, dass ein Sprachschnittstellengerät ein Zielgerät für eine Spracheingabe aufweist, wenn die Spracheingabe kein Ziel spezifiziert oder ein zweideutiges Ziel spezifiziert.
ZUSAMMENFASSUNG
Dementsprechend besteht ein Bedürfnis nach einem elektronischen Gerät mit einem Sprachunterstützungssystem, das Verfahren und Systeme zum Bestimmen oder Zuweisen eines Zielgeräts für eine Spracheingabe beinhaltet, wenn eine Spezifikation eines Zielgeräts in der Spracheingabe fehlt oder zweideutig ist. In unterschiedlichen Implementierungen, die in dieser Anmeldung beschrieben sind, beinhaltet eine Betriebsumgebung ein sprachaktiviertes elektronisches Gerät, das eine Schnittstelle zu einem Sprachunterstützungsdienst bereitstellt, und mehrere Geräte (z. B. Casting-Gerät, Smart Home-Gerät), die durch Spracheingabe über den Sprachunterstützungsdienst gesteuert werden können. Das sprachaktivierte elektronische Gerät ist konfiguriert, um eine Spracheingabe aufzuzeichnen, von der der Sprachunterstützungsdienst (z. B. ein Sprachunterstützungsserversystem) eine Benutzersprachanfrage (z. B. eine Medienwiedergabeanfrage, eine Leistungsstatusänderungsanfrage) bestimmt. Das Sprachunterstützungsserversystem leitet dann die Benutzersprachanfrage an ein Zielgerät weiter, wie durch die Spracheingabe angegeben. Das sprachaktivierte elektronische Gerät ist konfiguriert, um eine nachfolgende Spracheingabe aufzuzeichnen, wobei eine Angabe eines Zielgeräts fehlt oder zweideutig ist. Das elektronische Gerät oder das Sprachunterstützungsserversystem weist ein Zielgerät für diese Spracheingabe zu, bestimmt eine in dieser Spracheingabe beinhaltete Benutzersprachanfrage und leitet die Benutzersprachanfrage zu dem zugewiesenen Zielgerät.
Gemäß einigen Implementierungen wird ein Verfahren an einem ersten elektronischen Gerät mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher ausgeführt, der ein oder mehrere Programme zum Ausführen durch den einen oder die mehreren Prozessoren speichert. Das erste elektronische Gerät ist ein Element einer lokalen Gruppe von verbundenen elektronischen Geräten, die kommunikativ mit einem gemeinsamen Netzwerkdienst verbunden sind. Das Verfahren beinhaltet: Empfangen eines ersten Sprachbefehls, beinhaltend eine Anfrage nach einem ersten Vorgang; Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten; Einrichten einer Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der erste Vorgang durch das erste Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird; Empfangen eines zweiten Sprachbefehls, beinhaltend eine Anfrage nach einem zweiten Vorgang; Bestimmen, dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts beinhaltet; Bestimmen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt werden kann; Bestimmen, ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt; und gemäß einer Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Veranlassen, dass der zweite Vorgang durch das erste Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
Gemäß einigen Implementierungen beinhaltet ein elektronisches Gerät ein oder mehrere Mikrofone, einen Lautsprecher, einen oder mehrere Prozessoren und einen Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert. Das eine oder die mehreren Programme beinhalten Anweisungen zum Ausführen des oben beschriebenen Verfahrens.
Gemäß einigen Implementierungen speichert ein nicht transitorisches computerlesbares Speichermedium ein oder mehrere Programme. Das eine oder die mehreren Programme beinhalten Anweisungen, die bei Ausführung durch ein elektronisches Gerät mit einem oder mehreren Mikrofonen, einem Lautsprecher und einem oder mehreren Prozessoren, das elektronische Gerät zum Ausführen von Vorgängen des oben beschriebenen Verfahrens veranlassen.
Figurenliste
Zwecks besseren Verständnisses der unterschiedlichen beschriebenen Implementierungen sollte auf die nachfolgende Beschreibung von Implementierungen Bezug genommen werden, zusammen mit den nachfolgenden Zeichnungen, wobei sich gleiche Bezugszeichen in den gesamten Zeichnungen auf entsprechende Teile beziehen.

1 veranschaulicht eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen.
2 veranschaulicht ein beispielhaftes sprachaktiviertes elektronisches Gerät gemäß einigen Implementierungen.
3A-3B veranschaulichen ein beispielhaftes Sprachunterstützungsserversystem gemäß einigen Implementierungen.
4A-4D veranschaulichen ein Beispiel einer Fokussitzung gemäß einigen Implementierungen.
5 veranschaulicht ein Ablaufdiagramm eines beispielhaften Prozesses des Einrichtens einer Fokussitzung und Antworten auf Spracheingaben gemäß einer Fokussitzung gemäß einigen Implementierungen.

Gleiche Bezugszeichen beziehen sich in allen Ansichten der Zeichnungen auf entsprechende Teile.
BESCHREIBUNG VON IMPLEMENTIERUNGEN
Obwohl die digitale Revolution viele Vorteile brachte, die vom offenen Teilen von Informationen zu einem globalen Gemeinschaftssinn reichten, induziert aufkommende neue Technologie oftmals Verwirrung, Skepsis und Furcht unter Verbrauchern, was Verbraucher daran hindert, von der Technologie zu profitieren. Elektronische Geräte werden bequem als Sprachschnittstellen verwendet, um Spracheingaben von Benutzern zu empfangen und sprachaktivierte Funktionen zu initiieren, und dadurch Eyes-free- und Hands-free-Lösungen anzubieten, um vorhandene und aufkommende Technologie anzugehen. Insbesondere können an dem elektronischen Gerät empfangene Spracheingaben Anweisungen und Informationen beinhalten, selbst wenn die Sichtlinie eines Benutzers behindert ist, und seine Hände voll sind. Um eine Hands-free- und Eyes-free-Erfahrung zu ermöglichen, hört das sprachaktivierte elektronische Gerät die Umgebung (d. h. verarbeitet konstant von der Umgebung gesammelte Audiosignale) konstant oder nur bei Auslösung ab. Andererseits sind Benutzeridentitäten mit der Stimme eines Benutzers und einer von dem Benutzer verwendeten Sprache verknüpft. Um Benutzeridentitäten zu schützen, werden diese sprachaktivierten elektronischen Geräte normalerweise an nichtöffentlichen Plätzen verwendet, die geschützte, kontrollierte und private Räume sind (z. B. Wohnung und Auto).
Gemäß einigen Implementierungen bestimmt oder weist ein sprachaktiviertes elektronisches Gerät ein Zielgerät einer Anfrage zu, die in einem Sprachbefehl erfolgte, wenn eine Angabe eines Zielgeräts in dem Sprachbefehl fehlt oder zweideutig ist. Das sprachaktivierte elektronische Gerät richtet Fokussitzungen in Bezug auf ein Zielgerät ein, das in einem Sprachbefehl ausdrücklich spezifiziert oder angegeben ist. Wenn das sprachaktivierte elektronische Gerät einen nachfolgenden Sprachbefehl empfängt, in dem eine Spezifikation oder Angabe eines Zielgeräts fehlt oder zweideutig ist, weist das elektronische Gerät das Zielgerät der Fokussitzung dem Sprachbefehl zu, wenn der Sprachbefehl ein oder mehrere Kriterien erfüllt.
In einigen Implementierungen, wenn der Benutzer zu einem Sprachschnittstellengerät sagt, ein anderes Gerät zu steuern, dann speichert das Sprachschnittstellengerät, auf welches Gerät von dem Benutzer abgezielt wurde (z. B. in einer Fokussitzung). Für einen Zeitraum danach ist das Standardzielgerät zum Steuern das gespeicherte Gerät. Wenn beispielsweise der Benutzer einen Sprachbefehl „schalte das Küchenlicht ein“ äußert, und dann „schalte das Licht aus“ äußert, dann hat das Zielgerät für den zweiten Sprachbefehl die Standardeinstellung „Küchenlicht“, wenn der zweite Befehl kurz nach dem ersten Befehl empfangen wird. Als ein anderes Beispiel, wenn der erste Befehl „spiele Musik über die Wohnzimmerlautsprecher ab“ ist, und der nachfolgende Befehl „halte die Musik an“ ist, dann hat das Zielgerät für den zweiten Sprachbefehl die Standardeinstellung „Wohnzimmerlautsprecher“, wenn der zweite Befehl kurz nach dem ersten Befehl empfangen wird.
Außerdem kann der Benutzer in einigen Implementierungen aufgefordert werden, zu bestätigen oder zu verifizieren, dass das zuletzt verwendete Zielgerät das beabsichtigte Zielgerät ist, wenn ein längerer Zeitzwischenraum zwischen Spracheingaben vorhanden ist. Wenn beispielsweise der erste Sprachbefehl „spiele Musik auf den Wohnzimmerlautsprechern ab“ ist, und der nachfolgende Befehl nach einem längeren Zeitzwischenraum von dem ersten Sprachbefehl „halte die Musik an“ ist, dann kann das Sprachschnittstellengerät den Benutzer fragen „möchten Sie die Musik auf den Wohnzimmerlautsprechern stoppen?“ um zu bestätigen, dass das Zielgerät „Wohnzimmerlautsprecher“ ist.
Auf diese Weise kann dem Benutzer die Mühe erspart werden, den vollständigen Kontext dieser Anfrage bei jeder Spracheingabe spezifizieren zu müssen (z. B. kann es ihm erspart werden, eine Spezifikation eines Zielgeräts bei jeder Spracheingabe beinhalten zu müssen, die die Ausführung eines Vorgangs anfragt).
Sprachunterstützungs-Betriebsumgebung
1 ist eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen. Betriebsumgebung 100 beinhaltet ein oder mehrere sprachaktivierte elektronische Geräte 104 (z. B. sprachaktivierte Geräte 104-1 bis einschließlich 104-N, nachfolgend „sprachaktivierte(s) Gerät(e)“). Das eine oder die mehreren sprachaktivierten Geräte 104 können an einem oder mehreren Standorten (z. B. alle in einem Zimmer oder Raum einer Struktur, über mehrere Räume innerhalb einer Struktur oder über mehrere Strukturen verteilt sein (z. B. eine in einem Haus und eine in dem Auto des Benutzers)).
Die Umgebung 100 beinhaltet auch ein oder mehrere steuerbare elektronische Geräte 106 (z. B. elektronische Geräte 106-1 bis einschließlich 106-N, nachfolgend „steuerbare(s) Gerät(e)“). Beispiele von steuerbaren Geräten 106 beinhalten Mediengeräte (intelligente Fernseher, Lautsprechersysteme, drahtlose Lautsprecher, Set-Top-Boxen, Medien-Streaming-Geräte, Casting-Geräte) und Smart Home-Geräte (z. B. intelligente Kamera, intelligentes Thermostat, intelligentes Licht, intelligenter Gefahrendetektor, intelligentes Türschloss).
Die sprachaktivierten Geräte 104 und die steuerbaren Geräte 106 sind durch Kommunikationsnetzwerke 110 kommunikativ mit einem Sprachunterstützungsdienst 140 verbunden (z. B. mit einem Sprachunterstützungsserversystem 112 des Sprachunterstützungsdienstes 140). In einigen Implementierungen sind ein oder mehrere der sprachaktivierten Geräte 104 und der steuerbaren Geräte 106 kommunikativ mit einem lokalen Netzwerk 108 verbunden, das kommunikativ mit den Kommunikationsnetzwerken 110 verbunden ist; das/die sprachaktivierte(n) Gerät(e) 104 und/oder die steuerbare(n) Gerät(e) 106 sind kommunikativ mit Kommunikationsnetzwerk(en) 110 (und durch das Kommunikationsnetzwerk 110 mit dem Sprachunterstützungsserversystem 112) über das lokale Netzwerk 108 verbunden. In einigen Implementierungen ist das lokale Netzwerk 108 ein lokales Netzwerk, das an einer Netzwerkschnittstelle (z. B. ein Router) implementiert ist. Die sprachaktivierten Geräte 104 und die steuerbaren Geräte 106, die kommunikativ mit dem lokalen Netzwerk 108 verbunden sind, können auch miteinander durch das lokale Netzwerk 108 kommunizieren.
Optional werden ein oder mehrere der sprachaktivierten Geräte 104 kommunikativ mit den Kommunikationsnetzwerken 110 verbunden, und befinden sich nicht in dem lokalen Netzwerk 108. Beispielsweise sind diese sprachaktivierten Geräte nicht in dem WLAN-Netzwerk, das dem lokalen Netzwerk 108 entspricht, aber sind mit den Kommunikationsnetzwerken 110 durch eine Mobilfunkverbindung verbunden. In einigen Implementierungen wird Kommunikation zwischen sprachaktivierten Geräten 104, die sich in dem lokalen Netzwerk 108 befinden, und sprachaktivierten Geräten 104, die sich nicht in dem lokalen Netzwerk 108 befinden, durch das Sprachunterstützungsserversystem 112 durchgeführt. Die sprachaktivierten Geräte 104 (ob in dem lokalen Netzwerk 108 oder in dem Netzwerk 110) werden in einer Geräteregistrierung 118 des Sprachunterstützungsdienstes 140 registriert, das somit dem Sprachunterstützungsserversystem 112 bekannt ist. Auf ähnliche Weise können die sprachaktivierten Geräte 104, die nicht in dem lokalen Netzwerk 108 sind, mit steuerbaren Geräten 106 durch das Sprachunterstützungsserversystem 112 kommunizieren. Die steuerbaren Geräte 106 (ob sie in dem lokalen Netzwerk 108 oder in dem Netzwerk 110 sind), werden auch in der Geräteregistrierung 118 registriert. In einigen Implementierungen gehen Kommunikationen zwischen den sprachaktivierten Geräten 104 und den steuerbaren Geräten 106 durch das Sprachunterstützungsserversystem 112.
In einigen Implementierungen beinhaltet die Umgebung 100 auch einen oder mehrere Hosts 114. Ein Inhalts-Host 114 kann eine Remoteinhaltsquelle sein, von der Inhalt gestreamt oder ansonsten gemäß einer Anfrage erhalten wird, die in einer Benutzerspracheingabe oder einem -befehl beinhaltet ist. Ein Inhalts-Host 114 kann eine Informationsquelle sein, von der das Sprachunterstützungsserversystem 112 Informationen gemäß einer Benutzersprachanfrage abruft.
In einigen Implementierungen sind steuerbare Geräte 106 in der Lage, Befehle oder Anfragen zu empfangen, um spezifizierte Vorgänge auszuführen oder um in spezifizierte Status überzugehen (z. B. von einem sprachaktivierten Gerät 104 und/oder dem Sprachunterstützungsserversystem 112), und die Vorgänge oder Übergangsstatus gemäß den empfangenen Befehlen oder Anfragen auszuführen.
In einigen Implementierungen sind ein oder mehrere der steuerbaren Geräte 106 Mediengeräte, die in der Betriebsumgebung 100 angeordnet sind, um für einen oder mehrere Benutzer Medieninhalt, Nachrichten und/oder andere Informationen bereitzustellen. In einigen Implementierungen wird der von den Mediengeräten bereitgestellte Inhalt in einer lokalen Inhaltsquelle gespeichert, von einer Remoteinhaltsquelle gestreamt (z. B. Inhalts-Host(s) 114), oder lokal generiert (z. B. durch einen lokalen Text-zu-Sprache-Prozessor, der ein benutzerdefiniertes News Briefing, E-Mails, Texte, einen lokalen Wetterbericht usw. einem oder mehreren Insassen einer Betriebsumgebung 100 vorliest). In einigen Implementierungen beinhalten die Mediengeräte Medienausgabegeräte, die den Medieninhalt direkt an eine Zuhörergruppe (z. B. ein oder mehrere Benutzer) ausgeben, und Casting-Geräte, die im Netzwerk eingebunden sind, um Medieninhalt an die Medienausgabegeräte zu streamen. Beispiele von Medienausgabegeräten beinhalten, sind aber nicht beschränkt auf Fernseh- (TV) Anzeigegeräte und Musik-Player. Beispiele für die Casting-Geräte beinhalten, sind aber nicht beschränkt auf Set-Top-Boxen (STBs), DVD-Player, TV-Boxen und Medien-Streaming-Geräte wie das Google Chromecast™ Medien-Streaming-Gerät.
In einigen Implementierungen ist ein steuerbares Gerät 106 auch ein sprachaktiviertes Gerät 104. In einigen Implementierungen ist ein sprachaktiviertes Gerät 104 auch ein steuerbares Gerät 106. Beispielsweise kann ein steuerbares Gerät 106 eine Sprachschnittstelle zu einem Sprachunterstützungsdienst 140 beinhalten (z. B. ein Mediengerät, das auch Benutzerspracheingaben empfangen, verarbeiten und darauf antworten kann). Als anderes Beispiel kann ein sprachaktiviertes Gerät 104 auch bestimmte Vorgänge ausführen und zu bestimmten Status gemäß Anfragen oder Befehlen in Spracheingaben übergehen (z. B. ein Sprachschnittstellengerät, das auch Streaming-Musik abspielen kann).
In einigen Implementierungen werden die sprachaktivierten Geräte 104 und die steuerbaren Geräte 106 einem Benutzer zugeordnet, der ein jeweiliges Konto besitzt, oder mehreren Benutzern (z. B. einer Gruppe von verwandten Benutzern, z. B. Benutzer in einer Familie oder in einer Organisation; allgemeiner, ein primärer Benutzer und ein oder mehrere autorisierte zusätzliche Benutzer), die jeweilige Benutzerkonten aufweisen, in einer Benutzerdomäne. Ein Benutzer kann Spracheingaben oder Sprachbefehle an das sprachaktivierte Gerät 104 geben. Das sprachaktivierte Gerät 104 empfängt diese Spracheingaben von dem Benutzer (z. B. Benutzer 102), und das sprachaktivierte Gerät 104 und/oder das Sprachunterstützungsserversystem 112 fährt fort, eine Anfrage in der Spracheingabe zu bestimmen und eine Antwort auf die Anfrage zu generieren.
In einigen Implementierungen ist die in einer Spracheingabe beinhaltete Anfrage ein Befehl oder eine Anfrage an ein steuerbares Gerät 106, einen Vorgang auszuführen (z. B. Medien abspielen, Medien anhalten, Medien schnell vorwärts oder rückwärts zu spulen, Lautstärke ändern, Bildschirmhelligkeit ändern, Lichthelligkeit ändern) oder in einen anderen Status überzugehen (z. B. den Betriebsmodus ändern, ein- oder ausschalten, in den Energiesparmodus gehen oder vom Energiesparmodus erwachen).
In einigen Implementierungen reagiert ein sprachaktiviertes elektronisches Gerät 104 auf Spracheingaben durch: Generieren und Bereitstellen einer gesprochenen Antwort auf einen Sprachbefehl (z. B. Sprechen der aktuellen Zeit als Antwort auf die Frage „wieviel spät ist es?“); Streamen von durch einen Benutzer angefragtem Medieninhalt (z. B. „Abspielen eines Lieds von den Beach Boys“); Lesen einer Nachrichtenmeldung oder von Briefings von Tagesmeldungen, die für den Benutzer vorbereitet sind; Abspielen eines auf dem Persönlichen Assistenten-Gerät oder auf dem lokalen Netzwerk gespeicherten Medienelements; Ändern eines Status oder Betätigen von einem oder mehreren anderen verbundenen Geräten innerhalb der Betriebsumgebung 100 (z. B. Ein-/Ausschalten von Lichtern, Haushaltsgeräten oder Mediengeräten, Abschließen/Aufschließen eines Schlosses, Öffnen von Fenstern usw.); oder Ausgeben einer entsprechenden Anfrage an einen Server über ein Netzwerk 110.
In einigen Implementierungen sind das eine oder die mehreren sprachaktivierten Geräte 104 in der Betriebsumgebung 100 angeordnet, um Audioeingaben zum Initiieren unterschiedlicher Funktionen (z. B. Medienwiedergabefunktionen der Mediengeräte) zu sammeln. In einigen Implementierungen sind diese sprachaktivierten Geräte 104 (z. B. Geräte 104-1 bis einschließlich 104-N) in der Nähe eines steuerbaren Geräts 104 (z. B. Mediengerät), z. B. in demselben Raum mit den Casting-Geräten und den Medienausgabegeräten, angeordnet. Alternativ ist in einigen Implementierungen ein sprachaktiviertes Gerät 104 in einer Struktur angeordnet, die ein oder mehrere Smart Home-Geräte, aber kein Mediengerät aufweist. Alternativ ist in einigen Implementierungen ein sprachaktiviertes Gerät 104 in einer Struktur angeordnet, die ein oder mehrere Smart Home-Geräte, und ein oder mehrere Mediengeräte aufweist. Alternativ ist in einigen Implementierungen ein sprachaktiviertes Gerät 104 an einem Standort angeordnet, der kein vernetztes elektronisches Gerät aufweist. Weiterhin kann in einigen Implementierungen ein Zimmer oder Raum in der Struktur mehrere sprachaktivierte Geräte 104 aufweisen.
In einigen Implementierungen beinhaltet das sprachaktivierte Gerät 104 mindestens ein oder mehrere Mikrofone, einen Lautsprecher, einen Prozessor und einen Speicher, der mindestens ein Programm zum Ausführen durch den Prozessor speichert. Der Lautsprecher ist konfiguriert, um zu erlauben, dass das sprachaktivierte Gerät 104 Sprachnachrichten und anderes Audio (z. B. hörbare Töne) an einen Standort liefert, an dem das sprachaktivierte Gerät 104 in der Betriebsumgebung 100 positioniert ist, wodurch Musik gesendet wird, ein Status von Audioeingabeverarbeitung berichtet wird, eine Unterhaltung mit einem Benutzer des sprachaktivierten Geräts 104 geführt, oder ihm Anweisungen gegeben werden. Als eine Alternative zu den Sprachnachrichten könnten auch optische Signale verwendet werden, um dem Benutzer eine Rückmeldung des sprachaktivierten Geräts 104 in Bezug auf den Status von Audioeingabeverarbeitung zu geben. Wenn das sprachaktivierte Gerät 104 ein mobiles Gerät ist (z. B. ein Mobiltelefon oder ein Tablet-Computer), dann ist sein Anzeigebildschirm konfiguriert, um eine Mitteilung über den Status von Audioeingabeverarbeitung anzuzeigen.
In einigen Implementierungen ist das sprachaktivierte Gerät 104 ein Sprachschnittstellengerät, das netzwerkverbunden ist, um Spracherkennungsfunktionen mithilfe eines Sprachunterstützungsserversystems 112 bereitzustellen. Beispielsweise beinhaltet das sprachaktivierte Gerät 104 einen intelligenten Lautsprecher, der dem Benutzer Musik bereitstellt und Eyes-free- und Hands-free-Zugriff auf einen Sprachunterstützungsdienst (z. B. Google-Assistent) bereitstellt. Optional ist das sprachaktivierte Gerät 104 einer von einem Desktop- oder Laptop-Computer, einem Tablet, einem Mobiltelefon, das ein Mikrofon beinhaltet, einem Casting-Gerät, das ein Mikrofon und optional einen Lautsprecher beinhaltet, einem Audiosystem (z. B. eine Stereoanlage, ein Lautsprechersystem, ein tragbarer Lautsprecher), der ein Mikrofon und einen Lautsprecher beinhaltet, einen Fernseher, das ein Mikrofon und einen Lautsprecher beinhaltet, und ein Benutzerschnittstellensystem in einem Automobil, das ein Mikrofon und einen Lautsprecher und optional eine Anzeige beinhaltet. Optional ist das sprachaktivierte Gerät 104 ein einfaches und kostengünstiges Sprachschnittstellengerät. Im Allgemeinen kann das sprachaktivierte Gerät 104 jedes beliebige Gerät sein, das zu einer Netzwerkverbindung in der Lage ist, und das ein Mikrofon, einen Lautsprecher und Programme, Module und Daten zum Interagieren mit einem Sprachunterstützungsdienst beinhaltet. Angesichts der Einfachheit und niedrigen Kosten des sprachaktivierten Geräts 104 beinhaltet das sprachaktivierte Gerät 104 anstelle eines Vollbildschirms eine Anordnung von Leuchtdioden (LEDs) und zeigt ein visuelles Muster auf den LEDs an, um den Status von Audioeingabeverarbeitung anzugeben. In einigen Implementierungen sind die LEDs vollfarbige LEDs und die Farben der LEDs können als ein Teil des visuellen Musters verwendet werden, das auf den LEDs anzuzeigen ist. Mehrere Beispiele der Verwendung von LEDs zum Anzeigen von visuellen Mustern, um Informationen oder Gerätestatus zu vermitteln, sind in der vorläufigen U.S.-Patentanmeldung Nr. 62/336.566 mit dem Titel „LED Design Language for Visual Affordance of Voice User Interfaces“ (LED-Konstruktionssprache für visuelle Affordance von Sprachbenutzerschnittstellen), eingereicht am 13. Mai 2016, die in ihrer Gesamtheit durch Bezugnahme aufgenommen ist. In einigen Implementierungen werden visuelle Muster, die den Status von Sprachverarbeitungsvorgängen angeben, unter Verwendung von charakteristischen Bildern angezeigt, die auf herkömmlichen Anzeigen angezeigt werden, die mit sprachaktivierten Geräten verbunden sind, die die Sprachverarbeitungsvorgänge ausführen.
In einigen Implementierungen werden LEDs oder andere visuelle Anzeigen verwendet, um einen kollektiven Sprachverarbeitungsstatus von mehreren teilnehmenden elektronischen Geräten zu vermitteln. Beispielsweise können in einer Betriebsumgebung, in der sich mehrere Sprachverarbeitungs- oder Sprachschnittstellengeräte befinden (z. B. mehrere elektronische Geräte 400, wie in 4A der ‘566er-Anmeldung dargestellt; mehrere sprachaktivierte Geräte 104), Gruppen von Farb-LEDs (z. B. LEDs 404, wie in 4A der ‘566er-Anmeldung dargestellt), die jeweiligen elektronischen Geräten zugeordnet sind, verwendet werden, um zu übermitteln, welches der elektronischen Geräte einem Benutzer zuhört, und welches der zuhörenden Geräte der Leiter ist (wobei das „Leiter“-Gerät im Allgemeinen die Führung beim Antworten auf eine gesprochene Anfrage übernimmt, die durch den Benutzer ausgegeben wurde).
Allgemeiner ausgedrückt beschreibt die ‘566er-Anmeldung (z. B. siehe Absätze [0087]-[0100]) eine „LED-Konstruktionssprache“, um visuell das Verwenden einer Sammlung von LEDs einer Vielfalt von Sprachverarbeitungsstatus eines elektronischen Geräts, wie z. B. ein „Hotword-Erkennungsstatus und Zuhörstatus“, ein „Denkmodus oder Arbeitsmodus“ und ein „Antwortmodus oder Sprechmodus“, anzugeben. In einigen Implementierungen werden hierin beschriebene einzigartige Status von Sprachverarbeitungsvorgängen unter Verwendung einer Gruppe von LEDs gemäß einem oder mehreren Aspekten der „LED-Konstruktionssprache“ der ‘566er-Anmeldung dargestellt. Die visuellen Indikatoren können auch mit einem oder mehreren hörbaren Indikatoren kombiniert werden, die durch elektronische Geräte generiert werden, die Sprachverarbeitungsvorgänge ausführen. Die resultierenden Audio- und/oder visuellen Indikatoren werden Benutzern in einer sprachinteraktiven Umgebung ermöglichen, den Status von unterschiedlichen elektronischen Sprachverarbeitungsgeräten in der Umgebung zu verstehen und mit diesen Geräten auf natürliche intuitive Art zu interagieren.
In einigen Implementierungen beinhalten die Sprachverarbeitungsstatus, die visuell durch eine Sammlung von LEDs (z. B. LEDs 404, wie in 4A der ‘566er-Anmeldung angegeben) unter Verwendung der LED-Konstruktionssprachenelemente angegeben werden, die in der ‘566er-Anmeldung angegeben sind, den Status von einer oder mehreren Fokussitzungen, Identitäten von einem oder mehreren Benutzern, die einer oder mehreren bestimmten Fokussitzungen zugeordnet sind, und/oder die Zeitdauer von einer oder mehreren aktiven Fokussitzungen. Beispielsweise können ähnlich Implementierungen und visuellen LED-Effekten, die unter Bezugnahme auf 4F, 4G und 4H der ‘566er-Anmeldung beschrieben sind, unterschiedliche Lichtmuster, Farbkombinationen und/oder spezifische Bewegung einer Sammlung von LEDs verwendet werden, um anzugeben, dass eine Fokussitzung aktiv ist, aufgrund von Erkennung einer zweiten Spracheingabe erweitert wurde, und/oder weil sie kürzlich aufgrund von Mangel von Benutzersprachinteraktion mit dem elektronischen Gerät 104 ablief. Eine oder mehrere Identitäten von einem oder mehreren Benutzern, die bestimmten Fokussitzungen zugeordnet sind, können auch mit unterschiedlichen Lichtmustern, Farbkombinationen und/oder spezifischer Bewegung einer Sammlung von LEDs angegeben werden, die bestimmte Benutzer visuell identifizieren.
In einigen Implementierungen, wenn Spracheingaben in das sprachaktivierte Gerät 104 verwendet werden, um die Medienausgabegeräte über die Casting-Geräte zu steuern, ermöglicht das sprachaktivierte Gerät 104 effektiv ein neues Niveau von Steuerung von Castingaktivierten Mediengeräten. In einem spezifischen Beispiel beinhaltet das sprachaktivierte Gerät 104 einen Freizeitlautsprecher mit Fernfeldsprachzugang und Funktionen wie ein Sprachschnittstellengerät für den Sprachunterstützungsdienst. Das sprachaktivierte Gerät 104 könnte in jedem beliebigen Bereich in der Betriebsumgebung 100 angeordnet werden. Wenn mehrere sprachaktivierte Geräte 104 in mehreren Zimmern verteilt sind, werden sie Casting-Audioempfänger, die synchronisiert werden, um Spracheingaben von diesem Zimmern zu empfangen.
Insbesondere beinhaltet das sprachaktivierte Gerät 104 in einigen Implementierungen einen WLAN-Lautsprecher mit einem Mikrofon, das mit einem sprachaktivierten Sprachunterstützungsdienst verbunden ist (z. B. Google-Assistent). Ein Benutzer kann eine Medienwiedergabeanfrage über das Mikrofon des sprachaktivierten Geräts 104 ausgeben und den Sprachunterstützungsdienst bitten, den Medieninhalt auf dem sprachaktivierten Gerät 104 selbst oder auf einem anderen verbundenen Medienausgabegerät auszugeben. Beispielsweise kann der Benutzer eine Medienwiedergabeanfrage ausgeben, indem er zu dem Lautsprecher sagt „OK Google, spiele Katzenvideos auf meinem Wohnzimmerfernseher ab.“ Der Sprachunterstützungsdienst erfüllt dann die Medienwiedergabeanfrage durch Wiedergeben des angefragten Medieninhalts auf dem angefragten Gerät unter Verwendung einer Standard- oder bezeichneten Medienanwendung.
In einigen Implementierungen kann der Benutzer eine Sprachanfrage über das Mikrofon des sprachaktivierten Geräts 104 in Bezug auf Medieninhalt ausgeben, der bereits abgespielt wurde oder der auf einem Anzeigegerät abgespielt wird (z. B. kann der Benutzer um Informationen über den Medieninhalt bitten, den Medieninhalt durch einen Onlineshop kaufen, oder einen Social Media-Beitrag über den Medieninhalt verfassen und ausgeben).
In einigen Implementierungen möchte ein Benutzer möglicherweise eine aktuelle Mediensitzung mit ihnen vornehmen, durch das Haus zu gehen, und kann solch einen Dienst von einem oder mehreren der sprachaktivierten Geräte 104 anfragen. Dies erfordert, dass der Sprachunterstützungsdienst 140 die aktuelle Mediensitzung von einem ersten Casting-Gerät zu einem zweiten Casting-Gerät überträgt, das nicht direkt mit dem ersten Casting-Gerät verbunden ist, oder keine Kenntnis über das Vorhandensein des ersten Casting-Geräts hat. Nach der Medieninhaltsübertragung fährt ein mit dem zweiten Casting-Gerät verbundenes zweites Ausgabegerät damit fort, den Medieninhalt, der zuvor ein erstes Gerät, das mit dem ersten Casting-Gerät verbunden ist, von dem genauen Punkt innerhalb eines Musik-Titels oder eines Video-Clips abzuspielen, wo auf das Abspielen auf dem ersten Ausgabegerät verzichtet wurde. In einigen Implementierungen kann das sprachaktivierte Gerät 104, das die Anfrage zum Übertragen der Mediensitzung empfängt, die Anfrage erfüllen. In einigen Implementierungen leitet das sprachaktivierte Gerät 104, das die Anfrage zum Übertragen der Mediensitzung empfängt, die Anfrage an ein anderes Gerät oder System (z. B. Sprachunterstützungsserversystem 112) zur Handhabung weiter.
Weiterhin kann ein Benutzer in einigen Implementierungen über das Mikrofon des sprachaktivierten Geräts 104 eine Anfrage nach Informationen oder nach Leistung einer Aktion oder eines Vorgangs ausgeben. Die angeforderten Informationen können persönlich (z. B. E-Mails des Benutzers, Kalenderereignisse des Benutzers, Fluginformationen des Benutzers usw.), nicht persönlich (z. B. Sportergebnisse, Nachrichtengeschichten usw.) oder irgendwo dazwischen (z. B. Punkte für vom Benutzer bevorzugte Teams oder Sportarten, Nachrichten aus den bevorzugten Quellen des Benutzers usw.) sein. Die angefragten Informationen oder die Aktion/der Vorgang können Zugang zu persönlichen Informationen beinhalten (z. B. Kaufen eines digitalen Medienelements mit durch den Benutzer bereitgestellten Zahlungsinformationen, Kaufen einer physischen Ware). Das sprachaktivierte Gerät 104 antwortet auf die Anfrage mit Sprachnachrichtenantworten an den Benutzer, wobei die Antwort beispielsweise Anfragen nach zusätzlichen Informationen beinhalten kann, um die Anfrage zu erfüllen, Bestätigung, dass die Anfrage erfüllt wurde, eine Notiz, dass die Anfrage nicht erfüllt werden kann, usw.
In einigen Implementierungen kann die Betriebsumgebung 100 zusätzlich zu den sprachaktivierten Geräten 104 und den Mediengeräten unter den steuerbaren Geräten 106 auch eines oder mehrere Smart Home-Geräte unter den steuerbaren Geräten 106 beinhalten. Die integrierten Smart Home-Geräte beinhalten intelligente multisensorische netzwerkverbundene Geräte, die sich nahtlos miteinander in einem Smart Home-Netzwerk und/oder mit einem zentralen Server oder einem Cloud-Computersystem integrieren, um eine Vielfalt von nützlichen Smart Home-Funktionen bereitzustellen. In einigen Implementierungen ist ein Smart Home-Gerät an demselben Standort der Betriebsumgebung 100 als ein Casting-Gerät und/oder ein Ausgabegerät angeordnet, und ist daher in der Nähe zu oder mit einem bekannten Abstand zu dem Casting-Gerät und dem Ausgabegerät angeordnet.
Die Smart-Home-Geräte in der Betriebsumgebung 100 können einen oder mehrere intelligente, multisensorische netzwerkverbundene Thermostate, einen oder mehrere intelligente, netzwerkverbundene multisensorische Gefahrenmelder, einen oder mehrere intelligente multisensorische netzwerkverbundene Eingangsschnittstellengeräte und (nachfolgend als „intelligente Türklingeln“ und „intelligente Türschlösser“ bezeichnet), ein oder mehrere intelligente multisensorische netzwerkverbundene Alarmsysteme, ein oder mehrere intelligente multisensorische netzwerkverbundene Kamerasysteme, einen oder mehrere intelligente multisensorische netzwerkverbundene Wandschalter, eine oder mehrere intelligente multisensorische netzwerkverbundene Steckdosen und eine oder mehrere intelligente, multisensorische netzwerkverbundene Leuchten beinhalten. In einigen Implementierungen beinhalten die Smart Home-Geräte in der Betriebsumgebung 100 von 1 eine Vielzahl von intelligenten multisensorischen netzwerkverbundenen Geräten (nachfolgend als „intelligente Geräte“ bezeichnet), wie Kühlschränke, Herde, Öfen, Fernseher, Waschmaschinen, Trockner, Lampen, Stereoanlagen, Gegensprechanlagen, Garagentoröffher, Bodenventilatoren, Deckenventilatoren, Wandklimaanlagen, Poolheizungen, Bewässerungssysteme, Sicherheitssysteme, Raumheizungen, Fenster-Klimaanlageneinheiten, motorisierte Kanalentlüftungen usw. In einigen Implementierungen kann jede beliebige dieser Smart Home-Gerätearten mit Mikrofonen und einer oder mehreren Sprachverarbeitungsfunktionen ausgerüstet werden, wie hierin beschrieben, um ganz oder teilweise auf Sprachanfragen von einem Insassen oder Benutzer zu antworten.
In einigen Implementierungen ist jedes von den steuerbaren Geräten 104 und den sprachaktivierten Geräten 104 für Datenkommunikationen und Informationsteilung mit anderen steuerbaren Geräten 106, sprachaktivierten elektronischen Geräten 104, einem zentralen Server- oder Cloud-Computersystem und/oder anderen Geräten (z. B. Client-Gerät) in der Lage, die netzwerkverbunden sind. Datenkommunikationen können unter Verwendung einer Vielzahl von kundenspezifischen oder standardmäßigen drahtlosen Protokollen (z. B. IEEE 802.15.4, WLAN-, ZigBee, 6LoWPAN, Thread, Z-Wave, Bluetooth Smart, ISA100.11a, WirelessHART, MiWi usw.) und/oder einer Vielzahl von kundenspezifischen oder standardverdrahteten Protokollen (z. B. Ethernet, HomePlug usw.) oder einem anderen geeigneten Kommunikationsprotokoll ausgeführt werden, einschließlich Kommunikationsprotokollen, die zum Zeitpunkt der Einreichung dieses Dokuments noch nicht entwickelt waren.
Durch die Kommunikationsnetzwerke (z. B. das Internet) 110 können die steuerbaren Geräte 106 und die sprachaktivierten Geräte 104 mit einem Serversystem (hierin auch als ein zentrales Serversystem und/oder ein Cloud-Computersystem bezeichnet) kommunizieren. Optional kann das Serversystem mit einem Hersteller, einer Support-Einheit oder einem Dienstanbieter verbunden sein, die den steuerbaren Geräten und dem Medieninhalt, der dem Benutzer angezeigt wird, zugeordnet sind. Dementsprechend beinhaltet das Serversystem den Sprachunterstützungsserver 112, der von den sprachaktivierten Geräten 104 gesammelte Audioeingaben verarbeitet, einen oder mehrere Inhalts-Hosts 114, die den angezeigten Medieninhalt bereitstellen, optional einen Cloud-Casting-Dienstserver, der eine virtuelle Benutzerdomäne basierend auf verteilten Geräteterminals erzeugt, und die Geräteregistrierung 118, die eine Aufzeichnung der verteilten Geräteterminals in der virtuellen Benutzerumgebung führt. Beispiele der Geräteterminals beinhalten, sind aber nicht beschränkt auf die steuerbaren Geräte 106, die sprachaktivierten Geräte 104 und die Medienausgabegeräte. In einigen Implementierungen sind diese verteilten Geräteterminals mit einem Benutzerkonto (z. B. einem Google-Benutzerkonto) in der virtuellen Benutzerdomäne verknüpft. Es versteht sich, dass Verarbeiten der durch sprachaktivierte Geräte 104 gesammelten Audioeingaben einschließlich der Generierung von Antworten auf diese Eingaben lokal auf einem sprachaktivierten Gerät 104, auf einem Sprachunterstützungsserver 112, auf einem anderen Smart Home-Gerät (z. B. einem Hub-Gerät oder einem steuerbaren Gerät 106) oder auf einer Kombination von allem oder einer Untergruppe des oben Genannten ausgeführt werden können.
Es versteht sich, dass in einigen Implementierungen das/die sprachaktivierte(n) Gerät(e) 104 auch in einer Umgebung ohne Smart Home-Geräte funktionieren. Beispielsweise kann ein sprachaktiviertes Gerät 104 selbst bei Nichtvorhandensein von Smart Home-Geräten auf Benutzeranfragen nach Informationen oder Ausführung einer Aktion reagieren und/oder verschiedene Medienwiedergabefunktionen initiieren oder steuern. Eine sprachaktivierte Vorrichtung 104 kann auch in einem weiten Bereich von Umgebungen funktionieren, einschließlich ohne Einschränkung eines Fahrzeugs, eines Schiffs, eines Geschäfts oder einer Herstellungsumgebung.
In einigen Implementierungen wird ein sprachaktiviertes Gerät 104 „geweckt“ (z. B. um eine Schnittstelle für den Sprachunterstützungsdienst an dem sprachaktivierten Gerät 104 zu aktivieren, um das sprachaktivierte Gerät 104 in einen Zustand zu versetzen, in dem das sprachaktivierte Gerät 104 zum Empfangen von Sprachanfragen an den Sprachunterstützungsdienst) durch eine Spracheingabe bereit ist, die ein Hotword (auch „Weckwort“ genannt) beinhaltet. In einigen Implementierungen erfordert das sprachaktivierte Gerät 104 das Aktivieren, wenn das sprachaktivierte Gerät 104 in Bezug auf den Empfang von Spracheingaben für mindestens einen vordefinierten Zeitbetrag im Leerlauf war (z. B. 5 Minuten); der vordefinierte Zeitbetrag einem Leerlaufzeitbetrag entspricht, der erlaubt ist, bevor ein Timeout einer Sprachschnittstellensitzung oder einer Konversation erfolgt. Das Hotword kann ein Wort oder eine Phrase sein, und kann ein vordefinierter Standard sein, und/oder kann durch einen Benutzer angepasst werden (z. B. kann ein Benutzer einen Spitznamen für ein bestimmtes sprachaktiviertes Gerät 104 als das Hotword des Geräts setzen). In einigen Implementierungen kann es mehrere Hotwords geben, die ein sprachaktiviertes Gerät 104 aktivieren können. Ein Benutzer kann das Hotword sprechen, auf eine Bestätigungsantwort von dem sprachaktivierten Gerät 104 warten (z. B. das sprachaktivierte Gerät 104 gibt einen Gruß aus), und dann eine erste Sprachanfrage stellen. Alternativ kann der Benutzer das Hotword und die erste Sprachanfrage in einer Spracheingabe kombinieren (z. B. die Spracheingabe beinhaltet das Hotword, gefolgt von der Sprachanfrage).
In einigen Implementierungen interagiert ein sprachaktiviertes Gerät 104 mit einem steuerbaren Gerät 106 (z. B. einem Mediengerät, einem Smart Home-Gerät), einem Client-Gerät oder einem Serversystem einer Betriebsumgebung 100 gemäß einigen Implementierungen. Das sprachaktivierte Gerät 104 ist konfiguriert, um Audioeingaben von einer Umgebung in der Nähe des sprachaktivierten Geräts 104 zu empfangen. Optional speichert das sprachaktivierte Gerät 104 die Audioeingaben und verarbeitet die Audioeingaben mindestens teilweise lokal. Optional überträgt das sprachaktivierte Gerät 104 die empfangenen Audioeingaben oder die teilweise verarbeiteten Audioeingaben zur weiteren Verarbeitung zu einem Sprachunterstützungsserversystem 112 über die Kommunikationsnetzwerke 110. Das sprachaktivierte Gerät 104 oder das Sprachunterstützungsserversystem 112 bestimmt, wenn es eine Anfrage in der Audioeingabe gibt, und was die Anfrage ist, bestimmt und generiert eine Antwort auf die Anfrage und überträgt die Anfrage zu einem oder mehreren steuerbaren Gerät(en) 106. Das/die steuerbaren Gerät(e) 106, die die Antwort empfangen, sind konfiguriert, um Vorgänge auszuführen oder Status gemäß der Antwort zu ändern. Beispielsweise ist ein Mediengerät konfiguriert, um Medieninhalt oder Internetinhalt von einem oder mehreren Inhalts-Hosts 114 zum Anzeigen auf einem mit dem Mediengerät verbundenen Ausgabegerät zu empfangen, gemäß einer Antwort auf eine Anfrage in der Audioausgabe.
In einigen Implementierungen sind das/die steuerbare(n) Gerät(e) 106 und das/die sprachaktiviert(en) Gerät(e) 104 miteinander in einer Benutzerdomäne verbunden, und genauer ausgedrückt, einander über ein Benutzerkonto in der Benutzerdomäne zugeordnet. Informationen über das steuerbare Gerät 106 (ob in dem lokalen Netzwerk 108 oder in dem Netzwerk 110) und das sprachaktivierte Gerät 104 (ob in dem lokalen Netzwerk 108 oder in dem Netzwerk 110) sind in der Geräteregistrierung 118 in Verbindung mit dem Benutzerkonto gespeichert. In einigen Implementierungen gibt es eine Geräteregistrierung für steuerbare Geräte 106 und eine Geräteregistrierung für sprachaktivierte Geräte 104. Die Registrierung der steuerbaren Geräte kann Geräte in der Registrierung der sprachaktivierten Geräte referenzieren, die der Benutzerdomäne zugeordnet sind, und umgekehrt.
In einigen Implementierungen werden ein oder mehrere der sprachaktivierten Geräte 104 (und ein oder mehrere Casting-Geräte) und ein oder mehrere der steuerbaren Geräte 106 dem Sprachunterstützungsdienst 140 über ein Client-Gerät 103 übergeben. In einigen Implementierungen beinhaltet das sprachaktivierte Gerät 104 keinen Anzeigebildschirm und verlässt sich auf das Client-Gerät 103, um eine Benutzeroberfläche während eines Inbetriebnahmeprozesses bereitzustellen, und auf ähnliche Weise auch für ein steuerbares Gerät 106. Insbesondere ist das Client-Gerät 103 mit einer Anwendung installiert, die einer Benutzeroberfläche ermöglicht, die Inbetriebnahme eines neuen sprachaktivierten Geräts 104 und/oder eines in der Nähe des Client-Geräts angeordneten steuerbaren Geräts 106 zu erleichtern. Ein Benutzer kann eine Anfrage an die Benutzeroberfläche des Client-Geräts 103 senden, um einen Inbetriebnahmeprozess für das neue elektronische Gerät 104/106 zu initiieren, das in Betrieb zu nehmen ist. Nach Empfangen der Inbetriebnahmeanfrage richtet das Client-Gerät 103 eine Kurzbereichskommunikationsverbindung mit dem neuen elektronischen Gerät 104/103 ein, das in Betrieb zu nehmen ist. Optional wird die Nahbereichskommunikationsverbindung basierend auf Nahfeldkommunikation (NFC), Bluetooth, Bluetooth Low Energy (BLE) und dergleichen hergestellt. Das Client-Gerät 103 überträgt dann Drahtloskonfigurationsdaten, die einem drahtlosen lokalen Netzwerk (WLAN) (z. B. lokales Netzwerk 108) zugeordnet sind, zu dem neuen oder elektronischen Gerät 104/106. Die Drahtloskonfigurationsdaten beinhalten mindestens einen WLAN-Sicherheitscode (d. h. ein Service Set Identifier (SSID)-Passwort) und beinhaltet optional ein SSID, eine Internetprotokoll (IP)-Adresse, eine Proxy-Konfiguration und eine Gateway-Konfiguration. Nach Empfangen der Drahtloskonfigurationsdaten über die Nahbereichskommunikationsverbindung decodiert das neue elektronische Gerät 104/106 und rettet die Drahtloskonfigurationsdaten, und verbindet sich mit dem WLAN basierend auf den Drahtloskonfigurationsdaten.
In einigen Implementierungen werden zusätzliche Benutzerdomäneninformationen auf der Benutzeroberfläche eingegeben, die auf dem Client-Gerät 103 angezeigt wird, und verwendet wird, um das neue elektronische Gerät 104/106 mit einem Konto in einer Benutzerdomäne zu verbinden. Optional werden die zusätzlichen Benutzerdomäneninformationen zu dem neuen elektronischen Gerät 104/106 zusammen mit den Drahtloskonfigurationsdaten über die Nahbereichskommunikationsverbindung übermittelt. Optional werden die zusätzlichen Benutzerdomäneninformationen zu dem neuen elektronischen Gerät 104/106 über das WLAN übermittelt, nachdem sich das neue Gerät mit dem WLAN verbunden hat.
Sobald das elektronische Gerät 104/106) in der Benutzerdomäne in Betrieb genommen wurde, können andere Geräte und ihre zugeordneten Aktivitäten über mehrere Kontrollpfade kontrolliert werden. Gemäß einem Kontrollpfad wird eine auf dem Client-Gerät 103 installierte Anwendung zum Kontrollieren des anderen Geräts und seiner zugeordneten Aktivitäten (z. B. Medienabspielaktivitäten) verwendet. Alternativ wird das elektronische Gerät 104/106 gemäß dem anderen Kontrollpfad verwendet, um Eyes-free- und Hands-free-Steuerung des anderen Geräts und seiner zugeordneten Aktivitäten zu ermöglichen.
In einigen Implementierungen können den sprachaktivierten Geräten 104 und steuerbaren Geräten 106 Spitznamen durch einen Benutzer zugewiesen werden (z. B. durch den primären Benutzer, dem die Geräte in der Benutzerdomäne zugeordnet sind). Beispielsweise kann einem Lautsprechergerät in dem Wohnzimmer ein Spitzname „Wohnzimmerlautsprecher“ zugewiesen werden. Auf diese Weise kann der Benutzer sich in einer Spracheingabe durch Sprechen des Spitznamens des Geräts leichter auf ein Gerät beziehen. In einigen Implementierungen werden die Gerätespitznamen und Zuordnungen zu entsprechenden Geräten auf einem sprachaktivierten Gerät 104 gespeichert (das die Spitznamen ausschließlich von den Geräten speichern würde, die demselben Benutzer wie das sprachaktivierte Gerät zugeordnet sind) und/oder dem Sprachunterstützungsserversystem 112 (das Gerätespitznamen von Geräten speichern würde, die unterschiedlichen Benutzern zugeordnet sind). Beispielsweise speichert das Sprachunterstützungsserversystem 112 viele Gerätespitznamen und -zuordnungen über unterschiedliche Geräte und Benutzer, und einem bestimmten Benutzer zugeordnete sprachaktivierte Geräte 104 laden Spitznamen und Zuordnungen für dem bestimmten Benutzer zugeordnete Geräte herunter, um sie lokal zu speichern.
In einigen Implementierungen kann ein Benutzer ein oder mehrere der sprachaktivierten Geräte 104 und/oder steuerbaren Geräte 106 in eine durch den Benutzer erzeugte Gruppe von Geräten hinein gruppieren. Der Gruppe kann ein Name gegeben werden, und auf die Gruppe von Geräten kann Bezugnahme durch den Gruppennamen erfolgen, ähnlich wie Bezugnahme auf einzelne Geräte nach Spitzname. Ähnlich Gerätespitznamen können Gerätegruppen und Gruppennamen auf einem sprachaktivierten Gerät 104 und/oder dem Sprachunterstützungsserversystem 112 gespeichert werden.
Eine Spracheingabe von dem Benutzer kann ausdrücklich ein steuerbares Zielgerät 106 oder eine Zielgruppe von Geräten für die Anfrage in der Spracheingabe spezifizieren. Beispielsweise kann ein Benutzer eine Spracheingabe „spiele klassische Musik auf dem Wohnzimmerlautsprecher ab“, ausgeben. Das Zielgerät in der Spracheingabe ist „Wohnzimmerlautsprecher“, die Anfrage in der Spracheingabe ist eine Anfrage, den „Wohnzimmerlautsprecher“ zum Abspielen von klassischer Musik zu veranlassen. Als weiteres Beispiel kann ein Benutzer eine Spracheingabe „spiele klassische Musik auf den Hauslautsprechern ab“, wobei „Hauslautsprecher“ ein Name einer Gruppe von Geräten ist. Die Zielgerätegruppe in der Spracheingabe ist „Hauslautsprecher“, die Anfrage in der Spracheingabe ist eine Anfrage, die Geräte in der Gruppe „Hauslautsprecher“ zum Abspielen von klassischer Musik zu veranlassen.
Eine Spracheingabe von dem Benutzer weist möglicherweise keine ausdrückliche Spezifizierung eines Zielgeräts oder einer Gerätegruppe; ein Verweis auf ein Zielgerät oder eine Gerätegruppe fehlt in der Spracheingabe. Beispielsweise kann der Benutzer nach dem obigen Beispiel der Spracheingabe „spiele klassische Musik auf dem Wohnzimmerlautsprecher ab“, eine nachfolgende Spracheingabe „Anhalten“ äußern. Die Spracheingabe beinhaltet keine Zielgerätespezifikation für die Anfrage nach einem Anhaltevorgang. In einigen Implementierungen kann die Zielgerätespezifikation in der Spracheingabe zweideutig sein. Beispielsweise kann der Benutzer den Gerätenamen unvollständig geäußert haben. In einigen Implementierungen kann ein Zielgerät oder eine Gerätegruppe der Spracheingabe zugewiesen werden, wenn eine ausdrückliche Zielgerätespezifikation fehlt oder die Zielgerätespezifikation zweideutig ist, wie nachfolgend beschrieben.
In einigen Implementierungen, wenn ein sprachaktiviertes Gerät 104 eine Spracheingabe mit einer ausdrücklichen Spezifikation eines Zielgeräts oder einer Gerätegruppe empfängt, richtet das sprachaktivierte Gerät 104 eine Fokussitzung in Bezug auf das spezifizierte Zielgerät oder die Gerätegruppe ein. In einigen Implementierungen speichert das sprachaktivierte Gerät 104 für die Fokussitzung eine Sitzungsstartzeit (z. B. den Zeitstempel der Spracheingabe, auf dessen Basis die Fokussitzung gestartet wurde), und als das sich im Fokus befindliche Gerät für die Fokussitzung das spezifizierte Zielgerät oder die Gerätegruppe. In einigen Implementierungen protokolliert das sprachaktivierte Gerät 104 auch nachfolgende Spracheingaben in der Fokussitzung. Das sprachaktivierte Gerät 104 protokolliert mindestens die neueste Spracheingabe in der Fokussitzung und protokolliert auch optional, und behält vorangegangene Spracheingaben innerhalb der Fokussitzung. In einigen Implementierungen richtet das Sprachunterstützungsserversystem 112 die Fokussitzung ein. In einigen Implementierungen kann die Fokussitzung durch eine Spracheingabe beendet werden, indem ausdrücklich ein anderes Zielgerät oder eine Gerätegruppe spezifiziert wird.
Obwohl eine Fokussitzung in Bezug auf ein Gerät aktiv ist, und das sprachaktivierte Gerät eine Spracheingabe empfängt, macht das sprachaktivierte Gerät 104 eine oder mehrere Bestimmungen in Bezug auf die Spracheingabe. In einigen Implementierungen beinhalten die Bestimmungen: ob die Spracheingaben eine ausdrückliche Zielgerätespezifikation beinhalten, ob die Anfrage in der Spracheingabe eine Anfrage ist, die durch das in-Fokus-Gerät erfüllt werden kann, und eine Zeit der Spracheingabe im Vergleich zu der Zeit der letzten Spracheingabe in der Fokussitzung und/oder der Sitzungsstartzeit. Wenn die Spracheingabe keine ausdrückliche Zielgerätespezifikation beinhaltet, eine Anfrage beinhaltet, die durch das in-Fokus-Gerät erfüllt werden kann, und vordefinierte Zeitkriterien in Bezug auf die Zeit der letzten Spracheingabe in der Fokussitzung und/oder der Sitzungsstartzeit erfüllt, dann wird das in-Fokus-Gerät als das Zielgerät für die Spracheingabe zugewiesen. Weitere Details in Bezug auf Fokussitzungen werden nachfolgend beschrieben.
Geräte in der Betriebsumgebung
2 ist ein Blockdiagramm, das ein beispielhaftes sprachaktiviertes Gerät 104 darstellt, das als eine Sprachschnittstelle angewandt wird, um Benutzersprachbefehle in einer Betriebsumgebung (z. B. Betriebsumgebung 100) gemäß einigen Implementierungen zu sammeln. Das sprachaktivierte Gerät 104 beinhaltet typischerweise einen oder mehrere Zentraleinheiten (CPUs) 202, eine oder mehrere Netzwerkschnittstellen 204, Speicher 206 und einen oder mehrere Kommunikationsbusse 208 zum Verbinden dieser Komponenten miteinander (manchmal Chipsatz genannt). Das sprachaktivierte Gerät 104 beinhaltet ein oder mehrere Eingabegeräte 210, die Benutzereingabe erleichtern, wie z. B. eine Taste 212, ein Berührungssensor-Array 214 und ein oder mehrere Mikrofone 216. Das sprachaktivierte Gerät 104 beinhaltet auch ein oder mehrere Ausgabegeräte 218, beinhaltend einen oder mehrere Lautsprecher 220, optional ein Array von LEDs 222 und optional eine Anzeige 224. In einigen Implementierungen ist das Array von LEDs 222 ein Array von vollfarbigen LEDs. In einigen Implementierungen weist ein sprachaktiviertes Gerät 104 in Abhängigkeit von der Art von Gerät entweder das Array von LEDs 222 oder die Anzeige 224 oder beides auf. In einigen Implementierungen beinhaltet das sprachaktivierte Gerät 104 auch ein Standorterkennungsgerät 226 (z. B. ein GPS-Modul) und einen oder mehrere Sensoren 228 (z. B. einen Beschleunigungsmesser, ein Gyroskop, einen Lichtsensor usw.).
Speicher 206 beinhaltet einen Hochgeschwindigkeitsspeicher mit wahlfreiem Zugriff, wie z. B. DRAM, SRAM, DDR-RAM oder andere Festspeichergeräte mit wahlfreiem Zugriff; und beinhaltet optional einen nichtflüchtigen Speicher, wie z. B. ein oder mehrere magnetische Plattenspeichergeräte, ein oder mehrere optische Plattenspeichergeräte, ein oder mehrere Flashspeichergeräte oder ein oder mehrere andere nicht flüchtige Festspeichergeräte. Speicher 206 beinhaltet optional ein oder mehrere Speichergeräte, die von einem oder mehreren Zentralprozessoren 202 entfernt angeordnet sind. Speicher 206 oder alternativ der nicht flüchtige Speicher innerhalb des Speichers 206, beinhaltet ein nicht transitorisches computerlesbares Speichermedium. In einigen Implementierungen speichert Speicher 206 oder das nicht transitorische computerlesbare Speichermedium von Speicher 206 die folgenden Programme, Module und Datenstrukturen, oder eine Untergruppe oder Supergruppe davon:

• Betriebssystem 232, beinhaltend Verfahren zur Handhabung verschiedener grundlegender Systemdienste und zur Durchführung von hardwareabhängigen Aufgaben;
• Netzwerkkommunikationsmodul 234 zum Verbinden des sprachaktivierten Geräts 104 mit anderen Geräten (z. B. dem Sprachunterstützungsdienst 140, einem oder mehreren steuerbaren Geräten 106, einem oder mehreren Client-Geräten 103 und anderen sprachaktivierten Gerät(en) 104) über eine oder mehrere Netzwerkschnittstellen 204 (verdrahtet oder drahtlos) und ein oder mehrere Netzwerke 110, wie z. B. Internet, andere Großraumnetzwerke, lokale Netzwerke (z. B. lokales Netzwerk 108), regionale Netzwerke usw.;
• Eingabe-/Ausgabesteuermodul 236 zum Empfangen von Eingaben über ein oder mehrere Eingabegeräte und Ermöglichen der Präsentation von Informationen auf dem sprachaktivierten Gerät 104 über ein oder mehrere Ausgabegeräte 218, beinhaltend:
- ○ Sprachverarbeitungsmodul 238 zum Verarbeiten von Audioeingaben oder Sprachnachrichten, die in einer Umgebung gesammelt werden, die das sprachaktivierte Gerät 104 umgibt, oder Vorbereiten der gesammelten Audioeingaben oder Sprachnachrichten zum Verarbeiten in einem Sprachunterstützungsserversystem 112;
- ○ LED-Steuermodul 240 zum Generieren von visuellen Mustern auf den LEDs 222 gemäß den Gerätestatus des sprachaktivierten Geräts 104; und
- ○ Berührungssensormodul 242 zum Erfassen von Berührungsereignissen auf einer obersten Fläche (z. B. Berührungssensor-Array 214) des sprachaktivierten Geräts 104;
• Daten 244 des sprachaktivierten Geräts zum Speichern mindestens von dem sprachaktivierten Gerät 104 zugeordneten Daten, beinhaltend:
- ○ Sprachgeräteeinstellungen 246 zum Speichern von Informationen, die dem sprachaktivierten Gerät 104 selbst zugeordnet sind, beinhaltend gemeinsame Geräteeinstellungen (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.), Informationen von einem oder mehreren Benutzerkonten in einer Benutzerdomäne, Gerätespitznamen und -Gerätegruppen, Einstellungen bezüglich Einschränkungen im Umgang mit einem nicht registrierten Benutzer und Anzeigespezifikationen, die einem oder mehreren visuellen Mustern zugeordnet sind, die von den LEDs 222 angezeigt werden; und
- ○ Sprachsteuerungsdaten 248 zum Speichern von Audiosignalen, Sprachnachrichten, Antwortnachrichten und anderen Daten, die sich auf Sprachschnittstellenfunktionen des sprachaktivierten Geräts 104 beziehen;
• Antwortmodul 250 zum Ausführen von Anweisungen, die in Sprachanfrageantworten enthalten sind, die durch das Sprachunterstützungsserversystem 112 generiert werden, und in einigen Implementierungen, Generieren von Antworten auf bestimmte Spracheingaben; und
• Fokussitzungsmodul 252 zum Einrichten, Verwalten und Beenden von Fokussitzungen in Bezug auf Geräte.

In einigen Implementierungen beinhaltet das Sprachverarbeitungsmodul 238 die folgenden Module (nicht dargestellt):

• Benutzeridentifikationsmodul zum Identifizieren und Disambiguieren von Benutzern, die Spracheingaben für das sprachaktivierten Gerät 104 bereitstellen;
• Hotword-Erkennungsmodule zum Bestimmen, ob Spracheingaben ein Hotword zum Aktivieren des sprachaktivierten Geräts 104 und Erkennen davon in den Spracheingaben beinhalten; und
• Anfrageerkennungsmodul zum Bestimmen einer Benutzeranfrage, die in einer Spracheingabe beinhaltet ist.

In einigen Implementierungen speichert der Speicher 206 auch Fokussitzungsdaten 254 für eine herausragende Fokussitzung, beinhaltend Folgendes:

• Sitzungs-in-Fokus-Gerät(e) 256 zum Speichern eines Bezeichners des Geräts oder der Gerätegruppe, die in einer herausragenden Sitzung im Fokus sind (z. B. der Gerätespitzname, der Gerätegruppenname, MAC-Adresse(n) des Geräts/der Geräte);
• Sitzungsstartzeit 258 zum Speichern eines Zeitstempels für den Start der herausragenden Fokussitzung; und
• Sitzungsbefehlshistorie 260 zum Speichern eines Protokolls von vorherigen Anfragen oder Befehlen in der Fokussitzung, beinhaltend mindestens die/den neueste(n) Anfrage/Befehl. Das Protokoll beinhaltet mindestens den/die Zeitstempel der protokollierten vorherigen Anfrage(n)/Befehl(e).

Jedes der oben genannten Elemente kann in einem oder mehreren der zuvor erwähnten Speichergeräte gespeichert sein und entspricht einer Gruppe von Anweisungen zum Ausführen einer oben beschriebenen Funktion. Die oben identifizierten Module oder Programme (d. h. Gruppen von Anweisungen) müssen nicht als separate Softwareprogramme, Prozeduren, Module oder Datenstrukturen implementiert werden, weshalb verschiedene Untergruppen dieser Module in verschiedenen Implementierungen kombiniert oder anderweitig neu angeordnet werden können. In einigen Implementierungen speichert Speicher 206 eine Untergruppe der oben identifizierten Module und Datenstrukturen. Weiterhin kann Speicher 206 zusätzliche Module und Datenstrukturen speichern, die nicht oben beschrieben sind. In einigen Implementierungen kann eine Untergruppe der in dem Speicher 206 gespeicherten Programme, Module und/oder Daten in dem Sprachunterstützungsserversystem 112 gespeichert, oder davon ausgeführt werden.
In einigen Implementierungen sind ein oder mehrere der Module in dem oben beschriebenen Speicher 206 Teil einer Sprachverarbeitungsbibliothek von Modulen. Die Sprachverarbeitungsbibliothek kann in einer breiten Vielfalt von Geräten implementiert und eingebettet werden. Ein Beispiel für eine Sprachverarbeitungsbibliothek ist in der vorläufigen U.S.-Patentanmeldung Nr. 62/334.434 mit dem Titel „Implementations for Voice Assistant on Devices“ (Implementierungen für Sprachunterstützung auf Geräten), eingereicht am 10. Mai 2016, beschrieben, die hierin durch Bezugnahme in ihrer Gesamtheit aufgenommen ist. In einigen Implementierungen kann die in 2 und 4 der ‘434er-Anmeldung dargestellte Sprachunterstützungs-Client-Bibliothek 240, die hierin integriert ist, zusätzliche, hierin beschriebene Sprachunterstützungsbibliotheksmodule 240 beinhalten, die mit Fokussitzungen in Verbindung stehen. Beispielsweise kann die Sprachunterstützungsbibliothek 240 der ‘434er-Anmeldung das Antwortmodul 250 und/oder Fokussitzungsmodul 252 von 2 dieser Anwendung beinhalten, oder andere Fokussitzungsfunktionalität bereitstellen. Auf ähnliche Weise können die in 2 und 4 der ‘434er-Anmeldung dargestellten Plattform-APIs 244 Module beinhalten, die den Sprachunterstützungsbibliotheksmodulen 240 der ‘434er-Anmeldung (einschließlich derjenigen, die sich auf Fokussitzungen beziehen) erlauben, mit der Hardware-Funktionalität eines Sprachunterstützungsgeräts 104 und Modulen eine Schnittstelle auszubilden, die für diesen Zweck verwendet werden, beinhaltend, ohne Einschränkung, das LED-Steuermodul 240 und/oder das in 2 dieser Anmeldung dargestellte Berührungssensormodul 242.
Wie bemerkt in Absatz [0071] der ‘434er-Anmeldung: „Ein Vorteil der in 4 dargestellten Sprachunterstützungs-Client-Bibliotheksorganisation besteht darin, dass sie ermöglicht, dass dieselbe oder eine ähnliche Sprachverarbeitungsfunktionalität auf einer breiten Palette von Sprachunterstützungsgerätetypen mit [a] konsistenten APIs und Gruppen von Sprachunterstützungsfunktionen bereitgestellt werden kann. Die Konsistenz unterstützt die Portabilität von Sprachunterstützungsanwendungen und Konsistenz von Sprachunterstützungsvorgängen, wodurch wiederum Benutzerinteraktionen und Vertrautheit mit Sprachunterstützungsanwendungen und -funktionen gefördert werden, die auf unterschiedlichen Gerätearten ausgeführt werden.“ Auf ähnliche Weise würde Beinhalten von Modulen, die Fokussitzungsfunktionalität in der Sprachunterstützungsbibliothek 240 der ‘434er-Anmeldung implementieren, ermöglichen, dass diese nützliche Funktionalität in einer breiten Palette von Sprachunterstützungsgeräten 104 implementiert wird. In einigen Implementierungen kann die Gesamtheit oder ein Teil der Sprachunterstützungs-Client-Bibliothek 240 (einschließlich Modulen, die Fokussitzungen zugeordnet sind, wie hierin beschrieben), auf dem Server 112 dieser Anwendung bereitgestellt werden (ähnlich wie der Server 114 von 3 der ‘434er-Anmeldung), um serverbasierte Sprachunterstützungsanwendungen (z. B. Serveranwendungen, die mit Spracheingaben funktionieren, die zum Verarbeiten an den Server 114 übertragen werden) zu unterstützen, die Fokussitzungsmerkmale beinhalten.
3A-3B sind Blockdiagramme, die ein beispielhaftes Sprachunterstützungsserversystem 112 eines Sprachunterstützungsdienstes 140 einer Betriebsumgebung (z. B. Betriebsumgebung 100) gemäß einigen Implementierungen veranschaulichen. Das Serversystem 112 beinhaltet typischerweise einen oder mehrere Zentralprozessoren (CPUs) 302, eine oder mehrere Netzwerkschnittstellen 304, Speicher 306 und einen oder mehrere Kommunikationsbusse 308 zum Verbinden dieser Komponenten miteinander (manchmal Chipsatz genannt). Das Serversystem 112 kann ein oder mehrere Eingabegeräte 310 beinhalten, die Benutzereingaben erleichtern, wie z. B. eine Tastatur, eine Maus, eine Sprachbefehlseingabeeinheit oder ein Mikrofon, eine Touchscreenanzeige, ein berührungsempfindliches Eingabe-Pad, eine Gestenerfassungskamera oder andere Eingabetasten oder -steuerungen. Weiterhin kann das Serversystem 112 ein Mikrofon und eine Spracherkennung oder eine Kamera und Gestenerkennung verwenden, um die Tastatur zu ergänzen oder zu ersetzen. In einigen Implementierungen beinhaltet das Serversystem 112 eine oder mehrere Kameras, Scanner oder Fotosensoreinheiten zum Erfassen von Bildern, beispielsweise von auf elektronischen Geräten aufgedruckten grafischen Seriencodes. Das Serversystem 112 kann auch ein oder mehrere Ausgabegeräte 312 beinhalten, die die Präsentation von Benutzerschnittstellen ermöglichen und Inhalt anzeigen, einschließlich eines oder mehrerer Lautsprechern und/oder einer oder mehrerer visueller Anzeigen.
Speicher 306 beinhaltet einen Hochgeschwindigkeitsspeicher mit wahlfreiem Zugriff, wie z. B. DRAM, SRAM, DDR-RAM oder andere Festspeichergeräte mit wahlfreiem Zugriff; und kann einen nicht flüchtigen Speicher, wie z. B. ein oder mehrere magnetische Plattenspeichergeräte, optische Plattenspeichergeräte, Flashspeichergeräte oder andere nicht flüchtige Festspeichergeräte beinhalten. Speicher 306 beinhaltet optional ein oder mehrere Speichergeräte, die von einem oder mehreren Zentralprozessoren 302 entfernt angeordnet sind. Speicher 306 oder alternativ der nicht flüchtige Speicher innerhalb des Speichers 306 beinhaltet ein nicht transitorisches computerlesbares Speichermedium. In einigen Implementierungen speichert Speicher 306 oder das nicht transitorische computerlesbare Speichermedium von Speicher 306 die folgenden Programme, Module und Datenstrukturen oder eine Untergruppe oder Supergruppe davon:

• Betriebssystem 316, das Verfahren zur Handhabung verschiedener grundlegender Systemdienste und zur Durchführung von hardwareabhängigen Aufgaben beinhaltet;
• Netzwerkkommunikationsmodul 318 zum Verbinden des Serversystems 112 mit anderen Geräten (z. B. Client-Geräten 103, steuerbaren Geräten 106, sprachaktivierten Gerät(en) 104) über eine oder mehrere Netzwerkschnittstellen 304 (verdrahtet oder drahtlos) und ein oder mehrere Netzwerke 110, wie z. B. Internet, andere Großraumnetzwerke, lokale Netzwerke, regionale Netzwerke usw.
• Benutzerschnittstellenmodul 320 zum Aktivieren der Darstellung von Informationen (z. B. eine grafische Benutzeroberfläche für die Präsentation von Anwendung(en) 322-328, Widgets, Websites und Webseiten davon und/oder Spiele, Audio- und/oder Videoinhalte, Text usw.) auf einem Client-Gerät;
• Befehlsausführungsmodul 321 für die Ausführung auf der Serverseite (z. B. Spiele, soziale Netzwerkanwendungen, Smart Home-Anwendungen und/oder andere web- oder nicht webbasierte Anwendungen zur Steuerung von einem Client-Gerät 103, einem steuerbaren Gerät 106, einem sprachaktivierten Gerät 104 und von Smart Home-Geräten, und Überprüfung von mit solchen Geräten erfassten Daten), beinhaltend eines oder mehrere von:
- ○ einer Casting-Geräteanwendung 322, die ausgeführt wird, um serverseitige Funktionalitäten zur Gerätebereitstellung, Gerätesteuerung und Benutzerkontenverwaltung bereitzustellen, die (einem) Casting-Gerät(en) zugeordnet sind;
- ○ ein oder mehrere Mediaplayeranwendungen 324, die ausgeführt werden, um serverseitige Funktionalitäten für Medienanzeige und Benutzerkontenverwaltung bereitzustellen, die entsprechenden Medienquellen zugeordnet sind;
- ○ eine oder mehrere Smart Home-Geräteanwendungen 326, die ausgeführt werden, um serverseitige Funktionalitäten zur Gerätebereitstellung, Gerätesteuerung, Datenverarbeitung und Datenüberprüfung von entsprechenden Smart Home-Geräten bereitzustellen; und
- ○ eine Sprachunterstützungsanwendung 328, die ausgeführt wird, um eine Sprachverarbeitung einer von dem sprachaktivierten Gerät 104 empfangenen Sprachnachricht zu arrangieren oder direkt die Sprachnachricht zu verarbeiten, um einen Benutzersprachbefehl und einen oder mehrere Parameter für den Benutzersprachbefehl zu extrahieren (z. B. eine Bezeichnung eines Casting-Geräts oder eines anderen sprachaktivierten Geräts 104); und
• Serversystemdaten 330, die mindestens Daten speichern, die einer automatischen Steuerung von Medienanzeige zugeordnet sind (z. B. in einem automatischen Medienausgabemodus und einem Folgemodus) und andere Daten, beinhaltend eines oder mehrere von:
- ○ Client-Geräteeinstellungen 332 zum Speichern von Informationen, die einem oder mehreren Client-Geräten zugeordnet sind, einschließlich gemeinsamer Geräteeinstellungen (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.), und Informationen für automatische Medienanzeigesteuerung;
- ○ Casting-Geräteeinstellungen 334 zum Speichern von Informationen, die Benutzerkonten der Casting-Geräteanwendung 322 zugeordnet sind, einschließlich einer oder mehreren von Kontenzugriffsinformationen, Informationen für Geräteeinstellungen (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.), und Informationen für automatische Medienanzeigesteuerung;
- ○ Mediaplayeranwendungseinstellungen 336 zum Speichern von Informationen, die Benutzerkonten von einer oder mehreren Mediaplayeranwendungen 324 zugeordnet sind, beinhaltend eines oder mehrere von Kontenzugriffsinformationen, Benutzervoreinstellungen von Medieninhaltsarten, Review-Historiendaten und Informationen für automatische Medienanzeigesteuerung;
- ○ Smart Home-Geräteeinstellungen 338 zum Speichern von Informationen, die Benutzerkonten der Smart Home-Geräteanwendung 326 zugeordnet sind, beinhaltend eines oder mehrere von Kontenzugriffsinformationen, Informationen für Geräteeinstellungen (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.);
- ○ Sprachunterstützungsdaten 340 zum Speichern von Informationen, die Benutzerkonten der Sprachunterstützungsanwendung 328 zugeordnet sind, beinhaltend eines oder mehrere von Kontenzugriffsinformationen, Informationen für ein oder mehrere sprachaktivierte Geräte 104 (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.);
- ○ Benutzerdaten 342 zum Speichern von Informationen, die Benutzern in der Benutzerdomäne zugeordnet sind, einschließlich Abonnements von Benutzern (z. B. Musik-Streaming-Service-Abonnements, Video-Streaming-Service-Abonnements, Newsletter-Abonnements), Benutzergeräte (z. B. Geräte, die in der Geräteregistrierung 118 registriert sind, die jeweiligen Benutzern zugeordnet ist), Benutzerkonten (z. B. E-Mail-Konten, Kalenderkonten, Konten von Benutzern) und andere Benutzerdaten;
- ○ Benutzersprachprofile 344 zum Speichern von Sprachprofilen der Benutzer in der Benutzerdomäne, beinhaltend z. B. Sprachmodelle oder Sprachfingerabdrücke der Benutzer und komfortable Lautstärkepegelschwellenwerte der Benutzer; und
- ○ Fokussitzungsdaten 346 zum Speichern von Fokussitzungsdaten für mehrere Geräte.
• Geräteregistrierungsmodul 348 zum Verwalten der Geräteregistrierung 118;
• Sprachverarbeitungsmodul 350 zum Verarbeiten von Audioeingaben oder Sprachnachrichten, die in einer das elektronische Gerät 104 umgebenden Umgebung gesammelt werden; und
• Fokussitzungsmodul 352 zum Einrichten, Verwalten und Beenden von Fokussitzungen in Bezug auf Geräte.

Unter Bezugnahme auf 3B speichert Speicher 306 in einigen Implementierungen auch Fokussitzungsdaten 346 für eine oder mehrere herausragende Fokussitzungen 3462-1 bis einschließlich 3462-M, Folgendes beinhaltend:

• Sitzungsquellengerät 3464 zum Speichern eines Bezeichners des Geräts, bei dem eine Fokussitzung eingerichtet wird;
• Sitzungs-in-Fokus-Gerät(e) 3466 zum Speichern eines Bezeichners des Geräts oder der Gerätegruppe, die in einer Fokussitzung im Fokus sind (z. B. der Gerätespitzname, der Gerätegruppenname, MAC-Adresse(n) des/der Gerät(e));
• Sitzungsstartzeit 3468 zum Speichern eines Zeitstempels für den Start der herausragenden Fokussitzung; und
• Sitzungsbefehlshistorie 3470 zum Speichern eines Protokolls von vorherigen Anfragen oder Befehlen in der Fokussitzung, beinhaltend mindestens die/den neueste(n) Anfrage/Befehl.

In einigen Implementierungen ist das Sprachunterstützungsserversystem 112 primär verantwortlich für die Verarbeitung von Spracheingaben und somit eines oder mehrerer der Programme, Module und Datenstrukturen in Speicher 206, die oben unter Bezugnahme auf 2, in jeweiligen Modulen in Speicher 306 beinhaltet sind (z. B. Programme, Module und Datenstrukturen, die in dem Sprachverarbeitungsmodul 238 beinhaltet sind, sind in dem Sprachverarbeitungsmodul 350 beinhaltet). Das sprachaktivierte Gerät 104 überträgt entweder erfasste Spracheingaben zu dem Sprachunterstützungsserversystem 112 zum Verarbeiten, oder vorverarbeitet die Spracheingaben zuerst, und überträgt die vorverarbeiteten Spracheingaben zu dem Sprachunterstützungsserversystem 112 zum Verarbeiten. In einigen Implementierungen weisen das Sprachunterstützungsserversystem 112 und das sprachaktivierte Gerät 104 einige gemeinsam genutzte und einige verteilte Verantwortlichkeiten in Bezug auf Verarbeiten von Spracheingaben auf, und die in 2 dargestellten Programme, Module und Datenstrukturen können in beiden beinhaltet, oder unter dem Sprachunterstützungsserversystem 112 und dem sprachaktivierten Gerät 104 aufgeteilt sein. Andere in 2 dargestellte Programme, Module und Datenstrukturen oder Entsprechungen davon können auch in dem Sprachunterstützungsserversystem 112 beinhaltet sein.
Jedes der oben genannten Elemente kann in einem oder mehreren der zuvor erwähnten Speichergeräte gespeichert sein und entspricht einer Gruppe von Befehlen zum Ausführen einer oben beschriebenen Funktion. Die oben identifizierten Module oder Programme (d. h. Gruppen von Anweisungen) müssen nicht als separate Softwareprogramme, Prozeduren, Module oder Datenstrukturen implementiert werden, weshalb verschiedene Untergruppen dieser Module in verschiedenen Implementierungen kombiniert oder anderweitig neu angeordnet werden können. In einigen Implementierungen speichert Speicher 306 eine Untergruppe der oben identifizierten Module und Datenstrukturen. Weiterhin kann Speicher 306 zusätzliche Module und Datenstrukturen speichern, die nicht oben beschrieben sind.
BEISPIELHAFTE FOKUS SITZUNG
4A-4D veranschaulichen ein Beispiel einer Fokussitzung gemäß einigen Implementierungen. In einer Betriebsumgebung mit einem sprachaktivierten Gerät 104 (z. B. Betriebsumgebung 100) und mehreren steuerbaren Geräten 106, wenn ein Benutzer in der Umgebung eine Spracheingabe vornimmt, die eines von den steuerbaren Geräten 106 als ein Zielgerät spezifiziert, kann eine Fokussitzung mit dem Zielgerät als dem in-Fokus-Gerät eingerichtet werden.
4A stellt ein sprachaktiviertes Gerät 404 (z. B. sprachaktiviertes Gerät 104) und drei steuerbare Geräte 406, 408 und 410 (z. B. steuerbare Geräte 106) in einer Betriebsumgebung (z. B. Betriebsumgebung 100) dar. Die Geräte können in demselben Raum wie ein Benutzer 402 (z. B. in demselben Raum), oder über eine Struktur verteilt sein, in der der Benutzer positioniert ist. Gerät 406 ist ein Lautsprechersystem mit dem Spitznamen „Master-Schlafzimmerlautsprecher“. Gerät 408 ist ein Mediengerät mit dem Spitznamen „Wohnzimmer-Fernseher“. Gerät 410 ist ein Mediengerät mit dem Spitznamen „Spieleraum-Fernseher“. Es gibt im Moment keine Fokussitzung; Fokussitzung 418 ist leer.
Der Benutzer 402 gibt eine Spracheingabe 403 aus, „spiele Katzenvideos auf dem Spieleraum-Fernseher ab“, und das sprachaktivierte Gerät 404 empfängt die Spracheingabe. Das sprachaktivierte Gerät 404 bestimmt, dass die Anfrage in der Spracheingabe 403 eine Anfrage zum Abspielen von Katzenvideos, und das Zielgerät das „Spieleraum-Fernseh“-Gerät 410 ist, das ausdrücklich in der Spracheingabe 403 spezifiziert wurde. Eine Sitzung 418, wobei das in-Fokus-Gerät das „Spieleraum-Fernseh“-Gerät 410 ist, wird auf dem sprachaktivierten Gerät 404 eingerichtet, wie in 4B dargestellt. Ein Befehl zum Abspielen von Katzenvideos wird (durch das Gerät 404 oder das Sprachunterstützungsserversystem 112) zu dem „Spieleraum-Fernseh“-Gerät 410 gesendet, und das Gerät 410 führt den Vorgang 416 aus.
Unter Bezugnahme auf 4C gibt der Benutzer 402 nachfolgend, während die Sitzung 418 mit dem „Spieleraum-Fernseher“ 410 im Fokus aktiv ist, und der Vorgang 416 durch das Gerät 410 ausgeführt wird, eine andere Spracheingabe „Anhalten“ 420 aus. Das sprachaktivierte Gerät 404 bestimmt, ob die Spracheingabe 420 eine Spezifikation eines Zielgeräts beinhaltet, und ob die Anfrage in der Spracheingabe 420 durch das in-Fokus-Gerät 410 ausgeführt werden kann. In dem Fall der spezifischen Spracheingabe 420 „Anhalten“ bestimmt das sprachaktivierte Gerät 404, dass die Spracheingabe 420 keine Spezifikation eines Zielgeräts beinhaltet, und dass die Anfrage in der Spracheingabe („Anhalten“, was immer gerade abgespielt wird) durch das in-Fokus-Gerät ausgeführt werden kann. In einigen Implementierungen beinhaltet Bestimmen, ob die Spracheingabe 420 eine Spezifikation eines Zielgeräts beinhaltet, das Schauen nach Übereinstimmungen mit Gerätespitznamen in der Spracheingabe (z. B. Ausführen von Spracherkennung auf der Spracheingabe und Parsen des Textes dahingehend, um nach Gerätespitznamen Ausschau zu halten). In einigen Implementierungen beinhaltet Bestimmen, ob eine Anfrage in der Spracheingabe von dem in-Fokus Gerät ausgeführt werden kann, Bestimmen, was die Anfrage in der Spracheingabe ist, und Vergleichen der Anfrage mit der Befehlshistorie (z. B. Historie 260) der aktuellen Fokussitzung 418 zwecks Konsistenz mit dem letzten Befehl in der Sitzung (z. B. eine „Musik anhalten“-Anfrage ist inkonsistent mit einem letzten Befehl, der „Musik anhalten“ ist), sowie Vergleichen der Anfrage auf Konsistenz mit Funktionen des in-Fokus-Geräts (z. B. eine „Musik anhalten“-Anfrage ist inkonsistent mit den Funktionen eines intelligenten Lichts).
In einigen Implementierungen bestimmt das sprachaktivierte Gerät 404 auch, ob die Spracheingabe 420 eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt. In einigen Implementierungen besteht ein Fokussitzungs-Aufrechterhaltungskriterium darin, dass der Zeitstempel der Spracheingabe 420 innerhalb einer bestimmten Zeit von dem Zeitstempel der letzten Spracheingabe 403 in der aktiven Sitzung liegt (z. B. die zweite Spracheingabe wird innerhalb einer bestimmten Zeit von der vorangegangenen ersten Spracheingabe empfangen.) In einigen Implementierungen gibt es mehrere Zeitschwellenwerte für dieses Kriterium. Beispielsweise kann es einen ersten kürzeren Zeitschwellenwert (z. B. 20 Minuten), und einen zweiten längeren Zeitschwellenwert (z. B. 4 Stunden) geben. Wenn die Spracheingabe 420 innerhalb des ersten kürzeren Zeitschwellenwertes der letzten Spracheingabe 403 empfangen wird, und die anderen Kriterien oben erfüllt werden, dann wird das in-Fokus-Gerät für die Spracheingabe 420 eingestellt (und überträgt diese Zielgeräteeinstellung in einigen Implementierungen, sowie dann, wenn die Spracheingabe 420 zu dem Sprachunterstützungsserversystem 112 zum Verarbeiten übertragen wird). Beispielsweise ist die Spracheingabe 420 dahingehend bestimmt, dass sie keine Zielgerätespezifikation beinhaltet, und dass die Anfrage „Anhalten“ mit dem letzten Befehl „spiele Katzenvideos ab“ konsistent ist. Wenn die Spracheingabe 420 innerhalb des kürzeren Zeitschwellenwerts der Spracheingabe 403 empfangen wird, dann wird das in-Fokus-Gerät, „Spieleraum-Fernseh“-Gerät 410, als das Zielgerät für Spracheingabe 420 eingestellt, und der auf dem „Spieleraum-Fernseh“-Gerät 410 ausgeführte Vorgang 416 hält die Katzenvideos gemäß der Spracheingabe 420 an, wie in 4D dargestellt.
Wenn die Spracheingabe 420 nach dem ersten kürzeren Schwellenwert und innerhalb des zweiten längeren Schwellenwerts von der letzten Spracheingabe 403 empfangen wird, und die anderen Kriterien oben erfüllt sind, gibt das sprachaktivierte Gerät 404 einen Sprachbefehl aus, um Bestätigung von dem Benutzer anzufragen, dass das in-Fokus-Gerät das gewünschte Zielgerät für die Spracheingabe 420 ist. Die sprachaktivierte Gerät 404 hält die Sitzung 418 nach Empfangen der Bestätigung, dass das in-Fokus-Gerät das gewünschte Zielgerät ist, aufrecht, und stellt das in-Fokus-Gerät als das Zielgerät für die Spracheingabe 420 ein (und überträgt in einigen Implementierungen diese Zielgeräteeinstellung sowie bei Übertragen der Spracheingabe 420 zu dem Sprachunterstützungsserversystem 112 zum Verarbeiten). Wenn der Benutzer das Zielgerät nicht bestätigt, kann das sprachaktivierte Gerät 404 anfragen, dass der Benutzer eine Zielgerätespezifikation bereitstellt, anfragen, dass der Benutzer die Spracheingabe erneut spricht, aber eine Zielgerätespezifikation einschließt, und/oder die Sitzung 418 beendet. In einigen Implementierungen, wenn die Spracheingabe 420 nach dem zweiten längeren Schwellenwert von der letzten Spracheingabe 403 empfangen wird, oder die anderen, oben beschriebenen Kriterien nicht erfüllt werden, wird die Sitzung 418 beendet. In einigen Implementierungen werden die Werte dieser Zeitschwellenwerte in Speicher 206 und/oder Speicher 306 gespeichert. Zwischen Spracheingaben verstrichene Zeit wird mit diesen Schwellenwerten verglichen.
In einigen Implementierungen werden das Fehlen eines ausdrücklich spezifizierten Zielgeräts in der Spracheingabe und Konsistenz der Anfrage in der Spracheingabe mit der letzten Spracheingabe und mit den Funktionen des in-Fokus-Geräts als Fokussitzungs-Aufrechterhaltungskriterien angesehen.
BEISPIELHAFTER PROZESS
5 ist ein Ablaufdiagramm, das ein Verfahren 500 des Antwortens auf eine Spracheingabe eines Benutzers gemäß einigen Implementierungen veranschaulicht. Gemäß einigen Implementierungen wird das Verfahren 500 an einem ersten elektronischen Gerät (z. B. das sprachaktivierte Gerät 104) mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher ausgeführt, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert. Das erste elektronische Gerät ist ein Mitglied einer lokalen Gruppe von verbundenen Geräten (z. B. sprachaktivierte Geräte 104 und steuerbare Geräte 106, die einem Benutzerkonto zugeordnet sind; steuerbare Geräte 106, die einem bestimmten sprachaktivierten Gerät 104 zugeordnet sind), die kommunikativ (z. B. durch Netzwerke 110) mit einem gemeinsamen Netzwerkdienst (z. B. dem Sprachunterstützungsdienst 140) verbunden sind.
Das erste elektronische Gerät empfängt (502) einen ersten Sprachbefehl, der eine Anfrage nach einem ersten Vorgang beinhaltet. Beispielsweise empfängt ein sprachaktiviertes Gerät 404 eine erste Spracheingabe 403.
Das erste elektronische Gerät bestimmt (504) ein erstes Zielgerät für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten. Das sprachaktivierte Gerät 404 bestimmt (z. B. basierend auf Verarbeiten durch das Sprachverarbeitungsmodul 238) ein Zielgerät (oder eine Gerätegruppe) für die Spracheingabe 403 aus den Geräten 406, 408 und 410. Das sprachaktivierte Gerät 404 erkennt die Zielgerätespezifikation „Spieleraum-Fernseher“ in der Spracheingabe 403 als „Spieleraum-Fernseh“-Gerät 410
Das erste elektronische Gerät richtet (506) eine Fokussitzung in Bezug auf das erste Zielgerät (oder die Gerätegruppe) ein. Das sprachaktivierte Gerät 404 (z. B. das Fokussitzungsmodul 252) richtet eine Fokussitzung 418 mit dem „Spieleraum-Fernseh“-Gerät 410 als dem in-Fokus-Gerät ein.
Das erste elektronische Gerät veranlasst (508), dass der erste Vorgang durch das erste Zielgerät (oder die Gerätegruppe) über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 überträgt einen Befehl über den Sprachunterstützungsdienst 140 zu Gerät 410, um den in Spracheingabe 403 angefragten Vorgang auszuführen.
Das erste elektronische Gerät empfängt (510) einen zweiten Sprachbefehl, der eine Anfrage nach einem zweiten Vorgang beinhaltet. Das sprachaktivierte Gerät 404 empfängt eine zweite Spracheingabe 420.
Das erste elektronische Gerät bestimmt (512), dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts (oder einer Gerätegruppe) beinhaltet. Das sprachaktivierte Gerät 404 bestimmt (z. B. basierend auf Verarbeiten durch das Sprachverarbeitungsmodul 238) ein Zielgerät für die Spracheingabe 420, und erkennt, dass die Spracheingabe 420 keine Zielgerätespezifikation beinhaltet.
Das erste elektronische Gerät bestimmt (514), dass der zweite Vorgang durch das erste Zielgerät (oder die Gerätegruppe) ausgeführt werden kann. Das sprachaktivierte Gerät 404 bestimmt, dass der in der Spracheingabe 420 angefragte Vorgang durch das in-Fokus-Gerät 410 ausgeführt werden kann, und mit dem in Spracheingabe 403 angefragten letzten Vorgang konsistent ist, und durch das in-Fokus-Gerät 410 ausgeführt wird.
Das erste elektronische Gerät bestimmt (516), ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt. Das sprachaktivierte Gerät 404 bestimmt, ob die Spracheingabe 420 innerhalb einer bestimmten Zeit von der Spracheingabe 403 empfangen wird.
Gemäß einer Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, veranlasst das erste elektronische Gerät (518), dass der zweite Vorgang durch das erste Zielgerät (oder die Gerätegruppe) über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Das sprachaktivierte Gerät 404 bestimmt, dass die Spracheingabe 420 innerhalb eines ersten kürzeren Zeitschwellenwerts von Spracheingabe 403 empfangen wird, und stellt gemäß dieser Bestimmung das Zielgerät für die Spracheingabe 420 dahingehend ein, dass es das in-Fokus-Gerät 410 ist. Das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 überträgt einen Befehl über den Sprachunterstützungsdienst 140 zu Gerät 410, um den in Spracheingabe 420 angefragten Vorgang auszuführen.
In einigen Implementierungen beinhaltet Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten Erhalten einer ausdrücklichen Bezeichnung des ersten Zielgeräts von dem ersten Sprachbefehl. Das sprachaktivierte Gerät 404 kann die Spracheingabe 403 vorverarbeiten, um zu bestimmen, ob die Spracheingabe 403 eine ausdrückliche Spezifikation von einem Zielgerät beinhaltet. Das sprachaktivierte Gerät 404 kann alternativ die ausdrückliche Spezifikation von einem Zielgerät von dem Sprachunterstützungsserversystem 112 empfangen, das die Spracheingabe 403 verarbeitete.
In einigen Implementierungen beinhaltet Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten Bestimmen, dass der erste Sprachbefehl keine ausdrückliche Bestimmung des ersten Zielgeräts beinhaltet, Bestimmen, dass der erste Vorgang durch ein zweites elektronisches Gerät aus der lokalen Gruppe von verbundenen elektronischen Geräten ausgeführt werden kann, und Auswählen des zweiten elektronischen Geräts als das erste Zielgerät. Wenn die erste Spracheingabe keine ausdrückliche Spezifikation eines Ziels beinhaltet, sondern die innerhalb der ersten Spracheingabe beinhaltete Anfrage eine ist, die durch ein einzelnes Gerät innerhalb der Gruppe ausgeführt werden kann (z. B. ein videobezogener Befehl, und wenn es nur ein videofähiges Gerät in der Gruppe gibt), dann wird das einzelne Gerät als das Zielgerät für die erste Spracheingabe eingestellt. Weiterhin ist in einigen Implementierungen, wenn es außer dem sprachaktivierten Gerät nur ein steuerbares Gerät gibt, das steuerbare Gerät das Standardzielgerät für Spracheingaben, die nicht ausdrücklich ein Zielgerät spezifizieren, und deren angefragte Vorgänge durch das steuerbare Gerät ausgeführt werden können.
In einigen Implementierungen kann die Spracheingabehistorie eines Benutzers (z. B. durch das Sprachunterstützungsserversystem 112 gesammelt und im Speicher 306 gespeichert, von dem sprachaktivierten Gerät 104 gesammelt, und im Speicher 206 gespeichert) analysiert werden (z. B. durch das Sprachunterstützungsserversystem 112 oder das sprachaktivierte Gerät 104), um zu bestimmen, ob die Historie zeigt, dass ein bestimmtes sprachaktiviertes Gerät 104 häufig verwendet wird, um ein spezifisches steuerbares Gerät 106 zu steuern. Wenn die Historie eine solche Beziehung darstellt, dann kann das spezifische steuerbare Gerät als ein Standardzielgerät für Spracheingaben zu dem sprachaktivierten Gerät eingestellt werden.
In einigen Implementierungen wird eine Spezifikation (z. B. ein Bezeichner) eines Standardzielgeräts in dem sprachaktivierten Gerät 104 und/oder dem Sprachunterstützungsserversystem 112 gespeichert.
In einigen Implementierungen gemäß der Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Ausdehnen der Fokussitzung in Bezug auf das erste Zielgerät. In einigen Implementierungen hält eine Fokussitzung (d. h. endet) nach einem bestimmten Zeitbetrag an. Die Fokussitzung 418 kann zeitmäßig ausgedehnt werden (z. B. nach dem Rücksetzen des Timeout-Timers), wenn die zweite Spracheingabe 420 die Fokussitzungs-Aufrechterhaltungskriterien erfüllt.
In einigen Implementierungen beinhaltet Einrichten der Fokussitzung in Bezug auf das erste Zielgerät Speichern eines Zeitstempels des ersten Sprachbefehls und Speichern eines Bezeichners des ersten Zielgeräts. Wenn eine Fokussitzung nach Empfangen der Spracheingabe 403 eingerichtet wird, speichert das sprachaktivierte Gerät 404 die Zeit der Spracheingabe 403 (z. B. in-Sitzungs-Befehlshistorie 260) und einen Bezeichner des in-Fokus-Geräts 410 (z. B. in-Sitzungs-in-Fokus-Gerät 256).
In einigen Implementierungen beinhalten die Fokussitzungs-Aufrechterhaltungskriterien ein Kriterium, dass der zweite Sprachbefehl von dem ersten elektronischen Gerät innerhalb eines ersten vordefinierten Zeitintervalls in Bezug auf Empfangen des ersten Sprachbefehls oder mit einem zweiten vordefinierten Zeitintervall in Bezug auf das Empfangen des ersten Sprachbefehls empfangen wird, wobei das zweite vordefinierte Zeitintervall auf das erste vordefinierte Zeitintervall folgt; und Bestimmen, ob der zweite Sprachbefehl das eine oder die mehreren Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Bestimmen beinhaltet, ob der zweite Sprachbefehl innerhalb des ersten vordefinierten Zeitintervalls oder des vordefinierten zweiten Zeitintervalls empfangen wird. Das sprachaktivierte Gerät 404 bestimmt, ob die Spracheingabe 420 eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt, beinhaltend, ob die Spracheingabe 420 innerhalb eines ersten Zeitschwellenwerts oder eines zweiten Zeitschwellenwerts der Spracheingabe 403 empfangen wird.
In einigen Implementierungen wählt das erste elektronische Gerät gemäß einer Bestimmung, dass der zweite Sprachbefehl innerhalb des ersten vordefinierten Zeitintervalls empfangen wird, das erste Zielgerät als ein Zielgerät für den zweiten Sprachbefehl aus. Wenn bestimmt wird, dass die Spracheingabe 420 innerhalb des ersten kürzeren Zeitschwellenwerts von der Spracheingabe 403 empfangen wird, dann wird das in-Fokus-Gerät 410 so eingestellt, dass es das Zielgerät für Spracheingabe 420 ist.
In einigen Implementierungen gibt das erste elektronische Gerät gemäß einer Bestimmung, dass der zweite Sprachbefehl innerhalb des zweiten vordefinierten Zeitintervalls empfangen wird, eine Anfrage zum Bestätigen des ersten Zielgeräts als ein Zielgerät für den zweiten Sprachbefehl aus; und wählt gemäß einer positiven Bestätigung des ersten Zielgeräts als Antwort auf eine Anfrage zur Bestätigung das erste Zielgerät als ein Zielgerät für den zweiten Sprachbefehl aus. Wenn bestimmt wird, dass die Spracheingabe 420 außerhalb des ersten kürzeren Zeitschwellenwerts, aber innerhalb des zweiten längeren Zeitschwellenwerts von der Spracheingabe 403 empfangen wird, fordert das sprachaktivierte Gerät den Benutzer zur Bestätigung eines Zielgeräts auf (z. B. fragt den Benutzer, ob das in-Fokus-Gerät 410 das beabsichtigte Zielgerät ist). Wenn der Benutzer bestätigt, dass das in-Fokus-Gerät 410 das beabsichtigte Zielgerät ist, wird das in-Fokus-Gerät 410 als das Zielgerät für Spracheingabe 420 eingestellt.
In einigen Implementierungen empfängt das erste elektronische Gerät einen dritten Sprachbefehl, der eine Anfrage nach einem dritten Vorgang und eine ausdrückliche Bezeichnung eines dritten Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet, beendet die Fokussitzung in Bezug auf das erste Zielgerät, richtet eine Fokussierungssitzung in Bezug auf das dritte Zielgerät ein und veranlasst, dass der dritte Vorgang durch das dritte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Das sprachaktivierte Gerät 404 kann eine neue Spracheingabe nach Spracheingabe 420 empfangen, die eine ausdrückliche Spezifikation eines Zielgeräts außer dem Gerät 410 (z. B. Gerät 406 oder 408) beinhaltet. Gemäß Empfang der Spracheingabe endet die Fokussitzung 418 mit Gerät 410 im Fokus, und eine neue Sitzung mit dem neuen Zielgerät im Fokus wird eingerichtet. Das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 überträgt einen Befehl über den Sprachunterstützungsdienst 140 zu dem neuen Zielgerät, um den in der neuen Spracheingabe angefragten Vorgang auszuführen.
In einigen Implementierungen ist das erste Zielgerät das erste elektronische Gerät. Das erste elektronische Gerät empfängt einen vierten Sprachbefehl, der eine Anfrage nach einem vierten Vorgang und eine ausdrückliche Bezeichnung eines vierten Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet, wobei das vierte Zielgerät ein drittes elektronisches Geräteelement der lokalen Gruppe von verbundenen elektronischen Geräten ist, das dritte elektronische Gerät anders als das erste elektronische Gerät ist; eine Fokussierungssitzung in Bezug auf das erste Zielgerät aufrechterhält, und veranlasst, dass der vierte Vorgang durch das vierte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Wenn das in-Fokus-Gerät für eine aktive Fokussitzung 418 bei dem sprachaktivierten Gerät 404 das sprachaktivierte Gerät 404 selbst ist, und dann eine neue Spracheingabe, die ein anderes Gerät spezifiziert, als das Ziel nach der Spracheingabe 420 empfangen wird, dann überträgt das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 einen Befehl über den Sprachunterstützungsdienst 140 an das andere Zielgerät, um den in der neuen Spracheingabe angefragten Vorgang auszuführen, aber die Fokussierungssitzung wird mit dem sprachaktivierten Gerät 404 im Fokus aufrechterhalten.
In einigen Implementierungen wird der zweite Sprachbefehl empfangen, nachdem veranlasst wird, dass der vierte Vorgang durch das vierte Zielgerät ausgeführt wird, der erste Vorgang ein Medienwiedergabevorgang ist, und der zweite Vorgang ein Medienstoppvorgang ist. Das erste elektronische Gerät empfängt einen fünften Sprachbefehl, der eine Anfrage nach einem fünften Vorgang und eine ausdrückliche Bezeichnung eines fünften Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet, wobei das fünfte Zielgerät das dritte elektronische Gerät ist; beendet die Fokussitzung in Bezug auf das erste Zielgerät; richtet eine Fokussierungssitzung in Bezug auf das fünfte Zielgerät ein und veranlasst, dass der fünfte Vorgang durch das fünfte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Wenn das in-Fokus-Gerät für eine aktive Fokussitzung 418 bei dem sprachaktivierten Gerät 404 das sprachaktivierte Gerät 404 selbst ist, und dann die Spracheingabe 403 eine Anfrage zum Initiieren von Medienwiedergabe beinhaltete, und die Spracheingabe 403 eine Anfrage zum Anhalten der Medienwiedergabe als ein Ergebnis von Spracheingabe 403 beinhaltete, und eine neue Spracheingabe, die ein anderes Gerät spezifiziert, als das Ziel nach der Spracheingabe 420 empfangen wird, dann überträgt das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 einen Befehl über den Sprachunterstützungsdienst 140 an das andere Zielgerät, um den in der neuen Spracheingabe angefragten Vorgang auszuführen, und die Fokussitzung mit dem sprachaktivierten Gerät im Fokus wird beendet, und eine neue Fokussitzung mit dem neuen Zielgerät im Fokus wird eingerichtet.
In einigen Implementierungen empfängt das erste elektronische Gerät einen fünften Sprachbefehl, der eine vordefinierte Vorgangsbeendigungsanfrage beinhaltet, und veranlasst gemäß dem Empfang des fünften Sprachbefehls, dass der erste Vorgang nicht mehr von dem ersten Zielgerät ausgeführt wird, und beendet die Fokussierungssitzung in Bezug auf das erste Zielgerät. Wenn das sprachaktivierte Gerät 404 einen vordefinierten Beendigungsbefehl (z. B. „STOPP“) empfängt, überträgt das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 über den Sprachunterstützungsdienst 140 einen Befehl an das Gerät 410, um den Vorgang 416 zu beenden, und die Fokussitzung 418 wird beendet.
In einigen Implementierungen ist der erste Vorgang ein Medienwiedergabevorgang, und der zweite Vorgang ist einer von: einem Medienstoppvorgang, einem Medienrücklaufvorgang, einem Medienschnellvorlaufvorgang, einem Lautstärkeerhöhungsvorgang und einem Lautstärkeverringerungsvorgang. Die Anfrage in Spracheingabe 403 kann eine Anfrage zum Einleiten der Wiedergabe von Medieninhalt (z. B. Video, Musik) sein, und die Anfrage in Spracheingabe 420 kann eine Anfrage zum Steuern der Wiedergabe sein (z. B. Anhalten, Zurückspulen, Vorspulen, Ändern) Lautstärke hoch/runter, nächster Eintrag/Titel, vorheriger Eintrag/Titel, usw.)
In einigen Implementierungen ist der erste Vorgang ein Gerätestatusänderungsvorgang in einen ersten Status einer Vielzahl von Gerätestatus, und der zweite Vorgang ein Gerätestatusänderungsvorgang in einen zweiten Status einer Vielzahl von Gerätestatus. Die Anfrage in Spracheingabe 403 kann eine Anfrage sein, in einen ersten Status überzugehen (z. B. Licht oder Gerät einschalten, in den Energiesparmodus gehen), und die Anfrage in Spracheingabe 420 kann eine Anfrage sein, in einen zweiten Status überzugehen (z. B. Licht oder Gerät ausschalten, den Energiesparmodus verlassen).
In einigen Implementierungen ist der erste Vorgang ein Größenordnungsänderungsvorgang in einer ersten Richtung in einer Größenordnungsskala, und der zweite Vorgang ist ein Größenordnungsänderungsvorgang in einer zweiten Richtung in der Größenordnungsskala. Die Anfrage in Spracheingabe 403 kann eine Anfrage zum Ändern der Größenordnung in einer Richtung (z. B. Licht heller stellen, Lautstärke erhöhen) sein, und die Anfrage in Spracheingabe 420 kann eine Anfrage zum Ändern der Größenordnung in der entgegengesetzten Richtung sein (z. B. Licht dimmen, Lautstärke verringern).
In einigen Implementierungen beinhaltet das erste elektronische Gerät ein Array von einer oder mehreren LEDs. Das erste elektronische Gerät gibt einen Status der Fokussitzung durch Beleuchten einer oder mehrerer der LEDs in dem Array von LEDs an. Das sprachaktivierte Gerät 404 kann anzeigen, dass es eine aktive Fokussitzung oder andere Status und andere Informationen (z. B. eine Angabe darüber gibt, wie lange die Fokussierungssitzung aktiv war oder wie viel Zeit seit der letzten Spracheingabe verstrichen ist), die der Fokussitzung zugeordnet sind, indem Muster auf dem LED-Array angezeigt werden.
In einigen Implementierungen können Fokussitzungen pro identifiziertem Benutzer eingerichtet werden. Wenn beispielsweise ein Benutzer eine Spracheingabe spricht, die ein Zielgerät spezifiziert, dann wird der Benutzer identifiziert, und eine Fokussitzung wird in Bezug auf den identifizierten Benutzer eingerichtet, wobei das in der Spracheingabe spezifizierte Zielgerät im Fokus ist. Wenn ein anderer Benutzer eine Spracheingabe spricht und ein anderes Zielgerät spezifiziert, wird der andere Benutzer identifiziert, und eine andere Fokussitzung wird in Bezug auf den identifizierten Benutzer eingerichtet, wobei das andere Zielgerät im Fokus ist. Durch andere Benutzer gesprochene Spracheingaben, die kein Zielgerät spezifizieren, können anderen Zielgeräten basierend auf der aktiven Fokussitzung zugeordnet werden, die dem anderen identifizierten Benutzer entspricht. Beispiele für die Sprecheridentifikation sind in der U.S.-Patentanmeldung Nr. 15/284.476 mit dem Titel „Multi-User Personalization at a Voice Interface Device“ (Mehrbenutzerpersonalisierung bei einem Sprachschnittstellengerät), eingereicht am 3. Oktober 2016, beschrieben, die durch Bezugnahme hierin in ihrer Gesamtheit aufgenommen ist.
ZUSÄTZLICHE BEISPIELE VON FOKUSSITZUNGEN
Die nachfolgenden Implementierungen beschreiben Implementierungen in einem Kontext eines sprachaktivierten Geräts 104 in einem selben Raum wie ein oder mehrere steuerbare Geräte 106, die Mediengeräte sind. Es versteht sich, dass die nachfolgend beschriebenen Implementierungen an andere Arten von steuerbaren Geräten 106 (z. B. Smart Home-Geräte) und an andere Gerätepositionierungs-Setups angepasst werden können.
In einigen Implementierungen kann eine Fokussitzung gestartet werden, wobei das in-Fokus-Gerät ein steuerbares Gerät und nicht das sprachaktivierte Gerät ist, wenn nicht bereits auf dem sprachaktivierten Gerät Medien abgespielt werden. In einigen Implementierungen, wenn auf dem sprachaktivierten Gerät abgespielte Medien angehalten werden, kann eine Fokussitzung mit einem steuerbaren Gerät und nicht dem sprachaktivierten Gerät als in-Fokus-Gerät gestartet werden.
In einigen Implementierungen wird eine Fokussitzung gestartet, wenn der Benutzer eine beliebige gültige Anfrage ausgibt, die ein ausdrückliches Zielgerät hat, die an ein Gerät oder eine Gerätegruppe gerichtet ist, das/die dem sprachaktivierten Gerät (und optional in demselben WLAN-Netzwerk wie das sprachaktivierte Gerät) zugeordnet ist. Beispiele solcher gültiger Anfragen beinhalten „spiele etwas Musik auf meinen Wohnzimmerlautsprechern ab“, „erhöhe die Lautstärke bei dem Schlafzimmerfernseher“, „nächstes Lied in meiner Home-Gruppe“ und „halte die Wohnzimmerlautsprecher an“. Das ausdrückliche Zielgerät wird das in-Fokus-Gerät für die Fokussitzung.
In einigen Implementierungen, wenn die Anfrage klar eine Anfrage in Zusammenhang mit Video ist, und es ein einzelnes videofähiges Gerät unter den zugeordneten steuerbaren Geräten gibt, dann kann eine Fokussitzung mit dem videofähigen Gerät als dem in-Fokus-Gerät eingerichtet werden.
In einigen Implementierungen, wenn eine Anfrage mit einem anderen Gerät als dem Zielgerät empfangen wird, während das sprachaktivierte Gerät aktiv Medien abspielt, bleibt der Fokus auf dem sprachaktivierten Gerät, aber sobald das sprachaktivierte Gerät gestoppt wird oder seine Sitzung angehalten wird, bewegt jede neue Anfrage zum Abspielen oder Steuern von Medien auf einem anderen Gerät den Fokus auf das andere Gerät.
Beispielsweise fragt der Benutzer „spiele Lady Gaga ab“ an, und das sprachaktivierte Gerät startet das Abspielen von Lady Gaga-Musik und startet eine Fokussitzung mit dem sprachaktivierten Gerät im Fokus. Der Benutzer fragt dann „anhalten“ an, und das sprachaktivierte Gerät hält die Lady Gaga-Musik an (und hält die Fokussitzung für sagen wir 2 Stunden aufrecht). Nach Ablauf von 1 Stunde fragt der Benutzer dann „spiele Katzenvideos auf meinem Fernseher ab“ an. Der Fokus bewegt sich zu dem Fernseher und der Fernseher startet das Abspielen von Katzenvideos.
Als weiteres Beispiel fragt der Benutzer „spiele Lady Gaga ab“, und das sprachaktivierte Gerät startet das Abspielen von Lady Gaga-Musik und startet eine Fokussitzung mit dem sprachaktivierten Gerät im Fokus. Der Benutzer fragt dann „zeige Katzenvideos auf meinem Fernseher“ an, und dann werden die Katzenvideos auf dem Fernseher angezeigt, aber der Fokus bleibt auf dem sprachaktivierten Gerät. Der Benutzer fragt dann „nächstes“ ab, und das sprachaktivierte Gerät rückt zum nächsten Titel in der Lady Gaga-Musik gemäß der Anfrage vor. Der Benutzer fragt dann „anhalten“ an, und die Musik auf dem sprachaktivierten Gerät wird angehalten. Der Benutzer fragt dann „nächstes Dia auf meinem Fernseher“ an, und das nächste Dia erscheint auf dem Fernseher, und der Fokus wird auf den Fernseher übertragen.
In einigen Implementierungen beinhalten gültige Anfragen Initiieren von Musik, Initiieren von Video, Initiieren von Nachrichtenlesen (z. B. Lesen von Nachrichtenartikeln), Initiieren von Podcasts, Initiieren von Fotos (z. B. Fotoanzeige oder Diaschau) und jeden beliebigen Mediensteuerungsbefehl (anders als ein vordefinierter STOPP-Befehl, der jede aktuelle Fokussitzung beendet).
In einigen Implementierungen wird eine Fokussitzung beendet, wenn eines von Folgendem eintritt:

• Fokussitzung wird zu einem anderen Gerät übertragen (über Spracheingabe, z. B. Spracheingabe, die ausdrücklich das andere Gerät spezifiziert), und in diesem Fall wird eine Fokussitzung mit dem anderen Gerät gestartet;
• Fokussitzung startet oder wird (aus dem Anhaltestatus heraus) auf dem sprachaktivierten Gerät über Spracheingabe oder Casting von einem anderen Gerät wieder aufgenommen (z. B. über Sprache „Spiele Lady Gaga auf <Spitzname des sprachaktivierten Geräts> ab“, „Spiele Lady Gaga lokal ab“ usw. über Casting: der Benutzer castet Inhalt zu dem sprachaktivierten Gerät über eine Anwendung auf einem Client-Gerät);
- o wenn jedoch das sprachaktivierte Gerät ein Mitglied (Nachfolger oder Leiter) der Gruppe ist, das bald mit dem Abspielen von Medien beginnen wird, dann wird es nicht wird es nicht den Fokus stoppen (selbst wenn es abspielt). Somit wird der Fokus auf dem Leiter der Gruppe bleiben (der ein anderes sprachaktiviertes Gerät sein kann);
• wenn die Anfrage ein vordefinierter „STOPP“-Befehl (einschließlich aller relevanten Grammatik) an das steuerbare Gerät ist, das im Fokus ist;
• mit Timeout zusammenhängende Befehle:
- ○ Timeouts können von der letzten Anfrage oder dem Befehl gemessen werden, die/der dem steuerbaren Gerät gegeben wurde, ob das steuerbare Gerät ausdrücklich spezifiziert oder basierend auf dem in-Fokus-Gerät der Fokussitzung eingestellt wird, außer dem vordefinierten „STOPP“-Befehl;
- ○ Timeout kann 240 Minuten über die unterschiedlichen möglichen Befehle sein; und
• wenn der Benutzer eine Taste auf dem sprachaktivierten Gerät drückt, die zum Anhalten/Abspielen verwendet wird (dadurch wird außerdem jeder angehaltene Inhalt lokal auf dem sprachaktivierten Gerät wieder aufgenommen).

In einigen Implementierungen fragt das sprachaktivierte Gerät Benutzerbestätigung des Zielgeräts an. Der Benutzer wird wie folgt zum Bestätigen aufgefordert, wenn er Medien auf einem steuerbaren Gerät abspielen möchte:

• Die Aufforderung wird für Medieninitiierung ausgelöst (z. B. Musik starten, wenn kein Abspielen erfolgt ist) (im Gegensatz zur Mediensteuerung, z. B. schneller Vorlauf oder nächster Titel);
• Die Aufforderung wird ausgelöst, wenn eine Fokussitzung aktiv ist; und
• Der Befehl wird ausgelöst, wenn einige Zeit (z. B. 20 Minuten) von dem letzten Sprachbefehl von dem sprachaktivierten Gerät verstrichen ist, der an das steuerbare Gerät gegeben wurde, ob das steuerbare Gerät ausdrücklich spezifiziert oder basierend auf dem in-Fokus-Gerät der Fokussitzung eingestellt wird, außer dem vordefinierten „STOPP“-Befehl.

Die Aufforderung zum Bestätigen kann beispielsweise sein:

• Das sprachaktivierte Gerät gibt aus „Soll ich auf <Name des steuerbaren Geräts> abspielen?“
- ○ Der Benutzer antwortet „Ja“. Dann werden die angefragten Medien auf dem steuerbaren in-Fokus-Gerät abgespielt, und der Fokus wird auf dem Gerät aufrechterhalten.
- ○ Der Benutzer antwortet „Nein“. Dann werden die angefragten Medien auf dem steuerbaren in-Fokus-Gerät abgespielt, und die Fokussitzung wird beendet.
- ○ Ansonsten: wenn beispielsweise die Antwort des Benutzers unklar ist, kann das sprachaktivierte Gerät ausgeben „Entschuldigung, ich konnte Ihre Antwort nicht verstehen.“

In einigen Implementierungen, wenn eine Fokussitzung initiiert wird, werden Medieninitiierung und sprachbasierte Steuerbefehle auf das steuerbare in-Fokus-Gerät angewandt. Nicht-Medien-Anfragen (z. B. Suchen, Fragen) werden durch das sprachaktivierte Gerät beantwortet, und die Nicht-Medien-Anfragen beenden die Fokussitzung nicht.
In einigen Implementierungen, selbst wenn eine Fokussitzung gestartet ist, werden physische Interaktionen immer noch das sprachaktivierte Gerät steuern, sodass physische Interaktion (z. B. Drücken einer Taste, Berühren eines berührungsempfindlichen Bereichs) mit dem sprachaktivierten Gerät zum Ändern der Lautstärke und Anhalten/Abspielen das sprachaktivierte Gerät, und nicht notwendigerweise das steuerbare Gerät beeinflusst.
In einigen Implementierungen haben Anfragen oder Befehle, die an Timer/Alarme/Text-zu-Sprache-Wiedergabe auf dem sprachaktivierten Gerät ausgegeben werden, höhere Priorität als ähnliche Anfragen oder Befehle an das steuerbare in-Fokus-Gerät. Wenn beispielsweise das sprachaktivierte Gerät für einen Timer oder einen Alarm klingelt und der Benutzer „Stopp“ äußert, stoppt das sprachaktivierte Gerät den Timer oder das Alarmklingeln. Wenn der Benutzer dann äußert „Lautstärke <erhöhen/verringern>“, wird der Timer oder das Alarmklingeln immer noch gestoppt, und die Lautstärke auf dem steuerbaren Gerät wird erhöht oder verringert.
Als ein anderes Beispiel, wenn das sprachaktivierte Gerät Text-zu-Sprache abspielt (z. B. Auslesen der E-Mails des Benutzers), und der Benutzer „Stopp“ äußert, stoppt das sprachaktivierte Gerät das Lesen von Text-zu-Sprache. Wenn der Benutzer dann äußert „Lautstärke <erhöhen/verringern>“, wird die Lautstärke auf dem steuerbaren Gerät erhöht oder verringert.
Wenn das sprachaktivierte Gerät im Leerlauf ist, angehalten wird oder appgeladen ist, und der Benutzer „Stopp“ äußert, werden als weiteres Beispiel auf dem steuerbaren Gerät abgespielte Medien gestoppt, und die Fokussitzung wird beendet. Wenn der Benutzer dann äußert „Lautstärke <erhöhen/verringern>“, wird die Lautstärke auf dem steuerbaren Gerät erhöht oder verringert.
Gemäß einer beispielhaften Ausführungsform beinhaltet ein Verfahren bei einem ersten elektronischen Gerät einer lokalen Gruppe von verbundenen elektronischen Geräten: Empfangen eines ersten Sprachbefehls, beinhaltend eine Anfrage nach einem ersten Vorgang; Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe; Einrichten einer Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der erste Vorgang durch das erste Zielgerät ausgeführt wird; Empfangen eines zweiten Sprachbefehls, beinhaltend eine Anfrage nach einem zweiten Vorgang; Bestimmen, dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts beinhaltet; Bestimmen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt werden kann; Bestimmen, ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt; und wenn der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Veranlassen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt wird.
Auf Implementierungen wurde detailliert Referenz genommen, Beispiele hiervon werden in den beigefügten Zeichnungen dargestellt. In der obigen ausführlichen Beschreibung wurden zahlreiche spezifische Details dargelegt, um ein gründliches Verständnis der verschiedenen beschriebenen Implementierungen bereitzustellen. Es wird jedoch für jede fachkundige Person ersichtlich sein, dass die verschiedenen beschriebenen Implementierungen ohne diese spezifischen Details praktiziert werden können. In anderen Fällen wurden bekannte Verfahren, Vorgänge, Komponenten, Schaltungen und Netzwerke nicht ausführlich beschrieben, um die Beschreibung der Aspekte der Implementierungen nicht unnötig unklar zu gestalten.
Es versteht sich auch, dass obgleich die Begriffe erste, zweite usw. in einigen Fällen hier verwendet werden können, um verschiedene Elemente zu beschreiben, die verschiedenen Elemente nicht durch diese Begriffe eingeschränkt werden sollten. Diese Begriffe werden nur dazu verwendet, ein Element vom anderen zu unterscheiden. Beispielsweise könnte ein erstes Gerät als ein zweites Gerät bezeichnet werden, und auf ähnliche Weise könnte ein zweites Gerät als ein erstes Gerät bezeichnet werden, ohne von dem Umfang der unterschiedlichen beschriebenen Implementierungen abzuweichen. Das erste Gerät und das zweite Gerät sind beides Typen von Geräten, aber sie sind nicht dasselbe Gerät.
Die in der Beschreibung verwendete Terminologie der unterschiedlichen beschriebenen Implementierungen dient lediglich dem Zweck der Beschreibung bestimmter Implementierungen und soll nicht einschränkend sein. Wie in der Beschreibung der unterschiedlichen Implementierungen und den beigefügten Patentansprüchen verwendet, sollen die Singularformen „ein(e)“ und „der/die/das“ ebenso die Pluralformen beinhalten, sofern der Zusammenhang nicht eindeutig etwas anderes vorgibt. Es ist außerdem selbstverständlich, dass der wie hierin verwendete Begriff „und/oder“ sich auf jegliche und alle möglichen Kombinationen einer oder mehrerer verbundener aufgeführter Elemente bezieht und diese beinhaltet. Es versteht sich ferner, dass die Begriffe „beinhaltet“, „beinhaltend“„umfasst“ und/oder „umfassend“, sofern in dieser Spezifikation verwendet, das Vorhandensein der angegebenen Funktionen, Ganzzahlen, Schritte, Operationen, Elemente und/oder Komponenten angeben, jedoch nicht das Vorhandensein oder Hinzufügen einer oder mehreren anderen Funktionen, Ganzzahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen derselben ausschließen.
Wie hierin verwendet, kann die Bedeutung des Begriffs „falls“ in Abhängigkeit von dem Kontext optional ausgelegt werden als „wenn“ oder „bei“ oder „als Antwort auf Bestimmen“ oder „als Antwort auf Erkennen“ oder „gemäß einer Bestimmung, dass“. In ähnlicher Weise ist der Ausdruck „wenn bestimmt wird“ oder „wenn [ein bestimmter Zustand oder ein Ereignis] erkannt wird“ optional als „bei Bestimmen“ oder „als Antwort auf Bestimmen“ oder „bei Erkennen [des angegebenen Zustands oder Ereignisses]“ oder „als Antwort auf Erkennen [des angegebenen Zustands oder des Ereignisses]“ oder „gemäß einer Bestimmung, dass [ein angegebener Zustand oder ein bestimmtes Ereignis] erkannt wird“, anzusehen, in Abhängigkeit von dem Kontext.
Bei Situationen, in denen die oben abgehandelten Geräte Informationen über Benutzer sammeln, kann den Benutzern eine Gelegenheit zum Anmelden in/Abmelden von Programmen oder Funktionen bereitgestellt werden, die persönliche Informationen sammeln (z. B. Informationen über Voreinstellungen eines Benutzers oder Verwendung eines intelligenten Geräts). Zusätzlich können in einigen Implementierungen gewisse Daten auf einem oder mehreren Wegen anonymisiert werden, bevor sie gespeichert oder verwendet werden, sodass personenbezogene Informationen entfernt werden. Beispielsweise kann die Identität eines Benutzers anonymisiert werden, sodass die persönlich identifizierbaren Informationen nicht für den Benutzer bestimmt oder ihm nicht zugeordnet werden können, und sodass Benutzervoreinstellungen oder Benutzerinteraktionen verallgemeinert (z. B. verallgemeinert basierend auf Demographie des Benutzers) und einem bestimmten Benutzer zugeordnet werden.
Obgleich einige unterschiedliche Zeichnungen eine Anzahl logischer Zustände in einer bestimmten Reihenfolge darstellen, können Zustände, die nicht von der Reihenfolge abhängig sind, neu geordnet werden und andere Zustände können kombiniert oder herausgenommen werden. Obwohl einige Umordnungen oder andere Gruppierungen extra aufgeführt werden, sind andere offensichtlich für Fachleute, sodass die hierin präsentierten Ordnungen und Gruppierungen keine vollständige Liste an Alternativen darstellen. Es sollte überdies erkannt werden, dass die Zustände in Hardware, Firmware, Software oder jegliche Kombination hiervon implementiert werden.
Die vorstehende Beschreibung wurde zum Zweck der Erklärung unter Bezugnahme auf spezifische Implementierungen beschrieben. Die obigen veranschaulichenden Erörterungen sollen jedoch nicht allumfassend sein oder den Umfang der Ansprüche genau auf die offenbarten Formen beschränken. Im Hinblick auf die vorstehenden Anleitungen ist eine Vielzahl von Modifizierungen und Varianten möglich. Die Implementierungen wurden ausgewählt, um die den Ansprüchen zugrundeliegenden Prinzipien und ihre praktische Anwendung bestmöglich zu erläutern, um dadurch anderen Fachleuten die bestmögliche Verwendung der Implementierungen mit unterschiedlichen Modifikationen zu ermöglichen, wie sie für die bestimmte vorgesehene Verwendung geeignet sind.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62336566 [0028]
US 62334434 [0059]
US 15284476 [0100]

Claims

Verfahren, umfassend: bei einem ersten elektronischen Gerät mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und Speicher, der ein oder mehrere Programme zum Ausführen durch den einen oder die mehreren Prozessoren speichert, wobei das erste elektronische Gerät ein Element einer lokalen Gruppe von verbundenen elektronischen Geräten ist, die kommunikativ mit einem gemeinsamen Netzwerkdienst verbunden sind: Empfangen eines ersten Sprachbefehls, beinhaltend eine Anfrage nach einem ersten Vorgang; Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten; Einrichten einer Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der erste Vorgang durch das erste Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird; Empfangen eines zweiten Sprachbefehls, beinhaltend eine Anfrage nach einem zweiten Vorgang; Bestimmen, dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts beinhaltet; Bestimmen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt werden kann; Bestimmen, ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt; und gemäß einer Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Veranlassen, dass der zweite Vorgang durch das erste Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
Verfahren nach Anspruch 1, wobei Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten umfasst: Erhalten einer ausdrücklichen Bezeichnung des ersten Zielgeräts von dem ersten Sprachbefehl.
Verfahren nach Anspruch 1, wobei Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten umfasst: Bestimmen, dass der erste Sprachbefehl keine ausdrückliche Bezeichnung eines ersten Zielgeräts beinhaltet; Bestimmen, dass der erste Vorgang durch ein zweites elektronisches Gerät aus der lokalen Gruppe von verbundenen elektronischen Geräten ausgeführt werden kann; und Auswählen des zweiten elektronischen Geräts als das erste Zielgerät.
Verfahren nach einem der Ansprüche 1-3, weiterhin umfassend: gemäß der Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Ausdehnen der Fokussitzung in Bezug auf das erste Zielgerät.
Verfahren nach einem der Ansprüche 1-4, wobei Einrichten der Fokussitzung in Bezug auf das erste Zielgerät umfasst: Speichern eines Zeitstempels des ersten Sprachbefehls; und Speichern eines Bezeichners des ersten Zielgeräts.
Verfahren nach einem der Ansprüche 1-5, wobei: die Fokussitzungs-Aufrechterhaltungskriterien ein Kriterium beinhalten, dass der zweite Sprachbefehl von dem ersten elektronischen Gerät innerhalb eines ersten vordefinierten Zeitintervalls in Bezug auf Empfangen des ersten Sprachbefehls oder mit einem zweiten vordefinierten Zeitintervall in Bezug auf das Empfangen des ersten Sprachbefehls empfangen wird, wobei das zweite vordefinierte Zeitintervall auf das erste vordefinierte Zeitintervall folgt; und Bestimmen, ob der zweite Sprachbefehl das eine oder die mehreren Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Bestimmen umfasst, ob der zweite Sprachbefehl innerhalb des ersten vordefinierten Zeitintervalls oder des vordefinierten zweiten Zeitintervalls empfangen wird.
Verfahren nach Anspruch 6, weiterhin umfassend: gemäß einer Bestimmung, dass der zweite Sprachbefehl innerhalb des ersten vordefinierten Zeitintervalls empfangen wird, Auswählen des ersten Zielgeräts als ein Zielgerät für den zweiten Sprachbefehl.
Verfahren nach Anspruch 6, weiterhin umfassend: gemäß einer Bestimmung, dass der zweite Sprachbefehl innerhalb des zweiten vordefinierten Zeitintervalls empfangen wird, Ausgeben einer Anfrage, das erste Zielgerät als ein Zielgerät für den zweiten Sprachbefehl zu bestätigen; und gemäß einer positiven Bestätigung des ersten Zielgeräts als Antwort auf die Anfrage, Auswählen des ersten Zielgeräts als ein Zielgerät für den zweiten Sprachbefehl.
Verfahren nach einem der Ansprüche 1-8, weiterhin umfassend: Empfangen eines dritten Sprachbefehls, beinhaltend eine Anfrage nach einem dritten Vorgang und eine ausdrückliche Bezeichnung eines dritten Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten; Beenden der Fokussitzung in Bezug auf das erste Zielgerät; Einrichten einer Fokussitzung in Bezug auf das dritte Zielgerät; und Veranlassen, dass der dritte Vorgang durch das dritte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
Verfahren nach einem der Ansprüche 1-9, wobei das erste Zielgerät das erste elektronische Gerät ist; und die Verfahren weiterhin umfasst: Empfangen eines vierten Sprachbefehls, der eine Anfrage nach einem vierten Vorgang und eine ausdrückliche Bezeichnung eines vierten Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet, wobei das vierte Zielgerät ein drittes elektronisches Geräteelement der lokalen Gruppe von verbundenen elektronischen Geräten ist, das dritte elektronische Gerät anders als das erste elektronische Gerät ist; Aufrechterhalten der Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der vierte Vorgang durch das vierte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
Verfahren nach Anspruch 10, wobei: der zweite Sprachbefehl empfangen wird, nachdem veranlasst wird, dass der vierte Vorgang durch das vierte Zielgerät ausgeführt wird; der erste Vorgang ein Medienwiedergabevorgang ist; und der zweite Vorgang ein Medienstoppvorgang ist; und das Verfahren weiterhin umfasst: Empfangen eines fünften Sprachbefehls, beinhaltend eine Anfrage nach einem fünften Vorgang und eine ausdrückliche Bezeichnung eines fünften Zielgeräts in der lokalen Gruppe von verbundenen elektronischen Geräten; wobei das fünfte Zielgerät das dritte elektronische Gerät ist; Beenden der Fokussitzung in Bezug auf das erste Zielgerät; Einrichten einer Fokussitzung in Bezug auf das fünfte Zielgerät; und Veranlassen, dass der fünfte Vorgang durch das fünfte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
Verfahren nach einem der Ansprüche 1-11, weiterhin umfassend: Empfangen eines fünften Sprachbefehls, beinhaltend eine vordefinierte Vorgangsbeendigungsanfrage; und gemäß Empfangen des fünften Sprachbefehls: Veranlassen, dass der erste Vorgang nicht mehr durch das erste Zielgerät ausgeführt wird; und Beenden der Fokussitzung in Bezug auf das erste Zielgerät.
Verfahren nach einem der Ansprüche 1-12, wobei: der erste Vorgang ein Medienwiedergabevorgang ist; und der zweite Vorgang einer ist von: einem Medienstoppvorgang, einem Medienrücklaufvorgang, einem Medienschnellvorlaufvorgang, einem Lautstärkeerhöhungsvorgang und einem Lautstärkeverringerungsvorgang.
Verfahren nach einem der Ansprüche 1-12, wobei: der erste Vorgang ein Gerätestatusänderungsvorgang in einen ersten Status einer Vielzahl von Gerätestatus ist; und der zweite Vorgang ein Gerätestatusänderungsvorgang in einen zweiten Status einer Vielzahl von Gerätestatus ist.
Verfahren nach einem der Ansprüche 1-12, wobei: der erste Vorgang ein Größenordnungsänderungsvorgang in einer ersten Richtung in einer Größenordnungsskala ist; und der zweite Vorgang ein Größenordnungsänderungsvorgang in einer zweiten Richtung in der Größenordnungsskala ist.
Verfahren nach einem der Ansprüche 1-12, wobei das erste Zielgerät ein Array von einer oder mehreren LEDs ist; und das Verfahren weiterhin umfasst: Angeben eines Status der Fokussitzung durch Beleuchten einer oder mehrerer der LEDs in dem Array von LEDs.
Elektronisches Gerät, umfassend: ein oder mehrere Mikrofone; einen Lautsprecher; einen oder mehrere Prozessoren; und Speicher, der das eine oder die mehreren Programme zum Ausführen durch den einen oder die mehreren Prozessoren speichert, wobei das eine oder die mehreren Programme Anweisungen zum Ausführen des Verfahrens nach einem der Ansprüche 1-16 umfassen,.
Nicht transitorisches computerlesbares Speichermedium, das ein oder mehrere Programme speichert, wobei das eine oder die mehreren Programme Anweisungen beinhalten, die bei Ausführung von einem elektronischen Gerät mit einem oder mehreren Mikrofonen, einem Lautsprecher und einem oder mehreren Prozessoren, das elektronische Gerät zum Ausführen von Vorgängen des Verfahrens nach einem der Ansprüche 1-16 veranlassen.