DE102017125745A1 - Fokussitzung an einem Sprachschnittstellengerät - Google Patents

Fokussitzung an einem Sprachschnittstellengerät Download PDF

Info

Publication number
DE102017125745A1
DE102017125745A1 DE102017125745.4A DE102017125745A DE102017125745A1 DE 102017125745 A1 DE102017125745 A1 DE 102017125745A1 DE 102017125745 A DE102017125745 A DE 102017125745A DE 102017125745 A1 DE102017125745 A1 DE 102017125745A1
Authority
DE
Germany
Prior art keywords
voice
target device
voice command
focus
activated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102017125745.4A
Other languages
English (en)
Inventor
Kenneth Mixter
Tomer Shekel
Tuan Anh Nguyen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of DE102017125745A1 publication Critical patent/DE102017125745A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2807Exchanging configuration information on appliance services in a home automation network
    • H04L12/281Exchanging configuration information on appliance services in a home automation network indicating a format for calling an appliance service function in a home automation network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Ein Verfahren bei einem ersten elektronischen Gerät einer lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet: Empfangen eines ersten Sprachbefehls, beinhaltend eine Anfrage nach einem ersten Vorgang; Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe; Einrichten einer Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der erste Vorgang durch das erste Zielgerät ausgeführt wird; Empfangen eines zweiten Sprachbefehls, beinhaltend eine Anfrage nach einem zweiten Vorgang; Bestimmen, dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts beinhaltet; Bestimmen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt werden kann; Bestimmen, ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt; und wenn der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Veranlassen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt wird.

Description

  • TECHNISCHES GEBIET
  • Die offenbarten Implementierungen betreffen im Allgemeinen Sprachschnittstellen und zugehörige Geräte, einschließlich, aber nicht beschränkt auf Verfahren und Systeme zum Richten eines Sprachbefehls an ein Zielgerät, wenn das Zielgerät unbekannt, oder von dem Sprachbefehl her selbst zweideutig ist.
  • HINTERGRUND
  • Elektronische Geräte mit Sprachschnittstellen wurden in großem Umfang verwendet, um Spracheingaben zu sammeln und unterschiedliche sprachaktivierte Funktionen gemäß den Spracheingaben auszuführen. Diese sprachaktivierten Funktionen können Anleiten oder Anweisen eines Zielgeräts zum Ausführen eines Vorgangs beinhalten. Beispielsweise kann der Benutzer eine Spracheingabe an ein Sprachschnittstellengerät ausgeben, um ein Zielgerät zum Ein- oder Ausschalten anzuweisen, oder um Medienwiedergabe auf dem Zielgerät zu steuern.
  • Typischerweise, wenn ein Benutzer eine Spracheingabe ausführen möchte, die ein Zielgerät zum Ausführen eines Vorgangs anleitet, dann würde der Benutzer das Zielgerät in der Spracheingabe spezifizieren. Die Tatsache jedoch, das Zielgerät für alle diese Spracheingaben explizit spezifizieren zu müssen, ist langwierig und mühsam für den Benutzer. Es ist selbst dann wünschenswert, dass ein Sprachschnittstellengerät ein Zielgerät für eine Spracheingabe aufweist, wenn die Spracheingabe kein Ziel spezifiziert oder ein zweideutiges Ziel spezifiziert.
  • ZUSAMMENFASSUNG
  • Dementsprechend besteht ein Bedürfnis nach einem elektronischen Gerät mit einem Sprachunterstützungssystem, das Verfahren und Systeme zum Bestimmen oder Zuweisen eines Zielgeräts für eine Spracheingabe beinhaltet, wenn eine Spezifikation eines Zielgeräts in der Spracheingabe fehlt oder zweideutig ist. In unterschiedlichen Implementierungen, die in dieser Anmeldung beschrieben sind, beinhaltet eine Betriebsumgebung ein sprachaktiviertes elektronisches Gerät, das eine Schnittstelle zu einem Sprachunterstützungsdienst bereitstellt, und mehrere Geräte (z. B. Casting-Gerät, Smart Home-Gerät), die durch Spracheingabe über den Sprachunterstützungsdienst gesteuert werden können. Das sprachaktivierte elektronische Gerät ist konfiguriert, um eine Spracheingabe aufzuzeichnen, von der der Sprachunterstützungsdienst (z. B. ein Sprachunterstützungsserversystem) eine Benutzersprachanfrage (z. B. eine Medienwiedergabeanfrage, eine Leistungsstatusänderungsanfrage) bestimmt. Das Sprachunterstützungsserversystem leitet dann die Benutzersprachanfrage an ein Zielgerät weiter, wie durch die Spracheingabe angegeben. Das sprachaktivierte elektronische Gerät ist konfiguriert, um eine nachfolgende Spracheingabe aufzuzeichnen, wobei eine Angabe eines Zielgeräts fehlt oder zweideutig ist. Das elektronische Gerät oder das Sprachunterstützungsserversystem weist ein Zielgerät für diese Spracheingabe zu, bestimmt eine in dieser Spracheingabe beinhaltete Benutzersprachanfrage und leitet die Benutzersprachanfrage zu dem zugewiesenen Zielgerät.
  • Gemäß einigen Implementierungen wird ein Verfahren an einem ersten elektronischen Gerät mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher ausgeführt, der ein oder mehrere Programme zum Ausführen durch den einen oder die mehreren Prozessoren speichert. Das erste elektronische Gerät ist ein Element einer lokalen Gruppe von verbundenen elektronischen Geräten, die kommunikativ mit einem gemeinsamen Netzwerkdienst verbunden sind. Das Verfahren beinhaltet: Empfangen eines ersten Sprachbefehls, beinhaltend eine Anfrage nach einem ersten Vorgang; Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten; Einrichten einer Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der erste Vorgang durch das erste Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird; Empfangen eines zweiten Sprachbefehls, beinhaltend eine Anfrage nach einem zweiten Vorgang; Bestimmen, dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts beinhaltet; Bestimmen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt werden kann; Bestimmen, ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt; und gemäß einer Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Veranlassen, dass der zweite Vorgang durch das erste Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
  • Gemäß einigen Implementierungen beinhaltet ein elektronisches Gerät ein oder mehrere Mikrofone, einen Lautsprecher, einen oder mehrere Prozessoren und einen Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert. Das eine oder die mehreren Programme beinhalten Anweisungen zum Ausführen des oben beschriebenen Verfahrens.
  • Gemäß einigen Implementierungen speichert ein nicht transitorisches computerlesbares Speichermedium ein oder mehrere Programme. Das eine oder die mehreren Programme beinhalten Anweisungen, die bei Ausführung durch ein elektronisches Gerät mit einem oder mehreren Mikrofonen, einem Lautsprecher und einem oder mehreren Prozessoren, das elektronische Gerät zum Ausführen von Vorgängen des oben beschriebenen Verfahrens veranlassen.
  • Figurenliste
  • Zwecks besseren Verständnisses der unterschiedlichen beschriebenen Implementierungen sollte auf die nachfolgende Beschreibung von Implementierungen Bezug genommen werden, zusammen mit den nachfolgenden Zeichnungen, wobei sich gleiche Bezugszeichen in den gesamten Zeichnungen auf entsprechende Teile beziehen.
    • 1 veranschaulicht eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen.
    • 2 veranschaulicht ein beispielhaftes sprachaktiviertes elektronisches Gerät gemäß einigen Implementierungen.
    • 3A-3B veranschaulichen ein beispielhaftes Sprachunterstützungsserversystem gemäß einigen Implementierungen.
    • 4A-4D veranschaulichen ein Beispiel einer Fokussitzung gemäß einigen Implementierungen.
    • 5 veranschaulicht ein Ablaufdiagramm eines beispielhaften Prozesses des Einrichtens einer Fokussitzung und Antworten auf Spracheingaben gemäß einer Fokussitzung gemäß einigen Implementierungen.
  • Gleiche Bezugszeichen beziehen sich in allen Ansichten der Zeichnungen auf entsprechende Teile.
  • BESCHREIBUNG VON IMPLEMENTIERUNGEN
  • Obwohl die digitale Revolution viele Vorteile brachte, die vom offenen Teilen von Informationen zu einem globalen Gemeinschaftssinn reichten, induziert aufkommende neue Technologie oftmals Verwirrung, Skepsis und Furcht unter Verbrauchern, was Verbraucher daran hindert, von der Technologie zu profitieren. Elektronische Geräte werden bequem als Sprachschnittstellen verwendet, um Spracheingaben von Benutzern zu empfangen und sprachaktivierte Funktionen zu initiieren, und dadurch Eyes-free- und Hands-free-Lösungen anzubieten, um vorhandene und aufkommende Technologie anzugehen. Insbesondere können an dem elektronischen Gerät empfangene Spracheingaben Anweisungen und Informationen beinhalten, selbst wenn die Sichtlinie eines Benutzers behindert ist, und seine Hände voll sind. Um eine Hands-free- und Eyes-free-Erfahrung zu ermöglichen, hört das sprachaktivierte elektronische Gerät die Umgebung (d. h. verarbeitet konstant von der Umgebung gesammelte Audiosignale) konstant oder nur bei Auslösung ab. Andererseits sind Benutzeridentitäten mit der Stimme eines Benutzers und einer von dem Benutzer verwendeten Sprache verknüpft. Um Benutzeridentitäten zu schützen, werden diese sprachaktivierten elektronischen Geräte normalerweise an nichtöffentlichen Plätzen verwendet, die geschützte, kontrollierte und private Räume sind (z. B. Wohnung und Auto).
  • Gemäß einigen Implementierungen bestimmt oder weist ein sprachaktiviertes elektronisches Gerät ein Zielgerät einer Anfrage zu, die in einem Sprachbefehl erfolgte, wenn eine Angabe eines Zielgeräts in dem Sprachbefehl fehlt oder zweideutig ist. Das sprachaktivierte elektronische Gerät richtet Fokussitzungen in Bezug auf ein Zielgerät ein, das in einem Sprachbefehl ausdrücklich spezifiziert oder angegeben ist. Wenn das sprachaktivierte elektronische Gerät einen nachfolgenden Sprachbefehl empfängt, in dem eine Spezifikation oder Angabe eines Zielgeräts fehlt oder zweideutig ist, weist das elektronische Gerät das Zielgerät der Fokussitzung dem Sprachbefehl zu, wenn der Sprachbefehl ein oder mehrere Kriterien erfüllt.
  • In einigen Implementierungen, wenn der Benutzer zu einem Sprachschnittstellengerät sagt, ein anderes Gerät zu steuern, dann speichert das Sprachschnittstellengerät, auf welches Gerät von dem Benutzer abgezielt wurde (z. B. in einer Fokussitzung). Für einen Zeitraum danach ist das Standardzielgerät zum Steuern das gespeicherte Gerät. Wenn beispielsweise der Benutzer einen Sprachbefehl „schalte das Küchenlicht ein“ äußert, und dann „schalte das Licht aus“ äußert, dann hat das Zielgerät für den zweiten Sprachbefehl die Standardeinstellung „Küchenlicht“, wenn der zweite Befehl kurz nach dem ersten Befehl empfangen wird. Als ein anderes Beispiel, wenn der erste Befehl „spiele Musik über die Wohnzimmerlautsprecher ab“ ist, und der nachfolgende Befehl „halte die Musik an“ ist, dann hat das Zielgerät für den zweiten Sprachbefehl die Standardeinstellung „Wohnzimmerlautsprecher“, wenn der zweite Befehl kurz nach dem ersten Befehl empfangen wird.
  • Außerdem kann der Benutzer in einigen Implementierungen aufgefordert werden, zu bestätigen oder zu verifizieren, dass das zuletzt verwendete Zielgerät das beabsichtigte Zielgerät ist, wenn ein längerer Zeitzwischenraum zwischen Spracheingaben vorhanden ist. Wenn beispielsweise der erste Sprachbefehl „spiele Musik auf den Wohnzimmerlautsprechern ab“ ist, und der nachfolgende Befehl nach einem längeren Zeitzwischenraum von dem ersten Sprachbefehl „halte die Musik an“ ist, dann kann das Sprachschnittstellengerät den Benutzer fragen „möchten Sie die Musik auf den Wohnzimmerlautsprechern stoppen?“ um zu bestätigen, dass das Zielgerät „Wohnzimmerlautsprecher“ ist.
  • Auf diese Weise kann dem Benutzer die Mühe erspart werden, den vollständigen Kontext dieser Anfrage bei jeder Spracheingabe spezifizieren zu müssen (z. B. kann es ihm erspart werden, eine Spezifikation eines Zielgeräts bei jeder Spracheingabe beinhalten zu müssen, die die Ausführung eines Vorgangs anfragt).
  • Sprachunterstützungs-Betriebsumgebung
  • 1 ist eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen. Betriebsumgebung 100 beinhaltet ein oder mehrere sprachaktivierte elektronische Geräte 104 (z. B. sprachaktivierte Geräte 104-1 bis einschließlich 104-N, nachfolgend „sprachaktivierte(s) Gerät(e)“). Das eine oder die mehreren sprachaktivierten Geräte 104 können an einem oder mehreren Standorten (z. B. alle in einem Zimmer oder Raum einer Struktur, über mehrere Räume innerhalb einer Struktur oder über mehrere Strukturen verteilt sein (z. B. eine in einem Haus und eine in dem Auto des Benutzers)).
  • Die Umgebung 100 beinhaltet auch ein oder mehrere steuerbare elektronische Geräte 106 (z. B. elektronische Geräte 106-1 bis einschließlich 106-N, nachfolgend „steuerbare(s) Gerät(e)“). Beispiele von steuerbaren Geräten 106 beinhalten Mediengeräte (intelligente Fernseher, Lautsprechersysteme, drahtlose Lautsprecher, Set-Top-Boxen, Medien-Streaming-Geräte, Casting-Geräte) und Smart Home-Geräte (z. B. intelligente Kamera, intelligentes Thermostat, intelligentes Licht, intelligenter Gefahrendetektor, intelligentes Türschloss).
  • Die sprachaktivierten Geräte 104 und die steuerbaren Geräte 106 sind durch Kommunikationsnetzwerke 110 kommunikativ mit einem Sprachunterstützungsdienst 140 verbunden (z. B. mit einem Sprachunterstützungsserversystem 112 des Sprachunterstützungsdienstes 140). In einigen Implementierungen sind ein oder mehrere der sprachaktivierten Geräte 104 und der steuerbaren Geräte 106 kommunikativ mit einem lokalen Netzwerk 108 verbunden, das kommunikativ mit den Kommunikationsnetzwerken 110 verbunden ist; das/die sprachaktivierte(n) Gerät(e) 104 und/oder die steuerbare(n) Gerät(e) 106 sind kommunikativ mit Kommunikationsnetzwerk(en) 110 (und durch das Kommunikationsnetzwerk 110 mit dem Sprachunterstützungsserversystem 112) über das lokale Netzwerk 108 verbunden. In einigen Implementierungen ist das lokale Netzwerk 108 ein lokales Netzwerk, das an einer Netzwerkschnittstelle (z. B. ein Router) implementiert ist. Die sprachaktivierten Geräte 104 und die steuerbaren Geräte 106, die kommunikativ mit dem lokalen Netzwerk 108 verbunden sind, können auch miteinander durch das lokale Netzwerk 108 kommunizieren.
  • Optional werden ein oder mehrere der sprachaktivierten Geräte 104 kommunikativ mit den Kommunikationsnetzwerken 110 verbunden, und befinden sich nicht in dem lokalen Netzwerk 108. Beispielsweise sind diese sprachaktivierten Geräte nicht in dem WLAN-Netzwerk, das dem lokalen Netzwerk 108 entspricht, aber sind mit den Kommunikationsnetzwerken 110 durch eine Mobilfunkverbindung verbunden. In einigen Implementierungen wird Kommunikation zwischen sprachaktivierten Geräten 104, die sich in dem lokalen Netzwerk 108 befinden, und sprachaktivierten Geräten 104, die sich nicht in dem lokalen Netzwerk 108 befinden, durch das Sprachunterstützungsserversystem 112 durchgeführt. Die sprachaktivierten Geräte 104 (ob in dem lokalen Netzwerk 108 oder in dem Netzwerk 110) werden in einer Geräteregistrierung 118 des Sprachunterstützungsdienstes 140 registriert, das somit dem Sprachunterstützungsserversystem 112 bekannt ist. Auf ähnliche Weise können die sprachaktivierten Geräte 104, die nicht in dem lokalen Netzwerk 108 sind, mit steuerbaren Geräten 106 durch das Sprachunterstützungsserversystem 112 kommunizieren. Die steuerbaren Geräte 106 (ob sie in dem lokalen Netzwerk 108 oder in dem Netzwerk 110 sind), werden auch in der Geräteregistrierung 118 registriert. In einigen Implementierungen gehen Kommunikationen zwischen den sprachaktivierten Geräten 104 und den steuerbaren Geräten 106 durch das Sprachunterstützungsserversystem 112.
  • In einigen Implementierungen beinhaltet die Umgebung 100 auch einen oder mehrere Hosts 114. Ein Inhalts-Host 114 kann eine Remoteinhaltsquelle sein, von der Inhalt gestreamt oder ansonsten gemäß einer Anfrage erhalten wird, die in einer Benutzerspracheingabe oder einem -befehl beinhaltet ist. Ein Inhalts-Host 114 kann eine Informationsquelle sein, von der das Sprachunterstützungsserversystem 112 Informationen gemäß einer Benutzersprachanfrage abruft.
  • In einigen Implementierungen sind steuerbare Geräte 106 in der Lage, Befehle oder Anfragen zu empfangen, um spezifizierte Vorgänge auszuführen oder um in spezifizierte Status überzugehen (z. B. von einem sprachaktivierten Gerät 104 und/oder dem Sprachunterstützungsserversystem 112), und die Vorgänge oder Übergangsstatus gemäß den empfangenen Befehlen oder Anfragen auszuführen.
  • In einigen Implementierungen sind ein oder mehrere der steuerbaren Geräte 106 Mediengeräte, die in der Betriebsumgebung 100 angeordnet sind, um für einen oder mehrere Benutzer Medieninhalt, Nachrichten und/oder andere Informationen bereitzustellen. In einigen Implementierungen wird der von den Mediengeräten bereitgestellte Inhalt in einer lokalen Inhaltsquelle gespeichert, von einer Remoteinhaltsquelle gestreamt (z. B. Inhalts-Host(s) 114), oder lokal generiert (z. B. durch einen lokalen Text-zu-Sprache-Prozessor, der ein benutzerdefiniertes News Briefing, E-Mails, Texte, einen lokalen Wetterbericht usw. einem oder mehreren Insassen einer Betriebsumgebung 100 vorliest). In einigen Implementierungen beinhalten die Mediengeräte Medienausgabegeräte, die den Medieninhalt direkt an eine Zuhörergruppe (z. B. ein oder mehrere Benutzer) ausgeben, und Casting-Geräte, die im Netzwerk eingebunden sind, um Medieninhalt an die Medienausgabegeräte zu streamen. Beispiele von Medienausgabegeräten beinhalten, sind aber nicht beschränkt auf Fernseh- (TV) Anzeigegeräte und Musik-Player. Beispiele für die Casting-Geräte beinhalten, sind aber nicht beschränkt auf Set-Top-Boxen (STBs), DVD-Player, TV-Boxen und Medien-Streaming-Geräte wie das Google Chromecast™ Medien-Streaming-Gerät.
  • In einigen Implementierungen ist ein steuerbares Gerät 106 auch ein sprachaktiviertes Gerät 104. In einigen Implementierungen ist ein sprachaktiviertes Gerät 104 auch ein steuerbares Gerät 106. Beispielsweise kann ein steuerbares Gerät 106 eine Sprachschnittstelle zu einem Sprachunterstützungsdienst 140 beinhalten (z. B. ein Mediengerät, das auch Benutzerspracheingaben empfangen, verarbeiten und darauf antworten kann). Als anderes Beispiel kann ein sprachaktiviertes Gerät 104 auch bestimmte Vorgänge ausführen und zu bestimmten Status gemäß Anfragen oder Befehlen in Spracheingaben übergehen (z. B. ein Sprachschnittstellengerät, das auch Streaming-Musik abspielen kann).
  • In einigen Implementierungen werden die sprachaktivierten Geräte 104 und die steuerbaren Geräte 106 einem Benutzer zugeordnet, der ein jeweiliges Konto besitzt, oder mehreren Benutzern (z. B. einer Gruppe von verwandten Benutzern, z. B. Benutzer in einer Familie oder in einer Organisation; allgemeiner, ein primärer Benutzer und ein oder mehrere autorisierte zusätzliche Benutzer), die jeweilige Benutzerkonten aufweisen, in einer Benutzerdomäne. Ein Benutzer kann Spracheingaben oder Sprachbefehle an das sprachaktivierte Gerät 104 geben. Das sprachaktivierte Gerät 104 empfängt diese Spracheingaben von dem Benutzer (z. B. Benutzer 102), und das sprachaktivierte Gerät 104 und/oder das Sprachunterstützungsserversystem 112 fährt fort, eine Anfrage in der Spracheingabe zu bestimmen und eine Antwort auf die Anfrage zu generieren.
  • In einigen Implementierungen ist die in einer Spracheingabe beinhaltete Anfrage ein Befehl oder eine Anfrage an ein steuerbares Gerät 106, einen Vorgang auszuführen (z. B. Medien abspielen, Medien anhalten, Medien schnell vorwärts oder rückwärts zu spulen, Lautstärke ändern, Bildschirmhelligkeit ändern, Lichthelligkeit ändern) oder in einen anderen Status überzugehen (z. B. den Betriebsmodus ändern, ein- oder ausschalten, in den Energiesparmodus gehen oder vom Energiesparmodus erwachen).
  • In einigen Implementierungen reagiert ein sprachaktiviertes elektronisches Gerät 104 auf Spracheingaben durch: Generieren und Bereitstellen einer gesprochenen Antwort auf einen Sprachbefehl (z. B. Sprechen der aktuellen Zeit als Antwort auf die Frage „wieviel spät ist es?“); Streamen von durch einen Benutzer angefragtem Medieninhalt (z. B. „Abspielen eines Lieds von den Beach Boys“); Lesen einer Nachrichtenmeldung oder von Briefings von Tagesmeldungen, die für den Benutzer vorbereitet sind; Abspielen eines auf dem Persönlichen Assistenten-Gerät oder auf dem lokalen Netzwerk gespeicherten Medienelements; Ändern eines Status oder Betätigen von einem oder mehreren anderen verbundenen Geräten innerhalb der Betriebsumgebung 100 (z. B. Ein-/Ausschalten von Lichtern, Haushaltsgeräten oder Mediengeräten, Abschließen/Aufschließen eines Schlosses, Öffnen von Fenstern usw.); oder Ausgeben einer entsprechenden Anfrage an einen Server über ein Netzwerk 110.
  • In einigen Implementierungen sind das eine oder die mehreren sprachaktivierten Geräte 104 in der Betriebsumgebung 100 angeordnet, um Audioeingaben zum Initiieren unterschiedlicher Funktionen (z. B. Medienwiedergabefunktionen der Mediengeräte) zu sammeln. In einigen Implementierungen sind diese sprachaktivierten Geräte 104 (z. B. Geräte 104-1 bis einschließlich 104-N) in der Nähe eines steuerbaren Geräts 104 (z. B. Mediengerät), z. B. in demselben Raum mit den Casting-Geräten und den Medienausgabegeräten, angeordnet. Alternativ ist in einigen Implementierungen ein sprachaktiviertes Gerät 104 in einer Struktur angeordnet, die ein oder mehrere Smart Home-Geräte, aber kein Mediengerät aufweist. Alternativ ist in einigen Implementierungen ein sprachaktiviertes Gerät 104 in einer Struktur angeordnet, die ein oder mehrere Smart Home-Geräte, und ein oder mehrere Mediengeräte aufweist. Alternativ ist in einigen Implementierungen ein sprachaktiviertes Gerät 104 an einem Standort angeordnet, der kein vernetztes elektronisches Gerät aufweist. Weiterhin kann in einigen Implementierungen ein Zimmer oder Raum in der Struktur mehrere sprachaktivierte Geräte 104 aufweisen.
  • In einigen Implementierungen beinhaltet das sprachaktivierte Gerät 104 mindestens ein oder mehrere Mikrofone, einen Lautsprecher, einen Prozessor und einen Speicher, der mindestens ein Programm zum Ausführen durch den Prozessor speichert. Der Lautsprecher ist konfiguriert, um zu erlauben, dass das sprachaktivierte Gerät 104 Sprachnachrichten und anderes Audio (z. B. hörbare Töne) an einen Standort liefert, an dem das sprachaktivierte Gerät 104 in der Betriebsumgebung 100 positioniert ist, wodurch Musik gesendet wird, ein Status von Audioeingabeverarbeitung berichtet wird, eine Unterhaltung mit einem Benutzer des sprachaktivierten Geräts 104 geführt, oder ihm Anweisungen gegeben werden. Als eine Alternative zu den Sprachnachrichten könnten auch optische Signale verwendet werden, um dem Benutzer eine Rückmeldung des sprachaktivierten Geräts 104 in Bezug auf den Status von Audioeingabeverarbeitung zu geben. Wenn das sprachaktivierte Gerät 104 ein mobiles Gerät ist (z. B. ein Mobiltelefon oder ein Tablet-Computer), dann ist sein Anzeigebildschirm konfiguriert, um eine Mitteilung über den Status von Audioeingabeverarbeitung anzuzeigen.
  • In einigen Implementierungen ist das sprachaktivierte Gerät 104 ein Sprachschnittstellengerät, das netzwerkverbunden ist, um Spracherkennungsfunktionen mithilfe eines Sprachunterstützungsserversystems 112 bereitzustellen. Beispielsweise beinhaltet das sprachaktivierte Gerät 104 einen intelligenten Lautsprecher, der dem Benutzer Musik bereitstellt und Eyes-free- und Hands-free-Zugriff auf einen Sprachunterstützungsdienst (z. B. Google-Assistent) bereitstellt. Optional ist das sprachaktivierte Gerät 104 einer von einem Desktop- oder Laptop-Computer, einem Tablet, einem Mobiltelefon, das ein Mikrofon beinhaltet, einem Casting-Gerät, das ein Mikrofon und optional einen Lautsprecher beinhaltet, einem Audiosystem (z. B. eine Stereoanlage, ein Lautsprechersystem, ein tragbarer Lautsprecher), der ein Mikrofon und einen Lautsprecher beinhaltet, einen Fernseher, das ein Mikrofon und einen Lautsprecher beinhaltet, und ein Benutzerschnittstellensystem in einem Automobil, das ein Mikrofon und einen Lautsprecher und optional eine Anzeige beinhaltet. Optional ist das sprachaktivierte Gerät 104 ein einfaches und kostengünstiges Sprachschnittstellengerät. Im Allgemeinen kann das sprachaktivierte Gerät 104 jedes beliebige Gerät sein, das zu einer Netzwerkverbindung in der Lage ist, und das ein Mikrofon, einen Lautsprecher und Programme, Module und Daten zum Interagieren mit einem Sprachunterstützungsdienst beinhaltet. Angesichts der Einfachheit und niedrigen Kosten des sprachaktivierten Geräts 104 beinhaltet das sprachaktivierte Gerät 104 anstelle eines Vollbildschirms eine Anordnung von Leuchtdioden (LEDs) und zeigt ein visuelles Muster auf den LEDs an, um den Status von Audioeingabeverarbeitung anzugeben. In einigen Implementierungen sind die LEDs vollfarbige LEDs und die Farben der LEDs können als ein Teil des visuellen Musters verwendet werden, das auf den LEDs anzuzeigen ist. Mehrere Beispiele der Verwendung von LEDs zum Anzeigen von visuellen Mustern, um Informationen oder Gerätestatus zu vermitteln, sind in der vorläufigen U.S.-Patentanmeldung Nr. 62/336.566 mit dem Titel „LED Design Language for Visual Affordance of Voice User Interfaces“ (LED-Konstruktionssprache für visuelle Affordance von Sprachbenutzerschnittstellen), eingereicht am 13. Mai 2016, die in ihrer Gesamtheit durch Bezugnahme aufgenommen ist. In einigen Implementierungen werden visuelle Muster, die den Status von Sprachverarbeitungsvorgängen angeben, unter Verwendung von charakteristischen Bildern angezeigt, die auf herkömmlichen Anzeigen angezeigt werden, die mit sprachaktivierten Geräten verbunden sind, die die Sprachverarbeitungsvorgänge ausführen.
  • In einigen Implementierungen werden LEDs oder andere visuelle Anzeigen verwendet, um einen kollektiven Sprachverarbeitungsstatus von mehreren teilnehmenden elektronischen Geräten zu vermitteln. Beispielsweise können in einer Betriebsumgebung, in der sich mehrere Sprachverarbeitungs- oder Sprachschnittstellengeräte befinden (z. B. mehrere elektronische Geräte 400, wie in 4A der ‘566er-Anmeldung dargestellt; mehrere sprachaktivierte Geräte 104), Gruppen von Farb-LEDs (z. B. LEDs 404, wie in 4A der ‘566er-Anmeldung dargestellt), die jeweiligen elektronischen Geräten zugeordnet sind, verwendet werden, um zu übermitteln, welches der elektronischen Geräte einem Benutzer zuhört, und welches der zuhörenden Geräte der Leiter ist (wobei das „Leiter“-Gerät im Allgemeinen die Führung beim Antworten auf eine gesprochene Anfrage übernimmt, die durch den Benutzer ausgegeben wurde).
  • Allgemeiner ausgedrückt beschreibt die ‘566er-Anmeldung (z. B. siehe Absätze [0087]-[0100]) eine „LED-Konstruktionssprache“, um visuell das Verwenden einer Sammlung von LEDs einer Vielfalt von Sprachverarbeitungsstatus eines elektronischen Geräts, wie z. B. ein „Hotword-Erkennungsstatus und Zuhörstatus“, ein „Denkmodus oder Arbeitsmodus“ und ein „Antwortmodus oder Sprechmodus“, anzugeben. In einigen Implementierungen werden hierin beschriebene einzigartige Status von Sprachverarbeitungsvorgängen unter Verwendung einer Gruppe von LEDs gemäß einem oder mehreren Aspekten der „LED-Konstruktionssprache“ der ‘566er-Anmeldung dargestellt. Die visuellen Indikatoren können auch mit einem oder mehreren hörbaren Indikatoren kombiniert werden, die durch elektronische Geräte generiert werden, die Sprachverarbeitungsvorgänge ausführen. Die resultierenden Audio- und/oder visuellen Indikatoren werden Benutzern in einer sprachinteraktiven Umgebung ermöglichen, den Status von unterschiedlichen elektronischen Sprachverarbeitungsgeräten in der Umgebung zu verstehen und mit diesen Geräten auf natürliche intuitive Art zu interagieren.
  • In einigen Implementierungen beinhalten die Sprachverarbeitungsstatus, die visuell durch eine Sammlung von LEDs (z. B. LEDs 404, wie in 4A der ‘566er-Anmeldung angegeben) unter Verwendung der LED-Konstruktionssprachenelemente angegeben werden, die in der ‘566er-Anmeldung angegeben sind, den Status von einer oder mehreren Fokussitzungen, Identitäten von einem oder mehreren Benutzern, die einer oder mehreren bestimmten Fokussitzungen zugeordnet sind, und/oder die Zeitdauer von einer oder mehreren aktiven Fokussitzungen. Beispielsweise können ähnlich Implementierungen und visuellen LED-Effekten, die unter Bezugnahme auf 4F, 4G und 4H der ‘566er-Anmeldung beschrieben sind, unterschiedliche Lichtmuster, Farbkombinationen und/oder spezifische Bewegung einer Sammlung von LEDs verwendet werden, um anzugeben, dass eine Fokussitzung aktiv ist, aufgrund von Erkennung einer zweiten Spracheingabe erweitert wurde, und/oder weil sie kürzlich aufgrund von Mangel von Benutzersprachinteraktion mit dem elektronischen Gerät 104 ablief. Eine oder mehrere Identitäten von einem oder mehreren Benutzern, die bestimmten Fokussitzungen zugeordnet sind, können auch mit unterschiedlichen Lichtmustern, Farbkombinationen und/oder spezifischer Bewegung einer Sammlung von LEDs angegeben werden, die bestimmte Benutzer visuell identifizieren.
  • In einigen Implementierungen, wenn Spracheingaben in das sprachaktivierte Gerät 104 verwendet werden, um die Medienausgabegeräte über die Casting-Geräte zu steuern, ermöglicht das sprachaktivierte Gerät 104 effektiv ein neues Niveau von Steuerung von Castingaktivierten Mediengeräten. In einem spezifischen Beispiel beinhaltet das sprachaktivierte Gerät 104 einen Freizeitlautsprecher mit Fernfeldsprachzugang und Funktionen wie ein Sprachschnittstellengerät für den Sprachunterstützungsdienst. Das sprachaktivierte Gerät 104 könnte in jedem beliebigen Bereich in der Betriebsumgebung 100 angeordnet werden. Wenn mehrere sprachaktivierte Geräte 104 in mehreren Zimmern verteilt sind, werden sie Casting-Audioempfänger, die synchronisiert werden, um Spracheingaben von diesem Zimmern zu empfangen.
  • Insbesondere beinhaltet das sprachaktivierte Gerät 104 in einigen Implementierungen einen WLAN-Lautsprecher mit einem Mikrofon, das mit einem sprachaktivierten Sprachunterstützungsdienst verbunden ist (z. B. Google-Assistent). Ein Benutzer kann eine Medienwiedergabeanfrage über das Mikrofon des sprachaktivierten Geräts 104 ausgeben und den Sprachunterstützungsdienst bitten, den Medieninhalt auf dem sprachaktivierten Gerät 104 selbst oder auf einem anderen verbundenen Medienausgabegerät auszugeben. Beispielsweise kann der Benutzer eine Medienwiedergabeanfrage ausgeben, indem er zu dem Lautsprecher sagt „OK Google, spiele Katzenvideos auf meinem Wohnzimmerfernseher ab.“ Der Sprachunterstützungsdienst erfüllt dann die Medienwiedergabeanfrage durch Wiedergeben des angefragten Medieninhalts auf dem angefragten Gerät unter Verwendung einer Standard- oder bezeichneten Medienanwendung.
  • In einigen Implementierungen kann der Benutzer eine Sprachanfrage über das Mikrofon des sprachaktivierten Geräts 104 in Bezug auf Medieninhalt ausgeben, der bereits abgespielt wurde oder der auf einem Anzeigegerät abgespielt wird (z. B. kann der Benutzer um Informationen über den Medieninhalt bitten, den Medieninhalt durch einen Onlineshop kaufen, oder einen Social Media-Beitrag über den Medieninhalt verfassen und ausgeben).
  • In einigen Implementierungen möchte ein Benutzer möglicherweise eine aktuelle Mediensitzung mit ihnen vornehmen, durch das Haus zu gehen, und kann solch einen Dienst von einem oder mehreren der sprachaktivierten Geräte 104 anfragen. Dies erfordert, dass der Sprachunterstützungsdienst 140 die aktuelle Mediensitzung von einem ersten Casting-Gerät zu einem zweiten Casting-Gerät überträgt, das nicht direkt mit dem ersten Casting-Gerät verbunden ist, oder keine Kenntnis über das Vorhandensein des ersten Casting-Geräts hat. Nach der Medieninhaltsübertragung fährt ein mit dem zweiten Casting-Gerät verbundenes zweites Ausgabegerät damit fort, den Medieninhalt, der zuvor ein erstes Gerät, das mit dem ersten Casting-Gerät verbunden ist, von dem genauen Punkt innerhalb eines Musik-Titels oder eines Video-Clips abzuspielen, wo auf das Abspielen auf dem ersten Ausgabegerät verzichtet wurde. In einigen Implementierungen kann das sprachaktivierte Gerät 104, das die Anfrage zum Übertragen der Mediensitzung empfängt, die Anfrage erfüllen. In einigen Implementierungen leitet das sprachaktivierte Gerät 104, das die Anfrage zum Übertragen der Mediensitzung empfängt, die Anfrage an ein anderes Gerät oder System (z. B. Sprachunterstützungsserversystem 112) zur Handhabung weiter.
  • Weiterhin kann ein Benutzer in einigen Implementierungen über das Mikrofon des sprachaktivierten Geräts 104 eine Anfrage nach Informationen oder nach Leistung einer Aktion oder eines Vorgangs ausgeben. Die angeforderten Informationen können persönlich (z. B. E-Mails des Benutzers, Kalenderereignisse des Benutzers, Fluginformationen des Benutzers usw.), nicht persönlich (z. B. Sportergebnisse, Nachrichtengeschichten usw.) oder irgendwo dazwischen (z. B. Punkte für vom Benutzer bevorzugte Teams oder Sportarten, Nachrichten aus den bevorzugten Quellen des Benutzers usw.) sein. Die angefragten Informationen oder die Aktion/der Vorgang können Zugang zu persönlichen Informationen beinhalten (z. B. Kaufen eines digitalen Medienelements mit durch den Benutzer bereitgestellten Zahlungsinformationen, Kaufen einer physischen Ware). Das sprachaktivierte Gerät 104 antwortet auf die Anfrage mit Sprachnachrichtenantworten an den Benutzer, wobei die Antwort beispielsweise Anfragen nach zusätzlichen Informationen beinhalten kann, um die Anfrage zu erfüllen, Bestätigung, dass die Anfrage erfüllt wurde, eine Notiz, dass die Anfrage nicht erfüllt werden kann, usw.
  • In einigen Implementierungen kann die Betriebsumgebung 100 zusätzlich zu den sprachaktivierten Geräten 104 und den Mediengeräten unter den steuerbaren Geräten 106 auch eines oder mehrere Smart Home-Geräte unter den steuerbaren Geräten 106 beinhalten. Die integrierten Smart Home-Geräte beinhalten intelligente multisensorische netzwerkverbundene Geräte, die sich nahtlos miteinander in einem Smart Home-Netzwerk und/oder mit einem zentralen Server oder einem Cloud-Computersystem integrieren, um eine Vielfalt von nützlichen Smart Home-Funktionen bereitzustellen. In einigen Implementierungen ist ein Smart Home-Gerät an demselben Standort der Betriebsumgebung 100 als ein Casting-Gerät und/oder ein Ausgabegerät angeordnet, und ist daher in der Nähe zu oder mit einem bekannten Abstand zu dem Casting-Gerät und dem Ausgabegerät angeordnet.
  • Die Smart-Home-Geräte in der Betriebsumgebung 100 können einen oder mehrere intelligente, multisensorische netzwerkverbundene Thermostate, einen oder mehrere intelligente, netzwerkverbundene multisensorische Gefahrenmelder, einen oder mehrere intelligente multisensorische netzwerkverbundene Eingangsschnittstellengeräte und (nachfolgend als „intelligente Türklingeln“ und „intelligente Türschlösser“ bezeichnet), ein oder mehrere intelligente multisensorische netzwerkverbundene Alarmsysteme, ein oder mehrere intelligente multisensorische netzwerkverbundene Kamerasysteme, einen oder mehrere intelligente multisensorische netzwerkverbundene Wandschalter, eine oder mehrere intelligente multisensorische netzwerkverbundene Steckdosen und eine oder mehrere intelligente, multisensorische netzwerkverbundene Leuchten beinhalten. In einigen Implementierungen beinhalten die Smart Home-Geräte in der Betriebsumgebung 100 von 1 eine Vielzahl von intelligenten multisensorischen netzwerkverbundenen Geräten (nachfolgend als „intelligente Geräte“ bezeichnet), wie Kühlschränke, Herde, Öfen, Fernseher, Waschmaschinen, Trockner, Lampen, Stereoanlagen, Gegensprechanlagen, Garagentoröffher, Bodenventilatoren, Deckenventilatoren, Wandklimaanlagen, Poolheizungen, Bewässerungssysteme, Sicherheitssysteme, Raumheizungen, Fenster-Klimaanlageneinheiten, motorisierte Kanalentlüftungen usw. In einigen Implementierungen kann jede beliebige dieser Smart Home-Gerätearten mit Mikrofonen und einer oder mehreren Sprachverarbeitungsfunktionen ausgerüstet werden, wie hierin beschrieben, um ganz oder teilweise auf Sprachanfragen von einem Insassen oder Benutzer zu antworten.
  • In einigen Implementierungen ist jedes von den steuerbaren Geräten 104 und den sprachaktivierten Geräten 104 für Datenkommunikationen und Informationsteilung mit anderen steuerbaren Geräten 106, sprachaktivierten elektronischen Geräten 104, einem zentralen Server- oder Cloud-Computersystem und/oder anderen Geräten (z. B. Client-Gerät) in der Lage, die netzwerkverbunden sind. Datenkommunikationen können unter Verwendung einer Vielzahl von kundenspezifischen oder standardmäßigen drahtlosen Protokollen (z. B. IEEE 802.15.4, WLAN-, ZigBee, 6LoWPAN, Thread, Z-Wave, Bluetooth Smart, ISA100.11a, WirelessHART, MiWi usw.) und/oder einer Vielzahl von kundenspezifischen oder standardverdrahteten Protokollen (z. B. Ethernet, HomePlug usw.) oder einem anderen geeigneten Kommunikationsprotokoll ausgeführt werden, einschließlich Kommunikationsprotokollen, die zum Zeitpunkt der Einreichung dieses Dokuments noch nicht entwickelt waren.
  • Durch die Kommunikationsnetzwerke (z. B. das Internet) 110 können die steuerbaren Geräte 106 und die sprachaktivierten Geräte 104 mit einem Serversystem (hierin auch als ein zentrales Serversystem und/oder ein Cloud-Computersystem bezeichnet) kommunizieren. Optional kann das Serversystem mit einem Hersteller, einer Support-Einheit oder einem Dienstanbieter verbunden sein, die den steuerbaren Geräten und dem Medieninhalt, der dem Benutzer angezeigt wird, zugeordnet sind. Dementsprechend beinhaltet das Serversystem den Sprachunterstützungsserver 112, der von den sprachaktivierten Geräten 104 gesammelte Audioeingaben verarbeitet, einen oder mehrere Inhalts-Hosts 114, die den angezeigten Medieninhalt bereitstellen, optional einen Cloud-Casting-Dienstserver, der eine virtuelle Benutzerdomäne basierend auf verteilten Geräteterminals erzeugt, und die Geräteregistrierung 118, die eine Aufzeichnung der verteilten Geräteterminals in der virtuellen Benutzerumgebung führt. Beispiele der Geräteterminals beinhalten, sind aber nicht beschränkt auf die steuerbaren Geräte 106, die sprachaktivierten Geräte 104 und die Medienausgabegeräte. In einigen Implementierungen sind diese verteilten Geräteterminals mit einem Benutzerkonto (z. B. einem Google-Benutzerkonto) in der virtuellen Benutzerdomäne verknüpft. Es versteht sich, dass Verarbeiten der durch sprachaktivierte Geräte 104 gesammelten Audioeingaben einschließlich der Generierung von Antworten auf diese Eingaben lokal auf einem sprachaktivierten Gerät 104, auf einem Sprachunterstützungsserver 112, auf einem anderen Smart Home-Gerät (z. B. einem Hub-Gerät oder einem steuerbaren Gerät 106) oder auf einer Kombination von allem oder einer Untergruppe des oben Genannten ausgeführt werden können.
  • Es versteht sich, dass in einigen Implementierungen das/die sprachaktivierte(n) Gerät(e) 104 auch in einer Umgebung ohne Smart Home-Geräte funktionieren. Beispielsweise kann ein sprachaktiviertes Gerät 104 selbst bei Nichtvorhandensein von Smart Home-Geräten auf Benutzeranfragen nach Informationen oder Ausführung einer Aktion reagieren und/oder verschiedene Medienwiedergabefunktionen initiieren oder steuern. Eine sprachaktivierte Vorrichtung 104 kann auch in einem weiten Bereich von Umgebungen funktionieren, einschließlich ohne Einschränkung eines Fahrzeugs, eines Schiffs, eines Geschäfts oder einer Herstellungsumgebung.
  • In einigen Implementierungen wird ein sprachaktiviertes Gerät 104 „geweckt“ (z. B. um eine Schnittstelle für den Sprachunterstützungsdienst an dem sprachaktivierten Gerät 104 zu aktivieren, um das sprachaktivierte Gerät 104 in einen Zustand zu versetzen, in dem das sprachaktivierte Gerät 104 zum Empfangen von Sprachanfragen an den Sprachunterstützungsdienst) durch eine Spracheingabe bereit ist, die ein Hotword (auch „Weckwort“ genannt) beinhaltet. In einigen Implementierungen erfordert das sprachaktivierte Gerät 104 das Aktivieren, wenn das sprachaktivierte Gerät 104 in Bezug auf den Empfang von Spracheingaben für mindestens einen vordefinierten Zeitbetrag im Leerlauf war (z. B. 5 Minuten); der vordefinierte Zeitbetrag einem Leerlaufzeitbetrag entspricht, der erlaubt ist, bevor ein Timeout einer Sprachschnittstellensitzung oder einer Konversation erfolgt. Das Hotword kann ein Wort oder eine Phrase sein, und kann ein vordefinierter Standard sein, und/oder kann durch einen Benutzer angepasst werden (z. B. kann ein Benutzer einen Spitznamen für ein bestimmtes sprachaktiviertes Gerät 104 als das Hotword des Geräts setzen). In einigen Implementierungen kann es mehrere Hotwords geben, die ein sprachaktiviertes Gerät 104 aktivieren können. Ein Benutzer kann das Hotword sprechen, auf eine Bestätigungsantwort von dem sprachaktivierten Gerät 104 warten (z. B. das sprachaktivierte Gerät 104 gibt einen Gruß aus), und dann eine erste Sprachanfrage stellen. Alternativ kann der Benutzer das Hotword und die erste Sprachanfrage in einer Spracheingabe kombinieren (z. B. die Spracheingabe beinhaltet das Hotword, gefolgt von der Sprachanfrage).
  • In einigen Implementierungen interagiert ein sprachaktiviertes Gerät 104 mit einem steuerbaren Gerät 106 (z. B. einem Mediengerät, einem Smart Home-Gerät), einem Client-Gerät oder einem Serversystem einer Betriebsumgebung 100 gemäß einigen Implementierungen. Das sprachaktivierte Gerät 104 ist konfiguriert, um Audioeingaben von einer Umgebung in der Nähe des sprachaktivierten Geräts 104 zu empfangen. Optional speichert das sprachaktivierte Gerät 104 die Audioeingaben und verarbeitet die Audioeingaben mindestens teilweise lokal. Optional überträgt das sprachaktivierte Gerät 104 die empfangenen Audioeingaben oder die teilweise verarbeiteten Audioeingaben zur weiteren Verarbeitung zu einem Sprachunterstützungsserversystem 112 über die Kommunikationsnetzwerke 110. Das sprachaktivierte Gerät 104 oder das Sprachunterstützungsserversystem 112 bestimmt, wenn es eine Anfrage in der Audioeingabe gibt, und was die Anfrage ist, bestimmt und generiert eine Antwort auf die Anfrage und überträgt die Anfrage zu einem oder mehreren steuerbaren Gerät(en) 106. Das/die steuerbaren Gerät(e) 106, die die Antwort empfangen, sind konfiguriert, um Vorgänge auszuführen oder Status gemäß der Antwort zu ändern. Beispielsweise ist ein Mediengerät konfiguriert, um Medieninhalt oder Internetinhalt von einem oder mehreren Inhalts-Hosts 114 zum Anzeigen auf einem mit dem Mediengerät verbundenen Ausgabegerät zu empfangen, gemäß einer Antwort auf eine Anfrage in der Audioausgabe.
  • In einigen Implementierungen sind das/die steuerbare(n) Gerät(e) 106 und das/die sprachaktiviert(en) Gerät(e) 104 miteinander in einer Benutzerdomäne verbunden, und genauer ausgedrückt, einander über ein Benutzerkonto in der Benutzerdomäne zugeordnet. Informationen über das steuerbare Gerät 106 (ob in dem lokalen Netzwerk 108 oder in dem Netzwerk 110) und das sprachaktivierte Gerät 104 (ob in dem lokalen Netzwerk 108 oder in dem Netzwerk 110) sind in der Geräteregistrierung 118 in Verbindung mit dem Benutzerkonto gespeichert. In einigen Implementierungen gibt es eine Geräteregistrierung für steuerbare Geräte 106 und eine Geräteregistrierung für sprachaktivierte Geräte 104. Die Registrierung der steuerbaren Geräte kann Geräte in der Registrierung der sprachaktivierten Geräte referenzieren, die der Benutzerdomäne zugeordnet sind, und umgekehrt.
  • In einigen Implementierungen werden ein oder mehrere der sprachaktivierten Geräte 104 (und ein oder mehrere Casting-Geräte) und ein oder mehrere der steuerbaren Geräte 106 dem Sprachunterstützungsdienst 140 über ein Client-Gerät 103 übergeben. In einigen Implementierungen beinhaltet das sprachaktivierte Gerät 104 keinen Anzeigebildschirm und verlässt sich auf das Client-Gerät 103, um eine Benutzeroberfläche während eines Inbetriebnahmeprozesses bereitzustellen, und auf ähnliche Weise auch für ein steuerbares Gerät 106. Insbesondere ist das Client-Gerät 103 mit einer Anwendung installiert, die einer Benutzeroberfläche ermöglicht, die Inbetriebnahme eines neuen sprachaktivierten Geräts 104 und/oder eines in der Nähe des Client-Geräts angeordneten steuerbaren Geräts 106 zu erleichtern. Ein Benutzer kann eine Anfrage an die Benutzeroberfläche des Client-Geräts 103 senden, um einen Inbetriebnahmeprozess für das neue elektronische Gerät 104/106 zu initiieren, das in Betrieb zu nehmen ist. Nach Empfangen der Inbetriebnahmeanfrage richtet das Client-Gerät 103 eine Kurzbereichskommunikationsverbindung mit dem neuen elektronischen Gerät 104/103 ein, das in Betrieb zu nehmen ist. Optional wird die Nahbereichskommunikationsverbindung basierend auf Nahfeldkommunikation (NFC), Bluetooth, Bluetooth Low Energy (BLE) und dergleichen hergestellt. Das Client-Gerät 103 überträgt dann Drahtloskonfigurationsdaten, die einem drahtlosen lokalen Netzwerk (WLAN) (z. B. lokales Netzwerk 108) zugeordnet sind, zu dem neuen oder elektronischen Gerät 104/106. Die Drahtloskonfigurationsdaten beinhalten mindestens einen WLAN-Sicherheitscode (d. h. ein Service Set Identifier (SSID)-Passwort) und beinhaltet optional ein SSID, eine Internetprotokoll (IP)-Adresse, eine Proxy-Konfiguration und eine Gateway-Konfiguration. Nach Empfangen der Drahtloskonfigurationsdaten über die Nahbereichskommunikationsverbindung decodiert das neue elektronische Gerät 104/106 und rettet die Drahtloskonfigurationsdaten, und verbindet sich mit dem WLAN basierend auf den Drahtloskonfigurationsdaten.
  • In einigen Implementierungen werden zusätzliche Benutzerdomäneninformationen auf der Benutzeroberfläche eingegeben, die auf dem Client-Gerät 103 angezeigt wird, und verwendet wird, um das neue elektronische Gerät 104/106 mit einem Konto in einer Benutzerdomäne zu verbinden. Optional werden die zusätzlichen Benutzerdomäneninformationen zu dem neuen elektronischen Gerät 104/106 zusammen mit den Drahtloskonfigurationsdaten über die Nahbereichskommunikationsverbindung übermittelt. Optional werden die zusätzlichen Benutzerdomäneninformationen zu dem neuen elektronischen Gerät 104/106 über das WLAN übermittelt, nachdem sich das neue Gerät mit dem WLAN verbunden hat.
  • Sobald das elektronische Gerät 104/106) in der Benutzerdomäne in Betrieb genommen wurde, können andere Geräte und ihre zugeordneten Aktivitäten über mehrere Kontrollpfade kontrolliert werden. Gemäß einem Kontrollpfad wird eine auf dem Client-Gerät 103 installierte Anwendung zum Kontrollieren des anderen Geräts und seiner zugeordneten Aktivitäten (z. B. Medienabspielaktivitäten) verwendet. Alternativ wird das elektronische Gerät 104/106 gemäß dem anderen Kontrollpfad verwendet, um Eyes-free- und Hands-free-Steuerung des anderen Geräts und seiner zugeordneten Aktivitäten zu ermöglichen.
  • In einigen Implementierungen können den sprachaktivierten Geräten 104 und steuerbaren Geräten 106 Spitznamen durch einen Benutzer zugewiesen werden (z. B. durch den primären Benutzer, dem die Geräte in der Benutzerdomäne zugeordnet sind). Beispielsweise kann einem Lautsprechergerät in dem Wohnzimmer ein Spitzname „Wohnzimmerlautsprecher“ zugewiesen werden. Auf diese Weise kann der Benutzer sich in einer Spracheingabe durch Sprechen des Spitznamens des Geräts leichter auf ein Gerät beziehen. In einigen Implementierungen werden die Gerätespitznamen und Zuordnungen zu entsprechenden Geräten auf einem sprachaktivierten Gerät 104 gespeichert (das die Spitznamen ausschließlich von den Geräten speichern würde, die demselben Benutzer wie das sprachaktivierte Gerät zugeordnet sind) und/oder dem Sprachunterstützungsserversystem 112 (das Gerätespitznamen von Geräten speichern würde, die unterschiedlichen Benutzern zugeordnet sind). Beispielsweise speichert das Sprachunterstützungsserversystem 112 viele Gerätespitznamen und -zuordnungen über unterschiedliche Geräte und Benutzer, und einem bestimmten Benutzer zugeordnete sprachaktivierte Geräte 104 laden Spitznamen und Zuordnungen für dem bestimmten Benutzer zugeordnete Geräte herunter, um sie lokal zu speichern.
  • In einigen Implementierungen kann ein Benutzer ein oder mehrere der sprachaktivierten Geräte 104 und/oder steuerbaren Geräte 106 in eine durch den Benutzer erzeugte Gruppe von Geräten hinein gruppieren. Der Gruppe kann ein Name gegeben werden, und auf die Gruppe von Geräten kann Bezugnahme durch den Gruppennamen erfolgen, ähnlich wie Bezugnahme auf einzelne Geräte nach Spitzname. Ähnlich Gerätespitznamen können Gerätegruppen und Gruppennamen auf einem sprachaktivierten Gerät 104 und/oder dem Sprachunterstützungsserversystem 112 gespeichert werden.
  • Eine Spracheingabe von dem Benutzer kann ausdrücklich ein steuerbares Zielgerät 106 oder eine Zielgruppe von Geräten für die Anfrage in der Spracheingabe spezifizieren. Beispielsweise kann ein Benutzer eine Spracheingabe „spiele klassische Musik auf dem Wohnzimmerlautsprecher ab“, ausgeben. Das Zielgerät in der Spracheingabe ist „Wohnzimmerlautsprecher“, die Anfrage in der Spracheingabe ist eine Anfrage, den „Wohnzimmerlautsprecher“ zum Abspielen von klassischer Musik zu veranlassen. Als weiteres Beispiel kann ein Benutzer eine Spracheingabe „spiele klassische Musik auf den Hauslautsprechern ab“, wobei „Hauslautsprecher“ ein Name einer Gruppe von Geräten ist. Die Zielgerätegruppe in der Spracheingabe ist „Hauslautsprecher“, die Anfrage in der Spracheingabe ist eine Anfrage, die Geräte in der Gruppe „Hauslautsprecher“ zum Abspielen von klassischer Musik zu veranlassen.
  • Eine Spracheingabe von dem Benutzer weist möglicherweise keine ausdrückliche Spezifizierung eines Zielgeräts oder einer Gerätegruppe; ein Verweis auf ein Zielgerät oder eine Gerätegruppe fehlt in der Spracheingabe. Beispielsweise kann der Benutzer nach dem obigen Beispiel der Spracheingabe „spiele klassische Musik auf dem Wohnzimmerlautsprecher ab“, eine nachfolgende Spracheingabe „Anhalten“ äußern. Die Spracheingabe beinhaltet keine Zielgerätespezifikation für die Anfrage nach einem Anhaltevorgang. In einigen Implementierungen kann die Zielgerätespezifikation in der Spracheingabe zweideutig sein. Beispielsweise kann der Benutzer den Gerätenamen unvollständig geäußert haben. In einigen Implementierungen kann ein Zielgerät oder eine Gerätegruppe der Spracheingabe zugewiesen werden, wenn eine ausdrückliche Zielgerätespezifikation fehlt oder die Zielgerätespezifikation zweideutig ist, wie nachfolgend beschrieben.
  • In einigen Implementierungen, wenn ein sprachaktiviertes Gerät 104 eine Spracheingabe mit einer ausdrücklichen Spezifikation eines Zielgeräts oder einer Gerätegruppe empfängt, richtet das sprachaktivierte Gerät 104 eine Fokussitzung in Bezug auf das spezifizierte Zielgerät oder die Gerätegruppe ein. In einigen Implementierungen speichert das sprachaktivierte Gerät 104 für die Fokussitzung eine Sitzungsstartzeit (z. B. den Zeitstempel der Spracheingabe, auf dessen Basis die Fokussitzung gestartet wurde), und als das sich im Fokus befindliche Gerät für die Fokussitzung das spezifizierte Zielgerät oder die Gerätegruppe. In einigen Implementierungen protokolliert das sprachaktivierte Gerät 104 auch nachfolgende Spracheingaben in der Fokussitzung. Das sprachaktivierte Gerät 104 protokolliert mindestens die neueste Spracheingabe in der Fokussitzung und protokolliert auch optional, und behält vorangegangene Spracheingaben innerhalb der Fokussitzung. In einigen Implementierungen richtet das Sprachunterstützungsserversystem 112 die Fokussitzung ein. In einigen Implementierungen kann die Fokussitzung durch eine Spracheingabe beendet werden, indem ausdrücklich ein anderes Zielgerät oder eine Gerätegruppe spezifiziert wird.
  • Obwohl eine Fokussitzung in Bezug auf ein Gerät aktiv ist, und das sprachaktivierte Gerät eine Spracheingabe empfängt, macht das sprachaktivierte Gerät 104 eine oder mehrere Bestimmungen in Bezug auf die Spracheingabe. In einigen Implementierungen beinhalten die Bestimmungen: ob die Spracheingaben eine ausdrückliche Zielgerätespezifikation beinhalten, ob die Anfrage in der Spracheingabe eine Anfrage ist, die durch das in-Fokus-Gerät erfüllt werden kann, und eine Zeit der Spracheingabe im Vergleich zu der Zeit der letzten Spracheingabe in der Fokussitzung und/oder der Sitzungsstartzeit. Wenn die Spracheingabe keine ausdrückliche Zielgerätespezifikation beinhaltet, eine Anfrage beinhaltet, die durch das in-Fokus-Gerät erfüllt werden kann, und vordefinierte Zeitkriterien in Bezug auf die Zeit der letzten Spracheingabe in der Fokussitzung und/oder der Sitzungsstartzeit erfüllt, dann wird das in-Fokus-Gerät als das Zielgerät für die Spracheingabe zugewiesen. Weitere Details in Bezug auf Fokussitzungen werden nachfolgend beschrieben.
  • Geräte in der Betriebsumgebung
  • 2 ist ein Blockdiagramm, das ein beispielhaftes sprachaktiviertes Gerät 104 darstellt, das als eine Sprachschnittstelle angewandt wird, um Benutzersprachbefehle in einer Betriebsumgebung (z. B. Betriebsumgebung 100) gemäß einigen Implementierungen zu sammeln. Das sprachaktivierte Gerät 104 beinhaltet typischerweise einen oder mehrere Zentraleinheiten (CPUs) 202, eine oder mehrere Netzwerkschnittstellen 204, Speicher 206 und einen oder mehrere Kommunikationsbusse 208 zum Verbinden dieser Komponenten miteinander (manchmal Chipsatz genannt). Das sprachaktivierte Gerät 104 beinhaltet ein oder mehrere Eingabegeräte 210, die Benutzereingabe erleichtern, wie z. B. eine Taste 212, ein Berührungssensor-Array 214 und ein oder mehrere Mikrofone 216. Das sprachaktivierte Gerät 104 beinhaltet auch ein oder mehrere Ausgabegeräte 218, beinhaltend einen oder mehrere Lautsprecher 220, optional ein Array von LEDs 222 und optional eine Anzeige 224. In einigen Implementierungen ist das Array von LEDs 222 ein Array von vollfarbigen LEDs. In einigen Implementierungen weist ein sprachaktiviertes Gerät 104 in Abhängigkeit von der Art von Gerät entweder das Array von LEDs 222 oder die Anzeige 224 oder beides auf. In einigen Implementierungen beinhaltet das sprachaktivierte Gerät 104 auch ein Standorterkennungsgerät 226 (z. B. ein GPS-Modul) und einen oder mehrere Sensoren 228 (z. B. einen Beschleunigungsmesser, ein Gyroskop, einen Lichtsensor usw.).
  • Speicher 206 beinhaltet einen Hochgeschwindigkeitsspeicher mit wahlfreiem Zugriff, wie z. B. DRAM, SRAM, DDR-RAM oder andere Festspeichergeräte mit wahlfreiem Zugriff; und beinhaltet optional einen nichtflüchtigen Speicher, wie z. B. ein oder mehrere magnetische Plattenspeichergeräte, ein oder mehrere optische Plattenspeichergeräte, ein oder mehrere Flashspeichergeräte oder ein oder mehrere andere nicht flüchtige Festspeichergeräte. Speicher 206 beinhaltet optional ein oder mehrere Speichergeräte, die von einem oder mehreren Zentralprozessoren 202 entfernt angeordnet sind. Speicher 206 oder alternativ der nicht flüchtige Speicher innerhalb des Speichers 206, beinhaltet ein nicht transitorisches computerlesbares Speichermedium. In einigen Implementierungen speichert Speicher 206 oder das nicht transitorische computerlesbare Speichermedium von Speicher 206 die folgenden Programme, Module und Datenstrukturen, oder eine Untergruppe oder Supergruppe davon:
    • • Betriebssystem 232, beinhaltend Verfahren zur Handhabung verschiedener grundlegender Systemdienste und zur Durchführung von hardwareabhängigen Aufgaben;
    • • Netzwerkkommunikationsmodul 234 zum Verbinden des sprachaktivierten Geräts 104 mit anderen Geräten (z. B. dem Sprachunterstützungsdienst 140, einem oder mehreren steuerbaren Geräten 106, einem oder mehreren Client-Geräten 103 und anderen sprachaktivierten Gerät(en) 104) über eine oder mehrere Netzwerkschnittstellen 204 (verdrahtet oder drahtlos) und ein oder mehrere Netzwerke 110, wie z. B. Internet, andere Großraumnetzwerke, lokale Netzwerke (z. B. lokales Netzwerk 108), regionale Netzwerke usw.;
    • • Eingabe-/Ausgabesteuermodul 236 zum Empfangen von Eingaben über ein oder mehrere Eingabegeräte und Ermöglichen der Präsentation von Informationen auf dem sprachaktivierten Gerät 104 über ein oder mehrere Ausgabegeräte 218, beinhaltend:
      • ○ Sprachverarbeitungsmodul 238 zum Verarbeiten von Audioeingaben oder Sprachnachrichten, die in einer Umgebung gesammelt werden, die das sprachaktivierte Gerät 104 umgibt, oder Vorbereiten der gesammelten Audioeingaben oder Sprachnachrichten zum Verarbeiten in einem Sprachunterstützungsserversystem 112;
      • ○ LED-Steuermodul 240 zum Generieren von visuellen Mustern auf den LEDs 222 gemäß den Gerätestatus des sprachaktivierten Geräts 104; und
      • ○ Berührungssensormodul 242 zum Erfassen von Berührungsereignissen auf einer obersten Fläche (z. B. Berührungssensor-Array 214) des sprachaktivierten Geräts 104;
    • • Daten 244 des sprachaktivierten Geräts zum Speichern mindestens von dem sprachaktivierten Gerät 104 zugeordneten Daten, beinhaltend:
      • ○ Sprachgeräteeinstellungen 246 zum Speichern von Informationen, die dem sprachaktivierten Gerät 104 selbst zugeordnet sind, beinhaltend gemeinsame Geräteeinstellungen (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.), Informationen von einem oder mehreren Benutzerkonten in einer Benutzerdomäne, Gerätespitznamen und -Gerätegruppen, Einstellungen bezüglich Einschränkungen im Umgang mit einem nicht registrierten Benutzer und Anzeigespezifikationen, die einem oder mehreren visuellen Mustern zugeordnet sind, die von den LEDs 222 angezeigt werden; und
      • ○ Sprachsteuerungsdaten 248 zum Speichern von Audiosignalen, Sprachnachrichten, Antwortnachrichten und anderen Daten, die sich auf Sprachschnittstellenfunktionen des sprachaktivierten Geräts 104 beziehen;
    • • Antwortmodul 250 zum Ausführen von Anweisungen, die in Sprachanfrageantworten enthalten sind, die durch das Sprachunterstützungsserversystem 112 generiert werden, und in einigen Implementierungen, Generieren von Antworten auf bestimmte Spracheingaben; und
    • • Fokussitzungsmodul 252 zum Einrichten, Verwalten und Beenden von Fokussitzungen in Bezug auf Geräte.
  • In einigen Implementierungen beinhaltet das Sprachverarbeitungsmodul 238 die folgenden Module (nicht dargestellt):
    • • Benutzeridentifikationsmodul zum Identifizieren und Disambiguieren von Benutzern, die Spracheingaben für das sprachaktivierten Gerät 104 bereitstellen;
    • • Hotword-Erkennungsmodule zum Bestimmen, ob Spracheingaben ein Hotword zum Aktivieren des sprachaktivierten Geräts 104 und Erkennen davon in den Spracheingaben beinhalten; und
    • • Anfrageerkennungsmodul zum Bestimmen einer Benutzeranfrage, die in einer Spracheingabe beinhaltet ist.
  • In einigen Implementierungen speichert der Speicher 206 auch Fokussitzungsdaten 254 für eine herausragende Fokussitzung, beinhaltend Folgendes:
    • • Sitzungs-in-Fokus-Gerät(e) 256 zum Speichern eines Bezeichners des Geräts oder der Gerätegruppe, die in einer herausragenden Sitzung im Fokus sind (z. B. der Gerätespitzname, der Gerätegruppenname, MAC-Adresse(n) des Geräts/der Geräte);
    • • Sitzungsstartzeit 258 zum Speichern eines Zeitstempels für den Start der herausragenden Fokussitzung; und
    • • Sitzungsbefehlshistorie 260 zum Speichern eines Protokolls von vorherigen Anfragen oder Befehlen in der Fokussitzung, beinhaltend mindestens die/den neueste(n) Anfrage/Befehl. Das Protokoll beinhaltet mindestens den/die Zeitstempel der protokollierten vorherigen Anfrage(n)/Befehl(e).
  • Jedes der oben genannten Elemente kann in einem oder mehreren der zuvor erwähnten Speichergeräte gespeichert sein und entspricht einer Gruppe von Anweisungen zum Ausführen einer oben beschriebenen Funktion. Die oben identifizierten Module oder Programme (d. h. Gruppen von Anweisungen) müssen nicht als separate Softwareprogramme, Prozeduren, Module oder Datenstrukturen implementiert werden, weshalb verschiedene Untergruppen dieser Module in verschiedenen Implementierungen kombiniert oder anderweitig neu angeordnet werden können. In einigen Implementierungen speichert Speicher 206 eine Untergruppe der oben identifizierten Module und Datenstrukturen. Weiterhin kann Speicher 206 zusätzliche Module und Datenstrukturen speichern, die nicht oben beschrieben sind. In einigen Implementierungen kann eine Untergruppe der in dem Speicher 206 gespeicherten Programme, Module und/oder Daten in dem Sprachunterstützungsserversystem 112 gespeichert, oder davon ausgeführt werden.
  • In einigen Implementierungen sind ein oder mehrere der Module in dem oben beschriebenen Speicher 206 Teil einer Sprachverarbeitungsbibliothek von Modulen. Die Sprachverarbeitungsbibliothek kann in einer breiten Vielfalt von Geräten implementiert und eingebettet werden. Ein Beispiel für eine Sprachverarbeitungsbibliothek ist in der vorläufigen U.S.-Patentanmeldung Nr. 62/334.434 mit dem Titel „Implementations for Voice Assistant on Devices“ (Implementierungen für Sprachunterstützung auf Geräten), eingereicht am 10. Mai 2016, beschrieben, die hierin durch Bezugnahme in ihrer Gesamtheit aufgenommen ist. In einigen Implementierungen kann die in 2 und 4 der ‘434er-Anmeldung dargestellte Sprachunterstützungs-Client-Bibliothek 240, die hierin integriert ist, zusätzliche, hierin beschriebene Sprachunterstützungsbibliotheksmodule 240 beinhalten, die mit Fokussitzungen in Verbindung stehen. Beispielsweise kann die Sprachunterstützungsbibliothek 240 der ‘434er-Anmeldung das Antwortmodul 250 und/oder Fokussitzungsmodul 252 von 2 dieser Anwendung beinhalten, oder andere Fokussitzungsfunktionalität bereitstellen. Auf ähnliche Weise können die in 2 und 4 der ‘434er-Anmeldung dargestellten Plattform-APIs 244 Module beinhalten, die den Sprachunterstützungsbibliotheksmodulen 240 der ‘434er-Anmeldung (einschließlich derjenigen, die sich auf Fokussitzungen beziehen) erlauben, mit der Hardware-Funktionalität eines Sprachunterstützungsgeräts 104 und Modulen eine Schnittstelle auszubilden, die für diesen Zweck verwendet werden, beinhaltend, ohne Einschränkung, das LED-Steuermodul 240 und/oder das in 2 dieser Anmeldung dargestellte Berührungssensormodul 242.
  • Wie bemerkt in Absatz [0071] der ‘434er-Anmeldung: „Ein Vorteil der in 4 dargestellten Sprachunterstützungs-Client-Bibliotheksorganisation besteht darin, dass sie ermöglicht, dass dieselbe oder eine ähnliche Sprachverarbeitungsfunktionalität auf einer breiten Palette von Sprachunterstützungsgerätetypen mit [a] konsistenten APIs und Gruppen von Sprachunterstützungsfunktionen bereitgestellt werden kann. Die Konsistenz unterstützt die Portabilität von Sprachunterstützungsanwendungen und Konsistenz von Sprachunterstützungsvorgängen, wodurch wiederum Benutzerinteraktionen und Vertrautheit mit Sprachunterstützungsanwendungen und -funktionen gefördert werden, die auf unterschiedlichen Gerätearten ausgeführt werden.“ Auf ähnliche Weise würde Beinhalten von Modulen, die Fokussitzungsfunktionalität in der Sprachunterstützungsbibliothek 240 der ‘434er-Anmeldung implementieren, ermöglichen, dass diese nützliche Funktionalität in einer breiten Palette von Sprachunterstützungsgeräten 104 implementiert wird. In einigen Implementierungen kann die Gesamtheit oder ein Teil der Sprachunterstützungs-Client-Bibliothek 240 (einschließlich Modulen, die Fokussitzungen zugeordnet sind, wie hierin beschrieben), auf dem Server 112 dieser Anwendung bereitgestellt werden (ähnlich wie der Server 114 von 3 der ‘434er-Anmeldung), um serverbasierte Sprachunterstützungsanwendungen (z. B. Serveranwendungen, die mit Spracheingaben funktionieren, die zum Verarbeiten an den Server 114 übertragen werden) zu unterstützen, die Fokussitzungsmerkmale beinhalten.
  • 3A-3B sind Blockdiagramme, die ein beispielhaftes Sprachunterstützungsserversystem 112 eines Sprachunterstützungsdienstes 140 einer Betriebsumgebung (z. B. Betriebsumgebung 100) gemäß einigen Implementierungen veranschaulichen. Das Serversystem 112 beinhaltet typischerweise einen oder mehrere Zentralprozessoren (CPUs) 302, eine oder mehrere Netzwerkschnittstellen 304, Speicher 306 und einen oder mehrere Kommunikationsbusse 308 zum Verbinden dieser Komponenten miteinander (manchmal Chipsatz genannt). Das Serversystem 112 kann ein oder mehrere Eingabegeräte 310 beinhalten, die Benutzereingaben erleichtern, wie z. B. eine Tastatur, eine Maus, eine Sprachbefehlseingabeeinheit oder ein Mikrofon, eine Touchscreenanzeige, ein berührungsempfindliches Eingabe-Pad, eine Gestenerfassungskamera oder andere Eingabetasten oder -steuerungen. Weiterhin kann das Serversystem 112 ein Mikrofon und eine Spracherkennung oder eine Kamera und Gestenerkennung verwenden, um die Tastatur zu ergänzen oder zu ersetzen. In einigen Implementierungen beinhaltet das Serversystem 112 eine oder mehrere Kameras, Scanner oder Fotosensoreinheiten zum Erfassen von Bildern, beispielsweise von auf elektronischen Geräten aufgedruckten grafischen Seriencodes. Das Serversystem 112 kann auch ein oder mehrere Ausgabegeräte 312 beinhalten, die die Präsentation von Benutzerschnittstellen ermöglichen und Inhalt anzeigen, einschließlich eines oder mehrerer Lautsprechern und/oder einer oder mehrerer visueller Anzeigen.
  • Speicher 306 beinhaltet einen Hochgeschwindigkeitsspeicher mit wahlfreiem Zugriff, wie z. B. DRAM, SRAM, DDR-RAM oder andere Festspeichergeräte mit wahlfreiem Zugriff; und kann einen nicht flüchtigen Speicher, wie z. B. ein oder mehrere magnetische Plattenspeichergeräte, optische Plattenspeichergeräte, Flashspeichergeräte oder andere nicht flüchtige Festspeichergeräte beinhalten. Speicher 306 beinhaltet optional ein oder mehrere Speichergeräte, die von einem oder mehreren Zentralprozessoren 302 entfernt angeordnet sind. Speicher 306 oder alternativ der nicht flüchtige Speicher innerhalb des Speichers 306 beinhaltet ein nicht transitorisches computerlesbares Speichermedium. In einigen Implementierungen speichert Speicher 306 oder das nicht transitorische computerlesbare Speichermedium von Speicher 306 die folgenden Programme, Module und Datenstrukturen oder eine Untergruppe oder Supergruppe davon:
    • • Betriebssystem 316, das Verfahren zur Handhabung verschiedener grundlegender Systemdienste und zur Durchführung von hardwareabhängigen Aufgaben beinhaltet;
    • • Netzwerkkommunikationsmodul 318 zum Verbinden des Serversystems 112 mit anderen Geräten (z. B. Client-Geräten 103, steuerbaren Geräten 106, sprachaktivierten Gerät(en) 104) über eine oder mehrere Netzwerkschnittstellen 304 (verdrahtet oder drahtlos) und ein oder mehrere Netzwerke 110, wie z. B. Internet, andere Großraumnetzwerke, lokale Netzwerke, regionale Netzwerke usw.
    • • Benutzerschnittstellenmodul 320 zum Aktivieren der Darstellung von Informationen (z. B. eine grafische Benutzeroberfläche für die Präsentation von Anwendung(en) 322-328, Widgets, Websites und Webseiten davon und/oder Spiele, Audio- und/oder Videoinhalte, Text usw.) auf einem Client-Gerät;
    • • Befehlsausführungsmodul 321 für die Ausführung auf der Serverseite (z. B. Spiele, soziale Netzwerkanwendungen, Smart Home-Anwendungen und/oder andere web- oder nicht webbasierte Anwendungen zur Steuerung von einem Client-Gerät 103, einem steuerbaren Gerät 106, einem sprachaktivierten Gerät 104 und von Smart Home-Geräten, und Überprüfung von mit solchen Geräten erfassten Daten), beinhaltend eines oder mehrere von:
      • ○ einer Casting-Geräteanwendung 322, die ausgeführt wird, um serverseitige Funktionalitäten zur Gerätebereitstellung, Gerätesteuerung und Benutzerkontenverwaltung bereitzustellen, die (einem) Casting-Gerät(en) zugeordnet sind;
      • ○ ein oder mehrere Mediaplayeranwendungen 324, die ausgeführt werden, um serverseitige Funktionalitäten für Medienanzeige und Benutzerkontenverwaltung bereitzustellen, die entsprechenden Medienquellen zugeordnet sind;
      • ○ eine oder mehrere Smart Home-Geräteanwendungen 326, die ausgeführt werden, um serverseitige Funktionalitäten zur Gerätebereitstellung, Gerätesteuerung, Datenverarbeitung und Datenüberprüfung von entsprechenden Smart Home-Geräten bereitzustellen; und
      • ○ eine Sprachunterstützungsanwendung 328, die ausgeführt wird, um eine Sprachverarbeitung einer von dem sprachaktivierten Gerät 104 empfangenen Sprachnachricht zu arrangieren oder direkt die Sprachnachricht zu verarbeiten, um einen Benutzersprachbefehl und einen oder mehrere Parameter für den Benutzersprachbefehl zu extrahieren (z. B. eine Bezeichnung eines Casting-Geräts oder eines anderen sprachaktivierten Geräts 104); und
    • • Serversystemdaten 330, die mindestens Daten speichern, die einer automatischen Steuerung von Medienanzeige zugeordnet sind (z. B. in einem automatischen Medienausgabemodus und einem Folgemodus) und andere Daten, beinhaltend eines oder mehrere von:
      • ○ Client-Geräteeinstellungen 332 zum Speichern von Informationen, die einem oder mehreren Client-Geräten zugeordnet sind, einschließlich gemeinsamer Geräteeinstellungen (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.), und Informationen für automatische Medienanzeigesteuerung;
      • ○ Casting-Geräteeinstellungen 334 zum Speichern von Informationen, die Benutzerkonten der Casting-Geräteanwendung 322 zugeordnet sind, einschließlich einer oder mehreren von Kontenzugriffsinformationen, Informationen für Geräteeinstellungen (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.), und Informationen für automatische Medienanzeigesteuerung;
      • ○ Mediaplayeranwendungseinstellungen 336 zum Speichern von Informationen, die Benutzerkonten von einer oder mehreren Mediaplayeranwendungen 324 zugeordnet sind, beinhaltend eines oder mehrere von Kontenzugriffsinformationen, Benutzervoreinstellungen von Medieninhaltsarten, Review-Historiendaten und Informationen für automatische Medienanzeigesteuerung;
      • ○ Smart Home-Geräteeinstellungen 338 zum Speichern von Informationen, die Benutzerkonten der Smart Home-Geräteanwendung 326 zugeordnet sind, beinhaltend eines oder mehrere von Kontenzugriffsinformationen, Informationen für Geräteeinstellungen (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.);
      • ○ Sprachunterstützungsdaten 340 zum Speichern von Informationen, die Benutzerkonten der Sprachunterstützungsanwendung 328 zugeordnet sind, beinhaltend eines oder mehrere von Kontenzugriffsinformationen, Informationen für ein oder mehrere sprachaktivierte Geräte 104 (z. B. Service Tier, Gerätemodell, Speicherkapazität, Verarbeitungsfunktionen, Kommunikationsfunktionen usw.);
      • ○ Benutzerdaten 342 zum Speichern von Informationen, die Benutzern in der Benutzerdomäne zugeordnet sind, einschließlich Abonnements von Benutzern (z. B. Musik-Streaming-Service-Abonnements, Video-Streaming-Service-Abonnements, Newsletter-Abonnements), Benutzergeräte (z. B. Geräte, die in der Geräteregistrierung 118 registriert sind, die jeweiligen Benutzern zugeordnet ist), Benutzerkonten (z. B. E-Mail-Konten, Kalenderkonten, Konten von Benutzern) und andere Benutzerdaten;
      • ○ Benutzersprachprofile 344 zum Speichern von Sprachprofilen der Benutzer in der Benutzerdomäne, beinhaltend z. B. Sprachmodelle oder Sprachfingerabdrücke der Benutzer und komfortable Lautstärkepegelschwellenwerte der Benutzer; und
      • ○ Fokussitzungsdaten 346 zum Speichern von Fokussitzungsdaten für mehrere Geräte.
    • • Geräteregistrierungsmodul 348 zum Verwalten der Geräteregistrierung 118;
    • • Sprachverarbeitungsmodul 350 zum Verarbeiten von Audioeingaben oder Sprachnachrichten, die in einer das elektronische Gerät 104 umgebenden Umgebung gesammelt werden; und
    • • Fokussitzungsmodul 352 zum Einrichten, Verwalten und Beenden von Fokussitzungen in Bezug auf Geräte.
  • Unter Bezugnahme auf 3B speichert Speicher 306 in einigen Implementierungen auch Fokussitzungsdaten 346 für eine oder mehrere herausragende Fokussitzungen 3462-1 bis einschließlich 3462-M, Folgendes beinhaltend:
    • • Sitzungsquellengerät 3464 zum Speichern eines Bezeichners des Geräts, bei dem eine Fokussitzung eingerichtet wird;
    • • Sitzungs-in-Fokus-Gerät(e) 3466 zum Speichern eines Bezeichners des Geräts oder der Gerätegruppe, die in einer Fokussitzung im Fokus sind (z. B. der Gerätespitzname, der Gerätegruppenname, MAC-Adresse(n) des/der Gerät(e));
    • • Sitzungsstartzeit 3468 zum Speichern eines Zeitstempels für den Start der herausragenden Fokussitzung; und
    • • Sitzungsbefehlshistorie 3470 zum Speichern eines Protokolls von vorherigen Anfragen oder Befehlen in der Fokussitzung, beinhaltend mindestens die/den neueste(n) Anfrage/Befehl.
  • In einigen Implementierungen ist das Sprachunterstützungsserversystem 112 primär verantwortlich für die Verarbeitung von Spracheingaben und somit eines oder mehrerer der Programme, Module und Datenstrukturen in Speicher 206, die oben unter Bezugnahme auf 2, in jeweiligen Modulen in Speicher 306 beinhaltet sind (z. B. Programme, Module und Datenstrukturen, die in dem Sprachverarbeitungsmodul 238 beinhaltet sind, sind in dem Sprachverarbeitungsmodul 350 beinhaltet). Das sprachaktivierte Gerät 104 überträgt entweder erfasste Spracheingaben zu dem Sprachunterstützungsserversystem 112 zum Verarbeiten, oder vorverarbeitet die Spracheingaben zuerst, und überträgt die vorverarbeiteten Spracheingaben zu dem Sprachunterstützungsserversystem 112 zum Verarbeiten. In einigen Implementierungen weisen das Sprachunterstützungsserversystem 112 und das sprachaktivierte Gerät 104 einige gemeinsam genutzte und einige verteilte Verantwortlichkeiten in Bezug auf Verarbeiten von Spracheingaben auf, und die in 2 dargestellten Programme, Module und Datenstrukturen können in beiden beinhaltet, oder unter dem Sprachunterstützungsserversystem 112 und dem sprachaktivierten Gerät 104 aufgeteilt sein. Andere in 2 dargestellte Programme, Module und Datenstrukturen oder Entsprechungen davon können auch in dem Sprachunterstützungsserversystem 112 beinhaltet sein.
  • Jedes der oben genannten Elemente kann in einem oder mehreren der zuvor erwähnten Speichergeräte gespeichert sein und entspricht einer Gruppe von Befehlen zum Ausführen einer oben beschriebenen Funktion. Die oben identifizierten Module oder Programme (d. h. Gruppen von Anweisungen) müssen nicht als separate Softwareprogramme, Prozeduren, Module oder Datenstrukturen implementiert werden, weshalb verschiedene Untergruppen dieser Module in verschiedenen Implementierungen kombiniert oder anderweitig neu angeordnet werden können. In einigen Implementierungen speichert Speicher 306 eine Untergruppe der oben identifizierten Module und Datenstrukturen. Weiterhin kann Speicher 306 zusätzliche Module und Datenstrukturen speichern, die nicht oben beschrieben sind.
  • BEISPIELHAFTE FOKUS SITZUNG
  • 4A-4D veranschaulichen ein Beispiel einer Fokussitzung gemäß einigen Implementierungen. In einer Betriebsumgebung mit einem sprachaktivierten Gerät 104 (z. B. Betriebsumgebung 100) und mehreren steuerbaren Geräten 106, wenn ein Benutzer in der Umgebung eine Spracheingabe vornimmt, die eines von den steuerbaren Geräten 106 als ein Zielgerät spezifiziert, kann eine Fokussitzung mit dem Zielgerät als dem in-Fokus-Gerät eingerichtet werden.
  • 4A stellt ein sprachaktiviertes Gerät 404 (z. B. sprachaktiviertes Gerät 104) und drei steuerbare Geräte 406, 408 und 410 (z. B. steuerbare Geräte 106) in einer Betriebsumgebung (z. B. Betriebsumgebung 100) dar. Die Geräte können in demselben Raum wie ein Benutzer 402 (z. B. in demselben Raum), oder über eine Struktur verteilt sein, in der der Benutzer positioniert ist. Gerät 406 ist ein Lautsprechersystem mit dem Spitznamen „Master-Schlafzimmerlautsprecher“. Gerät 408 ist ein Mediengerät mit dem Spitznamen „Wohnzimmer-Fernseher“. Gerät 410 ist ein Mediengerät mit dem Spitznamen „Spieleraum-Fernseher“. Es gibt im Moment keine Fokussitzung; Fokussitzung 418 ist leer.
  • Der Benutzer 402 gibt eine Spracheingabe 403 aus, „spiele Katzenvideos auf dem Spieleraum-Fernseher ab“, und das sprachaktivierte Gerät 404 empfängt die Spracheingabe. Das sprachaktivierte Gerät 404 bestimmt, dass die Anfrage in der Spracheingabe 403 eine Anfrage zum Abspielen von Katzenvideos, und das Zielgerät das „Spieleraum-Fernseh“-Gerät 410 ist, das ausdrücklich in der Spracheingabe 403 spezifiziert wurde. Eine Sitzung 418, wobei das in-Fokus-Gerät das „Spieleraum-Fernseh“-Gerät 410 ist, wird auf dem sprachaktivierten Gerät 404 eingerichtet, wie in 4B dargestellt. Ein Befehl zum Abspielen von Katzenvideos wird (durch das Gerät 404 oder das Sprachunterstützungsserversystem 112) zu dem „Spieleraum-Fernseh“-Gerät 410 gesendet, und das Gerät 410 führt den Vorgang 416 aus.
  • Unter Bezugnahme auf 4C gibt der Benutzer 402 nachfolgend, während die Sitzung 418 mit dem „Spieleraum-Fernseher“ 410 im Fokus aktiv ist, und der Vorgang 416 durch das Gerät 410 ausgeführt wird, eine andere Spracheingabe „Anhalten“ 420 aus. Das sprachaktivierte Gerät 404 bestimmt, ob die Spracheingabe 420 eine Spezifikation eines Zielgeräts beinhaltet, und ob die Anfrage in der Spracheingabe 420 durch das in-Fokus-Gerät 410 ausgeführt werden kann. In dem Fall der spezifischen Spracheingabe 420 „Anhalten“ bestimmt das sprachaktivierte Gerät 404, dass die Spracheingabe 420 keine Spezifikation eines Zielgeräts beinhaltet, und dass die Anfrage in der Spracheingabe („Anhalten“, was immer gerade abgespielt wird) durch das in-Fokus-Gerät ausgeführt werden kann. In einigen Implementierungen beinhaltet Bestimmen, ob die Spracheingabe 420 eine Spezifikation eines Zielgeräts beinhaltet, das Schauen nach Übereinstimmungen mit Gerätespitznamen in der Spracheingabe (z. B. Ausführen von Spracherkennung auf der Spracheingabe und Parsen des Textes dahingehend, um nach Gerätespitznamen Ausschau zu halten). In einigen Implementierungen beinhaltet Bestimmen, ob eine Anfrage in der Spracheingabe von dem in-Fokus Gerät ausgeführt werden kann, Bestimmen, was die Anfrage in der Spracheingabe ist, und Vergleichen der Anfrage mit der Befehlshistorie (z. B. Historie 260) der aktuellen Fokussitzung 418 zwecks Konsistenz mit dem letzten Befehl in der Sitzung (z. B. eine „Musik anhalten“-Anfrage ist inkonsistent mit einem letzten Befehl, der „Musik anhalten“ ist), sowie Vergleichen der Anfrage auf Konsistenz mit Funktionen des in-Fokus-Geräts (z. B. eine „Musik anhalten“-Anfrage ist inkonsistent mit den Funktionen eines intelligenten Lichts).
  • In einigen Implementierungen bestimmt das sprachaktivierte Gerät 404 auch, ob die Spracheingabe 420 eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt. In einigen Implementierungen besteht ein Fokussitzungs-Aufrechterhaltungskriterium darin, dass der Zeitstempel der Spracheingabe 420 innerhalb einer bestimmten Zeit von dem Zeitstempel der letzten Spracheingabe 403 in der aktiven Sitzung liegt (z. B. die zweite Spracheingabe wird innerhalb einer bestimmten Zeit von der vorangegangenen ersten Spracheingabe empfangen.) In einigen Implementierungen gibt es mehrere Zeitschwellenwerte für dieses Kriterium. Beispielsweise kann es einen ersten kürzeren Zeitschwellenwert (z. B. 20 Minuten), und einen zweiten längeren Zeitschwellenwert (z. B. 4 Stunden) geben. Wenn die Spracheingabe 420 innerhalb des ersten kürzeren Zeitschwellenwertes der letzten Spracheingabe 403 empfangen wird, und die anderen Kriterien oben erfüllt werden, dann wird das in-Fokus-Gerät für die Spracheingabe 420 eingestellt (und überträgt diese Zielgeräteeinstellung in einigen Implementierungen, sowie dann, wenn die Spracheingabe 420 zu dem Sprachunterstützungsserversystem 112 zum Verarbeiten übertragen wird). Beispielsweise ist die Spracheingabe 420 dahingehend bestimmt, dass sie keine Zielgerätespezifikation beinhaltet, und dass die Anfrage „Anhalten“ mit dem letzten Befehl „spiele Katzenvideos ab“ konsistent ist. Wenn die Spracheingabe 420 innerhalb des kürzeren Zeitschwellenwerts der Spracheingabe 403 empfangen wird, dann wird das in-Fokus-Gerät, „Spieleraum-Fernseh“-Gerät 410, als das Zielgerät für Spracheingabe 420 eingestellt, und der auf dem „Spieleraum-Fernseh“-Gerät 410 ausgeführte Vorgang 416 hält die Katzenvideos gemäß der Spracheingabe 420 an, wie in 4D dargestellt.
  • Wenn die Spracheingabe 420 nach dem ersten kürzeren Schwellenwert und innerhalb des zweiten längeren Schwellenwerts von der letzten Spracheingabe 403 empfangen wird, und die anderen Kriterien oben erfüllt sind, gibt das sprachaktivierte Gerät 404 einen Sprachbefehl aus, um Bestätigung von dem Benutzer anzufragen, dass das in-Fokus-Gerät das gewünschte Zielgerät für die Spracheingabe 420 ist. Die sprachaktivierte Gerät 404 hält die Sitzung 418 nach Empfangen der Bestätigung, dass das in-Fokus-Gerät das gewünschte Zielgerät ist, aufrecht, und stellt das in-Fokus-Gerät als das Zielgerät für die Spracheingabe 420 ein (und überträgt in einigen Implementierungen diese Zielgeräteeinstellung sowie bei Übertragen der Spracheingabe 420 zu dem Sprachunterstützungsserversystem 112 zum Verarbeiten). Wenn der Benutzer das Zielgerät nicht bestätigt, kann das sprachaktivierte Gerät 404 anfragen, dass der Benutzer eine Zielgerätespezifikation bereitstellt, anfragen, dass der Benutzer die Spracheingabe erneut spricht, aber eine Zielgerätespezifikation einschließt, und/oder die Sitzung 418 beendet. In einigen Implementierungen, wenn die Spracheingabe 420 nach dem zweiten längeren Schwellenwert von der letzten Spracheingabe 403 empfangen wird, oder die anderen, oben beschriebenen Kriterien nicht erfüllt werden, wird die Sitzung 418 beendet. In einigen Implementierungen werden die Werte dieser Zeitschwellenwerte in Speicher 206 und/oder Speicher 306 gespeichert. Zwischen Spracheingaben verstrichene Zeit wird mit diesen Schwellenwerten verglichen.
  • In einigen Implementierungen werden das Fehlen eines ausdrücklich spezifizierten Zielgeräts in der Spracheingabe und Konsistenz der Anfrage in der Spracheingabe mit der letzten Spracheingabe und mit den Funktionen des in-Fokus-Geräts als Fokussitzungs-Aufrechterhaltungskriterien angesehen.
  • BEISPIELHAFTER PROZESS
  • 5 ist ein Ablaufdiagramm, das ein Verfahren 500 des Antwortens auf eine Spracheingabe eines Benutzers gemäß einigen Implementierungen veranschaulicht. Gemäß einigen Implementierungen wird das Verfahren 500 an einem ersten elektronischen Gerät (z. B. das sprachaktivierte Gerät 104) mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher ausgeführt, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert. Das erste elektronische Gerät ist ein Mitglied einer lokalen Gruppe von verbundenen Geräten (z. B. sprachaktivierte Geräte 104 und steuerbare Geräte 106, die einem Benutzerkonto zugeordnet sind; steuerbare Geräte 106, die einem bestimmten sprachaktivierten Gerät 104 zugeordnet sind), die kommunikativ (z. B. durch Netzwerke 110) mit einem gemeinsamen Netzwerkdienst (z. B. dem Sprachunterstützungsdienst 140) verbunden sind.
  • Das erste elektronische Gerät empfängt (502) einen ersten Sprachbefehl, der eine Anfrage nach einem ersten Vorgang beinhaltet. Beispielsweise empfängt ein sprachaktiviertes Gerät 404 eine erste Spracheingabe 403.
  • Das erste elektronische Gerät bestimmt (504) ein erstes Zielgerät für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten. Das sprachaktivierte Gerät 404 bestimmt (z. B. basierend auf Verarbeiten durch das Sprachverarbeitungsmodul 238) ein Zielgerät (oder eine Gerätegruppe) für die Spracheingabe 403 aus den Geräten 406, 408 und 410. Das sprachaktivierte Gerät 404 erkennt die Zielgerätespezifikation „Spieleraum-Fernseher“ in der Spracheingabe 403 als „Spieleraum-Fernseh“-Gerät 410
  • Das erste elektronische Gerät richtet (506) eine Fokussitzung in Bezug auf das erste Zielgerät (oder die Gerätegruppe) ein. Das sprachaktivierte Gerät 404 (z. B. das Fokussitzungsmodul 252) richtet eine Fokussitzung 418 mit dem „Spieleraum-Fernseh“-Gerät 410 als dem in-Fokus-Gerät ein.
  • Das erste elektronische Gerät veranlasst (508), dass der erste Vorgang durch das erste Zielgerät (oder die Gerätegruppe) über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 überträgt einen Befehl über den Sprachunterstützungsdienst 140 zu Gerät 410, um den in Spracheingabe 403 angefragten Vorgang auszuführen.
  • Das erste elektronische Gerät empfängt (510) einen zweiten Sprachbefehl, der eine Anfrage nach einem zweiten Vorgang beinhaltet. Das sprachaktivierte Gerät 404 empfängt eine zweite Spracheingabe 420.
  • Das erste elektronische Gerät bestimmt (512), dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts (oder einer Gerätegruppe) beinhaltet. Das sprachaktivierte Gerät 404 bestimmt (z. B. basierend auf Verarbeiten durch das Sprachverarbeitungsmodul 238) ein Zielgerät für die Spracheingabe 420, und erkennt, dass die Spracheingabe 420 keine Zielgerätespezifikation beinhaltet.
  • Das erste elektronische Gerät bestimmt (514), dass der zweite Vorgang durch das erste Zielgerät (oder die Gerätegruppe) ausgeführt werden kann. Das sprachaktivierte Gerät 404 bestimmt, dass der in der Spracheingabe 420 angefragte Vorgang durch das in-Fokus-Gerät 410 ausgeführt werden kann, und mit dem in Spracheingabe 403 angefragten letzten Vorgang konsistent ist, und durch das in-Fokus-Gerät 410 ausgeführt wird.
  • Das erste elektronische Gerät bestimmt (516), ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt. Das sprachaktivierte Gerät 404 bestimmt, ob die Spracheingabe 420 innerhalb einer bestimmten Zeit von der Spracheingabe 403 empfangen wird.
  • Gemäß einer Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, veranlasst das erste elektronische Gerät (518), dass der zweite Vorgang durch das erste Zielgerät (oder die Gerätegruppe) über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Das sprachaktivierte Gerät 404 bestimmt, dass die Spracheingabe 420 innerhalb eines ersten kürzeren Zeitschwellenwerts von Spracheingabe 403 empfangen wird, und stellt gemäß dieser Bestimmung das Zielgerät für die Spracheingabe 420 dahingehend ein, dass es das in-Fokus-Gerät 410 ist. Das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 überträgt einen Befehl über den Sprachunterstützungsdienst 140 zu Gerät 410, um den in Spracheingabe 420 angefragten Vorgang auszuführen.
  • In einigen Implementierungen beinhaltet Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten Erhalten einer ausdrücklichen Bezeichnung des ersten Zielgeräts von dem ersten Sprachbefehl. Das sprachaktivierte Gerät 404 kann die Spracheingabe 403 vorverarbeiten, um zu bestimmen, ob die Spracheingabe 403 eine ausdrückliche Spezifikation von einem Zielgerät beinhaltet. Das sprachaktivierte Gerät 404 kann alternativ die ausdrückliche Spezifikation von einem Zielgerät von dem Sprachunterstützungsserversystem 112 empfangen, das die Spracheingabe 403 verarbeitete.
  • In einigen Implementierungen beinhaltet Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten Bestimmen, dass der erste Sprachbefehl keine ausdrückliche Bestimmung des ersten Zielgeräts beinhaltet, Bestimmen, dass der erste Vorgang durch ein zweites elektronisches Gerät aus der lokalen Gruppe von verbundenen elektronischen Geräten ausgeführt werden kann, und Auswählen des zweiten elektronischen Geräts als das erste Zielgerät. Wenn die erste Spracheingabe keine ausdrückliche Spezifikation eines Ziels beinhaltet, sondern die innerhalb der ersten Spracheingabe beinhaltete Anfrage eine ist, die durch ein einzelnes Gerät innerhalb der Gruppe ausgeführt werden kann (z. B. ein videobezogener Befehl, und wenn es nur ein videofähiges Gerät in der Gruppe gibt), dann wird das einzelne Gerät als das Zielgerät für die erste Spracheingabe eingestellt. Weiterhin ist in einigen Implementierungen, wenn es außer dem sprachaktivierten Gerät nur ein steuerbares Gerät gibt, das steuerbare Gerät das Standardzielgerät für Spracheingaben, die nicht ausdrücklich ein Zielgerät spezifizieren, und deren angefragte Vorgänge durch das steuerbare Gerät ausgeführt werden können.
  • In einigen Implementierungen kann die Spracheingabehistorie eines Benutzers (z. B. durch das Sprachunterstützungsserversystem 112 gesammelt und im Speicher 306 gespeichert, von dem sprachaktivierten Gerät 104 gesammelt, und im Speicher 206 gespeichert) analysiert werden (z. B. durch das Sprachunterstützungsserversystem 112 oder das sprachaktivierte Gerät 104), um zu bestimmen, ob die Historie zeigt, dass ein bestimmtes sprachaktiviertes Gerät 104 häufig verwendet wird, um ein spezifisches steuerbares Gerät 106 zu steuern. Wenn die Historie eine solche Beziehung darstellt, dann kann das spezifische steuerbare Gerät als ein Standardzielgerät für Spracheingaben zu dem sprachaktivierten Gerät eingestellt werden.
  • In einigen Implementierungen wird eine Spezifikation (z. B. ein Bezeichner) eines Standardzielgeräts in dem sprachaktivierten Gerät 104 und/oder dem Sprachunterstützungsserversystem 112 gespeichert.
  • In einigen Implementierungen gemäß der Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Ausdehnen der Fokussitzung in Bezug auf das erste Zielgerät. In einigen Implementierungen hält eine Fokussitzung (d. h. endet) nach einem bestimmten Zeitbetrag an. Die Fokussitzung 418 kann zeitmäßig ausgedehnt werden (z. B. nach dem Rücksetzen des Timeout-Timers), wenn die zweite Spracheingabe 420 die Fokussitzungs-Aufrechterhaltungskriterien erfüllt.
  • In einigen Implementierungen beinhaltet Einrichten der Fokussitzung in Bezug auf das erste Zielgerät Speichern eines Zeitstempels des ersten Sprachbefehls und Speichern eines Bezeichners des ersten Zielgeräts. Wenn eine Fokussitzung nach Empfangen der Spracheingabe 403 eingerichtet wird, speichert das sprachaktivierte Gerät 404 die Zeit der Spracheingabe 403 (z. B. in-Sitzungs-Befehlshistorie 260) und einen Bezeichner des in-Fokus-Geräts 410 (z. B. in-Sitzungs-in-Fokus-Gerät 256).
  • In einigen Implementierungen beinhalten die Fokussitzungs-Aufrechterhaltungskriterien ein Kriterium, dass der zweite Sprachbefehl von dem ersten elektronischen Gerät innerhalb eines ersten vordefinierten Zeitintervalls in Bezug auf Empfangen des ersten Sprachbefehls oder mit einem zweiten vordefinierten Zeitintervall in Bezug auf das Empfangen des ersten Sprachbefehls empfangen wird, wobei das zweite vordefinierte Zeitintervall auf das erste vordefinierte Zeitintervall folgt; und Bestimmen, ob der zweite Sprachbefehl das eine oder die mehreren Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Bestimmen beinhaltet, ob der zweite Sprachbefehl innerhalb des ersten vordefinierten Zeitintervalls oder des vordefinierten zweiten Zeitintervalls empfangen wird. Das sprachaktivierte Gerät 404 bestimmt, ob die Spracheingabe 420 eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt, beinhaltend, ob die Spracheingabe 420 innerhalb eines ersten Zeitschwellenwerts oder eines zweiten Zeitschwellenwerts der Spracheingabe 403 empfangen wird.
  • In einigen Implementierungen wählt das erste elektronische Gerät gemäß einer Bestimmung, dass der zweite Sprachbefehl innerhalb des ersten vordefinierten Zeitintervalls empfangen wird, das erste Zielgerät als ein Zielgerät für den zweiten Sprachbefehl aus. Wenn bestimmt wird, dass die Spracheingabe 420 innerhalb des ersten kürzeren Zeitschwellenwerts von der Spracheingabe 403 empfangen wird, dann wird das in-Fokus-Gerät 410 so eingestellt, dass es das Zielgerät für Spracheingabe 420 ist.
  • In einigen Implementierungen gibt das erste elektronische Gerät gemäß einer Bestimmung, dass der zweite Sprachbefehl innerhalb des zweiten vordefinierten Zeitintervalls empfangen wird, eine Anfrage zum Bestätigen des ersten Zielgeräts als ein Zielgerät für den zweiten Sprachbefehl aus; und wählt gemäß einer positiven Bestätigung des ersten Zielgeräts als Antwort auf eine Anfrage zur Bestätigung das erste Zielgerät als ein Zielgerät für den zweiten Sprachbefehl aus. Wenn bestimmt wird, dass die Spracheingabe 420 außerhalb des ersten kürzeren Zeitschwellenwerts, aber innerhalb des zweiten längeren Zeitschwellenwerts von der Spracheingabe 403 empfangen wird, fordert das sprachaktivierte Gerät den Benutzer zur Bestätigung eines Zielgeräts auf (z. B. fragt den Benutzer, ob das in-Fokus-Gerät 410 das beabsichtigte Zielgerät ist). Wenn der Benutzer bestätigt, dass das in-Fokus-Gerät 410 das beabsichtigte Zielgerät ist, wird das in-Fokus-Gerät 410 als das Zielgerät für Spracheingabe 420 eingestellt.
  • In einigen Implementierungen empfängt das erste elektronische Gerät einen dritten Sprachbefehl, der eine Anfrage nach einem dritten Vorgang und eine ausdrückliche Bezeichnung eines dritten Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet, beendet die Fokussitzung in Bezug auf das erste Zielgerät, richtet eine Fokussierungssitzung in Bezug auf das dritte Zielgerät ein und veranlasst, dass der dritte Vorgang durch das dritte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Das sprachaktivierte Gerät 404 kann eine neue Spracheingabe nach Spracheingabe 420 empfangen, die eine ausdrückliche Spezifikation eines Zielgeräts außer dem Gerät 410 (z. B. Gerät 406 oder 408) beinhaltet. Gemäß Empfang der Spracheingabe endet die Fokussitzung 418 mit Gerät 410 im Fokus, und eine neue Sitzung mit dem neuen Zielgerät im Fokus wird eingerichtet. Das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 überträgt einen Befehl über den Sprachunterstützungsdienst 140 zu dem neuen Zielgerät, um den in der neuen Spracheingabe angefragten Vorgang auszuführen.
  • In einigen Implementierungen ist das erste Zielgerät das erste elektronische Gerät. Das erste elektronische Gerät empfängt einen vierten Sprachbefehl, der eine Anfrage nach einem vierten Vorgang und eine ausdrückliche Bezeichnung eines vierten Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet, wobei das vierte Zielgerät ein drittes elektronisches Geräteelement der lokalen Gruppe von verbundenen elektronischen Geräten ist, das dritte elektronische Gerät anders als das erste elektronische Gerät ist; eine Fokussierungssitzung in Bezug auf das erste Zielgerät aufrechterhält, und veranlasst, dass der vierte Vorgang durch das vierte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Wenn das in-Fokus-Gerät für eine aktive Fokussitzung 418 bei dem sprachaktivierten Gerät 404 das sprachaktivierte Gerät 404 selbst ist, und dann eine neue Spracheingabe, die ein anderes Gerät spezifiziert, als das Ziel nach der Spracheingabe 420 empfangen wird, dann überträgt das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 einen Befehl über den Sprachunterstützungsdienst 140 an das andere Zielgerät, um den in der neuen Spracheingabe angefragten Vorgang auszuführen, aber die Fokussierungssitzung wird mit dem sprachaktivierten Gerät 404 im Fokus aufrechterhalten.
  • In einigen Implementierungen wird der zweite Sprachbefehl empfangen, nachdem veranlasst wird, dass der vierte Vorgang durch das vierte Zielgerät ausgeführt wird, der erste Vorgang ein Medienwiedergabevorgang ist, und der zweite Vorgang ein Medienstoppvorgang ist. Das erste elektronische Gerät empfängt einen fünften Sprachbefehl, der eine Anfrage nach einem fünften Vorgang und eine ausdrückliche Bezeichnung eines fünften Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet, wobei das fünfte Zielgerät das dritte elektronische Gerät ist; beendet die Fokussitzung in Bezug auf das erste Zielgerät; richtet eine Fokussierungssitzung in Bezug auf das fünfte Zielgerät ein und veranlasst, dass der fünfte Vorgang durch das fünfte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird. Wenn das in-Fokus-Gerät für eine aktive Fokussitzung 418 bei dem sprachaktivierten Gerät 404 das sprachaktivierte Gerät 404 selbst ist, und dann die Spracheingabe 403 eine Anfrage zum Initiieren von Medienwiedergabe beinhaltete, und die Spracheingabe 403 eine Anfrage zum Anhalten der Medienwiedergabe als ein Ergebnis von Spracheingabe 403 beinhaltete, und eine neue Spracheingabe, die ein anderes Gerät spezifiziert, als das Ziel nach der Spracheingabe 420 empfangen wird, dann überträgt das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 einen Befehl über den Sprachunterstützungsdienst 140 an das andere Zielgerät, um den in der neuen Spracheingabe angefragten Vorgang auszuführen, und die Fokussitzung mit dem sprachaktivierten Gerät im Fokus wird beendet, und eine neue Fokussitzung mit dem neuen Zielgerät im Fokus wird eingerichtet.
  • In einigen Implementierungen empfängt das erste elektronische Gerät einen fünften Sprachbefehl, der eine vordefinierte Vorgangsbeendigungsanfrage beinhaltet, und veranlasst gemäß dem Empfang des fünften Sprachbefehls, dass der erste Vorgang nicht mehr von dem ersten Zielgerät ausgeführt wird, und beendet die Fokussierungssitzung in Bezug auf das erste Zielgerät. Wenn das sprachaktivierte Gerät 404 einen vordefinierten Beendigungsbefehl (z. B. „STOPP“) empfängt, überträgt das sprachaktivierte Gerät 404 oder das Sprachunterstützungsserversystem 112 über den Sprachunterstützungsdienst 140 einen Befehl an das Gerät 410, um den Vorgang 416 zu beenden, und die Fokussitzung 418 wird beendet.
  • In einigen Implementierungen ist der erste Vorgang ein Medienwiedergabevorgang, und der zweite Vorgang ist einer von: einem Medienstoppvorgang, einem Medienrücklaufvorgang, einem Medienschnellvorlaufvorgang, einem Lautstärkeerhöhungsvorgang und einem Lautstärkeverringerungsvorgang. Die Anfrage in Spracheingabe 403 kann eine Anfrage zum Einleiten der Wiedergabe von Medieninhalt (z. B. Video, Musik) sein, und die Anfrage in Spracheingabe 420 kann eine Anfrage zum Steuern der Wiedergabe sein (z. B. Anhalten, Zurückspulen, Vorspulen, Ändern) Lautstärke hoch/runter, nächster Eintrag/Titel, vorheriger Eintrag/Titel, usw.)
  • In einigen Implementierungen ist der erste Vorgang ein Gerätestatusänderungsvorgang in einen ersten Status einer Vielzahl von Gerätestatus, und der zweite Vorgang ein Gerätestatusänderungsvorgang in einen zweiten Status einer Vielzahl von Gerätestatus. Die Anfrage in Spracheingabe 403 kann eine Anfrage sein, in einen ersten Status überzugehen (z. B. Licht oder Gerät einschalten, in den Energiesparmodus gehen), und die Anfrage in Spracheingabe 420 kann eine Anfrage sein, in einen zweiten Status überzugehen (z. B. Licht oder Gerät ausschalten, den Energiesparmodus verlassen).
  • In einigen Implementierungen ist der erste Vorgang ein Größenordnungsänderungsvorgang in einer ersten Richtung in einer Größenordnungsskala, und der zweite Vorgang ist ein Größenordnungsänderungsvorgang in einer zweiten Richtung in der Größenordnungsskala. Die Anfrage in Spracheingabe 403 kann eine Anfrage zum Ändern der Größenordnung in einer Richtung (z. B. Licht heller stellen, Lautstärke erhöhen) sein, und die Anfrage in Spracheingabe 420 kann eine Anfrage zum Ändern der Größenordnung in der entgegengesetzten Richtung sein (z. B. Licht dimmen, Lautstärke verringern).
  • In einigen Implementierungen beinhaltet das erste elektronische Gerät ein Array von einer oder mehreren LEDs. Das erste elektronische Gerät gibt einen Status der Fokussitzung durch Beleuchten einer oder mehrerer der LEDs in dem Array von LEDs an. Das sprachaktivierte Gerät 404 kann anzeigen, dass es eine aktive Fokussitzung oder andere Status und andere Informationen (z. B. eine Angabe darüber gibt, wie lange die Fokussierungssitzung aktiv war oder wie viel Zeit seit der letzten Spracheingabe verstrichen ist), die der Fokussitzung zugeordnet sind, indem Muster auf dem LED-Array angezeigt werden.
  • In einigen Implementierungen können Fokussitzungen pro identifiziertem Benutzer eingerichtet werden. Wenn beispielsweise ein Benutzer eine Spracheingabe spricht, die ein Zielgerät spezifiziert, dann wird der Benutzer identifiziert, und eine Fokussitzung wird in Bezug auf den identifizierten Benutzer eingerichtet, wobei das in der Spracheingabe spezifizierte Zielgerät im Fokus ist. Wenn ein anderer Benutzer eine Spracheingabe spricht und ein anderes Zielgerät spezifiziert, wird der andere Benutzer identifiziert, und eine andere Fokussitzung wird in Bezug auf den identifizierten Benutzer eingerichtet, wobei das andere Zielgerät im Fokus ist. Durch andere Benutzer gesprochene Spracheingaben, die kein Zielgerät spezifizieren, können anderen Zielgeräten basierend auf der aktiven Fokussitzung zugeordnet werden, die dem anderen identifizierten Benutzer entspricht. Beispiele für die Sprecheridentifikation sind in der U.S.-Patentanmeldung Nr. 15/284.476 mit dem Titel „Multi-User Personalization at a Voice Interface Device“ (Mehrbenutzerpersonalisierung bei einem Sprachschnittstellengerät), eingereicht am 3. Oktober 2016, beschrieben, die durch Bezugnahme hierin in ihrer Gesamtheit aufgenommen ist.
  • ZUSÄTZLICHE BEISPIELE VON FOKUSSITZUNGEN
  • Die nachfolgenden Implementierungen beschreiben Implementierungen in einem Kontext eines sprachaktivierten Geräts 104 in einem selben Raum wie ein oder mehrere steuerbare Geräte 106, die Mediengeräte sind. Es versteht sich, dass die nachfolgend beschriebenen Implementierungen an andere Arten von steuerbaren Geräten 106 (z. B. Smart Home-Geräte) und an andere Gerätepositionierungs-Setups angepasst werden können.
  • In einigen Implementierungen kann eine Fokussitzung gestartet werden, wobei das in-Fokus-Gerät ein steuerbares Gerät und nicht das sprachaktivierte Gerät ist, wenn nicht bereits auf dem sprachaktivierten Gerät Medien abgespielt werden. In einigen Implementierungen, wenn auf dem sprachaktivierten Gerät abgespielte Medien angehalten werden, kann eine Fokussitzung mit einem steuerbaren Gerät und nicht dem sprachaktivierten Gerät als in-Fokus-Gerät gestartet werden.
  • In einigen Implementierungen wird eine Fokussitzung gestartet, wenn der Benutzer eine beliebige gültige Anfrage ausgibt, die ein ausdrückliches Zielgerät hat, die an ein Gerät oder eine Gerätegruppe gerichtet ist, das/die dem sprachaktivierten Gerät (und optional in demselben WLAN-Netzwerk wie das sprachaktivierte Gerät) zugeordnet ist. Beispiele solcher gültiger Anfragen beinhalten „spiele etwas Musik auf meinen Wohnzimmerlautsprechern ab“, „erhöhe die Lautstärke bei dem Schlafzimmerfernseher“, „nächstes Lied in meiner Home-Gruppe“ und „halte die Wohnzimmerlautsprecher an“. Das ausdrückliche Zielgerät wird das in-Fokus-Gerät für die Fokussitzung.
  • In einigen Implementierungen, wenn die Anfrage klar eine Anfrage in Zusammenhang mit Video ist, und es ein einzelnes videofähiges Gerät unter den zugeordneten steuerbaren Geräten gibt, dann kann eine Fokussitzung mit dem videofähigen Gerät als dem in-Fokus-Gerät eingerichtet werden.
  • In einigen Implementierungen, wenn eine Anfrage mit einem anderen Gerät als dem Zielgerät empfangen wird, während das sprachaktivierte Gerät aktiv Medien abspielt, bleibt der Fokus auf dem sprachaktivierten Gerät, aber sobald das sprachaktivierte Gerät gestoppt wird oder seine Sitzung angehalten wird, bewegt jede neue Anfrage zum Abspielen oder Steuern von Medien auf einem anderen Gerät den Fokus auf das andere Gerät.
  • Beispielsweise fragt der Benutzer „spiele Lady Gaga ab“ an, und das sprachaktivierte Gerät startet das Abspielen von Lady Gaga-Musik und startet eine Fokussitzung mit dem sprachaktivierten Gerät im Fokus. Der Benutzer fragt dann „anhalten“ an, und das sprachaktivierte Gerät hält die Lady Gaga-Musik an (und hält die Fokussitzung für sagen wir 2 Stunden aufrecht). Nach Ablauf von 1 Stunde fragt der Benutzer dann „spiele Katzenvideos auf meinem Fernseher ab“ an. Der Fokus bewegt sich zu dem Fernseher und der Fernseher startet das Abspielen von Katzenvideos.
  • Als weiteres Beispiel fragt der Benutzer „spiele Lady Gaga ab“, und das sprachaktivierte Gerät startet das Abspielen von Lady Gaga-Musik und startet eine Fokussitzung mit dem sprachaktivierten Gerät im Fokus. Der Benutzer fragt dann „zeige Katzenvideos auf meinem Fernseher“ an, und dann werden die Katzenvideos auf dem Fernseher angezeigt, aber der Fokus bleibt auf dem sprachaktivierten Gerät. Der Benutzer fragt dann „nächstes“ ab, und das sprachaktivierte Gerät rückt zum nächsten Titel in der Lady Gaga-Musik gemäß der Anfrage vor. Der Benutzer fragt dann „anhalten“ an, und die Musik auf dem sprachaktivierten Gerät wird angehalten. Der Benutzer fragt dann „nächstes Dia auf meinem Fernseher“ an, und das nächste Dia erscheint auf dem Fernseher, und der Fokus wird auf den Fernseher übertragen.
  • In einigen Implementierungen beinhalten gültige Anfragen Initiieren von Musik, Initiieren von Video, Initiieren von Nachrichtenlesen (z. B. Lesen von Nachrichtenartikeln), Initiieren von Podcasts, Initiieren von Fotos (z. B. Fotoanzeige oder Diaschau) und jeden beliebigen Mediensteuerungsbefehl (anders als ein vordefinierter STOPP-Befehl, der jede aktuelle Fokussitzung beendet).
  • In einigen Implementierungen wird eine Fokussitzung beendet, wenn eines von Folgendem eintritt:
    • • Fokussitzung wird zu einem anderen Gerät übertragen (über Spracheingabe, z. B. Spracheingabe, die ausdrücklich das andere Gerät spezifiziert), und in diesem Fall wird eine Fokussitzung mit dem anderen Gerät gestartet;
    • • Fokussitzung startet oder wird (aus dem Anhaltestatus heraus) auf dem sprachaktivierten Gerät über Spracheingabe oder Casting von einem anderen Gerät wieder aufgenommen (z. B. über Sprache „Spiele Lady Gaga auf <Spitzname des sprachaktivierten Geräts> ab“, „Spiele Lady Gaga lokal ab“ usw. über Casting: der Benutzer castet Inhalt zu dem sprachaktivierten Gerät über eine Anwendung auf einem Client-Gerät);
      • o wenn jedoch das sprachaktivierte Gerät ein Mitglied (Nachfolger oder Leiter) der Gruppe ist, das bald mit dem Abspielen von Medien beginnen wird, dann wird es nicht wird es nicht den Fokus stoppen (selbst wenn es abspielt). Somit wird der Fokus auf dem Leiter der Gruppe bleiben (der ein anderes sprachaktiviertes Gerät sein kann);
    • • wenn die Anfrage ein vordefinierter „STOPP“-Befehl (einschließlich aller relevanten Grammatik) an das steuerbare Gerät ist, das im Fokus ist;
    • • mit Timeout zusammenhängende Befehle:
      • ○ Timeouts können von der letzten Anfrage oder dem Befehl gemessen werden, die/der dem steuerbaren Gerät gegeben wurde, ob das steuerbare Gerät ausdrücklich spezifiziert oder basierend auf dem in-Fokus-Gerät der Fokussitzung eingestellt wird, außer dem vordefinierten „STOPP“-Befehl;
      • ○ Timeout kann 240 Minuten über die unterschiedlichen möglichen Befehle sein; und
    • • wenn der Benutzer eine Taste auf dem sprachaktivierten Gerät drückt, die zum Anhalten/Abspielen verwendet wird (dadurch wird außerdem jeder angehaltene Inhalt lokal auf dem sprachaktivierten Gerät wieder aufgenommen).
  • In einigen Implementierungen fragt das sprachaktivierte Gerät Benutzerbestätigung des Zielgeräts an. Der Benutzer wird wie folgt zum Bestätigen aufgefordert, wenn er Medien auf einem steuerbaren Gerät abspielen möchte:
    • • Die Aufforderung wird für Medieninitiierung ausgelöst (z. B. Musik starten, wenn kein Abspielen erfolgt ist) (im Gegensatz zur Mediensteuerung, z. B. schneller Vorlauf oder nächster Titel);
    • • Die Aufforderung wird ausgelöst, wenn eine Fokussitzung aktiv ist; und
    • • Der Befehl wird ausgelöst, wenn einige Zeit (z. B. 20 Minuten) von dem letzten Sprachbefehl von dem sprachaktivierten Gerät verstrichen ist, der an das steuerbare Gerät gegeben wurde, ob das steuerbare Gerät ausdrücklich spezifiziert oder basierend auf dem in-Fokus-Gerät der Fokussitzung eingestellt wird, außer dem vordefinierten „STOPP“-Befehl.
  • Die Aufforderung zum Bestätigen kann beispielsweise sein:
    • • Das sprachaktivierte Gerät gibt aus „Soll ich auf <Name des steuerbaren Geräts> abspielen?“
      • ○ Der Benutzer antwortet „Ja“. Dann werden die angefragten Medien auf dem steuerbaren in-Fokus-Gerät abgespielt, und der Fokus wird auf dem Gerät aufrechterhalten.
      • ○ Der Benutzer antwortet „Nein“. Dann werden die angefragten Medien auf dem steuerbaren in-Fokus-Gerät abgespielt, und die Fokussitzung wird beendet.
      • ○ Ansonsten: wenn beispielsweise die Antwort des Benutzers unklar ist, kann das sprachaktivierte Gerät ausgeben „Entschuldigung, ich konnte Ihre Antwort nicht verstehen.“
  • In einigen Implementierungen, wenn eine Fokussitzung initiiert wird, werden Medieninitiierung und sprachbasierte Steuerbefehle auf das steuerbare in-Fokus-Gerät angewandt. Nicht-Medien-Anfragen (z. B. Suchen, Fragen) werden durch das sprachaktivierte Gerät beantwortet, und die Nicht-Medien-Anfragen beenden die Fokussitzung nicht.
  • In einigen Implementierungen, selbst wenn eine Fokussitzung gestartet ist, werden physische Interaktionen immer noch das sprachaktivierte Gerät steuern, sodass physische Interaktion (z. B. Drücken einer Taste, Berühren eines berührungsempfindlichen Bereichs) mit dem sprachaktivierten Gerät zum Ändern der Lautstärke und Anhalten/Abspielen das sprachaktivierte Gerät, und nicht notwendigerweise das steuerbare Gerät beeinflusst.
  • In einigen Implementierungen haben Anfragen oder Befehle, die an Timer/Alarme/Text-zu-Sprache-Wiedergabe auf dem sprachaktivierten Gerät ausgegeben werden, höhere Priorität als ähnliche Anfragen oder Befehle an das steuerbare in-Fokus-Gerät. Wenn beispielsweise das sprachaktivierte Gerät für einen Timer oder einen Alarm klingelt und der Benutzer „Stopp“ äußert, stoppt das sprachaktivierte Gerät den Timer oder das Alarmklingeln. Wenn der Benutzer dann äußert „Lautstärke <erhöhen/verringern>“, wird der Timer oder das Alarmklingeln immer noch gestoppt, und die Lautstärke auf dem steuerbaren Gerät wird erhöht oder verringert.
  • Als ein anderes Beispiel, wenn das sprachaktivierte Gerät Text-zu-Sprache abspielt (z. B. Auslesen der E-Mails des Benutzers), und der Benutzer „Stopp“ äußert, stoppt das sprachaktivierte Gerät das Lesen von Text-zu-Sprache. Wenn der Benutzer dann äußert „Lautstärke <erhöhen/verringern>“, wird die Lautstärke auf dem steuerbaren Gerät erhöht oder verringert.
  • Wenn das sprachaktivierte Gerät im Leerlauf ist, angehalten wird oder appgeladen ist, und der Benutzer „Stopp“ äußert, werden als weiteres Beispiel auf dem steuerbaren Gerät abgespielte Medien gestoppt, und die Fokussitzung wird beendet. Wenn der Benutzer dann äußert „Lautstärke <erhöhen/verringern>“, wird die Lautstärke auf dem steuerbaren Gerät erhöht oder verringert.
  • Gemäß einer beispielhaften Ausführungsform beinhaltet ein Verfahren bei einem ersten elektronischen Gerät einer lokalen Gruppe von verbundenen elektronischen Geräten: Empfangen eines ersten Sprachbefehls, beinhaltend eine Anfrage nach einem ersten Vorgang; Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe; Einrichten einer Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der erste Vorgang durch das erste Zielgerät ausgeführt wird; Empfangen eines zweiten Sprachbefehls, beinhaltend eine Anfrage nach einem zweiten Vorgang; Bestimmen, dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts beinhaltet; Bestimmen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt werden kann; Bestimmen, ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt; und wenn der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Veranlassen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt wird.
  • Auf Implementierungen wurde detailliert Referenz genommen, Beispiele hiervon werden in den beigefügten Zeichnungen dargestellt. In der obigen ausführlichen Beschreibung wurden zahlreiche spezifische Details dargelegt, um ein gründliches Verständnis der verschiedenen beschriebenen Implementierungen bereitzustellen. Es wird jedoch für jede fachkundige Person ersichtlich sein, dass die verschiedenen beschriebenen Implementierungen ohne diese spezifischen Details praktiziert werden können. In anderen Fällen wurden bekannte Verfahren, Vorgänge, Komponenten, Schaltungen und Netzwerke nicht ausführlich beschrieben, um die Beschreibung der Aspekte der Implementierungen nicht unnötig unklar zu gestalten.
  • Es versteht sich auch, dass obgleich die Begriffe erste, zweite usw. in einigen Fällen hier verwendet werden können, um verschiedene Elemente zu beschreiben, die verschiedenen Elemente nicht durch diese Begriffe eingeschränkt werden sollten. Diese Begriffe werden nur dazu verwendet, ein Element vom anderen zu unterscheiden. Beispielsweise könnte ein erstes Gerät als ein zweites Gerät bezeichnet werden, und auf ähnliche Weise könnte ein zweites Gerät als ein erstes Gerät bezeichnet werden, ohne von dem Umfang der unterschiedlichen beschriebenen Implementierungen abzuweichen. Das erste Gerät und das zweite Gerät sind beides Typen von Geräten, aber sie sind nicht dasselbe Gerät.
  • Die in der Beschreibung verwendete Terminologie der unterschiedlichen beschriebenen Implementierungen dient lediglich dem Zweck der Beschreibung bestimmter Implementierungen und soll nicht einschränkend sein. Wie in der Beschreibung der unterschiedlichen Implementierungen und den beigefügten Patentansprüchen verwendet, sollen die Singularformen „ein(e)“ und „der/die/das“ ebenso die Pluralformen beinhalten, sofern der Zusammenhang nicht eindeutig etwas anderes vorgibt. Es ist außerdem selbstverständlich, dass der wie hierin verwendete Begriff „und/oder“ sich auf jegliche und alle möglichen Kombinationen einer oder mehrerer verbundener aufgeführter Elemente bezieht und diese beinhaltet. Es versteht sich ferner, dass die Begriffe „beinhaltet“, „beinhaltend“„umfasst“ und/oder „umfassend“, sofern in dieser Spezifikation verwendet, das Vorhandensein der angegebenen Funktionen, Ganzzahlen, Schritte, Operationen, Elemente und/oder Komponenten angeben, jedoch nicht das Vorhandensein oder Hinzufügen einer oder mehreren anderen Funktionen, Ganzzahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen derselben ausschließen.
  • Wie hierin verwendet, kann die Bedeutung des Begriffs „falls“ in Abhängigkeit von dem Kontext optional ausgelegt werden als „wenn“ oder „bei“ oder „als Antwort auf Bestimmen“ oder „als Antwort auf Erkennen“ oder „gemäß einer Bestimmung, dass“. In ähnlicher Weise ist der Ausdruck „wenn bestimmt wird“ oder „wenn [ein bestimmter Zustand oder ein Ereignis] erkannt wird“ optional als „bei Bestimmen“ oder „als Antwort auf Bestimmen“ oder „bei Erkennen [des angegebenen Zustands oder Ereignisses]“ oder „als Antwort auf Erkennen [des angegebenen Zustands oder des Ereignisses]“ oder „gemäß einer Bestimmung, dass [ein angegebener Zustand oder ein bestimmtes Ereignis] erkannt wird“, anzusehen, in Abhängigkeit von dem Kontext.
  • Bei Situationen, in denen die oben abgehandelten Geräte Informationen über Benutzer sammeln, kann den Benutzern eine Gelegenheit zum Anmelden in/Abmelden von Programmen oder Funktionen bereitgestellt werden, die persönliche Informationen sammeln (z. B. Informationen über Voreinstellungen eines Benutzers oder Verwendung eines intelligenten Geräts). Zusätzlich können in einigen Implementierungen gewisse Daten auf einem oder mehreren Wegen anonymisiert werden, bevor sie gespeichert oder verwendet werden, sodass personenbezogene Informationen entfernt werden. Beispielsweise kann die Identität eines Benutzers anonymisiert werden, sodass die persönlich identifizierbaren Informationen nicht für den Benutzer bestimmt oder ihm nicht zugeordnet werden können, und sodass Benutzervoreinstellungen oder Benutzerinteraktionen verallgemeinert (z. B. verallgemeinert basierend auf Demographie des Benutzers) und einem bestimmten Benutzer zugeordnet werden.
  • Obgleich einige unterschiedliche Zeichnungen eine Anzahl logischer Zustände in einer bestimmten Reihenfolge darstellen, können Zustände, die nicht von der Reihenfolge abhängig sind, neu geordnet werden und andere Zustände können kombiniert oder herausgenommen werden. Obwohl einige Umordnungen oder andere Gruppierungen extra aufgeführt werden, sind andere offensichtlich für Fachleute, sodass die hierin präsentierten Ordnungen und Gruppierungen keine vollständige Liste an Alternativen darstellen. Es sollte überdies erkannt werden, dass die Zustände in Hardware, Firmware, Software oder jegliche Kombination hiervon implementiert werden.
  • Die vorstehende Beschreibung wurde zum Zweck der Erklärung unter Bezugnahme auf spezifische Implementierungen beschrieben. Die obigen veranschaulichenden Erörterungen sollen jedoch nicht allumfassend sein oder den Umfang der Ansprüche genau auf die offenbarten Formen beschränken. Im Hinblick auf die vorstehenden Anleitungen ist eine Vielzahl von Modifizierungen und Varianten möglich. Die Implementierungen wurden ausgewählt, um die den Ansprüchen zugrundeliegenden Prinzipien und ihre praktische Anwendung bestmöglich zu erläutern, um dadurch anderen Fachleuten die bestmögliche Verwendung der Implementierungen mit unterschiedlichen Modifikationen zu ermöglichen, wie sie für die bestimmte vorgesehene Verwendung geeignet sind.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62336566 [0028]
    • US 62334434 [0059]
    • US 15284476 [0100]

Claims (18)

  1. Verfahren, umfassend: bei einem ersten elektronischen Gerät mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und Speicher, der ein oder mehrere Programme zum Ausführen durch den einen oder die mehreren Prozessoren speichert, wobei das erste elektronische Gerät ein Element einer lokalen Gruppe von verbundenen elektronischen Geräten ist, die kommunikativ mit einem gemeinsamen Netzwerkdienst verbunden sind: Empfangen eines ersten Sprachbefehls, beinhaltend eine Anfrage nach einem ersten Vorgang; Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten; Einrichten einer Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der erste Vorgang durch das erste Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird; Empfangen eines zweiten Sprachbefehls, beinhaltend eine Anfrage nach einem zweiten Vorgang; Bestimmen, dass der zweite Sprachbefehl keine ausdrückliche Bezeichnung eines zweiten Zielgeräts beinhaltet; Bestimmen, dass der zweite Vorgang durch das erste Zielgerät ausgeführt werden kann; Bestimmen, ob der zweite Sprachbefehl eines oder mehrere Fokussitzungs-Aufrechterhaltungskriterien erfüllt; und gemäß einer Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Veranlassen, dass der zweite Vorgang durch das erste Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
  2. Verfahren nach Anspruch 1, wobei Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten umfasst: Erhalten einer ausdrücklichen Bezeichnung des ersten Zielgeräts von dem ersten Sprachbefehl.
  3. Verfahren nach Anspruch 1, wobei Bestimmen eines ersten Zielgeräts für den ersten Vorgang aus der lokalen Gruppe von verbundenen elektronischen Geräten umfasst: Bestimmen, dass der erste Sprachbefehl keine ausdrückliche Bezeichnung eines ersten Zielgeräts beinhaltet; Bestimmen, dass der erste Vorgang durch ein zweites elektronisches Gerät aus der lokalen Gruppe von verbundenen elektronischen Geräten ausgeführt werden kann; und Auswählen des zweiten elektronischen Geräts als das erste Zielgerät.
  4. Verfahren nach einem der Ansprüche 1-3, weiterhin umfassend: gemäß der Bestimmung, dass der zweite Sprachbefehl die Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Ausdehnen der Fokussitzung in Bezug auf das erste Zielgerät.
  5. Verfahren nach einem der Ansprüche 1-4, wobei Einrichten der Fokussitzung in Bezug auf das erste Zielgerät umfasst: Speichern eines Zeitstempels des ersten Sprachbefehls; und Speichern eines Bezeichners des ersten Zielgeräts.
  6. Verfahren nach einem der Ansprüche 1-5, wobei: die Fokussitzungs-Aufrechterhaltungskriterien ein Kriterium beinhalten, dass der zweite Sprachbefehl von dem ersten elektronischen Gerät innerhalb eines ersten vordefinierten Zeitintervalls in Bezug auf Empfangen des ersten Sprachbefehls oder mit einem zweiten vordefinierten Zeitintervall in Bezug auf das Empfangen des ersten Sprachbefehls empfangen wird, wobei das zweite vordefinierte Zeitintervall auf das erste vordefinierte Zeitintervall folgt; und Bestimmen, ob der zweite Sprachbefehl das eine oder die mehreren Fokussitzungs-Aufrechterhaltungskriterien erfüllt, Bestimmen umfasst, ob der zweite Sprachbefehl innerhalb des ersten vordefinierten Zeitintervalls oder des vordefinierten zweiten Zeitintervalls empfangen wird.
  7. Verfahren nach Anspruch 6, weiterhin umfassend: gemäß einer Bestimmung, dass der zweite Sprachbefehl innerhalb des ersten vordefinierten Zeitintervalls empfangen wird, Auswählen des ersten Zielgeräts als ein Zielgerät für den zweiten Sprachbefehl.
  8. Verfahren nach Anspruch 6, weiterhin umfassend: gemäß einer Bestimmung, dass der zweite Sprachbefehl innerhalb des zweiten vordefinierten Zeitintervalls empfangen wird, Ausgeben einer Anfrage, das erste Zielgerät als ein Zielgerät für den zweiten Sprachbefehl zu bestätigen; und gemäß einer positiven Bestätigung des ersten Zielgeräts als Antwort auf die Anfrage, Auswählen des ersten Zielgeräts als ein Zielgerät für den zweiten Sprachbefehl.
  9. Verfahren nach einem der Ansprüche 1-8, weiterhin umfassend: Empfangen eines dritten Sprachbefehls, beinhaltend eine Anfrage nach einem dritten Vorgang und eine ausdrückliche Bezeichnung eines dritten Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten; Beenden der Fokussitzung in Bezug auf das erste Zielgerät; Einrichten einer Fokussitzung in Bezug auf das dritte Zielgerät; und Veranlassen, dass der dritte Vorgang durch das dritte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
  10. Verfahren nach einem der Ansprüche 1-9, wobei das erste Zielgerät das erste elektronische Gerät ist; und die Verfahren weiterhin umfasst: Empfangen eines vierten Sprachbefehls, der eine Anfrage nach einem vierten Vorgang und eine ausdrückliche Bezeichnung eines vierten Zielgeräts aus der lokalen Gruppe von verbundenen elektronischen Geräten beinhaltet, wobei das vierte Zielgerät ein drittes elektronisches Geräteelement der lokalen Gruppe von verbundenen elektronischen Geräten ist, das dritte elektronische Gerät anders als das erste elektronische Gerät ist; Aufrechterhalten der Fokussitzung in Bezug auf das erste Zielgerät; Veranlassen, dass der vierte Vorgang durch das vierte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
  11. Verfahren nach Anspruch 10, wobei: der zweite Sprachbefehl empfangen wird, nachdem veranlasst wird, dass der vierte Vorgang durch das vierte Zielgerät ausgeführt wird; der erste Vorgang ein Medienwiedergabevorgang ist; und der zweite Vorgang ein Medienstoppvorgang ist; und das Verfahren weiterhin umfasst: Empfangen eines fünften Sprachbefehls, beinhaltend eine Anfrage nach einem fünften Vorgang und eine ausdrückliche Bezeichnung eines fünften Zielgeräts in der lokalen Gruppe von verbundenen elektronischen Geräten; wobei das fünfte Zielgerät das dritte elektronische Gerät ist; Beenden der Fokussitzung in Bezug auf das erste Zielgerät; Einrichten einer Fokussitzung in Bezug auf das fünfte Zielgerät; und Veranlassen, dass der fünfte Vorgang durch das fünfte Zielgerät über den Betrieb des gemeinsamen Netzwerkdienstes ausgeführt wird.
  12. Verfahren nach einem der Ansprüche 1-11, weiterhin umfassend: Empfangen eines fünften Sprachbefehls, beinhaltend eine vordefinierte Vorgangsbeendigungsanfrage; und gemäß Empfangen des fünften Sprachbefehls: Veranlassen, dass der erste Vorgang nicht mehr durch das erste Zielgerät ausgeführt wird; und Beenden der Fokussitzung in Bezug auf das erste Zielgerät.
  13. Verfahren nach einem der Ansprüche 1-12, wobei: der erste Vorgang ein Medienwiedergabevorgang ist; und der zweite Vorgang einer ist von: einem Medienstoppvorgang, einem Medienrücklaufvorgang, einem Medienschnellvorlaufvorgang, einem Lautstärkeerhöhungsvorgang und einem Lautstärkeverringerungsvorgang.
  14. Verfahren nach einem der Ansprüche 1-12, wobei: der erste Vorgang ein Gerätestatusänderungsvorgang in einen ersten Status einer Vielzahl von Gerätestatus ist; und der zweite Vorgang ein Gerätestatusänderungsvorgang in einen zweiten Status einer Vielzahl von Gerätestatus ist.
  15. Verfahren nach einem der Ansprüche 1-12, wobei: der erste Vorgang ein Größenordnungsänderungsvorgang in einer ersten Richtung in einer Größenordnungsskala ist; und der zweite Vorgang ein Größenordnungsänderungsvorgang in einer zweiten Richtung in der Größenordnungsskala ist.
  16. Verfahren nach einem der Ansprüche 1-12, wobei das erste Zielgerät ein Array von einer oder mehreren LEDs ist; und das Verfahren weiterhin umfasst: Angeben eines Status der Fokussitzung durch Beleuchten einer oder mehrerer der LEDs in dem Array von LEDs.
  17. Elektronisches Gerät, umfassend: ein oder mehrere Mikrofone; einen Lautsprecher; einen oder mehrere Prozessoren; und Speicher, der das eine oder die mehreren Programme zum Ausführen durch den einen oder die mehreren Prozessoren speichert, wobei das eine oder die mehreren Programme Anweisungen zum Ausführen des Verfahrens nach einem der Ansprüche 1-16 umfassen,.
  18. Nicht transitorisches computerlesbares Speichermedium, das ein oder mehrere Programme speichert, wobei das eine oder die mehreren Programme Anweisungen beinhalten, die bei Ausführung von einem elektronischen Gerät mit einem oder mehreren Mikrofonen, einem Lautsprecher und einem oder mehreren Prozessoren, das elektronische Gerät zum Ausführen von Vorgängen des Verfahrens nach einem der Ansprüche 1-16 veranlassen.
DE102017125745.4A 2016-11-03 2017-11-03 Fokussitzung an einem Sprachschnittstellengerät Pending DE102017125745A1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662417281P 2016-11-03 2016-11-03
US62/417,281 2016-11-03
US15/801,307 US10783883B2 (en) 2016-11-03 2017-11-01 Focus session at a voice interface device
US15/801,307 2017-11-01

Publications (1)

Publication Number Publication Date
DE102017125745A1 true DE102017125745A1 (de) 2018-05-03

Family

ID=60664673

Family Applications (2)

Application Number Title Priority Date Filing Date
DE202017106668.1U Active DE202017106668U1 (de) 2016-11-03 2017-11-03 Fokussitzung an einem Sprachschnittstellengerät
DE102017125745.4A Pending DE102017125745A1 (de) 2016-11-03 2017-11-03 Fokussitzung an einem Sprachschnittstellengerät

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE202017106668.1U Active DE202017106668U1 (de) 2016-11-03 2017-11-03 Fokussitzung an einem Sprachschnittstellengerät

Country Status (8)

Country Link
US (3) US10783883B2 (de)
EP (2) EP3940694A1 (de)
JP (2) JP7130637B2 (de)
KR (1) KR102242917B1 (de)
CN (2) CN108022590B (de)
DE (2) DE202017106668U1 (de)
GB (1) GB2558066B (de)
WO (1) WO2018085671A1 (de)

Families Citing this family (233)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US8867106B1 (en) 2012-03-12 2014-10-21 Peter Lancaster Intelligent print recognition system and method
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
EP3531714B1 (de) 2015-09-17 2022-02-23 Sonos Inc. Erleichtern der kalibrierung einer audiowiedergabevorrichtung
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10839795B2 (en) * 2017-02-15 2020-11-17 Amazon Technologies, Inc. Implicit target selection for multiple audio playback devices in an environment
US10264358B2 (en) 2017-02-15 2019-04-16 Amazon Technologies, Inc. Selection of master device for synchronized audio
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10258295B2 (en) * 2017-05-09 2019-04-16 LifePod Solutions, Inc. Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) * 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
KR102543693B1 (ko) * 2017-10-17 2023-06-16 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11182122B2 (en) * 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11201849B2 (en) * 2018-01-15 2021-12-14 Lenovo (Singapore) Pte. Ltd. Natural language connectivity
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10425780B1 (en) * 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10425781B1 (en) 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10616726B1 (en) 2018-02-22 2020-04-07 Amazon Technologies, Inc. Outputing notifications using device groups
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108566634B (zh) * 2018-03-30 2021-06-25 深圳市冠旭电子股份有限公司 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
EP3803856A4 (de) * 2018-06-05 2021-07-21 Voicify, LLC Sprachanwendungsplattform
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US11437029B2 (en) 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
CN110634477B (zh) * 2018-06-21 2022-01-25 海信集团有限公司 一种基于场景感知的上下文判断方法、装置及***
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109005383A (zh) * 2018-07-06 2018-12-14 杭州涂鸦信息技术有限公司 一种随处播放iot监控视频流的方法
US11373640B1 (en) * 2018-08-01 2022-06-28 Amazon Technologies, Inc. Intelligent device grouping
JP7027281B2 (ja) * 2018-08-10 2022-03-01 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
KR20230145521A (ko) 2018-08-23 2023-10-17 구글 엘엘씨 멀티-어시스턴트 환경의 특성에 따른 어시스턴트 응답성 규정하기
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10871935B2 (en) * 2018-09-18 2020-12-22 Roku, Inc. Audio cancellation and content recognition of audio received over HDMI/ARC
US10812751B2 (en) 2018-09-18 2020-10-20 Roku, Inc. Dynamically switching to/from a first network during audio playback over HDMI/ARC
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
GB2577879B (en) * 2018-10-08 2022-08-24 B & W Group Ltd Content playback system
JP2020060951A (ja) * 2018-10-10 2020-04-16 三菱電機株式会社 制御装置、機器制御システム、機器制御方法及びプログラム
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (de) 2018-11-15 2020-05-20 Snips Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung
US11694130B2 (en) 2018-11-21 2023-07-04 Honda Motor Co., Ltd. System and method for assigning an agent to execute and fulfill a task request
US11687850B2 (en) * 2018-11-21 2023-06-27 Honda Motor Co., Ltd System and method for processing a task request to be executed and fulfilled
US10944588B2 (en) 2018-11-29 2021-03-09 International Business Machines Corporation Resolving conflicting commands received by an electronic device
US11575762B2 (en) * 2018-12-05 2023-02-07 Yahoo Assets Llc Subscription-based message selection and transmission
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
CN109788360A (zh) * 2018-12-12 2019-05-21 百度在线网络技术(北京)有限公司 基于语音的电视控制方法和装置
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200074690A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109637535B (zh) * 2018-12-26 2021-05-25 珠海格力电器股份有限公司 语音指令的处理方法、装置和智能终端
CN109473109A (zh) * 2018-12-29 2019-03-15 深圳Tcl新技术有限公司 数据处理方法、装置及计算机可读存储介质
US11024310B2 (en) * 2018-12-31 2021-06-01 Sling Media Pvt. Ltd. Voice control for media content search and selection
CN109634132A (zh) * 2019-01-03 2019-04-16 深圳壹账通智能科技有限公司 智能家居管理方法、装置、介质及电子设备
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
WO2020162948A1 (en) * 2019-02-08 2020-08-13 Google Llc Adapting to differences in device state reporting of third party servers
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
JP7266418B2 (ja) * 2019-02-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
JP7211856B2 (ja) * 2019-03-11 2023-01-24 本田技研工業株式会社 エージェント装置、エージェントシステム、サーバ装置、エージェント装置の制御方法、およびプログラム
EP3709194A1 (de) 2019-03-15 2020-09-16 Spotify AB Ensemblebasierter datenvergleich
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US20200349940A1 (en) * 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Server for determining target device based on speech input of user and controlling target device, and operation method of the server
WO2020222539A1 (en) 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US10996917B2 (en) 2019-05-31 2021-05-04 Apple Inc. User interfaces for audio media control
JP7075547B2 (ja) 2019-05-31 2022-05-25 アップル インコーポレイテッド オーディオメディア制御のためのユーザインタフェース
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US10802843B1 (en) * 2019-05-31 2020-10-13 Apple Inc. Multi-user configuration
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
KR102245953B1 (ko) * 2019-06-05 2021-04-28 엘지전자 주식회사 복수의 전자기기의 제어방법
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
KR20210001082A (ko) * 2019-06-26 2021-01-06 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US11122423B2 (en) 2019-06-26 2021-09-14 Vmware, Inc. Proximity based authentication of a user through a voice assistant device
CN112187590A (zh) * 2019-07-02 2021-01-05 百度在线网络技术(北京)有限公司 控制方法、装置、设备和计算机可读存储介质
CN110415696A (zh) * 2019-07-26 2019-11-05 广东美的制冷设备有限公司 语音控制方法、电器控制装置、电器及电器控制***
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11295745B1 (en) * 2019-09-04 2022-04-05 Amazon Technologies, Inc. Multi-tasking and skills processing
US10827028B1 (en) * 2019-09-05 2020-11-03 Spotify Ab Systems and methods for playing media content on a target device
JP7262142B2 (ja) 2019-09-18 2023-04-21 ヨプ リ,ジョン 複数の音声システムが装着されたオンラインメディアサービス具現方法
KR102111360B1 (ko) * 2019-09-18 2020-05-18 이종엽 다중 음성시스템이 장착된 온라인미디어 서비스 구현 방법
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110769319B (zh) * 2019-10-22 2022-05-10 思必驰科技股份有限公司 待机唤醒交互方法和装置
US11570165B2 (en) 2019-12-09 2023-01-31 Vmware, Inc. Single sign-on service authentication through a voice assistant
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11830098B2 (en) 2020-01-02 2023-11-28 Vmware, Inc. Data leak prevention using user and device contexts
US20210211422A1 (en) * 2020-01-06 2021-07-08 Vmware, Inc. Voice skill session lifetime management
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN111276139B (zh) * 2020-01-07 2023-09-19 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11335335B2 (en) 2020-02-03 2022-05-17 International Business Machines Corporation Disambiguation of generic commands for controlling objects
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
CN111091829B (zh) * 2020-02-21 2023-03-14 珠海荣邦电子科技有限公司 一种语音控制方法、装置及电子设备
US11301906B2 (en) 2020-03-03 2022-04-12 BrandActif Ltd. Method and system for digital marketing and the provision of digital content
SG10202001898SA (en) 2020-03-03 2021-01-28 Gerard Lancaster Peter Method and system for digital marketing and the provision of digital content
US11593843B2 (en) 2020-03-02 2023-02-28 BrandActif Ltd. Sponsor driven digital marketing for live television broadcast
US11854047B2 (en) 2020-03-03 2023-12-26 BrandActif Ltd. Method and system for digital marketing and the provision of digital content
JP2021162696A (ja) 2020-03-31 2021-10-11 ブラザー工業株式会社 情報処理装置、情報処理方法、電子機器及び情報処理システム
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11750668B1 (en) * 2020-06-23 2023-09-05 Nikolay Abkairov Combined asynchronous and synchronous communication system and service with transcription support
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11789928B2 (en) * 2020-11-12 2023-10-17 International Business Machines Corporation Dynamic namespace modification for virtual agents
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11960615B2 (en) 2021-06-06 2024-04-16 Apple Inc. Methods and user interfaces for voice-based user profile management
US11404062B1 (en) 2021-07-26 2022-08-02 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
US11410655B1 (en) 2021-07-26 2022-08-09 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
KR20230018833A (ko) * 2021-07-30 2023-02-07 삼성전자주식회사 전자 장치 및 무선 오디오 장치의 연결 전환을 제공하는 방법
US11677832B2 (en) * 2021-09-23 2023-06-13 International Business Machines Corporation Voice activated device enabling
US11838582B1 (en) * 2022-12-12 2023-12-05 Google Llc Media arbitration

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052666A (en) 1995-11-06 2000-04-18 Thomson Multimedia S.A. Vocal identification of devices in a home environment
KR100438838B1 (ko) * 2002-01-29 2004-07-05 삼성전자주식회사 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법
JP2006033795A (ja) 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。
US8078688B2 (en) * 2006-12-29 2011-12-13 Prodea Systems, Inc. File sharing through multi-services gateway device at user premises
JP4434247B2 (ja) 2007-08-10 2010-03-17 ソニー株式会社 リモートコントローラ、リモートコントロールシステムおよびリモートコントロール方法
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US20140258942A1 (en) * 2013-03-05 2014-09-11 Intel Corporation Interaction of multiple perceptual sensing inputs
US20170206064A1 (en) * 2013-03-15 2017-07-20 JIBO, Inc. Persistent companion device configuration and deployment platform
CN104281609B (zh) * 2013-07-08 2020-03-17 腾讯科技(深圳)有限公司 语音输入指令匹配规则的配置方法及装置
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US9431014B2 (en) * 2013-07-25 2016-08-30 Haier Us Appliance Solutions, Inc. Intelligent placement of appliance response to voice command
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
KR102188090B1 (ko) * 2013-12-11 2020-12-04 엘지전자 주식회사 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템
US9431021B1 (en) * 2014-03-27 2016-08-30 Amazon Technologies, Inc. Device grouping for audio based interactivity
JP6282516B2 (ja) 2014-04-08 2018-02-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 複数機器の音声操作システム、音声操作方法及び、プログラム
US9785247B1 (en) * 2014-05-14 2017-10-10 Leap Motion, Inc. Systems and methods of tracking moving hands and recognizing gestural interactions
US10782657B2 (en) * 2014-05-27 2020-09-22 Ultrahaptics IP Two Limited Systems and methods of gestural interaction in a pervasive computing environment
JP6483680B2 (ja) * 2014-06-30 2019-03-13 クラリオン株式会社 情報処理システム、及び、車載装置
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR102277259B1 (ko) * 2014-11-26 2021-07-14 엘지전자 주식회사 디바이스 제어 시스템, 디지털 디바이스 및 디지털 디바이스 제어 방법
US9792901B1 (en) * 2014-12-11 2017-10-17 Amazon Technologies, Inc. Multiple-source speech dialog input
US9837081B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discovering capabilities of third-party voice-enabled resources
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
CN105334743B (zh) * 2015-11-18 2018-10-26 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其***
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US10838741B2 (en) * 2016-04-26 2020-11-17 Sony Corporation Information processing device, information processing method, and program
US11250201B2 (en) * 2016-06-14 2022-02-15 Amazon Technologies, Inc. Methods and devices for providing optimal viewing displays
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
KR101925034B1 (ko) * 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
US10102855B1 (en) * 2017-03-30 2018-10-16 Amazon Technologies, Inc. Embedded instructions for voice user interface
US20210201910A1 (en) * 2018-10-05 2021-07-01 Mitsubishi Electric Corporation VOICE OPERATION ASSISTANCE SYSTEM, VOICE PROCESSING DEVICE, AND VOICE OPERATION ASSISTANCE DEVICE (as amended)

Also Published As

Publication number Publication date
JP7130637B2 (ja) 2022-09-05
US20230046924A1 (en) 2023-02-16
DE202017106668U1 (de) 2018-02-15
CN117351953A (zh) 2024-01-05
US10783883B2 (en) 2020-09-22
KR20190071794A (ko) 2019-06-24
WO2018085671A1 (en) 2018-05-11
GB2558066B (en) 2020-10-21
US11990128B2 (en) 2024-05-21
KR102242917B1 (ko) 2021-04-20
US20180122378A1 (en) 2018-05-03
GB2558066A (en) 2018-07-04
CN108022590B (zh) 2023-10-31
GB201718184D0 (en) 2017-12-20
EP3535753A1 (de) 2019-09-11
JP2020500330A (ja) 2020-01-09
EP3535753B1 (de) 2021-10-27
EP3940694A1 (de) 2022-01-19
US11527246B2 (en) 2022-12-13
US20210005202A1 (en) 2021-01-07
JP2022174099A (ja) 2022-11-22
CN108022590A (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
DE102017125745A1 (de) Fokussitzung an einem Sprachschnittstellengerät
DE102017129939B4 (de) Gesprächsbewusste proaktive Benachrichtigungen für eine Sprachschnittstellenvorrichtung
US11521469B2 (en) Server-provided visual output at a voice interface device
US11527249B2 (en) Multi-user personalization at a voice interface device
US10748552B2 (en) Noise mitigation for a voice interface device
US20230274741A1 (en) Device Leadership Negotiation Among Voice Interface Devices
DE102017129920A1 (de) Bauform für kompakten Heimassistenten mit kombiniertem Schallwellenleiter und Kühlkörper
DE102017122216A1 (de) Mehrfachanwenderpersonalisierung bei einer Sprachschnittstellenvorrichtung
DE202018101233U1 (de) Systeme und Vorrichtungen zur Aktivitätsüberwachung über einen Home-Assistant

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: MAIKOWSKI & NINNEMANN PATENTANWAELTE PARTNERSC, DE

R016 Response to examination communication