DE102017129939B4

DE102017129939B4 - Gesprächsbewusste proaktive Benachrichtigungen für eine Sprachschnittstellenvorrichtung

Info

Publication number: DE102017129939B4
Application number: DE102017129939.4A
Authority: DE
Inventors: Kenneth Mixter; Daniel Colish; Tuan Nguyen
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-30
Filing date: 2017-12-14
Publication date: 2023-09-14
Anticipated expiration: 2037-12-15
Also published as: US20200302912A1; US20180190264A1; DE102017129939A1; CN108268235A; US10679608B2; CN117193704A; US20240135914A1; GB201721025D0; WO2018125617A1; CN108268235B; US20220277727A1; GB2559674A; DE202017107614U1; US11908445B2; US11335319B2

Abstract

Verfahren für proaktive Benachrichtigungen in einer Sprachschnittstellenvorrichtung (104), das umfasst:Empfangen (602) einer ersten Anwendersprachanforderung (105) für eine Handlung mit einem künftigen Ausführungszeitpunkt;Zuweisen (604) der ersten Anwendersprachanforderung (105) einem Sprachassistentendienst (140) für die Ausführung;anschließend an das Empfangen (602) Empfangen (606) einer zweiten Anwendersprachanforderung (105) und in Reaktion auf die zweite Anwendersprachanforderung (105) Beginnen (606) eines Gesprächs (608) mit dem Anwender (102, 402), undwährend des Gesprächs (608):Empfangen (610) einer Benachrichtigung (265) von dem Sprachassistentendienst (140) von der Ausführung der Handlung;Auslösen (612) einer ersten hörbaren Ankündigung (107, 276a, 286a, 296a) für den Anwender (102, 402), um einen Übergang aus dem Gespräch (608) anzugeben, und Unterbrechen (612) des Gesprächs;Auslösen (614) einer zweiten hörbaren Ankündigung (263) für den Anwender (102, 402), um die Ausführung der Handlung anzugeben; undAuslösen (616) einer dritten hörbaren Ankündigung (107, 276b, 286b, 296b) für den Anwender (102, 402), um einen Übergang zurück zu dem Gespräch (608) anzugeben, und erneutes Eintreten (616) in das Gespräch.

Description

TECHNISCHES GEBIET
Die offenbarten Implementierungen beziehen sich im Allgemeinen auf Sprachschnittstellen und in Beziehung stehende Vorrichtungen einschließlich Verfahren und Systemen zum Schaffen proaktiver Sprachbenachrichtigungen mit geringer Latenzzeit, die gegen langfristige Sprachschnittstellengespräche robust sind, aber nicht eingeschränkt auf diese Verfahren und Systeme.
HINTERGRUND
Elektronische Vorrichtungen mit Sprachschnittstellen sind umfassend verwendet worden, um Spracheingaben von Anwendern zu sammeln und verschiedene sprachaktivierte Funktionen gemäß den Spracheingaben auszuführen. Diese sprachaktivierten Funktionen können das Lenken oder Befehligen einer Zielvorrichtung enthalten, um eine Operation auszuführen. Der Anwender kann z. B. eine Spracheingabe in eine Sprachschnittstellenvorrichtung aussprechen, um eine Zielvorrichtung zu lenken, um sich ein- oder auszuschalten, oder um die Medienwiedergabe in der Zielvorrichtung zu steuern.
Falls ein Anwender wünscht, eine Spracheingabe auszuführen, die die Zielvorrichtung lenkt, um eine Operation auszuführen, würde der Anwender typischerweise die Zielvorrichtung in der Spracheingabe spezifizieren. Es ist jedoch für den Anwender mühsam und belastend, die Zielvorrichtung für alle derartigen Spracheingaben explizit spezifizieren zu müssen. Es ist erwünscht, dass eine Sprachschnittstellenvorrichtung eine Zielvorrichtung für eine Spracheingabe aufweist, selbst wenn die Spracheingabe kein Ziel spezifiziert oder ein mehrdeutiges Ziel spezifiziert.
Ferner ist es nützlich, dass eine Sprachschnittstellenvorrichtung einen Anwender von wichtigen Aktualisierungen informieren kann. Diese „proaktiven Benachrichtigungen“ können Dinge wie das Ankommen eines Taxis, das Ankommen einer Lebensmittellieferung oder ein Heimsicherheitsalarm sein oder sogar sein, dass eine Sportmannschaft ein Spiel gewonnen oder verloren hat. Die Rechtzeitigkeit der Lieferung dieser proaktiven Benachrichtigungen kann jedoch durch andere Wechselwirkungen beeinflusst werden, die der Anwender mit der Vorrichtung aufweist. Ein Anwender könnte sich in der Mitte einer langen Wechselwirkung (z. B. eines Gesprächs, des Spielens eines Spiels oder des Ausführens einer Reservierung) mit der Vorrichtung befinden, wobei das Bereitstellen der Benachrichtigung, während die lange Wechselwirkung mit der Vorrichtung andauernd ist, den Fluss der Wechselwirkung unterbrechen kann, was für den Anwender störend sein kann und sogar verursachen kann, dass der Anwender neu beginnt. Falls andererseits die Benachrichtigung verzögert wird, bis die Wechselwirkung vorbei ist, kann die Benachrichtigung zur falschen Zeit geschehen.
Die DE 10 2014 002 543 A1 offenbart ein Verfahren zur Erfassung wenigstens zweier zu erfassender Informationen mit zu verknüpfendem Informationsgehalt durch eine Sprachdialogeinrichtung. Zwischen den Erfassungen der Informationen erfolgt jeweils eine Sprachausgabe durch die Sprachdialogeinrichtung, wobei die Informationen jeweils durch Erfassung von natürlich sprachlichen Spracheingabedaten und Extraktion der jeweiligen Information aus den Spracheingabedaten durch einen Spracherkennungsalgorithmus erfasst werden. Bei Erfüllung einer Wiederholungsbedingung wird durch die Sprachdialogeinrichtung eine natürlich sprachliche Zusammenfassungsausgabe generiert und als Sprachausgabe ausgegeben, die eine natürlich sprachliche Wiedergabe wenigstens einer bereits erfassten Information oder eines Teils dieser Information oder eine aus dieser Information abgeleitete Information umfasst.
Die US 8,374,879 B2 offenbart Systeme und Methoden für Sprachsysteme, die einen Interaktionsmanager verwenden, um Interaktionen von einer oder mehreren Anwendungen zu verwalten. Die Interaktionen werden ordnungsgemäß verwaltet, auch wenn mehrere Anwendungen unterschiedliche Grammatiken verwenden. Der Interaktionsmanager verwaltet eine Interaktionsliste. Eine Anwendung, die das Sprachsystem nutzen möchte, übermittelt eine oder mehrere Interaktionen an den Interaktionsmanager. Interaktionen werden normalerweise in der Reihenfolge ihres Eingangs verarbeitet. Eine Ausnahme von dieser Regel ist eine Interaktion, die von einer Anwendung so konfiguriert wird, dass sie sofort verarbeitet wird, was dazu führt, dass der Interaktionsmanager die Interaktion an den Anfang der Interaktionsliste der Interaktionen setzt. Wenn eine Anwendung eine Interaktion zum Unterbrechen einer aktuell verarbeiteten Interaktion festgelegt hat, unterbricht die neu übermittelte Anwendung jede derzeit verarbeitete Interaktion und wird daher sofort verarbeitet.
ZUSAMMENFASSUNG
Entsprechend gibt es einen Bedarf an einer elektronischen Vorrichtung mit einem Sprachassistentensystem und/oder einem Sprachassistenten-Server-System, die Verfahren und Systeme zum Bestimmen oder Zuweisen einer Zielvorrichtung für eine Spracheingabe umfasst, wenn eine Spezifikation einer Zielvorrichtung in der Spracheingabe fehlt oder mehrdeutig ist. In verschiedenen in dieser Anmeldung beschriebenen Implementierungen enthält eine Betriebsumgebung eine sprachaktivierte elektronische Vorrichtung, die eine Schnittstelle zu einem Sprachassistentendienst bereitstellt, und mehrere Vorrichtungen (z. B. eine Cast-Vorrichtung, eine Smart-Home-Vorrichtung), die durch eine Spracheingabe über den Sprachassistentendienst gesteuert werden können. Die sprachaktivierte elektronische Vorrichtung ist konfiguriert, um eine Spracheingabe aufzuzeichnen, aus der der Sprachunterstützungsdienst (z. B. ein Sprachunterstützungs-Server-System) eine Anwendersprachanforderung (z. B. eine Medienwiedergabeanforderung, eine Leistungszustands-Änderungsanforderung) bestimmt. Das Sprachunterstützungs-Server-System lenkt dann die Anwendersprachanforderung zu einer Zielvorrichtung, die durch die Spracheingabe angegeben wird. Die sprachaktivierte elektronische Vorrichtung ist konfiguriert, um eine anschließende Spracheingabe aufzuzeichnen, in der eine Angabe einer Zielvorrichtung fehlt oder mehrdeutig ist. Die elektronische Vorrichtung oder das Sprachunterstützungs-Server-System weist eine Zielvorrichtung für diese Spracheingabe zu, bestimmt eine Anwendersprachanforderung, die in dieser Spracheingabe enthalten ist, und lenkt die Anwendersprachanforderung zu der zugewiesenen Zielvorrichtung.
Gemäß einigen Implementierungen wird ein Verfahren in einer ersten elektronischen Vorrichtung mit einem oder mehreren Mikrophonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessor speichert, ausgeführt. Die erste elektronische Vorrichtung ist ein Mitglied einer lokalen Gruppe verbundener elektronischer Vorrichtungen, die kommunikationstechnisch an einen gemeinsamen Netzdienst gekoppelt sind. Das Verfahren enthält: Empfangen eines ersten Sprachbefehls, der eine Anforderung für eine erste Operation enthält; Bestimmen einer ersten Zielvorrichtung für die erste Operation aus der lokalen Gruppe verbundener elektronischer Vorrichtungen; Aufbauen einer Fokussitzung bezüglich der ersten Zielvorrichtung; Veranlassen über den Betrieb des gemeinsamen Netzdienstes, dass die erste Operation durch die erste Zielvorrichtung ausgeführt wird; Empfangen eines zweiten Sprachbefehls, der eine Anforderung für eine zweite Operation enthält; Bestimmen, dass der zweite Sprachbefehl keine explizite Bezeichnung einer zweiten Zielvorrichtung enthält; Bestimmen, dass die zweite Operation durch die erste Zielvorrichtung ausgeführt werden kann; Bestimmen, ob der zweite Sprachbefehl einem oder mehreren Fokussitzungs-Aufrechterhaltungskriterien entspricht; und in Übereinstimmung mit einer Bestimmung, dass der zweite Sprachbefehl den Fokussitzungs-Aufrechterhaltungskriterien entspricht, Veranlassen über den Betrieb des gemeinsamen Netzdienstes, dass die zweite Operation durch die erste Zielvorrichtung ausgeführt wird.
Gemäß einigen Implementierungen enthält eine elektronische Vorrichtung ein oder mehrere Mikrophone, einen Lautsprecher, einen oder mehrere Prozessoren und einen Speicher, der ein oder mehrere Programme speichert, die durch den einen oder die mehreren Prozessoren ausgeführt werden. Das eine oder die mehreren Programme enthalten Anweisungen zum Ausführen des oben beschriebenen Verfahrens.
Gemäß einigen Implementierungen speichert ein nichttransitorisches computerlesbares Speichermedium ein oder mehrere Programme. Das eine oder die mehreren Programme enthalten Anweisungen, die, wenn sie durch eine elektronische Vorrichtung mit einem oder mehreren Mikrophonen, einem Lautsprecher und einem oder mehreren Prozessoren ausgeführt werden, die elektronische Vorrichtung veranlassen, die Operationen des oben beschriebenen Verfahrens auszuführen.
Weiterhin gibt es einen Bedarf an einer elektronischen Vorrichtung mit einem Sprachassistentensystem und/oder einem Sprachassistenten-Server-System, die die Verfahren und Systeme zum Bereitstellen proaktiver Benachrichtigungen in einer Weise umfasst, die sich der andauernden Wechselwirkungen zwischen dem Anwender und der Vorrichtung bewusst ist. In verschiedenen in dieser Anmeldung beschriebenen Implementierungen enthält eine Betriebsumgebung eine sprachaktivierte elektronische Vorrichtung, die eine Schnittstelle zu einem Sprachassistentendienst schafft. Die sprachaktivierte elektronische Vorrichtung ist konfiguriert, um eine Sprachschnittstelle zu schaffen, die konfiguriert ist, um Spracheingaben zu empfangen und aufzuzeichnen, wobei der Sprachunterstützungsdienst (z. B. ein Sprachunterstützungs-Server-System) in Reaktion auf diese Sprachausgaben bereitstellt, Operationen ausführt usw.; in dieser Weise können der Anwender und der Sprachunterstützungsdienst durch die Stimme (z. B. wie in einem Gespräch) in Wechselwirkung treten. Wenn der Sprachunterstützungsdienst versucht, dem Anwender eine Benachrichtigung bereitzustellen, bestimmen die Vorrichtung und/oder der Sprachunterstützungsdienst, ob es eine andauernde Wechselwirkung gibt und ob die Wechselwirkung elegant für die Benachrichtigung unterbrochen werden kann. Falls eine elegante Unterbrechung möglich ist, werden Ausgaben ausgeführt, die einen Übergang in die und aus der Benachrichtigung angeben, wobei die Benachrichtigung zwischen den Übergangsausgaben ausgeführt wird. Andernfalls kann die Benachrichtigung mit einem plötzlichen Übergang ausgeführt werden.
Ein erfindungsgemäßes Verfahren für proaktive Benachrichtigungen in einer Sprachschnittstellenvorrichtung umfasst: Empfangen einer ersten Anwendersprachanforderung für eine Handlung mit einem künftigen Ausführungszeitpunkt; Zuweisen der ersten Anwendersprachanforderung einem Sprachassistentendienst für die Ausführung; anschließend an das Empfangen Empfangen einer zweiten Anwendersprachanforderung und in Reaktion auf die zweite Anwendersprachanforderung Beginnen eines Gesprächs mit dem Anwender; und während des Gesprächs: Empfangen einer Benachrichtigung von dem Sprachassistentendienst von der Ausführung der Handlung; Auslösen einer ersten hörbaren Ankündigung für den Anwender, um einen Übergang aus dem Gespräch anzugeben, und Unterbrechen des Gesprächs; Auslösen einer zweiten hörbaren Ankündigung für den Anwender, um die Ausführung der Handlung anzugeben; und Auslösen einer dritten hörbaren Ankündigung für den Anwender, um einen Übergang zurück zu dem Gespräch anzugeben, und erneutes Eintreten in das Gespräch.
Eine erfindungsgemäße elektronische Vorrichtung umfasst einen Lautsprecher, einen oder mehrere Prozessoren und einen Speicher und ist konfiguriert, das oben beschriebene Verfahren auszuführen.
Ein erfindungsgemäßer Server umfasst einen oder mehrere Prozessoren und einen Speicher und ist konfiguriert, das oben beschriebene Verfahren auszuführen.
Ein erfindungsgemäßes nichttransitorisches computerlesbares Speichermedium speichert ein oder mehrere Programme. Das eine oder die mehreren Programme enthalten Anweisungen, die, wenn sie durch eine elektronische Vorrichtung mit einem Lautsprecher und einem oder mehreren Prozessoren ausgeführt werden, die elektronische Vorrichtung veranlassen, das oben beschriebene Verfahren auszuführen. Gemäß einigen Implementierungen enthalten das eine oder die mehreren Programme Anweisungen, die, wenn sie durch die elektronische Vorrichtung ausgeführt werden, die elektronische Vorrichtung veranlassen, das oben beschriebene Verfahren in Zusammenarbeit mit einem oder mehreren Servern, mit denen die elektronische Vorrichtung verbunden ist, auszuführen.
Ein erfindungsgemäßes nichttransitorisches computerlesbares Speichermedium speichert ein oder mehrere Programme. Das eine oder die mehreren Programme enthalten Anweisungen, die, wenn sie durch einen Server mit einem oder mehreren Prozessoren ausgeführt werden, den Server veranlassen, das oben beschriebene Verfahren auszuführen.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Für ein besseres Verständnis der verschiedenen beschriebenen Implementierungen sollte auf die Beschreibung der Implementierungen im Folgenden im Zusammenhang mit den folgenden Zeichnungen, in denen gleiche Bezugszeichen überall in den Figuren auf entsprechende Teile verweisen, Bezug genommen werden.

1 veranschaulicht eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen.
2 veranschaulicht eine beispielhafte sprachaktivierte elektronische Vorrichtung gemäß einigen Implementierungen.
3A-3B veranschaulichen ein beispielhaftes Sprachunterstützungs-Server-System gemäß einigen Implementierungen.
3C veranschaulicht einen beispielhaften funktionalen Blockschaltplan eines Sprachunterstützungssystems, das proaktive Benachrichtigungen bereitstellt, gemäß einigen Implementierungen;
3D veranschaulicht gespeicherte Daten, die dem Sprachunterstützungssystem nach 3C zugeordnet sind, gemäß einigen Implementierungen;
4A-4D veranschaulichen ein Beispiel einer Fokussitzung gemäß einigen Implementierungen.
5 veranschaulicht einen Ablaufplan eines beispielhaften Prozesses zum Aufbauen einer Fokussitzung und zum Antworten auf Spracheingaben in Übereinstimmung mit einer Fokussitzung gemäß einigen Implementierungen.
6 veranschaulicht einen Ablaufplan eines beispielhaften Prozesses für proaktive Benachrichtigungen in einer Sprachschnittstellenvorrichtung gemäß einigen Implementierungen.
7A und 7B sind eine Vorderansicht und eine Rückansicht einer sprachaktivierten elektronischen Vorrichtung gemäß einigen Implementierungen.
7C ist eine Draufsicht einer sprachaktivierten elektronischen Vorrichtung gemäß einigen Implementierungen und 7D zeigt sichtbare Muster, die durch eine Anordnung von Vollfarben-LEDs zum Angeben der Sprachverarbeitungszustände angezeigt werden, gemäß einigen Implementierungen.

Gleiche Bezugszeichen beziehen sich überall in den mehreren Ansichten der Zeichnungen auf entsprechende Teile.
BESCHREIBUNG DER IMPLEMENTIERUNGEN
Während die digitale Revolution hat viele Vorteile geschaffen hat, die vom offenen Teilen von Informationen bis zur Wahrnehmung einer globalen Gemeinschaft reichen, verursachen entstehende neue Techniken oft Verwirrung, Skepsis und Furcht unter den Verbrauchern, was es verhindert, dass die Verbraucher von der Technik profitieren. Die elektronischen Vorrichtungen werden in geeigneter Weise als Sprachschnittstellen verwendet, um Spracheingaben von Anwendern zu empfangen und sprachaktivierte Funktionen einzuleiten, wobei sie dadurch Lösungen, bei denen die Augen und die Hände frei sind, bieten, um sich sowohl einer vorhandenen als auch einer entstehenden Technik zu nähern. Spezifisch können die an der elektronischen Vorrichtung empfangenen Spracheingaben Anweisungen und Informationen übertragen, selbst wenn die Sichtlinie eines Anwenders verdeckt ist und seine Hände voll sind. Um eine Erfahrung, bei der die Augen und die Hände frei sind, zu ermöglichen, hört eine sprachaktivierte elektronische Vorrichtung ständig oder nur dann, wenn sie ausgelöst ist, auf die Umgebung (d. h., sie verarbeitet ständig die von der Umgebung gesammelten Audiosignale). Andererseits sind die Anwenderidentitäten mit der Stimme eines Anwenders und einer durch den Anwender verwendeten Sprache verknüpft. Um die Anwenderidentitäten zu schützen, werden diese sprachaktivierten elektronischen Vorrichtungen normalerweise an nichtöffentlichen Plätzen verwendet, die geschützte, kontrollierte und vertraute Räume (z. B. die Wohnung und das Auto) sind.
Gemäß einigen Implementierungen bestimmt eine sprachaktivierte elektronische Vorrichtung eine Zielvorrichtung oder weist eine sprachaktivierte elektronische Vorrichtung eine Zielvorrichtung einer in einem Sprachbefehl ausgeführten Anforderung zu, wenn eine Angabe einer Zielvorrichtung in dem Sprachbefehl fehlt oder mehrdeutig ist. Die sprachaktivierte elektronische Vorrichtung baut eine Fokussitzung bezüglich einer explizit in einem Sprachbefehl spezifizierten oder angegebenen Zielvorrichtung auf. Wenn die sprachaktivierte elektronische Vorrichtung einen anschließenden Sprachbefehl empfängt, in dem eine Spezifikation oder Angabe einer Zielvorrichtung fehlt oder mehrdeutig ist, weist die elektronische Vorrichtung die Zielvorrichtung der Fokussitzung dem Sprachbefehl zu, falls der Sprachbefehl einem oder mehreren Kriterien entspricht.
Wenn der Anwender in einigen Implementierungen zu einer Sprachschnittstellenvorrichtung spricht, um eine weitere Vorrichtung zu steuern, speichert die Sprachschnittstellenvorrichtung (z. B. in einer Fokussitzung), auf welche Vorrichtung durch den Anwender abgezielt wurde. Während eines Zeitraums danach ist die vorgegebene Zielvorrichtung für die Steuerung die gespeicherte Vorrichtung. Falls der Anwender z. B. zuerst einen Sprachbefehl „schalte die Küchenleuchte ein“ ausspricht und dann „schalte die Leuchte aus“ ausspricht, ist die Zielvorrichtung für den zweiten Sprachbefehl auf „Küchenleuchte“ voreingestellt, falls der zweite Sprachbefehl kurz nach dem ersten Sprachbefehl empfangen wird. Falls als ein weiteres Beispiel der erste Befehl „spiele Musik auf den Wohnzimmerlautsprechern ab“ lautet und der anschließende Befehl „stoppe die Musik“ lautet, ist die Zielvorrichtung für den zweiten Sprachbefehl auf „Wohnzimmerlautsprecher“ voreingestellt, falls der zweite Befehl kurz nach dem ersten Befehl empfangen wird.
Zusätzlich kann der Anwender in einigen Implementierungen gefragt werden, um zu bestätigen oder zu verifizieren, dass die zuletzt verwendete Zielvorrichtung die vorgesehene Zielvorrichtung ist, falls es zwischen den Spracheingaben eine längere zeitliche Lücke gibt. Falls der erste Sprachbefehl z. B. „spiele Musik auf den Wohnzimmerlautsprechern ab“ lautet und der anschließende Befehl, der nach einer längeren zeitlichen Lücke von dem ersten Sprachbefehl empfangen wird, „stoppe die Musik“ lautet, kann die Sprachschnittstellenvorrichtung den Anwender fragen „wollen Sie die Musik auf den Wohnzimmerlautsprechern stoppen?“, um zu bestätigen, dass die Zielvorrichtung die „Wohnzimmerlautsprecher“ sind.
In dieser Weise kann der Anwender von der Last verschont werden, den vollen Kontext seiner Anforderung in jeder einzelnen Spracheingabe spezifizieren zu müssen (z. B. davon verschont werden, eine Spezifikation einer Zielvorrichtung in jede einzelne Spracheingabe einbeziehen zu müssen, die eine auszuführende Operation anfordert).
Gemäß einigen Implementierungen stellt eine sprachaktivierte elektronische Vorrichtung proaktive Benachrichtigungen mit geringer Latenzzeit in einer Weise bereit, die gegen langfristige Wechselwirkungen zwischen dem Anwender und der Vorrichtung robust ist. In einigen Implementierungen gibt es eine sprachaktivierte elektronische Vorrichtung, einen Gesprächsmanager (z. B. ein Gesprächsmanagermodul), einen Benachrichtigungsmanager (z. B. ein Benachrichtigungsmanagermodul), der bestimmen kann, ob oder welche Benachrichtigungen geliefert werden müssen, und einen Agenten (z. B. ein Agentenmodul und/oder ein Agentensystem), mit dem der Gesprächsmanager spricht. Der Agent kann z. B. ein Urlaubsreservierungssystem sein.
In einigen Implementierungen kann der Gesprächsmanager, der den Zustand der Wechselwirkung mit dem Anwender bestimmen kann, außerdem bestimmen, ob es eine proaktive Benachrichtigung oder eine Aktualisierung gibt, die dem Anwender bereitgestellt werden muss.
Es wird z. B. angenommen, dass in der Mitte einer andauernden Wechselwirkung (z. B. eines „Gesprächs“ zwischen dem Anwender und dem Agenten über die Vorrichtung) eine Benachrichtigung hereinkommt. Der Gesprächsmanager fragt den Agenten, ob der Agent eine Unterbrechung in der Wechselwirkung mit dem Anwender unterstützen kann. Falls der Agent die Unterbrechung nicht unterstützen kann, kann der Gesprächsmanager der Wechselwirkung des Anwenders mit dem Agenten zuvorkommen und den Anwender sofort mit der hörbaren Benachrichtigung versehen (z. B. die Vorrichtung lenken, um die Benachrichtigung als eine Sprachausgabe auszugeben). Die Sprachausgabe der Benachrichtigung kann z. B. „Entschuldigung, aber ich muss unterbrechen, <Benachrichtigung>“ sagen.
Falls der Agent in einigen Implementierungen eine Unterbrechung unterstützen kann, kann dem Agenten eine Gelegenheit gegeben werden, um einen Ausgangsübergang- und einen Eingangsübergang-Dialog zu liefern, um aus der Wechselwirkung überzugehen, so dass die Benachrichtigung gegeben werden kann, und dann zurück in die Wechselwirkung überzugehen. In einigen Implementierungen kann der Gesprächsmanager einfach die Vorrichtung veranlassen, die Benachrichtigung zu einem geeigneten Zeitpunkt (z. B. im Hinblick auf die Anwendereinstellungen und die Art der Benachrichtigung) auszugeben, ohne mit einem Agenten in Wechselwirkung treten zu müssen, wie oben beschrieben worden ist, wenn es kein andauerndes Gespräch zwischen dem Anwender und einem Agenten gibt.
In dieser Weise können wichtige Benachrichtigungen sofort oder anderweitig in einer rechtzeitigen Weise geliefert werden, ohne die Wechselwirkungen vollständig zu stoppen oder sehr plötzliche oder feine Übergänge zwischen den Agenten, mit denen der Anwender wechselwirkt, zu haben.
Eine Sprachassistenten-Betriebsumgebung
1 ist eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen. Die Betriebsumgebung 100 enthält eine oder mehrere sprachaktivierte elektronische Vorrichtungen 104 (z. B. die sprachaktivierten elektronischen Vorrichtungen 104-1 bis 104-N, im Folgenden die „sprachaktivierten Vorrichtung(en)“). Die eine oder die mehreren sprachaktivierten Vorrichtungen 104 können sich an einem oder mehreren Orten (z. B. alle in einem Zimmer oder Raum einer Struktur, überall in mehreren Räumen innerhalb einer Struktur oder überall in mehreren Strukturen verteilt (z. B. eine in einem Haus und eine im Auto des Anwenders)) befinden.
Die Umgebung 100 enthält außerdem eine oder mehrere steuerbare elektronische Vorrichtungen 106 (z. B. die elektronische Vorrichtung 106-1 bis 106-N, im Folgenden die „steuerbaren Vorrichtung(en)“). Beispiele der steuerbaren Vorrichtungen 106 enthalten Medienvorrichtungen (intelligente Fernsehgeräte, Lautsprechersysteme, drahtlose Lautsprecher, Set-Top-Boxes, Medien-Streaming-Vorrichtungen, Cast-Vorrichtungen) und Smart-Home-Vorrichtungen (z. B. eine intelligente Kamera, einen intelligenten Thermostaten, eine intelligente Leuchte, einen intelligenten Gefahrendetektor, ein intelligentes Türschloss).
Die sprachaktivierten Vorrichtungen 104 und die steuerbaren Vorrichtungen 106 sind durch die Kommunikationsnetze 110 kommunikationstechnisch an einen Sprachassistentendienst 140 (z. B. an ein Sprachunterstützungs-Server-System 112 des Sprachassistentendienstes 140) gekoppelt. In einigen Implementierungen sind eine oder mehrere der sprachaktivierten Vorrichtungen 104 und der steuerbaren Vorrichtungen 106 kommunikationstechnisch an ein lokales Netz 108 gekoppelt, das kommunikationstechnisch an die Kommunikationsnetze 110 gekoppelt ist; die sprachaktivierte(n) Vorrichtung(en) 104 und/oder die steuerbare(n) Vorrichtung(en) 106 sind über das lokale Netz 108 kommunikationstechnisch an das (die) Kommunikationsnetz(e) 110 (und durch die Kommunikationsnetze 110 an das Sprachunterstützungs-Server-System 112) gekoppelt. In einigen Implementierungen ist das lokale Netz 108 ein lokales Netz, das an einer Netzschnittstelle (z. B. einem Router) implementiert ist. Die sprachaktivierten Vorrichtungen 104 und die steuerbaren Vorrichtungen 106, die kommunikationstechnisch an das lokale Netz 108 gekoppelt sind, können außerdem durch das lokale Netz 108 miteinander kommunizieren.
Optional sind eine oder mehrere der sprachaktivierten Vorrichtungen 104 kommunikationstechnisch an die Kommunikationsnetze 110 gekoppelt und befinden sich nicht in dem lokalen Netz 108. Diese sprachaktivierten Vorrichtungen befinden sich z. B. nicht in dem Wi-Fi-Netz, das dem lokalen Netz 108 entspricht, sondern sind durch eine Zellenverbindung mit den Kommunikationsnetzen 110 verbunden. In einigen Implementierungen wird die Kommunikation zwischen den sprachaktivierten Vorrichtungen 104, die sich in dem lokalen Netz 108 befinden, und den sprachaktivierten Vorrichtungen 104, die sich nicht in dem lokalen Netz befinden, durch das Sprachunterstützungs-Server-System 112 ausgeführt. Die sprachaktivierten Vorrichtungen 104 (ob sie sich in dem lokalen Netz 108 oder in dem Netz 110 befinden) sind in einer Vorrichtungs-Registry 118 des Sprachassistentendienstes 140 registriert und folglich dem Sprachunterstützungs-Server-System 112 bekannt. Ähnlich können die sprachaktivierten Vorrichtungen 104, die sich nicht in dem lokalen Netz 108 befinden, durch das Sprachassistenten-Server-System 112 mit den steuerbaren Vorrichtungen 106 kommunizieren. Die steuerbaren Vorrichtungen 106 (ob sie sich in dem lokalen Netz 108 oder in dem Netz 110 befinden) sind außerdem in der Vorrichtungs-Registry 118 registriert. In einigen Implementierungen gehen die Kommunikationen zwischen den sprachaktivierten Vorrichtungen 104 und den steuerbaren Vorrichtungen 106 durch das Sprachunterstützungs-Server-System 112.
In einigen Implementierungen enthält die Umgebung 100 außerdem einen oder mehrere Inhalts-Hosts 114. Ein Inhalts-Host 114 kann eine entfernte Inhaltsquelle sein, von der der Inhalt in Übereinstimmung mit einer in einer Anwenderspracheingabe oder einem Anwendersprachbefehl enthaltenen Anforderung gestreamt oder anderweitig erhalten wird. Ein Inhalts-Host 114 kann eine Informationsquelle sein, von der das Sprachunterstützungs-Server-System 112 Informationen in Übereinstimmung mit einer Anwendersprachanforderung wiedergewinnt.
In einigen Implementierungen können die steuerbaren Vorrichtungen 106 Befehle oder Anforderungen (z. B. von einer sprachaktivierten Vorrichtung 104 und/oder dem Sprachunterstützungs-Server-System 112) empfangen, um spezifische Operationen auszuführen oder zu spezifischen Zuständen überzugehen und um die Operationen oder die Übergangszustände in Übereinstimmung mit den empfangenen Befehlen oder Anforderungen auszuführen.
In einigen Implementierungen sind eine oder mehrere der steuerbaren Vorrichtungen 106 Medienvorrichtungen, die in der Betriebsumgebung 100 angeordnet sind, um einem oder mehreren Anwendern Medieninhalt, Nachrichten und/oder andere Informationen bereitzustellen. In einigen Implementierungen wird der durch die Medienvorrichtungen bereitgestellte Inhalt in einer örtlichen Inhaltsquelle gespeichert, von einer entfernten Inhaltsquelle (z. B. dem (den) Inhalt-Host(s) 114) gestreamt oder lokal (z. B. durch einen lokalen Text-zu-Sprache-Prozessor, der eine kundenspezifische Nachrichteninformierung, E-Mails, Texte, einen lokalen Wetterbericht usw. für einen oder mehrere Insassen der Betriebsumgebung 100 liest) erzeugt. In einigen Implementierungen enthalten die Medienvorrichtungen Medienausgabevorrichtungen, die den Medieninhalt direkt an ein Publikum (z. B. ein oder mehrere Anwender) ausgeben, und Cast-Vorrichtungen, die vernetzt sind, um den Medieninhalt zu den Medienausgabevorrichtungen zu streamen. Beispiele der Medienausgabevorrichtungen enthalten Fernseh-Anzeigevorrichtungen (TV-Anzeigevorrichtungen) und Musikspieler, sind aber nicht darauf eingeschränkt. Beispiele der Cast-Vorrichtungen enthalten Set-Top-Boxes (STBs), DVD-Spieler, TV-Boxes und Medien-Streaming-Vorrichtungen, wie z. B. Googles Chromecast™-Medien-Streaming-Vorrichtung, sind aber nicht darauf eingeschränkt.
In einigen Implementierungen ist eine steuerbare Vorrichtung 106 außerdem eine sprachaktivierte Vorrichtung 104. In einigen Implementierungen ist eine sprachaktivierte Vorrichtung 104 außerdem eine steuerbare Vorrichtung 106. Eine steuerbare Vorrichtung 106 kann z. B. eine Sprachschnittstelle zu dem Sprachunterstützungsdienst 140 enthalten (z. B. eine Medienvorrichtung, die außerdem die Anwenderspracheingaben empfangen, verarbeiten und darauf reagieren kann). Als ein weiteres Beispiel kann eine sprachaktivierte Vorrichtung 104 außerdem in Übereinstimmung mit den Anforderungen oder Befehlen in den Spracheingaben spezielle Operationen ausführen und zu speziellen Zuständen übergehen (z. B. eine Sprachschnittstellenvorrichtung, die außerdem Streaming-Musik abspielen kann).
In einigen Implementierungen sind die sprachaktivierten Vorrichtungen 104 und die steuerbaren Vorrichtungen 106 einem Anwender, der ein entsprechendes Konto aufweist, oder mehreren Anwendern (z. B. einer Gruppe in Beziehung stehender Anwender, wie z. B. die Anwender in einer Familie oder in einer Organisation; allgemeiner einem Hauptanwender und einem oder mehreren berechtigten zusätzlichen Anwendern), die jeweilige Anwenderkonten aufweisen, in einem Anwenderbereich zugeordnet. Ein Anwender kann Spracheingaben oder Sprachbefehle in die sprachaktivierte Vorrichtung 104 ausführen. Die sprachaktivierte Vorrichtung 104 empfängt diese Spracheingaben von dem Anwender (z. B. dem Anwender 102), wobei die sprachaktivierte Vorrichtung 104 und/oder das Sprachunterstützungs-Server-System 112 fortfährt, um eine Anforderung in der Spracheingabe zu bestimmen und eine Antwort auf die Anforderung zu erzeugen.
In einigen Implementierungen ist die in einer Spracheingabe enthaltene Anforderung ein Befehl oder eine Anforderung an eine steuerbare Vorrichtung 106, um eine Operationen auszuführen (z. B. Medien abzuspielen, die Medien zu unterbrechen, die Medien vorzuspulen oder zurückzuspulen, die Lautstärke zu ändern, die Bildschirmhelligkeit verändern, die Lichthelligkeit zu ändern) oder zu einem anderen Zustand überzugehen (z. B. den Betriebsmodus zu ändern, ein- oder auszuschalten, in einen Schlafmodus zu gehen oder aus einem Schlafmodus zu erwachen).
In einigen Implementierungen antwortet eine sprachaktivierte elektronische Vorrichtung 104 auf die Spracheingabe durch: das Erzeugen und Bereitstellen einer gesprochenen Antwort auf einen Sprachbefehl (z. B. das Sprechen des aktuellen Zeitpunkts in Reaktion auf die Frage „wie spät ist es?“); das Streaming des durch einen Anwender angeforderten Medieninhalts (z. B. „spiele ein Lied von den Beach Boys ab“); das Lesen eines Nachrichtenbeitrags oder einer für den Anwender vorbereiteten Informierung über die täglichen Nachrichten; das Abspielen eines in der persönlichen Assistentenvorrichtung oder in dem lokalen Netz gespeicherten Medienelements; das Ändern eines Zustands oder das Betreiben einer oder mehrerer anderer angeschlossener Vorrichtungen innerhalb der Betriebsumgebung 100 (z. B. das Ein-/Ausschalten von Leuchten, Haushaltsgeräten oder Medienvorrichtungen, das Verriegeln/Entriegeln eines Schlosses, das Öffnen der Fenster usw.); oder das Ausgeben einer entsprechenden Anforderung über ein Netz 110 an einen Server.
In einigen Implementierungen sind die eine oder die mehreren sprachaktivierten Vorrichtungen 104 in der Betriebsumgebung 100 angeordnet, um Audioeingaben zum Einleiten verschiedener Funktionen (z. B. Medienabspielfunktionen der Medienvorrichtungen) zu sammeln. In einigen Implementierungen sind diese sprachaktivierten Vorrichtungen 104 (z. B. die Vorrichtungen 104-1 bis 104-N) in der Nähe einer steuerbaren Vorrichtung 104 (z. B. einer Medienvorrichtung) z. B. in demselben Zimmer mit den Cast-Vorrichtungen und den Medienausgabevorrichtungen angeordnet. Alternativ ist in einigen Implementierungen eine sprachaktivierte Vorrichtung 104 in einer Struktur angeordnet, die eine oder mehrere Smart-Home-Vorrichtungen, aber keine Medienvorrichtung aufweist. Alternativ ist in einigen Implementierungen eine sprachaktivierte Vorrichtung 104 in einer Struktur angeordnet, die eine oder mehrere Smart-Home-Vorrichtungen und eine oder mehrere Medienvorrichtungen aufweist. Alternativ ist in einigen Implementierungen eine sprachaktivierte Vorrichtung 104 an einem Ort angeordnet, der keine vernetzte elektronische Vorrichtung aufweist. Ferner kann in einigen Implementierungen ein Zimmer oder ein Raum in der Struktur mehrere sprachaktivierte Vorrichtungen 104 aufweisen.
In einigen Implementierungen enthält die sprachaktivierte Vorrichtung 104 wenigstens ein oder mehrere Mikrophone, einen Lautsprecher, einen Prozessor und einen Speicher, der wenigstens ein Programm zur Ausführung durch den Prozessor speichert. Der Lautsprecher ist konfiguriert, um es der sprachaktivierten Vorrichtung 104 zu ermöglichen, Sprachnachrichten und anderen Ton (z. B. hörbare Töne) an einen Ort zu liefern, wo sich die sprachaktivierte Vorrichtung 104 in der Betriebsumgebung 100 befindet und dadurch Musik zu übertragen, einen Zustand einer Audioeingabeverarbeitung zu melden, eine Unterhaltung mit einem Anwender der sprachaktivierten Vorrichtung 104 zu haben oder einem Anwender der sprachaktivierten Vorrichtung 104 Anweisungen zu geben. Als eine Alternative zu den Sprachnachrichten könnten außerdem sichtbare Signale verwendet werden, um dem Anwender der sprachaktivierten Vorrichtung 104 eine Rückkopplung hinsichtlich des Zustands der Audioeingabeverarbeitung bereitzustellen. Wenn die sprachaktivierte Vorrichtung 104 eine Mobilvorrichtung (z. B. ein Mobiltelephon oder ein Tablet-Computer) ist, ist ihr Anzeigeschirm konfiguriert, um eine Benachrichtigung hinsichtlich des Zustands der Audioeingabeverarbeitung anzuzeigen.
In einigen Implementierungen ist die sprachaktivierte Vorrichtung 104 eine Sprachschnittstellenvorrichtung, die mit einem Netz verbunden ist, um Spracherkennungsfunktionen mit der Hilfe eines Sprachunterstützungs-Server-Systems 112 bereitzustellen. Die sprachaktivierte Vorrichtung 104 enthält z. B. einen intelligenten Lautsprecher, der einem Anwender Musik bereitstellt, und ermöglicht einen Zugriff, bei dem die Augen und die Hände frei sind, auf einen Sprachassistentendienst (z. B. Google Assistant). Optional ist die sprachaktivierte Vorrichtung 104 eines von einem Desktop- oder Laptop-Computer, einem Tablet, einem Mobiltelephon, das ein Mikrophon enthält, einer Cast-Vorrichtung, die ein Mikrophon und optional einen Lautsprecher enthält, einem Audiosystem (z. B. einem Stereosystem, einem Lautsprechersystem, einem tragbaren Lautsprecher), das ein Mikrophon und einen Lautsprecher enthält, einem Fernsehgerät, das ein Mikrophon und einen Lautsprecher enthält, und einem Anwenderschnittstellensystem in einem Kraftfahrzeug, das ein Mikrophon und einen Lautsprecher und optional eine Anzeige enthält. Optional ist die sprachaktivierte Vorrichtung 104 eine einfache und preiswerte Sprachschnittstellenvorrichtung. Im Allgemeinen kann die sprachaktivierte Vorrichtung 104 irgendeine Vorrichtung sein, die zu einer Netzverbindung imstande ist und die ein Mikrophon, einen Lautsprecher und Programme, Module und Daten zum Wechselwirken mit einem Sprachassistentendienst enthält. In Anbetracht der Einfachheit und der geringen Kosten der sprachaktivierten Vorrichtung 104 enthält die sprachaktivierte Vorrichtung 104 eine Anordnung von Leuchtdioden (LEDs) anstatt eines vollständigen Anzeigeschirms, wobei sie ein sichtbares Muster auf den LEDs anzeigt, um den Zustand der Audioeingabeverarbeitung anzugeben. In einigen Implementierungen sind die LEDs Vollfarben-LEDs, wobei die Farben der LEDs als ein Teil des sichtbaren Musters, das auf den LEDs angezeigt wird, verwendet werden können. Mehrere Beispiele der Verwendung von LEDs, um z. B. sichtbare Muster anzuzeigen, um Informationen oder den Vorrichtungsstatus zu übermitteln, werden im Folgenden bezüglich der 7A-7D beschrieben. In einigen Implementierungen werden sichtbare Muster, die den Zustand der Sprachverarbeitungsoperationen angeben, unter Verwendung charakteristischer Bilder angezeigt, die auf herkömmlichen Anzeigen gezeigt werden, die den sprachaktivierten Vorrichtungen zugeordnet sind, die die Sprachverarbeitungsoperationen ausführen.
In einigen Implementierungen werden LEDs oder andere visuelle Anzeigen verwendet, um einen gemeinsamen Sprachverarbeitungszustand mehrerer teilnehmender elektronischer Vorrichtungen zu übermitteln. In einer Betriebsumgebung, in der es z. B. mehrere Sprachverarbeitungs- oder Sprachschnittstellenvorrichtungen (z. B. mehrere elektronische Vorrichtungen 104, wie in 7A gezeigt ist; mehrere sprachaktivierte Vorrichtungen 104 nach 1) gibt, können Gruppen von Farb-LEDs (z. B. die LEDs 704, wie in 7A gezeigt ist), die jeweiligen elektronischen Vorrichtungen zugeordnet sind, verwendet werden, um zu übermitteln, welche der elektronischen Vorrichtungen auf einen Anwender hört und welche der hörenden Vorrichtungen der Anführer ist (wobei die „Anführer“-Vorrichtung im Allgemeinen die Führung beim Antworten auf eine durch den Anwender ausgegebene gesprochene Anforderung übernimmt).
Allgemeiner beschreibt die Erörterung im Folgenden bezüglich der 7A-7D eine „LED-Entwurfssprache“, um unter Verwendung einer Sammlung von LEDs verschiedene Sprachverarbeitungszustände einer elektronischen Vorrichtung, wie z. B. einen Hotword-Detektionszustand, ein Hörzustand, einen Denkmodus, einen Arbeitsmodus, einen Antwortmodus, einen Sprechmodus und einen proaktiven Benachrichtigungsmodus, sichtbar anzugeben. In einigen Implementierungen werden die eindeutigen Zustände der Sprachverarbeitungsoperationen, die hier beschrieben sind, unter Verwendung einer Gruppe von LEDs in Übereinstimmung mit einem oder mehreren Aspekten der „LED-Entwurfssprache“ dargestellt. Diese sichtbaren Indikatoren können außerdem mit einem oder mehreren hörbaren Indikatoren kombiniert werden, die durch die elektronischen Vorrichtungen erzeugt werden, die die Sprachverarbeitungsoperationen ausführen. Die resultierenden Ton- und/oder sichtbaren Indikatoren ermöglichen es den Anwendern in einer sprachinteraktiven Umgebung, den Zustand verschiedener elektronischer Sprachverarbeitungsvorrichtungen in der Umgebung zu verstehen und mit diesen Vorrichtungen in einer natürlichen, intuitiven Weise effektiv in Wechselwirkung zu treten.
Wenn in einigen Implementierungen die Spracheingaben in die sprachaktivierte Vorrichtung 104 verwendet werden, um die Medienausgabevorrichtungen über die Cast-Vorrichtungen zu steuern, ermöglicht die sprachaktivierte Vorrichtung 104 effektiv ein neues Niveau der Steuerung der cast-fähigen Medienvorrichtungen. In einem spezifischen Beispiel enthält die sprachaktivierte Vorrichtung 104 einen Lautsprecher zum zwanglosen Vergnügen mit einem Fernfeld-Sprachzugriff und Funktionen als eine Sprachschnittstellenvorrichtung für den Sprachassistentendienst. Die sprachaktivierte Vorrichtung 104 könnte in irgendeinem Bereich in der Betriebsumgebung 100 angeordnet sein. Wenn mehrere sprachaktivierte Vorrichtungen 104 in mehreren Zimmern verteilt sind, werden sie Cast-Audioempfänger, die synchronisiert sind, um die Spracheingaben aus diesen Zimmern bereitzustellen.
Spezifisch enthält in einigen Implementierungen die sprachaktivierte Vorrichtung 104 einen Wi-Fi-Lautsprecher mit einem Mikrophon, der mit einem sprachaktivierten Sprachassistentendienst (z. B. Google Assistant) verbunden ist. Ein Anwender kann eine Medienabspielanforderung über das Mikrophon der sprachaktivierten Vorrichtung 104 ausgeben und den Sprachassistentendienst auffordern, den Medieninhalt in der sprachaktivierten Vorrichtung 104 selbst oder in einer weiteren angeschlossenen Medienausgabevorrichtung abzuspielen. Der Anwender kann z. B. eine Medienabspielanforderung ausgeben, dem er dem Wi-Fi-Lautsprecher sagt „O. K. Google, spiele Katzenvideos auf dem Fernsehgerät in meinem Wohnzimmer“ ab. Der Sprachassistentendienst erfüllt dann die Medienabspielanforderung durch das Abspielen des angeforderten Medieninhalts in der angeforderten Vorrichtung unter Verwendung einer vorgegebenen oder bezeichneten Medienanwendung.
In einigen Implementierungen kann ein Anwender eine Sprachanforderung über das Mikrophon der sprachaktivierten Vorrichtung 104 hinsichtlich des Medieninhalts ausgeben, der bereits abgespielt worden ist oder der auf einer Anzeigevorrichtung abgespielt wird, (der Anwender kann z. B. nach Informationen über den Medieninhalt fragen, den Medieninhalt durch ein Online-Geschäft kaufen und einen sozialen Beitrag über den Medieninhalt verfassen und ausgeben).
In einigen Implementierungen kann ein Anwender wünschen, eine aktuelle Mediensitzung mit sich zu nehmen, wenn er sich durch das Haus bewegt, wobei er einen derartigen Dienst von einer oder mehreren der sprachaktivierten Vorrichtungen 104 anfordern kann. Dies erfordert, dass der Sprachassistentendienst 140 die aktuelle Mediensitzung von einer ersten Cast-Vorrichtung zu einer zweiten Cast-Vorrichtung, die nicht direkt mit der ersten Cast-Vorrichtung verbunden ist oder keine Kenntnis des Vorhandenseins der ersten Cast-Vorrichtung hat, überträgt. Anschließend an die Medieninhaltsübertragung fährt eine zweite Ausgabevorrichtung, die an die zweite Cast-Vorrichtung gekoppelt ist, fort, den Medieninhalt, den eine erste Ausgabevorrichtung, die an die erste Cast-Vorrichtung gekoppelt ist, [abgespielt hat], von dem exakten Punkt innerhalb einer Musikspur oder eines Video-Clips, wo das Abspielen des Medieninhalts in der ersten Ausgabevorrichtung aufgegeben wurde, abzuspielen. In einigen Implementierungen kann die sprachaktivierte Vorrichtung 104, die die Anforderung empfängt, um die Mediensitzung zu übertragen, der Anforderung genügen. In einigen Implementierungen leitet die sprachaktivierte Vorrichtung 104, die die Anforderung empfängt, um die Mediensitzung zu übertragen, die Anforderung zu einer weiteren Vorrichtung oder einem weiteren System (z. B. dem Sprachunterstützungs-Server-System 112) zur Behandlung weiter.
Ferner kann ein Anwender in einigen Implementierungen über das Mikrophon der sprachaktivierten Vorrichtung 104 eine Anforderung für Informationen oder für die Ausführung einer Handlung oder einer Operation ausgeben. Die angeforderten Informationen können persönlich (z. B. die E-Mails des Anwenders, die Kalenderereignisse des Anwenders, die Fluginformationen des Anwenders usw.), nicht persönlich (z. B. Sportspielstände, Nachrichtenbeiträge usw.) oder irgendwo dazwischen (z. B. Spielstände für die durch den Anwender bevorzugten Mannschaften oder Sportarten, Nachrichtenbeiträge aus den vom Anwender bevorzugten Quellen usw.) sein. Die angeforderten Informationen oder die angeforderte Handlung/Operation können den Zugriff auf persönliche Informationen (z. B. das Kaufen eines digitalen Medienelements mit den durch den Anwender bereitgestellten Bezahlungsinformationen, das Kaufen einer physischen Ware) einbeziehen. Die sprachaktivierte Vorrichtung 104 antwortet auf die Anforderung mit Sprachnachrichtenantworten für den Anwender, wobei die Antwort z. B. Anforderungen für zusätzliche Informationen, um die Anforderung zu erfüllen, eine Bestätigung, dass die Anforderung erfüllt worden ist, eine Mitteilung, dass die Anforderung nicht erfüllt werden kann, usw. enthalten.
In einigen Implementierungen kann die Betriebsumgebung 100 zusätzlich zu den sprachaktivierten Vorrichtungen 104 und den Medienvorrichtungen unter den steuerbaren Vorrichtungen 106 außerdem eine oder mehrere Smart-Home-Vorrichtungen unter den steuerbaren Vorrichtungen 106 enthalten. Die integrierten Smart-Home-Vorrichtungen enthalten intelligente, mehrfach abtastendende, netzverbundene Vorrichtungen, die in einem Smart-Home-Netz nahtlos miteinander und/oder mit einem zentralen Server oder einem Cloud-Computing-System integriert sind, um verschiedene nützliche Smart-Home-Funktionen bereitzustellen. In einigen Implementierungen ist eine Smart-Home-Vorrichtung an demselben Ort der Betriebsumgebung 100 wie eine Cast-Vorrichtung und/oder eine Ausgabevorrichtung angeordnet, wobei sie sich deshalb in der Nähe oder innerhalb eines bekannten Abstands bezüglich der Cast-Vorrichtung und der Ausgabevorrichtung befindet.
Die Smart-Home-Vorrichtungen in der Betriebsumgebung 100 können einen oder mehrere intelligente, mehrfachabtastende, netzverbundene Thermostate, einen oder mehrere intelligente, netzverbundene, mehrfachabtastende Gefahrendetektoren, eine oder mehrere intelligente, mehrfachabtastende, netzverbundene Zugangsweg-Schnittstellenvorrichtungen (die im Folgenden als „intelligente Türklingeln“ und „intelligente Türschlösser“ bezeichnet werden), ein oder mehrere intelligente, mehrfachabtastende, netzverbundene Alarmsysteme, ein oder mehrere intelligente, mehrfachabtastende, netzverbundene Kamerasysteme, einen oder mehrere intelligente, mehrfachabtastende, netzverbundene Wandschalter, eine oder mehrere intelligente, mehrfachabtastende, netzverbundene Steckdosen und eine oder mehrere intelligente, mehrfachabtastende, netzverbundene Leuchten enthalten, sind aber nicht darauf eingeschränkt. In einigen Implementierungen enthalten die Smart-Home-Vorrichtungen in der Betriebsumgebung 100 nach 1 mehrere intelligente, mehrfachabtastende, netzverbundene Haushaltsgeräte (die im Folgenden als „intelligente Haushaltsgeräte“ bezeichnet werden), wie z. B. Kühlschränke, Herde, Öfen, Fernsehgeräte, Waschmaschinen, Trockner, Leuchten, Stereoanlagen, Gegensprechanlagensysteme, Garagentüröffner, Bodenventilatoren, Deckenventilatoren, Wandklimaanlagen, Poolheizungen, Bewässerungssysteme, Sicherheitssysteme, Raumheizkörper, Fenster-AC-Einheiten, motorisierte Entlüftungskanäle usw. In einigen Implementierungen können irgendwelche dieser Smart-Home-Vorrichtungstypen mit Mikrophonen und einer oder mehreren Sprachverarbeitungsfähigkeiten ausgerüstet sein, wie hier beschrieben ist, um ganz oder teilweise auf die Sprachanforderungen von einem Insassen und einem Anwender zu antworten.
In einigen Implementierungen ist jede der steuerbaren Vorrichtungen 104 und der sprachaktivierten Vorrichtungen 104 zur Datenkommunikation und zum Teilen von Informationen mit anderen steuerbaren Vorrichtungen 106, sprachaktivierten elektronischen Vorrichtungen 104, einem zentralen Server oder einem Cloud-Computing-System und/oder anderen Vorrichtungen (z. B. einer Client-Vorrichtung), die mit einem Netz verbunden sind, imstande. Die Datenkommunikationen können unter Verwendung verschiedener kundenspezifischer oder standardisierter drahtloser Protokolle (z. B. IEEE 802.15.4, Wi-Fi, ZigBee, 6LoWPAN, Thread, Z-Wave Bluetooth Smart, ISA100.11a, WirelessHART, MiWi usw.) und/oder irgendeines verschiedener kundenspezifischer oder standardisierter verdrahteter Protokolle (z. B. Ethernet, HomePlug usw.) oder irgendeines anderen geeigneten Kommunikationsprotokolls, einschließlich der Kommunikationsprotokolle, die zum Datum des Einreichens dieses Dokuments noch nicht entwickelt worden sind, ausgeführt werden.
Durch die Kommunikationsnetze (z. B. das Internet) 110 können die steuerbaren Vorrichtungen 106 und die sprachaktivierten Vorrichtungen 104 mit einem Server-System (das hier außerdem als ein zentrales Server-System und/oder ein Cloud-Computing-System bezeichnet wird) kommunizieren. Optional kann das Server-System einem Hersteller, einer Unterstützungs-Entität oder einem Diensteanbieter zugeordnet sein, der den steuerbaren Vorrichtungen und dem Anwender angezeigten Medieninhalt zugeordnet ist. Entsprechend enthält das Server-System den Sprachunterstützungsserver 112, der die durch die sprachaktivierten Vorrichtungen 104 gesammelten Audioeingaben verarbeitet, einen oder mehrere Inhalts-Hosts 114, die den angezeigten Medieninhalt bereitstellen, optional einen Cloud-Cast-Dienst-Server, der basierend auf den verteilten Vorrichtungsendgeräten einen virtuellen Anwenderbereich erzeugt, und die Vorrichtungs-Registry 118, die einen Datensatz der verteilten Vorrichtungsendgeräte in der virtuellen Anwenderumgebung hält. Beispiele der verteilten Vorrichtungsendgeräte enthalten die steuerbaren Vorrichtungen 106, die sprachaktivierten Vorrichtungen 104 und die Medienausgabevorrichtungen, sind aber nicht darauf eingeschränkt. In einigen Implementierungen sind diese verteilten Vorrichtungsendgeräte mit einem Anwenderkonto (z. B. einem Google-Anwenderkonto) in dem virtuellen Anwenderbereich verknüpft. Es sollte erkannt werden, dass die Verarbeitung der durch die sprachaktivierten Vorrichtungen 104 gesammelten Audioeingaben lokal in einer sprachaktivierten Vorrichtung 104, in einem Sprachunterstützungs-Server 112, in einer weiteren Smart-Home-Vorrichtung (z. B. einer Hub-Vorrichtung) oder in irgendeiner Kombination aus allem oder einer Teilmenge des Obigen ausgeführt werden kann.
Es wird erkannt, dass in einigen Implementierungen die sprachaktivierte(n) Vorrichtung(en) 104 außerdem in einer Umgebung ohne Smart-Home-Vorrichtungen funktionieren. Eine sprachaktivierte Vorrichtung 104 kann z. B. sogar beim Fehlen von Smart-Home-Vorrichtungen auf Anwenderanforderungen für Informationen oder die Ausführung einer Handlung antworten und/oder verschiedene Medienabspielfunktionen einleiten oder steuern. Eine sprachaktivierte Vorrichtung 104 kann außerdem in einem umfassenden Bereich von Umgebungen, einschließlich und ohne Einschränkung eines Fahrzeugs, eines Schiffs, eines Unternehmens oder einer Fertigungsumgebung, funktionieren.
In einigen Implementierungen wird eine sprachaktivierte Vorrichtung 104 durch eine Spracheingabe, die ein Hotword (das außerdem als ein „Weckwort“ bezeichnet wird) enthält, „geweckt“ (z. B. um eine Schnittstelle für den Sprachassistentendienst in der sprachaktivierten Vorrichtung 104 zu aktivieren, um die sprachaktivierte Vorrichtung 104 in einen Zustand zu setzen, in dem die sprachaktivierte Vorrichtung 104 bereit ist, um die Sprachanforderungen für den Sprachassistentendienst zu empfangen). In einigen Implementierungen erfordert die sprachaktivierte Vorrichtung 104 das Wecken, falls die sprachaktivierte Vorrichtung 104 bezüglich des Empfangs von Spracheingaben während wenigstens eines vorgegebenen Zeitraums (z. B. 5 Minuten) unbenutzt gewesen ist; wobei der vorgegebene Zeitraum einem erlaubten Leerlaufzeitraum entspricht, bevor eine Sprachschnittstellensitzung oder eine Unterhaltung abläuft. Das Hotword kann ein Wort oder eine Redewendung sein und kann eine vorgegebene Vorgabe sein und/oder kann durch einen Anwender kundenspezifisch angepasst werden (ein Anwender kann z. B. einen Spitznamen für eine spezielle sprachaktivierte Vorrichtung 104 als das Hotword der Vorrichtung festlegen). In einigen Implementierungen kann es mehrere Hotwords geben, die eine sprachaktivierte Vorrichtung 104 wecken können. Ein Anwender kann das Hotword sprechen, auf eine Quittungsantwort von der sprachaktivierten Vorrichtung 104 warten (die sprachaktivierte Vorrichtung 104 gibt z. B. einen Gruß aus) und dann eine erste Sprachanforderung ausführen. Alternativ kann der Anwender das Hotword und die erste Sprachanforderung in einer Spracheingabe kombinieren (die Spracheingabe enthält z. B. das Hotword, gefolgt von der Sprachanforderung).
In einigen Implementierungen tritt eine sprachaktivierte Vorrichtung 104 mit einer steuerbaren Vorrichtung 106 (z. B. einer Medienvorrichtung, einer Smart-Home-Vorrichtung), einer Client-Vorrichtung oder einem Server-System in einer Betriebsumgebung 100 gemäß einigen Implementierungen in Wechselwirkung. Die sprachaktivierte Vorrichtung 104 ist konfiguriert, um die Audioeingaben von einer Umgebung in der Nähe der sprachaktivierten Vorrichtung 104 zu empfangen. Optional speichert die sprachaktivierte Vorrichtung 104 die Audioeingaben, wobei sie die Audioeingaben wenigstens teilweise lokal verarbeitet. Optional überträgt die sprachaktivierte Vorrichtung 104 die empfangenen Audioeingaben oder die teilweise verarbeiteten Audioeingaben über die Kommunikationsnetze 110 für die weitere Verarbeitung zu einem Sprachunterstützungs-Server-System 112. Die sprachaktivierte Vorrichtung 104 oder das Sprachunterstützungs-Server-System 112 bestimmt, ob es eine Anforderung in der Audioeingabe gibt und was die Anforderung ist, bestimmt und erzeugt eine Antwort auf die Anforderung und überträgt die Anforderung zu einer oder mehreren steuerbaren Vorrichtungen 106. Die steuerbare(n) Vorrichtung(en) 106, die die Antwort empfängt (empfangen), ist (sind) konfiguriert, um in Übereinstimmung mit der Antwort die Operationen auszuführen oder die Zustände zu ändern. Eine Medienvorrichtung ist z. B. konfiguriert, um einen Medieninhalt oder einen Internetinhalt von einem oder mehreren Inhalts-Hosts 114 für die Anzeige auf einer an die Medienvorrichtung gekoppelten Ausgabevorrichtung in Übereinstimmung mit einer Antwort auf eine Anforderung in der Audioeingabe zu erhalten.
In einigen Implementierungen sind die steuerbare(n) Vorrichtung(en) 106 und die sprachaktivierte(n) Vorrichtung(en) 104 in einem Anwenderbereich miteinander verknüpft und spezifischer über ein Anwenderkonto im Anwenderbereich einander zugeordnet. Die Informationen in der steuerbaren Vorrichtung 106 (ob im lokalen Netz 108 oder im Netz 110) und der sprachaktivierten Vorrichtung 104 (ob im lokalen Netz 108 oder im Netz 110) sind in der Vorrichtungs-Registry 118 in Verbindung mit dem Anwenderkonto gespeichert. In einigen Implementierungen gibt es eine Vorrichtungs-Registry für die steuerbaren Vorrichtungen 106 und eine Vorrichtungs-Registry für die sprachaktivierten Vorrichtungen 104. Die Registry der steuerbaren Vorrichtungen kann auf die Vorrichtungen in der Registry der sprachaktivierten Vorrichtungen, die dem Anwenderbereich zugeordnet sind, Bezug nehmen und umgekehrt.
In einigen Implementierungen sind eine oder mehrere der sprachaktivierten Vorrichtungen 104 (und eine oder mehrere Cast-Vorrichtungen) und eine oder mehrere der steuerbaren Vorrichtungen 106 über eine Client-Vorrichtung 103 für den Sprachassistentendienst 140 bevollmächtigt. In einigen Implementierungen enthält die sprachaktivierte Vorrichtung 104 keinen Anzeigeschirm, wobei sie auf die Client-Vorrichtung 103 angewiesen ist, um während eines Bevollmächtigungsprozesses eine Anwenderschnittstelle zu schaffen, und ebenso ähnlich für eine steuerbare Vorrichtung 106. Spezifisch ist die Client-Vorrichtung 103 mit einer Anwendung installiert, die es einer Anwenderschnittstelle ermöglicht, die Bevollmächtigung einer neuen sprachaktivierten Vorrichtung 104 und/oder einer neuen steuerbaren Vorrichtung 106, die in der Nähe der Client-Vorrichtung angeordnet ist, zu fördern. Ein Anwender kann eine Anforderung an die Anwenderschnittstelle der Client-Vorrichtung 103 senden, um einen Bevollmächtigungsprozess für eine neue elektronische Vorrichtung 104/106 einzuleiten, die bevollmächtigt werden muss. Nach dem Empfangen der Bevollmächtigungsanforderung baut die Client-Vorrichtung 103 eine Kurzstrecken-Kommunikationsverbindung mit der neuen elektronischen Vorrichtung 104/103 auf, die bevollmächtigt werden muss. Optional wird die Kurzstrecken-Kommunikationsverbindung basierend auf einer Nahfeldkommunikation (NFC), Bluetooth, Bluetooth Low Energy (BLE) und dergleichen aufgebaut. Die Client-Vorrichtung 103 übermittelt dann die Daten der drahtlosen Konfiguration, die einem drahtlosen lokalen Netz (WLAN) (z. B. dem lokalen Netz 108) zugeordnet sind, zu der neuen elektronischen Vorrichtung 104/106. Die Daten der drahtlosen Konfiguration enthalten wenigstens einen WLAN-Sicherheitscode (d. h., das Kennwort der Dienstmengenkennung (SSID)) und enthalten optional eine SSID, eine Internetprotokolladresse (IP-Adresse), eine Proxy-Konfiguration und eine Gateway-Konfiguration. Nach dem Empfangen der Daten der drahtlosen Konfiguration über die Kurzstrecken-Kommunikationsverbindung decodiert die neue elektronische Vorrichtung 104/106 die Daten der drahtlosen Konfiguration und gewinnt die neue elektronische Vorrichtung 104/106 die Daten der drahtlosen Konfiguration wieder, wobei sie basierend auf den Daten der drahtlosen Konfiguration dem WLAN beitritt.
In einigen Implementierungen werden zusätzliche Anwenderbereichsinformationen in die auf der Client-Vorrichtung 103 angezeigte Anwenderschnittstelle eingegeben und verwendet, um die neue elektronische Vorrichtung 104/106 mit einem Konto im Anwenderbereich zu verknüpfen. Optional werden die zusätzlichen Anwenderbereichsinformationen zusammen mit den Daten der drahtlosen Konfiguration über die Kurzstrecken-Kommunikationsverbindung zu der neuen elektronischen Vorrichtung 104/106 übermittelt. Optional werden die zusätzlichen Anwenderbereichsinformationen über das WLAN zu der neuen elektronischen Vorrichtung 104/106 übermittelt, nachdem die neue Vorrichtung dem WLAN beigetreten ist.
Sobald die elektronische Vorrichtung 104/106 in dem Anwenderbereich bevollmächtigt worden ist, können andere Vorrichtungen und ihre zugeordneten Aktivitäten über mehrere Steuerwege gesteuert werden. In Übereinstimmung mit einem Steuerweg wird eine in der Client-Vorrichtung 103 installierte Anwendung verwendet, um die andere Vorrichtung und ihre zugeordneten Aktivitäten (z. B. die Medienabspielaktivitäten) zu steuern. Alternativ wird in Übereinstimmung mit einem weiteren Steuerweg die elektronische Vorrichtung 104/106 verwendet, um eine Steuerung, bei der die Augen und die Hände frei sind, der anderen Vorrichtung und ihrer zugeordneten Aktivitäten zu ermöglichen.
In einigen Implementierungen können den sprachaktivierten Vorrichtungen 104 und den steuerbaren Vorrichtungen 106 durch einen Anwender (z. B. durch den Hauptanwender, dem die Vorrichtungen im Anwenderbereich zugeordnet sind) Spitznamen zugewiesen werden. Einer Lautsprechervorrichtung im Wohnzimmer kann z. B. ein Spitzname „Wohnzimmerlautsprecher“ zugewiesen sein. In dieser Weise kann sich der Anwender durch das Sprechen des Spitznamens der Vorrichtung leichter in eine Spracheingabe auf eine Vorrichtung beziehen. In einigen Implementierungen sind die Vorrichtungsspitznamen und die Abbildungen auf die entsprechenden Vorrichtungen in einer sprachaktivierten Vorrichtung 104 (die die Spitznamen nur der Vorrichtungen, die demselben Anwender wie die sprachaktivierte Vorrichtung zugeordnet ist, speichern würde) und/oder einem Sprachunterstützungs-Server-System 112 (das die Vorrichtungsspitznamen der verschiedenen Anwendern zugeordneten Vorrichtungen speichern würde) gespeichert. Das Sprachunterstützungs-Server-System 112 speichert z. B. viele Vorrichtungsspitznamen und Abbildungen über verschiedene Vorrichtungen und Anwender, wobei die sprachaktivierten Vorrichtungen 104, die einem speziellen Anwender zugeordnet sind, die Spitznamen und die Abbildungen für die Vorrichtungen, die dem speziellen Anwender zugeordnet sind, für die lokale Speicherung herunterladen.
In einigen Implementierungen kann ein Anwender eine oder mehrere sprachaktivierte Vorrichtungen 104 und/oder steuerbare Vorrichtungen 106 in einer durch den Anwender erzeugten Gruppe von Vorrichtungen gruppieren. Der Gruppe kann ein Name gegeben werden, wobei auf die Gruppe von Vorrichtungen ähnlich zu dem Bezugnehmen auf die einzelnen Vorrichtungen durch den Spitznamen durch den Gruppennamen Bezug genommen werden kann. Ähnlich zu den Vorrichtungsspitznamen können die Vorrichtungsgruppen und die Gruppennamen in einer sprachaktivierten Vorrichtung 104 und/oder dem Sprachunterstützungs-Server-System 112 gespeichert sein.
Eine Spracheingabe von dem Anwender kann eine steuerbare Zielvorrichtung 106 oder eine Zielgruppe von Vorrichtungen für die Anforderung in der Spracheingabe explizit spezifizieren. Ein Anwender kann z. B. eine Spracheingabe „spiele klassische Musik auf dem Wohnzimmerlautsprecher ab“ aussprechen. Die Zielvorrichtung in der Spracheingabe ist der „Wohnzimmerlautsprecher“; die Anforderung in der Spracheingabe ist eine Anforderung, dass der „Wohnzimmerlautsprecher“ klassische Musik abspielt. Als ein weiteres Beispiel kann der Anwender eine Spracheingabe „spiele klassische Musik auf den Hauslautsprechern ab“ aussprechen, wobei „Hauslautsprecher“ ein Name einer Gruppe von Vorrichtungen ist. Die Zielvorrichtungsgruppe in der Spracheingabe sind die „Hauslautsprecher“; die Anforderung in der Spracheingabe ist eine Anforderung, dass die Vorrichtungen in der Gruppe „Hauslautsprecher“ klassische Musik abspielen.
Eine Spracheingabe von dem Anwender kann keine explizite Spezifikation einer Zielvorrichtung oder einer Zielvorrichtungsgruppe aufweisen; wobei eine Bezugnahme auf eine Zielvorrichtung oder eine Zielvorrichtungsgruppe durch den Namen in der Spracheingabe fehlt. Nach der obigen beispielhaften Spracheingabe „spiele klassische Musik auf dem Wohnzimmerlautsprecher ab“ kann der Anwender z. B. eine anschließende Spracheingabe „Pause“ aussprechen. Die Spracheingabe enthält keine Spezifikation einer Zielvorrichtung für die Anforderung für einen Pausenbetrieb. In einigen Implementierungen kann die Spezifikation der Zielvorrichtung in der Spracheingabe mehrdeutig sein. Der Anwender kann z. B. den Vorrichtungsnamen unvollständig ausgesprochen haben. In einigen Implementierungen kann eine Zielvorrichtung oder eine Zielvorrichtungsgruppe der Spracheingabe zugeordnet werden, wo eine explizite Spezifikation der Zielvorrichtung fehlt oder die Spezifikation der Zielvorrichtung mehrdeutig ist, wie im Folgenden beschrieben wird.
Wenn in einigen Implementierungen eine sprachaktivierte Vorrichtung 104 eine Spracheingabe mit einer expliziten Spezifikation einer Zielvorrichtung oder eine Zielvorrichtungsgruppe empfängt, baut die sprachaktivierte Vorrichtung 104 eine Fokussitzung bezüglich der spezifizierten Zielvorrichtung oder Zielvorrichtungsgruppe auf. In einigen Implementierungen speichert die sprachaktivierte Vorrichtung 104 für die Fokussitzung einen Sitzungsstartzeitpunkt (z. B. den Zeitstempel der Spracheingabe, auf der basierend die Fokussitzung gestartet wurde) und als die Vorrichtung im Fokus für die Fokussitzung die spezifizierte Zielvorrichtung oder Zielvorrichtungsgruppe. In einigen Implementierungen protokolliert die sprachaktivierte Vorrichtung 104 außerdem die anschließenden Spracheingaben in der Fokussitzung. Die sprachaktivierte Vorrichtung 104 protokolliert wenigstens die neueste Spracheingabe in der Fokussitzung und protokolliert und bewahrt optional ebenso die vorhergehenden Spracheingaben innerhalb der Fokussitzung. In einigen Implementierungen baut das Sprachunterstützungs-Server-System 112 die Fokussitzung auf. In einigen Implementierungen kann die Fokussitzung durch eine Spracheingabe beendet werden, die eine andere Zielvorrichtung oder Zielvorrichtungsgruppe explizit spezifiziert.
Während eine Fokussitzung bezüglich einer Vorrichtung aktiv ist und die sprachaktivierte Vorrichtung eine Spracheingabe empfängt, führt die sprachaktivierte Vorrichtung 104 eine oder mehrere Bestimmungen bezüglich der Spracheingabe aus. In einigen Implementierungen enthalten die Bestimmungen: ob die Spracheingaben eine explizite Spezifikation einer Zielvorrichtung enthalten, ob die Anforderung in der Spracheingabe eine ist, die durch die Vorrichtung im Fokus erfüllt werden kann, und einen Zeitpunkt der Spracheingabe im Vergleich zu dem Zeitpunkt der letzten Spracheingabe in der Fokussitzung und/oder dem Sitzungsstartzeitpunkt. Wenn die Spracheingabe keine explizite Spezifikation einer Zielvorrichtung enthält, eine Anforderung enthält, die durch die Vorrichtung im Fokus erfüllt werden kann, und bezüglich des Zeitpunkts der letzten Spracheingabe in die Fokussitzung und/oder des Sitzungsstartzeitpunkts den vorgegebenen Zeitkriterien entspricht, dann wird die Vorrichtung im Fokus als die Zielvorrichtung für die Spracheingabe zugeordnet. Weitere Einzelheiten hinsichtlich der Fokussitzungen werden im Folgenden beschrieben.
Die Vorrichtungen in der Betriebsumgebung
2 ist ein Blockschaltplan, der eine beispielhafte sprachaktivierte Vorrichtung 104 veranschaulicht, die als eine Sprachschnittstelle angewendet wird, um Anwendersprachbefehle in einer Betriebsumgebung (z. B. der Betriebsumgebung 100) gemäß einigen Implementierungen zu sammeln. Die sprachaktivierte Vorrichtung 104 enthält typischerweise eine oder mehrere Verarbeitungseinheiten (CPUs) 202, eine oder mehrere Netzschnittstellen 204, einen Speicher 206 und einen oder mehrere Kommunikationsbusse 208, um diese Komponenten miteinander zu verbinden, (der manchmal als ein Chipsatz bezeichnet wird). Die sprachaktivierte Vorrichtung 104 enthält eine oder mehrere Eingabevorrichtungen 210, die eine Anwendereingabe fördern, wie z. B. eine Taste 212, eine Berührungsabtastanordnung 214 und ein oder mehrere Mikrophone 216. Die sprachaktivierte Vorrichtung 104 enthält außerdem eine oder mehrere Ausgabevorrichtungen 218 einschließlich eines oder mehrerer Lautsprecher 220, optional eine Anordnung von LEDs 222 und optional eine Anzeige 224. In einigen Implementierungen ist die Anordnung der LEDs 222 eine Anordnung von Vollfarben-LEDs. In einigen Implementierungen weist eine sprachaktivierte Vorrichtung 104 in Abhängigkeit von dem Typ der Vorrichtung entweder die Anordnung der LEDs 222 oder die Anzeige 224 oder beides auf. In einigen Implementierungen enthält die sprachaktivierte Vorrichtung 104 außerdem eine Ortsdetektionsvorrichtung 226 (z. B. ein GPS-Modul) und einen oder mehrere Sensoren 228 (z. B. einen Beschleunigungsmesser, ein Gyroskop, einen Lichtsensor usw.).
Der Speicher 206 enthält einen Hochgeschwindigkeits-Schreib-LeseSpeicher, wie z. B. einen DRAM, einen SRAM, einen DDR-RAM oder andere Schreib-Lese-Halbleiterspeichervorrichtungen; und enthält optional einen nichtflüchtigen Speicher, wie z. B. eine oder mehrere Magnetplatten-Speichervorrichtungen, eine oder mehrere Speichervorrichtungen optischer Platten, eine oder mehrere Flash-Speichervorrichtungen oder eine oder mehrere andere nichtflüchtige Halbleiterspeichervorrichtungen. Der Speicher 206 enthält optional eine oder mehrere Speichervorrichtungen, die sich entfernt von der einen oder den mehreren Verarbeitungseinheiten 202 befinden. Der Speicher 206 oder alternativ der nichtflüchtige Speicher innerhalb des Speichers 206 enthält ein nichttransitorisches computerlesbares Speichermedium. In einigen Implementierungen speichert der Speicher 206 oder das nichttransitorische computerlesbare Speichermedium des Speichers 206 die folgenden Programme, Module und Datenstrukturen oder eine Teilmenge oder eine Obermenge davon:

• ein Betriebssystem 232, das Prozeduren zur Handhabung verschiedener grundlegender Systemdienste und zum Ausführen hardware-abhängiger Aufgaben enthält;
• ein Netzkommunikationsmodul 234 zum Verbinden der sprachaktivierten Vorrichtung 104 mit anderen Vorrichtungen (z. B. dem Sprachunterstützungsdienst 140, einer oder mehreren steuerbaren Vorrichtungen 106, einer oder mehreren Client-Vorrichtungen 103 und einer anderen sprachaktivierten Vorrichtung(en) 104) über eine oder mehrere (verdrahtete oder drahtlose) Netzschnittstellen 204 und ein oder mehrere Netze 110, wie z. B. das Internet, andere Weitbereichsnetze, lokale Netze (z. B. das lokale Netz 108), Stadtbereichsnetze usw.;
• ein Eingabe/Ausgabe-Steuermodul 236 zum Empfangen von Eingaben über eine oder mehrere Eingabevorrichtungen und zum Ermöglichen der Darstellung von Informationen auf der sprachaktivierten Vorrichtung 104 über eine oder mehrere Ausgabevorrichtungen 218, einschließlich:
- ◯ eines Sprachverarbeitungsmoduls 238 zum Verarbeiten von Audioeingaben oder Sprachnachrichten, die in einer die sprachaktivierte Vorrichtung 104 umgebenden Umgebung gesammelt werden, oder zum Vorbereiten der gesammelten Audioeingaben oder Sprachnachrichten für die Verarbeitung in einem Sprachunterstützungs-Server-System 112;
- ◯ eines LED-Steuermoduls 240 zum Erzeugen sichtbarer Muster auf den LEDs 222 gemäß den Vorrichtungszuständen der sprachaktivierten Vorrichtung 104; und
- ◯ eines Berührungsabtastmoduls 242 zum Abtasten von Berührungsereignissen auf einer Oberseite (z. B. einer Berührungssensoranordnung 214) der sprachaktivierten Vorrichtung 104;
• sprachaktivierte Vorrichtungsdaten 224 zum Speichern wenigstens der Daten, die der sprachaktivierten Vorrichtung 104 zugeordnet sind, einschließlich:
- ◯ der Sprachvorrichtungseinstellungen 246 zum Speichern von Informationen, die der sprachaktivierten Vorrichtung 104 selbst zugeordnet sind, einschließlich der gemeinsamen Vorrichtungseinstellungen (z. B. des Dienstrangs, des Vorrichtungsmodells, der Speicherkapazität, der Verarbeitungsfähigkeiten, der Kommunikationsfähigkeiten usw.), der Informationen eines oder mehrerer Anwenderkonten in einem Anwenderbereich, der Vorrichtungsspitznamen und der Vorrichtungsgruppen, der Einstellungen hinsichtlich der Einschränkungen, wenn mit einem nicht registrierten Anwender umgegangen wird, und der Anzeigespezifikationen, die einem oder mehreren durch die LEDs 222 angezeigten sichtbaren Mustern zugeordnet sind; und
- oder Sprachsteuerdaten 248 zum Speichern von Audiosignalen, Sprachnachrichten, Antwortnachrichten und anderen auf die Sprachschnittstellenfunktionen der sprachaktivierten Vorrichtung 104 bezogenen Daten;
• ein Antwortmodul 250 zum Ausführen von Anweisungen, die in den Sprachanforderungsantworten enthalten sind, die durch das Sprachunterstützungs-Server-System 112 erzeugt werden, und in einigen Implementierungen zum Erzeugen von Antworten auf bestimmte Spracheingaben; und
• ein Fokussitzungsmodul 252 zum Aufbauen, Managen und Beenden von Fokussitzungen bezüglich der Vorrichtungen.

In einigen Implementierungen enthält das Sprachverarbeitungsmodul 238 die folgenden (nicht gezeigten) Module):

• ein Anwenderidentifikationsmodul zum Identifizieren und Eindeutigmachen der Anwender, die der sprachaktivierten Vorrichtung 104 Spracheingaben bereitstellen;
• ein Hotword-Erkennungsmodul zum Bestimmen, ob die Spracheingaben ein Hotword zum Aufwecken der sprachaktivierten Vorrichtung 104 enthalten, und zum Erkennen eines solchen in den Spracheingaben; und
• ein Anforderungserkennungsmodul zum Bestimmen einer in einer Spracheingabe enthaltenen Anwenderanforderung.

In einigen Implementierungen speichert der Speicher 206 außerdem die Fokussitzungsdaten 254 für eine ausstehende Fokussitzung einschließlich des Folgenden:

• der Vorrichtung(en) 256 im Fokus der Sitzung zum Speichern einer Kennung der Vorrichtung oder der Vorrichtungsgruppe im Fokus in einer ausstehenden Fokussitzung (z. B. den Vorrichtungsspitznamen, den Vorrichtungsgruppennamen, die MAC-Adresse(en) der Vorrichtung(en));
• eines Sitzungsstartzeitpunkts 258 zum Speichern eines Zeitstempels für den Start der ausstehenden Fokussitzung; und
• einer Sitzungsbefehlshistorie 206 zum Speichern eines Protokolls früherer Anforderungen oder Befehle in der Fokussitzung einschließlich wenigstens der neuesten Anforderung/des neuesten Befehls. Das Protokoll enthält wenigstens den (die) Zeitstempel der protokollierten früheren Anforderung(en)/des protokollierten früheren Befehls (der protokollierten früheren Befehle).

Jedes der oben identifizierten Elemente kann in einer oder mehreren der vorher erwähnten Speichervorrichtungen gespeichert sein und entspricht einem Satz von Anweisungen zum Ausführen einer oben beschriebenen Funktion. Die oben identifizierten Module oder Programme (d. h., die Sätze von Anweisungen) müssen nicht als separate Software-Programme, Prozeduren, Module oder Datenstrukturen implementiert sein, wobei folglich verschiedene Teilmengen dieser Module in verschiedenen Implementierungen kombiniert oder anderweitig umgeordnet sein können. In einigen Implementierungen speichert der Speicher 206 optional eine Teilmenge der oben identifizierten Module und Datenstrukturen. Weiterhin speichert der Speicher 206 optional zusätzliche Module und Datenstrukturen, die oben nicht beschrieben worden sind. In einigen Implementierungen kann eine Teilmenge der Programme, Module und/oder Daten, die in dem Speicher 206 gespeichert sind, in dem Sprachunterstützungs-Server-System 112 gespeichert sein und/oder durch das Sprachunterstützungs-Server-System ausgeführt werden.
In einigen Implementierungen sind ein oder mehrere der oben beschriebenen Module im Speicher 206 Teil einer Sprachverarbeitungsbibliothek der Module. Die Sprachverarbeitungsbibliothek kann in einer umfassenden Vielfalt von Vorrichtungen implementiert und eingebettet sein. Ein Beispiel einer Sprachverarbeitungsbibliothek ist in der provisorischen US-Patentanmeldung Nr. 62/334.434 mit dem Titel „Implementations for Voice Assistant Devices“, eingereicht am 10. Mai 2016, beschrieben, die hierdurch durch Bezugnahme aufgenommen ist.
Die 3A-3B sind Blockschaltpläne, die ein beispielhaftes Sprachunterstützungs-Server-System 112 eines Sprachassistentendienstes 140 einer Betriebsumgebung (z. B. der Betriebsumgebung 100) gemäß einigen Implementierungen veranschaulichen. Das Server-System 112 enthält typischerweise eine oder mehrere Verarbeitungseinheiten (CPUs) 302, eine oder mehrere Netzschnittstellen 304, einen Speicher 306 und einen oder mehrere Kommunikationsbusse 308, um diese Komponenten miteinander zu verbinden, (der manchmal als ein Chipsatz bezeichnet wird). Das Server-System 112 kann eine oder mehrere Eingabevorrichtungen 310 enthalten, die eine Anwendereingabe fördern, wie z. B. eine Tastatur, eine Maus, eine Sprachbefehlseingabeeinheit oder ein Mikrophon, eine Berührungsschirmanzeige, ein berührungsempfindliches Eingabefeld, eine Gestenerfassungskamera oder andere Eingabetasten oder Steuerelemente. Weiterhin kann das Server-System 112 ein Mikrophon und Spracherkennung oder eine Kamera und Gestenerkennung verwenden, um die Tastatur zu ergänzen oder zu ersetzen. In einigen Implementierungen enthält das Server-System 112 eine oder mehrere Kameras, einen oder mehrere Scanner oder eine oder mehrere Photosensoreinheiten zum Aufnehmen von Bildern, z. B. der auf die elektronischen Vorrichtungen gedruckten graphischen Seriencodes. Das Server-System 112 kann außerdem eine oder mehrere Ausgabevorrichtungen 312 enthalten, die eine Darstellung der Anwenderschnittstellen und des Anzeigeinhalts ermöglichen, einschließlich eines oder mehrerer Lautsprecher und/oder einer oder mehrerer sichtbarer Anzeigen.
Der Speicher 306 enthält einen Hochgeschwindigkeits-Schreib-LeseSpeicher, wie z. B. einen DRAM, einen SRAM, einen DDR-RAM oder andere Schreib-Lese-Halbleiterspeichervorrichtungen; und enthält optional einen nichtflüchtigen Speicher, wie z. B. eine oder mehrere Magnetplatten-Speichervorrichtungen, eine oder mehrere Speichervorrichtungen optischer Platten, eine oder mehrere Flash-Speichervorrichtungen oder eine oder mehrere andere nichtflüchtige Halbleiterspeichervorrichtungen. Der Speicher 306 enthält optional eine oder mehrere Speichervorrichtungen, die sich entfernt von einer oder mehreren Verarbeitungseinheiten 302 befinden. Der Speicher 306 oder alternativ der nichtflüchtige Speicher innerhalb des Speichers 306 enthält ein nichttransitorisches computerlesbares Speichermedium. In einigen Implementierungen speichert der Speicher 306 oder das nichttransitorische computerlesbare Speichermedium des Speichers 306 die folgenden Programme, Module und Datenstrukturen oder eine Teilmenge oder eine Obermenge davon:

• ein Betriebssystem 316, das Prozeduren zur Handhabung verschiedener grundlegender Systemdienste und zum Ausführen hardware-abhängiger Aufgaben enthält;
• ein Netzkommunikationsmodul 318 zum Verbinden des Server-Systems 112 über eine oder mehrere (verdrahtete oder drahtlose) Netzschnittstellen 304 und ein oder mehrere Netze 110, wie z. B. das Internet, andere Weitbereichsnetze, lokale Netze, Stadtbereichsnetze usw., mit anderen Vorrichtungen (z. B. den Client-Vorrichtungen 103, den steuerbaren Vorrichtungen 106, den sprachaktivierten Vorrichtungen 104);
• ein Anwenderschnittstellenmodul 320 zum Ermöglichen der Darstellung von Informationen (z. B. eine graphische Anwenderschnittstelle zum Darstellen von einer Anwendung(en) 322-328, Widgets, Web-Sites und deren Web-Seiten und/oder Spielen, Audio- und/oder Videoinhalt, Text usw.) an einer Client-Vorrichtung;
• ein Befehlsausführungsmodul 321 für die Ausführung auf der Server-Seite (z. B. Spiele, Anwendungen sozialer Netze, Smart-Home-Anwendungen und/oder andere web- oder nicht web-basierte Anwendungen zum Steuern einer Client-Vorrichtung 103, einer steuerbaren Vorrichtung 106, einer sprachaktivierten Vorrichtung 104 und Smart-Home-Vorrichtungen und zum Überprüfen der durch derartige Vorrichtungen erfassten Daten) einschließlich eines oder mehrerer des Folgenden:
- ◯ einer Cast-Vorrichtungs-Anwendung 322, die ausgeführt wird, um die Funktionalitäten auf der Server-Seite für die Vorrichtungsbereitstellung, die Vorrichtungssteuerung und das Anwenderkontenmanagement, die der Cast-Vorrichtung (den Cast-Vorrichtungen) zugeordnet sind, bereitzustellen;
- ◯ einer oder mehreren Medienspieleranwendungen 324, die ausgeführt werden, um die Funktionalitäten auf der Server-Seite für die Medienanzeige und das Anwenderkontenmanagement, die den entsprechenden Medienquellen zugeordnet sind, bereitzustellen;
- ◯ einer oder mehreren Smart-Home-Vorrichtungsanwendungen 326, die ausgeführt werden, um die Funktionalitäten auf der Server-Seite für die Vorrichtungsbereitstellung, die Vorrichtungssteuerung, die Datenverarbeitung und die Datenüberprüfung der entsprechenden Smart-Home-Vorrichtungen bereitzustellen; und
- ◯ einer Sprachunterstützungsanwendung 328, die ausgeführt wird, um die Sprachverarbeitung einer von der sprachaktivierten Vorrichtung 104 empfangenen Sprachnachricht zu veranlassen oder die Sprachnachricht direkt zu verarbeiten, um einen Anwendersprachbefehl und einen oder mehrere Parameter für den Anwendersprachbefehl (z. B. eine Bezeichnung einer Cast-Vorrichtung oder einer weiteren sprachaktivierten Vorrichtung 104) zu extrahieren; und
• Server-Systemdaten 330, die wenigstens Daten, die der automatischen Steuerung der Medienanzeige (z. B. in einem automatischen Medienausgabemodus und einem Fortsetzungsmodus) zugeordnet sind, und andere Daten speichern, die eines oder mehreres des Folgenden enthalten:
- ◯ die Client-Vorrichtungs-Einstellungen 332 zum Speichen von Informationen, die einer oder mehreren Client-Vorrichtungen zugeordnet sind, einschließlich der gemeinsamen Vorrichtungseinstellungen (z. B. des Dienstrangs, des Vorrichtungsmodells, der Speicherkapazität, der Verarbeitungsfähigkeiten, der Kommunikationsfähigkeiten usw.) und der Informationen für die automatische Medienanzeigesteuerung;
- ◯ die Cast-Vorrichtungseinstellungen 334 zum Speichern von Informationen, die den Anwenderkonten der Cast-Vorrichtungs-Anwendung 322 zugeordnet sind, einschließlich eines oder mehrerer der Kontenzugangsinformationen, der Informationen für die Vorrichtungseinstellungen (z. B. des Dienstrangs, des Vorrichtungsmodells, der Speicherkapazität, der Verarbeitungsfähigkeiten, der Kommunikationsfähigkeiten usw.) und der Informationen für die automatische Medienanzeigesteuerung;
- ◯ die Medienspieler-Anwendungseinstellungen 336 zum Speichern der Informationen, die den Anwenderkonten einer oder mehrerer Medienspieleranwendungen 324 zugeordnet sind, einschließlich einer oder mehrerer der Kontenzugangsinformationen, der Anwendervorlieben der Medieninhaltstypen, der Überprüfungshistoriendaten und der Informationen für die automatische Medienanzeigesteuerung;
- ◯ die Smart-Home-Vorrichtungseinstellungen 338 zum Speichern von Informationen, die den Anwenderkonten der Smart-Home-Anwendungen 326 zugeordnet sind, einschließlich einer oder mehrerer der Kontenzugangsinformationen, der Informationen für eine oder mehrere Smart-Home-Vorrichtungen (z. B. des Dienstrangs, des Vorrichtungsmodells, der Speicherkapazität, der Verarbeitungsfähigkeiten, der Kommunikationsfähigkeiten usw.);
- ◯ die Sprachunterstützungsdaten 340 zum Speichern von Informationen, die den Anwenderkonten der Sprachunterstützungsanwendung 328 zugeordnet sind, einschließlich einer oder mehrerer der Kontenzugangsinformationen, der Informationen für eine oder mehrere sprachaktivierte Vorrichtungen 104 (z. B. des Dienstrangs, des Vorrichtungsmodells, der Speicherkapazität, der Verarbeitungsfähigkeiten, der Kommunikationsfähigkeiten usw.);
- ◯ die Anwenderdaten 342 zum Speichern von Informationen, die den Anwendern im Anwenderbereich zugeordnet sind, einschließlich der Abonnements der Anwender (z. B. der Musik-Streaming-Dienst-Abonnements, der Video-Streaming-Dienst-Abonnements, der Newsletter-Abonnements), der Anwendervorrichtungen (z. B. der Vorrichtungen, die in der Vorrichtungs-Registry 118 registriert sind, die den jeweiligen Anwendern zugeordnet sind, der Vorrichtungsspitznamen, der Vorrichtungsgruppen), der Anwenderkonten (z. B. der E-Mail-Konten, der Kalenderkonten, der Finanzkonten der Anwender) und anderer Anwenderdaten;
- ◯ die Anwendersprachprofile 344 zum Speichern der Sprachprofile der Anwender im Anwenderbereich einschließlich z. B. der Sprachmodelle oder der Sprachfingerabdrücke der Anwender und der Schwellenwerte der angenehmen Lautstärkepegel der Anwender; und
- ◯ die Fokussitzungsdaten 346 zum Speichern der Fokussitzungsdaten für mehrere Vorrichtungen.
• ein Vorrichtungsregistrierungsmodul 348 zum Managen der Vorrichtungs-Registry 118;
• ein Sprachverarbeitungsmodul 350 zum Verarbeiten der Audioeingaben oder der Sprachnachrichten, die in einer die elektronische Vorrichtung 104 umgebenden Umgebung gesammelt werden; und
• ein Fokussitzungsmodul 352 zum Aufbauen, Managen und Beenden von Fokussitzungen bezüglich der Vorrichtungen.

In einigen Implementierungen speichert der Speicher 306 außerdem Fokussitzungsdaten 346 für eine oder mehrere ausstehende Fokussitzungen 3462-1 bis 3462-M einschließlich des Folgenden:

• einer Sitzungsquellvorrichtung 3464 zum Speichern einer Kennung der Vorrichtung, in der eine Fokussitzung aufgebaut wird;
• der Vorrichtung(en) 256 im Fokus der Sitzung zum Speichern einer Kennung der Vorrichtung oder der Vorrichtungsgruppe im Fokus in einer ausstehenden Fokussitzung (z. B. des Vorrichtungsspitznamens, des Vorrichtungsgruppennamens, der MAC-Adresse(en) der Vorrichtung(en));
• eines Sitzungsstartzeitpunkts 3468 zum Speichern eines Zeitstempels für den Start der ausstehenden Fokussitzung; und
• einer Sitzungsbefehlshistorie 3470 zum Speichern eines Protokolls früherer Anforderungen oder Befehle in der Fokussitzung einschließlich wenigstens der neuesten Anforderung/des neuesten Befehls.

In einigen Implementierungen ist das Sprachunterstützungs-Server-System 112 hauptsächlich für die Verarbeitung der Spracheingaben verantwortlich, wobei folglich eines oder mehrere der Programme, Module und Datenstrukturen im Speicher 206, die oben bezüglich 2 beschrieben worden sind, in den jeweiligen Modulen im Speicher 306 enthalten sind (wobei z. B. die Programme, Module und Datenstrukturen, die in dem Sprachverarbeitungsmodul 238 enthalten sind, in dem Sprachverarbeitungsmodul 350 enthalten sind). Die sprachaktivierte Vorrichtung 104 überträgt entweder die erfassten Videoeingaben zu dem Sprachunterstützungs-Server-System 112 für die Verarbeitung oder führt zuerst eine Vorverarbeitung der Spracheingaben aus und überträgt die vorverarbeiteten Spracheingaben zur Verarbeitung zu dem Sprachunterstützungs-Server-System 112. In einigen Implementierungen weisen das Sprachunterstützungs-Server-System 112 und die sprachaktivierte Vorrichtung 104 einige gemeinsam benutzte und einige geteilte Verantwortlichkeiten hinsichtlich der Verarbeitung der Spracheingaben auf, wobei die in 2 gezeigten Programme, Module und Datenstrukturen in beiden enthalten sein können oder unter dem Sprachunterstützungs-Server-System 112 und der sprachaktivierten Vorrichtung 104 aufgeteilt sein können. Andere Programme, Module und Datenstrukturen, die in 2 gezeigt sind, oder deren Analoga können außerdem in dem Sprachunterstützungs-Server-System 112 enthalten sein.
Jedes der oben identifizierten Elemente kann in einer oder mehreren der vorher erwähnten Speichervorrichtungen gespeichert sein, wobei es einem Satz von Anweisungen zum Ausführen einer oben beschriebenen Funktion entspricht. Die oben identifizierten Module oder Programme (d. h., die Sätze von Anweisungen) müssen nicht als separate Software-Programme, Prozeduren, Module oder Datenstrukturen implementiert sein, wobei folglich verschiedene Teilmengen dieser Module in verschiedenen Implementierungen kombiniert oder anderweitig umgeordnet sein können. In einigen Implementierungen speichert der Speicher 306 optional eine Teilmenge der oben identifizierten Module und Datenstrukturen. Weiterhin speichert der Speicher 306 optional zusätzliche Module und Datenstrukturen, die oben beschrieben nicht worden sind.
EINE BEISPIELHAFTE FOKUSSITZUNG
Die 4A-4D veranschaulichen ein Beispiel einer Fokussitzung gemäß einigen Implementierungen. In einer Betriebsumgebung mit einer sprachaktivierten Vorrichtung 104 (z. B. der Betriebsumgebung 100) und mehreren steuerbaren Vorrichtungen 106 kann eine Fokussitzung mit der Zielvorrichtung als der Vorrichtung im Fokus aufgebaut werden, wenn ein Anwender in der Umgebung eine Spracheingabe ausführt, die eine der steuerbaren Vorrichtungen 106 als eine Zielvorrichtung spezifiziert.
4A zeigt eine sprachaktivierte Vorrichtung 404 (z. B. die sprachaktivierte Vorrichtung 101) und drei steuerbare Vorrichtungen 406, 408 und 410 (z. B. die steuerbaren Vorrichtungen 106) in einer Betriebsumgebung (z. B. der Betriebsumgebung 100). Die Vorrichtungen können sich in demselben Raum wie ein Anwender 402 (z. B. in demselben Zimmer) befinden oder können überall in einer Struktur, in der sich der Anwender befindet, verteilt sein. Die Vorrichtung 406 ist ein Lautsprechersystem mit dem Spitznamen „Master-Schlafzimmerlautsprecher“. Die Vorrichtung 408 ist eine Medienvorrichtung mit dem Spitznamen „Wohnzimmer-TV“. Die Vorrichtung 410 ist eine Medienvorrichtung mit dem Spitznamen „Spielzimmer-TV“. Momentan gibt es keine Fokussitzung; die Fokussitzung 418 ist leer.
Der Anwender 402 spricht eine Spracheingabe 403 „spiele Katzenvideos auf dem Spielzimmer-TV ab“ aus, wobei die sprachaktivierte Vorrichtung 404 die Spracheingabe empfängt. Die sprachaktivierte Vorrichtung 404 bestimmt, dass die Anforderung in der Spracheingabe 403 eine Anforderung ist, um Katzenvideos abzuspielen, wobei die Zielvorrichtung die „Spielzimmer-TV“-Vorrichtung 410 ist, die in der Spracheingabe 403 explizit spezifiziert ist. In der sprachaktivierten Vorrichtung 404 wird eine Sitzung 418, bei der die Vorrichtung im Fokus die „Spielzimmer-TV“-Vorrichtung 410 ist, aufgebaut, wie in 4B gezeigt ist. Ein Befehl, um Katzenvideos abzuspielen, wird (durch die Vorrichtung 404 oder das Sprachunterstützungs-Server-System 112) an die „Spielzimmer-TV“-Vorrichtung 410 gesendet, wobei die Vorrichtung 410 die Operation 416 ausführt.
Während die Sitzung 418 mit dem „Spielzimmer-TV“ 410 im Fokus aktiv ist und die Operation 416 durch die Vorrichtung 410 ausgeführt wird, spricht der Anwender 402 eine weitere Spracheingabe „Pause“ 420 aus. Die sprachaktivierte Vorrichtung 404 bestimmt, ob die Spracheingabe 420 eine Spezifikation einer Zielvorrichtung enthält und ob die Anforderung in der Spracheingabe 420 durch die Vorrichtung 410 im Fokus ausgeführt werden kann. In dem Fall der spezifischen Spracheingabe 420 „Pause“ bestimmt die sprachaktivierte Vorrichtung 404, dass die Spracheingabe 420 keine Spezifikation einer Zielvorrichtung enthält und das die Anforderung in der Spracheingabe („Pause“, was auch immer abgespielt wird) durch die Vorrichtung im Fokus ausgeführt werden kann. In einigen Implementierungen enthält das Bestimmen, ob die Spracheingabe 420 eine Spezifikation einer Zielvorrichtung enthält, das Suchen nach Übereinstimmungen mit den Vorrichtungsspitznamen in der Spracheingabe (z. B. das Ausführen einer Sprache-zu-Text-Erkennung an der Spracheingabe und das Parsen des Textes, um nach Vorrichtungsspitznamen zu suchen). In einigen Implementierungen enthält das Bestimmen, ob die Anforderung in der Spracheingabe durch die Vorrichtung im Fokus ausgeführt werden kann, das Bestimmen, was die Anforderung in der Spracheingabe ist, und sowohl das Vergleichen der Anforderung mit der Befehlshistorie (z. B. der Historie 260) der aktuellen Fokussitzung 418 bezüglich einer Konsistenz mit dem letzten Befehl in der Sitzung (eine „Unterbreche-die-Musik“-Anforderung ist z. B. mit einem letzten Befehl, der „Unterbreche-die-Musik“ lautet, inkonsistent) als auch das Vergleichen der Anforderung bezüglich der Konsistenz mit den Fähigkeiten der Vorrichtung im Fokus (eine „Unterbreche-die-Musik“-Anforderung ist z. B. mit den Fähigkeiten einer Smart-Leuchte inkonsistent).
In einigen Implementierungen bestimmt die sprachaktivierte Vorrichtung 404 außerdem, ob die Spracheingabe 420 einem oder mehreren Fokussitzungs-Aufrechterhaltungskriterien entspricht. In einigen Implementierungen ist ein Fokussitzungs-Aufrechterhaltungskriterium, dass sich der Zeitstempel der Spracheingabe 420 innerhalb eines bestimmten Zeitraums von dem Zeitstempel der letzten Spracheingabe 403 in der aktiven Sitzung befindet (die zweite Spracheingabe wird z. B. innerhalb eines bestimmten Zeitraums der vorausgehenden ersten Spracheingabe empfangen). In einigen Implementierungen gibt es mehrere Zeitschwellenwerte für dieses Kriterium. Es kann z. B. einen ersten, kürzeren Zeitschwellenwert (z. B. 20 Minuten) und einen zweiten, längeren Zeitschwellenwert (z. B. 4 Stunden) geben. Wenn die Spracheingabe 420 innerhalb des ersten, kürzeren Schwellenwertes der letzten Spracheingabe 403 empfangen wird und die anderen obigen Kriterien erfüllt sind, dann wird die Vorrichtung im Fokus als die Zielvorrichtung für die Spracheingabe 420 festgelegt (wobei sie in einigen Implementierungen diese Zielvorrichtungsfestlegung ebenso überträgt, wenn sie die Spracheingabe 420 für die Verarbeitung zu dem Sprachunterstützungs-Server-System überträgt). Es wird z. B. bestimmt, dass die Spracheingabe 420 keine Zielvorrichtungsspezifikation enthält und das die Anforderung „Pause“ mit dem letzten Befehl „spiele Katzenvideos ab“ konsistent ist. Wenn die Spracheingabe 420 innerhalb des kürzeren Zeitschwellenwerts der Spracheingabe 403 empfangen wird, dann wird die Vorrichtung im Fokus, die „Spielzimmer-TV“-Vorrichtung 410, als die Zielvorrichtung für die Spracheingabe 420 festgelegt, wobei die Operation 416, die in der „Spielzimmer-TV“-Vorrichtung 410 ausgeführt wird, das Unterbrechen der Katzenvideos in Übereinstimmung mit der Spracheingabe 420 ist, wie in 4D gezeigt ist.
Falls die Spracheingabe 420 nach dem ersten, kürzeren Schwellenwert und innerhalb des zweiten, längeren Schwellenwerts der letzten Spracheingabe 403 empfangen wird und die anderen obigen Kriterien erfüllt sind, gibt die sprachaktivierte Vorrichtung 404 eine Sprachaufforderung aus, um eine Bestätigung von dem Anwender anzufordern, dass die Vorrichtung im Fokus die gewünschte Zielvorrichtung für die Spracheingabe 420 ist. Die sprachaktivierte Vorrichtung 404 erhält beim Empfangen der Bestätigung, dass die Vorrichtung im Fokus die gewünschte Zielvorrichtung ist, die Sitzung 418 aufrecht und legt die Vorrichtung im Fokus als die Zielvorrichtung für die Spracheingabe 420 fest (und überträgt in einigen Implementierungen ebenso diese Zielvorrichtungsfestlegung, wenn sie die Spracheingabe 420 für die Verarbeitung zu dem Sprachunterstützungs-Server-System 112 überträgt). Falls der Anwender die Zielvorrichtung nicht bestätigt, kann die sprachaktivierte Vorrichtung 404 anfordern, dass der Anwender eine Zielvorrichtungsspezifikation bereitstellt, anfordern, dass der Anwender die Spracheingabe abermals sagt, aber eine Zielvorrichtungsspezifikation einbezieht, und/oder die Sitzung 418 beenden. Falls in einigen Implementierungen die Spracheingabe 420 nach dem zweiten, längeren Schwellenwert von der letzten Spracheingabe 403 empfangen wird oder die anderen oben beschriebenen Kriterien nicht erfüllt sind, wird die Sitzung 418 beendet. In einigen Implementierungen sind die Werte dieser Zeitschwellenwerte im Speicher 206 und/oder im Speicher 306 gespeichert. Der zwischen den Spracheingaben vergangene Zeitraum wird mit diesen Schwellenwerten verglichen.
In einigen Implementierungen wird das Fehlen einer explizit spezifizierten Zielvorrichtung in der Spracheingabe und die Konsistenz der Anforderung in der Spracheingabe mit der letzten Spracheingabe und den Fähigkeiten der Vorrichtung im Fokus außerdem als ein Fokussitzungs-Aufrechterhaltungskriterium betrachtet.
EIN BEISPIELHAFTER PROZESS
5 ist ein Ablaufplan, der ein Verfahren 500 des Antwortens auf eine Spracheingabe eines Anwenders gemäß einigen Implementierungen veranschaulicht. In einigen Implementierungen ist das Verfahren 500 in einer ersten elektronischen Vorrichtung (z. B. der sprachaktivierten Vorrichtung 104) mit einem oder mehreren Mikrophonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme für die Ausführung durch den einen oder die mehreren Prozessoren speichert, implementiert. Diese erste elektronische Vorrichtung ist ein Mitglied einer lokalen Gruppe verbundener elektronischer Vorrichtungen (z. B. der sprachaktivierten Vorrichtungen 104 und der steuerbaren Vorrichtungen 106, die einem Anwenderkonto zugeordnet sind; der steuerbaren Vorrichtungen 106, die einer speziellen sprachaktivierten Vorrichtung 104 zugeordnet ist), die (z. B. durch die Netze 110) mit einem gemeinsamen Netzdienst (z. B. dem Sprachunterstützungsdienst 140) kommunikationstechnisch gekoppelt sind.
Die erste elektronische Vorrichtung empfängt (502) einen ersten Sprachbefehl, der eine Anforderung für eine erste Operation enthält. Eine sprachaktivierte Vorrichtung 404 empfängt z. B. eine erste Spracheingabe 403.
Die erste elektronische Vorrichtung bestimmt (504) eine erste Zielvorrichtung für die erste Operation aus der lokalen Gruppe der verbundenen elektronischen Vorrichtungen. Die sprachaktivierte Vorrichtung 404 bestimmt (z. B. basierend auf der Verarbeitung durch das Sprachverarbeitungsmodul 238) eine Zielvorrichtung (oder eine Zielvorrichtungsgruppe) für die Spracheingabe 403 aus den Vorrichtungen 406, 408 und 410. Die sprachaktivierte Vorrichtung 404 erkennt die Zielvorrichtungsspezifikation „Spielzimmer-TV“ in der Spracheingabe 403 als die „Spielzimmer-TV“-Vorrichtung 410.
Die erste elektronische Vorrichtung baut bezüglich der ersten Zielvorrichtung (oder Zielvorrichtungsgruppe) eine Fokussitzung auf (506). Die sprachaktivierte Vorrichtung 404 (z. B. das Fokussitzungsmodul 252) baut eine Fokussitzung 418 mit der „Spielzimmer-TV“-Vorrichtung 410 als die Vorrichtung im Fokus auf.
Die erste elektronische Vorrichtung veranlasst (508) über den Betrieb des gemeinsamen Netzdienstes, dass die erste Operation durch die erste Zielvorrichtung (oder Zielvorrichtungsgruppe) ausgeführt wird. Die sprachaktivierte Vorrichtung 404 oder das Sprachunterstützungs-Server-System 112 überträgt einen Befehl über den Sprachunterstützungsdienst 140 zu der Vorrichtung 410, um die in der Spracheingabe 403 angeforderte Operation auszuführen.
Die erste elektronische Vorrichtung empfängt (510) einen zweiten Sprachbefehl, der eine Anforderung für eine zweite Operation enthält. Die sprachaktivierte Vorrichtung 404 empfängt eine zweite Spracheingabe 420.
Die erste elektronische Vorrichtung bestimmt (512), dass der zweite Sprachbefehl keine explizite Bezeichnung einer zweiten Zielvorrichtung (oder Zielvorrichtungsgruppe) enthält. Die sprachaktivierte Vorrichtung 404 bestimmt (z. B. basierend auf der Verarbeitung durch das Sprachverarbeitungsmodul 238) eine Zielvorrichtung für die Spracheingabe 420 und erkennt, dass die Spracheingabe 420 keine Zielvorrichtungsspezifikation enthält.
Die erste elektronische Vorrichtung bestimmt (514), dass die zweite Operation durch die erste Zielvorrichtung (oder Zielvorrichtungsgruppe) ausgeführt werden kann. Die sprachaktivierte Vorrichtung 404 bestimmt, dass die in der Spracheingabe 420 angeforderte Operation durch die Vorrichtung 410 im Fokus ausgeführt werden kann und mit der letzten Operation, die in der Spracheingabe 403 angefordert wurde und durch die Vorrichtung 410 im Fokus ausgeführt wird, konsistent ist.
Die erste elektronische Vorrichtung bestimmt (516), ob der zweite Sprachbefehl einem oder mehreren Fokussitzungs-Aufrechterhaltungskriterien entspricht. Die sprachaktivierte Vorrichtung 404 bestimmt, ob die Spracheingabe 420 innerhalb eines bestimmten Zeitraums der Spracheingabe 403 empfangen wird.
In Übereinstimmung mit einer Bestimmung, dass der zweite Sprachbefehl den Fokussitzungs-Aufrechterhaltungskriterien entspricht, veranlasst (518) die erste elektronische Vorrichtung über den Betrieb des gemeinsamen Netzdienstes, dass die zweite Operation durch die erste Zielvorrichtung (oder Zielvorrichtungsgruppe) ausgeführt wird. Die sprachaktivierte Vorrichtung 404 bestimmt, dass die Spracheingabe 420 innerhalb eines ersten, kürzeren Zeitschwellenwerts der Spracheingabe 403 empfangen wird, und legt in Übereinstimmung mit dieser Bestimmung fest, dass die Zielvorrichtung für die Spracheingabe 420 die Vorrichtung 410 im Fokus ist. Die sprachaktivierte Vorrichtung 404 oder das Sprachunterstützungs-Server-System 112 überträgt einen Befehl über den Sprachunterstützungsdienst 140 zu der Vorrichtung 410, um die in der Spracheingabe 420 angeforderte Operation auszuführen.
In einigen Implementierungen enthält das Bestimmen einer ersten Zielvorrichtung für die erste Operation aus der lokalen Gruppe der verbundenen elektronischen Vorrichtungen das Erhalten einer expliziten Bezeichnung der ersten Zielvorrichtung aus dem ersten Sprachbefehl. Die sprachaktivierte Vorrichtung 404 kann die Spracheingabe 403 vorverarbeiten, um zu bestimmen, ob die Spracheingabe 403 eine explizite Spezifikation einer Zielvorrichtung enthält. Die sprachaktivierte Vorrichtung 404 kann alternativ die explizite Spezifikation einer Zielvorrichtung von dem Sprachunterstützungs-Server-System 112 empfangen, das die Spracheingabe 403 verarbeitet hat.
In einigen Implementierungen enthält das Bestimmen einer ersten Zielvorrichtung für die erste Operation aus der lokalen Gruppe der verbundenen elektronischen Vorrichtungen das Bestimmen, dass der erste Sprachbefehl keine explizite Bezeichnung der ersten Zielvorrichtung enthält, das Bestimmen, dass die erste Operation durch eine zweite elektronische Vorrichtung aus der lokalen Gruppe der verbundenen elektronischen Vorrichtungen ausgeführt werden kann, und das Auswählen der zweiten elektronischen Vorrichtung als die erste Zielvorrichtung. Wenn die erste Spracheingabe keine explizite Spezifikation eines Ziels enthält, aber die innerhalb der ersten Spracheingabe enthaltene Anforderung eine ist, die durch eine einzige Vorrichtung innerhalb der Gruppe ausgeführt werden kann, (z. B. ein videobezogener Befehl ist und es nur eine videofähige Vorrichtung in der Gruppe gibt), dann wird die einzige Vorrichtung als die Zielvorrichtung für die erste Spracheingabe festgelegt. Falls es ferner in einigen Implementierungen neben der sprachaktivierten Vorrichtung nur eine steuerbare Vorrichtung gibt, ist die steuerbare Vorrichtung die vorgegebene Zielvorrichtung für die Spracheingaben, die keine Zielvorrichtung explizit spezifizieren und deren angeforderte Operationen durch die steuerbare Vorrichtung ausgeführt werden können.
In einigen Implementierungen kann die Spracheingabehistorie eines Anwenders (die z. B. durch das Sprachunterstützungs-Server-System 112 gesammelt wird und im Speicher 306 gespeichert ist, durch die sprachaktivierte Vorrichtung 104 gesammelt wird und im Speicher 206 gespeichert ist) (z. B. durch das Sprachunterstützungs-Server-System 112 oder die sprachaktivierte Vorrichtung 104) analysiert werden, um zu bestimmen, ob die Historie zeigt, dass eine spezielle sprachaktivierte Vorrichtung 104 häufig verwendet wird, um eine spezifische steuerbare Vorrichtung 106 zu steuern. Falls die Historie eine derartige Beziehung zeigt, kann die spezifische steuerbare Vorrichtung als eine vorgegebene Zielvorrichtung für die Spracheingaben in die sprachaktivierte Vorrichtung festgelegt werden.
In einigen Implementierungen ist eine Spezifikation (z. B. eine Kennung) einer vorgegebenen Zielvorrichtung in der sprachaktivierten Vorrichtung 104 und/oder dem Sprachunterstützungs-Server-System 112 gespeichert.
In einigen Implementierungen wird in Übereinstimmung mit der Bestimmung, dass der zweite Sprachbefehl den Fokussitzungs-Aufrechterhaltungskriterien entspricht, die Fokussitzung bezüglich der ersten Zielvorrichtung verlängert. In einigen Implementierungen läuft eine Fokussitzung nach einem bestimmten Zeitraum ab (d. h., sie endet). Die Fokussitzung 418 kann zeitlich verlängert werden (z. B. der Zeitablauf-Zeitgeber zurückgesetzt werden), falls die zweite Spracheingabe 420 den Fokussitzungs-Aufrechterhaltungskriterien entspricht.
In einigen Implementierungen enthält das Aufbauen der Fokussitzung bezüglich der ersten Zielvorrichtung das Speichern eines Zeitstempels des ersten Sprachbefehls und das Speichern einer Kennung der ersten Zielvorrichtung. Wenn eine Fokussitzung nach dem Empfangen der Spracheingabe 403 aufgebaut wird, speichert die sprachaktivierte Vorrichtung 404 den Zeitpunkt der Spracheingabe 403 (z. B. in einer Sitzungsbefehlshistorie 260) und eine Kennung der Vorrichtung 410 im Fokus (z. B. in einer Vorrichtung 256 im Fokus der Sitzung).
In einigen Implementierungen enthalten die Fokussitzungs-Aufrechterhaltungskriterien ein Kriterium, dass der zweite Sprachbefehl innerhalb eines ersten vorgegebenen Zeitintervalls bezüglich des Empfangens des ersten Sprachbefehls oder mit einem zweiten vorgegebenen Zeitintervall bezüglich des Empfangens des ersten Sprachbefehls durch die erste elektronische Vorrichtung empfangen wird, wobei das zweite vorgegebene Zeitintervall dem ersten vorgegebenen Zeitintervall folgt; wobei das Bestimmen, ob der zweite Sprachbefehl dem einen oder den mehreren Fokussitzungs-Aufrechterhaltungskriterien entspricht, das Bestimmen enthält, ob der zweite Sprachbefehl innerhalb irgendeines des ersten vorgegebenen Zeitintervalls oder des vorgegebenen zweiten Zeitintervalls empfangen wird. Die sprachaktivierte Vorrichtung 404 bestimmt, ob die Spracheingabe 420 einem oder mehreren Fokussitzungs-Aufrechterhaltungskriterien entspricht, einschließlich dessen, ob die Spracheingabe 420 innerhalb eines ersten Zeitschwellenwerts oder eines zweiten Zeitschwellenwerts der Spracheingabe 403 empfangen wird.
In einigen Implementierungen wählt die erste elektronische Vorrichtung in Übereinstimmung mit einer Bestimmung, dass der zweite Sprachbefehl innerhalb des ersten vorgegebenen Zeitintervalls empfangen wird, die erste Zielvorrichtung als eine Zielvorrichtung für den zweiten Sprachbefehl aus. Wenn bestimmt wird, dass die Spracheingabe 420 innerhalb des ersten, kürzeren Zeitschwellenwerts von der Spracheingabe 403 empfangen wird, dann wird festgelegt, dass die Vorrichtung 410 im Fokus die Zielvorrichtung für die Spracheingabe 420 ist.
In einigen Implementierungen gibt die erste elektronische Vorrichtung in Übereinstimmung mit einer Bestimmung, dass der zweite Sprachbefehl innerhalb des zweiten vorgegebenen Zeitintervalls empfangen wird, eine Anforderung aus, um zu bestätigen, dass die erste Zielvorrichtung eine Zielvorrichtung für den zweiten Sprachbefehl ist; wobei sie in Übereinstimmung mit einer positiven Bestätigung der ersten Zielvorrichtung in Reaktion auf die Anforderung, um zu bestätigen, die erste Zielvorrichtung als eine Zielvorrichtung für den zweiten Sprachbefehl auswählt. Falls bestimmt wird, dass die Spracheingabe 420 außerhalb des ersten, kürzeren Zeitschwellenwerts, aber innerhalb des zweiten, längeren Zeitschwellenwerts von der Spracheingabe 403 empfangen wird, fordert die sprachaktivierte Vorrichtung den Anwender für die Bestätigung einer Zielvorrichtung auf (wobei sie z. B. den Anwender fragt, ob die Vorrichtung 410 im Fokus die vorgesehene Zielvorrichtung ist). Falls der Anwender bestätigt, dass die Vorrichtung 410 im Fokus die vorgesehene Zielvorrichtung ist, wird die Vorrichtung 410 im Fokus als die Zielvorrichtung für die Spracheingabe 420 festgelegt.
In einigen Implementierungen empfängt die erste elektronische Vorrichtung einen dritten Sprachbefehl, der eine Anforderung für eine dritte Operation und eine explizite Bezeichnung einer dritten Zielvorrichtung aus der lokalen Gruppe der verbundenen elektronischen Vorrichtungen enthält, wobei sie die Fokussitzung bezüglich der ersten Zielvorrichtung beendet, eine Fokussitzung bezüglich der dritten Zielvorrichtung aufbaut und über den Betrieb des gemeinsamen Netzdienstes veranlasst, dass die dritte Operation durch die dritte Zielvorrichtung ausgeführt wird. Die sprachaktivierte Vorrichtung 404 kann nach der Spracheingabe 420 eine neue Spracheingabe empfangen, die eine explizite Spezifikation einer anderen Zielvorrichtung (z. B. der Vorrichtung 406 oder 408) mit Ausnahme der Vorrichtung 410 enthält. In Übereinstimmung mit dem Empfang dieser Spracheingabe endet die Fokussitzung 418 mit der Vorrichtung 410 im Fokus, wobei eine neue Sitzung mit der neuen Zielvorrichtung im Fokus aufgebaut wird. Die sprachaktivierte Vorrichtung 404 oder das Sprachunterstützungs-Server-System 112 überträgt einen Befehl über den Sprachunterstützungsdienst 140 zu der neuen Zielvorrichtung, um die in der neuen Spracheingabe angeforderte Operation auszuführen.
In einigen Implementierungen ist die erste Zielvorrichtung die erste elektronische Vorrichtung. Die erste elektronische Vorrichtung empfängt einen vierten Sprachbefehl, der eine Anforderung für eine vierte Operation und eine explizite Bezeichnung einer vierten Zielvorrichtung aus der lokalen Gruppe der verbundenen elektronischen Vorrichtungen enthält, wobei die vierte Zielvorrichtung ein drittes elektronisches Vorrichtungselement der lokalen Gruppe der verbundenen elektronischen Vorrichtungen ist, wobei die dritte elektronische Vorrichtung von der ersten elektronischen Vorrichtung verschieden ist; erhält die Fokussitzung bezüglich der ersten Zielvorrichtung aufrecht; und veranlasst über den Betrieb des gemeinsamen Netzdienstes, dass die vierte Operation durch die vierte Zielvorrichtung ausgeführt wird. Wenn die Vorrichtung im Fokus für eine aktive Fokussitzung 418 in der sprachaktivierten Vorrichtung 404 die sprachaktivierte Vorrichtung 404 selbst ist und dann eine neue Spracheingabe, die eine andere Vorrichtung als das Ziel spezifiziert, nach der Spracheingabe 420 empfangen wird, dann überträgt die sprachaktivierte Vorrichtung 404 oder das Sprachunterstützungs-Server-System 112 einen Befehl über den Sprachunterstützungsdienst 140 zu der anderen Zielvorrichtung, um die in der neuen Spracheingabe angeforderten Operation auszuführen, wobei aber die Fokussitzung mit der sprachaktivierten Vorrichtung 404 im Fokus aufrechterhalten wird.
In einigen Implementierungen wird der zweite Sprachbefehl empfangen, nachdem veranlasst worden ist, dass die vierte Operation durch die vierte Zielvorrichtung ausgeführt wird, ist die erste Operation eine Medienwiedergabeoperation und ist die zweite Operation eine Medienanhalteoperation. Die erste elektronische Vorrichtung empfängt einen fünften Sprachbefehl, der eine Anforderung für eine fünfte Operation und eine explizite Bezeichnung einer fünften Zielvorrichtung aus der lokalen Gruppe der verbundenen elektronischen Vorrichtungen enthält, wobei die fünfte Zielvorrichtung die dritte Zielvorrichtung ist; beendet die Fokussitzung bezüglich der ersten Zielvorrichtung; baut eine Fokussitzung bezüglich der fünften Zielvorrichtung auf und veranlasst über den Betrieb des gemeinsamen Netzdienstes, dass die fünfte Operation durch die fünfte Zielvorrichtung ausgeführt wird. Wenn die Vorrichtung im Fokus für eine aktive Fokussitzung 418 in der sprachaktivierten Vorrichtung 404 die sprachaktivierte Vorrichtung 404 selbst ist und die Spracheingabe 403 eine Anforderung enthält, um eine Medienwiedergabe zu beginnen, und die Spracheingabe 403 eine Anforderung enthält, um das Medienabspielen im Ergebnis der Spracheingabe 403 zu unterbrechen, und eine neue Spracheingabe, die eine andere Vorrichtung als das Ziel spezifiziert, nach der Spracheingabe 420 empfangen wird, dann überträgt die sprachaktivierte Vorrichtung 404 oder das Sprachunterstützungs-Server-System 112 einen Befehl über den Sprachunterstützungsdienst 140 zu der anderen Zielvorrichtung, um die in der neuen Spracheingabe angeforderte Operation auszuführen, wobei die Fokussitzung mit der sprachaktivierten Vorrichtung im Fokus beendet wird und eine neue Fokussitzung mit der neuen Zielvorrichtung im Fokus aufgebaut wird.
In einigen Implementierungen empfängt die erste elektronische Vorrichtung einen fünften Sprachbefehl, der eine vorgegebene Operationsbeendigungsanforderung enthält, wobei sie in Übereinstimmung mit dem Empfangen des fünften Sprachbefehls veranlasst, dass die Ausführung der ersten Operation durch die erste Zielvorrichtung beendet wird, und die Fokussitzung bezüglich der ersten Zielvorrichtung beendet. Falls die sprachaktivierte Vorrichtung 404 einen vorgegebenen Beendigungsbefehl (z. B. „STOPP“) empfängt, überträgt die sprachaktivierte Vorrichtung 404 oder das Sprachunterstützungs-Server-System 112 einen Befehl über den Sprachunterstützungsdienst 140 zu der Vorrichtung 410, um das Ausführen der Operation 416 zu beenden, wobei die Fokussitzung 418 beendet wird.
In einigen Implementierungen ist die erste Operation eine Medienwiedergabeoperation, während die zweite Operation eine der Folgenden ist: eine Medienunterbrechungsoperation, eine Medienrückspuloperation, eine Medienvorspuloperation, eine Lautstärkeerhöhungsoperation und eine Lautstärkeverringerungsoperation. Die Anforderung in der Spracheingabe 403 kann eine Anforderung sein, um die Wiedergabe eines Medieninhalts (z. B. eines Videos, Musik) zu beginnen, während die Anforderung in der Spracheingabe 420 eine Anforderung sein kann, um die Wiedergabe zu steuern (z. B. zu unterbrechen, zurückzuspulen, vorzuspulen, die Lautstärke nach oben/nach unten zu ändern, nächstes Element/nächster Titel, vorhergehendes Element/vorhergehender Titel usw.).
In einigen Implementierungen ist die erste Operation eine Vorrichtungszustandsänderungsoperation zu einem ersten Zustand mehrerer Vorrichtungszustände, während die zweite Operation eine Vorrichtungszustandsänderungsoperation zu einem zweiten Zustand der mehreren Vorrichtungszustände ist. Die Anforderung in der Spracheingabe 403 kann eine Anforderung sein, zu einem ersten Zustand überzugehen (z. B. eine Leuchte oder eine Vorrichtung einzuschalten, in den Schlafmodus zu gehen), während die Anforderung in der Spracheingabe 420 eine Anforderung sein kann, zu einem zweiten Zustand überzugehen (z. B. die Leuchte oder die Vorrichtung auszuschalten, aus dem Schlafmodus zu ennrachen).
In einigen Implementierungen ist die erste Operation eine Größenänderungsoperation in einer ersten Richtung in einer Größenskala, während die zweite Operation eine Größenänderungsoperation in einer zweiten Richtung, die zu der ersten Richtung entgegengesetzt ist, in der Größenskala ist. Die Anforderung in der Spracheingabe 403 kann eine Anforderung sein, die Größe in einer Richtung zu ändern (z. B. die Leuchte heller zu machen, die Lautstärke nach oben zu ändern), während die Anforderung in der Spracheingabe 420 eine Anforderung sein kann, die Größe in der entgegengesetzten Richtung zu ändern (z. B. die Leuchte zu dimmen, die Lautstärke nach unten zu ändern).
In einigen Implementierungen enthält die erste elektronische Vorrichtung eine Anordnung aus einer oder mehreren LEDs. Die erste elektronische Vorrichtung gibt einen Status der Fokussitzung durch das Leuchten einer oder mehrerer der LEDs in der Anordnung der LEDs an. Die sprachaktivierte Vorrichtung 404 kann durch das Anzeigen von Mustern auf der LED-Anordnung angeben, dass es eine aktive Fokussitzung gibt, oder andere Zustände und andere Informationen (z. B. eine Angabe, wie lange die Fokussitzung aktiv gewesen ist oder wieviel Zeit seit der letzten Spracheingabe vergangen ist), die der Fokussitzung zugeordnet sind, angeben.
In einigen Implementierungen können die Fokussitzungen pro identifizierten Anwender aufgebaut werden. Falls z. B. ein Anwender eine Spracheingabe spricht, die eine Zielvorrichtung spezifiziert, wird der Anwender identifiziert und wird eine Fokussitzung bezüglich des identifizierten Anwenders aufgebaut, wobei sich die in der Spracheingabe spezifizierte Zielvorrichtung im Fokus befindet. Falls ein anderer Anwender eine Spracheingabe spricht und eine andere Zielvorrichtung spezifiziert, wird der andere Anwender identifiziert und wird eine weitere Fokussitzung bezüglich des identifizierten anderen Anwenders aufgebaut, wobei sich die andere Zielvorrichtung im Fokus befindet. Die Spracheingaben, die durch verschiedene Anwender gesprochen werden und keine Zielvorrichtung spezifizieren, können basierend auf der aktiven Fokussitzung, die dem jeweiligen identifizierten Anwender entspricht, verschiedenen Zielvorrichtungen zugewiesen werden. Beispiele der Sprecheridentifikation sind in US 2018 / 0 096 690 A1 mit dem Titel „Multi-User Personalization at a Voice Interface Device“, eingereicht am 3. Oktober 2016, beschrieben, die durch Bezugnahme hierdurch aufgenommen ist.
ZUSÄTZLICHE BEISPIELE DER FOKUSSITZUNGEN
Die folgenden Implementierungen beschreiben Implementierungen in einem Kontext einer sprachaktivierten Vorrichtung 104 in demselben Zimmer wie eine oder mehrere steuerbare Vorrichtungen 106, die Medienvorrichtungen sind. Es sollte erkannt werden, dass die im Folgenden beschriebenen Implementierungen an andere Typen steuerbarer Vorrichtungen 106 (z. B. Smart-Home-Vorrichtungen) und andere Vorrichtungsanordnungsaufbauten angepasst werden können.
In einigen Implementierungen kann eine fokussierte Sitzung mit der Vorrichtung im Fokus gestartet werden, die eine andere steuerbare Vorrichtung als die sprachaktivierte Vorrichtung ist, falls in der sprachaktivierten Vorrichtung bereits keine Medien abgespielt werden. Falls in einigen Implementierungen die in der sprachaktivierten Vorrichtung abgespielten Medien unterbrochen werden, kann eine fokussierte Sitzung mit einer steuerbaren Vorrichtung mit Ausnahme der sprachaktivierten Vorrichtung als die Vorrichtung im Fokus gestartet werden.
In einigen Implementierungen wird eine fokussierte Sitzung gestartet, falls der Anwender irgendeine gültige Anforderung ausgibt, die eine explizite Zielvorrichtung aufweist, die an eine Vorrichtung oder eine Vorrichtungsgruppe gerichtet ist, die der sprachaktivierten Vorrichtung zugeordnet ist (und sich optional in demselben WiFi-Netz wie die sprachaktivierte Vorrichtung befindet). Beispiele derartiger gültiger Anforderungen enthalten „spiele etwas Musik auf meinen Wohnzimmerlautsprechern ab“, „erhöhe die Lautstärke an dem Schlafzimmer-TV“, „nächstes Lied in meiner Heimgruppe“ und „unterbreche die Wohnzimmerlautsprecher“. Die explizite Zielvorrichtung wird die Vorrichtung im Fokus für die Fokussitzung.
Wenn in einigen Implementierungen die Anforderung deutlich eine Anforderung ist, die dem Video zugeordnet ist, und es eine einzige videofähige Vorrichtung unter den zugeordneten steuerbaren Vorrichtungen gibt, dann kann eine Fokussitzung mit der videofähigen Vorrichtung als die Vorrichtung im Fokus aufgebaut werden.
Falls in einigen Implementierungen eine Anforderung mit einer weiteren Vorrichtung als die Zielvorrichtung empfangen wird, während die sprachaktivierte Vorrichtung aktiv Medien abspielt, bleibt der Fokus auf der sprachaktivierten Vorrichtung, wobei aber, sobald die sprachaktivierte Vorrichtung ihre Sitzung gestoppt oder unterbrochen hat, irgendeine neue Anforderung, um Medien in einer weiteren Vorrichtung abzuspielen oder zu steuern, den Fokus zu dieser weiteren Vorrichtung bewegt.
Der Anwender fordert z. B. „spiele Lady Gaga ab“ an, wobei die sprachaktivierte Vorrichtung das Abspielen von Musik von Lady Gaga startet und eine Fokussitzung mit der sprachaktivierten Vorrichtung im Fokus startet. Dann fordert der Anwender „Pause“ an, wobei die sprachaktivierte Vorrichtung die Musik von Lady Gaga unterbricht (und die Fokussitzung während angenommen 2 Stunden aufrechterhält). Nachdem 1 Stunde vergangen ist, fordert der Anwender dann „spiele Katzenvideos auf meinem TV ab“ an. Der Fokus bewegt sich zum TV, wobei das TV das Abspielen von Katzenvideos startet.
Als ein weiteres Beispiel fordert der Anwender „spiele Lady Gaga ab“ an, wobei die sprachaktivierte Vorrichtung das Abspielen von Musik von Lady Gaga startet und eine Fokussitzung mit der sprachaktivierten Vorrichtung im Fokus startet. Dann fordert der Anwender „zeige Katzenvideos auf meinem TV“ an, wobei das Zeigen der Katzenvideos auf dem TV gestartet wird, wobei aber der Fokus auf der sprachaktivierten Vorrichtung bleibt. Dann fordert der Anwender „nächster“ an, wobei die sprachaktivierte Vorrichtung in Übereinstimmung mit der Anforderung zum nächsten Titel in der Musik von Lady Gaga weitergeht. Dann fordert der Anwender „Pause“ an, wobei die Musik auf der sprachaktivierten Vorrichtung unterbrochen wird. Dann fordert der Anwender „nächstes Dia auf meinem TV“ an, wobei das nächste Dia auf dem TV startet und der Fokus zum TV übertragen wird.
In einigen Implementierungen enthalten die gültigen Anforderungen das Beginnen von Musik, das Beginnen von Video, das Beginnen des Lesens von Nachrichten (z. B. das Vorlesen von Nachrichtenartikeln), das Beginnen von Podcasts, das Beginnen von Photos (z. B. einer Photoanzeige oder einer Diashow) und irgendeinen Mediensteuerbefehl (anders als ein vorgegebener STOPP-Befehl, der irgendeine aktuelle Fokussitzung beendet).
In einigen Implementierungen wird eine fokussierte Sitzung beendet, wenn irgendeines des Folgenden auftritt:

• die Fokussitzung wird (über eine Spracheingabe, die Spracheingabe spezifiziert z. B. explizit die andere Vorrichtung) zu einer anderen Vorrichtung übertragen, wobei in diesem Fall eine fokussierte Sitzung mit der anderen Vorrichtung gestartet wird;
• die Fokussitzung wird in der sprachaktivierten Vorrichtung über eine Spracheingabe oder ein Casting von einer weiteren Vorrichtung (z. B. über die Äußerung: „Spiele Lady Gaga auf <Spitzname der Sprachschnittstellenvorrichtung> ab“, „Spiele Lady Gaga lokal ab“ usw.; über Casting: der Anwender castet den Inhalt über eine Anwendung in einer Client-Vorrichtung zu der sprachaktivierten Vorrichtung) gestartet oder (aus einem Pausenzustand) wiederaufgenommen;
- ◯ falls jedoch die sprachaktivierte Vorrichtung ein Mitglied (ein Anhänger oder Anführer) der Gruppe ist, die dabei ist, Medien abzuspielen, wird sie den Fokus nicht stoppen (selbst wenn sie abspielt). Daher bleibt der Fokus auf dem Anführer der Gruppe (der eine weitere sprachaktivierte Vorrichtung sein könnte);
• wenn die Anforderung ein vorgegebener „STOPP“-Befehl (einschließlich aller relevanter Grammatik) für die steuerbare Vorrichtung, die sich im Fokus befindet, ist;
• auf den Zeitablauf bezogene Befehle:
- ◯ die Zeitabläufe können von der letzten Anforderung oder dem letzten der steuerbaren Vorrichtung gegebenen Befehl gemessen werden, ob die steuerbare Vorrichtung explizit spezifiziert oder basierend auf der Vorrichtung im Fokus der Fokussitzung festgelegt wird, mit Ausnahme des vorgegebenen „STOPP“-Befehls;
- ◯ der Zeitablauf kann 240 Minuten über den verschiedenen möglichen Befehlen sein; und
• wenn der Anwender eine Taste auf der sprachaktivierten Vorrichtung drückt, die für Pause/Abspielen verwendet wird, (dies nimmt zusätzlich außerdem irgendwelchen unterbrochenen Inhalt lokal in der sprachaktivierten Vorrichtung wieder auf).

In einigen Implementierungen fordert die sprachaktivierte Vorrichtung eine Anwenderbestätigung der Zielvorrichtung an. Der Anwender wird, falls er Medien auf einer steuerbaren Vorrichtung abspielen will, wie folgt bezüglich einer Bestätigung aufgefordert:

• die Aufforderung wird für die Medieneinleitung ausgelöst (z. B. den Start der Musik, wenn keine abgespielt worden ist) (gegen die Mediensteuerung, wie z. B. schneller Vorlauf oder nächster Titel);
• die Aufforderung wird ausgelöst, wenn eine Fokussitzung aktiv ist; und
• die Aufforderung wird ausgelöst, nachdem irgendein Zeitraum (z. B. 20 Minuten) von dem letzten Sprachbefehl von der aktuellen sprachaktivierten Vorrichtung, der der steuerbaren Vorrichtung gegeben wird, vergangen ist, ob die steuerbare Vorrichtung explizit spezifiziert oder basierend auf der Vorrichtung im Fokus der Fokussitzung festgelegt wird, mit Ausnahme des vorgegebenen „STOPP“-Befehls.

Die Aufforderung, um zu bestätigen, kann z. B. sein:

• die sprachaktivierte Vorrichtung gibt „Möchten Sie, dass ich auf <Name der steuerbaren Vorrichtung> abspiele?“ aus.
- ◯ Der Anwender antwortet „ja“. Dann werden die angeforderten Medien auf der steuerbaren Vorrichtung im Fokus abgespielt und wird der Fokus auf dieser Vorrichtung aufrechterhalten.
- ◯ Der Anwender antwortet „nein“. Dann werden die angeforderten Medien auf der sprachaktivierten Vorrichtung abgespielt und wird die Fokussitzung beendet.
- ◯ Anders: falls z. B. die Antwort des Anwenders unklar ist, kann die sprachaktivierte Vorrichtung ausgeben „Entschuldigung, ich konnte Ihre Antwort nicht verstehen“.

Wenn in einigen Implementierungen eine fokussierte Sitzung begonnen wird, werden Medieneinleitungs- und sprachbasierte Steuerbefehle auf die steuerbare Vorrichtung im Fokus angewendet. Durch die sprachaktivierte Vorrichtung wird auf Nicht-Medienanforderungen (z. B. Suchen, Fragen) geantwortet, wobei die Nicht-Medienanforderungen die Fokussitzung nicht beenden.
Selbst wenn in einigen Implementierungen eine fokussierte Sitzung gestartet worden ist, steuern die physischen Wechselwirkungen dennoch die sprachaktivierte Vorrichtung, so dass die physische Wechselwirkung (z. B. das Drücken einer Taste, das Berühren eines berührungsempfindlichen Bereichs) bei der sprachaktivierten Vorrichtung, um die Lautstärke zu ändern und zu unterbrechen/abzuspielen, die sprachaktivierte Vorrichtung und nicht notwendigerweise die steuerbare Vorrichtung beeinflusst.
In einigen Implementierungen weisen die Anforderungen oder Befehle, die zu den Zeitgebern/Alarmen/dem Text-zu-Sprache-Abspielen in der sprachaktivierten Vorrichtung ausgegeben werden, eine höhere Priorität als ähnliche Anforderungen oder Befehle zu der steuerbaren Vorrichtung im Fokus auf. Falls z. B. die sprachaktivierte Vorrichtung bezüglich eines Zeitgebers oder eines Alarms klingelt und der Anwender „Stopp“ aussagt, stoppt die sprachaktivierte Vorrichtung das Zeitgeber- oder Alarmklingeln. Falls der Anwender dann „Lautstärke <erhöhen/verringern>“ aussagt, ist das Zeitgeber- oder Alarmklingeln immer noch gestoppt, wobei die Lautstärke in der steuerbaren Vorrichtung nach oben oder nach unten geändert wird.
Falls als ein weiteres Beispiel die sprachaktivierte Vorrichtung Text-zu-Sprache abspielt (z. B. die E-Mails des Anwenders vorliest) und der Anwender „Stopp“ aussagt, stoppt die sprachaktivierte Vorrichtung das Text-zu-Sprache-Lesen. Falls der Anwender dann „Lautstärke <erhöhen/verringern>“ aussagt, wird die Lautstärke in der sprachaktivierten Vorrichtung nach oben oder nach unten geändert.
Falls als ein noch weiteres Beispiel die sprachaktivierte Vorrichtung ungenutzt, unterbrochen oder app-belastet ist und der Anwender „Stopp“ aussagt, wird das Abspielen von Medien in der steuerbaren Vorrichtung gestoppt und wird die Fokussitzung beendet. Falls der Anwender dann „Lautstärke <erhöhen/verringern>“ aussagt, wird die Lautstärke in der steuerbaren Vorrichtung nach oben oder nach unten geändert.
PROAKTIVE SPRACHBENACHRICHTIGUNGEN
In einigen Implementierungen enthält die Betriebsumgebung 100 ferner einen Agenten 116, wie in 1 gezeigt ist. Der Agent 116 kann ein System aus einem oder mehreren Servern oder anderen Computervorrichtungen sein. Der Agent 116 implementiert eine Schnittstelle oder ein Front-End zu einem Dienst; wobei die Anwender durch die Verbindung mit dem Agenten 116 auf den Dienst zugreifen können. Der Agent 116 kann z. B. ein Agent für ein Urlaubreservierungssystem (z. B. ein Dienst zum Reservieren und Buchen von Flügen, Hotels, Mietwagen usw.) sein; die Anwender können sich mit dem Agenten 116 verbinden, um die Verfügbarkeit und die Preisangaben der Flüge, Hotels usw. überprüfen und Reservierungen für die Flüge, Hotels usw. ausführen. Als ein weiteres Beispiel kann der Agent 116 ein Agent für einen Online-Laden oder einen Online-Lieferdienst sein; wobei die Anwender sich mit dem Agenten verbinden können, um Produkte oder Dienstleistungen zum Verkauf zu betrachten und Einkäufe auszuführen. In einigen Implementierungen ist ein Agent 116 ein Front-End für einen Inhalts-Host 114, der das Server-System (z. B. das Back-End-Server-System) für einen Dienst ist.
In einigen Implementierungen speichert der Speicher 206 (2) oder das nichttransitorische computerlesbare Speichermedium des Speichers 206 die folgenden Programme, Module und Datenstrukturen oder eine Teilmenge oder eine Obermenge davon:

• ein Gesprächsmanagermodul 262 zum Managen und Überwachen des Status der Wechselwirkungen des Anwenders mit dem Sprachassistentendienst 140 oder den Agenten 116 und zum Bestimmen, ob die Wechselwirkungen mit Benachrichtigungen unterbrochen werden können;
• ein Benachrichtigungsmanagermodul 264 zum Managen der Benachrichtigungen, die zu dem Anwender zu liefern sind;
• ein Agentenmodul266 zum Verbinden mit einem Agenten 116 eines Dienstes;
• die Benachrichtigungen 268 zum Speichern (z. B. Einreihen in eine Warteschlange) der Benachrichtigungen, die dem Anwender (den Anwendern), der (die) der Vorrichtung 104 zugeordnet ist (sind), bereitzustellen sind, und optional der Benachrichtigungskonfigurationen (z. B. welche Benachrichtigungen bereitgestellt werden usw.) des Anwenders (der Anwender), der (die) der Vorrichtung 104 zugeordnet ist (sind).

In einigen Implementierungen speichert der Speicher 306 (3A) oder das nichttransitorische computerlesbare Speichermedium des Speichers 306 ferner die folgenden Programme, Module und Datenstrukturen oder eine Teilmenge oder eine Obermenge davon:

• ein Gesprächsmanagermodul 354 zum Überwachen des Status der Wechselwirkungen des Anwenders mit dem Sprachassistentendienst 140 oder den Agenten 116 und zum Bestimmen, ob die Wechselwirkungen mit Benachrichtigungen unterbrochen werden können;
• ein Benachrichtigungsmanagermodul 356 zum Managen der Benachrichtigungen, die zu dem Anwender zu liefern sind;
• ein Agentenmodul 358 zum Verbinden mit einem Agenten 116 eines Dienstes; und
• die Benachrichtigungen 360 pro Anwender zum Speichern (z. B. Einreihen in eine Warteschlange) der Benachrichtigungen, die den Anwendern bereitzustellen sind, und optional der Benachrichtigungskonfigurationen (z. B. welche Benachrichtigungen bereitgestellt werden usw.) der Anwender.

In einigen Implementierungen können eines oder mehrere des Gesprächsmanagermoduls 262, des Benachrichtigungsmanagermoduls 264 und des Agentenmoduls 266 als ein Teil eines oder mehrerer des Sprachverarbeitungsmoduls 238 oder des Antwortmoduls 250 implementiert sein. In einigen Implementierungen können eines oder mehrere des Gesprächsmanagermoduls 262, des Benachrichtigungsmanagermoduls 264 und des Agentenmoduls 266 ganz oder teilweise in der Vorrichtung 104 (2) oder in dem Sprachunterstützungs-Server-System 112 (3) (z. B. als das Gesprächsmanagermodul 354, das Benachrichtigungsmanagermodul 356 bzw. das Agentenmodul 358) implementiert sein.
In 3C spricht ein Anwender 402 in einigen Implementierungen zu der Vorrichtung 104, wobei er auf die Ausgabe durch die Vorrichtung 104 hört, um mit dem Sprachassistentendienst 140 oder mit einem Agenten 116 (z. B. durch das Agentenmodul 266) in Wechselwirkung zu treten. Ein Anwender 402 führt z. B. eine oder mehrere gesprochene Anforderungen aus, die durch die Vorrichtung 104 verarbeitet und als eine oder mehrere digitale Anforderungsnachrichten 105 übertragen werden. Die Anforderungen 105 werden durch den Sprachassistentendienst 140 oder den Agenten 116 (in Abhängigkeit von der Art der Anforderung) ausgeführt und über eine oder mehrere digitale Antwortnachrichten 107 beantwortet. Die digitalen Antwortnachrichten 107 werden durch die Vorrichtung 104 verarbeitet und als die hörbaren Ausgabeinformationen für den Anwender 402 abgespielt. Eine Folge aus einer oder mehreren Anforderungsnachrichten 105 und den in Beziehung stehenden Antwortnachrichten 107 wird manchmal als ein Gespräch bezeichnet, das kurz (das z. B. eine einzige Anforderung und eine einzige Antwort enthält - wie wenn ein Anwender nach dem aktuellen Wetter fragt) oder länger (z. B. einschließlich vieler Anforderungen 105 und Antworten 107 als Teil einer komplexen Wechselwirkung zwischen einem Anwender und einem Agenten oder einem Sprachassistenten-Server - wie wenn ein Anwender versucht, ein Restaurant oder ein Reisepaket zu buchen) sein kann.
In 3D speichert in einigen Implementierungen das Agentenmodul 266 (und/oder in einigen Implementierungen ein Sprachassistentendienst 140) die Agentenmodulinformationen 267, die den Zustand jeder Anforderung 105 angeben, die es für einen speziellen Anwender 404 bezüglich eines speziellen Agenten 116 managt, einschließlich eines oder mehrerer des Folgenden:

• der Anwender-Norrichtungsinformationen 272a, die auf die Anforderung bezogen sind, (z. B. eine oder mehrere der Anwender-ID und -konteninformationen, der Agenten-ID und -informationen, der Vorrichtungs-ID und -informationen usw.);
• einer eindeutigen Kennung 272b für die zugeordnete Anforderung 105 (z. B. um es zu ermöglichen, dass die Anforderungen 105 und die Antworten 107 verfolgt und einem Gespräch zugeordnet werden);
• der Anforderungseinleitungs- und -abschlusszeitpunkte 272c/272d; und
• eine Sammlung von Indikatoren/Merkern 272e, die auf die Anforderung bezogen sind, einschließlich eines oder mehrerer der Folgenden:
- ◯ einer Angabe 274b, dass der Agent 116 eine Unterbrechung in dem Gespräch unterstützen kann;
- ◯ einer Angabe 274c, dass eine Unterbrechung im Gange ist; und/oder
- ◯ einer Angabe 274d, dass eine Anforderung 105 und das zugeordnete Anwendergespräch abgeschlossen worden sind.

In einigen Implementierungen speichert das Agentenmodul 266 eine Bibliothek der Eingangsübergang- und der Ausgangsübergang-Redewendungen 276a/276b, aus der es die Eingangsübergänge und die Ausgangsübergänge 267a/267b für die Wiedergabe durch die Vorrichtung 104 vor und nach der Wiedergabe einer proaktiven Benachrichtigung 263 (3C) erzeugt. In einigen Implementierungen wird das Agentenmodul 266 durch das Gesprächsmanagermodul 262 von der Verfügbarkeit einer Benachrichtigung 263 (z. B. unter Verwendung einer Benachrichtigungsanforderungsnachricht 265b) alarmiert. Folglich kann das Agentenmodul 266 Übergänge vor und nach einer Unterbrechung schaffen, die mit der Sprache, dem Stil und den Stimmeigenschaften des Gesprächs, das unterbrochen wird, konsistent sind (oder - in Abhängigkeit von den Umständen - absichtlich nicht konsistent sind). Die Verwendung der Übergänge in dieser Weise macht die Lieferung einer Benachrichtigung 263 weniger misstönend und effektiver, als wenn sie als eine plötzliche Unterbrechung in ein Gespräch eingefügt würde. In einigen Implementierungen sind die Übergänge 267 auf die relative Wichtigkeit und/oder Dringlichkeit einer proaktiven Benachrichtigung 263, die sie auslösen, zugeschnitten. Eine proaktive Benachrichtigung 263, dass eine Sitzung im Begriff ist, zu beginnen, oder dass für einen Flug an Bord gegangen wird, kann mit einem Übergang, wie z. B. „Zur Beachtung: <Benachrichtigung>“ oder „Bleiben Sie bitte für eine wichtige Ankündigung dran: <Benachrichtigung>“ (wobei „<Benachrichtigung>“ die Wiedergabe einer Benachrichtigung 263 repräsentiert), ausgelöst werden, der mit einer lauteren als der normalen Lautstärke oder mit einem dringlichen Ton abgespielt wird. Andererseits kann eine Benachrichtigung 263 über einen Sportpunktestand eine entspanntere Übergangsredewendung und einen entspannteren Wiedergabestil verwenden.
In 3C verfolgt das Gesprächsmanagermodul 262 den Zustand der Wechselwirkungen/Gespräche zwischen dem Anwender 402 und dem Sprachassistentendienst 140 oder dem Agenten 116. In einigen Implementierungen empfängt der Gesprächsmanager 262 diese Informationen von dem Agentenmodul 266 (und/oder dem Sprachassistentendienst 140) als die Gesprächszustandsinformationsnachrichten 141, die Informationen bereitstellen, wie z. B. ob der Agent 116 eine Unterbrechung in einem aktiven Gespräch unterstützen kann. Das Gesprächsmanagermodul 262 überwacht außerdem die proaktiven Benachrichtigungen 263, die durch das Benachrichtigungsmanagermodul 264 für den Anwender 402 (z. B. über die von dem Benachrichtigungsmanagermodul 264 gesendeten Benachrichtigungsanforderungen 265) erzeugt werden. Die proaktiven Benachrichtigungen 263 geschehen in Reaktion auf ausstehende Anwenderanforderungen 109 oder durch die Komponenten der Umgebung 100 erzeugte Aktualisierungen und sind von den Anforderungen 105 verschieden. Basierend auf den Gesprächszustandsinformationen 141 bestimmt das Gesprächsmanagermodul 262, ob und wie ein Gespräch zwischen der Vorrichtung 104 und dem Anwender 402 zu unterbrechen ist, um eine proaktive Benachrichtigung 263 zu liefern. In einigen Implementierungen liefert das Gesprächsmanagermodul 262 eine Benachrichtigung 263 in einer kontextsensitiven Weise, die sicherstellt, dass eine Benachrichtigung 263 wahrscheinlicher durch den Anwender 402 beachtet wird (z. B. aufgrund dessen, dass sie durch die durch das Agentenmodul 266 gelieferten Übergangsredewendungen ausgelöst wird, die die Aufmerksamkeit des Anwenders auf die proaktive Benachrichtigung 263 lenken).
In 3D speichert das Gesprächsmanagermodul 262 in einigen Implementierungen die Gesprächsmanagermodul-Informationen 283, die den Zustand einer oder mehrerer der Wechselwirkungen des Anwenders mit dem Sprachassistentendienst 140 oder den Agenten 116 angeben, die es überwacht. In einigen Implementierungen enthalten die gespeicherten Informationen 283 eines oder mehrerer des Folgenden:

• eine eindeutige Kennung 282b-i für jedes überwachte Gespräch (z. B. um es zu ermöglichen, dass ein Gespräch verfolgt wird und ihm Anforderungen, Antworten und Benachrichtigungen zugeordnet werden);
• die Gesprächszustandsinformationen 141 a-i von dem Sprachassistentendienst 140;
• die Gesprächszustandsinformationen 141 b-i von dem Agenten 116, einschließlich einer oder mehrerer von:
- ◯ einer Angabe 274b-i, dass der Agent 116 eine Unterbrechung in dem Gespräch unterstützen kann;
- ◯ einer Angabe 274d-i, dass eine Anforderung 105 und das zugeordnete Anwendergespräch abgeschlossen worden sind; und
• die Benachrichtigungsinformationen 284-i, die durch den Benachrichtigungsmanager 264 (z. B. über eine Benachrichtigungsanforderungsnachricht 265a) bereitgestellt werden, einschließlich einer Benachrichtigung 263-i, die in der Vorrichtung 104 abzuspielen ist.

In einigen Implementierungen speichert das Gesprächsmanagermodul 262 eine Bibliothek der Eingangsübergang- und der Ausgangsübergang-Redewendungen 286a/286b, die es verwenden kann, um die Übergänge 267 zu erzeugen, die durch die Vorrichtung 104 vor und/oder nach der Wiedergabe einer proaktiven Benachrichtigung 263 abzuspielen sind. Die Übergangsredewendungen 286a/286b können die gleichen wie die oder verschieden von den Übergangsredewendungen 276a/276b sein, die durch das Agentenmodul 266 aufrechterhalten werden. In einigen Implementierungen erzeugt das Gesprächsmanagermodul 262 die Übergänge 267, wenn der Agent 116 eine Unterbrechung eines aktuellen Gesprächs nicht unterstützen kann (was in einigen Implementierungen durch den Gespräch-unterbrechbar-Indikator 274b-i angegeben wird, der auf „NEIN“ gesetzt ist). Es ist ein Vorteil der Verwendung des Gesprächsmanagermoduls 262, um die Übergänge 267 zu erzeugen, dass es ermöglicht, dass unabhängig von einem speziellen Agenten 266, der für die Wiedergabe einer Benachrichtigung 263 unterbrochen wird, konsistente Übergänge bereitgestellt werden, was es unterstützt, eine erkennbare Sprache und einen erkennbaren Stil für die Benachrichtigungen 263 herzustellen, die die Anwendererkennung dieser Benachrichtigungen verbessert.
Abermals in 3C erhält das Gesprächsmanagermodul 262 Informationen über proaktive Benachrichtigungen oder Aktualisierungen, die dem Anwender bereitzustellen sind (das Benachrichtigungsmanagermodul sendet z. B. Informationen/Benachrichtigungsanforderungen 265a an das Gesprächsmanagermodul 262 oder das Gesprächsmanagermodul 262 pingt das Benachrichtigungsmanagermodul 264 periodisch bezüglich Informationen über Benachrichtigungen an), wobei folglich das Gesprächsmanagermodul 262 außerdem weiß, ob es proaktive Benachrichtigungen oder Aktualisierungen gibt, die dem Anwender bereitgestellt werden müssen. Falls z. B. in der Mitte einer Anwender/Agenten-Wechselwirkung eine Benachrichtigung 263 in Reaktion auf eine ausstehende Anforderung 109 ausgeführt wird, sendet das Benachrichtigungsmanagermodul 264 Informationen über die Benachrichtigung 263 an das Gesprächsmanagermodul 262 (z. B. als eine Benachrichtigungsanforderung 265a, wobei in Reaktion auf diese in einigen Implementierungen das Gesprächsmanagermodul 262 mit dem Agentenmodul 266 über eine zweite Benachrichtigungsanforderung 265b prüft, ob der Agent 116 eine Unterbrechung für die Benachrichtigung 263 unterstützen kann).
In 3D speichert in einigen Implementierungen das Benachrichtigungsmanagermodul 264 die Benachrichtigungsmanagermodul-Informationen 293, die den Zustand jeder ausstehenden Anforderung 109 und eine zugeordnete Benachrichtigung angeben, die es für einen oder mehrere Anwender 402 managt, einschließlich eines oder mehrerer des Folgenden:

• einer eindeutigen Kennung für eine ausstehende Anforderung 292a, die zu einer proaktiven Benachrichtigung 263 oder einer Aktualisierung führen könnte;
• der Einleitungs- und Abschlusszeitpunkte 292b und 292c der ausstehenden Anforderung;
• eines künftigen Ausführungszeitpunkts 292d für die ausstehende Anforderung oder einer Angabe 292e, dass der künftige Ausführungszeitpunkt unbestimmt ist;
• der Benachrichtigungsinformationen 298-i für eine oder mehrere Benachrichtigungen, einschließlich eines oder mehrerer des Folgenden:
- ◯ einer für den Anwender 402 vorbereiteten proaktiven Benachrichtigung 263-i;
- ◯ der Benachrichtigungseinstellungen 297-i, wie z. B. eines speziellen Prioritätsniveaus oder Typs der Benachrichtigung, der Angaben, dass die Verarbeitung/Ausführung der ausstehenden Anforderungen abgeschlossen ist und dass die proaktive Benachrichtigung zu dem Anwender geliefert worden ist (z. B. basierend auf den durch das Gesprächsmanagermodul 262 bereitgestellten Informationen) und einer Anzahl, wie oft die Benachrichtigung 263 zu wiederholen ist.

In einigen Implementierungen speichert das Benachrichtigungsmanagermodul 264 eine Bibliothek der Eingangsübergang- und der Ausgangsübergang-Redewendungen 296a/296b, die es verwenden kann, um die Übergänge zu erzeugen, die durch die Vorrichtung 104 vor und/oder nach der Wiedergabe einer proaktiven Benachrichtigung 263 abzuspielen sind. Die Übergangsredewendungen 296a/296b können die gleichen wie die oder verschieden von den Übergangsredewendungen 276a/276b sein, die durch das Agentenmodul 266 aufrechterhalten werden.
Das Gesprächsmanagermodul 262 kommuniziert durch das Agentenmodul 266 mit dem Agenten 116, um den Agenten 116 zu fragen, ob der Agent 116 eine Unterbrechung in seiner Wechselwirkung mit dem Anwender unterstützen kann. Falls dies der Agent 116 nicht kann, kommt das Gesprächsmanagermodul 262 der Wechselwirkung des Anwenders mit dem Agenten 116 zuvor, wobei es die Benachrichtigung sofort dem Anwender mitteilt (z. B. die Vorrichtung 104 lenkt, um die Benachrichtigung 263 auszugeben). Die Benachrichtigung kann z. B. zum Ausdruck bringen „Entschuldigung, aber ich muss unterbrechen, <Benachrichtigung>“.
Falls der Agent 116 eine Unterbrechung unterstützen kann, wird dem Agenten 116 die Gelegenheit gegeben, die Eingangsübergang- und die Ausgangsübergang-Ausgaben (z. B. die Sprachausgaben, die einen Übergang in eine Benachrichtigung und einen Übergang zurück in die Wechselwirkung angeben) zu liefern.
Es wird z. B. angenommen, dass in der Mitte einer Wechselwirkung mit einem Agenten 116, um Reisereservierungen auszuführen, eine Lebensmittellieferung nah vor der Ankunft ist. Die Sprachwechselwirkung zwischen dem Anwender und dem Agenten 116 kann wie diese vonstatten gehen:

• Agent: Ich habe Ihren Namen und Ihr Ziel, aber welche Art von Hotel möchten Sie?
• Anwender: Ich möchte ein ...
• Agent: Ich bin gleich zurück.
• Sprachassistentendienst: Ihre Dominos-Pizza ist im Begriff, anzukommen.
• Agent: Danke für das Warten. Also, können Sie mir abermals mitteilen, welche Art von Hotel Sie möchten?

In dem obigen Beispiel ist die Ausgabe „Ich bin gleich zurück“ ein Übergang in eine Benachrichtigung, während die Ausgabe „Danke für das Warten. Also, ...“ ein Übergang zurück in die Wechselwirkung ist. In einigen Implementierungen werden diese Ausgaben durch den Agenten 116 oder das Agentenmodul 266/358 geliefert.
Als ein weiteres Beispiel kann eine Wechselwirkung, bei der die Benachrichtigung während einer langen Text-zu-Sprache-Ausgabe von dem Agenten 116 ankommt, wie folgt vonstatten gehen:

• Agent: Es gibt in diesem Bereich 15 Hotels, die Sie in Betracht ziehen können. Das Hyatt Regency ist ein 4-Sterne-Hotel, das sich in der Nähe ...
• Agent: Einen Augenblick, ich bin gleich zurück, um Ihnen über die Hotels in dem Bereich zu berichten.
• Sprachassistentendienst: Ihre Dominos-Pizza ist im Begriff, anzukommen.
• Agent: O. K., zurück zu den Hotels in dem Gebiet, es gibt das Hyatt Regency

In dem obigen Beispiel ist die Ausgabe „Einen Augenblick, ich bin gleich zurück, um Ihnen über die Hotels in dem Bereich zu berichten“ ein Übergang in eine Benachrichtigung, während die Ausgabe „O. K., zurück zu den Hotels in dem Gebiet, es gibt ...“ ein Übergang zurück in die Wechselwirkung ist. In einigen Implementierungen werden diese Ausgaben durch den Agenten 116 oder das Agentenmodul 266/358 geliefert.
In einigen Implementierungen können proaktive Benachrichtigungen durch eine Anwenderanforderung mit einem künftigen Ausführungszeitpunkt, wie z. B. dass der Anwender eine Pizza von Dominos bestellt, wie in dem obigen Beispiel, ein Taxi zum Flughafen bestellt oder eine Benachrichtigung anfordert, wenn ein spezielles Ereignis stattfindet, wie z. B. ein College-Football-Spiel beginnt oder ein vorhergesagter Regenschauer beginnt, ermöglicht werden. In einigen Implementierungen können die proaktiven Benachrichtigungen außerdem ohne irgendeine explizite Anwenderanforderung ermöglicht werden, wobei sie stattdessen basierend auf programmierten Systemverhalten ermöglicht werden können, die basierend auf einer Anzahl von Bedingungen, die überwacht werden, bestimmen, dass das System eine wichtige Benachrichtigung zu einem Anwender übertragen muss.
In dieser Weise können wichtige Benachrichtigungen sofort geliefert werden, ohne die Dialoge oder Wechselwirkungen zwischen dem Anwender und einem Agenten vollständig zu stoppen oder sehr plötzliche/unhöfliche Übergänge zwischen den Agenten, mit denen der Anwender wechselwirkt, zu haben. Folglich können die Benachrichtigungen über wichtige oder bevorstehende Ereignisse in einer hilfreichen, höflichen und nützlichen Weise über Mensch/Maschine-Wechselwirkungen bereitgestellt werden - einschließlich in einigen Fällen des Bereitstellens wichtiger Benachrichtigungen über eine natürliche und nahtlose Unterbrechung einer weiteren Sprachwechselwirkung durch eine Sprachassistentenvorrichtung. In einigen Implementierungen verursacht die Erzeugung und Verwendung durch eine Sprachassistentenvorrichtung und/oder einen Sprachassistenten-Server der Übergangsredewendungen zwischen einer aktiven Sprachwechselwirkung und einer proaktiven Benachrichtigung, die die Wechselwirkung unterbricht, dass die Unterbrechung für einen Anwender als natürlich empfunden wird, wie wenn die Wechselwirkung und die Benachrichtigungen durch einen menschlichen Assistenten anstatt einen computergesteuerten Assistenten, der durch eine Kombination aus auf Sprache reagierenden Vorrichtungen und entfernten Sprachwechselwirkungsverarbeitungs-Servern unterstützt wird, gehandhabt wird.
In einigen Implementierungen sind die Anwenderpersonalisierungsmerkmale und die Fokussitzungen, wie sie hier beschrieben sind, konfiguriert, um mit den proaktiven Benachrichtigungen zusammenzuarbeiten. Wenn z. B. ein Anwender, von dem eine aktuelle Fokussitzung aktiv ist, außerdem ein vorgesehener Empfänger einer proaktiven Benachrichtigung ist, dann wird die elektronische Vorrichtung, die an der aktiven Fokussitzung mit diesem Anwender teilnimmt, außerdem verwendet, um die proaktive Benachrichtigung bereitzustellen, die für diesen Anwender bestimmt ist, wie hier beschrieben ist. Falls in einigen Implementierungen eine proaktive Benachrichtigung besonders wichtig ist, kann die proaktive Benachrichtigung auf der Vorrichtung, die an der Fokussitzung teilnimmt, und anderen Vorrichtungen in den Räumlichkeiten abgespielt werden, selbst wenn der bestimmte Empfänger der proaktiven Benachrichtigung in eine Fokussitzung mit einer von vielen Sprachassistentenvorrichtungen in einer Räumlichkeit einbezogen ist.
In einigen Implementierungen ermöglichen die Personalisierungsmerkmale, dass mehrere proaktive Benachrichtigungen in einer Sprachassistenteninfrastruktur gemanagt werden, indem die Identifikation eines oder mehrerer Anwender, die an aktiven Sprachassistentensitzungen in einer Räumlichkeit (einschließlich der Fokussitzungen) teilnehmen, und die anschließende Ausgabe der geeigneten proaktiven Benachrichtigungen für jeden der identifizierten Anwender über die jeweiligen Vorrichtungen, die durch diese Einzelpersonen verwendet werden, ermöglicht werden. Die Personalisierungsmerkmale können es außerdem einer Sprachassistentenvorrichtung ermöglichen, proaktive Benachrichtigungen pro Einzelpersonen in einer Räumlichkeit basierend auf der Identität eines Anwenders, der mit einer speziellen Sprachassistentenvorrichtung in Wechselwirkung tritt, zu konfigurieren.
6 ist ein Ablaufplan, der ein Verfahren 600 für proaktive Benachrichtigungen in einer Sprachschnittstellenvorrichtung gemäß einigen Implementierungen veranschaulicht. In einigen Implementierungen enthält ein Verfahren 600 für die proaktiven Benachrichtigungen in einer Sprachschnittstellenvorrichtung das Empfangen (602) einer ersten Anwendersprachanforderung für eine Handlung mit einem künftigen Ausführungszeitpunkt, das Zuweisen (604) der ersten Anwendersprachanforderung einem Sprachassistentendienst für die Ausführung, anschließend an das Empfangen das Empfangen (606) einer zweiten Anwendersprachanforderung und in Reaktion auf die zweite Anwendersprachanforderung das Beginnen eines Gesprächs mit dem Anwender; und während des Gesprächs (608): Empfangen (610) einer Benachrichtigung von dem Sprachassistentendienst von der Ausführung der Handlung; Auslösen (612) einer ersten hörbaren Ankündigung für den Anwender, um einen Übergang von dem Gespräch anzugeben, und Unterbrechen des Gesprächs; Auslösen (614) einer zweiten hörbaren Ankündigung für den Anwender, um die Ausführung der Handlung anzugeben; und Auslösen (616) einer dritten hörbaren Ankündigung für den Anwender, um den Übergang zurück zu dem Gespräch anzugeben, und erneutes Eintreten in das Gespräch. In einigen Implementierungen ist das Verfahren in einer sprachaktivierten elektronischen Vorrichtung (z. B. der Vorrichtung 104) oder in einem Server-System eines Sprachassistentendienstes 140 (z. B. dem Sprachunterstützungs-Server 112) implementiert.
In einigen Implementierungen werden eine oder mehrere der hörbaren Ankündigungen durch einen sichtbaren Hinweis begleitet, der auf einer Anwendersprachschnittstellenvorrichtung angezeigt wird. In einigen Implementierungen können die sichtbaren Hinweise über Anzeigeelemente der Vorrichtung in Übereinstimmung mit den Elementen der hier beschriebenen LED-Entwurfssprache bereitgestellt werden.
In einigen Implementierungen wird die erste Anwendersprachanforderung an einer Anwendersprachschnittstellenvorrichtung empfangen, die eine Sprachunterstützungsvorrichtung mit einem oder mehreren Lautsprechern und einem oder mehreren Mikrophonen (z. B. eine GOOGLE HOME-Vorrichtung oder Ähnliches), ein Mobiltelephon, ein Tablet oder ein Laptop sein kann.
In einigen Implementierungen ist der künftige Ausführungszeitpunkt unbestimmt. Der künftige Ausführungszeitpunkt könnte z. B. kein Teil der Anwenderanforderung sein, schwierig zu bestimmen sein oder kann in einem Bereich von Zeiträumen (wie bei der Pizzalieferanforderung) auftreten. Falls es zusätzlich keine explizite Anwenderanforderung gibt, die Anlass zu einer proaktiven Benachrichtigung gibt, (z. B. wenn eine Sprachassistentenvorrichtung konfiguriert ist, um eine proaktive Benachrichtigung beim Auftreten einer von einer Anzahl überwachter Bedingungen bereitzustellen), könnte der künftige Ausführungszeitpunkt irgendein Zeitpunkt sein. In einigen Implementierungen werden in diesen oder anderen ähnlichen Situationen eine proaktive Benachrichtigung (wann immer sie ausgegeben werden muss) und irgendeine resultierende Unterbrechung andauernder Anwenderwechselwirkungen mit einer Sprachassistentenvorrichtung gemanagt, wie hier beschrieben ist.
In einigen Implementierungen ist der Sprachassistentendienst in einem Server implementiert, der mit der Anwendersprachschnittstellenvorrichtung in Verbindung steht.
In einigen Implementierungen wird das Gespräch durch einen digitalen Gesprächsmanager überwacht, der in einem Server implementiert ist, der mit der Anwendersprachschnittstellenvorrichtung in Verbindung steht.
In einigen Implementierungen empfängt der digitale Gesprächsmanager die Benachrichtigung.
In einigen Implementierungen enthält das Verfahren ferner das Bestimmen basierend auf dem Kontext des Gesprächs eines geeigneten Zeitpunkts, zu dem die erste hörbare Ankündigung ausgelöst wird.
In einigen Implementierungen wird das Gespräch zwischen dem Anwender und einem Software-Agenten ausgeführt, wobei der Software-Agent eine oder mehrere der hörbaren Ankündigungen bestimmt und erzeugt.
Die physischen Merkmale einer sprachaktivierten elektronischen Vorrichtung
7A und 7B sind eine Vorderansicht 700 und eine Rückansicht 720 einer beispielhaften sprachaktivierten Vorrichtung 104 gemäß einigen Implementierungen. Die sprachaktivierte Vorrichtung 104 ist als warm und einladend entworfen und passt natürlich in viele Bereiche eines Hauses. Die sprachaktivierte Vorrichtung 104 enthält ein oder mehrere Mikrophone 702 und eine Anordnung von Vollfarben-LEDs 704. Die Vollfarben-LEDs 704 können unter einer Oberseite der sprachaktivierten Vorrichtung 104 verborgen sein und sind in einigen Implementierungen für den Anwender unsichtbar, wenn sie nicht leuchten. In einigen Implementierungen ist die Anordnung der Vollfarben-LEDs physisch in einem Ring angeordnet. In einigen Implementierungen ist die Anordnung der Vollfarben-LEDs physisch in einem Gitter angeordnet. Ferner enthält die Rückseite der sprachaktivierten Vorrichtung 104 optional einen Leistungsversorgungsverbinder 708, der konfiguriert ist, um an eine Leistungsversorgung gekoppelt zu werden. In einigen Implementierungen enthält die sprachaktivierte Vorrichtung 104 außerdem eine Basis mit einem Lautsprechergitter 710, das einen unter dem Lautsprechergitter verborgenen Lautsprecher schützt.
In einigen Implementierungen stellt die sprachaktivierte Vorrichtung 104 ein reines Aussehen dar, das keine sichtbare Taste aufweist, wobei die Wechselwirkung mit der sprachaktivierten Vorrichtung 104 auf Sprache und Berührungsgesten (z. B. mit einer (nicht gezeigten) berührungsempfindlichen Oberfläche auf der sprachaktivierten Vorrichtung 104) basiert. Alternativ enthält in einigen Implementierungen die sprachaktivierte Vorrichtung 104 eine begrenzte Anzahl physischer Tasten (z. B. eine Taste 706 auf ihrer Rückseite), wobei die Wechselwirkung mit der sprachaktivierten Vorrichtung 104 zusätzlich zu der Sprache und den Berührungsgesten ferner auf dem Drücken auf die Taste basiert.
Die LED-Entwurfssprache für die sichtbare Affordanz der Sprachanwenderschnittstelle
In einigen Implementierungen enthält die sprachaktivierte Vorrichtung 104 anstatt eines vollen Anzeigeschirms eine Anordnung von Vollfarben-Leuchtdioden (Vollfarben-LEDs). Eine LED-Entwurfssprache wird angewendet, um die Beleuchtung der Anordnung von Vollfarben-LEDs zu konfigurieren und verschiedene sichtbare Muster zu ermöglichen, die verschiedene Sprachverarbeitungszustände der sprachaktivierten Vorrichtung 104 angeben. Die LED-Entwurfssprache besteht aus einer Grammatik von Farben, Mustern und einer spezifischen Bewegung, die auf einen festen Satz von Vollfarben-LEDs angewendet wird. Die Elemente in der Sprache werden kombiniert, um während der Verwendung der sprachaktivierten Vorrichtung 104 die spezifischen Vorrichtungszustände sichtbar anzugeben. In einigen Implementierungen zielt die Beleuchtung der Vollfarben-LED darauf ab, die passiven Hörzustände und die aktiven Hörzustände der sprachaktivierten Vorrichtung 104 unter anderen wichtigen Zuständen deutlich darzustellen. Die Anordnung der Vollfarben-LED entspricht den physischen Einschränkungen der sprachaktivierten Vorrichtung 104, wobei die Anordnung der Vollfarben-LEDs in einem Lautsprecher verwendet werden kann, der durch einen Originalausrüstungshersteller (OEM) einer dritten Partei basierend auf einer spezifischen Technik (z. B. dem Google Assistant) hergestellt wird.
Wenn die Anordnung der Vollfarben-LEDs in einem Lautsprecher verwendet wird, der durch einen OEM einer dritten Partei basierend auf einer spezifischen Technik hergestellt wird, sind die Vollfarben-LEDs und die LED-Entwurfssprache konfiguriert, um zu einer entsprechenden physischen Anwenderschnittstelle des OEM-Lautsprechers zu passen. In dieser Situation bleiben die Vorrichtungszustände des OEM-Lautsprechers die gleichen, während spezifische sichtbare Muster, die die Vorrichtungszustände repräsentieren, variiert werden könnten (die Farben der Vollfarben-LEDs könnten z. B. verschieden sein, aber mit ähnlichen Animationseffekten angezeigt werden).
In einer sprachaktivierten Vorrichtung 104 tritt das passive Zuhören auf, wenn die sprachaktivierte Vorrichtung 104 die von ihrer umgebenden Umgebung gesammelten Audioeingaben verarbeitet, aber die Audioeingaben nicht speichert oder die Audioeingaben nicht zu irgendeinem entfernten Server überträgt. Im Gegensatz tritt das aktive Zuhören auf, wenn die sprachaktivierte Vorrichtung 104 die von ihrer umgebenden Umgebung gesammelten Audioeingaben speichert und/oder die Audioeingaben mit einem entfernten Server teilt. Gemäß einigen Implementierungen dieser Anmeldung hört die sprachaktivierte Vorrichtung 104 nur passiv auf die Audioeingaben in ihrer umgebenden Umgebung, ohne die Privatsphäre der Anwender der sprachaktivierten Vorrichtung 104 zu verletzen.
7C ist eine Draufsicht einer sprachaktivierten Vorrichtung 104 gemäß einigen Implementierungen, während 7D die sichtbaren Muster zeigt, die durch eine Anordnung von Vollfarben-LEDs angezeigt werden, um die Sprachverarbeitungszustände gemäß einigen Implementierungen anzugeben. In einigen Implementierungen enthält die sprachaktivierte Vorrichtung 104 keinen Anzeigeschirm, wobei die Vollfarben-LEDs im Vergleich zu einem vollen Anzeigeschirm eine einfache und preiswerte sichtbare Anwenderschnittstelle bereitstellen. Die Vollfarben-LEDs können unter einer Oberseite der elektronischen Vorrichtung verborgen und für den Anwender unsichtbar sein, wenn sie nicht leuchten. In einigen Implementierungen ist die Oberseite der sprachaktivierten Vorrichtung 104 berührungsempfindlich. In den 7C und 7D ist in einigen Implementierungen die Anordnung der Vollfarben-LEDs physisch in einem Ring angeordnet. In einigen Implementierungen verfolgen die Leuchten die physischen Wechselwirkungen eines Anwenders mit der elektronischen Vorrichtung 104. Wie z. B. in 7D(6) gezeigt ist, kann die Anordnung der Vollfarben-LEDs 704 sequentiell aufleuchten, um ein Wischen im Uhrzeigersinn oder entgegen dem Uhrzeigersinn auf einer berührungsempfindlichen Oberseite der sprachaktivierten Vorrichtung zu verfolgen. Weitere Einzelheiten über die sichtbaren Muster, die den Sprachverarbeitungszuständen der elektronischen Vorrichtung 104 zugeordnet sind, werden im Folgenden bezüglich der 7D(1)-7D(8) erklärt.
In der elektronischen Vorrichtung 104 ist ein Verfahren zum sichtbaren Angeben eines Sprachverarbeitungszustands implementiert. Die elektronische Vorrichtung 104 sammelt über das eine oder die mehreren Mikrophone 702 Audioeingaben von einer Umgebung in der Nähe der elektronischen Vorrichtung und verarbeitet die Audioeingaben. Die Verarbeitung enthält eines oder mehrere des Identifizierens und des Beantwortens der Spracheingaben von einem Anwender in der Umgebung. Die elektronische Vorrichtung 104 bestimmt einen Zustand der Verarbeitung aus mehreren vorgegebenen Sprachverarbeitungszuständen. Für jede der Vollfarben-LEDs 704 identifiziert die elektronische Vorrichtung 104 eine jeweilige vorgegebene LED-Beleuchtungsspezifikation, die dem bestimmten Sprachverarbeitungszustand zugeordnet ist. Die Beleuchtungsspezifikation enthält eines oder mehrere einer LED-Beleuchtungsdauer, einer Impulsrate, eines Arbeitszyklus, einer Farbfolge und einer Helligkeit. In einigen Implementierungen bestimmt die elektronische Vorrichtung 104, dass der Sprachverarbeitungszustand einem von mehreren Anwendern zugeordnet ist, wobei sie die vorgegebenen LED-Beleuchtungsspezifikationen der Vollfarben-LED 704 durch das kundenspezifische Anpassen wenigstens einer der vorgegebenen LED-Beleuchtungsspezifikation (z. B. der Farbfolge) der Vollfarben-LED 704 gemäß einer Identität des einen der mehreren Anwender identifiziert. Eine LED-Beleuchtungsspezifikation kann z. B.: (a) veranlassen, dass alle LEDs in einer einzigen Farbe pulsieren oder „atmen“ (z. B. zwischen verschiedenen Rotintensitäten pulsieren, wie in 7D(1) gezeigt ist); (b) veranlassen, das spezielle LEDs in unterschiedlichen Farben leuchten (z. B. die obere, rechte, untere und linke einzelne LED in Blau, Rot, Gelb bzw. Grün leuchten zu lassen, wie in 7D(2) gezeigt ist, oder alle LEDs, jede in einer anderen Farbe, leuchten zu lassen, wie in 7D(4) gezeigt ist); (c) veranlassen, dass alle LEDs zwischen verschiedenen Farben flackern (z. B. zwischen Weiß und unterschiedlichen Grautönen flackern, wie in 7D(3) gezeigt ist); oder veranlassen, dass ein definierter Satz der LEDs blinkt (z. B. von weiß zu aus blinkt, wie in 7D(5) gezeigt ist).
Ferner enthalten in einigen Implementierungen in Übereinstimmung mit dem bestimmten Sprachverarbeitungszustand die Farben der Vollfarben-LEDs einen vorgegebenen Satz von Farben. Bezüglich der 7D(2), 7D(4) und 7D(7)-(10) enthält der vorgegebene Satz von Farben z. B. die Google-Markenfarben einschließlich Blau, Grün, Gelb und Rot, wobei die Anordnung der Vollfarben-LEDs in vier Quadranten aufgeteilt ist, wobei jedem eine der Google-Markenfarben zugeordnet ist.
In Übereinstimmung mit den identifizierten LED-Beleuchtungsspezifikationen der Vollfarben-LEDs synchronisiert die elektronische Vorrichtung 104 die Beleuchtung der Anordnung der Vollfarben-LEDs, um ein sichtbares Muster zu schaffen, das den bestimmten Sprachverarbeitungszustand angibt. In einigen Implementierungen enthält das sichtbare Muster, das den Sprachverarbeitungszustand angibt, mehrere diskrete LED-Beleuchtungsbildpunkte. In einigen Implementierungen enthält das sichtbare Muster ein Startsegment, ein Schleifensegment und ein Abschlusssegment. Das Schleifensegment dauert während eines Zeitraums, der den LED-Beleuchtungsdauern der Vollfarben-LEDs zugeordnet ist, und ist konfiguriert, um einer Länge des Sprachverarbeitungszustands zu entsprechen.
In einigen Implementierungen weist die elektronische Vorrichtung 104 mehr als zwanzig unterschiedliche Vorrichtungszustände (einschließlich der mehreren vorgegebenen Sprachverarbeitungszustände) auf, die durch die LED-Entwurfssprache repräsentiert werden. Optional enthalten die mehreren vorgegebenen Sprachverarbeitungszustände einen oder mehrere eines Hotword-Detektionszustands, eines Hörzustands, eines Denkzustands und eines Antwortzustands.
Wie hier beschrieben ist, kann die sprachaktivierte elektronische Vorrichtung 104 in Übereinstimmung mit einigen Implementierungen eine nicht vorgegebene, alternative sichtbare Ausgabe in Übereinstimmung mit einer Bestimmung anzeigen, dass eine Spracheingabe oder eine Operation der elektronischen Vorrichtung 104 einem oder mehreren Kriterien entspricht. Die nicht vorgegebene, alternative sichtbare Ausgabe kann anstelle einer vorgegebenen sichtbaren Ausgabe (z. B. irgendeiner der beispielhaften vorgegebenen sichtbaren Ausgabefarben und/oder Muster/Folgen, die bezüglich 7D beschrieben worden sind) angezeigt werden, wenn anderweitig die vorgegebene sichtbare Ausgabe angezeigt worden wäre. Die Informationen oder die Anweisungen zum Anzeigen der nicht vorgegebenen sichtbaren Ausgabe werden in einigen Implementierungen durch einen entferntes System (z. B. ein Server-System) bereitgestellt und/oder sind in der elektronischen Vorrichtung 104 für die Verwendung gespeichert, wenn die Kriterien der alternativen sichtbaren Ausgabe erfüllt sind, wie hier beschrieben ist. Wie hier beschrieben ist, können in einigen Implementierungen die Eigenschaften der alternativen sichtbaren Ausgabe in den empfangenen LED-Ausgabeanweisungen 254 spezifiziert sein (2), während die vorgegebenen oder voreingestellten Anweisungen der sichtbaren Ausgabe in den lokalen LED-Ausgabeanweisungen 252 spezifiziert sein können (2).
In einigen Implementierungen einer sprachaktivierten elektronischen Vorrichtung 104 können Leuchten ähnlich zu den LEDs 704 verwendet werden, um die Angaben eines oder mehrerer proaktiver Benachrichtigungszustände (z. B. der Zustände, die verschiedenen proaktiven Benachrichtigungsoperationen zugeordnet sind, die in Übereinstimmung mit 6 beschrieben worden sind) unter Verwendung eines oder mehrerer Elemente der LED-Entwurfssprache bereitzustellen. Es könnten z. B. unterschiedliche Typen sichtbarer Ausgaben, die über die LEDs 704 angezeigt werden, angeben, dass die Vorrichtung 104 in einem proaktiven Benachrichtigungsmodus arbeitet, im Begriff ist, eine proaktive Benachrichtigung zu liefern (z. B. in Übereinstimmung mit dem Bereitstellen einer einleitenden Übergangsankündigung), eine proaktive Benachrichtigung ausführt, eine proaktive Benachrichtigung (z. B. in Übereinstimmung mit dem Bereitstellen einer abschließenden Übergangsankündigung) abgeschlossen hat, den proaktiven Benachrichtigungsmodus verlassen hat oder in einem proaktiven Hintergrund-Benachrichtigungsmodus (z. B. ohne das Empfangen einer expliziten Anwenderanforderung) arbeitet. Diese verschiedenen proaktiven Benachrichtigungszustände können außerdem unter Verwendung eines Anzeigeschirms einer sprachaktivierten elektronischen Vorrichtung, wie z. B. eines Mobiltelephons, eines Tablets, eines Laptops, eines verbundenen TV oder einer Smart-Home-Steuertafel, angegeben werden.
Es ist ausführlich auf Implementierungen verwiesen worden, deren Beispiele in den beigefügten Zeichnungen veranschaulicht sind. In der obigen ausführlichen Beschreibung sind zahlreiche spezifische Einzelheiten dargelegt worden, um ein umfassendes Verständnis der verschiedenen beschriebenen Implementierungen bereitzustellen. Es ist jedoch für einen Durchschnittsfachmann auf dem Gebiet offensichtlich, dass die verschiedenen beschriebenen Implementierungen ohne diese spezifischen Einzelheiten praktiziert werden können. In anderen Fällen sind wohlbekannte Verfahren, Prozeduren, Komponenten, Schaltungen und Netze nicht ausführlich beschrieben worden, um die Aspekte der Implementierungen nicht unnötigerweise zu verbergen.
Es wird außerdem erkannt, dass, obwohl die Begriffe erster, zweiter usw. in einigen Fällen hier verwendet werden, um verschiedene Elemente zu beschreiben, diese Elemente nicht durch diese Begriffe eingeschränkt werden sollten. Diese Begriffe werden lediglich verwendet, um ein Element von einem weiteren zu unterscheiden. Eine erste Vorrichtung könnte z. B. als eine zweite Vorrichtung bezeichnet werden, während ähnlich eine zweite Vorrichtung als eine erste Vorrichtung bezeichnet werden könnte, ohne vom Schutzumfang der verschiedenen beschriebenen Implementierungen abzuweichen. Die erste Vorrichtung und die zweite Vorrichtung sind beide Typen von Vorrichtungen, wobei sie aber nicht die gleiche Vorrichtung sind.
Die in der Beschreibung der verschiedenen beschriebenen Implementierungen verwendete Terminologie ist nur für den Zweck des Beschreibens spezieller Implementierungen und ist nicht vorgesehen, um einschränkend zu sein. Es ist vorgesehen, dass die Einzahlformen „ein“, „eine“ und „der/die/das“, wie sie in der Beschreibung der verschiedenen beschriebenen Implementierungen und den beigefügten Ansprüchen verwendet werden, ebenso die Mehrzahlformen enthalten, wenn es der Kontext nicht deutlich anders angibt. Es wird außerdem erkannt, dass sich der Begriff „und/oder“, wie er hier verwendet wird, auf irgendeine und alle möglichen Kombinationen eines oder mehrerer der zugeordneten aufgelisteten Elemente bezieht und diese umfasst. Es wird ferner erkannt, dass die Begriffe „enthält“, „enthaltend“, „umfasst“ und/oder „umfassend“, wenn sie in dieser Beschreibung verwendet werden, das Vorhandensein der dargelegten Merkmale, ganzen Zahlen, Schritte, Operationen, Elemente und/oder Komponenten spezifizieren, aber das Vorhandensein oder die Ergänzung eines oder mehrerer anderer Merkmale, ganzer Zahlen, Schritte, Operationen, Elemente, Komponenten und/oder Gruppen daraus nicht ausschließt.
Der Begriff „falls“, wie er hier verwendet wird, wird abhängig vom Kontext optional ausgelegt, so dass er „wenn“ oder „bei“ oder „in Reaktion auf das Bestimmen“ oder „in Reaktion auf das Detektieren“ oder „in Übereinstimmung mit einer Bestimmung, dass“ bedeutet. Ähnlich wird in Abhängigkeit vom Kontext die Redewendung „falls bestimmt wird“ oder „falls [eine dargelegte Bedingung oder ein dargelegtes Ereignis] detektiert wird“, optional ausgelegt, so dass sie „beim Bestimmen“ oder „in Reaktion auf das Bestimmen“ oder „beim Detektieren [der dargelegten Bedingung oder des dargelegten Ereignisses]“ oder „in Reaktion auf das Detektieren [der dargelegten Bedingung oder des dargelegten Ereignisses]“ oder „in Übereinstimmung mit einer Bestimmung, dass [eine dargelegte Bedingung oder ein dargelegtes Ereignis] detektiert wird“ bedeutet.
Für die Situationen, in denen die oben erörterten Systeme Informationen über die Anwender sammeln, kann den Anwendern eine Gelegenheit bereitgestellt werden, Programmen oder Merkmalen zuzustimmen oder die Zustimmung zu verweigern, die persönliche Informationen sammeln können (z. B. Informationen über die Vorlieben oder die Verwendung einer Smart-Vorrichtung des Anwenders). Zusätzlich können in einigen Implementierungen bestimmte Daten in einer oder mehreren Weisen anonymisiert werden, bevor sie gespeichert oder verwendet werden, so dass die persönlich identifizierbaren Informationen entfernt sind. Die Identität eines Anwenders kann z. B. anonymisiert werden, so dass die persönlich identifizierbaren Informationen für den Anwender nicht bestimmt oder dem Anwender nicht zugeordnet werden können, und so dass die Anwendervorlieben oder die Anwenderwechselwirkungen verallgemeinert sind (z. B. basierend auf der Anwenderdemographie verallgemeinert sind), anstatt dass sie einem speziellen Anwender zugeordnet sind.
Obwohl einige der verschiedenen Zeichnungen eine Anzahl logischer Zustände in einer speziellen Reihenfolge veranschaulichen, können die Stufen, die nicht von der Reihenfolge abhängig sind, umgeordnet werden, wobei andere Stufen kombiniert oder herausgebrochen werden können. Während irgendeine Umordnung oder andere Gruppierungen spezifisch erwähnt worden sind, sind andere für die Durchschnittsfachleute auf dem Gebiet offensichtlich, so dass die hier dargestellte Ordnung und die hier dargestellten Gruppierungen keine vollständige Liste der Alternativen sind. Überdies sollte erkannt werden, dass die Stufen in Hardware, Firmware, Software oder irgendeiner Kombination daraus implementiert sein könnten.
Die vorhergehende Beschreibung ist zum Zweck der Erklärung unter Bezugnahme auf spezifische Implementierungen beschrieben worden. Es ist jedoch nicht vorgesehen, dass die obigen veranschaulichenden Erörterungen vollständig sind oder den Schutzumfang der Ansprüche auf die genauen offenbarten Formen einschränken. Im Hinblick auf die obigen Lehren sind viele Modifikationen und Variationen möglich. Die Implementierungen wurden gewählt, um die den Ansprüchen zu Grunde liegenden Prinzipien und deren praktische Anwendungen am besten zu erklären, um es dadurch anderen Fachleuten auf dem Gebiet zu ermöglichen, die Implementierungen mit verschiedenen Modifikationen am besten zu verwenden, wie sie für die betrachteten speziellen Verwendungen geeignet sind.

Claims

Verfahren für proaktive Benachrichtigungen in einer Sprachschnittstellenvorrichtung (104), das umfasst: Empfangen (602) einer ersten Anwendersprachanforderung (105) für eine Handlung mit einem künftigen Ausführungszeitpunkt; Zuweisen (604) der ersten Anwendersprachanforderung (105) einem Sprachassistentendienst (140) für die Ausführung; anschließend an das Empfangen (602) Empfangen (606) einer zweiten Anwendersprachanforderung (105) und in Reaktion auf die zweite Anwendersprachanforderung (105) Beginnen (606) eines Gesprächs (608) mit dem Anwender (102, 402), und während des Gesprächs (608): Empfangen (610) einer Benachrichtigung (265) von dem Sprachassistentendienst (140) von der Ausführung der Handlung; Auslösen (612) einer ersten hörbaren Ankündigung (107, 276a, 286a, 296a) für den Anwender (102, 402), um einen Übergang aus dem Gespräch (608) anzugeben, und Unterbrechen (612) des Gesprächs; Auslösen (614) einer zweiten hörbaren Ankündigung (263) für den Anwender (102, 402), um die Ausführung der Handlung anzugeben; und Auslösen (616) einer dritten hörbaren Ankündigung (107, 276b, 286b, 296b) für den Anwender (102, 402), um einen Übergang zurück zu dem Gespräch (608) anzugeben, und erneutes Eintreten (616) in das Gespräch.
Verfahren nach Anspruch 1, wobei eine oder mehrere der hörbaren Ankündigungen (107, 263, 276a, 276b, 286a, 286b, 296a, 296b) von einem sichtbaren Hinweis, der auf der Sprachschnittstellenvorrichtung (104) angezeigt wird, begleitet werden.
Verfahren nach einem der Ansprüche 1-2, wobei die erste Anwendersprachanforderung (105) an der Sprachschnittstellenvorrichtung (104) empfangen wird.
Verfahren nach einem der Ansprüche 1-3, wobei der künftige Ausführungszeitpunkt unbestimmt ist.
Verfahren nach einem der Ansprüche 1-4, wobei der Sprachassistentendienst (140) in einem Server (112) implementiert ist, der mit der Sprachschnittstellenvorrichtung (104) in Verbindung steht.
Verfahren nach einem der Ansprüche 1-5, wobei das Gespräch (608) durch einen digitalen Gesprächsmanager (354) überwacht wird, der in einem Server (112) implementiert ist, der mit der Sprachschnittstellenvorrichtung (104) in Verbindung steht.
Verfahren nach Anspruch 6, wobei der digitale Gesprächsmanager (354) die Benachrichtigung (265) empfängt.
Verfahren nach einem der Ansprüche 1-7, das ferner umfasst: Bestimmen basierend auf dem Kontext des Gesprächs (608) eines geeigneten Zeitpunkts, zu dem die erste hörbare Ankündigung (107, 276a, 286a, 296a) ausgelöst wird.
Verfahren nach einem der Ansprüche 1-8, wobei das Gespräch (608) zwischen dem Anwender (102, 402) und einem Software-Agenten (116) ausgeführt wird, wobei der Software-Agent (116) eine oder mehrere der hörbaren Ankündigungen (107, 263, 276a, 276b, 286a, 286b, 296a, 296b) bestimmt und erzeugt.
Server (112), der einen oder mehrere Prozessoren (302) und einen Speicher (306) umfasst, der konfiguriert ist, um das Verfahren nach einem der Ansprüche 1-9 auszuführen.
Elektronische Vorrichtung (104), die einen Lautsprecher (220), einen oder mehrere Prozessoren (202) und einen Speicher (206) umfasst, die konfiguriert ist, um das Verfahren nach einem der Ansprüche 1-9 auszuführen.
Nichttransitorisches computerlesbares Speichermedium (306), das ein oder mehrere Programme speichert, wobei das eine oder die mehreren Programme Anweisungen umfassen, die, wenn sie durch einen Server (112) mit einem oder mehreren Prozessoren (302) ausgeführt werden, den Server (112) veranlassen, das Verfahren nach einem der Ansprüche 1-9 auszuführen.
Nichttransitorisches computerlesbares Speichermedium (206), das ein oder mehrere Programme speichert, wobei das eine oder die mehreren Programme Anweisungen umfassen, die, wenn sie durch eine elektronische Vorrichtung (104) mit einem Lautsprecher (220) und einem oder mehreren Prozessoren (202) ausgeführt werden, die elektronische Vorrichtung (104) veranlassen, das Verfahren nach einem der Ansprüche 1-9 auszuführen.