DE102019107624A1

DE102019107624A1 - System und Verfahren zur Erfüllung einer Sprachanforderung

Info

Publication number: DE102019107624A1
Application number: DE102019107624.2A
Authority: DE
Inventors: Gaurav Talwar; Scott D. Custer; Ramzi Abdelmoula
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2018-04-05
Filing date: 2019-03-25
Publication date: 2019-10-10
Also published as: CN110348002A; US20190311713A1

Abstract

Ein allgemeiner Aspekt beinhaltet ein Fahrzeug, das Folgendes beinhaltet: einen Fahrgastraum für einen Benutzer; einen Sensor, der sich im Fahrgastraum befindet, wobei der Sensor konfiguriert ist, um eine Sprachanforderung vom Benutzer zu erhalten; einen Speicher, der konfiguriert ist, um eine bestimmte Absicht für die Sprachanforderung zu speichern; und einen Prozessor, der konfiguriert ist, um zumindest Folgendes zu erleichtern: Erhalten einer Sprachanforderung vom Benutzer; der Versuch, die spezifische Absicht für die Sprachanforderung über einen Sprachassistenten zu klassifizieren; das Bestimmen des Sprachassistenten kann die spezifische Absicht nicht aus der Sprachanforderung klassifizieren; nach dem Bestimmen, dass der Sprachassistent die spezifische Absicht nicht klassifizieren kann, Interpretieren der spezifischen Absicht durch eine oder mehrere Natursprachenverarbeitungs-(NLP)-Methodiken; Implementieren des Sprachassistenten, um die Sprachanforderung zu erfüllen, oder Zugreifen auf einen oder mehrere persönliche Assistenten, um die Sprachanforderung oder eine Kombination derselben zu erfüllen, nachdem die eine oder die mehreren NLP-Methodologien die spezifische Absicht interpretiert hat.

Description

EINLEITUNG
Viele Fahrzeuge, Smartphones, Computer und/oder andere Systeme und Vorrichtungen verwenden einen Sprachassistenten, um Informationen oder andere Dienste als Reaktion auf eine Benutzeranfrage bereitzustellen. Unter bestimmten Umständen kann es jedoch wünschenswert sein, die Verarbeitung und/oder Unterstützung dieser Benutzeranforderungen zu verbessern.
Wenn ein Benutzer beispielsweise eine Anforderung bereitstellt, die der Sprachassistent nicht erkennt, stellt der Sprachassistent eine Rückfallabsicht bereit, die den Benutzer wissen lässt, dass der Sprachassistent die spezifische Absicht der Anforderung nicht erkennt und somit diese Anforderung nicht erfüllen kann. Dies kann dazu führen, dass der Benutzer in einen separaten Online-Shop/Datenbank gehen muss, um neue Fähigkeiten für seinen Sprachassistenten zu erwerben, oder dass der Benutzer direkt auf einen separaten persönlichen Assistenten zugreifen muss, um die Anforderung zu erfüllen. Derartige Aufgaben können für den Benutzer frustrierend sein, wenn er möchte, dass seine Anforderung zeitnah erfüllt wird. Es wäre daher wünschenswert, ein System oder Verfahren vorzusehen, das es einem Benutzer ermöglicht, seinen Sprachassistenten zum Erfüllen einer Anforderung zu implementieren, auch wenn der Sprachassistent die spezifische Absicht hinter einer derartigen Anforderung zunächst nicht erkennt.
KURZDARSTELLUNG
Ein System mit einem oder mehreren Computern kann konfiguriert werden, um bestimmte Vorgänge oder Aktionen durch die Installation von Software, Firmware, Hardware oder einer Kombination derselben auf dem System auszuführen, die im Betrieb das System dazu veranlasst oder bewirkt, die Aktionen auszuführen. Ein oder mehrere Computerprogramme können so konfiguriert werden, dass diese bestimmte Operationen oder Aktionen ausführen, indem diese Anweisungen enthalten, die, wenn diese von der Datenverarbeitungsvorrichtung ausgeführt werden, bewirken, dass die Vorrichtung die Aktionen ausführt. Ein allgemeiner Aspekt beinhaltet ein Fahrzeug, das Folgendes beinhaltet: einen Fahrgastraum für einen Benutzer; einen Sensor, der sich im Fahrgastraum befindet, wobei der Sensor konfiguriert ist, um eine Sprachanforderung vom Benutzer zu erhalten; einen Speicher, der konfiguriert ist, um eine bestimmte Absicht für die Sprachanforderung zu speichern; und einen Prozessor, der konfiguriert ist, um zumindest Folgendes zu erleichtern: Erhalten einer Sprachanforderung vom Benutzer; der Versuch, die spezifische Absicht für die Sprachanforderung über einen Sprachassistenten zu klassifizieren; das Bestimmen des Sprachassistenten kann die spezifische Absicht nicht aus der Sprachanforderung klassifizieren; nach dem Bestimmen, dass der Sprachassistent die spezifische Absicht nicht klassifizieren kann, Interpretieren der spezifischen Absicht durch eine oder mehrere Natursprachenverarbeitungs-(NLP)-Methodiken; Implementieren des Sprachassistenten, um die Sprachanforderung zu erfüllen, oder Zugreifen auf einen oder mehrere persönliche Assistenten, um die Sprachanforderung oder eine Kombination derselben zu erfüllen, nachdem die eine oder die mehreren NLP-Methodologien die spezifische Absicht interpretiert hat. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Computersysteme, Vorrichtungen und Computerprogramme, die auf einer oder mehreren Computerspeichervorrichtungen aufgezeichnet sind, die jeweils zum Ausführen der Aktionen des Verfahrens ausgelegt sind.
Implementierungen können eines oder mehrere der folgenden Merkmale beinhalten. Das Fahrzeug beinhaltet ferner das Erzeugen eines oder mehrerer Regelsätze für die spezifische Absicht, wobei die einen oder mehreren Regelsätze konfiguriert sind, um den Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen. Das Fahrzeug beinhaltet ferner das Anwenden einer oder mehrerer Maschinenlernmethodologien, um den Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen. In dem Fahrzeug sind ein oder mehrere persönliche Assistenten aus der Gruppe, die Folgendes beinhaltet: einen manuellen persönlichen Assistenten des Eigentümers, einen persönlichen Assistenten der Fahrzeugdomäne, einen persönlichen Reiseassistenten, einen persönlichen Einkaufsassistenten und einen persönlichen Unterhaltungsassistenten. In dem Fahrzeug erfolgt der Zugriff auf einen oder mehrere persönliche Assistenten durch einen automatisierten persönlichen Assistenten, der Teil eines entfernten Computersystems ist. Implementierungen der beschriebenen Techniken können Hardware, ein Verfahren oder Prozess oder Computersoftware auf einem computerzugänglichen Medium beinhalten.
Ein allgemeiner Aspekt beinhaltet ein Verfahren zum Erfüllen einer Sprachanforderung, wobei das Verfahren Folgendes beinhaltet: Erhalten der Sprachanforderung von einem Benutzer über einen Sensor; Implementieren eines Sprachassistenten über einen Prozessor, um eine spezifische Absicht für die Sprachanforderung zu klassifizieren, wenn der Sprachassistent die spezifische Absicht nicht über den Prozessor klassifizieren kann, Implementieren einer oder mehrerer Natursprachenverarbeitungs-(NLP) -Methodologien, um die spezifische Absicht zu interpretieren; und basierend auf der spezifischen Absicht, die von einer oder mehreren NLP-Methodologien interpretiert wird, das Zugreifen auf einen oder mehrere persönliche Assistenten über den Prozessor, um die Sprachanforderung zu erfüllen oder Implementieren des Sprachassistenten, um die Sprachanforderung oder eine Kombination derselben zu erfüllen. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Computersysteme, Vorrichtungen und Computerprogramme, die auf einer oder mehreren Computerspeichervorrichtungen aufgezeichnet sind, die jeweils zum Ausführen der Aktionen des Verfahrens ausgelegt sind.
Implementierungen können eines oder mehrere der folgenden Merkmale beinhalten. Das Verfahren beinhaltet ferner, nachdem die spezifische Absicht durch die eine oder die mehreren NLP-Methodologien über den Prozessor interpretiert wurde, das Erzeugen eines oder mehrerer Regelsätze für die spezifische Absicht, wobei der eine oder die mehreren Regelsätze konfiguriert sind, um den Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen. Das Verfahren beinhaltet ferner, nachdem die spezifische Absicht durch die eine oder die mehreren NLP-Methodologien über den Prozessor interpretiert wurde, das Anwenden einer oder mehrerer Maschinenlernmethodologien, um dem Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen. Verfahren, wobei: der Benutzer in einem Fahrzeug angeordnet ist; und der Prozessor im Fahrzeug angeordnet ist und den Sprachassistenten und die eine oder die mehreren NLP-Methodologien in dem Fahrzeug implementiert. Verfahren, wobei: der Benutzer in einem Fahrzeug angeordnet ist; und der Prozessor in einem entfernten Server angeordnet ist und den Sprachassistenten und die eine oder die mehreren NLP-Methodologien vom entfernten Server implementiert. Verfahren, wobei ein oder mehrere persönliche Assistenten aus der Gruppe sind, die Folgendes beinhaltet: einen manuellen persönlichen Assistenten des Eigentümers, einen persönlichen Assistenten der Fahrzeugdomäne, einen persönlichen Reiseassistenten, einen persönlichen Einkaufsassistenten und einen persönlichen Unterhaltungsassistenten. Verfahren, wobei der Zugriff auf einen oder mehrere persönliche Assistenten durch einen automatisierten persönlichen Assistenten, der Teil eines entfernten Computersystems ist, erfolgt. Implementierungen der beschriebenen Techniken können Hardware, ein Verfahren oder Prozess oder Computersoftware auf einem computerzugänglichen Medium beinhalten. Ein allgemeiner Aspekt beinhaltet ein System zum Erfüllen einer Sprachanforderung, wobei das System Folgendes beinhaltet: einen Sensor, der konfiguriert ist, um eine Sprachanforderung von einem Benutzer zu erhalten; einen Speicher, der konfiguriert ist, um eine Sprache einer bestimmten Absicht für die Sprachanforderung zu speichern; und einen Prozessor, der konfiguriert ist, um zumindest Folgendes zu erleichtern: Erhalten einer Sprachanforderung vom Benutzer; der Versuch, die spezifische Absicht für die Sprachanforderung über einen Sprachassistenten zu klassifizieren; das Bestimmen des Sprachassistenten kann die spezifische Absicht nicht klassifizieren; nach dem Bestimmen, dass der Sprachassistent die spezifische Absicht nicht klassifizieren kann, Interpretieren der spezifischen Absicht durch eine oder mehrere Natursprachenverarbeitungs-(NLP)-Methodiken; Implementieren des Sprachassistenten, um die Sprachanforderung zu erfüllen, oder Zugreifen auf einen oder mehrere persönliche Assistenten, um die Sprachanforderung oder eine Kombination derselben zu erfüllen, nachdem die eine oder die mehreren NLP-Methodologien die spezifische Absicht interpretiert hat. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Computersysteme, Vorrichtungen und Computerprogramme, die auf einer oder mehreren Computerspeichervorrichtungen aufgezeichnet sind, die jeweils zum Ausführen der Aktionen des Verfahrens ausgelegt sind.
Implementierungen können eines oder mehrere der folgenden Merkmale beinhalten. Das System beinhaltet ferner das Erzeugen eines oder mehrerer Regelsätze für die spezifische Absicht, wobei die einen oder mehreren Regelsätze konfiguriert sind, um den Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen. Das System beinhaltet ferner das Anwenden einer oder mehrerer Maschinenlernmethodologien, um den Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen. System, wobei: der Benutzer in einem Fahrzeug angeordnet ist; und der Prozessor im Fahrzeug angeordnet ist und den Sprachassistenten und die eine oder die mehreren NLP-Methodologien in dem Fahrzeug implementiert. System, wobei: der Benutzer in einem Fahrzeug angeordnet ist; und der Prozessor in einem entfernten Server angeordnet ist und den Sprachassistenten und die eine oder die mehreren NLP-Methodologien vom entfernten Server implementiert. System, wobei ein oder mehrere persönliche Assistenten aus der Gruppe sind, die Folgendes beinhaltet: einen manuellen persönlichen Assistenten des Eigentümers, einen persönlichen Assistenten der Fahrzeugdomäne, einen persönlichen Reiseassistenten, einen persönlichen Einkaufsassistenten und einen persönlichen Unterhaltungsassistenten. System, wobei der Zugriff auf einen oder mehrere persönliche Assistenten durch einen automatisierten persönlichen Assistenten, der Teil eines entfernten Computersystems ist, erfolgt. Implementierungen der beschriebenen Techniken können Hardware, ein Verfahren oder Prozess oder Computersoftware auf einem computerzugänglichen Medium beinhalten.
Figurenliste
Die vorliegende Offenbarung wird im Folgenden in Verbindung mit den nachstehenden Zeichnungsfiguren beschrieben, worin gleiche Bezugszeichen gleiche Elemente bezeichnen und worin:

1 ist ein Funktionsblockdiagramm eines Systems, das ein Fahrzeug, einen entfernten Server, verschiedene Sprachassistenten und ein Steuersystem zum Verwenden eines Sprachassistenten beinhaltet, um Informationen oder andere Dienste als Reaktion auf eine Anforderung von einem Benutzer gemäß exemplarischen Ausführungsformen bereitzustellen;
2 ist ein Blockdiagramm, das eine Ausführungsform eines automatischen Spracherkennungs-(ASR)-Systems darstellt, das fähig ist, das hierin offenbarte System und Verfahren zu verwenden; und
3 ist ein Flussdiagramm eines Prozesses zum Erfüllen einer Sprachanforderung von einem Benutzer gemäß exemplarischen Ausführungsformen.

AUSFÜHRLICHE BESCHREIBUNG
Die folgende ausführliche Beschreibung ist ihrer Art nach lediglich exemplarisch und soll die Offenbarung oder die Anwendung und Verwendungen derselben in keiner Weise einschränken. Darüber hinaus besteht keinerlei Verpflichtung zur Einschränkung auf eine der im vorstehenden Hintergrund oder in der folgenden ausführlichen Beschreibung dargestellten Theorien.
1 veranschaulicht ein System 100, das ein Fahrzeug 102, einen entfernten Server 104 und verschiedene entfernte persönliche Assistenten 174(A)-174(N) beinhaltet. In verschiedenen Ausführungsformen, wie in 1, wobei das Fahrzeug 102 einen oder mehrere Frontend-Primärsprachassistenten 170, die jeweils ein softwarebasierter Agent sind, der eine oder mehrere Aufgaben für einen Benutzer ausführen kann (häufig als „Chatbot“ bezeichnet), eine oder mehrere Frontend-Natursprachenverarbeitungs-(NLP)-Engines 173 und eine oder mehrere Frontend-Maschinenlern-Engines 176 beinhaltet, und der entfernte Server 104 einen oder mehrere Backend-Stimmassistenten 172 (ähnlich dem Frontend-Stimmassistenten 170), eine oder mehrere Backend-Linien NLP 175 und eine oder mehrere Backend-Maschinenlern-Engines 177 beinhaltet.
In bestimmten Ausführungsformen stellt der/die Sprachassistent(en) einem Benutzer Informationen bezüglich eines oder mehrerer Systeme des Fahrzeugs 102 bereit (z. B. bezüglich des Betriebs von Geschwindigkeitsregelsystemen, Beleuchtungen, Infotainmentsystemen, Klimasteuerungssystemen usw.). Ebenfalls in bestimmten Ausführungsformen stellt/stellen der/die entfernte(n) Sprachassistent(en) einem Benutzer Informationen bezüglich der Navigation bereit (z. B. bezüglich der Fahrt und/oder der Interessenspunkte für das Fahrzeug 102 während der Fahrt). Ebenso stellt/stellen der/die Sprachassistent(en) in bestimmten Ausführungsformen Informationen für einen Benutzer über die allgemeine persönliche Unterstützung zur Verfügung (z. B. über Sprachinteraktion, Erstellung von To-Do-Listen, Einstellung von Alarmen, Musikwiedergabe, Streaming von Podcasts, Wiedergabe von Hörbüchern, andere Echtzeitinformationen, wie beispielsweise Wetter, Verkehr und Nachrichten, und über eine oder mehrere herunterladbare Fähigkeiten). In bestimmten Ausführungsformen verwenden sowohl die Frontend- als auch die Backend-NLP-Engine(s) 173, 175 bekannte NLP-Techniken/Algorithmen (d. h. eine Heuristik des natürlichen Sprachverständnisses), um eine oder mehrere vernünftige Interpretationen zu erstellen, die der Sprache aus einer textuellen Eingabe entsprechen. In bestimmten Ausführungsformen verwenden sowohl die Frontend- als auch die Backend-Maschinenlern-Engines 176, 177 bekannte statistisch basierte Modellierungstechniken/Algorithmen, um Daten im Laufe der Zeit aufzubauen, um die Modelle und Routeninformationen basierend auf Datenerkenntnissen anzupassen (z. B. überwachtes Lernen, unbeaufsichtigtes Lernen, Verstärkungslernalgorithmen usw.).
Ebenso können in bestimmten Ausführungsformen sekundäre persönliche Assistenten 174 (d. h. andere softwarebasierte Agenten zum Ausführen einer oder mehrerer Aufgaben) mit einem oder mehreren speziellen Fähigkeiten konfiguriert werden, die einem Benutzer fokussierte Informationen über eine oder mehrere spezifische Absichten bereitstellen können, wie beispielsweise ein oder mehrere persönliche Assistenten 174(A), die vom Fahrzeughalter bereitgestellt werden (z. B. Bereitstellen von Informationen aus einer oder mehreren Datenbanken mit Anleitungsinformationen zu einem oder mehreren Fahrzeugen), beispielsweise durch FEATURE TEACHER™; einen oder mehrere Fahrzeug-Domänenassistenten 174(B) (z. B. Bereitstellen von Informationen aus einer oder mehreren Datenbanken mit Fahrzeugkomponenteninformationen, die sich auf ein oder mehrere Fahrzeuge beziehen), beispielsweise durch GINA VEHICLE BOT™; einen oder mehrere persönliche Reiseassistenten 174(C) (z. B. Bereitstellen von Informationen aus einer oder mehreren Datenbanken mit verschiedenen Arten von Reiseinformationen), z. B. GOOGLE ASSISTANT™, SNAPTRAVEL™, HIPMUNK™ oder KAYAK™; ein oder mehrere Einkaufsassistenten 174(D) (z. B. Bereitstellen von Informationen aus einer oder mehreren Datenbanken mit verschiedenen einkaufs-/einzelhandelsbezogenen Informationen), z. B. GOOGLE SHOPPING™, SHOPZILLA™, oder PRICEGRABBER™; und einen oder mehrere Unterhaltungsassistenten 174(E) (z. B. Bereitstellen von Informationen aus einer oder mehreren Datenbanken mit medienbezogenen Informationen) über z. B. GOATBOT™, FACTPEDIA™, DAT BOT™. Es ist zu beachten, dass die Anzahl und/oder Art der persönlichen Assistenten in verschiedenen Ausführungsformen variieren kann (z. B. Verwendung des Schriftzugs A ... N für die zusätzlichen persönlichen Assistenten 174 kann eine beliebige Anzahl von Sprachassistenten darstellen).
In verschiedenen Ausführungsformen ist jeder der persönlichen Assistenten 174(A)-174(N) in einem oder mehreren Computersystemen mit einem Prozessor und einem Speicher zugeordnet. Ebenfalls in verschiedenen Ausführungsformen kann jeder der persönlichen Assistenten 174(A)-174(N) in einen automatisierten Sprachassistenten, einen Nachrichtenassistenten und/oder einen menschlichen Sprachassistenten beinhalten. In verschiedenen Ausführungsformen führt ein zugehöriges Computersystem im Falle eines automatisierten Sprachassistenten die verschiedenen Bestimmungen durch und erfüllt die Anforderungen des Benutzers im Namen des automatisierten Sprachassistenten. Ebenfalls in verschiedenen Ausführungsformen, im Falle eines menschlichen Sprachassistenten (z. B. eines menschlichen Sprachassistenten 146 des entfernten Servers 104, wie in 1 dargestellt), stellt ein zugehöriges Computersystem Informationen bereit, die von einem Menschen verwendet werden können, um die verschiedenen Bestimmungen vorzunehmen und die Anforderungen des Benutzers im Namen des menschlichen Sprachassistenten zu erfüllen. Wie in 1 dargestellt, kommunizieren das Fahrzeug 102, der entfernte Server 104 und die verschiedenen persönlichen Assistenten 174(A)-174(N) i in verschiedenen Ausführungsformen über ein oder mehrere Kommunikationsnetze 106 (z. B. ein oder mehrere Mobilfunk-, Satelliten- und/oder andere drahtlose Netzwerke in verschiedenen Ausführungsformen). In verschiedenen Ausführungsformen beinhaltet das System 100 ein oder mehrere Sprachassistenzsteuerungssysteme 119 zum Verwenden eines Sprachassistenten, um Informationen oder andere Dienste als Reaktion auf eine Anforderung eines Benutzers bereitzustellen.
Das Fahrzeug 102 beinhaltet in verschiedenen Ausführungsformen eine Karosserie 101, einen Fahrgastraum (d. h. Kabine) 103, der innerhalb der Karosserie 101 angeordnet ist, ein oder mehrere Räder 105, ein Antriebssystem 108, eine Anzeige 110, ein oder mehrere andere Fahrzeugsysteme 111 und ein Fahrzeugsteuerungssystem 112. In verschiedenen Ausführungsformen beinhaltet oder ist das Fahrzeugsteuerungssystem 112 des Fahrzeugs 102 Teil des Sprachassistenzsteuerungssystems 119 zum Verwenden eines Sprachassistenten, um auf eine Anforderung eines Benutzers hin Informationen oder andere Dienste gemäß exemplarischen Ausführungsformen bereitzustellen. Das Sprachassistenzsteuerungssystem 119 und/oder Komponenten desselben können in verschiedenen Ausführungsformen auch Teil des entfernten Servers 104 sein.
In verschiedenen Ausführungsformen beinhaltet das Fahrzeug 102 ein Automobil. Das Fahrzeug 102 kann eines von einer Reihe von verschiedenen Typen von Automobilen sein, wie zum Beispiel eine Limousine, ein Kombi, ein Lastwagen oder eine Geländelimousine (SUV), und kann einen Zweiradantrieb (2WD) (d. h. Heckantrieb oder Frontantrieb), Vierradantrieb (4WD) oder Allradantrieb (AWD) und/oder verschiedene andere Fahrzeugtypen in bestimmten Ausführungsformen. In bestimmten Ausführungsformen kann das Sprachassistenzsteuerungssystem 119 in Verbindung mit einem oder mehreren verschiedenen Fahrzeugtypen und/oder in Verbindung mit einem oder mehreren verschiedenen Arten von Systemen und/oder Vorrichtungen, wie beispielsweise Computern, Tablets, Smartphones und dergleichen und/oder Software und/oder Anwendungen dafür, und/oder in einem oder mehreren Computersystemen von oder in Verbindung mit einem der Sprachassistenten 174(A)-174(N) implementiert werden.
In verschiedenen Ausführungsformen ist das Antriebssystem 108 auf einem Fahrgestell montiert (nicht in 1 abgebildet) und treibt die Räder 109 an. In verschiedenen Ausführungsformen beinhaltet das Antriebssystem 108 ein Antriebssystem. In bestimmten exemplarischen Ausführungsformen beinhaltet das Antriebssystem 108 einen Verbrennungsmotor und/oder einen Elektromotor/Generator, der mit einem Getriebe gekoppelt ist. In bestimmten Ausführungsformen kann das Antriebssystem 108 variieren und/oder es können zwei oder mehr Antriebssysteme 108 verwendet werden. Als ein Beispiel kann das Fahrzeug 102 weiterhin ein -oder eine Kombination von mehreren- aus einer Anzahl von unterschiedlichen Antriebssystemen umfassen, beispielsweise einen mit Benzin oder Diesel betriebenen Verbrennungsmotor, einen „Flexfuel“-Motor (FFV) (d. h. Verwendung von einer Mischung aus Benzin und Ethanol), einen mit einer gasförmigen Verbindung (z. B. Wasserstoff oder Erdgas) betriebenen Motor, einen Verbrennungs-/Elektro-Hybridmotor und einen Elektromotor.
In verschiedenen Ausführungsformen beinhaltet die Anzeige 110 einen Bildschirm, einen Lautsprecher und/oder eine oder mehrere zugehörige Vorrichtungen und/oder Systeme zum Bereitstellen von visuellen und/oder akustischen Informationen, wie Karten- und Navigationsinformationen, für einen Benutzer. In verschiedenen Ausführungsformen beinhaltet die Anzeige 110 einen Touchscreen. Ebenfalls in verschiedenen Ausführungsformen beinhaltet die Anzeige 110 ein Navigationssystem für das Fahrzeug 102 und/oder ist Teil desselben und/oder mit diesem gekoppelt. Ebenfalls in verschiedenen Ausführungsformen ist die Anzeige 110 an oder benachbart zu einem vorderen Armaturenbrett des Fahrzeugs 102 positioniert, zum Beispiel zwischen den Beifahrersitzen des Fahrzeugs 102. In bestimmten Ausführungsformen kann die Anzeige 110 Teil einer oder mehrerer anderer Vorrichtungen und/oder Systeme innerhalb des Fahrzeugs 102 sein. In bestimmten anderen Ausführungsformen kann die Anzeige 110 Teil einer oder mehrerer separater Vorrichtungen und/oder Systeme (z. B. getrennt oder verschieden von einem Fahrzeug) sein, beispielsweise eines Smartphones, eines Computers, eines Tablets und/oder einer anderen Vorrichtung und/oder eines anderen Systems und/oder für andere Navigations- und Kartenanwendungen. Ebenfalls in verschiedenen Ausführungsformen beinhalten das eine oder die mehreren anderen Fahrzeugsysteme 111 ein oder mehrere Systeme des Fahrzeugs 102, für die der Benutzer Informationen anfordern oder eine Dienstleistung anfordern kann (z. B. Geschwindigkeitsregelsysteme, Beleuchtung, Infotainmentsysteme, Klimasteuerungssysteme usw.).
Das Fahrzeugsteuerungssystem 112 beinhaltet in verschiedenen Ausführungsformen einen oder mehrere Sender-Empfänger 114, Sensoren 116 sowie eine Steuerung 118. Wie vorstehend erwähnt, beinhaltet oder ist das Fahrzeugsteuerungssystem 112 des Fahrzeugs 102 in verschiedenen Ausführungsformen das Sprachassistenzsteuerungssystem 119 zum Verwenden eines Sprachassistenten zum Bereitstellen von Informationen oder anderen Diensten als Reaktion auf eine Anforderung eines Benutzers gemäß exemplarischen Ausführungsformen. Darüber hinaus kann das Sprachassistenzsteuersystem 119 (und/oder Komponenten desselben) in bestimmten Ausführungsformen Teil des Fahrzeugs 102 sein, während in bestimmten anderen Ausführungsformen das Sprachassistenzsteuersystem 119 Teil des entfernten Servers 104 sein kann und/oder Teil eines oder mehrerer anderer separater Vorrichtungen und/oder Systeme (z. B. getrennt oder verschieden von einem Fahrzeug und dem entfernten Server), beispielsweise eines Smartphones, Computers und so weiter, und/oder einer der persönlichen Assistenten 174(A)-174(N) und so weiter.
In verschiedenen Ausführungsformen werden der eine oder die mehreren Sender-Empfänger 114 zum Kommunizieren mit dem entfernten Server 104 und den persönlichen Assistenten 174(A)-174(N) verwendet. In verschiedenen Ausführungsformen kommunizieren die einen oder mehreren Sender-Empfänger 114 mit einem oder mehreren jeweiligen Sender-Empfängern 144 des entfernten Servers 104 und/oder jeweiligen Sender-Empfängern (nicht dargestellt) der zusätzlichen persönlichen Assistenten 174 über ein oder mehrere Kommunikationsnetze 106.
Wie auch in 1 abgebildet, beinhalten die Sensoren 116 ein oder mehrere Mikrofone 120, andere Eingangssensoren 122, Kameras 123 und einen oder mehrere zusätzliche Sensoren 124. In verschiedenen Ausführungsformen empfängt das Mikrofon 120 Eingaben des Benutzers, einschließlich einer Anforderung des Benutzers (z. B. eine Anforderung des Benutzers zum Bereitstellen von Informationen und/oder um eine oder mehrere andere Dienstleistungen zu erbringen). Ebenfalls in verschiedenen Ausführungsformen empfangen die anderen Eingangssensoren 122 andere Eingaben des Benutzers, beispielsweise über einen Touchscreen oder eine Tastatur der Anzeige 110 (z. B. hinsichtlich zusätzlicher Einzelheiten zur Anforderung in bestimmten Ausführungsformen). In bestimmten Ausführungsformen werden eine oder mehrere Kameras 123 verwendet, um Daten und/oder Informationen über Interessenspunkte und/oder andere Arten von Informationen und/oder Dienstleistungen, die für den Benutzer von Interesse sind, zu erhalten, beispielsweise durch Scannen von QR-Codes, um Namen und/oder andere Informationen über Interessenspunkte und/oder Informationen und/oder Dienstleistungen zu erhalten, die vom Benutzer angefordert werden (z. B. durch Scannen von Coupons für bevorzugte Restaurants, Geschäfte und dergleichen und/oder Scannen anderer Materialien in oder um das Fahrzeug 102 herum, und/oder durch intelligentes Verwenden der Kameras 123 in einem Dialog für Sprache und multimodale Interaktion), und so weiter.
Darüber hinaus erhalten die zusätzlichen Sensoren 124 in verschiedenen Ausführungsformen Daten bezüglich des Antriebssystems 108 (z. B. zum Betrieb desselben) und/oder eines oder mehrerer anderer Fahrzeugsysteme 111, für die der Benutzer Informationen anfordern oder eine Dienstleistung anfordern kann (z. B. Geschwindigkeitsregelungssysteme, Beleuchtungen, Infotainmentsysteme, Klimasteuerungssysteme usw.).
In verschiedenen Ausführungsformen ist die Steuerung 118 mit den Sende-Empfängern 114 und den Sensoren 116 gekoppelt. In bestimmten Ausführungsformen ist die Steuerung 118 auch mit der Anzeige 110 und/oder dem Antriebssystem 108 und/oder anderen Fahrzeugsystemen 111 gekoppelt. Ebenfalls in verschiedenen Ausführungsformen steuert die Steuerung 118 den Betrieb der Sende-Empfänger und Sensoren 116 und in bestimmten Ausführungsformen auch ganz oder teilweise das Antriebssystem 108, die Anzeige 110 und/oder die anderen Fahrzeugsysteme 111.
In verschiedenen Ausführungsformen empfängt die Steuerung 118 Eingaben von einem Benutzer, einschließlich einer Anforderung des Benutzers zu Informationen (d. h. Sprachanforderung) und/oder zum Bereitstellen eines oder mehrerer anderer Dienste. Auch in verschiedenen Ausführungsformen kommuniziert die Steuerung 118 über den entfernten Server 104 mit dem Frontend-Sprachassistenten 170 oder dem Backend-Sprachassistenten 172. Auch in verschiedenen Ausführungsformen identifiziert und klassifiziert der Sprachassistent 170/172 die spezifische Absicht hinter der Benutzeranforderung und erfüllt anschließend die Benutzeranforderung über eine oder mehrere eingebettete Fähigkeiten oder bestimmt in bestimmten Fällen, welcher der persönlichen Assistenten 174(A)-174(N) zur Unterstützung Zugang erhält oder die Benutzeranforderung aufgrund der spezifischen Absicht selbstständig erfüllen muss.
Auch in verschiedenen Ausführungsformen, wenn der Sprachassistent 170/172 die spezifische Absicht hinter der Sprache einer Benutzeranforderung nicht ohne weiteres klassifizieren kann und somit die Benutzeranforderung erfüllen kann (d. h. die Benutzeranforderung empfängt eine Rückfallabsichtklassifizierung), implementiert der Sprachassistent 170/172 Aspekte seines nachstehend erläuterten Systems der automatischen Spracherkennung (ASR), um die Sprache der Sprachanforderung in Text umzuwandeln und die transkribierte Sprache zur zusätzlichen Unterstützung an die NLP-Engine 173/175 weiterzugeben. Auch in verschiedenen Ausführungsformen implementiert die NLP-Engine 173/175 natürliche Sprachtechniken, um eine oder mehrere vernünftige Interpretationen für die transkribierte Sprechsprache zu erstellen, die spezifische Absicht basierend auf mindestens einer dieser vernünftigen Interpretationen zu klassifizieren und, wenn die spezifische Absicht klassifiziert werden kann, den Sprachassistenten 170/172 und/oder einen geeigneten persönlichen Assistenten 174(A)-174(N) zu erreichen, um die Anforderung zu bearbeiten und zu erfüllen. Auch in verschiedenen Ausführungsformen können Regelsätze erzeugt und/oder die Maschinenlern-Engine 176/177 implementiert werden, um den Sprachassistenten 170/172 beim Klassifizieren der spezifischen Absicht für spätere Benutzeranforderungen ähnlicher Art zu unterstützen. Ebenfalls in verschiedenen Ausführungsformen führt die Steuerung 118 diese Aufgaben automatisiert nach den im Folgenden in Verbindung mit 3 beschriebenen Schritten des Prozesses 300 aus. In bestimmten Ausführungsformen können einige oder alle diese Aufgaben ganz oder teilweise auch von einer oder mehreren anderen Steuerungen ausgeführt werden, wie beispielsweise der Steuerung des entfernten Servers 148 (siehe nachstehend) und/oder einer oder mehreren Steuerungen (nicht dargestellt) der zusätzlichen persönlichen Assistenten 174 anstelle der oder zusätzlich zur Fahrzeugsteuerung 118.
Die Steuerung 118 beinhaltet ein Computersystem. In bestimmten Ausführungsformen kann die Steuerung 118 zudem einen oder mehrere Sender-Empfänger 114, Sensoren 116 sowie andere Fahrzeugsysteme und/oder Vorrichtungen, und/oder Komponenten derselben, beinhalten. Darüber hinaus ist zu erkennen, dass sich die Steuerung 118 ansonsten von der Ausführungsform, die in 1 dargestellt ist, unterscheiden kann. So kann beispielsweise die Steuerung 118 mit einem oder mehreren entfernten Computersystemen und/oder anderen Steuerungssystemen gekoppelt sein oder diese anderweitig verwenden, beispielsweise als Teil eines oder mehrerer der vorstehend genannten Vorrichtungen und Systeme des Fahrzeugs 102 und/oder des entfernten Servers 104 und/oder einer oder mehrerer Komponenten derselben und/oder einer oder mehrerer Vorrichtungen und/oder Systeme von oder in Verbindung mit den zusätzlichen persönlichen Assistenten 174.
In der abgebildeten Ausführungsform beinhaltet das Computersystem der Steuerung 118 einen Prozessor 126, einen Speicher 128, eine Schnittstelle 130, eine Speichervorrichtung 132 und einen Bus 134. Der Prozessor 126 führt die Rechen- und Steuerfunktionen der Steuerung 118 aus und kann jede Art von Prozessor oder mehrere Prozessoren, einzelne integrierte Schaltkreise wie beispielsweise einen Mikroprozessor oder jegliche geeignete Anzahl integrierter Schaltkreisvorrichtungen und/oder Leiterplatten umfassen, die zusammenwirken, um die Funktionen einer Verarbeitungseinheit auszuführen. Während des Betriebs führt der Prozessor 126 ein oder mehrere Programme 136 aus, die im Speicher 128 enthalten sind, und steuert als solches den allgemeinen Betrieb der Steuerung 118 und das Computersystem der Steuerung 118 generell durch Ausführen des hierin beschriebenen Prozesses, wie die Prozesse 300, die nachstehend beschrieben werden in Verbindung mit 3.
Der Speicher 128 kann eine beliebige Art eines geeigneten Speichers sein. So kann beispielsweise der Speicher 128 verschiedene Arten von dynamischem Direktzugriffsspeicher (DRAM), wie beispielsweise SDRAM, die verschiedenen Arten statischer RAM (SRAM) und die verschiedenen Arten von nichtflüchtigem Speicher (PROM, EPROM und Flash) beinhalten. In bestimmten exemplarischen Ausführungsformen befindet sich der Speicher 128 auf dem gleichen Computerchip wie der Prozessor 126 und/oder ist gemeinsam mit demselben angeordnet. In der dargestellten Ausführungsform speichert der Speicher 128 das vorstehend erwähnte Programm 136 zusammen mit einem oder mehreren gespeicherten Werten 138 (z. B. in verschiedenen Ausführungsformen eine Datenbank mit spezifischen Fähigkeiten, die mit jedem der verschiedenen persönlichen Assistenten 174(A)-174(N) verbunden sind).
Der Bus 134 dient zur Übertragung von Programmen, Daten, Status und anderen Informationen oder Signalen zwischen den verschiedenen Komponenten des Computersystems der Steuerung 118. Die Schnittstelle 130 ermöglicht die Kommunikation mit dem Computersystem der Steuerung 118, beispielsweise von einem Systemtreiber und/oder einem anderen Computersystem, und kann unter Verwendung eines geeigneten Verfahrens und einer geeigneten Vorrichtung umgesetzt werden. In einer Ausführungsform erhält die Schnittstelle 130 die verschiedenen Daten vom Sender-Empfänger 114, den Sensoren 116, dem Antriebssystem 108, der Anzeige 110 und/oder anderen Fahrzeugsystemen 111, und der Prozessor 126 steuert die Verarbeitung der Benutzeranforderungen basierend auf den Daten. In verschiedenen Ausführungsformen kann die Schnittstelle 130 eine oder mehrere Netzwerkschnittstellen zum Kommunizieren mit anderen Systemen oder Komponenten beinhalten. Die Schnittstelle 130 kann zudem eine oder mehrere Netzwerkschnittstelle(n) für die Kommunikation mit Technikern und/oder eine oder mehrere Speicherschnittstellen für die Verbindung mit Speichervorrichtungen (wie beispielsweise die Speichervorrichtung 132) beinhalten.
Die Speichervorrichtung 132 kann jede geeignete Art von Speichervorrichtung sein, die Direktzugriffsspeichervorrichtungen, wie beispielsweise Festplattenlaufwerke, Flash-Systeme, Diskettenlaufwerke und optische Laufwerke, beinhaltet. In einer exemplarischen Ausführungsform beinhaltet die Speichervorrichtung 132 ein Programmprodukt, von dem der Speicher 128 ein Programm 136 empfangen kann, das eine oder mehrere Ausführungsformen von einem oder mehreren Prozessen der vorliegenden Offenbarung ausführt, wie die Schritte des Prozesses 300 (und aller Teilprozesse desselben), im Folgenden beschrieben in Verbindung mit 3. In einer weiteren exemplarischen Ausführungsform kann das Programmprodukt direkt im und/oder auf andere Weise durch den Speicher 128 und/oder eine Diskette (z. B. die Diskette 140) gespeichert und/oder darauf zugegriffen werden, wie nachstehend beschrieben. Der Bus 134 kann aus allen zur Verbindung von Computersystemen und Komponenten geeigneten physischen oder logischen Mitteln bestehen. Dies beinhaltet ohne Einschränkung auch direkt verdrahtete Verbindungen, Faseroptik, sowie Infrarot- und Drahtlosbustechnologien. Während des Betriebs wird das Programm 136 im Speicher 128 gespeichert und durch den Prozessor 126 ausgeführt.
Obwohl diese exemplarische Ausführungsform im Kontext eines voll funktionierenden Computersystems beschrieben wird, versteht es sich, dass Fachleute auf diesem Gebiet erkennen werden, dass die Mechanismen der vorliegenden Offenbarung als ein Programmprodukt mit einer oder mehreren Arten von nicht flüchtigen computerlesbaren Signalträgermedien verbreitet werden können, die dazu dienen, das Programm und die zugehörigen Befehle zu speichern und deren Verbreitung auszuführen, beispielsweise ein nichtflüchtiges computerlesbares Medium, welches das Programm und Computerbefehle enthält, die darin gespeichert sind, um einen Computerprozessor (wie den Prozessor 126) zu veranlassen, das Programm auszuführen. Ein derartiges Programmprodukt kann vielerlei Formen annehmen, wobei die vorliegende Offenbarung in gleicher Weise, unabhängig von der spezifischen für die Verbreitung verwendeten Art von computerlesbarem Signalträgermedium, Anwendung findet. Zu den Beispielen für Signalträgermedien gehören: beschreibbare Medien, wie beispielsweise Disketten, Festplatten, Speicherkarten und optische Speicherplatten, sowie Übertragungsmedien, wie beispielsweise digitale und analoge Kommunikationsverbindungen. Es versteht sich, dass cloudbasierte Speicherung und/oder andere Techniken in bestimmten Ausführungsformen auch zur Anwendung kommen können. Ebenso versteht es sich, dass sich das Computersystem der Steuerung 118 auch anderweitig von der in 1 dargestellten Ausführungsform unterscheiden kann, beispielsweise darin, dass das Computersystem der Steuerung 118 mit einem oder mehreren Ferncomputersystemen und/oder anderen Steuerungssystemen verbunden sein oder diese anderweitig nutzen kann.
Wie ebenfalls in 1 verdeutlicht, beinhaltet der entfernte Server 104 in verschiedenen Ausführungsformen einen Sender-Empfänger 144, einen oder mehrere menschliche Sprachassistenten 146 und eine Fernserver-Steuerung 148. In verschiedenen Ausführungsformen kommuniziert der Sender-Empfänger 144 über den Sender-Empfänger 114 desselben unter Verwendung eines oder mehrerer Kommunikationsnetze 106 mit der Fahrzeugsteuerung 112.
Darüber hinaus beinhaltet der entfernte Server 104, wie in 1 dargestellt, in verschiedenen Ausführungsformen einen Sprachassistenten 172, wie vorstehend ausführlich erläutert, der einem oder mehreren Computersystemen des entfernten Servers 104 (z. B. der Steuerung 148) zugeordnet ist. In bestimmten Ausführungsformen beinhaltet der entfernte Server 104 einen automatisierten Sprachassistenten 172, der über die Steuerung 148 automatisierte Informationen und Dienste für den Benutzer bereitstellt. In bestimmten anderen Ausführungsformen beinhaltet der entfernte Server 104 einen menschlichen Sprachassistenten 146, der Informationen und Dienste für den Benutzer über einen Menschen bereitstellt, die auch durch Informationen und/oder Bestimmungen der Steuerung 148 erleichtert werden können, die mit dem menschlichen Sprachassistenten 146 gekoppelt ist und/oder von diesem verwendet werden.
Ebenfalls in verschiedenen Ausführungsformen trägt die Fernserver-Steuerung 148 dazu bei, die Verarbeitung der Anforderung und das Engagement und die Beteiligung des menschlichen Sprachassistenten 146 zu erleichtern, und/oder kann als automatisierter Sprachassistent dienen. Wie in dieser Anmeldung verwendet, bezieht sich der Begriff „Sprachassistent“ auf eine Vielzahl verschiedener Arten von Sprachassistenten, Sprachagenten, virtuellen Sprachassistenten und dergleichen, die dem Benutzer auf Anfrage Informationen zur Verfügung stellen. So kann beispielsweise die Fernserver-Steuerung 148 in verschiedenen Ausführungsformen ganz oder teilweise das Sprachassistenzsteuerungssystem 119 umfassen (z. B. entweder allein oder in Kombination mit dem Fahrzeugsteuerungssystem 112 und/oder ähnlichen Systemen des Smartphones, Computers oder anderer elektronischer Vorrichtungen eines Benutzers, in bestimmten Ausführungsformen). In bestimmten Ausführungsformen kann die Fernserver-Steuerung 148 einige oder alle der nachfolgend beschriebenen Verarbeitungsschritte in Verbindung mit der Steuerung 118 des Fahrzeugs 102 (entweder allein oder in Kombination mit der Steuerung 118 des Fahrzeugs 102) und/oder wie im Zusammenhang mit dem Prozess 300 von 3 beschrieben durchführen.
Darüber hinaus beinhaltet die Fernserver-Steuerung 148 in verschiedenen Ausführungsformen einen Prozessor 150, einen Speicher 152 mit einem oder mehreren Programmen 160 und darin gespeicherten Werten 162, eine Schnittstelle 154, eine Speichervorrichtung 156, einen Bus 158 und/oder eine Festplatte 164 (und/oder eine andere Speichervorrichtung), ähnlich der Steuerung 118 des Fahrzeugs 102. Auch in verschiedenen Ausführungsformen sind der Prozessor 150, der Speicher 152, die Programme 160, die gespeicherten Werte 162, die Schnittstelle 154, die Speichervorrichtung 156, der Bus 158, die Festplatte 164 und/oder andere Speichervorrichtungen der Fernserver-Steuerung 148 in Aufbau und Funktion dem jeweiligen Prozessor 126, dem Speicher 128, den Programmen 136, den gespeicherten Werten 138, der Schnittstelle 130, der Speichervorrichtung 132, dem Bus 134, der Festplatte 140 und/oder anderen Speichervorrichtungen der Steuerung 118 des Fahrzeugs 102 ähnlich, wie beispielsweise vorstehend erläutert.
Wie vorstehend erwähnt, können die verschiedenen persönlichen Assistenten 174(A)-174(N) in verschiedenen Ausführungsformen Informationen für bestimmte Zwecke bereitstellen, wie beispielsweise einen oder mehrere Assistenten des Fahrzeughalters 174(A); Fahrzeug-Domänenassistenten 174(B); Reiseassistenten 174(C); Einkaufsassistenten 174(D); Unterhaltungsassistenten 174(E); und/oder eine beliebige Anzahl anderer persönlicher Assistenten 174(N) mit besonderer Absicht (z. B. in Bezug auf eine beliebige Anzahl anderer Benutzerbedürfnisse und -wünsche).
Es ist auch zu beachten, dass in verschiedenen Ausführungsformen jeder der zusätzlichen persönlichen Assistenten 174 verschiedene jeweilige Vorrichtungen und Systeme, die denen ähnlich sind, die in Verbindung mit dem Fahrzeug 102 und dem entfernten Server 104 beschrieben sind, beinhalten, mit diesen gekoppelt und/oder verbunden sein und/oder diese verwenden kann, beispielsweise einschließlich entsprechender Sender-Empfänger, Steuerungen/Computersysteme, Prozessoren, Speicher, Busse, Schnittstellen, Speichervorrichtungen, Programme, gespeicherte Werte, menschliche Sprachassistenten usw., mit ähnlicher Struktur und/oder Funktion wie sie im Fahrzeug 102 und/oder dem entfernten Server 104 in verschiedenen Ausführungsformen dargestellt sind. Darüber hinaus ist zu beachten, dass derartige Vorrichtungen und/oder Systeme in bestimmten Ausführungsformen ganz oder teilweise das Steuerungssystem 119 des persönlichen Assistenten (z. B. entweder allein oder in Kombination mit dem Fahrzeugsteuerungssystem 112, der Fernserver-Steuerung 148 und/oder ähnlichen Systemen des Smartphones, Computers oder einer anderen elektronischen Vorrichtung eines Benutzers in bestimmten Ausführungsformen) umfassen und/oder einige oder alle der in Verbindung mit der Steuerung 118 des Fahrzeugs 102, der Fernserver-Steuerung 148 und/oder in Verbindung mit dem Prozess 300 von 3 beschriebenen Verarbeitungsschritte durchführen können.
Unter nunmehriger Bezugnahme auf 2 wird eine exemplarische Architektur für ein automatisches Spracherkennungs-(ASR)-System 210 gezeigt, das für die Umsetzung des hierin offenbarten Verfahrens verwendet werden kann. Das ASR-System 210 kann in alle gängigen Client-Geräte integriert werden, wie die vorstehend erläuterten, einschließlich Frontend-Sprachassistent 170 und Backend-Sprachassistent 172. Ein ASR-System, das dem ASR-System 210 ähnlich oder gleich ist, kann in einen oder mehrere entfernte Sprachverarbeitungsserver integriert werden, einschließlich einem oder mehrerer Server, die sich in einem oder mehreren Computersystemen befinden, die jedem der persönlichen Assistenten 174(A)-174(N) zugeordnet sind. Generell interagiert ein Fahrzeuginsasse über seine Stimme mit einem ASR-System aus einem oder mehreren der folgenden Gründe: Trainieren des Systems auf die spezifische Stimme der Person im Fahrzeug; Speichern von Wort-für-Wort-Begriffen wie ein gesprochener Kontakt oder ein gesprochenes Kontrollwort wie eine Bezugszahl oder ein Schlüsselwort; oder Erkennung der Sprache der Person im Fahrzeug für alle geeigneten Zweck wie Sprachanwahl, Menü-Navigation, Transkription, Dienstabrufe, Steuerung von Geräten und deren Funktion im Fahrzeug oder dergleichen. Generell zieht ASR akustische Daten aus der menschlichen Sprache, vergleicht und kontrastiert die akustischen Daten mit gespeicherten Daten von Teilwörtern, trifft eine Auswahl eines geeigneten Teilwortes das mit anderen gewählten Teilwörtern verkettet werden kann und gibt die verketteten Teil-Wörter zur Nachbearbeitung weiter, beispielsweise Diktat oder Transkription, Anwahl aus dem Adressbuch, Speichern, Training der ASR-Modelle oder Anpassung der Parameter usw.
ASR-Systeme sind Fachleuten im Allgemeinen bekannt und 2 veranschaulicht nur ein bestimmtes exemplarisches ASR-System 210. Das System 210 beinhaltet eine Vorrichtung zur Sprachaufnahme, wie das Fahrzeugmikrofon 120 und eine akustische Schnittstelle 33, wie eine Soundkarte mit einem Analog-Digital-Wandler zur Digitalisierung der Sprache in akustische Daten. Das System 210 beinhaltet auch einen Speicher, wie beispielsweise den Speicher 128 zum Speichern der akustischen Daten und zum Speichern von Spracherkennungssoftware und Datenbanken, und einen Prozessor, wie beispielsweise den Prozessor 126 zum Verarbeiten der akustischen Daten. Der Prozessor arbeitet mit dem Speicher und in Verbindung mit den folgenden Modulen: ein oder mehrere Front-End-Prozessor(en), Präprozessoren oder Präprozessor-Softwaremodule 212 zur Zerlegung akustischer Daten der Sprache in parametrische Darstellungen, wie z. B. akustische Eigenschaften; ein oder mehrere Decoder oder Decoder-Softwaremodul(e) 214 zur Decodierung der akustischen Eigenschaften in digitale Ausgabedaten in Form von (Teil-)Wörtern entsprechend der Eingabe-Sprachäußerungen; und ein oder mehrere Back-End-Prozessoren, Präprozessoren oder Postprozessor-Softwaremodule 216 zur Verwendung der Ausgabedaten aus dem/den Decoder-Modul(en) 214 für alle geeigneten Zwecke.
Das System 210 kann auch Sprachaufnahmen aus anderen geeigneten Audioquellen 31 empfangen, entweder in direkter Kommunikation mit dem/den Modulen der Präprozessor-Software 212, wie anhand der durchgezogenen Linie zu sehen, oder indirekt über die akustische Schnittstelle 33. Zu den Audioquellen 31 können zum Beispiel eine telefonische Quelle, wie ein Voicemail-System oder andere, beliebige telefongestützte Dienste gehören.
Ein oder mehrere Module oder Modelle kann/können als Eingabe für das/die Decoder-Module 214 verwendet werden. Zunächst können Grammatik- und/oder Lexikonmodelle 218 Regeln liefern, die festlegen, welche Wörter logischerweise auf andere Wörter folgen können, um gültige Sätze zu bilden. Grob gesagt kann kein Lexikon oder eine Grammatik ein Vokabeluniversum definieren, welches das System 210 zu jeder gegebenen Zeit bei jedem ASR-Modus erwartet. Befindet sich das System 210 beispielsweise im Trainingsmodus, um Befehle zu erlernen, dann kann/können das/die Lexikon- oder Grammatikmodelle 218 Befehle einschließen, die dem System 210 bekannt sind und von diesem genutzt werden. Befindet sich das System 210 bei einem anderen Beispiel im Hauptmenü-Modus, dann kann/können das/die aktiven Lexikon- oder Grammatikmodelle 218 alle Hauptmenübefehle einschließen, die das System 210 erwartet, beispielsweise Anruf, Wählen, Verlassen, Löschen, Verzeichnis oder ähnliches. Weiterhin wird durch das/die akustischen Modelle 220 eine Unterstützung bei der Auswahl des wahrscheinlichsten Teil-Wortes entsprechend der Eingabe des Präprozessor-Moduls 212 geleistet. Drittens können Wortmodelle 222 und Satz-/Sprachmodelle 224 Regeln, Syntax, und/oder Semantik bei der Einordnung der ausgewählten Teil-Wörter oder Wörter in den Kontext der Wörter oder Sätze liefern. Weiterhin kann/können Satz- und Sprachmodelle 224 ein Universum von Sätzen schaffen, die das System 210 zu jeder gegebenen Zeit bei jedem ASR-Modus erwartet und/oder Regeln bereitstellen, die festlegen, welche Sätze logischerweise auf andere Sätze folgen können, um eine erweiterte, gültige Sprachausgabe zu bilden.
Gemäß einer alternativen exemplarischen Ausführungsform kann ein Teil oder das gesamte ASR-System 210 auf einer Computereinrichtung an einer vom Fahrzeug 102 entfernten Stelle, wie beispielsweise dem entfernten Server 104, untergebracht sein und dort verarbeitet werden. So können beispielsweise Grammatikmodelle, akustische Modelle und dergleichen im Speicher 152 einer der Fernserver-Steuerungen 148 und/oder der Speichervorrichtung 156 im entfernten Server 104 gespeichert und an die Fahrzeugtelematikeinheit 30 zur Sprachverarbeitung im Fahrzeug übermittelt werden. Ebenso kann die Spracherkennungssoftware unter Verwendung von Prozessoren eines der Server 82 im Call-Center 20 ablaufen. Mit anderen Worten, das ASR-System 210 kann im Fahrzeug 102 untergebracht oder über den entfernten Server 104 verteilt sein und/oder in einem oder mehreren Computersystemen eines der persönlichen Assistenten 174(A)-174(N) untergebracht oder mit diesen verbunden sein.
Zunächst werden akustische Daten aus der menschlichen Sprache extrahiert, die ein Fahrzeuginsasse über das Mikrofon 120 eingegeben hat, welches die Laute in elektrische Signale umwandelt und an die akustische Schnittstelle 33 übergibt. Ein klangempfindliches Element im Mikrofon 120 erfasst die Äußerungen des Insassen als Variationen im Luftdruck und wandelt die Äußerungen in entsprechende Variationen eines analogen, elektrischen Signals um, wie zum Beispiel Gleichstrom oder Spannung. Die akustische Schnittstelle 33 empfängt die analogen elektrischen Signale, die zunächst abgetastet werden, sodass die Werte des analogen Signals an bestimmten Punkten der Zeit erfasst werden, danach erfolgt eine Quantisierung in der Art, dass die Amplituden der analogen Signale an jedem Abtastzeitpunkt in einen kontinuierlichen Strom digitaler Sprachsignale konvertiert werden. Mit anderen Worten, die akustische Schnittstelle 33 wandelt die analogen, elektrischen Signale in digitale, elektronische Signale um. Die digitalen Daten sind binäre Bits, die im Telematikspeicher 54 abgelegt und dann vom Telematikprozessor 52 verarbeitet werden, oder sie werden vom Prozessor 52 in Echtzeit empfangen und sofort verarbeitet.
Dann wird der kontinuierliche Strom von digitalen Sprachsignalen durch das/die Präprozessor-Module 212 in diskrete Sequenzen akustischer Parameter umgewandelt. Genauer gesagt, durchläuft der Prozessor 126 das/die Präprozessor-Module 212, um die digitalen Sprachsignale in sich überlappende phonetische oder akustische Rahmen von beispielsweise 10-30 ms Dauer zu segmentieren. Die Rahmen entsprechen akustischen Teilwörtern, wie Silben, Halbsilben, Phonen, Diphonen, Phonemen usw. Das/die Präprozessor-Module 212 führt/führen für jeden Rahmen auch eine phonetische Analyse zur Extraktion akustischer Parameter aus der Sprachausgabe des Insassen durch, wie beispielsweise zeitvariable Merkmalsvektoren. Äußerungen in der Sprache des Insassen können als Sequenzen dieser Merkmalsvektoren dargestellt werden. Wie unter Fachleuten wohl bekannt ist, können Merkmalsvektoren extrahiert werden und beispielsweise beinhalten: Stimmlage, Energieprofil, spektrale Merkmale und/oder Cepstral-Koeffizienten durch Fouriertransformationen der Rahmen und Dekorrelieren der akustischen Spektren mittels einer Cosinus-Transformation. Akustische Rahmen und entsprechende Parameter die eine bestimmte Sprechdauer abdecken, werden für die Dekodierung zu unbekannten Testmustern verkettet.
Als dritten Schritt lässt der Prozessor das/die Decoder-Module 214 ablaufen, um die eingehenden Merkmalsvektoren jedes Testmusters zu verarbeiten. Das/die Decoder-Module 214 sind auch als Erkennungs-Engine oder Klassifikator bekannt und verwenden gespeicherte Sprachreferenzmuster. Wie die Prüfmuster sind auch die Referenzmuster als eine Verkettung verwandter akustischer Rahmen und entsprechender Parameter definiert. Das Decoder-Modul 214 vergleicht und kontrastiert die akustischen Merkmalsvektoren eines Testmusters für Teilwörter zum Abgleich mit gespeicherten Referenzmustern für Teilwörter, untersucht den Grad der Differenz oder Ähnlichkeit dazwischen, und wendet schließlich Entscheidungslogik zur Auswahl des am ehesten übereinstimmenden Teilwortes als das erkannte Teilwort an. Generell ist das am ehesten übereinstimmende Teilwort das, welches dem gespeicherten Referenzmuster mit der geringsten Abweichung gleicht, oder mit der höchsten Wahrscheinlichkeit übereinstimmt, das Testmuster wird durch eine der verschiedenen unter Fachleuten bekannten Techniken zur Analyse und Erkennung von Teilwörtern ermittelt. Derartige Techniken können beinhalten: dynamische Time-Warping-Klassifikatoren, KI-Techniken, Neuronale Netze, freie Phonemerkenner, und/oder probabilistische Musteranpassungseinrichtungen, wie ein Engine nach dem Hidden Markov Model (HMM). Das HMM ist unter Fachleuten für die Erstellung vieler Modellhypothesen für Spracherkennung einer akustischen Eingabe bekannt. Die Hypothesen werden bei der abschließenden Identifikation und Auswahl der Ausgabe berücksichtigt, die aufgrund der Merkmalsanalyse der Sprache die wahrscheinlichste korrekte Dekodierung der akustischen Eingabe darstellt. Genauer gesagt erzeugt ein HMM-Engine statistische Modelle in Form einer „N-best“-Liste der Hypothesen für Teilwort-Modelle, die abgestuft anhand von HMMberechneten Vertrauenswerten oder Wahrscheinlichkeiten einer beobachteten Sequenz von akustischen Daten das eine oder andere Teilwort durch eine Anwendung, wie das Bayes'-Theorem, ermitteln.
Ein Bayesisches HMM-Verfahren identifiziert eine beste Hypothese entsprechend der wahrscheinlichsten Äußerung, oder Teilwort-Sequenz für eine gegebene Beobachtungsreihe von akustischen Merkmalsvektoren, deren Vertrauenswerte von einer Vielzahl von Faktoren abhängen, so auch dem Rauschabstand des eingehenden Akustiksignals. Das HMM kann auch eine statistische Verteilung enthalten, die als Mischung diagonaler Gauss'scher Werte bekannt ist und einen Wahrscheinlichkeitswert für jeden festgestellten Merkmalsvektor jedes Teilwortes enthält, die Werte können zur Neuordnung der N-best-Liste von Hypothesen verwendet werden. Der HMM-Engine kann auch zur Identifikation und Auswahl eines Teilwortes verwendet werden, dessen Wert im Wahrscheinlichkeitsmodell am höchsten ist. Ähnlich können einzelne HMM für eine Abfolge von Teilwörtern verkettet werden kann, um HMM für einzelne oder mehrere Wörter zu bilden. Danach kann eine N-best Liste von Wortreferenzmustern und zugeordneten Parameterwerten für einzelne oder mehrere Wörter erzeugt und weiter ausgewertet werden.
In einem Beispiel verarbeitet der Spracherkennungs-Decoder 214 die Merkmalsvektoren unter Verwendung der geeigneten akustischen Modelle, Grammatik und Algorithmen zur Erzeugung einer N-best Liste von Referenzmustern. In seiner Verwendung hierin ist der Begriff Referenzmuster austauschbar mit Modellen, Wellenformen, Vorlagen, Durchsatz-Modellen, Exemplaren, Hypothesen oder anderen Arten von Referenzen. Ein Referenzmuster kann eine Reihe von Merkmalsvektoren repräsentativ für ein Wort (oder mehrere Wörter) oder Teilwörter beinhalten und auf bestimmten Sprechern, Sprechstilen und akustischen Umgebungsbedingungen basieren. Fachleute werden erkennen, dass Referenzmuster durch entsprechendes Referenzmuster-Training des ASR-Systems erstellt und im Speicher abgelegt werden können. Fachleute werden weiterhin erkennen, dass auch gespeicherte Muster verändert werden können, worin die Parameterwerte der Referenzmuster aufgrund von Unterschieden bei den Signalen der Spracheingabe beim Referenzmuster-Training und dem aktuellen Einsatz des ASR-Systems angepasst werden. So kann beispielsweise ein Satz von Referenzmustern, die für einen Fahrzeuginsassen, oder bestimmte akustische Verhältnisse erlernt wurden, für einen anderen Fahrzeuginsassen, oder andere akustische Bedingungen angepasst und als anderer Satz von Referenzmuster gespeichert werden, das beruht auf begrenzten Anlerndaten der anderen Person oder akustischen Bedingungen. Mit anderen Worten sind die Muster nicht notwendigerweise starr, sie können während der Spracherkennung angepasst werden.
Bei der Verwendung der Grammatik im Vokabular und aller geeigneten Decoder-Algorithmen und akustischen Modelle greift der Prozessor auf zahlreiche Referenzmuster im Speicher zu, die das Testmuster interpretieren. So kann der Prozessor beispielsweise eine Liste von N-best Vokabularergebnissen oder Referenzmustern zusammen mit entsprechenden Parameterwerten erstellen und abspeichern. Beispielhafte Parameterwerte können für jedes Referenzmuster in der N-best-Liste des Vokabulars und zugehöriger Segmentdauern Wertungen für Vertrauen und Wahrscheinlichkeit, Werte für den Rauschspannungsabstand und/oder dergleichen beinhalten. Die N-best-Liste des Vokabulars kann in abnehmender Größe der Parameterwerte sortiert werden. Das Vokabular-Referenzmuster ist beispielsweise mit dem höchsten Vertrauenswert das beste Referenzmuster und so weiter. Sobald eine Reihe von erkannten Teilwörtern erstellt ist, können diese zur Formung von Wörtern mit Eingaben der Wortmodelle 222 genutzt werden, Sätze hingegen mit Eingaben der Sprachmodelle 224.
Abschließend empfangen die Postprozessor-Softwaremodul(e) 216 die Ausgabedaten aus dem/den Decoder-Modul(en) 214 für alle geeigneten Zwecke. Bei einem Beispiel kann/können das/die Postprozessor-Softwaremodul(e) 216 ein oder mehrere Referenzmuster aus der N-best-Liste für Referenzmuster einzelner oder mehrerer Wörter als erkannte Sprache identifizieren. In einem anderen Beispiel kann/können das/die Postprozessor-Softwaremodul(e) 216 verwendet werden, um akustische Daten in Text oder Ziffern für die Verwendung mit anderen Funktionen des ASR-Systems oder anderer Fahrzeugsysteme umzuwandeln, wie beispielsweise ein oder mehrere NLP-Engines 173/175. In einem weiteren Beispiel kann/können das/die Postprozessor-Softwaremodul(e) 216 verwendet werden, um ein Trainings-Feedback für den Decoder 214 oder Präprozessor 212 bereitzustellen. Genauer gesagt kann der Postprozessor 216 dafür eingesetzt werden, akustische Modelle für das/die Decoder-Modell(e) 214 oder Anpassungs-Parameter für das/die Präprozessor-Modul(e) 212 zu trainieren.
3 ist ein Flussdiagramm eines Prozesses zur Erfüllung einer Sprachanforderung mit einer bestimmten Zielsprache, die von einem Sprachassistenten 170/172 gemäß exemplarischen Ausführungsformen zunächst nicht klassifiziert werden kann. Der Prozess 200 kann in Verbindung mit dem Fahrzeug 102 und dem entfernten Server 104 und verschiedenen Komponenten derselben (einschließlich, aber nicht beschränkt auf die Steuerungssysteme und Steuerungen und Komponenten derselben) gemäß exemplarischen Ausführungsformen implementiert werden.
Unter Bezugnahme auf 3 beginnt der Prozess 300 bei Schritt 301. In bestimmten Ausführungsformen beginnt der Prozess 300, wenn ein Fahr- oder Zündzyklus eines Fahrzeugs beginnt, wenn sich beispielsweise ein Fahrer dem Fahrzeug nähert oder in das Fahrzeug 102 einsteigt oder wenn der Fahrer das Fahrzeug einschaltet und/oder eine Zündung dafür betätigt (z. B. durch Betätigen eines Schlüssels, mit einem Fernbedienungsschlüssel oder Starttaste usw.). In bestimmten Ausführungsformen beginnt der Prozess 300, wenn das Fahrzeugsteuerungssystem 112 (z. B. einschließlich des Mikrofons 120 oder anderer Eingangssensoren 122 desselben) und/oder das Steuerungssystem eines Smartphones, Computers und/oder anderer Systeme und/oder Vorrichtungen aktiviert wird. In bestimmten Ausführungsformen werden die Schritte des Prozesses 300 während des Betriebs des Fahrzeugs (und/oder des anderen Systems und/oder der anderen Vorrichtung) kontinuierlich durchgeführt.
In verschiedenen Ausführungsformen werden die Daten des persönlichen Assistenten in diesem Schritt registriert. In verschiedenen Ausführungsformen werden die jeweiligen Fähigkeiten der verschiedenen persönlichen Assistenten 174(A)-174(N) beispielsweise durch Anweisungen eines oder mehrerer Prozessoren (wie beispielsweise des Fahrzeugprozessors 126, des entfernten Serverprozessors 150 und/oder eines oder mehrerer anderer Prozessoren, die einem der persönlichen Assistenten 174(A)-174(N) zugeordnet sind) erhalten. Ebenso werden in verschiedenen Ausführungsformen die jeweiligen Sprachen der verschiedenen persönlichen Assistenten 174(A)-174(N) als Sprachdaten im Speicher gespeichert (z. B. als gespeicherte Werte 138 im Fahrzeugspeicher 128, gespeicherte Werte 162 im Fernserverspeicher 152 und/oder eine oder mehrere andere Speichervorrichtungen, die mit einem der persönlichen Assistenten 174(A)-174(N) verbunden sind).
In verschiedenen Ausführungsformen werden die Eingaben der Benutzersprachanforderung vom Mikrofon 120 (Schritt 310) erkannt und erhalten. Die Sprachanforderungen können ein Wake-Up-Wort direkt oder indirekt beinhalten, gefolgt von der Anforderung für Informationen und/oder andere Dienste. Ein Wake-Up-Wort ist beispielsweise ein vom Benutzer eingegebener Sprachbefehl, der es dem Sprachassistenten ermöglicht, die Aktivierung zu realisieren (d. h. das System im Schlafmodus zu aktivieren). So kann beispielsweise in verschiedenen Ausführungsformen ein Wake-up-Wort „HALLO SIRI“ oder genauer gesagt das Wort „HALLO“ sein (d. h. wenn das Wake-Up-Wort in englischer Sprache vorliegt).
Darüber hinaus beinhaltet die Sprachanforderung beispielsweise in verschiedenen Ausführungsformen eine bestimmte Absicht, die sich auf eine Anforderung nach Informationen/Dienstleistungen bezieht und einen bestimmten Wunsch des Benutzers als erfüllt betrachtet, wie beispielsweise, aber nicht beschränkt auf, eine Sehenswürdigkeit (z. B. Restaurant, Hotel, Tankstelle, Touristenattraktion usw.), einen Wetterbericht, einen Verkehrsbericht, um einen Telefonanruf zu tätigen, eine Nachricht zu senden, um eine oder mehrere Fahrzeugfunktionen zu steuern, um wohnungsbezogene Informationen oder Dienstleistungen zu erhalten, um audiobezogene Informationen oder Dienstleistungen zu erhalten, um mobiltelefonbezogene Informationen oder Dienstleistungen zu erhalten, um einkaufsbezogene Informationen oder Dienstleistungen zu erhalten, um webbrowserbezogene Informationen oder Dienstleistungen zu erhalten und/oder um eine oder mehrere andere Arten von Informationen oder Dienstleistungen zu erhalten.
In bestimmten Ausführungsformen werden weitere Sensordaten erhalten. So sammeln beispielsweise die zusätzlichen Sensoren 124 in bestimmten Ausführungsformen automatisch Daten von oder über verschiedene Fahrzeugsysteme, für die der Benutzer Informationen anfordern kann oder die der Benutzer steuern möchte, wie beispielsweise einen oder mehrere Motoren, Entertainmentsysteme, Klimasteuerungssysteme, Fenstersysteme des Fahrzeugs 102 und so weiter.
In verschiedenen Ausführungsformen ist der Sprachassistent 170/172 implementiert, um die spezifische Intensionssprache der Sprachanforderung zu klassifizieren (Schritt 320). Um die spezifische Intensionssprache zu klassifizieren, kann auch eine Spezifische Intentionssprache -Lookup-Tabelle („Spezifische Intentionssprachen-Datenbank“) abgerufen werden. In verschiedenen Ausführungsformen beinhaltet die Datenbank für die spezifische Intentionssprache verschiedene Arten von exemplarischen Sprachphrasen, um die Klassifizierung der spezifischen Absicht zu unterstützen/ermöglichen, wie beispielsweise, aber nicht beschränkt auf die folgenden: „KONTAKT AUFNEHMEN MIT“ (im Zusammenhang mit einem Telefonanruf), „DEN TON EINSCHALTEN“ (im Zusammenhang mit der Erhöhung der Lautsprecherlautstärke), „KAUF MIR“ (im Zusammenhang mit dem Kauf von Waren), „WIR ÜBERNEHMEN DIES“ (im Zusammenhang mit dem Start einer oder mehrerer Aufgaben), „WAS TUT SICH“ (im Zusammenhang mit einer Frage über ein Ereignis), „LASS UNS SCHAUEN“ (im Zusammenhang mit einer Anforderung zum Ändern eines Fernsehsenders). Ebenfalls in verschiedenen Ausführungsformen wird die Datenbank für spezifische Intentionssprache im Speicher 128 (und/oder im Speicher 152 und/oder in einem oder mehreren anderen Speichervorrichtungen) als gespeicherte Werte derselben gespeichert und vom Prozessor 126 während des Schrittes 320 automatisch abgerufen (und/oder vom Prozessor 150 und/oder einem oder mehreren anderen Prozessoren).
In bestimmten Ausführungsformen beinhaltet die Datenbank für spezifische Intentionssprache und/oder Informationen über zuvor verwendete Sprache/Sprachphonemen des Benutzers (Benutzersprachhistorie), beispielsweise basierend auf einer höchsten Nutzungshäufigkeit basierend auf der Nutzungshistorie des Benutzers usw. In bestimmten Ausführungsformen können beispielsweise auf diese Weise die Maschinenlern-Engines 176/177 implementiert werden, um bekannte statistisch basierte Modellierungsmethodologien zu nutzen, um Leitlinien/Richtlinien für bestimmte Sprachphrasen mit bestimmten Absichten zu erstellen. Daher ist es hilfreich, den Sprachassistenten 170/172 beim Klassifizieren der spezifischen Absicht in zukünftigen Sprachanforderungen (d. h. nachfolgenden ähnlichen Sprachanforderungen) zu unterstützen.
Wenn der Sprachassistent 170/172 eine Sprachphrase in der Datenbank für die spezifische Intentionssprache identifizieren kann, klassifiziert der Sprachassistent 170/172 wiederum die spezifische Absicht der Sprachanforderung basierend auf der identifizierten Sprachphrase (Schritt 330). Der Sprachassistent 170/172 überprüft dann einen Regelsatz, der mit der Sprachphrase verknüpft ist, um die Sprachanforderung zu erfüllen. Insbesondere stellen diese zugehörigen Regelsätze eine oder mehrere fest programmierte Wenn-Dann-Regeln bereit, die Präzedenzfälle zum Erfüllen einer Sprachanforderung darstellen können. In verschiedenen Ausführungsformen erfüllt der Sprachassistent 170/172 beispielsweise die Sprachanforderung selbstständig (d. h. mit eingebetteten, für den Sprachassistenten spezifischen Fähigkeiten), z. B. die Erfüllung der Navigation oder allgemeine persönliche Assistenzanforderungen. In verschiedenen Ausführungsformen kann der Sprachassistent 170/172 beispielsweise die Sprachanforderung mit Unterstützung durch einen oder mehrere persönliche Assistenten 174(A)-174(N) erfüllen. In verschiedenen Ausführungsformen leitet der Sprachassistent 170/172 beispielsweise die Sprachanforderung an einen oder mehrere persönliche Assistenten 174(A)-174(N) zur Erfüllung weiter (d. h. wenn die Fähigkeiten über den Rahmen der im Sprachassistenten 170/172 eingebetteten Fähigkeiten hinausgehen). Fachleute werden außerdem eine oder mehrere andere Kombinationen des Sprachassistenten 170/172 erkennen, wobei ein oder mehrere persönliche Assistenten 174(A)-174(N) die Sprachanforderung erfüllen können. Nach Erfüllung der Sprachanforderung fährt das Verfahren mit der Fertigstellung 302 fort.
Wenn bestimmt wird, dass die Sprachphrase nicht in der Datenbank für die spezifische Intentionssprache gefunden werden kann und der Sprachassistent 170/172 daher eine bestimmte Absicht der Sprachanforderung nicht klassifizieren kann, schreibt der Sprachassistent 170/172 die Sprache der Sprachanforderung in Text um (über Aspekte des ASR-Systems 210) (Schritt 340). Der Sprachassistent 170/172 übergibt dann den transkribierten Sprachanforderungstext an die NLP-Engine(n) 173/175, um bekannte NLP-Methodologien zu verwenden und eine oder mehrere vernünftige Interpretationen für den Sprachanforderungstext zu erstellen (Schritt 350). Zum Beispiel, wenn die transkribierte Sprachanforderung wie folgt lautet: „HALLO SIRI, WIE HOCH IST MEINE LADUNG AUF MEINEM CHEVY BOLT?“, kann/können der/die NLP-Motor(en) 173 / 175 die Sprache in „HALLO SIRI, WIE IST DIE VERBLEIBENDE BATTERIELEBENSDAUER FÜR MEINEN CHEVY BOLT“ umwandeln. Darüber hinaus kann/können die NLP-Engine(s) 173/175 konfiguriert werden, um die dem Wake-Up-Wort entsprechende Sprache (d. h. „HALLO, SIRI“) und die der Entität entsprechende Sprache (d. h. „MEIN CHEVY BOLT“) sowie jede andere unnötige Sprache aus dem Sprachanforderungstext zu erkennen und zu entfernen, um mit einer mit gesundem Menschenverstand interpretierten spezifischen Intentionssprache aus der übertragenen Sprachanforderung (d. h. die bei „WIE IST DIE VERBLEIBENDE BATTERIELEBENSDAUER“ bleibt) abzuschließen. Die Datenbank für die spezifische Intentionssprache kann erneut abgerufen werden, um eine Sprachphrase und den zugehörigen Regelsatz für die Klassifizierung der transkribierten spezifischen Absicht des gesunden Menschenverstands zu identifizieren.
In verschiedenen Ausführungsformen kann nach der Klassifizierung der spezifischen Absicht ein neuer Regelsatz erzeugt und mit einer bestimmten Absicht verknüpft werden, die aus der Sprachanforderung identifiziert wurde, wie sie ursprünglich dem Mikrofon zur Verfügung gestellt wurde (d. h. „WIE VIEL LADUNG HABE ICH“) (optionaler Schritt 360). So kann beispielsweise der Regelsatz der ursprünglichen spezifischen Intentionssprache mit der vernünftigen Interpretationssprache für die spezifische Absicht entsprechen, die von der/den NLP-Engine(s) 173/175 umgewandelt wurde (d. h. WIE VIEL LADUNG HABE ICH“ = „WIE IST DIE VERBLEIBENDE BATTERIELEBENSDAUER“). Dieser neu generierte Regelsatz kann auch in einer spezifischen Intentionssprachdatenbank gespeichert werden, sodass der Sprachassistent 170/172 diese spezifische Absicht in zukünftigen Sprachanforderungen klassifizieren kann (d. h. jede nachfolgende Sprachanforderung, die ähnlich fragt: WIE IST DIE VERBLEIBENDE BATTERIELEBENSDAUER AUF MEINEM CHEVY BOLT?“). In verschiedenen Ausführungsformen, alternativ oder zusätzlich in diesem optionalen Schritt, können ein oder mehrere statistikbasierte Modellierungsalgorithmen über die Maschinenlern-Engines 176/177 eingesetzt werden, um den Sprachassistenten 170/172 beim Klassifizieren der spezifischen Absicht in zukünftigen Sprachanforderungen zu unterstützen.
In verschiedenen Ausführungsformen wird nach der Klassifizierung der spezifischen Absicht erneut der Sprachassistent 170/172 aufgerufen, um die Sprachanforderung zu erfüllen (Schritt 370). In verschiedenen Ausführungsformen erfüllt der Sprachassistent 170/172 die Sprachanforderung selbstständig (z. B. über eine oder mehrere der eingebetteten Fähigkeiten). In verschiedenen Ausführungsformen kann der Sprachassistent 170/172 die Sprachanforderung mit Unterstützung durch einen oder mehrere persönliche Assistenten 174(A)-174(N) erfüllen. In verschiedenen Ausführungsformen kann auf mindestens einen der einen oder mehreren persönlichen Assistenten 174(A)-174(N) zugegriffen werden, um die Sprachanforderung unabhängig voneinander zu erfüllen. Fachleute werden außerdem eine oder mehrere andere Kombinationen des Sprachassistenten 170/172 erkennen, wobei ein oder mehrere persönliche Assistenten 174(A)-174(N) können die Sprachanforderung erfüllen. Im vorstehenden Beispiel kann die spezifische Absicht „WIE VIEL LADUNG HABE ICH“ klassifiziert werden, um einem Regelsatz zu entsprechen, der den Zugriff auf den persönlichen Assistenten 174(B) der Fahrzeugdomäne bewirkt, um Informationen zum Ladezustand (SoC) für das Fahrzeug 102 bereitzustellen. Nach Erfüllung der Sprachanforderung fährt das Verfahren mit der Fertigstellung 302 fort.
Dementsprechend sehen die hierin beschriebenen Systeme, Fahrzeuge und Verfahren eine möglicherweise verbesserte Verarbeitung von Benutzeranforderungen vor, zum Beispiel für einen Benutzer eines Fahrzeugs. Basierend auf einer Identifizierung der Art der Benutzeranforderung und einem Vergleich mit verschiedenen jeweiligen Fähigkeiten einer Vielzahl von verschiedenen Arten von Sprachassistenten wird die Benutzeranforderung an den am besten geeigneten Sprachassistenten weitergeleitet.
Die Systeme, Fahrzeuge und Verfahren sorgen somit für eine potenziell verbesserte und/oder effiziente Erfahrung des Benutzers bei der Verarbeitung seiner Anforderungen durch den genauesten und/oder effizientesten Sprachassistenten, der auf die spezifische Benutzeranforderung zugeschnitten ist. Wie vorstehend erwähnt, können in bestimmten Ausführungsformen die vorstehend beschriebenen Techniken in einem Fahrzeug verwendet werden. Wie ebenfalls vorstehend erwähnt, können die vorstehend beschriebenen Techniken in bestimmten anderen Ausführungsformen auch in Verbindung mit Smartphones, Tablets, Computern, anderen elektronischen Vorrichtungen und Systemen des Benutzers verwendet werden.
Während mindestens eine exemplarische Ausführungsform in der vorstehenden ausführlichen Beschreibung dargestellt wurde, versteht es sich, dass es eine große Anzahl an Variationen gibt. Es versteht sich weiterhin, dass die exemplarische Ausführungsform oder die exemplarischen Ausführungsformen lediglich Beispiele sind und den Umfang, die Anwendbarkeit oder die Konfiguration dieser Offenbarung in keiner Weise einschränken sollen. Die vorstehende ausführliche Beschreibung stellt Fachleuten auf dem Gebiet vielmehr einen zweckmäßigen Plan zur Implementierung der exemplarischen Ausführungsform bzw. der exemplarischen Ausführungsformen zur Verfügung. Es versteht sich, dass verschiedene Veränderungen an der Funktion und der Anordnung von Elementen vorgenommen werden können, ohne vom Umfang der Offenbarung, wie er in den beigefügten Ansprüchen und deren rechtlichen Entsprechungen aufgeführt ist, abzuweichen.

Claims

Fahrzeug, umfassend: einen Fahrgastraum für einen Benutzer; einen im Fahrgastraum befindlichen Sensor, wobei der Sensor konfiguriert ist, um eine Sprachanforderung vom Benutzer zu erhalten; einen Speicher, der konfiguriert ist, um eine bestimmte Absicht für die Sprachanforderung zu speichern; und einen Prozessor, der konfiguriert ist, um zumindest Folgendes zu erleichtern: Erhalten einer Sprachanforderung vom Benutzer; Versuchen, die spezifische Absicht für die Sprachanforderung über einen Sprachassistenten zu klassifizieren; Bestimmen, dass der Sprachassistent die spezifische Absicht aus der Sprachanforderung nicht klassifizieren kann; nach dem Bestimmen, dass der Sprachassistent die spezifische Absicht nicht klassifizieren kann, Interpretieren der spezifischen Absicht über eine oder mehrere Natursprachenverarbeitungs-(NLP)-Methodologien; und Implementieren des Sprachassistenten zum Erfüllen der Sprachanforderung oder Zugreifen auf einen oder mehrere persönliche Assistenten zum Erfüllen der Sprachanforderung oder einer Kombination derselben, nachdem die eine oder die mehreren NLP-Methodologien die spezifische Absicht interpretiert haben.
Fahrzeug nach Anspruch 1, ferner umfassend das Erzeugen eines oder mehrerer Regelsätze für die spezifische Absicht, worin der eine oder die mehreren Regelsätze konfiguriert sind, um den Sprachassistenten zu unterstützen, die spezifische Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu klassifizieren.
Fahrzeug nach Anspruch 1, ferner umfassend das Anwenden einer oder mehrerer Maschinenlernmethodologien, um den Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen.
Fahrzeug nach Anspruch 1, worin der Zugriff auf einen oder mehrere persönliche Assistenten durch einen automatisierten persönlichen Assistenten, der Teil eines entfernten Computersystems ist, erfolgt.
Verfahren zum Erfüllen einer Sprachanforderung, wobei das Verfahren Folgendes umfasst: Erhalten der Sprachanforderung von einem Benutzer über einen Sensor; Implementieren eines Sprachassistenten, über einen Prozessor, um eine bestimmte Absicht für die Sprachanforderung zu klassifizieren, wenn der Sprachassistent die spezifische Absicht nicht über den Prozessor klassifizieren kann, indem er eine oder mehrere Natursprachenverarbeitungs-(NLP)-Methodologien zur Interpretation der spezifischen Absicht implementiert; und basierend auf der spezifischen Absicht, die von einer oder mehreren NLP-Methodologien über den Prozessor interpretiert wird, Zugreifen auf einen oder mehrere persönliche Assistenten zum Erfüllen der Sprachanforderung oder Implementieren des Sprachassistenten zum Erfüllen der Sprachanforderung oder einer Kombination derselben.
Verfahren nach Anspruch 5, ferner umfassend, nachdem die spezifische Absicht durch die eine oder die mehreren NLP-Methodologien über den Prozessor interpretiert wurde, das Erzeugen eines oder mehrerer Regelsätze für die spezifische Absicht, worin der eine oder die mehreren Regelsätze konfiguriert sind, um den Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen.
Verfahren nach Anspruch 5, ferner umfassend, nachdem die spezifische Absicht durch die eine oder die mehreren NLP-Methodologien über den Prozessor interpretiert wurde, das Anwenden einer oder mehrerer Maschinenlernmethodologien, um dem Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen.
System zum Erfüllen einer Sprachanforderung, wobei das System Folgendes umfasst: einen Sensor, der konfiguriert ist, um eine Sprachanforderung von einem Benutzer zu erhalten; einen Speicher, der konfiguriert ist, um eine Sprache für eine bestimmte Absicht für die Sprachanforderung zu speichern; und einen Prozessor, der konfiguriert ist, um zumindest Folgendes zu erleichtern: Erhalten einer Sprachanforderung vom Benutzer; Versuchen, die spezifische Absicht für die Sprachanforderung über einen Sprachassistenten zu klassifizieren; Bestimmen, dass der Sprachassistent die spezifische Absicht nicht klassifizieren kann, nach dem Bestimmen, dass der Sprachassistent die spezifische Absicht nicht klassifizieren kann, Interpretieren der spezifischen Absicht über eine oder mehrere Natursprachenverarbeitungs-(NLP)-Methodologien; und Implementieren des Sprachassistenten zum Erfüllen der Sprachanforderung oder Zugreifen auf einen oder mehrere persönliche Assistenten zum Erfüllen der Sprachanforderung oder einer Kombination derselben, nachdem die eine oder die mehreren NLP-Methodologien die spezifische Absicht interpretiert haben.
System nach Anspruch 8, ferner umfassend das Erzeugen eines oder mehrerer Regelsätze für die spezifische Absicht, worin der eine oder die mehreren Regelsätze konfiguriert sind, um den Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen.
System nach Anspruch 8, ferner umfassend das Anwenden einer oder mehrerer Maschinenlernmethodologien, um den Sprachassistenten beim Klassifizieren der spezifischen Absicht für eine oder mehrere nachfolgende ähnliche Sprachanforderungen zu unterstützen.