DE102009017177B4

DE102009017177B4 - Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges

Info

Publication number: DE102009017177B4
Application number: DE102009017177.0A
Authority: DE
Inventors: Rohit Mishra; Edward Kim
Original assignee: Audi AG; Volkswagen AG
Current assignee: Audi AG; Volkswagen AG
Priority date: 2008-04-23
Filing date: 2009-04-09
Publication date: 2022-05-05
Anticipated expiration: 2029-04-10
Also published as: US20090271200A1; DE102009017176A1; DE102009017177A1

Abstract

Spracherkennungsanordnung (1) zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges (2), wobei die Spracherkennungsanordnung (1) ein in dem Kraftfahrzeug (2) angeordnetes Mikrofon zur Eingabe eines Sprachbefehls, eine in dem Kraftfahrzeug (2) angeordnete Datenbasis (270), in der phonetischen Repräsentationen von Sprachbefehlen jeweils zumindest eine Bedeutung zugeordnet ist, und ein in dem Kraftfahrzeug (2) angeordnetes on-board-Spracherkennungssystem (27) zur Ermittlung einer Bedeutung des Sprachbefehls unter Verwendung einer in der Datenbasis (270) gespeicherten Bedeutung einer phonetischen Repräsentation eines Sprachbefehls umfasst, wobei die Spracherkennungsanordnung (1) zudem ein räumlich von dem Kraftfahrzeug (2) getrenntes off-board-Spracherkennungssystem (10) zur Ermittlung einer Bedeutung des Sprachbefehls und ein Kommunikationssystem zur Übertragung eines Sprachbefehls von dem Kraftfahrzeug (2) an das off-board-Spracherkennungssystem (10) und zur Übertragung der von dem off-board-Spracherkennungssystem (10) ermittelten Bedeutung des an das off-board-Spracherkennungssystem (10) übertragenen Sprachbefehls sowie einer dem Sprachbefehl zugeordneten phonetischen Repräsentation von dem off-board-Spracherkennungssystem (10) an das Kraftfahrzeug (2) aufweist, und wobei die Spracherkennungsanordnung (1) dazu ausgestaltet ist, die phonetische Repräsentation des an das off-board-Spracherkennungssystem (10) übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem (10) ermittelten Bedeutung in der Datenbasis (270) einander zugeordnet zu speichern,dadurch gekennzeichnet, dass das off-board-Spracherkennungssystem (10) dazu ausgestaltet ist,empfangene Audiodaten hinsichtlich einer Worterkennung zu verarbeiten und extrahierte Wortbedeutungen zu Informationsabrufdiensten, Information Retrieval Services, weiterzuleiten, um Information im Internet selbst zu suchen, wobei die Bedeutung des Sprachbefehls das Ergebnis der durch die Bedeutung im engeren Sinne angestoßenen Suche ist, undeine der Bedeutung des Sprachbefehls zugeordnete Position von dem off-board-Spracherkennungssystem (10) an das Kraftfahrzeug (2) zu übertragen, und die Spracherkennungsanordnung (1) dazu ausgestaltet ist, die phonetische Repräsentation des an das off-board-Spracherkennungssystem (10) übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem (10) ermittelten Bedeutung und der der Bedeutung zugeordneten Position in der Datenbasis (270) zu speichern, wobeidie Spracherkennungsanordnung (1) ein in dem Kraftfahrzeug (2) angeordnetes Navigationssystem zur Bestimmung der Position des Kraftfahrzeuges (2) umfasst und dazu ausgestaltet ist, die Bedeutung des Sprachbefehls mittels des on-board-Spracherkennungssystems in Abhängigkeit der Position des Kraftfahrzeuges (2) oder einer gewählten Position zu ermitteln, indemdie Spracherkennungsanordnung (1) dazu ausgestaltet ist, zunächst die Einträge aus der Datenbasis (270) zu laden, die derselben Position zugeordnet sind, wobei die jeweilige Position eine Stadt oder einen Bundesstaat oder ein Gebiet einer bestimmten Postleitzahl oder ein mehrere Städte umfassendes Gebiet oder ein Gebiet, das durch einen Kreis mit einem vorbestimmten Radius um einen bestimmten Punkt definiert ist, umfasst,sodass, wenn zukünftige Anfragen mit der Spracherkennungsdarstellung einer zuvor in der Datenbasis (270) gespeicherten Anfrage übereinstimmen und sich auf den gleichen Suchort beziehen wie die zuvor gespeicherte Anfrage, das on-Board-Spracherkennungssystem (27) diese kontextspezifischen Ergebnisse für diese Anfrage zurücksendet, ohne dass das off-board-Spracherkennungssystem (10) erforderlich ist.

Description

Die Erfindung betrifft eine Spracherkennungsanordnung zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges.
Die DE 199 42 869 A1 offenbart eine Einrichtung zum Betrieb einer sprachgesteuerten Einrichtung bei Kraftfahrzeugen, wobei Sprachbefehle über Sprachmustervergleich einer Gerätefunktion im Kraftfahrzeug zugewiesen werden, wobei zusätzlich zu vorgegebenen sprachbefehlsauslösbaren Funktionen durch Ad-hoc-Generierungen und -Zuweisungen von neuen Sprachmustern ad hoc neue Funktionen ermöglicht werden, und wobei diese Ad-hoc-Generierungen durch adaptive Transkription vorgenommen werden. Dabei kann in einer Ausgestaltung vorgesehen sein, dass Sprachmuster von extern, beispielsweise über die Telematikdienste oder World Wide Web, gesendet und im Fahrzeug empfangen werden können, so dass das bordeigene System durch den besagten Zugriff nach Extern „hinzulernen“ kann.
Die DE 10 2006 006 551 A1 offenbart ein System zum Bereitstellen von Sprachdialoganwendungen auf mobilen Endgeräten mit einem Server zum Erzeugen mindestens einer Sprachdialoganwendung, die eine in einer Beschreibungssprache programmierte formale Beschreibung eines Sprachdialogs und Sprachmodelle für Dialogschritte des Sprachdialogs aufweist und einem Rundfunksender, welcher die erzeugten Sprachdialoganwendungen digital am Rundfunkempfänger von mobilen Endgeräten, die sich in seinem Sendegebiet befinden, ausstrahlt.
Die DE 10 2004 059 372 A1 offenbart ein Navigationssystem mit einer Fahrzeugeinbaueinheit, einem Sprachkonversationsdokument-Erzeugungsserver und einem Informationsauffindeserver.
Die EP 1 417 456 B1 offenbart ein Telekommunikationsdienstportal, welches mit zumindest einem Mobiltelekommunikationsnetz verbunden ist, und welches zumindest einen Streckennavigationsserver aufweist, der an eine Spracherkennungsschnittstelle angeschlossen ist, um Realzeitführungsinformationen in Antwort auf einen Zielort zu liefern, der ihm durch den Benutzer mit Hilfe eines an das Netz angeschlossenen Telekommunikationsterminals mitgeteilt worden ist, wobei der Navigationsserver Vorrichtungen zur akustischen Analyse des empfangenen Signals aufweist.
Die GB 2 368 441 A offenbart ein Voice-to-Voice-Datenhandhabungssystem mit mehreren mobilen, z.B. fahrzeuggestützten, Teilsystemen, die über individuelle GSM- und GPRS-Einrichtungen mit einem abgesetzten Internetserver verbunden sind, wobei jedes Teilsystem eine Freisprecheinrichtung mit einem Mikrofon und einem Lautsprecher sowie eine Einrichtung aufweist, die dazu geeignet ist, einen begrenzten Bereich einfacher vorprogrammierter Sprachbefehle zu erkennen und andernfalls den Befehl an den Server zu übertragen.
Die EP 1 341 363 A1 offenbart ein System als Schnittstelle zwischen einem in einem Fahrzeug angeordneten on-board-Gerät und einem extern vom Fahrzeug angeordneten Sprachportalserver mit einem Sprachkommunikator und einem Datenkommunikator, die im Fahrzeug angeordnet sind, wobei das on-board-Gerät elektronisch mit dem Sprachkommunikator und/oder dem Datenkommunikator kommuniziert, die dazu geeignet sind, drahtlos mit einer Basisstation zu kommunizieren, und wobei die Basisstation elektronisch mit dem Sprachportalserver kommuniziert.
Die EP 1 739 546 A2 offenbart ein Kraftfahrzeugsystem zum Bereitstellen einer integrierten Benutzerschnittstelle für Steuer- und Kommunikationsfunktionen in einem Automobil oder einem andersartigen Fahrzeug, wobei die Benutzerschnittstelle sprachaktivierte Wechselwirkungen sowie andersartige Wechselwirkungen unterstützt, wie beispielsweise manuelle Wechselwirkungen unter Verwendung von Steuerungen, wie beispielsweise armaturenbrett- oder lenkradmontierte Steuerungen, wobei das System außerdem Schnittstellen zu Geräten im Fahrzeug aufweist, z.B. drahtlose Schnittstellen zu mobilen Geräten, die in das Fahrzeug eingebracht werden, und wobei das System außerdem Schnittstellen zu Informationsquellen bereitstellt, z.B. zu einem abgesetzten Server, um einen Zugriff auf Information zu ermöglichen.
Aus der US 2004 / 0 010 409 A1 ist bekannt, dass ein Spracherkenner in einem mobilen Gerät sukzessive mit weiterem Vokabular erweitert werden kann, wann immer festgestellt wird, dass ein aktuell eingegebener Sprachbefehlt nicht erkannt werden konnte.
Aus der JP 2004 - 117 063 A ist bekannt, dass ein Erkennungsergebnis von Ortsangaben dadurch disambiguiert werden kann, dass die Ortsangaben nach Abstand zur aktuellen Position des Benutzers sortiert werden und nur die Ortsangabe des nächstgelegenen Orts als Erkennungsergebnis ausgegeben wird.
Aus dem Buch „Grundkurs Spracherkennung“ von Stephen Euler (Vieweg Verlag, 2006, ISBN 3-8348-0003-1) ist eine Beschreibung eines Vokabulars für einen Spracherkenner bekannt.
Es ist Aufgabe der Erfindung, die Spracherkennung in einem Kraftfahrzeug zu verbessern. Es ist weiterhin Aufgabe der Erfindung, die Leistung einer Spracherkennung in einem Kraftfahrzeug bei beschränkt verfügbarem Zugang zu einer drahtlosen Kommunikationsverbindung zu verbessern. Es ist weiterhin Aufgabe der Erfindung, die Bandbreite einer drahtlosen Kommunikationsverbindung zu einem Kraftfahrzeug effizienter zu nutzen.
Vorgenannte Aufgabe wird durch eine Spracherkennungsanordnung zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges gelöst, wobei die Spracherkennungsanordnung ein in dem Kraftfahrzeug angeordnetes Mikrofon zur Eingabe eines Sprachbefehls, eine in dem Kraftfahrzeug angeordnete Datenbasis, in der phonetischen Repräsentationen von Sprachbefehlen jeweils zumindest eine Bedeutung zugeordnet ist, und ein in dem Kraftfahrzeug angeordnetes on-board-Spracherkennungssystem zur von der Position des Kraftfahrzeuges oder einer gewählten Position abhängigen Ermittlung einer Bedeutung des Sprachbefehls unter Verwendung einer in der Datenbasis gespeicherten Bedeutung einer phonetischen Repräsentation eines Sprachbefehls umfasst, wobei die Spracherkennungsanordnung zudem ein räumlich von dem Kraftfahrzeug getrenntes off-board-Spracherkennungssystem zur Ermittlung einer Bedeutung des Sprachbefehls und ein Kommunikationssystem zur Übertragung eines Sprachbefehls von dem Kraftfahrzeug an das off-board-Spracherkennungssystem und zur Übertragung der von dem off-board-Spracherkennungssystem ermittelten Bedeutung des an das off-board-Spracherkennungssystem übertragenen Sprachbefehls sowie insbesondere einer dem Sprachbefehl zugeordneten phonetische Repräsentation von dem off-board-Spracherkennungssystem an das Kraftfahrzeug aufweist, und wobei die phonetische Repräsentation des an das off-board-Spracherkennungssystem übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem ermittelten Bedeutung in der Datenbasis speicherbar ist.
Eine Funktion eines Kraftfahrzeuges ist im Sinne der Erfindung insbesondere eine Auswahl und/oder Suche eines (Ziel)Ortes und/oder einer Information.
Eine Bedeutung eines Sprachbefehls ist im Sinne der Erfindung ein der Bedeutung des Sprachbefehls im engeren Sinne zugeordnetes Ergebnis. So kann z. B. die Bedeutung des Sprachbefehls „Indisches Restaurant“ unter anderem „Indisches Restaurant Satkar“ sein. In diesem Sinne kann eine phonetische Repräsentation eines Sprachbefehls im Sinne der Erfindung eine phonetische Repräsentation des eigentlichen Sprachbefehls und/oder eine phonetische Repräsentation des dem Sprachbefehl zugeordneten Ergebnisses sein. Die phonetische Repräsentation des an das off-board-Spracherkennungssystem übertragenen Sprachbefehls kann eine von dem off-board-Spracherkennungssystem ermittelte und an das Kraftfahrzeug übertragene phonetische Repräsentation sein.
Zusammen gespeichert bzw. zusammen speicherbar soll im Sinne der Erfindung bedeuten, dass die entsprechenden Daten einander zugeordnet gespeichert sind.
In der Erfindung ist eine der Bedeutung des Sprachbefehls zugeordnete Position von dem off-board-Spracherkennungssystem an das Kraftfahrzeug übertragbar. Eine Position im Sinne der Erfindung kann eine Position im engeren Sinne sein. Eine Position im Sinne der Erfindung kann jedoch insbesondere ein bestimmtes Gebiet umfassen, dem eine Bedeutung oder ein Suchergebnis zugeordnet ist. So kann eine Position im Sinne der Erfindung eine Stadt oder einen Bundesstaat umfassen. Eine Position im Sinne der Erfindung kann jedoch auch ein Gebiet einer bestimmten Postleitzahl oder ein mehrere Städte umfassendes Gebiet umfassen. Eine Position im Sinne der Erfindung kann jedoch auch ein Gebiet umfassen, das durch einen Kreis (insbesondere mit einem vorbestimmten Radius) um einen bestimmten Punkt definiert ist. In Bezug auf ein Restaurant kann zum Beispiel eine Position im Sinne der Erfindung eine Stadt umfassen, in der das Restaurant liegt. Eine zugeordnete Position im Sinne der Erfindung ist insbesondere ein als Position bezeichnetes Gebiet, in dem das Ergebnis einer Suche liegt.
In der Erfindung ist die phonetische Repräsentation des an das off-board-Spracherkennungssystem übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem ermittelten Bedeutung und der oder einer der Bedeutung zugeordneten Position in der Datenbasis speicherbar. In einer weiteren Ausgestaltung der Erfindung umfasst die Spracherkennungsanordnung ein in dem Kraftfahrzeug angeordnetes Navigationssystem zur Bestimmung der Position des Kraftfahrzeuges.
Vorgenannte Aufgabe wird zudem durch ein Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges gelöst, wobei ein Sprachbefehl mittels eines in dem Kraftfahrzeug angeordneten Mikrofons eingegeben wird, wobei mittels eines in dem Kraftfahrzeug angeordneten on-board-Spracherkennungssystems versucht wird, eine Bedeutung des Sprachbefehls unter Verwendung einer in dem Kraftfahrzeug angeordneten Datenbasis zu ermitteln, in der phonetischen Repräsentationen von Sprachbefehlen jeweils zumindest eine Bedeutung zugeordnet ist, wobei der Sprachbefehl von dem Kraftfahrzeug an ein off-board-Spracherkennungssystem übertragen wird, jedoch insbesondere nur dann, wenn die Bedeutung des Sprachbefehls nicht mittels des on-board-Spracherkennungssystems ermittelt werden konnte, wobei eine von dem off-board-Spracherkennungssystem ermittelte Bedeutung des an das off-board-Spracherkennungssystem übertragenen Sprachbefehls sowie insbesondere eine dieser Bedeutung zugeordnete Position von dem off-board-Spracherkennungssystem an das Kraftfahrzeug übertragen werden, wobei die phonetische Repräsentation des an das off-board-Spracherkennungssystem übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem ermittelten Bedeutung in der Datenbasis gespeichert werden, und wobei die Funktion des Kraftfahrzeuges gemäß der ermittelten Bedeutung des Sprachbefehls bedient bzw. ausgeführt wird.
In der Erfindung wird die phonetische Repräsentation des an das off-board-Spracherkennungssystem übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem ermittelten Bedeutung und der oder einer der Bedeutung zugeordneten Position in der Datenbasis gespeichert. In einer weiteren Ausgestaltung der Erfindung wird die Position des Kraftfahrzeuges bestimmt. In einer weiteren Ausgestaltung der Erfindung wird die Bedeutung des Sprachbefehls mittels des on-board-Spracherkennungssystems in Abhängigkeit der Position des Kraftfahrzeuges ermittelt.
Vorgenannte Aufgabe wird zudem durch ein Kraftfahrzeug mit einem Mikrofon zur Eingabe eines Sprachbefehls gelöst, wobei das Kraftfahrzeug eine Datenbasis, in der phonetischen Repräsentationen von Sprachbefehlen jeweils zumindest eine Bedeutung und eine Position zugeordnet ist, und ein on-board-Spracherkennungssystem zur, insbesondere von der Position des Kraftfahrzeuges abhängigen, Ermittlung einer Bedeutung des Sprachbefehls unter Verwendung einer in der Datenbasis gespeicherten Bedeutung einer phonetischen Repräsentation eines Sprachbefehls umfasst.
In der Erfindung weist das Kraftfahrzeug eine Schnittstelle für einen drahtlosen Zugriff auf ein räumlich von dem Kraftfahrzeug getrenntes off-board-Spracherkennungssystem auf. In der Erfindung ist die phonetische Repräsentation eines an das off-board-Spracherkennungssystem übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem ermittelten Bedeutung und einer der Bedeutung zugeordneten Position in der Datenbasis gespeichert. In einer weiteren Ausgestaltung der Erfindung ist eine Funktion des Kraftfahrzeuges gemäß der mittels des off-board-Spracherkennungssystems ermittelten Bedeutung des Sprachbefehls bedienbar bzw. ausführbar.
Kraftfahrzeug im Sinne der Erfindung ist insbesondere ein individuell im Straßenverkehr benutzbares Landfahrzeug. Kraftfahrzeuge im Sinne der Erfindung sind insbesondere nicht auf Landfahrzeuge mit Verbrennungsmotor beschränkt.
Weitere Vorteile und Einzelheiten ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen. Dabei zeigen:

1 ein Ausführungsbeispiel einer Spracherkennungsanordnung zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges,
2 ein Ausführungsbeispiel eines Kraftfahrzeuges,
3 ein Ausführungsbeispiel einer Datenbasis und
4 ein Ausführungsbeispiel eines Verfahrens zur Bedienung eines Kraftfahrzeuges.

1 zeigt ein Ausführungsbeispiel einer Spracherkennungsanordnung 1 zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges 2. Die Spracherkennungsanordnung 1 umfasst ein außerhalb des Kraftfahrzeuges 2 angeordnetes off-board-Spracherkennungssystem 10 zur Ermittlung einer Bedeutung eines Sprachbefehls. Die Spracherkennungsanordnung 1 umfasst ferner eine drahtlose Internetverbindung zwischen dem Kraftfahrzeug 2 und dem off-board-Spracherkennungssystem 10, über die ein Sprachbefehl von dem Kraftfahrzeug 2 an das off-board-Spracherkennungssystem 10 und eine von dem off-board-Spracherkennungssystem 10 ermittelten Bedeutung des an das off-board-Spracherkennungssystem 10 übertragenen Sprachbefehls von dem off-board-Spracherkennungssystem 10 an das Kraftfahrzeug 2 übertragen wird. Zur Implementierung der drahtlosen Internetverbindung ist eine drahtlose Kommunikationsverbindung 7 zwischen dem Kraftfahrzeug 2 und einem Kommunikationsknoten 12 zur Verbindung ins Internet 15 vorgesehen. Die drahtlose Kommunikationsverbindung 7 ist insbesondere ein WLAN. Es kann aber auch vorgesehen sein, dass eine drahtlose Kommunikationsverbindung 7 als WIFI-Verbindung, WIMAXI-Verbindung, RFI-Verbindung, Mobilfunk-Verbindung etc. implementiert ist. Es kann auch vorgesehen sein, dass - abhängig von bestimmten Kriterien - (automatisch) zwischen alternativen drahtlosen Kommunikationsverbindungen gewählt wird. Diese Kriterien sind z. B. Kosten, Verfügbarkeit und/oder Bandbreite etc.
2 zeigt ein Ausführungsbeispiel einer beispielhaften Implementierung des Kraftfahrzeuges 2 in einer Prinzipdarstellung. Das Kraftfahrzeug 2 umfasst eine z. B. als Touchscreen mit einem Display ausgestaltete Mensch-Maschine-Schnittstelle 21. Dazu ist der Touchscreen 21 mittels einer Anzeigesteuerung 20 ansteuerbar, die mittels eines Bussystems 30 mit einer Internetschnittstelle 22 für die drahtlose Kommunikationsverbindung 7 verbunden ist. Die als Touchscreen ausgestaltete Mensch-Maschine-Schnittstelle 21 kann - gemäß dem vorliegenden Ausführungsbeispiel - auch zur Bedienung eines Infotainmentsystems 24, eines Telefons 25 oder einer Klimaautomatik 26 genutzt werden.
Das Kraftfahrzeug 2 umfasst ein in ein Navigationssystem 23 integriertes Ortungssystem zur Bestimmung der Position des Kraftfahrzeuges 2, zur Bestimmung der Ausrichtung des Kraftfahrzeuges 2 und/oder zur Bestimmung der on-board-Zeit in Abhängigkeit von von in 1 mit Bezugszeichen 3 bezeichneten Satelliten gesendeten Signalen. Mittels des Navigationssystems 23 ist ein Routenvorschlag für das Kraftfahrzeug 2 zu einem Ziel ermittelbar. Das Kraftfahrzeug 2 umfasst zudem ein Mikrofon 29 zur Eingabe von Sprachbefehlen, das über eine Sprachschnittstelle 28 mit dem Bussystem 30 gekoppelt ist, eine Datenbasis 270, in der - wie ausschnittsweise beispielhaft in 3 dargestellt - phonetischen Repräsentationen von Sprachbefehlen jeweils zumindest eine Bedeutung und eine Position zugeordnet ist, sowie ein on-board-Spracherkennungssystem 27 zur Ermittlung einer Bedeutung eines Sprachbefehls unter Verwendung einer in der Datenbasis 270 gespeicherten Bedeutung einer phonetischen Repräsentation eines Sprachbefehls. Es kann ferner ein Lautsprecher vorgesehen sein, der ebenfalls über die Sprachschnittstelle 28 mit dem Bussystem 30 gekoppelt sein kann.
4 zeigt ein Ausführungsbeispiel eines Verfahrens zum Betrieb des Kraftfahrzeuges 2 bzw. der Spracherkennungsanordnung 1. Dabei werden zunächst in einem Schritt 41 die Einträge aus der Datenbasis 270 geladen, die derselben Position, also zum Beispiel der Position 1 zugeordnet sind. Dem Schritt 41 folgte eine Abfrage 42, ob ein Sprachbefehl eingegangen ist. Ist kein Sprachbefehl eingegangen, so erfolgt erneut Schritt 41. Ist jedoch ein Sprachbefehl eingegangen, so folgt der Abfrage 42 ein Schritt 43, in dem versucht wird, den Sprachbefehl mittels des on-board-Spracherkennungssystems 27 zu erkennen.
Dem Schritt 43 folgt eine Abfrage 44, ob der Sprachbefehl mittels des on-board-Spracherkennungssystems 27 erkannt wurde (auswertbar war). Wurde der Sprachbefehl mittels des on-board-Spracherkennungssystems 27 erkannt, so folgt der Abfrage 44 ein Schritt 45, in dem eine dem Sprachbefehl entsprechende Funktion des Kraftfahrzeuges ausgeführt wird. Dies kann zum Beispiel das Anzeigen oder Ausgeben einer Information (wie eines Zielortes) oder das Übertragen eines Zielortes in das Navigationssystem 23 umfassen. Dem Schritt 45 folgt wiederum der Schritt 41. Wurde der Sprachbefehl dagegen nicht mittels des on-board-Spracherkennungssystems 27 erkannt, so folgt der Abfrage 44 eine Abfrage 46, ob die Kommunikationsverbindung 7 verfügbar ist.
Ist die Kommunikationsverbindung 7 nicht verfügbar, so folgt der Abfrage 46 Schritt 41. Ist die Kommunikationsverbindung 7 dagegen verfügbar, so wird der Sprachbefehl an das off-board-Spracherkennungssystem 10 übertragen und von diesem in einem Schritt 47 ausgewertet. Das Ergebnis dieser Auswertung ist eine Bedeutung des Sprachbefehls, wobei die Bedeutung das Ergebnis einer durch die Bedeutung im engeren Sinne angestoßenen Suche ist. Die Bedeutung des Sprachbefehls (also das Ergebnis) werden zusammen mit einer phonetischen Präsentation des Sprachbefehls und einer der Bedeutung zugeordneten Position, wie zum Beispiel einem Städtenamen und/oder einer Postleitzahl, an das Kraftfahrzeug 2 übertragen.
Es folgt ein Schritt 48, in dem der die Bedeutung des Sprachbefehls (also die Bedeutung im engeren Sinne bzw. das Ergebnis), die phonetische Präsentation des Sprachbefehls und der der Bedeutung zugeordneten Position umfassende Datensatz der Datenbasis 270 hinzugefügt wird. Darüber hinaus wird eine dem Sprachbefehl entsprechende Funktion des Kraftfahrzeuges ausgeführt.
Die Erfindung wird anhand der folgenden Beispiele näher erläutert: Es wird vorausgesetzt, dass ein Benutzer das Spracherkennungssystem aktiviert und die Phrase „Indian Restaurant“ spricht, wobei das Audiosignal im fahrzeugeigenen System erfasst und codiert und dann für eine Übertragung über ein IP-Netzwerk formatiert wird. Beispielhafte Verbindungsverfahren sind sitzungsorientierte TCP- oder HTTP-Anfragen in einem Webdienstmodell. Am off-Board-Spracherkennungssystem 10 empfangene Audiodaten werden dann hinsichtlich verschiedenartiger Informationsteile verarbeitet, z.B. Worterkennung, Sprachverständnis und datengetriebene (data driven) Anpassung oder Abstimmung. Außerdem können die extrahierten Wortbedeutungen, um das Nachschlagen und Suchen von Information im Internet selbst zu ermöglichen, zu Informationsabrufdiensten (Information Retrieval Services) weitergeleitet werden (die im Sinn der Ansprüche Teil des off-Board-Spracherkennungssystems sind).
Schließlich wird eine Antwort in Form von Daten an das Fahrzeug übertragen. Die Antwort beinhaltet: (1) Spracherkennungsdarstellungen der Anfrage selbst, (2) den Ort der Suche, und (3) die gemäß der Suche erhaltenen kontextspezifischen Ergebnisse. Das lokale, fahrzeugeigene Spracherkennungssystem interpretiert diese Informationen, führt gegebenenfalls Formatumwandlungen aus und speichert alle drei Informationsteile in seinem lokalen Cache-Speicher (Datenbank 270). Wenn zukünftige Anfragen mit der Spracherkennungsdarstellung einer zuvor (in der Datenbank 270) gespeicherten Anfrage übereinstimmen und sich auf den gleichen Suchort beziehen wie die zuvor gespeicherte Anfrage, kann das System (on-board-Spracherkennungssystem 27) die kontextspezifischen Ergebnisse für diese Anfrage zurücksenden, ohne dass irgendwelche Information über das Netzwerk übertragen wird, und ohne dass das off-Board-Spracherkennungssystem 10 erforderlich ist. Dies kann nützlich sein, wenn das Netzwerk außer Betrieb ist, so dass das vernetzte Sprachsystem vorübergehend deaktiviert ist. Es ist auch nützlich, wenn schnellere Suchläufe, eine Bandbreiteneinsparung und/oder ein verminderter Serververarbeitungsaufwand erwünscht sind.
Eine in Tabelle 1 dargestellte beispielhafte Ergebnissatzdatendatei würde aufweisen: die phonetische Darstellung von „Indian Restaurant“ (die Anfrage), die Stadt „Palo Alto, California“ (den Ort) und eine Liste mit indischen Restaurants in Palo Alto, Kalifornien (den kontextspezifischen Ergebnissatz).
Im vorstehenden Beispiel wird die Aussprache von „Indian Restaurant“ der Grammatik des lokalen Spracherkennungssystems zusammen mit dem Ausdruck „Palo Alto, California“ hinzugefügt, der den Ort bezeichnet, in dem die Suche ausgeführt wurde. Das nächste Mal, wenn eine Suche ausgeführt wird, die mit der Aussprache „Indian Restaurant“ übereinstimmt und sich auf den Ort „Palo Alto, California“ bezieht (wenn sich das Fahrzeug beispielsweise in Palo Alto befindet), muss das System lediglich die gespeicherten kontextspezifischen Ergebnisse (von der Datenbank 270) zurücksenden.
Gemäß einem anderen Beispiel würde ein Benutzer das Spracherkennungssystem aktivieren und die Phrase „Indian Food“ sprechen. Das Audiosignal wird im fahrzeugeigenen System erfasst und codiert und dann für eine Übertragung über ein IP-Netzwerk formatiert. Beispielhafte Verbindungsverfahren sind sitzungsorientierte TCP- oder HTTP-Anfragen in einem Webdienstmodell. Am off-Board-Spracherkennungssystem 10 empfangene Audiodaten werden dann hinsichtlich verschiedenartiger Informationsteile verarbeitet, z.B. Worterkennung, Sprachverständnis und datengetriebene (data driven) Anpassung oder Abstimmung. Außerdem können die extrahierten Wortbedeutungen, um das Nachschlagen und Suchen von Information im Internet selbst zu ermöglichen, zu Informationsabrufdiensten (Information Retrieval Services) weitergeleitet werden. Schließlich werden die Ergebnisse als Daten an das Fahrzeug übertragen (wie vorstehend erläutert wurde).
Die Ergebnisse beinhalten kontextspezifische Spracherkennungsdarstellungen von Wörtern und Phrasen vom Ergebnissatz. Das lokale fahrzeugeigene Spracherkennungssystem (on-board-Spracherkennungssystem 27) interpretiert diese Information, führt gegebenenfalls Formatumwandlungen aus und fügt die spezifischen Wort- und Phrasendarstellungen für eine verfeinerte Suche seiner Grammatik hinzu. Das fahrzeugeigene System kann dann weitere Spracherkennungsfunktionen für eine verfeinerte Suche ausführen, die es dem Benutzer beispielsweise ermöglicht, kontextspezifische Wörter und Phrasen auszusprechen. Schließlich wird dem Benutzer die Gesamtergebnisinformation präsentiert. Eine beispielhafte Ergebnissatzdatendatei würde eine Liste indischer Restaurants und kontextspezifische Spracherfassungsdarstellungen geeigneter Namen vom Ergebnissatz aufweisen. Tabelle 2 zeigt ein Auflistungsbeispiel innerhalb des Ergebnissatzes.
Der Abschnitt „<phonetic_format>basic</phonetic_format>“ beschreibt das Format der phonetischen Darstellungen von Ergebniswörtern und -phrasen, die durch das off-Board-Spracherkennungssystem 10 erzeugt werden. Die Abschnitte

- „<phonetic string=„satkar“ var=„1“>S AH T K AO R</phonetic>“
- „<phonetic string=„satkar“ var=„2“>S AA T K AA R</phonetic>“ and
- „<phonetic string=„los altos“ var=„1“>L AA S | AE L T OW S</phonetic>“

Die folgende exemplarische Ausführungsform zeigt eine Gesamtübersicht einer Ende-zu-Ende-Suchaufgabe. Nach dem ersten Wechselwirkungsschritt, bei dem eine Sprachsuche bezüglich des IP-adressierbaren Servers ausgeführt wird, wird eine Grammatik in das lokale eingebettete Spracherkennungssystem geladen, die zum Erkennen von Sprachbefehlen für eine verfeinerte Suchaufgabe verwendet wird. Diese Grammatik beinhaltet nun kontextspezifische Wörter und Phrasen, wie beispielsweise „Indische Küche Satkar“ und „Los Altos“. Sie könnte auch andere geeignete Namen und geeignete Teilnamen beinhalten, die mit einem Straßenort, einer Stadt und damit in Beziehung stehenden „Schlüsselwörtern“ in Beziehung stehen. Beim nächsten Wechselwirkungsschritt des Benutzers mit dem kombinierten Spracherkennungssystem kann das eingebettete System dann die aufgezeichnete Sprache unter Verwendung kontextspezifischer Wörter und Phrasen analysieren (bei mit der Liste übereinstimmenden Ergebnissen durch eine eingebettete G2P-Funktion oder Vernetzung), ohne dass für Sprachdienste eine erneute Kommunikation über das Netzwerk erforderlich ist.
Bezugszeichenliste

1: Spracherkennungsanordnung
2: Kraftfahrzeug
3: Satellit
7: Kommunikationsverbindung
10: off-board-Spracherkennungssystem
12: Kommunikationsknoten
15: Internet
16: Terminal
20: Anzeigesteuerung
21: Mensch-Maschine-Schnittstelle
22: Internetschnittstelle
23: Navigationssystem
24: Infotainmentsystem
25: Telefon
26: Klimaautomatik
27: on-board-Spracherkennungssystem
28: Sprachschnittstelle
29: Mikrofon
30: Bussystem
41, 43, 45, 47, 48: Schritt
42, 44, 46: Abfrage
270: Datenbasis

Claims

Spracherkennungsanordnung (1) zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges (2), wobei die Spracherkennungsanordnung (1) ein in dem Kraftfahrzeug (2) angeordnetes Mikrofon zur Eingabe eines Sprachbefehls, eine in dem Kraftfahrzeug (2) angeordnete Datenbasis (270), in der phonetischen Repräsentationen von Sprachbefehlen jeweils zumindest eine Bedeutung zugeordnet ist, und ein in dem Kraftfahrzeug (2) angeordnetes on-board-Spracherkennungssystem (27) zur Ermittlung einer Bedeutung des Sprachbefehls unter Verwendung einer in der Datenbasis (270) gespeicherten Bedeutung einer phonetischen Repräsentation eines Sprachbefehls umfasst, wobei die Spracherkennungsanordnung (1) zudem ein räumlich von dem Kraftfahrzeug (2) getrenntes off-board-Spracherkennungssystem (10) zur Ermittlung einer Bedeutung des Sprachbefehls und ein Kommunikationssystem zur Übertragung eines Sprachbefehls von dem Kraftfahrzeug (2) an das off-board-Spracherkennungssystem (10) und zur Übertragung der von dem off-board-Spracherkennungssystem (10) ermittelten Bedeutung des an das off-board-Spracherkennungssystem (10) übertragenen Sprachbefehls sowie einer dem Sprachbefehl zugeordneten phonetischen Repräsentation von dem off-board-Spracherkennungssystem (10) an das Kraftfahrzeug (2) aufweist, und wobei die Spracherkennungsanordnung (1) dazu ausgestaltet ist, die phonetische Repräsentation des an das off-board-Spracherkennungssystem (10) übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem (10) ermittelten Bedeutung in der Datenbasis (270) einander zugeordnet zu speichern, dadurch gekennzeichnet, dass das off-board-Spracherkennungssystem (10) dazu ausgestaltet ist, empfangene Audiodaten hinsichtlich einer Worterkennung zu verarbeiten und extrahierte Wortbedeutungen zu Informationsabrufdiensten, Information Retrieval Services, weiterzuleiten, um Information im Internet selbst zu suchen, wobei die Bedeutung des Sprachbefehls das Ergebnis der durch die Bedeutung im engeren Sinne angestoßenen Suche ist, und eine der Bedeutung des Sprachbefehls zugeordnete Position von dem off-board-Spracherkennungssystem (10) an das Kraftfahrzeug (2) zu übertragen, und die Spracherkennungsanordnung (1) dazu ausgestaltet ist, die phonetische Repräsentation des an das off-board-Spracherkennungssystem (10) übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem (10) ermittelten Bedeutung und der der Bedeutung zugeordneten Position in der Datenbasis (270) zu speichern, wobei die Spracherkennungsanordnung (1) ein in dem Kraftfahrzeug (2) angeordnetes Navigationssystem zur Bestimmung der Position des Kraftfahrzeuges (2) umfasst und dazu ausgestaltet ist, die Bedeutung des Sprachbefehls mittels des on-board-Spracherkennungssystems in Abhängigkeit der Position des Kraftfahrzeuges (2) oder einer gewählten Position zu ermitteln, indem die Spracherkennungsanordnung (1) dazu ausgestaltet ist, zunächst die Einträge aus der Datenbasis (270) zu laden, die derselben Position zugeordnet sind, wobei die jeweilige Position eine Stadt oder einen Bundesstaat oder ein Gebiet einer bestimmten Postleitzahl oder ein mehrere Städte umfassendes Gebiet oder ein Gebiet, das durch einen Kreis mit einem vorbestimmten Radius um einen bestimmten Punkt definiert ist, umfasst, sodass, wenn zukünftige Anfragen mit der Spracherkennungsdarstellung einer zuvor in der Datenbasis (270) gespeicherten Anfrage übereinstimmen und sich auf den gleichen Suchort beziehen wie die zuvor gespeicherte Anfrage, das on-Board-Spracherkennungssystem (27) diese kontextspezifischen Ergebnisse für diese Anfrage zurücksendet, ohne dass das off-board-Spracherkennungssystem (10) erforderlich ist.
Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges (2), wobei ein Sprachbefehl mittels eines in dem Kraftfahrzeug (2) angeordneten Mikrofons eingegeben wird, wobei mittels eines in dem Kraftfahrzeug (2) angeordneten on-board-Spracherkennungssystems versucht wird, eine Bedeutung des Sprachbefehls unter Verwendung einer in dem Kraftfahrzeug (2) angeordneten Datenbasis (270) zu ermitteln, in der phonetischen Repräsentationen von Sprachbefehlen jeweils zumindest eine Bedeutung zugeordnet ist, wobei der Sprachbefehl von dem Kraftfahrzeug (2) an ein off-board-Spracherkennungssystem (10) übertragen wird, jedoch nur dann, wenn die Bedeutung des Sprachbefehls nicht mittels des on-board-Spracherkennungssystems ermittelt werden konnte, wobei eine von dem off-board-Spracherkennungssystem (10) ermittelte Bedeutung des an das off-board-Spracherkennungssystem (10) übertragenen Sprachbefehls sowie eine dieser Bedeutung zugeordnete Position von dem off-board-Spracherkennungssystem (10) an das Kraftfahrzeug (2) übertragen werden, wobei die phonetische Repräsentation des an das off-board-Spracherkennungssystem (10) übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem (10) ermittelten Bedeutung einander zugeordnet in der Datenbasis (270) gespeichert werden, und wobei die Funktion des Kraftfahrzeuges (2) gemäß der ermittelten Bedeutung des Sprachbefehls bedient oder ausgeführt wird, dadurch gekennzeichnet, dass durch das off-board-Spracherkennungssystem (10) die empfangene Audiodaten hinsichtlich einer Worterkennung verarbeitet und extrahierte Wortbedeutungen zu Informationsabrufdiensten, Information Retrieval Services, weitergeleitet werden, um Information im Internet selbst zu suchen, wobei die Bedeutung des Sprachbefehls das Ergebnis der durch die Bedeutung im engeren Sinne angestoßenen Suche ist, und die phonetische Repräsentation des an das off-board-Spracherkennungssystem (10) übertragenen Sprachbefehls zusammen mit seiner von dem off-board-Spracherkennungssystem (10) ermittelten Bedeutung und der oder einer der Bedeutung zugeordneten Position in der Datenbasis (270) gespeichert wird und die Position des Kraftfahrzeuges (2) bestimmt wird und die Bedeutung des Sprachbefehls mittels des on-board-Spracherkennungssystems in Abhängigkeit der Position des Kraftfahrzeuges (2) oder einer gewählten Position ermittelt wird, indem die Spracherkennungsanordnung (1) zunächst die Einträge aus der Datenbasis (270) lädt, die derselben Position zugeordnet sind, wobei die jeweilige Position eine Stadt oder einen Bundesstaat oder ein Gebiet einer bestimmten Postleitzahl oder ein mehrere Städte umfassendes Gebiet oder ein Gebiet, das durch einen Kreis mit einem vorbestimmten Radius um einen bestimmten Punkt definiert ist, umfasst, sodass, wenn zukünftige Anfragen mit der Spracherkennungsdarstellung einer zuvor in der Datenbasis (270) gespeicherten Anfrage übereinstimmen und sich auf den gleichen Suchort beziehen wie die zuvor gespeicherte Anfrage, das on-Board-Spracherkennungssystem (27) diese kontextspezifischen Ergebnisse für diese Anfrage zurücksendet, ohne dass das off-board-Spracherkennungssystem (10) erforderlich ist.