-
Die vorliegende Erfindung betrifft ein Verfahren, um über einen automatisierten Sprachdialog ein Fahrzeug zu bedienen, sowie ein entsprechend ausgestaltetes Sprachdialogsystem und ein entsprechend ausgestaltetes Fahrzeug.
-
-
Die
DE 603 09 822 T2 beschreibt ein Verfahren und eine Vorrichtung zum Verbessern der Leistungsfähigkeit bei der Spracherkennung.
-
Die
DE 10 2007 037 567 A1 offenbart eine multimodale Bedienung eines Geräts in einem Kraftfahrzeug. Mit einem zweiseitigen Sprachdialog zwischen einem Sprecher und einem Spracherkennungsmodul wird eine Information identifiziert und in einer listenartigen Darstellung mit mehreren Spalten oder Zeilen visualisiert. Diese listenartige Darstellung kann durch Sprachkommandos ausgewählt oder korrigiert werden.
-
Die Bedienung von Fahrzeugen über Spracheingaben hat sich als wesentliches Merkmal aktueller Benutzerschnittstellen im Fahrzeug etabliert. Zur Eingabe komplexer Sachverhalte wird eine entsprechende Information von einem Sprachdialogsystem sequenziell vom Benutzer abgefragt. Dies geschieht durch einen von dem Sprachdialogsystem geführten Dialog, welcher sich dem Benutzer als eine logisch aufeinander aufbauende Reihe von Fragen darstellt. Die Fragen dienen dabei insbesondere zur Eingrenzung eines Sachverhalts, bis das Sprachdialogsystem zu einer eindeutigen Reaktion in der Lage ist. Dabei wird der Dialog primär sprachlich bzw. akustisch zwischen dem Sprachdialogsystem und dem Benutzer geführt. Bei einigen nach dem Stand der Technik bekannten Sprachdialogsystemen wird die akustische Ausgabe das Sprachdialogsystems zusätzlich als Text auf einer Anzeige dargestellt. Dabei muss der Benutzer bei den heute bekannten Sprachdialogsystemen bei jeder Spracheingabe auf eine bestimmte Taste („Push to Talk“ - Taste) drücken, welche einen Spracherkenner öffnet, um die Eingabe des Benutzers aufzuzeichnen.
-
Die nach dem Stand der Technik bekannten Sprachdialogsysteme weisen dabei folgende Nachteile auf:
- • Es ist dem Benutzer nicht möglich, in dem Dialog zu einer beliebigen Stelle zurück zu springen, um eine bereits bestätigte Aussage abzuändern. Dies ist jedoch in der Praxis wünschenswert, da in einigen Fällen erst nach der entsprechenden Reaktion des Sprachdialogsystems auf eine Eingabe des Benutzers der Sinn oder die semantische Wirkung der Eingabe von dem Benutzer eingeschätzt werden kann.
- • Ein Sprachdialog, welcher einem bereits durchgeführten Sprachdialog ähnlich ist, muss nach dem Stand der Technik komplett von vorn begonnen werden. Es ist nicht möglich, den bereits bestehenden Dialog entsprechend abzuändern, um somit die Interaktion zwischen dem Sprachdialogsystem und dem Benutzer abzukürzen.
-
Daher ist es die Aufgabe der vorliegenden Erfindung, die nach dem Stand der Technik bekannten Probleme zumindest teilweise zu lösen oder abzumildern.
-
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogsystems nach Anspruch 1, ein Sprachdialogsystem für ein Fahrzeug nach Anspruch 8 und ein Fahrzeug nach Anspruch 10 gelöst. Die abhängigen Ansprüche definieren bevorzugte und vorteilhafte Ausführungsformen der vorliegenden Erfindung.
-
Im Rahmen der vorliegenden Erfindung wird ein Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs bereitgestellt. Dabei werden von einem Sprachdialogsystem des Fahrzeugs automatisiert mehrere Bedieninformationen von einem Benutzer in Form einer logisch aufeinander aufbauenden Reihe von Sprachdialogelementen abgefragt. Eine insbesondere chronologisch geordnete Liste mit den einzelnen Sprachdialogelementen wird auf einer Anzeige dargestellt. Dabei sind die einzelnen Sprachdialogelemente in der Liste selektierbar, so dass ein beliebiges Sprachdialogelement, welches einer von dem Benutzer per Spracheingabe eingegebenen Bedieninformation entspricht und in der Liste selektiert ist, korrigiert oder wiederholt werden kann.
-
Mit dem erfindungsgemäßen Verfahren werden die Bedieninformationen demnach eingegeben, indem von dem Sprachdialogsystem dem Benutzer pro Bedieninformation eine Frage in akustischer Form gestellt und über eine Spracheingabe von dem Benutzer eine entsprechende Antwort gegeben wird, welche dann mittels einer Spracherkennung erfasst wird.
-
Indem in der Liste der Sprachdialogelemente jedes einzelne Sprachdialogelement selektierbar ist, kann vorteilhafterweise in dem Dialog zwischen dem Sprachdialogsystem und dem Benutzer, welcher in Form dieser Liste dargestellt wird, eine beliebige bereits bestätigte Aussage oder Bedieninformation korrigiert werden. Dadurch wird vermieden, dass der Benutzer alle Bedieninformationen neu eingeben muss, wie es nach dem Stand der Technik der Fall ist.
-
Jedes Sprachdialogelement besteht dabei aus einer Ausgabe des Sprachdialogsystems oder einer Bedieninformation des Benutzers. Bei der Ausgabe des Sprachdialogsystem handelt es sich entweder um eine Frage, welche von dem Sprachdialogsystem an den Benutzer gestellt wird, oder um eine Angabe über eine Aktion des Sprachdialogsystems.
-
Die Ausgaben des Sprachdialogsystems sind dabei von den vorher von dem Benutzer eingegebenen Bedieninformationen abhängig. Mit anderen Worten hängen die weitergehenden Fragen oder Aktionen des Sprachdialogsystems von den vorher gegebenen Antworten oder Bedieninformationen des Benutzers ab.
-
Bei der Darstellung der Sprachdialogelemente auf der Anzeige, werden die Ausgaben des Sprachdialogsystems und die Bedieninformationen gemäß einer erfindungsgemäßen Ausführungsform dialogartig angeordnet so dass auf eine Frage die zugehörige Antwort oder Bedieninformation direkt folgt. Dabei werden die Ausgaben derart dargestellt, dass sie von den Bedieninformationen für den Benutzer unterscheidbar sind.
-
Selektiert der Benutzer eine Frage des Sprachdialogsystems als ein Sprachdialogelement, wird die diesem Sprachdialogelement entsprechende Frage von dem Sprachdialogsystem in akustischer Form wiederholt gestellt und alle auf diese Frage folgenden Ausgaben des Sprachdialogsystems und vorher eingegebenen Bedieninformationen werden gelöscht. Mit anderen Worten wird der Dialog zwischen dem Sprachdialogsystem und dem Benutzer an der der wiederholten Frage entsprechenden Stelle wieder aufgesetzt, wobei die vor dieser Frage eingegebenen Bedieninformationen erhalten bleiben.
-
Mit einer bestimmten Taste (z.B. PTT („Push To Talk“)) kann der Sprachdialog eingeleitet werden. Ob die Spracherkennung anschließend im Verlauf des Sprachdialogs manuell (z.B. wiederum über die bestimmte Taste oder über eine andere Handhabung) gestartet werden muss oder automatisch aktiv ist, hängt von dem Ablauf des Sprachdialogs ab.
-
Selektiert der Benutzer eine Angabe einer Aktion des Sprachdialogsystems als ein Sprachdialogelement, wird die entsprechende Aktion von dem Sprachdialogsystem nochmals ausgeführt.
-
Die Bedieninformation, welche einem in der Liste selektierten Sprachdialogelement entspricht, kann korrigiert werden, indem die entsprechende Bedieninformation von dem Benutzer nochmals über eine Spracheingabe eingegeben und von einer Spracherkennung erfasst wird. Darüber hinaus ist es möglich, dass eine Liste der besten Treffer derjenigen Spracheingabe dargestellt wird, welche vorher zu der entsprechenden zu korrigierenden Bedieninformation geführt hat. Dabei kann der Benutzer in dieser Liste der besten Treffer denjenigen Treffer auswählen, welcher mit der von dem Benutzer gewünschten Bedieninformation übereinstimmt.
-
Dadurch ist es möglich, eine Bedieninformation für den Fall zu korrigieren, dass die Spracherkennung die von dem Benutzer vorgenommene Spracheingabe nicht richtig erfasst hat. Die Korrektur kann dabei sofort nach der Spracheingabe bzw. sofort nach dem Erkennen der fehlerhaften Umsetzung der Spracheingabe erfolgen oder zu einer beliebig späteren Zeit, wobei es unerheblich ist, ob bereits weitere Spracheingaben erfolgt sind und damit weitere Bedieninformationen vorliegen.
-
Die Darstellung einer Bedieninformation erfolgt entweder als ein Text, welcher mit Hilfe einer Spracherkennung als bester Treffer ausgehend von der mittels einer Spracheingabe eingegebenen Bedieninformation erfasst wird, wenn ein Konfidenzmaß der Spracherkennung bei dieser Spracheingabe über einem vorbestimmten Schwellenwert liegt. Es ist aber auch möglich, dass die Darstellung der Bedieninformationen in Form einer Liste von mehreren besten Treffern, welche jeweils als Text dargestellt werden, erfolgt. Diese besten Treffer sind dabei mittels der Spracherkennung ausgehend von der über die Spracheingabe eingegebenen Bedieninformation erfasst. Die Darstellung der Liste wird gewählt, wenn das Konfidenzmaß der Spracherkennung für den besten Treffer bei der entsprechenden Spracheingabe nicht über dem vorbestimmten Schwellenwert liegt. In diesem Fall wählt der Benutzer denjenigen Treffer aus der Liste aus, welcher der von ihm gemeinten Bedieninformation entspricht, wobei dieser Treffer als Text auf der Anzeige für das entsprechende Sprachdialogelement dargestellt wird.
-
Darüber hinaus wird auf der Anzeige dargestellt, ob die Spracherkennung gerade aktiv ist, um eine Bedieninformation von dem Benutzer zu erfassen, oder ob die Spracherkennung beispielsweise über einen speziellen Knopf erst aktiviert werden muss.
-
Bei der vorliegenden Erfindung werden Spracheingaben des Benutzers von einem Spracherkenner in Form eines erkannten Begriffs (für die Spracheingabe) als Bedieninformation beispielsweise in der Form einer Sprechblase des Benutzers in das entsprechende Sprachdialogelement eingetragen. Der Benutzer wird also gewissermaßen von dem Sprachdialogsystem zitiert. Dabei wird insbesondere derjenige von dem Spracherkenner ermittelte Begriff mit der höchsten Konfidenz, also mit der höchsten Ähnlichkeit mit dem phonetischen Eingabesignal (entspricht der Spracheingabe) des Benutzers ausgewählt. Dabei werden von dem Spracherkenner alternative Begriffe mit einer ähnlich hohen Ähnlichkeit zum Eingabesignal ermittelt und in Form einer Liste der besten Treffer zusammen mit dem Begriff mit der höchsten Konfidenz abgespeichert, wobei die Liste der besten Treffer zunächst nicht angezeigt wird. Wenn das Konfidenzmaß für eine Spracheingabe jedoch unterhalb eines vorbestimmten Schwellenwerts liegt, so dass automatisch kein eindeutiger „Favorit“ (bester Treffer) ermittelt werden kann oder sollte, stellt das erfindungsgemäße Sprachdialogsystem automatisch die Liste der besten Treffer innerhalb der Sprechblase des Benutzers dar, so dass der Benutzer gezwungen ist, eine Auswahl innerhalb dieser Liste der besten Treffer vorzunehmen oder den Begriff neu einzusprechen.
-
Im Rahmen der vorliegenden Erfindung wird auch ein Sprachdialogsystem für ein Fahrzeug bereitgestellt, wobei das Sprachdialogsystem ein Mikrofon und einen Lautsprecher umfasst. Dabei werden einem Benutzer über den Lautsprecher mehrere Fragen gestellt, welche der Benutzer über das Mikrofon beantwortet und damit dem Sprachdialogsystem mehrere Bedieninformationen eingibt. Die Bedieninformationen werden dabei von dem Benutzer in Form einer logisch aufeinander aufbauenden Reihe von Sprachdialogelementen, also in Form einer Benutzerführung, abgefragt. Das Sprachdialogsystem umfasst auch eine Anzeige, auf welcher eine Liste mit den einzelnen Sprachdialogelementen dargestellt wird. Die in dieser Liste dargestellten einzelnen Sprachdialogelemente sind selektierbar, wodurch eine beliebige einem selektierten Sprachdialogelement entsprechende Bedieninformation durch den Benutzer korrigierbar oder wiederholbar ist.
-
Die Vorteile des erfindungsgemäßen Sprachdialogsystems entsprechen dabei im Wesentlichen den Vorteilen des erfindungsgemäßen Verfahrens, weshalb hier auf eine Wiederholung verzichtet wird.
-
Schließlich wird im Rahmen der vorliegenden Erfindung ein Fahrzeug bereitgestellt, welches ein erfindungsgemäßes Sprachdialogsystem umfasst.
-
Die vorliegende Erfindung bietet folgende Vorteile gegenüber dem Stand der Technik:
- • Es wird eine Zeitersparnis bei der Eingabe ähnlicher Informationen über zueinander ähnliche Sprachdialoge erzielt. Indem ein vorhandener Sprachdialog nur an den unterschiedlichen Stellen abgeändert wird, um ihn entsprechend der Wünsche des Benutzers abzuändern, muss der Benutzer die sich nicht ändernden Sprachdialogelemente nicht nochmals eingeben.
- • Es wird eine Zeitersparnis durch eine von einem Konfidenzmaß abhängige Darstellung der Liste der besten Treffer für eine Spracheingabe und durch eine multimodale Interaktion mit den in einer Liste dargestellten Sprachdialogelementen erzielt.
- • Eine effiziente Korrektur bereits bestätigter Spracheingaben bzw. Bedieninformationen ist möglich, ohne dass alle Bedieninformationen nochmals eingegeben werden müssen.
- • Mittels der Liste der Sprachdialogelemente werden so genannte Shortcuts für Befehle und Dialogsituationen (z.B. wiederholte Durchführung einer Aktion, Wiederholen einer Frage) bereitgestellt.
- • Durch die erfindungsgemäße Inszenierung des Sprachdialogs, insbesondere durch die grafische Darstellung des Sprachdialogs zwischen Mensch und Maschine, wird die Sprachbedienung des Fahrzeugs positiv inszeniert.
-
Die vorliegende Erfindung ist insbesondere zur Bedienung bestimmter Systeme für ein Fahrzeug geeignet. Selbstverständlich ist die vorliegende Erfindung nicht auf diesen bevorzugten Anwendungsbereich beschränkt, sondern kann auch allgemein zur Bedienung eines Systems eingesetzt werden, welches keinen Berührungspunkt mit einem Fahrzeug aufweist. Darüber hinaus kann die vorliegende Erfindung auch bei Flugzeugen, Schiffen oder gleisgebundenen Fahrzeugen eingesetzt werden.
-
Im Folgenden wird die vorliegende Erfindung durch erfindungsgemäße Ausführungsformen mit Bezug zu den Figuren im Detail beschrieben.
-
In 1 ist ein exemplarischer Ablauf eines Sprachdialogs in Form einer chronologisch sortierten Reihe von Sprechblasen dargestellt.
-
In 2 ist schematisch ein erfindungsgemäßes Fahrzeug mit einem erfindungsgemäßen Sprachdialogsystem dargestellt.
-
Zu Beginn eines in 1a dargestellten Sprachdialogs ist eine Liste 9 von Sprachdialogelementen, welche auf einer Anzeige 3 dargestellt ist, leer. Durch ein Drücken der PTT-Taste („Push To Talk“-Taste) 1 wird ein Sprachdialog (oder Chat Widget des Sprachdialogsystems) gestartet, wobei auch eine Spracherkennungssoftware aktiv geschaltet wird, um eine gesprochene Eingabe von einem Benutzer über ein Mikrofon zu erfassen.
-
Bei einem Einstieg über die PTT-Taste 1 ist ein erstes Sprachdialogelement 13 sofort aktiv und die Spracherkennungssoftware oder der Spracherkenner sind bereit, die gesprochene Eingabe von dem Benutzer zu verarbeiten, wie es in 1b dargestellt ist. Es ist auch möglich, über ein Menü das erste Sprachdialogelement 13 zu aktivieren. Nachdem der Benutzer den Begriff „Nach Berlin“ in das Mikrofon gesprochen hat, wird diese Spracheingabe als Text in Form einer Dialog-Blase als erstes Sprachdialogelement 13 dargestellt. Ein kleines Dreieck 4 oben rechts in dem Sprachdialogelement 13 signalisiert die Möglichkeit, ein Drop-Down-Menü für eine Liste der besten Treffer zu öffnen, welche für die Spracheingabe von dem Spracherkenner ermittelt worden ist. Diese Liste der besten Treffer kann aktiviert werden, indem auf die Mitte einer Wippe 2 gedrückt wird.
-
Im anschließenden in 1c dargestellten Dialog stellt das Sprachdialogsystem die Frage „Welche Straße“, worauf der Benutzer „Kirchweg“ antwortet. Ein mit dem Sprachdialogsystem verbundenes Navigationssystem kann nun aufgrund der vorliegenden Bedieninformationen gestartet werden, was über das Sprachdialogelement 15 mit der Dialog-Blase „Navi wird gestartet“ dem Benutzer auch auf der Anzeige 3 mitgeteilt wird.
-
Durch eine spezielle Darstellung des letzten Sprachdialogelements der Liste 9 (beispielsweise durch einen roten Rand dieses Sprachdialogelements) wird dem Benutzer signalisiert, dass der Spracherkenner aktiviert ist, so dass eine Spracheingabe des Benutzers ohne eine weitere Betätigung von dem Spracherkenner erfasst wird. Wenn diese spezielle Darstellung des letzten Sprachdialogelements nicht vorhanden ist, muss der Spracherkenner manuell (beispielsweise durch Drücken der PTT-Taste 1) aktiviert werden.
-
Wenn der Benutzer die Angabe des Straßennamens korrigieren möchte, selektiert er mittels der Wippe 2 das der Bedieninformation „Kirchweg“ entsprechende Sprachdialogelement 13, wobei das vorher selektierte Sprachdialogelement deaktiv (d.h. nicht aktiv) abgelegt wird.
-
Durch Drücken der Mitte der Wippe 2 wird die Liste 5 der besten Treffer für diejenige Spracheingabe des Benutzers in 1e dargestellt, welche mittels der Spracherkennung zu dem Ergebnis „Kirchweg“ geführt hat. Der Benutzer ist nun in der Lage aus dieser Liste 5 der besten Treffer mit Hilfe der Wippe 2 denjenigen Treffer auszuwählen, welcher dem gewünschten Straßennamen entspricht. Anstelle eines Drückens auf die Wippe 2 hätte der Benutzer auch mittels einer Spracheingabe einen neuen Straßennamen eingeben können.
-
Nach erfolgter Korrektur (bei diesem Beispiel wird „Kirchweg“ durch „Kunstweg“ korrigiert) aktualisiert das Sprachdialogsystem die logisch abhängigen Schritte oder Sprachdialogelemente 13, 14 und selektiert das unterste Sprachdialogelement in der Liste 9.
-
Gemäß der vorliegenden Erfindung wird bei einer manuellen Aktivierung eines Sprachdialogelements 13-15 eine damit verknüpfte Aktion ausgeführt. Dabei existieren folgende Möglichkeiten:
- • Bei dem Sprachdialogelement handelt es sich um eine Frage 14. In diesem Fall wird als verknüpfte Aktion die entsprechende Frage nochmals wiederholt. Die ursprünglich darauf folgenden Antworten, Aktionen und Fragen werden gelöscht.
- • Bei dem Sprachdialogelement handelt es sich um eine Angabe 15 über eine ausgeführte Aktion. In diesem Fall wird als verknüpfte Aktion die bereits ausgeführte Aktion nochmals ausgeführt, wobei die ursprünglich darauf folgenden Antworten und Aktionen erhalten bleiben.
- • Bei dem Sprachdialogelement handelt es sich um eine von dem Benutzer per Spracheingabe eingegebene Bedieninformation 13. In diesem Fall wird als verknüpfte Aktion entweder die Liste der besten Treffer geöffnet oder der Benutzer kann eine neue Bedieninformation mittels Spracheingabe vornehmen. Wenn die Bedieninformation 13 durch den Benutzer verändert wurde, werden der folgende Teil des Sprachdialogs und die damit verbundenen Aktionen des Sprachdialogsystems der neuen Bedieninformation angepasst. Mit anderen Worten werden alle Sprachdialogelemente, welche logisch mit der geänderten Bedieninformation in Verbindung stehen, entsprechend der neuen Bedieninformation überarbeitet.
-
Um die jeweils verknüpfte Aktion durchführen zu können, benötigt das erfindungsgemäße Sprachdialogsystem bestimmte Zusatzdaten, wie es in der nachfolgenden Tabelle beschrieben ist.
Tabelle Zusatzdaten für jeweiligen Typ des Sprachdialogelements
Typ des Sprachdialoqelements | Zusatzdaten |
Frage des Sprachdialogsystems | Sprachdialogkontext, in welchem die Frage gestellt wurde: insbesondere Zielapplikation und bisher vorhandene Bedieninformationen) |
Angabe über ausgeführte Aktion | Daten aus dem Sprachdialog, welche zur Spezifikation der ausgeführten Aktion notwendig sind (z.B. bei einer Aktivierung eines Navigationssystems die Zieladresse und bestimmte Routenoptionen) |
Bedieninformation | Liste der besten Treffer bezüglich der mittels Spracheingabe eingegebenen Bedieninformation, vorherige Fragestellung des Sprachdialogsystems (d.h. Dialogkontext) |
-
Über den Sprachdialog können grundsätzlich alle Funktionen zur Bedienung eines Fahrzeugs adressiert werden. Dabei kann die interaktive Darstellung des Sprachdialogs als so genannte Chat-History in einem Gesamtsystem entweder als eine globale Instanz (beispielsweise parallel zu einem Hauptmenü) oder als eine Anwendung, welche innerhalb eines Hauptmenüs angesprochen werden kann (wie beispielsweise ein Navigationssystem), existieren.
-
Ein Drücken der PTT-Taste 1 kann dementsprechend wahlweise entweder
- • das Sprachdialogsystem initiieren, ohne dass der Sprachdialog angezeigt wird, welcher separat von dem Benutzer aktiviert werden kann, oder
- • das Sprachdialogsystem initiieren, wobei automatisch der Sprachdialog angezeigt wird.
-
In 2 ist schematisch ein erfindungsgemäßes Fahrzeug 10 mit einem erfindungsgemäßen Sprachdialogsystem 12 dargestellt. Das Sprachdialogsystem umfasst Steuermittel 11, eine Wippe 2, eine Anzeige 3, ein Mikrofon 6, einen Speicher 7 und einen Lautsprecher 8. Das Sprachdialogsystem 12 wird über die Steuermittel 11 gesteuert. Zur Bedienung des Fahrzeugs 10 werden einem Benutzer zu einer speziellen Bedienung des Fahrzeugs 10 gehörende Fragen mittels des Lautsprechers 8 gestellt. Abhängig von den auf die jeweilige Frage gegebenen Antworten ermitteln die Steuermittel 11 eine weitere Frage aus dem Speicher 7 oder starten ein bestimmtes Programm (z.B. ein Navigationssystem), wenn die über die Spracheingabe vorgegebenen Bedieninformationen zum Starten dieses Programms ausreichen.
-
Bezugszeichenliste
-
- 1
- PTT-Taste
- 2
- Wippe
- 3
- Anzeige
- 4
- Drop-Down-Menue-Indikation
- 5
- Liste bester Treffer
- 6
- Mikrophon
- 7
- Speicher
- 8
- Lautsprecher
- 9
- Liste der Sprachdialogelemente
- 10
- Fahrzeug
- 11
- Steuermittel
- 12
- Sprachdialogsystem
- 13
- Bedieninformation
- 14
- Frage
- 15
- Angabe über Aktion