DE102013007964B4

DE102013007964B4 - Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung

Info

Publication number: DE102013007964B4
Application number: DE102013007964.0A
Authority: DE
Inventors: Jürgen Steinle
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2022-08-18
Anticipated expiration: 2033-05-11
Also published as: DE102013007964A1

Abstract

Verfahren zum Betreiben einer Eingabevorrichtung (12) eines Kraftfahrzeugs (10), um mittels der Eingabevorrichtung (12) eine von einem Benutzer (14) eingegebene Zeichenfolge (30) zu erkennen, wobei bei dem Verfahren durch die Eingabevorrichtung (12)- über eine vorbestimmte erste Eingabemodalität (20) eine erste von dem Benutzer (14) erzeugte Eingabe (30') der Zeichenfolge (30) empfangen wird und- die erste Eingabe (30') an eine für die erste Eingabemodalität (20) ausgelegte Erkennungseinrichtung (32) übermittelt wird und- eine von der Erkennungseinrichtung (32) auf der Grundlage der ersten Eingabe (30') erzeugte Ergebnisliste (34) empfangen wird, wobei die Ergebnisliste (34) zumindest einen Erkennungskandidaten (36, 38) für die Zeichenfolge (30) umfasst, wobei durch die Eingabevorrichtung (12) unabhängig von der ersten Eingabe (30') eine zweite Ergebnisliste (46, 58) mit zumindest einem Erkennungskandidaten (48, 50, 62, 64) empfangen wird und ein Erkennungskandidat (38, 50, 62), der in beiden Ergebnislisten (34, 46, 58) vorkommt, als die vom Benutzer (14) gemeinte Zeichenfolge (30) zumindest einem Gerät (18) des Kraftfahrzeugs (10) als endgültiges Erkennungsergebnis (54) bereitgestellt wird, dadurch gekennzeichnet, dassa) zum Erzeugen der zweiten Ergebnisliste (58) durch eine Prädiktionseinrichtung (60) auf der Grundlage einer zuvor vom Benutzer (14) festgelegten Vorgänger-Zeichenfolge (28) die Erkennungskandidaten (62, 64) für die zweite Ergebnisliste (58) ermittelt werden, wobei die zweite Ergebnisliste gleich zusammen mit der ersten Ergebnisliste durch die Prädiktionseinrichtung erzeugt wird, indem diese die Erkennungskandidaten (62, 64) für die zweite Ergebnisliste (58) auf der Grundlage von zuvor vom Benutzer eingegebenen Worten eines Satzes, den der Benutzer durch Eingabe einer weiteren Zeichenfolge vervollständigen möchte, erzeugt, oderb) insgesamt über zwei oder mehr unterschiedliche Eingabemodalitäten (20, 20') jeweils eine Eingabe (30', 40) der Zeichenfolge (30) empfangen wird und jeweils eine zugehörige Ergebnisliste (34, 46) mittels einer für die jeweilige Eingabemodalität (20, 20') ausgelegten Erkennungseinrichtung (32, 44, 44') erzeugt wird und das endgültige Erkennungsergebnis (54) auf der Grundlage aller Ergebnislisten (34, 46) festgelegt wird.

Description

Die Erfindung betrifft ein Verfahren zum Betreiben einer Eingabevorrichtung in einem Kraftfahrzeug. Mittels der Eingabevorrichtung kann ein Benutzer eine Zeichenfolge eingeben, also beispielsweise einen Ortsnamen, um ein Navigationsziel festzulegen. Die Zeichenfolge kann der Benutzer dabei über eine vorbestimmte Eingabemodalität eingeben, beispielsweise handschriftlich oder auch als gesprochene Sprache. Zu der Erfindung gehört auch ein Kraftfahrzeug mit einer entsprechenden Eingabevorrichtung.
Um von einem Benutzer in einem Kraftfahrzeug eine Zeicheneingabe, wie beispielsweise einen Ortsnamen oder einen Text für eine E-Mail, empfangen und erkennen zu können, kann in einem Kraftfahrzeug vorgesehen sein, dass eine Server-basierte Online-Spracherkennung durchgeführt wird, bei welcher gesprochene Sprache im Kraftfahrzeug erfasst wird und zu einem fahrzeugexternen Server übermittelt wird, wo der gesprochene Text erkannt und das Ergebnis dann zurück an das Kraftfahrzeug übermittelt wird. Alternativ dazu kann im Kraftfahrzeug selbst auch lokal beispielsweise eine Handschrifterkennung durchgeführt werden.
Aus der EP 2 211 336 A1 ist hierzu eine verbesserte Spracherkennung gemäß dem Oberbegriff des Anspruchs 1 bekannt, bei welcher das Erkennungsergebnis des Spracherkenners auf der Grundlage eines adaptiven Sprachmodells gebildet wird, welches Navigationsinformationen berücksichtigt.
Aus der EP 1 617 409 A1 ist ein Spracherkennungssystem bekannt, das mehrere Erkennungskandidaten für eine gesprochene Eingabe eines Benutzers ermittelt und diese dem Benutzer zur Auswahl in einer Ergebnisliste präsentiert. Der Benutzer kann dann die von ihm gemeinte Zeicheneingabe bestätigen oder quittieren.
Nachteilig ist bei solch einem Verfahren, wenn nicht immer eine sinnvolle Auswahl an Alternativen aus dem Ergebnis der Spracherkennung bzw. der Handschrifterkennung hervorgeht, so dass dem Benutzer in der jeweiligen Ergebnisliste nicht das richtige Erkennungsergebnis angezeigt wird. Damit ist es dem Benutzer nicht möglich, das richtige Erkennungsergebnis durch Quittieren des entsprechenden Listeneintrags in der Ergebnisliste auszuwählen.
Aus der US 2008 / 0 120 102 A1 ist ein System für eine Erkennung gesprochener Sprache bekannt, das vom Benutzer dadurch bei der Spracherkennung unterstützt werden kann, dass er mittels einer Tastatur immer dann, wenn das Spracherkennungssystem ins Stocken gerät, die nicht erkennbaren Worte eintippen kann.
Aus der US 2010 / 0 161 733 A1 ist eine Eingabevorrichtung bekannt, welche während einer Texteingabe eines Benutzers das vom Benutzer als nächstes eingegebene Wort prädiziert, das heißt vorhersagt, indem die bisherigen Vorgänger-Zeichenfolge und ein aktueller Aufenthaltsort des Benutzers berücksichtigt werden.
Aus der US 2002 / 0 196 163 A1 ist in ähnlicher Weise ein System zum Filtern von mehrdeutigen Zeicheneingaben bekannt. Auf Grundlage einer N-Gramm-Suche durch Prädizieren einer aktuellen Zeicheneingabe auf der Grundlage einer Vorgänger-Zeichenfolge eine Mehrdeutigkeit der Zeicheneingabe beseitigt werden.
Auch aus der DE 199 61 476 A1 ist eine Zeichenerkennung bekannt, die für eine Kombination aus einer zuvor vom Benutzer eingegebenen Vorgänger-Zeichenfolge und einer aktuellen Zeicheneingabe eine Gesamtwahrscheinlichkeit dafür ermittelt, dass der Benutzer diese Kombination aus Vorgänger-Zeichenfolge und einem Erkennungsergebnis der aktuellen Zeicheneingabe gemeint hat. Hierzu werden Textmodelle und Graphenmodelle verwendet.
Allgemein bedeutet eine Textprädiktion, dass auf der Grundlage eines Sprachmodells, das für eine Sprache (Englisch: language) typische Buchstaben- und/oder Graphem- und/oder Wortfolgen modelliert, z.B. mittels einer Textdatenbank und auf der Grundlage einer vorangegangenen Zeicheneingabe, also einer Vorgänger-Zeichenfolge, eine Fortsetzung der Zeicheneingabe prädiziert, das heißt vorhergesagt wird und z.B. dem Benutzer als Eingabevorschlag präsentiert wird.
In der US 6 285 785 B1 ist ein Erkennungseingabesystem beschrieben, das auf einer Spracherkennung und einer Handschrifterkennung basiert, wobei die Erkennungsergebnisse beider Erkennungseinrichtungen kombiniert werden. Das Kombinieren erfolgt auf der Grundlage einer gewichteten Summe von Erkennungswahrscheinlichkeiten, wobei eine der Wahrscheinlichkeiten durch den Handschrifterkenner und die andere Wahrscheinlichkeit durch den Spracherkenner berechnet wird. Der Spracherkenner kann ein 3-gramm-Sprachmodell aufweisen, um seine Erkennungsergebnisse zu stabilisieren. Mit dem Sprachmodell werden all diejenigen durch ein Markov-Wortmodell erkannten Wörter, die sehr unwahrscheinlich sind, gelöscht, sodass der Spracherkenner diese Worte nicht mehr ausgibt.
In der US 2011 / 0 071 830 A1 ist ein Spracherkenner beschrieben, der in einem Kraftfahrzeug verwendet werden kann und zur Stabilisierung der Spracherkennungsergebnisse eine Bildauswertung zum Erkennen von Lippenbewegungen nutzt.
Lösungen mit mehreren Ergebnislisten sind aus der DE 10 2005 059 390 A1 und der DE 10 2008 021 954 A1 bekannt.
Der Erfindung liegt die Aufgabe zugrunde, einem Kraftfahrzeug eine robuste Erkennung einer von einem Benutzer eingegebenen Zeichenfolge zu ermöglichen.
Die Aufgabe wird durch ein Verfahren gemäß Patentanspruch 1 und ein Kraftfahrzeug gemäß Patentanspruch 8 gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Unteransprüche gegeben.
Durch das erfindungsgemäße Verfahren wird mittels einer Eingabevorrichtung eines Kraftfahrzeugs eine von einem Benutzer eingegebene Zeichenfolge erkannt, also beispielsweise ein Ortsnamen. Hierzu wird zunächst in an sich bekannter Weise eine erste von dem Benutzer erzeugte Eingabe der Zeichenfolge empfangen. Die Eingabe erzeugt der Benutzer dabei über eine erste vorbestimmte Eingabemodalität, das heißt beispielsweise über eine handschriftliche Eingabe oder durch Aussprechen der Zeichenfolge. Diese erste Eingabe wird dann an eine für diese erste Eingabemodalität ausgelegte Erkennungseinrichtung übermittelt. Bei den genannten Beispielen wären dies also entweder eine Handschrifterkennung oder auch eine automatische Spracherkennung. Die verwendete Erkennungseinrichtung kann in an sich bekannter Weise ausgestaltet sein. Die Erkennungseinrichtung kann sich dabei im Kraftfahrzeug selbst befinden oder aber auch beispielsweise Bestandteil eines fahrzeugexternen Servers des Internet sein.
Auf der Grundlage der ersten Eingabe des Benutzers wird durch die Erkennungseinrichtung eine Ergebnisliste erzeugt, die zumindest einen Erkennungskandidaten für die Zeichenfolge umfasst. Ein Erkennungskandidat ist eine Zeichenfolge, die ein mögliches Erkennungsergebnis darstellt. Die Ergebnisliste wird von der Eingabevorrichtung empfangen. Bei Verfahren aus dem Stand der Technik wird dann aus der Ergebnisliste der Erkennungskandidat, der mit größter Wahrscheinlichkeit der vom Benutzer gemeinten Zeichenfolge entspricht, entnommen und beispielsweise auf einer Anzeigevorrichtung dem Benutzer als das endgültige Erkennungsergebnis angezeigt. Ist das Erkennungsergebnis falsch, das heißt lehnt der Benutzer das angezeigte Erkennungsergebnis ab, so können in der Regel die übrigen Erkennungskandidaten aus der Ergebnisliste dem Benutzer zur Auswahl gestellt werden. Ist auch darunter die vom Benutzer gemeinte Zeichenfolge nicht enthalten, muss der Benutzer in der Regel die Eingabe wiederholen. Begeht der Benutzer dabei systematisch denselben Fehler, der zur Fehlerkennung beim ersten Mal geführt hat, so wird auch die neue Ergebnisliste nicht den richtigen Erkennungskandidaten enthalten.
Bei dem erfindungsgemäßen Verfahren wird nun verhindert, dass der Benutzer durch systematische Fehler immer wieder Eingabelisten erhält, die die vom ihm gemeinte Zeichenfolge nicht enthalten. Hierzu wird durch die Eingabevorrichtung unabhängig von der ersten Eingabe eine zweite Ergebnisliste mit zumindest einem Erkennungskandidaten empfangen. Diese Ergebnisliste basiert weder auf der ersten Eingabe noch auf einer Wiederholung der Eingabe über dieselbe Eingabemodalität. Stattdessen kann diese zweite Ergebnisliste zwei andere Quellen haben.
Gemäß einem Aspekt des erfindungsgemäßen Verfahrens wird zum Erzeugen der zweiten Liste durch die Eingabevorrichtung eine zweite von dem Benutzer erzeugte Eingabe der Zeichenfolge empfangen, und zwar über eine von der ersten Eingabemodalität verschiedene, zweite Eingabemodalität. Hat der Benutzer also beispielsweise die erste Eingabe der Zeichenfolge handschriftlich getätigt, so kann er nun aufgefordert werden, die Zeichenfolge auszusprechen. Die zweite Eingabe wird dann an eine für diese zweite Eingabemodalität ausgelegte zweite Erkennungseinrichtung zum Erzeugen der zweiten Ergebnisliste übermittelt. Auch diese zweite Erkennungseinrichtung kann sich entweder im Kraftfahrzeug selbst oder außerhalb desselben befinden.
Ein anderer Aspekt des erfindungsgemäßen Verfahrens sieht vor, die zweite Ergebnisliste gleich zusammen mit der ersten Ergebnisliste zu erzeugen. Die zweite Ergebnisliste wird hierbei durch eine Prädiktionseinrichtung erzeugt. Beispiele für Prädiktionseinrichtungen sind eine N-Gramm-Prädiktion, und eine automatische Wortvervollständigung auf Grundlage eines Wörterbuches, wenn es sich bei der Vorgängerzeichenfolge beispielsweise um den Anfang eines Wortes handelt. Eine Prädiktionseinrichtung erzeugt die Erkennungskandidaten für die zweite Liste z.B. mittels der beschriebenen Textprädiktion auf der Grundlage einer zuvor vom Benutzer festgelegten Vorgänger-Zeichenfolge, also beispielsweise bereits vom Benutzer eingegebenen Worten eines Satzes, den der Benutzer nun durch Eingabe einer weiteren Zeichenfolge vervollständigen möchte.
Das erfindungsgemäße Verfahren sieht nun in einem weiteren Schritt vor, auf Grundlage der ersten Ergebnisliste und der zweiten Ergebnisliste ein robusteres endgültiges Erkennungsergebnis zu ermitteln, indem aus den beiden Ergebnislisten ein Erkennungskandidat ausgewählt wird, der in beiden Ergebnislisten vorkommt. Die Eingabevorrichtung stellt dann diesen Erkennungskandidaten als die vom Benutzer gemeinte Zeichenfolge in dem Kraftfahrzeug für zumindest ein Gerät bereit, das dieses endgültige Erkennungsergebnis verarbeiten soll.
Das erfindungsgemäße Verfahren, das heißt die Nutzung zweier voneinander unabhängig erstellter Ergebnislisten zum Bilden des endgültigen Erkennungsergebnisses, weist den Vorteil auf, dass durch die Kombination der isolierten Ergebnisse aus beispielsweise Spracherkennung, Handschrifterkennung und N-Gramm-Modell in vielen Fällen ein geeigneterer Erkennungskandidat aus den Ergebnislisten ermittelt werden kann. Mit anderen Worten ist die Wahrscheinlichkeit höher, dass das endgültige Erkennungsergebnis mit der vom Benutzer gemeinten Zeichenfolge übereinstimmt.
Bei der Erkennungsvorrichtung kann es sich beispielsweise um ein Programmmodul handeln, das durch eine zentrale Recheneinrichtung des Kraftfahrzeugs oder ein Infotainmentsystem des Kraftfahrzeugs ausgeführt wird. Unter einer Zeichenfolge ist im Zusammenhang mit der Erfindung ein einzelnes oder eine Folge von Zeichen zu verstehen, wobei jedes Zeichen ein Buchstabe, eine Zahl, ein Satzzeichen (z.B. ?.!,) oder ein Rechensymbol (z.B. +,<) sein kann.
Das erfindungsgemäße Prinzip, die Nutzung mehrerer Ergebnislisten, kann problemlos auf noch weitere Ergebnislisten erweitert werden. Hierzu sieht eine Weiterbildung des Verfahrens vor, über zumindest noch eine weitere, von den ersten beiden Eingabemodalitäten verschiedene Eingabemodalität, z.B. eine Gestenerkennung, jeweils eine weitere Eingabe der Zeichenfolge zu empfangen und jeweils eine zugehörige Ergebnisliste mittels einer entsprechenden, für die jeweilige weitere Eingabemodalität ausgelegten Erkennungseinrichtung zu erzeugen oder im Falle einer externen Erkennungseinrichtung erzeugen zu lassen. Das endgültige Erkennungsergebnis wird dann auf der Grundlage aller Ergebnislisten festgelegt. Durch die Verwendung weiterer Ergebnislisten wird die Wahrscheinlichkeit erhöht, dass das endgültige Erkennungsergebnis richtig ist.
In der Regel sind in den Ergebnislisten die Erkennungskandidaten jeweils gemäß der Wahrscheinlichkeit, dass es sich um das richtige Erkennungsergebnis handelt, geordnet. Mit anderen Worten ist der erste Listeneintrag der wahrscheinlichste Erkennungskandidat, danach folgt der zweitwahrscheinlichste und so weiter. Es kann auch vorgesehen sein, dass in der Ergebnisliste zu jedem Erkennungskandidat ein quantitativer Wahrscheinlichkeitswert enthalten ist. Werden beispielsweise die Erkennungskandidaten mittels eines Hidden-Markov-Modells ermittelt, so kann zu jedem Erkennungskandidat z.B. ein Log-Likelihood-Wert angegeben sein. Liegen solche Ergebnislisten vor, so ergibt sich eine vorteilhafte Weiterbildung des Verfahrens, wenn als das endgültige Erkennungsergebnis derjenige Erkennungskandidat ausgewählt wird, der die größte Gesamtwahrscheinlichkeit aufweist. Hierdurch ergibt sich der Vorteil, dass auch in dem Fall, dass zwei Erkennungskandidaten in allen Listen vorkommen, der Erkennungskandidat, der mit größerer Wahrscheinlichkeit der richtige ist, als das endgültige Erkennungsergebnis ausgewählt wird.
Das erfindungsgemäße Verfahren kann sehr flexibel auf der Grundlage unterschiedlicher Erkennungseinrichtungen realisiert sein. So ist bevorzugt zumindest eine der Erkennungseinrichtungen eine aus den folgenden: eine Handschrifterkennung, eine Spracherkennung, eine Gestenerkennung, eine T9-Erkennung (T9 - text on 9 keys).
Ein weiterer Vorteil ergibt sich, wenn eine Ergebnisliste einer Erkennungseinrichtung zusätzlich durch eine N-Gramm-Prädiktionseinrichtung auf der Grundlage einer zuvor vom Benutzer bereits festgelegten Vorgänger-Zeichenfolge umsortiert wird. Dies kann mit einer der Ergebnislisten oder mehreren oder allen geschehen. Hierdurch kann eine weitere Verbesserung bei der Auswahl eines geeigneten Erkennungskandidaten erreicht werden.
Für den Fall, dass sich eine der Erkennungseinrichtungen außerhalb des Kraftfahrzeugs befindet, ergibt sich ein weiterer Vorteil, wenn bei dem Verfahren durch die Eingabevorrichtung zum Übermitteln der zugehörigen Eingabe nicht die Rohdaten der Eingabe, also beispielsweise eine Datei mit Sprachdaten oder eine Datei mit Pixeldaten einer handschriftlichen Eingabe, übermittelt werden, sondern aus dieser Eingabe zunächst Erkennungsmerkmale extrahiert werden und nur die Erkennungsmerkmale an die fahrzeugexterne Erkennungseinrichtung übermittelt werden. Hierdurch kann die zu übertragene Datenmenge reduziert werden, so dass das erfindungsgemäße Verfahren auch bei geringer Übertragungsbandbreite des Übertragungskanals zwischen Kraftfahrzeug und Erkennungseinrichtung durchgeführt werden kann.
Um auch für den Fall, dass das endgültige Erkennungsergebnis falsch ist, dem Benutzer noch die Nutzung beider Ergebnislisten zu ermöglichen, sieht eine Weiterbildung des Verfahrens vor, aus zumindest einigen Erkennungskandidaten eine Gesamtergebnisliste zu bilden und dem Benutzer zum Auswählen der vom Benutzer gemeinten Zeichenfolge anzuzeigen. Der Benutzer kann dann aus dieser Gesamtergebnisliste das richtige Erkennungsergebnis selbst auswählen. Bevorzugt ist die Gesamtergebnisliste dahingehend sortiert, dass Erkennungskandidaten, die in zwei oder mehr Ergebnislisten vorkommen, in der Gesamtergebnisliste weiter vorne beziehungsweise oben stehen oder auf andere Weise visuelle hervorgehoben sind.
Wie bereits ausgeführt, gehört zu der Erfindung auch ein Kraftfahrzeug. Das Erfindungsgemäße Kraftfahrzeug weist eine Eingabevorrichtung zum Erkennen einer Benutzereingabe einer Zeichenfolge auf. Bei dem erfindungsgemä-ßen Kraftfahrzeug ist die Erkennungsvorrichtung dazu ausgelegt, zum Erkennen der Zeichenfolge eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Bevorzugt ist das Kraftfahrzeug als Kraftwagen, insbesondere als Personenkraftwagen ausgestaltet.
Eine vorteilhafte Weiterbildung des erfindungsgemäßen Kraftfahrzeugs sieht vor, dass die Erkennungseinrichtung mit einem Infotainmentsystem gekoppelt ist und das Infotainmentsystem dazu ausgelegt ist, über die Erkennungsvorrichtung eine Zeichenfolge zum Festlegen eines Navigationsziels und/oder einer Textnachrichtung zu empfangen. Dann kann der Benutzer mittels der Erkennungsvorrichtung das Navigationsmodul des Infotainmentsystems bedienen und/oder zum Beispiel eine SMS-Nachricht (SMS - short message service) eingeben.
Im Folgenden ist die Erfindung noch einmal anhand eines konkreten Ausführungsbeispiels erläutert. Hierzu zeigt die einzige Figur ein Blockschaltbild zu einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs.
Bei den im Folgenden erläuterten Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängige voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
In der Figur (Fig.) ist schematisch ein Kraftwagen 10 gezeigt, bei dem es sich beispielsweise um einen Personenkraftwagen handeln kann. Der Kraftwagen 10 weist eine Eingabevorrichtung 12 auf, mittels welcher ein Benutzer 14 eine Zeichenkette 16 eingeben kann, die von der Eingabevorrichtung 12 dann beispielsweise einem weiteren Gerät 18 des Kraftfahrzeugs 10 als Benutzereingabe bereitgestellt werden kann. Beispielsweise kann es sich bei der Zeichenkette 16 um einen Ortsnamen handeln, bei dem Gerät 18 dann beispielsweise um ein Navigationsgerät. Bei der Zeichenkette 16 kann es sich beispielsweise auch um eine E-Mail oder eine SMS-Nachricht handeln, bei dem Gerät 18 dann beispielsweise um ein Infotainmentsystem oder ein anderes Kommunikationsgerät, um diese Nachrichten an einen Empfänger außerhalb des Kraftfahrzeugs zu versenden.
Der Benutzer 14 kann die Zeichenkette 16 durch unterschiedliche Eingabemodi oder Eingabemodalitäten festlegen. Eine Eingabemodalität 20 bildet z.B. eine handschriftliche Eingabe, bei welcher der Benutzer 14 mit einem Eingabewerkzeug 22 oder mit einem Finger einer Hand 24 in einem Eingabefeld 26, beispielsweise einem Touch-Display, die Zeichenkette 16 handschriftlich eingibt. In dem gezeigten Beispiel hat der Benutzer 14 bereits ein erstes Wort 28 (XYZ) eingegeben, das hier eine Vorgänger-Zeichenfolge darstellt. Der Benutzer 14 möchte eine weiteres Wort 30 (AD) eingeben. Das Wort 30 bildet eine aktuelle Zeichenfolge, die von einem Handschrifterkenner 32 der Eingabevorrichtung 12 erkannt werden muss, das heißt eine vom Benutzer mittels des Eingabeelements 22 gezeichnete Zeichenspur 30' muss in den Text des Wortes 30 (die vom Benutzer gemeinte Buchstabenfolge AD) umgewandelt werden. In dem gezeigten Beispiel handelt es sich bei dem Handschrifterkenner 32 um einen Bestandteil des Kraftfahrzeugs 10, also beispielsweise ein entsprechendes Programmmodul. Der Handschrifterkenner 32 kann auch außerhalb des Kraftfahrzeugs 10 bereitgestellt sein. Er bildet dann ein fahrzeugexternes System, mit welchem die Eingabevorrichtung 12 kommuniziert.
Das Ergebnis der Handschrifterkennung zu der Zeichenspur 30' gibt der Handschrifterkenner 32 als eine Ergebnisliste 34 aus. In dem gezeigten Beispiel umfasst die Ergebnisliste 34 zwei Erkennungskandidaten 36, 38. Der Erkennungskandidat 36 (die Buchstabenfolge AP) ist von dem Handschrifterkenner 32 als die wahrscheinlichere Buchstabenfolge erkannt worden und steht in der Ergebnisliste 34 entsprechend an erster Stelle. Sie kann dann beispielsweise in dem Eingabefeld 26 in Druckbuchstaben als das Erkennungsergebnis angezeigt werden.
Der Benutzer lehnt in dem gezeigten Beispiel dieses Erkennungsergebnis, das heißt den Erkennungskandidaten 36 ab, weil es sich nicht um die vom Benutzer 14 gemeinte Zeichenfolge, das Wort 30 (nämlich die Buchstabenfolge AD) handelt. Die Eingabevorrichtung 12 kann dann beispielsweise den Benutzer 14 dazu auffordern (z.B. durch Anzeigen einer entsprechenden Meldung oder durch eine Sprachausgabe), das gemeinte Wort auszusprechen. Der Benutzer 14 kann dann das Wort 30 aussprechen. Der Sprachschall 40 in dem Kraftfahrzeug 10 kann durch ein Mikrofon 42 erfasst werden und einem automatischen Spracherkenner 44 zur Auswertung übergeben werden. Diese Spracherkennung bildet eine zweite Eingabemodalität 20'.
Der Spracherkenner 44 erzeugt aus dem Signal des Sprachschalls 40 in an sich bekannter Weise eine weitere Ergebnisliste 46 mit hier zwei Erkennungskandidaten 48, 50. Der Spracherkenner 44 kann beispielsweise als Programmmodul einer zentralen Recheneinrichtung des Kraftfahrzeugs 10 oder eines Infotainmentsystems des Kraftfahrzeugs 10 bereitgestellt sein. Anstelle des kraftfahrzeuginternen Spracherkenners 44 kann auch ein fahrzeugexterner Spracherkenner 44' verwendet werden, wie dies in der Figur angedeutet ist.
In dem gezeigten Beispiel wird durch den Spracherkenner 44 der Erkennungskandidat 48 (die Buchstabenfolge AT) als das wahrscheinlichste Erkennungsergebnis eingeordnet, weshalb der Erkennungskandidat 48 in der Ergebnisliste 46 oben steht. Mit anderen Worten wird auch durch den Spracherkenner 44 die vom Benutzer gemeinte Zeichenfolge (AD) nur als zweitwahrscheinlichstes Erkennungsergebnis (Erkennungskandidat 50) in der Ergebnisliste 46 ausgegeben.
Die Eingabevorrichtung kann nun eine Vergleichseinrichtung 52 aufweisen, welche mit dem Handschrifterkenner 32 und dem Spracherkenner 44 gekoppelt ist. Die Vergleichseinrichtung 52 kann beispielsweise ein Programmmodul einer zentralen Recheneinrichtung oder eines Infotainmentsystems des Kraftfahrzeugs 10 sein. Die Vergleichseinrichtung 52 kann die Ergebnislisten 34, 46 empfangen. Das Vergleichsmodul 52 kann dann überprüfen, ob ein bestimmter Erkennungskandidat sowohl in der Ergebnisliste 34 als auch in der Ergebnisliste 46 enthalten ist. In dem gezeigten Beispiel sind die Erkennungskandidaten 38 der Ergebnisliste 34 und der Erkennungskandidat 50 der Ergebnisliste 46 identisch. Mit anderen Worten wird durch die Vergleichseinrichtung 52 erkannt, dass die Buchstabenfolge AD zwar weder vom Handschrifterkenner 32 noch von der Spracherkennung 44 als das wahrscheinlichste Erkennungsergebnis erkannt wurde, aber von beiden als ein mögliches richtiges Erkennungsergebnis identifiziert ist. Die Vergleichseinrichtung 52 erkennt des Weiteren, dass der Erkennungskandidat 36 und der Erkennungskandidat 48 mit der jeweils anderen Eingabemodalität 20, 20' nicht erkannt wurden.
Das robusteste Erkennungsergebnis, das also über beide Eingabemodalitäten 20, 20' erkannt wurde, bilden somit die Erkennungskandidaten 38 und 50, das heißt die Buchstabenfolge AD. Durch die Vergleichseinrichtung 52 wird deshalb die Buchstabenfolge AD als die vom Benutzer 14 gemeinte Zeichenfolge festgelegt und als endgültiges Erkennungsergebnis 54 beispielsweise an einer Ausgabeschnittstelle 56 bereitgestellt, über welche die Eingabevorrichtung 12 beispielsweise mit den anderen Gerät 18 des Kraftfahrzeugs 10 gekoppelt ist.
In dem in der Figur gezeigten Beispiel ist des Weiteren gezeigt, dass eine weitere Ergebnisliste 58 auf der Grundlage einer Prädiktion des Wortes 30 durch einen Prädiktor 60 gebildet werden kann. Der Prädiktor 60 kann beispielsweise ein N-Gramm-Prädiktor sein oder auch ein Prädiktor, der auf Grundlage eines Sprachmodells aus einer Wortfolge das nächste Wort, das heißt das Wort 30, auf statistischer Grundlage prädiziert.
Der Prädiktor 60 empfängt in dem gezeigten Beispiel die Vorgänger-Zeichenfolge 28 und prädiziert daraus die Erkennungskandidaten 62, 64, aus welchen die Ergebnisliste 58 besteht. Der Prädiktor 60 kann ebenfalls ein Programmmodul einer zentralen Recheneinheit oder eines Infotainmentsystems des Kraftfahrzeugs 10 sein. Der Prädiktor 60 kann ebenfalls mit der Vergleichseinrichtung 52 gekoppelt sein. Die Vergleichseinrichtung 52 kann dazu ausgelegt sein, das endgültige Erkennungsergebnis 54 auf Grundlage aller Ergebnislisten 34, 46, 58 zu bilden.
Anders als in dem gezeigten Beispiel kann auch vorgesehen sein, dass der Benutzer 14 das Wort 30 zunächst über die Spracheingabe (Eingabemodalität 20') eingibt und bei einer Fehlerkennung dann eine handschriftliche Eingabe (Eingabemodalität 20) verwendet wird. Es kann auch vorgesehen sein, nur eine der Eingabemodalitäten 20, 20' zu nutzen und die Ergebnislisten 34, 46 dieser Eingabemodalität 20, 20' mit der Ergebnisliste 58 des Prädiktors 60 durch die Vergleichseinrichtung 52 zu kombinieren.
Die Vergleichseinrichtung 52 kann auch dazu ausgelegt sein, die Erkennungskandidaten 36, 38, 48, 50, 62, 64 aller von ihr verarbeiteten Ergebnislisten 34, 46, 58 zu einer Gesamtergebnisliste zu kombinieren. Eine Reihenfolge der darin enthaltenen Erkennungskandidaten 62, 64, 66 kann dabei durch eine Gesamtwahrscheinlichkeit festgelegt sein, mit welcher die Erkennungskandidaten 62, 64, 66 auf der Grundlage aller genutzten Erkennungseinrichtungen 32, 44, 60 als die vom Benutzer 14 gemeinte Zeichenfolge 30 identifiziert wird. Für den Fall, das das zuerst durch die Vergleichseinrichtung 52 gewählte endgültige Erkennungsergebnis 54 falsch ist, kann der Benutzer 14 dann aus der Gesamtergebnisliste 16 einen weiteren Erkennungskandidaten 62, 64, 66 auswählen.
Mittels eines Prädiktors 60', der wie der Prädiktor 60 ausgestaltet sein kann, kann optional auch eine Reihenfolge die Erkennungskandidaten 36, 38 der Ergebnisliste 34 des Handschrifterkenners 32 und/oder der Erkennungskandidaten 48, 50 der Ergebnisliste 46 des Spracherkenners 44 verändert werden. In dem gezeigten Beispiel könnte dies dazu führen, dass der Ergebnisliste 34 der Erkennungskandidat 38 als das wahrscheinlichste Ergebnis an erster Stelle der Ergebnisliste 34 eingeordnet wird. Entsprechend könnte bei der Ergebnisliste 46 eine Gesamtwahrscheinlichkeit für den Erkennungskandidaten 50 größer als die Gesamtwahrscheinlichkeit des Erkennungskandidaten 38 resultieren, so dass auch in der Ergebnisliste 46 der Erkennungskandidat 50 an erster Stelle stehen würde. Hierdurch kann das Gesamterkennungsergebnis 54 in einigen Fällen verbessert werden.
Im Folgenden ist noch mal anstelle der in der Figur symbolisch dargestellten Zeichenkette (XYZ AD) ein konkretes Beispiel beschrieben, wie es sich beim Verfassen einer SMS-Nachricht mittels der erfindungsgemäßen Eingabevorrichtung realisieren lässt.
Der Benutzer 14 verwendet hierzu eine SMS-Vorlage, die durch Eingeben eines einzelnen Wortes 30 vervollständigt werden kann. Der Benutzer 14 will also eine vorhandene SMS-Vorlage mit Hilfe beispielsweise einer Spracheingabe oder Handschrifteingabe vervollständigen. Die Vorlage könnte beispielsweise lauten: „Ich fahre gerade nach X. Wir treffen uns dort in Y Minuten.“ X und Y stellen hier Leerstellen oder Slots dar, die vom Benutzer auszufüllen sind.
Der Benutzer 14 diktiert (per Spracheingabe) den Text: „Hausen“, um den Slot X zu befüllen. Eine serverbasierte Spracherkennung 44' liefert der Eingabevorrichtung 12, die einen Client aus Sicht der serverbasierten Spracherkennung 44 bildet, ein Erkennungsergebnis mit mehreren Alternativkandidaten für den eingegebenen Text, zum Beispiel: Aussen, Pause, Pausen, Hause, Hausen. Hierbei sei angenommen, dass „Aussen“ aus Sicht der Spracherkennung der Erkennungskandidaten mit der höchsten Wahrscheinlichkeit ist. Der Text wird zunächst wie folgt vervollständigt: „Ich fahre gerade nach Aussen.“
Der Benutzer will nun das falsch eingesetzte Wort korrigieren und gibt das Wort „Hausen“ mittels der Handschrifteingabe ein. Die Handschrifterkennung liefert ein Erkennungsergebnis mit mehreren Alternativkandidaten für den eingegebenen Text, zum Beispiel: Hauser, Liousen, I-Lausen, Hausen. Da „Hauser“ aus Sicht der Handschrifterkennung der Kandidat mit der höchsten Wahrscheinlichkeit ist, würde bei unabhängigem Betrieb der Spracherkennung und der Handschrifterkennung nun der Text wie folgt vervollständigt: „Ich fahre gerade nach Hauser.“ Der Benutzer müsste nun, um den richtigen Text zu erhalten, aufwändig manuell den richtigen Kandidaten aus der Ergebnisliste der Handschrifterkennung auswählen. Falls hierbei die Benutzerschnittstelle der Eingabevorrichtung nur zum Beispiel drei Erkennungskandidaten zur Auswahl darstellen könnte, könnte der gewünschte Kandidat gar nicht zur Auswahl angeboten werden.
Bei der erfindungsgemäßen Eingabevorrichtung wird bei der Auswahl des besten Erkennungskandidaten für die Handschrifterkennung aber die Information, welche die Spracherkennung liefert, miteinbezogen. Im Beispiel kann man somit den Erkennungskandidaten aus der Handschrifterkennung „Hausen“ als den Top-Kandidaten deklarieren, weil es der einzige ist, der auch bei der Spracherkennung vorkommt. In diesem Beispiel ist das sogar dann sinnvoll, wenn dieser Erkennungskandidat aus der isolierten Sicht der Handschrifterkennung eine sehr niedrige Wahrscheinlichkeit hat. Man kann also, indem man die bisher isolierten Wahrscheinlichkeitswerte der beiden Erkennungen geeignet kombiniert, bessere Gesamt-Trefferwahrscheinlichkeiten erreichen.
Eine weitere Verbesserung bei der Auswahl der geeigneten Kandidaten kann erreicht werden, indem man die N-Gramm-Logik z.B. der lokalen (fahrzeuginternen) Textdatenbanken mit den Erkennungsergebnissen der serverbasierten Spracherkennung kombiniert. Die beiden vom Server für die Spracherkennung gelieferten Kandidaten: „Pause“ und „Pausen“ sind im Kontext „Ich fahre gerade nach ...“ nicht sinnvoll, was zum Beispiel anhand einer im Kraftfahrzeug vorhandenen Quadgramm-Statistik leicht detektiert werden kann. Anhand dieser Information kann also das vom Server gelieferte, isolierte Spracherkennungsergebnis: Aussen, Pause, Pausen, Hause, Hausen umsortiert werden zu: Aussen, Hause, Hausen, Pause, Pausen. Der gewünschte, richtige Kandidat wird somit im aktuellen Beispiel von der fünften Stelle auf die dritte hochpriorisiert. In vielen Fällen kann diesen Ansatz der richtige Kandidat sogar bis zur ersten Stelle hochpriorisiert werden.
Durch das Beispiel ist gezeigt, wie durch Nutzung von unterschiedlichen Eingabemodalitäten 20, 20' und/oder Kombinieren der Eingabemodalitäten 20, 20' mit einer Prädiktion 60 ein robusteres Erkennungsergebnis für die Eingabe einer Zeichenfolge in eine Eingabevorrichtung 20 eines Kraftfahrzeugs 10 erreicht werden kann.

Claims

Verfahren zum Betreiben einer Eingabevorrichtung (12) eines Kraftfahrzeugs (10), um mittels der Eingabevorrichtung (12) eine von einem Benutzer (14) eingegebene Zeichenfolge (30) zu erkennen, wobei bei dem Verfahren durch die Eingabevorrichtung (12) - über eine vorbestimmte erste Eingabemodalität (20) eine erste von dem Benutzer (14) erzeugte Eingabe (30') der Zeichenfolge (30) empfangen wird und - die erste Eingabe (30') an eine für die erste Eingabemodalität (20) ausgelegte Erkennungseinrichtung (32) übermittelt wird und - eine von der Erkennungseinrichtung (32) auf der Grundlage der ersten Eingabe (30') erzeugte Ergebnisliste (34) empfangen wird, wobei die Ergebnisliste (34) zumindest einen Erkennungskandidaten (36, 38) für die Zeichenfolge (30) umfasst, wobei durch die Eingabevorrichtung (12) unabhängig von der ersten Eingabe (30') eine zweite Ergebnisliste (46, 58) mit zumindest einem Erkennungskandidaten (48, 50, 62, 64) empfangen wird und ein Erkennungskandidat (38, 50, 62), der in beiden Ergebnislisten (34, 46, 58) vorkommt, als die vom Benutzer (14) gemeinte Zeichenfolge (30) zumindest einem Gerät (18) des Kraftfahrzeugs (10) als endgültiges Erkennungsergebnis (54) bereitgestellt wird, dadurch gekennzeichnet, dass a) zum Erzeugen der zweiten Ergebnisliste (58) durch eine Prädiktionseinrichtung (60) auf der Grundlage einer zuvor vom Benutzer (14) festgelegten Vorgänger-Zeichenfolge (28) die Erkennungskandidaten (62, 64) für die zweite Ergebnisliste (58) ermittelt werden, wobei die zweite Ergebnisliste gleich zusammen mit der ersten Ergebnisliste durch die Prädiktionseinrichtung erzeugt wird, indem diese die Erkennungskandidaten (62, 64) für die zweite Ergebnisliste (58) auf der Grundlage von zuvor vom Benutzer eingegebenen Worten eines Satzes, den der Benutzer durch Eingabe einer weiteren Zeichenfolge vervollständigen möchte, erzeugt, oder b) insgesamt über zwei oder mehr unterschiedliche Eingabemodalitäten (20, 20') jeweils eine Eingabe (30', 40) der Zeichenfolge (30) empfangen wird und jeweils eine zugehörige Ergebnisliste (34, 46) mittels einer für die jeweilige Eingabemodalität (20, 20') ausgelegten Erkennungseinrichtung (32, 44, 44') erzeugt wird und das endgültige Erkennungsergebnis (54) auf der Grundlage aller Ergebnislisten (34, 46) festgelegt wird.
Verfahren nach Anspruch 1, wobei gemäß Alternative b) insgesamt über die zwei oder mehr unterschiedlichen Eingabemodalitäten (20, 20') jeweils eine Eingabe (30', 40) der Zeichenfolge (30) empfangen wird und hierbei zum Erzeugen einer weiteren Ergebnisliste (46) durch die Eingabevorrichtung (12) eine zweite von dem Benutzer (14) erzeugte Eingabe (40) der Zeichenfolge (30) über eine von der ersten Eingabemodalität (20) verschiedene, zweite Eingabemodalität (20') empfangen wird und die zweite Eingabe (40) an eine für die zweite Eingabemodalität (20') ausgelegte zweite Erkennungseinrichtung (44, 44') zum Erzeugen der weiteren Ergebnisliste (46) übermittelt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei a) in den Ergebnislisten (34, 46, 58) jeder Erkennungskandidat (36, 38, 48, 50, 62, 64) gemäß der Wahrscheinlichkeit, dass es sich um das richtige Erkennungsergebnis handelt, eingeordnet ist und/oder zu jedem Erkennungskandidat (36, 38, 48, 50, 62, 64) ein Wahrscheinlichkeitswert zu dieser Wahrscheinlichkeit enthalten ist und b) als das endgültige Erkennungsergebnis (54) der Erkennungskandidat mit der größten Gesamtwahrscheinlichkeit ermittelt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei zumindest eine der Erkennungseinrichtungen (32, 44, 44') eine aus den folgenden ist: eine Handschrifterkennung (32), eine Spracherkennung (44, 44'), eine Gestenerkennung.
Verfahren nach einem der vorhergehenden Ansprüche, wobei durch eine N-Gramm-Prädiktionseinrichtung (60') eine oder mehrere oder alle der Ergebnislisten (34, 46) auf der Grundlage einer zuvor vom Benutzer (14) festgelegten Vorgänger-Zeichenfolge (28) umsortiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei sich zumindest eine der Erkennungseinrichtungen (44') außerhalb des Kraftfahrzeugs (10) befindet und bei dem Verfahren durch die Eingabevorrichtung (12) zum Übermitteln der zugehörigen Eingabe (40) aus dieser Eingabe (40) Erkennungsmerkmale extrahiert werden und an die fahrzeugexterne Erkennungseinrichtung (44') übermittelt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei aus zumindest einigen Erkennungskandidaten (62, 64, 66) aller Ergebnislisten (34, 46, 58) eine Gesamtergebnisliste (60) gebildet wird und dem Benutzer (14) zum Auswählen der vom Benutzer (14) gemeinten Zeichenfolge (30) angezeigt wird.
Kraftfahrzeug (10) mit einer Eingabevorrichtung (12) zum Erkennen einer Benutzereingabe (30', 40) einer Zeichenfolge (30), dadurch gekennzeichnet, dass die Eingabevorrichtung (12) dazu ausgelegt ist, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.
Kraftfahrzeug (10) nach Anspruch 8, wobei die Eingabevorrichtung (12) mit einem Infotainmentsystem (18) gekoppelt ist und das Infotainmentsystem (18) dazu ausgelegt ist, über die Eingabevorrichtung (12) eine Zeichenfolge (30) zum Festlegen eines Navigationsziels und/oder einer Textnachricht zu empfangen.