DE60215272T2

DE60215272T2 - Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen

Info

Publication number: DE60215272T2
Application number: DE60215272T
Authority: DE
Inventors: Philippe R. Sanata Barbara Morin; Jean-Claude Santa Barbara Junqua; Luca Santa Barbara Rigazio; Robert C. Thousand Oaks Boman; Peter Santa Barbara Veprek
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 2001-08-03
Filing date: 2002-07-30
Publication date: 2007-08-30
Anticipated expiration: 2022-07-31
Also published as: EP1286330B1; ATE342564T1; US6996528B2; EP1286330A3; EP1286330A2; US20030033146A1; DE60215272D1

Description

Die vorliegende Erfindung betrifft eine Dateneingabe mittels Stimme unter ungünstigen Bedingungen.
Probleme, die mit der Fehlererkennung und Korrektur verbunden sind, wenn Sprache erkannt werden soll, variieren entsprechend spezifischer Anwendung und der Situationen und Einstellungen, die mit diesen verbunden sind. Beispielsweise in einem ruhigen Büro kann der Benutzer einer Sprachdiktatanwendung sich auf die aktive Anzeige in der Form eines Computerbildschirms derart verlassen, dass er auf jegliche Fehler, die in das Spracherkennungsverfahren eingeführt wurden, aufmerksam gemacht wird. Der gleiche Benutzer kann dann diese Fehler unter Verwendung einer Computertastatur korrigieren. Alternativ erlauben einige Anwendungen einem Benutzer, sprachlich einen Text, der so angezeigt ist, auszuwählen und zu korrigieren.
Fahrer von Motorfahrzeugen befinden sich in anderen Situationen. Da sowohl Augen als auch Hände mit der Aufgabe des Fahrens beschäftigt sind, kann ein Fahrer sich nicht immer auf ein aktives Display und eine Tastatur zur Fehlererkennung und Korrektur verlassen. Ein Versuch, sich dieses Problems anzunehmen, ist in der US 6,067,521 beschrieben, wobei erzeugte Sprache, die mit einer geographischen Position, die von dem Benutzer für die Fahrt ausgewählt wurde, verbunden ist, an den Benutzer übermittelt wird. Wenn der Benutzer verbal einen neuen Ort während der Verarbeitung des ersten Orts oder innerhalb eines festgelegten Zeitrahmens eingibt, wird die vorherige Eingabe vergessen und anstelle der neue Ort verwendet.
Ein interaktives Benutzerspracherkennungssteuerungssystem zur Erkennung einer vollständigen Sequenz von Schüsselwörtern, beispielsweise eine Telefonnummer durch Eingabe, Verifizieren und Bearbeiten von verschieden langen Äußerungsketten, die durch definierte Pausen voneinander getrennt sind, ist in der US 4,870,686 beschrieben.
Die Vorrichtungssteuerung verwendet Zeitmesser, die die Pausen zwischen den Satzteilzeichenketten, die von der Spracherkennungsvorrichtung erkannt werden, überwachen. Wenn einer Zeichenkette ein vorbestimmter Pausenintervall folgt, werden die erkannten Zeichen mittels eines Sprachgenerators wiederholt. Eine zusätzliche Zeichenkette kann dann eingegeben werden und nur die nachfolgende Kette wird nach der nächsten Pause wiederholt.
Gesetzeshüter müssen jedoch mit speziellen Problemen, beispielsweise bei der Eingabe von Kfz-Kennzeichen für eine Datenbankabfrage rechnen. Die Erkennungsfehlerrate bleibt hoch, insbesondere in lauter Umgebung, in der sich oft solche Polizisten befinden. Bekannte Geräuschquellen umfassen Sirenen, Radiogeschwätz, quietschende Reifen, Hupen und sogar Schüsse. Emotionale Faktoren (beispielsweise Stress) können ferner die Sprachqualität beeinflussen, wodurch es schwierig wird, das Gesprochene zu erkennen. Wenn die Schwierigkeit der Situation hinzugefügt wird, können Polizisten nicht immer die vollständige Nummer des Kfz-Kennzeichens erfassen, das in einigen Amtsbezirken separat identifizierbare Komponenten enthalten kann. Es müssen körperliche Bewegungen ausgeführt werden, um die visuelle Kontrolle und Aneignung weniger Buchstaben nacheinander zu erleichtern.
Gemäß einem ersten Aspekt der vorliegenden Erfindung ist ein Verfahren, wie es in Anspruch 1 definiert ist, vorgesehen.
Bei einer bevorzugten Ausführungsform wird ein Fokusfeld basierend auf der Wortsemantik bestimmt. Vorzugsweise wird nach Interpretation jeder Eingabeäußerung ein Audio-Feedback ausgeführt. Vorzugsweise wird, nachdem ein komplettes Formular ausgefüllt wurde und zur Datenbankabfrage abgeschickt wurde, eine automatische Anpassung ausgeführt.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung ist eine Vorrichtung, wie sie in Anspruch 10 definiert ist, vorgesehen.
Die Erfindung wird nachfolgend nur beispielhaft unter Bezugnahme auf die begleitenden Zeichnungen beschrieben, wobei
1 ein Systemdatenflussdiagramm einer bevorzugten Ausführungsform des Dateneingabesystems ist, das eine Anwendung des Systems bei einem Kfz-Kennzeicheneingabesystem für Polizisten darstellt, und
2 ein Flussdiagramm eines derzeit bevorzugten Verfahrens zum Analysieren von Eingabeworten für die Dateneingabe oder von Befehlen zum Ausführen der Korrekturfunktionen ist.
Gemäß 1 verwendet die derzeit bevorzugte Ausführungsform ein geeignetes Mikrophon 1, in das ein Polizist spricht, um die gesamte oder einen Abschnitt der Kfz-Kennzeicheninformation, die überwacht wird, einzugeben. Das Mikrophon 10 kann entweder ein Mikrophon für Nahbesprechung, das dafür geeignet ist, dass es in der Hand gehalten wird oder zur Anbringung an der Polizeiuniform geeignet ist, sein. Das Eingabesystem kann wahlweise kabellos sein. Das Mikrophon 10 kann alternativ ein Rauschunterdrückungsmikrophon sein, das an einer geeigneten Position in dem Polizeifahrzeug angeordnet ist. Wenn gewünscht, kann ein zweites Mikrophon verwendet werden, um ein Hintergrundgeräuschsignal zu erhalten, das von dem Signal, das von dem Mikrophon 10 bereitgestellt wird, abgezogen werden kann, um die Wirkungen von Umgebungsgeräuschen zu verringern, die bei dieser Anwendung erheblich sein können.
Die Ausgabe des Mikrophons 10 ist mit einem A/D-Umwandler 12 verbunden, der den Audioeingabezwischenspeicher 14 versorgt. Der Eingabezwischenspeicher 14 weist vorzugsweise eine geeignete Größe auf, um mehrere Äußerungen der Eingabesprache zu speichern. Aufgrund des möglicherweise hohen Hintergrundgeräuschpegels speichert das System die Audioeingabe in dem Eingabezwischenspeicher 14 für einen ausreichenden Zeitraum, damit das System bestimmen kann, ob der Inhalt des Eingabezwischenspeichers 14 Eingabesprache oder Hintergrundgeräusche repräsentiert.
Um dies zu erzielen, nimmt ein Endpunkterkennungsmodul 16 kontinuierlich Proben des Inhalts des Eingabezwischenspeichers 14. Das Endpunkterkennungsmodul 16 stellt ein Signal, das Sprache vorliegt, für eine Erkennungsvorrichtung 18 bereit. Die Erkennungsvorrichtung 18 verwendet ein Lexikon 20 von Worten, die die Erkennungsvorrichtung 18 erkennen kann. Sobald das Endpunkterkennungsmodul 16 anzeigt, dass Sprache in dem Eingabezwischenspeicher 14 vorliegt, analysiert die Erkennungsvorrichtung 18 den Inhalt des Eingabezwischenspeichers 14, indem sie eine Worterkennung für das Eingabeaudiosignal ausführt. Obwohl die Endpunkterkennung ausgeführt wird, um zu bestimmen, ob ein Sprachsignal vorliegt oder nicht, werden der wahre Anfangspunkt und Endpunkt der Eingabesprache durch die Erkennungsvorrichtung 18 durch Worterkundung bestimmt.
Die Erkennungsvorrichtung 18 ist vorzugsweise als eine kontinuierlich arbeitende Spracherkennungsvorrichtung ausgelegt. In anderen Worten gesagt, kann ein Polizist mit einer normalen Sprachkadenz, als ob er mit einer weiteren Person sprechen würde, sprechen. Obwohl es für den Polizisten möglich ist, zwischen einzelnen Wortäußerungen anzuhalten, ist es nicht notwendig, dies zu tun, da die kontinuierlich arbeitende Spracherkennungsvorrichtung 18 eine kontinuierliche Sprachkadenz verarbeiten kann. Obwohl das Dateneingabeformular mehrere Felder enthalten kann, die ausgefüllt werden müssen, braucht der Sprecher dem System nicht ausdrücklich ansagen, welches Feld gemeint ist, das im Eingabefokus steht. Eine Äußerung kann ferner Informationen für mehrere Felder gleichzeitig bereitstellen. Wenn drei Felder vorhanden sind, nämlich ein Staatenbezeichnungsfeld für das Kfz-Kennzeichen, ein Jahresfeld für das Kfz-Kennzeichen und ein Zahlenfeld für das Kfz-Kennzeichen vorhanden sind, könnte ein Benutzer den Staat und die Kennzeichennummer (insgesamt oder teilweise) in einer Äußerung eingeben. Der Dialogmanager, der nachfolgend beschrieben wird, kann solch einen Fluss, der auf der eindeutigen Semantik, die den erkannten Worten zugehörig ist (d.h. die Liste von Staaten ist festgelegt und vorbekannt, Werte für das Jahresfeld des Kfz-Kennzeichens können einfach bestimmt werden), verarbeiten.
Bei der gegenwärtig bevorzugten Ausführungsform speichert das Lexikon 20 antrainierte Modelle für alle Worte, die nötig sein könnten, um das Kfz-Kennzeicheneingabeformular zu beschreiben. Diesbezüglich werden die Buchstaben des Alphabets, Staatennamen und Zahlen von 0 bis 9 beispielsweise als „Worte" angesehen und sind in dem Lexikon 20 gespeichert. Um Spracherkennungsfehler zu verringern, wird ein spezielles Vokabular für die Eingabe von Buchstaben verwendet. Jeder Buchstabe weist ein Wortäquivalent auf, das weniger anfällig gegen Verwechselung ist. In einer lauten Umgebung ist es schwierig (sogar für menschliche Zuhörer), beispielsweise zwischen „p" und „t" zu unterscheiden. Bei diesem spezifischen Beispiel werden die Wörter „Paul" anstelle des Buchstabens „p" und „Tom" anstelle des Buchstabens „t" verwendet. Ferner sind in dem Lexikon 20 die zusätzlichen gesprochenen Befehle, die nachfolgend im Detail beschrieben werden, gespeichert, mit denen der Polizist beispielsweise entweder falsch gelesene Kfz-Kennzeichennummern oder nicht korrekt erkannte gesprochene Äußerungen korrigieren kann.
Die Ausgabe der Erkennungsvorrichtung 18 wird an den Dialogmanager 22 geleitet. Der Dialogmanager 22 hat mehrere Funktionen. Eine Funktion ist es, die Ausgabewörter der Erkennungsvorrichtung 18 zu analysieren und diese als Blöcke in einem Ausgabeformularzwischenspeicher 24 zu speichern. Der Dialogmanager 22 analysiert ferner die erkannten Worte, um diese zu isolieren und auf die zu reagieren, die gesprochene Befehle zu Feldinformationen enthalten. Basierend auf dem semantischen Inhalt der Eingabe sendet der Dialogmanager 22 die Werte an die zugehörigen Felder. Wenn die Äußerung „New Jersey Zebra 5 6" ausgesprochen wird, wird der Dialogmanager 22 den Wert des Staats durch „NJ" ersetzen und die Zeichenkette „Z56" in das Zahlenfeld des Kfz-Kennzeichens eingeben. Der Dialogmanager 22 kommuniziert mit einem Text-Sprache-Konvertierungssystem 26, das ein Audio-Feedback über ein geeignetes Lautsprechersystem 28 bereitstellt. Das Text-Sprache-Konvertierungssystem 26 kann auf der Sprachsynthesetechnologie, wenn gewünscht, basieren. Da das Vokabular des Text-Sprache-Konvertierungssystems 26 relativ begrenzt ist, kann alternativ eine digital aufgezeichnete menschliche Stimme verwendet werden. Solch eine digital aufgezeichnete menschliche Stimme wird derzeit bevorzugt, da sie sich natürlicher anhört.
Der Ausgabeformularzwischenspeicher 24 dient als Sammelbereich für den Aufbau der gesamten Kfz-Kennzeicheninformation, wenn die Information durch den Polizisten identifiziert und in das System eingelesen wird. Der Dialogmanager 22 kann einigen der Felder Standardwerte zuweisen. Wenn das laufende Jahr 2001 ist und die Polizeiabteilung, die das System verwendet, beispielsweise Los Angeles ist, wird der Wert 2001 als Standardwert für das „Zulassungsjahr" des Kfz-Kennzeichens festgelegt und der Wert „CA" für Kalifornien als ein Standardwert für den „Zulassungsstaat" des Kfz-Kennzeichens festgelegt. Eine Darstellung des Inhalts des Ausgabeformularzwischenspeichers 24 ist bei „30" gezeigt. Bei der Darstellung hat der Polizist „Charlie Adam Null Sieben Nora" ausgesprochen und diese Äußerung wird in dem Ausgabeformularzwischenspeicher 24, wie bei „30" dargestellt, gespeichert. Es wird angenommen, dass der Polizist die teilweise Kfz-Kennzeicheninformation in zwei Satzgliedern, nämlich „Charlie Adam Null" und „Sieben Nora" ausgesprochen hat. Der Dialogmanager 22 behandelt diese zwei Eingabesatzglieder als separate Blöcke, da sie mit einer ausreichenden Pause zwischen den Satzgliedern ausgesprochen wurden, so dass die Erkennungsvorrichtung 18 diese nicht als ein kontinuierliches Satzglied ausgegeben hat. Der Dialogmanager 22 unterstützt ein Formularformatierungshistorienmodul 32, um den Inhalt des letzten ausgesprochenen Blocks zu kennzeichnen. Die Formatierungshistorie innerhalb des Formularformatierungshistorienmoduls 32 verfolgt alle Abänderungen, die in all den Feldern auftreten, wie nachfolgend detaillierter beschrieben werden wird. Diese Formatierungshistorie erlaubt es dem Dialogmanager, den letzten ausgesprochenen Block zu löschen, wenn der Polizist den entsprechenden Löschbefehl gibt.
Die derzeit bevorzugte Ausführungsform ist multi-modal. Sprachliche und visuelle Eingabe- und Ausgabemöglichkeiten sind vorgesehen. Um dies darzustellen, ist der Dialogmanager 22 als mit einem tragbaren PC-Anschluss, beispielsweise eines geeignet ausgestatteten tragbaren PCs 40, der eine Tastatur 42, eine Cursor-Steuervorrichtung 44 und einen Berührungsbildschirm 46 aufweist, verbunden gezeigt. Wenn gewünscht, kann daher der Polizist die Kfz-Kennzeicheninformation unter Verwendung der Tastatur 42, der Cursor-Steuervorrichtung 44 oder des Berührungsbildschirms 46 eingeben. Das Feedback an den Polizisten wird ähnlicherweise visuell durch den Berührungsbildschirm 46, wie es gleichzeitig über das Lautspre chersystem 28 bereitgestellt wird, bereitgestellt.
Sobald der Polizist die gesamte Kfz-Kennzeicheninformation eingegeben hat und mit ihrer Korrektheit zufrieden ist, veranlasst ein ausgesprochener Befehl an den Dialogmanager 22, dass der Ausgabeformularzwischenspeicher 24 an das Kommunikationsmodul 50 geleert wird. Das Kommunikationsmodul kommuniziert kabellos mit einem geeigneten Datenbanksuchserver 52, der auf die Führerschein- und Kfz-Kennzeicheninformationsdatenbank 54 Zugriff hat. Das Datenbanksuchsystem 52 nutzt die Kfz-Kennzeicheninformation, die von dem Polizisten bereitgestellt wird, um festzustellen, ob mit dem Fahrzeug irgendwelche besonderen Berechtigungen oder andere Informationen verbunden sind. Diese Information wird dann zurück an das Kommunikationsmodul 50 kommuniziert und dann wiederum an den Dialogmanager 22 weitergegeben. Der Dialogmanager 22 zeigt dann die übermittelte Information auf dem Berührungsbildschirm 46 an und gibt ferner wahlweise einige oder alle der zugesandten Informationen an das Text-Sprache-Konvertierungssystem 26 aus.
Bei der derzeit bevorzugten Ausführungsform filtert der Dialogmanager 22 die zurückgesandte Information derart, dass nur die wichtigste Information über das Text-Sprache-Konvertierungssystem 26 ausgegeben wird. Der Polizist wird daher nicht mit zu vielen hörbaren Informationen überschüttet, während er oder sie abschätzt, wie mit der vorliegenden Situation umgegangen werden soll. Wenn das identifizierte Fahrzeug als gestohlen gemeldet ist oder wenn vom letzten bekannten Fahrer angenommen wird, dass er bewaffnet und gefährlich ist, würde beispielsweise diese Information über das Text-Sprache-Konvertierungssystem 26 kommuniziert. Wenn im Gegensatz dazu das Fahrzeug in einem unbedeutenden Unfall in den letzten 3 Jahren verwickelt war, aus dem keine Anklage erfolgte, würde diese Information unterdrückt.
Die bevorzugte Ausführungsform verwendet ein Vollduplex-Kommunikationssystem. Der Polizist kann in das Mikrophon 10 sprechen, während gleichzeitig das Text-Sprache-Konvertierungssystem 26 ein hörbares Feedback bereitgestellt. Diesbezüglich unterscheidet sich das bevorzugte System von einem Halbduplex-Funkkommunikationssystem, bei dem nur eine Partei spricht, während die andere zuhört, jedoch beide Parteien nicht gleichzeitig sprechen können Das Vollduplex-System der bevorzugten Ausführungsform ist ausgelegt, um einen natürlichen Dialogverkehr bereitzustellen. Der Dialogmanager 22 ist ausgelegt, um auf Eingabeäußerungen eines Polizisten und Korrekturen dieser Äußerungen in einer sehr natürlichen Weise zu reagieren. Diese natürliche Dialoginteraktion ist sehr wichtig, da Polizisten oft Stresssituationen ausgesetzt sind, in denen sie schnell eine mögliche gefährliche Situation erkennen und in einer geeigneten Weise auf diese reagieren müssen. Oft ist es für den Polizisten nicht möglich, auf einen Computermonitor zu schauen oder auf einer Tastatur zu schreiben. Sprache ist daher das einzige praktische Mittel für den Polizisten, die neuesten Informationen zu erhalten, auf die er sich verlassen kann.
Diesbezüglich ist das Problem der Kfz-Kennzeichensuche technologisch schwieriger, als es auf den ersten Blick erscheint. Da die Hintergrundgeräusche in einem Polizeifahrzeug oft stark und sehr unvorhersehbar sind, kann es passieren, dass das Erkennungssystem viele Fehler macht. Im Gegensatz zu einem Textverarbeitungsdiktatsystem, bei dem die erkannten Wörter auf Korrektheit durch Betrachten des Kontexts überprüft werden können, ist die Kfz-Kennzeichensuchanwendung schwieriger, da es keinen Kontext gibt.
Beispielsweise besteht bei einer Textverarbeitungsdiktatanwendung eine ausgesprochene Äußerung typischerweise aus Nomen, Verben, Adjektiven und Adverbien, die in einer vorhersehbaren Weise, basierend auf der Grammatik der Sprache, verknüpft sind. Die Kenntnis dieser Grammatik, was manchmal Sprachmodell genannt wird, ermöglicht, dass die Erkennungsvorrichtung das korrekte Wort besser auswählen kann, sogar wenn die akustischen Werte gering sind. Im Gegensatz dazu weisen die Zahlen des Kfz-Kennzeichens kein ähnliches Sprachmodell auf. Die Zahl 0 kann genauso oft der Zahl 1 folgen, wie den Zahlen 2, 3 oder 4. Um die größere Komplexität des Kfz-Kennzeichensucheproblems zu lösen, nutzt die derzeit bevorzugte Ausführungsform ein eng verbundenes Dialogmodell, das ein sofortiges Feedback an den Polizisten für jeden gesprochenen Textblock bereitstellt, wodurch der Polizist sofort die Gelegenheit hat, jegliche Erkennungsfehler zu korrigieren.
2 stellt dar, wie der bevorzugte Dialogmanager 22 (1) arbeitet. Die Erkennungsvorrichtung 18 (1) liefert den erkannten Ausgabetext als Wortblöcke, während sie in kontinuierlicher Sprache erkannt werden. Wenn der Polizist „Adam", „Berta" und „Charlie" als drei separate Satzglieder, die durch natürliche Sprechpausen voneinander getrennt sind, ausspricht, wird daher beispielsweise die Erkennungsvorrichtung 18 die drei separaten Blöcke, die jeweils ein Wort enthalten, (d.h. diese Worte entsprechen den Buchstaben A, B und C) ausgeben. Andererseits wird die Erkennungsvorrichtung 18, wenn der Polizist „Adam Berta" und „Charlie" ausspricht, zwei Blöcke ausgeben, wobei der erste Block die Buchstaben A und B und der zweite Block den Buchstaben C enthält. Der Dialogmanager 22 betrachtet die Ausgabe der Erkennungsvorrichtung 18 als Eingaben in das Dialogsystem. Wie in Schritt 100 (2) dargestellt, teilt der Dialogmanager 22 die Eingabe in Blöcke und jeder Eintrag wird dann evaluiert, um zu bestimmen, ob er eine feldspezifische Angabe oder ein Befehl ist. Dieser Schritt ist bei 102 dargestellt. Wenn im Schritt 102 der Eintrag kein Befehl ist, wird der Eintrag verwendet, um das zugehörige Ausgabeformularzwischenspeicherfeld (durch Ersetzen oder Konkatenation), wie im Schritt 104 dargestellt, zu aktualisieren. Wie in Schritt 104a dargestellt, werden die Felder, die zu aktualisieren sind, basierend auf der Semantik, die den erkannten Worten verbunden ist, bestimmt. Die Aktualisierung wird durch Ersetzen des Jahresfeldinhalts, wie im Schritt 104b1 dargestellt, durch Konkatenation mit dem Zahlenfeldinhalt, wie in Schritt 104b2 dargestellt, und/oder durch Ersetzen des Staatenfeldinhalts, wie in Schritt 104b3 dargestellt, ausgeführt. Der Eintrag wird dann als gesprochene Ausgabe (Schritt 106) wiedergegeben.
Wenn im Schritt 102 der Eintrag als Befehl erkannt wird, wird alternativ der Befehl im Schritt 108 verarbeitet. Obwohl eine beliebige Anzahl von Befehlen vorgesehen sein kann, sind hier fünf beispielhafte Befehle dargestellt. In 2 ist jeder Befehl als ein separater logischer Durchlaufpfad identifiziert. Wenn beispielsweise der Befehl das Wort „nein" ist, wird dieser Befehl wie im Schritt 110 durch Löschen des letzten Dateneintrags verarbeitet.
Bezogen auf 1 wird, wenn der Befehl „nein" direkt nach dem Eintrag des Kfz-Kennzeichenbuchstaben „7N" ausgesprochen wird, dann der letzte eingetragene Block „7N" gelöscht.
Mehrere Befehle können die gleiche Wirkung aufweisen. Wie in 2 dargestellt, kann daher der Befehl „Korrektur" auch zur Löschung des letzten Dateneintrags im Schritt 110 führen.
Um dem Polizisten zu ermöglichen, die gesamte Führerscheininformation, die er bis dahin eingegeben hat, zu löschen, ist der Befehl „Alles Löschen" vorgesehen. Das Aussprechen dieses Befehls führt dazu, das der gesamte Inhalt des Ausgabeformularzwischenspeichers 24 (1) mit allen Standardwerten, die, wie im Schritt 112 (2) dargestellt, gespeichert sind, gelöscht wird. Wenn der Polizist möchte, dass der Inhalt des Zwischenspeichers wiederholt wird, um die gesamte Nummer zu überprüfen, können er oder sie den Befehl „Wiederholen" eingeben. Dieser Befehl veranlasst das System, den gesamten Block als gesprochene Ausgabe an das Text-Sprache-Konvertierungssystem 26 (1), wie im Schritt 114 (2) dargestellt, zu wiederholen. Explizite Befehle zur Auswahl des Feldes, für das der Wert nachfolgend ausgesprochen wird, können definiert werden. Beispielsweise könnte der Befehl „Kfz-Kennzeichenjahr" bereitgestellt werden.
Sobald der Polizist damit zufrieden ist, dass die korrekte Kfz-Kennzeicheninformation eingegeben wurde, spricht der Polizist den Befehl „Senden" aus. Dieser Befehl führt dazu, dass der Inhalt des Ausgabeformularzwischenspeichers 24 (1) an das Kommunikationsmodul 50 (1), wie in Schritt 116 (2) dargestellt, abgegeben wird.
Als ein weiteres Beispiel zeigt Tabelle 1 eine typische Dialoginteraktion. Die Tabelle zeigt die Spracheingabe des Benutzers (Benutzereingabe), welche Nachricht an das Text-Sprache-Konvertierungssystem abgegeben wird und/oder zusätzliche Spracherzeugungsmittel (Bestätigungsnachricht), und den aktuellen Inhalt jedes Felds des Formularzwischenspeichers. Es ist zu vermerken, dass Tabelle 1 ein Beispiel darstellt, bei dem der Polizist einen visuellen Fehler gemacht hat und entschieden hat, den gesamten Zwischenspeicher zu löschen und von vorne zu beginnen, und ein Beispiel solches, bei dem die Erkennungsvorrichtung einen Erkennungsfehler ge macht hat und der Polizist entscheidet, diesen zu verbessern und fortzufahren.
Dialog Nr. #1:

Benutzereingabe=„Utah 1 7"
Bestätigungsnachricht=„Utah 1 7"
Formularzwischenspeicher=(Jahr= „2001"; Staat= „UT"; Zahl= „17")

Dialog Nr. #2:

Benutzereingabe=„Alles Löschen"
Bestätigungsnachricht=<Alles Löschen – Glockenton>
Formularzwischenspeicher=(Jahr= „2001"; Staat= „NJ"; Zahl= „")

Dialog Nr. #3:

Benutzereingabe=„Kalifornien 5 6"
Bestätigungsnachricht=„Kalifornien 5 6"
Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „56")

Dialog Nr. #4:

Benutzereingabe=„Ozean 9"
Bestätigungsnachricht=„Ozean 5"
Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl="5605")

Dialog Nr. #5:

Benutzereingabe=„Korrektur"
Bestätigungsnachricht=<Korrektur – Glockenton>
Formularzwischenspeicher=(Jahr="2001"; Staat= „CA"; Zahl= „56")

Dialog Nr. #6:

Benutzereingabe=„Ozean 9"
Bestätigungsnachricht=„Ozean 9"
Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „5609")

Dialog Nr. #7:

Benutzereingabe=„Zebra Marie 6"
Bestätigungseingabe=„Zebra Marie 6"
Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „5609ZM6")

Dialog Nr. #8:

Benutzereingabe=„Wiederholen"
Bestätigungsnachricht=„Kalifornien 56 Ozean 9 Zebra Marie 6"
Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „5609ZM6")

Dialog Nr. #9:

Benutzereingabe=„Senden"
Bestätigungsnachricht=„Abfrage der Datenbank....."
Formularzwischenspeicher=(Jahr= „2001 "; Staat= „CA"; Zahl= „5609ZM6")

Sprecheranpassung kann in Beziehung mit dem Dialogmodell effizient genutzt werden. Durch Erlernen der Stimmmuster, die für den Sprecher spezifisch sind, kann die Genauigkeit der Spracherkennung verbessert werden. Nach einigen Anpassungen wird stufenweise das Sprecher-unabhängige-System zu einem Sprecherabhängigen-System. Basierend auf dem Dialogmodell kann ein sicheres Anpassungsverfahren verwendet werden. Die Sprachblöcke, die eindeutig sind (d.h. die explizit von dem Benutzer korrigiert wurden) sind Kandidaten für die Anpassung. In diesem Fall ist die Anpassung für den Benutzer klar und kann im Hintergrund automatisch ausgeführt werden. Optional kann auch eine explizite Anpassung verwendet werden. Hierbei kann der Sprecher gebeten werden, vor dem Gebrauch mehrere Sätze ins System zu sprechen.
Die Beschreibung der Erfindung ist nur beispielhaft und Varianten, die nicht von dem Geist der Erfindung abweichen, fallen daher in den Schutzbereich der Erfindung, wie er in den anhängenden Ansprüchen definiert ist.

Claims

Verfahren für die Dateneingabe mittels Stimme zum Ausfüllen von Formularen folgende Schritte umfassend Mitteilen einer verbalen Eingabe durch einen Sprecher an Spracherkennungsmittel (18), Identifizieren wenigstens eines erkannten gesprochenen Wortes in einer verbalen Eingabe, wobei das erkannte Wort wenigstens einen feldspezifischen Wert oder Befehl enthält und wobei das Formular zwei oder mehr Felder aufweist, die ein Verknüpfungsfeld umfassen, das aus verknüpften Zeichen besteht, die kein Wort bilden, und ferner umfassend Bestimmen, ob das erkannte Wort, basierend auf Semantik, mit einem der Felder des Formulars korreliert, Aktualisieren eines vorgegebenen Felds des Formulars mit dem erkannten Wort, wenn das erkannte Wort mit dem vorgegebenen Feld korreliert, Aktualisieren des Verknüpfungsfelds mit dem ersten Buchstaben des erkannten Worts, wenn das erkannte Wort mit keinem der weiteren Felder des Formulars korreliert, Wiederholen erkannter Werte an den Sprecher über ein Text-Sprache-Konvertierungssystem mit Empfang weiterer verbaler Eingaben des Sprechers, Abweisen von unzuverlässigen oder unsicheren Eingaben, für die eine Zuverlässigkeitsbewertung gering ist, und Aufrechterhalten einer Dialoghistorie, die Bearbeitungsvorgänge und Korrekturvorgänge in allen aktiven Feldern ermöglicht.
Verfahren gemäß Anspruch 1, ferner umfassend den Schritt des Bestimmens eines Fokusfeldes, basierend auf Wortsemantik.
Verfahren gemäß Anspruch 1, wobei ein Audio-Feedback nach der Interpretation jeder verbalen Eingabe ausgeführt wird.
Verfahren gemäß Anspruch 1, wobei eine automatische Anpassung ausgeführt wird, sobald ein gesamtes Formular ausgefüllt und für eine Datenbankabfrage abgesendet wurde.
Verfahren gemäß Anspruch 1, wobei ein Sicherungseingabesystem zur zusätzlichen Sicherheit und Flexibilität vorgesehen ist.
Verfahren gemäß Anspruch 1, wobei die Befehle wenigstens einen der nachfolgenden Befehle umfasst, nämlich einen Korrekturbefehl zum Löschen einer letzten Dateneingabe, einen Löschbefehl zum Löschen einer gesamten Ausgabe aus einem Zwischenspeicher mit Wiederherstellung aller Ausgangsparameter, einen Wiederholbefehl zur Wiederholung wenigstens einer der folgenden Angaben umfasst, nämlich der Inhalte eines Formulars als Sprachausgabe oder eines Sendebefehls zum Löschen eines Zwischenspeichers für ein Ausgabeformular an ein Kommunikationsmodul.
Verfahren gemäß Anspruch 1, wobei die feldspezifischen Werte wenigstens eine der folgenden Angaben umfassen, nämlich Buchstaben und Zahlen eines Zahlenfelds eines Kfz-Kennzeichens, Zahlen eines Jahresfelds eines Kfz-Kennzeichens und mindestens eine der folgenden Angaben für ein Staatenbezeichnungsfeld eines Kfz-Kennzeichenfelds, nämlich einen Staatennamen oder eine Abkürzung für einen Staatennamen umfasst und mindestens eine der folgenden Angaben für ein Fahrzeugtypen-Feld eines Kfz-Kennzeichens umfasst, nämlich Fahrzeughersteller oder Fahrzeugmodellbezeichnung.
Verfahren gemäß Anspruch 1, wobei die Bearbeitungsvorgänge wenigstens einen der Vorgänge, nämlich Ersetzen des Inhalts eines Felds durch einen feldspezifischen Wert oder Konkatenation des Inhalts eines Felds eines feldspezifischen Werts umfassen.
Verfahren gemäß Anspruch 1, wobei die Korrekturschritte wenigstens einen der folgenden Schritte umfassen, nämlich Löschen der letzten Dateneingabe oder Löschen eines gesamten Ausgabeformularzwischenspeichers, wobei das Löschen eines gesamten Ausgabeformularzwischenspeichers zu der Wiederherstellung der Ausgangsparameter führt.
Vorrichtung für die Dateneingabe mittels Sprache zur Ermöglichung des Ausfüllens eines Formulars umfassend Spracherkennungsmittel (18), die für den Empfang einer verbalen Eingabe eines Sprechers geeignet sind und Worte aus der Spracheingabe erkennen können, wobei das Formular zwei oder mehr Felder unter Einschluss eines Dateienverknüpfungsfelds, das aus verknüpften Zeichen besteht, die kein Wort bilden, aufweist und ferner umfassend einen Dialogmanager (22), der geeignet ist, um erkannte Worte von den Spracherkennungsmitteln zu erhalten und die erkannten Worte mit einem der Felder des Formulars basierend auf Semantik zu dem erkannten Wort zu verknüpfen, wobei der Dialogmanager ein vorgegebenes Feld des Formulars mit dem erkannten Wort aktualisiert, wenn das erkannte Wort mit dem vorgegebenen Feld korreliert und das Dateienverknüpfungsfeld mit dem ersten Buchstaben des ersten Worts aktualisiert wird, wenn das erkannte Wort mit keinem der weiteren Felder des Formulars korreliert, Spracherzeugungsmittel (26), die mit den Spracherkennungsmitteln kommunizieren und so betreibbar sind, dass sie erkannte Worte zurück an den Sprecher wiederholen, und Mittel zur Aufrechterhaltung der Dialoghistorie in Verbindung mit dem Dialogmanager zum Aufrechterhalten des Inhalts der Felder des Formulars aufweisen, wodurch Bearbeitungsvorgänge und Korrekturvorgänge bezüglich der Felder ermöglicht werden.
Vorrichtung gemäß Anspruch 10, ferner umfassend eine Benutzeroberfläche, wobei die Benutzeroberfläche ein Backup-Eingabe-System zur zusätzlichen Sicherheit und Flexibilität bereitstellt.
Vorrichtung gemäß Anspruch 11, wobei die Benutzeroberfläche wenigstens eines der folgenden Mittel, nämlich eine Tastatur, eine aktive Anzeige oder einen Berührungsbildschirm umfasst.
Vorrichtung gemäß Anspruch 10, wobei die Spracherzeugungsmittel (26) wenigstens eines der folgenden Mittel, nämlich einen Sprachgenerator oder Mittel zur Reproduktion einer im voraus aufgezeichneten Stimme umfassen.
Vorrichtung gemäß Anspruch 10, wobei ein Fokusfeld basierend auf Wortsemantik bestimmt wird.
Vorrichtung gemäß Anspruch 10, wobei das Audio-Feedback nach der Interpretation jeder verbalen Eingabe ausgeführt wird.
Vorrichtung gemäß Anspruch 10, wobei eine automatische Anpassung ausgeführt wird, sobald ein vollständiges Formular ausgefüllt und für die Datenbankabfrage abgesendet wurde.
Vorrichtung gemäß Anspruch 10, wobei die Befehle wenigstens einen der folgenden Befehle umfassen, nämlich einen Korrekturbefehl zum Löschen der letzten Dateneingabe, einen Löschbefehl zum Löschen einer gesamten Ausgabe aus einem Zwischenspeicher mit Wiederherstellung aller Ausgangsparameter, einen Wiederholbefehl zur Wiedergabe wenigstens einer der folgenden Angaben, nämlich der Inhalte eines gesamten Formulars oder der Inhalte eines gesamten Formularfelds als Sprachausgabe, einen weiterführenden Befehl zum Abschicken einer gesamten Ausgabe aus einem Zwischenspeicher an ein Kommunikationsmodul.
Vorrichtung gemäß Anspruch 10, wobei die feldspezifischen Werte wenigstens eine der folgenden Angaben umfassen, nämlich Buchstaben und Zahlen eines Zahlenfelds eines Kfz-Kennzeichens, Zahlen eines Jahresfelds eines Kfz-Kennzeichens und mindestens eine der folgenden Angaben für ein Staatenbezeichnungsfeld eines Kfz-Kennzeichenfelds, nämlich einen Staatennamen oder eine Abkürzung für einen Staatennamen umfasst und mindestens eine der folgenden Angaben für ein Fahrzeugtypen-Feld eines Kfz-Kennzeichens umfasst, nämlich Fahrzeughersteller oder Fahrzeugmodellbezeichnung.
Vorrichtung gemäß Anspruch 10, wobei die Bearbeitungsvorgänge wenigstens einen der folgenden Vorgänge, nämlich das Ersetzen der Feldinhalte durch einen feldspezifischen Wert oder Verknüpfen mit den Inhalten eines Felds oder einem feldspezifischen Wert, umfassen.
Vorrichtung gemäß Anspruch 10, wobei die Korrekturvorgänge wenigstens einen der folgenden Vorgänge umfassen, nämlich Löschen der letzten Dateneingabe und Löschen eines gesamten Ausgabeformularzwischenspeichers, wobei das Löschen eines gesamten Ausgabeformularzwischenspeichers zu der Wiederherstellung der Ausgangsparameter führt.