DE60215272T2 - Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen - Google Patents

Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen Download PDF

Info

Publication number
DE60215272T2
DE60215272T2 DE60215272T DE60215272T DE60215272T2 DE 60215272 T2 DE60215272 T2 DE 60215272T2 DE 60215272 T DE60215272 T DE 60215272T DE 60215272 T DE60215272 T DE 60215272T DE 60215272 T2 DE60215272 T2 DE 60215272T2
Authority
DE
Germany
Prior art keywords
field
namely
word
speech
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60215272T
Other languages
English (en)
Other versions
DE60215272D1 (de
Inventor
Philippe R. Sanata Barbara Morin
Jean-Claude Santa Barbara Junqua
Luca Santa Barbara Rigazio
Robert C. Thousand Oaks Boman
Peter Santa Barbara Veprek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE60215272D1 publication Critical patent/DE60215272D1/de
Publication of DE60215272T2 publication Critical patent/DE60215272T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Input From Keyboards Or The Like (AREA)

Description

  • Die vorliegende Erfindung betrifft eine Dateneingabe mittels Stimme unter ungünstigen Bedingungen.
  • Probleme, die mit der Fehlererkennung und Korrektur verbunden sind, wenn Sprache erkannt werden soll, variieren entsprechend spezifischer Anwendung und der Situationen und Einstellungen, die mit diesen verbunden sind. Beispielsweise in einem ruhigen Büro kann der Benutzer einer Sprachdiktatanwendung sich auf die aktive Anzeige in der Form eines Computerbildschirms derart verlassen, dass er auf jegliche Fehler, die in das Spracherkennungsverfahren eingeführt wurden, aufmerksam gemacht wird. Der gleiche Benutzer kann dann diese Fehler unter Verwendung einer Computertastatur korrigieren. Alternativ erlauben einige Anwendungen einem Benutzer, sprachlich einen Text, der so angezeigt ist, auszuwählen und zu korrigieren.
  • Fahrer von Motorfahrzeugen befinden sich in anderen Situationen. Da sowohl Augen als auch Hände mit der Aufgabe des Fahrens beschäftigt sind, kann ein Fahrer sich nicht immer auf ein aktives Display und eine Tastatur zur Fehlererkennung und Korrektur verlassen. Ein Versuch, sich dieses Problems anzunehmen, ist in der US 6,067,521 beschrieben, wobei erzeugte Sprache, die mit einer geographischen Position, die von dem Benutzer für die Fahrt ausgewählt wurde, verbunden ist, an den Benutzer übermittelt wird. Wenn der Benutzer verbal einen neuen Ort während der Verarbeitung des ersten Orts oder innerhalb eines festgelegten Zeitrahmens eingibt, wird die vorherige Eingabe vergessen und anstelle der neue Ort verwendet.
  • Ein interaktives Benutzerspracherkennungssteuerungssystem zur Erkennung einer vollständigen Sequenz von Schüsselwörtern, beispielsweise eine Telefonnummer durch Eingabe, Verifizieren und Bearbeiten von verschieden langen Äußerungsketten, die durch definierte Pausen voneinander getrennt sind, ist in der US 4,870,686 beschrieben.
  • Die Vorrichtungssteuerung verwendet Zeitmesser, die die Pausen zwischen den Satzteilzeichenketten, die von der Spracherkennungsvorrichtung erkannt werden, überwachen. Wenn einer Zeichenkette ein vorbestimmter Pausenintervall folgt, werden die erkannten Zeichen mittels eines Sprachgenerators wiederholt. Eine zusätzliche Zeichenkette kann dann eingegeben werden und nur die nachfolgende Kette wird nach der nächsten Pause wiederholt.
  • Gesetzeshüter müssen jedoch mit speziellen Problemen, beispielsweise bei der Eingabe von Kfz-Kennzeichen für eine Datenbankabfrage rechnen. Die Erkennungsfehlerrate bleibt hoch, insbesondere in lauter Umgebung, in der sich oft solche Polizisten befinden. Bekannte Geräuschquellen umfassen Sirenen, Radiogeschwätz, quietschende Reifen, Hupen und sogar Schüsse. Emotionale Faktoren (beispielsweise Stress) können ferner die Sprachqualität beeinflussen, wodurch es schwierig wird, das Gesprochene zu erkennen. Wenn die Schwierigkeit der Situation hinzugefügt wird, können Polizisten nicht immer die vollständige Nummer des Kfz-Kennzeichens erfassen, das in einigen Amtsbezirken separat identifizierbare Komponenten enthalten kann. Es müssen körperliche Bewegungen ausgeführt werden, um die visuelle Kontrolle und Aneignung weniger Buchstaben nacheinander zu erleichtern.
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung ist ein Verfahren, wie es in Anspruch 1 definiert ist, vorgesehen.
  • Bei einer bevorzugten Ausführungsform wird ein Fokusfeld basierend auf der Wortsemantik bestimmt. Vorzugsweise wird nach Interpretation jeder Eingabeäußerung ein Audio-Feedback ausgeführt. Vorzugsweise wird, nachdem ein komplettes Formular ausgefüllt wurde und zur Datenbankabfrage abgeschickt wurde, eine automatische Anpassung ausgeführt.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung ist eine Vorrichtung, wie sie in Anspruch 10 definiert ist, vorgesehen.
  • Die Erfindung wird nachfolgend nur beispielhaft unter Bezugnahme auf die begleitenden Zeichnungen beschrieben, wobei
  • 1 ein Systemdatenflussdiagramm einer bevorzugten Ausführungsform des Dateneingabesystems ist, das eine Anwendung des Systems bei einem Kfz-Kennzeicheneingabesystem für Polizisten darstellt, und
  • 2 ein Flussdiagramm eines derzeit bevorzugten Verfahrens zum Analysieren von Eingabeworten für die Dateneingabe oder von Befehlen zum Ausführen der Korrekturfunktionen ist.
  • Gemäß 1 verwendet die derzeit bevorzugte Ausführungsform ein geeignetes Mikrophon 1, in das ein Polizist spricht, um die gesamte oder einen Abschnitt der Kfz-Kennzeicheninformation, die überwacht wird, einzugeben. Das Mikrophon 10 kann entweder ein Mikrophon für Nahbesprechung, das dafür geeignet ist, dass es in der Hand gehalten wird oder zur Anbringung an der Polizeiuniform geeignet ist, sein. Das Eingabesystem kann wahlweise kabellos sein. Das Mikrophon 10 kann alternativ ein Rauschunterdrückungsmikrophon sein, das an einer geeigneten Position in dem Polizeifahrzeug angeordnet ist. Wenn gewünscht, kann ein zweites Mikrophon verwendet werden, um ein Hintergrundgeräuschsignal zu erhalten, das von dem Signal, das von dem Mikrophon 10 bereitgestellt wird, abgezogen werden kann, um die Wirkungen von Umgebungsgeräuschen zu verringern, die bei dieser Anwendung erheblich sein können.
  • Die Ausgabe des Mikrophons 10 ist mit einem A/D-Umwandler 12 verbunden, der den Audioeingabezwischenspeicher 14 versorgt. Der Eingabezwischenspeicher 14 weist vorzugsweise eine geeignete Größe auf, um mehrere Äußerungen der Eingabesprache zu speichern. Aufgrund des möglicherweise hohen Hintergrundgeräuschpegels speichert das System die Audioeingabe in dem Eingabezwischenspeicher 14 für einen ausreichenden Zeitraum, damit das System bestimmen kann, ob der Inhalt des Eingabezwischenspeichers 14 Eingabesprache oder Hintergrundgeräusche repräsentiert.
  • Um dies zu erzielen, nimmt ein Endpunkterkennungsmodul 16 kontinuierlich Proben des Inhalts des Eingabezwischenspeichers 14. Das Endpunkterkennungsmodul 16 stellt ein Signal, das Sprache vorliegt, für eine Erkennungsvorrichtung 18 bereit. Die Erkennungsvorrichtung 18 verwendet ein Lexikon 20 von Worten, die die Erkennungsvorrichtung 18 erkennen kann. Sobald das Endpunkterkennungsmodul 16 anzeigt, dass Sprache in dem Eingabezwischenspeicher 14 vorliegt, analysiert die Erkennungsvorrichtung 18 den Inhalt des Eingabezwischenspeichers 14, indem sie eine Worterkennung für das Eingabeaudiosignal ausführt. Obwohl die Endpunkterkennung ausgeführt wird, um zu bestimmen, ob ein Sprachsignal vorliegt oder nicht, werden der wahre Anfangspunkt und Endpunkt der Eingabesprache durch die Erkennungsvorrichtung 18 durch Worterkundung bestimmt.
  • Die Erkennungsvorrichtung 18 ist vorzugsweise als eine kontinuierlich arbeitende Spracherkennungsvorrichtung ausgelegt. In anderen Worten gesagt, kann ein Polizist mit einer normalen Sprachkadenz, als ob er mit einer weiteren Person sprechen würde, sprechen. Obwohl es für den Polizisten möglich ist, zwischen einzelnen Wortäußerungen anzuhalten, ist es nicht notwendig, dies zu tun, da die kontinuierlich arbeitende Spracherkennungsvorrichtung 18 eine kontinuierliche Sprachkadenz verarbeiten kann. Obwohl das Dateneingabeformular mehrere Felder enthalten kann, die ausgefüllt werden müssen, braucht der Sprecher dem System nicht ausdrücklich ansagen, welches Feld gemeint ist, das im Eingabefokus steht. Eine Äußerung kann ferner Informationen für mehrere Felder gleichzeitig bereitstellen. Wenn drei Felder vorhanden sind, nämlich ein Staatenbezeichnungsfeld für das Kfz-Kennzeichen, ein Jahresfeld für das Kfz-Kennzeichen und ein Zahlenfeld für das Kfz-Kennzeichen vorhanden sind, könnte ein Benutzer den Staat und die Kennzeichennummer (insgesamt oder teilweise) in einer Äußerung eingeben. Der Dialogmanager, der nachfolgend beschrieben wird, kann solch einen Fluss, der auf der eindeutigen Semantik, die den erkannten Worten zugehörig ist (d.h. die Liste von Staaten ist festgelegt und vorbekannt, Werte für das Jahresfeld des Kfz-Kennzeichens können einfach bestimmt werden), verarbeiten.
  • Bei der gegenwärtig bevorzugten Ausführungsform speichert das Lexikon 20 antrainierte Modelle für alle Worte, die nötig sein könnten, um das Kfz-Kennzeicheneingabeformular zu beschreiben. Diesbezüglich werden die Buchstaben des Alphabets, Staatennamen und Zahlen von 0 bis 9 beispielsweise als „Worte" angesehen und sind in dem Lexikon 20 gespeichert. Um Spracherkennungsfehler zu verringern, wird ein spezielles Vokabular für die Eingabe von Buchstaben verwendet. Jeder Buchstabe weist ein Wortäquivalent auf, das weniger anfällig gegen Verwechselung ist. In einer lauten Umgebung ist es schwierig (sogar für menschliche Zuhörer), beispielsweise zwischen „p" und „t" zu unterscheiden. Bei diesem spezifischen Beispiel werden die Wörter „Paul" anstelle des Buchstabens „p" und „Tom" anstelle des Buchstabens „t" verwendet. Ferner sind in dem Lexikon 20 die zusätzlichen gesprochenen Befehle, die nachfolgend im Detail beschrieben werden, gespeichert, mit denen der Polizist beispielsweise entweder falsch gelesene Kfz-Kennzeichennummern oder nicht korrekt erkannte gesprochene Äußerungen korrigieren kann.
  • Die Ausgabe der Erkennungsvorrichtung 18 wird an den Dialogmanager 22 geleitet. Der Dialogmanager 22 hat mehrere Funktionen. Eine Funktion ist es, die Ausgabewörter der Erkennungsvorrichtung 18 zu analysieren und diese als Blöcke in einem Ausgabeformularzwischenspeicher 24 zu speichern. Der Dialogmanager 22 analysiert ferner die erkannten Worte, um diese zu isolieren und auf die zu reagieren, die gesprochene Befehle zu Feldinformationen enthalten. Basierend auf dem semantischen Inhalt der Eingabe sendet der Dialogmanager 22 die Werte an die zugehörigen Felder. Wenn die Äußerung „New Jersey Zebra 5 6" ausgesprochen wird, wird der Dialogmanager 22 den Wert des Staats durch „NJ" ersetzen und die Zeichenkette „Z56" in das Zahlenfeld des Kfz-Kennzeichens eingeben. Der Dialogmanager 22 kommuniziert mit einem Text-Sprache-Konvertierungssystem 26, das ein Audio-Feedback über ein geeignetes Lautsprechersystem 28 bereitstellt. Das Text-Sprache-Konvertierungssystem 26 kann auf der Sprachsynthesetechnologie, wenn gewünscht, basieren. Da das Vokabular des Text-Sprache-Konvertierungssystems 26 relativ begrenzt ist, kann alternativ eine digital aufgezeichnete menschliche Stimme verwendet werden. Solch eine digital aufgezeichnete menschliche Stimme wird derzeit bevorzugt, da sie sich natürlicher anhört.
  • Der Ausgabeformularzwischenspeicher 24 dient als Sammelbereich für den Aufbau der gesamten Kfz-Kennzeicheninformation, wenn die Information durch den Polizisten identifiziert und in das System eingelesen wird. Der Dialogmanager 22 kann einigen der Felder Standardwerte zuweisen. Wenn das laufende Jahr 2001 ist und die Polizeiabteilung, die das System verwendet, beispielsweise Los Angeles ist, wird der Wert 2001 als Standardwert für das „Zulassungsjahr" des Kfz-Kennzeichens festgelegt und der Wert „CA" für Kalifornien als ein Standardwert für den „Zulassungsstaat" des Kfz-Kennzeichens festgelegt. Eine Darstellung des Inhalts des Ausgabeformularzwischenspeichers 24 ist bei „30" gezeigt. Bei der Darstellung hat der Polizist „Charlie Adam Null Sieben Nora" ausgesprochen und diese Äußerung wird in dem Ausgabeformularzwischenspeicher 24, wie bei „30" dargestellt, gespeichert. Es wird angenommen, dass der Polizist die teilweise Kfz-Kennzeicheninformation in zwei Satzgliedern, nämlich „Charlie Adam Null" und „Sieben Nora" ausgesprochen hat. Der Dialogmanager 22 behandelt diese zwei Eingabesatzglieder als separate Blöcke, da sie mit einer ausreichenden Pause zwischen den Satzgliedern ausgesprochen wurden, so dass die Erkennungsvorrichtung 18 diese nicht als ein kontinuierliches Satzglied ausgegeben hat. Der Dialogmanager 22 unterstützt ein Formularformatierungshistorienmodul 32, um den Inhalt des letzten ausgesprochenen Blocks zu kennzeichnen. Die Formatierungshistorie innerhalb des Formularformatierungshistorienmoduls 32 verfolgt alle Abänderungen, die in all den Feldern auftreten, wie nachfolgend detaillierter beschrieben werden wird. Diese Formatierungshistorie erlaubt es dem Dialogmanager, den letzten ausgesprochenen Block zu löschen, wenn der Polizist den entsprechenden Löschbefehl gibt.
  • Die derzeit bevorzugte Ausführungsform ist multi-modal. Sprachliche und visuelle Eingabe- und Ausgabemöglichkeiten sind vorgesehen. Um dies darzustellen, ist der Dialogmanager 22 als mit einem tragbaren PC-Anschluss, beispielsweise eines geeignet ausgestatteten tragbaren PCs 40, der eine Tastatur 42, eine Cursor-Steuervorrichtung 44 und einen Berührungsbildschirm 46 aufweist, verbunden gezeigt. Wenn gewünscht, kann daher der Polizist die Kfz-Kennzeicheninformation unter Verwendung der Tastatur 42, der Cursor-Steuervorrichtung 44 oder des Berührungsbildschirms 46 eingeben. Das Feedback an den Polizisten wird ähnlicherweise visuell durch den Berührungsbildschirm 46, wie es gleichzeitig über das Lautspre chersystem 28 bereitgestellt wird, bereitgestellt.
  • Sobald der Polizist die gesamte Kfz-Kennzeicheninformation eingegeben hat und mit ihrer Korrektheit zufrieden ist, veranlasst ein ausgesprochener Befehl an den Dialogmanager 22, dass der Ausgabeformularzwischenspeicher 24 an das Kommunikationsmodul 50 geleert wird. Das Kommunikationsmodul kommuniziert kabellos mit einem geeigneten Datenbanksuchserver 52, der auf die Führerschein- und Kfz-Kennzeicheninformationsdatenbank 54 Zugriff hat. Das Datenbanksuchsystem 52 nutzt die Kfz-Kennzeicheninformation, die von dem Polizisten bereitgestellt wird, um festzustellen, ob mit dem Fahrzeug irgendwelche besonderen Berechtigungen oder andere Informationen verbunden sind. Diese Information wird dann zurück an das Kommunikationsmodul 50 kommuniziert und dann wiederum an den Dialogmanager 22 weitergegeben. Der Dialogmanager 22 zeigt dann die übermittelte Information auf dem Berührungsbildschirm 46 an und gibt ferner wahlweise einige oder alle der zugesandten Informationen an das Text-Sprache-Konvertierungssystem 26 aus.
  • Bei der derzeit bevorzugten Ausführungsform filtert der Dialogmanager 22 die zurückgesandte Information derart, dass nur die wichtigste Information über das Text-Sprache-Konvertierungssystem 26 ausgegeben wird. Der Polizist wird daher nicht mit zu vielen hörbaren Informationen überschüttet, während er oder sie abschätzt, wie mit der vorliegenden Situation umgegangen werden soll. Wenn das identifizierte Fahrzeug als gestohlen gemeldet ist oder wenn vom letzten bekannten Fahrer angenommen wird, dass er bewaffnet und gefährlich ist, würde beispielsweise diese Information über das Text-Sprache-Konvertierungssystem 26 kommuniziert. Wenn im Gegensatz dazu das Fahrzeug in einem unbedeutenden Unfall in den letzten 3 Jahren verwickelt war, aus dem keine Anklage erfolgte, würde diese Information unterdrückt.
  • Die bevorzugte Ausführungsform verwendet ein Vollduplex-Kommunikationssystem. Der Polizist kann in das Mikrophon 10 sprechen, während gleichzeitig das Text-Sprache-Konvertierungssystem 26 ein hörbares Feedback bereitgestellt. Diesbezüglich unterscheidet sich das bevorzugte System von einem Halbduplex-Funkkommunikationssystem, bei dem nur eine Partei spricht, während die andere zuhört, jedoch beide Parteien nicht gleichzeitig sprechen können Das Vollduplex-System der bevorzugten Ausführungsform ist ausgelegt, um einen natürlichen Dialogverkehr bereitzustellen. Der Dialogmanager 22 ist ausgelegt, um auf Eingabeäußerungen eines Polizisten und Korrekturen dieser Äußerungen in einer sehr natürlichen Weise zu reagieren. Diese natürliche Dialoginteraktion ist sehr wichtig, da Polizisten oft Stresssituationen ausgesetzt sind, in denen sie schnell eine mögliche gefährliche Situation erkennen und in einer geeigneten Weise auf diese reagieren müssen. Oft ist es für den Polizisten nicht möglich, auf einen Computermonitor zu schauen oder auf einer Tastatur zu schreiben. Sprache ist daher das einzige praktische Mittel für den Polizisten, die neuesten Informationen zu erhalten, auf die er sich verlassen kann.
  • Diesbezüglich ist das Problem der Kfz-Kennzeichensuche technologisch schwieriger, als es auf den ersten Blick erscheint. Da die Hintergrundgeräusche in einem Polizeifahrzeug oft stark und sehr unvorhersehbar sind, kann es passieren, dass das Erkennungssystem viele Fehler macht. Im Gegensatz zu einem Textverarbeitungsdiktatsystem, bei dem die erkannten Wörter auf Korrektheit durch Betrachten des Kontexts überprüft werden können, ist die Kfz-Kennzeichensuchanwendung schwieriger, da es keinen Kontext gibt.
  • Beispielsweise besteht bei einer Textverarbeitungsdiktatanwendung eine ausgesprochene Äußerung typischerweise aus Nomen, Verben, Adjektiven und Adverbien, die in einer vorhersehbaren Weise, basierend auf der Grammatik der Sprache, verknüpft sind. Die Kenntnis dieser Grammatik, was manchmal Sprachmodell genannt wird, ermöglicht, dass die Erkennungsvorrichtung das korrekte Wort besser auswählen kann, sogar wenn die akustischen Werte gering sind. Im Gegensatz dazu weisen die Zahlen des Kfz-Kennzeichens kein ähnliches Sprachmodell auf. Die Zahl 0 kann genauso oft der Zahl 1 folgen, wie den Zahlen 2, 3 oder 4. Um die größere Komplexität des Kfz-Kennzeichensucheproblems zu lösen, nutzt die derzeit bevorzugte Ausführungsform ein eng verbundenes Dialogmodell, das ein sofortiges Feedback an den Polizisten für jeden gesprochenen Textblock bereitstellt, wodurch der Polizist sofort die Gelegenheit hat, jegliche Erkennungsfehler zu korrigieren.
  • 2 stellt dar, wie der bevorzugte Dialogmanager 22 (1) arbeitet. Die Erkennungsvorrichtung 18 (1) liefert den erkannten Ausgabetext als Wortblöcke, während sie in kontinuierlicher Sprache erkannt werden. Wenn der Polizist „Adam", „Berta" und „Charlie" als drei separate Satzglieder, die durch natürliche Sprechpausen voneinander getrennt sind, ausspricht, wird daher beispielsweise die Erkennungsvorrichtung 18 die drei separaten Blöcke, die jeweils ein Wort enthalten, (d.h. diese Worte entsprechen den Buchstaben A, B und C) ausgeben. Andererseits wird die Erkennungsvorrichtung 18, wenn der Polizist „Adam Berta" und „Charlie" ausspricht, zwei Blöcke ausgeben, wobei der erste Block die Buchstaben A und B und der zweite Block den Buchstaben C enthält. Der Dialogmanager 22 betrachtet die Ausgabe der Erkennungsvorrichtung 18 als Eingaben in das Dialogsystem. Wie in Schritt 100 (2) dargestellt, teilt der Dialogmanager 22 die Eingabe in Blöcke und jeder Eintrag wird dann evaluiert, um zu bestimmen, ob er eine feldspezifische Angabe oder ein Befehl ist. Dieser Schritt ist bei 102 dargestellt. Wenn im Schritt 102 der Eintrag kein Befehl ist, wird der Eintrag verwendet, um das zugehörige Ausgabeformularzwischenspeicherfeld (durch Ersetzen oder Konkatenation), wie im Schritt 104 dargestellt, zu aktualisieren. Wie in Schritt 104a dargestellt, werden die Felder, die zu aktualisieren sind, basierend auf der Semantik, die den erkannten Worten verbunden ist, bestimmt. Die Aktualisierung wird durch Ersetzen des Jahresfeldinhalts, wie im Schritt 104b1 dargestellt, durch Konkatenation mit dem Zahlenfeldinhalt, wie in Schritt 104b2 dargestellt, und/oder durch Ersetzen des Staatenfeldinhalts, wie in Schritt 104b3 dargestellt, ausgeführt. Der Eintrag wird dann als gesprochene Ausgabe (Schritt 106) wiedergegeben.
  • Wenn im Schritt 102 der Eintrag als Befehl erkannt wird, wird alternativ der Befehl im Schritt 108 verarbeitet. Obwohl eine beliebige Anzahl von Befehlen vorgesehen sein kann, sind hier fünf beispielhafte Befehle dargestellt. In 2 ist jeder Befehl als ein separater logischer Durchlaufpfad identifiziert. Wenn beispielsweise der Befehl das Wort „nein" ist, wird dieser Befehl wie im Schritt 110 durch Löschen des letzten Dateneintrags verarbeitet.
  • Bezogen auf 1 wird, wenn der Befehl „nein" direkt nach dem Eintrag des Kfz-Kennzeichenbuchstaben „7N" ausgesprochen wird, dann der letzte eingetragene Block „7N" gelöscht.
  • Mehrere Befehle können die gleiche Wirkung aufweisen. Wie in 2 dargestellt, kann daher der Befehl „Korrektur" auch zur Löschung des letzten Dateneintrags im Schritt 110 führen.
  • Um dem Polizisten zu ermöglichen, die gesamte Führerscheininformation, die er bis dahin eingegeben hat, zu löschen, ist der Befehl „Alles Löschen" vorgesehen. Das Aussprechen dieses Befehls führt dazu, das der gesamte Inhalt des Ausgabeformularzwischenspeichers 24 (1) mit allen Standardwerten, die, wie im Schritt 112 (2) dargestellt, gespeichert sind, gelöscht wird. Wenn der Polizist möchte, dass der Inhalt des Zwischenspeichers wiederholt wird, um die gesamte Nummer zu überprüfen, können er oder sie den Befehl „Wiederholen" eingeben. Dieser Befehl veranlasst das System, den gesamten Block als gesprochene Ausgabe an das Text-Sprache-Konvertierungssystem 26 (1), wie im Schritt 114 (2) dargestellt, zu wiederholen. Explizite Befehle zur Auswahl des Feldes, für das der Wert nachfolgend ausgesprochen wird, können definiert werden. Beispielsweise könnte der Befehl „Kfz-Kennzeichenjahr" bereitgestellt werden.
  • Sobald der Polizist damit zufrieden ist, dass die korrekte Kfz-Kennzeicheninformation eingegeben wurde, spricht der Polizist den Befehl „Senden" aus. Dieser Befehl führt dazu, dass der Inhalt des Ausgabeformularzwischenspeichers 24 (1) an das Kommunikationsmodul 50 (1), wie in Schritt 116 (2) dargestellt, abgegeben wird.
  • Als ein weiteres Beispiel zeigt Tabelle 1 eine typische Dialoginteraktion. Die Tabelle zeigt die Spracheingabe des Benutzers (Benutzereingabe), welche Nachricht an das Text-Sprache-Konvertierungssystem abgegeben wird und/oder zusätzliche Spracherzeugungsmittel (Bestätigungsnachricht), und den aktuellen Inhalt jedes Felds des Formularzwischenspeichers. Es ist zu vermerken, dass Tabelle 1 ein Beispiel darstellt, bei dem der Polizist einen visuellen Fehler gemacht hat und entschieden hat, den gesamten Zwischenspeicher zu löschen und von vorne zu beginnen, und ein Beispiel solches, bei dem die Erkennungsvorrichtung einen Erkennungsfehler ge macht hat und der Polizist entscheidet, diesen zu verbessern und fortzufahren.
  • Dialog Nr. #1:
    • Benutzereingabe=„Utah 1 7"
    • Bestätigungsnachricht=„Utah 1 7"
    • Formularzwischenspeicher=(Jahr= „2001"; Staat= „UT"; Zahl= „17")
  • Dialog Nr. #2:
    • Benutzereingabe=„Alles Löschen"
    • Bestätigungsnachricht=<Alles Löschen – Glockenton>
    • Formularzwischenspeicher=(Jahr= „2001"; Staat= „NJ"; Zahl= „")
  • Dialog Nr. #3:
    • Benutzereingabe=„Kalifornien 5 6"
    • Bestätigungsnachricht=„Kalifornien 5 6"
    • Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „56")
  • Dialog Nr. #4:
    • Benutzereingabe=„Ozean 9"
    • Bestätigungsnachricht=„Ozean 5"
    • Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl="5605")
  • Dialog Nr. #5:
    • Benutzereingabe=„Korrektur"
    • Bestätigungsnachricht=<Korrektur – Glockenton>
    • Formularzwischenspeicher=(Jahr="2001"; Staat= „CA"; Zahl= „56")
  • Dialog Nr. #6:
    • Benutzereingabe=„Ozean 9"
    • Bestätigungsnachricht=„Ozean 9"
    • Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „5609")
  • Dialog Nr. #7:
    • Benutzereingabe=„Zebra Marie 6"
    • Bestätigungseingabe=„Zebra Marie 6"
    • Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „5609ZM6")
  • Dialog Nr. #8:
    • Benutzereingabe=„Wiederholen"
    • Bestätigungsnachricht=„Kalifornien 56 Ozean 9 Zebra Marie 6"
    • Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „5609ZM6")
  • Dialog Nr. #9:
    • Benutzereingabe=„Senden"
    • Bestätigungsnachricht=„Abfrage der Datenbank....."
    • Formularzwischenspeicher=(Jahr= „2001 "; Staat= „CA"; Zahl= „5609ZM6")
  • Sprecheranpassung kann in Beziehung mit dem Dialogmodell effizient genutzt werden. Durch Erlernen der Stimmmuster, die für den Sprecher spezifisch sind, kann die Genauigkeit der Spracherkennung verbessert werden. Nach einigen Anpassungen wird stufenweise das Sprecher-unabhängige-System zu einem Sprecherabhängigen-System. Basierend auf dem Dialogmodell kann ein sicheres Anpassungsverfahren verwendet werden. Die Sprachblöcke, die eindeutig sind (d.h. die explizit von dem Benutzer korrigiert wurden) sind Kandidaten für die Anpassung. In diesem Fall ist die Anpassung für den Benutzer klar und kann im Hintergrund automatisch ausgeführt werden. Optional kann auch eine explizite Anpassung verwendet werden. Hierbei kann der Sprecher gebeten werden, vor dem Gebrauch mehrere Sätze ins System zu sprechen.
  • Die Beschreibung der Erfindung ist nur beispielhaft und Varianten, die nicht von dem Geist der Erfindung abweichen, fallen daher in den Schutzbereich der Erfindung, wie er in den anhängenden Ansprüchen definiert ist.

Claims (20)

  1. Verfahren für die Dateneingabe mittels Stimme zum Ausfüllen von Formularen folgende Schritte umfassend Mitteilen einer verbalen Eingabe durch einen Sprecher an Spracherkennungsmittel (18), Identifizieren wenigstens eines erkannten gesprochenen Wortes in einer verbalen Eingabe, wobei das erkannte Wort wenigstens einen feldspezifischen Wert oder Befehl enthält und wobei das Formular zwei oder mehr Felder aufweist, die ein Verknüpfungsfeld umfassen, das aus verknüpften Zeichen besteht, die kein Wort bilden, und ferner umfassend Bestimmen, ob das erkannte Wort, basierend auf Semantik, mit einem der Felder des Formulars korreliert, Aktualisieren eines vorgegebenen Felds des Formulars mit dem erkannten Wort, wenn das erkannte Wort mit dem vorgegebenen Feld korreliert, Aktualisieren des Verknüpfungsfelds mit dem ersten Buchstaben des erkannten Worts, wenn das erkannte Wort mit keinem der weiteren Felder des Formulars korreliert, Wiederholen erkannter Werte an den Sprecher über ein Text-Sprache-Konvertierungssystem mit Empfang weiterer verbaler Eingaben des Sprechers, Abweisen von unzuverlässigen oder unsicheren Eingaben, für die eine Zuverlässigkeitsbewertung gering ist, und Aufrechterhalten einer Dialoghistorie, die Bearbeitungsvorgänge und Korrekturvorgänge in allen aktiven Feldern ermöglicht.
  2. Verfahren gemäß Anspruch 1, ferner umfassend den Schritt des Bestimmens eines Fokusfeldes, basierend auf Wortsemantik.
  3. Verfahren gemäß Anspruch 1, wobei ein Audio-Feedback nach der Interpretation jeder verbalen Eingabe ausgeführt wird.
  4. Verfahren gemäß Anspruch 1, wobei eine automatische Anpassung ausgeführt wird, sobald ein gesamtes Formular ausgefüllt und für eine Datenbankabfrage abgesendet wurde.
  5. Verfahren gemäß Anspruch 1, wobei ein Sicherungseingabesystem zur zusätzlichen Sicherheit und Flexibilität vorgesehen ist.
  6. Verfahren gemäß Anspruch 1, wobei die Befehle wenigstens einen der nachfolgenden Befehle umfasst, nämlich einen Korrekturbefehl zum Löschen einer letzten Dateneingabe, einen Löschbefehl zum Löschen einer gesamten Ausgabe aus einem Zwischenspeicher mit Wiederherstellung aller Ausgangsparameter, einen Wiederholbefehl zur Wiederholung wenigstens einer der folgenden Angaben umfasst, nämlich der Inhalte eines Formulars als Sprachausgabe oder eines Sendebefehls zum Löschen eines Zwischenspeichers für ein Ausgabeformular an ein Kommunikationsmodul.
  7. Verfahren gemäß Anspruch 1, wobei die feldspezifischen Werte wenigstens eine der folgenden Angaben umfassen, nämlich Buchstaben und Zahlen eines Zahlenfelds eines Kfz-Kennzeichens, Zahlen eines Jahresfelds eines Kfz-Kennzeichens und mindestens eine der folgenden Angaben für ein Staatenbezeichnungsfeld eines Kfz-Kennzeichenfelds, nämlich einen Staatennamen oder eine Abkürzung für einen Staatennamen umfasst und mindestens eine der folgenden Angaben für ein Fahrzeugtypen-Feld eines Kfz-Kennzeichens umfasst, nämlich Fahrzeughersteller oder Fahrzeugmodellbezeichnung.
  8. Verfahren gemäß Anspruch 1, wobei die Bearbeitungsvorgänge wenigstens einen der Vorgänge, nämlich Ersetzen des Inhalts eines Felds durch einen feldspezifischen Wert oder Konkatenation des Inhalts eines Felds eines feldspezifischen Werts umfassen.
  9. Verfahren gemäß Anspruch 1, wobei die Korrekturschritte wenigstens einen der folgenden Schritte umfassen, nämlich Löschen der letzten Dateneingabe oder Löschen eines gesamten Ausgabeformularzwischenspeichers, wobei das Löschen eines gesamten Ausgabeformularzwischenspeichers zu der Wiederherstellung der Ausgangsparameter führt.
  10. Vorrichtung für die Dateneingabe mittels Sprache zur Ermöglichung des Ausfüllens eines Formulars umfassend Spracherkennungsmittel (18), die für den Empfang einer verbalen Eingabe eines Sprechers geeignet sind und Worte aus der Spracheingabe erkennen können, wobei das Formular zwei oder mehr Felder unter Einschluss eines Dateienverknüpfungsfelds, das aus verknüpften Zeichen besteht, die kein Wort bilden, aufweist und ferner umfassend einen Dialogmanager (22), der geeignet ist, um erkannte Worte von den Spracherkennungsmitteln zu erhalten und die erkannten Worte mit einem der Felder des Formulars basierend auf Semantik zu dem erkannten Wort zu verknüpfen, wobei der Dialogmanager ein vorgegebenes Feld des Formulars mit dem erkannten Wort aktualisiert, wenn das erkannte Wort mit dem vorgegebenen Feld korreliert und das Dateienverknüpfungsfeld mit dem ersten Buchstaben des ersten Worts aktualisiert wird, wenn das erkannte Wort mit keinem der weiteren Felder des Formulars korreliert, Spracherzeugungsmittel (26), die mit den Spracherkennungsmitteln kommunizieren und so betreibbar sind, dass sie erkannte Worte zurück an den Sprecher wiederholen, und Mittel zur Aufrechterhaltung der Dialoghistorie in Verbindung mit dem Dialogmanager zum Aufrechterhalten des Inhalts der Felder des Formulars aufweisen, wodurch Bearbeitungsvorgänge und Korrekturvorgänge bezüglich der Felder ermöglicht werden.
  11. Vorrichtung gemäß Anspruch 10, ferner umfassend eine Benutzeroberfläche, wobei die Benutzeroberfläche ein Backup-Eingabe-System zur zusätzlichen Sicherheit und Flexibilität bereitstellt.
  12. Vorrichtung gemäß Anspruch 11, wobei die Benutzeroberfläche wenigstens eines der folgenden Mittel, nämlich eine Tastatur, eine aktive Anzeige oder einen Berührungsbildschirm umfasst.
  13. Vorrichtung gemäß Anspruch 10, wobei die Spracherzeugungsmittel (26) wenigstens eines der folgenden Mittel, nämlich einen Sprachgenerator oder Mittel zur Reproduktion einer im voraus aufgezeichneten Stimme umfassen.
  14. Vorrichtung gemäß Anspruch 10, wobei ein Fokusfeld basierend auf Wortsemantik bestimmt wird.
  15. Vorrichtung gemäß Anspruch 10, wobei das Audio-Feedback nach der Interpretation jeder verbalen Eingabe ausgeführt wird.
  16. Vorrichtung gemäß Anspruch 10, wobei eine automatische Anpassung ausgeführt wird, sobald ein vollständiges Formular ausgefüllt und für die Datenbankabfrage abgesendet wurde.
  17. Vorrichtung gemäß Anspruch 10, wobei die Befehle wenigstens einen der folgenden Befehle umfassen, nämlich einen Korrekturbefehl zum Löschen der letzten Dateneingabe, einen Löschbefehl zum Löschen einer gesamten Ausgabe aus einem Zwischenspeicher mit Wiederherstellung aller Ausgangsparameter, einen Wiederholbefehl zur Wiedergabe wenigstens einer der folgenden Angaben, nämlich der Inhalte eines gesamten Formulars oder der Inhalte eines gesamten Formularfelds als Sprachausgabe, einen weiterführenden Befehl zum Abschicken einer gesamten Ausgabe aus einem Zwischenspeicher an ein Kommunikationsmodul.
  18. Vorrichtung gemäß Anspruch 10, wobei die feldspezifischen Werte wenigstens eine der folgenden Angaben umfassen, nämlich Buchstaben und Zahlen eines Zahlenfelds eines Kfz-Kennzeichens, Zahlen eines Jahresfelds eines Kfz-Kennzeichens und mindestens eine der folgenden Angaben für ein Staatenbezeichnungsfeld eines Kfz-Kennzeichenfelds, nämlich einen Staatennamen oder eine Abkürzung für einen Staatennamen umfasst und mindestens eine der folgenden Angaben für ein Fahrzeugtypen-Feld eines Kfz-Kennzeichens umfasst, nämlich Fahrzeughersteller oder Fahrzeugmodellbezeichnung.
  19. Vorrichtung gemäß Anspruch 10, wobei die Bearbeitungsvorgänge wenigstens einen der folgenden Vorgänge, nämlich das Ersetzen der Feldinhalte durch einen feldspezifischen Wert oder Verknüpfen mit den Inhalten eines Felds oder einem feldspezifischen Wert, umfassen.
  20. Vorrichtung gemäß Anspruch 10, wobei die Korrekturvorgänge wenigstens einen der folgenden Vorgänge umfassen, nämlich Löschen der letzten Dateneingabe und Löschen eines gesamten Ausgabeformularzwischenspeichers, wobei das Löschen eines gesamten Ausgabeformularzwischenspeichers zu der Wiederherstellung der Ausgangsparameter führt.
DE60215272T 2001-08-03 2002-07-30 Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen Expired - Fee Related DE60215272T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US921766 2001-08-03
US09/921,766 US6996528B2 (en) 2001-08-03 2001-08-03 Method for efficient, safe and reliable data entry by voice under adverse conditions

Publications (2)

Publication Number Publication Date
DE60215272D1 DE60215272D1 (de) 2006-11-23
DE60215272T2 true DE60215272T2 (de) 2007-08-30

Family

ID=25445946

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60215272T Expired - Fee Related DE60215272T2 (de) 2001-08-03 2002-07-30 Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen

Country Status (4)

Country Link
US (1) US6996528B2 (de)
EP (1) EP1286330B1 (de)
AT (1) ATE342564T1 (de)
DE (1) DE60215272T2 (de)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4296714B2 (ja) * 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US6996528B2 (en) * 2001-08-03 2006-02-07 Matsushita Electric Industrial Co., Ltd. Method for efficient, safe and reliable data entry by voice under adverse conditions
US7246060B2 (en) * 2001-11-06 2007-07-17 Microsoft Corporation Natural input recognition system and method using a contextual mapping engine and adaptive user bias
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
US7292689B2 (en) * 2002-03-15 2007-11-06 Intellisist, Inc. System and method for providing a message-based communications infrastructure for automated call center operation
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US20040143440A1 (en) * 2003-01-03 2004-07-22 Venkatesh Prasad Vehicle speech recognition system
US7249025B2 (en) * 2003-05-09 2007-07-24 Matsushita Electric Industrial Co., Ltd. Portable device for enhanced security and accessibility
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US7873523B2 (en) * 2005-06-30 2011-01-18 Microsoft Corporation Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech
US7853453B2 (en) 2005-06-30 2010-12-14 Microsoft Corporation Analyzing dialog between a user and an interactive application
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
EP1960943A2 (de) 2005-12-08 2008-08-27 Koninklijke Philips Electronics N.V. Verfahren und system zum verfolgen der dokumentvorgeschichte auf sprachbasis
US8301448B2 (en) 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
FR2902542B1 (fr) * 2006-06-16 2012-12-21 Gilles Vessiere Consultants Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede
EP2044804A4 (de) 2006-07-08 2013-12-18 Personics Holdings Inc Persönliches hörhilfegerät und verfahren
US11450331B2 (en) 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
US8909528B2 (en) * 2007-05-09 2014-12-09 Nuance Communications, Inc. Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems
US9177551B2 (en) 2008-01-22 2015-11-03 At&T Intellectual Property I, L.P. System and method of providing speech processing in user interface
GB2477653B (en) * 2008-10-10 2012-11-14 Nuance Communications Inc Generating and processing forms for receiving speech data
US9978272B2 (en) 2009-11-25 2018-05-22 Ridetones, Inc Vehicle to vehicle chatting and communication system
US9946699B1 (en) * 2012-08-29 2018-04-17 Intuit Inc. Location-based speech recognition for preparation of electronic tax return
KR102112742B1 (ko) * 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
US8898063B1 (en) * 2013-03-15 2014-11-25 Mark Sykes Method for converting speech to text, performing natural language processing on the text output, extracting data values and matching to an electronic ticket form
JPWO2015083741A1 (ja) * 2013-12-03 2017-03-16 株式会社リコー 中継装置、表示装置および通信システム
US8768712B1 (en) 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
FR3022068B1 (fr) * 2014-06-05 2016-07-01 Peugeot Citroen Automobiles Sa Procede dispositif de traitement de la parole gestion des ecarts au dialogue
US10199041B2 (en) * 2014-12-30 2019-02-05 Honeywell International Inc. Speech recognition systems and methods for maintenance repair and overhaul
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
US9996517B2 (en) * 2015-11-05 2018-06-12 Lenovo (Singapore) Pte. Ltd. Audio input of field entries
US10431202B2 (en) * 2016-10-21 2019-10-01 Microsoft Technology Licensing, Llc Simultaneous dialogue state management using frame tracking

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4870686A (en) 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5263118A (en) * 1990-03-13 1993-11-16 Applied Voice Technology, Inc. Parking ticket enforcement system
US5748840A (en) * 1990-12-03 1998-05-05 Audio Navigation Systems, Inc. Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US6125347A (en) 1993-09-29 2000-09-26 L&H Applications Usa, Inc. System for controlling multiple user application programs by spoken input
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US6067521A (en) * 1995-10-16 2000-05-23 Sony Corporation Interrupt correction of speech recognition for a navigation device
US5794189A (en) 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US6216102B1 (en) * 1996-08-19 2001-04-10 International Business Machines Corporation Natural language determination using partial words
US5920838A (en) * 1997-06-02 1999-07-06 Carnegie Mellon University Reading and pronunciation tutor
US6038534A (en) * 1997-09-11 2000-03-14 Cowboy Software, Inc. Mimicking voice commands as keyboard signals
US6233561B1 (en) 1999-04-12 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method for goal-oriented speech translation in hand-held devices using meaning extraction and dialogue
US6553345B1 (en) * 1999-08-26 2003-04-22 Matsushita Electric Industrial Co., Ltd. Universal remote control allowing natural language modality for television and multimedia searches and requests
US6553131B1 (en) * 1999-09-15 2003-04-22 Siemens Corporate Research, Inc. License plate recognition with an intelligent camera
US6641038B2 (en) * 2001-06-25 2003-11-04 Lucent Technologies Inc. Smart vehicle registration plate
US6996528B2 (en) * 2001-08-03 2006-02-07 Matsushita Electric Industrial Co., Ltd. Method for efficient, safe and reliable data entry by voice under adverse conditions
WO2003060771A1 (en) * 2002-01-14 2003-07-24 Jerzy Lewak Identifier vocabulary data access method and system
US6952164B2 (en) * 2002-11-05 2005-10-04 Matsushita Electric Industrial Co., Ltd. Distributed apparatus to improve safety and communication for law enforcement applications
WO2004081599A2 (en) * 2003-03-10 2004-09-23 Tc (Bermuda) License, Ltd. Automated vehicle information system

Also Published As

Publication number Publication date
EP1286330B1 (de) 2006-10-11
ATE342564T1 (de) 2006-11-15
US6996528B2 (en) 2006-02-07
EP1286330A3 (de) 2004-05-19
EP1286330A2 (de) 2003-02-26
US20030033146A1 (en) 2003-02-13
DE60215272D1 (de) 2006-11-23

Similar Documents

Publication Publication Date Title
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE112017004374B4 (de) System und Verfahren zur Spracherkennung
DE60128816T2 (de) Spracherkennungsverfahren mit ersetzungsbefehl
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69725091T2 (de) Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP1071075B1 (de) Verfahren und Vorrichtung zur Eingabe von Daten
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE112006000225B4 (de) Dialogsystem und Dialogsoftware
DE102009021124A1 (de) Bediensystem für ein Fahrzeug
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP1097447A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
DE19532114C2 (de) Sprachdialog-System zur automatisierten Ausgabe von Informationen
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE112015003357T5 (de) Verfahren und System zum Erkennen einer eine Wortabfolge enthaltenden Sprachansage
DE10327943B4 (de) Unterschiedliche Zahlenleseweisen zulassendes Spracherkennungssystem
DE102006045719B4 (de) Medizinisches System mit einer Spracheingabevorrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP

8339 Ceased/non-payment of the annual fee