-
Die
vorliegende Erfindung betrifft eine Dateneingabe mittels Stimme
unter ungünstigen
Bedingungen.
-
Probleme,
die mit der Fehlererkennung und Korrektur verbunden sind, wenn Sprache
erkannt werden soll, variieren entsprechend spezifischer Anwendung
und der Situationen und Einstellungen, die mit diesen verbunden
sind. Beispielsweise in einem ruhigen Büro kann der Benutzer einer
Sprachdiktatanwendung sich auf die aktive Anzeige in der Form eines
Computerbildschirms derart verlassen, dass er auf jegliche Fehler,
die in das Spracherkennungsverfahren eingeführt wurden, aufmerksam gemacht wird.
Der gleiche Benutzer kann dann diese Fehler unter Verwendung einer
Computertastatur korrigieren. Alternativ erlauben einige Anwendungen
einem Benutzer, sprachlich einen Text, der so angezeigt ist, auszuwählen und
zu korrigieren.
-
Fahrer
von Motorfahrzeugen befinden sich in anderen Situationen. Da sowohl
Augen als auch Hände
mit der Aufgabe des Fahrens beschäftigt sind, kann ein Fahrer
sich nicht immer auf ein aktives Display und eine Tastatur zur Fehlererkennung
und Korrektur verlassen. Ein Versuch, sich dieses Problems anzunehmen,
ist in der
US 6,067,521 beschrieben, wobei
erzeugte Sprache, die mit einer geographischen Position, die von
dem Benutzer für
die Fahrt ausgewählt
wurde, verbunden ist, an den Benutzer übermittelt wird. Wenn der Benutzer
verbal einen neuen Ort während
der Verarbeitung des ersten Orts oder innerhalb eines festgelegten
Zeitrahmens eingibt, wird die vorherige Eingabe vergessen und anstelle
der neue Ort verwendet.
-
Ein
interaktives Benutzerspracherkennungssteuerungssystem zur Erkennung
einer vollständigen Sequenz
von Schüsselwörtern, beispielsweise
eine Telefonnummer durch Eingabe, Verifizieren und Bearbeiten von
verschieden langen Äußerungsketten, die
durch definierte Pausen voneinander getrennt sind, ist in der
US 4,870,686 beschrieben.
-
Die
Vorrichtungssteuerung verwendet Zeitmesser, die die Pausen zwischen
den Satzteilzeichenketten, die von der Spracherkennungsvorrichtung
erkannt werden, überwachen.
Wenn einer Zeichenkette ein vorbestimmter Pausenintervall folgt, werden
die erkannten Zeichen mittels eines Sprachgenerators wiederholt.
Eine zusätzliche
Zeichenkette kann dann eingegeben werden und nur die nachfolgende
Kette wird nach der nächsten
Pause wiederholt.
-
Gesetzeshüter müssen jedoch
mit speziellen Problemen, beispielsweise bei der Eingabe von Kfz-Kennzeichen
für eine
Datenbankabfrage rechnen. Die Erkennungsfehlerrate bleibt hoch,
insbesondere in lauter Umgebung, in der sich oft solche Polizisten
befinden. Bekannte Geräuschquellen
umfassen Sirenen, Radiogeschwätz,
quietschende Reifen, Hupen und sogar Schüsse. Emotionale Faktoren (beispielsweise
Stress) können
ferner die Sprachqualität
beeinflussen, wodurch es schwierig wird, das Gesprochene zu erkennen.
Wenn die Schwierigkeit der Situation hinzugefügt wird, können Polizisten nicht immer
die vollständige
Nummer des Kfz-Kennzeichens erfassen, das in einigen Amtsbezirken
separat identifizierbare Komponenten enthalten kann. Es müssen körperliche
Bewegungen ausgeführt
werden, um die visuelle Kontrolle und Aneignung weniger Buchstaben
nacheinander zu erleichtern.
-
Gemäß einem
ersten Aspekt der vorliegenden Erfindung ist ein Verfahren, wie
es in Anspruch 1 definiert ist, vorgesehen.
-
Bei
einer bevorzugten Ausführungsform
wird ein Fokusfeld basierend auf der Wortsemantik bestimmt. Vorzugsweise
wird nach Interpretation jeder Eingabeäußerung ein Audio-Feedback ausgeführt. Vorzugsweise
wird, nachdem ein komplettes Formular ausgefüllt wurde und zur Datenbankabfrage
abgeschickt wurde, eine automatische Anpassung ausgeführt.
-
Gemäß einem
zweiten Aspekt der vorliegenden Erfindung ist eine Vorrichtung,
wie sie in Anspruch 10 definiert ist, vorgesehen.
-
Die
Erfindung wird nachfolgend nur beispielhaft unter Bezugnahme auf
die begleitenden Zeichnungen beschrieben, wobei
-
1 ein
Systemdatenflussdiagramm einer bevorzugten Ausführungsform des Dateneingabesystems
ist, das eine Anwendung des Systems bei einem Kfz-Kennzeicheneingabesystem
für Polizisten darstellt,
und
-
2 ein
Flussdiagramm eines derzeit bevorzugten Verfahrens zum Analysieren
von Eingabeworten für
die Dateneingabe oder von Befehlen zum Ausführen der Korrekturfunktionen
ist.
-
Gemäß 1 verwendet
die derzeit bevorzugte Ausführungsform
ein geeignetes Mikrophon 1, in das ein Polizist spricht,
um die gesamte oder einen Abschnitt der Kfz-Kennzeicheninformation,
die überwacht
wird, einzugeben. Das Mikrophon 10 kann entweder ein Mikrophon
für Nahbesprechung,
das dafür geeignet
ist, dass es in der Hand gehalten wird oder zur Anbringung an der
Polizeiuniform geeignet ist, sein. Das Eingabesystem kann wahlweise
kabellos sein. Das Mikrophon 10 kann alternativ ein Rauschunterdrückungsmikrophon
sein, das an einer geeigneten Position in dem Polizeifahrzeug angeordnet
ist. Wenn gewünscht,
kann ein zweites Mikrophon verwendet werden, um ein Hintergrundgeräuschsignal zu
erhalten, das von dem Signal, das von dem Mikrophon 10 bereitgestellt
wird, abgezogen werden kann, um die Wirkungen von Umgebungsgeräuschen zu verringern,
die bei dieser Anwendung erheblich sein können.
-
Die
Ausgabe des Mikrophons 10 ist mit einem A/D-Umwandler 12 verbunden,
der den Audioeingabezwischenspeicher 14 versorgt. Der Eingabezwischenspeicher 14 weist
vorzugsweise eine geeignete Größe auf,
um mehrere Äußerungen
der Eingabesprache zu speichern. Aufgrund des möglicherweise hohen Hintergrundgeräuschpegels
speichert das System die Audioeingabe in dem Eingabezwischenspeicher 14 für einen
ausreichenden Zeitraum, damit das System bestimmen kann, ob der
Inhalt des Eingabezwischenspeichers 14 Eingabesprache oder Hintergrundgeräusche repräsentiert.
-
Um
dies zu erzielen, nimmt ein Endpunkterkennungsmodul 16 kontinuierlich
Proben des Inhalts des Eingabezwischenspeichers 14. Das
Endpunkterkennungsmodul 16 stellt ein Signal, das Sprache
vorliegt, für
eine Erkennungsvorrichtung 18 bereit. Die Erkennungsvorrichtung 18 verwendet
ein Lexikon 20 von Worten, die die Erkennungsvorrichtung 18 erkennen
kann. Sobald das Endpunkterkennungsmodul 16 anzeigt, dass
Sprache in dem Eingabezwischenspeicher 14 vorliegt, analysiert
die Erkennungsvorrichtung 18 den Inhalt des Eingabezwischenspeichers 14,
indem sie eine Worterkennung für
das Eingabeaudiosignal ausführt.
Obwohl die Endpunkterkennung ausgeführt wird, um zu bestimmen,
ob ein Sprachsignal vorliegt oder nicht, werden der wahre Anfangspunkt
und Endpunkt der Eingabesprache durch die Erkennungsvorrichtung 18 durch
Worterkundung bestimmt.
-
Die
Erkennungsvorrichtung 18 ist vorzugsweise als eine kontinuierlich
arbeitende Spracherkennungsvorrichtung ausgelegt. In anderen Worten gesagt,
kann ein Polizist mit einer normalen Sprachkadenz, als ob er mit
einer weiteren Person sprechen würde,
sprechen. Obwohl es für
den Polizisten möglich
ist, zwischen einzelnen Wortäußerungen
anzuhalten, ist es nicht notwendig, dies zu tun, da die kontinuierlich
arbeitende Spracherkennungsvorrichtung 18 eine kontinuierliche
Sprachkadenz verarbeiten kann. Obwohl das Dateneingabeformular mehrere Felder
enthalten kann, die ausgefüllt
werden müssen,
braucht der Sprecher dem System nicht ausdrücklich ansagen, welches Feld
gemeint ist, das im Eingabefokus steht. Eine Äußerung kann ferner Informationen
für mehrere
Felder gleichzeitig bereitstellen. Wenn drei Felder vorhanden sind,
nämlich ein
Staatenbezeichnungsfeld für
das Kfz-Kennzeichen, ein Jahresfeld für das Kfz-Kennzeichen und ein Zahlenfeld
für das
Kfz-Kennzeichen vorhanden sind, könnte ein Benutzer den Staat
und die Kennzeichennummer (insgesamt oder teilweise) in einer Äußerung eingeben.
Der Dialogmanager, der nachfolgend beschrieben wird, kann solch
einen Fluss, der auf der eindeutigen Semantik, die den erkannten
Worten zugehörig
ist (d.h. die Liste von Staaten ist festgelegt und vorbekannt, Werte
für das
Jahresfeld des Kfz-Kennzeichens können einfach bestimmt werden),
verarbeiten.
-
Bei
der gegenwärtig
bevorzugten Ausführungsform
speichert das Lexikon 20 antrainierte Modelle für alle Worte,
die nötig
sein könnten,
um das Kfz-Kennzeicheneingabeformular
zu beschreiben. Diesbezüglich
werden die Buchstaben des Alphabets, Staatennamen und Zahlen von
0 bis 9 beispielsweise als „Worte" angesehen und sind
in dem Lexikon 20 gespeichert. Um Spracherkennungsfehler
zu verringern, wird ein spezielles Vokabular für die Eingabe von Buchstaben
verwendet. Jeder Buchstabe weist ein Wortäquivalent auf, das weniger
anfällig gegen
Verwechselung ist. In einer lauten Umgebung ist es schwierig (sogar
für menschliche
Zuhörer),
beispielsweise zwischen „p" und „t" zu unterscheiden. Bei
diesem spezifischen Beispiel werden die Wörter „Paul" anstelle des Buchstabens „p" und „Tom" anstelle des Buchstabens „t" verwendet. Ferner
sind in dem Lexikon 20 die zusätzlichen gesprochenen Befehle,
die nachfolgend im Detail beschrieben werden, gespeichert, mit denen
der Polizist beispielsweise entweder falsch gelesene Kfz-Kennzeichennummern oder
nicht korrekt erkannte gesprochene Äußerungen korrigieren kann.
-
Die
Ausgabe der Erkennungsvorrichtung 18 wird an den Dialogmanager 22 geleitet.
Der Dialogmanager 22 hat mehrere Funktionen. Eine Funktion ist
es, die Ausgabewörter
der Erkennungsvorrichtung 18 zu analysieren und diese als
Blöcke
in einem Ausgabeformularzwischenspeicher 24 zu speichern.
Der Dialogmanager 22 analysiert ferner die erkannten Worte,
um diese zu isolieren und auf die zu reagieren, die gesprochene
Befehle zu Feldinformationen enthalten. Basierend auf dem semantischen
Inhalt der Eingabe sendet der Dialogmanager 22 die Werte an
die zugehörigen
Felder. Wenn die Äußerung „New Jersey
Zebra 5 6" ausgesprochen
wird, wird der Dialogmanager 22 den Wert des Staats durch „NJ" ersetzen und die
Zeichenkette „Z56" in das Zahlenfeld
des Kfz-Kennzeichens eingeben. Der Dialogmanager 22 kommuniziert
mit einem Text-Sprache-Konvertierungssystem 26, das ein
Audio-Feedback über ein geeignetes
Lautsprechersystem 28 bereitstellt. Das Text-Sprache-Konvertierungssystem 26 kann
auf der Sprachsynthesetechnologie, wenn gewünscht, basieren. Da das Vokabular
des Text-Sprache-Konvertierungssystems 26 relativ begrenzt
ist, kann alternativ eine digital aufgezeichnete menschliche Stimme verwendet
werden. Solch eine digital aufgezeichnete menschliche Stimme wird
derzeit bevorzugt, da sie sich natürlicher anhört.
-
Der
Ausgabeformularzwischenspeicher 24 dient als Sammelbereich
für den
Aufbau der gesamten Kfz-Kennzeicheninformation, wenn die Information
durch den Polizisten identifiziert und in das System eingelesen
wird. Der Dialogmanager 22 kann einigen der Felder Standardwerte
zuweisen. Wenn das laufende Jahr 2001 ist und die Polizeiabteilung,
die das System verwendet, beispielsweise Los Angeles ist, wird der
Wert 2001 als Standardwert für
das „Zulassungsjahr" des Kfz-Kennzeichens
festgelegt und der Wert „CA" für Kalifornien
als ein Standardwert für den „Zulassungsstaat" des Kfz-Kennzeichens
festgelegt. Eine Darstellung des Inhalts des Ausgabeformularzwischenspeichers 24 ist
bei „30" gezeigt. Bei der Darstellung
hat der Polizist „Charlie
Adam Null Sieben Nora" ausgesprochen
und diese Äußerung wird in
dem Ausgabeformularzwischenspeicher 24, wie bei „30" dargestellt, gespeichert.
Es wird angenommen, dass der Polizist die teilweise Kfz-Kennzeicheninformation
in zwei Satzgliedern, nämlich „Charlie
Adam Null" und „Sieben
Nora" ausgesprochen hat.
Der Dialogmanager 22 behandelt diese zwei Eingabesatzglieder
als separate Blöcke,
da sie mit einer ausreichenden Pause zwischen den Satzgliedern ausgesprochen
wurden, so dass die Erkennungsvorrichtung 18 diese nicht
als ein kontinuierliches Satzglied ausgegeben hat. Der Dialogmanager 22 unterstützt ein
Formularformatierungshistorienmodul 32, um den Inhalt des
letzten ausgesprochenen Blocks zu kennzeichnen. Die Formatierungshistorie
innerhalb des Formularformatierungshistorienmoduls 32 verfolgt
alle Abänderungen,
die in all den Feldern auftreten, wie nachfolgend detaillierter
beschrieben werden wird. Diese Formatierungshistorie erlaubt es dem
Dialogmanager, den letzten ausgesprochenen Block zu löschen, wenn
der Polizist den entsprechenden Löschbefehl gibt.
-
Die
derzeit bevorzugte Ausführungsform
ist multi-modal. Sprachliche und visuelle Eingabe- und Ausgabemöglichkeiten
sind vorgesehen. Um dies darzustellen, ist der Dialogmanager 22 als
mit einem tragbaren PC-Anschluss, beispielsweise eines geeignet
ausgestatteten tragbaren PCs 40, der eine Tastatur 42,
eine Cursor-Steuervorrichtung 44 und
einen Berührungsbildschirm 46 aufweist,
verbunden gezeigt. Wenn gewünscht,
kann daher der Polizist die Kfz-Kennzeicheninformation unter Verwendung der
Tastatur 42, der Cursor-Steuervorrichtung 44 oder
des Berührungsbildschirms 46 eingeben.
Das Feedback an den Polizisten wird ähnlicherweise visuell durch
den Berührungsbildschirm 46,
wie es gleichzeitig über
das Lautspre chersystem 28 bereitgestellt wird, bereitgestellt.
-
Sobald
der Polizist die gesamte Kfz-Kennzeicheninformation eingegeben hat
und mit ihrer Korrektheit zufrieden ist, veranlasst ein ausgesprochener
Befehl an den Dialogmanager 22, dass der Ausgabeformularzwischenspeicher 24 an
das Kommunikationsmodul 50 geleert wird. Das Kommunikationsmodul
kommuniziert kabellos mit einem geeigneten Datenbanksuchserver 52,
der auf die Führerschein- und
Kfz-Kennzeicheninformationsdatenbank 54 Zugriff
hat. Das Datenbanksuchsystem 52 nutzt die Kfz-Kennzeicheninformation,
die von dem Polizisten bereitgestellt wird, um festzustellen, ob
mit dem Fahrzeug irgendwelche besonderen Berechtigungen oder andere
Informationen verbunden sind. Diese Information wird dann zurück an das
Kommunikationsmodul 50 kommuniziert und dann wiederum an
den Dialogmanager 22 weitergegeben. Der Dialogmanager 22 zeigt
dann die übermittelte
Information auf dem Berührungsbildschirm 46 an
und gibt ferner wahlweise einige oder alle der zugesandten Informationen
an das Text-Sprache-Konvertierungssystem 26 aus.
-
Bei
der derzeit bevorzugten Ausführungsform
filtert der Dialogmanager 22 die zurückgesandte Information derart,
dass nur die wichtigste Information über das Text-Sprache-Konvertierungssystem 26 ausgegeben
wird. Der Polizist wird daher nicht mit zu vielen hörbaren Informationen überschüttet, während er
oder sie abschätzt,
wie mit der vorliegenden Situation umgegangen werden soll. Wenn
das identifizierte Fahrzeug als gestohlen gemeldet ist oder wenn vom
letzten bekannten Fahrer angenommen wird, dass er bewaffnet und
gefährlich
ist, würde
beispielsweise diese Information über das Text-Sprache-Konvertierungssystem 26 kommuniziert.
Wenn im Gegensatz dazu das Fahrzeug in einem unbedeutenden Unfall
in den letzten 3 Jahren verwickelt war, aus dem keine Anklage erfolgte,
würde diese
Information unterdrückt.
-
Die
bevorzugte Ausführungsform
verwendet ein Vollduplex-Kommunikationssystem. Der Polizist kann
in das Mikrophon 10 sprechen, während gleichzeitig das Text-Sprache-Konvertierungssystem 26 ein
hörbares
Feedback bereitgestellt. Diesbezüglich unterscheidet
sich das bevorzugte System von einem Halbduplex-Funkkommunikationssystem, bei dem nur
eine Partei spricht, während
die andere zuhört,
jedoch beide Parteien nicht gleichzeitig sprechen können Das
Vollduplex-System der bevorzugten Ausführungsform ist ausgelegt, um
einen natürlichen
Dialogverkehr bereitzustellen. Der Dialogmanager 22 ist
ausgelegt, um auf Eingabeäußerungen
eines Polizisten und Korrekturen dieser Äußerungen in einer sehr natürlichen
Weise zu reagieren. Diese natürliche
Dialoginteraktion ist sehr wichtig, da Polizisten oft Stresssituationen
ausgesetzt sind, in denen sie schnell eine mögliche gefährliche Situation erkennen
und in einer geeigneten Weise auf diese reagieren müssen. Oft
ist es für
den Polizisten nicht möglich,
auf einen Computermonitor zu schauen oder auf einer Tastatur zu
schreiben. Sprache ist daher das einzige praktische Mittel für den Polizisten,
die neuesten Informationen zu erhalten, auf die er sich verlassen
kann.
-
Diesbezüglich ist
das Problem der Kfz-Kennzeichensuche technologisch schwieriger,
als es auf den ersten Blick erscheint. Da die Hintergrundgeräusche in
einem Polizeifahrzeug oft stark und sehr unvorhersehbar sind, kann
es passieren, dass das Erkennungssystem viele Fehler macht. Im Gegensatz zu
einem Textverarbeitungsdiktatsystem, bei dem die erkannten Wörter auf
Korrektheit durch Betrachten des Kontexts überprüft werden können, ist die Kfz-Kennzeichensuchanwendung
schwieriger, da es keinen Kontext gibt.
-
Beispielsweise
besteht bei einer Textverarbeitungsdiktatanwendung eine ausgesprochene Äußerung typischerweise
aus Nomen, Verben, Adjektiven und Adverbien, die in einer vorhersehbaren
Weise, basierend auf der Grammatik der Sprache, verknüpft sind.
Die Kenntnis dieser Grammatik, was manchmal Sprachmodell genannt
wird, ermöglicht, dass
die Erkennungsvorrichtung das korrekte Wort besser auswählen kann,
sogar wenn die akustischen Werte gering sind. Im Gegensatz dazu
weisen die Zahlen des Kfz-Kennzeichens kein ähnliches Sprachmodell auf.
Die Zahl 0 kann genauso oft der Zahl 1 folgen, wie den Zahlen 2,
3 oder 4. Um die größere Komplexität des Kfz-Kennzeichensucheproblems
zu lösen,
nutzt die derzeit bevorzugte Ausführungsform ein eng verbundenes
Dialogmodell, das ein sofortiges Feedback an den Polizisten für jeden gesprochenen
Textblock bereitstellt, wodurch der Polizist sofort die Gelegenheit
hat, jegliche Erkennungsfehler zu korrigieren.
-
2 stellt
dar, wie der bevorzugte Dialogmanager 22 (1)
arbeitet. Die Erkennungsvorrichtung 18 (1)
liefert den erkannten Ausgabetext als Wortblöcke, während sie in kontinuierlicher
Sprache erkannt werden. Wenn der Polizist „Adam", „Berta" und „Charlie" als drei separate
Satzglieder, die durch natürliche
Sprechpausen voneinander getrennt sind, ausspricht, wird daher beispielsweise
die Erkennungsvorrichtung 18 die drei separaten Blöcke, die jeweils
ein Wort enthalten, (d.h. diese Worte entsprechen den Buchstaben
A, B und C) ausgeben. Andererseits wird die Erkennungsvorrichtung 18,
wenn der Polizist „Adam
Berta" und „Charlie" ausspricht, zwei Blöcke ausgeben,
wobei der erste Block die Buchstaben A und B und der zweite Block
den Buchstaben C enthält.
Der Dialogmanager 22 betrachtet die Ausgabe der Erkennungsvorrichtung 18 als
Eingaben in das Dialogsystem. Wie in Schritt 100 (2)
dargestellt, teilt der Dialogmanager 22 die Eingabe in
Blöcke
und jeder Eintrag wird dann evaluiert, um zu bestimmen, ob er eine
feldspezifische Angabe oder ein Befehl ist. Dieser Schritt ist bei 102 dargestellt.
Wenn im Schritt 102 der Eintrag kein Befehl ist, wird der Eintrag
verwendet, um das zugehörige
Ausgabeformularzwischenspeicherfeld (durch Ersetzen oder Konkatenation),
wie im Schritt 104 dargestellt, zu aktualisieren. Wie in
Schritt 104a dargestellt, werden die Felder, die zu aktualisieren
sind, basierend auf der Semantik, die den erkannten Worten verbunden ist,
bestimmt. Die Aktualisierung wird durch Ersetzen des Jahresfeldinhalts,
wie im Schritt 104b1 dargestellt, durch Konkatenation mit
dem Zahlenfeldinhalt, wie in Schritt 104b2 dargestellt,
und/oder durch Ersetzen des Staatenfeldinhalts, wie in Schritt 104b3 dargestellt,
ausgeführt.
Der Eintrag wird dann als gesprochene Ausgabe (Schritt 106)
wiedergegeben.
-
Wenn
im Schritt 102 der Eintrag als Befehl erkannt wird, wird
alternativ der Befehl im Schritt 108 verarbeitet. Obwohl
eine beliebige Anzahl von Befehlen vorgesehen sein kann, sind hier
fünf beispielhafte Befehle
dargestellt. In 2 ist jeder Befehl als ein separater
logischer Durchlaufpfad identifiziert. Wenn beispielsweise der Befehl
das Wort „nein" ist, wird dieser
Befehl wie im Schritt 110 durch Löschen des letzten Dateneintrags
verarbeitet.
-
Bezogen
auf 1 wird, wenn der Befehl „nein" direkt nach dem Eintrag des Kfz-Kennzeichenbuchstaben „7N" ausgesprochen wird,
dann der letzte eingetragene Block „7N" gelöscht.
-
Mehrere
Befehle können
die gleiche Wirkung aufweisen. Wie in 2 dargestellt,
kann daher der Befehl „Korrektur" auch zur Löschung des
letzten Dateneintrags im Schritt 110 führen.
-
Um
dem Polizisten zu ermöglichen,
die gesamte Führerscheininformation,
die er bis dahin eingegeben hat, zu löschen, ist der Befehl „Alles
Löschen" vorgesehen. Das
Aussprechen dieses Befehls führt
dazu, das der gesamte Inhalt des Ausgabeformularzwischenspeichers 24 (1)
mit allen Standardwerten, die, wie im Schritt 112 (2)
dargestellt, gespeichert sind, gelöscht wird. Wenn der Polizist
möchte,
dass der Inhalt des Zwischenspeichers wiederholt wird, um die gesamte
Nummer zu überprüfen, können er
oder sie den Befehl „Wiederholen" eingeben. Dieser
Befehl veranlasst das System, den gesamten Block als gesprochene
Ausgabe an das Text-Sprache-Konvertierungssystem 26 (1),
wie im Schritt 114 (2) dargestellt,
zu wiederholen. Explizite Befehle zur Auswahl des Feldes, für das der
Wert nachfolgend ausgesprochen wird, können definiert werden. Beispielsweise
könnte der
Befehl „Kfz-Kennzeichenjahr" bereitgestellt werden.
-
Sobald
der Polizist damit zufrieden ist, dass die korrekte Kfz-Kennzeicheninformation
eingegeben wurde, spricht der Polizist den Befehl „Senden" aus. Dieser Befehl
führt dazu,
dass der Inhalt des Ausgabeformularzwischenspeichers 24 (1)
an das Kommunikationsmodul 50 (1), wie
in Schritt 116 (2) dargestellt, abgegeben wird.
-
Als
ein weiteres Beispiel zeigt Tabelle 1 eine typische Dialoginteraktion.
Die Tabelle zeigt die Spracheingabe des Benutzers (Benutzereingabe),
welche Nachricht an das Text-Sprache-Konvertierungssystem abgegeben
wird und/oder zusätzliche
Spracherzeugungsmittel (Bestätigungsnachricht),
und den aktuellen Inhalt jedes Felds des Formularzwischenspeichers.
Es ist zu vermerken, dass Tabelle 1 ein Beispiel darstellt, bei
dem der Polizist einen visuellen Fehler gemacht hat und entschieden
hat, den gesamten Zwischenspeicher zu löschen und von vorne zu beginnen,
und ein Beispiel solches, bei dem die Erkennungsvorrichtung einen
Erkennungsfehler ge macht hat und der Polizist entscheidet, diesen
zu verbessern und fortzufahren.
-
Dialog Nr. #1:
-
- Benutzereingabe=„Utah
1 7"
- Bestätigungsnachricht=„Utah 1
7"
- Formularzwischenspeicher=(Jahr= „2001"; Staat= „UT"; Zahl= „17")
-
Dialog Nr. #2:
-
- Benutzereingabe=„Alles
Löschen"
- Bestätigungsnachricht=<Alles Löschen – Glockenton>
- Formularzwischenspeicher=(Jahr= „2001"; Staat= „NJ"; Zahl= „")
-
Dialog Nr. #3:
-
- Benutzereingabe=„Kalifornien
5 6"
- Bestätigungsnachricht=„Kalifornien
5 6"
- Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „56")
-
Dialog Nr. #4:
-
- Benutzereingabe=„Ozean
9"
- Bestätigungsnachricht=„Ozean
5"
- Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl="5605")
-
Dialog Nr. #5:
-
- Benutzereingabe=„Korrektur"
- Bestätigungsnachricht=<Korrektur – Glockenton>
- Formularzwischenspeicher=(Jahr="2001";
Staat= „CA"; Zahl= „56")
-
Dialog Nr. #6:
-
- Benutzereingabe=„Ozean
9"
- Bestätigungsnachricht=„Ozean
9"
- Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „5609")
-
Dialog Nr. #7:
-
- Benutzereingabe=„Zebra
Marie 6"
- Bestätigungseingabe=„Zebra
Marie 6"
- Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „5609ZM6")
-
Dialog Nr. #8:
-
- Benutzereingabe=„Wiederholen"
- Bestätigungsnachricht=„Kalifornien
56 Ozean 9 Zebra Marie 6"
- Formularzwischenspeicher=(Jahr= „2001"; Staat= „CA"; Zahl= „5609ZM6")
-
Dialog Nr. #9:
-
- Benutzereingabe=„Senden"
- Bestätigungsnachricht=„Abfrage
der Datenbank....."
- Formularzwischenspeicher=(Jahr= „2001 "; Staat= „CA"; Zahl= „5609ZM6")
-
Sprecheranpassung
kann in Beziehung mit dem Dialogmodell effizient genutzt werden.
Durch Erlernen der Stimmmuster, die für den Sprecher spezifisch sind,
kann die Genauigkeit der Spracherkennung verbessert werden. Nach
einigen Anpassungen wird stufenweise das Sprecher-unabhängige-System zu
einem Sprecherabhängigen-System.
Basierend auf dem Dialogmodell kann ein sicheres Anpassungsverfahren
verwendet werden. Die Sprachblöcke,
die eindeutig sind (d.h. die explizit von dem Benutzer korrigiert
wurden) sind Kandidaten für
die Anpassung. In diesem Fall ist die Anpassung für den Benutzer
klar und kann im Hintergrund automatisch ausgeführt werden. Optional kann auch
eine explizite Anpassung verwendet werden. Hierbei kann der Sprecher
gebeten werden, vor dem Gebrauch mehrere Sätze ins System zu sprechen.
-
Die
Beschreibung der Erfindung ist nur beispielhaft und Varianten, die
nicht von dem Geist der Erfindung abweichen, fallen daher in den
Schutzbereich der Erfindung, wie er in den anhängenden Ansprüchen definiert
ist.