DE68928097T2

DE68928097T2 - Spracherkennungssystem

Info

Publication number: DE68928097T2
Application number: DE68928097T
Authority: DE
Inventors: James K Baker; Edward W Porter; Jed Roberts
Original assignee: L&H Holdings USA Inc
Current assignee: L&H Holdings USA Inc
Priority date: 1988-12-06
Filing date: 1989-11-30
Publication date: 1997-10-16
Anticipated expiration: 2009-12-01
Also published as: EP0376501A2; GR900300171T1; EP0376501A3; ES2018761A4; DE68928097D1; US5027406A; ATE154156T1; EP0376501B1; DE376501T1

Description

Diese Erfindung bezieht sich auf Spracherkennungsmethoden und -geräte sowie auf Trainingsmodelle zur Verwendung in der Spracherkennung. Insbesondere bezieht sich die Erfindung auf Methoden und Geräte, durch die das Erkennungssystem schneller trainiert und die Erkennungsleistung verbessert werden kann.
Dokument US 4783803 beschreibt ein sprecherunabhängiges akustisches Spracherkennungssystem, das vordefinierte akustische Wortmodelle enthält, die mit von einer Lautäußerung generierten akustischen Daten verglichen werden. Derartige sprecherunabhängige akustische Modellsysteme können von verschiedenen Benutzern verwendet, aber nicht auf eine Verbesserung der Erkennungsrate hin trainiert werden.
Eine Form des akustischen Spracherkennungssystems für die japanische Sprache wird von F. Togawa in ICASSP '87, Band 2, Seite 1121-1124, unter "sprachaktiviertes Textverarbeitungsprogramm mit automatischen Lernfünktionen für dynamische Optimierung von Silbenschablonen" beschrieben. Die darin beschriebene Methode ist jedoch nicht auf westliche Sprachen, in denen die Phonemsegmente viel verschiedenartiger als in der japanischen Sprache sind, anwendbar. Auch "lernt" dieses System, indem Silbenschablonen vollständig ersetzt werden, ohne daß die im akustischen Modell zuvor enthaltenen Informationen beibehalten werden. Das System ist folglich nicht wirklich adaptiv, denn es lernt nur dadurch, daß es die zuvor bekannten Silbeninformationen einfach "vergißt". Ebenfalls sind linguistische Modellsysteme bekannt, die speziell auf die Stimme eines Benutzers hin trainiert werden müssen. Die Einrichtung derartiger Systeme dauert lange, und es kann auch erhebliche Zeit in Anspruch nehmen, bevor das System ein ausreichendes Vokabular erkennen kann.
Von einem gewissen Aspekt der vorliegenden Erfindung aus gesehen, muß ein Spracherkennungssystem zur Ausführung der Spracherkennung nach einer Wortäußerung mit folgenden Fähigkeiten ausgerüstet sein:
Mittel zur Speicherung einer Gruppe akustischer Wortmodelle, die akustische Daten enthalten und in Verbindung mit einem Wortlabel gespeichert werden;
Mittel zur Erstellung eine akustischen Beschreibung des geäußerten Wortes, das erkannt werden soll;
Erkennungsmittel für den Vergleich der erstellten akustischen Beschreibung mit einer Vielzahl von akustischen Wortmodellen, die in den genannten Mitteln zur Auswahl eines akustischen Wortmodells, das der akustischen Beschreibung am besten entspricht, gespeichert werden.
Es handelt sich hier um Mittel, durch welche die akustischen Daten aus der akustischen Beschreibung mit den akustischen Daten, die zur Auswahl des am besten passenden akustischen Wortmodells gespeichert sind, kombiniert werden und dadurch das akustische Wortmodell aktualisiert wird. Auch sind Mittel zur Speicherung des aktualisierten akustischen Wortmodells in der genannten Gruppe gespeicherter akustischer Wortmodelle eingeschlossen, und zwar auf eine Weise, daß das aktualisierte akustische Wortmodell bei der nachfolgenden Spracherkennung durch das genannte System genutzt werden kann.
Die Erfindung sollte nach dem Lesen der nachfolgenden Darstellung und dem Studium der begleitenden Zeichnungen erheblich leichter zu verstehen sein.
ABBILDUNG 1 zeigt ein schematisches Blockdiagramm der Funktionsschritte eines Spracherkennungssystems für diskrete Wortäußerungen, um das es sich bei der vorliegenden Erfindung handelt.
ABBILDUNG 2 zeigt ein Flußdiagramm der Funktionsschritte, die bei der Erfassung neuer akustischer Tokens zur Verwendung in den Spracherkennungssystemen der Abbildungen 1 und 25 durchgeführt werden müssen.
ABBILDUNG 3 zeigt ein schematisches Blockdiagramm des Erkennungsalgorithmus und der verwandten Datenstrukturen, die in der in Abbildung 1 dargestellten Realisierung der Erfindung verwendet werden.
ABBILDUNG 4 zeigt ein schematisches Blockdiagramm der Funktionsschritte, die in einem bekannten Erkennungsalgorithmus, der Hidden-Markov-Modelle verwendet, nach einer diskreten Wortäußerung ausgeführt werden. Dieser Erkennungsalgorithmus kommt in der in Abbildung 1 gezeigten Realisierung der Erfindung zur Anwendung.
ABBILDUNG 5 zeigt ein schematisches Blockdiagramm der Funktionsschritte, die während des Trainings oder der Erstellung akustischer Modelle für ein verdecktes Markov-Modell durchgeführt werden, das in dem in Abbildung 1 und 25 gezeigten Erkennungssystemen zur Anwendung kommt.
ABBILDUNG 5A zeigt eine Modifikation des Blockdiagramms in Abbildung 5 zur Erkennung kontinuierlicher Sprache bei verdeckten Markov-Modellen.
ABBILDUNG 6 zeigt ein schematisches Blockdiagramm, daß die Weiterleitung einer bekannten dynamischen Programmierungsmethode betrifft, die beim Training akustischer Modelle oder bei der kontinuierlichen Spracherkennung als erster Schritt angewandt wird.
ABBILDUNG 7 zeigt ein schematisches Blockdiagramm des Rückverfolgungsschrittes beim Training akustischer Modelle oder bei der kontinuierlichen Spracherkennung
ABBILDUNG 8 zeigt ein schematisches Diagramm für das Training akustischer Modelle, das in den Abbildungen 5,6 und 7 beschrieben wird. Hierdurch wird dargestellt, wie die in einem derartigen Training gewonnenen Daten zum Training phonemischer Wortmodelle verwendet werden können.
ABBILDUNG 9 zeigt ein Flußdiagramm des in Abbildung 1 und 25 verwendeten probabilistischen natürlichen Sprachmodellierungsprozesses.
ABBILDUNGEN 10-24 illustrieren Beispiele für Computerbildschirmsequenzen, die generiert werden, wenn das in Abbildung 1 dargestellte Programm zur Eingabe des Satzes "This invention relates to..." verwendet wird.
ABBILDUNG 25 zeigt ein schematisches Blockdiagramm der Funktionsschritte in einem verbundenen Spracherkennungssystem, das in der vorliegenden Erfindung verkörpert ist.
ABBILDUNG 26 zeigt eine Fortsetzung des schematischen Blockdiagramms aus Abbildung 25, in der die Schritte des Satzbearbeitungsmodus dieses Systems illustriert werden.
ABBILDUNGEN 27 - 36 illustrieren Beispiele für Computerbildschirmsequenzen, die generiert werden, wenn das in Abbildung 25 und 26 dargestellte Programm zur Eingabe von Sätzen in das System verwendet wird.
Abbildung 1 zeigt ein schematisches Blockdiagramm der Funktionsschritte, die in der bevorzugten Realisierung der vorliegenden und zur Erkennung separat gesprochener Worte entwickelten Erfindung durchgeführt werden. In diesem Kontext wird unter "Wort" ein einzelnes Wort oder eine Gruppe von Wörtern verstanden, die in einer einzelnen Lautäußerung gesprochen werden und für die ein akustisches Modell für einzelne Lautäußerungen trainiert worden ist.
Die bevorzugte Realisierung der in ABBLDG. 1 beschriebenen Erfindung wurde als TSR-Tastaturemulator entwickelt. Derartige Tastaturemulatoren sind im PC-Bereich als Programme bekannt, die in den Speicher geladen werden und dort permanent verbleiben, so daß sie von einem Anwendungsprogramm aufgerufen werden können, wenn eine Tastatureingabe angefordert wird. Wenn eine derartige Anwendung ein Teilprogramm aufruft, um die Eingabe über die Tastatur zu erhalten, übernimmt der Emulator den Aufruf und führt anstelle der standardmäßigen Tastaturverarbeitungsroutine des Betriebssystems das Emulatorprogramm aus. Sobald dieser Vorgang abgeschlossen ist, wird die Steuerung an das Anwendungsprogramm zurückgegeben. Eventuelle Ausgaben werden als Zeichenfolge wiedergegeben, und zwar genauso, als ob diese Zeichen über die Tastatur eingegeben worden wären.
Das in ABBLDG. 1 dargestellte Programm startet bei 100 (siehe links unten in der Abbildung), und zwar durch Ausführung von Schritt 101. Schritt 101 initialisiert das System. Das restliche Diktierprogramm in ABBLDG. 1 wird in den Arbeitsspeicher geladen und das Diktierprogramm dann initialisiert. Der Erkennungsmodus wird in den TEXTMODUS geschaltet, wodurch das erste diktierte Wort als ein Wort erkannt wird, das in den Text eingegeben werden soll. Gleichzeitig wird SAV TOK (ein Puffer, in dem ein zuvor erkanntes Wort gespeichert werden kann) gelöscht sowie auch die Zeichenfolge STARTSTRING, die zur Korrektur falsch erkannter Wörter verwendet wird. Schritt 101 beendet anschließend das Diktierprogramm und belaßt es im Arbeitsspeicher, so daß es vom Anwendungsprogramm aufgerufen werden kann. Als nächstes wird ein Anwendungsprogramm geladen und zu Schritt 102 übergegangen. Bei den in dieser Spezifikation verwendeten Beispielen handelt es sich um ein Textverarbeitungsprogramm. Mit dem Diktierprogramm in ABBLDG. 1 können jedoch auch andere Anwendungsprogramme verwendet werden.
Das Anwendungsprogramm wird mit Schritt 102 zunächst initialisiert. Anschließend wird eine Benutzereingabe über die Tastatur angefordert. Diese Anforderung veranlaßt das Anwendungsprogramm zum Aufruf des Diktierprogramms (ABBLDG. 1), wobei mit der Eingabeerkennungsschleife 103 (siehe oben in ABBLDG. 1) begonnen wird. Schleife 103 führt wiederholt Schritt 111 aus, der nach einer Lautäußerung sucht, sowie auch Schritt 104, der nach einem Tastenanschlag sucht. Das Programm setzt Schleife 103 fort, bis mit Schritt 104 oder 111 eine Benutzereingabe festgestellt wird. Sobald ein Tastenanschlag generiert wird, übernimmt Schritt 104, und die Prüfung in Schritt 801 wird aktiviert.
Diese Prüfung gilt als erfolgreich abgeschlossen, sobald das System ein Fenster anzeigt (entweder ein Auswahlfenster oder ein Definitionsfenster). Das heißt, die Prüfung gilt als abgeschlossen, wenn, wie weiter unten erklärt, ein Auswahlfenster durch Schritt 176 oder 274 oder ein Definitionsfenster durch Schritt 270 angezeigt und die Anzeige nicht durch Schritt 204 oder 192 gelöscht wurde. Wenn die Prüfung mit Schritt 801 nicht erfüllt worden ist, wird der Tastenanschlag direkt an die Anwendung gesendet. In diesem Modus kann der Benutzer Zeichen über die Tastatur, d.h. ohne Spracherkennung, eingeben. Sofern die Prüfung mit Schritt 801 erfüllt ist, wird Schritt 105 durchgeführt, um den Tastenanschlag zu erfassen und für eine Reibe von Verzweigungstests (Schritte 106-110) bereitzustellen. Schritt 105 enthält eine Reihe von Teilschritten, die dazu führen, daß das Programm einen Augenblick wartet (d.h. für die Dauer eines Doppelklicks), sofern der Tastenanschlag als Funktionstaste f1 - f9 empfangen wird. Auf diese Weise wird festgestellt, ob der Benutzer die Funktionstaste evtl. erneut drückt. Wenn dies der Fall ist, wird der Tastenanschlag als Doppelklick interpretiert und mit der Nummer verknüpft, die der zweimal gedrückten Funktionstaste entspricht. Als Ergebnis wird dann ein Zeichen, das sowohl die Nummer der gedrückten Funktionstaste als auch die Information, daß die Taste zweimal gedrückt wurde, darstellt, an die Tests in den Schritten 106 - 110 gesandt.
Wenn der Benutzer dagegen ein Wort diktiert, wird Schritt 111 aktiviert, und für die Äußerung wird dann ein Spracherkennungs-Token erzeugt.
In ABBLDG. 2 werden die Schritte beschrieben, die nach einer Wortäußerung zur Erzeugung eines Token führen. In der bevorzugten Realisierung werden die meisten der in ABBLDG. 2 gezeigten Schritte von der Hardware übernommen, wahrend die in ABBLDG. 1 gezeigten Schritte von der Zentraleinheit (CPU) ausgeführt werden, d.h. eine parallele Durchführung der in ABBLDG. 2 und ABBLDG. 1 gezeigten Schritte ist durchaus möglich.
Wenn der Benutzer ein Wort in das Mikrofon 811 diktiert, wird von diesem Mikrofon mit Schritt 112 ein akustisches Signal empfangen. Im Grunde genommen empfängt Schritt 112 über das Mikrofon standig ein akustisches Signal, sofern das Mikrofon eingeschaltet ist. Dies ist normalerweise der Fall, sofern der Benutzer das System regulär zum Diktieren benutzt. Die in ABBLDG. 2 gezeigten Schritte sollten folglich als Schritte eines parallel laufenden Prozesses betrachtet werden. Das von Mikrofon 811 stammende analoge elektrische Signal, das mit Schritt 112 empfangen wurde, wird mit Schritt 113 in eine Folge digitaler Werte konvertiert. Mit Schritt 114 wird durch eine Fourier-Transformation (FFT) für jeden Sprachrahmen ein Größenspektrum berechnet. Diese Methoden zur Berechnung eines Größenspektrums aus einer Folge digitaler Werte sind den Experten der digitalen Signalverarbeitung durchaus bekannt. In der bevorzugten Realisierung der vorliegenden Erfindung werden bei der Analog/Digital-Konvertierung in Schritt 113 Werte bei ungefähr 12 000 Hertz generiert, wobei wahrend eines 20 Millisekunden dauernden Sprachrahmens 240 Digitalwerte erstellt werden. Diese 240 Digitalwerte werden durch eine passende Fensterfunktion multipliziert (z.B. durch ein Hamming-Fenster), und anschließend wird durch die Fourier-Transformation in Schritt 114 ein Frequenzspektrum berechnet. Andere Methoden der digitalen Signalverarbeitung, wie z.B. die lineare prädiktive Codierung (LPC) und andere akustische Parameterisierungen, wie z.B. zepstrale Koeffizienten, können ebenfalls Verwendung finden.
Nach der FFT-Berechnung des Größenspektrums mit Schritt 114 wird mit Schritt 115 ein Test durchgeführt, um festzustellen, ob die Signale, die momentan vom Mikrofon empfangen und durch die FFT transformiert werden, den Beginn einer Wortäußerung dastellen. Obwohl es in der Spracherkennung viele Möglichkeiten gibt, den Beginn einer Sprachäußerung festzustellen, beginnt eine Äußerung in der bevorzugten Realisierung der vorliegenden Erfindung in Schritt 115 meistens in dem Moment, in dem durch die FFT-Ausgabe angezeigt wird, daß das Audiosignal 3 Rahmen lang über einer bestimmten Lautstärke liegt. Wenn der Benutzer das Mikrofon bei Schritt 111 relativ dicht an seinen Mund hält, wird seine Sprache lauter als andere Geräusche aufgenommen (mit Ausnahme von versehentlichen anderen Geräuschen wie z.B. Türknallen oder Räuspern). Diese einfache Methode der Sprachäußerungserkennung funktioniert recht zuverlässig.
Wenn mit Schritt 115 eine Sprachäußerung erkannt wird, generiert Schritt 116 einen Erkennnngsmarker, der unverändert bleibt, solange mit Schritt 111 (ABBLDG. 1) dieser Marker nicht getestet wird. Sobald eine Äußerung erkannt wird, erzeugt Schritt 118 daraus einen Token. In der bevorzugten Realisierung der Erfindung besteht dieser Token aus der Folge aller Rahmen, die durch FFT mit Schritt 114 erzeugt wurden. Dabei wird 16 Rahmen vor dem Rahmen begonnen, bei dem die Äußerung erkannt wurde. Es wird dann bis zu dem Rahmen fortgefahren, bei dem die FFT darauf hinweist, daß die Amplitude des Signals für etwa eine Viertelsekunde unterhalb der Schwelle für Umgebungsgeräusche gelegen hat. Diese Rahmenfolge stellt den Äußerungs-Token dar.
Bei der Erzeugung von Tokens kann auch die Vektorenquantisierung in Schritt 117 verwendet werden. Einige (aber nicht alle) gängigen Spracherkennungssysteme verwenden die Vektorenquantisierung, um die Daten zu komprimieren, die zur Darstellung der Informationen erforderlich sind, die durch die FFT für die einzelnen Rahmen produziert wurden. Die vorliegende Erfindung funktioniert mit beiden Formen der akustischen Analyse. Bei der Vektorenquantisierung (Schritt 117), die bei der digitalen Signalverarbeitung üblich ist, wird der spektrale Größenvektor für den aktuellen Sprachrahmen mit dem Codebuch der Musterspektren verglichen. Der Vektor der spektralen Größenwerte wird dann durch eine Einzelzahl ersetzt, d.h. durch den Codebuch-Index des am besten passenden Musterspektrums. Mit Schritt 118 wird ein Token erstellt, und zwar entweder durch die Erstellung eines Array aus der Folge der spektralen Größenvektoren (sofern in Schritt 117 nicht die Vektorenquantisierung verwendet wurde) oder durch die Erstellung einer Folge von Vektorenquantisierungs-Indexen für die Sprachrahmenfolge.
Wenn mit Schritt 111 (ABBLDG. 1) eine Äußerung erkannt wird, geht das Programm zu Schritt 119 über, mit dem der in Schritt 118 (ABBLDG. 2) produzierte Token im Speicherpuffer TEMP TOK (Abkürzung für "temporärer Token") gespeichert wird. Mit den Tests aus den Schritten 120 und 121 wird festgestellt, ob der Erkennungsmodus sich im BEARBEITUNGSMODUS oder TEXTMODUS befindet. Falls der Erkennungsmodus in den BEARBEITUNGSMODUS geschaltet worden ist, führt Schritt 120 dazu, daß durch Schritt 122 für den in TEMP TOK gespeicherten Token eine BEARBEITUNGSMODUS-Spracherkennung durchgeführt wird. Wenn der Erkennungsmodus andererseits in den TEXTMODUS geschaltet worden ist, führt Schritt 121 dazu, daß durch Schritt 123 für TEMP TOK eine TEXTMODUS-Spracherkennung durchgeführt wird. TEXTMODUS ist der normale Erkennungsmodus, der das Diktieren von Wörtern ermöglicht, die in die Textausgabe des Systems eingeschlossen werden sollen. Dabei wird ein Vokabular verwendet, das alle Textwörter des Schritts 124 enthalt, für die das System die entsprechenden akustischen Modelle besitzt (siehe ABBLDG. 3). Die aktuelle Realisierung der Erfindung kann ein Erkennungsvokabular von über 5000 Textwörtern enthalten, sofern für alle diese Wörter akustische Modelle trainiert wurden. Darüber hinaus enthält das TEXTMODUS-Vokabular die Menüauswahlbefehle aus dem Schritt 125 (wie z.B. "pick one", "pick two" usw.) sowie die Bearbeitungsmenübefehle aus Schritt 126 (wie z.B. "edit one" "edit two" usw.) und die Briefbefehle aus dem Schritt 127 (wie z.B. "starts alpha", "statts bravo" usw.), die aus ABBLDG. 3 zu ersehen sind und zur Bearbeitung falsch erkannter Wörter verwendet werden, wie nachfolgend beschrieben wird. Die BEARBEITUNGSMODUS-Erkennung stützt sich auf ein bedeutend kleineres aktives Vokabular, das die Menüauswahlbefehle aus Schritt 125, die Bearbeitungsmenübefehle aus Schritt 126 und eine vereinfachte Version der Briefbefehle aus Schritt 127 (z.B. "alpha", "beta" usw.), aber nicht das große Textwörtervokabular enthält.
Mit Ausnahme der unterschiedlichen aktiven Vokabulare, verwenden BEARBEITUNGSMODUS und TEXTMODUS denselben Erkennungsalgorithmus aus Schritt 129, der in einer vereinfachten grafischen Form in ABBLDG. 3 dargestellt wird. Dieser Algorithmus vergleicht die Folge der einzelnen Rahmen aus Schritt 130, die zur Erstellung von TEMP TOK aus Schritt 131 dienen, mit einer Vielzahl von akustischen Wortmodellen aus Schritt 132. In der bevorzugten Realisierung wird durch dynamische Programmierung versucht, die Folge der individuellen Knoten 133 der einzelnen Wortmodelle 132 mit der Rahmeufolge 130 (mit der TEMP TOK erstellt wird) so zeitlich auszurichten, daß die Ähnlichkeit zwischen den Knoten des Wortmodells und den jeweiligen Rahmen maximiert wird. Für jeden dieser zeitlich ausgerichteten Treffer wird dann ein Ergebnis berechnet, und zwar auf Basis der Summe der Unähnlichkeit zwischen den akustischen Informationen in einem Rahmen und dem akustischen Modell des zur Ausrichtung in Frage kommenden Knotens. Die Wörter mit der niedrigsten Abstandssumme werden sodann als Treffer ausgewählt. Sofern Sprachmodellfilterung eingesetzt wurde, wird dem Wort vor der Auswahl ein Teilergebnis hinzugefügt, das jeweils die Wortwahrscheinlichkeit im aktuellen Sprachkontext reflektiert. Dadurch können Wörter, die durch das Sprachmodell als im aktuellen Kontext am wahrscheinlichsten auftretend herausgefiltert wurden, einfacher ausgewählt werden.
In ABBLDG. 4 ist eine detailliertere Beschreibung des Spracherkennungsalgorithmus 129, der in der bevorzugten Realisierung Anwendung findet, illustriert. Dieser Algorithmus verwendet die Methode des verdeckten Markov- Modells. In der automatischen Spracherkennung wird bei dieser Methode jedes Wort im aktiven Vokabular überprüft, indem das akustische Modell 132 (wie in ABBLDG. 3 gezeigt) für jedes Wort als verdeckter Markov- Prozeß dargestellt und die Wahrscheinlichkeit berechnet wird, mit welcher der aktuelle akustische Token 131 (siehe ABBLDG. 3) als probalistische Funktion dieses verdeckten Markov-Prozesses generiert werden kann. In der bevorzugten Realisierung der vorliegenden Erfindung werden die Wortergebnisse als negative Wahrscheinlichkeitslogarithmen dargestellt, sodaß alle Ergebnisse nicht negativ sind und ein Nullergebnis einer Wahrscheinlichkeit von Eins, d.h. einem vollständigen Treffer entspricht.
Der erste Schritt (Schritt 151) in der Anpassungsroutine in ABBLDG. 4 dient zur Initialisierung der Ergebnisse, um den Status des Markov-Modells zu Beginn des Token darzustellen. Das heißt, es wird für jedes Wort im Vokabular Initialisierungsschritt 152 durchgeführt. Mit Schritt 152 wird das Ergebnis des ersten Knotens 133 (siehe ABBLDG. 3) eines Wortmodells auf Null gesetzt (hierdurch wird gekennzeichnet, daß sich der Markov-Prozeß am wahrscheinlichsten im ersten Knoten befindet). Das Ergebnis der anderen Knoten 133 wird auf BAD SCORE gesetzt, d.h. auf eine große positive Zahl (die im wesentlichen einer Wahrscheinlichkeit von Null entspricht), so daß jeder Knoten mit einem Ergebnis von BAD SCORE als unmöglichem Ereignis notiert wird.
Die Hauptanpassung erfolgt dann mit Schritt 153, in dem für jeden Rahmen 130 (siehe ABBLDG. 3) für den Token dann Schritt 155 durchgefint wird. Durch Schritt 155 werden sodann wiederum für jedes Wort im aktiven Vokabular die Schritte 156 und 162 ausgeführt.
Schritt 156 fuhrt für jeden Knoten im vorgegebenen Wort die Schritte 157 und 158 aus. Mit Schritt 157 wird für das Ereignis das Ergebnis pass(KNOTEN) berechnet. Dies korrespondiert mit dem wahrend des vorherigen Rahmens bereits durchgeführten Markov-Prozeß im aktuellen KNOTEN und mit dessen Beibehaltung im aktuellen KNOTEN für den aktuellen RAHMEN. Das heißt, score(WORT,KNOTEN) ist das Ergebnis des aktuellen KNOTENs bis hin zum vorherigen Rahmen, und trans prob(KNOTEN,KNOTEN) ist der negative Logarithmus der Wahrscheinlichkeit eines Markov-Übergangs von KNOTEN zu sich selbst.
Mit Schritt 158 wird dann für jeden Pfad zum aktuellen KNOTEN von jedem zulässigen Vorgängerknoten (VKNOTEN) aus ein Ergebnis berechnet. Ein Vorgängerknoten ist ein Knoten mit einer Übergangswahrscheinlichkeit zum aktuellen KNOTEN, die nicht gleich Null ist. Schritt 158 führt für jeden VKNOTEN die Schritte 159 und 160 durch. Schritt 159 berechnet für das Ereignis dann das Ergebnis, das aus dem Markov-Prozeß in VKNOTEN für den vorherigen Rahmen und aus dem Übergang zu KNOTEN für den aktuellen Rhhmen besteht. Mit Schritt 160 wird dieses neue Ergebnis (new score) anschließend mit dem Ergebnis für pass(KNOTEN), das zuvor in Schritt 157 berechnet wurde, verglichen. Wenn new score besser als pass(KNOTEN) ist, wird pass(KNOTEN) mit Schritt 161 auf new score gesetzt. Da jeder Pfad zum aktuellen KNOTEN berücksichtigt wird, bedeutet das, daß pass(KNOTEN) kontinuierlich aktualisiert wird, um für jeden Pfad, der zum aktuellen KNOTEN des aktuellen RAHMENS führt, das beste Ergebnis darzustellen.
Nach Beendigung von Schritt 158 für jeden VKNOTEN und von Schritt 156 für jeden KNOTEN im aktuellen WORT wird für jeden KNOTEN im aktuellen WORT dann Schritt 162 wiederholt. Dieser Schritt wirci in einer separaten Schleife ausgeführt, da das Array score(WORT,KNOTEN) bei diesem Vorgang überschrieben wird. Schritt 162 muß mit dem Überschreiben warten, bis Schritt 156 das Array score(WORT,KNOTEN) nicht mehr benötigt. Schritt 162 führt für jeden KNOTEN des aktuellen WORTS dann Schritt 163 aus. Mit Schritt 163 wird das Ergebnis pass(KNOTEN) zum Ergebnis für den aktuellen RAHMEN addiert, für den Schritt 153 gerade wiederholt wird.
Die Funktion label(WORT,KNOTEN), die bei Schritt 163 verwendet wird, ermöglicht die Verwendung einer Reihe verschiedener Wortmodellstile in der in ABBLDG. 3 beschriebenen Methodologie zum verdeckten Markov-Modell. In der automatischen Spracherkennung gibt es zwei Hauptaaten für Wortmodelle, die in der verdeckten Markov- Methode und in anderen auf dynamischer Programmerung beruhenden automatischen Spracherkennungsmethoden Anwendung finden: ganze Wortmodelle und auf Phonemen basierende Wortmodelle (wie weiter unten im Zusammenhang mit ABBLDG. 8 beschrieben). Es können aber auch umfassendere Modelle, wie z.B. kontextuale Phonem-Modelle, verwendet werden, die möglicherweise aus einer Kombination einfacher Phonem-Modelle und ganzer Wortmodelle bestehen. Mit Schritt 163 kann jede dieser Methoden durch die entsprechende Auswahl der Funktion für label(WORT,KNOTEN) verwirklicht werden. Bei ganzen Wortmodellen gibt label(WORT)KNOTEN) einen eindeutigen Wert für jeden KNOTEN eines jeden WORTS zurück. Bei Phonem-Modellen gibt label(WORT,KNOTEN)) denselben Wert zurück, sobald ein und dasselbe Phonem von zwei oder mehr Wörtern genutzt wird, und bei kontextualen Phonem-Modellen wird ein Wert zurückgegeben, der vom aktuellen Phonem und seinem Kontext eindeutig determiniert ist.
Darüber hinaus unterscheidet man zwischen Spracherkennungssystemen, die einen Vektorenquantisierer (siehe Erklärung zu ABBLDG. 2) verwenden, und Spracherkennungssystemen, die keinen Vektorenquantisierer verwenden. Systeme mit Vektorenquantisierung werden als Diskret-Alphabet-Systeme bezeichnet und Systeme ohne Vektorenquantisierung als kontinuierliche Parameter-Systeme. Durch die Funktion obs prob(label(WORT,KNOTEN)) in Schritt 163 kann die bevorzugte Realisierung der vorliegenden Erfindung sowohl als Diskret-Alphabet-System als auch als kontinuierliches Parameter-System eingesetzt werden. Wenn ein Diskret-Alphabet verwendet wird, fungiert obs prob(label(WORT,KNOTEN)) als Tabellenschleife in einem Array, wobei der erste Index der Wert für label(WORT,KNOTEN) und der zweite Index der Vektorenquantisierer für den aktuellen RAHMEN ist. In einem kontinuierlichen Parametersystem wird jeder Wert für label(WORT,KNOTEN) mit einer parametrischen Wahrscheinlichkeitsverteilung für den Vektor der akustischen Parameter verknüpft. Der Vektor der akustischen Parameter kann zum Beispiel als multivariante Normalverteilung modelliert werden. Durch die Funktion obs prob(label(WORT,KNOTEN),RAHMEN) wird dann der negative Logarithmus der Wahrscheinlichkeit des Vektors für die Parameter berechnet, die mit dem aktuellen RAHMEN der parametrischen Wahrscheinlichkeitsverteilung verknüpft sind, die wiederum mit dem aktuellen Wert für label(WORT)KNOTEN) in Zusammenhang steht.
Durch Schritt 163 wird in jedem Fall der negative Wahrscheinlichkeitslogarithmus des aktuellen RAHMENS für den aktuellen KNOTEN berechnet Das Ergebnis wird zu pass(KNOTEN) addiert, und die Summe, d.h. das Ergebnis für den besten Pfad zum aktuellen KNOTEN für den aktuellen RAHMEN, wird in score(WORT,KNOTEN) gespeichert.
In der bevorzugten Realisierung besitzt jedes Wortmodell einen speziellen Endknoten, nämlich last node(WORT) (siehe 133f in ABBLDG. 3), welcher der Stille (oder dem Umgebungsgeräusch) am Ende der diskreten Äußerung entspricht. Diese zusätzlichen Knoten ermöglichen verschiedene Interpretationen. Die beste (und wahrscheinlichste) Interpretation bestiinrnter Wörter kann am Ende einer wahrgenommenen Äußerung ergeben, daß das Wort bereits vollständig ausgesprochen worden ist, während der Markov-Prozeß für andere Wörter immer noch einen Status wiedergibt, der einem schwachen Sprachlaut (wie z.B. einem Unterbrechungs- oder Reibelaut) entspricht. Durch die zusätzlichen Knoten in den Wortmodellen kann die Entscheidung, wann ein Wort zu Ende ist, für jedes Wort separat getroffen werden.
Durch Schritt 162 werden die Schritte beendet, die für die einzelnen Wörter des Vokabulars ausgeführt wurden und aus denen sich Schritt 155 zusammensetzt. Schritt 155 beendet dagegen die Schritte, die für jeden RAHMEN im Token ausgeführt wurden und aus denen sich Schritt 153 zusammensetzt. Nachdem Schritt 153 für jeden RAHMEN des Token wiederholt worden ist, gibt Schritt 166 die "Auswahlliste" aus, die aus dem Wort mit dem besten Ergebnis und den acht nächstbesten Wörtern besteht. Sobald Schritt 153 für jeden RAHMEN der Äußerung beendet ist, wird score(WORT,last node(WORT)) als Ergebnis für die Hypothese übernommen, daß das Wort zu Ende gesprochen ist und der Markov-Prozeß sich in dem Endknoten befindet, welcher der Stille nach dem Wort entspricht. Mit Schritt 166 wird das Sprachmodellergebnis für jedes WORT zum Endergebnis WORT-Endknotens hinzugefügt. Das heißt, Schritt 166 wählt die Wörter für die Auswahlliste auf Basis eines Vergleichs der Werte des Ausdrucks score(WORT,last node(WORT)) - log(Ps( WORT KONTEXT)) ) für jedes Wort im aktiven Vokabular aus, wobei Ps die in ABBLDG. 9 berechnete Sprachmodellwahrscheinlichkeit ist. Zur Auswahl der neun besten Ergebnisse werden allgemein bekannte digitale Berechnungstechniken verwendet. In der bevorzugten Realisierung ist eine Schwelle gesetzt, die verhindert, daß Wörter mit einem Wahrscheinlichkeitsergebnis kleiner als 2-16 angezeigt werden (das Gesamtergebnis der Wortwahrscheinlichkeiten summiert sich auf 1). Im Normalfall erfüllen weniger als 9 Wörter dieses Kriterium, d.h. es werden weniger als 9 Wörter angezeigt. Dieser Schritt schließt den in der bevorzugten Realisierung verwendeten Algoritlunus 129 zur Erkennung einer diskreter Äußerung ab.
Obwohl die Anpassungsroutine 129 im Hinblick auf eine bestimmte Realisierung beschrieben wurde, gibt es in der automatischen Spracherkennung viele Variationen der in ABBLDG. 4 dargestellten Grundroutine. Die vorliegende Erfindung ist mit vielen dieser Variationen kompatibel. Insbesondere handelt es sich dabei um Variationen, die zur Verbesserung der Spracherkennungseffizienz bei sehr großen Vokabularen verwendet werden können. Um zum Beispiel den Berechnungsumfang zu reduzieren, können verschiedene Schwellenschemen eingesetzt werden, so daß die Anpassungsroutine 129 dann nur die Knoten mit den besten Ergebnissen für jeden Rahmen zu überprüfen braucht. Derartige Schwellenschemen funktionieren sehr gut bei der vorliegenden Erfindung, da praktisch dieselben verdeckten Markov-Modelle verwendet werden und dabei weniger Knoten überprüft zu werden brauchen.
Eine andere Variation der Realisierung in ABBLDG. 4 könnte dazu dienen, die Ergebnisse zu normieren, so daß die Berechnung in 16-Bit-Ganzzahl-Arithmetik erfolgen kann. In einer weiteren Variation könnte z.B. Schritt 160 durch eine Ergebniskornbinationsroutine ersetzt werden, in der pass(KNOTEN) auf den Logarithmus der Summe aus new score und pass(KNOTEN) eingestellt wird.
Zu anderen Variationen der grundlegenden Anpassungsroutine in ABBLDG. 4, die der Verbesserung der Spracherkennungseffizienz bei sehr großen Vokabularen dienen, kann eine Vorfilterung bzw. Schnellanpassungsstufe gehören, bei der alle weniger wahrscheinlichen Wortkandidaten gelöscht werden, oder auch eine Stufe für den lexikalen Abruf, durch die aus der akustischen Evidenz von unten nach oben wahrscheinliche Wortkandidaten aufgestellt werden. Die vorliegende Erfindung ist mit Variationen kompatibel, die eine inkrementelle Erstellung von zugeordneten akustischen Modellen gestatten, während dem Vokabular einzelne Wörter hiuzugefügt werden.
Aus der weiter unten folgenden Diskussion zu ABBLDG. 5A wird darüber hinaus deutlich, daß die vorliegende Erfindung mit einer anderen Realisierung des Erkennungsalgorithmus 129, die für verbundene und kontinuierliche Sprache entwickelt wurde, durchaus kompatibel ist (dieses wird noch detailliert im Zusammenhang mit ABBLDG. 25 erklärt).
Wir wollen jetzt zu ABBLDG. 1 zurückkehren. Sobald das Spracherkennungsprogramm, das bei der BEARBEITUNGSMODUS- oder TEXTMODUS-Erkennung (Schritt 122 bzw. 123) aufgerufen wurde, das Wort mit dem besten Ergebnis und eine Liste der nächstbesten Wörter ausgewählt hat, wird die entsprechende Rechnerantwort (in ABBLDG. 1 hsndelt es sich um eine Folge aus einem oder mehreren Zeichen), die mit dem besten Wort verknüpft ist, an die Verzweigungstests der Schritte 106 - 110 geleitet. Derselbe Vorgang läuft bei einem Tastenanschlag ab (sobald ein Auswahlfenster angezeigt wird, ist der Test in Schritt 108 abgeschlossen).
Wenn es sich bei der Benutzereingabe um eine Äußerung handelt, die als Textwort erkannt wird, handelt es sich bei der zugehörigen Rechnerantwort oder -ausgabe um eine Folge druckbarer ASCII-Zeichen, welche die Schreibweise des jeweiligen Wortes darstellen. Dieser Zeichenfolge geht ein Sonderzeichen voraus, das zur Unterscheidung von Textwörtern, die aus einzelnen Buchstaben bestehen, und Buchstabenbefehlen dient. Wenn diese Rechnerantwort an die Testfolge der Schritte 106 - 110 weitergeleitet wird, ist der Test in Schritt 108 damit erfüllt, und das Programm geht dann zu der bei Schritt 170 beginnenden Verzweigung über. Der Test in Schritt 108 gilt auch dann als bestanden, wenn Schritt 123 für eine Äußerung keine beste Wahlmöglichkeit finden kann. Es wird angenommen, daß alle nicht trainierten Wörter, die der Benutzer während seiner Arbeit mit dem in ABBLDG. 1 gezeigten Programm diktiert, Textwörter sind. Dabei wird davon ausgegangen, daß der Benutzer vor der Spracheingabe von Befehlen, deren Ausgabe die Tebibedingungen der Schritte 106, 107, 109 und 110 erfüllt, bereits geeignete akustische Modelle für diese Befehle trainiert hat, und zwar unter Verwendung traditioneller akustischer Trainingstechniken.
Sobald der Test in Schritt 108 bestanden ist, fährt das Programm mit Schritt 170 fort. Schritt 170 schaltet den Erkennungsmodus auf TEXTMODUS, da das System annimmt, daß der Benutzer nach dem Diktieren eines Textwortes wahrscheinlich ein weiteres Wort diktiert. Mit Schritt 172 wird der in TEMP TOK gespeicherte Token anschließend im Puffer REC TOK (Recognized Token; erkannter Token) gespeichert. Dies geschieht, damit der Token für eine Wiedererkennung verfügbar ist und nicht durch einen Sprachbefehl überschrieben wird, z.B. wenn der Benutzer zur Wiedererkennung des zuvor in TEMP TOK gespeicherten Token einen Sprachbefehl diktiert.
Durch Schritt 174 wird als nächstes die aus der Erkennung oder Wiedererkennung des vorherigen Textwortes stammende erste Auswahl oder das Wort mit dem besten Ergebnis bestätigt, das bei Äußerung des soeben in REC TOK gespeicherten Token angezeigt wurde. Die vorherige Anzeige wird mit Schritt 176 anschließend gelöscht, und die aus der Erkennung des gerade gespeicherten Token stammenden Wahlmöglichkeiten werden in logischer Reihenfolge angezeigt, Die erste Auswahl oder das Wort mit dem besten Ergebnis wird an erster Stelle aufgeführt, und neben jeder Wahlmöglichkeit ist eine Funktionstaste genannt (f1 - f9). Diese Anzeige erscheint als Popup-Fenster 701 (siehe ABBLDG. 10 - 22). Wenn das in ABBLDG. 1 gezeigte Programm das erste Mal gestartet wird, erscheint diese Fensteranzeige allerdings nicht. Da in diesem Fall noch keine Erkennung durchgeführt wurde, kann auch keine erste Auswahl zur Bestätigung vorliegen.
Wortmöglichkeiten werden in den bevorzugten Realisierungen in Popup-Fenstern, wie z.B. dem aktiven Fenster 701, angezeigt, da diese Realisierungen zur Verwendung als Sprachtastatur in Verbindung mit Anwendungsprogrammen entwickelt wurden, die ihre eigenen Anzeigen haben. Andere Methoden zur Darstellung der Erkennungsauswahl können jedoch leicht von erfahrenen Anwendern interaktiver Computersysteme in anderen Realisierungen der vorliegenden Erfindung ebenfalls implementiert werden. Wenn das System zum Beispiel für Situationen entwickelt wurde, in denen der Benutzer eine Aufgabe ausführt, die einen Blick auf die Computeranzeige nicht zuläßt (z.B. bei einer mikroskopischen Untersuchung), kann die Auswahlliste unter Verwendung synthetischer Sprache auch in gesprochener Form präsentiert werden. Die synthetische Sprache wäre ebenfalls für Benutzer mit Sehschwächen sehr praktisch.
Sobald durch Schritt 176 die Wörter mit dem besten Ergebnis angezeigt worden sind, geht das Programm zu Schritt 803 über, in dem getestet wird, ob SAV TOK ein Wort enthält bzw. nicht leer ist. SAV TOK enthält ein zuvor erkanntes Wort, das jetzt mit Test 108 bestätigt wird, sofern Schritt 264 seit der letzten Ausführung von Schritt 194 oder 216 ausgeführt wurde. Wenn SAV TOK nicht leer ist, fährt das Programm mit dem weiter unten beschriebenen Schritt 208 fort. Sollte SAV TOK leer sein, geht das Programm zu Schritt 178 über, mit dem die in Schritt 174 bestätigte erste Wortwahl (sofern vorhanden) im Sprachkontextpuffer gespeichert wird. In der in ABBLDG. 1 gezeigten Realisierung speichert der Puffer die beiden letzten bestätigten Wörter. Wenn das System mit Textverarbeitungsprogrammen oder Anwendungen verwendet werden soll, die es dem Benutzer gestatten, sich durch einen Text zu bewegen und Wörter in nicht nacheinanderfolgender Weise einzufügen, empfiehlt es sich, Mittel bereitzustellen, durch die dem System angezeigt wird, daß das nächste diktierte Wort nicht direkt nach dem letzten Wort, das durch das Sprachmodell erkannt worden ist, plaziert werden soll. Der Sprachkontextpuffer kann anschließend gelöscht oder auf die Werte der beiden Wörter gesetzt werden, die der Textstelle vorausgehen, an der das nächste diktierte Wort eingefügt werden soll. Wenn der Sprachkontext gelöscht wird, ergibt sich das Sprachmodellergebnis dann nur auf Basis der kontextunabhängigen Wahrscheinlichkeit gesprochener Wörter.
Nachdem das bestätigte Wort mit Schritt 178 im Sprachkontextpuffer gespeichert worden ist, verwendet Schritt 180 das bestätigte Wort, um das vom Erkennungssystem verwendete Sprachmodell zu aktualisieren. In der Technologie der natürlichen Spracherkennung sind verschiedene derartige Sprachmodelle bekannt, die mit der vorliegenden Erfindung kompatibel sind. In der bevorzugten Realisierung wird ein probalistisches Sprachmodell verwendet, das auf einer Wortzählung basiert (siehe ABBLDG. 9). Hierbei werden für jedes Wortpaar (W1 und W2) Statistiken darüber erfaßt, wie oft das Wortpaar in Form von aufeinanderfolgenden Wörtern im Text erscheint. Während der Erkennung (wobei W2 das zu erkennende Wort und W1 das im Sprachpuffer gespeicherte, zuletzt bestätigte Wort ist) ergibt sich der Schätzwert für die Wahrscheinlichkeit von W2 aus der Zahl der Zählungen für das Wortpaar W1- W2, geteilt durch die Gesamtzahl der Zählungen für W1 (siehe Schritt 182).
Darüber hinaus wird, wie in Schritt 184 dargestellt, eine kontextfreie Wahrscheinlichkeit geschätzt. Die kontextfreie Wahrscheinlichkeit von W2 ergibt sich aus der Zahl der Zählungen von W2, geteilt durch die Gesamtzahl der Zählungen.
Mit Schritt 186 werden die Schätzwerte für die kontextabhängige Wahrscheinlichkeit und die kontextfreie Wahrscheinlichkeit in einem geglätteten kontextabhängigen Wert zusammengefaßt, indem die zwei Wahrscheinlichkeitsschätzungen addiert werden, wobei der kontextabhängigen Schätzung eine Wertigkeit von (1-w) und der kontextfreien Schätzung eine Wertigkeit von w gegeben wird. Diese Glättung ermöglicht Wörter, die im Kontext eines bestimmten Wortpaares W1 zuvor noch nicht aufgetreten sind. Ein typischer Wert für w in der bevorzugten Realisierung wäre w = 0.1; w kann vom Benutzer aber auch empirisch angepaßt werden, um die Leistung auf Basis des Trainingstextumfangs, der für die Schätzung des kontextabhängigen Modells zur Verfügung steht, zu optimieren. Wenn ein größerer Textumfang verfügbar ist, kann ein kleinerer Wert für w verwendet werden.
Schritt 180 verwendet bei der Aktualisierung des Sprachmodells das zuletzt bestätigte Wort, das im Sprachkontextpuffer gespeichert wurde, um die Zählung von W2 und die Gesamtzählung, die in der Wahrscheinlichkeitsberechnung der Schritte 182, 184 und 186 verwendet wurde, zu aktualisieren. Das zweitaktuellste bestätigte Wort wird darüber hinaus als Wert für W1 in den Schritten 182 und 186 und als Wert für KONTEXT in Schritt 166 (siehe ABBLDG. 4) verwendet.
Nachdem das Sprachmodell in Schritt 180 aktualisiert wurde, fährt das Programm mit Schritt 188 fort, in dem das bestätigte Wort als Ausgabe an das Anwendungsprogramm, das mit dem in ABBLDG. 1 gezeigten Diktierprogramm verwendet wird, gesendet wird. Diese Ausgabe wird als ASCII-Zeichenfolge produziert, d.h. auf dieselbe Weise, als ob diese Zeichen über die Tastatur des Systemcomputers eingegeben worden wären. Dieser Vorgang, der mit TSR (Terminate-and-Stay Resident)-Programmen in Beziehung steht, ist allerdings zu komplex, um in ABBLDG. 1 dargestellt werden zu können. In Schritt 188 wird an das Anwendungsprogramm tatsächlich nur das erste Zeichen der Ausgabefolge gesendet; der Rest wird in einem Ausgabe puffer gespeichert. Wenn die Anwendung das Diktierprogramm danach zur Eingabe aufruft, sendet das Programm jedesmal das nächste Zeichen des Ausgabepuffers, anstatt zur Aufrufschleife 103 (siehe ABBLDG. 1 oben) weiterzugehen. Zur Vereinfachung werden die Schritte 188 und 188a (siehe ABBLDG. 25) jedoch so behandelt, als ob die gesamte Zeichenfolge gleichzeitig ausgegeben wird. In den Schritten 188 und 188a werden in der bevorzugten Realisierung außerdem Zeichensetzungsregeln angewandt, um Leerstellen zwischen Wörter setzen und das erste Wort im Satz großschreiben zu können.
Sobald Schritt 188 ausgeführt ist, kehrt das Diktierprogramm zum Anwendungsprogramm zurück, um diesem eine Reaktion auf die Ausgabefolge zu ermöglichen (siehe Schritt 102). In dem Beispiel, das im Zusammenhang mit ABBLDG. 10 - 23 verwendet wird, handelt es sich hierbei um ein Textverarbeitungsprogramm, das die Darstellung und Bearbeitung von Text gestattet und einen Cursor 700 besitzt, durch den der die Stelle im Text angezeigt wird, an der die nächste Benutzereingabe eingefügt werden soll. In Schritt 102 fügt das Textverarbeitungsprogramm an der aktuellen Cursorposition folglich die durch Schritt 188 bereitgestellte Ausgabefolge ein, und zwar auf dieselbe Weise, als ob diese Zeichenfolge über die Tastatur eingegeben worden wäre.
Sobald das Anwendungsprogramm alle Zeichen in der Ausgabefolge verarbeitet hat, fordert es den nächsten Tastenanschlag an. Hierdurch kehrt das Programm zur Aufrufschleife 103 (siehe ABBLDG. 1 oben) zurück. Schleife 103 fordert die nächste Benutzereingabe an. Wenn es sich dabei um einen Tastenanschlag handelt, übernehmen die Schritte 104 und 105, und wenn es sich um eine Äußerung handelt, wird diese durch die Schritte 111, 119 sowie 102 und 122 oder 121 und 123 erkannt. Das Programm geht anschließend zu den Verzweigungstests der Schritte 106 - 110 über.
Wenn die Benutzereingabe aus einem Löschbefehl bestand (d.h. der Benutzer hat die Löschtaste gedrückt oder einen Löschsprachbefehl eingegeben), wird dadurch der Test in Schritt 106 erfolgreich abgeschlossen, und das Diktierprogramm geht auf den bei Schritt 190 beginnenden Programmzweig über. Mit dem Löschbefehl kann der Benutzer veranlassen, daß die letzte als Textwort erkannte Äußerung, für die ein aktives Fenster 701 angezeigt wird, aus dem System gelöscht wird. Dieser Befehl wird oft verwendet, wenn das Erkennungsprogramm einen unbeabsichtigten Laut des Benutzers oder ein Umgebungsgeräusch als Wortäußerung interpretiert, oder wenn der Benutzer das zuletzt diktierte Wort durch ein anderes Wort ersetzen will.
Durch Schritt 190 wird das Diktierprogramm in den TEXTMODUS geschaltet, da angenommen wird, daß das nächste Wort, das der Benutzer nach einem Löschbefehl eingibt, ein Wort ist, das in den Text eingefügt werden soll. Anschließend wird REC TOK durch Schritt 192 gelöscht, um zu kennzeichnen, daß im Token, der zuvor in diesem Puffer gespeichert worden ist, keine weitere Erkennung durchgeführt werden soll. Danach wird STARTSTRING gelöscht, um zu gewährleisten, daß dieser leer ist, wenn er das nächste Mal benutzt werden soll. Schritt 192 löscht ebenfalls alle Popup-Fenster, die das Diktierprogramm auf dem Bildschirm angezeigt hat. Danach löscht Schritt 194 den Puffer SAV TOK (Saved Token; gespeicherter Token), um zu kennzeichnen, daß die Äußerung in REC TOK und SAV TOK in den Schritten 208 und 214 nicht zur Erstellung von Trainingsäußerungen oder zum Training von Wortmodellen verwendet werden soll. Durch Schritt 196 wird die aktuelle Äußerung, für die das Fenster 701 angezeigt wurde, anschließend abgebrochen, indem für die nächste Benutzereingabe zur Schleife 103 (wie oben in ABBLDG. 1 gezeigt) zurückgekehrt wird.
Wenn das Diktierprogramm zu den Tests der Schritte 106-110 übergegangen ist und es sich bei der Benutzereingabe um einen gültigen Auswahlbefehl handelte, wird der Test in Schritt 107 abgeschlossen, und dann der diesem Programmzweig folgende Schritt ausgeführt. Ein gültiger Auswahlbefehl kann aus einer der Funktionstasten (f1 - f9) oder aus einem der Sprachbefehle ("pick one" bis "pick nine") bestehen, die der im aktiven Fenster 701 oder im Wörterbuch-Fenster 702 (siehe ABBLDG 10 - 23) angezeigten Wortnummer einer Wortauswahl entsprechen. Diese Befehle werden verwendet, um zu kennzeichnen, daß ein Wort mit einer vorgegebenen Nummer (f1 - f9) im Fenster 701 oder 702 das gewünschte Wort für die mit dieser Anzeige verknüpfte Äußerung ist.
Falls der Benutzer keinen Auswahlbefehl eingibt, verzweigt Schritt 107 das Programm auf Schritt 200. Schritt 200 schaltet den Erkennungsmodus auf TEXTMODUS, da davon ausgegangen wird, daß der Benutzer nach der Bestätigung einer vorgegebenen Wortauswahl möglicherweise ein anderes Textwort eingeben will. Schritt 202 speichert den in REC TOK z.Z. gespeicherten Token, der die mit dem ausgewählten Wort verknüpfte Äußerung darstellt, anschließend in SAV TOK. Dies führt dann, wie nachfolgend erklärt, dazu, daß dieser Token beim Training eines akustischen Wortmodells 132 (siehe ABBLDG. 3) für das vom Benutzer ausgewählte Wort verwendet wird. Schritt 204 löscht als nächstes REC TOK um zu kennzeichnen, daß im an dieser Stelle zuvor gespeicherten Token keine weitere Erkennung mehr durchgeführt werden soll. Des weiteren werden STARTSTRING und alle Popup-Fenster auf dem Bildschirm gelöscht. Mit Schritt 206 wird das ausgewählte Wort, das die dem Auswahlbefehl zugeordnete Nummer besitzt, schließlich bestätigt.
Das Programm geht anschließend zu den Schritten 208, 214 und 216 über, die alle mit der Verwendung des Token, der mit der Äußerung des eben bestätigten Wortes verknüpft ist, zum Training akustischer Modelle für dieses Wort in Beziehung stehen. Schritt 208 führt dazu, daß der in SAV TOK gespeicherte Token 131, der mit dem durch den Auswahlbefehl eben bestätigten Wort 210 verknüpft ist, im Tokenspeicher 209 (siehe ABBLDG. 3) abgelegt wird, und daß SAV TOK anschließend gelöscht wird. Schritt 214 übernimmt die in diesem Tokenspeicher enthaltenen Tokens und erstellt mit diesen Tokens (wie unten rechts in ABBLDG. 3 gezeigt) ein neues akustisches Modell für dieses Wort. Schritt 216 speichert dieses akustische Wortmodell mit den anderen akustischen Wortmodellen, die vom Erkennungsprogramm des Systems verwendet werden (wie in ABBLDG. 3 durch den Pfeil veranschaulicht wird, der vom Modellersteller zum Speicher für akustische Modelle zeigt).
Die Speicherung von Tokens, die mit bestätigten Wörtern verknüpft sind, und die Verwendung mehrerer Tokens, die mit dem Programm (wie in ABBLDG. 1 gezeigt) in Verbindung mit dem bestätigten Wort gespeichert wurden, bietet eine effektive und efzziente Methode zur adaptiven Spracherkennung. Bei dieser Methode werden Tokens für Wortäußerungen nur dann gespeichert, wenn der Benutzer durch einen Auswahlbefehl ausdrücklich bestätigt hat, daß das Wort mit der jeweiligen Äußerung verknüpft sein soll. Hierdurch verringert der Benutzer die Gefahr, daß eine falsch erkannte Äußerung zum Training von Modellen für falsche Wörter verwendet wird. Da der Auswahlbefehl normalerweise nur zur Auswahl von Wörtern verwendet wird, bei denen es sich nicht um die erste Wahlmöglichkeit handelt, kann der generelle Trainingsaufwand und folglich die Gefahr reduziert werden, daß das System Wortmodelle ersetzt, die richtige Erkennungsergebnisse produzieren. Um die erste Wahlmöglichkeit nach der Ersterkennung einer Äußerung (wie in Schritt 123 ausgeführt) zu übernehmen, kann der Benutzer zwar f1 drücken; normalerweise ist es aber einfacher, die erste Wahlmöglichkeit durch das Diktieren eines anderen Textwortes zu bestätigen. Dadurch wird dann die Programmverzweigung unter Schritt 108 ausgeführt.
Die Verwendung mehrerer Tokens für das Training von Wortmodellen in einer adaptiven Umgebung ist sehr praktisch. Traditionelle adaptive Trainingstechniken basieren normalerweise auf der Entnahme von Daten aus einem neuen Token für ein Wort und auf der Verwendung dieses Token zur Modifizierung der Parameter eines vorherigen Modells dieses Wortes. Diese Hinzufügung von Daten aus einem neuen Token in ein älteres Modell führt oft dazu, daß die neuen Daten eine geringere Wertigkeit besitzen, als wenn das Modell gleichzeitig mit verschiedenen Tokens, einschließlich des neuen Token, trainiert wird.
Der in der Realisierung in ABBLDG. 1 verwendete akustische Tokenspeicher ist ein Kreispuffer, der die 50 zuletzt gespeicherten Tokens enthält. In anderen Realisierungen kann jedoch ein bedeutend größerer Kreispuffer verwendet werden. Bei der bevorzugten Realisierung wird jedoch ein traditionelles adaptives Training durchgeführt, sofern es für ein bestimmtes Wort nur einen Token gibt. Dabei wird aus den Daten des neuen Token und aus den Daten des älteren Modells dann ein Mittelwert gebildet.
Für das Training oder die Modellerstellung können, wie aus der Spracherkennung mit verdeckten Markov-Modellen bekannt ist, dynamische Programmierroutinen verwendet werden, die der weiter oben beschriebenen Anpassungsroutine 129 sehr ähnlich sind. In ABBLDG. 5 ist ein schematisches Blockdiagramm einer solchen dynamischen Programmiertrainingsroutine dargestellt. Die dynamische Programmieranalyse ist in zwei Phasen unterteilt. Schritt 218 ist eine vorwärtsweisende Ergebnisroutine, die der in ABBLDG. 4 dargestellten Anpassungsroutine für diskrete Äußerungen ähnelt. Diese vorwärtsweisende Ergebnisroutine berechnet für alle Teiläußerungen inkrementell den besten Pfad mit Hilfe der Markov-Modelle. Die zweite Phase, Schritt 220, rückverfolgt die Teilpfade, die während der vorwärtsweisenden Ergebnisroutine zur Auffindung des global besten Pfads berechnet wurden. Dieser global beste Pfad ist der durch die dynamische Programmierung gewählte Pfad durch das gesamte Wort, sofern er im Training diskreter Wortmodelle Verwendung findet. Er verbindet aufeinanderfolgende Gruppierungen aus einem oder mehreren Rahmen 130, die sich aus den Trainingsäußerungen des Wortes ergeben, mit den nachfolgenden Knoten 133 des zu erstellenden Wortmodells 132 (siehe ABBLDG. 8).
Das in ABBLDG. 5 dargestellte Blockdiagramm kann zur Erstellung akustischer Modelle (siehe Schritt 214 in ABBLDG. 1) oder wie nachfolgend im Detail beschrieben mit geringfügiger Modifikation (siehe ABBLDG. 5A) als Anpassungsroutine für verbundene oder kontinuierliche Sprache verwendet werden.
Der vorwärtsweisende Ergebnisschritt 218 ist in ABBLDG. 6 detailliert erläutert. In Schritt 224 wird zunächst jeder Knoten auf die Parameteranfangswerte von BAD SCORE eingestellt (Schritt 226), was einer Wahrscheinlichkeit von Null entspricht. Das Array OLD(KNOTEN) enthält die Ergebnisse aus dem vorherigen RAHMEN, während das Array NEW(KNOTEN) die für den aktuellen RAHMEN berechneten Ergebnisse enthält. In Schritt 228 wird START NODE auf die Parameteranfangswerte von BEST SCORE, d.h. auf Null eingestellt, wodurch der Prozeß mit sehr hoher Wahrscheinlichkeit im Zustand START NODE beginnt.
Anschließend wird für jeden RAHMEN in der Äußerung die Schleife des Schrittes 230 und für jeden BOGEN der einzelnen RAHMEN im Netzwerk die Schleife des Schrittes 234 wiederholt. Schritt 234 übernimmt für den linken Knoten des BOGENS das alte Ergebnis OLD(LN) und fügt das für die Markov-Übergangswahrscheinlichkeit des jeweiligen BOGENS berechnete Ergebnis hinzu. Da es sich bei den Ergebnissen um negative Wahrscheinlichkeitslogarithmen handelt, entspricht die Addition von Ergebnissen der Multiplikation von Wahrscheinlichkeiten. Die für PASS berechnete Summe wird anschließend mit dem neuen Ergebnis für den rechten Knoten NEW(RN) des aktuellen BOGENS verglichen. Wenn PASS ein besseres Ergebnis aufweist, wird dieses in Schritt 236 verwendet, um das neue Ergebnis für den rechten Knoten NEW(RN) zu ersetzen und Rückverfolgungsinformationen im Array BACK zu speichern. Auf diese Weise erhält NEW (KNOTEN) für jeden KNOTEN letztlich das Ergebnis für den besten Pfad zum KNOTEN des aktuellen Rahmens, und BACK(KNOTEN,RAHMEN) kann den Knoten identifizieren, der sich im vorherigen RAHMEN auf dem besten Pfad befand.
Nachdem Schritt 232 für jeden BOGEN im Netzwerk abgeschlossen ist, wird für jeden KNOTEN die Schleife des Schrittes 238 wiederholt. In Schritt 240 wird dabei für jeden KNOTEN die Summe aus dem Wert für den neuen Knoten NEW(KNOTEN) und dem abgelesenen Wahrscheinlichkeitsergebnis berechnet. Das abgelesene Wahrscheinlichkeitsergebnis ist dasselbe wie das entsprechende Ergebnis in Schritt 163 (siehe ABBLDG. 4). Schritt 240 setzt das Array der neuen Ergebnisse außerdem auf die Parameteranfangswerte von BAD SCORE zurück.
Der in ABBLDG. 5 aufgefühlte Schritt 220, der den besten Pfad zu END NODE am Ende der Äußerung END FRAME zurückverfolgt, wird in ABBLDG. 7 detaillierter erklärt. Schritt 251 startet die Rückverfolgung bei KNOTEN END NODE und RAHMEN END FRAME. Schritt 252 übernimmt dann die Rückverfolgimg bis zum Start bei RAHMEN = 0. Dabei wird für jeden zurückzuverfolgenden Rahmen Schritt 253 ausgeführt. Schritt 253 ist in zwei Teilen unterteilt. In Schritt 254 werden statistische Angaben aufgezeichnet. In Schritt 255 wird die Variable KNOTEN dann auf den Wert von BACK(KNOTEN,RAHMEN) gesetzt, wobei KNOTEN der zeitlichen Ausrichtung der vorwartsweisenden Ergebnisroutine 218 entspricht, die mit dem Rahmen verknüpft ist, der dem aktuellen RAHMEN vorausgeht. Zum Schluß wird der aktuelle RAHMEN auf den Wert des vorhergehenden Rahmens gesetzt.
Wenn bei der Erstellung akustischer Modelle (siehe Schritt 214 in ABBLDG. 1) Schritt 220 verwendet wird, handelt es sich bei den aufzuzeichnenden statistischen Werten um akustische Parameter des aktuellen RAHMENS, der mit der konditionalen Wahrscheinlichkeitsverteilung für label(WORT,KNOTEN) des aktuellen KNOTENS für das zu trainierende WORT verknüpft ist. (Bei den akustischen Parametern handelt es sich dabei um einen Parametervektor, falls in Schritt 118 (siehe ABBLDG. 2) keine Vektorenquantisierung verwendet wurde, bzw. um einen Index im Codebuch, falls Vektorenquantisierung verwendet wurde.)
In Schritt 222 werden die Modelle mit einer Variation des Baum-Welch-Algorithmus oder mit Hilfe des EM- Algorithmus, der aus der Statistik und der Technologie der verdeckten Markov-Modellierung bekannt ist, neu geschätzt. Die Neuschätzung erfolgt im wesentlichen durch eine Maximum-Likelihood-Schätzung der statistischen Parameter, welche die Wahrscheinlichkeitsverteilung charakterisieren. Wenn das System über vorhandene Modelle für das Wort oder die Phoneme verfügt, für das bzw. für die ein neues Modell erstellt werden soll, und falls es im Tokenspeicher nur einen Token für das entsprechende Wort gibt, werden die angesammelten statistischen Werte aus dem vorherigen Training mit den statistischen Werten des Token im akustischen Tokenspeicher (siehe Schritt 214) zusammengefaßt, um eine kombinierte Maximum-Likelihood-Schätzung der statistischen Parameter zu erhalten. Dieser Vorgang ermöglicht sowohl das adaptive Training akustischer Modelle als auch das Nullbasis-Training, wenn noch kein Modell vorhanden ist.
In ABBLDG. 8 wird eine vereinfachte schematische Darstellung des eben beschriebenen Trainingsalgorithmus gezeigt. Darin werden die akusischen Beschreibungen 131a und 131b der diktierten Wörter "above" und "about" verwendet, um für diese Wörter die akustischen Wortmodelle 132a bzw. 132b zu trainieren. Für den Anfangsdurchlauf der Modellerstellung könnte, sofern für das Wort noch kein Modell existiert, ein Anfangsmodell verwendet werden, das aus einer beliebigen Anzahl von Knoten besteht, die durch die Teilung der Rahmen jeder akustischen Beschreibung (siehe Schritt 130) in eine entsprechende Anzahl von Gruppierungen annähernd gleicher Größe sowie durch die Berechnung des Modells eines jeden Knotens aus den Rahmen der entsprechenden Gruppierung produziert werden (siehe Bildung des obersten Wortmodells 132a in ABBLDG. 8). Dieses erste Wortmodell wird anschließend mit der akustischen Beschreibung 131a zeitlich in Übereinstimmung gebracht, wobei die vorwärtsweisende Ergebnisroutine 218 und die Rückverfolgung 220 (siehe ABBLDG. 5) angewendet werden. Als nächstes werden die Rahmen 130 dieser Beschreibung, die mit den Anfangsknoten 133 ausgerichtet wurden, zur Bildung eines neuen Schätzwertes für den jeweiligen Knoten verwendet (dargestellt durch die Gruppierungen in der zweiten Ansicht des Token 131a in ABBLDG. 8 und durch die Pfeile, die von diesen Gruppierungen zum jeweils entsprechenden Knoten 133 in der zweiten Berechnung des Wortmodells 132a führen). Dieser aus vorwartsweisender Ergebnisroutine 218, Rückverfolgung 220 und Modellneuschätzung 222 bestehende Zyklus für das Wortmodell 132a wird in ABBLDG. 8 noch einmal dargestellt. Der Modellerstellungszyklus der Schritte 218, 220 und 222 wird in der bevorzugten Realisierung interaktiv für 8 Durchläufe ausgeführt.
In ABBLDG. 8 wird ebenfalls dargestellt, wie in einer anderen Realisierung der Erfindung ein Backup-Wörterbuch, das die phonemische Aussprache aller Wörter enthält, verwendet werden kann. Das Wörterbuch 500, das in ABBLDG. 3 dargestellt und in der im Zusammenhang mit ABBLDG. 1 beschriebenen Realisierung der Erfindung verwendet wird, listet in alphabetischer Reihenfolge lediglich die Schreibweise der Wörter auf, die als Rechnerantworten verwendet werden können, wenn der Benutzer diese Schreibweise auswählt und zur Ausgabe an das Anwendungsprogramm bestätigt. In einer anderen Realisierung, in der das phonemische Wörterbuch 500a benutzt wird, wird jeder Worteintrag 504a im phonemischen Wörterbuch mit einer Schreibweise verknüpft, die aus phonemischen Symbolen 506 besteht. In der Spracherkennungstechnologie gibt es verschiedene Methoden zur Erzeugung eines akustischen Modells für ein Wort, für das durch die Verkettung der Modelle für die einzelnen Phoneme des entsprechenden Wortes eine phonemische Schreibweise bereitgestellt worden ist. Modelle für derartige Phoneme können durch die Erstellung akustischer Modelle von Wörtern mit einer bekannten phonetischen Schreibweise (siehe oberen Teil von ABBLDG. 8) und durch die anschließende Verwendung der akustischen Knotenmodelle 133 (die mit den Phonemen in diesem Modell verknüpft sind) als Modell der verbundenen Phoneme generiert werden. Um das Phonemmodell 508 für ein bestimmtes Phonem zu erzeugen, werden aus den Knoten 133 stammende geeignete Daten, die mit der Aussprache des jeweiligen Phonems 506 in verschiedenen Wörtern verknüpft sind, zusammengefaßt. Die Erzeugung solcher Phonemmodelle erfordert, daß die verwendete phonemische Schreibweise mit den einzelnen Knoten übereinstimmt, die während des Trainings der akustischen Wortmodelle gebildet werden, die wiederum zum Abrufen von Daten zur Formierung dieser Knotenmodelle verwendet werden. Phonemische Modelle ermöglichen darüber hinaus eine bessere Leistung, wenn diese Modelle auch die Phoneme, die einem fraglichen Phonem vorausgehen bzw. folgen, in Betracht ziehen. Der Schwa-Laut, für den in ABBLDG. 8 ein phonetisches Modell erstellt wird, ist folglich ein Laut, der am Anfang eines Wortes vor einem "b" auflaucht.
Sobald in einer solchen Realisierung für jedes Phonem ein Modell mit der in ABBLDG. 8 gezeigten Methode erstellt worden ist, kann für jedes Wort im phonetischen Wörterbuch 500a ein akustisches Modell erstellt werden. Die Erkennung in Schritt 123 kann hierbei mit phonemischen akustischen Modellen durchgefürt werden, die über die phonemische Schreibweise im akustischen Wörterbuch erzeugt wurden (ohne daß der Benutzer die damit verbundenen Wörter trainiert hat), oder auch mit den akustischen Modellen von Wörtern, die individuell trainiert wurden. Wenn die Erkennung sowohl mit phonemischen als auch mit individuell trainierten akustischen Modellen durchgeführt wird, empfiehlt es sich, ein Sprachmodell zu verwenden, um das Erkennungsvokabular auf eine Anzahl von Wörtern zu reduzieren, die das Erkennungsprogramm in einer akzeptablen Reaktionszeit handhaben kann. Das Erkennungsvokabular wird dabei auf die Wörter reduziert, die das Sprachmodell im aktuellen Sprachkontext für am wahrscheinlichsten hält.
Nachdem der Token, der mit dem eben bestätigten Wort verknüpft ist, in den Schritten 208, 214 und 216 (ABBLDG. 1) gespeichert und ein neues akustisches Modell für dieses Wort erstellt und gespeichert worden ist, geht das Programm zu den oben beschriebenen Schritten 178, 180 und 188 über. Durch diese Schritte wird das bestätigte Wort im Sprachkontextpuffer gespeichert und zur Aktualisierung der Sprachmodellwahrscheinlichkeiten verwendet. Außerdem wird es an das Anwendungsprogramm ausgegeben. Der Programmfluß kehrt dann in Schritt 102 zum Anwendungsprogramm zurück. Das Anwendungsprogramm antwortet auf die Ausgabe der ASCII-Zeichen, die das bestätigte Wort darstellen, und veranlaßt anschließend die Rückführung des Programmflusses an den Anfang von ABBLDG. 1, um die nächste Benutzereingabe aufzunehmen.
Wenn das Diktierprogramm während der in den Schritten 106 - 110 durchgeführten Prüfungen feststellt, daß ein Buchstabenbefehl eingegeben wurde, wird der Test in Schritt 109 als abgeschlossen betrachtet und der Programmzweig unter diesem Schritt ausgeführt. Buchstabenbefehle sind Befehle, die entweder dazu führen, daß der Zeichenfolge STARTSTRING ein Buchstabe hinzugeftigt wird, oder aber eine Bearbeitung von STARTSTRING veranlassen. Bei STARTSTRING handelt es sich um eine Zeichenfolge, welche die Anfangsbuchstaben des zu erkennenden Wortes spezifiziert (d.h. des Wortes, das vom Token in REC TOK dargestellt wird).
Wenn sich das System im TEXTMODUS befindet, können Buchstabenbefehle nur durch Drücken einer Buchstabentaste oder durch Spracheingabe von "starts alpha", "starts beta" usw. (entspricht dem Drücken der Tasten "a", "b" usw.) erteilt werden. Diese Befehle kennzeichnen den ersten Buchstaben in STARTSTRING und veranlassen das System, zum BEARBEITUNGSMODUS zu wechseln. Im BEARBEITUNGSMODUS ist das Vokabular, das für den oben in ABBLDG. 1 gezeigten Erkennungsvorgang verwendet wird, auf Buchstabenbefehle, den im Zusammenhang mit Schritt 106 diskutierten Löschbefehl, die in Verbindung mit Schritt 107 diskutierten Auswahlbefehle und die nachfolgend im Zusammenhang mit Schritt 110 diskutierten Bearbeitungsbefehle beschränkt. Zu den Buchstabenbefehlen in diesem Modus gehören Befehle zum Hinzufügen eines weiteren Buchstabens am Ende von STARTSTRING. Dies geschieht, indem eine Buchstabentaste gedrückt oder ein Wort aus dem Buchstabieraiphabet gesagt wird, das mit dem entsprechenden Buchstaben verknüpft ist (zum Beispiel "alpha" für "a", "beta" für "b", "charlie" für "c" usw.). Im BEARBEITUNGSMODUS ist des weiteren ein Befehl enthalten, mit dem der STARTSTRING zuletzt hinzugefügte Buchstabe gelöscht werden kann. Dieser Befehl wird ausgeführt, indem der Benutzer die Rücktaste drückt oder "Rücktaste" sagt. Die Beschränkung des Erkennungsvokabulars im BEARBEITUNGSMODUS verbessert die Erkennungsgeschwindigkeit und -genauigkeit. Darüber hinaus können anstelle der Befehle "starts alpha" bis "starts zulu" zum Hinzufügen von Buchstaben zu STARTSTRING die Buchstabenbefehle "alpha" bis "Zacharias" gesagt werden, die sich etwas schneller eingeben lassen. Dies ist möglich, da das begrenzte Vokabular im BEARBEITUNGSMODUS keine Textwörter enthält, die den Wörtern des Buchstabieralphabets gleichen oder ähneln.
Sobald durch Schritt 109 erkannt worden ist, daß der Benutzer einen Buchstabenbefehl eingegeben hat, geht das Programm zu Schritt 260 über, mit dem der Erkennungsmodus des Systems in den BEARBEITUNGSMODUS geschaltet wird, so daß der Benutzer wie oben beschrieben weitere Buchstaben hinzufügen bzw. entfernen kann. Mit Schritt 262 wird STARTSTRING der durch den Buchstabenbefehl spezifizierte Buchstabe hinzugefügt bzw. der durch diesen Buchstabenbefehl spezifizierte Bearbeittingsbefehl ausgeführt. Wenn der in Schritt 109 ausgeführte Test für einen bestimmten in REC TOK befindlichen Token zum ersten Mal erfüllt wird, ist STARTSTRING zuvor bereits durch Schritt 101, 192 oder 204 gelöscht worden. Wenn der Test dann erneut erfüllt wird, enthält STARTSTRING bereits einen oder mehrere Buchstaben, und der neue Buchstabe wird an das Ende dieser Zeichenfolge angefügt.
Nach Durchführung von Schritt 262 fährt das Programm mit Schritt 264 fort, in dem der in REC TOK gespeicherte Token in SAV TOK abgelegt wird. Dies geschieht, damit dieser Token später in den Schritten 208 und 214 verwendet werden kann, d.h. nachdem der Benutzer bestätigt hat, daß das durch den Token in REC TOK dargestellte diktierte Wort einer bestimmten Wortauswähl entspricht, um einen Token und ein Modell für das bestätigte Wort zu erstellen.
Durch Schritt 266 wird das im Wiedererkennungsschritt 272 verwendete aktive Vokabular anschließend auf die Wörter beschränkt, die mit dem aktuellen STARTSTRING beginnen. In der Computertechnik gibt es verschiedene Methoden, um die Schreibweise eines Wortes in einer Vokabularliste mit einer Folge von Anfangszeichen zu vergleichen, um so nur solche Wörter auszuwählen, die mit gewissen Anfangszeichen beginnen.
Anschließend wird in Schritt 268 aus einem Backup-Wörterbuch eine Liste mit Vokabularwörtern abgerufen, die ebenfalls mit der spezifizierten Anfangszeichenfolge beginnen, sich aber nicht im aktiven Vokabular der Wörter befinden, für die in Schritt 266 akustische Modelle ausgewählt wurden. Das Backup-Wörterbuch 500 (siehe ABBLDG. 3), das in ABBLDG. 1 verwendet wird, enthält zumindest 80 000 Einträge. Schritt 268 verwendet Wahrscheinlichkeitswerte aus dem Sprachmodell, um aus den Wörtern im Backup-Wörterbuch, die mit dem aktuellen STARTSTRING beginnen, maximal neun Wörter auszuwählen, die im aktuellen Sprachkontext am wahrscheinlichsten aufireten.
Schritt 270 zeigt dann in einem Definitionsfenster den aktuellen STARTSTRING, d.h. die bisher spezifizierte Anfangszeichenfolge, an. Das Definitionsfenster wird in ABBLDG. 10 - 24 als Feld 703 dargestell. Es wird als Definitionsfenster bezeichnet, da in diesem Fenster die Schreibweise eines Wortes, das dem Vokabular akustischer Wortmodelle neu hinzugefügt werden soll, eingegeben wird. Die Eingabe erfolgt (wie weiter unten erklärt) durch eine Kombination aus Buchstaben- und/oder Bearbeitungsbefehlen.
Nachdem der STARTSTRING im Definitionsfenster angezeigt wurde, führt Schritt 272 in REC TOK eine Wiedererkennung durch. Hierbei werden die Wörter, die zur Auswahl geeignet sind, und das beschränkte Vokabular, das in Schritt 266 generiert wurde, verwendet. Bei dieser Wiedererkennung kommt ungefahr der gleiche Spracherkennungsalgorithmus zum Einsatz, der im Zusammenhang mit Schritt 123 beschrieben wurde. Der Unterschied ist jedoch, daß die Erkennung in REC TOK und nicht in TEMP TOK durchgeführt wird, daß das aktive Vokabular beschränkt ist und, daß regelmäßig eine Überwachungsroutine aufgerufen wird, um die Erkennung im Falle einer Benutzereingabe zu unterbrechen.
Sobald die Wiedererkennung in Schritt 272 abgeschlossen ist, werden in Schritt 274 im aktiven Fenster 701 die aus dieser Erkennung stammenden besten Auswahlmöglichkeiten angezeigt (sofern die Erkennung nicht von einer neuen Benutzereingabe unterbrochen wurde). Die Anzeige erfolgt hierbei in derselben Reihenfolge wie bei der in Schritt 123 durchgeführten Erkennung; mit dem Unterschied, daß (a) in Schritt 274 das aktive Fenster 701 unter dem Definitionsfenster 703 anstelle direkt unter der aktuellen Position des Cursors im Anwendungsprogramm erscheint und (b), ein zweites Fenster (das sogenannte Wörterbuch-Fenster 702) direkt unter Fenster 701 angezeigt wird. Das Wörterbuch-Fenster enthält ausreichend viele der aus dem Backup-Wörterbuch in Schritt 268 ausgewählten Wörter, um im aktiven Fenster 701 und im Wörterbuch-Fenster 702 die maximale mögliche Wortanzahl, d.h. neun Wörter, anzuzeigen. Wenn in den Schritten 272 und 268 allerdings nicht genügend Erkennungsmöglichkeiten und Backup- Wörter ausgewählt wurden, um in beiden Fenstern die maximal neun Wörter anzuzeigen, werden weniger Wörter präsentiert.
Nachdem die Anzeige von Wortmöglichkeiten in Schritt 274 abgeschlossen ist, geht das Programm an den Anfang von ABBLDG. 1 zurück, um eine neue Benutzereingabe aufzunehmen.
In der oben beschriebenen alternativen Realisierung, in der ein phonemisches Wörterbuch verwendet wird, kann Schritt 268 ausgelassen werden. Außerdem enthält dann das Teilvokabular der Wörter, die mit der in Schritt 266 ausgewählten Startzeichenfolge beginnen, sowohl die einzeln trainierten Wörter als auch phonemische, akustische Wortmodelle. Wenn das Vokabular der mit STARTSTRING beginnenden Wörter zu groß ist, um innerhalb einer akzeptablen Reaktionszeit erkannt werden zu können, kann es durch das Sprachmodell auf weniger Wörter reduziert werden. In einer sölchen Realisierung wird die Wiedererkennung mit Schritt 272 in beiden begrenzten Vokabularen durchgeführt, d.h. sowohl im Vokabular der individuell trainierten Wörter als auch im Vokabular der phonemischen, akustischen Wortmodelle. Schritt 274 zeigt anschließend die Wahlmöglichkeiten aus beiden Vokabularen an.
Wenn das Diktierprogramm während der in den Schritten 106 - 110 durchgeführten Prüfungen feststellt, daß ein Bearbeitungsbefehl eingegeben worden ist, wird der Test in Schritt 110 als erfüllt angesehen und dann der Programmzweig unter diesem Schritt ausgeführt (siehe ABBLDG. 1). Bearbeitungsbefehle sind Befehle, mit denen eine der im aktiven Fenster 701 oder im Wörterbuch-Fenster 702 angezeigten Wortmöglichkeiten ausgewählt und die Schreibweise des ausgewählten Wortes zur Bildung von STARTSTRING verwendet werden kann, d.h. genauso, als ob der Benutzer die einzelnen Buchstaben des Wortes durch eine Reihe von Buchstabenbefehlen eingegeben hätte. Bearbeitungsbefehle werden ausgeführt, wenn der Benutzer doppelt auf eine der Funktionstasten (f1 - f9) klickt, die init einer der in den Fenstern 701 oder 702 angezeigten Wahlmöglichkeiten übereinstimmt, oder wenn er einen der Sprachbefehle "edit one" bis "edit nine" ausspricht, welcher der Nummer einer dieser Funktionstasten entspricht.
Wie aus ABBLDG. 1 ersichtlich ist, sind die Schritte, die nach einem Bearbeitungsbefehl ausgeführt werden, mit den Schritten identisch, die nach einem Buchstabenbefehl ausgeführt werden; jedoch mit dem Unterschied, daß sich STARTSTRING in Schritt 278 vollständig aus den Buchstaben des ausgewählten Wortes zusammensetzt, in Schritt 262 aber nur einzelne Buchstaben hinzugefügt oder bearbeitet werden.
Bearbeitungsbefehle sind sehr praktisch. Wenn z.B. das aktive Fenster 701 und das Wörterbuch-Fenster 702 anstelle des gewünschten Wortes Wörter anzeigen, die mit den Zeichen des gewünschten Wortes beginnen (aber nicht enden), kann der Benutzer im Definitionsfenster eines dieser Wörter durch Doppelklick hervorheben, die nicht gewünschten Zeichen löschen und dann die gewünschten Buchstaben mit Hilfe der Buchstabenbefehle hinzufügen.
Nachdem die Schritte 276, 278 und 264 - 274 als Antwort auf einen Bearbeitungsbefehl abgeschlossen worden sind, kehrt das Programm erneut an den Anfang von ABBLDG. 1 zurück, um die nächste Benutzereingabe aufzunehmen.
Die Abbildungen 10 - 23 zeigen, wie die bevorzugte Realisierung für einen Mustersatz fünktioniert. Das Spracherkennungssystem begtnnt dabei mit einer leeren Vokabularliste, d.h. es wird angenommen, daß noch keine akustischen Modelle für irgendwelche Wörter trainiert wurden. Im verwendeten Beispiel will der Benutzer den Satz "This invention relates to..." eingeben.
Wenden wir uns jetzt der ABBLDG. 10 zu. Der Benutzer sagt als erstes das Wort "This". Schritt 111 erkennt diese Äußerung und Schritt 119 veranlaßt, daß eine akustische Darstellung (oder ein Token dieser Äußerung) in TEMP TOK gespeichert wird. Da das Programm im TEXTMODUS gestartet wurde, ruft Schritt 123 als nächstes den in ABBLDG. 4 beschriebeien Spracherkennungsalgorithmus auf. Das aktive Vokabular ist anfanglich leer (d.h. es gibt keine Wörter mit akustischen Modellen, in denen eine Spracherkennung durchgeführt werden kann). Daher produziert das Erkennungsprogramm auch keine besten Auswahltnöglichkeiten. In Schritt 108 wird deshalb, wie weiter oben beschrieben, angenommen, daß es sich bei der Wortäußerung, für die das Erkennungsprogramm keine Entsprechung finden kann, um ein Textwort handelt. Da die Erkennung scheitert, werden der Test für diesen Schritt und anschließend die Schritte 170-188 ausgeführt. Schritt 170 schaltet das System erneut in den TEXTMODUS, und Schritt 172 speichert den Token der unerkannten Äußerung in REC TOK. In Schritt 174 wird nichts ausgeführt, da es keine erste Auswahl gibt Schritt 176 zeigt aber die aus der Erkennung stammenden Wahlmöglichkeiten an. Die durch den Erkennungsschritt 123 erzeugte Auswahlliste ist leer. Aus diesem Grunde enthält das in Schritt 176 angezeigte aktive Auswahlfenster 701 nur die Option "del(reject)". Hierdurch wird gekennzeichnet, daß der Benutzer die Löschtaste drücken kann, um die Äußerung, wie in den Schritten 106,190, 192, 194 und 196 in ABBLDG. 1 dargestellt, abzubrechen. Nachdem die Wahlmöglichkeiten angezeigt wurden, wird der Test in Schritt 803 als erfüllt angesehen (da SAV TOK immer noch leer ist), und das Programm fährt mit den Schritten 178, 180 und 188 fort. Da es kein zuvor bestätigtes Wort gibt, kehren diese Schritte allerdings lediglich zum Anwendungsprogramm, d.h. in unserem Falle zum Textverarbeitungsprogramm, zurück. In Schritt 188 erfolgt keine Ausgabe an das Textverarbeitungsprogramm. Dementsprechend wird in Schritt 102 auch nichts ausgeführt, und das Programm kehrt zur Aufrufschleife 103 (wie oben in ABBLDG. 1 gezeigt) zurück, um die nächste Benutzereingabe aufzunehmen.
Der Benutzer gibt in unserem Beispiel den Buchstaben "t" ein. Hierdurch werden die Schritte 104 und (da Test 801 erfüllt worden ist) auch 105 veranlaßt, diesen Tastenanschlag aufzunehmen und an die Prüfüngen in den Schritten 106 - 110 weiterzuleiten. Da es sich bei "t" um einen Buchstabenbefehl handelt, wird dadurch der Test in Schritt 109 erfüllt, woraufhin dann die Schritte 260 - 274 ausgeführt werden. Schritt 260 schaltet den Erkennungsmodus des Systems in den BEARBEITUNGSMODUS, und Schritt 262 fügt dem zuvor leeren STARTSTRING den Buchstaben "t" hinzu. Schritt 264 speichert den z.Z. in REC TOK gespeicherten Token in SAV TOK, so daß dieser für das Training eines Wortmodells verwendet werden kann, sobald der Benutzer ein Wort für diesen Token bestätigt. Schritt 266 beschränkt das aktive Vokabular auf diejenigen Wortmodelle, die mit dem im aktuellen STARTSTRING enthaltenen Buchstaben "t" beginnen. Zu diesem Zeitpunkt gibt es in unserem Beispiel noch keine trainierten Wortmodelle, und das aktive Vokabular ist demzufolge leer. Schritt 268 findet im Backup-Wörterbuch als nächstes eine Liste von Wörtern, die mit dem aktuellen STARTSTRING, d.h. mit "t", beginnen, und wählt die neun Wörter aus, die im vorgegebenen Sprachkontext gemäß des Sprachmodells am wahrscheinlichsten auftreten werden. Der Sprachkontextpuffer in diesem Beispiel ist leer, d.h. das Sprachmodell verwendet zur Auswahl aus dem Backup- Wörterbuch die kontextunabhangigen Wortwahrscheinlichkeiten, auf die in Schritt 184 in ABBLDG. 9 verwiesen wird.
Nachdem in Schritt 268 neun Backup-Wörter ausgewählt worden ist, zeigt Schritt 270 das in ABBLDG. 11 dargestellte Definitionsfenster 703 an. Schritt 272 wird nicht ausgeführt, da das aktive Vokabular für die Wiedererkennung leer ist. Mit Schritt 274 werden anschließend das leere aktive Fenster 701 und im Wörterbuch- Fenster 702 alle neun in Schritt 268 ausgewählten Backup-Wörter angezeigt. Das Programm geht dann an den Anfang von ABBLDG. 1 zurück, um auf die nächste Benutzereingabe zu warten. Auf dem Computerbildschirm ist außerdem der in ABBLDG. 11 gezeigte Eintrag zu sehen.
Wie in ABBLDG. 11 gezeigt, erscheint im Wörterbuch-Fenster 702 das korrekte Wort "this", das mit der Funktionstaste f7 verknüpft ist. In unserem Beispiel wird angenommen, daß der Benutzer als nächstes die Funktionstaste f7 drückt, um das Wort "this" zu bestätigen. Dieser Tastenanschlag wird von den Schritten 104 und 105 entgegengenommen, und der Test 107 ist somit abgeschlossen. Danach werden die Schritte 200, 202, 204, 206, 208, 214, 216, 178, 180 und 188 ausgeführt. Schritt 200 schaltet den Erkennungsmodus zurück in den TEXTMODUS, denn es wird angenommen, daß der Benutzer nach Bestätigung des letzten Textwortes ein weiteres Textwort diktiert. Schritt 202 speichert anschließend REC TOK in SAV TOK. Dies wirkt sich in diesem Falle jedoch nicht aus, da dieser Token mit Schritt 264 bereits in SAV TOK gespeichert wurde. Schritt 204 löscht REC TOK, STARTSTRING und die Popup-Fenster 701, 702 und 703, um die Erkennung eines anderen Textwortes vorzübereiten. Schritt 206 bestätigt, daß das ausgewählte Wort "this" mit dem letzten Textwort, das durch den Token in SAV TOK dargestellt wird, übereinstinunt. Schritt 208 speichert daraufhin den in SAV TOK befindlichen Token, der das bestätigte Wortlabel "this" enthält, im Tokenspeicher. Durch Schritt 214 wird danach im Tokenspeicher nach allen Tokens gesucht, die das Wortlabel "this" haben (zu diesem Zeitpunkt nur ein einziger Token), und mit diesem Token wird dann ein akustisches Wortmodell für dieses Wort gebildet. Schritt 216 speichert schließlich dieses Wortmodell im vom Erkennungsprogramm verwendeten akustischen Modellspeicher.
Als nächstes speichert Schritt 178 das bestätigte Wort "this" als aktuellstes Wort im Sprachkontextpuffer. Schritt 180 aktualisiert danach die Sprachmodellwahrscheinlichkeiten, um die Okkurenz des Wortes "this" zu reflektieren. Schritt 188 gibt dieses Wort dann an das Anwendungsprogramm aus, als wäre es über die Computertastatur eingegeben worden. Das Diktierprogramm achtet dabei auf Zeichensetzungsregeln. Das erste Wort in einem Satz wird z.B. großgeschrieben. Zu den Tastenanschlägen, die in der bevorzugten Realisierung mit Schritt 188 an die Anwendung gesendet werden, gehört demzufolge auch ein großes "T". Der Benutzer braucht sich daher um die Großschreibung am Satzanfang nicht zu kümmern, muß aber auf Substantive, Namen usw. innerhalb des Satzes achten.
Sobald Schritt 188 diese Ausgabefolge generiert hat, wird die Steuerung bei Schritt 102 an das Textverarbeitungsprogramm zurückgegeben. Das Textverarbeitungsprogramm fügt die mit Schritt 188 ausgegebene Zeichenfolge "mis" in den zu erstellenden Text auf dem Bildschirm ein (siehe ABBLDG. 12).
Wenn alle diese Schritte abgeschlossen sind, kehrt das Programm zur Aufrufschleife 103 zurück, um die nächste Benutzereingabe aufzunehmen. In unserem Beispiel handelt es sich dabei um das Wort "invention". Daraufhin werden die Schritte 111, 119, 121 und 123 ausgeführt, die den Token für diese Äußerung mit jedem Wort im aktiven Vokabular vergleichen, um eine akustische Übereinstimmung zu generieren. Da das Wort "this" in unserem Beispiel das einzige Wort ist, für das ein akustisches Modell trainiert wurde, befindet sich im aktiven Vokabular z.Z. nur dieses eine Wort. Es wird daher an die Prüfungen der Schritte 106 - 110 weitergeleitet. Der Test für Schritt 108 wird somit als erfüllt angesehen, und der diesem Schritt folgende Programmzweig wird ausgeführt. Schritt 172 speichert den Token für das soeben diktierte Wort in REC TOK, und Schritt 176 zeigt das aktive Auswahlfenster 701 an (siehe ABBLDG. 13). Da keine Wörter angezeigt wurden, als das Wort "invention" diktiert wurde, kann mit Schritt 174 keine Wortauswahl bestätigt werden, und die Schritte 803, 178, 180 und 188 geben die Steuerung lediglich an das Anwendungsprogramm zurück. Da die Anwendung keine Ausgabe von Schritt 188 empfangen hat, kehrt sie lediglich zu Schritt 103 zurück, um auf die nächste Benutzereingabe zu warten.
Der Benutzer gibt in unserem Beispiel an dieser Stelle den Buchstabenbefehl "i" ein, um zu kennzeichnen, daß die zu erkennende Äußerung mit diesem Buchstaben beginnt. Dadurch wird Test 109 erfüllt, STARTSTRING auf "i" gesetzt, der in REG TOK befindliche Token in SAV TOK gespeichert (um für die Erstellung eines Wortmodells bereitzustehen) und das aktive Vokabular auf die Wörter beschränkt, die mit "i" beginnen. Da für diese Wörter zu diesem Zeitpunkt noch keine akustischen Wortmodelle trainiert worden sind, wird das aktive Vokabular geleert. Schritt 268 ruft anschließend ein Backup-Vokabular der neun Wörter ab, die im aktuellen Sprachkontext am wahrscheinlichsten auftreten und mit dem Buchstaben "i" beginnen. Schritt 270 zeigt im Definitionsfenster 703 (siehe ABBLDG. 14) anschließend das "i" aus dem STARTSTRING an. Schritt 274 wird nicht ausgeführt, da kein aktives Vokabular für die Wiedererkennung bereitsteht. Schritt 274 zeigt daraufhin das leere aktive Auswahlfenster 701 und das Wörterbuch-Fenster 702 an, in dem die in Schritt 268 ausgewählten wahrscheinlichsten Wörter, die mit "i" beginnen, aufgeführt sind. Das Programm kehrt dann für die nächste Benutzereingabe zu Schritt 103 zurück, und auf dem Computerbildschirm ist die in ABBLDG. 14 dargestellte Anzeige zu sehen.
In unserem Beispiel gibt der Benutzer als nächstes die Buchstaben "n", "v", "e" ein, wobei nacheinander die Schritte 104, 105, 109, 260, 262, 264, 266, 268, 270 und 272 durchlaufen werden. In der in ABBLDG. 1 dargestellten Realisierung wird der in Schritt, 272 erwähnte Spracherkennungsalgorithmus mit einer Überwachungsroutine durchgeführt Hierdurch wird mit einer relativ hohen Häufigkeit (z.B. zehnmal pro Sekunde) nach einer neuen Benutzereingabe, d.h. nach einem neuen Tastenanschlag oder einer neuen Äußerung, gesucht Wenn eine solche Eingabe festgestellt wird, bevor die Wiedererkennung in Schritt 272 abgeschlossen ist, wird dieser Schritt abgebrochen und das Programm springt sofort zur Aufrufschleife 103 zurück, um die neue Benutzereingabe aufzunehmen. Dadurch kann der Benutzer schnell hintereinander mehrere Buchstaben oder Bearbeitungsbefehle eingeben, ohne daß er warten muß, bis das System die relativ lange Berechnung einer Wiedererkennung nach einem solchen Eintrag beendet hat. Das System kann nach diesem Schema die Wiedererkennung erst abschließen, wenn der Benutzer nach dem Eintrag des letzten Buchstabens eine ausreichend lange Pause einlegt, um die Wiedererkennung ablaufen zu lassen. Der Benutzer kann demzufolge mehrere Buchstaben eingeben und dann warten und sehen, ob Wörter zur Auswahl angezeigt werden, um dann evtl. weitere Buchstaben oder den Rest des Wortes einzugeben.
Nachdem der Benutzer die Zeichen "nve" eingegeben hat und der dem Schritt 109 folgende Programmzweig auf den resultierenden STARTSTRING antworten konnte, zeigt der Computerbildschirm die in ABBLDG. 15 dargestellte Zeichenfolge an. Das Definitionsfenster 702 zeigt den aktuellen STARTSTRING "inve" an, und das Wörterbuch- Fenster 702 enthält eine Liste der Wörter, die mit "inve" beginnen, einschließlich des Wortes "invention", dem die Funktionstaste f5 zugewiesen ist
Der Benutzer drückt als nächstes die Funktionstaste f5, um das Wort "invention" als bestätigtes Wort auszuwählen. Dadurch wird der Test in Schritt 107 erfüllt und der diesem Schritt folgende Programmzweig ausgeführt. Mit Schritt 206 wird das Wort "invention" bestätigt. Die Schritte 208, 214 und 216 speichern den Token der mit diesem Wort verknüpften Äußerung im Tokenspeicher, und mit diesem Token wird dann ein akustisches Modell für dieses Wort erstellt. Schritt 178 sorgt dafür, daß das Wort "invention" als aktuellstes Wort und das Wort "this" als zweitaktuellstes Wort im Sprachpuffer gespeichert wird. Schritt 180 verwendet daraufhin diese beiden Wörter, um die Sprachmodellwahrscheinlichkeiten zu aktualisieren, und Schritt 188 sendet die Tastenanschläge für "invention" schließlich an die Anwendung. (Beachten Sie, daß das System aufgrund der Zeichensetzungsregeln zusammen mit den an die Anwendung gesendeten Tastenanschlägen vor dem Wort "invention" automatisch eine Leerstelle eingefügt hat.) Das Anwendungsprogramm fügt diese Tastenfolge anschließend in den zu erstellenden Text ein (siehe ABBLDG. 16) und kehrt dann zur Aufrufschleife 103 zurück. Zu diesem Zeitpunkt werden keine Fenster angezeigt. Der Test für Schritt 801 kann folglich nicht erfolgreich abgeschlossen werden, wenn der Benutzer an dieser Stelle einen weiteren Tastenanschlag eingibt. Statt dessen wird Schritt 802 ausgeführt, und der Tastenanschlag wird direkt an die Anwendung gesendet. Dieser Modus würde der normalen Texteingabe entsprechen.
Der Benutzer sagt als nächstes das Wort "relates", das die Ausführung der Schritte 111, 119, 121 und 123 nach sich zieht. Zu diesem Zeitpunkt sind zwei Wörter im aktiven Vokabular enthalten, "this" und "invention". "invention" kommt für eine akustische Übereinstimmung mit dem Wort "relates" allerdings nicht in Frage und ist deshalb auch nicht in der Auswahlliste aufgeführt, die durch die Erkennung in Schritt 123 erstellt wurde. Das Wort "this" ist die beste durch die Erkennung produzierte Wahlmöglichkeit, und dementsprechend ist Test 108 erfüllt Schritt 108 wiederum führt dazu, daß in Schritt 176 die in ABBLDG. 17 dargestellte aktive Fensteranzeige zu sehen ist Da keine Wörter angezeigt wurden, als der Benutzer das Wort "relates" diktiert hat, wird in Schritt 174 auch kein Wort bestätigt, und die Schritte 803, 178, 180, 188 und 102 wirken sich nicht aus. Statt dessen wird zu Schritt 103 zurückgekehrt, um auf die nächste Benutzereingabe zu warten.
Der Benutzer gibt dann die Buchstaben "rel" ein, woraufhin für jeden Buchstaben der Programmzweig unter Schritt 109 ausgeführt wird. Sobald der Programmzweig für den letzten Buchstaben "l" ausgeführt worden ist, ist auf dem Computerbildschirm die in ABBLDG. 18 dargestellte Anzeige zu sehen, und im Definitionsfenster 703 wird der aktuelle STARTSTRING "rel" angezeigt. Da mit der Schreibweise, die mit den Buchstaben "rel" beginnt, keine akustischen Wortmodelle verknüpft sind, ist das aktive Auswahlfenster 701 leer. Das Wörterbuch-Fenster 702 enthält jedoch eine Liste der Wörter, die mit den Buchstaben "rel" beginnen, wobei "relate" die erste Wahlmöglichkeit ist.
Nachdem der in ABBLDG. 19 gezeigte Bildschirm erstellt ist, kehrt das Programm zur Aufrufschleife 103 zurück, um die nächste Benutzereingabe zu erwarten. In unserem Beispiel drückt der Benutzer an dieser Stelle zweimal kurz hintereinander die Funktionstaste f1. Schritt 105 erkennt diesen Doppelklick und sendet ein der Funktionstaste f1 entsprechendes Doppelklickzeichen an die Prufüngen in den Schritten 106 - 110. Dies führt zum effolgreichen Abschluß des Tests in Schritt 110 und zur Ausführung des entsprechenden Programmzweiges.
Schritt 276 schaltet das Programm dem Ergebnis entsprechend erneut in den BEARBEITUNGSMODUS, und Schritt 273 macht das Wort "relate" zum STARTSTRING. Schritt 264 speichert den in REC TOK befindlichen Token in SAV TOK, was in diesem Falle jedoch ohne Wirkung bleibt, da dies für jeden der vom Benutzer eingegebenen Buchstaben in "rel" bereits geschehen ist. Das leere aktive Vokabular wird durch Schritt 266 nicht geändert. Schritt 268 beschränkt das Backup-Vokabular auf die Wörter "relate" und "related", da das gewünschte Wort "relates" kein separater Eintrag im Wörterbuch ist. Schritt 270 zeigt im Definitionsfenster 703 den STARTSTRING "relate" an. Mit Schritt 272 wird nichts ausgeführt, da das aktive Vokabular leer ist. Schritt 274 zeigt schließlich die Fenster 701 und 702 an, bevor das Programm dann für eine weitere Benutzereingabe zur Aufrufschleife 103 zurückkehrt. Diese Schritte erzeugen die in ABBLDG. 19 dargestellte Anzeige.
Der Benutzer gibt dann den Buchstaben "s" ein, um das Wort "relates" zu bilden. Schritt 109 reagiert auf diesen Buchstabenbefehl, indem Schritt 262 veranlaßt wird, diesen Buchstaben dem STARTSTRING hinzuzufügen. Schritt 270 generiert daraufhin die in ABBLDG. 20 dargestellte Anzeige. Das Programm fährt anschließend für denselben Token mit den Schritten 264, 266, 268, 270, 272 und 274 fort und geht danach zur Aufrufschleife 103 zurück, um auf weitere Benutzereingaben zu warten. Wie in ABBLDG. 20 dargestellt, zeigt Schritt 270 den STARTSTRING "relates" im Definitionsfenster 702 an. Das aktive Fenster 701 oder das Wörterbuch-Fenster 702 werden jedoch nicht eingeblendet, da es weder im aktiven Vokabular noch im Wörterbuch Wörter gibt, die mit den Buchstaben "relates" beginnen. In der in diesem Beispiel illustrierten bevorzugten Realisierung ist der LÖSCH-Befehl nur im TEXTMODUS und nicht im BEARBEITUNGSMODUS aktiv, d.h. "del (reject)" wird nicht angezeigt.
Da das Wort im Definitionsfenster 703 das gewünschte Wort ist, drückt der Benutzer die Eingabetaste (ENTER). Diese Taste wird vom Programm als Befehl zur Auswahl und Bestätigung des Wortes im Definitionsfenster interpretiert. Nach dieser Eingabe wird der Test in Schritt 107 erfolgreich abgeschlossen und der diesem Schritt folgende Programmzweig ausgeführt. Mit Schritt 200 wird das Programm zurück in den TEXTMODUS geschaltet, der STARTSTRING "relates" dann als bestätigtes Wort gekennzeichnet und der Token in SAV TOK (der mit der Lautäußerung dieses Wortes übereinstimmt) mit dem Label "relates" im Tokenspeicher gespeichert, um so ein akustisches Modell für das Wort "relates" zu erstellen. Das Wort "relates" wird im Sprachkontextpuffer als aktuellstes Wort gespeichert, und "invention" wird an die Stelle des zweitaktuellsten Wortes geschoben. Diese beiden Wörter werden dann verwendet, um die Sprachmodellwahrscheinlichkeiten zu aktualisieren, und "relates" wird an das Textverarbeitungsprogramm ausgegeben, das diese Zeichenfolge (wie in ABBLDG. 21 dargestellt) an der Cursorposition in den Text einfügt. Das Programm kehrt für die nächste Benutzereingabe anschließend zur Aufrufschleife 103 zurück. Da sich das System jetzt erneut in einem Zustand befindet, der einen erfolgreichen Abschluß des Tests in Schritt 801 ausschließt, könnte der Benutzer also weitere Zeichen über die Tastatur eingeben.
Der Benutzer diktiert als nächstes das Wort "to" Dadurch wird auf den aus dieser Äußerung stammenden Token die TEXTMODUS-Erkennung aus Schritt 123 angewandt. Das am besten passende Wort im aktiven Vokabular ist in diesem Fall "this", d.h. der Test in Schritt 108 ist erfüllt, und "this" wird im aktiven Auswahlfenster 701 angezeigt.
Der Benutzer gibt dann über die Tastatur den Buchstaben "t" ein. Dadurch wird der dem Schritt 109 folgende Programmzweig ausgeführt und der STARTSTRING auf den Buchstaben "t" eingestellt. Das aktive Vokabular wird auf die Wörter beschränkt, die mit "t" beginnen, und es wird ein Backup-Vokabular mit "t"-Wörtern ausgewählt. Anschließend wird im aktiven Vokabular eine Wiedererkennung durchgeführt. Da das aktive Vokabular zu diesem Zeitpunkt nur ein Wort enthält, das mit "t" beginnt (nämlich das Wort "this"), wird "this" als beste Wahlmöglichkeit in der Wiedererkennung ausgewählt. Nach der Wiedererkennung erscheint auf dem Computerbildschlrm die in ABBLDG. 23 dargestellte Auzeige. Dem korrekten Wort "to" ist im Wörterbuch-Fenster 702 die Funktionstaste f2 zugewiesen. Der Benutzer muß folglich die Funktionstaste f2 drücken, um das Wort "to" zu bestätigen und um die in ABBLDG. 24 dargestellte Anzeige zu generieren.
Der Benutzer hat den Text "This invention relates to" (der normalerweise 25 Tastenanschläge erfordert) jetzt vollständig eingegeben sowie vier akustische Modelle erstellt, mit denen diese Wörter später völlig tastaturfrei eingegeben werden können (da eine richtige Erkennung einfach durch Diktieren des nächsten Wortes bestätigt, d.h. der Test in Schritt 108 erfüllt und der diesem Schritt folgende Programmzweig dann ausgeführt werden kann). Mit anderen Worten, der Benutzer konnte die vier Wörter dieses Textes hintereinander und ohne ausdrückliches Training diktieren und brauchte dabei insgesamt nur 15 Tastenanschläge auszuführen (oder 16 mit dem Doppelklick).
Der Benutzer braucht kein Anfangsvokabular zu trainieren. Um dem aktiven Spracherkennungsvokabular ein neues Wort hinzufügen, braucht das Wort während der Erstellung eines Dokuments einfach nur verwendet zu werden. Wenn dabei auf das Backup-Wörterbuch zurückgegriffen wird, sind dafür oft weniger Tastenanschläge nötig, als das bei vollständiger Eingabe über die Tastatur der Fall wäre.
Wenn der Benutzer akustische Modelle für die im obigen Beispiel verwendeten Wortauswahl-, Buchstaben- und Bearbeitungsbefehle trainiert hätte, wäre es möglich, diese Befehle auch per Spracheingabe zu und so dieselben Ergebnisse zu erzielen.
In ABBLDG. 25 und 26 wird eine andere Realisierung der vorliegenden Erfindung gezeigt, die für die Spracherkennung und die Korrektur falsch erkannter gesprochener Wörter konzipiert wurde. Hierbei kann es sich um einzelne Wörter handeln, die durch kurze Pausen voneinander getrennt sind, oder auch um kurze Sätze, wobei jeder Satz durch eine kurze Pause getrennt ist. Die in ABBLDG. 25 gezeigten Funktionsschritte entsprechen den jeweiligen Schritten in ABBLDG. 1 (einschließlich der Schrittnummern), aber mit folgenden Unterschieden: Beim Spracherkennnngsalgorithmus in Schritt 123a handelt es sich um einen Satzerkennungsalgorithmus, der für die Erkennung eines ganzen zusammenhängend gesprochenen Satzes entwickelt wurde. Der STARTSTRING in den Schritten 192a, 204a, 262a, 278a, 266a, 268a und 270a ist dagegen der PHRASE STARTSTRING, der die Anfangsbuchstaben eines oder mehrerer diktierter Wörter, die z.Z. erkannt werden, auflistet. Dieser PHRASE STARTSTRING kann mehr als ein Wort enthalten. Das Definitionsfenster 703a, in dem der PHRASE STARTSTRING angezeigt wird, wird als Satzdefinitionsfenster 703a bezeichnet (siehe ABBLDG. 30). Die Schritte 176a und 274a zeigen den gesamten erkannten Satz im aktiven Satzfenster 701 an (siehe ABBLDG. 27), wobei die angezeigten Wahlmöglichkeiten aus einzelnen Wörtern und/oder aus mehrere Wörter umfassenden Sätzen bestehen können. Durch die Schritte 206a und 174a wird anstelle der Auswahl eines einzelnen Wortes die Auswahl des Satzes bestätigt. Mit den Schritten 208a, 214a und 216a werden Tokens und akustische Wortmodelle für jedes Wort im bestätigten Satz (anstelle für nur ein einzelnes Wort) erstellt, und Schritt 178a speichert alle Wörter des bestätigten Satzes (und nicht nur ein einzelnes Wort) im Sprachkontextpuffer. Schritt 180a aktualisiert auf Basis dieser bestätigten Wörter anschließend das Sprachmodell. Schritt 188a gibt schließlich alle Wörter des bestätigten Satzes (und nicht nur ein einzelnes Wort) an die Anwendung aus. Der größte Unterschied zwischen den Realisierungen in ABBLDG. 1 und 25 besteht in dem neuen Test 302 (siehe ABBLDG. 25), der das Programm mit Schritt 304 veranlaßt, zu der in ABBLDG. 26 dargestellten Bearbeitungsroutine für neue Sätze zu springen. Dieser Test ist erfüllt, sobald der Benutzer den Bearbeittingsbefehl auswählt und der zur Bearbeitung anstehende Satz mehr als ein Wort enthält.
Bevor wir auf ABBLDG. 26 eingehen, sollte darauf hingewiesen werden, daß ein kontinuierlicher Sprachalgorithinus, der sich für die Satzerkennung in Schritt 123a eignen würde, dem weiter oben im Zusammenhang mit ABBLDG. 5 und 6 diskutierten Trainingsalgorithmus weitgehend gleichen würde, wobei ABBLDG. 5 dann durch ABBLDG. 5A ersetzt werden müßte. Der Trainingsalgorithmus in ABBLDG. 5 und der kontinuierliche Sprachalgorithinus in ABBLDG. 5A unterscheiden sich nur in zwei Punkten. Bei der kontinuierlichen Spracherkennung in ABBLDG. 5A findet keine Neuschätzung der Parameter 222 statt, und die statistischen Werte, die im Rückverfolgungsschritt 220 aufgezeichnet werden, sind unterschiedlich. Wenn Schritt 220 für die kontinuierliche Spracherkennung ausgeführt wird, bestehen die aufzuzeichnenden statistischen Werte nur aus den Wörtern entlang des besten Pfades, der zurückverfolgt wird. Diese Wortfolge wird in umgekehrter Reihenfolge zur Verfügung gestellt. Es ist jedoch einfach, eine solche Wortfolge zu speichern und umzukehren, um dem Benutzer die vorwärtsweisende Wortfolge anzuzeigen und an die Anwendung zu senden.
Im Hinblick auf ABBLDG. 25 sollte außerdem darauf hingewiesen werden, daß die Schritte 266a und 268a das aktive Vokabular und das Backup-Vokabular auf Wörter beschäänken, die mit dem PHRASE STARTSTRING beginnen. Sollte der PHRASE STARTSTRING Leerstellen enthalten, wählt Schritt 266a nur die Einträge aus dem akustischen Wortmodellspeicher und Schritt 268a nur die Einträge aus dem Backup-Wörterbuch, die aus einer identischen Zeichenfolge (einschließlich der Leerstellen) bestehen. Derartige aus mehreren Wörtern bestehende Einträge sind normalerweise selten, so daß das in diesen beiden Schritten gewählte aktive Vokabular und Backup- Vokabular in der Regel leer ist, wenn der PHRASE STARTSTRING mehr als ein Wort enthält. Bei der Erkennung in Schritt 272a wird (genauso wie in ABBLDG. 1) nur ein einzelnes Wort erkannt. Die Erkennung eines aus mehreren Wörtern bestehenden Satzes ist nur dann möglich, wenn für diesen Satz ein akustisches Modell trainiert wurde (d.h. als würde es sich um ein einzelnes Wort handeln).
Wenn der Benutzer ein Wort diktiert, funktioniert die in ABBLDG. 25 dargestellte Realisierung der Erfindung fast genauso wie die Realisierung in ABBLDG. 1, wobei einige der im aktiven Fenster 701a angezeigten Wahlmöglichkeiten aus mehreren Wörtern bestehen können.
Wenn der Benutzer einen aus mehreren Wörtern bestehenden Satz diktiert und in Reaktion auf die erste Erkennung dieser Äußerung der richtige Satz als Auswahlmöglichkeit im aktiven Satzfenster 701a erscheinen sollte, kann der Benutzer diese Wahlmöglichkeit auf dieselbe Weise bestätigen, als wenn in der in ABBLDG. 1 dargestellten Realisierung eine korrekte Wahlmöglichkeit angezeigt werden würde. Das heißt, der Benutzer kann eine solche Wahlmöglichkeit durch Drücken der dem korrekten Wort zugewiesenen Funktionstaste oder durch Ansage eines Auswahlbefehls auswählen, oder auch indem er ein neues Wort diktiert, das als solches und nicht als Lösch-, Auswahl-, Buchstaben- oder Bearbeitungsbefehl erkannt wird.
Wenn der Benutzer zum Beispiel den Satz "I knew this play" diktiert hat und die in ABBLDG. 27 gezeigte Auswahlanzeige erhält, könnte er diesen Satz durch Drücken der f3-Taste oder durch Ansage von "pick three" bestätigen. Der Tastenanschlag 5 würde daraufhin in den Schritten 104 und 105 festgestellt und übernommen werden, und der Test in Schritt 107 würde somit erfüllt sein. Schritt 200 würde daraufhin das Programm in den TEXTMODUS schalten, und Schritt 202 würde den in REC TOK gespeicherten Token anschließend für die Äußerung "I knew this play" in SAV TOK ablegen, um Wortmodelle erstellen zu können. Schritt 204a würde dann das Popup-Fenster 701a sowie REC TOK und alle Startzeichenfolgen (einschließlich PHRASE STARTSTRING) löschen, um diese bei der nächsten Erkennung verwenden zu können. Schritt 206a würde die der 5-Taste zugewiesene Auswahl, d.h. den Satz "I knew this play", als nächstes bestätigen. Schritt 208a würde schließlich im Tokenspeicher die einzelnen Teile des in SAV TOK abgelegten Token speichern, der als separater Token mit den akustischen Modellen für die Wörter in der bestätigten Zeichenfolge zeitlich ausgerichtet ist, und dann jedem Tokenteil das zugehörige Wortlabel geben, bevor SAV TOK gelöscht wird. Die Neuberechnung dieser zeitlichen Ausrichtung erfolgt in der in ABBLDG. 25 gezeigten bevorzugten Realisierung für Schritt 208a mit Hilfe des Satzerkennungsalgorithmus, der im Zusammenhang mit ABBLDG. 5A und 6 beschrieben wurde, um die den bestätigten Wörtern zugewiesene Folge akustischer Modelle mit dem gesamten Token in SAV TOK zeitlich auszurichten; es sei denn, eine solche zeitliche Ausrichtung wurde bereits für den Token in SAV TOK mit den in ABBLDG. 26 gezeigten Schritten gespeichert.
Sobald Schritt 208a im Tokenspeicher für die einzelnen Wörter im bestätigten Satz einen akustischen Token gespeichert hat, erstellt Schritt 214a für jedes der Wörter im bestätigten Satz ein akustisches Wortmodell, wobei jeder der im Tokenspeicher abgelegten Token, der mit dem jeweiligen Wort beschriftet ist, verwendet wird. Schritt 216a speichert dann die neu erstellten Wortmodelle zur künftigen Benutzung durch das Spracherkennungssystem im akustischen Wortmodellspeicher. Danach speichert Schritt 178a die einzelnen Wörter im bestätigten Satz in geordneter Reihenfolge im Sprachkontextpuffer, der in dieser Realisierung (wie in ABBLDG. 25 gezeigt) so viele Wörter aufliehmen kann (einschl. einem Extrawort), wie gemäß der für das System festgelegten Satzgröße diktiert werden können. Schritt 180a verwendet anschließend jedes der Wörter im bestätigten Satz sowie das diesem Satz vorausgehende Wort im Sprachpuffer, um das in ABBLDG. 9 dargestellte Sprachmodell zu akualisieren. Schritt 188a gibt danach alle Wörter im bestätigten Satz an das Anwendungsprogramm aus, und zwar so, als ob diese über die Tastatur eingegeben worden wären, und kehrt dann zum Anwendungsprogramm zurück, um die Tastenanschläge zu verarbeiten. Das Anwendungsprogramm geht schließlich zur oben in ABBLDG. 25 gezeigten Aufrufschleife 103 zurück, um die nächste Benutzereingabe aufzunehmen.
Wenn der Benutzer einen aus mehreren Wörtern bestehenden Satz diktiert und das System diesen falsch erkennen sollte, kann der Benutzer den richtigen Satz mit der in ABBLDG. 25 und 26 gezeigten Realisierung auf zwei verschiedene Weisen erhalten. Zum einen kann er die Satzzeichen mit Buchstabenbefehlen eingeben, entweder indem er sie über die Tastatur eingibt oder aber mit Hilfe des Buchstabieralphabets diktiert (wobei Leerstellen in die gewünschte Zeichenfolge durch Ansage des Wortes "Leertaste" eingegeben werden) und dann anschließend die Eingabetaste drückt oder "enter that" diktiert, um den resultierenden PHRASE STARTSTRING zu bestätigen. Wenn der Benutzer einen solchen PHRASE STARTSTRING eingibt, reagiert das System, wie in ABBLDG. 25 gezeigt, genauso, als ob wenn der Benutzer in die in ABBLDG. 1 gezeigte Realisierung einen STARTSTRING eingegeben hätte. Allerdings sind zwei Unterschiede zu berücksichtigen: Erstens ist sowohl das in Schritt 266a erzeugte aktive Vokabular als auch das in Schritt 268a erzeugte Backup-Vokabular leer, sofern im PHRASE STARTSTRING ein Leerschritt eingegeben wurde, es sei denn, es sind akustische Wortmodelle oder Wörterbucheinträge mit Leerstellen darin enthalten. Zweitens stehen dem System, wenn der Benutzer einen aus mehreren Wörtern bestehenden Satz bestätigt, unter Umständen nicht genügend Informationen zur Verfügung, um eine präzise zeitliche Ausrichtung der einzelnen Wörter des bestätigten Satzes mit SAV TOK zu ermöglichen.
Der zweite Unterschied ist etwas schwieriger zu verstehen; wir wollen deshalb etwas näher darauf eingehen. Wenn der Benutzer die gesamte gewünschte Zeichenfolge buchstabiert und durch Drücken der Eingabetaste oder durch Ansage von "enter that" bestätigt hat, wird diese Äußerung durch den dem Test 107 folgenden Programmzweig (siehe ABBLDG. 25) bestätigt Dieser Zweig antwortet auf den bestätigten Satz, d.h. auf den Satz "1 knew this play", in der oben beschriebenen Weise. Wenn in Schritt 208a für eines oder mehrere der Wörter im bestätigten Satz jedoch kein akustisches Modell zur Verfügung stand, können unter Umständen nicht alle Wörter mit dem Token in SAV TOK präzise ausgerichtet werden, d.h. die Erstellung eines Token und akustischen Modells für diese Wörter ist dann wahrscheinlich nicht möglich. Dies kann in der in ABBLDG. 25 gezeigten Realisierung ein Problem darstellen, wenn der bestätigte Satz ein oder mehrere Wörter enthält, für die es kein akustisches Modell gibt. In anderen Realisierungen der vorliegenden Erfindung, in denen für jedes Wort in einem großen phonetischen Wörterbuch phonemische Modelle bereitgestellt werden, ist dies nur bei Wörtern ein Problem, für die das phonetische Wörterbuch keine Modelle bereithält. Sollte es nicht möglich sein, alle Wörter im bestätigten Satz zeitlich korrekt auszurichten, werden für die nicht ausgerichteten Wörter lediglich keine Tokens und akustischen Modelle erstellt. Wenn der Benutzer ein Modell für ein solches Wort trainieren möchte, kann er dies erreichen, indem er das Wort diktiert. Es kann daraufhin in Schritt 208a problemlos zeitlich ausgerichtet werden, und durch die Schritte 208a und 214a kann daraufhin ein Token und ein Modell erstellt werden.
Die andere Möglichkeit, einen aus mehreren Wörtern bestehenden falsch erkannten Satz zu korrigieren, besteht in der Verwendung der Satzbearbeitungsroutine (siehe ABBLDG. 26). Diese Routine wird aufgerufen, wenn der Benutzer einen Bearbeitungsbefehl erteilt, um einen im aktiven Satzfenster 70 la angezeigten Satz auszuwählen. Ein solcher Befehl erfüllt, wie bereits beschrieben, den Test in Schritt 110 (siehe ABBLDG. 25) und veranlaßt Schritt 276 dazu, das System in den BEARBEITUNGSMODUS zu schalten. Schritt 278a bildet unter Verwendung des ausgewählten Satzes anschließend den PHRASE STARTSTRING, und der Test in Schritt 302 wird dadurch erfüllt. Das Programm springt daraufhin zu J1(siehe ABBLDG. 26 oben), d.h. an den Anfang der Satzbearbeitungsroutine.
Die in ABBLDG. 26 dargestellte Satzbearbeitungsroutlne ermöglicht dem Benutzer die Auswahl eines der im Satzdefinitionsfenster 703a angezeigten falsch erkannten Wörter sowie die Korrektur dieses Wortes, wobei der Benutzer, wie in ABBLDG. 1 gezeigt, vorgehen kann. Das in ABBLDG. 26 gezeigte Flußdiagramm ähnelt daher in vieler Hinsicht dem Flußdiagramm in ABBLDG. 1.
Nachdem das Programm zu J1 gesprungen ist, werden in Schritt 402 zwei Zeichenfolgen gelöscht: der ALREADY CONFIRMED STRING und der WORD STARTSTRING. Im Satzbearbeitungsmodus kann der Benutzer den Satz im Satzdefinitionsfenster 703a von links nach rechts bearbeiten. Der ALREADY CONFIRMED STRING speichert die vom Benutzer bereits bestätigten Wörter aus dem Satzdefinitionsfenster. Diese Zeichenfolge wird mit Schritt 402 gelöscht, um darauf hinzuweisen, daß zu diesem Zeitpunkt noch keines der Wörter im Satzdefinitionsfenster bestätigt worden ist. Bei dem WORD STARTSTRING handelt es sich um eine Zeichenfolge, die der in ABBLDG. 1 verwendeten Zeichenfolge ähnelt, und durch welche die Buchstaben des Wortes speichert werden, welches das zur Korrektur ausgewählte Wort im PHRASE STARTSTRING ersetzt. Der WORD STARTSTRING wird mit Schritt 402 gelöscht, um anzuzeigen, daß zu diesem Zeitpunkt noch kein WORD STARTSTRING definiert worden ist.
Das Programm geht nach Schritt 402 zu Schritt 404 über, in dem ein Teil der Satzbearbeitungsroutine gebildet wird, die bei jeder Änderung des Wortes im PHRASE STARTSTRING wiederholt wird. Schritt 404 zeigt im Satzdefinitionsfenster 703a den aktuellen PHRASE STARTSTRING an, dem in unterstrichener Form der ALREADY CONFIRMED STRING vorangestellt ist. Wenn der Satzbearbeitungsrnodus gestartet wird, enthält der PIIRASE STARTSTRING den aus mehreren Wörtern bestehenden Satz, der mit dem Bearbeitungsbefehl ausgewählt wurde, welcher zum erfolgreichen Abschluß des Tests in Schritt 110 (siehe ABBLDG. 25) und damit zu einem leeren ALREADY CONFIRMED STRING geführt hat. Das Satzdefinitionsfenster zeigt folglich nur den mit dem Bearbeitungsbefehl ausgewählten PHRASE STARTSTRING an.
Schritt 406 definiert nach Abschluß von Schritt 404 das erste Wort im PHRASE STARTSTRING als ausgewähltes Wort und zeigt es im Satzdefinitionsfenster in invertierter Form an. Schritt 408 führt dann in dem in REC TOK gespeicherten Token eine einfache Worterkennung durch, wobei die Erkennung in dem Teil des Token, der mit dem Anfang des ausgewählten Wortes zeitlich ausgerichtet ist, begonnen wird. Eine solche zeitliche Ausrichtung kann durch Ausführung des in den ABBLDG. 5A und 6 erwähnten Erkennungsalgorithmus erreicht werden, wobei nur die mit dem aktuellen ALREADY CONFIRMED STRING (gefolgt vom PHRASE STARTSTRING) verknüpften Wortmodelle verwendet werden. Diese Methode ähnelt der Verfahrensweise, die im Hinblick auf Schritt 208a in ABBLDG. 25 beschrieben wurde. Die Einzelworterkennung in Schritt 408 läuft wie die in ABBLDG. 1 verwendete Erkennung diskreter Äußerungen ab, mit dem Unterschied, daß anstelle der Pausenergebnisse, die in der in ABBLDG. 3 dargestellten Routine verwendet werden, jetzt das aktuelle Wort als im Satz eingebettet erkannt wird. Anstelle der in Schritt 151 (ABBLDG. 4) verwendeten Initialisierung, erhält der erste Knoten eines Wortmodells folglich einen Anfangswert, der aus dem Ergebnis des letzten Knotens des vorhergehenden Wortes dieses Satzes stammt (vergleiche ABBLDG. 5A und 6). Bei der in Schritt 163 berechneten beobachteten Wahrscheinlichkeit obs prob(label(WORT,LAST NODE),RAHMEN) würde es sich demnach um ein Durchschnittsergebnis für andere dem aktuellen Wort folgende Wörter und nicht um das aus einer Pause oder einem Umgebungsgeräusch stammende Ergebnis handeln. Die Anpassungsroutine würde folglich den Treffer für jedes Wort, das in den Kontext vorhergehender Wörter des bereits bestäfigten Satzes eingebettet ist, berechnen und den rechten Kontext leerlassen.
Durch die Erkennungsroutine in Schritt 408 wird nicht nur das Wort mit dem besten Ergebnis gewählt, sondern auch eine Liste nächstbester Wörter, die im aktiven Wortfenster 701b in eine nach Treffern geordnete Auswahliste plaziert werden. In einer anderen Realisierung dieser Ertindung könnten die Trefferergebnisse all dieser Wörter gespeichert werden, sofern die kontinuierliche Sprachanpassungsroutine in Schritt 123a (siehe ABBLDG. 25) die in ABBLDG. 6 dargestellte vorwärtsweisende Trefferberechnung durchlürt. In der bevorzugten Realisierung wird statt dessen die Anpassungsroutine in Schritt 408 aufgerufen, da diese ebenfalls zur Neuberechnung der Wortergebnisse nach einer Vokabularbeschränkung oder -erweiterung verwendet werden kann (siehe Schritt 409 weiter unten).
Nachdem die Anpassungsroutine in Schritt 408 eine Auswahluste für die ausgewählte Wortposition wiedergegeben hat, wird diese Auswahlliste in Schritt 410 im aktiven Wortfenster 701b (siehe ABBLDG. 30) angezeigt, und das Programm geht dann zur Aufiutschleife 103b (siehe ABBLDG. 26) weiter, um durch Eingabe einer Äußerung oder eines Tastenanschlags eine Option auszuwählen. Die oben in ABBLDG. 26 gezeigten Schritte 103b, 104b, 105b, 111b, 119b und 122b sind mit den entsprechend bezifferten Schritten in ABBLDG. 1 und 25 identisch. Sie warten auf die Benutzereingabe, übernehmen und, sofern es sich um eine Äußerung handelt, erkennen dann diese Benutzereingabe und leiten diese an eine Reihe von Tests weiter. Zu diesen Tests gehören der Test 106b "WENN LÖSCHBEFEHL", der Test 107b "WENN AUSWAHLBEFEHL", der Test 109b "WENN BUCHSTABENBEFEHL" und der Test 110b "WENN WORTBEARBEITUNGSBEFEHL". Diese Tests entsprechen den älinlich bezifferten Tests in ABBLDG. 1 und 25. ABBLDG. 26 enthält darüber hinaus zwei weitere Tests, nämlich den Test 412 "WENN WORTAUSWAHLBEFEHL" und den Test 414 "WENN SATZEINGABEBEFEHL".
Wenn das Programm zur Aufrufschleife 103b übergeht und der Benutzer einen Wortauswahlbefehl eingibt, wird Test 412 damit erfüllt. Wortauswahlbefehle können in der in ABBLDG. 26 gezeigten Realisierung durch Drücken der linken und rechten Cursortaste ausgeführt werden, mit denen das Wort rechts oder links neben dem aktuell hervorgehobenen Wort ausgewählt werden kann, vorausgesetzt, daß PHRASE STARTSTRING ein solches Wort enthält. Zu den Wortauswahlbefehlen gehören außerdem die Sprachbefehle "1 nach links", "2 nach links" usw. sowie "1 nach rechts", "2 nach rechts" usw., mit denen das jeweilige Wort ausgewählt wird, das sich um die angegebene Anzahl von Stellen links oder rechts vom hervorgehobenen Wort befindet, vorausgesetzt, daß PHRASE STARTSTRING solch ein Wort enthält.
Wenn der Test in Schritt 412 erfüllt ist, wird der unter diesem Schritt liegende Programmzweig ausgeführt. Schritt 416 wahlt das durch den Wortauswahlbefehl gekennzeichnete Wort aus und zeigt es anstelle des zuvor ausgewahlten Wortes in umkehrter Form im Satzdefinitionsfenster an. Anschließend werden die oben beschriebenen Schritte 408 und 410 ausgeführt, und das Programm geht für die nächste Benutzereingabe zur Aufrufschleife 103b über. Es sollte darauf hingewiesen werden, daß die Spracherkennung in Schritt 408 zusammen mit einer Überwachungsroutine ausgeführt wird, die jedesmal dann zu einem Abbruch der Erkennung führt und zur Aufrufschleife 103b springt, wenn eine neue Benutzereingabe festgestellt wird. Hierdurch kann der Benutzer schnell hintereinander Wortauswahlbefehle erteilen, ohne darauf warten zu müssen, daß die Worterkennung abgeschlossen und der nächste Wortauswahlbefehl verarbeitet wird.
Wenn das Programm zur Aufruflchleife 103b übergeht und der Benutzer einen Auswahlbefehl eingibt, wird damit der Test 10th erfüllt und der unter diesem Schritt liegende Programmzweig durchgeführt. Auswahlbefehle können in der in ABBLDG. 26 gezeigten Realisierung durch das Drücken einer der Funktionstasten (f1 - f9) oder durch die Sprachbefehle "pick one" bis "pick nine", die mit der im aktiven Wortfenster 701b oder im Wörterbuch-Fenster 702b angezeigten Wortauswahl übereinstimmen, erteilt werden. In der Satzbearbeitungsroutine können die Auswahlbefehle nicht durch Drücken der Eingabetaste oder durch Ansage von "enter that" erteilt werden, da die Eingabebefehle in dieser Routine, wie weiter unten beschrieben, zur Bestätigung des gesamten Satzes im Satzdefinitionsfenster verwendet werden.
Sobald Test 107b erfüllt ist, wird das aktuell ausgewählte Wort, das in invertierter Form im Satzdefinitionsfenster angezeigt wird, in Schritt 418 durch das über den Auswahlbefehl gewählte Wort ersetzt. Die in ABBLDG. 26 gezeigte Satzbearbeitungsroutine läßt den Benutzer zur Vereinfachung nur die Wörter korrigieren, die sich rechts neben dem letzten bereits korrigierten Wort im PHRASE STARTSTRING befinden. Sobald ein Wort mit Schritt 418 korrigiert ist, wird es in Schritt 420 zusammen mit allen vorhergehenden Wörtern aus dem aktuellen PHRASE STARTSTRING entfernt, um eine weitere Bearbeitung auszuschließen. Es wird dann in den ALREADY CONFIRMED STRING aufgenommen. Schritt 422 zeigt anschließend erneut das Satzdefinitionsfenster 703a an, wobei alle Wörter im ALREADY CONFIRMED STRING unterstrichen und durch eine Leerstelle getrennt sind sowie in invertierter Form gezeigt werden, um für den in Schritt 424 neu zu erkennenden PHRASE STARTSTRING bereitzustehen. Schritt 424 führt daraufhin die Satzerkennung in REC TOK durch und beginnt dabei mit dem Teil des Token, der mit dem zuvor ausgewählten Wort in der Erkennung zeitlich ausgerichtet ist, in der das Wort erzeugt wurde. Das neu ausgewählte Wort, das durch den letzten Auswahlbefehl gewählt wurde, wird als erstes Wort für alle anstehenden Sätze benutzt, die in der Satzerkennung in Schritt 424 verwendet werden: Diese Wiedererkennung wird durchgeführt, damit die Anpassungsroutine ein Wort korrigieren kann, das aufgrund eines Fehlers in einem Wort des zusammenhängenden Satzes falsch erkannt wurde, und zwar wird der zweite Fehler berichtigt, sobald der erste Fehler korrigiert worden ist. Bei dieser Methode ist es möglich, daß sich die Anzahl der Wörter in der Ausgabefolge von der korrekten Anzahl der Wörter unterscheidet. Wenn ein Wort zum Beispiel fälschlicherweise als Wortpaar erkannt worden ist und nur das erste falsche Wort korrigiert wurde, wird die Wiedererkennung am Ende des korrigierten Wortes fortgesetzt, sobald das erste falsche Wort durch das richtige (längere) Wort ersetzt worden ist.
Wenn diese Satzerkennung in Schritt 424 durchgeführt und die beste Wortfolge, die mit dem aktuell ausgewahlten Wort beginnt, ausgewahlt worden ist, subtrahiert Schritt 426 das aktuell ausgewählte Wort von dieser Wortfolge und bildet aus den restlichen Wörtern den neuen PHRASE STARTSTRING. Das Programm geht anschließend zu Schritt 404 über, der den neuen PHRASE STARTSTRING im Satzdefinitionsfenster anzeigt. Diesem neuen PHRASE STARTSTRING ist der ALREADY CONFIRMED STRING vorangestellt, der zur Unterscheidung unterstrichen ist. Schritt 406 wählt anschließend das erste Wort des neuen PHRASE STARTSTRING aus und zeigt es in invertierter Form an. Schritt 408 führt dann in dem Teil von REC TOK, der mit dem ausgewahlten Wort übereinstimmt, eine einfache Worterkennung durch, und Schritt 410 zeigt die Wortauswahl aus dieser Erkennung an. Das Programm kehrt daraufitin für die nächste Benutzereingabe zur Aufrufschleife 103b zurück.
Wenn das Programm zur Aufrufschleife 103b übergeht und der Benutzer durch Drücken der Eingabetaste oder Ansage von "enter that" einen Satzeingabebefehl erteilt, wird dadurch der Test 414 erfüllt, und die Schritte 430 und 432 werden ausgeführt. Satzeingabebefehle werden verwendet, um anzugeben, daß der gesamte, im Satzdefinitionsfenster aktuell gezeigte Satz bestätigt werden soll. In Schritt 430 wird der ALREADY CONFIRMED STRING an den Anfang des aktuellen PHRASE STARTSTRING gestellt, um den PHRASE STARTSTRING zu bilden, der bestätigt werden soll. Schritt 432 springt mit einem Auswahlbefehl anschließend zu 32 (siehe ABBLDG. 25). Daraufhin wird der gesamte PHRASE STARTSTRING durch den Programmzweig bestätigt, der dem Schritt 107 folgt. Es sieht bei dieser Bestätigung so aus, als würde es sich um einen aus mehreren Wörtern bestehenden Satz aus dem aktiven Satzfenster 701a handeln, der durch Drücken einer Funktionstaste bestätigt wurde.
Wenn das Programm zur Aufrufschleife 103b übergeht und der Benutzer einen der oben beschriebenen Löschbefehle eingibt, wird damit Test 106b erfüllt, und das Programm geht zu Schritt 434 über, der wiederum zu 33 (siehe ABBLDG. 25) springt. Hierdurch wird die Erkennung des gesamten Token, der durch REC TOK dargestellt wird, abgebrochen, d.h. genauso, als hätte der Benutzer diesen Löschbefehl vor Beginn der Satzbearbeitungsroutine, wie in ABBLDG. 26 gezeigt, eingegeben.
Wenn das Programm zur Aufrufschleife 103b übergeht und der Benutzer einen Buchstabenbefehl eingibt, um den WORD STARTSTRING zu starten, zu erweitern oder zu ändern, wird dadurch Test 109b erfüllt. Die Buchstabenbefehle, die in der in ABBLDG. 26 gezeigten Satzbearbeitungsroutine erkannt werden können, sind mit den Buchstabenbefehlen identisch, die ebenfalls im weiter oben beschriebenen BEARBEITUNGSMODUS in dem in ABBLDG. 1 gezeigten Programm erkannt werden. Sobald Test 109b abgeschlossen ist, wird der durch den Buchstabenbefehl ausgewählte Buchstabe in den WORD STARTSTRING aufgenommen. Wenn es sich bei dem Buchstabenbefehl jedoch um den Befehl zum Löschen des letzten Zeichens von WORD STARTSTRING hmdelt, wird natürlich dieses letzte Zeichen gelöscht. Durch Schritt 438 wird das aktive Vokabular anschließend auf akustische Wortmodelle beschränkt, deren korrespondiereude Wörter mit dem WORD STARTSTRING beginnen. Schritt 440 beschränkt das Backup-Vokabular als nächstes auf die maximal neun Wörter aus dem Backup- Wörterbuch, die mit dem WORD STARTSTRING beginnen und durch den Sprachmodellfllter in Hinblick auf das dem ausgewählten Wort unnaittelbar vorausgehende Wort als die wahrscheinlichsten Wörter ausgewählt worden sind. Schritt 442 zeigt den WORD STARTSTRING dann im Wortdefinitionsfenster 705 (siehe ABBLDG. 35) an, und zwar in invertierter Form in dem Teil des Satzdefinitionsfensters, in dem das ausgewählte Wort zuvor plaziert worden war.
Sobald dies geschehen ist, führt Schritt 409 in REC TOK eine einfache Worterkennung durch und beginnt dabei in dem Teil des Token, der mit dem Anfang des ausgewählten Wortes zeitlich ausgerichtet ist Bei dieser Erkennung wird derselbe Algorithmus wie in der Erkennung in Schritt 408 verwendet, mit dem Unterschied, daß die Erkennung in Schritt 409 auf dem in Schritt 438 erzeugten beschränkten Vokabular basiert. Diese Erkennung verwendet außerdem eine Überwachungsroutine, die zur Aufrufschleife 103b springt, sobald eine neue Benutzereingabe erfolgt, bevor die Erkennung abgeschlossen ist. Dadurch braucht das System, wenn der Benutzer schnell hintereinander eine Reihe von Buchstabenbefehlen eingibt, nach der Eingabe eines Buchstabenbefehls nicht erst eine separate Erkennung abschließen, bevor es den nächsten Buchstabenbefehl verarbeiten kann.
Nachdem in Schritt 409 ein Wort oder mehrere aus der Wiedererkennung stammende beste Wörter ausgewählt worden sind, zeigt Schritt 446 diese Wahlmöglichkeiten im aktiven Wortfenster 701b unter dem Wortdefinitionsfenster 705 in geordneter Reihenfolge an, wobei jeder Wahlmöglichkeit eine Funktionstaste zugeordnet ist. Unmittelbar unter dem aktiven Wortfenster zeigt Schritt 446 in dem Wörterbuch-Fenster 702b außerdem die Backup-Wörter an. Sobald in Schritt 440 genügend Wörter aus dem Backup-Wörterbuch ausgewählt worden sind, zeigt Schritt 446 in den Fenstern 701b und 702b maximal 9 Wörter an. Jeder Funktionstaste (f1 - f9) ist dann eine Wortauswahlmöglichkeit zugewiesen. Nach Abschluß von Schritt 409 kehrt das Programm zur Aufrufschleife 103b zurück, um auf die nächste Benutzereingabe zu warten.
Wenn das Programm zur Aufrufschleife 103b übergeht und der Benutzer einen Wortbearbeitungsbefehl eingibt, um eines der neben einer Funktionstaste in den Fenstern 70 ib und 702b angezeigten Wörter auszuwählen, das zur Bearbeitung in den WORD STARTSTRING eingefügt werden soll, ist damit Test 110b erfüllt. Bei den Bearbeitungsbefehlen handelt es sich um dieselben Bearbeittingsbefehle, die weiter oben im Hinblick auf ABBLDG. 1 bereits beschrieben worden sind. Diese Befehle können durch das doppelte Drücken der Funktionstasten (f1 - f9) oder durch Ansage der Sprachbefehle "edit one" bis "edit nine", die jeweils einer der im Fenster 701b oder 702b angezeigten Wortauswahlmöglichkeiten zugeordnet sind, erteilt werden.
Wenn ein solcher Wortbearbeitungsbefehl festgestellt wird und der Test in Schritt 110b erfüllt ist, bildet Schritt 448 mit dem durch den Wortbearbeitungsbefehl ausgewählten Wort den WORD STARTSTRING. Anschließend werden die oben beschriebenen Schritte 438 bis 446 durchgeführt, und zwar genauso, als ob der Benutzer die einzelnen Buchstaben des ausgewählten Wortes durch eine Folge von Buchstabenbefehlen in den WORD STARTSTRING eingegeben hätte.
Im Hinblick auf ABBLDG. 29-36 wollen wir jetzt den Verlauf der Satzbearbeitungsroutine erörtern.
Bei dem in diesen Abbildungen verwendeten Beispiel wird angenommen, daß der Benutzer den Satz "A new display" diktiert hat. Das Beispiel wird daraufhin in den Schritt 123a (siehe ABBLDG. 25) übernommen und dort als Satz erkannt. Schritt 108 stellt anschließend fest, daß in Schritt 123a eine neue Äußerung erkannt worden ist, und Schritt 176a zeigt daraufhin die Resultate dieser Erkennung im aktiven Satzfenster 701a an (siehe ABBLDG. 29), um danach zur Aufrufschleife 103 zurückzukehren und die Antwort des Benutzers zu erwarten.
Der Benutzer erkennt, daß die naheliegendste Antwort mit f1 oder f2 zu tun hat und drückt daher doppelt auf f1, um anzugeben, daß der damit verknüpfte Satz bearbeitet werden soll. Dadurch wird Test 110 (siehe ABBLDG. 25) erfüllt, und der ausgewählte Satz "a nudist play" wird zur Bildung des PHRASE STARTSTRING herangezogen. Der Test in Schritt 302 veranlaßt das Programm daraufhin, zu J1 (siehe ABBLDG. 26 oben), d.h. an den Anfang der Satzbearbeitungsroutine, zu springen. Schritt 404 zeigt im Satzdefinitionsfenster 703a als nächstes den PHRASE STARTSTRING an. Schritt 406 wählt danach das erste Wort des PHRASE STARTSTRING, d.h. "a", aus und zeigt es in invertierter Form im Satzdefinitionsfenster an. Schritt 408 führt in REC TOK anschließend eine einfache Worterkennung durch, wobei am Anfang dieses Token begonnen wird, da das erste Wort "a" das ausgewählte Wort ist. Schritt 410 zeigt die aus dieser Erkennung stammenden Wahlmöglichkeiten im aktiven Wortfenster 701b an, und das Programm geht zu 103b über, um die Antwort des Benutzers zu erwarten. Der Bildsclrirm sieht zu diesem Zeitpunkt wie in ABBLDG. 30 gezeigt aus.
Der Benutzer drückt nun die rechte Cursortaste, um das zweite Wort des PHRASE STARTSTRING hervorzuheben, d.h. das Wort "nudist", und dieses als erstes zu korrigierende Wort auszuwählen. Dadurch wird Test 412 erfüllt. Schritt 416 definiert daraufhin das Wort "nudist" als ausgewähltes Wort und zeigt es in invertierter Form an. Schritt 408 führt dann in REC TOK eine einfache Worterkennung durch und beginnt dabei mit dem Teil des Token, der mit dem ausgewählten Wort "nudist" zeitlich ausgerichtet ist. Nach Abschluß dieser Erkennung zeigt Schritt 410 die aus dieser Erkennung stammenden Wahlmöglichkeiten im aktiven Wortfenster 701b an. Der Bildschirm sieht jetzt wie in ABBLDG. 31 dargestellt aus.
Sobald das Programm wieder auf die Eingabe des Benutzers wartet und der Benutzer die f2-Taste druckt, um das Wort "new" zu bestätigen und das zuvor ausgewählte Wort "nudist" damit zu ersetzen, antwortet Schritt 107" auf diesen Auswahlbefehl mit der Ausführung des ihm folgenden Programmzweigs. Schritt 418 ersetzt das Wort "nudist" im PHRASE STARTSTRING durch das Wort "new". In Schritt 420 werden alle in dem PHRASE STARTSTRING bisher befindlichen Wörter, d.h. die Wörter "a new", in den ALREADY CONFIRMED STRING aufgenommen. Schritt 422 zeigt erneut das Satzdefinitionsfenster an, das den unterstrichenen ALREADY CONFIRMED STRING enthält und den Rest des Fensters in invertierter Form zeigt (siehe ABBLDG. 32).
Schritt 424 führt in REC TOK als nächstes eine Satzerkennung durch, wobei mit dem Teil des Token begonnen wird, der zuvor mit dem Wort "nudist" ausgerichtet war. Diese Erkennung wird mit einer möglichen Folge von Wortauswahlmöglichkeiten durchgeführt, die auf Satzfolgen beschränkt sind, die mit dem gerade gewählten Wort "new" beginnen. Wenn in dieser Erkennung eine beste Wortfolge ausgewählt wurde, d.h. in unserem Beispiel die Folge "new display", subtrahiert Schritt 426 das gewählte Wort "new" und verwendet das verbleibende Wort oder die verbleibenden Wörter dieser Folge, d.h. in diesem Falle das Wort "display", um den neuen PHRASE STARTSTRING zu bilden. Sobald dies geschehen ist, geht das Programm zu Schritt 404 über, in dem das Satzdefinitionsfenster mit dem unterstrichenen ALREADY CONFIRMED STRING, gefolgt vom neuen PHRASE STARTSTRING, angezeigt wird. Schritt 406 wählt dann das erste Wort des neuen PHRASE STARTSTRING aus und zeigt es in invertierter Form im Satzdefinitionsfenster an. Schritt 408 führt daraufhin in REC TOK als nächstes eine einfache Worterkennung durch und beginnt dabei mit dem Teil des Token, der mit dem Anfang des Wortes "display" aus der letzten Erkennung in Schritt 424 ausgerichtet ist. Schritt 410 zeigt im Fenster 701b schließlich die besten aus dieser Erkennung stammenden Wortauswahlmöglichkeiten an, bevor das Programm dann für die nächste Benutzereingabe zur Aufrufschleife 103b zurückkehrt. Der Bildschirm sieht dann wie in ABBLDG. 33 gezeigt aus.
Der Benutzer druckt daraufhin die Eingabetaste. Dadurch wird der in Schritt 414 enthaltene Test erfüllt, und Schritt 430 fügt anschließend den ALREADY CONFIRMED STRING ("a new") am Anfang des PHRASE STARTSTRING ("display") ein, um sonlit den PHRASE STARTSTRING "a new display" zu formen. Schritt 432 springt danach auf J2 (siehe ABBLDG. 25), wodurch der PHRASE STARTSTRING wie in der zuvor beschriebenen Weise als bestätigte Zeichenfolge gehandhabt wird. Danach werden die einzelnen Wörter in dieser Anzeige zur Erstellung eines akustischen Modells sowie zur Aktualisierung des Sprachmodells und zur Ausgabe an das Anwendungsprogramm verwendet, so daß der Bildschirm dann wie in ABBLDG. 34 veranschaulicht aussieht. Wenden wir uns jetzt der ABBLDG. 35 zu. Wenn der Benutzer nach ABBLDG. 31 sich entscheiden würde, durch Eingabe des Buchstabenbefehls "n" das ausgewählte Wort "nudist" zu korrigieren, würde eine andere Ereignisfolge ablaufen. Obwohl in unserern Beispiel in ABBLDG. 31 das richtige Wort "new" angezeigt wird, kann dies in anderen Fällen nicht immer vorausgesetzt werden, und der Benutzer muß dann das gewünschte Wort mit Buchstaben- oder Wortbearbeitungsbefehlen eingeben.
Wenn der Benutzer nach Ansicht der in ABBLDG. 31 dargestellten Anzeige die Taste "n" drückt, wird dadurch der in Schritt 109b enthaltene Test erfüllt. Schritt 436 fügt daraufhin den Buchstaben "n" an das Ende des zuvor leeren WORD STARTSTRING an, und Schritt 438 beschränkt sodann das aktive Vokabular auf Wörter, die mit dem Buchstaben "n" beginnen. Schritt 440 stellt danach aus Wörtern, die mit diesern Buchstaben beginnen, ein Backup- Vokabular zusammen, und Schritt 442 zeigt den WORD STARTSTRING "n" im Wortdefinitionsfenster 705 an, das im Satzdefinitionsfenster anstelle des ausgewählten Wortes eingeblendet wird. Schritt 409 führt als nächstes unter Verwendung des beschrikten Vokabulars in dem Teil von REC TOK der mit dem ausgewählten Wort übereinstinunt, eine Wiedererkennung durch. Schritt 446 zeigt in den Fenstern 701b und 702b schließlich die aus der Wiedererkennung stammenden Wortwahlmöglichkeiten zusammen mit den Backup-Wörtern an. Hierdurch entsteht die in ABBLDG. 35 dargestellte Anzeige.
In unserern Beispiel wird angenommen, daß der Benutzer als nächstes den Buchstaben "e" eingibt, obwohl das gewünschte Wort "new" bereits als auswählbares Wort zur Verfügung steht. Nach Eingabe dieses Buchstabens werden die Schritte 109b, 436,438, 440, 442, 409 Lind 446 wiederholt, um den WORD STARTSTLIING "ne" und eine Gruppe von Wahlmöglichkeiten zu produzieren, die im aktiven Wortfenster 701b und im Wörterbuch-Fenster 702b angezeigt werden und alle mit der Zeichenfolge "ne" beginnen (siehe ABBLDG. 36). An dieser Stelle drückt der Benutzer die f1-Taste, um die Wortwahl "new" zu bestätigen. Daraufhin wird der Programmzweig unter Schritt 107b durchgeführt, der auf diese Auswahl auf dieselbe Weise reagiert, wie weiter oben im Hinblick auf ABBLDG. 32 und 33 beschrieben.
Aus der Beschreibung des unter Schritt 110b befindlichen Programmzweigs sollte deutlich geworden sein, daß der Benutzer jede der im aktiven Wortfenster 701b oder im Wörterbuchfenster 702b angezeigten Wahlmöglichkeiten verwenden kann, um den WORD STARTSTRING zu bilden. Dazu wird die dieser Wahlmöglichkeit zugeordnete Funktionstaste zweimal kurz hintereinander gedrückt oder der entsprechende Wortbearbeitungsbefehl gesagt. Dies führt dann zu denselben Ergebnissen, als ob alle Buchstaben dieses Wortes in den WORD STARTSTRING eingegeben worden wären.
Aus dem Gesagten wird ersichtlich, daß die vorliegende Erfindung durchaus ein Spracherkennungssystem bietet, das die Geschwindigkeit und Erkennungsgenauigkeit, mit der Text eingegeben werden kann, erheblich verbessert. Dies wird durch eine Vereinfachung der Fehlerkorrektur und durch die mühelose Eingabe neuer Wörter in das Vokabular erreicht. Das interaktive Spracherkennungssystem dieser Erfindung gestattet es dem Benutzer, produktiv an großen Vokabularen zu arbeiten und in natürlicher Sprechweise Diktieraufgaben zu erfüllen, ohne erst aufwendige Wortmodelle trainieren zu müssen. Dem Spracherkennungsvokabular können Wörter auf schnelle und einfache Weise hinzugefügt werden, da die akustischen Modelle aus den Token erstellt werden, die während der eigentlichen Verwendung des Systems und nicht wahrend einer separaten Trainingssitzung gesammelt worden sind. Darüber hinaus kann der Benutzer neue Wörter, die dem Vokabular hinzugefügt worden sind, mit wenigen Tastenanschlägen eingeben. Die Erfindung entwickelt ebenfalls ein Sprachmodell, das in einem Spracherkennungssystem verwendet werden kann, das an die besondere Diktierweise des Benutzers angepaßt ist, ohne daß für eine derartige Anpassung ein hoher zusätzlicher Aufwand erforderlich wäre. Die Erfindung bietet ein System, das dem Benutzer die mühelose Korrektur von Fehlern ermöglicht, die bei der kontinuierlichen Spracherkennung aufgetreten sind.
Die weiter oben und in den nachfolgenden Patentansprüchen beschriebene Erfindung kann auf verschiedene Weisen realisiert werden. Die oben beschriebenen Realisierungen sind in großem Umfang zum Beispiel in Computerprogrammen enthalten, die auffür allgemeine Zwecke verwendeten Rechnern wie IBM PC AT und COMPAQ 386 ausgeführt werden können; es sollte jedoch betont werden, daß viele oder alle der grundlegenden Funktionen dieser Erfindung mit Hardware zu tun haben, die für besondere Zwecke ausgelegt worden ist. Darüber hinaus sollte klar sein, daß die Schritte des oben beschriebenen Programms, wenn diese als Programmanweisungen in den Programmspeicher geladen werden, einen Weg zur Erfüllung der Aufgaben darstellen, der mit diesen Schritten verbunden ist, und daß solche Programme durchaus die Mittel und Methoden einer Patentanwendung bilden.
In der hier beschriebenen Realisierung der Erfindung werden Funktionen normalerweise entweder durch das Drücken von Tasten oder durch das Ansagen eines Sprachbefehls ausgewählt. Um Befehle und Zeichen in einen Computer einzugeben, kann statt dessen aber auch jede andere Methode genutzt werden. So kann zum Beispiel ein Zeigegerät wie die Maus oder eine Cursortaste verwendet werden, um Elemente aus einem Auswahlmenü oder Buchstaben aus einem Alphabet auszuwählen.
Das Spracherkennungssystem, das in der in ABBLDG. 25 und 26 dargestellten Realisierung der Erfindung beschrieben wird, ist zur kontinuierlichen Spracherkennung von diskret gesprochenen Wörtern oder von in kurzen Sätzen gesprochenen Wörtern konzipiert worden. Das Grundkonzept dieser Erfindung könnte jedoch auch auf einem System verwendet werden, das zur Erkennung kontinuierlicher Sprache unbegrenzter Länge entwickelt worden ist. Das aktive Satzfenster könnte in einem solchen Fall die besten Treffer von Wortfolgen anzeigen, die in den letzten Sekunden einer Spracheingabe erkannt werden. Das System könnte darüber hinaus oder auch alternativ dazu eine akustische Beschreibung von Wörtern generieren, die während einer bestimmten Sitzung erkannt worden sind, und dann jedes erkannte Wort als Label für den jeweiligen Teil der Beschreibung venvenden, der mit dem erkannten Wort verknüpft ist. In einer solchen Realisierung könnte der Benutzer zu jedem beliebigen zu korrigierenden, und das System würde dann die Satzerkennung ermöglichen, und zwar angefangen mit dem Teil der akustischen Beschreibung, der mit dem zu korrigierenden Wort übereinstimmt (wie bereits in ABBLDG. 25 und 26 beschrieben).
Obwohl die oben beschriebenen Realisierungen der vorliegenden Erfindung zur Betreibung als TSR (terminate-and- stay-resident)-Tastaturemulatoren entwickelt wurden, sollte betont werden, daß die Erfindung in anderen Realisierungen auf einfache Weise in ein Anwendungsprogramm (z.B. ein Textverarbeitungs-, Tabellenkalkulationsoder anderes Texteingabeprogramm) integriert werden kann.
Es sollte außerdem verständlich sein, daß die vorliegende Erfindung mit Spracherkennungssystemen verwendet werden kann, in denen die akustischen Wortmodelle in verteilter Weise gespeichert werden und in denen die Durchführung der Spracherkennung in entsprechender Weise erfolgt, wie z.B. in Systemen mit neuraler Netzwerkarchitektur.
Die vorliegende Erfindung sollte folglich nicht auf die hier beschriebene bevorzugte Realisierung beschrankt betrachtet, sondern in Übereinstimmung mit den folgenden Patentansprüchen interpretiert werden:

Claims

1. Ein Spracherkennungssystem zur Durchführung der Spracherkennung eines geäußerten Wortes, das folgende Einzelheiten umfaßt:

Mittel (124) zur Speicherung einer Gruppe von akustischen Wortmodellen (132), von denen jedes Wortmodell akustische Daten enthält und in Verbindung mit einem Wortlabel gespeichert wird (504);

Mittel (112 - 118) zur Erstellung einer akustischen Beschreibung eines geäußerten Wortes, das erkannt werden soll;

Erkennungsmittel (129) zum Vergleich der erstellten akustischen Beschreibung mit einer Vielzahl gespeicherter akustischer Wortmodelle (132), die in den genannten Mitteln zur Abspeicherung akustischer Wortmodelle (124 -128) gespeichert sind, und zur Auswahl eines akustischen Wortmodells (132), das der akustischen Beschreibung am besten entspricht.

Hierin beschrieben sind Mittel (208 - 214), die akustische Daten aus der akustischen Beschreibung mit den akustischen Daten, die für das am besten passende akustische Wortmodell (132) gespeichert sind, kombinieren und auf diese Weise das akustische Wortmodell (132) aktualisieren (180). Weiterhin sind Mittel (216) zur Speicherung des aktualisierten akustischen Wortmodells (132) in der genannten Gruppe gespeicherter akustischer Wortmodelle beschrieben, durch die das aktualisierte akustische Wortmodell (132) bei der nachfolgenden Spracherkennung durch das genannte System genutzt werden kann.

2. Ein Spracherkennungssystem, das gemäß Anspruch 1 dadurch charakterisiert werden kann, daß die Wortlabel (504) aus einer Reihe von Textzeichen bestehen.

3. Ein Spracherkennungssystem, das gemäß Anspruch 1 oder 2 dadurch charakterisiert werden kann, daß die Erkennungsmittel an den Vergleich der akustischen Beschreibung mit der genannten Vielzahl gespeicherter akustischer Wortmodelle (132) angepaßt sind, um so ein Menü von Wortlabels für ein akustisches Wortmodell (132) oder für alle akustischen Wortmodelle (132) zu kennzeichnen, das oder die mit der akustischen Beschreibung am besten übereinstimmt bzw. übereinstimmen. Des weiteren werden Mittel bereitgestellt, die es dem Benutzer des Systems erlauben, aus dem Menü ein Wortlabel auszuwählen, das mit dem geäußerten Wort, das erkannt werden soll, übereinstimmt, oder aber ein Wortlabel auszuwählen und dann das ausgewählte Wortlabel zu bearbeiten und dadurch ein akustisches Wortmodell (132), das aktualisiert und gespeichert werden soll, zu identifizieren.

4. Ein Spracherkennungssystem, das gemäß Anspruch 3 dadurch charakterisiert werden kann, daß Mittel (112 - 118) zur Bildung einer akustischen Beschreibung eines Menüauswahlbefehls (125) bereitgestellt werden, der vom Benutzer geäußert wird, um ein Wortlabel aus dem genannten Menü auszuwählen. Des weiteren werden Mittel zur Speicherung akustischer Modelle (132) für eine Vielzähl von Menüauswahlbefehlen (125) bereitgestellt sowie Mittel (129) zur Erkennung von Menüauswahlbefehlen, mit denen die akustische Beschreibung des geäußerten Menüauswahlbefehls mit den akustischen Modellen (132) der verschiedenen Menüauswahlbefehlen (125) verglichen werden kann. Auch kann auf diese Weise ausgewählt werden, welche gespeicherten akustischen Modelle (132) der Menüauswahlbefehle (125) am besten der akustischen Beschreibung des geäußerten Menüauswahlbefehls entsprechen.

5. Ein Spracherkennungssystem, das gemäß Anspruch 3 oder 4 dadurch charakterisiert werden kann, daß Mittel (112 - 118) zur Erstellung einer akustischen Beschreibung eines Bearbeitungsbefehls (126) bereitgestellt werden, der vom Benutzer zur Bearbeitung eines aus dem angegebenen Menü ausgewählten Wortlabel geäußert wurde. Des weiteren werden Mittel zur Speicherung akustischer Wortmodelle (132) für eine Vielzahl von Bearbeitungsbefehlen (126) bereitgestellt sowie Mittel (129) zur Erkennung von Bearbeitungsbefehlen, mit denen die akustische Beschreibung des geäußerten Bearbeitungsbefehls mit den gespeicherten Modellen (132) der verschiedenen Bearbeitungsbefehle (126) verglichen werden kann. Auch kann auf diese Weise ausgewählt werden, welche akustischen Modelle (132) der Bearbeitungsbefehle (123) am besten der akustischen Beschreibung des geäußerten Bearbeitungsbefehls entsprechen.

6. Ein Spracherkennungssystem, das gemäß Anspruch 1 bis 5 dadurch charakterisiert werden kann, daß Mittel zur Darstellung von Text bereitgestellt werden, der aus einem oder mehreren Wörtern bestehen kann, sowie Mittel zur Darstellung einer entsprechenden Worteinfügungsstelle. Des weiteren werden Mittel bereitgestellt, mit denen ein Wortlabel, d.h. eine dem geäußerten Wort entsprechende Textfolge, in den genannten Textabschnitt an der angegebenen Worteinfügungsstelle eingefügt werden kann.

7. Ein Spracherkennungssystem, das gemäß aller vorher genannten Ansprüche am besten dadurch charakterisiert werden kann, daß die genannten akustischen gespeicherten Wortmodelle (132) aus einer Vielzahl trainierter akustischer Wortmodelle (132) bestehen, von denen jedes mit einem geußerten Wort verknüpft ist. Die Wortmodelle bestehen aus akustischen Daten, die durch die Spracheingabe eines oder mehrerer Sprecher einer Gruppe erzeugt wurden. Die genannten akustischen gespeicherten Wortmodelle (132) außerdem aus einer Vielzahl phonetischer akustischer Wortmodelle (132), von denen jedes mit einem geäußerten Wort verknüpft ist, ohne daß diese aus den durch die Äußerung eines Sprechers erzeugten akustischen Daten gewonnen wurden. Die Erkennungsmittel werden entsprechend angepaßt, damit sowohl die trainierten akustischen Wortmodelle (132) als auch die phonetischen akustischen Wortmodelle (132) mit der durch das geäußerte Wort erstellten akustischen Beschreibung verglichen werden können.

8. Ein Spracherkennungssystem, das gemäß aller vorher genannten Ansprüche am besten dadurch charakterisiert werden kann, daß Filtermittel zur Auswahl einer Untergruppe der genannten akustischen Wortmodelle (132) bereitgestellt werden, ohne daß die akustische Beschreibung, die für das zu erkennende geäußerte Wort erstellt wurde, mit einem akustischen Wortmodell (132) verglichen zu werden braucht. Des weiteren werden Erkennungsmittel (129) bei der Auswahl von akustischen Wortmodellen (132) bereitgestellt, die der akustischen Beschreibung, die zur Unterstützung der Auswahl akustischer Wortmodelle (132) der durch die Filtermittel ausgewählten Untergruppe erstellt wurde, am besten entsprechen.

9. Ein Spracherkennungssystem, das gemäß Anspruch 8 dadurch charakterisiert werden kann, daß Sprachmodellmittel bereitgestellt werden, mit denen die Wahrscheinlichkeit eines gegebenen Wortes angezeigt werden kann, das einer Vielzahl von Wörtern entstammt, für die akustische Wortmodelle (132) gespeichert worden sind. Diese Wahrscheinlichkeit basiert auf statistischen Informationen bezüglich der Häufigkeit der Verwendung dieser verschiedenen Wörter. Des weiteren werden Filtermittel bereitgestellt, mit denen aus der Untergruppe der genannten akustischen Wortmodelle eine Auswahl getroffen werden kann, und zwar auf Basis der durch die genannten Sprachmodellmittel angezeigten Wahrscheinlichkeiten für das geäußerte Wort, das aus einer Vielzahl von Wörtern (für die ein oder mehrere akustische Wortmodelle (132) gespeichert sind) erkannt werden soll.

10. Ein Spracherkennungssystem, das gemäß Anspruch 8 oder 9 dadurch charakterisiert werden kann, daß Mittel bereitgestellt werden, die einem Benutzer die Eingabe einer aus einem oder mehreren Textzeichen bestehenden Zeichenfolge gestatten. Des weiteren werden Filtermittel bereitgestellt, die auf diese Eingabe durch Auswahl einer Untergruppe der akustischen Wortmodellgruppe (132) für verknüpfte Wörter reagieren. Diese Untergruppe ist mit der Schreibweise verknüpft, welche die vom Benutzer eingegebene, aus einem oder mehreren Textzeichen bestehende Zeichenfolge beinhaltet.

11. Ein Spracherkennungssystem, das gemäß eines der vorher genannten Ansprüche am besten dadurch charakterisiert werden kann, daß die Erkennungsmittel (129) so angepaßt werden können, daß eine Folge akustischer Beschreibungen, die vom Benutzer durch Äußerung einer Wortfolge erstellt wurden, mit einer Vielzahl von Folgen akustischer Wortmodelle (132) verglichen werden können, um so die beste Übereinstimmung zu finden. Auf diese Weise wird dem Benutzer eine Folge von Wortlabels angezeigt, die den einzelnen Vielzahlen an passenden Wortmodellfolgen entsprechen. Diese Mittel ermöglichen dem Benutzer, eine der angegebenen Wortlabelfolgen auszuwählen, die mit der geäußerten Wortfolge am besten übereinstimmt.

12. Ein Spracherkennungssystem, das gemäß Anspruch 11 dadurch charakterisiert werden kann, daß Mittel bereitgestellt werden, die es dem Benutzer gestatten, aus der angezeigten am besten passenden Wortlabelfolge ein einzelnes Wortlabel auszuwählen. Außerdem stehen Mittel zur Verfügung, die es dem Benutzer ermöglichen, die ausgewählte, am besten passende Wortlabelfolge durch Bearbeitung zu korrigieren.