DE4397100C2

DE4397100C2 - Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl

Info

Publication number: DE4397100C2
Application number: DE4397100A
Authority: DE
Inventors: Yen-Lu Chow; Kai-Fu Lee
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 1992-12-31
Filing date: 1993-12-28
Publication date: 2003-02-27
Anticipated expiration: 2013-12-29
Also published as: AU6080094A; DE4397100T1; CA2151371A1; WO1994016434A1

Description

GEBIET DER ERFINDUNG

Die vorliegende Erfindung betrifft das Gebiet der konti nuierlichen Spracherkennung; insbesondere betrifft die vorliegende Erfindung bei dem Erkennungsprozeß verwendete Netzwerke von Grammatiken mit endlicher Zustandsanzahl.

HINTERGRUND DER ERFINDUNG

In letzter Zeit sind Spracherkennungssysteme auf dem heutigen Hochtechnologiemarkt häufiger anzutreffen. Aufgrund von Fortschritten in der Computertechnologie und bei Sprach erkennungsalgorithmen sind diese Spracherkennungssysteme leistungsstärker geworden.

Derzeitige Spracherkennungssysteme arbeiten so, daß sie eine akustische Beschreibung oder ein Modell eines Wortes in ihrem Vokabular mit einer Darstellung des akustischen Signals vergleichen, die durch das Aussprechen des zu erkennenden Wortes erzeugt wird. Das Vokabular enthält sämtliche Wörter, die das Spracherkennungssystem erkennen kann. Mit anderen Worten, das Vokabular besteht aus all den Wörtern, die in dem System gespeicherte akustische Modelle haben. Es sei angemerkt, daß nicht das gesamte Vokabular die ganze Zeit aktiv ist. Zu einer beliebigen Zeit kann nur ein Teil des Vokabulars aktiv sein. Üblicherweise ist nur ein Teil des Vokabulars aktiviert, da es im gegenwärtigen Stand der Technik Einschränkungen gibt. Sprachmodelle werden verwendet, um anzuzeigen, welcher Teil des Vokabulars derzeitig aktiv ist.

Bei der kontinuierlichen Spracherkennung ist jedes Sprachmodell mit einer Grammatik verbunden. Eine Grammatik stellt die Menge aller möglichen Satzsequenzen dar, die für irgendein bestimmtes Vokabular eine erkennbare Eingabe für das Spracherkennungssystem darstellen. Üblicherweise stellt die Grammatik nicht jede Kombination von Wörtern aus dem Vo kabular dar. Stattdessen stellt die Grammatik die Wortkombi nationen in dem Vokabular dar, die in dem speziellen Kontext oder der gerade verwendeten Anwendung eine Bedeutung haben. Die Grammatik für einen speziellen Kontext oder eine spezi elle Anwendung wird normalerweise im Speicher in einem kompakten Format gespeichert. Das Grammatikmodell für ein Spracherkennungssystem kann statisch, das heißt vor dem Ablauf einer speziellen Anwendung spezifiziert, oder dyna misch sein, wenn die Grammatik sich bei Wechselwirkung des Benutzers mit dem System verändert. Im ersteren Fall wird das Grammatikmodell normalerweise von jemandem spezifiziert, der mit der Anwendung vertraut ist. Im letzteren Fall kann das Grammatikmodell aufgebaut werden, wenn der Benutzer mit Hilfe einer speziell konfigurierten Benutzerschnittstelle mit der Anwendung in Wechselwirkung tritt. In diesem Fall verändert sich die Grammtik, wenn der Benutzer mit ihr in Wechselwirkung tritt, so daß das Grammatikmodell den aktuel len Zustand des von dem Spracherkennungssystem verwendeten Vokabulars widerspiegelt.

Im Stand der Technik sind die Grammatiken oft codiert als Finite-State-Grammatiken bzw. Grammatiken mit endlicher Zustandsanzahl. Bei Grammatiken mit endlicher Zustandsanzahl wird die Satzsammlung als ein einziges Netzwerk von Bögen und Knoten dargestellt; das heißt die Sätze werden als Zustände und Übergänge in dem Netzwerk dargestellt. Jeder Bogen oder Übergang in dem Netzwerk bezieht sich auf ein be stimmtes Wort in dem Vokabular, während jeder Knoten, oder Zustand, die Wörter in dem speziellen Satz verbindet. Die Bögen verbinden die Knoten zur Bildung eines Netzwerkes. Mit jedem Wort ist ein akustisches Modell verbunden. Das akusti sche Modell für das Wort wird als Folge von phonetischen Mo dellen dargestellt. Durch die Verwendung des Netzwerkes ist eine Spracherkennungssystem in der Lage, die akustische Beschreibung jedes Wortes in der Grammatik mit dem akusti schen Signal derart zu vergleichen, daß der gesprochene Satzteil oder Ausdruck erkannt werden kann.

Aus der EP 0248 377 A2 ist ein Spracherkennungssystem für kontinuier liche Sprache bekannt, das eine Grammatik mit endlicher Zustandsanzahl aufweist. Ein weiteres Spracherkennungssystem ist aus der EP 0242 743 A1 bekannt.

Die die Grammatik für eine bestimmte Anwendung enthal tenden Netzwerke (z. B. Netzwerke von Grammatiken mit end licher Zustandsanzahl) können sehr groß sein. Zur Laufzeit muß das ganze Netzwerk kompiliert werden. Wenn ein bestimm tes Vokabular mehrere tausend Wörter enthält, kann das zur Beschreibung aller möglichen Grammatiken verwendete Netzwerk möglicherweise eine hohe Speicherkapazität, insbesondere während der Ablaufzeit, erfordern. Ein bestimmter Teil des Netzwerkes wird dabei kompiliert, unabhängig davon, ob er benötigt wird, wodurch er eigenen Speicherplatz benötigt. Teile der Grammatik können außerdem an anderen Orten des Netzwerkes wiederholt werden. Deshalb müssen identische Grammatikteile mehrfach kompiliert werden, so daß mehrere, jeweils mit identischen jedoch unterschiedlichen Teilen des Netzwerkes verbundene Speicherzuordnungen benötigt werden. Da Speicher und ihre Verwendung in der heutigen Technologie einen hohen Stellenwert haben, besteht der Wunsch, den zur Speicherung der Grammatik verwendeten Speicherplatz zu reduzieren.

Wie beschrieben wird, enthält die vorliegende Erfindung eine rekursive Grammatik mit endlicher Zustandsanzahl, die eine Sammlung von Grammatiken mit endlicher Zustandsanzahl verwendet. Die Menge der Grammatiken mit endlicher Zustands anzahl der vorliegenden Erfindung weist eine globale Gramma tik mit endlicher Zustandsanzahl und mehrere untergeordnete Grammatiken mit endlicher Zustandsanzahl bzw. Grammatiken mit einer geringeren Anzahl von Zuständen auf. Während der Laufzeit erzeugt und kombiniert die vorliegende Erfindung verschiedene Grammatiken dynamisch. Außerdem verringert die vorliegende Erfindung den zur Spracherkennung benötigten Speicherplatz.

ZUSAMMENFASSUNG DER ERFINDUNG

Es wird ein Verfahren und eine Einrichtung zur Spracher kennung beschrieben. Das Verfahren und die Einrichtung enthalten mehrere Grammatiken mit endlicher Zustandsanzahl. Die mehreren Grammatiken mit endlicher Zustandsanzahl enthalten wenigstens eine globale Grammatik mit endlicher Zustandsanzahl und wenigstens eine untergeordnete Grammatik mit endlicher Zustandsanzahl. Jede der Grammatiken mit endlicher Zustandsanzahl enthält mehrere Zustände und wenigstens einen in einem Netzwerk angeordneten Übergang. Die Übergänge in dem Netzwerk können sowohl Endpunkte als auch Nicht-Endpunkte enthalten. Jedem Endpunkt ist ein akustisches Modell zugeordnet, während jedem Nicht-Endpunkt ein Aufruf zu einer untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordnet ist. Die vorliegende Erfindung enthält außerdem eine Erkennungseinheit, die dadurch die Er kennung durchführt, daß sie durch die globale Grammatik mit endlicher Zustandsanzahl wandert. Wenn Endpunkte getroffen werden, vergleicht die Erkennungseinheit das akustische Modell des Endpunktes mit den Sprachsignalen. Wenn Nicht- Endpunkte getroffen werden, ruft die Erkennungseinheit die dem Nicht-Endpunkt zugeordnete untergeordnete Grammatik mit endlicher Zustandsanzahl auf und fährt mit der Erkennung da durch fort, daß sie die untergeordnete Grammatik mit end licher Zustandsanzahl durchläuft. Beim Durchlaufen der untergeordneten Grammatik mit endlicher Zustandsanzahl vergleicht die Erkennungseinheit das akustische Modell mit den Sprachsignalen, um mit der Erkennung fortzufahren. Nach dem Durchlauf durch die untergeordnete Grammatik mit end licher Zustandsanzahl kehrt die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurück und durchläuft diese. Auf diese Weise werden die Sprachsignale zur Spracherkennung mit den akusti schen Modellen in der globalen und den untergeordneten Grammatiken mit endlicher Zustandsanzahl verglichen.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Die vorliegende Erfindung ist anhand der folgenden de taillierten Beschreibung und der zugehörigen Zeichnungen des bevorzugten Ausführungsbeispiels besser zu verstehen, wobei das spezielle Ausführungsbeispiel jedoch nicht als Ein schränkung anzusehen ist, sondern nur zur Veranschaulichung dient.

Fig. 1 ist ein Blockschaltbild des Computersystems, das von dem bevorzugten Ausführungsbeispiel der vorliegenden Er findung verwendet werden kann.

Fig. 2 ist ein Blockschaltbild des Spracherkennungs systems der vorliegenden Erfindung.

Fig. 3A-E zeigen ein Beispiel einer rekursiven Gramma tik mit endlicher Zustandsanzahl der vorliegenden Erfindung.

Fig. 4 veranschaulicht ein Beispiel eines akustischen Modells für das (engl.) Wort "find", wie es in einem Ausfüh rungsbeispiel der Erfindung verwendet wird.

Fig. 5 zeigt die allgemeine Beschreibung des akustischen Modells für ein zu einer der untergeordneten Grammatiken mit endlicher Zustandsanzahl der Erfindung hinzugefügtes Wort.

DETAILLIERTE BESCHREIBUNG DER ERFINDUNG

Es wird ein Verfahren zur Spracherkennung beschrieben. In der folgenden Beschreibung werden zahlreiche spezielle Details, beispielsweise spezielle Verarbeitungsschritte, Er kennungsalgorithmen, akustische Modelle usw. angegeben, um ein besseres Verständnis der Erfindung zu ermöglichen. Es ist für den Fachmann jedoch klar, daß die vorliegende Erfindung auch ohne diese speziellen Details ausgeführt werden kann. In anderen Fällen sind bekannte Erkennungsver arbeitungsschritte und -schaltungen nicht detailliert dargestellt, um die Erfindung nicht unnötig zu belasten.

ÜBERBLICK ÜBER DIE VORLIEGENDE ERFINDUNG

Die vorliegende Erfindung wird als rekursive Grammatik mit endlicher Zustandsanzahl bezeichnet. Die grundlegende Struktur der vorliegenden Erfindung ist den üblicherweise zur Spracherkennung verwendeten Sprachmodellen mit Automaten endlicher Zustandsanzahl überlegen. Bei den bekannten automatischen Sprachmodellen mit endlicher Zustandszahl wird die Sprache normalerweise von einem einzigen Automaten mit einer begrenzten Anzahl von Zuständen dargestellt, wobei die Übergänge die Endpunkte (oder Worte) in dem Sprachmodell darstellen. Die rekursive Grammatik mit endlicher Zustands anzahl der vorliegenden Erfindung besteht aus einer globalen Grammatik mit endlicher Zustandsanzahl und mehreren unterge ordneten Grammatiken mit endlicher Zustandsanzahl. Die globale Grammatik mit endlicher Zustandsanzahl besteht aus Übergängen und Zuständen, die ein Netzwerk bilden. Die Zustände sind mit Knoten in dem Netzwerk gleichgesetzt, während die Übergänge durch Bögen zwischen den Knoten (oder Zuständen) dargestellt sind. Jeder Übergang in der vorlie genden Erfindung stellt entweder einen Endpunkt oder einen Nicht-Endpunkt dar. Der Endpunkt kann ein Wort oder Phon sein, dem ein akustisches Modell zugeordnet ist, das sein Spracherkennungsmuster darstellt. Nicht-Endpunkte dagegen stellen Klassen oder Kategorien des Vokabulars dar und sind mit einem Index zu einer untergeordneten Grammatik mit endlicher Zustandsanzahl verbunden, die diesen Teil des Vokabulars darstellt. Die untergeordneten Grammatiken mit endlicher Zustandsanzahl können als untergeordnete Netzwerke betrachtet werden, die das gleiche Format wie die globale Grammatik mit endlicher Zustandsanzahl haben. Beim Ausführen der Erkennung verwendet die Erkennungseinheit (oder -maschi ne) das Netzwerk der globalen Grammatik mit endlicher Zustandsanzahl, um überall im Netzwerk empfangene Sprach signale und die akustischen Modelle zu vergleichen. Wenn die Erkennungseinheit einem Nicht-Endpunkt in dem Netzwerk begegnet, ruft die Erkennungseinheit das dem Nicht-Endpunkt zugeordnete Netzwerk der untergeordneten Grammatik mit endlicher Zustandsanzahl auf und fährt mit dem Erkennungs prozeß fort. Auf diese Weise enthält das Sprachmodell der vorliegenden Erfindung nicht nur ein einziges Netzwerk, sondern eine Sammlung von Netzwerken, von denen jedes in der Lage ist, die anderen Netzwerke aufzurufen (d. h. es ist rekursiv).

Die rekursive Natur der vorliegenden Erfindung verrin gert den benötigten Speicherplatz, da die gleiche Sprache effizienter dargestellt werden kann und potentiell kleiner sein kann als die einzigen Grammatiken mit endlicher Zu standsanzahl des Standes der Technik. Die minimale Form des Netzwerkes, die aus der Verwendung von untergeordneten Netzwerken zur Darstellung von Übergängen in den Netzwerken resultiert, führt zu einem Netzwerk, das mehr zur effektiven Analyse des akustischen Raumes beiträgt. Außerdem erlaubt die vorliegende Erfindung eine einfache Erzeugung und Kombination von verschiedenen Grammatiken, und zwar dyna misch während der Laufzeit.

Die vorliegende Erfindung enthält außerdem einen neuen Erkennungsalgorithmus, bei dem jeder während der Suche angetroffene Übergang zu einem Stapel hinzugefügt wird. Wenn einem Wort-Übergang (Bogen) begegnet wird, wird die Suche wie eine normale Suche fortgesetzt. Wenn jedoch eine eine untergeordnete Grammatik mit endlicher Zustandsanzahl indizierende Klasse erreicht wird, wird das Netzwerk auf den Stapel abgelegt. Wenn die Suche das Netzwerk verläßt, geht die Suche bei dem gleichen Punkt des ursprünglichen Netzwer kes weiter, von dem aus der Aufruf durchgeführt wurde. Wenn der Stapel leer ist, wurde der Endzustand der globalen, rekursiven Grammatik mit endlicher Zustandsanzahl erreicht, die Erkennungseinheit wird beendet und eine die von der Erkennungseinheit erkannten Sprachsignale darstellende Textausgabe wird ausgegeben.

ÜBERBLICK ÜBER EIN COMPUTERSYSTEM BEI DEM BEVORZUGTEN AUSFÜHRUNGSBEISPIEL

Das bevorzugte Ausführungsbeispiel der Erfindung kann bei Computersystemen mit verschiedenen Konfigurationen eingesetzt werden. Fig. 1 zeigt einige der Basiskomponenten eines solchen Computersystems; sie soll jedoch nicht ein schränkend wirken und auch nicht andere Komponenten und Kombinationen von Komponenten ausschließen. Das in Fig. 1 dargestellte Computersystem weist einen Bus oder eine andere Kommunikationseinrichtung 101 zum Informationsaustausch, eine mit dem Bus 101 zur Informationsverarbeitung gekoppelte Verarbeitungseinrichtung 102 (allgemein als Host-Prozessor bezeichnet), einen zur Speicherung von Informationen und Be fehlen für den Prozessor 102 mit dem Bus 101 gekoppelten RAM oder eine andere Speichereinrichtung 103 und einen mit dem Bus 101 gekoppelten Nur-Lese-Speicher (ROM) oder eine andere statische Speichereinrichtung 104 zur Speicherung statischer Informationen und Befehle für den Prozessor 102 auf.

Andere mit dem Bus 101 gekoppelte Einrichtungen sind bspw. eine Datenspeichereinrichtung 105, wie z. B. ein Magnetplatten-Laufwerk, zum Speichern von Informationen und Befehlen, eine alphanumerische Eingabeeinrichtung 106, die alphanumerische und andere Tasten aufweist, zum Austauschen von Informationen und Befehlsauswahlen mit dem Prozessor 102, eine Cursor-Steuereinrichtung 107, beispielsweise eine Maus, einen Trackball, Cursor-Steuertasten usw., zum Steuern eines Cursors und zum Austauschen von Informationen und Befehlsauswahlen mit dem Prozessor 102, eine Anzeigeeinrich tung 108 zum Anzeigen von Datentexteingaben und -ausgaben, ein Audio-Chip (sound chip) 109 zum Verarbeiten von Klang signalen und -informationen, einen Mikrophon/Audio-Empfänger 111 zum Empfangen von Sprach- und Audiosignalen und einen Telekommunikationsport 110 zur Eingabe und Ausgabe von Telekommunikationssignalen und Audiosignalen.

Ein Ausführungsbeispiel der vorliegenden Erfindung ist für die Anwendung auf einigen Computern der Macintosh- Computerfamilie konzipiert, die von Apple Computer, Inc. aus Cupertino, Californien erhältlich sind.

ÜBERBLICK ÜBER DAS SPRACHERKENNUNGSSYSTEM

Die vereinfachte Version des erfindungsgemäßen Spracher kennungssystem ist in Fig. 2 dargestellt. Der Empfänger 201, der aus dem Mikrophon/Audio-Empfänger 111 besteht, empfängt die Sprache und wandelt die empfangenen Sprachsignale in eine digitale Darstellung der aufeinanderfolgenden Amplitu den des von der Sprache erzeugten Audiosignals um. Dann wandelt der Empfänger 201 das digitale Signal in ein Signal im Frequenzbereich um, das aus einer Rahmenfolge besteht. Jeder Rahmen beschreibt die Amplitude des Sprachsignals in jedem einer Vielzahl von Frequenzbändern über ein bestimmtes Zeitintervall (d. h. ein Fenster). Bei einem Ausführungsbei spiel sind die Zeitfenster 10 Millisekunden voneinander beabstandet. Es sei angemerkt, daß die vorliegende Erfindung mit jeder Art von Empfänger und jedem Sprachcodierverfahren verwendet werden kann.

Wenn die Sprache umgewandelt ist, verwendet die Erken nungseinheit 102 einen Erkennungsalgorithmus, um die durch das Sprechen erzeugte Rahmenfolge mit einer Knotenfolge zu vergleichen, die in dem akustischen Modell jedes Wortes in dem aktiven Vokabular enthalten ist, wie es von der Gramma tik definiert ist, um zu bestimmen, ob es einen Treffer gibt. Bei dem derzeitigen Ausführungsbeispiel der Erfindung enthält das Erkennungsvokabular über 5000 Textwörter. Das Ergebnis des Erkennungs-Vergleichungsprozesses ist entweder eine Textausgabe oder eine von dem Computer durchgeführte Aktion, die dem erkannten Wort entspricht.

Der Erkennungsalgorithmus eines Ausführungsbeispiels der vorliegenden Erfindung verwendet ein Vergleichsverfahren auf Wahrscheinlichkeitsbasis und eine dynamische Programmierung. Der Vergleich bestimmt die Wahrscheinlichkeit, daß ein vorgegebener Rahmen einer Äußerung einem vorgegebenen Knoten in einem akustischen Modell eines Wortes entspricht. Die Wahrscheinlichkeit wird nicht nur als Funktion davon be stimmt, wie genau die Amplituden der einzelnen Frequenzbän der eines Rahmens mit den in den vorgegebenen Knotenmodellen erwarteten Frequenzen übereinstimmen, sondern auch als Funktion davon, wie sich die Abweichung zwischen dem tat sächlichen und den erwarteten Amplituden in jedem derartigen Frequenzband zu den erwarteten Abweichungen für diese Werte verhält.

Die dynamische Programmierung stellt ein Verfahren zur Verfügung, um eine optimale, oder beinahe optimale Überein stimmung zwischen der von der Äußerung erzeugten Rahmenfolge und der in dem Modell des Wortes enthaltenen Knotenfolge zu finden. Dies geschieht durch Verlängerung und Verkürzung der Zeitdauer jedes Knotens in dem akustischen Modell eines Wortes, um die natürlichen Variationen bei der Länge der Sprachklänge zu kompensieren, die bei unterschiedlichen Aussprachen des gleichen Wortes auftreten. Für jeden zeit lich abgeglichenen Treffer wird eine Punktzahl berechnet, und zwar auf der Basis der Summe der Unterschiede zwischen den akustischen Informationen in jedem Rahmen und dem akustischen Modell des Knotens, gegenüber dem sie zeitlich abgeglichen sind. Dann werden die Wörter mit der niedrigsten Summe dieser Abstände als am besten bewertete Wörter ausge wählt. Bei einem Ausführungsbeispiel verwendet die Erfindung eine Sprachmodellfilterung. Wenn eine Sprachmodellfilterung verwendet wird, wird eine Teilpunktzahl, die die Wahrschein lichkeit des Auftretens jedes Wortes in dem derzeitigen Sprachkontext wiedergibt, zu der Punktzahl des Wortes addiert, bevor das Wort mit der höchstens Punktzahl ausge wählt wird, so daß diejenigen Wörter eher ausgewählt werden, die gemäß dem Sprachmodell am wahrscheinlichsten in dem derzeitigen Kontext auftreten.

Das bei einem Ausführungsbeispiel der vorliegenden Er findung verwendete akustische Modell, oder, mit anderen Worten, der verwendete Spracherkennungsalgorithmus, ist das Hidden-Markov-Modell(HMM)-Verfahren. Wie dem Fachmann bekannt ist, bewertet das HMM-Verfahren jedes Wort in dem aktiven Vokabular, indem es das akustische Modell für jedes Wort als einen Hidden-Markov-Prozeß darstellt und indem es die Wahrscheinlichkeit für jedes Wort, daß das Wort das aktuelle akustische Kennzeichen (Token) erzeugt, als Wahr scheinlichkeitsfunktion des Hidden-Markov-Prozesses berech net. Bei einem Ausführungsbeispiel werden die Punktzahlen der Wörter durch den negativen Logarithmus der Wahrschein lichkeiten dargestellt, so daß alle Punktzahlen nicht- negativ sind und eine Punktzahl von Null eine Wahrschein lichkeit von Eins darstellt, das heißt eine perfekte Punkt zahl. Es sei angemerkt, daß andere Endpunkt- oder Wortver gleichsschemen von der vorliegenden Erfindung verwendet werden können.

Die von der Erkennungseinheit der vorliegenden Erfindung durchgeführte Suche wird in Verbindung mit einer globalen Grammatik mit endlicher Zustandsanzahl und einer Sammlung von untergeordneten Grammatiken mit endlicher Zustandsanzahl durchgeführt. Die globale Grammatik mit endlicher Zustands anzahl der vorliegenden Erfindung besteht aus Zuständen (Knoten) und Übergängen (Bögen) in einem Netzwerk. Jeder Übergang in dem Netzwerk weist entweder ein Wort oder eine den Index zur einer der untergeordneten Grammatiken mit endlicher Zustandsanzahl bildende Kategorie auf. Das Gestat ten von Übergängen als Indizes zu untergeordneten Grammati ken mit endlicher Zustandsanzahl macht die globale Grammatik mit endlicher Zustandsanzahl potentiell kleiner, wodurch we niger Speicherplatz benötigt wird. Der Speicherplatz wird dadurch noch weiter verringert, daß jeder Index zu einer un tergeordneten Grammatik mit endlicher Zustandsanzahl überall im Netzwerk wiederholt verwendet werden kann, so daß die Notwendigkeit nicht mehr besteht, den gleichen Zustand-zu- Zustand-Übergang an verschiedenen Stellen in dem Netzwerk zu wiederholen. Es sei angemerkt, daß jeder mit einem Wort bezeichnete Bogen der globalen Grammatik mit endlicher Zustandsanzahl oder jeder untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordnet ist dem von der vorlie genden Erfindung während des Erkennungsprozesses zum Ver gleich der empfangenen Sprachsignale verwendeten Mechanismus und diesen in diesem Umfang auch repräsentiert.

Die untergeordneten Grammatiken mit endlicher Zustands anzahl enthalten in der gleichen Weise wie die globale Grammatik mit endlicher Zustandsanzahl Zustände und Über gänge. Die Übergänge in den untergeordneten Grammatiken mit endlicher Zustandsanzahl können Worte oder andere Indizes für weitere untergeordnete Grammatiken mit endlicher Zu standsanzahl darstellen. Bei einem Ausführungsbeispiel ist jeder Übergang in die untergeordneten Grammatiken mit endlicher Zustandsanzahl ein Wort. Außerdem ist jede unter geordnete Grammatik mit endlicher Zustandsanzahl in der Lage, sich selbst aufzurufen.

Ein Beispiel einer erfindungsgemäßen rekursiven Gramma tik mit endlicher Zustandsanzahl ist in den Fig. 3A - E dargestellt. Es wird auf Fig. 3A Bezug genommen. Die darge stellte globale Grammatik mit endlicher Zustandsanzahl weist sieben Knoten 301 bis 307 auf, die über Bögen 321 bis 327 gekoppelt sind. Der Knoten 301 stellt den Anfang der globa len Grammatik mit endlicher Zustandsanzahl dar und der Knoten 307 das Ende der globalen Grammatik mit endlicher Zu standsanzahl dar. Der Bogen 321 koppelt die Knoten 301 und 302 und ihm ist der Index zu der untergeordneten Grammatik mit endlicher Zustandsanzahl <suche< zugeordnet. Dieser Index wird in Fig. 3B als der Klasse (d. h. Vokabular) der Positionswörter zugehörig beschrieben, die aus "finde" und "hole" besteht. Der Bogen 324 koppelt die Knoten 301 und 304 und ist das Wort "sende". Die Bögen 322 und 325 koppeln die Knoten 302 und 304 mit den Knoten 303 bzw. 305; ihnen ist der Index zu der untergeordneten Grammatik mit endlicher Zu standsanzahl <Dokument< zugeordnet. Diese Grammatik ist in Fig. 3C als der Klasse von Dokumentarten entsprechend beschrieben, die aus "Papier" und "Figur" besteht. Die Knoten 303 und 305 sind mit dem Knoten 306 über Bögen 323 bzw. 326 gekoppelt. Der Bogen 323 stellt das Wort "von" und der Bogen 326 das Wort "an" dar. Der Knoten 306 ist über den Bogen 327 mit dem Knoten 307 gekoppelt, der den Index zu der untergeordneten Grammatik mit endlicher Zustandsanzahl <Personenname< darstellt. Diese Grammatik ist in Fig. 3D als der Klasse der Personennamen von Einzelpersonen entsprechend dargestellt, bestehend aus John, Mary und NEUES-WORT. Jeder Knoten 301 bis 307 ist außerdem jeweils mit einem geschlos senen Schleifenbogen 311 bis 317 gekoppelt. Jedem Bogen 311 bis 317 ist ein Index zu der untergeordneten Grammatik mit endlicher Zustandsanzahl der Geräuschwörter <nv< zugeordnet, die in Fig. 3E dargestellt ist. Es sei wiederholt, daß die Wörter, beispielsweise das dem Bogen 324 zugeordnete Wort "sende", die akustischen Modelle für die Wörter darstellen.

Es wird Fig. 3D Bezug genommen, in der die untergeordne te Grammatik mit endlicher Zustandsanzahl <suche< der Positionswörter dargestellt ist, die aus den Knoten 331 und 332 besteht. Diese sind durch den das Wort "finde" (d. h. den zum Vergleich der Spracheingabe mit dem Wort "finde" verwen deten akustischen Modellmechanismus) und durch den das Wort "hole" (d. h. den zum Vergleich der Spracheingabe mit dem Wort "hole" verwendeten akustischen Modellmechanismus) darstellenden Bogen 334 gekoppelt. Das akustische Modell für das (englische) Wort "find" ist in Fig. 4 dargestellt. Es wird auf Fig. 4 Bezug genommen. Das akustische Modell ist als Reihe von Knoten 401 bis 405 dargestellt, die jeweils durch einen Phonbogen gekoppelt sind. Der Knoten 401 ist mit dem Knoten 402 über den Bogen das akustische Phon /f/ darstellenden Bogen 406 gekoppelt. Der Knoten 402 ist über den das akustische Phon /ay/ darstellenden Bogen 407 mit dem Knoten 403 gekoppelt. Der Knoten 403 ist über den das akustische Phon /n/ darstellenden Phon mit dem Knoten 404 gekoppelt. Der Knoten 404 ist über den das akustische Phon /d/ darstellenden Bogen mit dem Knoten 405 gekoppelt. Es sei angemerkt, daß alle mit einem Wort bezeichneten Bögen, die in der Beschreibung erwähnt werden, akustischen Modellen, wie dem in Fig. 4 dargestellten, entsprechen.

Es wird auf Fig. 3C Bezug genommen. Die untergeordnete Grammatik mit endlicher Zustandsanzahl <Dokument< der Dokumentart ist als die Knoten 341 bis 343 und die Bögen 344 bis 346 aufweisend dargestellt. Die untergeordnete Grammatik mit endlicher Zustandsanzahl beginnt mit dem Knoten 341 und ist über den Bogen 344 mit dem Knoten 342 gekoppelt, der dem Wort "das" entspricht. Der Knoten 342 über den das Wort "Papier" darstellenden Bogen 345 und den das Wort "Figur" darstellenden Bogen 346 mit dem Bogen 343 gekoppelt.

Es wird auf Fig. 3D bezug genommen, in der die unterge ordnete Grammatik <Personenname< der Personennamen darge stellt ist, die die Knoten 351 bis 352 und die Bögen 353 bis 355 aufweist. Der Knoten 351 ist mit dem Knoten 352 über den das Wort "Mary" darstellenden Bogen 353, durch den das Wort "John" darstellenden Bogen 354 und durch den das Wort "NEUES-WORT" darstellenden Bogen 355 gekoppelt. Das NEUE- WORT stellt ein vokabularfremdes Wort dar, das nicht in der ursprünglichen Vokabularkategorie (z. B. in diesem Fall den Personennamen) war. Die Erkennungseinheit kann dadurch ein das Vorhandensein der vokabularfremden Wörter anzeigende Ausgabe erzeugen, daß ein allgemeines akustisches Modell für "NEUES-WORT" in der untergeordneten Grammatik mit endlicher Zustandsanzahl enthalten ist. Die vorliegende Erfindung ermöglicht die Integration einer Erkennungsmöglichkeit von vokabularfremden (out-off-vocabulary - OOV) Wörtern für Offene-Klassen-Grammatikkategorien. Eine Offene-Klasse- Grammatikkategorie ist eine Kategorie, in der eines der akustischen Modelle mit einer hohen Wahrscheinlichkeit mit einem beliebigen gesprochenen Wort korreliert. Das Offene- Klassen-OOV-Netzwerk wird als Folge von untergeordneten Netzwerken aus beliebigen Phonen dargestellt. Eine Eigen schleife in dem letzten Zustand ermöglicht beliebig lange Wörter. Fig. 5 zeigt ein Beispiel eines Netzwerkes aus beliebigen Phonen für "NEUES-WORT". Es wird auf Fig. 5 bezug genommen. Das beispielhafte akustische Modell für NEUES-WORT weist die Knoten 501 bis 504 und die Bögen 505 bis 509 auf. Der Knoten 501 ist der Anfang und ist mit dem Knoten 502 über den Bogen 505 gekoppelt, der jedes beliebige Phon in dem NEUEN-WORT darstellt. Der Knoten 502 ist mit dem Knoten 503 über den Bogen 506 gekoppelt, der wiederum ein Phon in dem NEUEN-WORT darstellt. Der Knoten 503 ist zur Beendigung des akustischen Modells für NEUES-WORT über den Bogen 507 mit dem Knoten 504 gekoppelt. Wiederum stellt der Bogen 507 ein weiteres Phon in dem NEUEN-WORT dar. Die Bögen 508 und 509 sind zu sich selbst zurückkehrende Schleifenbögen, die bei den Knoten 502 bzw. 503 starten und enden. Diese Bögen stellen ebenfalls jedes beliebige Phon in dem akustischen Modell für NEUES-WORT dar. Auf diese Weise stellt das akustische Modell NEUES-WORT eine Vielzahl von Phonen dar. Es sei angemerkt, daß das akustische Modell für NEUES-WORT jede Anzahl von Phonen enthalten kann. Die tatsächliche Anzahl der gewählten Phone, die die minimale Länge des akustischen Modells angibt, ist von der normalerweise vom Entwickler getroffenen Designwahl abhängig. Die Darstellung ist hierarchisch, so daß nur ein Netzwerk, entweder das Netzwerk aus beliebigen Phonen, wie beispielsweise das in Fig. 5 beschriebene, oder das OOV-Netzwerk benötigt wird. Auf diese Weise verringert die vorliegende Erfindung den zur Kompensation von OOV-Wörtern benötigten Speicherplatz.

Bei der vorliegenden Erfindung bezieht ein Wörterbuch vokabularfremde Wörter in die Erkennungseinheit ein. Das Wörterbuch enthält nonverbale Wörter, Phonwörter oder beides. Der Systementwickler verfügt über weitere zugäng liche Parameter neben dem Einstellen der Minimalanzahl von Phonen, durch die die vokabularfremde Erfassung gesteuert werden kann. Eine Sprachgewichtung für offene-Klassen- Übergänge in der Grammatik kann außerdem ausgewählt werden, um das Verhältnis von Falschmeldungen (d. h. Wörtern, die von der vokabularfremden Erfassung erkannt werden, wenn sie momentan im Wörterbuch sind) zu Erfassungen zu steuern. Die Sprachwichtung ist eine Anpassung an die Wahrscheinlichkei ten eines Sprachmodells, wobei weniger wahrscheinlichen Sprachmodellen eine geringere Wahrscheinlichkeit zugeordnet ist, so daß sie mit einer geringeren Wahrscheinlichkeit als Ergebnis eines Erkennungsprozesses ausgewählt werden. In ähnlicher Weise wird eine Sprachgewichtung für jeden Phonbo gen in dem Netzwerk aus beliebigen Phonen ausgewählt, um eine weitere Kontrolle über Falschmeldungen/Erfassungen zu ermöglichen.

Es wird wiederum auf Fig. 3E Bezug genommen, in der die untergeordnete Grammatik mit endlicher Zustandsanzahl <nv< gezeigt ist, die die Knoten 361 bis 362 und die Bögen 363 bis 366 aufweist. Der Knoten 361 ist mit dem Knoten 362 gekoppelt über einen den akustischen Mechanismus für das Ge räusch eines Telefonklingelns darstellenden Bogen 363, einen den akustischen Mechanismus für ein Hustengeräusch darstel lenden Bogen 364, einen den akustischen Mechanismus für das Geräusch von Stille darstellenden Bogen 365 und einen den akustischen Mechanismus für das Geräusch von Türschlagen darstellenden Bogen 366. Es sei angemerkt, daß die unterge ordnete Grammatik mit endlicher Zustandsanzahl <nv< eine nonverbale untergeordnete Grammatik mit endlicher Zustands anzahl (Netzwerk) ist und zwar deshalb, weil die Erkennung kein Wort, sondern ein Geräusch ist.

Fig. 3E veranschaulicht in Verbindung mit Fig. 3A die vorteilhafte Weise, in der bei der vorliegenden Erfindung nonverbale Modelle verwendet werden. In diesem Fall werden die nonverbalen Modelle von Geräuschen, beispielsweise Husten, Niesen usw., bei der Erfindung als eine Klasse oder ein untergeordnetes Netzwerk dargestellt. Durch die Verwen dung von untergeordneten Grammatiken mit endlicher Zustands anzahl zur Implementierung von verschiedener Klassen von Ge räuschen, die während des Erkennungsprozesses auftreten können, kann die Größe des Netzwerkes im Vergleich zu den bekannten monolithischen Grammatiken mit endlicher Zustands anzahl verringert werden, während nur ein geringer System aufwand verursacht wird. Die Größe des Netzwerks kann verringert werden, weil nicht die gesamte Geräuschklasse an jedem Knoten in das Netzwerk einbezogen werden muß. Außerdem wird der Speicherplatz zur Speicherung des nonverbalen Geräuschmodells reduziert, weil die verschiedenen Geräusch klassen (d. h. die untergeordnete Grammatik mit endlicher Zu standsanzahl) nur kompiliert werden, wenn sie benötigt werden. Dies trifft insbesondere dann zu, wenn eine große Anzahl nonverbaler Modelle verwendet wird. Diese untergeord neten Grammatiken mit endlicher Zustandsanzahl, oder Katego rien von Geräuschen können bei jedem Zustand in der Erken nungseinheit angeordnet sein (d. h. an jedem Knoten in dem Netzwerk) und gleichen jeder anderen untergeordneten Gramma tik mit endlicher Zustandsanzahl. Diese nonverbalen Netz werke werden unter Verwendung eines Eigenschleifen-Mechanis mus implementiert, so daß der Anfang und das Ende der Bögen, die dem nonverbalen Netzwerk entsprechen, sich an dem gleichen Ort befindet. Auf diese Weise ermöglicht die vorliegende Erfindung die Verwendung von nonverbalen Netz werken, die frei im Netzwerk bei geringer Einschränkung der Leistung angeordnet sein können.

Die in Fig. 3A-E dargestellten Netzwerke werden in der gleichen Weise wie bekannte monolithische Grammatiken mit endlicher Zustandsanzahl unter Verwendung von Zeigern im Speicher implementiert, was im Stand der Technik bekannt ist. Wichtig ist, daß die Beziehung zwischen der globalen Grammatik mit endlicher Zustandsanzahl und den untergeordne ten Grammatiken mit endlicher Zustandsanzahlen der vorlie genden Erfindung von hierarchischer Natur ist.

Die Fig. 3A-E stellen die statischen Beschreibungen eines Beispiels einer rekursiven Grammatik mit endlicher Zu standsanzahl der vorliegenden Erfindung dar. Zur Verwendung dieser statischen Beschreibungen, d. h. um sie dynamisch zu machen, müssen die globale und die untergeordnete Grammatik mit endlicher Zustandsanzahl kompiliert werden. Bei bekann ten Erkennungseinheiten geht die hierarchische Natur beim Kompilieren verloren, obwohl einige Grammatiken hierarchisch sind. Die vorliegende Erfindung behält den hierarchischen Aufbau während des Erkennungsprozesses, da jede untergeord nete Grammatik mit endlicher Zustandsanzahl und die globale Grammatik mit endlicher Zustandsanzahl einzeln kompiliert werden. Auf die untergeordneten Grammatiken mit endlicher Zustandsanzahl wird nur zugegriffen, wenn sie benötigt werden. Auf diese Weise kann jede benötigte Speicherzuwei sung solange verzögert werden, bis ein Zugriff erforderlich ist, so daß die Erkennungseinheit durch Zusammenfügen der Grammatiken zu einer Lösung gelangt. Wenn kein Zugriff benötigt wird, wird keine Speicherzuweisung durchgeführt. Auf diese Weise spart die vorliegende Erfindung Speicher platz. Dadurch, daß die untergeordneten Grammatiken mit endlicher Zustandsanzahl einzeln kompiliert werden können, können außerdem alle Änderungen in Form von Einfügungen und Löschungen in einzelnen untergeordneten Grammatiken mit endlicher Zustandsanzahl durchgeführt werden, ohne daß das globale Netzwerk mit endlicher Zustandsanzahl modifiziert und nachfolgend erneut kompiliert werden muß. Daher muß die globale Grammatik mit endlicher Zustandsanzahl nicht jedes mal erneut kompiliert werden, wenn eine Änderung in der Erkennungseinheit auftritt. Die vorliegende Erfindung verfügt auf diese Weise über eine Erkennungseinheit mit einer sehr flexiblen Laufzeit.

Sobald die globale Grammatik mit endlicher Zustandsan zahl und die einzelnen untergeordneten Grammatiken mit endlicher Zustandsanzahl kompiliert sind, kann die Erken nungseinheit mit dem Erkennungsprozeß beginnen. Der Erken nungsprozeß ist üblicherweise ein Vergleichsprozeß, in dem die akustischen Modelle mit den Spracheingangssignalen verglichen werden. Bei der vorliegenden Erfindung jedoch muß die Erkennungseinheit dort, wo sie einem Nicht-Endpunkte der globalen Grammatik mit endlicher Zustandsanzahl (oder genauso einer untergeordneten Grammatik mit endlicher Zustandsanzahl) begegnet, in der Lage sein, zu identifizie ren, daß der Übergang einen Index zu einem untergeordneten Netzwerk enthält. Mit anderen Worten, die Erkennungseinheit sieht nicht nur Endpunkte. Stattdessen sieht die Erkennungs einheit eine allgemeine Kategorie oder Klasse. Daher muß die vorliegende Erfindung in der Lage sein, das Vorhandensein von Nicht-Endpunkten in dem Netzwerk zu kompensieren. Um die rekursiven Grammatiken mit endlicher Zustandsanzahl der vorliegenden Erfindung bei dem Erkennungsprozeß zu verwen den, wird in dem Speicher des Computersystems ein Stapel system erzeugt und zur Durchführung des Erkennungsprozesses verwendet.

Zur Laufzeit werden alle ersten Phone der akustischen Modelle (Mechanismen), die den Übergängen von dem ersten Knoten des Netzwerkes entsprechen, in den Stapel eingegeben. Beispielsweise in dem Fall des (englischen) Wortes "find" in Fig. 4, würde das Phon /f/ in den Stapel eingegeben. Die Mo delle werden entsprechend der Reihenfolge ihres Auftretens in dem Netzwerk in den Stapel eingegeben. Mit dem Fort schreiten des Erkennungsprozesses werden nachfolgende Phone der akustischen Modelle, die den aktuell bewerteten Übergän gen in dem Netzwerk entsprechen, in den Stapel eingegeben, während einige der vorangegangenen Phone entfernt werden können. Auf diese Weise kann der Stapel wachsen und schrump fen. Es ist zu beachten, daß jeder Pfad durch das Netzwerk eine mögliche Theorie über die akustischen Eingangssignale sein kann. Beim Fortschreiten des Erkennungsprozesses werden bestimmte Theorien unwahrscheinlicher. In diesem Fall können diesen weniger wahrscheinlichen Theorien zugeordnete Teile der akustischen Modelle aus dem Stapel entfernt werden.

Wenn die Erkennungseinheit das Netzwerk durchläuft (d. h. indem sie durch den seriellen Stapel wandert), trifft sie sowohl Endpunkte (zum Beispiel Wörter, Phone usw., die akustische Modelle aufweisen) als auch Nicht-Endpunkte (d. h. Indizes zu untergeordneten Grammatiken mit endlicher Zu standsanzahl). Die Endpunkte werden vergrößert und die zugehörigen akustischen Modelle (z. B. HMM) werden in den Stapel eingegeben. Auf diese Weise liegt ein Stapel von aktiven Mechanismen (z. B. HMMs) vor, wenn die Suche ausge führt wird. Es sei wiederholt darauf hingewiesen, daß das Eingeben von Endpunkten und Nicht-Endpunkten in den Stapel während der Laufzeit bedarfsweise durchgeführt wird. Daher muß das gesamte Netzwerk keinen Speicherplatz belegen, so daß die vorliegende Erfindung eine große Menge Speicherplatz einspart.

Wenn während der Suche ein Nicht-Endpunkt erreicht wird, muß die Erkennungseinheit die untergeordnete Grammatik mit endlicher Zustandsanzahl (d. h. das untergeordnete Netzwerk) erlangen und es in dem Erkennungsprozeß verwenden. Bei dem bevorzugten Ausführungsbeispiel leitet ein Zeiger die Erkennungseinheit zu dem untergeordneten Netzwerk des Nicht- Endpunktes. Die Erkennungseinheit erzeugt eine dynamische Version des untergeordneten Netzwerkes und gibt die dynami sche Version in den Stapel ein. Die dynamische Version ist eine Kopie der untergeordneten Grammatik mit endlicher Zustandsanzahl. Es wird deshalb eine Kopie angefertigt, weil das spezielle untergeordnete Netzwerk an mehr als einer Stelle in der hierarchischen Topologie auftauchen kann, so daß die Erkennung in der Lage ist, allen verschiedenen Theorien oder Fällen der Verwendung nachzukommen. Jede Theorie oder jedes Modell weist eine aus einer Wortfolge be stehende Historie auf. Das Auftreten jedes untergeordneten Netzwerkes in einem Netzwerk ist auf diese Weise mit seiner eigenen Historie verbunden, so daß die Wahrscheinlichkeit des Auftretens des untergeordneten Netzwerkes einheitlich in dem Netzwerk (oder untergeordnetem Netzwerk) identifiziert ist. Bei einem Ausführungsbeispiel ist die Historie nur die Identität des letzten Vorgängers. Die einer bestimmten Theorie zugeordnete Punktzahl ist ein Prozentsatz, der die Wahrscheinlichkeit angibt, daß das aktuelle Wort auf den Vorgänger folgt.

Die dynamische Version enthält die Topologie des Netz werkes und außerdem die von der Erkennungseinheit zur Erzeugung des Ergebnisses benötigten Informationen (d. h. seine Identität, seine Historie und seine dem untergeordne ten Netzwerk zugeordneten Punktzahlen). Die aktuelle unter geordnete Grammatik mit endlicher Zustandsanzahl wird nicht auf den Stapel eingegeben, da sie an anderen Orten des globalen Netzwerkes auftreten und auf diese Weise benötigt werden könnte. Während verschiedene Teile der globalen Grammatik mit endlicher Zustandsanzahl durchlaufen werden und Nicht-Endpunkte zu Endpunkten und Nicht-Endpunkten erweitert werden, werden somit die akustischen Modelle der Endpunkte in den Stapel eingegeben. Die Erkennungseinheit erkennt die akustischen Modelle bei dem Erkennungsprozeß in der gleichen Weise wie bekannte Erkennungssysteme mit Grammatiken mit endlicher Zustandsanzahl.

Wenn jede Klasse oder Kategorie, die ein untergeordnetes Netzwerk indiziert, in den Stapel eingegeben wird, gibt es einen Mechanismus, mit dem das untergeordnete Netzwerk durchlaufen werden kann. Bei einem Ausführungsbeispiel kann das untergeordnete Netzwerk aus dem Stapel herausgeholt werden. Bei dem bevorzugten Ausführungsbeispiel werden bei dem Eingeben eines untergeordneten Netzwerkes in den Stapel dem Endzustand entsprechende Informationen in den Stapel eingegeben. Mit anderen Worten, es wird die Information in den Stapel eingegeben, die den Endzustand des aktuellen untergeordneten Netzwerkes als den Ort des nächsten Knotens im Netzwerk identifiziert, der das aktuelle untergeordnete Netzwerk aufrief. Wenn die Erkennungseinheit das Durchlaufen eines bestimmten untergeordneten Netzwerkes beendet, dann weist die Erkennungseinheit mit Hilfe des Zeigers zu dem nächsten Ort, wohin sie übergehen soll, indem sie sich auf den Endzustand bezieht. Deshalb ist es indem bevorzugten Ausführungsbeispiel nicht nötig, eine Möglichkeit zum Herausholen von Informationen aus dem Speicher vorzusehen. Es sei angemerkt, daß der im vorangegangenen beschriebene, zu sich selbst zurückkehrende Schleifenmechanismus dieses Merkmal verwendet. Indem der Endzustand gleich dem Anfangs zustand ist, ist der auftretende Übergang in der Lage, zu sich selbst zurückzukehren.

Wenn die Wortmechanismen in dem Stapel sind, führt die Erkennungseinheit die Suche aus. Auf der Basis der Wahr scheinlichkeit der Theorien fährt die Erkennungseinheit bei dem nächsten Mechanismus oder den nächsten Mechanismen fort. Der Stapel wächst und schrumpft, je nachdem wie die Theorien überleben (oberhalb einer Schwellwertwahrscheinlichkeit liegen) oder sterben (unterhalb einer Schwellwertwahrschein lichkeit liegen). Wenn alle Mechanismen bewertet wurden, was von einem leeren Stapel angezeigt wird, wird die wahrschein lichste Theorie als Textausgabe oder als vom Computer vorgenommene Aktion (z. B. Öffnen eines Ordners usw.) er zeugt. In dem Fall eines Textes stellt die Textausgabe die erkannte Sprache dar.

Obwohl viele Veränderungen und Modifikationen der vor liegenden Erfindung für den Fachmann nach dem Lesen der vorangegangene Beschreibung offensichtlich sind, ist es klar, daß das dargestellte und zur Veranschaulichung be schriebene Ausführungsbeispiel nicht als Einschränkung betrachtet werden soll. Daher soll der Bezug zu Einzelheiten des bevorzugten Ausführungsbeispiels den Schutzbereich der Ansprüche nicht beschränken, die selbst nur diejenigen Merkmale aufführen, die als wesentlich für die Erfindung be trachtet werden.

Claims

1. Spracherkennungssystem zur Erkennung von Sprachsigna len aufweisend:
eine Mehrzahl von Grammatiken mit einer endlichen Anzahl von Zuständen enthaltend wenigstens eine globale Grammatik mit einer endlichen Anzahl von Zuständen und wenigstens eine untergeordnete Grammtik mit einer endlichen Anzahl von Zuständen, wobei jede Grammatik eine Mehrzahl von Zuständen und wenigstens einen Übergang enthält, der in einem Netzwerk angeordnet ist, und wobei ferner die Übergänge entweder Endpunkte oder Nicht-Endpunkte enthalten können, wobei jedem Endpunkt ein akustisches Modell und jedem Nicht-Endpunkt ein Aufruf zu der wenigstens einen untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordnet ist; und
eine Erkennungseinrichtung zum Ausführen der Erkennung durch ein Durchlaufen der globalen Grammatik mit endlicher Zustandsanzahl, wobei die Erkennungseinheit, wenn sie auf einen Endpunkt trifft, das akustische Modell des Endpunktes bei der Erkennung der Sprachsignale verwendet, und, wenn sie auf einen Nicht-Endpunkt trifft, die dem Nicht-Endpunkt zugeordnete, untergeordnete Grammatik mit endlicher Zu standsanzahl aufruft und mit der Erkennung fortfährt, indem sie die untergeordnete Grammatik mit endlicher Zustandsan zahl derart durchläuft, daß bei Beendigung des Durchlauf s durch die untergeordnete Grammatik mit endlicher Zustandsan zahl die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurückkehrt und mit dem Durchlauf dieser Grammatik fortfährt.

2. System nach Anspruch 1, wobei jeder Endpunkt ein Wort ist.

3. System nach Anspruch 1, wobei das akustische Modell ein Hidden-Markov-Modell aufweist.

4. System nach Anspruch 1, wobei die Erkennungseinrich tung die Grammatiken unter Verwendung eines Stapels derart durchläuft, daß, wenn die Erkennungseinheit auf einen Endpunkt einer der Mehrzahl der Grammatiken mit endlicher Zustandsanzahl trifft, das diesem Endpunkt zugeordnete akustische Modell in den Stapel eingegeben wird.

5. System nach Anspruch 4, wobei Informationen hinsicht lich des nächsten Zustandes zusammen mit den den Endpunkten der untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordneten akustischen Modellen in den Stapel eingegeben werden, so daß die Erkennungseinheit bei Beendigung des Durchlaufs durch die untergeordnete Grammatik mit endlicher Zustandsanzahl an dem von dem nächsten Zustand angezeigten Ort fortfährt.

6. System nach Anspruch 1, wobei die Erkennungseinheit feststellt, ob das Ende der globalen Grammatik mit endlicher Zustandsanzahl erreicht wurde, indem sie feststellt, ob der Stapel leer ist, wobei der Erkennungsprozeß beendet ist.

7. Spracherkennungssystem zum Erkennen von Sprachsigna len aufweisend:
eine Mehrzahl von Grammatiken mit endlicher Zustandsan zahl enthaltend wenigstens eine globale Grammatik mit endlicher Zustandsanzahl und wenigstens eine untergeordnete Grammatik mit endlicher Zustandsanzahl, wobei jede der Mehrzahl von Grammatiken eine Mehrzahl von Zuständen und we nigstens einen Übergang enthält, der in einem Netzwerk angeordnet ist, und wobei die Übergänge außerdem entweder Wörter oder Klassen enthalten können, wobei jedem Wort ein akustisches Modell und jeder Klasse ein Aufruf zu der wenigstens einen untergeordneten Grammatik mit endlicher Zu standsanzahl zugeordnet ist; und
eine Erkennungseinrichtung zum Ausführen der Erkennung durch Durchlaufen der globalen Grammatik mit endlicher Zustandsanzahl, wobei die Erkennungseinheit, wenn ein Wort getroffen wird, die Erkennung mit Hilfe des dem Wort zuge ordneten akustischen Modells durchführt, und, wenn eine Klasse getroffen wird, die der Klasse zugeordnete, unterge ordnete Grammatik mit endlicher Zustandsanzahl aufruft und mit der Erkennung dadurch fortfährt, daß die untergeordnete Grammatik mit endlicher Zustandsanzahl durchlaufen wird, so daß bei Beendigung des Durchlaufs der untergeordneten Grammatik mit endlicher Zustandsanzahl die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurückkehrt und dort mit dem Durchlaufen fortfährt.

8. System nach Anspruch 7, wobei wenigstens ein Zustand in wenigstens einer der Mehrzahl von Grammatiken mit end licher Zustandsanzahl einen zu sich selbst zurückkehrenden Schleifenübergang enthält, der an dem gleichen Zustand beginnt und endet.

9. System nach Anspruch 8, wobei der zu sich selbst zu rückkehrende Schleifenübergang ein Geräuschwort darstellt.

10. System nach Anspruch 8, wobei der zu sich selbst zu rückkehrende Schleifenübergang eine Klasse enthält.

11. System nach Anspruch 10, wobei die Klasse eine un tergeordnete Grammatik mit endlicher Zustandsanzahl aus Geräuschen aufweist, so daß jeder Übergang in der unterge ordneten Grammatik mit endlicher Zustandsanzahl Geräusche darstellenden akustischen Modellen zugeordnet ist.

12. System nach Anspruch 7, wobei wenigstens einem Über gang ein akustisches Modell mit allen Phonen zugeordnet ist, so daß eine Erfassung für vokabularfremde Wörter vorgesehen ist.

13. System nach Anspruch 12, wobei das akustische Modell mit allen Phonen wenigstens einen zu sich selbst zurückkeh renden Schleifenübergang aufweist, und wobei außerdem dem zu sich selbst zurückkehrenden Schleifenübergang ein akusti sches Modell mit allen Phonen zugeordnet ist.

14. System nach Anspruch 13, wobei der wenigstens eine zu sich selbst zurückkehrende Schleifenübergang an dem letzten Zustand angeordnet ist, um beliebig lange Wörter zu kompensieren.

15. Verfahren zum Erkennen von Sprachsignalen, aufwei send die Schritte:
daß ein erstes Übergangsnetzwerk mit Zuständen und Über gängen zwischen den Zuständen derart geschaffen wird, daß das erste Zustandsnetzwerk durchlaufen werden kann, wobei jedem Übergang ein Endpunkt oder eine Klasse zugeordnet ist;
daß ein zweites Übergangsnetzwerk mit Zuständen und we nigstens einem Übergang zwischen den Zuständen derart geschaffen wird, daß das zweite Übergangsnetzwerk durchlau fen werden kann;
daß das erste Netzwerk derart durchlaufen wird, daß eine Spracherkennung durchgeführt wird, wobei das zweite Netzwerk aufgerufen wird, wenn der der Klasse zugeordnete Übergang beim Durchlaufen des ersten Netzwerkes erreicht wird, so daß das zweite Übergangsnetzwerk durchlaufen wird; und
daß nach Durchlauf des zweiten Übergangsnetzwerkes zu dem ersten Netzwerk zurückgekehrt wird, und daß das Durch laufen des ersten Netzwerkes an dem Aufrufpunkt derart fortgesetzt wird, daß die Sprachsignale erkannt werden.