DE4397100C2 - Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl - Google Patents

Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl

Info

Publication number
DE4397100C2
DE4397100C2 DE4397100A DE4397100A DE4397100C2 DE 4397100 C2 DE4397100 C2 DE 4397100C2 DE 4397100 A DE4397100 A DE 4397100A DE 4397100 A DE4397100 A DE 4397100A DE 4397100 C2 DE4397100 C2 DE 4397100C2
Authority
DE
Germany
Prior art keywords
states
grammar
finite number
subordinate
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE4397100A
Other languages
English (en)
Other versions
DE4397100T1 (de
Inventor
Yen-Lu Chow
Kai-Fu Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Computer Inc filed Critical Apple Computer Inc
Application granted granted Critical
Publication of DE4397100C2 publication Critical patent/DE4397100C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft das Gebiet der konti­ nuierlichen Spracherkennung; insbesondere betrifft die vorliegende Erfindung bei dem Erkennungsprozeß verwendete Netzwerke von Grammatiken mit endlicher Zustandsanzahl.
HINTERGRUND DER ERFINDUNG
In letzter Zeit sind Spracherkennungssysteme auf dem heutigen Hochtechnologiemarkt häufiger anzutreffen. Aufgrund von Fortschritten in der Computertechnologie und bei Sprach­ erkennungsalgorithmen sind diese Spracherkennungssysteme leistungsstärker geworden.
Derzeitige Spracherkennungssysteme arbeiten so, daß sie eine akustische Beschreibung oder ein Modell eines Wortes in ihrem Vokabular mit einer Darstellung des akustischen Signals vergleichen, die durch das Aussprechen des zu erkennenden Wortes erzeugt wird. Das Vokabular enthält sämtliche Wörter, die das Spracherkennungssystem erkennen kann. Mit anderen Worten, das Vokabular besteht aus all den Wörtern, die in dem System gespeicherte akustische Modelle haben. Es sei angemerkt, daß nicht das gesamte Vokabular die ganze Zeit aktiv ist. Zu einer beliebigen Zeit kann nur ein Teil des Vokabulars aktiv sein. Üblicherweise ist nur ein Teil des Vokabulars aktiviert, da es im gegenwärtigen Stand der Technik Einschränkungen gibt. Sprachmodelle werden verwendet, um anzuzeigen, welcher Teil des Vokabulars derzeitig aktiv ist.
Bei der kontinuierlichen Spracherkennung ist jedes Sprachmodell mit einer Grammatik verbunden. Eine Grammatik stellt die Menge aller möglichen Satzsequenzen dar, die für irgendein bestimmtes Vokabular eine erkennbare Eingabe für das Spracherkennungssystem darstellen. Üblicherweise stellt die Grammatik nicht jede Kombination von Wörtern aus dem Vo­ kabular dar. Stattdessen stellt die Grammatik die Wortkombi­ nationen in dem Vokabular dar, die in dem speziellen Kontext oder der gerade verwendeten Anwendung eine Bedeutung haben. Die Grammatik für einen speziellen Kontext oder eine spezi­ elle Anwendung wird normalerweise im Speicher in einem kompakten Format gespeichert. Das Grammatikmodell für ein Spracherkennungssystem kann statisch, das heißt vor dem Ablauf einer speziellen Anwendung spezifiziert, oder dyna­ misch sein, wenn die Grammatik sich bei Wechselwirkung des Benutzers mit dem System verändert. Im ersteren Fall wird das Grammatikmodell normalerweise von jemandem spezifiziert, der mit der Anwendung vertraut ist. Im letzteren Fall kann das Grammatikmodell aufgebaut werden, wenn der Benutzer mit Hilfe einer speziell konfigurierten Benutzerschnittstelle mit der Anwendung in Wechselwirkung tritt. In diesem Fall verändert sich die Grammtik, wenn der Benutzer mit ihr in Wechselwirkung tritt, so daß das Grammatikmodell den aktuel­ len Zustand des von dem Spracherkennungssystem verwendeten Vokabulars widerspiegelt.
Im Stand der Technik sind die Grammatiken oft codiert als Finite-State-Grammatiken bzw. Grammatiken mit endlicher Zustandsanzahl. Bei Grammatiken mit endlicher Zustandsanzahl wird die Satzsammlung als ein einziges Netzwerk von Bögen und Knoten dargestellt; das heißt die Sätze werden als Zustände und Übergänge in dem Netzwerk dargestellt. Jeder Bogen oder Übergang in dem Netzwerk bezieht sich auf ein be­ stimmtes Wort in dem Vokabular, während jeder Knoten, oder Zustand, die Wörter in dem speziellen Satz verbindet. Die Bögen verbinden die Knoten zur Bildung eines Netzwerkes. Mit jedem Wort ist ein akustisches Modell verbunden. Das akusti­ sche Modell für das Wort wird als Folge von phonetischen Mo­ dellen dargestellt. Durch die Verwendung des Netzwerkes ist eine Spracherkennungssystem in der Lage, die akustische Beschreibung jedes Wortes in der Grammatik mit dem akusti­ schen Signal derart zu vergleichen, daß der gesprochene Satzteil oder Ausdruck erkannt werden kann.
Aus der EP 0248 377 A2 ist ein Spracherkennungssystem für kontinuier­ liche Sprache bekannt, das eine Grammatik mit endlicher Zustandsanzahl aufweist. Ein weiteres Spracherkennungssystem ist aus der EP 0242 743 A1 bekannt.
Die die Grammatik für eine bestimmte Anwendung enthal­ tenden Netzwerke (z. B. Netzwerke von Grammatiken mit end­ licher Zustandsanzahl) können sehr groß sein. Zur Laufzeit muß das ganze Netzwerk kompiliert werden. Wenn ein bestimm­ tes Vokabular mehrere tausend Wörter enthält, kann das zur Beschreibung aller möglichen Grammatiken verwendete Netzwerk möglicherweise eine hohe Speicherkapazität, insbesondere während der Ablaufzeit, erfordern. Ein bestimmter Teil des Netzwerkes wird dabei kompiliert, unabhängig davon, ob er benötigt wird, wodurch er eigenen Speicherplatz benötigt. Teile der Grammatik können außerdem an anderen Orten des Netzwerkes wiederholt werden. Deshalb müssen identische Grammatikteile mehrfach kompiliert werden, so daß mehrere, jeweils mit identischen jedoch unterschiedlichen Teilen des Netzwerkes verbundene Speicherzuordnungen benötigt werden. Da Speicher und ihre Verwendung in der heutigen Technologie einen hohen Stellenwert haben, besteht der Wunsch, den zur Speicherung der Grammatik verwendeten Speicherplatz zu reduzieren.
Wie beschrieben wird, enthält die vorliegende Erfindung eine rekursive Grammatik mit endlicher Zustandsanzahl, die eine Sammlung von Grammatiken mit endlicher Zustandsanzahl verwendet. Die Menge der Grammatiken mit endlicher Zustands­ anzahl der vorliegenden Erfindung weist eine globale Gramma­ tik mit endlicher Zustandsanzahl und mehrere untergeordnete Grammatiken mit endlicher Zustandsanzahl bzw. Grammatiken mit einer geringeren Anzahl von Zuständen auf. Während der Laufzeit erzeugt und kombiniert die vorliegende Erfindung verschiedene Grammatiken dynamisch. Außerdem verringert die vorliegende Erfindung den zur Spracherkennung benötigten Speicherplatz.
ZUSAMMENFASSUNG DER ERFINDUNG
Es wird ein Verfahren und eine Einrichtung zur Spracher­ kennung beschrieben. Das Verfahren und die Einrichtung enthalten mehrere Grammatiken mit endlicher Zustandsanzahl. Die mehreren Grammatiken mit endlicher Zustandsanzahl enthalten wenigstens eine globale Grammatik mit endlicher Zustandsanzahl und wenigstens eine untergeordnete Grammatik mit endlicher Zustandsanzahl. Jede der Grammatiken mit endlicher Zustandsanzahl enthält mehrere Zustände und wenigstens einen in einem Netzwerk angeordneten Übergang. Die Übergänge in dem Netzwerk können sowohl Endpunkte als auch Nicht-Endpunkte enthalten. Jedem Endpunkt ist ein akustisches Modell zugeordnet, während jedem Nicht-Endpunkt ein Aufruf zu einer untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordnet ist. Die vorliegende Erfindung enthält außerdem eine Erkennungseinheit, die dadurch die Er­ kennung durchführt, daß sie durch die globale Grammatik mit endlicher Zustandsanzahl wandert. Wenn Endpunkte getroffen werden, vergleicht die Erkennungseinheit das akustische Modell des Endpunktes mit den Sprachsignalen. Wenn Nicht- Endpunkte getroffen werden, ruft die Erkennungseinheit die dem Nicht-Endpunkt zugeordnete untergeordnete Grammatik mit endlicher Zustandsanzahl auf und fährt mit der Erkennung da­ durch fort, daß sie die untergeordnete Grammatik mit end­ licher Zustandsanzahl durchläuft. Beim Durchlaufen der untergeordneten Grammatik mit endlicher Zustandsanzahl vergleicht die Erkennungseinheit das akustische Modell mit den Sprachsignalen, um mit der Erkennung fortzufahren. Nach dem Durchlauf durch die untergeordnete Grammatik mit end­ licher Zustandsanzahl kehrt die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurück und durchläuft diese. Auf diese Weise werden die Sprachsignale zur Spracherkennung mit den akusti­ schen Modellen in der globalen und den untergeordneten Grammatiken mit endlicher Zustandsanzahl verglichen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die vorliegende Erfindung ist anhand der folgenden de­ taillierten Beschreibung und der zugehörigen Zeichnungen des bevorzugten Ausführungsbeispiels besser zu verstehen, wobei das spezielle Ausführungsbeispiel jedoch nicht als Ein­ schränkung anzusehen ist, sondern nur zur Veranschaulichung dient.
Fig. 1 ist ein Blockschaltbild des Computersystems, das von dem bevorzugten Ausführungsbeispiel der vorliegenden Er­ findung verwendet werden kann.
Fig. 2 ist ein Blockschaltbild des Spracherkennungs­ systems der vorliegenden Erfindung.
Fig. 3A-E zeigen ein Beispiel einer rekursiven Gramma­ tik mit endlicher Zustandsanzahl der vorliegenden Erfindung.
Fig. 4 veranschaulicht ein Beispiel eines akustischen Modells für das (engl.) Wort "find", wie es in einem Ausfüh­ rungsbeispiel der Erfindung verwendet wird.
Fig. 5 zeigt die allgemeine Beschreibung des akustischen Modells für ein zu einer der untergeordneten Grammatiken mit endlicher Zustandsanzahl der Erfindung hinzugefügtes Wort.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Es wird ein Verfahren zur Spracherkennung beschrieben. In der folgenden Beschreibung werden zahlreiche spezielle Details, beispielsweise spezielle Verarbeitungsschritte, Er­ kennungsalgorithmen, akustische Modelle usw. angegeben, um ein besseres Verständnis der Erfindung zu ermöglichen. Es ist für den Fachmann jedoch klar, daß die vorliegende Erfindung auch ohne diese speziellen Details ausgeführt werden kann. In anderen Fällen sind bekannte Erkennungsver­ arbeitungsschritte und -schaltungen nicht detailliert dargestellt, um die Erfindung nicht unnötig zu belasten.
ÜBERBLICK ÜBER DIE VORLIEGENDE ERFINDUNG
Die vorliegende Erfindung wird als rekursive Grammatik mit endlicher Zustandsanzahl bezeichnet. Die grundlegende Struktur der vorliegenden Erfindung ist den üblicherweise zur Spracherkennung verwendeten Sprachmodellen mit Automaten endlicher Zustandsanzahl überlegen. Bei den bekannten automatischen Sprachmodellen mit endlicher Zustandszahl wird die Sprache normalerweise von einem einzigen Automaten mit einer begrenzten Anzahl von Zuständen dargestellt, wobei die Übergänge die Endpunkte (oder Worte) in dem Sprachmodell darstellen. Die rekursive Grammatik mit endlicher Zustands­ anzahl der vorliegenden Erfindung besteht aus einer globalen Grammatik mit endlicher Zustandsanzahl und mehreren unterge­ ordneten Grammatiken mit endlicher Zustandsanzahl. Die globale Grammatik mit endlicher Zustandsanzahl besteht aus Übergängen und Zuständen, die ein Netzwerk bilden. Die Zustände sind mit Knoten in dem Netzwerk gleichgesetzt, während die Übergänge durch Bögen zwischen den Knoten (oder Zuständen) dargestellt sind. Jeder Übergang in der vorlie­ genden Erfindung stellt entweder einen Endpunkt oder einen Nicht-Endpunkt dar. Der Endpunkt kann ein Wort oder Phon sein, dem ein akustisches Modell zugeordnet ist, das sein Spracherkennungsmuster darstellt. Nicht-Endpunkte dagegen stellen Klassen oder Kategorien des Vokabulars dar und sind mit einem Index zu einer untergeordneten Grammatik mit endlicher Zustandsanzahl verbunden, die diesen Teil des Vokabulars darstellt. Die untergeordneten Grammatiken mit endlicher Zustandsanzahl können als untergeordnete Netzwerke betrachtet werden, die das gleiche Format wie die globale Grammatik mit endlicher Zustandsanzahl haben. Beim Ausführen der Erkennung verwendet die Erkennungseinheit (oder -maschi­ ne) das Netzwerk der globalen Grammatik mit endlicher Zustandsanzahl, um überall im Netzwerk empfangene Sprach­ signale und die akustischen Modelle zu vergleichen. Wenn die Erkennungseinheit einem Nicht-Endpunkt in dem Netzwerk begegnet, ruft die Erkennungseinheit das dem Nicht-Endpunkt zugeordnete Netzwerk der untergeordneten Grammatik mit endlicher Zustandsanzahl auf und fährt mit dem Erkennungs­ prozeß fort. Auf diese Weise enthält das Sprachmodell der vorliegenden Erfindung nicht nur ein einziges Netzwerk, sondern eine Sammlung von Netzwerken, von denen jedes in der Lage ist, die anderen Netzwerke aufzurufen (d. h. es ist rekursiv).
Die rekursive Natur der vorliegenden Erfindung verrin­ gert den benötigten Speicherplatz, da die gleiche Sprache effizienter dargestellt werden kann und potentiell kleiner sein kann als die einzigen Grammatiken mit endlicher Zu­ standsanzahl des Standes der Technik. Die minimale Form des Netzwerkes, die aus der Verwendung von untergeordneten Netzwerken zur Darstellung von Übergängen in den Netzwerken resultiert, führt zu einem Netzwerk, das mehr zur effektiven Analyse des akustischen Raumes beiträgt. Außerdem erlaubt die vorliegende Erfindung eine einfache Erzeugung und Kombination von verschiedenen Grammatiken, und zwar dyna­ misch während der Laufzeit.
Die vorliegende Erfindung enthält außerdem einen neuen Erkennungsalgorithmus, bei dem jeder während der Suche angetroffene Übergang zu einem Stapel hinzugefügt wird. Wenn einem Wort-Übergang (Bogen) begegnet wird, wird die Suche wie eine normale Suche fortgesetzt. Wenn jedoch eine eine untergeordnete Grammatik mit endlicher Zustandsanzahl indizierende Klasse erreicht wird, wird das Netzwerk auf den Stapel abgelegt. Wenn die Suche das Netzwerk verläßt, geht die Suche bei dem gleichen Punkt des ursprünglichen Netzwer­ kes weiter, von dem aus der Aufruf durchgeführt wurde. Wenn der Stapel leer ist, wurde der Endzustand der globalen, rekursiven Grammatik mit endlicher Zustandsanzahl erreicht, die Erkennungseinheit wird beendet und eine die von der Erkennungseinheit erkannten Sprachsignale darstellende Textausgabe wird ausgegeben.
ÜBERBLICK ÜBER EIN COMPUTERSYSTEM BEI DEM BEVORZUGTEN AUSFÜHRUNGSBEISPIEL
Das bevorzugte Ausführungsbeispiel der Erfindung kann bei Computersystemen mit verschiedenen Konfigurationen eingesetzt werden. Fig. 1 zeigt einige der Basiskomponenten eines solchen Computersystems; sie soll jedoch nicht ein­ schränkend wirken und auch nicht andere Komponenten und Kombinationen von Komponenten ausschließen. Das in Fig. 1 dargestellte Computersystem weist einen Bus oder eine andere Kommunikationseinrichtung 101 zum Informationsaustausch, eine mit dem Bus 101 zur Informationsverarbeitung gekoppelte Verarbeitungseinrichtung 102 (allgemein als Host-Prozessor bezeichnet), einen zur Speicherung von Informationen und Be­ fehlen für den Prozessor 102 mit dem Bus 101 gekoppelten RAM oder eine andere Speichereinrichtung 103 und einen mit dem Bus 101 gekoppelten Nur-Lese-Speicher (ROM) oder eine andere statische Speichereinrichtung 104 zur Speicherung statischer Informationen und Befehle für den Prozessor 102 auf.
Andere mit dem Bus 101 gekoppelte Einrichtungen sind bspw. eine Datenspeichereinrichtung 105, wie z. B. ein Magnetplatten-Laufwerk, zum Speichern von Informationen und Befehlen, eine alphanumerische Eingabeeinrichtung 106, die alphanumerische und andere Tasten aufweist, zum Austauschen von Informationen und Befehlsauswahlen mit dem Prozessor 102, eine Cursor-Steuereinrichtung 107, beispielsweise eine Maus, einen Trackball, Cursor-Steuertasten usw., zum Steuern eines Cursors und zum Austauschen von Informationen und Befehlsauswahlen mit dem Prozessor 102, eine Anzeigeeinrich­ tung 108 zum Anzeigen von Datentexteingaben und -ausgaben, ein Audio-Chip (sound chip) 109 zum Verarbeiten von Klang­ signalen und -informationen, einen Mikrophon/Audio-Empfänger 111 zum Empfangen von Sprach- und Audiosignalen und einen Telekommunikationsport 110 zur Eingabe und Ausgabe von Telekommunikationssignalen und Audiosignalen.
Ein Ausführungsbeispiel der vorliegenden Erfindung ist für die Anwendung auf einigen Computern der Macintosh- Computerfamilie konzipiert, die von Apple Computer, Inc. aus Cupertino, Californien erhältlich sind.
ÜBERBLICK ÜBER DAS SPRACHERKENNUNGSSYSTEM
Die vereinfachte Version des erfindungsgemäßen Spracher­ kennungssystem ist in Fig. 2 dargestellt. Der Empfänger 201, der aus dem Mikrophon/Audio-Empfänger 111 besteht, empfängt die Sprache und wandelt die empfangenen Sprachsignale in eine digitale Darstellung der aufeinanderfolgenden Amplitu­ den des von der Sprache erzeugten Audiosignals um. Dann wandelt der Empfänger 201 das digitale Signal in ein Signal im Frequenzbereich um, das aus einer Rahmenfolge besteht. Jeder Rahmen beschreibt die Amplitude des Sprachsignals in jedem einer Vielzahl von Frequenzbändern über ein bestimmtes Zeitintervall (d. h. ein Fenster). Bei einem Ausführungsbei­ spiel sind die Zeitfenster 10 Millisekunden voneinander beabstandet. Es sei angemerkt, daß die vorliegende Erfindung mit jeder Art von Empfänger und jedem Sprachcodierverfahren verwendet werden kann.
Wenn die Sprache umgewandelt ist, verwendet die Erken­ nungseinheit 102 einen Erkennungsalgorithmus, um die durch das Sprechen erzeugte Rahmenfolge mit einer Knotenfolge zu vergleichen, die in dem akustischen Modell jedes Wortes in dem aktiven Vokabular enthalten ist, wie es von der Gramma­ tik definiert ist, um zu bestimmen, ob es einen Treffer gibt. Bei dem derzeitigen Ausführungsbeispiel der Erfindung enthält das Erkennungsvokabular über 5000 Textwörter. Das Ergebnis des Erkennungs-Vergleichungsprozesses ist entweder eine Textausgabe oder eine von dem Computer durchgeführte Aktion, die dem erkannten Wort entspricht.
Der Erkennungsalgorithmus eines Ausführungsbeispiels der vorliegenden Erfindung verwendet ein Vergleichsverfahren auf Wahrscheinlichkeitsbasis und eine dynamische Programmierung. Der Vergleich bestimmt die Wahrscheinlichkeit, daß ein vorgegebener Rahmen einer Äußerung einem vorgegebenen Knoten in einem akustischen Modell eines Wortes entspricht. Die Wahrscheinlichkeit wird nicht nur als Funktion davon be­ stimmt, wie genau die Amplituden der einzelnen Frequenzbän­ der eines Rahmens mit den in den vorgegebenen Knotenmodellen erwarteten Frequenzen übereinstimmen, sondern auch als Funktion davon, wie sich die Abweichung zwischen dem tat­ sächlichen und den erwarteten Amplituden in jedem derartigen Frequenzband zu den erwarteten Abweichungen für diese Werte verhält.
Die dynamische Programmierung stellt ein Verfahren zur Verfügung, um eine optimale, oder beinahe optimale Überein­ stimmung zwischen der von der Äußerung erzeugten Rahmenfolge und der in dem Modell des Wortes enthaltenen Knotenfolge zu finden. Dies geschieht durch Verlängerung und Verkürzung der Zeitdauer jedes Knotens in dem akustischen Modell eines Wortes, um die natürlichen Variationen bei der Länge der Sprachklänge zu kompensieren, die bei unterschiedlichen Aussprachen des gleichen Wortes auftreten. Für jeden zeit­ lich abgeglichenen Treffer wird eine Punktzahl berechnet, und zwar auf der Basis der Summe der Unterschiede zwischen den akustischen Informationen in jedem Rahmen und dem akustischen Modell des Knotens, gegenüber dem sie zeitlich abgeglichen sind. Dann werden die Wörter mit der niedrigsten Summe dieser Abstände als am besten bewertete Wörter ausge­ wählt. Bei einem Ausführungsbeispiel verwendet die Erfindung eine Sprachmodellfilterung. Wenn eine Sprachmodellfilterung verwendet wird, wird eine Teilpunktzahl, die die Wahrschein­ lichkeit des Auftretens jedes Wortes in dem derzeitigen Sprachkontext wiedergibt, zu der Punktzahl des Wortes addiert, bevor das Wort mit der höchstens Punktzahl ausge­ wählt wird, so daß diejenigen Wörter eher ausgewählt werden, die gemäß dem Sprachmodell am wahrscheinlichsten in dem derzeitigen Kontext auftreten.
Das bei einem Ausführungsbeispiel der vorliegenden Er­ findung verwendete akustische Modell, oder, mit anderen Worten, der verwendete Spracherkennungsalgorithmus, ist das Hidden-Markov-Modell(HMM)-Verfahren. Wie dem Fachmann bekannt ist, bewertet das HMM-Verfahren jedes Wort in dem aktiven Vokabular, indem es das akustische Modell für jedes Wort als einen Hidden-Markov-Prozeß darstellt und indem es die Wahrscheinlichkeit für jedes Wort, daß das Wort das aktuelle akustische Kennzeichen (Token) erzeugt, als Wahr­ scheinlichkeitsfunktion des Hidden-Markov-Prozesses berech­ net. Bei einem Ausführungsbeispiel werden die Punktzahlen der Wörter durch den negativen Logarithmus der Wahrschein­ lichkeiten dargestellt, so daß alle Punktzahlen nicht- negativ sind und eine Punktzahl von Null eine Wahrschein­ lichkeit von Eins darstellt, das heißt eine perfekte Punkt­ zahl. Es sei angemerkt, daß andere Endpunkt- oder Wortver­ gleichsschemen von der vorliegenden Erfindung verwendet werden können.
Die von der Erkennungseinheit der vorliegenden Erfindung durchgeführte Suche wird in Verbindung mit einer globalen Grammatik mit endlicher Zustandsanzahl und einer Sammlung von untergeordneten Grammatiken mit endlicher Zustandsanzahl durchgeführt. Die globale Grammatik mit endlicher Zustands­ anzahl der vorliegenden Erfindung besteht aus Zuständen (Knoten) und Übergängen (Bögen) in einem Netzwerk. Jeder Übergang in dem Netzwerk weist entweder ein Wort oder eine den Index zur einer der untergeordneten Grammatiken mit endlicher Zustandsanzahl bildende Kategorie auf. Das Gestat­ ten von Übergängen als Indizes zu untergeordneten Grammati­ ken mit endlicher Zustandsanzahl macht die globale Grammatik mit endlicher Zustandsanzahl potentiell kleiner, wodurch we­ niger Speicherplatz benötigt wird. Der Speicherplatz wird dadurch noch weiter verringert, daß jeder Index zu einer un­ tergeordneten Grammatik mit endlicher Zustandsanzahl überall im Netzwerk wiederholt verwendet werden kann, so daß die Notwendigkeit nicht mehr besteht, den gleichen Zustand-zu- Zustand-Übergang an verschiedenen Stellen in dem Netzwerk zu wiederholen. Es sei angemerkt, daß jeder mit einem Wort bezeichnete Bogen der globalen Grammatik mit endlicher Zustandsanzahl oder jeder untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordnet ist dem von der vorlie­ genden Erfindung während des Erkennungsprozesses zum Ver­ gleich der empfangenen Sprachsignale verwendeten Mechanismus und diesen in diesem Umfang auch repräsentiert.
Die untergeordneten Grammatiken mit endlicher Zustands­ anzahl enthalten in der gleichen Weise wie die globale Grammatik mit endlicher Zustandsanzahl Zustände und Über­ gänge. Die Übergänge in den untergeordneten Grammatiken mit endlicher Zustandsanzahl können Worte oder andere Indizes für weitere untergeordnete Grammatiken mit endlicher Zu­ standsanzahl darstellen. Bei einem Ausführungsbeispiel ist jeder Übergang in die untergeordneten Grammatiken mit endlicher Zustandsanzahl ein Wort. Außerdem ist jede unter­ geordnete Grammatik mit endlicher Zustandsanzahl in der Lage, sich selbst aufzurufen.
Ein Beispiel einer erfindungsgemäßen rekursiven Gramma­ tik mit endlicher Zustandsanzahl ist in den Fig. 3A - E dargestellt. Es wird auf Fig. 3A Bezug genommen. Die darge­ stellte globale Grammatik mit endlicher Zustandsanzahl weist sieben Knoten 301 bis 307 auf, die über Bögen 321 bis 327 gekoppelt sind. Der Knoten 301 stellt den Anfang der globa­ len Grammatik mit endlicher Zustandsanzahl dar und der Knoten 307 das Ende der globalen Grammatik mit endlicher Zu­ standsanzahl dar. Der Bogen 321 koppelt die Knoten 301 und 302 und ihm ist der Index zu der untergeordneten Grammatik mit endlicher Zustandsanzahl <suche< zugeordnet. Dieser Index wird in Fig. 3B als der Klasse (d. h. Vokabular) der Positionswörter zugehörig beschrieben, die aus "finde" und "hole" besteht. Der Bogen 324 koppelt die Knoten 301 und 304 und ist das Wort "sende". Die Bögen 322 und 325 koppeln die Knoten 302 und 304 mit den Knoten 303 bzw. 305; ihnen ist der Index zu der untergeordneten Grammatik mit endlicher Zu­ standsanzahl <Dokument< zugeordnet. Diese Grammatik ist in Fig. 3C als der Klasse von Dokumentarten entsprechend beschrieben, die aus "Papier" und "Figur" besteht. Die Knoten 303 und 305 sind mit dem Knoten 306 über Bögen 323 bzw. 326 gekoppelt. Der Bogen 323 stellt das Wort "von" und der Bogen 326 das Wort "an" dar. Der Knoten 306 ist über den Bogen 327 mit dem Knoten 307 gekoppelt, der den Index zu der untergeordneten Grammatik mit endlicher Zustandsanzahl <Personenname< darstellt. Diese Grammatik ist in Fig. 3D als der Klasse der Personennamen von Einzelpersonen entsprechend dargestellt, bestehend aus John, Mary und NEUES-WORT. Jeder Knoten 301 bis 307 ist außerdem jeweils mit einem geschlos­ senen Schleifenbogen 311 bis 317 gekoppelt. Jedem Bogen 311 bis 317 ist ein Index zu der untergeordneten Grammatik mit endlicher Zustandsanzahl der Geräuschwörter <nv< zugeordnet, die in Fig. 3E dargestellt ist. Es sei wiederholt, daß die Wörter, beispielsweise das dem Bogen 324 zugeordnete Wort "sende", die akustischen Modelle für die Wörter darstellen.
Es wird Fig. 3D Bezug genommen, in der die untergeordne­ te Grammatik mit endlicher Zustandsanzahl <suche< der Positionswörter dargestellt ist, die aus den Knoten 331 und 332 besteht. Diese sind durch den das Wort "finde" (d. h. den zum Vergleich der Spracheingabe mit dem Wort "finde" verwen­ deten akustischen Modellmechanismus) und durch den das Wort "hole" (d. h. den zum Vergleich der Spracheingabe mit dem Wort "hole" verwendeten akustischen Modellmechanismus) darstellenden Bogen 334 gekoppelt. Das akustische Modell für das (englische) Wort "find" ist in Fig. 4 dargestellt. Es wird auf Fig. 4 Bezug genommen. Das akustische Modell ist als Reihe von Knoten 401 bis 405 dargestellt, die jeweils durch einen Phonbogen gekoppelt sind. Der Knoten 401 ist mit dem Knoten 402 über den Bogen das akustische Phon /f/­ darstellenden Bogen 406 gekoppelt. Der Knoten 402 ist über den das akustische Phon /ay/ darstellenden Bogen 407 mit dem Knoten 403 gekoppelt. Der Knoten 403 ist über den das akustische Phon /n/ darstellenden Phon mit dem Knoten 404 gekoppelt. Der Knoten 404 ist über den das akustische Phon /d/ darstellenden Bogen mit dem Knoten 405 gekoppelt. Es sei angemerkt, daß alle mit einem Wort bezeichneten Bögen, die in der Beschreibung erwähnt werden, akustischen Modellen, wie dem in Fig. 4 dargestellten, entsprechen.
Es wird auf Fig. 3C Bezug genommen. Die untergeordnete Grammatik mit endlicher Zustandsanzahl <Dokument< der Dokumentart ist als die Knoten 341 bis 343 und die Bögen 344 bis 346 aufweisend dargestellt. Die untergeordnete Grammatik mit endlicher Zustandsanzahl beginnt mit dem Knoten 341 und ist über den Bogen 344 mit dem Knoten 342 gekoppelt, der dem Wort "das" entspricht. Der Knoten 342 über den das Wort "Papier" darstellenden Bogen 345 und den das Wort "Figur" darstellenden Bogen 346 mit dem Bogen 343 gekoppelt.
Es wird auf Fig. 3D bezug genommen, in der die unterge­ ordnete Grammatik <Personenname< der Personennamen darge­ stellt ist, die die Knoten 351 bis 352 und die Bögen 353 bis 355 aufweist. Der Knoten 351 ist mit dem Knoten 352 über den das Wort "Mary" darstellenden Bogen 353, durch den das Wort "John" darstellenden Bogen 354 und durch den das Wort "NEUES-WORT" darstellenden Bogen 355 gekoppelt. Das NEUE- WORT stellt ein vokabularfremdes Wort dar, das nicht in der ursprünglichen Vokabularkategorie (z. B. in diesem Fall den Personennamen) war. Die Erkennungseinheit kann dadurch ein das Vorhandensein der vokabularfremden Wörter anzeigende Ausgabe erzeugen, daß ein allgemeines akustisches Modell für "NEUES-WORT" in der untergeordneten Grammatik mit endlicher Zustandsanzahl enthalten ist. Die vorliegende Erfindung ermöglicht die Integration einer Erkennungsmöglichkeit von vokabularfremden (out-off-vocabulary - OOV) Wörtern für Offene-Klassen-Grammatikkategorien. Eine Offene-Klasse- Grammatikkategorie ist eine Kategorie, in der eines der akustischen Modelle mit einer hohen Wahrscheinlichkeit mit einem beliebigen gesprochenen Wort korreliert. Das Offene- Klassen-OOV-Netzwerk wird als Folge von untergeordneten Netzwerken aus beliebigen Phonen dargestellt. Eine Eigen­ schleife in dem letzten Zustand ermöglicht beliebig lange Wörter. Fig. 5 zeigt ein Beispiel eines Netzwerkes aus beliebigen Phonen für "NEUES-WORT". Es wird auf Fig. 5 bezug genommen. Das beispielhafte akustische Modell für NEUES-WORT weist die Knoten 501 bis 504 und die Bögen 505 bis 509 auf. Der Knoten 501 ist der Anfang und ist mit dem Knoten 502 über den Bogen 505 gekoppelt, der jedes beliebige Phon in dem NEUEN-WORT darstellt. Der Knoten 502 ist mit dem Knoten 503 über den Bogen 506 gekoppelt, der wiederum ein Phon in dem NEUEN-WORT darstellt. Der Knoten 503 ist zur Beendigung des akustischen Modells für NEUES-WORT über den Bogen 507 mit dem Knoten 504 gekoppelt. Wiederum stellt der Bogen 507 ein weiteres Phon in dem NEUEN-WORT dar. Die Bögen 508 und 509 sind zu sich selbst zurückkehrende Schleifenbögen, die bei den Knoten 502 bzw. 503 starten und enden. Diese Bögen stellen ebenfalls jedes beliebige Phon in dem akustischen Modell für NEUES-WORT dar. Auf diese Weise stellt das akustische Modell NEUES-WORT eine Vielzahl von Phonen dar. Es sei angemerkt, daß das akustische Modell für NEUES-WORT jede Anzahl von Phonen enthalten kann. Die tatsächliche Anzahl der gewählten Phone, die die minimale Länge des akustischen Modells angibt, ist von der normalerweise vom Entwickler getroffenen Designwahl abhängig. Die Darstellung ist hierarchisch, so daß nur ein Netzwerk, entweder das Netzwerk aus beliebigen Phonen, wie beispielsweise das in Fig. 5 beschriebene, oder das OOV-Netzwerk benötigt wird. Auf diese Weise verringert die vorliegende Erfindung den zur Kompensation von OOV-Wörtern benötigten Speicherplatz.
Bei der vorliegenden Erfindung bezieht ein Wörterbuch vokabularfremde Wörter in die Erkennungseinheit ein. Das Wörterbuch enthält nonverbale Wörter, Phonwörter oder beides. Der Systementwickler verfügt über weitere zugäng­ liche Parameter neben dem Einstellen der Minimalanzahl von Phonen, durch die die vokabularfremde Erfassung gesteuert werden kann. Eine Sprachgewichtung für offene-Klassen- Übergänge in der Grammatik kann außerdem ausgewählt werden, um das Verhältnis von Falschmeldungen (d. h. Wörtern, die von der vokabularfremden Erfassung erkannt werden, wenn sie momentan im Wörterbuch sind) zu Erfassungen zu steuern. Die Sprachwichtung ist eine Anpassung an die Wahrscheinlichkei­ ten eines Sprachmodells, wobei weniger wahrscheinlichen Sprachmodellen eine geringere Wahrscheinlichkeit zugeordnet ist, so daß sie mit einer geringeren Wahrscheinlichkeit als Ergebnis eines Erkennungsprozesses ausgewählt werden. In ähnlicher Weise wird eine Sprachgewichtung für jeden Phonbo­ gen in dem Netzwerk aus beliebigen Phonen ausgewählt, um eine weitere Kontrolle über Falschmeldungen/Erfassungen zu ermöglichen.
Es wird wiederum auf Fig. 3E Bezug genommen, in der die untergeordnete Grammatik mit endlicher Zustandsanzahl <nv< gezeigt ist, die die Knoten 361 bis 362 und die Bögen 363 bis 366 aufweist. Der Knoten 361 ist mit dem Knoten 362 gekoppelt über einen den akustischen Mechanismus für das Ge­ räusch eines Telefonklingelns darstellenden Bogen 363, einen den akustischen Mechanismus für ein Hustengeräusch darstel­ lenden Bogen 364, einen den akustischen Mechanismus für das Geräusch von Stille darstellenden Bogen 365 und einen den akustischen Mechanismus für das Geräusch von Türschlagen darstellenden Bogen 366. Es sei angemerkt, daß die unterge­ ordnete Grammatik mit endlicher Zustandsanzahl <nv< eine nonverbale untergeordnete Grammatik mit endlicher Zustands­ anzahl (Netzwerk) ist und zwar deshalb, weil die Erkennung kein Wort, sondern ein Geräusch ist.
Fig. 3E veranschaulicht in Verbindung mit Fig. 3A die vorteilhafte Weise, in der bei der vorliegenden Erfindung nonverbale Modelle verwendet werden. In diesem Fall werden die nonverbalen Modelle von Geräuschen, beispielsweise Husten, Niesen usw., bei der Erfindung als eine Klasse oder ein untergeordnetes Netzwerk dargestellt. Durch die Verwen­ dung von untergeordneten Grammatiken mit endlicher Zustands­ anzahl zur Implementierung von verschiedener Klassen von Ge­ räuschen, die während des Erkennungsprozesses auftreten können, kann die Größe des Netzwerkes im Vergleich zu den bekannten monolithischen Grammatiken mit endlicher Zustands­ anzahl verringert werden, während nur ein geringer System­ aufwand verursacht wird. Die Größe des Netzwerks kann verringert werden, weil nicht die gesamte Geräuschklasse an jedem Knoten in das Netzwerk einbezogen werden muß. Außerdem wird der Speicherplatz zur Speicherung des nonverbalen Geräuschmodells reduziert, weil die verschiedenen Geräusch­ klassen (d. h. die untergeordnete Grammatik mit endlicher Zu­ standsanzahl) nur kompiliert werden, wenn sie benötigt werden. Dies trifft insbesondere dann zu, wenn eine große Anzahl nonverbaler Modelle verwendet wird. Diese untergeord­ neten Grammatiken mit endlicher Zustandsanzahl, oder Katego­ rien von Geräuschen können bei jedem Zustand in der Erken­ nungseinheit angeordnet sein (d. h. an jedem Knoten in dem Netzwerk) und gleichen jeder anderen untergeordneten Gramma­ tik mit endlicher Zustandsanzahl. Diese nonverbalen Netz­ werke werden unter Verwendung eines Eigenschleifen-Mechanis­ mus implementiert, so daß der Anfang und das Ende der Bögen, die dem nonverbalen Netzwerk entsprechen, sich an dem gleichen Ort befindet. Auf diese Weise ermöglicht die vorliegende Erfindung die Verwendung von nonverbalen Netz­ werken, die frei im Netzwerk bei geringer Einschränkung der Leistung angeordnet sein können.
Die in Fig. 3A-E dargestellten Netzwerke werden in der gleichen Weise wie bekannte monolithische Grammatiken mit endlicher Zustandsanzahl unter Verwendung von Zeigern im Speicher implementiert, was im Stand der Technik bekannt ist. Wichtig ist, daß die Beziehung zwischen der globalen Grammatik mit endlicher Zustandsanzahl und den untergeordne­ ten Grammatiken mit endlicher Zustandsanzahlen der vorlie­ genden Erfindung von hierarchischer Natur ist.
Die Fig. 3A-E stellen die statischen Beschreibungen eines Beispiels einer rekursiven Grammatik mit endlicher Zu­ standsanzahl der vorliegenden Erfindung dar. Zur Verwendung dieser statischen Beschreibungen, d. h. um sie dynamisch zu machen, müssen die globale und die untergeordnete Grammatik mit endlicher Zustandsanzahl kompiliert werden. Bei bekann­ ten Erkennungseinheiten geht die hierarchische Natur beim Kompilieren verloren, obwohl einige Grammatiken hierarchisch sind. Die vorliegende Erfindung behält den hierarchischen Aufbau während des Erkennungsprozesses, da jede untergeord­ nete Grammatik mit endlicher Zustandsanzahl und die globale Grammatik mit endlicher Zustandsanzahl einzeln kompiliert werden. Auf die untergeordneten Grammatiken mit endlicher Zustandsanzahl wird nur zugegriffen, wenn sie benötigt werden. Auf diese Weise kann jede benötigte Speicherzuwei­ sung solange verzögert werden, bis ein Zugriff erforderlich ist, so daß die Erkennungseinheit durch Zusammenfügen der Grammatiken zu einer Lösung gelangt. Wenn kein Zugriff benötigt wird, wird keine Speicherzuweisung durchgeführt. Auf diese Weise spart die vorliegende Erfindung Speicher­ platz. Dadurch, daß die untergeordneten Grammatiken mit endlicher Zustandsanzahl einzeln kompiliert werden können, können außerdem alle Änderungen in Form von Einfügungen und Löschungen in einzelnen untergeordneten Grammatiken mit endlicher Zustandsanzahl durchgeführt werden, ohne daß das globale Netzwerk mit endlicher Zustandsanzahl modifiziert und nachfolgend erneut kompiliert werden muß. Daher muß die globale Grammatik mit endlicher Zustandsanzahl nicht jedes­ mal erneut kompiliert werden, wenn eine Änderung in der Erkennungseinheit auftritt. Die vorliegende Erfindung verfügt auf diese Weise über eine Erkennungseinheit mit einer sehr flexiblen Laufzeit.
Sobald die globale Grammatik mit endlicher Zustandsan­ zahl und die einzelnen untergeordneten Grammatiken mit endlicher Zustandsanzahl kompiliert sind, kann die Erken­ nungseinheit mit dem Erkennungsprozeß beginnen. Der Erken­ nungsprozeß ist üblicherweise ein Vergleichsprozeß, in dem die akustischen Modelle mit den Spracheingangssignalen verglichen werden. Bei der vorliegenden Erfindung jedoch muß die Erkennungseinheit dort, wo sie einem Nicht-Endpunkte der globalen Grammatik mit endlicher Zustandsanzahl (oder genauso einer untergeordneten Grammatik mit endlicher Zustandsanzahl) begegnet, in der Lage sein, zu identifizie­ ren, daß der Übergang einen Index zu einem untergeordneten Netzwerk enthält. Mit anderen Worten, die Erkennungseinheit sieht nicht nur Endpunkte. Stattdessen sieht die Erkennungs­ einheit eine allgemeine Kategorie oder Klasse. Daher muß die vorliegende Erfindung in der Lage sein, das Vorhandensein von Nicht-Endpunkten in dem Netzwerk zu kompensieren. Um die rekursiven Grammatiken mit endlicher Zustandsanzahl der vorliegenden Erfindung bei dem Erkennungsprozeß zu verwen­ den, wird in dem Speicher des Computersystems ein Stapel­ system erzeugt und zur Durchführung des Erkennungsprozesses verwendet.
Zur Laufzeit werden alle ersten Phone der akustischen Modelle (Mechanismen), die den Übergängen von dem ersten Knoten des Netzwerkes entsprechen, in den Stapel eingegeben. Beispielsweise in dem Fall des (englischen) Wortes "find" in Fig. 4, würde das Phon /f/ in den Stapel eingegeben. Die Mo­ delle werden entsprechend der Reihenfolge ihres Auftretens in dem Netzwerk in den Stapel eingegeben. Mit dem Fort­ schreiten des Erkennungsprozesses werden nachfolgende Phone der akustischen Modelle, die den aktuell bewerteten Übergän­ gen in dem Netzwerk entsprechen, in den Stapel eingegeben, während einige der vorangegangenen Phone entfernt werden können. Auf diese Weise kann der Stapel wachsen und schrump­ fen. Es ist zu beachten, daß jeder Pfad durch das Netzwerk eine mögliche Theorie über die akustischen Eingangssignale sein kann. Beim Fortschreiten des Erkennungsprozesses werden bestimmte Theorien unwahrscheinlicher. In diesem Fall können diesen weniger wahrscheinlichen Theorien zugeordnete Teile der akustischen Modelle aus dem Stapel entfernt werden.
Wenn die Erkennungseinheit das Netzwerk durchläuft (d. h. indem sie durch den seriellen Stapel wandert), trifft sie sowohl Endpunkte (zum Beispiel Wörter, Phone usw., die akustische Modelle aufweisen) als auch Nicht-Endpunkte (d. h. Indizes zu untergeordneten Grammatiken mit endlicher Zu­ standsanzahl). Die Endpunkte werden vergrößert und die zugehörigen akustischen Modelle (z. B. HMM) werden in den Stapel eingegeben. Auf diese Weise liegt ein Stapel von aktiven Mechanismen (z. B. HMMs) vor, wenn die Suche ausge­ führt wird. Es sei wiederholt darauf hingewiesen, daß das Eingeben von Endpunkten und Nicht-Endpunkten in den Stapel während der Laufzeit bedarfsweise durchgeführt wird. Daher muß das gesamte Netzwerk keinen Speicherplatz belegen, so daß die vorliegende Erfindung eine große Menge Speicherplatz einspart.
Wenn während der Suche ein Nicht-Endpunkt erreicht wird, muß die Erkennungseinheit die untergeordnete Grammatik mit endlicher Zustandsanzahl (d. h. das untergeordnete Netzwerk) erlangen und es in dem Erkennungsprozeß verwenden. Bei dem bevorzugten Ausführungsbeispiel leitet ein Zeiger die Erkennungseinheit zu dem untergeordneten Netzwerk des Nicht- Endpunktes. Die Erkennungseinheit erzeugt eine dynamische Version des untergeordneten Netzwerkes und gibt die dynami­ sche Version in den Stapel ein. Die dynamische Version ist eine Kopie der untergeordneten Grammatik mit endlicher Zustandsanzahl. Es wird deshalb eine Kopie angefertigt, weil das spezielle untergeordnete Netzwerk an mehr als einer Stelle in der hierarchischen Topologie auftauchen kann, so daß die Erkennung in der Lage ist, allen verschiedenen Theorien oder Fällen der Verwendung nachzukommen. Jede Theorie oder jedes Modell weist eine aus einer Wortfolge be­ stehende Historie auf. Das Auftreten jedes untergeordneten Netzwerkes in einem Netzwerk ist auf diese Weise mit seiner eigenen Historie verbunden, so daß die Wahrscheinlichkeit des Auftretens des untergeordneten Netzwerkes einheitlich in dem Netzwerk (oder untergeordnetem Netzwerk) identifiziert ist. Bei einem Ausführungsbeispiel ist die Historie nur die Identität des letzten Vorgängers. Die einer bestimmten Theorie zugeordnete Punktzahl ist ein Prozentsatz, der die Wahrscheinlichkeit angibt, daß das aktuelle Wort auf den Vorgänger folgt.
Die dynamische Version enthält die Topologie des Netz­ werkes und außerdem die von der Erkennungseinheit zur Erzeugung des Ergebnisses benötigten Informationen (d. h. seine Identität, seine Historie und seine dem untergeordne­ ten Netzwerk zugeordneten Punktzahlen). Die aktuelle unter­ geordnete Grammatik mit endlicher Zustandsanzahl wird nicht auf den Stapel eingegeben, da sie an anderen Orten des globalen Netzwerkes auftreten und auf diese Weise benötigt werden könnte. Während verschiedene Teile der globalen Grammatik mit endlicher Zustandsanzahl durchlaufen werden und Nicht-Endpunkte zu Endpunkten und Nicht-Endpunkten erweitert werden, werden somit die akustischen Modelle der Endpunkte in den Stapel eingegeben. Die Erkennungseinheit erkennt die akustischen Modelle bei dem Erkennungsprozeß in der gleichen Weise wie bekannte Erkennungssysteme mit Grammatiken mit endlicher Zustandsanzahl.
Wenn jede Klasse oder Kategorie, die ein untergeordnetes Netzwerk indiziert, in den Stapel eingegeben wird, gibt es einen Mechanismus, mit dem das untergeordnete Netzwerk durchlaufen werden kann. Bei einem Ausführungsbeispiel kann das untergeordnete Netzwerk aus dem Stapel herausgeholt werden. Bei dem bevorzugten Ausführungsbeispiel werden bei dem Eingeben eines untergeordneten Netzwerkes in den Stapel dem Endzustand entsprechende Informationen in den Stapel eingegeben. Mit anderen Worten, es wird die Information in den Stapel eingegeben, die den Endzustand des aktuellen untergeordneten Netzwerkes als den Ort des nächsten Knotens im Netzwerk identifiziert, der das aktuelle untergeordnete Netzwerk aufrief. Wenn die Erkennungseinheit das Durchlaufen eines bestimmten untergeordneten Netzwerkes beendet, dann weist die Erkennungseinheit mit Hilfe des Zeigers zu dem nächsten Ort, wohin sie übergehen soll, indem sie sich auf den Endzustand bezieht. Deshalb ist es indem bevorzugten Ausführungsbeispiel nicht nötig, eine Möglichkeit zum Herausholen von Informationen aus dem Speicher vorzusehen. Es sei angemerkt, daß der im vorangegangenen beschriebene, zu sich selbst zurückkehrende Schleifenmechanismus dieses Merkmal verwendet. Indem der Endzustand gleich dem Anfangs­ zustand ist, ist der auftretende Übergang in der Lage, zu sich selbst zurückzukehren.
Wenn die Wortmechanismen in dem Stapel sind, führt die Erkennungseinheit die Suche aus. Auf der Basis der Wahr­ scheinlichkeit der Theorien fährt die Erkennungseinheit bei dem nächsten Mechanismus oder den nächsten Mechanismen fort. Der Stapel wächst und schrumpft, je nachdem wie die Theorien überleben (oberhalb einer Schwellwertwahrscheinlichkeit liegen) oder sterben (unterhalb einer Schwellwertwahrschein­ lichkeit liegen). Wenn alle Mechanismen bewertet wurden, was von einem leeren Stapel angezeigt wird, wird die wahrschein­ lichste Theorie als Textausgabe oder als vom Computer vorgenommene Aktion (z. B. Öffnen eines Ordners usw.) er­ zeugt. In dem Fall eines Textes stellt die Textausgabe die erkannte Sprache dar.
Obwohl viele Veränderungen und Modifikationen der vor­ liegenden Erfindung für den Fachmann nach dem Lesen der vorangegangene Beschreibung offensichtlich sind, ist es klar, daß das dargestellte und zur Veranschaulichung be­ schriebene Ausführungsbeispiel nicht als Einschränkung betrachtet werden soll. Daher soll der Bezug zu Einzelheiten des bevorzugten Ausführungsbeispiels den Schutzbereich der Ansprüche nicht beschränken, die selbst nur diejenigen Merkmale aufführen, die als wesentlich für die Erfindung be­ trachtet werden.

Claims (15)

1. Spracherkennungssystem zur Erkennung von Sprachsigna­ len aufweisend:
eine Mehrzahl von Grammatiken mit einer endlichen Anzahl von Zuständen enthaltend wenigstens eine globale Grammatik mit einer endlichen Anzahl von Zuständen und wenigstens eine untergeordnete Grammtik mit einer endlichen Anzahl von Zuständen, wobei jede Grammatik eine Mehrzahl von Zuständen und wenigstens einen Übergang enthält, der in einem Netzwerk angeordnet ist, und wobei ferner die Übergänge entweder Endpunkte oder Nicht-Endpunkte enthalten können, wobei jedem Endpunkt ein akustisches Modell und jedem Nicht-Endpunkt ein Aufruf zu der wenigstens einen untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordnet ist; und
eine Erkennungseinrichtung zum Ausführen der Erkennung durch ein Durchlaufen der globalen Grammatik mit endlicher Zustandsanzahl, wobei die Erkennungseinheit, wenn sie auf einen Endpunkt trifft, das akustische Modell des Endpunktes bei der Erkennung der Sprachsignale verwendet, und, wenn sie auf einen Nicht-Endpunkt trifft, die dem Nicht-Endpunkt zugeordnete, untergeordnete Grammatik mit endlicher Zu­ standsanzahl aufruft und mit der Erkennung fortfährt, indem sie die untergeordnete Grammatik mit endlicher Zustandsan­ zahl derart durchläuft, daß bei Beendigung des Durchlauf s durch die untergeordnete Grammatik mit endlicher Zustandsan­ zahl die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurückkehrt und mit dem Durchlauf dieser Grammatik fortfährt.
2. System nach Anspruch 1, wobei jeder Endpunkt ein Wort ist.
3. System nach Anspruch 1, wobei das akustische Modell ein Hidden-Markov-Modell aufweist.
4. System nach Anspruch 1, wobei die Erkennungseinrich­ tung die Grammatiken unter Verwendung eines Stapels derart durchläuft, daß, wenn die Erkennungseinheit auf einen Endpunkt einer der Mehrzahl der Grammatiken mit endlicher Zustandsanzahl trifft, das diesem Endpunkt zugeordnete akustische Modell in den Stapel eingegeben wird.
5. System nach Anspruch 4, wobei Informationen hinsicht­ lich des nächsten Zustandes zusammen mit den den Endpunkten der untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordneten akustischen Modellen in den Stapel eingegeben werden, so daß die Erkennungseinheit bei Beendigung des Durchlaufs durch die untergeordnete Grammatik mit endlicher Zustandsanzahl an dem von dem nächsten Zustand angezeigten Ort fortfährt.
6. System nach Anspruch 1, wobei die Erkennungseinheit feststellt, ob das Ende der globalen Grammatik mit endlicher Zustandsanzahl erreicht wurde, indem sie feststellt, ob der Stapel leer ist, wobei der Erkennungsprozeß beendet ist.
7. Spracherkennungssystem zum Erkennen von Sprachsigna­ len aufweisend:
eine Mehrzahl von Grammatiken mit endlicher Zustandsan­ zahl enthaltend wenigstens eine globale Grammatik mit endlicher Zustandsanzahl und wenigstens eine untergeordnete Grammatik mit endlicher Zustandsanzahl, wobei jede der Mehrzahl von Grammatiken eine Mehrzahl von Zuständen und we­ nigstens einen Übergang enthält, der in einem Netzwerk angeordnet ist, und wobei die Übergänge außerdem entweder Wörter oder Klassen enthalten können, wobei jedem Wort ein akustisches Modell und jeder Klasse ein Aufruf zu der wenigstens einen untergeordneten Grammatik mit endlicher Zu­ standsanzahl zugeordnet ist; und
eine Erkennungseinrichtung zum Ausführen der Erkennung durch Durchlaufen der globalen Grammatik mit endlicher Zustandsanzahl, wobei die Erkennungseinheit, wenn ein Wort getroffen wird, die Erkennung mit Hilfe des dem Wort zuge­ ordneten akustischen Modells durchführt, und, wenn eine Klasse getroffen wird, die der Klasse zugeordnete, unterge­ ordnete Grammatik mit endlicher Zustandsanzahl aufruft und mit der Erkennung dadurch fortfährt, daß die untergeordnete Grammatik mit endlicher Zustandsanzahl durchlaufen wird, so daß bei Beendigung des Durchlaufs der untergeordneten Grammatik mit endlicher Zustandsanzahl die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurückkehrt und dort mit dem Durchlaufen fortfährt.
8. System nach Anspruch 7, wobei wenigstens ein Zustand in wenigstens einer der Mehrzahl von Grammatiken mit end­ licher Zustandsanzahl einen zu sich selbst zurückkehrenden Schleifenübergang enthält, der an dem gleichen Zustand beginnt und endet.
9. System nach Anspruch 8, wobei der zu sich selbst zu­ rückkehrende Schleifenübergang ein Geräuschwort darstellt.
10. System nach Anspruch 8, wobei der zu sich selbst zu­ rückkehrende Schleifenübergang eine Klasse enthält.
11. System nach Anspruch 10, wobei die Klasse eine un­ tergeordnete Grammatik mit endlicher Zustandsanzahl aus Geräuschen aufweist, so daß jeder Übergang in der unterge­ ordneten Grammatik mit endlicher Zustandsanzahl Geräusche darstellenden akustischen Modellen zugeordnet ist.
12. System nach Anspruch 7, wobei wenigstens einem Über­ gang ein akustisches Modell mit allen Phonen zugeordnet ist, so daß eine Erfassung für vokabularfremde Wörter vorgesehen ist.
13. System nach Anspruch 12, wobei das akustische Modell mit allen Phonen wenigstens einen zu sich selbst zurückkeh­ renden Schleifenübergang aufweist, und wobei außerdem dem zu sich selbst zurückkehrenden Schleifenübergang ein akusti­ sches Modell mit allen Phonen zugeordnet ist.
14. System nach Anspruch 13, wobei der wenigstens eine zu sich selbst zurückkehrende Schleifenübergang an dem letzten Zustand angeordnet ist, um beliebig lange Wörter zu kompensieren.
15. Verfahren zum Erkennen von Sprachsignalen, aufwei­ send die Schritte:
daß ein erstes Übergangsnetzwerk mit Zuständen und Über­ gängen zwischen den Zuständen derart geschaffen wird, daß das erste Zustandsnetzwerk durchlaufen werden kann, wobei jedem Übergang ein Endpunkt oder eine Klasse zugeordnet ist;
daß ein zweites Übergangsnetzwerk mit Zuständen und we­ nigstens einem Übergang zwischen den Zuständen derart geschaffen wird, daß das zweite Übergangsnetzwerk durchlau­ fen werden kann;
daß das erste Netzwerk derart durchlaufen wird, daß eine Spracherkennung durchgeführt wird, wobei das zweite Netzwerk aufgerufen wird, wenn der der Klasse zugeordnete Übergang beim Durchlaufen des ersten Netzwerkes erreicht wird, so daß das zweite Übergangsnetzwerk durchlaufen wird; und
daß nach Durchlauf des zweiten Übergangsnetzwerkes zu dem ersten Netzwerk zurückgekehrt wird, und daß das Durch­ laufen des ersten Netzwerkes an dem Aufrufpunkt derart fortgesetzt wird, daß die Sprachsignale erkannt werden.
DE4397100A 1992-12-31 1993-12-28 Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl Expired - Lifetime DE4397100C2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US99901792A 1992-12-31 1992-12-31
PCT/US1993/012598 WO1994016434A1 (en) 1992-12-31 1993-12-28 Recursive finite state grammar

Publications (1)

Publication Number Publication Date
DE4397100C2 true DE4397100C2 (de) 2003-02-27

Family

ID=25545784

Family Applications (2)

Application Number Title Priority Date Filing Date
DE4397100A Expired - Lifetime DE4397100C2 (de) 1992-12-31 1993-12-28 Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE4397100T Pending DE4397100T1 (de) 1992-12-31 1993-12-28 Rekursive Grammatik mit endlicher Zustandsanzahl

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE4397100T Pending DE4397100T1 (de) 1992-12-31 1993-12-28 Rekursive Grammatik mit endlicher Zustandsanzahl

Country Status (4)

Country Link
AU (1) AU6080094A (de)
CA (1) CA2151371A1 (de)
DE (2) DE4397100C2 (de)
WO (1) WO1994016434A1 (de)

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1199707A3 (de) * 1995-05-26 2002-05-02 Speechworks International, Inc. Verfahren und Vorrichtung zur dynamischen Anpassung eines Spracherkennungssystems mit grossem Wortschatz und zur Verwendung von Einschränkungen aus einer Datenbank in einem Spracherkennungssystem mit grossem Wortschatz
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
EP0903727A1 (de) * 1997-09-17 1999-03-24 Istituto Trentino Di Cultura System und Verfahren zur automatischen Spracherkennung
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7584103B2 (en) 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP2030196B1 (de) 2006-06-22 2018-09-05 Multimodal Technologies, LLC Verifizierung extrahierter daten
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
EP3480811A1 (de) 2014-05-30 2019-05-08 Apple Inc. Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0242743A1 (de) * 1986-04-25 1987-10-28 Texas Instruments Incorporated Spracherkennungssystem
EP0248377A2 (de) * 1986-06-02 1987-12-09 Motorola, Inc. System zur Erkennung kontinuierlicher Sprache

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0242743A1 (de) * 1986-04-25 1987-10-28 Texas Instruments Incorporated Spracherkennungssystem
EP0248377A2 (de) * 1986-06-02 1987-12-09 Motorola, Inc. System zur Erkennung kontinuierlicher Sprache

Also Published As

Publication number Publication date
AU6080094A (en) 1994-08-15
DE4397100T1 (de) 1995-11-23
CA2151371A1 (en) 1994-07-21
WO1994016434A1 (en) 1994-07-21

Similar Documents

Publication Publication Date Title
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE3783154T2 (de) Spracherkennungssystem.
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE69724485T2 (de) Lokalisierung eines Musters in einem Signal
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE60109999T2 (de) Spracherkennung mittels lexikalischer Bäumen
DE10054583C2 (de) Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE3786822T2 (de) Spracherkennungssystem.
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE69333762T2 (de) Spracherkennungssystem
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8607 Notification of search results after publication
8304 Grant after examination procedure
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: APPLE INC., CUPERTINO, CALIF., US

R071 Expiry of right