DE4397100C2 - Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl - Google Patents
Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher ZustandsanzahlInfo
- Publication number
- DE4397100C2 DE4397100C2 DE4397100A DE4397100A DE4397100C2 DE 4397100 C2 DE4397100 C2 DE 4397100C2 DE 4397100 A DE4397100 A DE 4397100A DE 4397100 A DE4397100 A DE 4397100A DE 4397100 C2 DE4397100 C2 DE 4397100C2
- Authority
- DE
- Germany
- Prior art keywords
- states
- grammar
- finite number
- subordinate
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 28
- 230000007704 transition Effects 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 description 16
- 230000001755 vocal effect Effects 0.000 description 7
- 230000003068 static effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 241000448472 Gramma Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 241001212789 Dynamis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 206010041232 sneezing Diseases 0.000 description 1
- 241000894007 species Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die vorliegende Erfindung betrifft das Gebiet der konti
nuierlichen Spracherkennung; insbesondere betrifft die
vorliegende Erfindung bei dem Erkennungsprozeß verwendete
Netzwerke von Grammatiken mit endlicher Zustandsanzahl.
In letzter Zeit sind Spracherkennungssysteme auf dem
heutigen Hochtechnologiemarkt häufiger anzutreffen. Aufgrund
von Fortschritten in der Computertechnologie und bei Sprach
erkennungsalgorithmen sind diese Spracherkennungssysteme
leistungsstärker geworden.
Derzeitige Spracherkennungssysteme arbeiten so, daß sie
eine akustische Beschreibung oder ein Modell eines Wortes in
ihrem Vokabular mit einer Darstellung des akustischen
Signals vergleichen, die durch das Aussprechen des zu
erkennenden Wortes erzeugt wird. Das Vokabular enthält
sämtliche Wörter, die das Spracherkennungssystem erkennen
kann. Mit anderen Worten, das Vokabular besteht aus all den
Wörtern, die in dem System gespeicherte akustische Modelle
haben. Es sei angemerkt, daß nicht das gesamte Vokabular die
ganze Zeit aktiv ist. Zu einer beliebigen Zeit kann nur ein
Teil des Vokabulars aktiv sein. Üblicherweise ist nur ein
Teil des Vokabulars aktiviert, da es im gegenwärtigen Stand
der Technik Einschränkungen gibt. Sprachmodelle werden
verwendet, um anzuzeigen, welcher Teil des Vokabulars
derzeitig aktiv ist.
Bei der kontinuierlichen Spracherkennung ist jedes
Sprachmodell mit einer Grammatik verbunden. Eine Grammatik
stellt die Menge aller möglichen Satzsequenzen dar, die für
irgendein bestimmtes Vokabular eine erkennbare Eingabe für
das Spracherkennungssystem darstellen. Üblicherweise stellt
die Grammatik nicht jede Kombination von Wörtern aus dem Vo
kabular dar. Stattdessen stellt die Grammatik die Wortkombi
nationen in dem Vokabular dar, die in dem speziellen Kontext
oder der gerade verwendeten Anwendung eine Bedeutung haben.
Die Grammatik für einen speziellen Kontext oder eine spezi
elle Anwendung wird normalerweise im Speicher in einem
kompakten Format gespeichert. Das Grammatikmodell für ein
Spracherkennungssystem kann statisch, das heißt vor dem
Ablauf einer speziellen Anwendung spezifiziert, oder dyna
misch sein, wenn die Grammatik sich bei Wechselwirkung des
Benutzers mit dem System verändert. Im ersteren Fall wird
das Grammatikmodell normalerweise von jemandem spezifiziert,
der mit der Anwendung vertraut ist. Im letzteren Fall kann
das Grammatikmodell aufgebaut werden, wenn der Benutzer mit
Hilfe einer speziell konfigurierten Benutzerschnittstelle
mit der Anwendung in Wechselwirkung tritt. In diesem Fall
verändert sich die Grammtik, wenn der Benutzer mit ihr in
Wechselwirkung tritt, so daß das Grammatikmodell den aktuel
len Zustand des von dem Spracherkennungssystem verwendeten
Vokabulars widerspiegelt.
Im Stand der Technik sind die Grammatiken oft codiert
als Finite-State-Grammatiken bzw. Grammatiken mit endlicher
Zustandsanzahl. Bei Grammatiken mit endlicher Zustandsanzahl
wird die Satzsammlung als ein einziges Netzwerk von Bögen
und Knoten dargestellt; das heißt die Sätze werden als
Zustände und Übergänge in dem Netzwerk dargestellt. Jeder
Bogen oder Übergang in dem Netzwerk bezieht sich auf ein be
stimmtes Wort in dem Vokabular, während jeder Knoten, oder
Zustand, die Wörter in dem speziellen Satz verbindet. Die
Bögen verbinden die Knoten zur Bildung eines Netzwerkes. Mit
jedem Wort ist ein akustisches Modell verbunden. Das akusti
sche Modell für das Wort wird als Folge von phonetischen Mo
dellen dargestellt. Durch die Verwendung des Netzwerkes ist
eine Spracherkennungssystem in der Lage, die akustische
Beschreibung jedes Wortes in der Grammatik mit dem akusti
schen Signal derart zu vergleichen, daß der gesprochene
Satzteil oder Ausdruck erkannt werden kann.
Aus der EP 0248 377 A2 ist ein Spracherkennungssystem für kontinuier
liche Sprache bekannt, das eine Grammatik mit endlicher Zustandsanzahl
aufweist. Ein weiteres Spracherkennungssystem ist aus der
EP 0242 743 A1 bekannt.
Die die Grammatik für eine bestimmte Anwendung enthal
tenden Netzwerke (z. B. Netzwerke von Grammatiken mit end
licher Zustandsanzahl) können sehr groß sein. Zur Laufzeit
muß das ganze Netzwerk kompiliert werden. Wenn ein bestimm
tes Vokabular mehrere tausend Wörter enthält, kann das zur
Beschreibung aller möglichen Grammatiken verwendete Netzwerk
möglicherweise eine hohe Speicherkapazität, insbesondere
während der Ablaufzeit, erfordern. Ein bestimmter Teil des
Netzwerkes wird dabei kompiliert, unabhängig davon, ob er
benötigt wird, wodurch er eigenen Speicherplatz benötigt.
Teile der Grammatik können außerdem an anderen Orten des
Netzwerkes wiederholt werden. Deshalb müssen identische
Grammatikteile mehrfach kompiliert werden, so daß mehrere,
jeweils mit identischen jedoch unterschiedlichen Teilen des
Netzwerkes verbundene Speicherzuordnungen benötigt werden.
Da Speicher und ihre Verwendung in der heutigen Technologie
einen hohen Stellenwert haben, besteht der Wunsch, den zur
Speicherung der Grammatik verwendeten Speicherplatz zu
reduzieren.
Wie beschrieben wird, enthält die vorliegende Erfindung
eine rekursive Grammatik mit endlicher Zustandsanzahl, die
eine Sammlung von Grammatiken mit endlicher Zustandsanzahl
verwendet. Die Menge der Grammatiken mit endlicher Zustands
anzahl der vorliegenden Erfindung weist eine globale Gramma
tik mit endlicher Zustandsanzahl und mehrere untergeordnete
Grammatiken mit endlicher Zustandsanzahl bzw. Grammatiken
mit einer geringeren Anzahl von Zuständen auf. Während der
Laufzeit erzeugt und kombiniert die vorliegende Erfindung
verschiedene Grammatiken dynamisch. Außerdem verringert die
vorliegende Erfindung den zur Spracherkennung benötigten
Speicherplatz.
Es wird ein Verfahren und eine Einrichtung zur Spracher
kennung beschrieben. Das Verfahren und die Einrichtung
enthalten mehrere Grammatiken mit endlicher Zustandsanzahl.
Die mehreren Grammatiken mit endlicher Zustandsanzahl
enthalten wenigstens eine globale Grammatik mit endlicher
Zustandsanzahl und wenigstens eine untergeordnete Grammatik
mit endlicher Zustandsanzahl. Jede der Grammatiken mit
endlicher Zustandsanzahl enthält mehrere Zustände und
wenigstens einen in einem Netzwerk angeordneten Übergang.
Die Übergänge in dem Netzwerk können sowohl Endpunkte als
auch Nicht-Endpunkte enthalten. Jedem Endpunkt ist ein
akustisches Modell zugeordnet, während jedem Nicht-Endpunkt
ein Aufruf zu einer untergeordneten Grammatik mit endlicher
Zustandsanzahl zugeordnet ist. Die vorliegende Erfindung
enthält außerdem eine Erkennungseinheit, die dadurch die Er
kennung durchführt, daß sie durch die globale Grammatik mit
endlicher Zustandsanzahl wandert. Wenn Endpunkte getroffen
werden, vergleicht die Erkennungseinheit das akustische
Modell des Endpunktes mit den Sprachsignalen. Wenn Nicht-
Endpunkte getroffen werden, ruft die Erkennungseinheit die
dem Nicht-Endpunkt zugeordnete untergeordnete Grammatik mit
endlicher Zustandsanzahl auf und fährt mit der Erkennung da
durch fort, daß sie die untergeordnete Grammatik mit end
licher Zustandsanzahl durchläuft. Beim Durchlaufen der
untergeordneten Grammatik mit endlicher Zustandsanzahl
vergleicht die Erkennungseinheit das akustische Modell mit
den Sprachsignalen, um mit der Erkennung fortzufahren. Nach
dem Durchlauf durch die untergeordnete Grammatik mit end
licher Zustandsanzahl kehrt die Erkennungseinheit zu der
globalen Grammatik mit endlicher Zustandsanzahl an den Ort
des Aufrufs zurück und durchläuft diese. Auf diese Weise
werden die Sprachsignale zur Spracherkennung mit den akusti
schen Modellen in der globalen und den untergeordneten
Grammatiken mit endlicher Zustandsanzahl verglichen.
Die vorliegende Erfindung ist anhand der folgenden de
taillierten Beschreibung und der zugehörigen Zeichnungen des
bevorzugten Ausführungsbeispiels besser zu verstehen, wobei
das spezielle Ausführungsbeispiel jedoch nicht als Ein
schränkung anzusehen ist, sondern nur zur Veranschaulichung
dient.
Fig. 1 ist ein Blockschaltbild des Computersystems, das
von dem bevorzugten Ausführungsbeispiel der vorliegenden Er
findung verwendet werden kann.
Fig. 2 ist ein Blockschaltbild des Spracherkennungs
systems der vorliegenden Erfindung.
Fig. 3A-E zeigen ein Beispiel einer rekursiven Gramma
tik mit endlicher Zustandsanzahl der vorliegenden Erfindung.
Fig. 4 veranschaulicht ein Beispiel eines akustischen
Modells für das (engl.) Wort "find", wie es in einem Ausfüh
rungsbeispiel der Erfindung verwendet wird.
Fig. 5 zeigt die allgemeine Beschreibung des akustischen
Modells für ein zu einer der untergeordneten Grammatiken mit
endlicher Zustandsanzahl der Erfindung hinzugefügtes Wort.
Es wird ein Verfahren zur Spracherkennung beschrieben.
In der folgenden Beschreibung werden zahlreiche spezielle
Details, beispielsweise spezielle Verarbeitungsschritte, Er
kennungsalgorithmen, akustische Modelle usw. angegeben, um
ein besseres Verständnis der Erfindung zu ermöglichen. Es
ist für den Fachmann jedoch klar, daß die vorliegende
Erfindung auch ohne diese speziellen Details ausgeführt
werden kann. In anderen Fällen sind bekannte Erkennungsver
arbeitungsschritte und -schaltungen nicht detailliert
dargestellt, um die Erfindung nicht unnötig zu belasten.
Die vorliegende Erfindung wird als rekursive Grammatik
mit endlicher Zustandsanzahl bezeichnet. Die grundlegende
Struktur der vorliegenden Erfindung ist den üblicherweise
zur Spracherkennung verwendeten Sprachmodellen mit Automaten
endlicher Zustandsanzahl überlegen. Bei den bekannten
automatischen Sprachmodellen mit endlicher Zustandszahl wird
die Sprache normalerweise von einem einzigen Automaten mit
einer begrenzten Anzahl von Zuständen dargestellt, wobei die
Übergänge die Endpunkte (oder Worte) in dem Sprachmodell
darstellen. Die rekursive Grammatik mit endlicher Zustands
anzahl der vorliegenden Erfindung besteht aus einer globalen
Grammatik mit endlicher Zustandsanzahl und mehreren unterge
ordneten Grammatiken mit endlicher Zustandsanzahl. Die
globale Grammatik mit endlicher Zustandsanzahl besteht aus
Übergängen und Zuständen, die ein Netzwerk bilden. Die
Zustände sind mit Knoten in dem Netzwerk gleichgesetzt,
während die Übergänge durch Bögen zwischen den Knoten (oder
Zuständen) dargestellt sind. Jeder Übergang in der vorlie
genden Erfindung stellt entweder einen Endpunkt oder einen
Nicht-Endpunkt dar. Der Endpunkt kann ein Wort oder Phon
sein, dem ein akustisches Modell zugeordnet ist, das sein
Spracherkennungsmuster darstellt. Nicht-Endpunkte dagegen
stellen Klassen oder Kategorien des Vokabulars dar und sind
mit einem Index zu einer untergeordneten Grammatik mit
endlicher Zustandsanzahl verbunden, die diesen Teil des
Vokabulars darstellt. Die untergeordneten Grammatiken mit
endlicher Zustandsanzahl können als untergeordnete Netzwerke
betrachtet werden, die das gleiche Format wie die globale
Grammatik mit endlicher Zustandsanzahl haben. Beim Ausführen
der Erkennung verwendet die Erkennungseinheit (oder -maschi
ne) das Netzwerk der globalen Grammatik mit endlicher
Zustandsanzahl, um überall im Netzwerk empfangene Sprach
signale und die akustischen Modelle zu vergleichen. Wenn die
Erkennungseinheit einem Nicht-Endpunkt in dem Netzwerk
begegnet, ruft die Erkennungseinheit das dem Nicht-Endpunkt
zugeordnete Netzwerk der untergeordneten Grammatik mit
endlicher Zustandsanzahl auf und fährt mit dem Erkennungs
prozeß fort. Auf diese Weise enthält das Sprachmodell der
vorliegenden Erfindung nicht nur ein einziges Netzwerk,
sondern eine Sammlung von Netzwerken, von denen jedes in der
Lage ist, die anderen Netzwerke aufzurufen (d. h. es ist
rekursiv).
Die rekursive Natur der vorliegenden Erfindung verrin
gert den benötigten Speicherplatz, da die gleiche Sprache
effizienter dargestellt werden kann und potentiell kleiner
sein kann als die einzigen Grammatiken mit endlicher Zu
standsanzahl des Standes der Technik. Die minimale Form des
Netzwerkes, die aus der Verwendung von untergeordneten
Netzwerken zur Darstellung von Übergängen in den Netzwerken
resultiert, führt zu einem Netzwerk, das mehr zur effektiven
Analyse des akustischen Raumes beiträgt. Außerdem erlaubt
die vorliegende Erfindung eine einfache Erzeugung und
Kombination von verschiedenen Grammatiken, und zwar dyna
misch während der Laufzeit.
Die vorliegende Erfindung enthält außerdem einen neuen
Erkennungsalgorithmus, bei dem jeder während der Suche
angetroffene Übergang zu einem Stapel hinzugefügt wird. Wenn
einem Wort-Übergang (Bogen) begegnet wird, wird die Suche
wie eine normale Suche fortgesetzt. Wenn jedoch eine eine
untergeordnete Grammatik mit endlicher Zustandsanzahl
indizierende Klasse erreicht wird, wird das Netzwerk auf den
Stapel abgelegt. Wenn die Suche das Netzwerk verläßt, geht
die Suche bei dem gleichen Punkt des ursprünglichen Netzwer
kes weiter, von dem aus der Aufruf durchgeführt wurde. Wenn
der Stapel leer ist, wurde der Endzustand der globalen,
rekursiven Grammatik mit endlicher Zustandsanzahl erreicht,
die Erkennungseinheit wird beendet und eine die von der
Erkennungseinheit erkannten Sprachsignale darstellende
Textausgabe wird ausgegeben.
Das bevorzugte Ausführungsbeispiel der Erfindung kann
bei Computersystemen mit verschiedenen Konfigurationen
eingesetzt werden. Fig. 1 zeigt einige der Basiskomponenten
eines solchen Computersystems; sie soll jedoch nicht ein
schränkend wirken und auch nicht andere Komponenten und
Kombinationen von Komponenten ausschließen. Das in Fig. 1
dargestellte Computersystem weist einen Bus oder eine andere
Kommunikationseinrichtung 101 zum Informationsaustausch,
eine mit dem Bus 101 zur Informationsverarbeitung gekoppelte
Verarbeitungseinrichtung 102 (allgemein als Host-Prozessor
bezeichnet), einen zur Speicherung von Informationen und Be
fehlen für den Prozessor 102 mit dem Bus 101 gekoppelten RAM
oder eine andere Speichereinrichtung 103 und einen mit dem
Bus 101 gekoppelten Nur-Lese-Speicher (ROM) oder eine andere
statische Speichereinrichtung 104 zur Speicherung statischer
Informationen und Befehle für den Prozessor 102 auf.
Andere mit dem Bus 101 gekoppelte Einrichtungen sind
bspw. eine Datenspeichereinrichtung 105, wie z. B. ein
Magnetplatten-Laufwerk, zum Speichern von Informationen und
Befehlen, eine alphanumerische Eingabeeinrichtung 106, die
alphanumerische und andere Tasten aufweist, zum Austauschen
von Informationen und Befehlsauswahlen mit dem Prozessor
102, eine Cursor-Steuereinrichtung 107, beispielsweise eine
Maus, einen Trackball, Cursor-Steuertasten usw., zum Steuern
eines Cursors und zum Austauschen von Informationen und
Befehlsauswahlen mit dem Prozessor 102, eine Anzeigeeinrich
tung 108 zum Anzeigen von Datentexteingaben und -ausgaben,
ein Audio-Chip (sound chip) 109 zum Verarbeiten von Klang
signalen und -informationen, einen Mikrophon/Audio-Empfänger
111 zum Empfangen von Sprach- und Audiosignalen und einen
Telekommunikationsport 110 zur Eingabe und Ausgabe von
Telekommunikationssignalen und Audiosignalen.
Ein Ausführungsbeispiel der vorliegenden Erfindung ist
für die Anwendung auf einigen Computern der Macintosh-
Computerfamilie konzipiert, die von Apple Computer, Inc. aus
Cupertino, Californien erhältlich sind.
Die vereinfachte Version des erfindungsgemäßen Spracher
kennungssystem ist in Fig. 2 dargestellt. Der Empfänger 201,
der aus dem Mikrophon/Audio-Empfänger 111 besteht, empfängt
die Sprache und wandelt die empfangenen Sprachsignale in
eine digitale Darstellung der aufeinanderfolgenden Amplitu
den des von der Sprache erzeugten Audiosignals um. Dann
wandelt der Empfänger 201 das digitale Signal in ein Signal
im Frequenzbereich um, das aus einer Rahmenfolge besteht.
Jeder Rahmen beschreibt die Amplitude des Sprachsignals in
jedem einer Vielzahl von Frequenzbändern über ein bestimmtes
Zeitintervall (d. h. ein Fenster). Bei einem Ausführungsbei
spiel sind die Zeitfenster 10 Millisekunden voneinander
beabstandet. Es sei angemerkt, daß die vorliegende Erfindung
mit jeder Art von Empfänger und jedem Sprachcodierverfahren
verwendet werden kann.
Wenn die Sprache umgewandelt ist, verwendet die Erken
nungseinheit 102 einen Erkennungsalgorithmus, um die durch
das Sprechen erzeugte Rahmenfolge mit einer Knotenfolge zu
vergleichen, die in dem akustischen Modell jedes Wortes in
dem aktiven Vokabular enthalten ist, wie es von der Gramma
tik definiert ist, um zu bestimmen, ob es einen Treffer
gibt. Bei dem derzeitigen Ausführungsbeispiel der Erfindung
enthält das Erkennungsvokabular über 5000 Textwörter. Das
Ergebnis des Erkennungs-Vergleichungsprozesses ist entweder
eine Textausgabe oder eine von dem Computer durchgeführte
Aktion, die dem erkannten Wort entspricht.
Der Erkennungsalgorithmus eines Ausführungsbeispiels der
vorliegenden Erfindung verwendet ein Vergleichsverfahren auf
Wahrscheinlichkeitsbasis und eine dynamische Programmierung.
Der Vergleich bestimmt die Wahrscheinlichkeit, daß ein
vorgegebener Rahmen einer Äußerung einem vorgegebenen Knoten
in einem akustischen Modell eines Wortes entspricht. Die
Wahrscheinlichkeit wird nicht nur als Funktion davon be
stimmt, wie genau die Amplituden der einzelnen Frequenzbän
der eines Rahmens mit den in den vorgegebenen Knotenmodellen
erwarteten Frequenzen übereinstimmen, sondern auch als
Funktion davon, wie sich die Abweichung zwischen dem tat
sächlichen und den erwarteten Amplituden in jedem derartigen
Frequenzband zu den erwarteten Abweichungen für diese Werte
verhält.
Die dynamische Programmierung stellt ein Verfahren zur
Verfügung, um eine optimale, oder beinahe optimale Überein
stimmung zwischen der von der Äußerung erzeugten Rahmenfolge
und der in dem Modell des Wortes enthaltenen Knotenfolge zu
finden. Dies geschieht durch Verlängerung und Verkürzung der
Zeitdauer jedes Knotens in dem akustischen Modell eines
Wortes, um die natürlichen Variationen bei der Länge der
Sprachklänge zu kompensieren, die bei unterschiedlichen
Aussprachen des gleichen Wortes auftreten. Für jeden zeit
lich abgeglichenen Treffer wird eine Punktzahl berechnet,
und zwar auf der Basis der Summe der Unterschiede zwischen
den akustischen Informationen in jedem Rahmen und dem
akustischen Modell des Knotens, gegenüber dem sie zeitlich
abgeglichen sind. Dann werden die Wörter mit der niedrigsten
Summe dieser Abstände als am besten bewertete Wörter ausge
wählt. Bei einem Ausführungsbeispiel verwendet die Erfindung
eine Sprachmodellfilterung. Wenn eine Sprachmodellfilterung
verwendet wird, wird eine Teilpunktzahl, die die Wahrschein
lichkeit des Auftretens jedes Wortes in dem derzeitigen
Sprachkontext wiedergibt, zu der Punktzahl des Wortes
addiert, bevor das Wort mit der höchstens Punktzahl ausge
wählt wird, so daß diejenigen Wörter eher ausgewählt werden,
die gemäß dem Sprachmodell am wahrscheinlichsten in dem
derzeitigen Kontext auftreten.
Das bei einem Ausführungsbeispiel der vorliegenden Er
findung verwendete akustische Modell, oder, mit anderen
Worten, der verwendete Spracherkennungsalgorithmus, ist das
Hidden-Markov-Modell(HMM)-Verfahren. Wie dem Fachmann
bekannt ist, bewertet das HMM-Verfahren jedes Wort in dem
aktiven Vokabular, indem es das akustische Modell für jedes
Wort als einen Hidden-Markov-Prozeß darstellt und indem es
die Wahrscheinlichkeit für jedes Wort, daß das Wort das
aktuelle akustische Kennzeichen (Token) erzeugt, als Wahr
scheinlichkeitsfunktion des Hidden-Markov-Prozesses berech
net. Bei einem Ausführungsbeispiel werden die Punktzahlen
der Wörter durch den negativen Logarithmus der Wahrschein
lichkeiten dargestellt, so daß alle Punktzahlen nicht-
negativ sind und eine Punktzahl von Null eine Wahrschein
lichkeit von Eins darstellt, das heißt eine perfekte Punkt
zahl. Es sei angemerkt, daß andere Endpunkt- oder Wortver
gleichsschemen von der vorliegenden Erfindung verwendet
werden können.
Die von der Erkennungseinheit der vorliegenden Erfindung
durchgeführte Suche wird in Verbindung mit einer globalen
Grammatik mit endlicher Zustandsanzahl und einer Sammlung
von untergeordneten Grammatiken mit endlicher Zustandsanzahl
durchgeführt. Die globale Grammatik mit endlicher Zustands
anzahl der vorliegenden Erfindung besteht aus Zuständen
(Knoten) und Übergängen (Bögen) in einem Netzwerk. Jeder
Übergang in dem Netzwerk weist entweder ein Wort oder eine
den Index zur einer der untergeordneten Grammatiken mit
endlicher Zustandsanzahl bildende Kategorie auf. Das Gestat
ten von Übergängen als Indizes zu untergeordneten Grammati
ken mit endlicher Zustandsanzahl macht die globale Grammatik
mit endlicher Zustandsanzahl potentiell kleiner, wodurch we
niger Speicherplatz benötigt wird. Der Speicherplatz wird
dadurch noch weiter verringert, daß jeder Index zu einer un
tergeordneten Grammatik mit endlicher Zustandsanzahl überall
im Netzwerk wiederholt verwendet werden kann, so daß die
Notwendigkeit nicht mehr besteht, den gleichen Zustand-zu-
Zustand-Übergang an verschiedenen Stellen in dem Netzwerk zu
wiederholen. Es sei angemerkt, daß jeder mit einem Wort
bezeichnete Bogen der globalen Grammatik mit endlicher
Zustandsanzahl oder jeder untergeordneten Grammatik mit
endlicher Zustandsanzahl zugeordnet ist dem von der vorlie
genden Erfindung während des Erkennungsprozesses zum Ver
gleich der empfangenen Sprachsignale verwendeten Mechanismus
und diesen in diesem Umfang auch repräsentiert.
Die untergeordneten Grammatiken mit endlicher Zustands
anzahl enthalten in der gleichen Weise wie die globale
Grammatik mit endlicher Zustandsanzahl Zustände und Über
gänge. Die Übergänge in den untergeordneten Grammatiken mit
endlicher Zustandsanzahl können Worte oder andere Indizes
für weitere untergeordnete Grammatiken mit endlicher Zu
standsanzahl darstellen. Bei einem Ausführungsbeispiel ist
jeder Übergang in die untergeordneten Grammatiken mit
endlicher Zustandsanzahl ein Wort. Außerdem ist jede unter
geordnete Grammatik mit endlicher Zustandsanzahl in der
Lage, sich selbst aufzurufen.
Ein Beispiel einer erfindungsgemäßen rekursiven Gramma
tik mit endlicher Zustandsanzahl ist in den Fig. 3A - E
dargestellt. Es wird auf Fig. 3A Bezug genommen. Die darge
stellte globale Grammatik mit endlicher Zustandsanzahl weist
sieben Knoten 301 bis 307 auf, die über Bögen 321 bis 327
gekoppelt sind. Der Knoten 301 stellt den Anfang der globa
len Grammatik mit endlicher Zustandsanzahl dar und der
Knoten 307 das Ende der globalen Grammatik mit endlicher Zu
standsanzahl dar. Der Bogen 321 koppelt die Knoten 301 und
302 und ihm ist der Index zu der untergeordneten Grammatik
mit endlicher Zustandsanzahl <suche< zugeordnet. Dieser
Index wird in Fig. 3B als der Klasse (d. h. Vokabular) der
Positionswörter zugehörig beschrieben, die aus "finde" und
"hole" besteht. Der Bogen 324 koppelt die Knoten 301 und 304
und ist das Wort "sende". Die Bögen 322 und 325 koppeln die
Knoten 302 und 304 mit den Knoten 303 bzw. 305; ihnen ist
der Index zu der untergeordneten Grammatik mit endlicher Zu
standsanzahl <Dokument< zugeordnet. Diese Grammatik ist in
Fig. 3C als der Klasse von Dokumentarten entsprechend
beschrieben, die aus "Papier" und "Figur" besteht. Die
Knoten 303 und 305 sind mit dem Knoten 306 über Bögen 323
bzw. 326 gekoppelt. Der Bogen 323 stellt das Wort "von" und
der Bogen 326 das Wort "an" dar. Der Knoten 306 ist über den
Bogen 327 mit dem Knoten 307 gekoppelt, der den Index zu der
untergeordneten Grammatik mit endlicher Zustandsanzahl
<Personenname< darstellt. Diese Grammatik ist in Fig. 3D als
der Klasse der Personennamen von Einzelpersonen entsprechend
dargestellt, bestehend aus John, Mary und NEUES-WORT. Jeder
Knoten 301 bis 307 ist außerdem jeweils mit einem geschlos
senen Schleifenbogen 311 bis 317 gekoppelt. Jedem Bogen 311
bis 317 ist ein Index zu der untergeordneten Grammatik mit
endlicher Zustandsanzahl der Geräuschwörter <nv< zugeordnet,
die in Fig. 3E dargestellt ist. Es sei wiederholt, daß die
Wörter, beispielsweise das dem Bogen 324 zugeordnete Wort
"sende", die akustischen Modelle für die Wörter darstellen.
Es wird Fig. 3D Bezug genommen, in der die untergeordne
te Grammatik mit endlicher Zustandsanzahl <suche< der
Positionswörter dargestellt ist, die aus den Knoten 331 und
332 besteht. Diese sind durch den das Wort "finde" (d. h. den
zum Vergleich der Spracheingabe mit dem Wort "finde" verwen
deten akustischen Modellmechanismus) und durch den das Wort
"hole" (d. h. den zum Vergleich der Spracheingabe mit dem
Wort "hole" verwendeten akustischen Modellmechanismus)
darstellenden Bogen 334 gekoppelt. Das akustische Modell für
das (englische) Wort "find" ist in Fig. 4 dargestellt. Es
wird auf Fig. 4 Bezug genommen. Das akustische Modell ist
als Reihe von Knoten 401 bis 405 dargestellt, die jeweils
durch einen Phonbogen gekoppelt sind. Der Knoten 401 ist mit
dem Knoten 402 über den Bogen das akustische Phon /f/
darstellenden Bogen 406 gekoppelt. Der Knoten 402 ist über
den das akustische Phon /ay/ darstellenden Bogen 407 mit dem
Knoten 403 gekoppelt. Der Knoten 403 ist über den das
akustische Phon /n/ darstellenden Phon mit dem Knoten 404
gekoppelt. Der Knoten 404 ist über den das akustische Phon
/d/ darstellenden Bogen mit dem Knoten 405 gekoppelt. Es sei
angemerkt, daß alle mit einem Wort bezeichneten Bögen, die
in der Beschreibung erwähnt werden, akustischen Modellen,
wie dem in Fig. 4 dargestellten, entsprechen.
Es wird auf Fig. 3C Bezug genommen. Die untergeordnete
Grammatik mit endlicher Zustandsanzahl <Dokument< der
Dokumentart ist als die Knoten 341 bis 343 und die Bögen 344
bis 346 aufweisend dargestellt. Die untergeordnete Grammatik
mit endlicher Zustandsanzahl beginnt mit dem Knoten 341 und
ist über den Bogen 344 mit dem Knoten 342 gekoppelt, der dem
Wort "das" entspricht. Der Knoten 342 über den das Wort
"Papier" darstellenden Bogen 345 und den das Wort "Figur"
darstellenden Bogen 346 mit dem Bogen 343 gekoppelt.
Es wird auf Fig. 3D bezug genommen, in der die unterge
ordnete Grammatik <Personenname< der Personennamen darge
stellt ist, die die Knoten 351 bis 352 und die Bögen 353 bis
355 aufweist. Der Knoten 351 ist mit dem Knoten 352 über den
das Wort "Mary" darstellenden Bogen 353, durch den das Wort
"John" darstellenden Bogen 354 und durch den das Wort
"NEUES-WORT" darstellenden Bogen 355 gekoppelt. Das NEUE-
WORT stellt ein vokabularfremdes Wort dar, das nicht in der
ursprünglichen Vokabularkategorie (z. B. in diesem Fall den
Personennamen) war. Die Erkennungseinheit kann dadurch ein
das Vorhandensein der vokabularfremden Wörter anzeigende
Ausgabe erzeugen, daß ein allgemeines akustisches Modell für
"NEUES-WORT" in der untergeordneten Grammatik mit endlicher
Zustandsanzahl enthalten ist. Die vorliegende Erfindung
ermöglicht die Integration einer Erkennungsmöglichkeit von
vokabularfremden (out-off-vocabulary - OOV) Wörtern für
Offene-Klassen-Grammatikkategorien. Eine Offene-Klasse-
Grammatikkategorie ist eine Kategorie, in der eines der
akustischen Modelle mit einer hohen Wahrscheinlichkeit mit
einem beliebigen gesprochenen Wort korreliert. Das Offene-
Klassen-OOV-Netzwerk wird als Folge von untergeordneten
Netzwerken aus beliebigen Phonen dargestellt. Eine Eigen
schleife in dem letzten Zustand ermöglicht beliebig lange
Wörter. Fig. 5 zeigt ein Beispiel eines Netzwerkes aus
beliebigen Phonen für "NEUES-WORT". Es wird auf Fig. 5 bezug
genommen. Das beispielhafte akustische Modell für NEUES-WORT
weist die Knoten 501 bis 504 und die Bögen 505 bis 509 auf.
Der Knoten 501 ist der Anfang und ist mit dem Knoten 502
über den Bogen 505 gekoppelt, der jedes beliebige Phon in
dem NEUEN-WORT darstellt. Der Knoten 502 ist mit dem Knoten
503 über den Bogen 506 gekoppelt, der wiederum ein Phon in
dem NEUEN-WORT darstellt. Der Knoten 503 ist zur Beendigung
des akustischen Modells für NEUES-WORT über den Bogen 507
mit dem Knoten 504 gekoppelt. Wiederum stellt der Bogen 507
ein weiteres Phon in dem NEUEN-WORT dar. Die Bögen 508 und
509 sind zu sich selbst zurückkehrende Schleifenbögen, die
bei den Knoten 502 bzw. 503 starten und enden. Diese Bögen
stellen ebenfalls jedes beliebige Phon in dem akustischen
Modell für NEUES-WORT dar. Auf diese Weise stellt das
akustische Modell NEUES-WORT eine Vielzahl von Phonen dar.
Es sei angemerkt, daß das akustische Modell für NEUES-WORT
jede Anzahl von Phonen enthalten kann. Die tatsächliche
Anzahl der gewählten Phone, die die minimale Länge des
akustischen Modells angibt, ist von der normalerweise vom
Entwickler getroffenen Designwahl abhängig. Die Darstellung
ist hierarchisch, so daß nur ein Netzwerk, entweder das
Netzwerk aus beliebigen Phonen, wie beispielsweise das in
Fig. 5 beschriebene, oder das OOV-Netzwerk benötigt wird.
Auf diese Weise verringert die vorliegende Erfindung den zur
Kompensation von OOV-Wörtern benötigten Speicherplatz.
Bei der vorliegenden Erfindung bezieht ein Wörterbuch
vokabularfremde Wörter in die Erkennungseinheit ein. Das
Wörterbuch enthält nonverbale Wörter, Phonwörter oder
beides. Der Systementwickler verfügt über weitere zugäng
liche Parameter neben dem Einstellen der Minimalanzahl von
Phonen, durch die die vokabularfremde Erfassung gesteuert
werden kann. Eine Sprachgewichtung für offene-Klassen-
Übergänge in der Grammatik kann außerdem ausgewählt werden,
um das Verhältnis von Falschmeldungen (d. h. Wörtern, die von
der vokabularfremden Erfassung erkannt werden, wenn sie
momentan im Wörterbuch sind) zu Erfassungen zu steuern. Die
Sprachwichtung ist eine Anpassung an die Wahrscheinlichkei
ten eines Sprachmodells, wobei weniger wahrscheinlichen
Sprachmodellen eine geringere Wahrscheinlichkeit zugeordnet
ist, so daß sie mit einer geringeren Wahrscheinlichkeit als
Ergebnis eines Erkennungsprozesses ausgewählt werden. In
ähnlicher Weise wird eine Sprachgewichtung für jeden Phonbo
gen in dem Netzwerk aus beliebigen Phonen ausgewählt, um
eine weitere Kontrolle über Falschmeldungen/Erfassungen zu
ermöglichen.
Es wird wiederum auf Fig. 3E Bezug genommen, in der die
untergeordnete Grammatik mit endlicher Zustandsanzahl <nv<
gezeigt ist, die die Knoten 361 bis 362 und die Bögen 363
bis 366 aufweist. Der Knoten 361 ist mit dem Knoten 362
gekoppelt über einen den akustischen Mechanismus für das Ge
räusch eines Telefonklingelns darstellenden Bogen 363, einen
den akustischen Mechanismus für ein Hustengeräusch darstel
lenden Bogen 364, einen den akustischen Mechanismus für das
Geräusch von Stille darstellenden Bogen 365 und einen den
akustischen Mechanismus für das Geräusch von Türschlagen
darstellenden Bogen 366. Es sei angemerkt, daß die unterge
ordnete Grammatik mit endlicher Zustandsanzahl <nv< eine
nonverbale untergeordnete Grammatik mit endlicher Zustands
anzahl (Netzwerk) ist und zwar deshalb, weil die Erkennung
kein Wort, sondern ein Geräusch ist.
Fig. 3E veranschaulicht in Verbindung mit Fig. 3A die
vorteilhafte Weise, in der bei der vorliegenden Erfindung
nonverbale Modelle verwendet werden. In diesem Fall werden
die nonverbalen Modelle von Geräuschen, beispielsweise
Husten, Niesen usw., bei der Erfindung als eine Klasse oder
ein untergeordnetes Netzwerk dargestellt. Durch die Verwen
dung von untergeordneten Grammatiken mit endlicher Zustands
anzahl zur Implementierung von verschiedener Klassen von Ge
räuschen, die während des Erkennungsprozesses auftreten
können, kann die Größe des Netzwerkes im Vergleich zu den
bekannten monolithischen Grammatiken mit endlicher Zustands
anzahl verringert werden, während nur ein geringer System
aufwand verursacht wird. Die Größe des Netzwerks kann
verringert werden, weil nicht die gesamte Geräuschklasse an
jedem Knoten in das Netzwerk einbezogen werden muß. Außerdem
wird der Speicherplatz zur Speicherung des nonverbalen
Geräuschmodells reduziert, weil die verschiedenen Geräusch
klassen (d. h. die untergeordnete Grammatik mit endlicher Zu
standsanzahl) nur kompiliert werden, wenn sie benötigt
werden. Dies trifft insbesondere dann zu, wenn eine große
Anzahl nonverbaler Modelle verwendet wird. Diese untergeord
neten Grammatiken mit endlicher Zustandsanzahl, oder Katego
rien von Geräuschen können bei jedem Zustand in der Erken
nungseinheit angeordnet sein (d. h. an jedem Knoten in dem
Netzwerk) und gleichen jeder anderen untergeordneten Gramma
tik mit endlicher Zustandsanzahl. Diese nonverbalen Netz
werke werden unter Verwendung eines Eigenschleifen-Mechanis
mus implementiert, so daß der Anfang und das Ende der Bögen,
die dem nonverbalen Netzwerk entsprechen, sich an dem
gleichen Ort befindet. Auf diese Weise ermöglicht die
vorliegende Erfindung die Verwendung von nonverbalen Netz
werken, die frei im Netzwerk bei geringer Einschränkung der
Leistung angeordnet sein können.
Die in Fig. 3A-E dargestellten Netzwerke werden in der
gleichen Weise wie bekannte monolithische Grammatiken mit
endlicher Zustandsanzahl unter Verwendung von Zeigern im
Speicher implementiert, was im Stand der Technik bekannt
ist. Wichtig ist, daß die Beziehung zwischen der globalen
Grammatik mit endlicher Zustandsanzahl und den untergeordne
ten Grammatiken mit endlicher Zustandsanzahlen der vorlie
genden Erfindung von hierarchischer Natur ist.
Die Fig. 3A-E stellen die statischen Beschreibungen
eines Beispiels einer rekursiven Grammatik mit endlicher Zu
standsanzahl der vorliegenden Erfindung dar. Zur Verwendung
dieser statischen Beschreibungen, d. h. um sie dynamisch zu
machen, müssen die globale und die untergeordnete Grammatik
mit endlicher Zustandsanzahl kompiliert werden. Bei bekann
ten Erkennungseinheiten geht die hierarchische Natur beim
Kompilieren verloren, obwohl einige Grammatiken hierarchisch
sind. Die vorliegende Erfindung behält den hierarchischen
Aufbau während des Erkennungsprozesses, da jede untergeord
nete Grammatik mit endlicher Zustandsanzahl und die globale
Grammatik mit endlicher Zustandsanzahl einzeln kompiliert
werden. Auf die untergeordneten Grammatiken mit endlicher
Zustandsanzahl wird nur zugegriffen, wenn sie benötigt
werden. Auf diese Weise kann jede benötigte Speicherzuwei
sung solange verzögert werden, bis ein Zugriff erforderlich
ist, so daß die Erkennungseinheit durch Zusammenfügen der
Grammatiken zu einer Lösung gelangt. Wenn kein Zugriff
benötigt wird, wird keine Speicherzuweisung durchgeführt.
Auf diese Weise spart die vorliegende Erfindung Speicher
platz. Dadurch, daß die untergeordneten Grammatiken mit
endlicher Zustandsanzahl einzeln kompiliert werden können,
können außerdem alle Änderungen in Form von Einfügungen und
Löschungen in einzelnen untergeordneten Grammatiken mit
endlicher Zustandsanzahl durchgeführt werden, ohne daß das
globale Netzwerk mit endlicher Zustandsanzahl modifiziert
und nachfolgend erneut kompiliert werden muß. Daher muß die
globale Grammatik mit endlicher Zustandsanzahl nicht jedes
mal erneut kompiliert werden, wenn eine Änderung in der
Erkennungseinheit auftritt. Die vorliegende Erfindung
verfügt auf diese Weise über eine Erkennungseinheit mit
einer sehr flexiblen Laufzeit.
Sobald die globale Grammatik mit endlicher Zustandsan
zahl und die einzelnen untergeordneten Grammatiken mit
endlicher Zustandsanzahl kompiliert sind, kann die Erken
nungseinheit mit dem Erkennungsprozeß beginnen. Der Erken
nungsprozeß ist üblicherweise ein Vergleichsprozeß, in dem
die akustischen Modelle mit den Spracheingangssignalen
verglichen werden. Bei der vorliegenden Erfindung jedoch muß
die Erkennungseinheit dort, wo sie einem Nicht-Endpunkte der
globalen Grammatik mit endlicher Zustandsanzahl (oder
genauso einer untergeordneten Grammatik mit endlicher
Zustandsanzahl) begegnet, in der Lage sein, zu identifizie
ren, daß der Übergang einen Index zu einem untergeordneten
Netzwerk enthält. Mit anderen Worten, die Erkennungseinheit
sieht nicht nur Endpunkte. Stattdessen sieht die Erkennungs
einheit eine allgemeine Kategorie oder Klasse. Daher muß die
vorliegende Erfindung in der Lage sein, das Vorhandensein
von Nicht-Endpunkten in dem Netzwerk zu kompensieren. Um die
rekursiven Grammatiken mit endlicher Zustandsanzahl der
vorliegenden Erfindung bei dem Erkennungsprozeß zu verwen
den, wird in dem Speicher des Computersystems ein Stapel
system erzeugt und zur Durchführung des Erkennungsprozesses
verwendet.
Zur Laufzeit werden alle ersten Phone der akustischen
Modelle (Mechanismen), die den Übergängen von dem ersten
Knoten des Netzwerkes entsprechen, in den Stapel eingegeben.
Beispielsweise in dem Fall des (englischen) Wortes "find" in
Fig. 4, würde das Phon /f/ in den Stapel eingegeben. Die Mo
delle werden entsprechend der Reihenfolge ihres Auftretens
in dem Netzwerk in den Stapel eingegeben. Mit dem Fort
schreiten des Erkennungsprozesses werden nachfolgende Phone
der akustischen Modelle, die den aktuell bewerteten Übergän
gen in dem Netzwerk entsprechen, in den Stapel eingegeben,
während einige der vorangegangenen Phone entfernt werden
können. Auf diese Weise kann der Stapel wachsen und schrump
fen. Es ist zu beachten, daß jeder Pfad durch das Netzwerk
eine mögliche Theorie über die akustischen Eingangssignale
sein kann. Beim Fortschreiten des Erkennungsprozesses werden
bestimmte Theorien unwahrscheinlicher. In diesem Fall können
diesen weniger wahrscheinlichen Theorien zugeordnete Teile
der akustischen Modelle aus dem Stapel entfernt werden.
Wenn die Erkennungseinheit das Netzwerk durchläuft (d. h.
indem sie durch den seriellen Stapel wandert), trifft sie
sowohl Endpunkte (zum Beispiel Wörter, Phone usw., die
akustische Modelle aufweisen) als auch Nicht-Endpunkte (d. h.
Indizes zu untergeordneten Grammatiken mit endlicher Zu
standsanzahl). Die Endpunkte werden vergrößert und die
zugehörigen akustischen Modelle (z. B. HMM) werden in den
Stapel eingegeben. Auf diese Weise liegt ein Stapel von
aktiven Mechanismen (z. B. HMMs) vor, wenn die Suche ausge
führt wird. Es sei wiederholt darauf hingewiesen, daß das
Eingeben von Endpunkten und Nicht-Endpunkten in den Stapel
während der Laufzeit bedarfsweise durchgeführt wird. Daher
muß das gesamte Netzwerk keinen Speicherplatz belegen, so
daß die vorliegende Erfindung eine große Menge Speicherplatz
einspart.
Wenn während der Suche ein Nicht-Endpunkt erreicht wird,
muß die Erkennungseinheit die untergeordnete Grammatik mit
endlicher Zustandsanzahl (d. h. das untergeordnete Netzwerk)
erlangen und es in dem Erkennungsprozeß verwenden. Bei dem
bevorzugten Ausführungsbeispiel leitet ein Zeiger die
Erkennungseinheit zu dem untergeordneten Netzwerk des Nicht-
Endpunktes. Die Erkennungseinheit erzeugt eine dynamische
Version des untergeordneten Netzwerkes und gibt die dynami
sche Version in den Stapel ein. Die dynamische Version ist
eine Kopie der untergeordneten Grammatik mit endlicher
Zustandsanzahl. Es wird deshalb eine Kopie angefertigt, weil
das spezielle untergeordnete Netzwerk an mehr als einer
Stelle in der hierarchischen Topologie auftauchen kann, so
daß die Erkennung in der Lage ist, allen verschiedenen
Theorien oder Fällen der Verwendung nachzukommen. Jede
Theorie oder jedes Modell weist eine aus einer Wortfolge be
stehende Historie auf. Das Auftreten jedes untergeordneten
Netzwerkes in einem Netzwerk ist auf diese Weise mit seiner
eigenen Historie verbunden, so daß die Wahrscheinlichkeit
des Auftretens des untergeordneten Netzwerkes einheitlich in
dem Netzwerk (oder untergeordnetem Netzwerk) identifiziert
ist. Bei einem Ausführungsbeispiel ist die Historie nur die
Identität des letzten Vorgängers. Die einer bestimmten
Theorie zugeordnete Punktzahl ist ein Prozentsatz, der die
Wahrscheinlichkeit angibt, daß das aktuelle Wort auf den
Vorgänger folgt.
Die dynamische Version enthält die Topologie des Netz
werkes und außerdem die von der Erkennungseinheit zur
Erzeugung des Ergebnisses benötigten Informationen (d. h.
seine Identität, seine Historie und seine dem untergeordne
ten Netzwerk zugeordneten Punktzahlen). Die aktuelle unter
geordnete Grammatik mit endlicher Zustandsanzahl wird nicht
auf den Stapel eingegeben, da sie an anderen Orten des
globalen Netzwerkes auftreten und auf diese Weise benötigt
werden könnte. Während verschiedene Teile der globalen
Grammatik mit endlicher Zustandsanzahl durchlaufen werden
und Nicht-Endpunkte zu Endpunkten und Nicht-Endpunkten
erweitert werden, werden somit die akustischen Modelle der
Endpunkte in den Stapel eingegeben. Die Erkennungseinheit
erkennt die akustischen Modelle bei dem Erkennungsprozeß in
der gleichen Weise wie bekannte Erkennungssysteme mit
Grammatiken mit endlicher Zustandsanzahl.
Wenn jede Klasse oder Kategorie, die ein untergeordnetes
Netzwerk indiziert, in den Stapel eingegeben wird, gibt es
einen Mechanismus, mit dem das untergeordnete Netzwerk
durchlaufen werden kann. Bei einem Ausführungsbeispiel kann
das untergeordnete Netzwerk aus dem Stapel herausgeholt
werden. Bei dem bevorzugten Ausführungsbeispiel werden bei
dem Eingeben eines untergeordneten Netzwerkes in den Stapel
dem Endzustand entsprechende Informationen in den Stapel
eingegeben. Mit anderen Worten, es wird die Information in
den Stapel eingegeben, die den Endzustand des aktuellen
untergeordneten Netzwerkes als den Ort des nächsten Knotens
im Netzwerk identifiziert, der das aktuelle untergeordnete
Netzwerk aufrief. Wenn die Erkennungseinheit das Durchlaufen
eines bestimmten untergeordneten Netzwerkes beendet, dann
weist die Erkennungseinheit mit Hilfe des Zeigers zu dem
nächsten Ort, wohin sie übergehen soll, indem sie sich auf
den Endzustand bezieht. Deshalb ist es indem bevorzugten
Ausführungsbeispiel nicht nötig, eine Möglichkeit zum
Herausholen von Informationen aus dem Speicher vorzusehen.
Es sei angemerkt, daß der im vorangegangenen beschriebene,
zu sich selbst zurückkehrende Schleifenmechanismus dieses
Merkmal verwendet. Indem der Endzustand gleich dem Anfangs
zustand ist, ist der auftretende Übergang in der Lage, zu
sich selbst zurückzukehren.
Wenn die Wortmechanismen in dem Stapel sind, führt die
Erkennungseinheit die Suche aus. Auf der Basis der Wahr
scheinlichkeit der Theorien fährt die Erkennungseinheit bei
dem nächsten Mechanismus oder den nächsten Mechanismen fort.
Der Stapel wächst und schrumpft, je nachdem wie die Theorien
überleben (oberhalb einer Schwellwertwahrscheinlichkeit
liegen) oder sterben (unterhalb einer Schwellwertwahrschein
lichkeit liegen). Wenn alle Mechanismen bewertet wurden, was
von einem leeren Stapel angezeigt wird, wird die wahrschein
lichste Theorie als Textausgabe oder als vom Computer
vorgenommene Aktion (z. B. Öffnen eines Ordners usw.) er
zeugt. In dem Fall eines Textes stellt die Textausgabe die
erkannte Sprache dar.
Obwohl viele Veränderungen und Modifikationen der vor
liegenden Erfindung für den Fachmann nach dem Lesen der
vorangegangene Beschreibung offensichtlich sind, ist es
klar, daß das dargestellte und zur Veranschaulichung be
schriebene Ausführungsbeispiel nicht als Einschränkung
betrachtet werden soll. Daher soll der Bezug zu Einzelheiten
des bevorzugten Ausführungsbeispiels den Schutzbereich der
Ansprüche nicht beschränken, die selbst nur diejenigen
Merkmale aufführen, die als wesentlich für die Erfindung be
trachtet werden.
Claims (15)
1. Spracherkennungssystem zur Erkennung von Sprachsigna
len aufweisend:
eine Mehrzahl von Grammatiken mit einer endlichen Anzahl von Zuständen enthaltend wenigstens eine globale Grammatik mit einer endlichen Anzahl von Zuständen und wenigstens eine untergeordnete Grammtik mit einer endlichen Anzahl von Zuständen, wobei jede Grammatik eine Mehrzahl von Zuständen und wenigstens einen Übergang enthält, der in einem Netzwerk angeordnet ist, und wobei ferner die Übergänge entweder Endpunkte oder Nicht-Endpunkte enthalten können, wobei jedem Endpunkt ein akustisches Modell und jedem Nicht-Endpunkt ein Aufruf zu der wenigstens einen untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordnet ist; und
eine Erkennungseinrichtung zum Ausführen der Erkennung durch ein Durchlaufen der globalen Grammatik mit endlicher Zustandsanzahl, wobei die Erkennungseinheit, wenn sie auf einen Endpunkt trifft, das akustische Modell des Endpunktes bei der Erkennung der Sprachsignale verwendet, und, wenn sie auf einen Nicht-Endpunkt trifft, die dem Nicht-Endpunkt zugeordnete, untergeordnete Grammatik mit endlicher Zu standsanzahl aufruft und mit der Erkennung fortfährt, indem sie die untergeordnete Grammatik mit endlicher Zustandsan zahl derart durchläuft, daß bei Beendigung des Durchlauf s durch die untergeordnete Grammatik mit endlicher Zustandsan zahl die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurückkehrt und mit dem Durchlauf dieser Grammatik fortfährt.
eine Mehrzahl von Grammatiken mit einer endlichen Anzahl von Zuständen enthaltend wenigstens eine globale Grammatik mit einer endlichen Anzahl von Zuständen und wenigstens eine untergeordnete Grammtik mit einer endlichen Anzahl von Zuständen, wobei jede Grammatik eine Mehrzahl von Zuständen und wenigstens einen Übergang enthält, der in einem Netzwerk angeordnet ist, und wobei ferner die Übergänge entweder Endpunkte oder Nicht-Endpunkte enthalten können, wobei jedem Endpunkt ein akustisches Modell und jedem Nicht-Endpunkt ein Aufruf zu der wenigstens einen untergeordneten Grammatik mit endlicher Zustandsanzahl zugeordnet ist; und
eine Erkennungseinrichtung zum Ausführen der Erkennung durch ein Durchlaufen der globalen Grammatik mit endlicher Zustandsanzahl, wobei die Erkennungseinheit, wenn sie auf einen Endpunkt trifft, das akustische Modell des Endpunktes bei der Erkennung der Sprachsignale verwendet, und, wenn sie auf einen Nicht-Endpunkt trifft, die dem Nicht-Endpunkt zugeordnete, untergeordnete Grammatik mit endlicher Zu standsanzahl aufruft und mit der Erkennung fortfährt, indem sie die untergeordnete Grammatik mit endlicher Zustandsan zahl derart durchläuft, daß bei Beendigung des Durchlauf s durch die untergeordnete Grammatik mit endlicher Zustandsan zahl die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurückkehrt und mit dem Durchlauf dieser Grammatik fortfährt.
2. System nach Anspruch 1, wobei jeder Endpunkt ein Wort
ist.
3. System nach Anspruch 1, wobei das akustische Modell
ein Hidden-Markov-Modell aufweist.
4. System nach Anspruch 1, wobei die Erkennungseinrich
tung die Grammatiken unter Verwendung eines Stapels derart
durchläuft, daß, wenn die Erkennungseinheit auf einen
Endpunkt einer der Mehrzahl der Grammatiken mit endlicher
Zustandsanzahl trifft, das diesem Endpunkt zugeordnete
akustische Modell in den Stapel eingegeben wird.
5. System nach Anspruch 4, wobei Informationen hinsicht
lich des nächsten Zustandes zusammen mit den den Endpunkten
der untergeordneten Grammatik mit endlicher Zustandsanzahl
zugeordneten akustischen Modellen in den Stapel eingegeben
werden, so daß die Erkennungseinheit bei Beendigung des
Durchlaufs durch die untergeordnete Grammatik mit endlicher
Zustandsanzahl an dem von dem nächsten Zustand angezeigten
Ort fortfährt.
6. System nach Anspruch 1, wobei die Erkennungseinheit
feststellt, ob das Ende der globalen Grammatik mit endlicher
Zustandsanzahl erreicht wurde, indem sie feststellt, ob der
Stapel leer ist, wobei der Erkennungsprozeß beendet ist.
7. Spracherkennungssystem zum Erkennen von Sprachsigna
len aufweisend:
eine Mehrzahl von Grammatiken mit endlicher Zustandsan zahl enthaltend wenigstens eine globale Grammatik mit endlicher Zustandsanzahl und wenigstens eine untergeordnete Grammatik mit endlicher Zustandsanzahl, wobei jede der Mehrzahl von Grammatiken eine Mehrzahl von Zuständen und we nigstens einen Übergang enthält, der in einem Netzwerk angeordnet ist, und wobei die Übergänge außerdem entweder Wörter oder Klassen enthalten können, wobei jedem Wort ein akustisches Modell und jeder Klasse ein Aufruf zu der wenigstens einen untergeordneten Grammatik mit endlicher Zu standsanzahl zugeordnet ist; und
eine Erkennungseinrichtung zum Ausführen der Erkennung durch Durchlaufen der globalen Grammatik mit endlicher Zustandsanzahl, wobei die Erkennungseinheit, wenn ein Wort getroffen wird, die Erkennung mit Hilfe des dem Wort zuge ordneten akustischen Modells durchführt, und, wenn eine Klasse getroffen wird, die der Klasse zugeordnete, unterge ordnete Grammatik mit endlicher Zustandsanzahl aufruft und mit der Erkennung dadurch fortfährt, daß die untergeordnete Grammatik mit endlicher Zustandsanzahl durchlaufen wird, so daß bei Beendigung des Durchlaufs der untergeordneten Grammatik mit endlicher Zustandsanzahl die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurückkehrt und dort mit dem Durchlaufen fortfährt.
eine Mehrzahl von Grammatiken mit endlicher Zustandsan zahl enthaltend wenigstens eine globale Grammatik mit endlicher Zustandsanzahl und wenigstens eine untergeordnete Grammatik mit endlicher Zustandsanzahl, wobei jede der Mehrzahl von Grammatiken eine Mehrzahl von Zuständen und we nigstens einen Übergang enthält, der in einem Netzwerk angeordnet ist, und wobei die Übergänge außerdem entweder Wörter oder Klassen enthalten können, wobei jedem Wort ein akustisches Modell und jeder Klasse ein Aufruf zu der wenigstens einen untergeordneten Grammatik mit endlicher Zu standsanzahl zugeordnet ist; und
eine Erkennungseinrichtung zum Ausführen der Erkennung durch Durchlaufen der globalen Grammatik mit endlicher Zustandsanzahl, wobei die Erkennungseinheit, wenn ein Wort getroffen wird, die Erkennung mit Hilfe des dem Wort zuge ordneten akustischen Modells durchführt, und, wenn eine Klasse getroffen wird, die der Klasse zugeordnete, unterge ordnete Grammatik mit endlicher Zustandsanzahl aufruft und mit der Erkennung dadurch fortfährt, daß die untergeordnete Grammatik mit endlicher Zustandsanzahl durchlaufen wird, so daß bei Beendigung des Durchlaufs der untergeordneten Grammatik mit endlicher Zustandsanzahl die Erkennungseinheit zu der globalen Grammatik mit endlicher Zustandsanzahl an den Ort des Aufrufs zurückkehrt und dort mit dem Durchlaufen fortfährt.
8. System nach Anspruch 7, wobei wenigstens ein Zustand
in wenigstens einer der Mehrzahl von Grammatiken mit end
licher Zustandsanzahl einen zu sich selbst zurückkehrenden
Schleifenübergang enthält, der an dem gleichen Zustand
beginnt und endet.
9. System nach Anspruch 8, wobei der zu sich selbst zu
rückkehrende Schleifenübergang ein Geräuschwort darstellt.
10. System nach Anspruch 8, wobei der zu sich selbst zu
rückkehrende Schleifenübergang eine Klasse enthält.
11. System nach Anspruch 10, wobei die Klasse eine un
tergeordnete Grammatik mit endlicher Zustandsanzahl aus
Geräuschen aufweist, so daß jeder Übergang in der unterge
ordneten Grammatik mit endlicher Zustandsanzahl Geräusche
darstellenden akustischen Modellen zugeordnet ist.
12. System nach Anspruch 7, wobei wenigstens einem Über
gang ein akustisches Modell mit allen Phonen zugeordnet ist,
so daß eine Erfassung für vokabularfremde Wörter vorgesehen
ist.
13. System nach Anspruch 12, wobei das akustische Modell
mit allen Phonen wenigstens einen zu sich selbst zurückkeh
renden Schleifenübergang aufweist, und wobei außerdem dem zu
sich selbst zurückkehrenden Schleifenübergang ein akusti
sches Modell mit allen Phonen zugeordnet ist.
14. System nach Anspruch 13, wobei der wenigstens eine
zu sich selbst zurückkehrende Schleifenübergang an dem
letzten Zustand angeordnet ist, um beliebig lange Wörter zu
kompensieren.
15. Verfahren zum Erkennen von Sprachsignalen, aufwei
send die Schritte:
daß ein erstes Übergangsnetzwerk mit Zuständen und Über gängen zwischen den Zuständen derart geschaffen wird, daß das erste Zustandsnetzwerk durchlaufen werden kann, wobei jedem Übergang ein Endpunkt oder eine Klasse zugeordnet ist;
daß ein zweites Übergangsnetzwerk mit Zuständen und we nigstens einem Übergang zwischen den Zuständen derart geschaffen wird, daß das zweite Übergangsnetzwerk durchlau fen werden kann;
daß das erste Netzwerk derart durchlaufen wird, daß eine Spracherkennung durchgeführt wird, wobei das zweite Netzwerk aufgerufen wird, wenn der der Klasse zugeordnete Übergang beim Durchlaufen des ersten Netzwerkes erreicht wird, so daß das zweite Übergangsnetzwerk durchlaufen wird; und
daß nach Durchlauf des zweiten Übergangsnetzwerkes zu dem ersten Netzwerk zurückgekehrt wird, und daß das Durch laufen des ersten Netzwerkes an dem Aufrufpunkt derart fortgesetzt wird, daß die Sprachsignale erkannt werden.
daß ein erstes Übergangsnetzwerk mit Zuständen und Über gängen zwischen den Zuständen derart geschaffen wird, daß das erste Zustandsnetzwerk durchlaufen werden kann, wobei jedem Übergang ein Endpunkt oder eine Klasse zugeordnet ist;
daß ein zweites Übergangsnetzwerk mit Zuständen und we nigstens einem Übergang zwischen den Zuständen derart geschaffen wird, daß das zweite Übergangsnetzwerk durchlau fen werden kann;
daß das erste Netzwerk derart durchlaufen wird, daß eine Spracherkennung durchgeführt wird, wobei das zweite Netzwerk aufgerufen wird, wenn der der Klasse zugeordnete Übergang beim Durchlaufen des ersten Netzwerkes erreicht wird, so daß das zweite Übergangsnetzwerk durchlaufen wird; und
daß nach Durchlauf des zweiten Übergangsnetzwerkes zu dem ersten Netzwerk zurückgekehrt wird, und daß das Durch laufen des ersten Netzwerkes an dem Aufrufpunkt derart fortgesetzt wird, daß die Sprachsignale erkannt werden.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US99901792A | 1992-12-31 | 1992-12-31 | |
PCT/US1993/012598 WO1994016434A1 (en) | 1992-12-31 | 1993-12-28 | Recursive finite state grammar |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4397100C2 true DE4397100C2 (de) | 2003-02-27 |
Family
ID=25545784
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4397100A Expired - Lifetime DE4397100C2 (de) | 1992-12-31 | 1993-12-28 | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl |
DE4397100T Pending DE4397100T1 (de) | 1992-12-31 | 1993-12-28 | Rekursive Grammatik mit endlicher Zustandsanzahl |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4397100T Pending DE4397100T1 (de) | 1992-12-31 | 1993-12-28 | Rekursive Grammatik mit endlicher Zustandsanzahl |
Country Status (4)
Country | Link |
---|---|
AU (1) | AU6080094A (de) |
CA (1) | CA2151371A1 (de) |
DE (2) | DE4397100C2 (de) |
WO (1) | WO1994016434A1 (de) |
Families Citing this family (96)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1199707A3 (de) * | 1995-05-26 | 2002-05-02 | Speechworks International, Inc. | Verfahren und Vorrichtung zur dynamischen Anpassung eines Spracherkennungssystems mit grossem Wortschatz und zur Verwendung von Einschränkungen aus einer Datenbank in einem Spracherkennungssystem mit grossem Wortschatz |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US5870706A (en) * | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
EP0903727A1 (de) * | 1997-09-17 | 1999-03-24 | Istituto Trentino Di Cultura | System und Verfahren zur automatischen Spracherkennung |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7584103B2 (en) | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
EP2030196B1 (de) | 2006-06-22 | 2018-09-05 | Multimodal Technologies, LLC | Verifizierung extrahierter daten |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8959102B2 (en) | 2010-10-08 | 2015-02-17 | Mmodal Ip Llc | Structured searching of dynamic structured document corpuses |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
EP3480811A1 (de) | 2014-05-30 | 2019-05-08 | Apple Inc. | Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0242743A1 (de) * | 1986-04-25 | 1987-10-28 | Texas Instruments Incorporated | Spracherkennungssystem |
EP0248377A2 (de) * | 1986-06-02 | 1987-12-09 | Motorola, Inc. | System zur Erkennung kontinuierlicher Sprache |
-
1993
- 1993-12-28 WO PCT/US1993/012598 patent/WO1994016434A1/en active Application Filing
- 1993-12-28 AU AU60800/94A patent/AU6080094A/en not_active Abandoned
- 1993-12-28 CA CA 2151371 patent/CA2151371A1/en not_active Abandoned
- 1993-12-28 DE DE4397100A patent/DE4397100C2/de not_active Expired - Lifetime
- 1993-12-28 DE DE4397100T patent/DE4397100T1/de active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0242743A1 (de) * | 1986-04-25 | 1987-10-28 | Texas Instruments Incorporated | Spracherkennungssystem |
EP0248377A2 (de) * | 1986-06-02 | 1987-12-09 | Motorola, Inc. | System zur Erkennung kontinuierlicher Sprache |
Also Published As
Publication number | Publication date |
---|---|
AU6080094A (en) | 1994-08-15 |
DE4397100T1 (de) | 1995-11-23 |
CA2151371A1 (en) | 1994-07-21 |
WO1994016434A1 (en) | 1994-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4397100C2 (de) | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE69919842T2 (de) | Sprachmodell basierend auf der spracherkennungshistorie | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
DE69827988T2 (de) | Sprachmodelle für die Spracherkennung | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE602005000308T2 (de) | Vorrichtung für sprachgesteuerte Anwendungen | |
DE69724485T2 (de) | Lokalisierung eines Musters in einem Signal | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung | |
DE60109999T2 (de) | Spracherkennung mittels lexikalischer Bäumen | |
DE10054583C2 (de) | Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen | |
EP0836175B1 (de) | Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
DE3786822T2 (de) | Spracherkennungssystem. | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE69333762T2 (de) | Spracherkennungssystem | |
WO2001086634A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8607 | Notification of search results after publication | ||
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: APPLE INC., CUPERTINO, CALIF., US |
|
R071 | Expiry of right |