DE3337353C2 - Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells - Google Patents

Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells

Info

Publication number
DE3337353C2
DE3337353C2 DE3337353A DE3337353A DE3337353C2 DE 3337353 C2 DE3337353 C2 DE 3337353C2 DE 3337353 A DE3337353 A DE 3337353A DE 3337353 A DE3337353 A DE 3337353A DE 3337353 C2 DE3337353 C2 DE 3337353C2
Authority
DE
Germany
Prior art keywords
signals
pattern
speech
signal
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE3337353A
Other languages
English (en)
Other versions
DE3337353A1 (de
Inventor
Stephen Eliot Levinson
Lawrence Richard Rabiner
Man Mohan Sondhi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Technologies Inc filed Critical AT&T Technologies Inc
Publication of DE3337353A1 publication Critical patent/DE3337353A1/de
Application granted granted Critical
Publication of DE3337353C2 publication Critical patent/DE3337353C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Die Erfindung betrifft einen Sprachanalysator zur Erkennung einer Äußerung als eines von einer Vielzahl von Bezugsmustern gemäß Anspruch 1.
Bei der Nachrichtenübertragung, Datenverarbeitung und in ähnlichen Anlagen ist es häufig wünschenswert, akustische Schnittstellenanordnungen zu verwenden. Eine Spracheingabe und eine Ausgabe von synthetisierter Sprache können für Anfragen, Befehle und den Austausch von Daten und anderen Informationen verwendet werden. Sprachschnittstellen ermöglichen einen Nachrichtenverkehr mit Datenverarbeitungseinrichtungen von entfernten Stellen aus, ohne daß manuell betätigte Bildschirmgeräte erforderlich sind, und ermöglichen die gleichzeitige Ausführung anderer Funktionen durch den Benutzer. Die Kompliziertheit der Sprachmuster und deren Änderungen von Sprecher zu Sprecher macht jedoch eine genaue Erkennung schwierig. Es sind zwar brauchbare Ergebnisse bei speziellen Anwendungsfällen beschränkt auf bestimmte Personen und mit eingeschränktem Vokabular erreicht worden, aber die Ungenauigkeit einer sprecherunabhängigen Erkennung hat deren Verwendung begrenzt.
Generell sind Spracherkennungsanordnungen in der Lage, ein unbekanntes Sprachmuster in eine Folge von vorgeschriebenen akustischen Merkmalssignalen umzusetzen. Diese Merkmalssignale werden dann mit vorher gespeicherten Sätzen akustischer Merkmalssignale verglichen, die identifizierte Bezugsmuster darstellen. Als Ergebnis des Vergleichs wird das unbekannte Sprachmuster als dasjenige Muster identifiziert, das das nach vorgegebenen Erkennungs­ kriterien am genauesten passende Bezugsmuster ist. Die Ge­ nauigkeit solcher Erkennungssysteme hängt in hohem Maß von den gewählten Merkmalen und den Erkennungskriterien ab. Der Vergleich zwischen der Eingangsfolge von Sprachmuster­ merkmalen und einer Bezugsfolge kann direkt durchgeführt werden. Es ist jedoch bekannt, daß die Sprachfrequenz und -artikulation in hohem Maße variabel sind.
Bekannte Erkennungsverfahren benutzen eine dyna­ mische Programmierung, um eine optimale Übereinstimmung zwischen den Mustern bei dem Vergleich zu bestimmen. Auf diese Weise werden die Einflüsse von unterschiedlichen Sprachfrequenzen und Sprachartikulationen gemildert. Die Signalverarbeitungsanordnungen für eine dynamische Zeitver­ zerrung und einen dynamischen Vergleich sind jedoch kompli­ ziert und zeitaufwendig, da die für eine Erkennung erforder­ liche Zeit eine Funktion der Größe des Bezugsvokabulars und der Anzahl von Bezugsmerkmalsschablonen für jedes Wort des Vokabulators ist. Im Ergebnis ist eine sprecherunabhängi­ ge Erkennung für Vokabulare in der Größenordnung von 50 Wörtern in Realzeit schwierig zu verwirklichen.
Ein weiterer Lösungsversuch für eine Spracher­ kennung beruht auf probabilistischen Markov-Modellen, die auf statistischen Schätzwerten fußende Sätze von Zuständen und Zustandsübergängen benutzen. Es sind sprecherabhängige Erkennungsanordnungen entwickelt worden, bei denen Spektral­ merkmalsfolgen erzeugt und in einer Folge von hierarchischen Markov-Modellen von Merkmalen, Wörtern und Sprache ausge­ wertet werden. Die Merkmalsfolgen werden in Markov-Modellen phonetischer Elemente analysiert. Die Modelle werden zu größeren akustischen Elementen, beispielsweise Wörtern, verknüpft. Die Ergebnisse werden dann auf eine Hierarchie von Markov-Modellen, beispielsweise syntaktischen Kontext- Modellen abgebildet, um eine Sprachmusteridentifizierung zu erhalten. Die Verwendung von Modellen verknüpfter phonemischer Elemente und die Kompliziertheit von Systemen unbeschränkter hierarchischer Markov-Modelle macht jedoch eine beträchtliche Einübung des Systems durch die identifizierten Sprecher erforderlich, um eine ausreichende Anzahl von Modellwerten zu gewinnen, damit die Markov-Modelle gültig werden.
In der US-PS 4,277,644 ist eine Mustererkennungsvorrichtung beschrieben, die insbesondere die Verwendung einer verbesserten Syntaxanalyse betrifft. Die Syntaxanalyse bedient sich der Tatsache, daß Wörter nur in einer bestimmten Reihenfolge in einem Satz Sinn ergeben. Die bekannte Vorrichtung erzeugt Syntaxsignale, die nur vorbestimmte Wortanordnungen zulassen, die als Bezugswortfolgen abgespeichert sind.
Aus der US-PS 4,348,553 ist eine Spracherkennungsanordnung bekannt, die ein Eingangssprachmuster zuerst in elementare Sprachsegmente zerlegt und anschließend diese jeweils mit einer Sammlung gespeicherter Prototypenmuster auf digitaler Basis vergleicht und dabei das Muster mit dem höchsten Korrelationsgehalt als das zu erkennende Sprachsegment identifiziert. Das bekannte Erkennungsverfahren wendet ferner eine dynamische Programmierung in Verbindung mit einem Markov- Prozeß an, um eine optimale Übereinstimmung zwischen den Sprachsegmenten bei einem Vergleich zu bestimmen. Die bekannte Vorrichtung ist allerdings kompliziert und zeitaufwendig, da die für eine Erkennung erforderliche Zeit eine Funktion der Größe des Bezugsvokabulars und der Anzahl von elementaren Sprachsegmenten für jedes Wort des Vokabulars ist.
Die vorliegende Erfindung hat zum Ziel, einen Sprachanalysator derart weiterzuentwickeln, daß er auf der Grundlage von Wahrscheinlichkeitsmodellen eine verbesserte automatische Spracherkennung erreicht, die nicht sprecherabhängig ist und mit höherer Geschwindigkeit einsetzbar ist.
Dieses Problem wird durch die Merkmale des Anspruchs 1 gelöst.
Weitere vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.
Nachfolgend wird die Erfindung anhand der Zeich­ nungen beschrieben. Es zeigen:
Fig. 1 schematisch ein Beispiel für ein beschränktes Markov-Modell mit verborgenem Wort, wie es bei der vorliegenden Erfindung be­ nutzt wird;
Fig. 2 ein allgemeines Flußdiagramm zur Erläuterung eines Ausführungsbeispiels der Erfindung;
Fig. 3 das Blockschaltbild einer Spracherkennungs­ schaltung nach der Erfindung;
Fig. 4, 5 und 6 genauere Flußdiagramme zur Erläuterung von Teilen der Arbeitsweise der Spracherkennungsschaltung nach Fig. 3:
Fig. 7 ein Gitterdiagramm zur Erläuterung der Arbeitsweise der Schaltung nach Fig. 3.
Allgemeine Beschreibung
In bekannter Weise kann ein verborgenes Markov- Modell zur Auswertung einer Folge von Beobachtungen O₁, O₂, . . . OT benutzt werden, wobei jede Beobachtung ein dis­ kretes Symbol einer endlichen Anzahl solcher Symbole ist. Die Folge von Beobachtungen läßt sich deuten als Wahrschein­ lichkeitsfunktion einer zugrunde liegenden Markov-Kette mit Zustandsänderungen, die nicht direkt beobachtbar sind. Fig. 1 erläutert ein solches Modell.
In Fig. 1 sind N Zustände, beispielsweise 5, und M Ausgangssymbole, beispielsweise 64, vorhanden. Die Übergänge zwischen Zuständen wird durch eine Übergangsmatrix A = [aÿ] bestimmt. Jeder Ausdruck aÿ ist die Wahrscheinlichkeit für einen Übergang in den Zustand j unter der Voraussetzung, daß sich das Modell im Zustand i befindet. Die Ausgangs­ symbolwahrscheinlichkeit des Modells wird durch eine Matrix B = [bj(Ot)] dargestellt, wobei bj(Ot) die Wahrschein­ lichkeit für die Ausgabe des Symbols Ot ist, vorausgesetzt daß sich das Modell im Zustand i befindet. Das verborgene Markov-Modell kann zur Ableitung eines Satzes von Bezugs­ mustermodellen verwendet werden, und zwar ein Modell für jedes Muster im Vokabularsatz, und zur Klassifizierung einer Folge von Beobachtungen als eines der Bezugsmuster auf der Grundlage der Wahrscheinlichkeit für die Erzeugung der unbekannten Beobachtungen aus jedem Bezugsmustermodell.
Bei der Spracherkennung wird das Eingangssprach­ muster analysiert, um eine Folge von akustischen Merkmalen zu erzeugen. Jedes Merkmal kann ein linearer Vorhersage­ koeffizienten-Vektor (LPC-Vektor von Linear Prediction Coefficient) oder ein anderes akustisches Merkmal bekann­ ter Art sein. Die erzeugten Merkmalsvektoren werden mit einem endlichen Satz voher gespeicherter LC-Merkmalssig­ nale verglichen und in eine Folge von Vektor-quantisierten LPC-Signalen umgesetzt, die das Eingangssprachmuster dar­ stellen. Jedes der quantisierten Merkmalssignale ist eines aus dem endlichen Satz von M Symbolen, die bei dem verbor­ genen Markov-Modell benutzt werden können. Bei der Erken­ nungs-Betriebsart bildet die quantisierte LPC-Vektormerk­ malsfolge für eine Äußerung, beispielsweise ein Wort oder einen Ausdruck, die Beobachtungsfolge O und die Wahrschein­ lichkeit dafür, daß O durch ein Bezugsmustermodell K, bei­ spielsweise ein Wort oder einen Ausdruck eines Vokabular­ satzes, erzeugt wird, wie folgt gebildet:
wobei i₁, i₂, . . . iT die Folge maximaler Wahrscheinlichkeit für die Markov-Modellzustände und O₁, O₂, . . . OT die beobachtete Folge sind. Die Gleichung (1) läßt sich anhand der Vorwärts-Teilwahrscheinlichkeit Φt(i) schreiben, die defi­ niert ist als
Φt(i) = P(O₁O₂ . . . Ot und die Folge maximaler Wahrscheinlichkeit, die im Zustand i zum Zeitpunkt t | K). (2)
Φt+1(j) kann dann ausgedrückt werden als
für 1 j N und max {1, j-2} i j,
wobei
so daß Gleichung (1) wird:
P(O|K) = P = ΦT(N). (4)
Nach Erzeugung des Wahrscheinlichkeitssignals für jedes Bezugsmustermodell kann das Eingangssprachmuster als dasjenige Bezugsmustermodell identifiziert werden, das dem Signal höchster Wahrscheinlichkeit entspricht.
Fig. 2 zeigt ein allgemeines Flußdiagramm zur Erläuterung der Arbeitsweise eines auf der Grundlage eines verborgenen Markov-Modell arbeitenden Spracherkenners. Wenn der Erkenner verfügbar ist (Kästchen 205), so wird das Ein­ gangssprachmuster in einer Folge von Digitalsignalen umge­ wandelt, wie Kästchen 210 zeigt. Die die Sprache darstel­ lenden Digitalsignale (Kästchen 210) werden dann in eine Zeitrahmenfolge von linearen Voraussagemerkmalssignalen umgesetzt (Kästchen 215). Die entsprechend dem Kästchen 215 erzeugten Signale entsprechen zwar den akustischen Merk­ malen des Eingangssprachmusters, die gewonnenen Signale sind aber nicht auf einen endlichen Satz begrenzt. Gemäß Kästchen 220 werden die akustischen Sprachmustermerkmale mit einem endlichen Satz von linearen Voraussagemerkmals­ vektoren verglichen, und es wird der am genauesten über­ einstimmende, gespeicherte Vektor für jedes Sprachmuster­ merkmalssignal gewählt. Auf diese Weise wird für jeden aufeinanderfolgenden Rahmen t des Sprachmusters ein quan­ tisiertes Merkmalsvektorsignal aus einem vorgegebenen end­ lichen Satz gewonnen. Das quantisierte Merkmalsvektorsignal ist dann die Eingangsbeobachtung für die Verarbeitung auf der Grundlage eines verborgenen Markov-Modells im Rahmen t.
Es wird ein Satz vorbestimmter Modelle gespeichert. Für jedes Bezugsmuster im Vokabular des Spracher­ kenners ist ein einziges Modell vorgesehen. Das Bezugmuster­ modell enthält eine Zustands-Ausgangssymbol-Signal­ matrix für jeden Modellzustand und eine Zustandswahrschein­ lichkeits-Signalmatrix entsprechend allen möglichen Über­ gängen zwischen den Zuständen für das Bezugsmustermodell. Die Bezugsmustermodelle werden entsprechend dem Kästchen 225 sequentiell gewählt, und die Wahrscheinlichkeit dafür, daß die quantisierte LPC-Vektor-Merkmalsfolgen des Eingangs­ sprachmusters aus dem gewählten Bezugswortmodell gewonnen wird, wird erzeugt und gespeichert (Kästchen 230). Nach Auswahl des letzten Bezugsmustermodells und Erzeugung des zugehörigen Wahrscheinlichkeitssignals wird das Maximum der Wahrscheinlichkeitssignale gewählt, und es wird ein Signal, das das beste Bezugsmuster identifiziert, zu einer Verbrauchereinrichtung übertragen, beispielsweise einem Datenverarbeiter oder einer Steueranlage.
Das verborgene Markov-Modell für jedes Bezugs­ muster wird so begrenzt, daß der Zustand 1 immer der Anfangszustand des ersten Rahmens ist, daß nur ein vorge­ schriebener Satz von Links-nach-rechts-Zustandsübergängen möglich ist und daß ein vorbestimmter Endzustand definiert ist, aus dem Übergänge in andere Zustände nicht stattfinden können. Diese Beschränkungen sind im Zustandsdiagramm gemäß Fig. 1 dargestellt. Dort ist der Zustand 1 der Anfangszustand, der Zustand 5 ist der End- oder Aufnahmezustand, und die vorgeschriebenen Übergänge von links nach rechts sind durch die Richtungspfeile zwischen den Zuständen angegeben.
Entsprechend dem Zustandsdiagramm nach Fig. 1 ist es nur möglich, in den Zustand 1 über den Weg 111 wieder einzutreten, über den Weg 112 zum Zustand 2 weiterzugeben oder über den Weg 113 vom Zustand 1 zum Zustand 3 zu gehen. Im allgemeinen sind die Übergänge auf das Wiedereintreten in einen Zustand oder das Eintreten in einen der nächsten beiden Zustände beschränkt. Es wurde festgestellt, daß diese Beschränkungen eine schnelle und genaue Erkennung von Sprach­ mustern ermöglichen. Die Erzeugung der Bezugsmustermodelle identifizierter Äußerungen für den Spracherkenner sind nicht auf die Sprachmuster eines identifizierten Sprechers be­ schränkt, sondern können aus den Äußerungen vieler unter­ schiedlicher Sprecher abgeleitet werden, so daß die Sprach­ erkennung sprecherunabhängig ist.
Ins Einzelne gehende Beschreibung
Fig. 3 zeigt ein allgemeines Blockschaltbild eines Spracherkenners zur Erläuterung der Erfindung. Die Schaltung gemäß Fig. 3 ist zur Erkennung von Sprechmustern vorgesehen, die einem elektroakustischen Wandler 300 zugeführt werden, und zur Lieferung vorgeschriebener Steuersignale einer Ver­ brauchereinrichtung (Verbrauchergerät) 380, die auf die identifizierten Muster anspricht. Gemäß Fig. 3 nimmt eine Filter- und Abtastschal­ tung 310 ein elektrisches Analagsignal vom Wandler 300 auf und führt eine Tiefpaßfilterung durch, so daß ein unerwünschtes Rauschen höherer Frequenzen entfernt wird. Die Grenz­ frequenz des Filters kann auf 3,2 kHz eingestellt werden. Das gefilterte Signal wird dann in bekannter Weise mit einer Frequenz von 6,7 kHz abgetastet.
Das abgetastete Signal wird einem Analog-Digital­ wandler 320 zugeführt, in welchem jeder aufeinanderfolgende Abtastwert in ein digitalcodiertes Signal umgesetzt wird, das die Größe des entsprechenden Abtastwertes darstellt. Die Folge codierter Signale wird einem LPC-Merkmalssignal­ generator 330 zugeführt. In bekannter Weise speichert der LPC-Merkmals­ signalgenerator 330 die digitalcodierte Signalfolge zeitweilig, gruppiert die Signale in aufeinanderfolgende, überlappen­ de Rahmen mit einer Dauer von 45 ms und erzeugt einen Satz von P linearen Voraussageparametersignalen für jeden Rahmen. Jeder Satz dieser LPC-Signale stellt akustische Merkmale des entsprechenden Rahmens dar. Es sei jedoch darauf hinge­ wiesen, daß der Fachmann auch spektrale oder andere akusti­ sche Merkmalssignale verwenden kann.
Der LPC-Merkmalssignalgenerator 330 stellt außerdem auf der Grundlage einer Energieanalyse der Merkmalssignalfolge den Endpunkt des dem Wandler 300 zugeführten Eingangssprach­ musters fest. Die Endpunkt-Feststellungsanordnung kann eine Anordnung sein, die in der US-PS 3 909 532 beschrieben ist. Alternativ können andere bekannte Verfahren zur Endpunktfeststellung benutzt werden.
Bei Feststellung eines Sprachmuster-Endpunktes im LPC-Merkmalssignalgenerator 330 wird das Steuersignal ST erzeugt und zum Erkennungsprozessor (Prozessorschaltung) 340 weitergeleitet, um dessen Operationen einzuleiten. Der Erkennungsprozessor (340) kann einen Mikroprozessor vom Typ MC68000 enthalten, der beschrieben ist in der Veröffentlichung "MC68000 16 Bit Microprocessor User's Manual", 2. Ausgabe, Motorola Inc., 1980. Die Ope­ rationsfolge des Erkennungsprozessors 340 wird durch einen fest ge­ speicherten Befehlssatz im Steuerprogrammspeicher (ROM) 335 gesteuert.
Ein Akustikmerkmal-Signalspeicher (Merkmalssignalspeicher) 370 nimmt die Rahmenfolge von LPC-Koeffizientensignalen, die das Eingangs­ sprachmuster darstellen, vom LPC-Merkmalssignalgenerator 330 auf und spei­ chert die Merkmalssignale in einer adressierbaren Rahmen­ reihenfolge zur Verwendung durch den Erkennungsprozessor 340. Ein Prototyp-Signalspeicher 365 enthält Signale, die einen Satz vorbestimmter LPC-Prototyp-Merkmalssignale dar­ stellen, welche den Bereich erwarteter LPC-Merkmalssignale im Eingangssprachmuster erfassen. Diese Prototyp-Signale bilden einen endlichen Satz von Symbolen für die Markov- Modell-Verarbeitung.
Ein Markov-Modellspeicher (Bezugsmusterspeicher) 360 enthält einen Satz codierter Signale entsprechend den verborgenen Wort-Markov- Modellen der möglichen Bezugsmuster für die unbekannte Äußerung, die dem Wandler 300 zugeführt wird. Jedes Markov- Modell umfaßt einen Satz von Signalen aÿ entsprechend der Wahrscheinlichkeit für die Übergänge zwischen Modellzu­ ständen und Signalen bj(Ot) entsprechend der Ausgangssymbol­ wahrscheinlichkeit in jedem Zustand. Die Ausgangssymbole Ot, und zwar ein Symbol für jeden Sprachmusterrahmen t, entsprechen den Prototypsignalen im Prototypsignalspeicher 365. Jeder der Bezugsmusterspeicher 360 und Prototypsignalspeicher 365 kann einen Festwertspeicher ent­ halten, der durch den Erkennungsprozessor 340 adressierbar ist. Die Festwertspeicher speichern die Modell- und Prototypsignale permanent. Der Merkmalssignalspeicher 370 kann ein durch den Erkennungsprozessor 340 adressierbarer Schreib-Lesespeicher (RAM) sein. Der RAM 350 wird als Zwischenspeicher für die Signal­ verarbeitungsoperationen des Erkennungsprozessors benutzt, und die Schnittstelle (Schnittstellensammelleitung) 345 bildet eine Nachrichtenübertra­ gungsschnittstelle zwischen dem Erkennungsprozessor und den Einrichtungen in Fig. 3. Es könnte auch eine Q-Sammelleitungsanordnung verwendet werden.
Die Schaltung gemäß Fig. 3 kann zur Erkennung vieler unterschiedlicher Mustertypen benutzt werden. Zur Erläuterung wird eine Anordnung zur Erkennung von Ziffern, beispielsweise der Ziffern einer Fernsprechnummer oder einer Kreditkartennummer, beschrieben. Es sei angenommen, daß die englische Aussprache "nine" der Ziffer "Neun" dem Wand­ ler 300 zugeführt wird. Entsprechend den Kästchen 207 und 210 des Flußdiagramms in Fig. 2 wird das Eingangssprachmu­ ster in der Filter- und Abtastschaltung 310 gefiltert und abgetastet und dann im Analog-Digitalwandler 320 in ein Digitalsignal umgesetzt. Die Folge digitalcodierter Signale wird dem Eingang eines LPC-Merkmalssignalgenerators 330 zuge­ führt, in welchem die LPC-Koeffizientenmerkmalssignale für die aufeinanderfolgenden Rahmen des Sprachmusters "Nine" entsprechend dem Kästchen 215 erzeugt werden. Die erzeugten LPC-Merkmalssignale werden zum Aku­ stikmerkmal-Signalspeicher 370 übertragen, der durch den Rahmenindex t über die Leitung 332 adressiert wird. In jedem Rahmen wird in das Entscheidungskästchen 218 eingetre­ ten, um festzustellen, ob der Endpunkt des Musters erreicht worden ist. Bei Feststellung des Endpunktes wird das Signal ST im Merkmalssignalgenerator erzeugt und zum Erkennungs­ prozessor 340 übertragen.
Unter Ansprechen auf das Signal ST wird der Erkennungspro­ zessor 340 in seine Vektorquantisierungs-Betriebsart ge­ bracht, in welcher die LPC-Merkmalssignale im Merkmalssignalspeicher 370 entsprechend den Prototypsignalen im Prototypsignalspeicher 365 entsprechend dem Kästchen 220 quantisiert werden. Die Quantisierungs­ betriebsart ist genauer im Flußdiagramm gemäß Fig. 4 darge­ stellt.
Entsprechend Fig. 4 wird gemäß Kästchen 401 der LPC-Merkmalssignal-Rahmenindex t im Erkennungsprozessor 340 zu Anfang auf 0 zurückgestellt. Dann wird in die Schleife 403 einge­ treten, um die Einstellung des Prototyp-Index m einzuleiten. In der Schleife 403 wird der Rahmenindex t inkremen­ tiert (Kästchen 405), und der inkrementierte Rahmenindex wird mit dem letzten Rahmen (T) des Eingangssprachmusters verglichen (Kästchen 410). Solange nicht t<T ist, wird in das Kästchen 415 eingetreten, so daß das LPC-Merkmalssignal Ut des augenblicklichen Rahmeneingangssprachmusters im Merkmalssignal­ speicher 370 durch den Erkennungsprozessor 340 adressiert und zum RAM 350 übertragen wird. Das Signal, das den minimalen Ab­ stand zwischen dem Prototyp-Signal und dem Merkmalssignal (Dmin) darstellt, wird zu Anfang auf Unendlich eingestellt (Kästchen 420), und der Prototyp-Index m wird im Erkennungsprozessor 340 auf 0 eingestellt (Kästchen 425). Gemäß Kästchen 430 wird dann der Prototyp-Index m im Erkennungsprozessor 340 inkremen­ tiert. Der inkrementierte Index m+1 wird anschließend ent­ sprechend Kästchen 435 mit dem letzten Index M=64 verglichen.
Zu diesem Zeitpunkt wird das augenblickliche Prototyp-Signal im Prototypsignalspeicher 365 adressiert und über den Erkennungsprozessor 340 zum RAM 350 übertragen (Kästchen 440). Es kann dann die Bestimmung des Prototyp-Signals Rm, das dem augenblicklichen Sprachmuster-Merkmalssignal Ut am ge­ nauesten entspricht, im Erkennungsprozessor 340 gestartet werden. Der Prozessor ist so eingerichtet, daß er iterativ das be­ kannte Itakura-Abstandsmetriksignal der Form
für jedes Prototyp-Signal bestimmt, wobei â ein LPC-Vektor von Ut, a ein LPC-Vektor aus Rm und V die Autokorrelations­ matrix auf Rm sind.
Zu Anfang werden das Abstandsmetriksignal d(Ut, Rm) und das Merkmalsindexsignal p entsprechend den Kästchen 445 und 450 auf 0 eingestellt. Dann wird in die Schleife 452 zur Abstandssignalbildung eingetreten, und für jeden Merkmalsindex wird das Abstandssignal gemäß Kästchen 455 entsprechend der folgenden Gleichung inkrementiert:
Das Indexsignal p wird im Erkennungsprozessor 340 inkrementiert (Kästchen 460), und es wird wieder über das Entscheidungs­ kästchen 465 in das Kästchen 455 eingetreten, bis p<P ist, wobei P das End-Merkmalsindexsignal ist. Das Abstandssignal wird in logarithmische Form gebracht (Kästchen 468) und dann entsprechend dem Entscheidungskästchen 470 mit Dmin verglichen. Falls das augenblickliche Prototyp-Abstands­ signal gleich oder größer als Dmin ist, wird erneut ohne Änderung von Dmin in das Kästchen 430 eingetreten. Im an­ deren Fall wird das Prototyp-Indexsignal m als Darstellung des quantisierten Sprachmustersignals für den Rahmen t abge­ speichert, und das Abstandssignal für den Prototyp m wird als Dmin im RAM 350 abgelegt. Dann wird erneut in das Käst­ chen 430 eingetreten. Wenn beim Kästchen 435 m<M ist, so wird Ot=m als das am genauesten entsprechende, quantisierte Signal gewählt und gemäß Kästchen 405 erneut in die Schleife 403 eingetreten, so daß die Quantisierung des nächsten Rahmens begonnen werden kann.
Wenn entsprechend dem Kästchen 410 der Sprach­ muster-Rahmenindex t größer als der letzte Sprachmuster­ rahmen T wird, ist eine Folge von quantisierten Signalan­ gaben O₁, O₂, . . . Ot . . . OT für das Sprachmuster im Erkennungsprozessor 340 erzeugt worden und im RAM 350 abgespeichert. Das der Aussprache von "nine" entsprechende Sprachmuster kann beispielsweise 36 Rahmen besitzen, und es wird für jeden Rahmen eines von 64 möglichen Prototypsignalen gewählt. Auf diese Weise wird das Sprachmuster in eine Folge von quantisierten Signalen eines endlichen Satzes umgewandelt. Jeder quantisierte Signalindex Ot entspricht einem Satz von P linearen Voraussagekoeffizienten, die das quantisierte Akustikmerkmal eines Rahmens für das Sprachmuster darstellen. Für die Aussprache der Ziffer "nine" durch einen nicht identifizierten Sprecher kann die Folge quantisierter Merk­ malssignale auf den in der nachfolgenden Tabelle 1 aufge­ führten Signalen bestehen.
Tabelle 1
Nach Beendigung der Quantisierung geht der Erkennungspro­ zessor 340 aus der Quantisierungs-Betriebsweise und tritt in seine Markov-Modell-Auswertungsbetriebsweise entsprechend den Kästchen 225, 230 und 235 in Fig. 2 ein.
Während der Modellauswertungs-Betriebsweise werden die Markov-Modelle für den Satz von Bezugsmustern, bei­ spielsweise die Ziffern 0, 1, 2, . . . 9 nacheinander ausge­ wählt. Jedes Modell umfaßt eine A-Matrix der Übergangs­ wahrscheinlichkeitssymbole und eine B-Matrix der Symbolaus­ gangs-Wahrscheinlichkeitssignale. Die A-Matritzen für die Ziffern 0, 5 und 9 sind als Beispiel in den Tabellen 2, 3 und 4 dargestellt. Sterne stellen Übergänge dar, die durch das Modell verboten sind und als 0 bewertet werden.
Tabelle 2
Ziffer 0
A-Matrix
Tabelle 3
Ziffer 5
A-Matrix
Tabelle 4
Ziffer 9
A-Matrix
Jede der A-Matrix-Tabellen ist eine 5×5-Matrix­ darstellung für die Wahrscheinlichkeit aller Übergänge zwischen den fünf Zuständen des Modells in Fig. 1.
Entsprechend den Tabellen 2, 3 und 4 sind entsprechend den Einschränkungen des Modells nur Übergänge von links nach rechts in Fig. 1 möglich, die keine * oder Null- Werte haben. B-Matrizen für die Ziffern 0, 5 und 9 sind in den Tabellen 5, 6 bzw. 7 gezeigt. Je Spalteneintra­ gung in Tabelle 5 stellt die Wahrscheinlichkeit eines be­ stimmten Prototyp-Signals im entsprechenden Zustand für die Aussparung der Ziffer "zero" dar.
Es sind 64 Prototyp-Wahrscheinlichkeiten in jeder Zustandsspalte vorhanden, so daß die Größe der Matrix 5×64 beträgt. Die Tabellen 6 und 7 entsprechen den Ziffern "five" und "nine" auf entsprechende Weise.
Entsprechend dem Flußdiagramm in Fig. 2 werden die im Bezugsmusterspeicher 360 gespeicherten Markov-Modelle durch Adressie­ rung mittels des Musterindex k nacheinander aus diesem Speicher wiedergewonnen. Für jedes Modell wird ein Signal gebildet, das die Wahrscheinlichkeit dafür darstellt, daß die quantisierte Merkmalssignalfolge des Sprachmusters mit dem Modell übereinstimmt. Die Anordnungen zur Bildung des Wahrscheinlichkeitssignals sind genauer in Fig. 5 und 6 gezeigt. Generell wird zuerst ein Markov-Modell gewählt. Für das zu erkennende Sprachmuster wird das Modell Rahmen für Rahmen mit der quantisierten Signalfolge O₁, O₂ . . . Ot . . . OT als Eingangssignal ausgewertet. Nach Beendigung der Auswertung für den letzten Sprachmusterrahmen wird ein Signal entsprechend der maximalen Wahrscheinlichkeit dafür, daß die quantisierte Signalfolge des Sprachmusters aus dem Modell abgeleitet worden ist, erzeugt.
Die Einschränkungen des in der Schaltung gemäß Fig. 3 benutzten verborgenen Wort-Markov-Modells mit Über­ gängen von links nach rechts machen es erforderlich, daß der Anfangszustand für den Rahmen t=1 nur der Zustand 1 in Fig. 1 ist und daß das logarithmische Wahrscheinlichkeits­ signal im Anfangszustand wird:
Φ₁(1) = ln(b₁(O1)). (7)
Der Wert Φ₁(1) wird aus der Eintragung m=14 der Spalte für den Zustand 1 der B-Matrix für die Ziffer abge­ leitet. Die logarithmischen Wahrscheinlichkeitssignale Φ₁(i), i=2, 3, 4 und 5 für den Rahmen t=1 werden auf - gesetzt, da diese Zustände im Modell nicht zulässig sind. Es werden dann die Signale ln(Φ₂(j)) für den Rahmen t=2 entsprechend dem folgenden Ausdruck gebildet:
für max {1, j-2}ij
unter Verwendung der Übergangswahrscheinlichkeitssignale in der A-Matrix für die Ziffer und der Symbolwahrscheinlich­ keitssignale in der B-Matrix entsprechend dem zweiten quan­ tisierten Rahmensignalindex m der Tabelle 1. Für jeden Be­ stimmungszustand j des Sprachmusterrahmens 2 wird das maxi­ male logarithmische Wahrscheinlichkeitssignal Φ₂(j) gespei­ chert. Es werden dann die logarithmischen Wahrscheinlich­ keitssignale für die aufeinanderfolgenden Zustände in der Rahmenfolge unter Verwendung der Matrixsignale A und B des Ziffernmodells und der Rahmenfolge quantisierter Sprach­ mustersignalindices t erzeugt. Nach der Verarbeitung des letzten Rahmens T wird das maximale logarithmische Wahr­ scheinlichkeitssignal für das Ziffernmodell aus dem Endzu­ stand 5 gewonnen, in welchem Übergänge auf andere Zustände nicht zulässig sind. Der Zustand 5 ist der aufnehmende oder absorbierende Zustand. Die Signalverarbeitung für den Satz von Ziffern wird nacheinander durchgeführt, und das größte der maximalen logarithmischen Wahrscheinlichkeitssignale sowie das entsprechende Ziffernidentifiziersignal wird im Speicher abgelegt. Bei Beendigung der Modellverarbeitung für die Ziffer "nine" wird das Sprachmuster als der Ziffern­ identifiziercode für das gespeichert gehaltene maximale logarithmische Wahrscheinlichkeitssignal identifiziert.
Die Markov-Modell-Verarbeitung entsprechend dem Kästchen 225, 230, 235 und 240 gemäß Fig. 2 wird von der Prozessorschaltung 340 entsprechend dem Flußdiagramm in Fig. 5 durchgeführt. Zu Anfang wird bei Beendigung der Quan­ tisierungs-Betriebsart aus dem Kästchen 220 in das Kästchen 501 eingetreten. Das logarithmische Signal maximaler Wahr­ scheinlichkeit wird auf seinen Minimalwert -∞ eingestellt und dann der gewählte Bezugsmusterindex k* auf -1 einge­ stellt. Der Bezugsmusterindex k wird auf -1 zurückgestellt (Kästchen 505) und dann auf 0 inkrementiert (Kästchen 507). Der augenblickliche Bezugsmusterindex k wird dann entspre­ chend dem Kästchen 510 mit dem letzten Indexwert K vergli­ chen. Da zu diesem Zeitpunkt k=0 ist, wird das Kästchen 515 gewählt, und die Matrixsignale A und B für die Ziffer k=0, d. h. "zero", werden adressiert und vom Bezugsmuster­ speicher 360 über die Prozessorschaltung 340 zum RAM 350 übertragen (Kästchen 515). Es wird dann das logarithmische Wahrscheinlichkeitssignal für die Ziffer "zero", nämlich ln PC, entsprechend dem Kästchen 520 erzeugt. Wie oben erwähnt, stellt das Signal PO die Wahr­ scheinlichkeit dafür dar, daß das quantisierte Eingangs­ sprachmuster aus dem Markov-Modell für die Ziffer "zero" gewonnen wird. Das Flußdiagramm gemäß Fig. 6 zeigt die Ein­ zelheiten für die Bildung des Signals ln Pk.
Gemäß Fig. 6 wird das Signal Φ₁(1) auf ln(b₁(O₁)) eingestellt (Kästchen 601) entsprechend dem Sig­ nal m=14 der Spalte 1 in der Matrix B gemäß Tabelle 5. Der Quellenzustandsindex i wird auf 1 eingestellt (Kästchen 605) und inkrementiert (Kästchen 607). Solange nicht i<N, dem Endzustand 5, ist, wird lnΦ₁(i) für i = 2, 3, . . . N auf -∞ eingestellt. Der Satz von Signalen Φ₁(1), Φ₁(2), . . . Φ₁(5) wird im RAM 350 gespeichert. Diese Signale Φ₁(i) entsprechen der Einschränkung, daß das Markov-Modell im ersten Zustand des ersten Sprachmusterrahmens beginnt. Fig. 7 zeigt ein baumförmiges Diagramm zur Darstellung der Folge von Zuständen des Markov-Modells für die aufeinander­ folgenden Eingangs-Sprachzeitrahmen 1, 2, 3 und 4. Die Spalte 710 entspricht dem ersten Rahmen, in welchem das quantisierte Indexsignal des Sprachmusters gleich O₁=14 ist. Die Spalten 720, 730 und 740 entsprechen dem zweiten, dritten bzw. vierten Rahmen. Die Markov-Zustände sind in absteigender Ordnung in jeder Spalte angegeben. Wie in Fig. 7 gezeigt ist, ist nur der Zustand 1 im ersten Zeitrahmen möglich.
Nach Bildung der Signale Φ₁(i) für den ersten Zeitrahmen wird nacheinander in die Kästchen 615 und 620 eingetreten, so daß der Zeitrahmenindex t auf 1 eingestellt und inkrementiert wird. Da der Zeitrahmenindex t nicht größer als der letzte Zeitrahmen T ist (Entscheidungskäst­ chen 625), wird der Bestimmungszustandsindex j entsprechend dem Kästchen 630 auf 0 eingestellt. Der Bestimmungsindex j wird gemäß Kästchen 635 auf 1 inkrementiert und mit dem Endzustand N=5 verglichen (Entscheidungskästchen 640). Ent­ sprechend den Einschränkungen des Markov-Modells gemäß Fig. 1 sind nur Übergänge in die nächsten beiden fol­ genden Zustände möglich. Demgemäß wird der Quellenzustands­ index i auf 0 eingestellt (Kästchen 650) und auf 1 inkre­ mentiert (Kästchen 652), um den Markov-Modell-Einschrän­ kungen zu genügen. Der Wert β, nämlich das maximale Φ₂(i), wird zu Anfang auf -∞ eingestellt (Kästchen 650).
Der inkrementierte Quellenzustandsindex i wird mit dem augenblicklichen Bestimmungszustandsindex j=1 ent­ sprechend Kästchen 654 verglichen und dann eingetreten in das Signalbildungskästchen 660 für den Sprachmuster-Zeit­ rahmens t=2, den Quellenzustandsindex i=1 des vorhergehenden Rahmens und den Bestimmungszustandsindex j=1. Das Signal α im Kästchen 660 entspricht dem Weg vom Zustand 1 in Spalte 710 (t=1) zum Zustand 1 in Spalte 720 (t=2), und sein Wert wird durch Summieren der vorher erzeugten Signale Φ₁(1) und ln(a₁₁b₁(O₂)) gewonnen. Der Signalindex O₂ ist das quantisierte Sprachmustersignal für den Rahmen t=2 in Tabelle 1. Das Signal a₁₁ wird aus den A-Matrixsignalen der Tabelle 2 in Spalte i=1 und Zeile j=1 erhalten, und das Signal b (O₂) wird aus der Eintragung m=14 in der Spalte des Zustandes 1 für die B-Matrix der Ziffer "zero" in Tabelle 5 gewonnen. Zu diesem Zeitpunkt ist α=-10,2 und β wird entsprechend dem Kästchen 665 und 670 auf diesen Wert eingestellt. Es wird dann wieder zum Inkrementieren des Quellenzustandsindex zurückgekehrt (Kästchen 652), so daß i=2 wird.
Da der Quellenzustandsindex i jetzt größer als der Bestimmungszustandsindex j=1 ist, wird Φ₂(1) auf β eingestellt (Kästchen 654 und 656), und der Bestimmungs­ zustandsindex j wird auf 2 inkrementiert (Kästchen 635). Der Quellenzustandsindex i wird auf 0 zurückgestellt und entsprechend den Kästchen 650 und 652 auf 1 inkrementiert. Gemäß Kästchen 660 wird das Signal α für die Indices t=2, i=1 und j=2 gebildet. Auf diese Weise wird der Weg vom Zustand 1 der Spalte 710 zum Zustand 2 der Spalte 720 in Fig. 7 durchschritten. Der Wert von α für t=2, i=1, j=2 ersetzt das Signal β=-∞ (Kästchen 665 und 670).
Wenn das Signal α für t=2, i=2 und j=2 gebildet ist, ist es kleiner als β, da Φ₁(2)=-∞ ist. Demgemäß wird β im Kästchen 670 nicht verändert. Es wird dann der Quellen­ zustandsindex i inkrementiert (Kästchen 652). Der in krementierte Index i=3 ist jetzt größer als j=2, und Φ₂(2) wird auf den für t=2, i=1 und j=2 gewonnenen Wert β einge­ stellt (Kästchen 656). In ähnlicher Weise wird entspre­ chend der Darstellung in Fig. 7 Φ₂(3) auf das Signal α für t=2, i=1 und j=3 eingestellt. Die Signale Φ₁(i) für i<1 sind auf -∞ eingestellt worden. Demgemäß werden für die Sig­ nale Φ₂(j) für j<3 auf -∞ eingestellt. Die Tabellen 8, 9 und 10 geben die logarithmischen Wahrscheinlichkeitssig­ nale Φt(j) für die Markov-Modell-Zustände in jedem Zeit­ rahmen t an.
Tabelle 8
Tabelle 9
Tabelle 10
Zeile 2 in Tabelle 8 gibt die Werte für Φ₂(1), Φ₂(2), Φ₂(3), Φ₂(4) und Φ₂(5) die bei der Markov-Modell- Signalverarbeitung gemäß Fig. 6 für den zweiten Sprach­ rahmen gewonnen worden sind.
Die Verarbeitung des zweiten Sprachrahmens ist beendet, wenn der Bestimmungszustand j entsprechend dem Entscheidungskästchen 640 größer als der Endzustand N=5 wird. Zu diesem Zeitpunkt wird der Sprachrahmenindex t auf 3 inkrementiert (Kästchen 620), und die Verarbeitung der Signale Φ₃(j) beginnt entsprechend dem Kästchen 630. Wie in Fig. 7 gezeigt, enthalten die möglichen Übergänge im Sprachmusterrahmen t=3 Übergänge vom Zustand 1 des Rahmens 2 (Spalte 720) zu den Zuständen 1, 2 und 3 des Rahmens 3 (Spalte 730), vom Zustand 2 des Rahmens 2 (Spalte 720) zu den Zuständen 2, 3 und 4 des Rahmens 3 (Spalte 730) und vom Zustand 3 des Rahmens 2 (Spalte 720) zu den Zuständen 3, 4 und 5 des Rahmens 3 (Spalte 730). Die Verarbeitung der Signale Φ₃(j) wird durchgeführt, wie mit Bezug auf die früheren Sprachmuster-Zeitrahmen gemäß Gleichung (8) be­ schrieben worden ist. Im Rahmen t=3 und in nachfolgenden Rahmen kann jedoch mehr als ein Quellenzustand für jeden Bestimmungszustand vorhanden sein. In Fig. 7 kann beispiels­ weise der Zustand 2 in Spalte 730 von den Zuständen 1 und 2 der Spalte 720 aus erreicht werden, und der Zustand 3 der Spalte 730 von den Zuständen 1, 2 und 3 der Spalte 720 aus. Für jeden Bestimmungszustand wird das erzeugte maximale Signal α entsprechend den Funktionen der Kästchen 665 und 670 als das Signal Φ₃(j) gespeichert. Mit Bezug auf den Zustand 2 der Spalte 730 gilt:
Die im Rahmen t=3 gewonnenen Signale Φ₃(1), Φ₃(2), Φ₃(3, Φ₃(4) und Φ₃(5) sind in der dritten Zeile der Tabelle 8 aufgeführt, und die Signale Φ₄(j), die sich bei der Ver­ arbeitung für den Rahmen t=4 ergeben, sind in der vierten Zeile der Tabelle 8 angegeben.
Die Signalverarbeitung gemäß Fig. 6 wird für die nachfolgenden Sprachrahmen entsprechend den Einschrän­ kungen des verborgenen Markov-Modells durchgeführt, um die maximale Wahrscheinlichkeit für das Eingangssprachmuster "nine" zu gewinnen, das aus den Matrixsignalen A und B für die Ziffer "zero" für jeden Zustand im Sprachmuster-Zeit­ rahmen abgeleitet wird. Nachdem α für die Indices t=36, i=5 und j=5 gewonnen worden ist, wird die Verarbeitung des letzten Zeitrahmens (T=36) entsprechend den Kästchen 665, 670, 652, 654 und 656 beendet. Es wird dann das Signal ΦT(N) = 158,0 für den Endzustand N=5 erzeugt (Kästchen 656). Dieses Signal stellt die maximale logarithmische Wahr­ scheinlichkeit dafür dar, daß das Sprachmuster aus dem Markov-Modell für die Ziffer "zero" abgeleitet worden ist, und wird in der letzten Position der letzten Zeile (t=36) in Tabelle 8 aufgelistet.
Wenn der Rahmen t größer als der letzte Sprach­ musterrahmen T=36 wird, wird in das Kästchen 628 aus dem Entscheidungskästchen 625 eingetreten und das maximale Wahrscheinlichkeitssignal für die Ziffer "zero" gespeichert. Dann wird erneut in das Kästchen 507 gemäß Fig. 5 eingetre­ ten, und es beginnt die Markov-Verarbeitung für die Ziffer "one". Die Tabellen 9 und 10 zeigen die Markov-Modell- Verarbeitung für die Ziffern "five" und "nine".
Entsprechend den Kästchen 525 und 530 wird, nach­ dem das maximale logarithmische Wahrscheinlichkeitssignal für jede Ziffer gebildet ist, dieses Signal mit den größten Werten der Wahrscheinlichkeitswerte für die vorhergehende Ziffer verglichen, und es werden nur der größte Wert und sein Identitätscode k* gespeichert. Wenn die Verarbeitung für die Ziffer 0 beendet ist, so wird lnPmax auf -158,0 eingestellt (Tabelle 8), und k* wird entsprechend dem Käst­ chen 530 auf 0 eingestellt. Die Signale ln Pk für den Ziffern­ satz, die mit der Anordnung gemäß Fig. 3 für das Ein­ gangssprachmuster "nine" gewonnen worden sind, sind die­ jenigen für den letzten, absorbierenden Zustand 5 im Rahmen t=36.
Demgemäß bleiben ln Pmax und k* von der Ziffer "zero" unverändert, bis das maximale logarithmische Wahr­ scheinlichkeitssignal für das Modell der Ziffer "nine" mit lnPmax im Entscheidungskästchen 525 verglichen wird. Als Ergebnis des Vergleichs wird in das Kästchen 530 eingetre­ ten. Das Signal ln Pmax wird auf -156,9 und k* auf 9 einge­ stellt. Am Ende der Markov-Modell-Auswertungsbetriebsart ist das gespeicherte maximale Wahrscheinlichkeitssignal -156,9 und die gewählte Ziffer ist k*=9.
Die oben beschriebene Ziffernerkennung kann zur Erkennung einer Folge gesprochener Buchstaben, Ziffern oder Wörter, beispielsweise in einer Fernsprech- oder Kreditkar­ tennummer, benutzt werden. Nach Auswahl des Bezugsmodells mit dem Signal P(O|K) maximaler Wahrscheinlichkeit ent­ sprechend dem Kästchen 240 in Fig. 2 wird ein Bezugsindex­ signal erzeugt (Kästchen 245) und zur Verbrauchereinrich­ tung 280 übertragen, die eine Fernsprechvermittlungsanord­ nung oder ein Datenverarbeiter für Geschäftsvorgänge sein kann. Es wird dann in das Entscheidungskästchen 205 einge­ treten, so daß das nächste Sprachmuster des gesprochenen Eingangssignals verarbeitet werden kann. Die Anordnung gemäß Fig. 3 kann für die Erkennung anderer Sprachmuster, beispielsweise von Ausdrücken oder Sätzen, erweitert wer­ den, indem geeignete Markov-Modell-Bezugsschablonen ge­ wählt werden. Im Gegensatz zu bekannten Markov-Modell- Spracherkennungsanordnungen, bei denen Modelle kleiner Sprachelemente, beispielsweise von Phonemen, benutzt werden, wird bei der vorliegenden Erfindung ein einziges Modell des gesamten Bezugsmusters, beispielsweise eines Wortes oder eines Ausdrucks, zur Identifizierung einer Aus­ sprache als ein Bezugsmuster benutzt. Mit Vorteil ist die Anzahl der für eine Erkennung erforderlichen Zustände ver­ ringert, Schwierigkeiten bei der Verknüpfung von Phonemen oder anderen elementaren Sprachabschnittsmodellen werden vermieden, und es wird ein sprecherunabhängiger Betrieb auf der Grundlage verfügbarer Datenbasen erreichen. Die Markov- Modell-Schablonen, die im Bezugsmusterspeicher 360 gespeichert sind, werden aus Sprachäußerungen identifizierter Sprachmuster erzeugt, die von irgendeiner Quelle und von unterschiedlichen Sprechern stammen können. Es können Muster von bequem ver­ fügbaren Datenbanken oder gespeicherte Sprachäußerungen zur Erzeugung von Markov-Modellen für den Sprecher bei der sprecherunabhängigen Erkennungsanordnung gemäß Fig. 3 verwendet werden.

Claims (7)

1. Sprachanalysator zur Erkennung einer Äußerung als eines von einer Vielzahl von Bezugsmustern, mit einem Bezugsmusterspeicherr (360) zur Speicherung einer Vielzahl von Signalen, die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, und mit einer Einrichtung (300, 310, 320, 330), die unter Ansprechen auf die Äußerung eine Zeitrahmenfolge akustischer Merkmalssignale ermittelt, die das Sprachmuster der Äußerung darstellen, gekennzeichnet durch
einen Prototyp-Signalspeicher (365) zur Speicherung vorbestimmter Merkmalssignale,
eine Prozessorschaltung (340), die unter Ansprechen auf die ermittelten akustischen Merkmalssignale entsprechend einer Ähnlichkeitsmetrik mehrere der vorbestimmten Merkmalssignale auswählt, die das Sprachmuster darstellen,
Einrichtung (340, 335), die unter gemeinsamen Ansprechen auf die ausgewählten vorbestimmten Merkmalssignale und auf die Signale für das begrenzte, verborgene Markov-Modell jedes Bezugsmuster ein die Wahrscheinlichkeit des Sprachmusters darstellendes Signal dafür erzeugen, daß das Sprachmuster das Bezugsmuster ist, und die unter Ansprechen auf die die Wahrscheinlichkeit darstellenden Signale das Sprachmuster als eines der Bezugsmuster erkennt.
2. Sprachanalysator nach Anspruch 1, dadurch gekennzeichnet, daß der Bezugsmusterspeicher (360) zur Speicherung einer Vielzahl der Signale, die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, eine Einrichtung zur Speicherung eines Satzes von Signalen aufweist, die Markov-Modellzuständen entsprechen, und zwar einschließlich eines Signals, das einem Anfangszustand entspricht, einer Vielzahl von Signalen, die mittleren Zuständen entsprechen, und eines Signals, das einem Endzustand entspricht, ferner eine Einrichtung zur Speicherung eines Satzes von Signalen, die je der Wahrscheinlichkeit für den Übergang zwischen einem vorbestimmten Paar von Zuständen entsprechen, und eine Einrichtung zur Speicherung eines Satzes von Signalen, die je die Wahrscheinlichkeit eines vorbestimmten Merkmalssignals darstellt, das in einem vorgeschriebenen Zustand auftritt.
3. Sprachanalysator nach Anspruch 2, dadurch gekennzeichnet, daß die Einrichtung (340, 335) zur Erzeugung von die Wahrscheinlichkeit darstellenden Signalen für jedes Bezugsmustermodell so ausgelegt ist, daß sie nacheinander Sprachmusterrahmen- Verarbeitungsintervallsignale erzeugt, daß sie im augenblicklichen Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen auf das gewählte, vorbestimmte, den augenblicklichen Sprachmusterrahmen darstellende Signal und die Bezugsmuster-Markov-Modellsignale einen Satz von Signalen erzeugt, die die Wahrscheinlichkeit dafür darstellen, daß das Bezugsmuster-Markov-Modell während dieses Sprachrahmens in einem vorgeschriebenen Zustand ist, und im letzten Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen auf das die Wahrscheinlichkeit dafür darstellende Signal, das das Bezugsmuster-Markov-Modell des letzten Sprachmusterrahmens im Endzustand ist, ein Signal bildet, das die Wahrscheinlichkeit dafür darstellt, daß das Sprachmuster aus dem Bezugsmuster-Markov-Modell gewonnen wird.
4. Sprachanalysator nach Anspruch 3, dadurch gekennzeichnet, daß die Einrichtung (340, 335) zur Erzeugung der die Wahrscheinlichkeit darstellenden Signale in jedem Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen auf die Markov-Modell-Zustandssignale, die Übergangswahrscheinlichkeitssignale und die Wahrscheinlichkeitssignale für das Auftreten der Merkmalssignale einen Satz von Signalen erzeugt, die die Wahrscheinlichkeit dafür darstellen, daß das Bezugsmuster- Markov-Modell entsprechend dem Sprachmusterteil bis zum augenblicklichen Rahmen sich in jedem der Bezugsmuster- Markov-Modellzustände befindet.
5. Sprachanalysator nach Anspruch 4, dadurch gekennzeichnet, daß der Prototyp-Signalspeicher (365) zur Speicherung der vorbestimmten Anzahl von vorbestimmten Merkmalssignalen eine Einrichtung zur Speicherung einer vorbestimmten Anzahl von Linear-Voraussagemerkmal(LPC)- Prototypsignalen aufweist, die den Bereich der erwarteten akustischen Merkmale des Sprachmusters erfassen.
6. Sprachanalysator nach Anspruch 4, dadurch gekennzeichnet, daß die Übergangswahrscheinlichkeitssignale entsprechend Übergängen von einem ersten bestimmten Zustand i in einen zweiten bestimmten Zustand j für J<i und J<i+2 Signale mit dem Wert 0 sind.
7. Sprachanalysator nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß das Sprachmuster die Aussprache eines Wortes und jedes Bezugsmuster ein identifiziertes gesprochenes Wortmuster ist.
DE3337353A 1982-10-15 1983-10-14 Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells Expired - Fee Related DE3337353C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/434,516 US4587670A (en) 1982-10-15 1982-10-15 Hidden Markov model speech recognition arrangement

Publications (2)

Publication Number Publication Date
DE3337353A1 DE3337353A1 (de) 1984-04-19
DE3337353C2 true DE3337353C2 (de) 1996-05-09

Family

ID=23724541

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3337353A Expired - Fee Related DE3337353C2 (de) 1982-10-15 1983-10-14 Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells

Country Status (5)

Country Link
US (1) US4587670A (de)
JP (1) JPS5991500A (de)
CA (1) CA1187995A (de)
DE (1) DE3337353C2 (de)
FR (1) FR2534719B1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19705471A1 (de) * 1997-02-13 1997-07-24 Sibet Gmbh Sican Forschungs Un Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE102004017548B4 (de) * 2004-04-07 2007-12-27 Medav Gmbh Verfahren zur Erkennung und Analyse von Funksignalen

Families Citing this family (185)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
CA1243779A (en) * 1985-03-20 1988-10-25 Tetsu Taguchi Speech processing system
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
GB2179483B (en) * 1985-08-20 1989-08-02 Nat Res Dev Apparatus and methods for analysing data arising from conditions which can be represented by finite state machines
GB8527913D0 (en) * 1985-11-12 1985-12-18 Pa Consulting Services Analysing transitions in finite state machines
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
US4811199A (en) * 1987-05-08 1989-03-07 Kuechler William L System for storing and manipulating information in an information base
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
GB8908205D0 (en) * 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
DE3916478A1 (de) * 1989-05-20 1990-11-22 Standard Elektrik Lorenz Ag Neuronale netzwerkarchitektur
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5119425A (en) * 1990-01-02 1992-06-02 Raytheon Company Sound synthesizer
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
DE4110300C2 (de) * 1991-03-28 1995-04-06 Telefonbau & Normalzeit Gmbh Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung
JP2979711B2 (ja) * 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
US5276766A (en) * 1991-07-16 1994-01-04 International Business Machines Corporation Fast algorithm for deriving acoustic prototypes for automatic speech recognition
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5371779A (en) * 1992-03-13 1994-12-06 Nec Corporation Call initiating system for mobile telephone units
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
US5745873A (en) * 1992-05-01 1998-04-28 Massachusetts Institute Of Technology Speech recognition using final decision based on tentative decisions
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
GB2285700B (en) * 1994-01-12 1998-06-24 Drallim Ind Monitoring apparatus and method
CN1063554C (zh) * 1994-03-03 2001-03-21 李琳山 中文电脑的汉语语音输入***及其方法
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
JP3703164B2 (ja) * 1995-05-10 2005-10-05 キヤノン株式会社 パターン認識方法及びその装置
US5752001A (en) * 1995-06-01 1998-05-12 Intel Corporation Method and apparatus employing Viterbi scoring using SIMD instructions for data recognition
JPH10513033A (ja) * 1995-11-17 1998-12-08 エイ・ティ・アンド・ティ・コーポレーション 電気通信網に基づく音声ダイヤル呼び出しのための自動語彙作成
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
DE19640587A1 (de) * 1996-10-01 1998-04-02 Siemens Ag Verfahren zur Berechnung eines Schwellenwertes für die Spracherkennung eines Schlüsselwortes
US6253178B1 (en) 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
US6157731A (en) * 1998-07-01 2000-12-05 Lucent Technologies Inc. Signature verification method using hidden markov models
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6850888B1 (en) * 2000-10-06 2005-02-01 International Business Machines Corporation Methods and apparatus for training a pattern recognition system using maximal rank likelihood as an optimization function
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
JP4048741B2 (ja) * 2001-07-24 2008-02-20 セイコーエプソン株式会社 Hmmの出力確率演算方法および音声認識装置
US7603276B2 (en) * 2002-11-21 2009-10-13 Panasonic Corporation Standard-model generation for speech recognition using a reference model
US7542949B2 (en) * 2004-05-12 2009-06-02 Mitsubishi Electric Research Laboratories, Inc. Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP4138075A1 (de) 2013-02-07 2023-02-22 Apple Inc. Sprachauslöser für digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和***
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9530412B2 (en) * 2014-08-29 2016-12-27 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9741342B2 (en) 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19705471A1 (de) * 1997-02-13 1997-07-24 Sibet Gmbh Sican Forschungs Un Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE102004017548B4 (de) * 2004-04-07 2007-12-27 Medav Gmbh Verfahren zur Erkennung und Analyse von Funksignalen

Also Published As

Publication number Publication date
US4587670A (en) 1986-05-06
JPH0422276B2 (de) 1992-04-16
CA1187995A (en) 1985-05-28
FR2534719A1 (fr) 1984-04-20
FR2534719B1 (fr) 1986-09-19
JPS5991500A (ja) 1984-05-26
DE3337353A1 (de) 1984-04-19

Similar Documents

Publication Publication Date Title
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE3783154T2 (de) Spracherkennungssystem.
DE2953262C2 (de)
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE3878541T2 (de) Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.
EP0418711B1 (de) Verfahren zur sprecheradaptiven Erkennung von Sprache
DE3874049T2 (de) Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers.
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE102008017993B4 (de) Sprachsuchvorrichtung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
EP0821346A2 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69917960T2 (de) Phonembasierte Sprachsynthese
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US

8110 Request for examination paragraph 44
8125 Change of the main classification

Ipc: G10L 5/06

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee