DE69126983T2

DE69126983T2 - Einrichtung zur mustererkennung mit einem kuenstlichen neuronalen netzwerk fuer kontextabhaengige modellierung

Info

Publication number: DE69126983T2
Application number: DE69126983T
Authority: DE
Inventors: Herve Bourlard; Nelson Morgan
Original assignee: Lernout and Hauspie Speech Products NV
Current assignee: Lernout and Hauspie Speech Products NV
Priority date: 1991-08-19
Filing date: 1991-08-19
Publication date: 1998-03-05
Anticipated expiration: 2011-08-20
Also published as: JP3168004B2; WO1993004468A1; EP0553101A1; JPH06502927A; EP0553101B1; DE69126983D1

Description

Die Erfindung bezieht sich auf eine Mustererkennungsvorrichtung enthaltend eine künstliche Netzanordnung mit K × M Ausgabeeinheiten und vorgesehen zur Berechnung von Beobachtungswahrscheinlichkeiten eines Merkmalsvektors (xt) an einer Klasse (qk) (1≤k≤K), die von vorbestimmten Kontextmodellen (cm) (1≤m≤M) abhängig ist. Die Mustererkennungsvorrichtung besitzt einen Eingang zum Empfangen eines Datenstroms und enthält eine Abtasteinrichtung, die zum sequentiellen Abrufen von Datenmustern durch Abtasten des Datenstroms und zur Bestimmung des Merkmalsvektors (xt) aus einem Datenmuster vorgesehen ist, wobei jede der Klassen durch mindestens ein Modell dargestellt ist, das zu einer endlichen Menge von Modellen (M) gehört, die statistischen Gesetzen unterliegen.
Eine derartige Vorrichtung ist aus dem von H. Bourlard und C.J. Wellekens verfaßten Artikel "Links between Markov Modeis and Multilayer Perceptrons" bekannt, veröffentlicht in IEEE Transactions of paffern analysis and Machine intelligence, Vol 12, No 12, Dezember 1990, S.1167-1178. In der bekannten Vorrichtung bezieht sich die Mustererkennung auf menschliche Sprachmuster. Die Mustererkennung erfolgt mit einer hybriden ANN (Artificial Neural Network) / HMM (Hidden Markov Models)-Spracherkennung. Hidden Markov-Modelle ermöglichen eine gute Repräsentation der Sprachcharakteristika, künstliche neuronale Netze dienen zur Lösung der schwierigen Probleme der Spracherkennung, darüber hinaus wurden Algorithmen zur Berechnung der Emissionswahrscheinlichkeiten entwickelt. Das HMM betrachtet Sprache als Ergebnis einer bestimmten Finite-State-Automatisierung auf Basis einer Gruppe von Klassen Q = {q&sub1;, q&sub2;,....,qK}, die statistischen Gesetzen unterliegen. Zur Erkennung des eingegebenen Datenstroms muß die eingegebene Sprache abgetastet und in eine Sequenz akustischer Vektoren X= {x&sub1;,x&sub2;,...xt,...,xr} transformiert werden, wobei xt der akustische Vektor zum Zeitpunkt t ist. In der bekannten Vorrichtung werden Multilayer Perceptrons (MLP) eingesetzt, die eine Sonderform von ANNs sind. Die MLPs werden trainiert, um Bayes-Wahrscheinlichkeiten oder a-posteriori- Wahrscheinlichkeiten p(qk xt) zu erzeugen, die sich mit Hilfe der Bayes- Regel zur Bestimmung der Emissionswahrscheinlichkeiten transformieren lassen.
Ein Nachteil der bekannten Vorrichtung besteht darin, daß für komplexere Modelle wie etwa kontextabhängige Modelle eine große Anzahl von Parametern mit einer gleichen begrenzten Datenmenge ermittelt werden müssen. Wenn beispielsweise K mögliche Klassen und M mögliche Kontexte gegeben sind und die Informationen der linken und rechten Kontexte der jeweiligen Klasse benutzt werden sollen, ergibt dies K × M × M mögliche Kombinationen qk,clj,crm, wobei clj, und crm jeweils die linken und rechten Kontexte zu einer Reihe C = {c&sub1;, c&sub2;,...cM} möglicher kontextueller Modelle bezeichnen. Unabhängig davon, ob die Wahrscheinlichkeiten durch MLPs oder durch standardmäßige Trainingsmethoden für HMMs erzeugt werden, erlauben beide Verfahren keine gute Wahrscheinlichkeitsbestimmung für eine phonetische Bedingung, die selten oder nie beobachtet wird. Eine einfache Anwendung der bekannten Vorrichtung zur Berechnung der Ausgangswahrscheinlichkeiten der Beobachtung eines Vektors (xt) an einer aktuellen Klasse (qk) mit vorbestimmten Kontextmodellen (clj,crm) würde zu einer Ausgabeschicht mit Tausenden von Einheiten und Millionen von zu trainierenden Parametern führen. Um dieses Problem zu beheben, arbeiten HMM-Systeme mit interpolationen. Diese Lösung kennzeichnet die Abwägung zwischen detaillierten Modellen, die schwach bestimmt sind, weil nicht genügend Trainingsmaterial verfügbar ist, und groben Modellen, die aufgrund der begrenzten Anzahl ihrer Parameter gut bestimmt sind. Allerdings verursacht diese Interpolation immer noch Fehler in der Mustererkennung, worunter die Zuverlässigkeit der Vorrichtung leidet.
Zu den Zielen der gegenwärtigen Erfindung gehört es, die genannten Nachteile zu beheben.
Eine Vorrichtung im Sinne der Erfindung ist daher dadurch gekennzeichnet, daß die besagte Netzanordnung in mehrere neuronale Netze aufgeteilt ist: Ein erstes neuronales Netz, das K Ausgabeeinheiten besitzt und zur Berechnung der a-posteriori-Wahrscheinlichkeiten der besagten Klasse (qk) vorgesehen ist, wenn der besagte beobachtete Vektor (xt) gegeben ist, und mindestens ein weiteres neuronales Netz, das M Ausgabeeinheiten besitzt und zur Berechnung von a-posteriori- Wahrscheinlichkeiten der besagten Kontextmodelle (qk) vorgesehen ist, die von der besagten Klasse abhängig sind. Die Aufteilung der Netzanordnung in ein erstes und mindestens ein weiteres neuronales Netz, die wie eben beschrieben jeweils zur Berechnung einer bestimmten a-posteriori- Wahrscheinlichkeit dienen, bietet den Vorteil, daß keine Annahmen oder Vereinfachungen erforderlich sind, um die Emissionswahrscheinlichkeit zur Beobachtung eines Vektors (xt) an einer Klasse (qk), die von vorbestimmten Kontextmodellen (clj,crm) abhängig ist, zu bestimmen. Im Vergleich zur bisher bekannten Vorrichtung, bei der eine direkte Netz-Implementierung verwendet wurde, ermöglicht diese Lösung eine erhebliche Reduzierung der Anzahl der Parameter und damit der erforderlichen Speicherkapazität der Vorrichtung.
Eine erste bevorzugte Implementierung einer Vorrichtung im Sinne der Erfindung ist dadurch gekennzeichnet, daß das weitere neuronale Netz dazu vorgesehen ist, unabhängig voneinander einen ersten Zj(xt) bzw. einen zweiten Yj(c) prä-sigmoiden Ausgabewert zu bestimmen, wobei der erste bzw. der zweite prä-sigmoide Wert an einem eingegebenen Merkmalsvektor bzw. an eingegebenen Klassen bestimmt werden und das weitere neuronale Netz eine Menge von oberen Einheiten enthält, die zum Bestimmen von p(c l qk,xt) Werten aus den prä-sigmoiden Ausgabewerten vorgesehen sind. Da die beiden prä-sigmoiden Ausgabewerte Zj and Yj voneiander unabhängig sind, lassen sie sich folglich unabhängig voneinander bestimmen, was die neuronale Netzanordnung noch weiter vereinfacht. Die Bestimmung des Ausgabewertes erfolgt dann einfach durch eine Menge von oberen Einheiten, die die prä-sigmoiden Werte erhalten, so daß sich eine effizientere Anordnung ergibt.
Vorzugsweise enthält das besagte weitere neuronale Netz eine erste verborgene Schicht, die zur Bestimmung von Werten
an einem empfangenen Merkmalsvektor xt vorgesehen ist, worin dih ein Wichtungsfaktor, f eine sigmoide Funktion und 1≤h≤H, H die Gesamtzahl von verborgenen Einheiten in der ersten verborgenen Schicht ist, welche erste verborgene Schicht mit Summiereinheiten verbunden ist, die zum Bestimmen des ersten prä-sigmoiden Wertes durch
vorgesehen sind, worin bhj ein Wichtungsfaktor ist. Dadurch erhält man eine effiziente Architektur zur Bestimmung des ersten prä-sigmoiden Werts.
Eine zweite bevorzugte Implementierung einer Vorrichtung im Sinne der Erfindung ist dadurch gekennzeichnet, daß das besagte weitere neuronale Netz einen Speicher enthält, der zur Aufnahme des besagten zweiten prä-sigmoiden Wertes Yj(c) vorgesehen ist, welche Vorrichtung ferner eine Adresse enthält, in welcher der, besagter Klasse qk zugeordnete, zweite prä-sigmoide Wert Yj(c) gespeichert ist. Die Unabhängigkeit von Zj und Yj ermöglicht es, den kontextuellen Beitrag zur Ausgabe vorher zu berechnen. Diese Berechnung kann beispielsweise am Ende der Trainingsphase erfolgen und ermöglicht so die Speicherung der zweiten präsigmoiden Werte für jedes Modell. Da diese prä-sigmoiden Werte jetzt im Speicher gehalten werden, brauchen sie nicht jedesmal berechnet zu werden, wodurch sich die Rechenzeit erheblich verkürzt. Erst einmal im Speicher abgelegt, muß der prä-sigmoide Wert dann nur noch aus dem Hauptspeicher gelesen werden.
Vorzugsweise enthält die Vorrichtung eine zweite verborgene Schicht, die zum Bestimmen weiterer Werte
an einer empfangenen Klasse qk vorgesehen ist, worin wkl trainierte Wichtungsfaktoren und f eine sigmoide Funktion ist, welche zweite verborgene Schicht mit einer weiteren Summiereinheit verbunden ist, die zum Bestimmen des zweiten prä-sigmoiden Wertes
vorgesehen ist, worin a&sub1;, trainierte Wichtungfaktoren und 1≤l≤L, L die Gesamtzahl verborgener Einheiten in der zweiten verborgenen Schicht sind.
Dadurch erhält man eine effiziente Architektur zur Bestimmung des zweiten prä-sigmoiden Werts.
Eine dritte bevorzugte Implementierung einer Vorrichtung im Sinne der Erfindung ist dadurch gekennzeichnet, daß sie einen Speicher enthält, der zur Aufnahme der dritten prä-sigmoiden Ausgabewerte Yj(qk,cm), die an den eingegebenen Klassen (qk) und Kontextmodellen (cm) festgelegt sind, welche prä-sigmoiden Werte gemäß einer K × M × N Matrix speicherbar sind, welche Vorrichtung ferner einen Adreßgenerator enthält, der zum Erzeugen einer Adresse an einer empfangenen Menge qk, mn vorgesehen ist, an welcher die dritten prä-sigmoiden Werte, die der Menge zugeordnet sind, gespeichert werden. Da auch der prä-sigmoide Wert Yj(qk,cm) unabhängig vom Eigenschaftsvektor ist, kann er im voraus berechnet und gespeichert werden, wodurch sich der Rechenaufwand reduziert.
Vorzugsweise bilden die besagte Klasse und die besagten Kontextmodelle zusammen einen Triphon (clj,qk,Crm) wobei besagtes erstes Netz zur Berechnung von p (qk l xt) vorgesehen ist, besagte weitere Netze ein zweites bzw. ein drittes, ein viertes und ein fünftes Netz umfassen, die zum Berechnen von p(crm l qk, xt) bzw. p(clj qk,crm,xt),p(clj qk,crm) und p(crm qk) vorgesehen sind. Dies ermöglicht eine einfache Triphon- Erkennung.
Nachstehend wird die Erfindung unter Bezugnahme auf folgende Zeichnungen detailliert beschrieben
Abbildung 1 zeigt eine schematische Ansicht einer Vorrichtung im Sinne der Erfindung;
Abbildung 2 zeigt ein Flußdiagramm, das die Funktionsweise einer Vorrichtung im Sinne der Erfindung veranschaulicht;
Abbildung 3 bzw. 4 enthalten schematische Darstellungen der neuronalen Netze, die zu einer Vorrichtung im Sinne der Erfindung gehören.
Die Erfindung kann zur Erkennung verschiedener Arten von Mustern eingesetzt werden, etwa zur Erkennung von gesprochener Sprache. Die Erfindung wird nachstehend am Beispiel der Erkennung gesprochener Sprache beschrieben. Die Verwendung dieses Beispiels dient lediglich zur Veranschaulichung, die Vorrichtung ist nicht auf die Erkennung von Sprache beschränkt, sondern kann auch zur Erkennung anderer Muster verwendet werden.
Die gesprochene Sprache setzt sich aus Phonemen zusammen. So besteht beispielsweise das englische Wort "cat" aus drei Phonemen : dem Laut "k", dem kurzen "a" und dem abschließenden "t". Spracherkennung bedient sich der Bestimmung einer Folge von Elementen, die mindestens so groß wie Phoneme sind, um den linguistischen Inhalt zu bestimmen.
Ein Beispiel einer Vorrichtung zur Mustererkennung, insbesondere für die Spracherkennung, wird in Abbildung 1 schematisch gezeigt. Die Daten, insbesondere Sprache, werden über eine Leitung 1 an die Abtastvorrichtung 2 übertragen. Von dieser werden die abgetasteten Daten an eine Verarbeitungseinheit 3. gesendet, die aus einer künstlichen neuronalen Netzanordnung (ANN) besteht, die zur Ermittlung der Emissionswahrscheinlichkeiten benutzt wird. Die Emissionswahrscheinlichkeiten werden dann an eine weitere Verarbeitungsvorrichtung 4 weitergegeben, welche die Erkennung der eingegebenen Daten vornimmt, zum Beispiel bei der Spracherkennung eine eingegebene Menge.
Automatische Spracherkennung (ASR) mit der in Abbildung 1 dargestellten Vorrichtung umfaßt mehrere Schritte, die im Flußdiagramm von Abbildung 2 gezeigt sind. In einem ersten Schritt 5 werden die eingegebenen Daten gesammelt, bei Sprachdaten zum Beispiel mit einem Mikrofon. Das elektrische Ausgangssignal des Mikrofons wird anschließend in Schritt 6 vorverarbeitet. Die Vorverarbeitung umfaßt zum Beispiel eine Filterung zur Abfiachung des spektralen Gefälles über eine Zeitkonstante, die wesentlich länger ist als ein Sprachrahmen.
Im Anschluß an die Vorverarbeitung von Schritt 6 wird eine Merkmalsextraktion 7 durchgeführt. Diese besteht aus der Bestimmung der Repräsentationen des Sprachsignals, die von akustischen Variationen unabhängig, jedoch vom linguistischen Inhalt abhängen. Typischerweise wird die Sprachanalyse über einen "Rahmen" fester Länge oder ein Analysefenster realisiert. Es sei beispielsweise angenommen, daß Sprache, die mit 16 KHz abgetastet wurde, mit 6,4 KHz gefiltert wird, um das spektrale "Aliasing" zu vermeiden. Ein Fenster von 32 ms (512 Punkten) wird beispielsweise als Eingabe an ein Spektralanalysemodul verwendet, das eine Analyse in regelmäßigen Abständen, etwa alle 10 ms (160 Punkte) durchführt. Auf diese Weise wird das Sprachsignal in eine Folge von Eigenschaftsvektoren X = (x&sub1;,x&sub2;,..., xt,...xT) übertragen, worin xt der Eigenschaftsvektor zum Zeitpunkt t ist. Im Falle von Sprache handelt es sich bei einem solchen Eigenschaftsvektor um einen akustischen Vektor.
Nach der Durchführung der Eigenschaftsextraktion wird eine Hypothesengenerierung 8 gestartet, die mit Hilfe der neuronalen Netze durchgeführt wird. Der Schritt der Hypothesengenerierung umfaßt u.a. die Klassifizierung zur Generierung einer Kennzeichnung (Label) für ein Sprachsegment, beispielsweise ein Wort, oder für ein Maß der Ähnlichkeit zwischen einem Sprachrahmen und einem "Referenz"-Sprachfragment. Alternativ dazu kann die Eingabe mit statistischen Modellen abgeglichen werden, die Wahrscheinlichkeitsmessungen der Unsicherheit der Übereinstimmung ergeben.
Nach der Hypothesengenerierung von Schritt 8 beginnt in Schritt 9 eine Aufwandsschätzung, bei der der minimale Aufwandsabgleich beispielsweise aus dem dynamischen Prögrammieralgorithmus von Bellman ermittelt wird, wie z.B. beschrieben in einem Artikel von P. Bellman R.S. Dreyfus in Applied Dynamic Programming, Princeton University Press 1962. Die eigentliche Erkennung 10 wird dann nach Abschluß der Aufwandsschätzung durchgeführt.
Bevor die Erfindung im einzelnen beschrieben wird, soll zunächst ein allgemeiner Überblick über die Spracherkennung gegeben werden, um die verwendete Terminologie eindeutig zu definieren.
Die meisten Spracherkennungssysteme auf dem heutigen Stand der Technik basieren auf Hidden-Markov-Modellen (HMMs). Dabei handelt es sich um eine statistische Annäherung. Dieser Formalismus geht davon aus, daß Sprache von einer bestimmten Finite-State-Automatisierung produziert wird, die aus einer von statistischen Gesetzen beherrschten Menge von Klassen Q = {q&sub1;, q&sub2;, ...qk) aufgebaut ist. In diesem Fall wird jeder Spracheinheit (z.B. Wort aus dem Sprachschatz oder Phonem) nach einer vordefinierten Topologie ein bestimmtes, aus L Klassen q&sub1;&epsi;Q mit 1 = 1,..., L bestehendes HMM zugeordnet. In der HMM-Annäherung muß sowohl die Wahrscheinlichkeit eines beobachteten Spektrums für jeden hypothetischen Sprachlaut als auch die Wahrscheinlichkeit jedes zulässigen Übergangs bestimmt werden. Der negative Logarithmus dieser Wahrscheinlichkeiten kann als Entfernungen im Dynamic Programming-Algorithmus [Bellman & Dreyfus, 1962] benutzt werden, um den minimalen Aufwandspfad (definiert als Übereinstimmung mit der minimalen Summe lokaler Entfernungen plus etwaigem weiterem Aufwand für zulässige Übergänge) zu ermitteln. Dieser Pfad stellt die beste Anpassung der Modelle an die Daten dar.
In einem Modell für einen Sprachlaut (Phonem) besitzt der Laut einen Beginn, eine Mitte und ein Ende mit jeweils eigenen Eigenschaften. Dabei wird vorausgesetzt, daß dieser Sprachlaut vollständig in einer dieser "Klassen" für jeden Rahmen (z.B. 10 ms) verbleibt, zu welcher Zeit er zur nächsten zulässigen Klasse übergehen kann.
Zu jedem Übergang gehört eine Wahrscheinlichkeit p(xt, q&sub1; l qk) der Ausgabe eines Spracheigenschaftsvektors xt, wenn von einer gegenwärtigen Klasse qk zu einer neuen Klasse ql übergegangen wird. Dabei wird zwischen einer Emissionswahrscheinlichkeit p(xt l qk) (für jede Klasse qk) und einer Übergangswahrscheinlichkeit p(ql l qk) (für jeden Übergang qkT q&sub1;) unterschieden. Für jede bestimmte Sprachäußerung haben die beobachteten Eigenschaften eine Wahrscheinlichkeit (für jeden hypothetisierten Pfad durch die möglichen Klassen), der das Produkt der Emissionswahrscheinlichkeiten für jede Klasse und der entsprechenden Übergänge ist. Dies trifft zu wegen einer angenommenen Unabhängigkeit zwischen den lokalen Wahrscheinlichkeiten. Bei einem Pfad q1Tq1Tq2 und Eingabewahrscheinlichkeiten x&sub1;, x&sub2;, x&sub3; wäre die Wahrscheinlichkeit des angenommenen Pfades beispielsweise
p(xl ql).p(ql ql).p(x&sub2; ql).p(q&sub2; ql).p(x&sub3; q&sub2;).
Werden negativen Logarithmen zur Ermittlung des Aufwands verwendet, tritt Addition an die Stelle der Multiplikation, und die Ermittlung des Pfades mit dem geringsten Aufwand kann mit dynamischer Programmierung vorgenommen werden.
Für die kontinuierliche Spracherkennung lassen sich phonemische HMMs zur Darstellung von Wörtern verketten, die wiederum zur Repräsentation vollständiger Äußerungen verkettet werden können. Es lassen sich auch Modellvariationen einführen, um die gängigen Auswirkungen der Koartikulation zwischen benachbarten Phonemen oder Wörtern zu repräsentieren. Insbesondere können kontextabhängige Phon- Modelle wie beispielsweise Triphone verwendet werden, um durch Koartikulation benachbarter Phoneme verursachte allophonische Variationen zu repräsentieren. In diesem Fall werden Folgen von drei Phonemen zur Erfassung der Koartikulationseffekte betrachtet. Jedem Phonem sind abhängig von seinem linken und rechten phonemischen Kontext mehrere Modelle zugeordnet. Der Nachteil dieser Annäherung besteht natürlich in der dramatischen Erhöhung der Anzahl von Modellen und demzufolge der Anzahl der zu bestimmenden Parameter. Bei M Phonemen und K möglichen Klassen gibt es maximal K × M × M mögliche phonemische Kontexte für jede Klasse; selbst diese alle unzulässig sind (aufgrund phonologischer Regeln oder der Ansammlung ähnlicher Kontexte), bleibt die Anzahl möglicher Triphon-Modelle sehr hoch.
Der von den Erfindern verfaßte Artikel "Continuous speech recognition using Multilayer Perceptrons (MLP) with hidden Markov Models", veröffentlicht in IEEE 90 CH 2847-2 S.413 - 416, beschreibt, wie MLP, eine Sonderform von ANNs, zur Berechnung der in HMM-Systemen verwendeten Emissionswahrscheinlichkeiten eingesetzt werden. In den genannten Studien wird gezeigt, daß es möglich ist, im Falle der Zuordnung jedes MLPs zu einer bestimmten Klasse qk der Menge von Klassen Q = {q&sub1;, q&sub2;, ... qk), auf denen die Markov-Modelle definiert sind, den MLP zur Generierung von Wahrscheinlichkeiten wie p(qk l xt) zu trainieren, wenn xt als Eingabe vorliegt. Wahrscheinlichkeiten wie p(qk l xt) werden üblicherweise als Bayes- Wahrscheinlichkeiten oder a-posteriori-Wahrscheinlichkeiten bezeichnet und lassen sich mittels der Bayes-Regel in die Wahrscheinlichkeiten zur Verwendung als Emissionswahrscheinlichkeiten in HMMS transformieren:
Wie in dem zitierten Artikel gezeigt wurde, liegt der Vorteil dieser Annäherung in der Möglichkeit zur Abschätzung der für die HMMs benötigten Wahrscheinlichkeiten mit besseren U nterscheidungseigenschaften und ohne jegliche Hypothesen über die statistische Verteilung der Daten. Da das Ergebnis mit einem modifizierten Eingabefeld an das MLP übereinstimmt, das den Kontext oder andere Informationen berücksichtigt, wird auch gezeigt, wie diese Annäherung die Überwindung anderer gravierender Nachteile von HMMs ermöglicht.
Wie oben beschrieben wurde, dienen die MLPs zur Schätzung der Emissionswahrscheinlichkeiten für HMMs. Weiter wurde gezeigt, daß diese Schätzungen den Vorteil besserer Leistung gegenüber der numerischen Ermittlung oder der Gaußschen Berechnung bieten, wenn ein relativ einfaches HMM verwendet wird. Moderne kontinuierliche Spracherkennungssysteme auf dem neuesten Stand der Technik erfordern allerdings HMMS mit größerer Komplexität, z.B. mehrfache Dichten pro Phon und/oder kontextabhängige Modelle. HMM-basierende Spracherkennungssysteme auf dem neuesten Stand der Technik modellieren jetzt kontextabhängige phonetische Einheiten wie beispielsweise Triphone anstelle von Phonemen, um die Erkennungsleistung zu steigern. So ist, um auf das weiter oben bereits angeführte Beispiel zurückzukommen, das englische Wort "cat" aus drei Phonemen zusammengesetzt: dem Laut "k", dem kurzen "a" und dem abschließenden "t". In der bisher üblichen phonetischen Annäherung wird das Markov-Modell des Wortes "cat" durch Verkettung der Modelle seiner zugrundeliegenden Phoneme erhalten, also "k-a-t". Beim Triphon-Ansatz hängt das Modell eines Phonems von dessen linken und rechten phonetischen Kontexten ab, und die Folge von Modellen, die das isolierte Wort "cat" bilden, ist nun "#ka-kat-at#", worin "#" das Symbol für "Nichts" oder "Ruhe" ist. In diesem Beispiel repräsentiert "#ka" das Modell des Phonems "k" mit einem Phonem "#" auf seiner linken Seite und einem Phonem "a" auf seiner rechten Seite. Diese Annäherung berücksichtigt die phonetische Koartikulation. In diesem Fall müssen die Emissionswahrscheinlichkeiten p(xtlqk), die zur Verwendung in HMMs (oder hybriden ANN/HMMs) bestimmt werden müssen, durch p(xt, qk,clj,cmr) ersetzt werden, d.h. der Beobachtungswahrscheinlichkeit eines akustischen Eigenschaftsvektors Xt an der aktuellen phomemischen Klasse qk mit phonemischen Kontexten clj auf der linken und crm auf der rechten Seite. Dabei gilt, daß die Kontextmodelle crm und clj ein er Menge C = {cl,...,cm,...cM} angehören, jede Klasse qk durch mindestens ein Modell repräsentiert wird und Modelle der Menge C den statistischen Gesetzen unterliegen.
Die Schwierigkeit mit diesen komplexeren Modellen besteht darin, daß mit derselben beschränkten Datenmenge sehr viel mehr Parameter bestimmt werden müssen. Bei K möglichen Klassen und M möglichen phomemischen Kontextmodellen, sind K × M × M mögliche Kombinationen von qck,clj,crm, denkbar. Bei neu ronalen Netzen stellt dies ebenfalls ein erhebliches Problem dar. Ganz gleich, ob Wahrscheinlichkeiten durch MLPs mit K × M × M Ausgabeeinheiten oder durch Standard-Trainingsmethoden für HMMs erzeugt werden, keines der Verfahren eignet sich gut zur Bestimmung von Wahrscheinlichkeiten phonetischer Bedingungen, die nur selten oder gar nicht auftreten. Darüber hinaus würde bereits eine einfache Anwendung der bekannten Verfahren, beispielsweise auf Triphone, zu einer Ausgabeschicht mit Tausenden von Einheiten und mehreren Millionen von Verbindungen (d.h. Parametern) führen, die trainiert werden müssen. Dies ist äußerst mühsam für die gegenwärtigen Datensätze, die zwischen 100.000 und 1.000.000 Training- Token besitzen. In HMM-Systemen wurden diese Probleme durch Interpolation zwischen Ebenen von Kontextabhängigkeit, d.h. Phonen, Biphonen und Triphonen, umgangen, abhängig von der Häufigkeit des Auftretens auf jeder Stufe. In diesem Fall wird p(xt qk,clj,crm) als Bestimmung von p(xt qk,clj,crm),p(xt qk,crm),p(xt clj,qk) und P(xt l qk) ausgedrückt. Diese Lösung ist ein gutes Beispiel für die Abwägung zwischen guten (d.h. detaillierten) Modellen, die aufgrund unzureichenden Trainingsmaterials nur schlecht bestimmt sind, und groben Modellen, die wegen ihrer unbegrenzten Anzahl von Parametern sehr gut bestimmt sind. Wie. weiter oben bereits diskutiert wurde, werden in beiden Fällen die Wahrscheinlichkeiten typischerweise unter Verwendung von restriktiven Annahmen bestimmt, wie beispielsweise der Form der Verteilung statistischer Unabhängigkeit zwischen mehreren Eigenschaften.
Das Hauptproblem bei diesen Kontext-Modellierungen besteht in der Ermittlung von Emissionswahrscheinlichkeiten wie:
p(xt clj, qk, crm) (1)
Um diese Wahrscheinlichkeiten zu berechnen, wird ein künstlicher neuronaler Netzaufbau mit K × M × M Ausgabeeinheiten verwendet. Beruhend auf statistischen mathematischen Regeln sind die folgenden Beziehungen gegeben:
p(clj,qk,crm xt)=p(clj qk,crm,xt).p(crl qk,xt).p(qk,xt) (2)
und
p(clj,qk,crm)=p(clj qk,crl) p(crl qk) p(qk) (3)
Die Anwendung des Bayes'schen Gesetzes auf die Emissionswahrscheinlichkeit ergibt jetzt:
Das Einsetzen von (2) und (3) in (4) ergibt jetzt:
Wie weiter unten noch beschrieben, wird diese auf einer gut definierten mathematischen Umformung der zu berechnenden Emissionswahrscheinlichkeiten beruhende Umformung deren genaue Berechnung ohne jede Annahme ermöglichen. Hauptpunkt der gegenwärtigen Erfindung ist es, eine genaue Auswahl zwischen den verschiedenen mathematischen Möglichkeiten der Umformung des zu berechnenden Emissionswahrscheinlichkeits-Ausdrucks (1) getroffen zu haben. Diese Auswahl ermöglicht eine wesentliche Vereinfachung der für die Berechnung der späteren Emissionswahrscheinlichkeit zu verwendenden neuronalen Netze.
Wie aus Ausdruck (5) zu folgern ist, kann das neuronale Netz mit K × M × M Ausgabeeinheiten nun in Netze mit K + M + M oder K + M Ausgabeeinheiten geteilt werden. Die Wahrscheinlichkeit kann jetzt ohne jede besondere vereinfachende Annahme bestimmt werden. Beruhend auf der bereits kurz andiskutierten Theorie eines hybriden ANN/HMM für Phonem-Modelle, d.h. im Klassifizierungsmodus, in dem die Ausgabewerte des ANN aus den a-posteriori-Wahrscheinlichkeiten der durch die Eingabe bedingten Ausgabeklassen berechnet werden, können alle in Ausdruck (5) vorhandenen Wahrscheinlichkeiten durch ein entsprechendes neuronales Netz berechnet werden.
*p(qklxt) wird durch ein erstes neuronales Netz berechnet, welches der Modellierung von Phonemen dient, deren Eingabefeld ausschließlich den aktuellen Merkmalsvektor xt enthält und deren Ausgabegrenzen mit der aktuellen Klasse qk verknüpft sind. Ein derartiges neuronales Netz ist detailliert in dem in IEEE Transactions on pattern analysis and machine intelligence, Vol 12, no 12 Dezember 1990, S.1167 - 1178 erschienenen Artikel mit dem Titel "Links between Markov Models and Multilayer perceptions" von H. Bourlard und C. Wellekens beschrieben.
* p(crmlwk,xt) wird berechnet durch ein zweites neuronales Netz (welches in Abb. 3 veranschaulicht ist und in dem die Ausgabeeinheiten (17) mit den rechten Phonemen crm der Triphone verknüpft sind und in dem das Eingabefeld durch das Element xti (s≤i≤l) des aktuellen Akustikvektors xt und der aktuellen mit xt verknüpften Klasse qk festgelegt ist.
* p(clj qk,crm,xt) wird durch ein drittes in Abb. 4 veranschaulichtes neuronales Netz berechnet, in welchem die Ausgabeeinheiten mit den linken Phonemen der Triphone verknüpft sind und in welchem das Eingabefeld durch den aktuellen Akustikvektor xt, die aktuelle Klasse qk und die rechten phonetischen Kontexte crm in den Triphonen festgelegt ist.
* p(clj qk,cr,) wird berechnet durch ein viertes neuronales Netz, in welchem die Ausgabeeinheiten mit den linken Phonemen clj der Triphone verknüpft sind und in dem das Eingabefeld die aktuelle Klasse qk und die rechten Phoneme crm repräsentiert. Dies liefert die a-priori- Beobachtungswahrscheinlichkeit eines bestimmten Phonems im linken Teil eines Triphons mit bestimmter aktueller Klasse und rechtem phonetischem Kontext.
* p(crm qk) wird durch ein fünftes neuronales Netz berechnet, in welchem die Ausgabeeinheiten mit den rechten Phonemen crm der Triphone verknüpft sind und in dem das Eingabefeld die aktuelle Klasse qk. repräsentiert. Dies liefert die a-priori-Beobachtungswahrscheinlichkeit eines bestimmten Phonems auf der rechten Seite einer bestimmten Klasse. Bei Eingabe der begrenzten Anzahl von Parametern in dieses Modell (d.h. K × M) kann diese Wahrscheinlichkeit durch Zählen berechnet werden (d.h., ein neuronales Netz ist nicht erforderlich).
* p(qk) ist die a-priori-Wahrscheinlichkeit eines Phonems, wie es auch in der standardmäßigen phonetischen hybriden ANN/HMM-Annäherung Anwendung findet und wird einfach durch numerisches Berechnen der Trainingsmenge ermittelt. Für die Bestimmung dieser Wahrscheinlichkeit wird kein neuronales Netz benötigt.
* p(xt) ist ein von den Klassen unabhängiger konstanter Wert und ist deshalb für Klassifizierungszwecke ohne Bedeutung. Zur Berechnung dieser Wahrscheinlichkeit ist kein neuronales Netz erforderlich.
Wie oben ausgeführt, wird die Berechnung der Emissionswahrscheinlichkeit folglich durchgeführt durch das erste neuronale Netz und durch weitere neuronale Netze, die jeweils zur Berechnung von a- posteriori-Wahrscheinlichkeiten eines jeden der besagten Kontextmodelle vorgesehen sind, z.B. von crm und clj, bedingt durch die aktuelle Klasse qk. Für einige wenige Trainings-Sätze sind diese Berechnungen möglicherweise immer noch mit monophonen Modellen zu glätten, wie dies in herkömmlichen HMM-Systemen geschieht. Darüberhinaus müssen die obigen Resultate durch "generalisierte Triphone" berechnet werden, wenn cl und cr keine Phoneme, sondern weite phonetische Klassen oder Gruppen (Cluster) darstellen. Schließlich ist dieses Verfahren bei Benutzung nur des linken und rechten Kontexts lediglich für 2 Netze gültig, dem monophonen und einem p(c l qk, xt) berechnenden.
Das die akustischen Daten enthaltende Eingabefeld (z.B. xt) kann ebenfalls mit Kontextinformationen versorgt werden. In diesem Fall sind die xt-Wahrscheinlichkeiten durch X zu ersetzen. Dies führt dann zur Berechnung von mit akustischer Kontextinfomation versorgten Triphon- Wahrscheinlichkeiten, was im Fall von triphonen Modellen sogar noch wichtiger ist.
Wie bereits erwähnt, können die Emissionswahrscheinlichkeiten für triphone Modelle nunmehr ohne jegliche Annahme berechnet werden. Gleichwohl bleibt die Anzahl der von jedem neuronalen Netz durchzuführenden Berechnungen relativ groß. Beispielsweise ist im Fall des zweiten neuronalen Netzes (Abb. 3) eine K X M-fache Berechnung notwendig. Bei einer ausreichenden Anzahl von ausführenden neuronalen Netzen wäre dies allerdings kein größeres Problem.
Der Rechenaufwand kann dennoch durch eine einfache Beschränkung der Netz-Topologie verringert werden. Wie in Abb. 3 gezeigt, umfaßt das Netz zwei getrennte Abschnitte, die nur auf einer Endschicht miteinander verbunden sind. Auf den eingegebenen Merkmalsvektor Xt angewandte Berechnungen werden auf niedrigeren Schichten von der auf die Klassen qk angewandten Berechnung getrennt. Diese Einschränkung ist möglich, weil die Klassen einen binären Wert haben und zu einer endlichen Menge von Zuständen gehören. Diese Beschränkung erlaubt die Vorausberechnung von Kontextbeiträgen zum Ausgabeergebnis. Diese Berechnung wird noch vor jeder Mustererkennung am Ende der Trainingsphase durchgeführt.
Unter Berücksichtigung des in Abb. 3 gezeigten und für die Bestimmung p(crm qk,xt) vorgesehenen zweiten neuronalen Netzes werden die auf Einheit 12 eingegebenen Merkmalsvektoren xt an die verborgenen Einheiten auf Schicht 14 übermittelt. Jede verborgene Einheit h (1≤h≤H) bildet eine Wichtungssumme
worin feine Standard-Sigmoidfunktion
und dih einen Wichtungsfaktor bezeichnen.
Die Wichtungssummenwerte Zh werden dann an j Summiereinheiten Zj übermittelt, welche vorgesehen sind für die Bestimmung des ersten prä-sigmoiden Wertes
wobei bhj ein Wichtungsfaktor ist.
Ein vergleichbarer Aufbau ist für den an Eingabe 11 übermittelten Status qk (1≤k≤K) verwirklicht. Eine verborgene Schicht 13 steht zur Bestimmung einer weiteren Wichtungssumme
zur Verfügung, wobei wkl trainierte Wichtungsfaktoren sind. Der spätere Wichtungssummenwert y&sub1; wird an L Summiereinheiten Yj (15) geleitet, die vorgesehen sind für die Bestimmung des prä-sigmoiden Wertes
wobei alj ebenfalls trainierte Wichtungsfaktoren darstellen.
Die Wahrscheinlichkeit p(crj l qk, xt) wird bestimmt durch die obere Schicht 17, die der Berechnung von f(Yj+Zj) dient.
Eine Vereinfachung wird erreicht, indem das Netz so partitioniert wird, daß verborgene Einheiten keine Eingaben vom Kontextvektor (c) und vom Eingabe-Merkmalsvektor (xt) erhalten. Da ferner für jedes der Kontext-Modelle c der prä-sigmoide Wert Yj unabhängig vom eingegebenen Merkmalsvektor ist, kann der prä-sigmoide Wert für alle denkbaren Kontextmodelle vorausberechnet werden. Diese prä-sigmoiden Werte werden dann in einem Speicher abgespeichert, so daß es nicht mehr notwendig ist, diesen prä-sigmoiden Wert für jede zu bestimmende Wahrscheinlichkeit p(crm l qk, xt) zu berechnen. Um eine passende Adressierung für den vorbestimmten Wert Yj(qk) bereitzustellen, wird ein 2- dimensionaler Matrix-Aufbau gewählt, in dem die mit jedem möglichen crm- Modell verknüpften K Werte gespeichert werden. Eine einfache Adressierung mittels der eingegebenen qk und crm -Werte stellt die korrespondierenden Yj-Werte bereit, die dann der Berechnung von f(Yj+Zj) dienen. Die hauptsächliche Neuberechnung erfordert dann (im Vergleich zum monophonen Fall) einfach nur einige Suchvorgänge sowohl für die kontextuelle Verteilung als auch für die letzte sigmoiden Nichtlinearität, die jetzt für jeden hypothetisierten Triphon neu berechnet werden muß.
Der oben beschriebene Aufbau ergibt das Maximum an Vorausberechnungsmöglichkeiten, zusammen mit der Speicherung der vorausberechneten Werte. Es versteht sich jedoch von selbst, daß alternative 1 mplementierungen mit weniger Vorausberechnung ebenso möglich sind. So wäre es möglich, nur die yj Werte vorzu berechnen und in einen durch die eingegebenen ck- Werte adressierbaren Speicher abzulegen.
Ein vergleichbarer Aufbau wie der in Abb. 3 veranschaulichte findet auch für das dritte neuronale Netz Anwendung, das der Bestimmung von p(cjl qk,crm,xt) dient. Für jeden eingegebene Menge qk, crm kann ein prä-sigmoider Wert yj)qk,crm) vorausberechnet und im Speicher abgelegt werden. Die Berechnung für den Merkmalsvektor xt zur Bestimmung des prä-sigmoiden Wertes
erfolgt sinngemäß wie hinsichtlich Abb. 3 beschrieben.
Da nunmehr eine Eingabe an die verborgene Schicht 22 sowohl von Einheit 20, an die die qk Werte gegeben wurden, als auch von Einheit 21, an die die crm Werte gegeben wurden, erfolgt, wird die Berechnung des prä-sigmoiden Wertes Yj(qk,crm) ausführlich beschrieben. Die verborgene Schicht 22 dient der Bestimmung der Werte
worin f wieder eine Standard-Sigmoid-Funktion und skl und rml trainierte Wichtungsfaktoren sind. Der prä-sigmoide Wert ist dann bestimmt durch die Addierwerke 23
Wie aus Formel (6) und (7) zu ersehen ist, hängt der präsigmoide Wert Yj(qk,crm) von den Eingabewerten qk und Crm ab, die dementsprechend K X M Werte für Yj liefern. Um eine passende Speicheradressierung für die vorbestimmten Yj(qk,crm) bereitzustellen, wird ein 3-dimensionaler Matrixaufbau gewählt, in dem K × M × M Werte mit jedem möglichen clj(1≤j≤M) entsprechend einer K × M × M Matrix gespeichert werden. Bei gegebenem bestimmtem clj stellt dies eine Matrix zur Verfügung, in der der prä-sigmoide Wert Yj(qk,crm) in einer k-ten Zeile und n-ten Spalte gespeichert wird. Die gespeicherten Werte sind somit auf einfache Weise durch die eingegebenen qk und crm Werte adressiert und bilden zusammen eine Adresse, welche die Matrix-Position angibt, in der der prä-sigmoide Wert gespeichert ist.
Die oben beschriebene Anordnung ist nicht nur im Fall von Triphonen anwendbar, sondern auch in einem allgemeineren Zusammenhang der Berechnung von Beobachtungswahrscheinlichkeiten eines Merkmalsvektors (xt) an einer von vorbestimmten Kontextmodellen c abhängigen Klasse q. Für die Berechnung der Beobachtungswahrscheinlichkeit einer aktuellen Klasse q mit einem bestimmten angrenzenden Kontextmodell c gilt der Ausdruck p(q,c xt)=p(q xt).p(c q,xt).
Die Wahrscheinlichkeit wird so in das Produkt von a-posteriori- Wahrscheinlichkeiten zerlegt. Dies reduziert das Training eines einzelnen Netzes mit K X M Ausgaben auf das Training von jeweils zwei Netzen mit K und M Ausgaben, was zu einer erheblichen Ersparnis von Zeit und Parametern führen kann. Vorausgesetzt, daß keine verborgenen Einheiten zwischen Eingaben von q und xt geteilt werden, kann der Beitrag zu dem sich aus q ergebenden Ausgabevektor (prä-sigmoid) für alle Werte von q und c vorausberechnet werden.

Claims

1. Mustererkennungsvorrichtung, enthaltend eine künstliche neuronale Netzanordnung, die K V M Ausgabeeinheiten hat und zur Berechnung von Beobachtungswahrscheinlichkeiten eines Merkmalsvektors (xt) an einer Klasse (qk) 1≤k≤K) vorgesehen ist, die von vorbestimmten Kontextmodellen (cm) 1≤m≤M) abhängig ist, welche Vorrichtung einen Eingang zum Empfangen eines Datenstroms hat und eine Abtasteinrichtung enthält, die zum sequentiellen Abrufen von Datenmustern durch Abtasten des Datenstroms und zum Bestimmen des Merkmalsvektors (xt) aus einem Datenmuster vorgesehen ist, wobei jede der Klassen durch mindestens ein Modell dargestellt ist, das zu einer endlichen Menge von Modellen (M) gehört, die von statistischen Gesetzen beherrscht ist, dadurch gekennzeichnet, daß die neuronale Netzanordnung in ein erstes neuronales Netz, das K Ausgabeeinheiten hat und zum Berechnen von a-posteriori-Wahrscheinlichkeiten der Klasse (qk) vorgesehen ist, wenn der beobachtete Vektor (xt) gegeben ist, und mindestens ein weiteres neuronales Netz geteilt ist, das M Ausgabeeinheiten hat und zum Berechnen von a-posteriori- Wahrscheinlichkeiten der Kontextmodelle, die von der Klasse abhängig sind, vorgesehen ist.

2. Mustererkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet. daß das weitere neuronale Netz dazu vorgesehen ist, unabhängig voneinander einen ersten Zj (xt) bzw. einen zweiten Yj(c) prä-sigmoiden Ausgabewert zu bestimmen, wobei der erste bzw. der zweite prä-sigmoide Ausgabewert an einem eingegebenen Merkmalsvektor bzw. an eingegebenen Klassen bestimmt werden, welches weitere neuronale Netz eine Menge von oberen Einheiten enthält, die zum Bestimmen von p(clqk,xt) Werten aus den präsigmoiden Ausgabewerten vorgesehen ist.

3. Mustererkennungsvorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß das weitere neuronale Netz eine erste verborgene Schicht enthält, die zum Bestimmen von Werten

an einem empfangenen Merkmalsvektor xt vorgesehen ist, worin dih ein Wichtungsfaktor, feine sigmoide Funktion und 1≤h≤H ist, wobei H die Gesamtzahl von verborgenen Einheiten in der ersten verborgenen Schicht ist, welche erste verborgene Schicht mit Summiereinheiten verbunden ist, die zum Bestimmen des ersten prä-sigmoiden Wertes durch

vorgesehen sind, worin bhj ein Wichtungsfaktor ist.

4. Mustererkennungsvorrichtung nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß das weitere neuronale Netz einen Speicher enthält, der zum Speichern des zweiten prä-sigmoiden Ausgabewertes Yj(c) vorgesehen ist, welche Vorrichtung ferner einen Adreßgenerator enthält, der zum Erzeugen einer Adresse an einer empfangenen Klasse qk vorgesehen ist, in welcher der zweite, der Klasse qk zugeordnete präsigmoide Wert Yj(c) gespeichert ist.

5. Mustererkennungsvorrichturg nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß sie eine zweite verborgene Schicht enthält, die zum Bestimmen weiterer Werte

an einer empfangenen Klasse qk vorgesehen ist, worin wkl trainierte Wichtungsfaktoren sind und f eine sigmoide Funktion ist, welche zweite verborgene Schicht mit einer weiteren Summiereinheit verbunden ist, die zum Bestimmen des zweiten prä-sigmoiden Wertes

vorgesehen ist, worin alj trainierte Wichtungfaktoren sind, 1≤l≤L, wobei L die Gesamtzahl verborgener Einheiten in der zweiten verborgenen Schicht ist.

6. Mustererkennungsvorrichtung nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß sie einen Speicher enthält, der zum Speichern dritter prä-sigmoider Ausgabewerte Yj(qk,cm) vorgesehen ist, die an eingegebenen Klassen (qk) und Kontextmodellen (cm) bestimmt werden, welche prä-sigmoiden Werte gemäß einer K × M × N Matrix speicherbar sind, welche Vorrichtung ferner einen Adreßgenerator enthält, der zum Erzeugen einer Adresse an einer empfangenen (qk,cm)- Menge vorgesehen ist, an welcher die dritten prä-sigmoiden Werte, die der Menge zugeordnet sind, gespeichert werden.

7. Mustererkennungsvorrichtung, insbesondere eine Spracherkennungsvorrichtung nach einem der Ansprüche 1 - 6, dadurch gekennzeichnet, daß die Klassen und die Kontextmodelle zusammen einen Triphon (Clj,qk,crm) bilden, welches erste Netz zum Berechnen von p(qk l xt) vorgesehen ist, welche weiteren Netze ein zweites bzw. ein drittes, ein viertes und ein fünftes Netz umfassen, die zum Berechnen von

p(crm qk,xt), bxq. p(clj qk,crm,xt),p(clj qk,crm) und p(crm qk) vorgesehen sind.

8. Mustererkennungsvorrichtung nach Anspruch 7, dadurch gekennzeichnet daß das Netz zum Ausgeben von

vorgesehen ist.