DE69220825T2 - Verfahren und System zur Spracherkennung - Google Patents

Verfahren und System zur Spracherkennung

Info

Publication number
DE69220825T2
DE69220825T2 DE69220825T DE69220825T DE69220825T2 DE 69220825 T2 DE69220825 T2 DE 69220825T2 DE 69220825 T DE69220825 T DE 69220825T DE 69220825 T DE69220825 T DE 69220825T DE 69220825 T2 DE69220825 T2 DE 69220825T2
Authority
DE
Germany
Prior art keywords
sequence
phonetic
phonetic segment
similarity values
feature parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69220825T
Other languages
English (en)
Other versions
DE69220825D1 (de
Inventor
Tsuneo Nitta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of DE69220825D1 publication Critical patent/DE69220825D1/de
Application granted granted Critical
Publication of DE69220825T2 publication Critical patent/DE69220825T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Educational Administration (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Computer Interaction (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein System zur Spracherkennung und Verfahren zur Spracherkennung, die erlauben, daß Worte bzw. sprachliche Äußerungen (engl. utterances) mit hoher Genauigkeit erkannt werden.
  • Kürzlich erzielte ein Spracherkennungssystem einen Erfolg, welches das HMM (verhülltes Markov-Modell) (engl. Hidden Markov Model) verwendet, das eine Äußerung in eine Sequenz gewisser Symbole transformiert (auf diese Transformation wird als Vektorquantisierung verwiesen) und dann die Äußerung als den Übergang der Symbolsequenz modelliert. Eine Tabelle, auf die beim Transformieren der Äußerung in Symbole Bezug genommen wird, wird phonetische Segment(PS)-Tabelle genannt. Das HMM wird durch ein Übergangsnetzwerk mit mehr als einem Zustand repräsentiert, in das für jeden Zustand die Wahrscheinlichkeit eines Auftretens jedes Symbols und die Zwischenzustand-Übergangswahrscheinlichkeit eingebettet sind.
  • Wenn das PS-Wörterbuch stabile bzw. gleichbleibende Koeffizienten verwendet (z.B. Spektrum-Koeffizienten oder Cepstrum-Koeffizienten), hängen Sprachereignisse nur von der in dem HMM eingebetteten Zustandsinformation ab (es gibt keine Zeitrelation in einem Zustand). Aus diesem Grund wird eine differentielle Information eingeführt, wie z.B. ein Δ- Cepstrum. Das heißt, ein Verfahren wird übernommen, das eine Äußerung durch eine Symbolsequenz ersetzt, wobei nicht nur ihr Spektrum, sondern auch ihre Zeitvariationen berücksichtigt werden. Hat das PS-Wörterbuch eine große Zahl von Dimensionen, wird jedoch eine durch eine Quantisierung eingeführte Verzerrung unvermeidlich sehr groß. Aus diesem Grund wird von zwei oder mehr PS-Wörterbüchern Gebrauch gemacht, deren Dimensionszahlen durch Teilen eines Parameterraumes verringert wurden (im obigen Beispiel durch Trennen des Spektrums und der Zeitvariationsinformation).
  • Neben diesen Verfahren gibt es ein Verfahren, das eine Sequenz von Spektren (oder ein Cepstrum), d.h. zweidimensionale Muster, direkt quantisiert, welches Verfahren Matrixquantisierung genannt wird. Die Matrixquantisierung hat einerseits einen Vorteil, daß Sprachmuster ohne Näherung direkt behandelt werden können, und andererseits einen Nachteil, daß eine Quantisierungsverzerrung zunimmt. Somit ist ein Verfahren zum Verringern der Verzerrung durch Verwenden eines statistischen Verfahrens zur Zeit einer Quantisierung vorgeschlagen worden.
  • Selbst wenn diese Verfahren verwendet werden, bleibt jedoch eine durch Quantisieren einer Äußerung eingeführte Verzerrung noch groß. Somit ist eine Einrichtung zum weiteren Verringern der Verzerrung erwünscht. Um Verzerrungsprobleme zu lösen, ist es nur notwendig, daß ein Sprachspektrum (oder Cepstrum) innerhalb des HMM direkt ausgedrückt wird, ohne es durch Symbole zu ersetzen (d.h. ohne Quantisieren). Solch ein Verfahren nennt man im Gegensatz zu einer eine Quantisierung beinhaltenden "diskreten HMM" "kontinuierliches bzw. stetiges HMM" (engl. continuous HMM). Im allgemeinen erfordert das stetige HMM einen enormen Berechnungsaufwand. Der Grund dafür ist, daß eine Kovarianzmatrix entsprechend jedem Zustand aus einer Eingabevektorsequenz in das HMM erhalten werden muß und dann die Produkte von Eingabevektoren und Kovarianzmatrizen zum Zeitpunkt der Spracherkennung berechnet werden müssen.
  • Wenn eine Äußerung durch das HMM ausgedrückt wird, werden ein Phonem, eine Silbe, ein Wort, ein Satzteil oder ein Satz als ihre Einheit betrachtet. Was immer die Einheit ist, es ist wichtig, daß eine eingegebene Äußerung und ihr Modell zur Zeit einer Erkennung gut miteinander übereinstimmen, mit anderen Worten die Verzerrung so gering wie möglich ist. Wie oben beschrieben wurde, ist das beste das stetige HMM, welches zweidimensionale Muster, die Variationen der Sprachspektren in der Zeit enthalten, direkt in das HMM eingibt. Ein Problem mit dem stetigen HMM besteht darin, daß Schwierigkeiten damit verbunden sind, es praktisch zu nutzen, weil ein enormer Berechnungsaufwand erforderlich ist.
  • In dem Artikel "Information theory principles for the design of self-organising maps in combination with Hidden Markov Modeling for continuous speech recognition", Regoll G., International Jomt Conference on Neural Networks, 17. Juni 1990, San Diego, USA, Seiten 569-574, wird ein Entwurf von selbstorganisierenden Karten bzw. Abbildungen (engl. selforganising maps) von Kohonen unter Verwendung von Grundlagen der Informationstheorie eingeführt. Ein darin beschriebener besonderer Gesichtspunkt ist die Kombination selbstorganisierender Abbildungen mit Algorithmen der Informationstheorie, insbesondere mit einem verhüllten Markov-Modell (HMM) für eine kontinuierliche bzw. stetige Spracherkennung. Aus dieser Kombination ergibt sich der Gesichtspunkt eines Konstruierens der Abbildung unter Verwendung verschiedener Regeln zum Modifizieren der Umgebung und der Adaptions- bzw. Anpassungsverstärkung während eines Lernens.
  • Eine Aufgabe der vorliegenden Erfindung besteht darin, ein Spracherkennungssystem und -verfahren zu schaffen, die gestatten, daß eine Äußerung eines Sprechers mit hoher Genauigkeit erkannt wird, und die Notwendigkeit eines enormen Berechnungsaufwands beseitigen.
  • Gemäß der vorliegenden Erfindung wird ein Spracherkennungssystem und ein Spracherkennungsverfahren, wie in den Ansprüchen 1 bzw. 7 definiert, geschaffen. Weitere vorteilhafte Ausführungsformen sind durch die Unteransprüche definiert.
  • Die vorliegende Erfindung führt eine Tonanalyse eines Eingangssprachsignals aus, um Merkmalparameter zu erhalten, führt eine Matrixquantisierungsverarbeitung zwischen den Merkmalparametern und einem phonetischen Segmentwörterbuch vorbestimmter phonetischer Segmenteinheiten durch, um eine phonetische Segmentähnlichkeitssequenz zu erhalten, integriert die phonetische Segmentähnlichkeitssequenz in einen phonemischen Merkmalvektor und prüft den phonemischen Merkmalvektor, der durch die Integration erhalten wurde, mittels eines in gewissen bzw. bestimmten Einheiten vorbereiteten verhüllten Markov-Modells (HMM), wodurch ein Erkennungsprozeß mit hoher Genauigkeit durchgeführt wird.
  • Diese Erfindung kann vollständiger aus der folgenden ausführlichen Beschreibung verstanden werden, wenn sie in Verbindung mit den beigefügten Zeichnungen vorgenommen wird, in welchen:
  • Fig. 1 ein schematisches Blockdiagramm einer Spracherkennungsvorrichtung ist, für die ein Spracherkennungssystem der vorliegenden Erfindung verwendet wird;
  • Fig. 2 ein Beispiel eines phonemischen Merkmalvektors entsprechend einem Wortteil veranschaulicht;
  • Fig. 3 ein typisches Beispiel einer HMM-Struktur veranschaulicht;
  • Fig. 4 ein Blockdiagramm des PS-Phonem-Integrierteils von Fig. 1 ist, der aus Maximalwertfiltern aufgebaut ist; und
  • Fig. 5 ein Diagramm ist, das den PS-Phonem-Integrierteil von Fig. 1 veranschaulicht, der aus neuronalen Netzen aufgebaut ist.
  • Mit Bezugnahme auf die Zeichnungen wird die bevorzugte Ausführungsform der vorliegenden Erfindung im folgenden ausführlich beschrieben.
  • In der vorliegenden Erfindung wird ein phonetisches Segment (im folgenden mit PS abgekürzt), das phonetisch signifikant ist, als eine Quantisierungseinheit verwendet, und nachdem eine Sequenz von PS-Ähnlichkeiten (Distanzen) einmal in ein Phonem integriert ist, wird eine phonemische Merkmalvektorsequenz in einen HMM-Wortvergleichsteil eingespeist.
  • In Fig. 1 wird ein kontinuierliches Eingangssprachsignal in einen Analog-Digital(A/D)-Wandler 11 eingespeist und bei einer Abtastfrequenz von z.B. 12 kHz quantisiert, um ein digitales Signal mit 12 Bits zu erhalten. Die digitalen Sprachsignale von dem A/D-Wandler 11 werden in einen Leistungsberechnungsteil 12a und einen ein lineares Vorhersage-Codieren (LPC) (engl. linear predictive coding) verwendenden Mel- Cepstrum-Analyseteil 12b in einem digitalen Signalprozessor 12 eingespeist. Der Leistungsberechnungsteil 12a berechnet die Leistung einer eingegebenen Sprache mit jedem Rahmenzyklus, d.h. alle 8 ms, und gibt die Berechnungsergebnisse an einen ein PS-Phonem integrierenden und umwandelnden Teil 14 aus.
  • Der LPC-Analyseteil 12b ist ein Analyseteil, der ein LPC- Mel-Cepstrum mit 16 Niveaus bzw. Stufen als Analyseparameter bei z.B. 16 ms für eine Fensterlänge und 8 ms fur einen Rahmenzyklus verwendet.
  • Die Symbolsequenz für jeden Rahmen, die so mit der Zuordnung von acht Stufen zu 16 Kanälen erhalten wird, wird als Merkmalparameter für die eingegebene Sprache zu einem Stumm-, Summ- bzw. Murmeln-, Stimmlos-Extraktionsteil und Matrixquantisierer 13a eines digitalen Signalprozessors 13 übertragen. PS ist hierin ein Akroynm fur ein phonetisches Segment, um eine Einheit zur Spracherkennung anzugeben, die eine Bedeutung phonetisch kennzeichnet, wie im folgenden dargestellt ist.
  • Phonetische Segmente (im folgenden PS genannt), die für Spracheingaben in Ausdrücken von vier arithmetischen Operationen verwendet werden, werden in die folgenden 79 Typen klassifiziert.
  • (1) Im Matrixquantisierer 13 wird der stetige bzw. kontinuierliche Vergleichsprozeß mittels PS unter Verwendung von Ähnlichkeitsmaßen durchgeführt, gestützt auf ein Teilraumverfahren, das durch
  • repräsentiert wird, worin C(PS) das LPC-Mel-Cepstrum bezeichnet (C = {C1, C2, ..., CN}), φ den Eigenvektor von PS bezeichnet, (.) das innere Produkt bezeichnet und die Norm bezeichnet. Das heißt, ein PS-Wörterbuch 13b wird durch M orthogonale Eigenvektoren für jedes PS ausgedrückt.
  • Hier wird das in der vorliegenden Erfindung verwendete PS beschrieben. Zum Beispiel weist das PS auf:
  • (1) Ein Dauerlautsegment;
  • (1-1) einen stetigen bzw. gleichbleibenden Teil eines Vokals,
  • (1-2) einen Dauerlautkonsonant.
  • (2) Ein Konsonantensegment; eine Halbsilbe, einschließlich eines Übergangsteils zu einem Vokal.
  • (3) Ein Grenzsegment;
  • (3-1) einen Grenzteil zwischen einem Vokal und einem Halbvokal,
  • (3-2) einen Grenzteil zwischen einem Vokal und einem Konsonanten, und
  • (3-3) einen Grenzteil zwischen einem Vokal und einem stummen Teil.
  • (4) Andere phonetische Segmente; stimmlose bzw. stimmbandlose (engl. devoiced) Vokale, VCV (V: Vokal, C: Konsonant), etc.
  • Als Beispiel sind im folgenden 191 Typen phonetischer Segmente angegeben, die für einen Satz von Äußerungen von 100 Worten ausgewählt wurden. Dauerlautsegmente: Konsonantensegmente:
  • Grenzsegmente:
  • Grenzteile zwischen Vokalen und Halbvokalen
  • Grenzteile zwischen Vokalen und Konsonanten
  • Grenzen zwischen Vokalen und stummmen Teilen Andere Segmente:
  • Stimmbandlose Vokale und andere
  • AA1, AA2 in den Dauerlautsegmenten geben an, daß das letztgenannte aus einem Vokal [a] mit einer hellen Betonung herausgeschnitten wurde. II3, UU3 sind unausgesprochene bzw. stimmiose (engl. unvoiced) Segmente. NN1 bis NN5 entsprechen verschiedenen phonemischen Umgebungen. BZ1 bis ZZ1 entsprechen Stimmbandtönen bzw. stimmhaften Tönen und anderen Phänomenen. HHA bis HHO entsprechen einem stimmlosen [h], und HVA bis HVE entsprechen einem stimmhaften [h].
  • Als nächstes gibt QA1 in den Konsonantensegmenten einen Vokal am Beginn eines Wortes an, und KA1, KA2 geben an, daß das letztgenannte im Prinzip aus einem Wort herausgeschnitten wurde. Zum Beispiel wird [t a], was einer von kontrahierten bzw. zusammengezogenen Tönen ist, mit einem Grenzsegment gebildet, das als CA1 T YA1 T AA1 dazwischen angeordnet ist (bei einer wirklichen Sprache kann der übergang von CA1 nach AA1 oder AA2 auftreten).
  • Alsgrenzsegmente werden die Grenzteile zwischen Vokalen und Halbvokalen (AI1), die Grenzteile zwischen Vokalen und Konsonanten (AS1) und die Grenzteile zwischen Vokalen und stummen Teilen (AQ1) eingegeben. Man beachte, daß in den die Grenzteile zwischen Vokalen und Halbvokalen repräsentierenden Segmenten der Silbennasallaut durch NN (ANN) bezeichnet ist.
  • Die anderen Segmente schließen VCV-Segmente (ANA) ein, in denen Konsonanten gerade stimmbandlos ausgesprochen werden, und Segmente, in denen Vokale gerade stimmbandlos ausgesprochen werden, was man beobachtet, wenn die Äußerung schnell gemacht wird. Im PS-Wörterbuch 13b ist eine solche Information über 191 Typen von Sprachsegmenten als ein Orthogonalisierungswörterbuch gespeichert.
  • Der Betrieb des Tonanalysierers und des Matrixquantisierers ist ausführlich in der Beschreibung des US-Patents Nr. 4 888 823 beschrieben, das dem gleichen Rechtsnachfolger wie diese Anmeldung übertragen wurde.
  • Wenn ein solches PS als ein Segment zur Zeit der Quantisierung verwendet wird, stellen die Zahl von Dimensionen von Merkmalparametern eines Segments (hierin die Ordnungen eines LPC-Mel-Cepstrums) und die Zeitdauer (die Zahl von Rahmen) Probleme dar. Das heißt, für den stabilen bzw. gleichbleibenden Teil eines Vokals ist es erforderlich, daß die Zahl von Dimensionen seiner Merkmalparameter groß ist, aber die Zahl seiner Rahmen kann klein sein. Außerdem muß ein Verschlußkonsonant bis zu einem gewissen Maß eine große Zahl von Dimen sionen seiner Merkmalparameter und eine große Zahl seiner Rahmen aufweisen. Ferner kann ein Reibekonsonant eine geringe Zahl von Dimensionen seiner Merkmalparameter aufweisen, benötigt aber eine große Zahl von Rahmen. Somit sind in der vorliegenden Erfindung die Merkmalparameter und die Zahl von Rahmen jedes PS folgendermaßen festgelegt:
  • (Merkmalparameter, die Zahl der Rahmen);
  • A = (16, 4)
  • B = (14, 6)
  • C = (12, 8)
  • D = (10, 10)
  • E = ( 8, 12)
  • Unter diesen Kombinationen wird eine Auswahl getroffen. Von den oben beschriebenen vier einen PS-Typ bezeichnenden Zeichen gibt das letzte Zeichen diese Festlegung an. Folglich kann ein Vokal, wie z.B. AA1A, so festgelegt sein, daß die Zahl von Dimensionen seiner Merkmalparameter 16 beträgt, und ein Reibekonsonant, wie z.B. ZE1E, kann so festgelegt sein, daß die Zahl seiner Rahmen 12 beträgt. Dadurch wird die Gesamtzahl von Dimensionen des gesamten PS in einen relativ schmalen Bereich von 64 bis 100 gebracht. Dies ermöglicht einen statistischen Vergleichsprozeß (z.B. ein Teilraumverfahren), um eine Quantisierungsverzerrung zu reduzieren.
  • Um die Genauigkeit einer durch den Matrixquantisierer 13 erhaltenen PS-Ähnlichkeitssequenz zu erkennen, wurde ein Auswertungsexperiment an einem gesprochenen Wort vorgenommen, indem eine PS-Sequenz des ersten Ranges erhalten und seine Symbolsequenz in das diskrete HMM eingegeben wurde. Das Experiment wurde an Wortäußerungen nicht spezifizierter Sprecher durchgeführt. Als Ergebnis dieses Experiments wurde eine Erkennungsrate von 98,4 % für 32 Worte erhalten, was im wesent lichen die gleiche wie die gemäß einem herkömmlichen Mustervergleichsverfahren ist, das auf einer Wort-für-Wort-Basis durchgeführt wurde. Für 32 Worte, die aus Paaren ähnlicher Worte bestanden, wurde jedoch nur 91,0 % erhalten. Das Experiment zeigte, daß mit dem eine Symbolsequenz des ersten Ranges verwendenden diskreten HMM der Quantisierungsfehler noch groß bleibt, und das HMM muß wie eine stetige Verteilung behandelt werden.
  • Die direkte Anwendung des HMM mit stetiger Verteilung auf einen aus n Arten von PS-Ähnlichkeiten bestehenden Vektor S = (S1, S2, ..., Sn) ist ungeeignet, weil ein enormer Berechnungsaufwand erforderlich ist. Somit wurde ein Verfahren übernommen, das das HMM mit stetiger Verteilung verwendet, nachdem ein Ähnlichkeitsraum Rn phonetischer Segmente effizient in einen phonemischen Merkmalraum Rm (m « n) integriert wurde.
  • Viele phonetische Segmente PS sind so konstruiert, daß sie Phoneme unter verschiedenen Umgebungen repräsentieren, die in einer Äußerung wie oben beschrieben erscheinen. Aus diesem Grund ist eine Entsprechung zwischen phonetischen Segmenten und Phonemen relativ einfach einzurichten. Zum Beispiel schließen phonetische Segmente entsprechend dem /r/- Phonem die folgenden 44 Typen ein:
  • Von den an die Segmentnamen angefügten Ziffern gibt hier "1" an, daß das Segment am Kopf eines Wortes ist, und "2" gibt an, daß das Segment innerhalb eines Wortes ist. Wie ARA sind die Segmente, die zwischen Vokalen eingeschoben sind, vom VCV-Typ.
  • Es gibt verschiedene Verfahren zum Integrieren phonetischer Segmente in ein Phonem. Eine allgemeine Form wird durch die Gleichung (1)
  • S Phonem = f{S PS(i)} ... (1)
  • repräsentiert, worin f { } eine Funktion zum Integrieren von Ahnlichkeitswerten S ps(i) (oder Distanzwerten) von Ähnlichkeitswerten S ps(i) phonetischer Segmente PS(i) bezeichnet, die zu einem Phonem (z.B. In) gehören. Als ein Beispiel für f { } gibt es den folgenden Maximalwertfilter.
  • f = max {S ps(i)} ... (2)
  • Gleichung (2) gibt den Maximalwert der Ähnlichkeitswerte S ps(i) phonetischer Segmente an, die zu einem Phonem (z.B. /f/) gehören, was als das Treffer- bzw. Ergebnis-S-Phonem (engl. score S phoneme) des Phonems genommen wird. Fig. 4 veranschaulicht den Fall, in dem Maximalwertfilter parallel vorgesehen sind, um einen PS-Ähnlichkeitsvektor S in einen phonetischen Ergebnisvektor Sph mit einer kleinen Zahl von Dimensionen zu integrieren.
  • Als nächstes veranschaulicht Fig. 5 ein Beispiel einer Integration unter Verwendung neuronaler Netze. In Fig. 5 ist ein neuronales Netz mit drei Schichten für alle m Phoneme vorgesehen, und Ähnlichkeitswerte Sps(i) eines phonetischen Segments PS(i) werden durch das neuronale Netz für jedes Phonem durchgelassen, wodurch sie als das phonetische Ergebnis-S-Phonem integriert werden. Die Pfeile in Fig. 5 bezeichnen Gewichtskoeffizienten der neuronalen Netze. Die Gewichtskoeffizienten können durch einen wohlbekannten Lerndaten verwendenden Rückwärtsausbreitungsalgorithmus erhalten werden. Das Vorsehen unabhängiger paralleler neuronaler Netze gestattet, daß PS-Ahnlichkeitsvektoren S in phonemische Ergebnisvektoren Sph mit einer geringen Zahl von Dimensionen integriert werden.
  • Allgemein verwendete Phoneme schließen 19 Typen von Phonemen {o, a, e, i, u, h, j, w, r, n, m, z, s, g, k, d, t, b, p} ein. In der vorliegenden Ausführungsform werden zusätzlich zu den 19 Phonemtypen ein unabhängiger japanischer Nasallaut N , ein Vokal am Beginn eines Wortes, ein Dauerlautkonsonant C, ein übergangsteil von einem Vokal zu einem Konsonanten und ein übergangsteil X von einem Vokal zu einem stummen Teil als phonemische Merkmale verwendet. Das heißt, die vorliegende Ausführungsform verwendet 24 Typen phonemischer Merkmale. Dadurch wird die PS-Ähnlichkeitssequenz in eine Sequenz phonemischer Merkmalvektoren mit 24 Dimensionen durch einen PS- Phonem-Integrierteil 14 transformiert, der den durch Gleichung (1) angegebenen Prozeß ausführt, und dann an eine HMM- Erkennungseinrichtung 15 gesendet. Fig. 2 veranschaulicht ein Beispiel eines phonemischen Merkmalvektors, der einer Wortäußerung "KENGO" (robust) entspricht.
  • Als nächstes wird der Wortvergleich der vorliegenden Erfindung unter Verwendung von HMM beschrieben. Es wird angenommen, daß das HMM N Zustände S1, S2, ... Sn aufweist und der Anfangszustand in statistischer Weise auf die N Zustände verteilt ist. Bei der Sprache wird ein Modell verwendet, welches einen Zustandsübergang mit einer bestimmten Wahrscheinlichkeit (übergangswahrscheinlichkeit) mit jedem Rahmenzyklus durchführt. Beim Auftreten eines übergangs wird ein Etikett (engl. label) mit einer bestimmten Wahrscheinlichkeit ausgegeben (Ausgabewahrscheinlichkeit). Ein Nullübergang, der kein Etikett ausgibt, könnte jedoch eingeführt sein. Selbst wenn eine ausgegebene Etikettsequenz gegeben ist, ist eine Zustandsübergangssequenz nicht eindeutig bestimmt, weil es mehrere Wege gibt, auf denen ein Zustandsübergang gemacht bzw. vorgenommen wird. Weil nur eine Etikettsequenz beobachtet werden kann, wird das Modell das verborgene bzw. verhüllte Markov-Modell genannt. Das HMM-Modell M ist durch die folgenden sechs Parameter definiert.
  • N: Die Zahl von Zuständen (die Zustände S1, S2, ..., SN, N = 10 im Experiment)
  • K: Die Zahl von Etiketten (Etikett L = 1, 2, ..., K, K = 191 im Experiment)
  • pij: Die übergangswahrscheinlichkeit (die Wahrscheinlichkeit eines übergangs von Si nach Sj)
  • gij (k): Die Wahrscheinlichkeit eines Ausgebens des Etiketts k beim übergang von Si nacch Sj
  • mi: Die Anfangszustandswahrscheinlichkeit (im Experiment ist der Anfangszustand auf S1 beschränkt)
  • F: Der Satz von Endzuständen (im Experiment ist der Endzustand auf Sb beschränkt)
  • Als nächstes werden Sprachmerkmale widerspiegelnde übergangsbeschränkungen an dem Modell vorgenommen. Bei einer Spracherkennung ist eine solche Schleife, die von einem Zustand Si zu einem vorherigen Zustand (Si-1, Si-2, ...) zurückkehrt, im allgemeinen nicht erlaubt, weil die Zeitsequenz durcheinander gebracht wird. Fig. 3 veranschaulicht ein typisches Beispiel der oben beschriebenen HMM-Struktur.
  • Das Lernen des HMM erfordert, eine Etikettsequenz 0 auf einen HMM-Lernteil 16 anzuwenden und die Parameter eines Modells M zu schätzen, worin Pr (O/M) maximal ist. Als ein für die Schätzung verwendeter Algorithmus ist der Vorwärts-Rückwärtsalgorithmus bekannt.
  • Die Auswertung (Erkennung) des HMM erfordert, die Wahrscheinlichkeit Pr (O/M) zu erhalten, daß das Modell die Etikettsequenz O = O1, O2, ... OT ausgeben wird. Das heißt, die HMM-Erkennungseinrichtung 15 nimmt Modelle für jedes Wort an und gewinnt ein solches Modell (Wort) wieder, dessen Pr (O/M) maximal ist, wobei der Viterbi-Algorithmus verwendet wird.
  • Die obige Beschreibung hängt hauptsächlich von dem dis kreten HMM ab. Bei dem HMM mit stetiger Ausgabewahrscheinlichkeitsverteilung (worauf im folgenden als das stetige HMM verwiesen wird) ist die Eingabe keine Etikettsequenz, sondern ein Vektor (in der vorliegenden Erfindung ein phonemischer Merkmalvektor). Dies erlaubt, daß die Verteilung des Auftretens eines Vektors anstelle der obigen Ausgabewahrscheinlichkeit qij(k) (die Wahrscheinlichkeit eines Ausgebens des Etiketts k zu der Zeit, zu der der übergang von Si nach Sj vorgenommen wird) vorgesehen wird. Gewöhnlich wird die Verteilung (die Verteilung der Elemente eines Vektors) als eine Normalverteilung oder eine Mischung von Normalverteilungen behandelt. Das stetige HMM-Modell ist durch die folgenden sechs Parameter definiert.
  • N: Die Zahl von Zuständen (Zustand S1, S2, ..., SN; im Experiment gilt N 10)
  • pij: Die übergangswahrscheinlichkeit (die Wahrscheinlichkeit eines übergangs von Si nach Sj)
  • µij: Der mittlere Vektor, der zu der Zeit eines übergangs von Si nach Sj auftritt
  • Σij: Die Kovarianz eines Vektors, der zu der Zeit des Ubergangs von Si nach Sj auftritt
  • mi: Die Anfangszustandswahrscheinlichkeit (im Experiment ist der Anfangszustand auf Si beschränkt)
  • F: Der Satz von Endzuständen (im Experiment ist der Endzustand auf Sb beschränkt)
  • In der gemischten Verteilung sind mehr als ein mittlerer Vektor und mehr als eine Vektorkovarianz gegeben. Das Lernen und die Auswertung (Erkennung) des stetigen HMM werden durch Verwenden des Vorwärts-Rückwärtsalgorithmus bzw. des Viterbi- Algorithmus wie in dem diskreten HMM durchgeführt.
  • In dem Experiment wurden viele Stücke von Lerndaten (phonemische Merkmalvektoren) für den HMM-Lernteil 16 verwendet, und die Parameter jedes Modells M entsprechend 32 Worten wurden so abgeschätzt, um die Wahrscheinlichkeit Pr (O/M) zu maximieren (beim stetigen HMM ist O eine Vektorsequenz). Die so erhaltenen Modeliparameter (µij und Σij für jedes Wort) werden in einem HMM-Wort-Modell-Puffer 17 gespeichert.
  • Als nächstes erhält bei der Erkennungsphase die HMM- Erkennungseinrichtung 15 für jedes im HMM-Wort-Modell-Puffer 17 gespeicherte Modell die Wahrscheinlichkeit Pr (O/M) eines phonemischen Merkmalvektors für eine eingegebene Sprache und findet solch ein Modell, dessen Wahrscheinlichkeit maximal ist. Das dem Modell entsprechende Wort ist das Erkennungsergebnis. Das Auswertungsexperiment der vorliegenden Erfindung wurde an den gleichen Daten (32 ähnliche Worte) wie in dem oben erwähnten, das diskrete HMM verwendenden Experiment durchgeführt. Das Experiment wurde für den Fall durchgeführt, bei dem eine einzige Normalverteilung als die Vektorauftrittsverteilung verwendet wurde, und für den Fall, bei dem zwei Normalverteilungen (eine gemischte Verteilung) verwendet wurden. Aufgrund einer ungenügenden Menge von Lerndaten verwendet jedoch die Kovarianz nur Diagonalelemente. Die Ergebnisse betrugen im Fall der einzigen Verteilung 91,3 % und im Fall der gemischten Verteilung 92,4 %, was das Ergebnis (91,4 %) des das diskrete HMM verwendenden Experiments übersteigt. Das Experiment hat gezeigt, daß die vorliegende Erfindung ausgezeichnet ist.
  • Gemäß der Ausführungsform, wie sie oben beschrieben wurde, wird mit einem phonetisch signifikanten phonemischen Segment (PS), das als eine Einheit verwendet wird, ein statistischer Matrixquantisierungsprozeß durchgeführt, und unter Verwendung eines HMM wird ein Erkennungsprozeß durchgeführt, nachdem eine PS-Ähnlichkeitssequenz in einen phonemischen Merkmalvektor integriert wurde, was gestattet, daß verschiedene bei kontinuierlicher Sprache auftretende Verzerrungen wirksam absorbiert werden, wodurch eine Spracherkennung mit hoher Genauigkeit realisiert wird. Die Ausführungsform hat außerdem insofern einen großen Vorteil, als kein enormer Berechnungsaufwand erforderlich ist.
  • Obwohl in der obigen Ausführungsform eine Matrixquantisierungsverarbeitung an durch Tonanalyse erhaltenen Merkmalvektoren durchgeführt wird, kann statt dessen eine gewöhnliche Vektorquantisierung verwendet werden. Außerdem wäre eine solche Modifizierung möglich, wie z.B. Merkmalparameter durch eine Erkennungseinrichtung, wie z.B. ein neuronales Netz, festgelegt in Einheiten eines phonemischen Segments, durchzulassen, die Ausgabe der Erkennungseinrichtung in einen phone mischen Merkmalvektor zu integrieren und dann den phonemischen Merkmalvektor durch ein HMM mit einer stetigen Ausgabewahrscheinlichkeitsverteilung durchzulassen. Obgleich in der obigen Ausführungsform Maximalwertfilter für eine Integration in einen phonemischen Merkmalvektor verwendet werden, wäre außerdem eine Eingabe einer phonemischen Segmentähnlichkeitssequenz in ein neuronales Netz für eine Integration in einen phonemischen Merkmalvektor auch möglich.

Claims (12)

1. Spracherkennungssystem mit:
einer Tonanalysiereinrichtung (12) zum Tonanalysieren eines Eingangssprachsignales, um einen Satz von Merkmalparametern für jeden Rahmen des Sprachsignales zu erhalten,
einem phonetischen Segmentwörterbuch (13b), um zuvor eine Vielzahl von Typen von phonetischen Segmenten zu speichern, wobei jedes phonetische Segment durch einen Satz von Merkmalparametern und eine Anzahl von Rahmen identifiziert ist, und
einer Einrichtung (13a) zum Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten aus den Sätzen der Merkmalparameter, die durch die Tonanalysiereinrichtung und aus dem phonetischen Segmentwörterbuch erhalten sind,
gekennzeichnet durch
eine Integriereinrichtung (14) zum Integrieren der Sequenz der phonetischen Sequenzähnlichkeitswerte, die durch die phonetische Segmentähnlichkeitssequenzgewinnungseinrichtung (13a) erhalten sind, in eine Sequenz von phonemischen Merkmalvektoren, und
eine Einrichtung (15, 17) zum Prüfen der Sequenz der phonemischen Merkmalvektoren, die durch die Inte griereinrichtung erhalten sind, mittels eines in gewissen Einheiten vorbereiteten verhüllten Markov- Modelles (HMM), um so einen Erkennungsprozeß durchzuführen.
2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung (13a) zum Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten eine Matrixquantisiereinrichtung zum Durchführen einer Matrixquantisierverarbeitung zwischen den Sätzen von Merkmalparametern, die durch die Tonanalysiereinrichtung erhalten sind, und dem phonetischen Segmentwörterbuch umfaßt.
3. System nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung (13a) zum Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten eine Vektorquantisiereinrichtung zum Durchführen einer Vektorquantisierverarbeitung zwischen den Sätzen von Merkmalparametern, die durch die Tonanalysiereinrichtung erhalten sind, und dem phonetischen Segmentwörterbuch umfaßt.
4. System nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung zum Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten ein neurales Netzwerk zum Gewinnen der Sequenz der phonetischen Segmentähnlichkeitswerte aus den Sätzen von Merkmalparametern, die durch die Tonanalysiereinrichtung erhalten sind, umfaßt.
5. System nach Anspruch 1, dadurch gekennzeichnet, daß die Integriereinrichtung Maximalwertfilter zum Integrieren der Sequenz der phonetischen Segmentähnlichkeitswerte in eine Sequenz von phonemischen Merkmalvektoren umfaßt.
6. System nach Anspruch 1, dadurch gekennzeichnet, daß die Integriereinrichtung neurale Netzwerke zum Integrieren der Sequenz der phonetischen Segmentähnlichkeitswerte in eine Sequenz von phonemischen Merkmalvektoren umfaßt.
7. Spracherkennungsverfahren mit den folgenden Schritten:
a) Analysieren eines Eingangssprachsignales, um einen Satz von Merkmalparametern für jeden Rahmen des Sprachsignales zu erhalten, und
b) Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten aus den Sätzen der Merkmalparameter, die durch den Schritt a) erhalten sind, und aus einem phonetischen Segmentwörterbuch (13b), um zuvor eine Vielzahl von Typen von phonetischen Segmenten zu speichern, wobei jedes phonetische Segment durch einen Satz von Merkmalparametern und eine Anzahl von Rahmen identifiziert ist,
gekennzeichnet durch
c) Integrieren der Sequenz der phonetischen Segmentähnlichkeitswerte, die durch den Schritt b) erhalten sind, in eine Sequenz von phonemischen Merkmalvektoren und
d) Prüfen der Sequenz der phonemischen Merkmalvek toren, die durch den Schritt c) erhalten sind, mittels eines verhüllten Markov-Modelles (HMM), das in gewissen Einheiten vorbereitet ist, um so einen Erkennungsprozeß durchzuführen.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt b) einen Matrixquantisierungsschritt zum Durchführen einer Matrixquantisierungsverarbeitung zwischen den Sätzen von Merkmalparametern, die durch den Tonanalysierschritt a) erhalten sind, und dem phonetischen Segmentwärterbuch umfaßt.
9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt b) einen Vektorquantisierungsschritt zum Durchführen einer Vektorquantisierungsverarbeitung zwischen den Sätzen von Merkmalparametern, die durch den Tonanalysierschritt a) erhalten sind, und dem phonetischen Segmentwärterbuch erfaßt.
10. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt b) ein neurales Netzwerk verwendet, um die Sequenz von phonetischen Segmentahnlichkeitswerten aus den Sätzen von Merkmalparametern, die durch den Tonanalysierschritt a) erhalten sind, umfaßt.
11. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt c) Maximalwertfilter verwendet, um die Sequenz von phonetischen Segmentähnlichkeitswerten in eine Sequenz von phonemischen Merkmalvektoren zu integrieren.
12. verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt c) neurale Netzwerke verwendet, um die Sequenz von phonetischen Segmentähnlichkeitswerten in eine Sequenz von phonemischen Merkmalvektoren zu integrieren.
DE69220825T 1991-03-22 1992-03-20 Verfahren und System zur Spracherkennung Expired - Fee Related DE69220825T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3058797A JP3050934B2 (ja) 1991-03-22 1991-03-22 音声認識方式

Publications (2)

Publication Number Publication Date
DE69220825D1 DE69220825D1 (de) 1997-08-21
DE69220825T2 true DE69220825T2 (de) 1998-02-19

Family

ID=13094576

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69220825T Expired - Fee Related DE69220825T2 (de) 1991-03-22 1992-03-20 Verfahren und System zur Spracherkennung

Country Status (4)

Country Link
US (1) US5649056A (de)
EP (1) EP0504927B1 (de)
JP (1) JP3050934B2 (de)
DE (1) DE69220825T2 (de)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
EP0681729B1 (de) * 1993-01-30 1999-09-08 Korea Telecommunications Authority System zur sprachsynthese und spracherkennung
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
GB9509831D0 (en) * 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
FR2769117B1 (fr) * 1997-09-29 2000-11-10 Matra Comm Procede d'apprentissage dans un systeme de reconnaissance de parole
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US6219642B1 (en) 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
JP2001166789A (ja) * 1999-12-10 2001-06-22 Matsushita Electric Ind Co Ltd 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
JP2002189487A (ja) * 2000-12-20 2002-07-05 Mitsubishi Electric Corp 音声認識装置および音声認識方法
WO2002059856A2 (en) * 2001-01-25 2002-08-01 The Psychological Corporation Speech transcription, therapy, and analysis system and method
US6711544B2 (en) 2001-01-25 2004-03-23 Harcourt Assessment, Inc. Speech therapy system and method
US6732076B2 (en) 2001-01-25 2004-05-04 Harcourt Assessment, Inc. Speech analysis and therapy system and method
US6725198B2 (en) 2001-01-25 2004-04-20 Harcourt Assessment, Inc. Speech analysis system and method
US20020143550A1 (en) * 2001-03-27 2002-10-03 Takashi Nakatsuyama Voice recognition shopping system
TW556152B (en) * 2002-05-29 2003-10-01 Labs Inc L Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods
US7089185B2 (en) * 2002-06-27 2006-08-08 Intel Corporation Embedded multi-layer coupled hidden Markov model
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
JP6495850B2 (ja) * 2016-03-14 2019-04-03 株式会社東芝 情報処理装置、情報処理方法、プログラムおよび認識システム
CN112786050B (zh) * 2019-11-07 2024-02-02 王皓 一种语音识别的方法、装置及设备
CN111508498B (zh) * 2020-04-09 2024-01-30 携程计算机技术(上海)有限公司 对话式语音识别方法、***、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6024994B2 (ja) * 1980-04-21 1985-06-15 シャープ株式会社 パタ−ン類似度計算方式
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
JPH0833739B2 (ja) * 1990-09-13 1996-03-29 三菱電機株式会社 パターン表現モデル学習装置

Also Published As

Publication number Publication date
EP0504927A2 (de) 1992-09-23
JPH04293096A (ja) 1992-10-16
DE69220825D1 (de) 1997-08-21
JP3050934B2 (ja) 2000-06-12
EP0504927B1 (de) 1997-07-16
EP0504927A3 (en) 1993-06-02
US5649056A (en) 1997-07-15

Similar Documents

Publication Publication Date Title
DE69220825T2 (de) Verfahren und System zur Spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE69826446T2 (de) Stimmumwandlung
DE69022237T2 (de) Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE69421354T2 (de) Datenkompression für die Spracherkennung
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69519328T2 (de) Verfahren und Anordnung für die Umwandlung von Sprache in Text
DE69514382T2 (de) Spracherkennung
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee