DE69031284T2 - Verfahren und Einrichtung zur Spracherkennung - Google Patents

Verfahren und Einrichtung zur Spracherkennung

Info

Publication number
DE69031284T2
DE69031284T2 DE69031284T DE69031284T DE69031284T2 DE 69031284 T2 DE69031284 T2 DE 69031284T2 DE 69031284 T DE69031284 T DE 69031284T DE 69031284 T DE69031284 T DE 69031284T DE 69031284 T2 DE69031284 T2 DE 69031284T2
Authority
DE
Germany
Prior art keywords
recognition
segment
phonemes
words
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69031284T
Other languages
English (en)
Other versions
DE69031284D1 (de
Inventor
Tetsuo Kosaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Application granted granted Critical
Publication of DE69031284D1 publication Critical patent/DE69031284D1/de
Publication of DE69031284T2 publication Critical patent/DE69031284T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Document Processing Apparatus (AREA)

Description

    HINTERGRUND DER ERFINDUNG 1. Gebiet der Erfindung
  • Die Erfindung betrifft ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung, die eine Erkennung der Sprache eines nicht spezifizierten Sprechers durch Bezug auf ein Wortverzeichnis durchführt, bei den Phoneme von Wörtern angegeben sind.
  • 2. Beschreibung des Stands der Technik
  • In letzter Zeit wurden Techniken, die Phoneme oder Silben als eine Einheit verwenden, für eine Sprachverarbeitungsvorrichtung untersucht. Diese Techniken hängen von nachstehend beschriebenen Gründen ab.
  • Bei einer auf ein großes Vokabular ausgerichteten Spracherkennungsvorrichtung ist eine große Speicherkapazität zum Speichern von Standardmustern für jedes Wort erforderlich. Zusätzlich ist es aufwendig, diese Worte zu registrieren, wobei es schwierig wird, neue Worte anzufügen. Demgegenüber können mit einem Verfahren, das Phoneme und dergleichen als eine Basiseinheit zur Erkennung verwendet, da die in Roman- Zeichen (romanji) oder japanischen Silben (kana) geschriebenen Worte in einem Verzeichnis gespeichert werden können, die vorstehenden Probleme beseitigt werden.
  • Jedoch ist die Spracherkennung nicht einfach, da Probleme bei der Variation des Phonemspektrums bei der Sprache, Kombinationen von Intonationen bzw. Tonfällen sowie schwierig zu erkennende Phoneme wie Verschlußlaute auftreten. Außerdem beeinflußt ein individueller Unterschied ebenfalls die Erkennung, wenn nicht spezifizierte Sprecher berücksichtigt werden sollen, was die Erkennung noch schwieriger macht.
  • Deshalb wurden die nachstehend beschriebenen Techniken zur Lösung dieser Probleme untersucht.
  • (1) Lernen von Vokalen
  • (2) Statistisches Unterscheidungsverfahren
  • (3) Verstecktes Markov-Modell (hidden Markov model)
  • (4) Mehrschablonenverfahren (multi-template method)
  • Jedoch ist die Spracherkennung auf der Grundlage eines einheitlichen Verfahrens schwierig, da im Japanischen jedes Phonem sich von jeden anderen bei dem Auftreten von Phonemen in Phonemgruppen unterscheidet.
  • Beispielsweise sind, obwohl Vokale durch die relative Position des Formants gekennzeichnet sind, Halbvokale, Verschlußlaute und dergleichen durch eine Änderung im Zeitspektrum gekennzeichnet. Außerdem treten, obwohl die Änderungen im Spektrum für jeden Halbvokal und Verschlußlaut kennzeichnend sind, Unterschiede dahingehend auf, daß das Spektrum sich re- lativ langsam bei den Halbvokalen ändert. Demgegenüber verän dert sich das Spektrum bei den Verschlußlauten in einer kurzen Zeit schnell.
  • Bei der Erkennung dieser unterschiedlich gekennzeichneten Phoneme gibt es den Mangel, daß eine hohe Erkennungsrate nicht erhalten werden kann, da alle Phoneme gleichförmig unter Verwendung eines der vorstehend beschriebenen Verfahren der herkömmlichen Vorrichtung erkannt werden. Beispielsweise kann die Erfassung der Segmenteigenschaften, die auf die Erkennung kontinuierlicher Sprache abzielt (Kosaka et al., Japanese Acoustics Society, Voice Section, S85-53, Dezember 1985) als ein dem vorstehend erwähnten Verfahren (2) zugeordnetes Verfahren erwähnt werden. Jedoch ist, obwohl die Erkennungsrate für Verschlußlaute und dergleichen hoch ist, da dieses Verfahren zur Übereinstimmung mit den Veränderungen im Zeitspektrum ausgelegt ist, dieses Verfahren nicht zur Erkennung der Phoneme wie Halbvokale geeignet, deren Spektrum sich langsam verändert und deren Zeitstruktur sich verändert, da es nicht die Veränderung des Spektrums bezüglich der Zeit bewältigen kann.
  • Zusätzlich gibt es Systeme, die eine Phonemerkennung bei jeder grob eingeordneten Gruppe durch voneinander unterschiedliche Verfahren nach einer groben Segmentierung durchführen, wie ein am MIT-Lincoln-Insitute entwickeltes System (vergl. Yasunaga Niimi, Speech Recognition, Seiten 81 bis 87, Kyoritsu Buildung, Oktober 1979). Jedoch gibt es den Nachteil, daß die Segmentierung bei einem derartigen System stark auftritt und die Erkennungsrate stark von der Qualität der Segmentierung abhängt.
  • Die Erfindung ist auf das vorstehend beschriebene Problem gerichtet. Insbesondere liegt der Erfindung die Aufgabe zugrunde, ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung zu schaffen, die die Schwierigkeit bei der Erkennung eines nicht spezifizierten Sprechers beseitigen und eine hohe Erkennungsgenauigkeit aufweisen.
  • Die in der "ICASSP 86 IEEE-IECEJ-ASJ International Conference on Acoustics, Speech, and Signal processing" veröffentlichte Druckschrift "Top-down controlled and optimal syllabletemplate chaining algorithm for large vocabulary speech recognition" von S. Kabasawa et al. offenbart einen Algorithmus zur Spracherkennung. Jedoch berücksichtigt diese Druckschrift nicht die Schritte der Segmentierung von eingegebenen Sprachdaten, der Einordnung jedes Segments der eingegebenen Sprache und der darauffolgenden Auswahl eines geeigneten Erkennungsverfahrens für jedes eingeordnete Seument.
  • Dementsprechend wird gemäß einem ersten Aspekt der Erfindung ein Spracherkennungsverfahren wie in Patentanspruch 1 dargelegt geschaffen.
  • Gemäß einem zweiten Aspekt der Erfindung wird eine wie in Patentanspruch 4 dargelegte Spracherkennungsvorrichtung geschaffen.
  • Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegende Zeichnung näher beschrieben. Es zeigen:
  • Fig. 1A und 1B Flußdiagramme, die einen erfindungsgemäßen Spracherkennungs-Verarbeitungsvorgang darstellen, und
  • Fig. 2 ein Blockschaltbild einer Spracherkennungsvorrichtung gemäß einem ersten Ausführungsbeispiel der Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • Nachstehend ist ein Ausführungsbeispiel der Erfindung unter Bezug auf die beiliegende Zeichnung ausführlich beschrieben.
  • Fig. 1A und 1B zeigen Flußdiagramme, die ausführlich die Funktionsweise dieser Vorrichtung darstellen. Diese Figuren zeigen Verarbeitungsschritte, nachdem ein Wort ausgesprochen und analysiert wurde. Der Silbennasal /N/ ist gemäß diesem Ausführungsbeispiel bei den Vokalen eingeschlossen.
  • Zunächst wird bei einem Schritt S1 ein Sprachblock in mehrere Phonemgruppen unter Verwendung aller Parameterzeitfolgen der eingegebenen Worte eingeordnet. Die Anzahl der Phonemgruppen, in die unterteilt wird, hängt davon ab, wie viele nachstehend beschriebene Erkennungssystemarten für Phoneme vorbereitet sind. Gemäß diesen Ausführungsbeispiel wird ein Sprachblock in drei Arten von Klassen unterteilt, daß heißt, Vokal, Halbvokal und andere.
  • Da die Klassifizierung in dem Dokument "Speech Recognition" (Yasunaga Niime, Seiten 81 bis 87, Kyoritsu Publishing, Oktober 1979) usw. beschrieben ist, entfällt in dieser Beschreibung deren Erläuterung.
  • Darauffolgend wird bei einem Schritt fr ein Zeiger (Pointer) initialisiert (in diesen Fall werden die Sprachdaten bei fr=1 eingegeben), der den Rahmen der eingegebenen Sprache darstellt (gemäß diesem Ausführungsbeispiel wird er mit "0" gelöscht). Bei einem Schritt S3 wird der Rahmenzeiger fr erhöht, wobei die nächsten Daten eingegeben werden. Bei einem Schritt S4 wird beurteilt, ob der Sprachblock beendet wird oder nicht, wobei, wenn der Sprachdatensatz beendet wird, die Verarbeitung zu einen Schritt S12 und andernfalls zu einem Schritt S5 voranschreitet.
  • Bei dem Schritt S5 wird das Phonem unter Bezug auf die Ergebnisse der durch die Verarbeitung bei dem Schritt S1 erhaltene grobe Segmentierung beurteilt. Gemäß diesem Ausführungsbeispiel werden Phoneme in drei Arten eingeordnet, Vokale, Halbvokale und andere, wobei die Verarbeitung entlang einem Schritt S6, einem Schritt S8 und einem Schritt S10 entsprechend den Ergebnissen voranschreitet. Bei den Schritten S6, S8 und S10 werden jeweils die Vokale, die Halbvokale und die anderen Phoneme erkannt. Wenn die Erkennung beendet wird, wird der als Ergebnis ausgegebene Wert in einem Bereich von "0" bis "1" bei jedem der Schritte S7, S9 und S10 normalisiert.
  • Außerdem wird gemäß diesem Ausführungsbeispiel ein neurales Netz verwendet, das die Koeffizienten jedes Sprechers zur Erkennung der Vokale bei dem Schritt 6 gelernt hat. Da dieses Verfahren zur Vorbereitung und Erkennung dieses neutralen Netzes in dem Dokument "Speech Recognition By A Statistical Modell" (Seiichi Nakagawa, Seiten 156 bis 177, Society for Elektronix Informaiton Communication, Juli 1988) beschrieben ist, ist dieses Verfahren in dieser Beschreibung nicht beschrieben.
  • Eine (nachstehend "DP" bezeichnete) dynamische Programmierung unter Verwendung eines statistischen Distanzindexes wird bei dem Schritt S8 zur Erkennung der Halbvokale verwendet. Dieses Verfahren ist in einer Arbeit ("Word Speech Recognistion by DP Matching Using Mahalanobis Distance", Journal of Electro- Communication, Januar 1983, Band J-66-A, nr. 1, Seiten 64 bis 70) ausführlich unter der Bezeichnung Mahalanobis-DP beschrieben. Obwohl diese Arbeit das Worterkennungsverfahren beschreibt, wird dieses Verfahren gemäß diesem Ausführungsbeispiel unter Verwendung der Anfänge und der Enden der durch die Segementierung bei dem Schritt S1 erhaltenen Halbvokale als Anfänge und Ende der dynamischen Programmierung DP angewendet.
  • Bei der Erkennung der anderen Phoneme bei dem Schritt S10 wird das Ldentifizierungsverfahren entsprechend der Bayesschen Entscheidung (Bayesian decision) der Veränderung von Mustern eines Spektrums über die Zeit verwendet. Dieses Verfahren ist ausführlich in den "Society Data" ("Detection of the Characteristics of Segment Aiming at the Recognition of Continuous Speech", Japanese Acoustics Society, Voice Section, S85-53, Dezember 1985) beschrieben.
  • Bei den Erkennungsverarbeitungen für die Vokale bei dem Schritt S6 und anderen Phonemen bei dem Schritt S10 haben sich die ausgegebenen Ergebnisse in einem Bereich von "0" bis "1" einander angeglichen. In diesem Fall ist die Wahrscheinlichkeit, daß das Phonem von der durch diesen Schritt zu bestimmenden Art ist, um so höher, je größer das Ausgangssignal ist. Demgegenüber ist bei den Erkennungsverfahren für die Halbvokale bei den Schritt S8 die Wahrscheinlichkeit, daß das Phonem von der durch diesen Schritt zu bestimmenden Art ist, um so größer, je kleiner das ausgegebene Ergebnis ist, da eine Mahalanobis-Distanz zum Zeitpunkt der Erkennung verwendet wird. Die Ausgangswerte nähern sich bei einem Bereich größer "0" an. Zur Normalisierung bei dem Schritt S9 wird zunächst der maximale Wert des Ausgangssignal zu "0" gemacht, indem der Ausgangswert mit einem Minuszeichen versehen wird. Darauffolgend wird ein Schwellwert th (< 0) eingestellt, wobei Ausgangswerte, die kleiner oder gleich th sind, mit th ersetzt werden, damit der Bereich des Wertes von th bis "0" eingestellt wird. Zusätzlich wird eine lineare Transformation derart durchgeführt, daß die Ausgangswerte th T "0" und "0" T 1 werden, wobei die erhaltenen Ergebnisse als normalisiertes Ausgangssignal verwendet werden.
  • Die vorstehend beschriebene Verarbeitung wird bei jedem Schritt wiederholt, bis der Sprachblock abgeschlossen ist und die Verarbeitung zu dem Schritt S12 voranschreitet, bei dem sie beendet wird.
  • Bei dem Schritt S12 wird die vorbereitende Auswahl von Worten auf der Grundlage der groben Segmentierung bei dem Schritt S1 ausgeführt. Genauer gesagt besteht die Verarbeitung darin, daß lediglich Worte, die mit den Reihen der drei durch die Segnentierung erhaltenen Segmentarten übereinstimmen, aus dem Wortverzeichnis ausgewählt werden. Die bei dem Schritt S12 ausgewählten Worte in dem Wortverzeichnis werden nacheinander bei dem Schritt S13 ausgelesen, wobei bei einem Schritt S14 beurteilt wird, ob alle ausgewählten Worte verglichen sind oder nicht. Falls der Vorgang nicht beendet ist, wird entsprechend der dynamischen Programmierung DP eine Bewertungsberechnung durchgeführt. Diese dynamische Programmierung vergleicht direkt die Reihe der Phonemstandardmuster entsprechend der aus den Wortverzeichnis erhaltenen Reihe von Phonemsymbolen mit der Parameterzeitfolge der eingegebenen Sprache. Die Bewertung d(i, j) bei dem Rahmen j und der Phonemklasse Ci wird unter Verwendung der jeweils bei den Schritten S7, S8 und S11 unverändert erhaltenen Werte berechnet. Die Gleichungen bei dieser dynamischen Programmierung sind wie nachstehend:
  • [wobei es sich bei A um das Verzeichnis, bei X um ein eingegebenes Wort, bei g(i, j) um eine gesammelte Bewertung bei (i,j) und bei I sowie J um Maximalwerte von i und j handelt.]
  • Wenn das Verzeichnis entsprechend der Beurteilung bei dem Schritt S14 beendet ist, schreitet die Verarbeitung zu dem Schritt S16 voran. Das Wort, dem die maximale Bewertung gegeben wird, wird aus den verglichenen Worten ausgewählt und als Erkennungsergebnis der eingegebenen Sprache verwendet. Dieses Erkennungsergebnis wird bei einen Schritt S17 ausgegeben.
  • Fig. 2 zeigt ein Blockschaltbild, daß den festverdrahteten Aufbau bzw. den Hardware-Aufbau dieser Vorrichtung darstellt. Wie in dieser Darstellung gezeigt, wird die in ein Mikrophon 18 eingegebene Sprache durch eine Bandpaßfiltergruppe bei einer Analysiereinheit 19 analysiert und in ein Kurzzeitspektrum umgewandelt. Eine Zentraleinheit (CPU) 20 steuert den in Fig. 1 gezeigten Verarbeitungsablauf, wobei dieses Programm in einem ersten Festspeicher (ROM1) 21 gespeichert ist. Ein zweiter Festspeicher(ROM2) 22 wird als Wortverzeichnis verwendet. Ein Speicher mit wahlfreiem Zugriff (RAM) 23 wird zum Speichern der Phonem-Muster verwendet und speichert die aus einer Disketteneinrichtung 24 oder dem Festspeicher 22 gesendeten Daten. Die Phonem-Muster werden in dem Speicher mit wahlfreiem Zugriff gespeichert, damit das Phonem-Muster beim Lernen der Vokale auf eine spezifische Person angewendet werden kann. In diesem Fall werden die Inhalte in dem Speicher mit wahlfreiem Zugriff erneut geschrieben und das Vokalmuster registriert.
  • Gemäß diesem Ausführungsbeispiel wird ebenfalls das Verfahren betrachtet, das verschiedene Parameter entsprechend den Phonengruppen verwendet, obwohl als ein Beispiel das denselben Parameter verwendende Erkennungsverfahren beschrieben worden ist. In diesem Fall kann der Parameter nicht ausgewählt werden, da die Phonem-Art bei dem Schritt der groben Segmentierung nicht bestimmt werden kann Jedoch wird die Phonem-Art bei der Verarbeitung bei dem in Fig. 1A gezeigten Schritt S5 bestimmt, nachdem die eingegebene Sprache erneut durch ein anderes Verfahren analysiert ist.
  • In einem derartigen Fall wird ein Bandpaßfilter bei dem Schritt S10 ähnlich verwendet, wobei ein Parameter der LPC- Art , dessen Spitzenwert gut ausgedrückt ist, bei den Schritten S6 und S8 verwendet wird.
  • Gemäß diesem Ausführungsbeispiel wird die Analyse durch Programme bzw. Software durchgeführt, da verschiedene Parameter verwendet werden. Folglich kann der Aufbau der festverdrahteten Schaltung bzw. der Hardware vereinfacht werden. Deshalb ist die in Fig. 2 gezeigte Analysiereinheit 19 zur Analysierung der eingegebenen Sprache nicht erforderlich, führt aber eine Analog-Digitalwandlung durch und begrenzt sie lediglich auf die tieferen Frequenzen.
  • Obwohl die Erfindung vorstehend unter Bezug auf das bevorzugte Ausführungsbeispiel beschrieben worden ist, ist die Erfindung nicht auf das vorstehend beschriebene Ausführungsbeispiel beschränkt, wobei verschiedene Abänderungen innerhalb des Schutzbereichs der beiliegenden Patentansprüche möglich sind.
  • Wie vorstehend beschrieben kann erfindungsgemäß die Spracherkennung mit hoher Genauigkeit durchgeführt werden, da die verschiedenen Parameter und Erkennungsverfahren entsprechend der Art der Phoneme verwendet werden, wobei eine dynamische Programmierung zur Positionierung der Phonem-Muster entsprechend der eingegebenen Sprache nach einer groben Segmentierung angewendet wird. Außerdem kann eine gegenüber nicht spezifizierten Sprechern beständige Spracherkennung durch Lernen der Phoneme wie Vokale durchgeführt werden, bei denen individuelle Unterschiede stark hervortreten.

Claims (6)

1. Spracherkennungsverfahren mit den Schritten
Eingeben von Sprachdaten in eine Spracherkennungsvorrichtung (19, 20) und Durchführen eines Segnentierungsvorgangs an den eingegebenen Sprachdaten derart, daß jedes Segment ein Phonem aufweist,
Klassifizieren (S5) jedes derart erzeugten Segments in Abhängigkeit von dessen Phonem,
Auswählen eines bei jedem Segment anzuwendenden geeigneten Erkennungsverfahrens aus einer Vielzahl von Erkennungsverfahren im Ansprechen auf die Klassifizierung des Segments (S5),
Erkennen (S6, S8, S10) jedes Segments unter Verwendung des für das Segment ausgewählten Erkennungsverfahrens und Spezifizieren eines Erkennungsergebnisses und eines Ähnlichkeitswerts jedes durch den Erkennungsschritt erhaltenen Erkennungsergebnisses,
gekennzeichnet durch
Umwandeln des durch jedes Erkennungsverfahren erhaltenen Ähnlichkeitswerts in einen Einheitsbereichswert und
Verwenden der Einheitsbereichswerte bei einem dynamischen Programmiervorgang zur Erzeugung einer Erkennungsausgabe.
2. Verfahren nach Anspruch 1, gekennzeichnet durch Auswählen von Worten aus einem Wortverzeichnis, die in dem Wortverzeichnis gespeichert sind, deren Phoneme klassifiziert worden sind, und
Anpassen der aus den eingegebenen Sprachdaten erhaltenen normalisierten Werte an die ausgewählten Worte.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Erkennungsverfahren die Erkennung eines Vokals, die Erkennung eines Konsonanten und die Erkennung anderer Phoneme aufweisen.
4. Spracherkennungsvorrichtung mit
einer Einrichtung (19) zur Durchführung eines Segmentierungsvorgangs an eingegebenen Sprachdaten derart, daß jedes Segment ein Phonem aufweist,
einer Vielzahl von Einrichtungen (19, 20, 21) zur Zuweisung verschiedener Klassifizierungen an aus dem Segementierungsvorgang hergeleiteten Segmenten in Abhängigkeit von den Phonemen der Segmente,
einer Vielzahl von Erkennungseinrichtungen (20, 23, 21) jeweils zur Ausführung einer unterschiedlichen Erkennungsverarbeitung an einem Segment,
einer Einrichtung zur Übertragung jedes Segments zu einer ausgewählten Erkennungseinrichtung entsprechend der Klassifizierung des Segments, um einen Ahnlichkeitswert für das Segment zu erzeugen,
gekennzeichnet durch
eine Einrichtung zur Normalisierung der aus den Erkennungseinrichtungen ausgegebenen Ahnlichkeitswerte zu Einheitsbereichswerten, und
eine dynamische Programmiereinrichtung zur Verarbeitung der normalisierten Werte und zur Erzeugung einer Erkennungsausgabe.
5. Vorrichtung nach Anspruch 4, gekennzeichnet durch ein Wortverzeichnis (22) in dem Worte gespeichert sind, deren Phoneme klassifiziert worden sind, und
eine Einrichtung (20) zur Auswahl der Worte aus dem Wortverzeichnis und zum Anpassen der normalisierten Erkennungsergebnisse an die ausgewählten Worte.
6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß die Erkennungseinrichtung eine Einrichtung zur Erkennung von Vokalen, eine Einrichtung zur Erkennung von Konsonanten und eine Einrichtung zu Erkennung anderer Phoneme aufweist.
DE69031284T 1989-01-24 1990-01-23 Verfahren und Einrichtung zur Spracherkennung Expired - Fee Related DE69031284T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1013098A JPH02195400A (ja) 1989-01-24 1989-01-24 音声認識装置

Publications (2)

Publication Number Publication Date
DE69031284D1 DE69031284D1 (de) 1997-09-25
DE69031284T2 true DE69031284T2 (de) 1998-01-08

Family

ID=11823676

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69031284T Expired - Fee Related DE69031284T2 (de) 1989-01-24 1990-01-23 Verfahren und Einrichtung zur Spracherkennung

Country Status (4)

Country Link
US (1) US5893058A (de)
EP (1) EP0380297B1 (de)
JP (1) JPH02195400A (de)
DE (1) DE69031284T2 (de)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2107317A1 (en) * 1992-10-30 1994-05-01 Rajendra Prasad Mikkilineni Speech recognition system
ES2078834B1 (es) * 1992-10-30 1997-04-16 Alcatel Standard Electrica Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas.
AU5738296A (en) * 1995-05-26 1996-12-11 Applied Language Technologies Method and apparatus for dynamic adaptation of a large vocab ulary speech recognition system and for use of constraints f rom a database in a large vocabulary speech recognition syst em
JP3584458B2 (ja) * 1997-10-31 2004-11-04 ソニー株式会社 パターン認識装置およびパターン認識方法
JPH11184491A (ja) * 1997-12-18 1999-07-09 Ricoh Co Ltd 音声認識装置
US6148284A (en) * 1998-02-23 2000-11-14 At&T Corporation Method and apparatus for automatic speech recognition using Markov processes on curves
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
IL140397A0 (en) * 1998-06-23 2002-02-10 Intellix As Method and system for training a computer classification system
DE19834321A1 (de) * 1998-07-30 2000-02-03 Alcatel Sa Verfahren, Endgerät, Knoten, Programmodul und Bedienoberfläche zur Ermittlung von für eine Kommunikationsbeziehung erforderlichen Merkmalen
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6223319B1 (en) * 1998-08-20 2001-04-24 General Electric Company Turbo code decoder with controlled probability estimate feedback
DE69943018D1 (de) * 1998-10-09 2011-01-20 Sony Corp Lernvorrichtung und -verfahren, erkennungsvorrichtung und verfahren, und aufnahme-medium
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals
US6374216B1 (en) * 1999-09-27 2002-04-16 International Business Machines Corporation Penalized maximum likelihood estimation methods, the baum welch algorithm and diagonal balancing of symmetric matrices for the training of acoustic models in speech recognition
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
CA2387091A1 (en) * 1999-10-28 2001-05-03 At&T Corp. Method and system for detection of phonetic features
WO2001048738A1 (en) * 1999-12-23 2001-07-05 Intel Corporation A global approach for segmenting characters into words
US7318032B1 (en) * 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
JP3342864B2 (ja) * 2000-09-13 2002-11-11 株式会社エントロピーソフトウェア研究所 音声の類似度検出方法及びその検出値を用いた音声認識方法、並びに、振動波の類似度検出方法及びその検出値を用いた機械の異常判定方法、並びに、画像の類似度検出方法及びその検出値を用いた画像認識方法、並びに、立体の類似度検出方法及びその検出値を用いた立体認識方法、並びに、動画像の類似度検出方法及びその検出値を用いた動画像認識方法
JP2002099916A (ja) * 2000-09-25 2002-04-05 Olympus Optical Co Ltd パターン分類方法及びその装置、コンピュータにより読み取り可能な記憶媒体
CA2433999A1 (en) * 2000-11-30 2002-06-06 Yang Ming Pok Neural cortex
US7113637B2 (en) * 2001-08-24 2006-09-26 Industrial Technology Research Institute Apparatus and methods for pattern recognition based on transform aggregation
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7617104B2 (en) * 2003-01-21 2009-11-10 Microsoft Corporation Method of speech recognition using hidden trajectory Hidden Markov Models
TWI226600B (en) * 2003-03-12 2005-01-11 Leadtek Research Inc Nasal detection method and device thereof
JP4194433B2 (ja) * 2003-07-07 2008-12-10 キヤノン株式会社 尤度算出装置および方法
US7650282B1 (en) * 2003-07-23 2010-01-19 Nexidia Inc. Word spotting score normalization
US7664642B2 (en) * 2004-03-17 2010-02-16 University Of Maryland System and method for automatic speech recognition from phonetic features and acoustic landmarks
JP2006105943A (ja) * 2004-10-08 2006-04-20 Omron Corp 知識作成装置及びパラメータ探索方法並びにプログラム製品
US7627537B2 (en) * 2004-10-28 2009-12-01 Intel Corporation Score result reuse for Bayesian network structure learning
CN101091177B (zh) * 2004-12-31 2010-05-26 英特尔公司 贝叶斯网络结构学习并行化的方法、设备及***
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
CN102222498B (zh) * 2005-10-20 2013-05-01 日本电气株式会社 声音判别***、声音判别方法以及声音判别用程序
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition
WO2007143109A2 (en) * 2006-06-02 2007-12-13 Telcordia Technologies, Inc. Concept based cross media indexing and retrieval of speech documents
US7447723B2 (en) * 2006-11-28 2008-11-04 International Business Machine Corporation Method for fast relevance discovery in time series
US20080243503A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Minimum divergence based discriminative training for pattern recognition
DE102007030209A1 (de) * 2007-06-27 2009-01-08 Siemens Audiologische Technik Gmbh Glättungsverfahren
JP5381973B2 (ja) * 2008-02-28 2014-01-08 日本電気株式会社 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
EP2109096B1 (de) * 2008-09-03 2009-11-18 Svox AG Sprachsynthese mit dynamischen Einschränkungen
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10311865B2 (en) * 2013-10-14 2019-06-04 The Penn State Research Foundation System and method for automated speech recognition
DE112014006795B4 (de) * 2014-07-08 2018-09-20 Mitsubishi Electric Corporation Spracherkennungssystem und Spracherkennungsverfahren
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
JP6509694B2 (ja) * 2015-09-15 2019-05-08 株式会社東芝 学習装置、音声検出装置、学習方法およびプログラム
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10522169B2 (en) * 2016-09-23 2019-12-31 Trustees Of The California State University Classification of teaching based upon sound amplitude
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
KR102017244B1 (ko) * 2017-02-27 2019-10-21 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
SG10201809737UA (en) * 2018-11-01 2020-06-29 Rakuten Inc Information processing device, information processing method, and program
JP7192492B2 (ja) * 2018-12-27 2022-12-20 富士通株式会社 学習装置、学習方法および学習プログラム
CN112599118B (zh) * 2020-12-30 2024-02-13 中国科学技术大学 语音识别方法、装置、电子设备和存储介质
US11699430B2 (en) * 2021-04-30 2023-07-11 International Business Machines Corporation Using speech to text data in training text to speech models

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4912778B1 (de) * 1969-11-05 1974-03-27
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
US4509186A (en) * 1981-12-31 1985-04-02 Matsushita Electric Works, Ltd. Method and apparatus for speech message recognition
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS5972496A (ja) * 1982-10-19 1984-04-24 株式会社東芝 単音識別装置
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
US4856067A (en) * 1986-08-21 1989-08-08 Oki Electric Industry Co., Ltd. Speech recognition system wherein the consonantal characteristics of input utterances are extracted
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system

Also Published As

Publication number Publication date
US5893058A (en) 1999-04-06
EP0380297A2 (de) 1990-08-01
JPH02195400A (ja) 1990-08-01
DE69031284D1 (de) 1997-09-25
EP0380297B1 (de) 1997-08-20
EP0380297A3 (de) 1991-03-27

Similar Documents

Publication Publication Date Title
DE69031284T2 (de) Verfahren und Einrichtung zur Spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE68924134T2 (de) Spracherkennungssystem.
DE69619442T2 (de) Verifizierung einer Sprachäusserung für die Erkennung einer Folge von Wörtern mittels wortbezogenem Training zur Minimierung des Verifizierungsfehlers
DE69229124T2 (de) Mehrteiliger expertsystem
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
DE69128582T2 (de) Methode zur Phonemunterscheidung
DE68914032T2 (de) Spracherkennungssystem.
DE4322372A1 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0965088B1 (de) Sichere identifikation mit vorauswahl und rückweisungsklasse
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE102007042971A1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE69621674T2 (de) Trainingssystem für Referenzmuster und dieses Trainingssystem benutzendes Spracherkennungssystem
EP0548460A2 (de) Verfahren zur schnellen Sprecheradaption in einem Spracherkenner für grossen Wortschatz

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee