DE19654549A1 - Verfahren und System zur Spracherkennung - Google Patents

Verfahren und System zur Spracherkennung

Info

Publication number
DE19654549A1
DE19654549A1 DE19654549A DE19654549A DE19654549A1 DE 19654549 A1 DE19654549 A1 DE 19654549A1 DE 19654549 A DE19654549 A DE 19654549A DE 19654549 A DE19654549 A DE 19654549A DE 19654549 A1 DE19654549 A1 DE 19654549A1
Authority
DE
Germany
Prior art keywords
speech
acoustic
models
series
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19654549A
Other languages
English (en)
Other versions
DE19654549C2 (de
Inventor
Makoto Nakamura
Naomi Inoue
Fumihiro Yato
Seiichi Yamamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Publication of DE19654549A1 publication Critical patent/DE19654549A1/de
Application granted granted Critical
Publication of DE19654549C2 publication Critical patent/DE19654549C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren und ein System zur Spracherkennung, insbesondere ein Spracherkennungssystem zum Verringern des Umfangs erforderlicher Berechnungen zum Ver­ kürzen der Erkennungsdauer ohne Verringerung der Genauigkeit bei der Erkennung.
Im allgemeinen werden Spracherkennungstechniken zum Analy­ sieren des Inhalts von von einer Person gesprochenen Sätzen, genauer gesagt zum Verstehen, was eine Person sagt, verwen­ det. Hinsichtlich Spracherkennungstechniken dauern verschie­ dene Forschungsvorhaben seit ca. 1950 an. In jüngerer Zeit wurden die Erkennungsmöglichkeiten durch die Entwicklung von Techniken wie dem Markov-Modell mit verborgener Information, dem Cepstrum- und dem Δ-Cepstrum-Verfahren deutlich verbes­ sert.
Bei herkömmlichen Spracherkennungssystemen werden statisti­ sche Wahrscheinlichkeiten akustischer Reihen vom Anfang bis zum Ende berechnet. Beim Berechnen der Wahrscheinlichkeit des letzten akustischen Modells wird der Satz mit der größ­ ten Wahrscheinlichkeit ausgewählt. Dann wird der erfaßte Satz mit der größten Wahrscheinlichkeit als Erkennungsergeb­ nis ausgegeben.
D. h., daß beim herkömmlichen Spracherkennungssystem der Anfang und das Ende der eingegebenen Sprachtöne abhängig von der Stärke (Tonpegel) der eingegebenen Sprachtöne erfaßt werden. Statistische Wahrscheinlichkeiten werden mittels der Länge der erfaßten Sprache berechnet, um denjenigen Satz auszuwählen, für den die angesammelte statistische Wahr­ scheinlichkeit die höchste ist. Dann wird der ausgewählte Satz als Erkennungsergebnis ausgegeben.
Wenn unter den obigen Bedingungen das Ende der erfaßten Tonsignale unklar oder redundant ist oder wenn der Tonpegel am Ende der erkannten Sprachsignale unzureichend ist, ver­ ringert sich die Genauigkeitsrate bei der Erkennung. Ferner wird, solange nicht das Ende der eingegebenen Sprachsignale nach dem Sprechen eines Worts oder eines Satzes, wofür eine Erkennung ausgeführt werden soll, erkannt wird, die Auswahl Erkennung fortgesetzt, bis das Ende der eingegebenen Sprach­ signale erkannt wird. Daher wird zur Erkennung zu viel Zeit aufgewandt.
Wie oben beschrieben, ist bei herkömmlichen Spracherken­ nungssystemen die Erkennungsgeschwindigkeit relativ langsam, und die Genauigkeitsrate betreffend die Erkennung ist rela­ tiv niedrig.
Der Erfindung liegt die Aufgabe zugrunde, ein System und ein Verfahren zur Spracherkennung zu schaffen, durch die die Menge erforderlicher Berechnungen verringerbar ist und die Erkennungsperiode verkürzbar ist, ohne daß die Erkennungs­ genauigkeit abnimmt.
Die Erfindung schafft ein Spracherkennungssystem unter Ver­ wendung akustischer Modelle, wobei statistische Wahrschein­ lichkeiten von Sprachtonsignalen, wie durch das Spracherken­ nungssystem erfaßt, berechnet werden und schließlich die Berechnungen beendet werden und ein Erkennungsergebnis durch ein Sprachmodell ausgedrückt wird.
Das erfindungsgemäße Spracherkennungssystem verfügt über ein Sprachmodellregister mit Grammatikkontrollelement. Das Gram­ matikkontrollelement speichert syntaktische und semantische Beschränkungen, um ein Wort auszuschließen, wenn dieses nicht im Grammatikkontrollelement registriert ist.
Ferner schließt das Grammatikkontrollelement eine Reihe von Wörtern aus, wenn diese Reihe von Wörtern syntaktisch oder semantisch falsch ist, wenn ein Vergleich mit den syntakti­ schen und semantischen Einschränkungen erfolgt.
Das erfindungsgemäße Spracherkennungssystem sorgt für Sprachmodelle, die Satzsysteme beschreiben, wie sie Benutzer in das Spracherkennungssystem eingeben sollten.
Außerdem sorgt das erfindungsgemäße Spracherkennungssystem für akustische Modelle, wie sie vorab mit einer Reihe von Akustikparametern usw. gelernt werden.
Der Aufbau eines erfindungsgemäßen Spracherkennungssystems wird nachfolgend unter Bezugnahme auf die Zeichnungen be­ schrieben.
Fig. 1 ist ein Blockdiagramm eines erfindungsgemäßen Sprach­ erkennungssystems.
Fig. 2 zeigt ein Beispiel von Sprachmodellen, wie sie beim erfindungsgemäßen Spracherkennungssystem verwendet werden.
Fig. 3 zeigt ein Flußdiagramm für Erkennungsvorgänge beim erfindungsgemäßen Spracherkennungssystem.
Das Spracherkennungssystem von Fig. 1 umfaßt ein Akustik­ analyseelement 1, ein Erkennungsprozeßelement 2, ein Akus­ tikmodellregister 3 und ein Sprachmodellregister 4 mit Gram­ matikkontrollelement 5.
Der Akustikanalyseabschnitt 1 empfängt Sprachtonsignale A und analysiert dieselben akustisch durch Beurteilen der Zeitreihe akustischer Parameter der Sprachtonsignale A, wie durch das Cepstrum- und/oder das Δ-Cepstrum-Verfahren. Dann werden umgewandelte Daten an das Erkennungsprozeßelement 2 ausgegeben.
Cepstrumwerte werden durch umgekehrte Fouriertransformation eines logarithmischen Spektrums erhalten. Ein Cepstrumwert steht in linear-transformierter Beziehung zum logarithmi­ schen Spektrum, das der menschlichen Hörcharakteristik ähn­ lich ist. Unter Verwendung des Cepstrumwerts kann das Spracherkennungssystem Sprachtonsignale entsprechend dem si­ mulierten menschlichen Gehörsinn beurteilen. Koeffizienten höherer Ordnung des Cepstrumwerts bedeuten einen Detailauf­ bau eines Spektrums und Koeffizienten niedrigerer Ordnung des Cepstrumwerts bedeuten die Einhüllende des Spektrums. Durch Auswählen geeigneter Ordnungen kann dafür gesorgt wer­ den, daß eine glatte Einhüllende erscheint, und zwar unter Verwendung einer relativ kleinen Anzahl akustischer Parame­ ter.
Der Δ-Cepstrum-Wert bedeutet die dynamische Charakteristik eines Spektrums. Der Δ-Cepstrum-Wert ist die erste Ordnung (erster Differentialkoeffizient) eines Polynoms, in das die Zeitreihe der Cepstrumwerte im Bereich von innerhalb 50 ms bis 100 ms entwickelt wird.
Der Erkennungsprozeßabschnitt 2 empfängt vom Akustikanaly­ seelement 1 ausgegebene Daten und berechnet die statistische Wahrscheinlichkeit einer Reihe akustischer Modelle B, wie sie im Akustikmodellregister 3 abgespeichert sind, und zwar aufgrund einer Beurteilung gemäß der Zeitreihe akustischer Parameter, wie aus den Sprachtonsignalen A transformiert, und dann wählt er die Reihe akustischer Modelle B mit der höchsten Wahrscheinlichkeit aus. Das Erkennungsprozeßele­ ment 2 beurteilt, ob die ausgewählte Reihe von Akustikmodel­ len B Teil eines einzigen Satzes (Sprachmodelle C) ist, wie im Sprachmodellregister 4 abgespeichert, wofür die Sprach­ modelle C durch den Wortinhalt und die Grammatik des Gramma­ tikkontrollelements 5 beschränkt sind. D. h., daß dann, wenn ein neues Akustikmodell zur aktuell ausgewählten Reihe von Akustikmodellen B hinzugefügt wird und keinerlei Ver­ zweigungsreihe aufgefunden werden kann, die mit der aktuel­ len Reihe von Akustikmodellen B verbindbar ist, eine derar­ tige ausgewählte Reihe von Akustikmodellen B als Teil des einzelnen, zu beurteilenden Satzes beurteilt wird. Obwohl der Erkennungsprozeß ein Zwischenprozeß ist, gibt, wenn der Erkennungsprozeßabschnitt 2 beurteilt, daß der ausge­ wählte Satz der einzige Satz ist und er während der mehreren aufeinanderfolgenden Rahmen die höchste Wahrscheinlichkeit beibehält, dieser Erkennungsprozeßabschnitt 2 die ausge­ wählten Sprachmodelle C als Erkennungsergebnis E aus.
Von einem Systembenutzer gesprochene Sätze werden vorab ge­ mäß syntaktischen und semantischen Beschränkungen durch eine Reihe akustischer Modelle B repräsentiert. Wenn ein Teil einer Akustikmodellreihe B gemeinsam in mehreren Sätzen vor­ liegt, ist der Teil der einen Akustikmodellreihe den mehre­ ren Sätzen gemeinsam.
Akustikmodelle B werden dadurch im Akustikmodellregister 3 registriert, daß Zeitreihen von Akustikparametern gelernt werden. Jedes Akustikmodell B wird gemäß dem HMM-Verfahren oder dergleichen repräsentiert.
Das HMM-Verfahren ist ein solches zum Repräsentieren einer spektralen Zeitreihe von Tonelementen (z. B. Phonemen) und Wörtern in einem Stil von Ausgangssignalen aus Modellen zu stochastischen Zustandsübergängen. Im allgemeinen wird ein Tonelement durch wenige Zustände (z. B. drei Zustände) re­ präsentiert. Jedes Tonelement und Wort zeichnet sich dadurch aus, daß es Übergangswahrscheinlichkeiten zwischen Zustän­ den und Ausgangswahrscheinlichkeiten verschiedener Tonele­ mente und Wörter bei den Übergängen zwischen Zuständen re­ präsentiert. Gemäß dem HMM-Verfahren kann eine Variation von Sprachtonspektren statistisch repräsentiert werden.
Das Grammatikkontrollelement 5 schließt eine Reihe von Akus­ tikmodellen B aus, die unter dem sprachlichen Gesichtspunkt weder syntaktisch noch semantisch verständlich sind. Das Grammatikkontrollelement 5 steht in Einklang mit Sprachmo­ dellen C auf Grundlage des vorliegenden zu erkennenden Worts oder Satzes.
Das Grammatikkontrollelement 5 verfügt über zwei Funktionen.
Die eine Funktion ist es, Wörter auszuschließen, die im Wör­ terbuch nicht gespeichert sind. Das Wörterbuch enthält Hauptwörter wie "Meer" und "Himmel", Adjektive wie "blau" und "glücklich" und Verben wie "sein" und "machen". Eine entsprechende Reihe von Akustikmodellen B wird im Eintrag jedes im Wörterbuch aufgeführten Worts beschrieben.
Die andere Funktion besteht darin, ein akustisches Modell B einzuschränken/auszuwählen, das auf Grundlage syntaktischer und semantischer Gründe nicht mit der folgenden Reihe von Akustikmodellen verbunden werden kann. Z.B. wird die Kombi­ nation der Wörter: "Dies ist ein blauer Himmel." nicht aus­ geschlossen, da die Kombination syntaktisch korrekt ist. Dagegen wird die Kombination der Wörter "Dies ist blau ein Himmel." ausgeschlossen, da diese Kombination syntaktisch falsch ist, obwohl alle Wörter im Wörterbuch aufgeführt sind.
Fig. 3 zeigt ein Flußdiagramm des erfindungsgemäßen Sprach­ erkennungssystems.
Wenn Sprachtonsignale in den Akustikanalyseabschnitt 1 ein­ gegeben werden (Schritt S1), werden die eingegebenen Sprach­ tonsignale A in digitale Signale umgesetzt, und diese digi­ talen Signale werden in eine Zeitreihe von Akustikparametern wie den Cepstrumwert, den Δ-Cepstrum-Wert, gemäß der Akus­ tikanalyse umgesetzt (Schritt S2).
Das Erkennungsprozeßelement 2 berechnet die statistischen Wahrscheinlichkeiten repräsentativer Reihen von Akustikmo­ dellen B unter Beurteilung der zeitlichen Reihe der Akustik­ parameter der eingegebenen Sprachtonsignale A (Schritt S3).
Der Erkennungsprozeßabschnitt 2 beurteilt, ob die Reihe der Akustikmodelle B mit der höchsten Wahrscheinlichkeit Teil eines einzigen Satzes im Sprachmodellregister 4 ist, und zwar durch Vergleichen der Reihe der Akustikmodelle B und der Sprachmodelle C, wie durch das Grammatikkontrollelement 5 (Wörterbuch, Grammatik) beschränkt (Schritt S4).
Solange der Spracherkennungsabschnitt 2 beurteilt, daß die Vergleichsreihe der Akustikmodelle B einen einzigen Satz darstellt, werden die statistischen Wahrscheinlichkeiten der Reihe akustischer Modelle B, wie im Akustikmodellregister 3 repräsentiert, wiederholt in der Reihenfolge der Zeitreihe der Akustikparameter der eingegebenen Sprachtonsignale A be­ rechnet (Rückkehr zum Schritt S3).
Wenn der Erkennungsprozeßabschnitt 2 beurteilt, daß die verglichene Reihe von Akustikmodellen B ein Teil eines ein­ zigen Satzes ist, hat die Vergleichsreihe der Sprachmodelle C während der mehreren aufeinanderfolgenden Rahmen (unten beschrieben) die höchste Wahrscheinlichkeit, und das Erkennungsprozeßelement 2 gibt ein Erkennungsergebnis E aus (Schritt S5).
Nun wird unter Bezugnahme auf Fig. 1 die Funktion des Aus­ führungsbeispiels der Erfindung beschrieben.
  • (1) Das Akustikanalyseelement 1 setzt die eingegebenen Sprachtonsignale A für jede vorbestimmte Zeitperiode in Cha­ rakteristikvektoren um. Eine vorbestimmte Zeitperiode wird als Rahmen bezeichnet, und sie hat im allgemeinen eine Dauer von 1 bis 19 ms. Der Charakteristikvektor entspricht den Akustikparametern.
  • (2) Hinsichtlich einer Reihe von Charakteristikvektoren wer­ den die statistischen Wahrscheinlichkeiten von Akustikmodel­ len B berechnet. Die Akustikmodelle B sind Gesamtheiten von Wörtern oder Unterworteinheiten, wie Phonemen. Diese Akus­ tikmodelle B werden vorab unter Verwendung einer großen An­ zahl gelernter Tonsignale gelernt. Um statistische Wahr­ scheinlichkeiten der Akustikmodelle B zu berechnen, wird das HMM-Verfahren verwendet.
  • (3) Ein folgendes Akustikmodell B, das mit einer Reihe von Akustikmodellen B verbunden werden kann, wird durch das Grammatikkontrollelement 5 mit Wörterbuch und Grammatik be­ schränkt. Sprachmodelle C, wie sie den untersuchten Wörtern und Sätzen, wie sie zu erkennen sind, entsprechen, werden durch das Grammatikkontrollelement 5 aufgezählt und kontrol­ liert. Wie es in Fig. 2 dargestellt ist, sieht das Sprach­ modell C wie ein Baum aus.
  • (4) Das Erkennungsprozeßelement 2 berechnet die statisti­ sche Wahrscheinlichkeit eines folgenden Akustikmodells B, wie für jeden Rahmen durch ein Sprachmodell C angeführt. Das Erkennungsprozeßelement 2 berechnet für den ersten Rahmen die statistischen Wahrscheinlichkeiten aller Akustikmodelle B. Nachfolgend werden die Sprachmodelle C, für die die sta­ tistischen Wahrscheinlichkeiten einen höheren Rang aufweisen (Position 1 bis Position N) kontinuierlich berechnet, um ein Akustikmodell B zu erhalten, das mit der Reihe der aktuellen Akustikmodelle B verbunden werden kann.
  • (5) Wenn die Reihe der Akustikmodelle B mit der höchsten an­ gesammelten Wahrscheinlichkeit ein Teil eines einzigen Sat­ zes im Sprachmodellregister C während mehrerer aufeinander­ folgender Rahmen ist, wird der untersuchte Satz, der die Reihe der Akustikmodelle enthält, als Erkennungsergebnis E bestimmt.
Gemäß dem Ausführungsbeispiel der Erfindung kann im Fall einer Anwendung auf "Ländername oder Städtename" und "Prädi­ kat" die mittlere Erkennungszeit von 1,74 Sekunden auf 1,20 Sekunden um 30% verkürzt werden, ohne daß eine Beeinträch­ tigung der Erkennungsgenauigkeit vorliegt.
Als Beispiel wird der Fall der Erkennung von "Ländername" und "Prädikat" erläutert.
Für diesen Fall werden die folgenden Prädikate (i) und (ii) angenommen:
  • (i) isn′t it?
  • (ii) right?
Wenn Sprachtonsignale A "That′s Australia, right?" eingege­ ben werden, werden die folgenden Sätze in spitzen Klammern <1<, <2< und <3< als Kandidaten mit höherer Wahrscheinlich­ keit durch Tonerkennung aufeinanderfolgend ausgegeben:
  • <1< Australia right,
  • <2< Austria right, und
  • <3< Austin right.
Fig. 2 zeigt Sprachmodelle C zu diesen Kandidaten. Betref­ fend den Ländernamen werden "Australia", wie tatsächlich ge­ sprochen, und "Austria", für das die Sprechweise ähnlich zu "Australia" ist, als Kandidaten ausgegeben. Ferner wird als einer der Kandidaten auch "Austin", der Name einer Stadt in Texas, ausgegeben.
Eine Ermittlung, daß ein Sprachmodell C einem einzigen Wort/Satz entspricht, wird nicht immer in dem Moment gespro­ chen, in dem das Ende der eingegebenen Sprachtonsignale er­ kannt wird, sondern es kann eine Beurteilung zu jedem belie­ bigen Moment erfolgen, bevor das Ende der eingegebenen Sprachtonsignale erkannt wird.
Z.B. ist, wenn die statistischen Wahrscheinlichkeiten der Akustikmodelle B, "Aust [s:st]", berechnet werden, die sta­ tistische Wahrscheinlichkeit von "ra [rei]" für "Australia" höher als die von "ri [ri]" für "Austria". Wenn sich im Wör­ terbuch des Grammatikkontrollelements 5 außer "Australia" keine anderen Wörter nach dem Berechnen der statistischen Wahrscheinlichkeit der Reihe der Akustikmodelle zu "Austra" befinden, wird "Australia" als Erkennungsergebnis E ausgege­ ben, und die folgenden Berechnungen werden weggelassen.
Wie oben beschrieben, kann bei der Erfindung, während die statistische Wahrscheinlichkeit mit einer Reihe von Akustik­ modellen berechnet wird, ein Erkennungsergebnis ermittelt werden, wenn durch ein Grammatikkontrollelement ausgewählte Sprachmodelle einen einzigen Satz anzeigen. Daher werden re­ dundante Berechnungen weggelassen. Die erforderliche Menge an Berechnungen für den Erkennungsvorgang kann verringert werden, was die Erkennungszeit verkürzt, ohne daß die Er­ kennungsgenauigkeit beeinträchtigt wird. Die Mensch/Maschi­ ne-Schnittstelle läßt sich unter Verwendung eines erfin­ dungsgemäßen Spracherkennungssystems verbessern.

Claims (5)

1. Spracherkennungsverfahren bei einem Spracherkennungs­ system mit einem Sprachmodellregister zum Registrieren meh­ rerer Sprachmodelle, wobei mehrere Reihen von Akustikmodel­ len vorab unter Verwendung von Sprachbeschränkungen regis­ triert werden, gekennzeichnet durch folgende Schritte:
  • - Berechnen statistischer Wahrscheinlichkeiten einer Reihe von Akustikmodellen und
  • - Ermitteln eines Erkennungsergebnisses, wenn erfaßte Sprachmodelle durch Sprachbeschränkungen beschränkt sind und nur einen einzigen Satz anzeigen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Sprachbeschränkungen Wörter ausschließen, die nicht vor­ ab im Sprachmodellregister registriert wurden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Sprachbeschränkungen eine Reihe von Wörtern ausschlie­ ßen, die grammatikalisch falsch ist.
4. Verfahren nach einem der vorstehenden Ansprüche, da­ durch gekennzeichnet, daß das Sprachmodellregister mehrere Sätze einspeichert, für die angenommen wird, daß sie von einem Systembenutzer gesprochen werden.
5. Spracherkennungsverfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß die mehreren Reihen von Akustikmodellen vorab dadurch erzeugt werden, daß Zeit­ reihen mehrerer Akustikmodelle gelernt werden.
DE19654549A 1995-12-27 1996-12-27 Verfahren und Vorrichtung zur Spracherkennung Expired - Fee Related DE19654549C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34016395A JP3535292B2 (ja) 1995-12-27 1995-12-27 音声認識システム

Publications (2)

Publication Number Publication Date
DE19654549A1 true DE19654549A1 (de) 1997-07-03
DE19654549C2 DE19654549C2 (de) 2000-08-10

Family

ID=18334338

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19654549A Expired - Fee Related DE19654549C2 (de) 1995-12-27 1996-12-27 Verfahren und Vorrichtung zur Spracherkennung

Country Status (3)

Country Link
US (1) US5875425A (de)
JP (1) JP3535292B2 (de)
DE (1) DE19654549C2 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
EP1294329A4 (de) * 2000-04-20 2004-03-31 Cochlear Ltd Optimierter transkutaner energiekreislauf
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
EP1595245B1 (de) * 2003-02-21 2009-04-22 Voice Signal Technologies Inc. Verfahren zum produzieren abwechselnder äusserungshypothesen unter verwendung von hilfsinformationen bezüglich nahen konkurrenten
WO2005027093A1 (en) * 2003-09-11 2005-03-24 Voice Signal Technologies, Inc. Generation of an alternative pronunciation
JP4486897B2 (ja) * 2005-01-20 2010-06-23 株式会社豊田中央研究所 運転行動認識装置
US20070183995A1 (en) * 2006-02-09 2007-08-09 Conopco, Inc., D/B/A Unilever Compounds useful as agonists of A2A adenosine receptors, cosmetic compositions with A2A agonists and a method for using the same
US8036896B2 (en) * 2006-04-18 2011-10-11 Nuance Communications, Inc. System, server and method for distributed literacy and language skill instruction
JP4518141B2 (ja) 2007-12-17 2010-08-04 日本電気株式会社 画像照合方法及び画像照合装置並びに画像照合プログラム
JP6791258B2 (ja) * 2016-11-07 2020-11-25 ヤマハ株式会社 音声合成方法、音声合成装置およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal

Also Published As

Publication number Publication date
DE19654549C2 (de) 2000-08-10
US5875425A (en) 1999-02-23
JP3535292B2 (ja) 2004-06-07
JPH09179581A (ja) 1997-07-11

Similar Documents

Publication Publication Date Title
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE60026637T2 (de) Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE19510083C2 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE69819438T2 (de) Verfahren zur Spracherkennung
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE19654549C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE112006000225B4 (de) Dialogsystem und Dialogsoftware

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee