DE19654549A1 - Verfahren und System zur Spracherkennung - Google Patents
Verfahren und System zur SpracherkennungInfo
- Publication number
- DE19654549A1 DE19654549A1 DE19654549A DE19654549A DE19654549A1 DE 19654549 A1 DE19654549 A1 DE 19654549A1 DE 19654549 A DE19654549 A DE 19654549A DE 19654549 A DE19654549 A DE 19654549A DE 19654549 A1 DE19654549 A1 DE 19654549A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- acoustic
- models
- series
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241000492493 Oxymeris Species 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Verfahren und ein System zur
Spracherkennung, insbesondere ein Spracherkennungssystem zum
Verringern des Umfangs erforderlicher Berechnungen zum Ver
kürzen der Erkennungsdauer ohne Verringerung der Genauigkeit
bei der Erkennung.
Im allgemeinen werden Spracherkennungstechniken zum Analy
sieren des Inhalts von von einer Person gesprochenen Sätzen,
genauer gesagt zum Verstehen, was eine Person sagt, verwen
det. Hinsichtlich Spracherkennungstechniken dauern verschie
dene Forschungsvorhaben seit ca. 1950 an. In jüngerer Zeit
wurden die Erkennungsmöglichkeiten durch die Entwicklung von
Techniken wie dem Markov-Modell mit verborgener Information,
dem Cepstrum- und dem Δ-Cepstrum-Verfahren deutlich verbes
sert.
Bei herkömmlichen Spracherkennungssystemen werden statisti
sche Wahrscheinlichkeiten akustischer Reihen vom Anfang bis
zum Ende berechnet. Beim Berechnen der Wahrscheinlichkeit
des letzten akustischen Modells wird der Satz mit der größ
ten Wahrscheinlichkeit ausgewählt. Dann wird der erfaßte
Satz mit der größten Wahrscheinlichkeit als Erkennungsergeb
nis ausgegeben.
D. h., daß beim herkömmlichen Spracherkennungssystem der
Anfang und das Ende der eingegebenen Sprachtöne abhängig von
der Stärke (Tonpegel) der eingegebenen Sprachtöne erfaßt
werden. Statistische Wahrscheinlichkeiten werden mittels der
Länge der erfaßten Sprache berechnet, um denjenigen Satz
auszuwählen, für den die angesammelte statistische Wahr
scheinlichkeit die höchste ist. Dann wird der ausgewählte
Satz als Erkennungsergebnis ausgegeben.
Wenn unter den obigen Bedingungen das Ende der erfaßten
Tonsignale unklar oder redundant ist oder wenn der Tonpegel
am Ende der erkannten Sprachsignale unzureichend ist, ver
ringert sich die Genauigkeitsrate bei der Erkennung. Ferner
wird, solange nicht das Ende der eingegebenen Sprachsignale
nach dem Sprechen eines Worts oder eines Satzes, wofür eine
Erkennung ausgeführt werden soll, erkannt wird, die Auswahl
Erkennung fortgesetzt, bis das Ende der eingegebenen Sprach
signale erkannt wird. Daher wird zur Erkennung zu viel Zeit
aufgewandt.
Wie oben beschrieben, ist bei herkömmlichen Spracherken
nungssystemen die Erkennungsgeschwindigkeit relativ langsam,
und die Genauigkeitsrate betreffend die Erkennung ist rela
tiv niedrig.
Der Erfindung liegt die Aufgabe zugrunde, ein System und ein
Verfahren zur Spracherkennung zu schaffen, durch die die
Menge erforderlicher Berechnungen verringerbar ist und die
Erkennungsperiode verkürzbar ist, ohne daß die Erkennungs
genauigkeit abnimmt.
Die Erfindung schafft ein Spracherkennungssystem unter Ver
wendung akustischer Modelle, wobei statistische Wahrschein
lichkeiten von Sprachtonsignalen, wie durch das Spracherken
nungssystem erfaßt, berechnet werden und schließlich die
Berechnungen beendet werden und ein Erkennungsergebnis durch
ein Sprachmodell ausgedrückt wird.
Das erfindungsgemäße Spracherkennungssystem verfügt über ein
Sprachmodellregister mit Grammatikkontrollelement. Das Gram
matikkontrollelement speichert syntaktische und semantische
Beschränkungen, um ein Wort auszuschließen, wenn dieses
nicht im Grammatikkontrollelement registriert ist.
Ferner schließt das Grammatikkontrollelement eine Reihe von
Wörtern aus, wenn diese Reihe von Wörtern syntaktisch oder
semantisch falsch ist, wenn ein Vergleich mit den syntakti
schen und semantischen Einschränkungen erfolgt.
Das erfindungsgemäße Spracherkennungssystem sorgt für
Sprachmodelle, die Satzsysteme beschreiben, wie sie Benutzer
in das Spracherkennungssystem eingeben sollten.
Außerdem sorgt das erfindungsgemäße Spracherkennungssystem
für akustische Modelle, wie sie vorab mit einer Reihe von
Akustikparametern usw. gelernt werden.
Der Aufbau eines erfindungsgemäßen Spracherkennungssystems
wird nachfolgend unter Bezugnahme auf die Zeichnungen be
schrieben.
Fig. 1 ist ein Blockdiagramm eines erfindungsgemäßen Sprach
erkennungssystems.
Fig. 2 zeigt ein Beispiel von Sprachmodellen, wie sie beim
erfindungsgemäßen Spracherkennungssystem verwendet werden.
Fig. 3 zeigt ein Flußdiagramm für Erkennungsvorgänge beim
erfindungsgemäßen Spracherkennungssystem.
Das Spracherkennungssystem von Fig. 1 umfaßt ein Akustik
analyseelement 1, ein Erkennungsprozeßelement 2, ein Akus
tikmodellregister 3 und ein Sprachmodellregister 4 mit Gram
matikkontrollelement 5.
Der Akustikanalyseabschnitt 1 empfängt Sprachtonsignale A
und analysiert dieselben akustisch durch Beurteilen der
Zeitreihe akustischer Parameter der Sprachtonsignale A, wie
durch das Cepstrum- und/oder das Δ-Cepstrum-Verfahren. Dann
werden umgewandelte Daten an das Erkennungsprozeßelement 2
ausgegeben.
Cepstrumwerte werden durch umgekehrte Fouriertransformation
eines logarithmischen Spektrums erhalten. Ein Cepstrumwert
steht in linear-transformierter Beziehung zum logarithmi
schen Spektrum, das der menschlichen Hörcharakteristik ähn
lich ist. Unter Verwendung des Cepstrumwerts kann das
Spracherkennungssystem Sprachtonsignale entsprechend dem si
mulierten menschlichen Gehörsinn beurteilen. Koeffizienten
höherer Ordnung des Cepstrumwerts bedeuten einen Detailauf
bau eines Spektrums und Koeffizienten niedrigerer Ordnung
des Cepstrumwerts bedeuten die Einhüllende des Spektrums.
Durch Auswählen geeigneter Ordnungen kann dafür gesorgt wer
den, daß eine glatte Einhüllende erscheint, und zwar unter
Verwendung einer relativ kleinen Anzahl akustischer Parame
ter.
Der Δ-Cepstrum-Wert bedeutet die dynamische Charakteristik
eines Spektrums. Der Δ-Cepstrum-Wert ist die erste Ordnung
(erster Differentialkoeffizient) eines Polynoms, in das die
Zeitreihe der Cepstrumwerte im Bereich von innerhalb 50 ms
bis 100 ms entwickelt wird.
Der Erkennungsprozeßabschnitt 2 empfängt vom Akustikanaly
seelement 1 ausgegebene Daten und berechnet die statistische
Wahrscheinlichkeit einer Reihe akustischer Modelle B, wie
sie im Akustikmodellregister 3 abgespeichert sind, und zwar
aufgrund einer Beurteilung gemäß der Zeitreihe akustischer
Parameter, wie aus den Sprachtonsignalen A transformiert,
und dann wählt er die Reihe akustischer Modelle B mit der
höchsten Wahrscheinlichkeit aus. Das Erkennungsprozeßele
ment 2 beurteilt, ob die ausgewählte Reihe von Akustikmodel
len B Teil eines einzigen Satzes (Sprachmodelle C) ist, wie
im Sprachmodellregister 4 abgespeichert, wofür die Sprach
modelle C durch den Wortinhalt und die Grammatik des Gramma
tikkontrollelements 5 beschränkt sind. D. h., daß dann,
wenn ein neues Akustikmodell zur aktuell ausgewählten Reihe
von Akustikmodellen B hinzugefügt wird und keinerlei Ver
zweigungsreihe aufgefunden werden kann, die mit der aktuel
len Reihe von Akustikmodellen B verbindbar ist, eine derar
tige ausgewählte Reihe von Akustikmodellen B als Teil des
einzelnen, zu beurteilenden Satzes beurteilt wird. Obwohl
der Erkennungsprozeß ein Zwischenprozeß ist, gibt, wenn
der Erkennungsprozeßabschnitt 2 beurteilt, daß der ausge
wählte Satz der einzige Satz ist und er während der mehreren
aufeinanderfolgenden Rahmen die höchste Wahrscheinlichkeit
beibehält, dieser Erkennungsprozeßabschnitt 2 die ausge
wählten Sprachmodelle C als Erkennungsergebnis E aus.
Von einem Systembenutzer gesprochene Sätze werden vorab ge
mäß syntaktischen und semantischen Beschränkungen durch eine
Reihe akustischer Modelle B repräsentiert. Wenn ein Teil
einer Akustikmodellreihe B gemeinsam in mehreren Sätzen vor
liegt, ist der Teil der einen Akustikmodellreihe den mehre
ren Sätzen gemeinsam.
Akustikmodelle B werden dadurch im Akustikmodellregister 3
registriert, daß Zeitreihen von Akustikparametern gelernt
werden. Jedes Akustikmodell B wird gemäß dem HMM-Verfahren
oder dergleichen repräsentiert.
Das HMM-Verfahren ist ein solches zum Repräsentieren einer
spektralen Zeitreihe von Tonelementen (z. B. Phonemen) und
Wörtern in einem Stil von Ausgangssignalen aus Modellen zu
stochastischen Zustandsübergängen. Im allgemeinen wird ein
Tonelement durch wenige Zustände (z. B. drei Zustände) re
präsentiert. Jedes Tonelement und Wort zeichnet sich dadurch
aus, daß es Übergangswahrscheinlichkeiten zwischen Zustän
den und Ausgangswahrscheinlichkeiten verschiedener Tonele
mente und Wörter bei den Übergängen zwischen Zuständen re
präsentiert. Gemäß dem HMM-Verfahren kann eine Variation von
Sprachtonspektren statistisch repräsentiert werden.
Das Grammatikkontrollelement 5 schließt eine Reihe von Akus
tikmodellen B aus, die unter dem sprachlichen Gesichtspunkt
weder syntaktisch noch semantisch verständlich sind. Das
Grammatikkontrollelement 5 steht in Einklang mit Sprachmo
dellen C auf Grundlage des vorliegenden zu erkennenden Worts
oder Satzes.
Das Grammatikkontrollelement 5 verfügt über zwei Funktionen.
Die eine Funktion ist es, Wörter auszuschließen, die im Wör
terbuch nicht gespeichert sind. Das Wörterbuch enthält
Hauptwörter wie "Meer" und "Himmel", Adjektive wie "blau"
und "glücklich" und Verben wie "sein" und "machen". Eine
entsprechende Reihe von Akustikmodellen B wird im Eintrag
jedes im Wörterbuch aufgeführten Worts beschrieben.
Die andere Funktion besteht darin, ein akustisches Modell B
einzuschränken/auszuwählen, das auf Grundlage syntaktischer
und semantischer Gründe nicht mit der folgenden Reihe von
Akustikmodellen verbunden werden kann. Z.B. wird die Kombi
nation der Wörter: "Dies ist ein blauer Himmel." nicht aus
geschlossen, da die Kombination syntaktisch korrekt ist.
Dagegen wird die Kombination der Wörter "Dies ist blau ein
Himmel." ausgeschlossen, da diese Kombination syntaktisch
falsch ist, obwohl alle Wörter im Wörterbuch aufgeführt
sind.
Fig. 3 zeigt ein Flußdiagramm des erfindungsgemäßen Sprach
erkennungssystems.
Wenn Sprachtonsignale in den Akustikanalyseabschnitt 1 ein
gegeben werden (Schritt S1), werden die eingegebenen Sprach
tonsignale A in digitale Signale umgesetzt, und diese digi
talen Signale werden in eine Zeitreihe von Akustikparametern
wie den Cepstrumwert, den Δ-Cepstrum-Wert, gemäß der Akus
tikanalyse umgesetzt (Schritt S2).
Das Erkennungsprozeßelement 2 berechnet die statistischen
Wahrscheinlichkeiten repräsentativer Reihen von Akustikmo
dellen B unter Beurteilung der zeitlichen Reihe der Akustik
parameter der eingegebenen Sprachtonsignale A (Schritt S3).
Der Erkennungsprozeßabschnitt 2 beurteilt, ob die Reihe der
Akustikmodelle B mit der höchsten Wahrscheinlichkeit Teil
eines einzigen Satzes im Sprachmodellregister 4 ist, und
zwar durch Vergleichen der Reihe der Akustikmodelle B und
der Sprachmodelle C, wie durch das Grammatikkontrollelement
5 (Wörterbuch, Grammatik) beschränkt (Schritt S4).
Solange der Spracherkennungsabschnitt 2 beurteilt, daß die
Vergleichsreihe der Akustikmodelle B einen einzigen Satz
darstellt, werden die statistischen Wahrscheinlichkeiten der
Reihe akustischer Modelle B, wie im Akustikmodellregister 3
repräsentiert, wiederholt in der Reihenfolge der Zeitreihe
der Akustikparameter der eingegebenen Sprachtonsignale A be
rechnet (Rückkehr zum Schritt S3).
Wenn der Erkennungsprozeßabschnitt 2 beurteilt, daß die
verglichene Reihe von Akustikmodellen B ein Teil eines ein
zigen Satzes ist, hat die Vergleichsreihe der Sprachmodelle
C während der mehreren aufeinanderfolgenden Rahmen (unten
beschrieben) die höchste Wahrscheinlichkeit, und das Erkennungsprozeßelement
2 gibt ein Erkennungsergebnis E aus
(Schritt S5).
Nun wird unter Bezugnahme auf Fig. 1 die Funktion des Aus
führungsbeispiels der Erfindung beschrieben.
- (1) Das Akustikanalyseelement 1 setzt die eingegebenen Sprachtonsignale A für jede vorbestimmte Zeitperiode in Cha rakteristikvektoren um. Eine vorbestimmte Zeitperiode wird als Rahmen bezeichnet, und sie hat im allgemeinen eine Dauer von 1 bis 19 ms. Der Charakteristikvektor entspricht den Akustikparametern.
- (2) Hinsichtlich einer Reihe von Charakteristikvektoren wer den die statistischen Wahrscheinlichkeiten von Akustikmodel len B berechnet. Die Akustikmodelle B sind Gesamtheiten von Wörtern oder Unterworteinheiten, wie Phonemen. Diese Akus tikmodelle B werden vorab unter Verwendung einer großen An zahl gelernter Tonsignale gelernt. Um statistische Wahr scheinlichkeiten der Akustikmodelle B zu berechnen, wird das HMM-Verfahren verwendet.
- (3) Ein folgendes Akustikmodell B, das mit einer Reihe von Akustikmodellen B verbunden werden kann, wird durch das Grammatikkontrollelement 5 mit Wörterbuch und Grammatik be schränkt. Sprachmodelle C, wie sie den untersuchten Wörtern und Sätzen, wie sie zu erkennen sind, entsprechen, werden durch das Grammatikkontrollelement 5 aufgezählt und kontrol liert. Wie es in Fig. 2 dargestellt ist, sieht das Sprach modell C wie ein Baum aus.
- (4) Das Erkennungsprozeßelement 2 berechnet die statisti sche Wahrscheinlichkeit eines folgenden Akustikmodells B, wie für jeden Rahmen durch ein Sprachmodell C angeführt. Das Erkennungsprozeßelement 2 berechnet für den ersten Rahmen die statistischen Wahrscheinlichkeiten aller Akustikmodelle B. Nachfolgend werden die Sprachmodelle C, für die die sta tistischen Wahrscheinlichkeiten einen höheren Rang aufweisen (Position 1 bis Position N) kontinuierlich berechnet, um ein Akustikmodell B zu erhalten, das mit der Reihe der aktuellen Akustikmodelle B verbunden werden kann.
- (5) Wenn die Reihe der Akustikmodelle B mit der höchsten an gesammelten Wahrscheinlichkeit ein Teil eines einzigen Sat zes im Sprachmodellregister C während mehrerer aufeinander folgender Rahmen ist, wird der untersuchte Satz, der die Reihe der Akustikmodelle enthält, als Erkennungsergebnis E bestimmt.
Gemäß dem Ausführungsbeispiel der Erfindung kann im Fall
einer Anwendung auf "Ländername oder Städtename" und "Prädi
kat" die mittlere Erkennungszeit von 1,74 Sekunden auf 1,20
Sekunden um 30% verkürzt werden, ohne daß eine Beeinträch
tigung der Erkennungsgenauigkeit vorliegt.
Als Beispiel wird der Fall der Erkennung von "Ländername"
und "Prädikat" erläutert.
Für diesen Fall werden die folgenden Prädikate (i) und (ii)
angenommen:
- (i) isn′t it?
- (ii) right?
Wenn Sprachtonsignale A "That′s Australia, right?" eingege
ben werden, werden die folgenden Sätze in spitzen Klammern
<1<, <2< und <3< als Kandidaten mit höherer Wahrscheinlich
keit durch Tonerkennung aufeinanderfolgend ausgegeben:
- <1< Australia right,
- <2< Austria right, und
- <3< Austin right.
Fig. 2 zeigt Sprachmodelle C zu diesen Kandidaten. Betref
fend den Ländernamen werden "Australia", wie tatsächlich ge
sprochen, und "Austria", für das die Sprechweise ähnlich zu
"Australia" ist, als Kandidaten ausgegeben. Ferner wird als
einer der Kandidaten auch "Austin", der Name einer Stadt in
Texas, ausgegeben.
Eine Ermittlung, daß ein Sprachmodell C einem einzigen
Wort/Satz entspricht, wird nicht immer in dem Moment gespro
chen, in dem das Ende der eingegebenen Sprachtonsignale er
kannt wird, sondern es kann eine Beurteilung zu jedem belie
bigen Moment erfolgen, bevor das Ende der eingegebenen
Sprachtonsignale erkannt wird.
Z.B. ist, wenn die statistischen Wahrscheinlichkeiten der
Akustikmodelle B, "Aust [s:st]", berechnet werden, die sta
tistische Wahrscheinlichkeit von "ra [rei]" für "Australia"
höher als die von "ri [ri]" für "Austria". Wenn sich im Wör
terbuch des Grammatikkontrollelements 5 außer "Australia"
keine anderen Wörter nach dem Berechnen der statistischen
Wahrscheinlichkeit der Reihe der Akustikmodelle zu "Austra"
befinden, wird "Australia" als Erkennungsergebnis E ausgege
ben, und die folgenden Berechnungen werden weggelassen.
Wie oben beschrieben, kann bei der Erfindung, während die
statistische Wahrscheinlichkeit mit einer Reihe von Akustik
modellen berechnet wird, ein Erkennungsergebnis ermittelt
werden, wenn durch ein Grammatikkontrollelement ausgewählte
Sprachmodelle einen einzigen Satz anzeigen. Daher werden re
dundante Berechnungen weggelassen. Die erforderliche Menge
an Berechnungen für den Erkennungsvorgang kann verringert
werden, was die Erkennungszeit verkürzt, ohne daß die Er
kennungsgenauigkeit beeinträchtigt wird. Die Mensch/Maschi
ne-Schnittstelle läßt sich unter Verwendung eines erfin
dungsgemäßen Spracherkennungssystems verbessern.
Claims (5)
1. Spracherkennungsverfahren bei einem Spracherkennungs
system mit einem Sprachmodellregister zum Registrieren meh
rerer Sprachmodelle, wobei mehrere Reihen von Akustikmodel
len vorab unter Verwendung von Sprachbeschränkungen regis
triert werden, gekennzeichnet durch folgende Schritte:
- - Berechnen statistischer Wahrscheinlichkeiten einer Reihe von Akustikmodellen und
- - Ermitteln eines Erkennungsergebnisses, wenn erfaßte Sprachmodelle durch Sprachbeschränkungen beschränkt sind und nur einen einzigen Satz anzeigen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die Sprachbeschränkungen Wörter ausschließen, die nicht vor
ab im Sprachmodellregister registriert wurden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
die Sprachbeschränkungen eine Reihe von Wörtern ausschlie
ßen, die grammatikalisch falsch ist.
4. Verfahren nach einem der vorstehenden Ansprüche, da
durch gekennzeichnet, daß das Sprachmodellregister mehrere
Sätze einspeichert, für die angenommen wird, daß sie von
einem Systembenutzer gesprochen werden.
5. Spracherkennungsverfahren nach einem der vorstehenden
Ansprüche, dadurch gekennzeichnet, daß die mehreren Reihen
von Akustikmodellen vorab dadurch erzeugt werden, daß Zeit
reihen mehrerer Akustikmodelle gelernt werden.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34016395A JP3535292B2 (ja) | 1995-12-27 | 1995-12-27 | 音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19654549A1 true DE19654549A1 (de) | 1997-07-03 |
DE19654549C2 DE19654549C2 (de) | 2000-08-10 |
Family
ID=18334338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19654549A Expired - Fee Related DE19654549C2 (de) | 1995-12-27 | 1996-12-27 | Verfahren und Vorrichtung zur Spracherkennung |
Country Status (3)
Country | Link |
---|---|
US (1) | US5875425A (de) |
JP (1) | JP3535292B2 (de) |
DE (1) | DE19654549C2 (de) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
EP1294329A4 (de) * | 2000-04-20 | 2004-03-31 | Cochlear Ltd | Optimierter transkutaner energiekreislauf |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
EP1595245B1 (de) * | 2003-02-21 | 2009-04-22 | Voice Signal Technologies Inc. | Verfahren zum produzieren abwechselnder äusserungshypothesen unter verwendung von hilfsinformationen bezüglich nahen konkurrenten |
WO2005027093A1 (en) * | 2003-09-11 | 2005-03-24 | Voice Signal Technologies, Inc. | Generation of an alternative pronunciation |
JP4486897B2 (ja) * | 2005-01-20 | 2010-06-23 | 株式会社豊田中央研究所 | 運転行動認識装置 |
US20070183995A1 (en) * | 2006-02-09 | 2007-08-09 | Conopco, Inc., D/B/A Unilever | Compounds useful as agonists of A2A adenosine receptors, cosmetic compositions with A2A agonists and a method for using the same |
US8036896B2 (en) * | 2006-04-18 | 2011-10-11 | Nuance Communications, Inc. | System, server and method for distributed literacy and language skill instruction |
JP4518141B2 (ja) | 2007-12-17 | 2010-08-04 | 日本電気株式会社 | 画像照合方法及び画像照合装置並びに画像照合プログラム |
JP6791258B2 (ja) * | 2016-11-07 | 2020-11-25 | ヤマハ株式会社 | 音声合成方法、音声合成装置およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3711348A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58178396A (ja) * | 1982-04-12 | 1983-10-19 | 株式会社日立製作所 | 音声認識用標準パタ−ン登録方式 |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
-
1995
- 1995-12-27 JP JP34016395A patent/JP3535292B2/ja not_active Expired - Lifetime
-
1996
- 1996-12-23 US US08/772,987 patent/US5875425A/en not_active Expired - Fee Related
- 1996-12-27 DE DE19654549A patent/DE19654549C2/de not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3711348A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
Also Published As
Publication number | Publication date |
---|---|
DE19654549C2 (de) | 2000-08-10 |
US5875425A (en) | 1999-02-23 |
JP3535292B2 (ja) | 2004-06-07 |
JPH09179581A (ja) | 1997-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
EP0925579B1 (de) | Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem | |
DE60026637T2 (de) | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems | |
DE69327188T2 (de) | Einrichtung für automatische Spracherkennung | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
DE69725106T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE60115738T2 (de) | Sprachmodelle für die Spracherkennung | |
EP0925461B1 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
DE69823954T2 (de) | Quellen-normalisierendes Training zur Sprachmodellierung | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE10306599B4 (de) | Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache | |
DE19510083C2 (de) | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE69819438T2 (de) | Verfahren zur Spracherkennung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
DE19654549C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE60128372T2 (de) | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem | |
DE10119284A1 (de) | Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE112006000225B4 (de) | Dialogsystem und Dialogsoftware |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |