DE19654549A1

DE19654549A1 - Verfahren und System zur Spracherkennung

Info

Publication number: DE19654549A1
Application number: DE19654549A
Authority: DE
Inventors: Makoto Nakamura; Naomi Inoue; Fumihiro Yato; Seiichi Yamamoto
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1995-12-27
Filing date: 1996-12-27
Publication date: 1997-07-03
Anticipated expiration: 2016-12-28
Also published as: DE19654549C2; US5875425A; JP3535292B2; JPH09179581A

Description

Die Erfindung betrifft ein Verfahren und ein System zur Spracherkennung, insbesondere ein Spracherkennungssystem zum Verringern des Umfangs erforderlicher Berechnungen zum Ver kürzen der Erkennungsdauer ohne Verringerung der Genauigkeit bei der Erkennung.

Im allgemeinen werden Spracherkennungstechniken zum Analy sieren des Inhalts von von einer Person gesprochenen Sätzen, genauer gesagt zum Verstehen, was eine Person sagt, verwen det. Hinsichtlich Spracherkennungstechniken dauern verschie dene Forschungsvorhaben seit ca. 1950 an. In jüngerer Zeit wurden die Erkennungsmöglichkeiten durch die Entwicklung von Techniken wie dem Markov-Modell mit verborgener Information, dem Cepstrum- und dem Δ-Cepstrum-Verfahren deutlich verbes sert.

Bei herkömmlichen Spracherkennungssystemen werden statisti sche Wahrscheinlichkeiten akustischer Reihen vom Anfang bis zum Ende berechnet. Beim Berechnen der Wahrscheinlichkeit des letzten akustischen Modells wird der Satz mit der größ ten Wahrscheinlichkeit ausgewählt. Dann wird der erfaßte Satz mit der größten Wahrscheinlichkeit als Erkennungsergeb nis ausgegeben.

D. h., daß beim herkömmlichen Spracherkennungssystem der Anfang und das Ende der eingegebenen Sprachtöne abhängig von der Stärke (Tonpegel) der eingegebenen Sprachtöne erfaßt werden. Statistische Wahrscheinlichkeiten werden mittels der Länge der erfaßten Sprache berechnet, um denjenigen Satz auszuwählen, für den die angesammelte statistische Wahr scheinlichkeit die höchste ist. Dann wird der ausgewählte Satz als Erkennungsergebnis ausgegeben.

Wenn unter den obigen Bedingungen das Ende der erfaßten Tonsignale unklar oder redundant ist oder wenn der Tonpegel am Ende der erkannten Sprachsignale unzureichend ist, ver ringert sich die Genauigkeitsrate bei der Erkennung. Ferner wird, solange nicht das Ende der eingegebenen Sprachsignale nach dem Sprechen eines Worts oder eines Satzes, wofür eine Erkennung ausgeführt werden soll, erkannt wird, die Auswahl Erkennung fortgesetzt, bis das Ende der eingegebenen Sprach signale erkannt wird. Daher wird zur Erkennung zu viel Zeit aufgewandt.

Wie oben beschrieben, ist bei herkömmlichen Spracherken nungssystemen die Erkennungsgeschwindigkeit relativ langsam, und die Genauigkeitsrate betreffend die Erkennung ist rela tiv niedrig.

Der Erfindung liegt die Aufgabe zugrunde, ein System und ein Verfahren zur Spracherkennung zu schaffen, durch die die Menge erforderlicher Berechnungen verringerbar ist und die Erkennungsperiode verkürzbar ist, ohne daß die Erkennungs genauigkeit abnimmt.

Die Erfindung schafft ein Spracherkennungssystem unter Ver wendung akustischer Modelle, wobei statistische Wahrschein lichkeiten von Sprachtonsignalen, wie durch das Spracherken nungssystem erfaßt, berechnet werden und schließlich die Berechnungen beendet werden und ein Erkennungsergebnis durch ein Sprachmodell ausgedrückt wird.

Das erfindungsgemäße Spracherkennungssystem verfügt über ein Sprachmodellregister mit Grammatikkontrollelement. Das Gram matikkontrollelement speichert syntaktische und semantische Beschränkungen, um ein Wort auszuschließen, wenn dieses nicht im Grammatikkontrollelement registriert ist.

Ferner schließt das Grammatikkontrollelement eine Reihe von Wörtern aus, wenn diese Reihe von Wörtern syntaktisch oder semantisch falsch ist, wenn ein Vergleich mit den syntakti schen und semantischen Einschränkungen erfolgt.

Das erfindungsgemäße Spracherkennungssystem sorgt für Sprachmodelle, die Satzsysteme beschreiben, wie sie Benutzer in das Spracherkennungssystem eingeben sollten.

Außerdem sorgt das erfindungsgemäße Spracherkennungssystem für akustische Modelle, wie sie vorab mit einer Reihe von Akustikparametern usw. gelernt werden.

Der Aufbau eines erfindungsgemäßen Spracherkennungssystems wird nachfolgend unter Bezugnahme auf die Zeichnungen be schrieben.

Fig. 1 ist ein Blockdiagramm eines erfindungsgemäßen Sprach erkennungssystems.

Fig. 2 zeigt ein Beispiel von Sprachmodellen, wie sie beim erfindungsgemäßen Spracherkennungssystem verwendet werden.

Fig. 3 zeigt ein Flußdiagramm für Erkennungsvorgänge beim erfindungsgemäßen Spracherkennungssystem.

Das Spracherkennungssystem von Fig. 1 umfaßt ein Akustik analyseelement 1, ein Erkennungsprozeßelement 2, ein Akus tikmodellregister 3 und ein Sprachmodellregister 4 mit Gram matikkontrollelement 5.

Der Akustikanalyseabschnitt 1 empfängt Sprachtonsignale A und analysiert dieselben akustisch durch Beurteilen der Zeitreihe akustischer Parameter der Sprachtonsignale A, wie durch das Cepstrum- und/oder das Δ-Cepstrum-Verfahren. Dann werden umgewandelte Daten an das Erkennungsprozeßelement 2 ausgegeben.

Cepstrumwerte werden durch umgekehrte Fouriertransformation eines logarithmischen Spektrums erhalten. Ein Cepstrumwert steht in linear-transformierter Beziehung zum logarithmi schen Spektrum, das der menschlichen Hörcharakteristik ähn lich ist. Unter Verwendung des Cepstrumwerts kann das Spracherkennungssystem Sprachtonsignale entsprechend dem si mulierten menschlichen Gehörsinn beurteilen. Koeffizienten höherer Ordnung des Cepstrumwerts bedeuten einen Detailauf bau eines Spektrums und Koeffizienten niedrigerer Ordnung des Cepstrumwerts bedeuten die Einhüllende des Spektrums. Durch Auswählen geeigneter Ordnungen kann dafür gesorgt wer den, daß eine glatte Einhüllende erscheint, und zwar unter Verwendung einer relativ kleinen Anzahl akustischer Parame ter.

Der Δ-Cepstrum-Wert bedeutet die dynamische Charakteristik eines Spektrums. Der Δ-Cepstrum-Wert ist die erste Ordnung (erster Differentialkoeffizient) eines Polynoms, in das die Zeitreihe der Cepstrumwerte im Bereich von innerhalb 50 ms bis 100 ms entwickelt wird.

Der Erkennungsprozeßabschnitt 2 empfängt vom Akustikanaly seelement 1 ausgegebene Daten und berechnet die statistische Wahrscheinlichkeit einer Reihe akustischer Modelle B, wie sie im Akustikmodellregister 3 abgespeichert sind, und zwar aufgrund einer Beurteilung gemäß der Zeitreihe akustischer Parameter, wie aus den Sprachtonsignalen A transformiert, und dann wählt er die Reihe akustischer Modelle B mit der höchsten Wahrscheinlichkeit aus. Das Erkennungsprozeßele ment 2 beurteilt, ob die ausgewählte Reihe von Akustikmodel len B Teil eines einzigen Satzes (Sprachmodelle C) ist, wie im Sprachmodellregister 4 abgespeichert, wofür die Sprach modelle C durch den Wortinhalt und die Grammatik des Gramma tikkontrollelements 5 beschränkt sind. D. h., daß dann, wenn ein neues Akustikmodell zur aktuell ausgewählten Reihe von Akustikmodellen B hinzugefügt wird und keinerlei Ver zweigungsreihe aufgefunden werden kann, die mit der aktuel len Reihe von Akustikmodellen B verbindbar ist, eine derar tige ausgewählte Reihe von Akustikmodellen B als Teil des einzelnen, zu beurteilenden Satzes beurteilt wird. Obwohl der Erkennungsprozeß ein Zwischenprozeß ist, gibt, wenn der Erkennungsprozeßabschnitt 2 beurteilt, daß der ausge wählte Satz der einzige Satz ist und er während der mehreren aufeinanderfolgenden Rahmen die höchste Wahrscheinlichkeit beibehält, dieser Erkennungsprozeßabschnitt 2 die ausge wählten Sprachmodelle C als Erkennungsergebnis E aus.

Von einem Systembenutzer gesprochene Sätze werden vorab ge mäß syntaktischen und semantischen Beschränkungen durch eine Reihe akustischer Modelle B repräsentiert. Wenn ein Teil einer Akustikmodellreihe B gemeinsam in mehreren Sätzen vor liegt, ist der Teil der einen Akustikmodellreihe den mehre ren Sätzen gemeinsam.

Akustikmodelle B werden dadurch im Akustikmodellregister 3 registriert, daß Zeitreihen von Akustikparametern gelernt werden. Jedes Akustikmodell B wird gemäß dem HMM-Verfahren oder dergleichen repräsentiert.

Das HMM-Verfahren ist ein solches zum Repräsentieren einer spektralen Zeitreihe von Tonelementen (z. B. Phonemen) und Wörtern in einem Stil von Ausgangssignalen aus Modellen zu stochastischen Zustandsübergängen. Im allgemeinen wird ein Tonelement durch wenige Zustände (z. B. drei Zustände) re präsentiert. Jedes Tonelement und Wort zeichnet sich dadurch aus, daß es Übergangswahrscheinlichkeiten zwischen Zustän den und Ausgangswahrscheinlichkeiten verschiedener Tonele mente und Wörter bei den Übergängen zwischen Zuständen re präsentiert. Gemäß dem HMM-Verfahren kann eine Variation von Sprachtonspektren statistisch repräsentiert werden.

Das Grammatikkontrollelement 5 schließt eine Reihe von Akus tikmodellen B aus, die unter dem sprachlichen Gesichtspunkt weder syntaktisch noch semantisch verständlich sind. Das Grammatikkontrollelement 5 steht in Einklang mit Sprachmo dellen C auf Grundlage des vorliegenden zu erkennenden Worts oder Satzes.

Das Grammatikkontrollelement 5 verfügt über zwei Funktionen.

Die eine Funktion ist es, Wörter auszuschließen, die im Wör terbuch nicht gespeichert sind. Das Wörterbuch enthält Hauptwörter wie "Meer" und "Himmel", Adjektive wie "blau" und "glücklich" und Verben wie "sein" und "machen". Eine entsprechende Reihe von Akustikmodellen B wird im Eintrag jedes im Wörterbuch aufgeführten Worts beschrieben.

Die andere Funktion besteht darin, ein akustisches Modell B einzuschränken/auszuwählen, das auf Grundlage syntaktischer und semantischer Gründe nicht mit der folgenden Reihe von Akustikmodellen verbunden werden kann. Z.B. wird die Kombi nation der Wörter: "Dies ist ein blauer Himmel." nicht aus geschlossen, da die Kombination syntaktisch korrekt ist. Dagegen wird die Kombination der Wörter "Dies ist blau ein Himmel." ausgeschlossen, da diese Kombination syntaktisch falsch ist, obwohl alle Wörter im Wörterbuch aufgeführt sind.

Fig. 3 zeigt ein Flußdiagramm des erfindungsgemäßen Sprach erkennungssystems.

Wenn Sprachtonsignale in den Akustikanalyseabschnitt 1 ein gegeben werden (Schritt S1), werden die eingegebenen Sprach tonsignale A in digitale Signale umgesetzt, und diese digi talen Signale werden in eine Zeitreihe von Akustikparametern wie den Cepstrumwert, den Δ-Cepstrum-Wert, gemäß der Akus tikanalyse umgesetzt (Schritt S2).

Das Erkennungsprozeßelement 2 berechnet die statistischen Wahrscheinlichkeiten repräsentativer Reihen von Akustikmo dellen B unter Beurteilung der zeitlichen Reihe der Akustik parameter der eingegebenen Sprachtonsignale A (Schritt S3).

Der Erkennungsprozeßabschnitt 2 beurteilt, ob die Reihe der Akustikmodelle B mit der höchsten Wahrscheinlichkeit Teil eines einzigen Satzes im Sprachmodellregister 4 ist, und zwar durch Vergleichen der Reihe der Akustikmodelle B und der Sprachmodelle C, wie durch das Grammatikkontrollelement 5 (Wörterbuch, Grammatik) beschränkt (Schritt S4).

Solange der Spracherkennungsabschnitt 2 beurteilt, daß die Vergleichsreihe der Akustikmodelle B einen einzigen Satz darstellt, werden die statistischen Wahrscheinlichkeiten der Reihe akustischer Modelle B, wie im Akustikmodellregister 3 repräsentiert, wiederholt in der Reihenfolge der Zeitreihe der Akustikparameter der eingegebenen Sprachtonsignale A be rechnet (Rückkehr zum Schritt S3).

Wenn der Erkennungsprozeßabschnitt 2 beurteilt, daß die verglichene Reihe von Akustikmodellen B ein Teil eines ein zigen Satzes ist, hat die Vergleichsreihe der Sprachmodelle C während der mehreren aufeinanderfolgenden Rahmen (unten beschrieben) die höchste Wahrscheinlichkeit, und das Erkennungsprozeßelement 2 gibt ein Erkennungsergebnis E aus (Schritt S5).

Nun wird unter Bezugnahme auf Fig. 1 die Funktion des Aus führungsbeispiels der Erfindung beschrieben.

(1) Das Akustikanalyseelement 1 setzt die eingegebenen Sprachtonsignale A für jede vorbestimmte Zeitperiode in Cha rakteristikvektoren um. Eine vorbestimmte Zeitperiode wird als Rahmen bezeichnet, und sie hat im allgemeinen eine Dauer von 1 bis 19 ms. Der Charakteristikvektor entspricht den Akustikparametern.
(2) Hinsichtlich einer Reihe von Charakteristikvektoren wer den die statistischen Wahrscheinlichkeiten von Akustikmodel len B berechnet. Die Akustikmodelle B sind Gesamtheiten von Wörtern oder Unterworteinheiten, wie Phonemen. Diese Akus tikmodelle B werden vorab unter Verwendung einer großen An zahl gelernter Tonsignale gelernt. Um statistische Wahr scheinlichkeiten der Akustikmodelle B zu berechnen, wird das HMM-Verfahren verwendet.
(3) Ein folgendes Akustikmodell B, das mit einer Reihe von Akustikmodellen B verbunden werden kann, wird durch das Grammatikkontrollelement 5 mit Wörterbuch und Grammatik be schränkt. Sprachmodelle C, wie sie den untersuchten Wörtern und Sätzen, wie sie zu erkennen sind, entsprechen, werden durch das Grammatikkontrollelement 5 aufgezählt und kontrol liert. Wie es in Fig. 2 dargestellt ist, sieht das Sprach modell C wie ein Baum aus.
(4) Das Erkennungsprozeßelement 2 berechnet die statisti sche Wahrscheinlichkeit eines folgenden Akustikmodells B, wie für jeden Rahmen durch ein Sprachmodell C angeführt. Das Erkennungsprozeßelement 2 berechnet für den ersten Rahmen die statistischen Wahrscheinlichkeiten aller Akustikmodelle B. Nachfolgend werden die Sprachmodelle C, für die die sta tistischen Wahrscheinlichkeiten einen höheren Rang aufweisen (Position 1 bis Position N) kontinuierlich berechnet, um ein Akustikmodell B zu erhalten, das mit der Reihe der aktuellen Akustikmodelle B verbunden werden kann.
(5) Wenn die Reihe der Akustikmodelle B mit der höchsten an gesammelten Wahrscheinlichkeit ein Teil eines einzigen Sat zes im Sprachmodellregister C während mehrerer aufeinander folgender Rahmen ist, wird der untersuchte Satz, der die Reihe der Akustikmodelle enthält, als Erkennungsergebnis E bestimmt.

Gemäß dem Ausführungsbeispiel der Erfindung kann im Fall einer Anwendung auf "Ländername oder Städtename" und "Prädi kat" die mittlere Erkennungszeit von 1,74 Sekunden auf 1,20 Sekunden um 30% verkürzt werden, ohne daß eine Beeinträch tigung der Erkennungsgenauigkeit vorliegt.

Als Beispiel wird der Fall der Erkennung von "Ländername" und "Prädikat" erläutert.

Für diesen Fall werden die folgenden Prädikate (i) und (ii) angenommen:

(i) isn′t it?
(ii) right?

Wenn Sprachtonsignale A "That′s Australia, right?" eingege ben werden, werden die folgenden Sätze in spitzen Klammern <1<, <2< und <3< als Kandidaten mit höherer Wahrscheinlich keit durch Tonerkennung aufeinanderfolgend ausgegeben:

<1< Australia right,
<2< Austria right, und
<3< Austin right.

Fig. 2 zeigt Sprachmodelle C zu diesen Kandidaten. Betref fend den Ländernamen werden "Australia", wie tatsächlich ge sprochen, und "Austria", für das die Sprechweise ähnlich zu "Australia" ist, als Kandidaten ausgegeben. Ferner wird als einer der Kandidaten auch "Austin", der Name einer Stadt in Texas, ausgegeben.

Eine Ermittlung, daß ein Sprachmodell C einem einzigen Wort/Satz entspricht, wird nicht immer in dem Moment gespro chen, in dem das Ende der eingegebenen Sprachtonsignale er kannt wird, sondern es kann eine Beurteilung zu jedem belie bigen Moment erfolgen, bevor das Ende der eingegebenen Sprachtonsignale erkannt wird.

Z.B. ist, wenn die statistischen Wahrscheinlichkeiten der Akustikmodelle B, "Aust [s:st]", berechnet werden, die sta tistische Wahrscheinlichkeit von "ra [rei]" für "Australia" höher als die von "ri [ri]" für "Austria". Wenn sich im Wör terbuch des Grammatikkontrollelements 5 außer "Australia" keine anderen Wörter nach dem Berechnen der statistischen Wahrscheinlichkeit der Reihe der Akustikmodelle zu "Austra" befinden, wird "Australia" als Erkennungsergebnis E ausgege ben, und die folgenden Berechnungen werden weggelassen.

Wie oben beschrieben, kann bei der Erfindung, während die statistische Wahrscheinlichkeit mit einer Reihe von Akustik modellen berechnet wird, ein Erkennungsergebnis ermittelt werden, wenn durch ein Grammatikkontrollelement ausgewählte Sprachmodelle einen einzigen Satz anzeigen. Daher werden re dundante Berechnungen weggelassen. Die erforderliche Menge an Berechnungen für den Erkennungsvorgang kann verringert werden, was die Erkennungszeit verkürzt, ohne daß die Er kennungsgenauigkeit beeinträchtigt wird. Die Mensch/Maschi ne-Schnittstelle läßt sich unter Verwendung eines erfin dungsgemäßen Spracherkennungssystems verbessern.

Claims

1. Spracherkennungsverfahren bei einem Spracherkennungs system mit einem Sprachmodellregister zum Registrieren meh rerer Sprachmodelle, wobei mehrere Reihen von Akustikmodel len vorab unter Verwendung von Sprachbeschränkungen regis triert werden, gekennzeichnet durch folgende Schritte:

- Berechnen statistischer Wahrscheinlichkeiten einer Reihe von Akustikmodellen und
- Ermitteln eines Erkennungsergebnisses, wenn erfaßte Sprachmodelle durch Sprachbeschränkungen beschränkt sind und nur einen einzigen Satz anzeigen.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Sprachbeschränkungen Wörter ausschließen, die nicht vor ab im Sprachmodellregister registriert wurden.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Sprachbeschränkungen eine Reihe von Wörtern ausschlie ßen, die grammatikalisch falsch ist.

4. Verfahren nach einem der vorstehenden Ansprüche, da durch gekennzeichnet, daß das Sprachmodellregister mehrere Sätze einspeichert, für die angenommen wird, daß sie von einem Systembenutzer gesprochen werden.

5. Spracherkennungsverfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß die mehreren Reihen von Akustikmodellen vorab dadurch erzeugt werden, daß Zeit reihen mehrerer Akustikmodelle gelernt werden.