DE19654549C2

DE19654549C2 - Verfahren und Vorrichtung zur Spracherkennung

Info

Publication number: DE19654549C2
Application number: DE19654549A
Authority: DE
Inventors: Makoto Nakamura; Naomi Inoue; Fumihiro Yato; Seiichi Yamamoto
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1995-12-27
Filing date: 1996-12-27
Publication date: 2000-08-10
Anticipated expiration: 2016-12-28
Also published as: DE19654549A1; JP3535292B2; US5875425A; JPH09179581A

Description

Spracherkennungstechniken dienen zum Analysieren des Inhalts von gesprochenen Sätzen, genauer gesagt zum Verstehen, was eine Person sagt. Hinsichtlich der Spracherkennung laufen verschiedene Forschungsvorha ben seit ca. 1950. In jüngerer Zeit wurden die Erkennungsmöglichkeiten durch die Entwicklung von Techniken wie dem Markov-Modell mit verbor gener Information, dem Cepstrum- und dem Δ-Cepstrum-Verfahren deutlich verbessert.

Bei herkömmlichen Spracherkennungsverfahren, wie sie aus DE 41 30 632 A1 und DE 37 11 348 A1 bekannt sind, werden statistische Wahrscheinlichkeiten akustischer Reihen vom Anfang bis zum Ende be rechnet. Beim Berechnen der Wahrscheinlichkeit des letzten akustischen Modells wird der Satz mit der größten Wahrscheinlichkeit ausgewählt. Dann wird der erfaßte Satz mit der größten Wahrscheinlichkeit als Erken nungsergebnis ausgegeben.

Das heißt, daß bei der herkömmlichen Spracherkennung der Anfang und das Ende der eingegebenen Sprachtöne abhängig von der Stärke (Ton pegel) der eingegebenen Sprachtöne erfaßt werden. Statistische Wahr scheinlichkeiten werden mittels der Länge der erfaßten Sprache berechnet, um denjenigen Satz auszuwählen, für den die angesammelte statistische Wahrscheinlichkeit am höchsten ist. Dann wird der ausgewählte Satz als Erkennungsergebnis ausgegeben.

Wenn unter den obigen Bedingungen das Ende der erfaßten Tonsi gnale unklar oder redundant oder der Tonpegel am Ende der erkannten Sprachsignale unzureichend ist, verringert sich die Genauigkeit der Erken nung. Ferner wird, solange nicht das Ende der eingegebenen Sprachsignale nach dem Sprechen eines Worts oder eines Satzes, wofür eine Erkennung ausgeführt werden soll, erkannt wird, die Auswahl/Erkennung fortgesetzt, bis das Ende der eingegebenen Sprachsignale erkannt wird. Daher wird sehr viel Zeit zur Erkennung aufgewandt.

Wie oben beschrieben, ist bei der herkömmlichen Spracherkennung die Erkennungsgeschwindigkeit relativ langsam und die Genauigkeit der Erkennung relativ niedrig.

Der Erfindung liegt die Aufgabe zugrunde, die Menge erforderlicher Berechnungen bei der Spracherkennung zu verringern und die Erken nungsperiode zu verkürzen, ohne die Erkennungsgenauigkeit zu beein trächtigen.

Die erfindungsgemäße Lösung dieser Aufgabe ist in den Ansprüchen 1 und 10 angegeben. Danach erfolgt die Spracherkennung unter Verwen dung von Akustikmodellen, wobei statistische Wahrscheinlichkeiten der er faßten Sprachtonsignale berechnet werden und das Erkennungsergebnis durch ein Sprachmodell ausgedrückt wird.

Vorzugsweise ist in einem Sprachmodellregister ein Grammatikprüf element vorgesehen, das syntaktische und semantische Beschränkungen speichert, um ein Wort auszuschließen, wenn es im Grammatikprüfelement nicht registriert ist. Ferner schließt das Grammatikprüfelement eine Wort folge aus, wenn sie sich beim Vergleich mit syntaktischen und semantischen Beschränkungen als syntaktisch oder semantisch falsch herausstellt. Die verwendeten Sprachmodelle beschreiben vom Benutzer in die Spracher kennungsvorrichtung eingegebene Satzsysteme. Die Akustikmodelle wer den von der Spracherkennungsvorrichtung vorab mit einer Reihe von Aku stikparametern usw. gelernt.

Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der Zeichnungen näher erläutert; darin zeigt

Fig. 1 ein Blockdiagramm einer Spracherkennungsvorrichtung;

Fig. 2 ein Beispiel von Sprachmodellen, wie sie bei der Spracherkennungs vorrichtung verwendet werden; und

Fig. 3 ein Flußdiagramm für Erkennungsvorgänge bei der Spracherken nungsvorrichtung.

Die Spracherkennungsvorrichtung nach Fig. 1 umfaßt ein Akustik analyseelement 1, einen Erkennungsprozeßabschnitt 2, ein Akustikmodell register 3 und ein Sprachmodellregister 4 mit Grammatikprüfelement 5.

Das Akustikanalyseelement 1 empfängt Sprachtonsignale A und ana lysiert dieselben akustisch durch Beurteilen der Zeitreihe akustischer Pa rameter der Sprachtonsignale A, wie durch das Cepstrum- und/oder das Δ- Cepstrum-Verfahren. Dann werden umgewandelte Daten an den Erken nungsprozeßabschnitt 2 ausgegeben.

Cepstrum-Werte werden durch umgekehrte Fourier-Transformation eines logarithmischen Spektrums erhalten. Ein Cepstrum-Wert steht in line ar-transformierter Beziehung zum logarithmischen Spektrum, das der menschlichen Hörcharakteristik ähnlich ist. Unter Verwendung des Cep strum-Wertes kann die Spracherkennungsvorrichtung Sprachtonsignale entsprechend dem simulierten menschlichen Gehörsinn beurteilen. Koeffi zienten höherer Ordnung des Cepstrum-Wertes bedeuten einen Detailauf bau eines Spektrums und Koeffizienten niedrigerer Ordnung des Cepstrum- Wertes bedeuten die Einhüllende des Spektrums. Durch Auswählen geeig neter Ordnungen kann dafür gesorgt werden, daß eine glatte Einhüllende erscheint, und zwar unter Verwendung einer relativ kleinen Anzahl akusti scher Parameter.

Der Δ-Cepstrum-Wert bedeutet die dynamische Charakteristik eines Spektrums. Der Δ-Cepstrum-Wert ist die erste Ordnung (erster Differential koeffizient) eines Polynoms, in das die Zeitreihe der Cepstrum-Werte im Be reich von innerhalb 50 ms bis 100 ms entwickelt wird.

Der Erkennungsprozeßabschnitt 2 empfängt vom Akustikanalyseele ment 1 ausgegebene Daten und berechnet die statistische Wahrscheinlich keit einer Reihe von Akustikmodellen B, wie sie im Akustikmodellregister 3 abgespeichert sind, und zwar aufgrund einer Beurteilung gemäß der Zeit reihe akustischer Parameter, wie aus den Sprachtonsignalen A transfor miert, und dann wählt er die Reihe von Akustikmodellen B mit der höchsten Wahrscheinlichkeit aus. Der Erkennungsprozeßabschnitt 2 beurteilt, ob die ausgewählte Reihe von Akustikmodellen B Teil eines einzigen Satzes (Sprachmodelle C) ist, wie im Sprachmodellregister 4 abgespeichert, wofür die Sprachmodelle C durch den Wortinhalt und die Grammatik des Gram matikprüfelements 5 beschränkt sind. D. h., daß dann, wenn ein neues Aku stikmodell zur aktuell ausgewählten Reihe von Akustikmodellen B hinzuge fügt wird und keinerlei Verzweigungsreihe aufgefunden werden kann, die mit der aktuellen Reihe von Akustikmodellen B verbindbar ist, eine derar tige ausgewählte Reihe von Akustikmodellen B als Teil des einzelnen, zu beurteilenden Satzes beurteilt wird. Obwohl der Erkennungsprozeß ein Zwischenprozeß ist, gibt der Erkennungsprozeßabschnitt 2 dann, wenn er beurteilt, daß der ausgewählte Satz der einzige Satz ist und während der mehreren aufeinanderfolgenden Rahmen die höchste Wahrscheinlichkeit beibehält, die ausgewählten Sprachmodelle C als Erkennungsergebnis E aus.

Von einem Benutzer gesprochene Sätze werden vorab gemäß syntak tischen und semantischen Beschränkungen durch eine Reihe von Akustik modellen B repräsentiert. Wenn ein Teil einer Akustikmodellreihe gemein sam in mehreren Sätzen vorliegt, ist der Teil der einen Akustikmodellreihe den mehreren Sätzen gemeinsam.

Akustikmodelle B werden dadurch im Akustikmodellregister 3 regi striert, daß Zeitreihen von Akustikparametern gelernt werden. Jedes Aku stikmodell B wird gemäß dem HMM-Verfahren oder dergleichen repräsen tiert.

Das HMM-Verfahren ist ein solches zum Repräsentieren einer spek tralen Zeitreihe von Tonelementen (z. B. Phonemen) und Wörtern in einem Stil von Ausgangssignalen aus Modellen zu stochastischen Zustandsüber gängen. Im allgemeinen wird ein Tonelement durch wenige Zustände (z. B. drei Zustände) repräsentiert. Jedes Tonelement und Wort zeichnet sich da durch aus, daß es Übergangswahrscheinlichkeiten zwischen Zuständen und Ausgangswahrscheinlichkeiten verschiedener Tonelemente und Wörter bei den Übergängen zwischen Zuständen repräsentiert. Gemäß dem HMM-Ver fahren kann eine Variation von Sprachtonspektren statistisch repräsentiert werden.

Das Grammatikprüfelement 5 schließt eine Reihe von Akustikmodel len B aus, die unter dem sprachlichen Gesichtspunkt weder syntaktisch noch semantisch verständlich sind. Das Grammatikprüfelement 5 steht in Einklang mit Sprachmodellen C auf Grundlage des vorliegenden zu erken nenden Wortes oder Satzes.

Das Grammatikprüfelement 5 verfügt über zwei Funktionen.

Die eine Funktion ist es, Wörter auszuschließen, die im Wörterbuch nicht gespeichert sind. Das Wörterbuch enthält Hauptwörter wie "Meer" und "Himmel", Adjektive wie "blau" und "glücklich" und Verben wie "sein" und "machen". Eine entsprechende Reihe von Akustikmodellen B wird im Ein trag jedes im Wörterbuch aufgeführten Worts beschrieben.

Die andere Funktion besteht darin, ein Akustikmodell B einzuschrän ken/auszuwählen, das auf Grundlage syntaktischer und semantischer Grün de nicht mit der folgenden Reihe von Akustikmodellen verbunden werden kann. So wird z. B. die Kombination der Wörter: "Dies ist ein blauer Him mel." nicht ausgeschlossen, da die Kombination syntaktisch korrekt ist. Da gegen wird die Kombination der Wörter "Dies ist blau ein Himmel." ausge schlossen, da diese Kombination syntaktisch falsch ist, obwohl alle Wörter im Wörterbuch aufgeführt sind.

Fig. 3 zeigt ein Flußdiagramm der erfindungsgemäßen Spracherken nungsvorrichtung.

Werden Sprachtonsignale A in das Akustikanalyseelement 1 eingege ben (Schritt S1), so werden sie in digitale Signale umgesetzt, und diese digi talen Signale werden in eine Zeitreihe von Akustikparametern wie den Cepstrum-Wert, den Δ-Cepstrum Wert, gemäß der Akustikanalyse umge setzt (Schritt S2).

Der Erkennungsprozeßabschnitt 2 berechnet die statistischen Wahr scheinlichkeiten repräsentativer Reihen von Akustikmodellen B unter Beur teilung der zeitlichen Reihe der Akustikparameter der eingegebenen Sprachtonsignale A (Schritt S3).

Der Erkennungsprozeßabschnitt 2 beurteilt, ob die Reihe der Akustik modelle B mit der höchsten Wahrscheinlichkeit Teil eines einzigen Satzes im Sprachmodellregister 4 ist, und zwar durch Vergleichen der Reihe der Akustikmodelle B und der Sprachmodelle C, wie durch das Grammatikprüf element 5 (Wörterbuch, Grammatik) beschränkt (Schritt S4).

Solange der Spracherkennungselement 2 beurteilt, daß die Ver gleichsreihe der Akustikmodelle B einen einzigen Satz darstellt, werden die statistischen Wahrscheinlichkeiten der Reihe von Akustikmodellen B, wie im Akustikmodellregister 3 repräsentiert, wiederholt in der Reihenfolge der Akustikparameter der eingegebenen Sprachtonsignale A berechnet (Rück kehr zum Schritt S3).

Wenn der Erkennungsprozeßabschnitt 2 beurteilt, daß die verglichene Reihe von Akustikmodellen B ein Teil eines einzigen Satzes ist, hat die Ver gleichsreihe der Sprachmodelle C während der mehreren aufeinanderfol genden Rahmen (unten beschrieben) die höchste Wahrscheinlichkeit, und der Erkennungsprozeßabschnitt 2 gibt ein Erkennungsergebnis E aus (Schritt S5).

Nun wird unter Bezugnahme auf Fig. 1 die Funktion des Ausfüh rungsbeispiels der Erfindung beschrieben.

1. Das Akustikanalyseelement 1 setzt die eingegebenen Sprachtonsigna le A für jede vorbestimmte Zeitperiode in Charakteristikvektoren um. Eine vorbestimmte Zeitperiode wird als Rahmen bezeichnet, und sie hat im allgemeinen eine Dauer von 1 bis 19 ms. Der Charakteristik vektor entspricht den Akustikparametern.
2. Hinsichtlich einer Reihe von Charakteristikvektoren werden die stati stischen Wahrscheinlichkeiten von Akustikmodellen B berechnet. Die Akustikmodelle B sind Gesamtheiten von Wörtern oder Teilwortein heften, wie Phonemen. Diese Akustikmodelle B werden vorab unter Verwendung einer großen Anzahl gelernter Tonsignale gelernt. Um statistische Wahrscheinlichkeiten der Akustikmodelle B zu berech nen, wird das HMM-Verfahren verwendet.
3. Ein folgendes Akustikmodell B, das mit einer Reihe von Akustikmo dellen B verbunden werden kann, wird durch das Grammatikprüfele ment 5 mit Wörterbuch und Grammatik beschränkt. Sprachmodelle C, wie sie den untersuchten Wörtern und Sätzen, wie sie zu erkennen sind, entsprechen, werden durch das Grammatikprüfelement 5 aufge zählt und kontrolliert. Wie es in Fig. 2 dargestellt ist, sieht das Sprachmodell C wie ein Baum aus.
4. Der Erkennungsprozeßabschnitt 2 berechnet die statistische Wahr scheinlichkeit eines folgenden Akustikmodells B, wie für jeden Rah men durch ein Sprachmodell C angeführt. Der Erkennungsprozeß abschnitt 2 berechnet für den ersten Rahmen die statistischen Wahr scheinlichkeiten aller Akustikmodelle B. Nachfolgend werden die Sprachmodelle C, für die die statistischen Wahrscheinlichkeiten einen höheren Rang aufweisen (Position 1 bis Position N) kontinuierlich be rechnet, um ein Akustikmodell B zu erhalten, das mit der Reihe der aktuellen Akustikmodelle B verbunden werden kann.
5. Wenn die Reihe der Akustikmodelle B mit der höchsten angesammel ten Wahrscheinlichkeit ein Teil eines einzigen Satzes im Sprachmo dell C während mehrerer aufeinanderfolgender Rahmen ist, wird der untersuchte Satz, der die Reihe der Akustikmodelle B enthält, als Er kennungsergebnis E bestimmt.

Gemäß dem Ausführungsbeispiel der Erfindung kann im Fall einer Anwendung auf "Ländername oder Städtename" und "Prädikat" die mittlere Erkennungszeit von 1,74 Sekunden auf 1,20 Sekunden um 30% verkürzt werden, ohne daß eine Beeinträchtigung der Erkennungsgenauigkeit vor liegt.

Als Beispiel wird der Fall der Erkennung von "Ländername" und "Prädikat" erläutert.

Für diesen Fall werden die folgenden Prädikate (i) und (ii) angenom men:

a) isn't it?
b) right?

Wenn Sprachtonsignale A "That's Australia, right?" eingegeben wer den, werden die folgenden Sätze in spitzen Klammern <1<, <2< und <3< als Kandidaten mit höherer Wahrscheinlichkeit durch Tonerkennung auf einanderfolgend ausgegeben:

1. <1< Australia right,
2. <2< Austria right, und
3. <3< Austin right.

Fig. 2 zeigt Sprachmodelle C zu diesen Kandidaten. Betreffend den Ländernamen werden "Australia", wie tatsächlich gesprochen, und "Austria", für das die Sprechweise ähnlich zu "Australia" ist, als Kandidaten ausgege ben. Ferner wird als einer der Kandidaten auch "Austin", der Name einer Stadt in Texas, ausgegeben.

Eine Ermittlung, daß ein Sprachmodell C einem einzigen Wort/Satz entspricht, wird nicht immer in dem Moment gesprochen, in dem das Ende der eingegebenen Sprachtonsignale A erkannt wird, sondern es kann eine Beurteilung zu jedem beliebigen Moment erfolgen, bevor das Ende der ein gegebenen Sprachtonsignale erkannt wird.

Z. B. ist, wenn die statistischen Wahrscheinlichkeiten der Akustikmo delle B, "Aust [⊂:st]", berechnet werden, die statistische Wahrscheinlichkeit von "ra [rei]" für "Australia" höher als die von "ri [ri]" für "Austria". Wenn sich im Wörterbuch des Grammatikprüfelements 5 außer "Australia" keine anderen Wörter nach dem Berechnen der statistischen Wahrscheinlichkeit der Reihe der Akustikmodelle B zu "Austra" befinden, wird "Australia" als Erkennungsergebnis E ausgegeben, und die folgenden Berechnungen wer den weggelassen.

Wie oben beschrieben während der Berechnung der statistische Wahrscheinlichkeit mit einer Reihe von Akustikmodellen ein Erkennungs ergebnis ermittelt werden, wenn durch ein Grammatikprüfelement ausge wählte Sprachmodelle einen einzigen Satz anzeigen. Daher werden redun dante Berechnungen weggelassen. Die erforderliche Menge an Berechnun gen für den Erkennungsvorgang kann verringert werden, was die Erken nungszeit verkürzt, ohne die Erkennungsgenauigkeit zu beeinträchtigen. Die Mensch/Maschine-Schnittstelle läßt sich somit durch die erfindungsge mäße Spracherkennung verbessern.

Claims

1. Spracherkennungsverfahren für eine Spracherkennungsvorrichtung mit einem Akustikmodellregister (3) zum Speichern von Reihen von vorge gebenen Akustikmodellen (B) und einem Sprachmodellregister (4) zum Speichern von vorgegebenen Sprachmodellen (C), umfassend die Verfah rensschritte:
Umwandeln von empfangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern;
Berechnen statistischer Wahrscheinlichkeiten für die in dem Aku stikmodellregister (3) gespeicherten Reihen von Akustikmodellen (B) an hand der ermittelten Zeitreihen von Akustikparametern;
Auswählen der Reihe von Akustikmodellen (B) mit der höchsten Wahrscheinlichkeit;
Vergleichen der ausgewählten Reihe von Akustikmodellen (B) mit den im Sprachmodellregister (4) gespeicherten Sprachmodellen (C); und
Ausgeben eines Erkennungsergebnisses (E), wenn nur noch eines der gespeicherten Sprachmodelle (C) der ausgewählten Reihe von Akustik modellen (B) entspricht.

2. Verfahren nach Anspruch 1, wobei die empfangenen Sprachsignale (A) immer für eine vorbestimmte Zeitperiode in Zeitreihen von Akustik parametern umgewandelt werden und das Erkennungsergebnis (E) dann ausgegeben wird, wenn die ausgewählte Reihe von Akustikmodellen (B) für mehrere aufeinanderfolgende Zeitperioden einem einzigen Sprachmodell (C) entspricht.

3. Verfahren nach Anspruch 1 oder 2, wobei zum Umwandeln von emp fangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern das Cepstrum- und/oder das Δ-Cepstrum-Verfahren verwendet werden.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Reihen von vorgegebenen Akustikmodellen (B) Sätzen entsprechen, die vorher von einem Benutzer gesprochen worden sind.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Reihen von vorgegebenen Akustikmodellen (B) auf der Grundlage von Zeitreihen von Akustikparametern bestimmt werden.

6. Verfahren nach Anspruch 5, wobei jedes Akustikmodell (B) nach dem HMM-Verfahren bestimmt wird.

7. Verfahren nach einem der Ansprüche 4 bis 6, wobei sich die Akustik modelle (B) aus Wörtern oder Teilworteinheiten wie Phonemen zusammen setzen.

8. Verfahren nach einem der Ansprüche 1 bis 7, wobei die vorgegebenen Sprachmodelle (C) Sätzen entsprechen, für die angenommen wird, daß sie von einem Benutzer gesprochen werden würden.

9. Verfahren nach einem der Ansprüche 1 bis 8, wobei der Vergleich der ausgewählten Reihe von Akustikmodellen (B) mit den gespeicherten Sprachmodellen (C) auf der Grundlage syntaktischer und/oder semantischer Gesichtspunkte erfolgt.

10. Spracherkennungsvorrichtung mit
einem Akustikanalyseelement (1) zum Umwandeln von empfangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern,
einem Akustikmodellregister (3) zum Speichern von Reihen von vor gegebenen Akustikmodellen (B),
einem Sprachmodellregister (4) zum Speichern von vorgegebenen Sprachmodellen (C) und
einem mit dem Akustikanalyseelement (1), dem Akustikmodellregi ster (3) und dem Sprachmodellregister (4) verbundenen Erkennungspro zeßabschnitt (2) zum Berechnen statistischer Wahrscheinlichkeiten für die in dem Akustikmodellregister (3) gespeicherten Reihen von Akustikmodel len (B) anhand der ermittelten Zeitreihen von Akustikparametern, Auswäh len der Reihe von Akustikmodellen (B) mit der höchsten Wahrscheinlich keit, Vergleichen der ausgewählten Reihe von Akustikmodellen (B) mit den gespeicherten Sprachmodellen (C) und Ausgeben eines Erkennungsergeb nisses (E), wenn nur noch eines der gespeicherten Sprachmodelle (C) der ausgewählten Reihe von Akustikmodellen (B) entspricht.

11. Vorrichtung nach Anspruch 10, wobei das Sprachmodellregister (4) ein Grammatikprüfelement (5) aufweist, um die ausgewählte Reihe von Akustikmodellen (B) unter syntaktischen und/oder semantischen Gesichts punkten mit den Sprachmodellen (C) zu vergleichen.