DE3884880T2

DE3884880T2 - Billige Spracherkennungseinrichtung und Verfahren.

Info

Publication number: DE3884880T2
Application number: DE88306967T
Authority: DE
Inventors: Wallace Anderson; George R Doddington; Michael L Mcmahan; Periagaram K Rajasekaran
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1987-07-30
Filing date: 1988-07-28
Publication date: 1994-02-10
Anticipated expiration: 2008-07-29
Also published as: US4910784A; EP0302663B1; EP0302663A2; EP0302663A3; JP2000000013U; JPH01113798A; KR0123934B1; KR890002816A; DE3884880D1

Description

HINTERGRUND DER ERFINDUNG

Die Erfindung betrifft allgemein die Erkennung menschlicher Sprache und insbesondere ein System und ein Verfahren für eine kostengünstige Worterkennung.
Es wurden viele Techniken zur Erkennung gesprochener Wörter entwickelt. Diese unterscheiden sich hinsichtlich Komplexität und Leistungsvermögen stark voneinander. Durch einige hochentwickelte Systeme wurden bei einer sprecherabhängigen isolierten Worterkennung Raten nahe bei 100 % erreicht. Diese werden gewöhnlich bei Zentralcomputern oder großen Mini- oder Mikrocomputern verwendet, und sie erfordern eine spezialisierte Hardware und eine komplexe Software, um eine Echtzeit-Erkennung zu verwirklichen.
Auf vielen Gebieten sind sehr hohe Erkennungsraten nicht erforderlich. Dies trifft auf bestimmte Verbraucherartikel wie insbesondere Spiele und Spielzeug zu. Bei diesen Systemen ist eine Kostenminimierung häufig wichtiger als eine geringe, stufenweise Verbesserung hinsichtiich der Erkennungsraten. Zur Erzielung geringer Kosten sind Systeme erforderlich, bei denen eine minimale Anzahl von elektronischen Komponenten verwendet wird, was allgemein sowohl den verfügbaren Speicherplatz als auch die Verarbeitungsleistung einschränkt.
In vielen kostengünstigen Anwendungen ist auch eine sprecherabhängige Erkennung nicht erforderlich. Eine Einzelworterkennung kann ausreichend sein. Häufig wird die Fähigkeit verlangt, auch in einer geräuschbehafteten Umgebung noch zu funktionieren, sowie die Fähigkeit, einzelne Wörter, die in eine lange Äußerung eingebettet sind, zu erkennen.
Bei derzeitigen kostengünstigen, für typische Abnehmeranwendungen geeigneten Erkennungstechniken werden gewöhnlich Nulldurchgangsrate-Techniken und eine Komprimierungs-Dehnungs-Zeit-Aufzeichnung verwendet. Diese Techniken arbeiten allgemein selbst bei kleinem Vokabular und unter guten Bedingungen nicht in der angemessenen Weise. Bei den vorhandenen kostengünstigen Techniken werden die Bezugsgrößen üblicherweise nicht in der richtigen Weise eingeschrieben, was weiter deren Fähigkeit beeinträchtigt, empfangene Sprache mit den das Vokabular definierenden Bezugsformen zu vergleichen.
In der US-A-3 812 291 ist eine Vorrichtung zur Klassifizierung von Signalen beschrieben, die gesprochene Wörter sein können, bei der die Signale in Frequenzbänder aufgeteilt und nach einem Multiplexen der Komponenten in diesen Bändern in digitale Form umgewandelt werden. Die digitalen Signale werden einem Codierprozessor zugeführt, der für jede Komponente ein Pseudospektrum erzeugt, und die Pseudospektren werden binär codiert, um binäre Muster fester Länge (120 Bits) zu erzeugen, die das eingegebene gesprochene Wort repräsentieren. Die Klassifizierung erfolgt durch Vergleichen mit den von bekannten Wörtern erhaltenen binären Mustern. Die zuvor gespeicherten Muster werden dadurch gewonnen, daß die von verschiedenen Beispielen des gleichen Wortes erhaltenen Muster gemittelt werden.

ZUSAMMENFASSUNG DER ERFINDUNG

Bei einem kostengünstigen Spracherkennungsverfahren ist es daher wünschenswert, daß dieses zufriedenstellend in einem System arbeiten kann, bei dem nur äußerst wenig Speicherplatz zur Verfügung steht und bei dem das hinsichtlich einer Verarbeitung gegebene Leistungsvermögen deutlich begrenzt ist. Eine weitere erwünschte Eigenschaft eines kostengünstigen Systems besteht darin, daß das Einschreiben des Vokabulars flexibel und genau ist.
Gemäß einem ersten Aspekt schafft die Erfindung ein Spracherkennungssystem mit einem A/D-Wandler zum Abtasten eines Sprachsignals von einer gesprochenen Äußerung,
einer Merkmalsextraktionseinrichtung, die mit dem A/D-Wandler gekoppelt ist, um die Sprachstichproben in Sprachrahmen einzugruppieren und für jeden Sprachrahmen Parameter einer LPC-Methode der Sprachanalyse zu erzeugen, wobei die LPC-Parameter in cepstrale Parameter umgewandelt werden und ein Rahmen von binären Merkmalskoeffizienten abgeleitet wird, indem die cepstralen Parameter in binäre Werte codiert werden, die jeweils einen Wert angeben, der größer oder kleiner als ein vorgewählter Grenzwert ist, und indem die binären Werte in die Rahmen von binären Merkmalskoeffizienten eingruppiert werden,
einer mit der Merkmalsextraktionseinrichtunng gekoppelten Stapel- Warteschlange zum Empfangen aufeinanderfolgender Rahmen von binären Merkmalskoeffizienten entsprechend den aufeinanderfolgenden Sprachrahmen,
einem mit der Warteschlange gekoppelten Komparator zum Vergleichen einer Mehrzahl von den zuletzt empfangenen Rahmen von binären Merkmalskoeffizienten mit einer Mehrzahl von Bezugsformen, die jeweils aus einer Mehrzahl von Rahmen von binären Koeffizienten bestehen, und zur Erzeugung einer Mehrzahl von Fehlerwerten, die die Genauigkeit der zwischen diesen gegebenen Übereinstimmung angeben, wobei nur abwechselnde Rahmen in der Warteschlange von dem Komparator für den Vergleich mit den Formen verwenwendet werden und die Anzahl der abwechselnden Rahmen von der Formlänge abhängt, und
einer mit dem Komparator gekoppelten Entscheidungssteuereinrchtung zum Empfangen der Ergebnisse der Vergleiche und zum Auswählen der besten Übereinstimmung zwischen einem Teil des Sprachsignals und den Bezugsformen.
Gemäß einem zweiten Aspekt schafft die Erfindung ein Verfahren zum Erkennen gesprochener Wörter, das die folgenden Schritte aufweist:
a) Abtasten eines Sprachsignals von einer gesprochenen Äußerung mit einem A/D-Wandler,
b) Eingruppieren der Sprachstichproben in Sprachrahmen und Erzeugen von Parametern einer LPC-Methode der Sprachsynthese für jeden Sprachrahmen, Umwandeln der LPC-Parameter in cepstrale Parameter und Ableiten eines Rahmens von binären Merkmalskoeffizienten durch Codieren der cepstralen Parameter in binäre Werte, die jeweils einen Wert angeben, der größer oder kleiner als ein vorgewählter Grenzwert ist, und durch Eingruppieren der binären Werte in die Rahmen von binären Merkmalskoeffizienten,
c) Empfangen von aufeinanderfolgenden Rahmen von binären Merkmalskoeffizienten entsprechend den aufeinanderfolgenden Sprachrahmen in einer Stapel-Warteschlange,
d) Vergleichen einer Mehrzahl der zuletzt empfangenen Rahmen von binären Merkmalskoeffizienten mit einer Mehrzahl von Bezugsformen, die jeweils aus einer Mehrzahl von Rahmen von binären Koeffizienten bestehen, und Erzeugen einer Mehrzahl von Fehlerwerten, die die Genauigkeit der zwischen diesen gegebenen Übereinstimmung angeben, wobei nur abwechselnde Rahmen in der Warteschlange von einem Komparator für den Vergleich mit den Formen verwendet werden und die Anzahl der abwechselnden Rahmen von der Formlänge abhängt, und
e) auf der Grundlage der Ergebnisse des Vergleichsschrittes erfolgendes Auswählen einer solchen Form als das erkannte Wort, die den geringsten Fehlerwert erzeugt.
Die Erfindung wird im folgenden anhand eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf die Zeichnung näher beschrieben.

KURZBESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein Blockdiagramm eines Spracherkennungssystems gemäß der Erfindung;
Fig. 2 ist ein Schaubild zur Erläuterung eines Vergleichs einer eingehenden Sprache mit Bezugsformen; und
Fig. 3 ist ein Flußdiagramm zur Darstellung eines bevorzugten Einschreibverfahrens.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM

Fig. 1 zeigt ein bevorzugtes Spracherkennungssystem 10 gemäß der Erfindung. Dieses System weist starke Einschränkungen hinsichtlich des verfügbaren Speicherumfangs auf. Die meisten der im folgenden beschriebenen Funktionen können auf einem einzigen Signalverarbeitungschip der von Texas Instruments erhältlichen TMS-320-Serie ausgeführt werden.
Sprache wird bei einem Mikrophon 12 empfangen, das mit einem logarithmischen Verstärker 14 gekoppelt ist. Der logarithmische Verstärker 14 ist nicht in allen Systemen erforderlich, jedoch in jenen notwendig, die einen A/D-Wandler mit begrenztem Dynamikbereich aufweisen. Bei einem Wandler mit einem Bereich von mehr als 14 Bits wird es im allgemeinen nicht erforderlich sein, einen logarithmischen Verstärker zur Komprimierung zu verwenden. Ein bei der bevorzugten Ausführungsform verwendeter A/D-Wandler wird jedoch üblicherweise weniger Bits als dieser aufweisen, um geringere Kosten zu erhalten. Bei einer alternativen Ausführung wird ein 8-Bit-CODEC verwendet, wie er im Handel erhältlich ist.
Der Ausgang des Verstärkers 14 ist mit einem A/D-Wandler 16 verbunden. Der Wandler 16 tastet die komprimierte Sprachwellenform bei vorgewählten Intervallen ab. Bei der bevorzugten Ausführungsform wird Sprache mit einer Frequenz von 8 KHz abgetastet. Der Ausgang des A/D-Wandlers 16 ist mit einer Merkmalsextraktionsschaltung 18 verbunden. Eine Merkmalsextraktion erfolgt vorzugsweise auf einem Signalprozessor der TMS-320-Serie, wie er oben beschrieben ist.
Eine Merkmalsextration besteht in dem Eingruppen der abgetasteten Sprache in Rahmen und in dem Berechnen von Parametern nach der LPC (Linear Predictive Coding)-Methode der Sprachanalyse für jeden Rahmen. Die Berechnung der LPC- Parameter erfordert es, daß die digitalisierte Sprache linear ist, und so werden die digitalisierten Stichproben vor der tatsächlichen Merkmalsextraktion dekomprimiert. Dies kann dadurch erfolgen, daß eine Tabelle mit einem Index versehen wird, die die entsprechenden logarithmisch expandierten Werte für den verwendeten speziellen logarithmischen Verstärker 14 enthält. Dies erfolgt auf eine Art und Weise, wie sie im Stand der Technik allgemein bekannt ist.
Bei der bevorzugten Ausführungsform sind die Rahmen 20 ms lang, und es wird eine Autokorrelations-LPC-Analyse 10ter Anordnung mit rechteckigen oder abgerundeten Fenstern verwendet. Dies führt zu 10 Merkmalskoeffizienten plus einem Energiekoeffizienten. Die LPC-Parameter werden weiter in die Cepstrum-Transformierte des Rahmens umgewandelt. Vorzugsweise werden 8 cepstrale Parameter für jeden Rahmen berechnet.
Jeder cepstrale Parameter wird dann mit einem Grenzwert verglichen, und ein einziges Bit wird dazu verwendet, auszudrücken, ob der cepstrale Koeffizient größer oder kleiner als der Grenzwert ist. Bei der bevorzugten Ausführungsform wird für die jeweiligen Komponenten ein unterschiedlicher Grenzwert verwendet. Nachdem dieser Vergleich abgeschlossen ist, wurde ein Sprachrahmen in ein einzelnes Datenbyte umgewandelt.
Dieses Byte wird zu einer Zeitregistriereinrichtung 20 übertragen, die es mit Bezugsformen 22 für die Wörter in dem definierten Vokabular vergleicht. Dies erfolgt in einem Verfahren, das gleichartig mit einer Faltung/Korrelation ist, wie sie im einzelnen in Verbindung mit Fig. 2 beschrieben wird.
Nach Fig. 2 ist jeder Datenrahmen, jetzt als 8 binäre cepstrale Koeffizienten dargestellt, in einer Warteschlange angeordnet, die vorzugsweise als zirkularer Puffer mit 50 Fächern ausgeführt ist, die jeweils ein Byte breit sind. Jedesmal, wenn ein neuer Rahmen in die Warteschlange 40 eingesetzt wird, werden alle Rahmen, die bereits in der Warteschlange vorliegen, um eine Stelle nach rechts verschoben. Da jeder Rahmen 20 ms Sprache repräsentiert, ist die vorhergehende eine Sprachsekunde in der Warteschlange 40 in codierter Form enthalten.
Vergleichsformen 42, 44 und 46 enthalten binäre cepstrale Koeffizienten, die die Wörter in dem zu erkennenden Vokabular repräsentieren. Es sind nur 3 Formen gezeigt, vorzugsweise wird jedoch eine größere Anzahl verwendet. Bei der bevorzugten Ausführungsform kann das Vokabular bis zu 16 Bezugswörter aufweisen. Die Bezugswörter werden mit einer Rahmenlänge von 40 ms gespeichert, obwohl jeder Rahmen weiterhin in 8 Bits repräsentiert ist. Damit können die Bezugsformen wirksamer gespeichert werden. Der Begriff "Wort", wie er in Verbindung mit den Bezugsformen verwendet wird, bezieht sich üblicherweise auf ein Wort einer gesprochenen Sprache. Es kann jedoch tatsächlich ein Teilwort oder eine Wortverbindung einer aktuellen Sprache bedeuten. Bei der hier gegebenen Verwendung ist ein Wort eine Art Spracheinheit, die zu erkennen ist.
Der Vergleich der empfangenen Sprachdaten mit den Formen erfolgt dadurch, daß angenommen wird, daß der soeben empfangene Rahmen der letzte Rahmen eines zu erkennenden Wortes ist. Da die Datenrahmen nur halb so lang wie die Bezugsformen sind, werden nur abwechselnde Rahmen in der Warteschlange 40 mit den Bezugsformen 42, 44 und 46 verglichen. Dies ist durch Pfeile dargestellt, die von abwechselnden Datenrahmen zu deren entsprechenden Bezugsrahmen zeigen. Die Bezugsformen können in der Länge variieren, und es wird nur die allerjüngste Anzahl von Datenrahmen entsprechend der Länge einer jeweiligen Bezugsform verwendet, um diese Form mit den Daten zu vergleichen.
Jeder Rahmen einer jeweiligen Bezugsform 42 wird mit dem entsprechenden Datenrahmen einer exklusiven ODER (XOR)-Operation unterzogen, was eine Abweichungsmessung ergibt, die der Hammingabstand zwischen den Rahmen ist. Die Abweichungen für einen jeweiligen Rahmen werden gemittelt, um einen Fehlerwert für die Form 42 zu liefern. Fehlerwerte für Rahmen und Wörter werden als eine Zahl von verschiedenen Bits bis zu 8 ausgedrückt. Der gleiche Vorgang wird bezüglich der Formen 44 und 46 wiederholt.
Bei längeren Wörtern besteht die Tendenz, daß sie höhere Fehlermittelwerte als kurze Wörter liefern. Es ist auch wünschenswert, einer guten Übereinstimmung für eine lange Bezugsform Vorrang vor einer etwas besseren Übereinstimmung für eine kurze Form einzuräumen. Ein Beispiel dafür ist das Wort FORTUNE, wenn FORTUNE und FOUR beides Wörter in dem Vokabular sind. Das gesprochene Wort FORTUNE mag eine etwas bessere Übereinstimmung mit der Bezugsform für FOUR ergeben, jedoch sollte das längere Wort bevorzugt werden, wenn es eine annähernd gleich gute Übereinstimmung ergibt.
Um längeren Gegenstücken Vorrang einzuräumen, wird der mittlere Rahmenfehler für ein jeweiliges Bezugswort mit einem Faktor multipliziert, der umgekehrt proportional zu seiner Länge ist. Damit wird der mittlere Rahmenfehler längerer Bezugswörter in stärkerem Maße verringert als bei kürzeren Wörtern. Der Multiplikationsfaktor ist vorzugsweise durch die folgende Gleichung gegeben:
e-0,05 Rahmenanzahl,
in der die Rahmenanzahl die Anzahl von Rahmen in der Bezugsform ist. Diese Gleichung kann durch eine lineare Gleichung angenähert werden, oder es kann eine Tabelle unterhalten werden, die die Werte für alle zulässigen Bezugsrahmenlängen enthält, sofern dort genügend Speicherplatz verfügbar ist.
Die obige Gleichung wird auf den mittleren Rahmenfehler angewandt, der für alle Bezugsformen berechnet wurde. Nur die 2 besten Gegenstücke werden beibehalten. Die 2 besten Gegenstücke werden für die gesamte Dauer einer Äußerung beibehalten, wobei der modifizierte mittlere Rahmenfehler für eine jeweilige Bezugsform mit den 2 laufenden besten Gegenstücken verglichen wird. Ist der modifizierte mittlere Rahmenfehler für eine Form geringer als das vorhergehende zweitbeste Gegenstück, so werden er und das vorhergehende beste Gegenstück in der entsprechenden Reihenfolge als die laufenden besten 2 Gegenstücke beibehalten. Die Beibehaltung der 2 besten Gegenstücke erfordert nur die Beibehaltung der Kennung der Wörter sowie deren zugeordneter Fehlerwerte.
Sind einmal alle Formen mit der laufenden Warteschlange verglichen worden, so wartet die Zeitregistriereinrichtung 20 auf die Ankunft des nächsten Datenrahmens, zu welcher Zeit der soeben beschriebene Vergleichsvorgang wiederholt wird.
Es wird wieder auf Fig. 1 Bezug genommen, wonach die Zeitregistriereinrichtung 20 die 2 laufenden besten Gegenstücke zu der Entscheidungslogik 24 überträgt, nachdem die Berechnungen für die jeweiligen Sprachrahmen vollendet sind. Die Entscheidungslogik 24 kombiniert diese Informationen mit Energieinformationen für die laufende Äußerung, um zu bestimmen, wann ein Wort erkannt worden ist.
Es kann jedes relative Energieerfassungs-Verfahren verwendet werden, um den Beginn und das Ende einer Äußerung festzustellen. Das bevorzugte Verfahren besteht in der Verwendung eines adaptiven Erfassungsverfahrens mit doppeltem Grenzwert, wie es in der US-Anmeldung SN 541 410 (US-Patent 4 696 040) beschrieben ist. Die Entscheidungslogik 24 bestimmt, daß eine Äußerung begonnen hat, wenn der durch die Merkmalsextraktionseinrichtung 18 berechnete Energiepegel über den Grenzwert ansteigt, und daß eine Äußerung beendet ist, wenn der Energiepegel unter einen zweiten Grenzwert abfällt. Die 2 besten, von der Zeitregistriereinrichtung 20 empfangenen Gegenstücke werden beibehalten und für die Dauer der gesamten Äußerung aktualisiert. Die Entscheidungslogik 24 trifft nur dann eine Entscheidung über das beste Gegenstück, wenn ein Abfall bei den Sprachenergiepegeln anzeigt, daß eine Äußerung beendet ist.
Das Gegenstück mit dem geringsten Fehler wird nur dann akzeptiert, wenn er geringer als ein Grenzwert ist, der im voraus festgelegt ist, um annehmbare Erkennungsraten zu liefern. Dieser Grenzwert variiert stark in Abhängigkeit von der Art der Anwendung. Wurde kein Gegenstück geschaffen, das hinreichend nahe bei irgendeiner der Formen liegt, so wird die Äußerung verworfen. Ebenso wird der Fehlerwert der zweitgeringsten Auswahl einer Überprüfung unterzogen. Liegt das zweitbeste Gegenstück sehr nahe an dem ersten, so verwirft die Entscheidungslogik 24 die Äußerung, ohne zwischen den verwechselbar ähnlichen Wörtern eine Auswahl zu treffen. Dies geschieht natürlich nur dann, wenn die besten zwei Gegenstücke mit unterschiedlichen Wörtern von dem Vokabular vorliegen; zwei Gegenstücke mit dem gleichen Bezugswort führen zu einer Annahme dieses Wortes.
Da nur eine Erkennung während einer Äußerung erfolgt, die allgemein als Periode relativ hoher akustischer Energie zwischen zwei Perioden relativ geringer akustischer Energie definiert ist, kann nur ein Wort aus einem zusammenhängend gesprochenen Satz oder einer zusammenhängend gesprochenen Wortkombination erkannt werden. Ist in der Äußerung mehr als ein Wort des Vokabulars enthalten, so wird entweder das eine mit dem besten Gegenstück akzeptiert und erkannt, oder es wird die gesamte Äußerung wie oben beschrieben verworfen. Obwohl nur ein Wort je Äußerung erkannt werden kann, kann eine Äußerung weitere Wörter enthalten, ohne die Eigenschaft der Erkennungseinrichtung zu beeinträchtigen, ein Wort in ihrem Vokabular zu akzeptieren. Da jedesmal ein Vergleich durchgeführt wird, wenn ein Datenrahmen in die Warteschlange 40 eingesetzt wird, sind Wörter selbst dann erkennbar, wenn sie in eine lange Äußerung eingebettet sind, und eine getrennte Aussprache ist nicht erforderlich.
Die Erkennung eines Wortes oder das Verwerfen der Äußerung durch die Entscheidungslogik beendet den Spracherkennungsvorgang. Die Entscheidungslogik 24 erzeugt ein Ausgangssignal, das für die Anwendung, in die sie eingegliedert ist, geeignet ist, und die restlichen Teile des Systems können das erkannte Wort auf eine Art und Weise behandeln, wie dies im Stand der Technik allgemein bekannt ist. Z. B. kann das soeben beschriebene System in Verbindung mit einer Sprechpuppe verwendet werden, die auf an sie gerichtete gesprochene Wörter reagiert. Bei dieser Anwendung wird das Ausgangssignal von der Entscheidungslogik 24 an eine Antwortsteuerung 26 geliefert, die die entsprechende Antwort auf den Empfang verschiedener Wörter in dem Vokabular festlegt. Diese geeigneten Antworten können eine Sprachsynthese enthalten oder eine Bewegung der Puppenarme und -beine. Andere Anwendungen liegen für den Fachmann auf der Hand.
Das oben beschriebene System 10 wird vorzugsweise als eine sprecherabhängige Erkennungseinrichtung verwendet. Eine sprecherabhähgige Erkennung erfordert ein Einschreiben der Wörter in das Vokabular durch den zu erkennenden Sprecher. Ein bevorzugtes Verfahren für ein Einschreiben von Sprecherwörtern in Verbindung mit dem Spracherkennungssystem 10 wird in Verbindung mit Fig. 3 beschrieben.
Das Flußdiagramm der Fig. 3 zeigt die Schritte, die erforderlich sind, um ein Wort in das Vokabular einzuschreiben. Ein Einschreiben von mehreren Wörtern erfolgt durch Wiederholen dieses Vorgangs nach Bedarf. Die einzuschreibenden Wörter sind völlig anwendungsspezifisch Die Anzahl der Wörter, die eingeschrieben werden kann, hängt von dem verfügbaren Speicherplatz und dem Verarbeitungsvermögen ab, sowie von der Anzahl der verwendeten binären Merkmale. Bei dem bevorzugten System werden 8 Merkmale verwendet, um einen Rahmen festzulegen, was zu einer praktischen Obergrenze des Vokabulars von einigen Dutzend Wörtern führt, damit sie einzigartig unterscheidbar sind. Das bevorzugte System schreibt ein Vokabular von 16 Wörtern ein. Damit kann ein Zwei-Byte(16 Bit)-Wort alle Wörter in einem Vokabular auf einer Ein-Bit-Pro- Wort-Basis repräsentieren.
Der erste Schritt (60) besteht darin, das einzuschreibende Wort auszuwählen. Dies erfolgt auf irgendeine herkömmliche Art und Weise, die für die Anwendung geeignet ist. Jedes einzuschreibende. Wort besitzt eine erwartete Länge hinsichtlich der Sprachrahmen, wobei jeder Rahmen eine Länge von 20 ms aufweist. Der nächste Schritt (62) besteht darin, den Benutzer zu veranlassen, das ausgewählte Wort zu sprechen. Auch dies kann auf irgendeine geeignete Weise erfolgen. Ein solches Veranlassen kann visuell oder dadurch erfolgen, daß eine gespeicherte Version des einzuschreibenden Wortes erzeugt oder wiedergegeben wird.
Das Einschreiben erfolgt für einzelne, getrennt gesprochene Wörter. Der Anfang und das Ende des Wortes ist durch den Wert des von der Merkmalsextraktionseinrichtung 18 extrahierten Energiemerkmals angegeben. Ein Energieanstieg über einen Ruhe-Grenzwert gibt den Beginn einer Äußerung an, und ein Abfall des Energiepegels unter einen aktiven Grenzwert gibt das Ende der Äußerung an.
Eingehende Sprache wird digitalisiert und in cepstrale Komponenten umgewandelt, wie dies oben beschrieben ist (Schritt 64). Eingehende Datenrahmen werden nicht mit den Bezugsformen verglichen, sie werden nur in die Warteschlinge eingesetzt. Die Entscheidungslogik 24 bestimmt den Anfang und das Ende der Äußerung. Die Dauer der Äußerung in Sprachrahmen wird mit der erwarteten Länge verglichen (Schritt 66). Ist die tatsächliche Länge der Äußerung gleich der erwarteten Länge (Schritt 68), so werden die empfangenen Datenrahmen für das Wort als die neuen Bezugsformen eingegeben (Schritt 70).
Es ist nicht erforderlich, daß die Länge des eingeschriebenen Wortes genau so, wie für ein erfolgreiches Einschreiben erwartet, ist. Gewisse Abweichungen können bei den meisten Anwendungen toleriert werden. Bei der bevorzugten Ausführungsform wird das Einschreiben von Wörtern, die eine Länge besitzen, die um bis zu vier Rahmen kleiner als die erwartete Länge ist, als annehmbar angesehen. Wird ein kürzeres Wort eingeschrieben, so ist die Ruhe am Ende nicht in der Bezugsform enthalten, so daß die Form selbst kürzer als ursprünglich erwartet ist. Ist das eingeschriebene Wort länger als erwartet, so werden nur die besten Rahmen gleich der erwarteten Anzahl beibehalten. Dies bedeutet, daß ein oder mehrere Rahmen am Anfang oder am Ende des Wortes fallengelassen werden. Die Endrahmen mit der geringsten akustischen Energie können fallengelassen werden. Alternativ kann der Rahmen mit der größten akustischen Energie identifiziert werden, wobei Rahmen vor und nach dieser Stelle beibehalten werden. Dies könnte zu einem etwas anderen beibehaltenen Satz von Rahmen führen. Ist das eingeschriebene Wort um mehr als eine kleine Anzahl von Rahmen, typischerweise um 10 %, länger als erwartet, so wird ein Einschreiben vorzugsweise verworfen.
Bei einer bevorzugten Ausführungsform erfolgt ein einziges Einschreiben von Bezugsformen. Alternativ können das einzuschreibende Wort mehrmals gesprochen, vorzugsweise entsprechend einer ungeraden Zahl, und die Merkmale gemittelt werden, um eine zusammengesetzte Form zu liefern. Dieser Mittelungsvorgang kann eine einfache Majoritätszählung von Einsen und Nullen für jedes Merkmal sein. Die Formen können, falls erwünscht, periodisch aktualisiert werden, um die Sprachmuster des Benutzers besser ändern zu können. Es ist auch möglich, in einem gewissen Ausmaß eine Unabhängigkeit vom Sprecher zu erreichen, indem Formen erzeugt werden, die ausgehend von mehreren einschreibenden Sprechern zusammengesetzt sind. Dies ist bei dem oben beschriebenen System jedoch schwierig, da viele Informationen bei der Komprimierung zu binären Koeffizienten verlorengehen. Es kann eine große Anzahl von Sprechern herangezogen werden, um die Formen zu erzeugen, wobei die Bezugsform für ein jeweiliges Wort durch ein Majoritätsvotum für ein jeweiliges Merkmal unter allen Strichproben für dieses Wort erzeugt wird.
Zur Verbesserung der Genauigkeit der Formen, ob nun eine einzige oder eine mehrfache Einschreibung verwendet wird, ist es möglich, eine Gewichtungsvektormaske bei jeder Form zu verwenden. Damit wird angezeigt, ob ein gegebener Koeffizient gleich ist, um in dem Vergleichsvorgang verwendet zu werden; einige Koeffizienten werden einfach ignoriert. Diese Maske kann angeben, daß bestimmte Koeffizienten durch die ganze Form hindurch zu ignorieren sind, oder daß jeder Rahmen der Form getrennt betrachtet werden kann. Das Ignorieren eines Koeffizienten in einer Form bewirkt, daß kein Fehler erzeugt wird, wenn dieses Bit ungeachtet des Wertes des Datenrahmens verglichen wird. Dies kann zweckmäßig sein, wenn sprecherunabhängige Proben verwendet werden, da einige Merkmale keine offenbare Mehrheit besitzen und weniger bedeutend sein können.
Zahlreiche Abwandlungen des oben beschriebenen Systems liegen für den Fachmann auf der Hand. So ist es z. B. möglich, die cepstralen Koeffizienten eines jeweiligen Rahmens unmittelbar herzuleiten, anstatt zuerst die LPC-Transformation durchzuführen. Es können andere Transformationen als die Cepstrum- Transformation verwendet werden. So könnten z. B. die LPC-Parameter unmittelbar binärwertig gemacht werden, obwohl Versuche gezeigt haben, daß die zweite Transformation in cepstrale Parameter in den meisten Fällen zu einer besseren Erkennung führt. Es können auch Grundspektralkomponenten verwendet werden, um einen Grundmerkmalsvektor zu erzeugen, wie dies im Stand der Technik bekannt ist, wobei diesem Vektor auf die beschriebene Weise Binärwerte gegeben werden. Es kann auch die Ordnung der Transformation von 8 geändert werden, obwohl die Verwendung von 8 Bits die Berechnungen stark vereinfacht und ein Minimum an Speicherplatz in einem byteorientierten Computer erfordert.

TECHNISCHE VORTEILE

Das beschriebene System ermöglicht die Herstellung einer sehr kostengünstigen Spracherkennungseinrichtung Das Speichern von Bezugsformen und transformierten Sprachdaten ist auf ein Minimum herabgesetzt, indem alle Sprachrahmen durch binäre Koeffizienten repräsentiert werden. Der Vergleich einer Sprache mit Formen unter Verwendung einer exklusiven ODER (XOR)-Operation ermöglicht eine schnelle Arbeitsweise auf derzeitigen Mikroprozessoren. Mit diesem Vergleichsschema ist es auch möglich, däß individuelle Wörter aus einer ausgedehnten zusammenhängenden Äußerung heraus erkannt werden.
Ein genaues Einschreiben kann leicht erfolgen, indem die gleiche Hardware wie für die Erkennung verwendet wird. Ein genaues Einschreiben bringt eine wesentliche Verbesserung der Erkennungsrate des Systems mit sich. Bei Versuchssystemen, die unter Verwendung eines TMS 320C17 von Texas Instruments aufgebaut wurden, wurden Erkennungsraten über 80 % unter sehr ungünstigen Bedingungen wie Geräuschen und veränderten Sprachmustern infolge der Betonung erreicht. Dies wird in einem System mit nur 256 16-Bit-Wörtern für eine Datenspeicherung erreicht, was das Speichern aller Formen sowie der eingehenden Datenschlange miteinschließt.
Bei einem solchen System wird eine 50-Rahmen-Warteschlange zum Speichern von Sprachdaten verwendet, was zu einer maximalen erkennbaren Wortlänge von 1 Sekunde führt. Das Vokabular besteht aus 16 Wörtern und enthält 200 Wörter eines Bezugsformspeichers. Da jede Form aus einem Byte (ein halbes Wort) besteht und 40 ms Sprache repräsentiert, kann bis zu 20 Sekunden Referenzsprache in den Formen gespeichert werden. Eingehende Wörter besitzen eine zu erkennende untere Grenze von 4 Rahmen.

Claims

1. Spracherkennungssystem mit

einem A/D-Wandler (16) zum Abtasten eines Sprachsignals von einer gesprochenen Äußerung,

einer Merkmalsextraktionseinrichtung (18), die mit dem A/D-Wandler (16) gekoppelt ist, um die Sprachstichproben in Sprachrahmen einzugruppieren und für jeden Sprachrahmen Parameter einer LPC-Methode der Sprachanalyse zu erzeugen, wobei die LPC-Parameter in cepstrale Parameter umgewandelt werden und ein Rahmen von binären Merkmalskoeffizienten abgeleitet wird, indem die cepstralen Parameter in binäre Werte codiert werden, die jeweils einen Wert angeben, der größer oder kleiner als ein vorgewählter Grenzwert ist, und indem die binären Werte in die Rahmen von binären Merkmalskoeffizienten eingruppiert werden,

einer mit der Merkmalsextraktionseinrichtung gekoppelten Stapel- Warteschlange (40) zum Empfangen aufeinanderfolgender Rahmen von binären Merkmalskoeffizienten entsprechend den aufeinanderfolgenden Sprachrahmen,

einem mit der Warteschlange (40) gekoppelten Komparator (20) zum Vergleichen einer Mehrzahl von den zuletzt empfangenen Rahmen von binären Merkmalskoeffizienten mit einer Mehrzahl von Bezugsformen (22), die jeweils aus einer Mehrzahl von Rahmen von binären Koeffizienten bestehen, und zur Erzeugung einer Mehrzahl von Fehlerwerten, die die Genauigkeit der zwischen diesen gegebenen Übereinstimmung angeben, wobei nur abwechselnde Rahmen in der Warteschlange (40) von dem Komparator (20) für den Vergleich mit den Formen (22) verwendet werden und die Anzahl der abwechselnden Rahmen von der Formlänge abhängt, und

einer mit dem Komparator gekoppelten Entscheidungssteuereinrichtung (24) zum Empfangen der Ergebnisse der Vergleiche und zum Auswählen der besten Übereinstimmung zwischen einem Teil des Sprachsignals und den Bezugsformen (22).

2. System nach Anspruch 1, bei dem die Entscheidungssteuereinrichtung Mittel enthält, um den Anfang und das Ende einer Äußerung zu erfassen, wie sie durch deren akustisches Energieniveau definiert sind, und bei der die Entscheidungssteuereinrichtung eine beste Übereinstimmung erst auswählt, nachdem eine Äußerung abgeschlossen ist.

3. System nach Anspruch 2, bei dem die Entscheidungssteuereinrichtung ausgelegt ist, um eine beste Übereinstimmung nur dann auszuwählen, wenn zumindest ein Vergleich in der Warteschlange einen Fehler aufweist, der geringer als ein vorbestimmter Grenzwert ist, und um im übrigen keine Auswahl zu treffen.

4. System nach Anspruch 3, bei dem die Entscheidungssteuereinrichtung ausgelegt ist, dann keine Auswahl zu treffen, wenn die beiden Vergleiche mit den geringsten Fehlern Fehlerwerte aufweisen, die innerhalb eines vorgewählten Bereichs der jeweils anderen liegen.

5. System nach einem der vorhergehenden Ansprüche, bei dem der Komparator eine exklusive ODER-Operation zwischen den Bits jeden Rahmens jeder Bezugsform und den Bits eines entsprechenden Sprachrahmens in der Schlange ausführt, und bei dem das Fehlersignal die Anzahl von Bits angibt, die für entsprechende Rahmen der Formen und die Sprachrahmen nicht übereinstimmen.

6. Verfahren zum Erkennen gesprochenener Wörter, das die folgenden Schritte aufweist:

a) Abtasten eines Sprachsignals von einer gesprochenen Äußerung mit einem A/D-Wandler (16),

b) Eingruppieren der Sprachstichproben in Sprachrahmen und Erzeugen von Parametern einer LPC-Methode der Sprachsynthese für jeden Sprachrahmen, Umwandeln der LPC-Parameter in cepstrale Parameter und Ableiten eines Rahmens von binären Merkmalskoeffizienten durch Codieren der cepstralen Parameter in binäre Werte, die jeweils einen Wert angeben, der größer oder kleiner als ein vorgewählter Grenzwert ist, und durch Eingruppieren der binären Werte in die Rahmen von binären Merkmalskoeffizienten,

c) Empfangen von aufeinanderfolgenden Rahmen von binären Merkmalskoeffizienten entsprechend den aufeinanderfolgenden Sprachrahmen in einer Stapel-Warteschlange (40),

d) Vergleichen einer Mehrzahl der zuletzt empfangenen Rahmen von binären Merkmalskoeffizienten mit einer Mehrzahl von Bezugsformen (22), die jeweils aus einer Mehrzahl von Rahmen von binären Koeffizienten bestehen, und Erzeugen einer Mehrzahl von Fehlerwerten, die die Genauigkeit der zwischen diesen gegebenen Übereinstimmung angeben, wobei nur abwechselnde Rahmen in der Warteschlange (40) von einem Komparator (20) für den Vergleich mit den Formen (22) verwendet werden und die Anzahl der abwechselnden Rahmen von der Formlänge abhängt, und

e) auf der Grundlage der Ergebnisse des Vergleichsschrittes erfolgendes Auswählen einer solchen Form als das erkannte Wort, die den geringsten Fehlerwert erzeugt.

7. Verfahren nach Anspruch 6, bei dem die Form im Schritt (e) nur dann gewählt wird, wenn ihr Fehler geringer als ein vorbestimmter Wert ist.

8. Verfahren nach Anspruch 6 oder 7, bei dem der Vergleich des Schrittes (d) das Ausführen einer exklusiven ODER-Operation zwischen den Bits jeweiliger Sprach- und Bezugsrahmen enthält, wobei die erzeugten Fehlerwerte der Hammingabstand zwischen den entsprechenden Rahmen ist.

9. Verfahren nach Anspruch 6, bei dem die Bezugsformen durch die folgenden Schritte erhalten werden:

a) Auswählen eines einzuschreibenden Wortes und Bestimmen seiner erwarteten Länge,

b) Empfangen einer gesprochenen Äußerung einschließlich des einzuschreibenden Wortes

c) Abtasten des das Wort von der gesprochenen Äußerung repräsentierenden Sprachsignals mit einem A/D-Wandler,

d) Eingruppieren der Sprachstichproben in Sprachrahmen und Erzeugen von Parametern einer LPC-Methode der Sprachanalyse für jeden Sprachrähmen, Umwandeln der LPC-Parameter in cepstrale Parameter und Ableiten eines Rahmens von binären Merkmalskoeffizienten durch Codieren der cepstralen Parameter in binäre Werte, die jeweils einen Wert angeben, der größer oder kleiner als ein vorgewählter Grenzwert ist, und Eingruppieren der binären Werte in den Rahmen von binären Merkmalskoeffizienten,

e) Empfangen aufeinanderfolgender Rahmen von binären Merkmalskoeffizienten entsprechend den aufeinanderfolgenden Sprachrahmen,

f) Vergleichen der Länge eines Sprachsignals mit der erwarteten Länge, und

g) Einschreiben der Rahmen von binären Merkmalskoeffizienten des Sprachsignals als eine Bezugsform, wenn das Sprachsignal eine Länge besitzt, die in vorbestimmter Weise hinreichend nahe bei der erwarteten Länge liegt.

10. Verfahren nach Anspruch 9, bei dem die Schritte (b) und (c) mehrmals durchgeführt werden, und bei dem die im Schritt (d) extrahierten binären Merkmale verwendet werden, um einen zusammengesetzten Satz von binären Merkmalsrahmen zu erzeugen.

11. Verfahren nach Anspruch 10, bei dem die Mehrzahl von Äußerungen von einem einzigen Sprecher abgegeben wird.

12. Verfahren nach Anspruch 10, bei dem die Mehrzahl von Äußerungen von unterschiedlichen Sprechern abgegeben wird.