DE19751536C2

DE19751536C2 - Spracherkennungspegelsteuervorrichtung in einem Spracherkennungstelefongerät und zugehöriges Steuerverfahren

Info

Publication number: DE19751536C2
Application number: DE1997151536
Authority: DE
Inventors: Young-Moo Ryu
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1997-02-26
Filing date: 1997-11-20
Publication date: 2001-08-16
Anticipated expiration: 2017-11-21
Also published as: SE9704601L; KR19980069035A; SE9704601D0; DE19751536A1; KR100217734B1; SE520405C2

Description

Die vorliegende Erfindung bezieht sich auf ein Spracherken nungstelefongerät und insbesondere auf eine Spracherkennungs vorrichtung und ein dafür verwendetes Steuerverfahren durch das Einstellen des Referenzspracherkennungspegels in Abhän gigkeit vom Umgebungslärm, wenn der orale eingegebene (nach folgend als "gesprochen" bezeichnet) Sprachbefehl mit dem re gistrierten Sprachbefehl verglichen wird.

Im allgemeinen ist das Spracherkennungstelefon ein Telefon, das Funktionen durchführen kann, wie Lauthören und ein Ab spielen der automatischen Antwortnachricht in Erwiderung auf den gesprochenen Befehl des Benutzers.

Die Funktionsweise des konventionellen Spracherkennungstele fons wird nachfolgend beschrieben. Als erstes geht für den anfänglichen Registrierprozeß des Referenzsprachbefehls, wenn erkannt wird, daß die Funktionstaste und die Einstelltaste durch den Benutzer gedrückt werden, die Spracherkennungsein heit in die Sprachbefehlsaufzeichnungsbetriebsart, wobei, wenn Sprachbefehle durch das externe Mikrofon eingegeben wer den und danach die Beendigungstaste gedrückt wird, die einge gebenen Sprachbefehle in digitale Daten umgewandelt werden, so daß sie aufgezeichnet/registriert werden. Wenn die Auf zeichnung solcher Sprachbefehle beendet ist, werden die auf gezeichneten Sprachbefehle abgespielt, um durch den Benutzer bestätigt zu werden. Beispielsweise stellt sich das Aufzeichnungsverfahren eines Sprachbefehls, der das Abspielen des au tomatischen Anrufbeantworters bewirkt, wie folgt dar: Drücken des Sprachbefehlsaufzeichnungsknopfes unter den Funktionsta sten → Drücken des Einstellknopfes "*" → Drücken des beab sichtigten Funktionsknopfes (das ist der Abspielknopf) → Sprechen des Wortes "Abspielen" in das Mikrofon → Drücken des Beendigungsknopfes "#".

Um das Verfahren des Durchführens des gesprochenen Befehls zu beschreiben, wenn der gesprochene Befehl durch den Benutzer eingegeben wird, wird dieser mit dem aufgezeichne ten/registrierten Sprachbefehl verglichen, wobei der gespro chene Befehl durchgeführt wird, wenn beide gleich sind. Die Identität des gesprochenen Befehls mit dem registrierten Sprachbefehl wird beurteilt durch Vergleichen von Sprachkenn zeichen, basierend auf verschiedenen Frequenzen in Abhängig keit von der Lautstärke und dem Ton.

Wenn beispielsweise der Benutzer "Abspielen" in das Mikrofon spricht, werden der gesprochene Befehl "Abspielen" und die registrierte Sprache "Abspielen" miteinander im Hinblick auf Sprachkennzeichen verglichen, und wenn es sich erweist, daß beide identisch sind, so wird die automatische Antwortvor richtung gestartet, um aufgezeichnete Nachrichten abzuspie len, wohingegen wenn beide nicht identisch sind, der gespro chene Befehl "Abspielen" ignoriert wird.

Der Spracherkennungspegel, der als Referenz für das Beurtei len von Sprachkennzeichen verwendet wird, ist voreingestellt. Wenn beispielsweise der Spracherkennungspegel auf 70% einge stellt wird, so wird der gesprochende Befehl, wenn er zu 70% oder mehr mit dem registrierten Befehl identisch ist, akzep tiert. Wie oben erwähnt, muß im Falle eines höheren Spracher kennungspegels der gesprochene Befehl eine größere Identität mit dem registrierten Befehl haben, um akzeptiert zu werden, wohingegen im Falle eines niedrigeren Spracherkennungspegels der gesprochene Befehl trotz seiner niedrigereren Identität mit dem registrierten Sprachbefehl akzeptiert werden kann.

Das heißt, wenn der Spracherkennungspegel höher ist, so kann der gesprochene Befehl korrekt ausgeführt werden, aber die Erkennungsrate ist geringer, und im Gegensatz dazu ist, wenn der Spracherkennungspegel niedriger ist, die Erkennungsrate höher, aber es werden Fehlfunktionen verursacht.

Das konventionelle Spracherkennungstelefon, wie es oben er wähnt wurde, hat den Nachteil, daß die Spracherkennungsrate eines gesprochenen Befehls niedriger wird durch die Lärmmi schung im Falle eines niedrigeren Signal-Rausch-(S/N)-Ver hältnisses, wenn der Benutzer den anfänglichen Sprachbefehl als Referenzspracherkennungspegel registriert. Weiterhin wird im Falle eines niedrigeren S/N-Verhältnisses des tatsächlich gesprochenen Befehls die Spracherkennungsrate niedrig, obwohl der Referenzspracherkennungspegel anfänglich mit einem höhe ren S/N-Verhältnis aufgezeichnet wurde.

Die EP 0 078 014 A1 beschreibt ein Spracherkennungssystem für ein Fahrzeug. Zur Erhöhung der Zuverlässigkeit wird die Verstärkung eines Verstärkers bei steigendem Lärmpegel verringert oder der Schwellwert für die Spracherkennung so geschaltet, daß er unempfindlicher auf Sprachbefehle reagiert. Dies soll bezwecken, daß der Fahrer gezwungen wird, seine Sprachbefehle lauter auszusprechen.

Die DE 38 02 903 C2 beschreibt eine Einrichtung zur Übertragung von Sprache. Es werden Schwellwertschalter eingesetzt, um festzustellen, ob in bestimmten Frequenzbereichen Spektralanteile der Sprache vorhanden sind. Wenn Sprachanteile festgestellt werden, wird dieser Frequenzbereich unterdrückt.

Die Aufgabe der vorliegenden Erfindung besteht darin, eine Spracherkennungsvorrichtung und zugehöriges Verfahren zu liefern, die die Spracherkennungsrate verbessert.

Diese Aufgabe wird durch die Vorrichtung nach Anspruch 1 und das Verfahren nach Anspruch 3 gelöst. Bevorzugte Ausführungsformen sind Gegenstand der Unteransprüche.

Fig. 1 zeigt ein Blockdiagramm, das ein Spracherkennungstele fongerät gemäß einer Ausführungsform der vorliegenden Erfin dung zeigt; und

Fig. 2 zeigt ein Flußdiagramm, das das Verfahren des Steuerns des Spracherkennungspegels gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.

Die Konfiguration eines Spracherkennungstelefongerätes gemäß einer Ausführungsform der vorliegenden Erfindung wird nach folgend unter Bezug auf Fig. 1 beschrieben. Die Steuerung 10 steuert den gesamten Betrieb des Spracherkennungstelefonge räts mittels des im Speicher 34 gespeicherten Steuerpro gramms. Der Sprechkreis 14 bildet eine Schnittstelle ver schiedener Tonsignale, Sprachsignale, etc. unter der Steue rung der Steuerung 10. Das Gabelrelais H/S bildet oder unter bricht mechanisch den Sprachkanal zwischen dem Sprechkreis 14 und der Telefonleitung, wenn der Handapparat abgehoben wird. Das Sprechrelais bildet oder unterbricht den Sprachkanal zwi schen dem Sprechkreis 14 und der Telefonleitung unter der Steuerung der Steuerung 10. Das Mikrofon 16 wandelt das Sprachsignal in ein elektrisches Signal, und der Lautsprecher 18 wandelt das elektrische Signal in ein Tonsignal, um einen hörbaren Ton zu erzeugen. Der Läutesignaldetektor 34 ist mit der Telefonleitung verbunden, die zum Gabelrelais H/S führt, um somit das Läutesignal zu erkennen, das durch die Telefonleitung empfangen wird, um es weiter an die Steuerung 10 zu geben.

Die ersten und zweiten CODECs 20, 22 wandeln das analoge (Ton-) Signal in ein digitales Signal und umgekehrt. Der Sprachbefehlserkennungsprozessor 24 verarbeitet den digitali sierten Sprachbefehl, der von den ersten und zweiten CODECs 20, 22 empfangen wird, und zeichnet das sich ergebende Signal im Tonspeicher 26 auf, oder er erkennt den Eingabesprachbe fehl auf der Basis des Spracherkennungspegels, der von der Steuerung 10 geliefert wird. Wenn der Eingabesprachbefehl mit dem registrierten Sprachbefehl, der im Tonspeicher 26 gespei chert ist, identifiziert wird, so überführt der obige Sprach befehlserkennungsprozessor 24 Daten, die die Ausführung des Eingabesprachbefehls bewirken, an die Steuerung 10.

Der Lärmpegeldetektor 28 besteht aus einem DC-Gleichrichter (Gleichstromgleichrichter) 30 und einem A/D-Wandler 32, um somit das Pegelsignal als numerische Daten gemäß dem Ton signalpegel, der vom externen Mikrofon 16 eingegeben wird, zu erzeugen. Der DC-Gleichrichter 30 wandelt das analoge Ton signal, das vom Mikrofon 16 angelegt wird, in ein DC-Signal (Gleichstromsignal). Der A/D-Wandler 32 wandelt den Signalpe gel, basierend auf der Größe des DC-Signals, das durch den DC-Gleichrichter 30 angelegt wird, in ein digitales Signal in Form numerischer Daten, um so das Pegelsignal auszugeben. Ge wöhnlicherweise wird der A/D Wandler, der in der Steuerung vorgesehen ist, verwendet, oder es kann ein getrennter A/D- Wandler zusätzlich vorgesehen werden. Der Speicher 36 spei chert Steuerprogramme und Daten, die vom Betrieb des Telefon geräts herrühren. Das Tasteneingabefeld 38 erzeugt Tastenbe fehle und Tastendaten für das Steuern des Betriebs des Tele fongeräts. Das Anzeigefenster 40 zeigt die aktuellen Be triebszustände des Telefons unter der Steuerung der Steuerung 10 an.

Nachfolgend wird der Betrieb eines Spracherkennungstelefonge rätes gemäß einer Ausführungsform der vorliegenden Erfindung im Detail unter Bezug auf Fig. 1 erläutert. Als erstes geht für das anfängliche Registrierverfahren des Referenzsprachbe fehls, wenn erkannt wurde, daß die Funktionstaste und die Einstelltaste durch den Benutzer in der Wartestellung ge drückt wurden, der Sprachbefehlserkennungsprozessor 24 in die Sprachbefehlsaufzeichnungsbetriebsart über, wobei der durch den Benutzer eingegebene Referenzsprachbefehl zum ersten CODEC 20 geliefert wird, der den obigen analogen Sprachbefehl in einen digitalen Sprachbefehl umwandelt, um daraufhin den digitalisierten Sprachbefehl an den Sprachbefehlserkennungs prozessor 24 zu liefern. Und wenn der Benutzer den Beendi gungsknopf auf dem Tasteneingabefeld 38 drückt, speichert der Sprachbefehlserkennungsprozessor 24 einen solchen digitali sierten Sprachbefehl im Tonspeicher 26 unter der Steuerung der Steuerung 10.

Unter Bezug auf Fig. 2 wird der Betrieb des Spracherkennungs telefongeräts in Erwiderung auf die Anforderung für das Aus führen des durch den Benutzer eingegebenen Sprachbefehls nachfolgend beschrieben. Als erstes wird das Verfahren des Erkennens des Lärmpegels in den Schritten 214-220 beschrie ben. Wenn in Schritt 214 ein spezifiziertes Zeitintervall vergangen ist, so geht die Steuerung 10 zu Schritt 216. Die Prüfung des Ablaufs eines spezifizierten Zeitintervalls (ge wöhnlicherweise einige Millisekunden) dient dazu, das Lärmpe gelerkennungsverfahren periodisch in solchen Zeitintervallen durchzuführen. In Schritt 216 erkennt die Steuerung 10 den Signalpegel basierend auf der Größe des Lärms, der vom Mikro fon 16 eingegeben wird.

Wie beim Lärmpegelerkennungsverfahren wird das vom Mikrofon 16 eingegebene Lärmsignal an den DC-Gleichrichter 30 gegeben, wobei die Direktstromkomponente eliminiert wird, und das sich ergebende Lärmsignal ohne Gleichstromkomponente an den A/D- Wandler 32 geliefert wird, wodurch es in binäre Zifferndaten umgewandelt wird, die aus einer spezifizierten Zahl von Bits bestehen, die Lärmpegel entsprechen, um dann weiter zur Steuerung 10 übertragen zu werden. Die Zahl der Bits, die die obigen Lärmpegel darstellt, wird durch die Zahl der Stufen der Spracherkennungspegel bestimmt. Beispielsweise können, wenn die Spracherkennungspegel in vier Stufen klassifiziert sind, die Sprachpegel durch binäre Zifferndaten von zwei Bits dargestellt werden. Wie oben beschrieben wurde, geht, wenn der Lärmpegel in Schritt 216 erkannt wird, die Steuerung 10 zu Schritt 218 weiter, um ein solches Lärmsignal im Speicher 36 oder einem internen Hilfspuffer zu speichern.

Nach dem Speichern eines solchen erkannten Lärmpegelsignals, geht die Steuerung 10 zu Schritt 220 weiter, um dem Sprachbe fehlserkennungsprozessor 24 den relevanten Spracherken nungspegel, der dem so erkannten Lärmpegel entspricht, mit tels einer Lärmpegelstufentabelle, die im Speicher 36 aufge zeichnet ist, mitzuteilen. Wenn die Steuerung 10 beispiels weise binäre Zifferndaten "01" vom Lärmpegeldetektor 28 empfängt, so liefert sie den Spracherkennungspegel der zwei ten Stufe, wie das in der folgenden Tabelle 1 aufgelistet ist, an den Sprachbefehlserkennungsprozessor 24. Ein Beispiel der Spracherkennungspegel gemäß den Lärmpegeln ist in der folgenden Tabelle 1 aufgelistet.

TABELLE 1

Als nächstes wird das Verfahren des Ausführens des Sprachbe fehls in den Schritten 212-222 beschrieben. In Schritt 212 prüft die Steuerung 10, ob der Spracherkennungsbefehl vom Sprachbefehlserkennungsprozessor 24 empfangen wird.

Um das Verfahren der Ausgabe des Sprachbefehls vom Sprachbe fehlserkennungsprozessor 24 zu beschreiben, wird der vom Mi krofon 16 eingegebene Sprachbefehl zunächst an den CODEC 20 angelegt, um in ein digitales Signal umgewandelt zu werden. Dann wird der vom ersten CODEC 20 ausgegebene digitalisierte Sprachbefehl weiter an den Sprachbefehlserkennungsprozessor 24 angelegt, der dann einen solchen digitalisierten Sprachbe fehl mit dem Spracherkennungspegel, der von der Steuerung 10 empfangen wird, nach dem Durchführen von Schritt 220 ver gleicht. Da ein solches Sprachbefehlserkennungsverfahren durch Vergleichen des eingegebenen (gesprochenen) Sprachbe fehls mit dem registrierten Sprachbefehl eine konventionelle Technik für die Spracherkennungstelefongeräte darstellt, wird hier keine detaillierte Beschreibung gegeben. Zusammenfassend kann man sagen, wenn der Spracherkennungspegel der zweiten Stufe, auf den durch die Steuerung 10 Bezug genommen wird, beispielsweise auf 80% eingestellt wird, so prüft der Sprach befehlserkennungsprozessor 24, ob sich die Sprachkennzeichen des gesprochenen und des gespeicherten Sprachbefehls zu 80% oder mehr ähneln. Wenn ermittelt wird, daß die gesprochenen und registrierten Sprachbefehle identisch sind, so liefert der Sprachbefehlserkennungsprozessor 24 den Spracherkennungs befehl an die Steuerung 10.

Daraufhin geht die Steuerung 10, wenn sie den Spracherken nungsbefehl in Schritt 212 empfängt, zu Schritt 222, um einen solchen Spracherkennungsbefehl nach der auszuführenden Funk tion zu analysieren, und nach Beendigung der Analyse geht die Steuerung 10 zu Schritt 224 weiter, um die als Ergebnis der Analyse angeforderte Funktion auszuführen. Es erfolgt keine detaillierte Beschreibung des Verfahrens der Schritte 222 und 224, da sie auf einer konventionellen Technik beruhen.

Wie oben beschrieben wurde, hat die vorliegende Erfindung den Vorteil, daß der Spracherkennungspegel unter Berücksichtigung des Umgebungslärmpegels eingestellt werden kann, um somit den Effekt des Umgebungslärms zu minimieren und somit die Sprach erkennungsrate zu verbessern.

Claims

1. Vorrichtung zur Steuerung des Spracherkennungspegels eines Spracherken nungstelefongerätes in Abhängigkeit vom Umgebungslärm, umfassend:
ein Mikrofon (16) zum Umwandeln von akustischen Signalen in elektrische Signale;
einen Tonspeicher (26) für das Aufzeichnen von Referenzsprachbefehlen und Sprachbefehlen als elektrische Signale;
einen Sprachbefehlserkennungsprozessor (24) für das Verarbeiten des elek trischen Signals;
gekennzeichnet durch einen Lärmpegeldetektor (28) für das Erkennen des Pegels des Umgebungslärmes, der durch das Mikrofon (16) eingegeben wird;
eine Steuerung (10) für das Bestimmen des Spracherkennungspegels gemäß dem erkannten Lärmpegel; und
daß der Spracherkennungsprozessor (24) den bestimmten Spracherken nungspegel als einen Mindestwert einer Gleichheit zwischen dem Referenz sprachbefehl und dem Sprachbefehl verwendet.

2. Vorrichtung zur Steuerung des Spracherkennungspegels in Abhängigkeit vom Umgebungslärm nach Anspruch 1, wobei der Lärmpegeldetektor (28) folgen des umfaßt:
einen DC-Gleichrichter (Gleichstromgleichrichter) (30) für das Eliminieren ei ner Gleichstromkomponente aus dem Umgebungslärm; und
einen Analog/Digital-Wandler (32) für das Umwandeln des Umgebungslärms ohne die Gleichstromkomponente in binäre Zifferndaten, die dem Lärmpegel entsprechen.

3. Verfahren in einem Spracherkennungstelefongerät zur Steuerung eines Spra cherkennungspegels in Abhängigkeit vom Umgebungslärm, wobei das Ver fahren folgende Schritte umfaßt:
Umwandeln eines Sprachbefehls in ein elektrisches Signal in einem Mikrofon (16);
Aufzeichnung von Referenzsprachbefehlen als elektrische Signale in einem Tonspeicher (26); und
Verarbeiten der elektrischen Signale in einem Sprachbefehlerkennungspro zessor (25);
gekennzeichnet durch:
periodisches Erkennen des Umgebungslärmpegels (216) durch einen Lärm pegeldetektor (28) in spezifizierten Zeitintervallen;
Bestimmen in einer Steuerung (10) des Spracherkennungspegels (220), der dem Lärmpegel entspricht, basierend auf dem Umgebungslärmpegel; und
Vergleichen (200, 220) der Ähnlichkeit des Sprachbefehls und des Referenz sprachbefehls, auf der Basis des Spracherkennungspegels, in dem Sprachbe fehlserkennungsprozessor (24).

4. Verfahren nach Anspruch 3, welches folgende weitere Schritte umfaßt: vorübergehendes Speichern des erkannten Lärmpegels.

5. Verfahren nach Anspruch 3 oder 4, welches folgende weitere Schritte umfaßt;
Erkennen des Sprachbefehls als einen Referenzsprachbefehl, wenn die Ähnlichkeit größer oder gleich dem Spracherkennungspegel ist;
Ausführen (224) des erkannten Sprachbefehls.