DE3732394A1

DE3732394A1 - Verfahren zur kompensation von stoergeraeuschen fuer in fahrzeugen installierte sprecherabhaengige spracherkennungssysteme

Info

Publication number: DE3732394A1
Application number: DE19873732394
Authority: DE
Inventors: Gerd-Stefan Kunz
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1987-09-25
Filing date: 1987-09-25
Publication date: 1989-04-06

Description

Die Erfindung betrifft ein Verfahren zur Kompensation von Störgeräuschen für in Fahrzeugen installierte sprecherabhängige Spracherkennungssysteme.

Derartige sprechabhängige Spracherkennungssysteme arbeiten prinzipiell derart, daß eine erstmalige Spracheingabe innerhalb einer Lernphase erfolgt, in der die Merkmale der zu erkennenden Worte analysiert und in einen Referenzspeicher geladen werden. In sogenannten späteren Erkennungsphasen werden die relevanten Merkmale eingegebener Wörter sogenannte Analyseparameter mit den abgespeicherten Referenzmustern verglichen und der jewei lige Ähnlichkeitsgrad festgestellt. Innerhalb einer Umgebung, in der die Störgeräusche annähernd konstant sind, arbeiten die heutigen Spracherkennungssysteme zufriedenstellend. Die Er kennungsdaten der heutigen Spracherkennungssysteme sinken aber drastisch herab, wenn sich die Umgebungsgeräusche während der Lernphase und der Erkennungsphase wesentlich unterscheiden. Dies ist z. B. in einem Kraftfahrzeug der Fall, bei dem unter schiedliche Betriebsarten von z. B. Standbetrieb bis Autobahn betrieb mit unterschiedlichster Geräuschbelastung möglich sind.

Aufgabe der vorliegende Erfindung ist es, ein Verfahren der eingangs genannten Art anzugeben, welches die Anwendung sprecherabhängiger Spracherkennungssysteme z. B. in Kraftfahr zeugen ermöglicht.

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß das im Fahrzeug maximal auftretende Störgeräusch einmalig abge speichert wird, und daß nach jeder Aktivierung des Spracher kennungssystems vor einer Spracheingabe die Differenz zwischen dem jeweils aktuellen Störsignal und dem dem maximal auf tretenden Störgeräusch entsprechenden Störsignal zum aktuellen Störsignal hinzu addiert wird.

Durch das erfindungsgemäße Verfahren wird erreicht, daß am Eingang des Spracherkennungssystems immer ein konstanter Stör pegel anliegt. Hierdurch ergeben sich sowohl in ruhiger Umgebung (Standbetrieb) als auch in maximaler Störumgebung (Autobahnbetrieb) immer identische Verhältnisse für das Sprach erkennungssystem während unterschiedlicher Erkennungsvorgänge. Die Anwendung eines Spracherkennungssystems, bei dem das er findungsgemäße Verfahren Anwendung findet, kann z. B. zum An steuern eines Autotelefons dienen, wodurch sich für den Fahrer eine erhebliche Entlastung bei der Bedienung des Gerätes ver bunden mit einer Erhöhung der Fahrsicherheit ergibt.

Eine zweckmäßige Schaltungsanordnung zur Durchführung des Ver fahrens gemäß der vorliegenden Erfindung ist dadurch gekenn zeichnet, daß das dem maximal auftretenden Störgeräusch ent sprechende Störsignal in einem Rauschgenerator abgespeichert ist und über ein spannungsgesteuertes Dämpfungsglied einer Addierschaltung zugeführt wird, während das aktuelle Störsignal über ein Nahbesprechungsmikrofon und einem nachgeschalteten Mikrofonverstärker der Addierschaltung zugeführt wird, wobei das spannungsgesteuerte Dämpfungsglied von in zwei Gleich richterschaltungen erzeugten den beiden Störsignalen proportionalen Gleichspannungssignalen angesteuert wird, und das Ausgangssignal der Addierschaltung dem eigentlichen Eingang des Spracherkennungssystems zugeleitet wird. Eine derartige gemäß der vorliegenden Erfindung aufgebaute Schaltungsanordnung ermöglicht ohne großen technischen Schaltungsaufwand die Ein haltung eines konstanten Störpegels am Eingang des Spracher kennungssystems.

Eine andere zweckmäßige Ausgestaltung der Erfindung ist dadurch gekennzeichnet, daß zwischen der Gleichrichterschaltung für das aktuelle Störsignal und dem spannungsgesteuerten Dämpfungsglied ein Speicher angeordnet ist. Auf diese Weise wird erreicht, daß während einer Spracheingabe, die in der Regel aus einem Wort besteht, die Störsignalkompensation konstant gehalten wird, da man in der Regel davon ausgehen kann, daß sich während einer Spracheingabe die Umgebungsgeräusche nicht wesentlich ändern.

Die Erfindung wird nachfolgend anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher erläutert.

Die dargestellte Figur zeigt den prizipiellen Aufbau einer Eingangsschaltung ES, mit der das erfindungsgemäße Verfahren durchgeführt werden kann, sowie ein beliebiges Spracherkennungs system SES.

Auf den genauen Aufbau des Spracherkennungssystems soll im folgenden nur kurz eingegangen werden, da dieser Aufbau das erfindungsgemäße Verfahren nicht betrifft und den einschlägigen Fachleuten bekannt sein dürfte. Ein sprecherabhängiges Sprach erkennungssystem besteht im wesentlichen aus drei Bausteinen, einem Analog-Interface, einem Arithmetikprozessor und einem Controller nebst einem Referenzspeicher. Durch das Anwender system wird das Spracherkennungssystem über die Befehle Ver stärkungseinstellung, Lernen und Erkennen gesteuert. Die Ver stärkungseinstellung bewirkt eine Anpassung des Signalpegels an die individuelle Sprachlautstärke, außerdem wird ein Pegel schwellwert berechnet, der eine Wortgrenzendetektion ermöglicht. Ein sprecherabhängiges Spracherkennungssytem erfordert eine Lernphase, in der die Merkmale der zu erkennenden Worte analysiert und in den Referenzspeicher geladen werden. In der Erkennungsphase werden die relevanten Merkmale des eingegebenen Wortes mit den abgespeicherten Referenzmustern verglichen und der Ähnlichkeitsgrad festgestellt.

Mittels des Analog-Interface erfolgt die Verstärkungseinstellung sowie eine spektrale Entzerrung und eine Begrenzung des Frequenzbereichs des Sprachsignals auf z. B. 5 kHz als Vorbe dingung für die anschließende Digitalisierung des Sprachsignals, die z. B. durch Abtastung mit einer Frequenz von 10 kHz und einer logarithmischen Quantisierung mit 8 Bit Auflösung erfol gen kann. Der Artithmetikprozessor führt eine Spektralanalyse der digitalisierten Sprache und den Vergleich der Sprachmuster in der Erkennungsphase durch. Während der Sprachanalyse wird z. B. alle 10 Millisekunden ein Satz spektraler Intensitätswerte ausgegeben und dem nachfolgenden Controller zugeführt. Der Controller steuert die beiden anderen Bausteine, empfängt Commandos vom Anwendersystem, verwaltete den Referenzspeicher und sendet das Ergebnis der Einzelworterkennung an das Anwendersystem.

Nachfolgend wird der Aufbau der Eingangsschaltung ES be schrieben. Voraussetzung für die einwandfreie Funktion des nachgeschalteten Spracherkennungssystems SES ist das einmalige Abspeichern des maximal im Auto auftretenden Umgebungsgeräusches in einem Rauschgenerator RG. Das einmalige Abspeichern kann z. B. über einen Zeitraum von ca. 10 Millisekunden Dauer bei Autobahnbetrieb erfolgen. Im Rauschgenerator RG erfolgt dann eine Wiedergabe dieser aufgenommenen Sequenz im "Endlosschleifen betrieb". Dabei kann die Abspeicherung sowohl analog als auch, was technisch einfacher zu realisieren ist, digital abgespeichert werden. Der Rauschgenerator RG erzeugt an seinem Ausgang ein maximal auftretendes Störsignal, das über ein spannungsgesteuer tes Dämpfungsglied DG einem Eingang einer Addierschaltung Add zugeführt wird. Das jeweils aktuelle Störsignal wird über ein Nahbesprechungsmikrofon M, welches z. B. im Handapparat eines Autotelefons angeordnet ist, und einen Mikrofonverstärker MV einem zweiten Eingang der Addierschaltung Add zugeführt.

Mit Aktivierung des Spracherkennungssystems SES und vor einer Spracheingabe, wird auch die Eingangsschaltung ES aktiviert und das jeweils aktuelle Störsignal der Addierschaltung Add zugeführt. Gleichzeitig werden mit Hilfe der beiden Gleich richterschaltungen GS 1 und GS 2 proportionale Gleichspannungen zur Ansteuerung des Dämpfungsgliedes DG gebildet. Hierbei repräsentieren die jeweiligen proportionalen Gleichspannungen die Größe der beidenStörsignale. Das spannungsgesteuerte Dämpfungsglied DG arbeitet nun derart, daß bei kleiner werden dem aktuellem Störsignal der Anzahl des maximal auftretenden Störsignals, welcher der Addierschaltung Add zugeführt wird, so eingestellt wird, daß am Ausgang der Addierschaltung Add immer ein Störsignal mit gleichem Pegel anliegt.

Mit Hilfe dieser Eingangsschaltung ES ist es also möglich, sowohl für die Lern- als auch für die Erkennungsphase am Eingang eines Spracherkennungssystems gleiche "Umgebungsverhältnisse" zu schaffen, so daß eine sichere Worterkennung gewährleistet ist.

Der Speicher Sp dient dazu, die das aktuelle Störsignal re präsentierende proportionale Gleichspannung während der nach folgenden Spracheingabe konstant zu halten, da vorausgesetzt wird, daß während einer Spracheingabe von einem Wort keine wesentlichen Änderungen der aktuellen Umgebungsgeräusche ein treten.

Bei der Anwendung der vorliegenden Erfindung stand die Anwendung von Spracheingabe in Verbindung mit einem Autotelefon zur Entlastung des Fahrers bei Bedienung des Gerätes im Vorder grund. Denkbar ist jedoch auch die Anwendung des erfindungsge mäßen Verfahrens mit einem Spracherkennungssystem in Verbindung mit anderen Anwendersystemen.

Durch den Einsatz von Spracheingabe bei Autotelefonen reduziert sich der Wählvorgang auf das Abnehmen des Handapparates und das anschließende Einsprechen des gewünschten Teilnehmernamens bzw. der Teilnehmerziffern. Nach der Erkennung stellt das System automatisch die betreffende Telefonverbindung her, so daß der Fahrer während des ganzen Vorgangs seine uneingeschränkte Aufmerksamkeit dem Straßenverkehr widmen kann. Eine Wahlwieder holung im Falle eines erfolglosen Rufes könnte ebenfalls durch Spracheingabe aktiviert werden.

Claims

1. Verfahren zur Kompensation von Störgeräuschen für in Fahr zeugen installierte sprecherabhängige Spracherkennungssysteme, dadurch gekennzeichnet, daß das im Fahrzeug maximal auftretende Störgeräusch einmalig abgespeichert wird und daß nach jeder Aktivierung des Spracherkennungssystems vor einer Spracheingabe die Differenz zwischen dem jeweils aktuellen Störsignal und dem dem maximal auftretenden Stör geräusch entsprechenden Störsignal zum aktuellen Störsignal hinzuaddiert wird.

2. Schaltungsanordnung zur Durchführung des Verfahrens nach Anspruch 1, dadurch gekennzeichnet, daß das dem maximal auftretenden Störgeräusch entsprechende Störsignal in einem Rauschgenerator (RG) abgespeichert ist und über ein spannungsgesteuertes Dämpfungsglied (DG) einer Addierschaltung (Add) zugeführt wird, während das aktuelle Störsignal über ein Nahbesprechungsmikrofon (M) und einen nachgeschalteten Mikro fonverstärker (MV) der Addierschaltung (Add) zugeführt wird, wobei das spannungsgesteuerte Dämpfungsglied (DG) von in zwei Gleichrichterschaltungen (GS 1, GS 2) erzeugten den beiden Stör signalen proportionalen Gleichspannungssignalen gesteuert wird, und das Ausgangssignal der Addierschaltung (Add) dem eigent lichen Eingang des Spracherkennungssystems zugeleitet wird.

3. Schaltungsanordnung nach Anspruch 2, dadurch gekennzeichnet, daß zwischen der Gleichrichterschaltung (GS 1) für das aktuelle Störsignal und dem spannungsgesteuerten Dämpfungsglied (DG) ein Speicher (Sp) angeordnet ist.