DE10134908A1

DE10134908A1 - Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden

Info

Publication number: DE10134908A1
Application number: DE10134908A
Authority: DE
Inventors: Norihide Kitaoka; Hiroshi Ohno
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2000-07-21
Filing date: 2001-07-18
Publication date: 2002-04-25
Anticipated expiration: 2021-07-19
Also published as: US6937982B2; JP3567864B2; US20020010579A1; DE10134908B4; JP2002041085A

Abstract

Eine Sparacherkennungsvorrichtung (18) erkennt ein von einem Sprecher empfangenes Sprachsignal und stellt das Ergebnis der Erkennung einem externen Gerät (1) bereit. Bei der Vorrichtung führt ein Musteranpassungsabschnitt (21) eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und charakteristischen Parametern durch, welche aus dem Sprachsignal extrahiert werden. Das Wörterverzeichnis enthält Bezugsmuster entsprechend den Wörtern. Des weiteren besitzt die Vorrichtung eine ähnliche Klanggruppe, welche Bezugsmuster entsprechend dem Klang ähnlich demjenigen eines bestimmten Worts enthält. Das bestimmte Wort ist ein Wort, auf dessen Ansprechen das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht rückgängig gemacht werden kann. Das Sprachsignal wird unter Verwendung der ähnlichen Klanggruppe wiedererkannt. Als Ergebnis gibt der Musteranpassungsabschnitt (21) ein Wort außer dem bestimmten Wort aus, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine große Ähnlichkeit zu den charakteristischen Parametern besitzt.

Description

Die vorliegende Erfindung bezieht sich auf eine Sprach erkennungsvorrichtung und -verfahren.

Eine herkömmliche Spracherkennungsvorrichtung und -ver fahren, welches als Schnittstelle zwischen Mensch und Ma schine verwendet wird, analysiert ein über ein Mikrofon empfangenes Sprachsignal und extrahiert charakteristische Parameter aus dem Sprachsignal. Die charakteristischen Pa rameter werden mit Bezugsmustern bzw. -strukturen in einem Wörterverzeichnis, das in einem Wörterbuchabschnitt der Vorrichtung gespeichert ist, verglichen, und eins oder meh rere Wörter, welche den Bezugsmustern entsprechen, die hohe Ähnlichkeiten mit den extrahierten charakteristischen Para metern aufweisen, werden ausgewählt und ausgegeben. Die Vorrichtung wählt im allgemeinen wenigstens ein Wort sogar dann aus und gibt es aus, wenn kein Bezugsmuster in dem Wörterverzeichnis eine hohe Ähnlichkeit mit den charakteri stischen Parametern besitzt. In diesem Fall wird das Sprachsignal oft falsch erkannt. Des weiteren wird das Sprachsignal oft infolge eines Hintergrundrauschens falsch erkannt. Wenn das Ergebnis der Fehlerkennung zur Steuerung eines externen Geräts verwendet wird, kann der Betrieb des externen Geräts ungünstig und ernsthaft beeinflusst werden.

Beispielsweise wird die Spracherkennungsvorrichtung für ein Fahrzeugnavigationssystem verwendet, welches eine Sprachsteuerungsfunktion zum Empfangen von Sprache als Ein gangssteuerungssignal und zum Ausgeben von Sprache als Frage an einen Benutzer oder als Antwort auf die Anfrage eines Benutzers besitzt. Wenn der Benutzer "shukushou" sagt, was "reduzieren" bedeutet, so dass die Karte redu ziert wird, kann dies als "jitaku" falsch verstanden wer den, was das Haus des Benutzers bedeutet. In diesem Fall legt die Vorrichtung die Route zu dem Ziel ab und sucht er neut eine Route zu dem Haus des Benutzers, wenn die Vor richtung derart gestaltet ist, dass sie ein Befehl sofort im Ansprechen auf das eingegebene Sprachsignal ausführt. Auf diese Weise wird die Route zu dem Ziel entgegen dem Willen des Benutzers abgelegt.

Wenn das Gerät derart gestaltet ist, dass der Wille des Benutzers bestätigt wird, wird beispielsweise gefragt: "Ihr Haus wird als Ziel festgelegt. Ok?". Wenn der Benutzer "iee" sagt, was "NEIN" als Antwort auf die Frage bedeutet, geht die Vorrichtung in einen Wartezustand über, ohne das eine Route zu dem Haus des Benutzers gesucht wird. Jedoch kann die Vorrichtung die Antwort eines Benutzers als "hai" falsch erkennen, was "JA" bedeutet, wenn der Benutzer "shukushou" wiederum als Antwort auf die Frage durch einen Fehler sagt. In diesem Fall wird die Route zu dem Ziel ebenfalls abgelegt.

Auf diese Weise kann das externe Gerät gegen den Willen des Benutzers arbeiten, wenn das Sprachsignal von dem Be nutzer als bestimmtes Wort wie "hai", das in dem Wörterver zeichnis enthalten ist, falsch erkannt wird. Daher wird es bevorzugt, dass die Spracherkennungsvorrichtung eine Tech nik verwendet, die verhindert, dass das externe Gerät einen fehlerhaften Betrieb, der nicht leicht rückgängig (undone) gemacht werden kann, gegen den Willen des Benutzers im An sprechen auf das Ergebnis der Fehlerkennung durchführt.

Dementsprechend ist es Aufgabe der vorliegenden Erfin dung eine Spracherkennungsvorrichtung bereitzustellen, wel che ein eingegebenes Sprachsignal als bestimmtes Wort in dem Wörterverzeichnis selten falsch erkennt. Ebenfalls ist es Aufgabe der vorliegenden Erfindung ein Aufzeichnungsme dium bereitzustellen, welches ein Programm und Daten zur Implementierung einer Hauptfunktion der Spracherkennungs vorrichtung in einem Computersystem speichert.

In einer Spracherkennungsvorrichtung der vorliegenden Erfindung führt ein Musteranpassungsabschnitt eine Muster anpassung zwischen jedem von Bezugsmustern in einem Wörter verzeichnis und den extrahierten charakteristischen Parame tern eines Sprachsignals durch. Das Wörterverzeichnis ist im voraus gespeichert und enthält die Bezugsmuster entspre chend den Wörtern, welche identifiziert werden sollen. Des weiteren wird ein bestimmtes Wort im Ansprechen darauf, welches externe Gerät einen Betrieb durchführt, der nicht leicht rückgängig gemacht werden kann, aus dem Wörterver zeichnis ausgewählt, und es wird im voraus die ähnliche Klanggruppe des bestimmten Worts gespeichert. Die ähnliche Klanggruppe enthält die Bezugsmuster von entsprechenden Klängen, welche ähnlich, jedoch unterschiedlich zu dem Klang eines bestimmten Wortes sind. Der Musteranpassungsab schnitt wählt als Kandidatenwörter ein oder mehrere Wörter entsprechend den Bezugsstrukturen aus, welche hohe Ähnlich keiten mit den charakteristischen Parametern als Ergebnis der Musteranpassung besitzen. Wenn die Kandidatenwörter das bestimmte Wort enthalten, wird das Sprachsignal unter Ver wendung der ähnlichen Klanggruppe erkannt. Das heißt, der Musteranpassungsabschnitt führt eine Musteranpassung zwi schen jedem der Bezugsmuster in einer ähnlichen Klanggruppe und den charakteristischen Parametern des Sprachsignals durch. Als Ergebnis der Erkennung gibt der Musteranpas sungsabschnitt ein Wort außer dem bestimmten Wort aus, wenn eines der Bezugsmuster entsprechend den Klängen ähnlich demjenigen des bestimmten Worts eines hohe Ähnlichkeit mit dem Sprachsignal besitzt.

Vorzugsweise werden ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts in einem Compu tersystem und Daten einschließlich der Bezugsmuster ent sprechend den Wörtern und den Tönen als Aufzeichnungsmedium bereitgestellt, welches das Programm und die Daten spei chert.

Die Erfindung ergibt sich zusammen mit weiteren Aufga ben, Merkmalen und Vorteilen aus der folgenden Beschrei bung, den beigefügten Ansprüchen und den begleitenden Figu ren, wobei:

Fig. 1 ein Blockdiagramm einer Fahrzeugnavigationsaus rüstung zeigt, welche mit einer Spracherkennungsvorrichtung einer ersten Ausführungsform der vorliegenden Erfindung verbunden ist;

Fig. 2 ein Blockdiagramm der Spracherkennungsvorrich tung der ersten Ausführungsform der vorliegenden Erfindung zeigt;

Fig. 3A und 3B schematische Ansichten zeigen, welche Merkmalsabstände bzw. -räume (feature spaces) von eingege benen Sprachsignalen darstellen, die von der Spracherken nungsvorrichtung der ersten Ausführungsform bzw. einer her kömmlichen Spracherkennungsvorrichtung erkannt worden sind;

Fig. 4 eine Tabelle zeigt, welche das Experimentierer gebnis zum Verifizieren der Wirkungen der Spracherkennungs vorrichtung der ersten Ausführungsform darstellt; und

Fig. 5 ein Blockdiagramm einer Spracherkennungsvorrich tung einer zweiten Ausführungsform der vorliegenden Erfin dung zeigt.

Die vorliegende Erfindung wird unter Bezugnahme von Ausführungsformen und Modifizierungen beschrieben.

Erste Ausführungsform

Entsprechend Fig. 1 ist eine Fahrzeugnavigationsausrü stung mit einer Spracherkennungsvorrichtung 18 verbunden, welche als Schnittstelle zwischen Mensch und Maschine für die Fahrzeugnavigationsausrüstung 1 verwendet wird. Die Fahrzeugnavigationsausrüstung 1 enthält eine Positionser fassungseinheit 2, eine Kartendateneingabeeinheit 3, Steue rungsschalter 4, eine Steuerungsschaltung 5, einen externen Speicher 6, eine Anzeigeeinheit 7, einen Fernsteuerungssi gnalsensor 8, einen Digitalsteuerungsabschnitt 9, einen Sprachsyntheseabschnitt 10 und einen Lautsprecher 11. Die Steuerungsschaltung 5 enthält im wesentlichen einen Mikro computer und ist an die Positionserfassungseinheit 2, die Kartendateneingabeeinheit 3 und die Steuerungsschalter 4 angeschlossen. Der externe Speicher 6, die Anzeigeeinheit 7, der Fernsteuerungssignalsensor 8 und der Digitalsteue rungsabschnitt 9 sind an die Steuerungsschaltung 5 ange schlossen.

Die Positionserfassungseinheit 2 enthält einen Erdma gnetsensor 12, einen Gyrosensor 13, einen Geschwindigkeits sensor 14 und einen GPS-Empfänger 15. Der GPS-Empfänger 15 erfasst die Position des Fahrzeugs auf der Grundlage der von den GPS-Sateliten empfangenen Funkwelle. Jeder der Sen soren 12-15 ist an einer geeigneten Position innerhalb des Fahrzeugs angeordnet. Die Steuerungsschaltung 5 empfängt Signale von den Sensoren 12-15 und interpoliert sie, da je der der Sensoren 12-15 einen Fehler eines unterschiedlichen Typs besitzt. Die Steuerschaltung 5 erfasst die augenblick liche Position, die Bewegungsrichtung, die Geschwindigkeit, die zurückgelegte Strecke des Fahrzeugs genau auf der Grundlage der empfangenen Signale.

Die Kartendateneingabeeinheit 3 ist mit einer Ansteue rungseinheit zum Wiedererlangen von Daten aus einem Spei chermedium gebildet, welches verschiedene Daten wie Stra ßenkartendaten, Kartenanpassungsdaten zur Korrektur der er fassten augenblicklichen Position speichert. Ein Massen speichermedium wie ein CD-ROM, DVD-ROM kann als das Spei chermedium verwendet werden. Die Straßenkartendaten enthal ten die Formen, Breiten, Namen von Straßen und verschiedene Gebäude oder Einrichtungen auf den Straßen und ihre Tele fonnummern. Des weiteren enthalten sie die Namen und geo graphischen Merkmale von Plätzen und Daten, welche zur An zeige der Straßenkarte auf der Anzeigeeinheit 7 verwendet werden.

Die Steuerungsschalter 4 enthalten mechanische Schal ter, welche von einem Benutzer (Fahrer) zur Eingabe ver schiedener Befehle verwendet werden. Der Benutzer kann das Ziel skizzieren oder die auf der Anzeigeeinheit 7 ange zeigte Straßenkarte wählen unter Verwendung der Steuerungs schalter 4. Die Steuerungsschalter 4 können Berührungs schalter auf dem Schirm der Anzeigeeinheit 7 enthalten. Des weiteren ist ein Fernsteuerungsendgerät (Fernkontroller) 16 vorgesehen, welches dieselbe Funktion wie die Steuerungs schalter 4 besitzt. Ein Steuerungssignal von dem Fernkon troller 16 wird von dem Fernsteuerungssignalsensor 8 er fasst.

Auf dem Schirm der Anzeigeeinheit 7 wird die Straßen karte mit verschiedenen Skalen angezeigt. Des weiteren sind Zeiger, welche die augenblickliche Position oder die Bewe gungsrichtung des Fahrzeugs anzeigen, der angezeigten Stra ßenkarte überlagert. Eine empfohlene Route zu dem Ziel kann ebenfalls der angezeigten Straßenkarte überlagert sein. Des weiteren werden ebenfalls eine Form, um den Benutzer zur Eingabe des Ziels und dergleichen zu veranlassen, oder ver schiedene Mitteilungen oder Informationen ebenfalls auf dem Schirm angezeigt.

Die Straßenkarte wird von der Kartendateneingabeeinheit 3 abgerufen bzw. wiedererlangt. Die Steuerungsschaltung 5 weist die Anzeigeeinheit 7 zur Anzeige der abgerufenen Straßenkarte auf dem Schirm und des weiteren zur Überlage rung der Zeiger an, welche die augenblickliche Position und die Bewegungsrichtung des Fahrzeugs auf der Grundlage des Ausgangs von der Positionserfassungseinheit 2 anzeigen. Zur Anzeige der augenblicklichen Position des Fahrzeugs genau auf der Straßenkarte führt die Steuerungsschaltung 5 eine Kartenanpassung durch. Des weiteren weist die Steuerungs schaltung 5 die Anzeigeeinheit 7 an die auf dem Schirm an gezeigte Karte (den Massstab davon) zu ändern.

Die Steuerungsschaltung 5 führt eine automatische Rou tensuche und Routenführung durch. Bei der automatischen Routensuche berechnet die Steuerungsschaltung 5 automatisch eine empfohlene Route von der augenblicklichen Position des Fahrzeugs zu einem von dem Benutzer eingegebenen Ziel. Bei der Routenführung weist die Steuerungsschaltung 5 die An zeigeeinheit 7 an die empfohlene Route auf dem Schirm wie oben beschrieben anzuzeigen. Des weiteren kann die Steue rungsschaltung 5 den Sprachsyntheseabschnitt 10 anweisen eine Audioführung wie "an der Kreuzung 200 Meter voraus nach links abbiegen" über den Dialogsteuerungsabschnitt 9 während der Routenführung zu erzeugen. Die erzeugte Au dioführung wird über den Lautsprecher 11 ausgegeben.

Die Spracherkennungsvorrichtung 18 ist an den Dia logsteuerungsabschnitt 9 derart angeschlossen, dass die Si cherheit des Benutzers und die Benutzerfreundlichkeit der Fahrzeugnavigationsausrüstung 1 verbessert sind. Der Benut zer (Fahrer) kann einen Befehl (Zielsuchbefehl, Umleitungs befehl oder Kartenskalenänderungsbefehl) oder das Ziel (Haus des Benutzers oder registrierter Punkt) durch seine Stimme eingeben, während die Augen auf die voraus befindli che Straße gerichtet sind. Die Spracherkennungsvorrichtung 18 empfängt ein Sprachsignal, welches einen Befehl oder das Ziel darstellt, von dem Benutzer über ein Mikrofon 17 und erkennt es. Das Ergebnis der Erkennung wird dem Dia logsteuerungsabschnitt 9 bereitgestellt. Das Mikrofon 17 ist an einer geeigneten Position innerhalb des Fahrzeugs plaziert, so dass es die Stimme des Benutzers gut empfängt. Beispielsweise ist das Mikrofon 17 an der oberen Oberfläche der Lenksäulenabdeckung oder der Sonnenblende über dem Sitz des Fahrers befestigt.

Entsprechend Fig. 2 enthält die Spracherkennungsvor richtung 18 einen akustischen Anaylseabschnitt 19, einen Merkmalsextraktionsabschnitt (feature extraction section) 20 und einen Musteranpassungsabschnitt 21.

Der akustische Analyseabschnitt 19 empfängt das analoge Sprachsignal von dem Mikrofon 17 und tastet es mit einer Abtastfrequenz von 12 kHz in digitale Signale ab. Die digi talen Signale werden in Rahmen derart geteilt, dass die Rahmen eine feste Länge besitzen und einander überlappen. Für jeden der Rahmen wird die Fourier-Transformation des Rahmens derart berechnet, dass das akustische Spektrum des Sprachsignals bereitgestellt wird. Des weiteren wird das Quadrat der Amplitude des akustischen Spektrums derart be rechnet, dass das akustische Kurzzeitenergiespektrum er langt wird. Die inverse Fourier-Transformation des Energie spektrums wird derart berechnet, dass Autokorrelationskoef fizienten erlangt werden. Die LPC- (Linear Predictive Coding) Analyse wird unter Verwendung der Autokorrelations koeffizienten derart durchgeführt, dass LPC-Koeffizienten bereitgestellt werden. Die LPC-Koeffizienten werden sequen tiell dem Merkmalsextraktionsabschnitt 20 bereitgestellt.

Der Merkmalsextraktionsabschnitt 20 berechnet LPC- Cepstrum-Koeffizienten für jeden der Rahmen auf der Grund lage der von dem akustischen Analyseabschnitt 19 empfange nen LPC-Koeffizienten. Die LPC-Cepstrum-Koeffizienten wer den sequentiell dem Musteranpassungsabschnitt 21 als cha rakteristische Parameter bereitgestellt.

Der Musteranpassungsabschnitt 21 führt eine Musteran passung zwischen jedem der Bezugsmuster in einem Wörterver zeichnis, das in dem Wörterbuchabschnitt gespeichert ist, und Zeitreihendaten (time-series data) der LPC-Cepstrum- Koeffizienten durch. Das heißt, es werden die Zeitreihenda ten in Segmente unter Verwendung von versteckten Markov-Mo dellen geteilt, und es wird die Ähnlichkeit (d. h. das Wahr scheinlichkeitsverhältnis) zwischen den Bezugsmustern und jedem der Segmente berechnet. Der Wörterbuchabschnitt ist ein Teil eines festen Speichers der Spracherkennungsvor richtung. Jeder der Bezugsmuster ist eine Zeitreihe von LPC-Cepstrum-Koeffizienten, welche im voraus berechnet wer den und einem von Wörtern entsprechen, welche zu identifi zieren sind.

Der Musteranpassungsabschnitt 21 wählt als Kandidaten wörter ein oder mehrere Wörter entsprechend den Bezugsmu stern aus, welche die größten Ähnlichkeiten mit den LPC- Cepstrum-Koeffizienten haben. In dem Fall einer herkömmli chen Spracherkennungsvorrichtung werden die Kandidatenwör ter dem Dialogsteuerungsabschnitt 9 als das Erkennungser gebnis bereitgestellt.

Jedoch erkennt die vorliegende Spracherkennungsvorrich tung 18 das Sprachsignal wie im folgenden dargelegt, wenn das Sprachsignal in einigen Situationen empfangen worden ist und die Kandidatenwörter ein bestimmtes Wort enthalten. Das bestimmte Wort ist ein kritisches Wort für die Fahr zeugnavigationsausrüstung 1. Das heißt, es führt die Fahr zeugnavigationsausrüstung 1 einen Betrieb durch, welcher nicht leicht rückgängig (undone) gemacht werden kann, wenn sie das bestimmte Wort empfängt. Die Spracherkennungsvor richtung 18 empfängt und speichert die ähnliche Klanggruppe des bestimmten Worts im voraus. Die ähnliche Klanggruppe enthält Bezugsmuster entsprechend den Klängen, welche sich von denjenigen des bestimmten Worts unterscheiden, jedoch ähnlich sind. Die Erkennung des Sprachsignals wird unter Verwendung der ähnlichen Klanggruppe des bestimmten Worts durchgeführt.

Die Vorrichtung 18 erzeugt des weiteren wenn nötig im Voraus Bezugsmuster entsprechend Klängen, die ähnlich wie diejenigen eines zweiten bestimmten Worts sind. Das zweite bestimmte Wort ist ein Wort, welches das Gegenteil des be stimmten Worts bedeutet. Die erzeugten Bezugsmuster werden der ähnlichen Klanggruppe hinzugefügt.

Die Erkennung des Sprachsignals wird mittels eines Bei spiels erklärt. Wenn die Fahrzeugnavigationsausrüstung 1 ein Stimmbefehl wie "Umleiten", "mein Haus", "nach Hause" oder "Ändern des Ziels" empfängt, gibt sie eine Sprachnach richt wie "Ihr Heim wird als das Ziel festgelegt. Ok?" zur Bestätigung des Willen des Benutzers aus. Auf diese Weise wird der Benutzer dazu veranlasst durch die Stimme "YES" oder "NO" als Antwort auf die Sprachnachricht einzugeben. In diesem Fall wählt die Spracherkennungsvorrichtung 18 das Wort "YES" als das obige bestimmte Wort aus, und es wird die ähnliche Klanggruppe des Worts "YES" erzeugt. Diese ähnliche Wortgruppe enthält Bezugsmuster entsprechend den Klängen / j / / * / / s / , / j / / e / / * / und dergleichen. Das Symbol "*" steht für einen willkürlichen Vokal oder Konsonanten. Des weiteren wird das Wort "NO" als das zweite bestimmte Wort gewählt, und es werden Bezugsmuster entsprechend Klängen ähnlich denjenigen des Worts "NO" erzeugt und der ähnlichen Klanggruppe hinzugefügt. Die Bezugsmuster entsprechend den Klängen / au / , / uu / und dergleichen werden der ähnlichen Klanggruppe in diesem Fall hinzugefügt. Es wird bevorzugt, dass die ähnliche Wortgruppe die Bezugsmuster entsprechend Klängen ähnlich denjenigen des zweiten bestimmten Worts enthalten sollten, wenn das Sprachsignal in einer Entweder- oder-Situation ähnlich diesem Fall empfangen wird.

Der Musteranpassungsabschnitt 21 führt eine Musteran passung zwischen jedem der Bezugsmuster in der ähnlichen Tongruppe und den LPC-Cepstrum-Koeffizienten des Sprachsi gnals durch, wenn die Kandidatenwörter das bestimmte Wort "YES" enthalten. Wenn eine der Bezugsstrukturen in der ähn lichen Klanggruppe eine größere Ähnlichkeit mit den LPC- Cepstrum-Koeffizienten besitzt, gibt der Musteranpassungs abschnitt 21 das zweite bestimmte Wort "NO" als das Erken nungsergebnis aus.

Auf diese Weise erkennt die vorliegende Spracherken nungsvorrichtung 18 das in der Situation des obigen Bei spiels empfangene Sprachsignal als das Wort "YES" lediglich dann, wenn die Zeitreihen der LPC-Cepstrum-Koeffizienten sehr nahe dem Bezugsmuster des Worts "YES" sind. Wenn das eingegebene Sprachsignal ähnlich, jedoch unterschiedlich zu dem bestimmten Wort "YES" oder ähnlich, jedoch unterschied lich zu dem zweiten bestimmten Wort "NO" ist, würde das Wort "NO" ausgegeben werden, da das Sprachsignal eine große Ähnlichkeit mit einem der Bezugsmuster in der ähnlichen Tongruppe besitzen würde. Das heißt, der Merkmalsabstand bzw. Merkmalsraum (feature space) eines eingegebenen Sprachsignals, welches als das Wort "YES" erkannt worden ist, ist schmal, und der Merkmalsraum eines eingegebenen Sprachsignals, welches als das Wort "NO" erkannt worden ist, ist wie in Fig. 3A dargestellt breit. In Fig. 3A stellt die horizontale Achse beispielsweise den Wert des Ausdrucks des nullten Grads der LPC-Cepstrum-Koeffizienten dar, und die vertikale Achse stellt den Wert des Ausdrucks des ersten Grads der LPC-Cepstrum-Koeffizienten dar. Des weiteren stellt das Zeichen O das Bezugsmuster entspre chend dem Wort "YES" dar, und das Zeichen × stellt das Be zugsmuster entsprechend dem Wort "NO" und die Bezugsmuster in der ähnlichen Klanggruppe dar. Somit würde das Wort "NO" als das Erkennungsergebnis ausgegeben werden, wenn die Kan didatenwörter das Wort "YES", jedoch den Grad des Vertrau ens enthalten, dass das Sprachsignal tatsächlich das Wort "YES" darstellt.

Demgegenüber ist in dem Fall einer herkömmlichen Spracherkennungsvorrichtung der charakteristische Raum bzw. Abstand eines eingegebenen Sprachsignals, welches als das Wort "YES" erkannt wird, wie in Fig. 3 dargestellt relativ breit. In Fig. 3B stellt die horizontale Achse spielsweise den Wert des Ausdrucks des nullten Grads der LPC-Cepstrum- Koeffizienten dar, und die vertikale Achse stellt den Wert des Ausdrucks des ersten Grads der LPC-Cepstrum-Koeffizien ten dar. Des weiteren stellt das Zeichen O das Bezugsmu ster entsprechend dem Wort "YES" dar, und das Zeichen × stellt das Bezugsmuster entsprechend dem Wort "NO" dar. Da her würde das Sprachsignal, welches ähnlich, jedoch unter schiedlich zu dem Wort "YES" ist, als das Wort "YES" falsch erkannt werden.

Die obige Wirkung der vorliegenden Spracherkennungsvor richtung 18 wurde durch Experimentieren in der Struktur wie in Fig. 2 dargestellt verifiziert. Das Ergebnis des Experi mentierens ist in Fig. 4 dargestellt. Wenn eingegebene Sprachsignale unter Verwendung der ähnlichen Klanggruppe nicht erkannt worden sind, war die Wahrscheinlichkeit, dass die Sprachsignale, welche unterschiedlich zu dem Wort "YES" waren, oder das Wort "NO" als das Wort "YES" falsch erkannt wurde, relativ groß (Stand der Technik: 61,9%). Demgegen über war eine Wahrscheinlichkeit sehr viel geringer (Ausführungsform: 8,7%), wenn die eingegebenen Sprachsi gnale unter Verwendung der ähnlichen Klanggruppe erkannt wurden. Daher war die Erkennungsrate des Worts "NO" leicht größer (Ausführungsform: 98,2%). Die Erkennungsrate des Worts "YES" war in beiden Fällen gleich groß.

Dementsprechend wird verhindert, dass die Fahrzeugnavi gationsausrüstung 1 einen Betrieb durchführt, der gegen den Willen des Benutzers nicht leicht rückgängig gemacht werden kann, wenn das von dem Benutzer empfangene eingegebene Sprachsignal in der Situation des obigen Beispiels von der vorliegenden Spracherkennungsvorrichtung erkannt wird.

Bei der vorliegenden Ausführungsform können entspre chende japanische Worte "hai" und "iie" als das bestimmte Wort und das zweite bestimmte Wort anstelle von "YES" und "NO" gewählt werden. Des weiteren können entsprechende deutsche Worte "ja" und "nein", entsprechende französische Worte "oui" und "non", entsprechende holländische Worte "ja" und "nee", entsprechende spanische Worte "si" und "no", entsprechende italienische Worte "si" und "non" oder entsprechende portugiesische Wörter "sim" und "nao" als das bestimmte Wort und das zweite bestimmte Wort ausgewählt werden.

Zweite Ausführungsform

Entsprechend Fig. 5 enthält eine Spracherkennungsvor richtung 18 einen akustischen Analyseabschnitt 19, einen Merkmalsextraktionsabschnitt 20 und einen Musteranpassungs abschnitt 21' ähnlich wie bei der ersten Ausführungsform. Die Spracherkennungsvorrichtung 18 empfängt ein eingegebe nes Sprachsignal von dem Mikrofon 17 und erkennt es. Das Erkennungsergebnis wird einem Dialogsteuerungsabschnitt 9 einer Fahrzeugnavigationsausrüstung 1 ausgegeben. Wenn das Sprachsignal erkannt wird, arbeiten der akustische Analyse abschnitt 19 und der Merkmalsextraktionsabschnitt 20 ähn lich wie bei der ersten Ausführungsform. Jedoch führt der Musteranpassungsabschnitt 21' eine Musteranpassung unter Verwendung von lediglich gewöhnlichen Wörterbuchdaten und keine Musteranpassung unter Verwendung der ähnlichen Klang gruppe durch. Die gewöhnlichen Wörterbuchdaten sind in dem Wörterbuchabschnitt der Spracherkennungsvorrichtung 18 ge speichert und enthalten Bezugsmuster entsprechend Wörtern, welche identifiziert werden sollten. Der Musteranpassungs abschnitt 21' erzeugt Kandidatenwörter als Ergebnis der Mu steranpassung zwischen den von dem Merkmalsextraktionsab schnitt 20 empfangenen Zeitreihendaten der LPC-Cepstrum- Koeffizienten und jedem der Bezugsmuster.

Wie in Fig. 5 dargestellt enthält die Spracherkennungs vorrichtung 18 des weiteren einen Erfolgswahrscheinlich keitsabschätzungsabschnitt 22, welcher in der japanischen Patentanmeldung Nr. H11-359076 offenbart ist, zum Abschät zen des Grads der Zuverlässigkeit, dass das eingegebene Sprachsignal tatsächlich einem Kandidatenwort entspricht. Wenn die Kandidatenwörter ein bestimmtes Wort enthalten, welches ein kritisches Wort für die Fahrzeugnavigationsaus rüstung 1 ist, stellt der Musteranpassungsabschnitt 21 cha rakteristische Werte, welche die Erkennung des spezifischen Worts betreffen, dem Erfolgswahrscheinlichkeitsab schätzungsabschnitt 22 bereit. Die von dem Musteranpas sungsabschnitt 21' bereitgestellten charakteristischen Werte stellen das Wahrscheinlichkeitsverhältnis des be stimmten Worts und ein Modell einer verbundenen Silbe oder die Varianz der Dauer von Silben in dem bestimmten Wort dar. Der Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22 empfängt die charakteristischen Werte, welche die Erkennung eines Kandidatenworts betreffen, welches das bestimmte Wort in diesem Fall ist, und schätzt als den absoluten Grad der Zuverlässigkeit die Wahrscheinlichkeit, dass das eingege bene Sprachsignal tatsächlich das Kandidatenwort darstellt, auf der Grundlage der empfangenen charakteristischen Werte ab.

Die charakteristischen Werte können durch den akusti schen Analyseabschnitt 19 anstelle des Musteranpassungsab schnitts 21' wie durch die gestrichelte Linie in Fig. 5 dargestellt bereitgestellt werden. In diesem Fall werden Werte, welche den Grad des Erfolgs bei der akustischen Ana lyse (den Geräuschpegel oder LPC-Reste (LPC residuals)), als die charakteristischen Werte bereitgestellt. Alternativ können die charakteristischen Werte durch den Merkmalsex traktionsabschnitt 20 anstelle des Musteranpassungsab schnitts 21' wie durch die gestrichelte Linie in Fig. 5 dargestellt bereitgestellt werden. In diesem Fall werden Werte, welche LPC-Cepstrum-Koeffizienten darstellen, als die charakteristischen Werte bereitgestellt.

Der von dem Erfolgswahrscheinlichkeitsab schätzungsabschnitt geschätzte absolute Grad der Zuverläs sigkeit wird dem Musteranpassungsabschnitt 21' in Form der Wahrscheinlichkeit bereitgestellt, dass das eingegebene Sprachsignal tatsächlich das bestimmte Wort darstellt. Der Grad der Zuverlässigkeit kann intuitiv und quantitativ er fasst werden, wenn er in Form der Erfolgswahrscheinlichkeit auf diese Weise bereitgestellt wird. Der Musteranpassungs abschnitt 21' gibt ein Kandidatenwort außer dem bestimmten Wort als das Erkennungsergebnis aus, wenn der empfangene absolute Grad der Zuverlässigkeit gleich oder kleiner als der vorbestimmte Bezugspegel ist. Der Bezugspegel wird im voraus experimentell bestimmt.

Wie oben beschrieben werden die Wörter entsprechend den Bezugsmustern, welche die großen Ähnlichkeiten mit den LPC- Cepstrum-Koeffizienten besitzen, als die Kandidatenwörter gewählt. Daher ist die Wahrscheinlichkeit, dass das einge gebene Sprachsignal tatsächlich das Kandidatenwort dar stellt, relativ groß, jedoch nicht immer absolut groß. Dem entsprechend bestimmt bei der vorliegenden Spracherken nungsvorrichtung der Musteranpassungsabschnitt 21' auf der Grundlage des von dem Erfolgswahrscheinlichkeitsab schätzungsabschnitt 22 bereitgestellten absoluten Grads der Zuverlässigkeit, ob er als das Erkennungsergebnis das be stimmte Wort ausgibt, welches eines der Kandidatenwörter ist.

Auf diese Weise wird das bestimmte Wort als das Erken nungsergebnis lediglich dann ausgegeben, wenn der Grad der Zuverlässigkeit, dass das eingegebene Sprachsignal tatsäch lich das bestimmte Wort darstellt, absolut groß ist. Das heißt, die Wahrscheinlichkeit, dass das eingegebene Sprach signal, welches das bestimmte Wort als das bestimmte Wort falsch erkannt wird, ist sehr niedrig. Das bestimmte Wort ist ein kritisches Wort für die Fahrzeugnavigationsausrü stung 1 wie oben beschrieben. Dementsprechend wird verhin dert, dass die Fahrzeugnavigationsausrüstung 1 einen Be trieb durchführt, welcher gegen den Willen des Benutzers nicht leicht rückgängig gemacht werden kann.

Modifizierungen

Bei der ersten Ausführungsform können ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts 21 in einem Computersystem und Daten wie die Bezugsmuster und die ähnliche Klanggruppe als abtrennbares Aufzeich nungsmedium bereitgestellt werden, welches das Programm und die Daten speichert. Verschiedene Aufzeichnungsmedien wie ein CD-ROM, ein DVD-ROM, ein nicht flüchtiger Speicher (d. h. EEPROM), eine magnetisch optische Platte, eine Fest platte können als Aufzeichnungsmedium zum Speichern des Programms und der Daten verwendet werden.

Bei der zweiten Ausführungsform können ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts 21' und des Erfolgswahrscheinlichkeitsab schätzungsabschnitts 22 in einem Computersystem und Daten wie die Bezugsmuster als abtrennbares Aufzeichnungsmedium bereitgestellt werden, welches das Programm und die Daten speichert. Des weiteren kann ein Zuverlässigkeitsgradab schätzungsabschnitt, welcher den absoluten Grad der Zuver lässigkeit in der Form außer der Erfolgswahrscheinlichkeit bereitstellt, anstelle des Erfolgswahrscheinlichkeitsab schätzungsabschnitts 22 verwendet werden.

Die Spracherkennungsvorrichtung 18 der vorliegenden Er findung kann für ein externes Gerät außer der Fahrzeugnavi gationsausrüstung 1 verwendet werden, beispielsweise für ein persönliches mobiles Navigationsgerät und andere be liebte elektrische Geräte.

Claims

1. Spracherkennungsvorrichtung (18), welche ein Sprachsi gnal von einem Sprecher empfängt und erkennt, mit:
einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert;
einer Merkmalsextraktionseinrichtung (20), welche cha rakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analy seeinrichtung (19) durchgeführten Analyse extrahiert; und
einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristi schen Parametern durchführt und als Kandidatenwörter wenig stens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält,
wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem be stimmten Wort ausgibt, wenn die Kandidatenwörter das be stimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort dar stellt, niedrig ist, und
wobei die Musteranpassungseinrichtung (21, 21') mit einem externen Gerät (1) verbunden ist und das externe Ge rät (1) das Ergebnis der Erkennung von der Musteranpas sungseinrichtung (21, 21') empfängt und zum Steuern eines Betriebs des externen Geräts (1) verwendet.

2. Spracherkennungsvorrichtung (18) nach Anspruch 1, da durch gekennzeichnet, dass
das bestimmte Wort ein Wort ist, welches eine Möglich keit des ungünstigen Beeinflussens des Betriebs des exter nen Geräts (1) oder des Veranlassens einer Herabsetzung ei ner Funktion des externen Geräts (1) besitzt.

3. Spracherkennungsvorrichtung (18) nach Anspruch 1, da durch gekennzeichnet, dass das bestimmte Wort ein Wort ist, welches eine Möglich keit besitzt das externe Gerät (1) zur Durchführung des Be triebs gegen den Willen des Sprechers zu veranlassen.

4. Spracherkennungsvorrichtung (18) nach Anspruch 3, da durch gekennzeichnet, dass das bestimmte Wort ein Wort ist, welches eine Möglich keit besitzt eine Änderung des Festlegens des externen Ge räts (1) zu veranlassen.

5. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 4, des weiteren gekennzeichnet durch:
eine Zuverlässigkeitsgradabschätzungseinrichtung (22), welche charakteristische Werte, die die Erkennung eines Worts betreffen, von der akustischen Analyseeinrichtung (19), der Merkmalsextraktionseinrichtung (20) und/oder der Musteranpassungseinrichtung (21') empfängt und einen abso luten Grad der Zuverlässigkeit, dass das Sprachsignal tat sächlich das Wort darstellt, auf der Grundlage der empfan genen charakteristischen Werte abschätzt,
wobei die Musteranpassungseinrichtung (21') von der Zuverlässigkeitsgradabschätzungseinrichtung (22) den abso luten Grad der Zuverlässigkeit, dass das Sprachsignal tat sächlich das bestimmte Wort darstellt, empfängt, wenn die Kandidatenwörter das bestimmte Wort enthalten, und be stimmt, dass der Grad der Zuverlässigkeit niedrig ist, wenn der empfangene absolute Grad der Zuverlässigkeit gleich oder kleiner als ein vorbestimmter Grad ist.

6. Spracherkennungsvorrichtung (18) nach Anspruch 5, da durch gekennzeichnet, dass die Zuverlässigkeitsgradabschätzungseinrichtung (22) den absoluten Grad der Zuverlässigkeit in Form einer Wahr scheinlichkeit, dass das Sprachsignal tatsächlich das Wort darstellt, abschätzt und bereitstellt.

7. Spracherkennungsvorrichtung (18) nach Anspruch 1, da durch gekennzeichnet, dass
eine ähnliche Klanggruppe, welche Bezugsmuster ent sprechend von Klängen enthält, die ähnlich sind, sich je doch von denjenigen eines bestimmten Worts unterscheiden, im voraus gespeichert ist und die Musteranpassungseinrich tung (21) eine Musteranpassung zwischen jedem der Bezugsmu ster in der ähnlichen Klanggruppe und den charakteristi schen Parametern durchführt, wenn die Kandidatenwörter das bestimmte Wort enthalten, und
die Musteranpassungseinrichtung (21) als das Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgibt, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine hohe Ähnlichkeit zu den charakteristischen Parametern besitzt.

8. Spracherkennungsvorrichtung (18) nach Anspruch 7, da durch gekennzeichnet, dass
die ähnliche Klanggruppe des weiteren Bezugsmuster entsprechend von Klängen enthält, welche ähnlich sind, sich jedoch von denjenigen eines zweiten bestimmten Worts unter scheiden, welches das Gegenteil des bestimmten Worts bedeu tet, und
die Musteranpassungseinrichtung (21) als Ergebnis der Erkennung das zweite bestimmte Wort ausgibt, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine hohe Ähn lichkeit zu den charakteristischen Parametern besitzt.

9. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 8, dadurch gekennzeichnet, dass die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort ent halten und ein absoluter Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, lediglich in dem Fall, dass das Sprachsignal in einer Situation empfangen wird, bei welcher der Sprecher aufgefordert wird eine Anfrage zur Bestätigung zu beantwor ten, ob der Sprecher es gestattet, dass das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht getan bzw. rückgängig gemacht wird.

10. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 9, dadurch gekennzeichnet, dass das externe Gerät (1) ein Navigationsgerät ist.

11. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 10, dadurch gekennzeichnet, dass ein Programm zur Implementierung einer Funktion der Musteranpassungseinrichtung (21, 21') in einem Computersy stem und Daten, welche das Wörterverzeichnis enthalten, als Aufzeichnungsmedium vorgesehen sind, welches das Programm und die Daten speichert.

12. Spracherkennungsvorrichtung (18) nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass Programme zur Implementierung von Funktionen der Mu steranpassungseinrichtung (21') und der Zuverlässigkeits gradabschätzungseinrichtung (22) in einem Computersystem und Daten, welche das Wörterverzeichnis enthalten, als Me dium bereitgestellt werden, welches die Programme und die Daten speichert.

13. Spracherkennungsvorrichtung, welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit:
einer Spracherkennungseinrichtung (18), welche das Sprachsignal unter Verwendung eines Wörterverzeichnisses erkennt und als Ergebnis der Erkennung wenigstens ein Wort in dem Wöterverzeichnis ausgibt, wobei das Wörterverzeich nis im voraus gespeichert ist und Wörter enthält;
einer Steuerungseinrichtung (9), welche das Ergebnis der Erkennung von der Spracherkennungseinrichtung (18) emp fängt und ein Steuersignal einem externen Gerät (1) auf der Grundlage des Ergebnisses der Erkennung ausgibt,
wobei die Steuerungseinrichtung (9) ein Ausgabegerät (10, 11) anweist eine Anfrage an den Sprecher zur Bestäti gung auszugeben, ob der Sprecher gestattet, dass das exter ne Gerät (1) einen Betrieb durchführt, wenn die Steuerungs einrichtung (9) als das Ergebnis der Erkennung ein Wort empfängt, welches das externe Gerät (1) zur Durchführung des Betriebs anweist,
wobei das Wörterverzeichnis ein erstes Wort, welches es dem externen Gerät (1) gestattet einen Betrieb durchzu führen, und ein zweites Wort enthält, welches verhindert, dass das externe Gerät (1) einen Betrieb durchführt, und des weiteren ähnliche Wörter enthält, welche sich von dem ersten Wort unterscheiden, jedoch eine akustische Charakte ristik ähnlich derjenigen des ersten Worts besitzen, und
wobei die Spracherkennungseinrichtung (18) das erste Wort oder das zweite Wort als Ergebnis der Erkennung einer Antwort auf die Anfrage ausgibt und das zweite Wort aus gibt, wenn die Antwort eine hohe Ähnlichkeit zu einem der ähnlichen Wörter besitzt.

14. Spracherkennungsvorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass das erste Wort ein bejahendes Wort und das zweite Wort ein verneinendes Wort ist.

15. Spracherkennungsvorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass das externe Gerät (1) ein Navigationsgerät ist.

16. Verfahren (18) zur Erkennung eines Sprachsignals, mit den Schritten:
Empfangen (17) eines Sprachsignals von einem Sprecher;
akustisches Analysieren (19) des empfangenen Signals;
Extrahieren (20) von charakteristischen Parametern aus dem Sprachsignal auf der Grundlage eines Ergebnisses der Analyse;
Berechnen (21') von Ähnlichkeiten zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahier ten charakteristischen Parametern, wobei das Wörterver zeichnis im voraus erzeugt und gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält;
Wählen (21') als Kandidatenwörter wenigstens eines Worts entsprechend dem Bezugsmuster, welches eine große Ähnlichkeit zu den charakteristischen Parametern besitzt;
Abschätzen (22) eines absoluten Grads der Zuverlässig keit, dass das Sprachsignal tatsächlich ein bestimmtes Wort darstellt, wenn die Kandidatenwörter das bestimmte Wort enthalten;
Ausgeben (21') als Ergebnis der Erkennung wenigstens eines Worts außer dem bestimmten Wort, wenn die Kandidaten wörter das bestimmte Wort enthalten und der geschätzte ab solute Grad der Zuverlässigkeit, dass das Sprachsignal tat sächlich das bestimmte Wort darstellt, gleich oder kleiner als ein vorbestimmter Grad ist.

17. Verfahren (18) zur Erkennung eines Sprachsignals, mit den Schritten:
Empfangen (17) eines Sprachsignals von einem Sprecher;
Akustisches Analysieren (19) des empfangenen Sprachsi gnals;
Extrahieren (20) von charakteristischen Parametern aus dem Sprachsignal auf der Grundlage eines Ergebnisses der Analyse;
Berechnen (21) von Ähnlichkeiten zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahier ten charakteristischen Parametern, wobei das Wörterver zeichnis im voraus gespeichert wird und die Bezugsmuster entsprechend den Wörtern enthält;
Wählen (21) als Kandidatenwörter wenigstens eines Worts entsprechend dem Bezugsmuster, welches eine große Ähnlichkeit zu den charakteristischen Parametern besitzt;
Berechnen (21) von Ähnlichkeiten zwischen jedem von Bezugsmustern in einer ähnlichen Klanggruppe und den cha rakteristischen Parametern, wenn die Kandidatenwörter ein bestimmtes Wort enthalten, wobei die ähnliche Klanggruppe im voraus gespeichert wird und die Bezugsmuster entspre chend den Klängen enthält, die ähnlich, jedoch unterschied lich zu jenen des bestimmten Worts sind;
Ausgeben (21) wenigstens eines Worts außer dem bestim men Wort als Ergebnis der Erkennung, wenn die Kandidaten wörter das bestimmte Wort enthalten und eines der Bezugsmu ster in der ähnlichen Klanggruppe eine große Ähnlichkeit zu den charakteristischen Parametern besitzt.

18. Verfahren (18) zur Erkennung eines Sprachsignals nach Anspruch 16 oder 17, dadurch gekennzeichnet, dass
das ausgegebene Ergebnis der Erkennung von einem ex ternen Gerät (1) zur Steuerung des Betriebs des Geräts (1) empfangen und verwendet wird,
wobei das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht rückgängig gemacht wird, wenn es das bestimmte Wort empfängt.