DE10134908A1 - Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden - Google Patents

Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden

Info

Publication number
DE10134908A1
DE10134908A1 DE10134908A DE10134908A DE10134908A1 DE 10134908 A1 DE10134908 A1 DE 10134908A1 DE 10134908 A DE10134908 A DE 10134908A DE 10134908 A DE10134908 A DE 10134908A DE 10134908 A1 DE10134908 A1 DE 10134908A1
Authority
DE
Germany
Prior art keywords
word
speech signal
similar
result
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE10134908A
Other languages
English (en)
Other versions
DE10134908B4 (de
Inventor
Norihide Kitaoka
Hiroshi Ohno
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Publication of DE10134908A1 publication Critical patent/DE10134908A1/de
Application granted granted Critical
Publication of DE10134908B4 publication Critical patent/DE10134908B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

Eine Sparacherkennungsvorrichtung (18) erkennt ein von einem Sprecher empfangenes Sprachsignal und stellt das Ergebnis der Erkennung einem externen Gerät (1) bereit. Bei der Vorrichtung führt ein Musteranpassungsabschnitt (21) eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und charakteristischen Parametern durch, welche aus dem Sprachsignal extrahiert werden. Das Wörterverzeichnis enthält Bezugsmuster entsprechend den Wörtern. Des weiteren besitzt die Vorrichtung eine ähnliche Klanggruppe, welche Bezugsmuster entsprechend dem Klang ähnlich demjenigen eines bestimmten Worts enthält. Das bestimmte Wort ist ein Wort, auf dessen Ansprechen das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht rückgängig gemacht werden kann. Das Sprachsignal wird unter Verwendung der ähnlichen Klanggruppe wiedererkannt. Als Ergebnis gibt der Musteranpassungsabschnitt (21) ein Wort außer dem bestimmten Wort aus, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine große Ähnlichkeit zu den charakteristischen Parametern besitzt.

Description

Die vorliegende Erfindung bezieht sich auf eine Sprach­ erkennungsvorrichtung und -verfahren.
Eine herkömmliche Spracherkennungsvorrichtung und -ver­ fahren, welches als Schnittstelle zwischen Mensch und Ma­ schine verwendet wird, analysiert ein über ein Mikrofon empfangenes Sprachsignal und extrahiert charakteristische Parameter aus dem Sprachsignal. Die charakteristischen Pa­ rameter werden mit Bezugsmustern bzw. -strukturen in einem Wörterverzeichnis, das in einem Wörterbuchabschnitt der Vorrichtung gespeichert ist, verglichen, und eins oder meh­ rere Wörter, welche den Bezugsmustern entsprechen, die hohe Ähnlichkeiten mit den extrahierten charakteristischen Para­ metern aufweisen, werden ausgewählt und ausgegeben. Die Vorrichtung wählt im allgemeinen wenigstens ein Wort sogar dann aus und gibt es aus, wenn kein Bezugsmuster in dem Wörterverzeichnis eine hohe Ähnlichkeit mit den charakteri­ stischen Parametern besitzt. In diesem Fall wird das Sprachsignal oft falsch erkannt. Des weiteren wird das Sprachsignal oft infolge eines Hintergrundrauschens falsch erkannt. Wenn das Ergebnis der Fehlerkennung zur Steuerung eines externen Geräts verwendet wird, kann der Betrieb des externen Geräts ungünstig und ernsthaft beeinflusst werden.
Beispielsweise wird die Spracherkennungsvorrichtung für ein Fahrzeugnavigationssystem verwendet, welches eine Sprachsteuerungsfunktion zum Empfangen von Sprache als Ein­ gangssteuerungssignal und zum Ausgeben von Sprache als Frage an einen Benutzer oder als Antwort auf die Anfrage eines Benutzers besitzt. Wenn der Benutzer "shukushou" sagt, was "reduzieren" bedeutet, so dass die Karte redu­ ziert wird, kann dies als "jitaku" falsch verstanden wer­ den, was das Haus des Benutzers bedeutet. In diesem Fall legt die Vorrichtung die Route zu dem Ziel ab und sucht er­ neut eine Route zu dem Haus des Benutzers, wenn die Vor­ richtung derart gestaltet ist, dass sie ein Befehl sofort im Ansprechen auf das eingegebene Sprachsignal ausführt. Auf diese Weise wird die Route zu dem Ziel entgegen dem Willen des Benutzers abgelegt.
Wenn das Gerät derart gestaltet ist, dass der Wille des Benutzers bestätigt wird, wird beispielsweise gefragt: "Ihr Haus wird als Ziel festgelegt. Ok?". Wenn der Benutzer "iee" sagt, was "NEIN" als Antwort auf die Frage bedeutet, geht die Vorrichtung in einen Wartezustand über, ohne das eine Route zu dem Haus des Benutzers gesucht wird. Jedoch kann die Vorrichtung die Antwort eines Benutzers als "hai" falsch erkennen, was "JA" bedeutet, wenn der Benutzer "shukushou" wiederum als Antwort auf die Frage durch einen Fehler sagt. In diesem Fall wird die Route zu dem Ziel ebenfalls abgelegt.
Auf diese Weise kann das externe Gerät gegen den Willen des Benutzers arbeiten, wenn das Sprachsignal von dem Be­ nutzer als bestimmtes Wort wie "hai", das in dem Wörterver­ zeichnis enthalten ist, falsch erkannt wird. Daher wird es bevorzugt, dass die Spracherkennungsvorrichtung eine Tech­ nik verwendet, die verhindert, dass das externe Gerät einen fehlerhaften Betrieb, der nicht leicht rückgängig (undone) gemacht werden kann, gegen den Willen des Benutzers im An­ sprechen auf das Ergebnis der Fehlerkennung durchführt.
Dementsprechend ist es Aufgabe der vorliegenden Erfin­ dung eine Spracherkennungsvorrichtung bereitzustellen, wel­ che ein eingegebenes Sprachsignal als bestimmtes Wort in dem Wörterverzeichnis selten falsch erkennt. Ebenfalls ist es Aufgabe der vorliegenden Erfindung ein Aufzeichnungsme­ dium bereitzustellen, welches ein Programm und Daten zur Implementierung einer Hauptfunktion der Spracherkennungs­ vorrichtung in einem Computersystem speichert.
In einer Spracherkennungsvorrichtung der vorliegenden Erfindung führt ein Musteranpassungsabschnitt eine Muster­ anpassung zwischen jedem von Bezugsmustern in einem Wörter­ verzeichnis und den extrahierten charakteristischen Parame­ tern eines Sprachsignals durch. Das Wörterverzeichnis ist im voraus gespeichert und enthält die Bezugsmuster entspre­ chend den Wörtern, welche identifiziert werden sollen. Des weiteren wird ein bestimmtes Wort im Ansprechen darauf, welches externe Gerät einen Betrieb durchführt, der nicht leicht rückgängig gemacht werden kann, aus dem Wörterver­ zeichnis ausgewählt, und es wird im voraus die ähnliche Klanggruppe des bestimmten Worts gespeichert. Die ähnliche Klanggruppe enthält die Bezugsmuster von entsprechenden Klängen, welche ähnlich, jedoch unterschiedlich zu dem Klang eines bestimmten Wortes sind. Der Musteranpassungsab­ schnitt wählt als Kandidatenwörter ein oder mehrere Wörter entsprechend den Bezugsstrukturen aus, welche hohe Ähnlich­ keiten mit den charakteristischen Parametern als Ergebnis der Musteranpassung besitzen. Wenn die Kandidatenwörter das bestimmte Wort enthalten, wird das Sprachsignal unter Ver­ wendung der ähnlichen Klanggruppe erkannt. Das heißt, der Musteranpassungsabschnitt führt eine Musteranpassung zwi­ schen jedem der Bezugsmuster in einer ähnlichen Klanggruppe und den charakteristischen Parametern des Sprachsignals durch. Als Ergebnis der Erkennung gibt der Musteranpas­ sungsabschnitt ein Wort außer dem bestimmten Wort aus, wenn eines der Bezugsmuster entsprechend den Klängen ähnlich demjenigen des bestimmten Worts eines hohe Ähnlichkeit mit dem Sprachsignal besitzt.
Vorzugsweise werden ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts in einem Compu­ tersystem und Daten einschließlich der Bezugsmuster ent­ sprechend den Wörtern und den Tönen als Aufzeichnungsmedium bereitgestellt, welches das Programm und die Daten spei­ chert.
Die Erfindung ergibt sich zusammen mit weiteren Aufga­ ben, Merkmalen und Vorteilen aus der folgenden Beschrei­ bung, den beigefügten Ansprüchen und den begleitenden Figu­ ren, wobei:
Fig. 1 ein Blockdiagramm einer Fahrzeugnavigationsaus­ rüstung zeigt, welche mit einer Spracherkennungsvorrichtung einer ersten Ausführungsform der vorliegenden Erfindung verbunden ist;
Fig. 2 ein Blockdiagramm der Spracherkennungsvorrich­ tung der ersten Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 3A und 3B schematische Ansichten zeigen, welche Merkmalsabstände bzw. -räume (feature spaces) von eingege­ benen Sprachsignalen darstellen, die von der Spracherken­ nungsvorrichtung der ersten Ausführungsform bzw. einer her­ kömmlichen Spracherkennungsvorrichtung erkannt worden sind;
Fig. 4 eine Tabelle zeigt, welche das Experimentierer­ gebnis zum Verifizieren der Wirkungen der Spracherkennungs­ vorrichtung der ersten Ausführungsform darstellt; und
Fig. 5 ein Blockdiagramm einer Spracherkennungsvorrich­ tung einer zweiten Ausführungsform der vorliegenden Erfin­ dung zeigt.
Die vorliegende Erfindung wird unter Bezugnahme von Ausführungsformen und Modifizierungen beschrieben.
Erste Ausführungsform
Entsprechend Fig. 1 ist eine Fahrzeugnavigationsausrü­ stung mit einer Spracherkennungsvorrichtung 18 verbunden, welche als Schnittstelle zwischen Mensch und Maschine für die Fahrzeugnavigationsausrüstung 1 verwendet wird. Die Fahrzeugnavigationsausrüstung 1 enthält eine Positionser­ fassungseinheit 2, eine Kartendateneingabeeinheit 3, Steue­ rungsschalter 4, eine Steuerungsschaltung 5, einen externen Speicher 6, eine Anzeigeeinheit 7, einen Fernsteuerungssi­ gnalsensor 8, einen Digitalsteuerungsabschnitt 9, einen Sprachsyntheseabschnitt 10 und einen Lautsprecher 11. Die Steuerungsschaltung 5 enthält im wesentlichen einen Mikro­ computer und ist an die Positionserfassungseinheit 2, die Kartendateneingabeeinheit 3 und die Steuerungsschalter 4 angeschlossen. Der externe Speicher 6, die Anzeigeeinheit 7, der Fernsteuerungssignalsensor 8 und der Digitalsteue­ rungsabschnitt 9 sind an die Steuerungsschaltung 5 ange­ schlossen.
Die Positionserfassungseinheit 2 enthält einen Erdma­ gnetsensor 12, einen Gyrosensor 13, einen Geschwindigkeits­ sensor 14 und einen GPS-Empfänger 15. Der GPS-Empfänger 15 erfasst die Position des Fahrzeugs auf der Grundlage der von den GPS-Sateliten empfangenen Funkwelle. Jeder der Sen­ soren 12-15 ist an einer geeigneten Position innerhalb des Fahrzeugs angeordnet. Die Steuerungsschaltung 5 empfängt Signale von den Sensoren 12-15 und interpoliert sie, da je­ der der Sensoren 12-15 einen Fehler eines unterschiedlichen Typs besitzt. Die Steuerschaltung 5 erfasst die augenblick­ liche Position, die Bewegungsrichtung, die Geschwindigkeit, die zurückgelegte Strecke des Fahrzeugs genau auf der Grundlage der empfangenen Signale.
Die Kartendateneingabeeinheit 3 ist mit einer Ansteue­ rungseinheit zum Wiedererlangen von Daten aus einem Spei­ chermedium gebildet, welches verschiedene Daten wie Stra­ ßenkartendaten, Kartenanpassungsdaten zur Korrektur der er­ fassten augenblicklichen Position speichert. Ein Massen­ speichermedium wie ein CD-ROM, DVD-ROM kann als das Spei­ chermedium verwendet werden. Die Straßenkartendaten enthal­ ten die Formen, Breiten, Namen von Straßen und verschiedene Gebäude oder Einrichtungen auf den Straßen und ihre Tele­ fonnummern. Des weiteren enthalten sie die Namen und geo­ graphischen Merkmale von Plätzen und Daten, welche zur An­ zeige der Straßenkarte auf der Anzeigeeinheit 7 verwendet werden.
Die Steuerungsschalter 4 enthalten mechanische Schal­ ter, welche von einem Benutzer (Fahrer) zur Eingabe ver­ schiedener Befehle verwendet werden. Der Benutzer kann das Ziel skizzieren oder die auf der Anzeigeeinheit 7 ange­ zeigte Straßenkarte wählen unter Verwendung der Steuerungs­ schalter 4. Die Steuerungsschalter 4 können Berührungs­ schalter auf dem Schirm der Anzeigeeinheit 7 enthalten. Des weiteren ist ein Fernsteuerungsendgerät (Fernkontroller) 16 vorgesehen, welches dieselbe Funktion wie die Steuerungs­ schalter 4 besitzt. Ein Steuerungssignal von dem Fernkon­ troller 16 wird von dem Fernsteuerungssignalsensor 8 er­ fasst.
Auf dem Schirm der Anzeigeeinheit 7 wird die Straßen­ karte mit verschiedenen Skalen angezeigt. Des weiteren sind Zeiger, welche die augenblickliche Position oder die Bewe­ gungsrichtung des Fahrzeugs anzeigen, der angezeigten Stra­ ßenkarte überlagert. Eine empfohlene Route zu dem Ziel kann ebenfalls der angezeigten Straßenkarte überlagert sein. Des weiteren werden ebenfalls eine Form, um den Benutzer zur Eingabe des Ziels und dergleichen zu veranlassen, oder ver­ schiedene Mitteilungen oder Informationen ebenfalls auf dem Schirm angezeigt.
Die Straßenkarte wird von der Kartendateneingabeeinheit 3 abgerufen bzw. wiedererlangt. Die Steuerungsschaltung 5 weist die Anzeigeeinheit 7 zur Anzeige der abgerufenen Straßenkarte auf dem Schirm und des weiteren zur Überlage­ rung der Zeiger an, welche die augenblickliche Position und die Bewegungsrichtung des Fahrzeugs auf der Grundlage des Ausgangs von der Positionserfassungseinheit 2 anzeigen. Zur Anzeige der augenblicklichen Position des Fahrzeugs genau auf der Straßenkarte führt die Steuerungsschaltung 5 eine Kartenanpassung durch. Des weiteren weist die Steuerungs­ schaltung 5 die Anzeigeeinheit 7 an die auf dem Schirm an­ gezeigte Karte (den Massstab davon) zu ändern.
Die Steuerungsschaltung 5 führt eine automatische Rou­ tensuche und Routenführung durch. Bei der automatischen Routensuche berechnet die Steuerungsschaltung 5 automatisch eine empfohlene Route von der augenblicklichen Position des Fahrzeugs zu einem von dem Benutzer eingegebenen Ziel. Bei der Routenführung weist die Steuerungsschaltung 5 die An­ zeigeeinheit 7 an die empfohlene Route auf dem Schirm wie oben beschrieben anzuzeigen. Des weiteren kann die Steue­ rungsschaltung 5 den Sprachsyntheseabschnitt 10 anweisen eine Audioführung wie "an der Kreuzung 200 Meter voraus nach links abbiegen" über den Dialogsteuerungsabschnitt 9 während der Routenführung zu erzeugen. Die erzeugte Au­ dioführung wird über den Lautsprecher 11 ausgegeben.
Die Spracherkennungsvorrichtung 18 ist an den Dia­ logsteuerungsabschnitt 9 derart angeschlossen, dass die Si­ cherheit des Benutzers und die Benutzerfreundlichkeit der Fahrzeugnavigationsausrüstung 1 verbessert sind. Der Benut­ zer (Fahrer) kann einen Befehl (Zielsuchbefehl, Umleitungs­ befehl oder Kartenskalenänderungsbefehl) oder das Ziel (Haus des Benutzers oder registrierter Punkt) durch seine Stimme eingeben, während die Augen auf die voraus befindli­ che Straße gerichtet sind. Die Spracherkennungsvorrichtung 18 empfängt ein Sprachsignal, welches einen Befehl oder das Ziel darstellt, von dem Benutzer über ein Mikrofon 17 und erkennt es. Das Ergebnis der Erkennung wird dem Dia­ logsteuerungsabschnitt 9 bereitgestellt. Das Mikrofon 17 ist an einer geeigneten Position innerhalb des Fahrzeugs plaziert, so dass es die Stimme des Benutzers gut empfängt. Beispielsweise ist das Mikrofon 17 an der oberen Oberfläche der Lenksäulenabdeckung oder der Sonnenblende über dem Sitz des Fahrers befestigt.
Entsprechend Fig. 2 enthält die Spracherkennungsvor­ richtung 18 einen akustischen Anaylseabschnitt 19, einen Merkmalsextraktionsabschnitt (feature extraction section) 20 und einen Musteranpassungsabschnitt 21.
Der akustische Analyseabschnitt 19 empfängt das analoge Sprachsignal von dem Mikrofon 17 und tastet es mit einer Abtastfrequenz von 12 kHz in digitale Signale ab. Die digi­ talen Signale werden in Rahmen derart geteilt, dass die Rahmen eine feste Länge besitzen und einander überlappen. Für jeden der Rahmen wird die Fourier-Transformation des Rahmens derart berechnet, dass das akustische Spektrum des Sprachsignals bereitgestellt wird. Des weiteren wird das Quadrat der Amplitude des akustischen Spektrums derart be­ rechnet, dass das akustische Kurzzeitenergiespektrum er­ langt wird. Die inverse Fourier-Transformation des Energie­ spektrums wird derart berechnet, dass Autokorrelationskoef­ fizienten erlangt werden. Die LPC- (Linear Predictive Coding) Analyse wird unter Verwendung der Autokorrelations­ koeffizienten derart durchgeführt, dass LPC-Koeffizienten bereitgestellt werden. Die LPC-Koeffizienten werden sequen­ tiell dem Merkmalsextraktionsabschnitt 20 bereitgestellt.
Der Merkmalsextraktionsabschnitt 20 berechnet LPC- Cepstrum-Koeffizienten für jeden der Rahmen auf der Grund­ lage der von dem akustischen Analyseabschnitt 19 empfange­ nen LPC-Koeffizienten. Die LPC-Cepstrum-Koeffizienten wer­ den sequentiell dem Musteranpassungsabschnitt 21 als cha­ rakteristische Parameter bereitgestellt.
Der Musteranpassungsabschnitt 21 führt eine Musteran­ passung zwischen jedem der Bezugsmuster in einem Wörterver­ zeichnis, das in dem Wörterbuchabschnitt gespeichert ist, und Zeitreihendaten (time-series data) der LPC-Cepstrum- Koeffizienten durch. Das heißt, es werden die Zeitreihenda­ ten in Segmente unter Verwendung von versteckten Markov-Mo­ dellen geteilt, und es wird die Ähnlichkeit (d. h. das Wahr­ scheinlichkeitsverhältnis) zwischen den Bezugsmustern und jedem der Segmente berechnet. Der Wörterbuchabschnitt ist ein Teil eines festen Speichers der Spracherkennungsvor­ richtung. Jeder der Bezugsmuster ist eine Zeitreihe von LPC-Cepstrum-Koeffizienten, welche im voraus berechnet wer­ den und einem von Wörtern entsprechen, welche zu identifi­ zieren sind.
Der Musteranpassungsabschnitt 21 wählt als Kandidaten­ wörter ein oder mehrere Wörter entsprechend den Bezugsmu­ stern aus, welche die größten Ähnlichkeiten mit den LPC- Cepstrum-Koeffizienten haben. In dem Fall einer herkömmli­ chen Spracherkennungsvorrichtung werden die Kandidatenwör­ ter dem Dialogsteuerungsabschnitt 9 als das Erkennungser­ gebnis bereitgestellt.
Jedoch erkennt die vorliegende Spracherkennungsvorrich­ tung 18 das Sprachsignal wie im folgenden dargelegt, wenn das Sprachsignal in einigen Situationen empfangen worden ist und die Kandidatenwörter ein bestimmtes Wort enthalten. Das bestimmte Wort ist ein kritisches Wort für die Fahr­ zeugnavigationsausrüstung 1. Das heißt, es führt die Fahr­ zeugnavigationsausrüstung 1 einen Betrieb durch, welcher nicht leicht rückgängig (undone) gemacht werden kann, wenn sie das bestimmte Wort empfängt. Die Spracherkennungsvor­ richtung 18 empfängt und speichert die ähnliche Klanggruppe des bestimmten Worts im voraus. Die ähnliche Klanggruppe enthält Bezugsmuster entsprechend den Klängen, welche sich von denjenigen des bestimmten Worts unterscheiden, jedoch ähnlich sind. Die Erkennung des Sprachsignals wird unter Verwendung der ähnlichen Klanggruppe des bestimmten Worts durchgeführt.
Die Vorrichtung 18 erzeugt des weiteren wenn nötig im Voraus Bezugsmuster entsprechend Klängen, die ähnlich wie diejenigen eines zweiten bestimmten Worts sind. Das zweite bestimmte Wort ist ein Wort, welches das Gegenteil des be­ stimmten Worts bedeutet. Die erzeugten Bezugsmuster werden der ähnlichen Klanggruppe hinzugefügt.
Die Erkennung des Sprachsignals wird mittels eines Bei­ spiels erklärt. Wenn die Fahrzeugnavigationsausrüstung 1 ein Stimmbefehl wie "Umleiten", "mein Haus", "nach Hause" oder "Ändern des Ziels" empfängt, gibt sie eine Sprachnach­ richt wie "Ihr Heim wird als das Ziel festgelegt. Ok?" zur Bestätigung des Willen des Benutzers aus. Auf diese Weise wird der Benutzer dazu veranlasst durch die Stimme "YES" oder "NO" als Antwort auf die Sprachnachricht einzugeben. In diesem Fall wählt die Spracherkennungsvorrichtung 18 das Wort "YES" als das obige bestimmte Wort aus, und es wird die ähnliche Klanggruppe des Worts "YES" erzeugt. Diese ähnliche Wortgruppe enthält Bezugsmuster entsprechend den Klängen / j / / * / / s / , / j / / e / / * / und dergleichen. Das Symbol "*" steht für einen willkürlichen Vokal oder Konsonanten. Des weiteren wird das Wort "NO" als das zweite bestimmte Wort gewählt, und es werden Bezugsmuster entsprechend Klängen ähnlich denjenigen des Worts "NO" erzeugt und der ähnlichen Klanggruppe hinzugefügt. Die Bezugsmuster entsprechend den Klängen / au / , / uu / und dergleichen werden der ähnlichen Klanggruppe in diesem Fall hinzugefügt. Es wird bevorzugt, dass die ähnliche Wortgruppe die Bezugsmuster entsprechend Klängen ähnlich denjenigen des zweiten bestimmten Worts enthalten sollten, wenn das Sprachsignal in einer Entweder- oder-Situation ähnlich diesem Fall empfangen wird.
Der Musteranpassungsabschnitt 21 führt eine Musteran­ passung zwischen jedem der Bezugsmuster in der ähnlichen Tongruppe und den LPC-Cepstrum-Koeffizienten des Sprachsi­ gnals durch, wenn die Kandidatenwörter das bestimmte Wort "YES" enthalten. Wenn eine der Bezugsstrukturen in der ähn­ lichen Klanggruppe eine größere Ähnlichkeit mit den LPC- Cepstrum-Koeffizienten besitzt, gibt der Musteranpassungs­ abschnitt 21 das zweite bestimmte Wort "NO" als das Erken­ nungsergebnis aus.
Auf diese Weise erkennt die vorliegende Spracherken­ nungsvorrichtung 18 das in der Situation des obigen Bei­ spiels empfangene Sprachsignal als das Wort "YES" lediglich dann, wenn die Zeitreihen der LPC-Cepstrum-Koeffizienten sehr nahe dem Bezugsmuster des Worts "YES" sind. Wenn das eingegebene Sprachsignal ähnlich, jedoch unterschiedlich zu dem bestimmten Wort "YES" oder ähnlich, jedoch unterschied­ lich zu dem zweiten bestimmten Wort "NO" ist, würde das Wort "NO" ausgegeben werden, da das Sprachsignal eine große Ähnlichkeit mit einem der Bezugsmuster in der ähnlichen Tongruppe besitzen würde. Das heißt, der Merkmalsabstand bzw. Merkmalsraum (feature space) eines eingegebenen Sprachsignals, welches als das Wort "YES" erkannt worden ist, ist schmal, und der Merkmalsraum eines eingegebenen Sprachsignals, welches als das Wort "NO" erkannt worden ist, ist wie in Fig. 3A dargestellt breit. In Fig. 3A stellt die horizontale Achse beispielsweise den Wert des Ausdrucks des nullten Grads der LPC-Cepstrum-Koeffizienten dar, und die vertikale Achse stellt den Wert des Ausdrucks des ersten Grads der LPC-Cepstrum-Koeffizienten dar. Des weiteren stellt das Zeichen O das Bezugsmuster entspre­ chend dem Wort "YES" dar, und das Zeichen × stellt das Be­ zugsmuster entsprechend dem Wort "NO" und die Bezugsmuster in der ähnlichen Klanggruppe dar. Somit würde das Wort "NO" als das Erkennungsergebnis ausgegeben werden, wenn die Kan­ didatenwörter das Wort "YES", jedoch den Grad des Vertrau­ ens enthalten, dass das Sprachsignal tatsächlich das Wort "YES" darstellt.
Demgegenüber ist in dem Fall einer herkömmlichen Spracherkennungsvorrichtung der charakteristische Raum bzw. Abstand eines eingegebenen Sprachsignals, welches als das Wort "YES" erkannt wird, wie in Fig. 3 dargestellt relativ breit. In Fig. 3B stellt die horizontale Achse spielsweise den Wert des Ausdrucks des nullten Grads der LPC-Cepstrum- Koeffizienten dar, und die vertikale Achse stellt den Wert des Ausdrucks des ersten Grads der LPC-Cepstrum-Koeffizien­ ten dar. Des weiteren stellt das Zeichen O das Bezugsmu­ ster entsprechend dem Wort "YES" dar, und das Zeichen × stellt das Bezugsmuster entsprechend dem Wort "NO" dar. Da­ her würde das Sprachsignal, welches ähnlich, jedoch unter­ schiedlich zu dem Wort "YES" ist, als das Wort "YES" falsch erkannt werden.
Die obige Wirkung der vorliegenden Spracherkennungsvor­ richtung 18 wurde durch Experimentieren in der Struktur wie in Fig. 2 dargestellt verifiziert. Das Ergebnis des Experi­ mentierens ist in Fig. 4 dargestellt. Wenn eingegebene Sprachsignale unter Verwendung der ähnlichen Klanggruppe nicht erkannt worden sind, war die Wahrscheinlichkeit, dass die Sprachsignale, welche unterschiedlich zu dem Wort "YES" waren, oder das Wort "NO" als das Wort "YES" falsch erkannt wurde, relativ groß (Stand der Technik: 61,9%). Demgegen­ über war eine Wahrscheinlichkeit sehr viel geringer (Ausführungsform: 8,7%), wenn die eingegebenen Sprachsi­ gnale unter Verwendung der ähnlichen Klanggruppe erkannt wurden. Daher war die Erkennungsrate des Worts "NO" leicht größer (Ausführungsform: 98,2%). Die Erkennungsrate des Worts "YES" war in beiden Fällen gleich groß.
Dementsprechend wird verhindert, dass die Fahrzeugnavi­ gationsausrüstung 1 einen Betrieb durchführt, der gegen den Willen des Benutzers nicht leicht rückgängig gemacht werden kann, wenn das von dem Benutzer empfangene eingegebene Sprachsignal in der Situation des obigen Beispiels von der vorliegenden Spracherkennungsvorrichtung erkannt wird.
Bei der vorliegenden Ausführungsform können entspre­ chende japanische Worte "hai" und "iie" als das bestimmte Wort und das zweite bestimmte Wort anstelle von "YES" und "NO" gewählt werden. Des weiteren können entsprechende deutsche Worte "ja" und "nein", entsprechende französische Worte "oui" und "non", entsprechende holländische Worte "ja" und "nee", entsprechende spanische Worte "si" und "no", entsprechende italienische Worte "si" und "non" oder entsprechende portugiesische Wörter "sim" und "nao" als das bestimmte Wort und das zweite bestimmte Wort ausgewählt werden.
Zweite Ausführungsform
Entsprechend Fig. 5 enthält eine Spracherkennungsvor­ richtung 18 einen akustischen Analyseabschnitt 19, einen Merkmalsextraktionsabschnitt 20 und einen Musteranpassungs­ abschnitt 21' ähnlich wie bei der ersten Ausführungsform. Die Spracherkennungsvorrichtung 18 empfängt ein eingegebe­ nes Sprachsignal von dem Mikrofon 17 und erkennt es. Das Erkennungsergebnis wird einem Dialogsteuerungsabschnitt 9 einer Fahrzeugnavigationsausrüstung 1 ausgegeben. Wenn das Sprachsignal erkannt wird, arbeiten der akustische Analyse­ abschnitt 19 und der Merkmalsextraktionsabschnitt 20 ähn­ lich wie bei der ersten Ausführungsform. Jedoch führt der Musteranpassungsabschnitt 21' eine Musteranpassung unter Verwendung von lediglich gewöhnlichen Wörterbuchdaten und keine Musteranpassung unter Verwendung der ähnlichen Klang­ gruppe durch. Die gewöhnlichen Wörterbuchdaten sind in dem Wörterbuchabschnitt der Spracherkennungsvorrichtung 18 ge­ speichert und enthalten Bezugsmuster entsprechend Wörtern, welche identifiziert werden sollten. Der Musteranpassungs­ abschnitt 21' erzeugt Kandidatenwörter als Ergebnis der Mu­ steranpassung zwischen den von dem Merkmalsextraktionsab­ schnitt 20 empfangenen Zeitreihendaten der LPC-Cepstrum- Koeffizienten und jedem der Bezugsmuster.
Wie in Fig. 5 dargestellt enthält die Spracherkennungs­ vorrichtung 18 des weiteren einen Erfolgswahrscheinlich­ keitsabschätzungsabschnitt 22, welcher in der japanischen Patentanmeldung Nr. H11-359076 offenbart ist, zum Abschät­ zen des Grads der Zuverlässigkeit, dass das eingegebene Sprachsignal tatsächlich einem Kandidatenwort entspricht. Wenn die Kandidatenwörter ein bestimmtes Wort enthalten, welches ein kritisches Wort für die Fahrzeugnavigationsaus­ rüstung 1 ist, stellt der Musteranpassungsabschnitt 21 cha­ rakteristische Werte, welche die Erkennung des spezifischen Worts betreffen, dem Erfolgswahrscheinlichkeitsab­ schätzungsabschnitt 22 bereit. Die von dem Musteranpas­ sungsabschnitt 21' bereitgestellten charakteristischen Werte stellen das Wahrscheinlichkeitsverhältnis des be­ stimmten Worts und ein Modell einer verbundenen Silbe oder die Varianz der Dauer von Silben in dem bestimmten Wort dar. Der Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22 empfängt die charakteristischen Werte, welche die Erkennung eines Kandidatenworts betreffen, welches das bestimmte Wort in diesem Fall ist, und schätzt als den absoluten Grad der Zuverlässigkeit die Wahrscheinlichkeit, dass das eingege­ bene Sprachsignal tatsächlich das Kandidatenwort darstellt, auf der Grundlage der empfangenen charakteristischen Werte ab.
Die charakteristischen Werte können durch den akusti­ schen Analyseabschnitt 19 anstelle des Musteranpassungsab­ schnitts 21' wie durch die gestrichelte Linie in Fig. 5 dargestellt bereitgestellt werden. In diesem Fall werden Werte, welche den Grad des Erfolgs bei der akustischen Ana­ lyse (den Geräuschpegel oder LPC-Reste (LPC residuals)), als die charakteristischen Werte bereitgestellt. Alternativ können die charakteristischen Werte durch den Merkmalsex­ traktionsabschnitt 20 anstelle des Musteranpassungsab­ schnitts 21' wie durch die gestrichelte Linie in Fig. 5 dargestellt bereitgestellt werden. In diesem Fall werden Werte, welche LPC-Cepstrum-Koeffizienten darstellen, als die charakteristischen Werte bereitgestellt.
Der von dem Erfolgswahrscheinlichkeitsab­ schätzungsabschnitt geschätzte absolute Grad der Zuverläs­ sigkeit wird dem Musteranpassungsabschnitt 21' in Form der Wahrscheinlichkeit bereitgestellt, dass das eingegebene Sprachsignal tatsächlich das bestimmte Wort darstellt. Der Grad der Zuverlässigkeit kann intuitiv und quantitativ er­ fasst werden, wenn er in Form der Erfolgswahrscheinlichkeit auf diese Weise bereitgestellt wird. Der Musteranpassungs­ abschnitt 21' gibt ein Kandidatenwort außer dem bestimmten Wort als das Erkennungsergebnis aus, wenn der empfangene absolute Grad der Zuverlässigkeit gleich oder kleiner als der vorbestimmte Bezugspegel ist. Der Bezugspegel wird im voraus experimentell bestimmt.
Wie oben beschrieben werden die Wörter entsprechend den Bezugsmustern, welche die großen Ähnlichkeiten mit den LPC- Cepstrum-Koeffizienten besitzen, als die Kandidatenwörter gewählt. Daher ist die Wahrscheinlichkeit, dass das einge­ gebene Sprachsignal tatsächlich das Kandidatenwort dar­ stellt, relativ groß, jedoch nicht immer absolut groß. Dem­ entsprechend bestimmt bei der vorliegenden Spracherken­ nungsvorrichtung der Musteranpassungsabschnitt 21' auf der Grundlage des von dem Erfolgswahrscheinlichkeitsab­ schätzungsabschnitt 22 bereitgestellten absoluten Grads der Zuverlässigkeit, ob er als das Erkennungsergebnis das be­ stimmte Wort ausgibt, welches eines der Kandidatenwörter ist.
Auf diese Weise wird das bestimmte Wort als das Erken­ nungsergebnis lediglich dann ausgegeben, wenn der Grad der Zuverlässigkeit, dass das eingegebene Sprachsignal tatsäch­ lich das bestimmte Wort darstellt, absolut groß ist. Das heißt, die Wahrscheinlichkeit, dass das eingegebene Sprach­ signal, welches das bestimmte Wort als das bestimmte Wort falsch erkannt wird, ist sehr niedrig. Das bestimmte Wort ist ein kritisches Wort für die Fahrzeugnavigationsausrü­ stung 1 wie oben beschrieben. Dementsprechend wird verhin­ dert, dass die Fahrzeugnavigationsausrüstung 1 einen Be­ trieb durchführt, welcher gegen den Willen des Benutzers nicht leicht rückgängig gemacht werden kann.
Modifizierungen
Bei der ersten Ausführungsform können ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts 21 in einem Computersystem und Daten wie die Bezugsmuster und die ähnliche Klanggruppe als abtrennbares Aufzeich­ nungsmedium bereitgestellt werden, welches das Programm und die Daten speichert. Verschiedene Aufzeichnungsmedien wie ein CD-ROM, ein DVD-ROM, ein nicht flüchtiger Speicher (d. h. EEPROM), eine magnetisch optische Platte, eine Fest­ platte können als Aufzeichnungsmedium zum Speichern des Programms und der Daten verwendet werden.
Bei der zweiten Ausführungsform können ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts 21' und des Erfolgswahrscheinlichkeitsab­ schätzungsabschnitts 22 in einem Computersystem und Daten wie die Bezugsmuster als abtrennbares Aufzeichnungsmedium bereitgestellt werden, welches das Programm und die Daten speichert. Des weiteren kann ein Zuverlässigkeitsgradab­ schätzungsabschnitt, welcher den absoluten Grad der Zuver­ lässigkeit in der Form außer der Erfolgswahrscheinlichkeit bereitstellt, anstelle des Erfolgswahrscheinlichkeitsab­ schätzungsabschnitts 22 verwendet werden.
Die Spracherkennungsvorrichtung 18 der vorliegenden Er­ findung kann für ein externes Gerät außer der Fahrzeugnavi­ gationsausrüstung 1 verwendet werden, beispielsweise für ein persönliches mobiles Navigationsgerät und andere be­ liebte elektrische Geräte.

Claims (18)

1. Spracherkennungsvorrichtung (18), welche ein Sprachsi­ gnal von einem Sprecher empfängt und erkennt, mit:
einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert;
einer Merkmalsextraktionseinrichtung (20), welche cha­ rakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analy­ seeinrichtung (19) durchgeführten Analyse extrahiert; und
einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristi­ schen Parametern durchführt und als Kandidatenwörter wenig­ stens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält,
wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem be­ stimmten Wort ausgibt, wenn die Kandidatenwörter das be­ stimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort dar­ stellt, niedrig ist, und
wobei die Musteranpassungseinrichtung (21, 21') mit einem externen Gerät (1) verbunden ist und das externe Ge­ rät (1) das Ergebnis der Erkennung von der Musteranpas­ sungseinrichtung (21, 21') empfängt und zum Steuern eines Betriebs des externen Geräts (1) verwendet.
2. Spracherkennungsvorrichtung (18) nach Anspruch 1, da­ durch gekennzeichnet, dass
das bestimmte Wort ein Wort ist, welches eine Möglich­ keit des ungünstigen Beeinflussens des Betriebs des exter­ nen Geräts (1) oder des Veranlassens einer Herabsetzung ei­ ner Funktion des externen Geräts (1) besitzt.
3. Spracherkennungsvorrichtung (18) nach Anspruch 1, da­ durch gekennzeichnet, dass das bestimmte Wort ein Wort ist, welches eine Möglich­ keit besitzt das externe Gerät (1) zur Durchführung des Be­ triebs gegen den Willen des Sprechers zu veranlassen.
4. Spracherkennungsvorrichtung (18) nach Anspruch 3, da­ durch gekennzeichnet, dass das bestimmte Wort ein Wort ist, welches eine Möglich­ keit besitzt eine Änderung des Festlegens des externen Ge­ räts (1) zu veranlassen.
5. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 4, des weiteren gekennzeichnet durch:
eine Zuverlässigkeitsgradabschätzungseinrichtung (22), welche charakteristische Werte, die die Erkennung eines Worts betreffen, von der akustischen Analyseeinrichtung (19), der Merkmalsextraktionseinrichtung (20) und/oder der Musteranpassungseinrichtung (21') empfängt und einen abso­ luten Grad der Zuverlässigkeit, dass das Sprachsignal tat­ sächlich das Wort darstellt, auf der Grundlage der empfan­ genen charakteristischen Werte abschätzt,
wobei die Musteranpassungseinrichtung (21') von der Zuverlässigkeitsgradabschätzungseinrichtung (22) den abso­ luten Grad der Zuverlässigkeit, dass das Sprachsignal tat­ sächlich das bestimmte Wort darstellt, empfängt, wenn die Kandidatenwörter das bestimmte Wort enthalten, und be­ stimmt, dass der Grad der Zuverlässigkeit niedrig ist, wenn der empfangene absolute Grad der Zuverlässigkeit gleich oder kleiner als ein vorbestimmter Grad ist.
6. Spracherkennungsvorrichtung (18) nach Anspruch 5, da­ durch gekennzeichnet, dass die Zuverlässigkeitsgradabschätzungseinrichtung (22) den absoluten Grad der Zuverlässigkeit in Form einer Wahr­ scheinlichkeit, dass das Sprachsignal tatsächlich das Wort darstellt, abschätzt und bereitstellt.
7. Spracherkennungsvorrichtung (18) nach Anspruch 1, da­ durch gekennzeichnet, dass
eine ähnliche Klanggruppe, welche Bezugsmuster ent­ sprechend von Klängen enthält, die ähnlich sind, sich je­ doch von denjenigen eines bestimmten Worts unterscheiden, im voraus gespeichert ist und die Musteranpassungseinrich­ tung (21) eine Musteranpassung zwischen jedem der Bezugsmu­ ster in der ähnlichen Klanggruppe und den charakteristi­ schen Parametern durchführt, wenn die Kandidatenwörter das bestimmte Wort enthalten, und
die Musteranpassungseinrichtung (21) als das Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgibt, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine hohe Ähnlichkeit zu den charakteristischen Parametern besitzt.
8. Spracherkennungsvorrichtung (18) nach Anspruch 7, da­ durch gekennzeichnet, dass
die ähnliche Klanggruppe des weiteren Bezugsmuster entsprechend von Klängen enthält, welche ähnlich sind, sich jedoch von denjenigen eines zweiten bestimmten Worts unter­ scheiden, welches das Gegenteil des bestimmten Worts bedeu­ tet, und
die Musteranpassungseinrichtung (21) als Ergebnis der Erkennung das zweite bestimmte Wort ausgibt, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine hohe Ähn­ lichkeit zu den charakteristischen Parametern besitzt.
9. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 8, dadurch gekennzeichnet, dass die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort ent­ halten und ein absoluter Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, lediglich in dem Fall, dass das Sprachsignal in einer Situation empfangen wird, bei welcher der Sprecher aufgefordert wird eine Anfrage zur Bestätigung zu beantwor­ ten, ob der Sprecher es gestattet, dass das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht getan bzw. rückgängig gemacht wird.
10. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 9, dadurch gekennzeichnet, dass das externe Gerät (1) ein Navigationsgerät ist.
11. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 10, dadurch gekennzeichnet, dass ein Programm zur Implementierung einer Funktion der Musteranpassungseinrichtung (21, 21') in einem Computersy­ stem und Daten, welche das Wörterverzeichnis enthalten, als Aufzeichnungsmedium vorgesehen sind, welches das Programm und die Daten speichert.
12. Spracherkennungsvorrichtung (18) nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass Programme zur Implementierung von Funktionen der Mu­ steranpassungseinrichtung (21') und der Zuverlässigkeits­ gradabschätzungseinrichtung (22) in einem Computersystem und Daten, welche das Wörterverzeichnis enthalten, als Me­ dium bereitgestellt werden, welches die Programme und die Daten speichert.
13. Spracherkennungsvorrichtung, welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit:
einer Spracherkennungseinrichtung (18), welche das Sprachsignal unter Verwendung eines Wörterverzeichnisses erkennt und als Ergebnis der Erkennung wenigstens ein Wort in dem Wöterverzeichnis ausgibt, wobei das Wörterverzeich­ nis im voraus gespeichert ist und Wörter enthält;
einer Steuerungseinrichtung (9), welche das Ergebnis der Erkennung von der Spracherkennungseinrichtung (18) emp­ fängt und ein Steuersignal einem externen Gerät (1) auf der Grundlage des Ergebnisses der Erkennung ausgibt,
wobei die Steuerungseinrichtung (9) ein Ausgabegerät (10, 11) anweist eine Anfrage an den Sprecher zur Bestäti­ gung auszugeben, ob der Sprecher gestattet, dass das exter­ ne Gerät (1) einen Betrieb durchführt, wenn die Steuerungs­ einrichtung (9) als das Ergebnis der Erkennung ein Wort empfängt, welches das externe Gerät (1) zur Durchführung des Betriebs anweist,
wobei das Wörterverzeichnis ein erstes Wort, welches es dem externen Gerät (1) gestattet einen Betrieb durchzu­ führen, und ein zweites Wort enthält, welches verhindert, dass das externe Gerät (1) einen Betrieb durchführt, und des weiteren ähnliche Wörter enthält, welche sich von dem ersten Wort unterscheiden, jedoch eine akustische Charakte­ ristik ähnlich derjenigen des ersten Worts besitzen, und
wobei die Spracherkennungseinrichtung (18) das erste Wort oder das zweite Wort als Ergebnis der Erkennung einer Antwort auf die Anfrage ausgibt und das zweite Wort aus­ gibt, wenn die Antwort eine hohe Ähnlichkeit zu einem der ähnlichen Wörter besitzt.
14. Spracherkennungsvorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass das erste Wort ein bejahendes Wort und das zweite Wort ein verneinendes Wort ist.
15. Spracherkennungsvorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass das externe Gerät (1) ein Navigationsgerät ist.
16. Verfahren (18) zur Erkennung eines Sprachsignals, mit den Schritten:
Empfangen (17) eines Sprachsignals von einem Sprecher;
akustisches Analysieren (19) des empfangenen Signals;
Extrahieren (20) von charakteristischen Parametern aus dem Sprachsignal auf der Grundlage eines Ergebnisses der Analyse;
Berechnen (21') von Ähnlichkeiten zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahier­ ten charakteristischen Parametern, wobei das Wörterver­ zeichnis im voraus erzeugt und gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält;
Wählen (21') als Kandidatenwörter wenigstens eines Worts entsprechend dem Bezugsmuster, welches eine große Ähnlichkeit zu den charakteristischen Parametern besitzt;
Abschätzen (22) eines absoluten Grads der Zuverlässig­ keit, dass das Sprachsignal tatsächlich ein bestimmtes Wort darstellt, wenn die Kandidatenwörter das bestimmte Wort enthalten;
Ausgeben (21') als Ergebnis der Erkennung wenigstens eines Worts außer dem bestimmten Wort, wenn die Kandidaten­ wörter das bestimmte Wort enthalten und der geschätzte ab­ solute Grad der Zuverlässigkeit, dass das Sprachsignal tat­ sächlich das bestimmte Wort darstellt, gleich oder kleiner als ein vorbestimmter Grad ist.
17. Verfahren (18) zur Erkennung eines Sprachsignals, mit den Schritten:
Empfangen (17) eines Sprachsignals von einem Sprecher;
Akustisches Analysieren (19) des empfangenen Sprachsi­ gnals;
Extrahieren (20) von charakteristischen Parametern aus dem Sprachsignal auf der Grundlage eines Ergebnisses der Analyse;
Berechnen (21) von Ähnlichkeiten zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahier­ ten charakteristischen Parametern, wobei das Wörterver­ zeichnis im voraus gespeichert wird und die Bezugsmuster entsprechend den Wörtern enthält;
Wählen (21) als Kandidatenwörter wenigstens eines Worts entsprechend dem Bezugsmuster, welches eine große Ähnlichkeit zu den charakteristischen Parametern besitzt;
Berechnen (21) von Ähnlichkeiten zwischen jedem von Bezugsmustern in einer ähnlichen Klanggruppe und den cha­ rakteristischen Parametern, wenn die Kandidatenwörter ein bestimmtes Wort enthalten, wobei die ähnliche Klanggruppe im voraus gespeichert wird und die Bezugsmuster entspre­ chend den Klängen enthält, die ähnlich, jedoch unterschied­ lich zu jenen des bestimmten Worts sind;
Ausgeben (21) wenigstens eines Worts außer dem bestim­ men Wort als Ergebnis der Erkennung, wenn die Kandidaten­ wörter das bestimmte Wort enthalten und eines der Bezugsmu­ ster in der ähnlichen Klanggruppe eine große Ähnlichkeit zu den charakteristischen Parametern besitzt.
18. Verfahren (18) zur Erkennung eines Sprachsignals nach Anspruch 16 oder 17, dadurch gekennzeichnet, dass
das ausgegebene Ergebnis der Erkennung von einem ex­ ternen Gerät (1) zur Steuerung des Betriebs des Geräts (1) empfangen und verwendet wird,
wobei das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht rückgängig gemacht wird, wenn es das bestimmte Wort empfängt.
DE10134908A 2000-07-21 2001-07-18 Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden Expired - Fee Related DE10134908B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000220564A JP3567864B2 (ja) 2000-07-21 2000-07-21 音声認識装置及び記録媒体
JP00-220564 2000-07-21

Publications (2)

Publication Number Publication Date
DE10134908A1 true DE10134908A1 (de) 2002-04-25
DE10134908B4 DE10134908B4 (de) 2013-05-08

Family

ID=18715149

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10134908A Expired - Fee Related DE10134908B4 (de) 2000-07-21 2001-07-18 Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden

Country Status (3)

Country Link
US (1) US6937982B2 (de)
JP (1) JP3567864B2 (de)
DE (1) DE10134908B4 (de)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1397797B1 (de) * 2001-04-19 2007-09-12 BRITISH TELECOMMUNICATIONS public limited company Spracherkennung
JPWO2003088209A1 (ja) * 2002-04-12 2005-08-25 三菱電機株式会社 カーナビゲーションシステム並びにその音声認識装置
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4363076B2 (ja) * 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
JP4225356B2 (ja) * 2007-04-09 2009-02-18 トヨタ自動車株式会社 車両用ナビゲーション装置
US9423996B2 (en) * 2007-05-03 2016-08-23 Ian Cummings Vehicle navigation user interface customization methods
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP5157596B2 (ja) * 2008-04-01 2013-03-06 トヨタ自動車株式会社 音声認識装置
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8914287B2 (en) 2010-12-31 2014-12-16 Echostar Technologies L.L.C. Remote control audio link
WO2013069060A1 (ja) * 2011-11-10 2013-05-16 三菱電機株式会社 ナビゲーション装置および方法
WO2013069172A1 (ja) * 2011-11-10 2013-05-16 三菱電機株式会社 ナビゲーション装置および方法
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的***和方法
CN104316073B (zh) * 2014-11-12 2017-06-16 沈阳美行科技有限公司 一种用户自定义引导方位的方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01116700A (ja) 1987-10-30 1989-05-09 Fujitsu Ltd 音声認識制御方式
JPH03248199A (ja) 1990-02-26 1991-11-06 Ricoh Co Ltd 音声認識方式
US5305244B2 (en) * 1992-04-06 1997-09-23 Computer Products & Services I Hands-free user-supported portable computer
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
JP3384165B2 (ja) 1995-02-01 2003-03-10 トヨタ自動車株式会社 音声認識装置
JPH09244691A (ja) * 1996-03-07 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 入力音声リジェクト方法およびこの方法を実施する装置
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
DE19646634A1 (de) * 1996-11-12 1998-05-14 Bosch Gmbh Robert Verfahren zur Befehlseingabe mit Sprache
GB9701866D0 (en) * 1997-01-30 1997-03-19 British Telecomm Information retrieval
JPH11337365A (ja) 1998-05-29 1999-12-10 Clarion Co Ltd ナビゲーションシステム及び方法並びにナビゲーション用ソフトウェアを記録した記録媒体
US6192337B1 (en) * 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
JP2000069348A (ja) * 1998-08-20 2000-03-03 Canon Inc 撮像装置
DE19939705A1 (de) * 1999-08-18 2001-03-08 Deutsche Telekom Ag Vorrichtung zur Spracherkennung
JP2001222291A (ja) 2000-02-08 2001-08-17 Kenwood Corp 音声認識装置を用いた制御装置
JP2002021121A (ja) 2000-07-07 2002-01-23 Shin Caterpillar Mitsubishi Ltd 建設機械における操作レバー割り当て方法

Also Published As

Publication number Publication date
US6937982B2 (en) 2005-08-30
JP3567864B2 (ja) 2004-09-22
US20020010579A1 (en) 2002-01-24
DE10134908B4 (de) 2013-05-08
JP2002041085A (ja) 2002-02-08

Similar Documents

Publication Publication Date Title
DE10134908A1 (de) Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden
DE112014007015B4 (de) Spracherkennungssystem
DE60124471T2 (de) Vorrichtung zur Spracherkennung
DE60024236T2 (de) Sprach endpunktbestimmung in einem rauschsignal
DE102012217160B4 (de) Verfahren zum Korrigieren unverständlicher synthetischer Sprache
DE102007015497B4 (de) Spracherkennungsvorrichtung und Spracherkennungsprogramm
DE69818930T2 (de) Verfahren zur Ausrichtung von Text an Audiosignalen
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE69916255T2 (de) System und verfahren zur geräuschkompensierten spracherkennung
DE102020205786A1 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE112012006997B4 (de) Navigationsvorrichtung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
US20040215458A1 (en) Voice recognition apparatus, voice recognition method and program for voice recognition
DE112012007103B4 (de) Spracherkennungsvorrichtung
DE102010034433B4 (de) Verfahren zum Erkennen von Sprache
DE10330274A1 (de) Sprachgesteuertes System
DE112011105407T5 (de) Spracherkennungsvorrichtung und Navigationsvorrichtung
DE112013007521T5 (de) Server zur Navigation, Navigationssystem und Navigationsverfahren
DE10246029B4 (de) Spracherkennungssystem, Computerprogramm, Navigationssystem und Kollationsverfahren
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE19717601A1 (de) Navigationsverfahren und Vorrichtung dafür
JP3093113B2 (ja) 音声合成方法及びシステム
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE112011105833T5 (de) Navigationsvorrichtung und Navigationsverfahren
EP1238250B1 (de) Spracherkennungsverfahren und -einrichtung

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final

Effective date: 20130809

R084 Declaration of willingness to licence
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee