DE112014007288T5

DE112014007288T5 - Spracherkennungssystem

Info

Publication number: DE112014007288T5
Application number: DE112014007288.5T
Authority: DE
Inventors: Yuki Sumiyoshi; Takumi Takei; Naoya Baba
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2017-09-07
Also published as: JP6522009B2; CN107110660A; JPWO2016103465A1; WO2016103465A1; US20170301349A1

Abstract

Ein Spracherkennungssystem 2 beinhaltet eine Spracherfassungseinheit 10 zum Erfassen von durch einen Anwender eine voreingestellte Tonerfassungsperiode lang geäußertem Sprechen, eine Spracherkennungseinheit 11 zum Erkennen des durch die Spracherfassungseinheit 10 erfassten Sprechens, eine Bestimmungseinheit 14 zum Bestimmen, ob der Anwender eine vorbestimmte Bedienung oder Aktion durchführt, und eine Anzeigesteuereinheit 15 zum Anzeigen, wenn die Bestimmungseinheit 14 feststellt, dass der Anwender die vorbestimmte Bedienung oder Aktion durchführt, einer Funktionsausführtaste zum Veranlassen eines Navigationssystems 1, eine, einem Ergebnis der Erkennung durch die Spracherkennungseinheit 11 korrespondierende Funktion auf einer Anzeigeeinheit auszuführen.?

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf Spracherkennungssysteme zum Erkennen von Sprachäußerungen von Anwendern.
HINTERGRUND
In einigen konventionellen Spracherkennungssystemen hat ein Anwender über Dinge nachzudenken und sie vorzubereiten, von denen er oder sie wünscht, dass das System sie erkennt. Danach kann der Anwender das System anweisen, die Spracherkennungsfunktion zu aktivieren, beispielsweise durch Drücken einer „Push-to-Talk“-(PTT, Drücken zum Sprechen) Taste und dann ein Sprechen äußern. Gemäß solchen Systemen kann ein in einer natürlichen Unterhaltung zwischen den Anwendern erscheinendes Wort nicht automatisch erkannt werden. Entsprechend, damit das System ein solches Wort erkennen kann, muss der Anwender die PCT-Taste oder dergleichen drücken und das Wort wieder aussprechen. Somit hat es Probleme gegeben, dass das Bedienen des Systems mühsam ist und dass der Anwender Dinge vergessen kann, die er/sie wünscht, dass das System erkennt.
Im Gegensatz dazu gibt es ein Spracherkennungssystem zum Durchführen von Spracherkennung kontinuierlich an von einem Mikrofon aufgenommenem Sprechen. Gemäß einem solchen Spracherkennungssystem, weil eine Spracherkennungsstartanweisung nicht durch den Anwender erteilt werden muss, wird die oben beschriebene Unbequemlichkeit gelöst. Da jedoch eine zu einem Erkennungsergebnis korrespondierende Funktion automatisch ausgeführt wird, unabhängig von einer Bedienabsicht des Anwenders, kann der Anwender verwirrt werden.
Hier wird in Patentliteratur 1 eine Bediensteuervorrichtung zum kontinuierlichen Erkennen von Sprechen und Erzeugen und Anzeigen einer Abkürzungstaste zum Ausführen einer mit einem Erkennungsergebnis assoziierten Funktion beschrieben.
ZITATELISTE
PATENTLITERATUR

Patentliteratur 1: JP 2008-14818 A

ZUSAMMENFASSUNG DER ERFINDUNG
TECHNISCHES PROBLEM
Gemäß der Bediensteuervorrichtung der oben beschriebenen Patentliteratur 1 wird eine mit einem Erkennungsergebnis assoziierte Funktion nur ausgeführt, nachdem der Anwender die Abkürzungstaste drückt. Dies kann verhindern, dass eine unabsichtliche Bedienung automatisch durchgeführt wird, unabhängig von der Intention des Anwenders. Nichts desto weniger wird im Falle von Patentliteratur 1 ein Teil der auf einem Bildschirm angezeigten Information durch die Abkürzungstaste verborgen und erzeugt eine Bildschirmaktualisierung, welche durchgeführt wird, wenn die Abkürzungstaste angezeigt wird, eine Änderung beim Anzeigeninhalt. Dies verursacht ein Problem damit, dass die Operation den Anwender veranlassen kann, sich unwohl zu fühlen oder die Konzentration des Anwenders beispielsweise beim Fahren zu beeinträchtigen.
Die vorliegende Erfindung ist zum Lösen der oben beschriebenen Probleme gemacht worden und die Aufgabe der vorliegenden Erfindung ist es, ein Spracherkennungssystem bereitzustellen, welches Sprache kontinuierlich erkennen kann und eine Funktionsausführtaste zum Ausführen einer Funktion entsprechend einem Erkennungsergebnis zu einem vom Anwender verlangten Zeitpunkt zu präsentieren.
PROBLEMLÖSUNG
Ein Spracherkennungssystem gemäß der vorliegenden Erfindung, welches beinhaltet: eine Spracherfassungseinheit zum Erfassen von Sprechen, das durch einen Anwender eine voreingestellte Tonerfassungsperiode lang geäußert wird; eine Spracherkennungseinheit zum Erkennen des durch die Spracherfassungseinheit erfassten Sprechens; eine Bestimmungseinheit zum Bestimmen, ob der Anwender eine vorbestimmte Operation oder Aktion durchführt; und eine Anzeigensteuereinheit zum Anzeigen, wenn die Bestimmungseinheit bestimmt, dass der Anwender die vorbestimmte Operation oder Aktion durchführt, einer Funktionsausführtaste zum Veranlassen einer Vorrichtung, gesteuert zu werden, eine Funktion auszuführen, die einem Ergebnis der Erkennung durch die Spracherkennungseinheit entspricht, auf einer Anzeigeeinheit.
VORTEILHAFTE EFFEKTE DER ERFINDUNG
Gemäß einem Aspekt der vorliegenden Erfindung werden Sprachäußerungen des Anwenders über die voreingestellte Tonerfassungsperiode importiert und wird eine Funktionsausführtaste entsprechend einer Sprachäußerung angezeigt, wenn eine vorbestimmte Operation oder Aktion durch den Anwender ausgeführt wird. Die Konfiguration kann die Beschwerlichkeit des Drückens der PCT-Taste und wieder Sprechen des Wortes, das in der Unterhaltung auftrat, lösen. Zusätzlich werden Operationen, die der Absicht des Anwenders entgegenstehen, nicht durchgeführt. Weiterhin kann eine Beeinträchtigung bei der Konzentration, die durch eine Bildschirmaktualisierung verursacht wird, die durchgeführt wird, wenn die Funktionsausführtaste angezeigt wird, reduziert werden. Zusätzlich wird eine Funktionsausführtaste, welche die Bedienabsicht des Anwenders voraussieht, dem Anwender präsentiert. Somit können Nutzerfreundlichkeit und Verwendbarkeit verbessert werden.
KURZE BESCHREIBUNG VON ZEICHNUNGEN
1 ist ein Blockdiagramm, das ein Beispiel eines Navigationssystems illustriert, auf welches ein Spracherkennungssystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung angewendet wird.
2 ist ein schematisches Konfigurationsdiagramm, das eine Haupt-Hardware-Konfiguration des Navigationssystems illustriert, auf welches das Spracherkennungssystem gemäß der ersten Ausführungsform angewendet wird.
3A und 3B sind ein erläuterndes Diagramm zum Illustrieren einer Übersicht einer Aktion des Spracherkennungssystems gemäß der ersten Ausführungsform.
4 ist ein Diagramm, welches Beispiele einer Erkennungsergebnis-Zeichenkette, die in einem Erkennungsergebnis enthalten ist, und einem Erkennungsergebnistyp illustriert.
5 ist ein Diagramm, welches Beispiele einer Relation zwischen einem Erkennungsergebnistyp und einer Funktion, die einer Funktionsausführtaste zuzuweisen ist, illustriert.
6 ist ein Flussdiagramm, das einen Prozess des Haltens eines Erkennungsergebnisses zu Sprachäußerungen durch den Anwender beim Spracherkennungssystem gemäß der ersten Ausführungsform illustriert.
7 ist ein Flussdiagramm, das einen Prozess zum Anzeigen einer Funktionsausführtaste gemäß dem Spracherkennungssystem gemäß der ersten Ausführungsform illustriert.
8A bis 8D sind ein Diagramm, welches Anzeigebeispiele von Funktionsausführtasten illustriert.
9 ist ein Diagramm, das Beispiele von Erkennungsergebnissen, die durch eine Erkennungsergebnis-Speichereinheit gespeichert werden, illustriert.
10A und 10B sind ein Diagramm, das Beispiele eines Anzeigemodus einer Funktionsausführtaste illustriert.
11 ist ein Blockdiagramm, das ein modifizierten Beispiel des Spracherkennungssystems gemäß der ersten Ausführungsform illustriert.
12 ist ein Diagramm, das Beispiele einer Beziehung zwischen einer Anwenderoperation und einem Erkennungsergebnistyp illustriert.
13 ist ein Flussdiagramm, das einen Prozess zur Anzeige einer Funktionsausführtaste gemäß einem Spracherkennungssystem einer zweiten Ausführungsform der vorliegenden Erfindung illustriert.
14A und 14B sind ein Diagramm, das ein anderes Anzeigebeispiel einer oder mehrerer Funktionsausführtasten illustriert.
15A ist ein Diagramm, welches Beispiele einer Relation zwischen einer Anwendersprachäußerung und einem Erkennungsergebnistyp illustriert, während 15B ein Diagramm ist, welches Beispiele einer Beziehung zwischen einer Anwendergeste und einem Erkennungsergebnistyp illustriert.
16 ist ein Blockdiagramm, das ein Beispiel eines Navigationssystems illustriert, auf welches ein Spracherkennungssystem gemäß einer dritten Ausführungsform der vorliegenden Erfindung angewendet wird.
17 ist ein Flussdiagramm, das einen Prozess des Importierens und Haltens eines Anwendersprechens im Spracherkennungssystem gemäß der dritten Ausführungsform illustriert.
18 ist ein Flussdiagramm, das einen Prozess des Anzeigens einer Funktionsausführtaste im Spracherkennungssystem gemäß der dritten Ausführungsform illustriert.
BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
Zum Beschreiben der vorliegenden Erfindung im größeren Detail werden Ausführungsformen zum Ausführen der vorliegenden Erfindung unten in Übereinstimmung mit den beigefügten Zeichnungen ausgeführt. Es ist anzumerken, dass, obwohl die nachfolgenden Ausführungsformen in Übereinstimmung mit einem Beispielfall erläutert werden, in welchem ein Spracherkennungssystem der vorliegenden Erfindung auf ein Navigationssystem (zu steuernde Vorrichtung) für einen Mobilkörper, wie etwa ein Fahrzeug, angewendet wird, das Spracherkennungssystem auf jegliches System mit einer Tonbedienfunktion angewendet werden kann.
Ausführungsform 1
1 ist ein Blockdiagramm, das ein Beispiel eines Navigationssystems 1, auf welches ein Spracherkennungssystem 2 gemäß einer ersten Ausführungsform der vorliegenden Erfindung angewendet wird, illustriert. Das Navigationssystem 1 beinhaltet eine Steuereinheit 3, eine Eingabeempfangseinheit 5, eine Navigationseinheit 6, eine Sprachsteuereinheit 7, eine Spracherfassungseinheit 10, eine Spracherkennungseinheit 11, eine Bestimmungseinheit 14 und eine Anzeigesteuereinheit 15. Die Bestandteileinheiten des Navigationssystems 1 können über einen Server auf einem Netzwerk verteilt werden, einem Mobilendgerät wie etwa einem Smartphone und einer Fahrzeugvorrichtung.
Hier bilden die Spracherfassungseinheit 10, die Spracherkennungseinheit 11, die Bestimmungseinheit 14 und die Anzeigesteuereinheit 15 das Spracherkennungssystem 2.
2 ist ein schematisches Diagramm, das eine Hardware-Konfiguration des Navigationssystems 1 und seiner Peripherievorrichtungen gemäß der ersten Ausführungsform illustriert. Eine Zentraleinheit (CPU) 101, ein Nurlesespeicher (ROM) 102, ein Wahlfreizugriffsspeicher (RAM) 103, ein Festplattenlaufwerk (HDD) 104, eine Eingabevorrichtung 105 und eine Ausgabevorrichtung 106 sind mit einem Bus 100 verbunden.
Durch Auslesen und Ausführen verschiedener, im ROM 102 oder der HDD 104 gespeicherter Programme implementiert die CPU 101 die Funktionen der Steuereinheit 3, der Eingabeempfangseinheit 5, der Navigationseinheit 6, der Sprachsteuereinheit 7, der Spracherfassungseinheit 10, der Spracherkennungseinheit 11, der Bestimmungseinheit 14 und der Anzeigesteuereinheit 15 des Navigationssystems 1 in Kooperation mit den anderen Hardware-Vorrichtungen. Die Eingabevorrichtung 105 entspricht einer Anweisungseingabeeinheit 4, der Eingabeempfangseinheit 5 und einem Mikrofon 9. Die Ausgabevorrichtung 106 entspricht einem Lautsprecher 8 und einer Anzeigeneinheit 18.
Zuerst wird eine Übersicht eines Betriebs des Spracherkennungssystems 2 beschrieben.
Das Spracherkennungssystem 2 importiert kontinuierlich von dem Mikrofon 9 eine voreingestellte Tonerfassungsperiode lang gesammelte Sprechäußerungen, erkennt vorbestimmte Schlüsselworte und hält Erkennungsergebnisse. Dann bestimmt das Spracherkennungssystem 2, ob ein Anwender eines beweglichen Körpers eine vorbestimmte Bedienung auf dem Navigationssystem 1 durchgeführt hat. Falls eine solche Bedienung durchgeführt wird, erzeugt das Spracherkennungssystem 2 eine Funktionsausführtaste zum Ausführen einer mit dem gehaltenen Erkennungsergebnis assoziierten Funktion und gibt die erzeugte Funktionsausführtaste an die Anzeigeeinheit 18 aus.
Die voreingestellte Tonerfassungsperiode wird später beschrieben.
Hier sei angenommen, dass, wenn ein Kartenanzeigebildschirm, wie in 3A illustriert, auf einer Anzeige der Anzeigeneinheit 18 angezeigt wird, und dass die nachfolgende Unterhaltung von einem Anwender A und einem Anwender B gemacht wird.
A: „Welches Lied sollen wir nach diesem abspielen?“
B: „Ich möchte Miss Child hören, da ich sie schon lange nicht mehr angehört habe.“
A: „Klingt nett. Übrigens, was essen wir mittags? Möchtest Du in ein Restaurant gehen?“
B: „Ich hole mir etwas in einem Lebensmittelgeschäft.“
A: „Gut.“
Zu dieser Zeit erkennt das Spracherkennungssystem 2 als Schlüsselworte einen Künstlernamen „Miss Child“ und einen Einrichtungskategorienamen „Restaurant“ und „Lebensmittelgeschäft“. Aber in dieser Stufe zeigt das Spracherkennungssystem 2 keine mit den Erkennungsergebnissen assoziierten Funktionsausführtasten auf der Anzeigeneinheit 18 an. Zusätzlich sind eine „Menü“-Taste HW1, eine „POI“-Taste HW2, eine „Audiovisuelle (AV)“-Taste HW3, und eine „aktueller Ort“-Taste HW4, die in 3 illustriert sind, Hardware-(HW)-Tasten, die auf einem Anzeigegehäuse der Anzeigeneinheit 18 installiert sind.
Danach, wenn der Anwender B die „Menü“-Taste HW1 zum Anzeigen eines Menübildschirms zum Suchen nach einem Lebensmittelgeschäft nahe dem aktuellen Ort drückt, wird ein Menübildschirm wie in 3B illustriert, angezeigt. Das Spracherkennungssystem 2 zeigt auf der Anzeigeneinheit 18 eine „Miss Child“-Taste SW1, eine „Restaurant“-Taste SW2 und eine „Lebensmittelgeschäft“-Taste SW3, welche Funktionsausführtasten sind, die jeweils mit den Erkennungsergebnissen „Miss Child“, „Restaurant“ und „Lebensmittelgeschäft“ assoziiert sind, an. Diese Funktionsausführtasten sind Software(SW)-Tasten, die auf dem Menübildschirm angezeigt werden. Eine „POI-Einstell“-Taste SW11, eine „AV“-Taste SW12, eine „Telefon“-Taste SW13 und eine „Einstellung“-Taste SW14 sind Software-Tasten, nicht Funktionsausführtasten.
Nachfolgend, wenn der Anwender B die „Lebensmittelgeschäft“-Taste SW3 drückt, welche eine Funktionsausführtaste ist, sucht die Navigationseinheit 6 des Navigationssystems 1 nach Lebensmittelgeschäft nahe dem aktuellen Ort und zeigt ein Suchergebnis auf der Anzeigeneinheit 18 an. Es ist anzumerken, dass die detaillierte Beschreibung des Kartendatenspeicherteils 2 später bereitgestellt wird.
Andererseits, in einem Fall, in welchem der Anwender B versucht, eine Suche eines Lebensmittelgeschäfts nahe dem aktuellen Ort auszuführen, ohne die „Lebensmittelgeschäft“-Taste SW3 zu verwenden, führt der Anwender B beispielsweise eine Bildinformation des Drückens der „Menü“-Taste HW1 aus, um den Menübildschirm anzuzeigen, führt eine Operation des Drückens der „POI-Einstellung“-Taste SW11 auf dem Anzeigebeispiel durch, um einen Suchbildschirm zum Suchen eines interessierenden Punkts (POI) anzuzeigen, führt eine Operation des Drückens einer „Nahebei-Einrichtungssuch“-Taste auf dem POI-Suchbildschirm durch, um einen Nahe-bei-Einrichtungssuch-Bildschirm anzuzeigen und weist die Suchausführung durch Einstellen von „Lebensmittelgeschäft“ als einem Schlüsselwort an. Somit kann eine Funktion, die normal aufgerufen und ausgeführt wird, durch Durchführen einer Mehrzahl von Malen von Operationen, aufgerufen und ausgeführt werden, durch einmal Betätigen einer Funktionsausführtasten.
Die Steuereinheit 3 steuert den Gesamtbetrieb des Navigationssystems 1.
Das Mikrofon 9 nimmt von Anwendern geäußertes Sprechen auf. Beispiels des Mikrofons 9 beinhalten beispielsweise ein omnidirektionales Mikrofon, ein Feldmikrofon, das eine Mehrzahl von omnidirektionalen Mikrofonen umfasst, die in einem Rastermuster angeordnet sind, um die direktionale Charakteristik justierbar zu machen, wobei ein unidirektionales Mikrofon Direktionalität in nur einer Richtung aufweist und nicht einstellbare Direktional-Charakteristika aufweist.
Die Anzeigeneinheit 18 ist beispielsweise eine Flüssigkristallanzeige (LCD) oder eine organische Elektrolumineszenz-(EL)-Anzeige. Alternativ kann die Anzeigeneinheit 18 ein Anzeige-integriertes Berührpaneel sein, das durch eine LCD- oder Organik-EL-Anzeige und einen Berührsensor gebildet wird.
Die Anweisungseingabeeinheit 4 wird verwendet, um Anweisungen manuell durch den Anwender einzugeben. Beispiele der Anweisungseingabeeinheit 4 beinhalten beispielsweise eine Hardware-Taste (Knopf) und einen Schalter, die auf einem Gehäuse oder dergleichen des Navigationssystems 1 vorgesehen sind, einen Berührsensor, eine Fernsteuerung, die in einem Lenkrad oder dergleichen installiert ist, eine separate Fernsteuerung, eine Erkennungsvorrichtung für das Erkennen von Anweisungen durch Gestik. Jeglicher Berührungssensor kann verwendet werden, einschließlich einem drucksensitiven Typ, einem Elektromagnet-Induktionstyp, einem Kapazitätstyp und jeglicher Kombination dieser Typen.
Die Eingabeempfangseinheit 5 empfängt Anweisungen, die durch die Anweisungseingabeeinheit 4 eingegeben werden, und gibt die Anweisungen an die Steuereinheit 3 aus.
Gemäß einer Anwenderbedienung, welche durch die Eingabeempfangseinheit 5 empfangen und über die Steuereinheit 3 eingegeben wird, führt die Navigationseinheit 6 Bildschirmübergang und verschiedene Arten von Versuchen durch, wie etwa Suche nach Adresse und einer Einrichtungssuche, die Kartendaten verwendet (nicht gezeigt). Zusätzlich berechnet die Navigationseinheit 6 eine Route zu einer Adresse oder einer Einrichtung, die durch den Anwender eingestellt ist, erzeugt Stimminformation und Anzeigeinhalt für die Routenführung und weist die Anzeigesteuereinheit 15 und die Sprachsteuereinheit 7, die später beschrieben werden, an, die erzeugte Sprachinformation und Anzeigeinhalt über die Steuereinheit 3 auszugeben. Neben den oben beschriebenen Operationen kann die Navigationseinheit 6 andere Operationen durchführen, einschließlich Musiksuche unter Verwendung eines Musiktitels, eines Künstlernamens, oder dergleichen, Abspielen von Musik oder Ausführung einer Operation anderer Fahrzeugvorrichtungen, wie etwa einer Klimaanlage und anderer Vorrichtungen, gemäß Anweisungen durch den Anwender.
Die Sprachsteuereinheit 7 gibt Führungsstimme, Musik, etc. aus dem Lautsprecher 8 in Reaktion auf die Anweisung durch die Navigationseinheit 6 über die Steuereinheit 3 aus.
Als Nächstes werden Bestandteile des Kartendatenspeicherteils 2 beschrieben.
Die Spracherfassungseinheit 10 importiert kontinuierlich durch das Mikrofon 9 aufgenommenes Sprechen und führt beispielsweise Analog/Digital-(A/D)-Umwandlung an dem gesammelten Sprechen unter Verwendung von Pulscodemodulation (PCM) durch.
Hier wird der Ausdruck „kontinuierlich" verwendet, um „über eine voreingestellte Tonerfassungsperiode“ zu bedeuten, und ist nicht auf die Bedeutung von „immer“ beschränkt. Beispiele der Tonerfassungsperiode beinhalten beispielsweise eine Periode von fünf Minuten ab dem Zeitpunkt, wenn das Navigationssystem 1 aktiviert worden ist, eine Periode einer Minute ab der Zeit, wenn ein beweglicher Körper angehalten hat, und eine Periode ab der Zeit, wenn das Navigationssystem 1 aktiviert worden ist, bis zu der Zeit, wenn das Navigationssystem 1 stoppt. Nachfolgend wird die Beschreibung der ersten Ausführungsform unter der Annahme bereitgestellt, dass die Spracherfassungseinheit 10 Sprechen während einer Periode ab der Zeit, wenn das Navigationssystem 1 aktiviert worden ist, bis zu der Zeit, wenn das Navigationssystem 1 stoppt, importiert.
Es ist anzumerken, dass, obwohl die nachfolgende Beschreibung gegeben wird, indem angenommen wird, dass das Mikrofon 9 und die Spracherfassungseinheit 10 getrennte Einheiten sind, wie oben erläutert, die Spracherfassungseinheit 10 in das Mikrofon 9 eingebaut sein kann.
Die Spracherkennungseinheit 11 beinhaltet eine Verarbeitungseinheit 12 und eine Erkennungsergebnis-Speichereinheit 13.
Die Verarbeitungseinheit 12 detektiert aus durch die Spracherfassungseinheit 10 digitalisierten Sprachdaten einen Sprechabschnitt entsprechend einer Anwendersprechäußerung (nachfolgend als „Sprechabschnitt“ beschrieben), extrahiert Merkmale der Sprachdaten im Sprechabschnitt, führt Erkennungsverarbeitung, basierend auf den extrahierten Merkmalen unter Verwendung eines Spracherkennungswörterbuchs durch und gibt ein Erkennungsergebnis an die Erkennungsergebnis-Speichereinheit 13 aus. Die Erkennungsverarbeitung kann unter Verwendung eines allgemeinen Verfahrens durchgeführt werden, wie etwa beispielsweise einem versteckten Markov-Modell-(HMM)-Verfahren, als einem Verfahren der Erkennungsverarbeitung. Somit wird eine detaillierte Beschreibung der Erkennungsverarbeitung weggelassen.
Hier kann jegliches Verfahren der Spracherkennung verwendet werden, einschließlich Worterkennung, basierend auf Grammatik, Schlüsselworterkennung, Großvokabular-Dauer-Spracherkennung und anderen bekannten Verfahren. Zusätzlich kann die Spracherkennungseinheit 11 bekannte Absichtsverständnis-Verarbeitung enthalten und kann entsprechend ein Erkennungsergebnis basierend auf einer Absicht des Anwenders, die abgeschätzt oder auf Basis des Erkennungsergebnisses gesucht wird, das unter Verwendung von Großvokabular-Dauerspracherkennung ermittelt wird, ausgeben.
Als ein Erkennungsergebnis gibt die Verarbeitungseinheit 12 eine Erkennungsergebnis-Zeichenkette oder/und den Typ des Erkennungsergebnisses (nachfolgend als „Erkennungsergebnistyp“ beschrieben) aus. 4 zeigt Beispiele der Erkennungsergebnis-Zeichenkette und des Erkennungsergebnistyps. Beispielsweise falls eine Erkennungsergebnis-Zeichenkette „Lebensmittelgeschäft“ ist, gibt die Verarbeitungseinheit 12 einen Erkennungsergebnistyp „Einrichtungskategoriename“ aus.
Es ist anzumerken, dass der Erkennungsergebnistyp nicht auf spezifische Zeichenketten beschränkt ist. Der Erkennungsergebnistyp kann eine durch eine Zahl repräsentierte Idee oder ein Wörterbuchname sein, der verwendet wird, wenn die Erkennungsverarbeitung durchgeführt wird (Name eines Wörterbuchs, das eine Erkennungsergebnis-Zeichenkette im Erkennungsvokabular des Wörterbuchs enthält). Es ist anzumerken, dass, obwohl die erste Ausführungsform unter der Annahme erläutert wird, dass das Erkennungszielvokabular der Spracherkennungseinheit 11 Einrichtungskategorienamen beinhaltet, wie etwa „Lebensmittelgeschäft“ und „Restaurant“ und ein Künstlernamen wie etwa „Miss Child“, der Inhalt des Erkennungszielvokabulars nicht auf diese Wörter oder Phrasen beschränkt ist.
Die Erkennungsergebnis-Speichereinheit 13 speichert ein durch die Verarbeitungseinheit 12 ausgegebenes Erkennungsergebnis.
Die Erkennungsergebnis-Speichereinheit 13 gibt das gespeicherte Erkennungsergebnis an eine Erzeugungseinheit 16 aus, wenn sie eine Anweisung aus der Bestimmungseinheit 14 empfängt, die später beschrieben wird, das gespeicherte Erkennungsergebnis auszugeben.
Derweil ist es in einer in Autonavigationssystemen oder anderen Systemen installierten Spracherkennungsfunktion üblich, dass der Anwender den Start von Sprechen für das System klar angibt (anweist). Somit wird eine Taste zum Anweisen eines Spracherkennungsstarts (nachfolgend als ein „Spracherkennungsstart-Anweisungsteil“ beschrieben) auf einem Touch-Panel angezeigt oder wird auf einem Lenkrad bereitgestellt. Nachdem der Anwender den Spracherkennungsstart-Anweisungsteil berührt oder drückt, beginnt die Spracherkennung, Sprechäußerungen zu erkennen. Mit anderen Worten, wenn die Spracherkennungseinheit ein aus dem Spracherkennungsstart-Anweisungsteil ausgegebenes Spracherkennungsstartsignal empfängt, detektiert die Spracherkennungseinheit einen Sprechabschnitt entsprechend einer vom Anwender gemachten Sprechäußerung aus dem durch die Spracherfassungseinheit erfassten Sprachdaten, nachdem das Signal empfangen worden ist, um die oben beschriebene Erkennungsverarbeitung durchzuführen.
Im Gegensatz dazu, selbst falls eine Spracherkennungsstartanweisung nicht durch den Anwender wie oben beschrieben erteilt wird, erkennt die Spracherkennungseinheit 11 in der ersten Ausführungsform kontinuierlich durch die Spracherfassungseinheit 10 importierte Sprachdaten. Mit anderen Worten, selbst falls kein Spracherkennungsstartsignal empfangen wird, führt die Spracherkennungseinheit 11 wiederholt die Verarbeitung von: Detektieren eines Sprechabschnitts entsprechend vom Anwender gesprochenem Inhalt aus durch die Spracherfassungseinheit 10 erfassten Sprachdaten, Extrahieren von Merkmalen der Sprachdaten im Sprechabschnitt, Durchführen von Erkennungsverarbeitung auf Basis der extrahierten Merkmale unter Verwendung des Spracherkennungswörterbuchs und Ausgeben eines Erkennungsergebnisses durch.
Die Bestimmungseinheit 14 hält vordefinierte Anwenderoperationen, die als Auslöser zum Anzeigen einer Funktionsausführtaste dienen, die mit einem Erkennungsergebnis einer Anwendersprechäußerung assoziiert sind, auf der Anzeigeneinheit 18. Mit anderen Worten hält die Bestimmungseinheit 14 vordefinierte Anwenderoperationen, die als ein Auslöser dienen, der zu verwenden ist, wenn die Bestimmungseinheit 14 die Erkennungsergebnis-Speichereinheit 13 anweist, das in der Erkennungsergebnis-Speichereinheit 13 gespeicherte Erkennungsergebnis an die Erzeugungseinheit 16, welche später zu beschreiben ist, auszugeben.
Beispiele von Anwenderoperationen, die in der Bestimmungseinheit 14 vordefiniert sind, beinhalten beispielsweise das Drücken von Tasten, die mit einer Funktion der Anzeige der Menübildschirms assoziiert sind, der eine Liste von Funktionen des Navigationssystems 1 anzeigt, Anzeigen des POI-Suchbildschirms und Anzeigen eines AV-Bildschirms auf der Anzeigeneinheit 18. Hier enthalten Beispiele der Tasten beispielsweise Software-Tasten, die auf einer Anzeige angezeigt werden (beispielsweise „POI-Einstell“-Taste SW11 in 3B), Hardware-Tasten, die beispielsweise auf einem Anzeigengehäuse vorgesehen sind (z.B. „Menü“-Taste SW1 in 3A) und Tasten einer Fernsteuerung.
Die Bestimmungseinheit 14 erfasst eine Bedieneingabe des Anwenders aus der Eingabeempfangseinheit 5 über die Steuereinheit 3 und bestimmt, ob die erfasste Bedieneingabe zu irgendeiner der vorbestimmten Operationen passt. Falls die erfasste Bedieneingabe zu einer vorbestimmten Operation passt, weist die Bestimmungseinheit 14 die Erkennungsergebnis-Speichereinheit 13 an, das gespeicherte Erkennungsergebnis an die Erzeugungseinheit 16 auszugeben. Falls andererseits die erfasste Bedieneingabe zu keiner der vorbestimmten Operationen passt, unternimmt die Bestimmungseinheit 14 nichts.
Die Anzeigesteuereinheit 15 beinhaltet die Erzeugungseinheit 16 und eine Zeicheneinheit 17. Die Erzeugungseinheit 16 erfasst das Erkennungsergebnis aus der Erkennungsergebnis-Speichereinheit 13 und erzeugt eine Funktionsausführtaste entsprechend dem ermittelten Erkennungsergebnis.
Spezifisch, wie in 5 illustriert, hält die Erzeugungseinheit 16 Information, die eine Beziehung zwischen einem Erkennungsergebnistyp und einer Funktion definiert, die einer Funktionsausführtaste zuzuweisen ist (nachfolgend als eine „Zuweisungsfunktion für eine Funktionsausführtaste“ beschrieben), in Assoziierung mit dem Erkennungsergebnistyp. Dann bestimmt die Erzeugungseinheit 16 eine Zuweisungsfunktion für eine Funktionsausführtaste, die einem Erkennungsergebnistyp entspricht, der in dem aus der Erkennungsergebnis-Speichereinheit 13 erfassten Erkennungsergebnis enthalten ist. Weiterhin erzeugt die Erzeugungseinheit 16 eine Funktionsausführtaste, welcher die bestimmte Funktion zugewandt ist. Danach weist die Erzeugungseinheit 16 die Zeicheneinheit 17 an, die erzeugte Funktionsausführtaste auf der Anzeigeneinheit 18 anzuzeigen.
Falls beispielsweise ein in einem aus der Erkennungsergebnis-Speichereinheit 13 erfassten Erkennungsergebnis enthaltener Erkennungsergebnistyp „Einrichtungskategoriename“ ist und falls eine Erkennungsergebnis-Zeichenkette „Lebensmittelgeschäft“ ist, bezieht sich die Erzeugungseinheit 16 auf die in 5 illustrierte Tabelle und bestimmt, dass eine Zuweisungsfunktion für eine Funktionsausführtaste „Nahebei-Einrichtungssuche nur unter Verwendung des „Lebensmittelgeschäfts“ als ein Suchschlüssel“ ist.
Die Zeicheneinheit 17 zeigt auf der Anzeigeneinheit 18 einen Inhalt an, der durch die Navigationseinheit 6 über die Steuereinheit 3 angewiesen ist, und die durch die Erzeugungseinheit 16 erzeugte Funktionsausführtaste.
Als Nächstes werden Operationen des Spracherkennungssystems 2 gemäß der ersten Ausführungsform unter Verwendung von in 6 und 7 illustrierten Flussdiagrammen und spezifischen Beispielen beschrieben. Zusätzlich wird nachfolgend eine Anwenderbedienung, die als eine Auslöser zum Anzeigen einer Funktionsausführtaste auf der Anzeigeneinheit 18 dient, als ein Druck auf die „Menü“-Taste HW1, die „POI“-Taste HW2 oder die „AV“-Taste HW3, die am Rand der Anzeige installiert sind, wie in 3A illustriert, angenommen. Zusätzlich, um die Beschreibung zu vereinfachen, wird in der nachfolgenden Beschreibung die Beschreibung der Wirkung der Steuereinheit 3 weggelassen.
Die „Menü“-Taste HW1 ist zum Anzeigen des dem Anwender verschiedene Funktionen präsentierenden Menübildschirms vorgesehen, wie in 3B illustriert. Zusätzlich ist die „POI“-Taste HW2 zum Anzeigen des POI-Bildschirms vorgesehen, wie in 8A illustriert. Zusätzlich ist die „AV“-Taste HW3 zum Anzeigen des AV-Bildschirms vorgesehen, wie in 8B illustriert. Es ist anzumerken, dass eine Operation, die durchgeführt wird, nachdem eine dieser Hardware-Tasten gedrückt wird, nur ein Beispiel ist und somit die Operation, die durchzuführen ist, nicht auf die unten erläuterte Operation beschränkt ist.
Zuerst wird angenommen, dass die oben beschriebene Unterhaltung durch den Anwender A und den Anwender B durchgeführt wird, wenn der in 3A illustrierte Kartenanzeigebildschirm angezeigt wird.
6 illustriert ein Flussdiagramm des Erkennens einer Anwendersprechäußerung und Haltens eines Erkennungsergebnisses.
Nunmehr wird die Beschreibung unter der Annahme gegeben, dass die Spracherfassungseinheit 10 kontinuierlich durch das Mikrofon 9 gesammeltes Sprechen importiert, während einer Tonerfassungsperiode ab der Zeit, wenn das Navigationssystem 1 aktiviert ist, bis zu der Zeit, wenn das Navigationssystem 1 abgeschaltet wird. Zuerst importiert die Spracherfassungseinheit 10 eine Anwendersprechäußerung, die vom Mikrofon 9 aufgenommen wird, das heißt ein eingegebenes Sprechen, und führt A/D-Wandlung unter Verwendung beispielsweise des PCM durch (Schritt ST01).
Als Nächstes detektiert die Verarbeitungseinheit 12 aus durch die Spracherfassungseinheit 10 digitalisierten Sprachdaten einen Sprechabschnitt entsprechend einem Inhalt einer vom Anwender vorgenommenen Sprechäußerung, extrahiert Merkmale der Sprachdaten im Sprechabschnitt, führt Erkennungsverarbeitung auf Basis der Merkmale unter Verwendung des Spracherkennungs-Wörterbuchs durch (Schritt ST02) und speichert ein Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 13 (Schritt ST03). Als Ergebnis, wie in 9 illustriert, wird ein Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 13 gespeichert. Dann, falls das Navigationssystem 1 nicht ausgeschaltet wird ("NEIN" im Schritt ST04), führt das Spracherkennungssystem 2 die Verarbeitung zur Verarbeitung im Schritt ST01 zurück und falls das Navigationssystem 1 ausgeschaltet wird ("JA" im Schritt ST04), beendet das Spracherkennungssystem 2 die Verarbeitung.
7 illustriert ein Flussdiagramm des Anzeigens einer Funktionsausführtaste.
Zuerst erfasst die Bestimmungseinheit 14 eine durch den Anwender eingegebene Bildinformation aus der Eingabeempfangseinheit 5 (Schritt ST11). Falls die Bedieneingabe erfasst wird, das heißt, falls irgendeine Anwenderbedienung durchgeführt worden ist ("JA" im Schritt ST12), rückt die Bestimmungseinheit 14 die Verarbeitung zur Verarbeitung im Schritt ST13 fort. Falls andererseits die Bedieneingabe nicht erfasst werden kann ("NEIN" im Schritt ST12), führt die Bestimmungseinheit 14 die Verarbeitung zur Verarbeitung im Schritt ST11 zurück.
Als Nächstes bestimmt die Bestimmungseinheit 14, ob die aus der Eingabeempfangseinheit 5 erfasste Bedieneingabe zu einer vorbestimmten Bedienung passt. Falls die aus der Eingabeempfangseinheit 5 erfasste Bedieneingabe zu einer vordefinierten Bedienung passt ("JA" im Schritt ST13), weist die Bestimmungseinheit 14 die Erkennungsergebnis-Speichereinheit 13 an, ein gespeichertes Erkennungsergebnis an die Erzeugungseinheit 16 auszugeben. Falls andererseits die aus der Eingabeempfangseinheit 5 erfasste Bedieneingabe zu keiner der vordefinierten Bedienungen passt ("NEIN" im Schritt ST13), führt die Bestimmungseinheit 14 die Verarbeitung zur Verarbeitung im Schritt ST11 zurück.
Zu dieser Zeit, nach der oben beschriebenen Unterhaltung, schreitet die Verarbeitung nicht zur Verarbeitung im Schritt ST13 fort, bis eine Hardware-Taste wie etwa die „Menü“-Taste HW1 durch den Anwender A oder den Anwender B gedrückt wird. Somit, selbst wenn ein Erkennungszielwort „Miss Child“, „Restaurant“ oder „Lebensmittelgeschäft“ in der Sprechäußerung enthalten ist, wird bis zum Drücken keine Funktionsausführtaste auf der Anzeigeneinheit 18 angezeigt.
Falls der Anwender B wünscht, nach einem Lebensmittelgeschäft nahe dem aktuellen Ort zu suchen und eine drückende Betätigung der „POI“-Taste HW2 durchführt, die eine Betätigung ist, die als ein Auslöser zum Ausführen der Funktion dient ("JA" im Schritten ST11 und ST12), weil die pressende Betätigung der „POI“-Taste HW2 zu einer durch die Bestimmungseinheit 14 vordefinierten Betätigung passt ("JA" im Schritt ST13), weist die Bestimmungseinheit 14 die Erkennungsergebnis-Speichereinheit 13 an, ein gespeichertes Erkennungsergebnis an die Erzeugungseinheit 16 auszugeben. Eine ähnliche Verarbeitung wird in dem Fall durchgeführt, bei dem die „Menü“-Taste HW1 oder die „AV“-Taste HW3 gedrückt wird.
Falls andererseits der Anwender B eine drückende Operation der „Aktueller Ort“-Taste HW4 durchführt, schreitet, weil die Betätigung zu keiner er in der Bestimmungseinheit 14 vordefinierten Operationen passt ("NEIN" im Schritt ST13), die Verarbeitung nicht zur Verarbeitung in Schritt ST14 vor, so dass keine Funktionsausführtaste auf der Anzeigeneinheit 18 angezeigt wird.
Falls die Erkennungsergebnis-Speichereinheit 13 eine Anweisung aus der Bestimmungseinheit 14 empfängt, gibt die Erkennungsergebnis-Speichereinheit 13 Erkennungsergebnisse, die zu der Zeit gespeichert sind, wenn die Anweisung empfangen wird, an die Erzeugungseinheit 16 aus (Schritt ST14).
Danach erzeugt die Erzeugungseinheit 16 ein oder mehrere Funktionsausführtasten, die alle einem aus der Erkennungsergebnis-Speichereinheit 13 erfassten Erkennungsergebnis entsprechen (Schritt ST15), und weist die Zeicheneinheit 17 an, die erzeugten Funktionsausführtasten auf der Anzeigeneinheit 18 anzuzeigen. Zuletzt zeigt die Zeicheneinheit 17 die Funktionsausführtaste auf der Anzeigeneinheit 18 an (Schritt ST16).
Spezifisch gibt die Erkennungsergebnis-Speichereinheit 13 die Erkennungsergebnisse „Miss Child“, „Lebensmittelgeschäft“, und „Restaurant“ an die Erzeugungseinheit 16 aus (Schritt ST14). Danach erzeugt die Erzeugungseinheit 16 eine Funktionsausführtaste, welcher eine Funktion des Durchführens von „Musiksuche, „Miss Child“ als Suchschlüssel verwendend“ zugewiesen wird, eine Funktionsausführtaste, der eine Funktion des Durchführens von „Nahe Einrichtungssuche unter Verwendung des „Lebensmittelgeschäfts“ als einem Suchschlüssel“ zugewiesen ist und eine Funktionsausführtaste, die eine Funktion des Durchführens von „Nahebei-Einrichtungssuche unter Verwendung von "Restaurant" als einem Suchschlüssel" zugewiesen ist (Schritt ST15), und weist die Zeicheneinheit 17 an, die erzeugten Funktionsausführtasten auf der Anzeigeneinheit 18 anzuzeigen.
Die Zeicheneinheit 17 überlagert die durch die Erzeugungseinheit 16 erzeugten Funktionsausführtasten einem Bildschirm, der gemäß der Anweisung aus der Navigationseinheit 6 angezeigt wird und veranlasst die Anzeigeneinheit 18, den überlagerten Bildschirm anzuzeigen. Falls beispielsweise die „Menü“-Taste HW1 durch den Anwender gedrückt wird, wie in 3B illustriert, zeigt die Zeicheneinheit 17 den durch die Navigationseinheit 6 angewiesenen Menübildschirm an und zeigt die Funktionsausführtasten der „Miss Child“-Taste SW1, der „Restaurant“-Taste SW2 und der „Lebensmittelgeschäft“-Taste SW3, welche durch die Erzeugungseinheit 16 erzeugt worden sind, an. In Ähnlicher Weise, falls die „POI“-Taste HW2 und die „AV“-Taste HW3 vom Anwender gedrückt werden, werden Bildschirme wie in 8C bzw. 8D illustriert, angezeigt. Falls eine Drückbetätigung einer Funktionsausführtaste vom Anwender durchgeführt wird, führt die Navigationseinheit 6, die eine Anweisung aus der Eingabeempfangseinheit 5 empfangen hat, eine der Funktionsausführtasten zugewandte Funktion aus.
Wie oben beschrieben, beinhaltet gemäß der ersten Ausführungsform das Spracherkennungssystem 2 die Spracherfassungseinheit 10 zum Erfassen von, durch einen Anwender über eine voreingestellte Tonerfassungsperiode geäußertem Sprechen, die Spracherkennungseinheit 11 zum Erkennen des durch die Spracherfassungseinheit 10 erfassten Sprechens, die Bestimmungseinheit 14 zum Bestimmen, ob der Anwender eine vorbestimmte Bedienung durchgeführt hat, und die Anzeigesteuereinheit 15 zum Anzeigen einer Funktionsausführtaste auf der Anzeigeneinheit 18, um das Navigationssystem 1 zu veranlassen, eine Funktion entsprechend einem Erkennungsergebnis der Spracherkennungseinheit 11 auszuführen. Im Spracherkennungssystem 2 gemäß der ersten Ausführungsform, falls ein Sprechen über die voreingestellte Tonerfassungsperiode importiert wird und falls durch die Bestimmungseinheit 14 festgestellt wird, dass der Anwender eine vorbestimmte Operation durchgeführt hat, wird eine Funktionsausführtaste, die auf einer Sprachäußerung basiert, angezeigt. Dies kann das Problem des Drückens der PTT-Taste zum wieder Sprechen des bei der Unterhaltung aufgetauchten Worts lösen. Zusätzlich werden Operationen, die der Absicht des Anwenders entgegenstehen, nicht durchgeführt. Weiterhin kann eine Beeinträchtigung der Konzentration, die durch Bildschirm-Aktualisierung durchgeführt wird, die durchgeführt wird, wenn die Funktionsausführtaste angezeigt wird, verringert werden. Zusätzlich, da eine Funktionsausführtaste, welche die Bedienabsicht des Anwenders voraussieht, dem Anwender präsentiert wird, kann die Benutzerfreundlichkeit und Verwendbarkeit verbessert werden.
Zusätzlich ist in der ersten Ausführungsform die Beschreibung unter der Annahme gegeben worden, dass die Erzeugungseinheit 16 eine Funktionsausführtaste erzeugt, in der nur eine Erkennungsergebnis-Zeichenkette angezeigt wird. Alternativ kann ein Icon entsprechend einer Erkennungsergebnis-Zeichenkette vordefiniert ein und können eine Funktionsausführtaste, in welcher eine Erkennungsergebnis-Zeichenkette und ein Icon kombiniert werden, wie in 10A illustriert, oder eine Funktionsausführtaste, die nur ein, eine Erkennungsergebnis-Zeichenkette entsprechendes Icon enthält, wie in 10B illustriert, erzeugt werden. Auch in den nachfolgenden zweiten und dritten Ausführungsformen ist eine Anzeigeform einer Funktionsausführtaste ein nicht beschränkendes Merkmal.
Durch Anzeigen einer Funktionsausführtaste wie oben beschrieben kann der Anwender intuitiv den Inhalt der Funktionsausführtaste verstehen.
Zusätzlich kann die Erzeugungseinheit 16 einen Anzeigemodus einer Funktionsausführtaste entsprechend einem Erkennungsergebnistyp variieren. Beispielsweise kann ein Anzeigemodus auf solche Weise variiert werden, dass in einer Funktionsausführtaste, die einem Erkennungsergebnistyp „Künstlername“ entspricht, ein Hüllenbild eines Albums des Künstlers angezeigt wird und in einer Funktionsausführtaste entsprechend einem Erkennungsergebnistyp „Einrichtungskategoriename“ ein Icon angezeigt wird.
Durch Anzeigen einer Funktionsausführtaste wie oben beschrieben kann der Anwender intuitiv den Inhalt der Funktionsausführtaste verstehen.
Zusätzlich kann das Spracherkennungssystem 2 konfiguriert sein, eine Prioritätszuweisungseinheit zum Zuweisen einer Priorität zu einem Erkennungsergebnis für jeden Typ zu enthalten und die Erzeugungseinheit 16 kann die Größe oder/und die Anzeigenreihenfolge von Funktionsausführtasten entsprechend Erkennungsergebnissen auf Basis von Prioritäten der Erkennungsergebnisse variieren.
Beispielsweise, wie in 11 illustriert, beinhaltet das Spracherkennungssystem 2 eine Prioritätszuweiseinheit 19. Die Prioritätszuweiseinheit 19 erfasst Bedieneingaben vom Anwender aus der Eingabeempfangseinheit 5 über die Steuereinheit 3 und verwaltet Bedieneingaben als einen Bedienverlauf. Zusätzlich beobachtet die Prioritätszuweiseinheit 19 die Erkennungsergebnis-Speichereinheit 13. Wenn ein Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 13 gespeichert wird, weist die Prioritätszuweiseinheit 19 eine Priorität, die auf vergangenen Bedienungen des Anwenders basiert, die in dem Bedienverlauf enthalten sind, dem Erkennungsergebnis zu. Wenn das Erkennungsergebnis an die Erzeugungseinheit 16 ausgegeben wird, gibt die Erkennungsergebnis-Speichereinheit 13 die durch die Prioritätszuweiseinheit 19 gegebene Priorität zusammen mit aus.
Spezifisch, falls die Anzahl von Malen, welche die Einrichtungssuche manuell unter Verwendung von Kategorienamen durchgeführt wird, größer ist als die Anzahl von Malen, die eine Künstlernamensuche durchgeführt wird, weist die Prioritätszuweiseinheit 19 einem Erkennungsergebnis mit einem Erkennungsergebnistyp „Einrichtungskategoriename“ eine höhere Priorität als eine, einem Erkennungsergebnis mit einem Erkennungsergebnistyp „Künstlername“ zugewiesene Priorität zu. Dann erzeugt beispielsweise die Erzeugungseinheit 16 Funktionsausführtasten auf solche Weise, dass die Größe einer Funktionsausführtaste, die dem Erkennungsergebnis mit höherer Priorität entspricht, größer wird als die Größe einer Funktionsausführtaste, welche dem Erkennungsergebnis mit niedrigerer Priorität entspricht. Durch Anzeigen von Funktionsausführtasten auf diese Weise kann ebenfalls eine Funktionsausführtaste, die als vom Anwender benötigt angesehen wird, hervorgehoben werden. Dies verbessert die Bequemlichkeit.
Zusätzlich, wenn eine Funktionsausführtaste auf der Anzeigeneinheit 18 angezeigt wird, zeichnet die Zeicheneinheit 17 eine Funktionsausführtaste entsprechend einem Erkennungsergebnis mit höherer Priorität über einer Funktionsausführtaste entsprechend einem Erkennungsergebnis mit niedrigerer Priorität. Durch Anzeigen von Funktionsausführtasten kann auf diese Weise eine Funktionsausführtaste hervorgehoben werden, die als vom Anwender benötigt angesehen wird. Dies verbessert die Bequemlichkeit.
Weiterhin kann basierend auf der Priorität eines Erkennungsergebnisses variiert werden, ob eine Funktionsausführtaste auszugeben ist oder nicht. Beispielsweise kann die Zeicheneinheit 17 konfiguriert sein, vorzugsweise eine Funktionsausführtaste auszugeben, die einem Erkennungsergebnis mit höherer Priorität entspricht, falls die Anzahl von Funktionsausführtasten, welche durch die Erzeugungseinheit 16 erzeugt sind, die Obergrenze einer vorbestimmten Anzahl von anzuzeigenden Tasten übersteigt, und die anderen Funktionsausführtasten nicht anzuzeigen, falls die Anzahl von Funktionsausführtasten die obere Grenzzahl überschreitet. Durch Anzeigen von Funktionsausführtasten kann auf diese Weise eine Funktionsausführtaste, die als vom Anwender benötigt angesehen wird, vorzugsweise angezeigt werden. Dies verbessert die Bequemlichkeit.
Obwohl in der ersten Ausführungsform die Anzeige einer Funktionsausführtaste unter der Annahme erläutert worden ist, dass Funktionsausführtasten durch Anwenderbedienung einer Taste wie etwa einer Hardware-Taste oder einer Software-Taste ausgelöst werden, kann die Anzeige einer Funktionsausführtaste dadurch ausgelöst werden, dass der Anwender eine vorbestimmte Aktion ausführt. Beispiele solcher Aktionen, die vom Anwender durchgeführt werden, beinhalten beispielsweise Sprechen und Gesten.
Unten wird eine Beschreibung von Teilen gegeben, die sich von den oben beschriebenen Bestandteilen bei der Verarbeitung unterscheiden. Zusätzlich zum Kategorienamen und dergleichen, die oben beschrieben sind, beinhaltet das Erkennungszielvokabular, welches durch die Verarbeitungseinheit 12 verwendet wird, Befehle zum Bedienen einer gesteuerten Vorrichtung wie etwa beispielsweise „Telefon“ und „Audio“ und Sprachäußerungen, die als eine Bedienabsicht für die gesteuerte Vorrichtung zu enthalten erwogen werden, wie etwa „Ich möchte gehen nach“, „Ich möchte hören“ und „Sende Nachricht“. Dann gibt die Verarbeitungseinheit 12 ein Erkennungsergebnis nicht nur an die Erkennungsergebnis-Speichereinheit 13 aus, sondern auch an die Bestimmungseinheit 14.
In der Bestimmungseinheit 14 sind Sprechäußerungen, die als Schlüssel zum Anzeigen einer Funktionsausführtaste dienen, vordefiniert, zusätzlich zu den oben beschriebenen Anwenderbetätigungen. Beispielsweise sind Sprechäußerungen wie etwa „Ich möchte gehen nach“, „Ich möchte anhören“ und „Audio“ vordefiniert. Dann erfasst die Bestimmungseinheit 14 ein durch die Verarbeitungseinheit 12 ausgegebenes Erkennungsergebnis und falls das Erkennungsergebnis zu einer der vordefinierten Sprechäußerungen passt, weist sie die Erkennungsergebnis-Speichereinheit 13 an, das gespeicherte Erkennungsergebnis an die Erzeugungseinheit 16 auszugeben.
Weiterhin kann eine Gestenaktion des im eigenen Fahrzeug herumblickenden Anwenders oder, ein Lenkrad anzutippen, das Spracherkennungssystem 2 auslösen, eine Funktionsausführtaste anzuzeigen. Spezifischer erfasst die Bestimmungseinheit 14 durch eine Kamera für sichtbares Licht (nicht illustriert), eine Infrarotkamera (nicht illustrierten) oder dergleichen, die in einem Fahrzeug installiert sind, gemessene Information, und detektiert die Bewegung eines Gesichtes aus der erfassten Information. Dann, falls sich das Gesicht in einem Bereich von horizontal 45 Grad in einer Sekunde umdreht, wenn der Winkel, unter welchem das Gesicht in Bezug auf die Kamera zur Front weist, als 0 Grad angenommen wird, bestimmt die Bestimmungseinheit 14, dass sich der Anwender im eigenen Fahrzeug umblickt.
Weiterhin, falls eine Anwenderbedienung oder dergleichen, die als ein Auslöser zum Anzeigen einer Funktionsausführtaste dient, durchgeführt wird, kann die Zeicheneinheit 17 die Funktionsausführtaste so anzeigen, dass sie auf einem angezeigt werdenden Bildschirm überlagert ist, ohne Bildschirmübergang entsprechend der Bedienung oder dergleichen durchzuführen. Falls beispielsweise der Anwender die „Menü“-Taste HW1 drückt, wenn der in 3A illustrierte Kartenanzeigebildschirm angezeigt wird, zeigt die Zeicheneinheit 17 eine Funktionsausführtaste nach Verschieben des Bildschirms zu dem in 3B illustrierten Menübildschirm an. Falls andererseits der Anwender eine Aktion des Antippens des Lenkrads durchführt, zeigt die Zeicheneinheit 17 eine Funktionsausführtaste auf dem in 3A illustrierten Kartenanzeigebildschirm an.
Zweite Ausführungsform
Ein Blockdiagramm, das ein Beispiel eines Navigationssystems illustriert, auf welches ein Spracherkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung angewendet wird, ist das gleiche wie das in 1 in der ersten Ausführungsform illustrierte Blockdiagramm. Somit wird Diagramm und Beschreibung weggelassen. Die nachfolgende zweite Ausführungsform unterscheidet sich von der ersten Ausführungsform darin, dass die Bestimmungseinheit 14 Anwenderbedienungen und Erkennungsergebnistypen in Assoziierung miteinander speichert, wie beispielsweise in 12 illustriert. Hardware-Tasten in 12 beziehen sich beispielsweise auf die „Menü“-Taste HW1, die „POI“-Taste HW2, die „AV“-Taste HW3 und dergleichen, die auf der Peripherie der Anzeige installiert sind, wie in Fig. A illustriert. Zusätzlich beziehen sich Software-Tasten in 12 auf beispielsweise die „POI-Einstell“-Taste SW11, die „AV“-Taste SW12 und dergleichen, die auf der Anzeige angezeigt werden, wie in 3B illustriert.
Die Bestimmungseinheit 14 der zweiten Ausführungsform erfasst eine Bedieneingabe des Anwenders aus der Eingabeempfangseinheit 5 und bestimmt, ob die erfasste Bedieneingabe zu einer vordefinierten Operation passt. Dann, falls die erfasste Bedieneingabe zur vorbestimmten Operation passt, bestimmt die Bestimmungseinheit 14 einen Erkennungsergebnistyp entsprechend der Bedieneingabe. Danach instruiert die Bestimmungseinheit 14 die Erkennungsergebnis-Speichereinheit 13, ein Erkennungsergebnis mit dem bestimmten Erkennungsergebnistyp an die Erzeugungseinheit 16 auszugeben. Falls andererseits die erfasste Bedieneingabe nicht zu der vordefinierten Operation passt, unternimmt die Bestimmungseinheit 14 nichts.
Falls die Erkennungsergebnis-Speichereinheit 13 eine Anweisung aus der Bestimmungseinheit 14 empfängt, gibt die Erkennungsergebnis-Speichereinheit 13 ein Erkennungsergebnis mit einem zu dem durch die Bestimmungseinheit 14 angewiesenen Erkennungsergebnistyp passenden Erkennungsergebnistyp an die Erzeugungseinheit 16 aus.
Als Nächstes werden Operationen eines Spracherkennungssystems 2 gemäß der zweiten Ausführungsform unter Verwendung eines in 13 illustrierten Flussdiagramms und spezifischen Beispielen beschrieben. Zusätzlich werden in diesem Beispiel Anwenderbedienungen, die als Auslöser zum Anzeigen von Funktionsausführtasten auf der Anzeigeneinheit 18 dienen, als Bedienungen angenommen, die in 12 definiert sind. Zusätzlich wird angenommen, dass eine durch die Anwender durchgeführte Unterhaltung die gleiche wie diejenige in der ersten Ausführungsform ist.
In der zweiten Ausführungsform ist ein Flussdiagramm des Erkennens von Anwender-Sprechäußerungen und Haltens eines Erkennungsergebnisses das gleiche wie das in 6 illustrierte Flussdiagramm. Somit wird die Beschreibung weggelassen. Zusätzlich ist die Verarbeitung in Schritten ST21 bis ST23 im in 13 illustrierten Flussdiagramm die gleiche wie die Verarbeitung in den Schritten ST11 bis ST13 im in 7 illustrierten Flussdiagramm. Somit wird die Beschreibung weggelassen. Zusätzlich ist in der nachfolgenden Beschreibung angenommen, dass die Verarbeitung in 6 ausgeführt worden ist und die Erkennungsergebnisse in der Erkennungsergebnis-Speichereinheit 13 gespeichert werden, wie in 9 illustriert.
Falls die Bedieneingabe des Anwenders, die aus der Eingabeempfangseinheit 5 erfasst worden ist, zu irgendeiner der vordefinierten Operationen passt ("JA" im Schritt ST23), bestimmt die Bestimmungseinheit 14 einen der Bedieneingabe entsprechenden Erkennungsergebnistyp und weist dann die Erkennungsergebnis-Speichereinheit 13 an, ein Erkennungsergebnis, welches den bestimmten Erkennungsergebnistyp hat, an die Erzeugungseinheit 16 auszugeben (Schritt ST24).
Als Nächstes, falls die Erkennungsergebnis-Speichereinheit 13 eine Anweisung aus der Navigationssystem 1 empfängt, gibt die Erkennungsergebnis-Speichereinheit 13 ein Erkennungsergebnis mit dem zum durch die Bestimmungseinheit 14 angewiesenen Erkennungsergebnistyp passenden Erkennungsergebnistyp an die Erzeugungseinheit 16 aus (Schritt ST25).
Spezifisch, falls der Anwender B wünscht, nach einem Lebensmittelgeschäft nahe dem aktuellen Ort zu suchen, und eine Drückbetätigung der „POI“-Taste HW2, durchführt, die eine Operation ist, die als ein Auslöser zum Ausführen der Funktion dient ("JA" im Schritten ST21, ST22), weil die Drückbetätigung der „POI“-Taste HW2 zu einer durch die Bestimmungseinheit 14 vordefinierten Operation passt ("JA" im Schritt ST23), bezieht sich die in 14 auf die in 12 illustrierte Tabelle und bestimmt einen „Einrichtungskategorienamen“ als einen Erkennungsergebnistyp entsprechend der Operation (Schritt ST24). Danach weist die Bestimmungseinheit 14 die Erkennungsergebnis-Speichereinheit 13 an, ein Erkennungsergebnis mit dem Erkennungsergebnistyp „Einrichtungskategoriename“ an die Erzeugungseinheit 16 auszugeben.
Falls die Erkennungsergebnis-Speichereinheit 13 eine Anweisung aus der Bestimmungseinheit 14 empfängt, gibt die Erkennungsergebnis-Speichereinheit 13 Erkennungsergebnisse mit dem Erkennungsergebnistyp „Einrichtungskategoriename“, das heißt Erkennungsergebnisse mit Erkennungsergebnis-Zeichenketten „Lebensmittelgeschäft“ und „Restaurant“ an die Erzeugungseinheit 16 aus (Schritt ST25).
Danach erzeugt die Erzeugungseinheit 16 eine Funktionsausführtaste, welcher eine Funktion des Durchführens „Nahebei-Einrichtungssuche unter Verwendung des „Lebensmittelgeschäfts“ als einem Suchschlüssel“ zugeordnet ist, und eine Funktionsausführtaste, welcher eine Funktion des „Nahebei-Einrichtungssuche unter Verwendung des „Restaurants“ als einem Suchschlüssel“ zugeordnet ist (Schritt ST26). Die Zeicheneinheit 17 zeigt auf der Anzeigeneinheit 18 die Funktionsausführtasten der „Lebensmittelgeschäft“-Taste SW3 und der „Restaurant“-Taste SW2 an, wie in 14A illustriert (Schritt ST27).
In ähnlicher Weise, falls der Anwender B eine Drückbetätigung der „AV“-Taste HW3, wobei die „Miss Child“-Taste SW1 eine Funktionsausführtaste ist, welche eine Funktion des Durchführens „Musiksuche unter Verwendung von „Miss Child“ als einen Suchschlüssel" zugeordnet ist, auf der Anzeigeneinheit 18 angezeigt wird, wie in 14B illustriert.
Zusätzlich, unter Verwendung nicht nur von Bedieneingaben des Anwenders, sondern auch von Aktionseingaben (Sprechen, Gesten, etc.) des Anwenders als Auslösern, kann eine Funktionsausführtaste, die eine hohe Assoziierung mit dem Aktionsinhalt aufweist, angezeigt werden. In diesem Fall, wie in den 15A und 15B illustriert, speichert die Bestimmungseinheit 14 Sprechäußerungen des Anwenders oder Gesten des Anwenders in Assoziierung mit dem Erkennungsergebnistyp und kann die Bestimmungseinheit 14 konfiguriert sein, den Erkennungsergebnistyp, der zur Sprechäußerung des Anwenders passt, die aus der Spracherkennungseinheit 11 erfasst worden ist, unter der Geste des Anwenders, die basierend auf aus einer Kamera oder einem Touch-Sensor erfassten Information bestimmt worden ist, passenden Erkennungsergebnistyp an die Erkennungsergebnis-Speichereinheit 13 auszugeben.
Wie oben beschrieben, gemäß der zweiten Ausführungsform, indem Information verwendet wird, welche eine Korrespondenzbeziehung zwischen einer Betätigung und einer Aktion, die durch den Anwender durchgeführt wird und einem Typ von Erkennungsergebnis der Spracherkennungseinheit 11 angibt, bestimmt die Bestimmungseinheit 14 einen entsprechenden Typ, falls festgestellt wird, dass der Anwender die Operation oder die Aktion durchgeführt hat, und wählt die Anzeigesteuereinheit 15 ein Erkennungsergebnis aus, welches zu dem durch die Bestimmungseinheit 14 bestimmten Typ passt, aus Erkennungsergebnissen der Spracherkennungseinheit 11, und zeigt auf der Anzeigeneinheit 18 eine Funktionsausführtaste an, um das Navigationssystem 1 zu veranlassen, eine Funktion entsprechend dem ausgewählten Erkennungsergebnis auszuführen. In dieser Konfiguration kann eine Funktionsausführtaste mit hoher Assoziierung mit Inhalt, die durch den Anwender betätigt wird oder dergleichen, präsentiert werden. Somit wird eine Bedienabsicht des Anwenders korrekter vorhergesehen und dem Anwender präsentiert. Somit kann Anwenderfreundlichkeit und Verwendbarkeit weiter verbessert werden.
Dritte Ausführungsform
16 ist ein Blockdiagramm, das ein Beispiel eines Navigationssystems 1 illustriert, auf welches das Spracherkennungssystem 2 gemäß einer dritten Ausführungsform der vorliegenden Erfindung angewendet wird. Zudem wird ähnlichen Teilen wie jenen, die in der ersten Ausführungsform beschrieben sind, dieselben Bezugszeichen zugewiesen und die redundante Beschreibung wird weggelassen.
In der nachfolgenden dritten Ausführungsform beinhaltet im Vergleich mit der ersten Ausführungsform das Spracherkennungssystem 2 die Erkennungsergebnis-Speichereinheit 13 nicht. Anstelle davon beinhaltet das Spracherkennungssystem 2 eine Sprachdatenspeichereinheit 20. Die gesamten oder ein Teil der Sprachdaten, welche durch die Spracherfassungseinheit 10 ermittelt werden, die kontinuierlich vom Mikrofon 9 aufgenommene Sprache importieren, und die Sprache über A/D-Wandlung digitalisieren, werden in der Sprachdatenspeichereinheit 20 gespeichert.
Beispielsweise importiert die Spracherfassungseinheit 10 durch das Mikrofon 9 aufgenommenes Sprechen eine Tonerfassungsperiode lang (zum Beispiel 1 Minute ab der Zeit, wenn der bewegliche Körper anhält, und speichert digitalisierte Sprachdaten in der Sprachdatenspeichereinheit 20. Zusätzlich, falls die Spracherfassungseinheit 10 durch das Mikrofon 9 eine Tonerfassungsperiode lang aufgenommenes Sprechen importiert, zum Beispiel eine Periode ab der Zeit, wenn das Navigationssystem 1 aktiviert ist, bis zu der Zeit, wenn das Navigationssystem 1 stoppt, speichert die Spracherfassungseinheit 10 Sprachdaten entsprechend den vergangenen 30 Sekunden in der Sprachdatenspeichereinheit 20. Zusätzlich kann die Spracherfassungseinheit 10 konfiguriert sein, eine Verarbeitung des Detektierens eines Sprechabschnitts aus Sprachdaten durchzuführen, und Extrahieren des Abschnitts, anstelle der Verarbeitungseinheit 12, und kann die Spracherfassungseinheit 10 Sprachdaten des Sprechabschnitts in der Sprachdatenspeichereinheit 20 speichern. Zusätzlich können Sprachdaten, die einer vorbestimmten Anzahl von Sprechabschnitten entsprechen, in der Sprachdatenspeichereinheit 20 gespeichert werden und können Teile von Sprachdaten, welche die vorbestimmte Anzahl von Sprechabschnitten übersteigen, sequentiell bei den alten gelöscht werden.
Weiterhin erfasst die Bestimmungseinheit 14 Bedieneingaben vom Anwender aus der Eingabeempfangseinheit 5, und falls eine erfasste Bedieneingabe zu einer vordefinierten Bedienung passt, gibt die Bestimmungseinheit 14 eine Spracherkennungsstartanweisung an die Verarbeitungseinheit 12 aus.
Weiterhin, falls die Verarbeitungseinheit 12 die Spracherkennungsstartanweisung aus der Bestimmungseinheit 14 empfängt, erfasst die Verarbeitungseinheit 12 Sprachdaten aus der Sprachdatenspeichereinheit 20, führt Spracherkennungsverarbeitung an den erfassten Sprachdaten durch und gibt das Erkennungsergebnis an die Erzeugungseinheit 16 aus.
Als Nächstes werden Operationen des Spracherkennungssystems 2 gemäß der dritten Ausführungsform unter Verwendung von in 17 und 18 illustrierten Flussdiagrammen beschrieben. Zusätzlich wird in diesem Beispiel angenommen, dass die Spracherfassungseinheit 10 durch das Mikrofon 9 aufgenommene Sprache importiert, während eine Periode ab dann, wenn das Navigationssystem 1 aktiviert worden ist bis dann, wenn das Navigationssystem 1 stoppt, als eine zweite Erfassungsperiode, und Sprachdaten entsprechend der vergangenen 30 Sekunden des importierten Sprechens werden als in der Sprachdatenspeichereinheit 20 gespeichert angenommen.
17 illustriert ein Flussdiagramm des Importierens und Haltens von Anwendersprechen. Zuerst importiert die Spracherfassungseinheit 10 eine durch das Mikrofon 9 aufgenommene Anwendersprechäußerung (d.h. Spracheingabe) und führt A/D-Wandlung beispielsweise unter Verwendung des PCM durch (Schritt ST31). Als Nächstes speichert die Spracherfassungseinheit 10 digitalisierte Sprachdaten in der Sprachdatenspeichereinheit 20 (Schritt ST32). Dann, falls das Navigationssystem 1 nicht ausgeschaltet wird ("NEIN" im Schritt ST33), kehrt die Spracherfassungseinheit 10 die Verarbeitung zur Verarbeitung im Schritt ST31 zurück und falls das Navigationssystem 1 ausgeschaltet wird ("JA" im Schritt ST33), beendet die Spracherfassungseinheit 10 die Verarbeitung.
18 illustriert ein Flussdiagramm zum Anzeigen einer Funktionsausführtaste. Da die Verarbeitung in den Schritten ST41 bis ST43 die gleiche wie die Verarbeitung in Schritten ST11 bis ST13 im in 7 illustrierten Flussdiagramm ist, wird die Beschreibung weggelassen.
Falls die Bedieneingabe des Anwenders, die aus der Eingabeempfangseinheit 5 erfasst wird, zu einer vorbestimmten Bedienung passt ("JA" im Schritt ST43), gibt die Bestimmungseinheit 14 eine Spracherkennungsstartanweisung an die Verarbeitungseinheit 12 aus. Falls die Verarbeitungseinheit 12 die Spracherkennungsstartanweisung aus der Bestimmungseinheit 14 empfängt, erfasst die Verarbeitungseinheit 12 Sprachdaten aus der Sprachdatenspeichereinheit 20 (Schritt ST44), führt eine Spracherkennungsverarbeitung an den erfassten Sprachdaten durch und gibt das Erkennungsergebnis an die Erzeugungseinheit 16 aus (Schritt ST45).
Wie oben beschrieben, gemäß der dritten Ausführungsform, falls durch die Bestimmungseinheit 14 festgestellt wird, dass der Anwender eine vorbestimmte Operation oder Aktion durchgeführt hat, erkennt die Spracherkennungseinheit 11 die durch die Spracherfassungseinheit 10 über eine Tonerfassungsperiode erfasste Sprache. Mit dieser Konfiguration, wenn eine Spracherkennungsverarbeitung nicht durchgeführt wird, können Ressourcen wie etwa Speicher und andere Vorrichtungen anderen Verarbeitungstypen zugeordnet werden, wie etwa der Kartenbildschirmzeichen-Verarbeitung, und können Antwortgeschwindigkeiten in Bezug auf andere Anwenderbedienungen als die Sprachbedienung vergrößert werden.
Es sollte angemerkt werden, dass Kombination, Modifikation oder Weglassung jeglichen Teils von oben beschriebenen Ausführungsformen frei innerhalb des Schutzumfangs der vorliegenden Erfindung gemacht werden kann.
INDUSTRIELLE ANWENDBARKEIT
Ein Spracherkennungssystem gemäß der vorliegenden Erfindung repräsentiert eine Funktionsausführtaste zu einem vom Anwender verlangten Zeitpunkt. Somit ist das Spracherkennungssystem geeignet, ein Spracherkennungssystem zum kontinuierlichen Erkennen von Sprechäußerungen des Anwenders beispielsweise verwendet zu werden.
BEZUGSZEICHENLISTE

1 Navigationssystem (zu steuernde Vorrichtung), 2 Spracherkennungssystem, 3 Steuereinheit, 4 Anweisungseingabeeinheit, 5 Eingabeempfangseinheit, 6 Navigationseinheit, 7 Sprachsteuereinheit, 8 Lautsprecher, 9 Mikrofon, 10 Spracherfassungseinheit, 11 Spracherkennungseinheit, 12 Verarbeitungseinheit, 13 Erkennungsergebnis-Speichereinheit, 14 Bestimmungseinheit, 15 Anzeigesteuereinheit, 16 Erzeugungseinheit, 17 Zeicheneinheit, 18 Anzeigeneinheit, 19 Prioritätszuweiseinheit, 20 Sprachdatenspeichereinheit, 100 Bus, 101 CPU, 102 ROM, 103 RAM, 104 HDD, 105 Eingabevorrichtung, und 106 Ausgabevorrichtung.

Claims

Spracherkennungssystem, umfassend: eine Spracherfassungseinheit zum Erfassen von Sprechen, das durch einen Anwender eine voreingestellte Tonerfassungsperiode lang geäußert wird; eine Spracherkennungseinheit zum Erkennen des durch die Spracherfassungseinheit erfassten Sprechens; eine Bestimmungseinheit zum Bestimmen, ob der Anwender eine vorbestimmte Operation oder Aktion durchführt; und eine Anzeigensteuereinheit zum Anzeigen, wenn die Bestimmungseinheit bestimmt, dass der Anwender die vorbestimmte Operation oder Aktion durchführt, einer Funktionsausführtaste zum Veranlassen einer zu steuernden Vorrichtung, eine Funktion auszuführen, die einem Ergebnis der Erkennung durch die Spracherkennungseinheit entspricht, auf einer Anzeigeeinheit.
Spracherkennungssystem gemäß Anspruch 1, wobei die Bestimmungseinheit unter Verwendung von Information, die eine Korrespondenzbeziehung zwischen einer Operation und einer Aktion, die durch den Anwender durchgeführt werden, und einem Typ eines Erkennungsergebnisses der Spracherkennungseinheit, einen Typ, welcher der Operation oder Aktion entspricht, die als durch den Anwender durchgeführt festgestellt wird, bestimmt, und die Anzeigesteuereinheit ein Erkennungsergebnis auswählt, das zu dem durch die Bestimmungseinheit aus den Erkennungsergebnissen der Spracherkennungseinheit bestimmten Typ passt, und auf der Anzeigeeinheit eine Funktionsausführtaste anzeigt, um die zu steuernde Vorrichtung zu veranlassen, eine Funktion entsprechend dem ausgewählten Erkennungsergebnis auszuführen.
Spracherkennungssystem gemäß Anspruch 1, wobei die Anzeigesteuereinheit einen Anzeigemodus der Funktionsausführtaste variiert, anhand eines Typs von Erkennungsergebnis der Spracherkennungseinheit.
Spracherkennungssystem gemäß Anspruch 3, weiter umfassend eine Prioritätszuweiseinheit zum Zuweisen einer Priorität zu einem Erkennungsergebnis der Spracherkennungseinheit für jeden Typ, wobei die Anzeigesteuereinheit einen Anzeigemodus der Funktionsausführtaste variiert, basierend auf einer Priorität, die durch die Prioritätszuweiseinheit, einem Erkennungsergebnis der Spracherkennungseinheit zugewiesen ist.
Spracherkennungssystem gemäß Anspruch 1, wobei die Spracherkennungseinheit ein Sprechen erkennt, welches durch die Spracherfassungseinheit über die Tonerfassungsperiode erfasst worden ist, falls durch die Bestimmungseinheit festgestellt wird, dass der Anwender die vorbestimmte Operation oder Aktion durchführt.