DE112014006614B4

DE112014006614B4 - Benutzerschnittstellensystem, Benutzerschnittstellensteuereinrichtung, Benutzerschnittstellensteuerverfahren und Benutzerschnittstellensteuerprogramm

Info

Publication number: DE112014006614B4
Application number: DE112014006614.1T
Authority: DE
Inventors: Masato Hirai
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-04-22
Filing date: 2014-04-22
Publication date: 2018-04-12
Anticipated expiration: 2034-04-23
Also published as: US20170010859A1; JP5968578B2; JPWO2015162638A1; DE112014006614T5; WO2015162638A1; CN106233246B; CN106233246A

Abstract

Benutzerschnittstellensystem (1), umfassend: einen Schätzer (3), welcher Kandidaten für eine von einem Benutzer beabsichtigte Sprachbedienung mittels mit einer aktuellen Situation verknüpften externen und/oder gespeicherten Informationen schätzt und eine Wahrscheinlichkeit für jeden von den geschätzten Kandidaten extrahiert; einen Kandidatenauswähler (5), welcher es dem Benutzer ermöglicht, einen Kandidaten aus einer Vielzahl von Kandidaten für die von dem Schätzer (3) geschätzte Sprachbedienung auszuwählen; einen Führungsausgabeprozessor (7), welcher eine Führung ausgibt, um eine Spracheingabe des Benutzers bezüglich des durch den Benutzer ausgewählten Kandidaten anzufordern; und einen Funktionsausführer (10), welcher eine Funktion entsprechend der Spracheingabe des Benutzers in Antwort auf die Führung ausführt, wobei in einem Fall, in welchem Wahrscheinlichkeiten der Vielzahl von Kandidaten für die geschätzte Sprachbedienung gering sind, der Schätzer (3) die Wahrscheinlichkeit für einen Kandidaten für die Sprachbedienung von einem übergeordneten Konzept, zu welchem Kandidaten konvertiert werden, aus der Vielzahl von Kandidaten an den Kandidatenauswähler berechnet, Kandidaten schätzt, welche den Kandidaten für die Sprachbedienung von dem übergeordneten Konzept enthalten, und die geschätzten Kandidaten als ein Schätzungsergebnis ausgibt, und der Kandidatenauswähler (5) die Kandidaten dem Benutzer präsentiert.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft ein Benutzerschnittstellensystem und eine Benutzerschnittstellensteuereinrichtung, welche eine Sprachbedienung ermöglichen.
Hintergrund zum Stand der Technik
In einem Gerät mit einer Benutzerschnittstelle, welche eine Sprachbedienung ermöglicht, ist für gewöhnlich ein Button für die Sprachbedienung vorgesehen. Wenn der Button für die Sprachbedienung gedrückt wird, wird eine Führung ”Bitte sprechen Sie beim Hören eines Pieptons” abgespielt, und ein Benutzer spricht (Spracheingabe). In dem Fall, in welchem der Benutzer spricht, wird ein vorherbestimmtes Sprachschlüsselwort entsprechend vorherbestimmten Abläufen gesprochen. Zu diesem Zeitpunkt wird die Sprachführung von dem Gerät abgespielt und eine Zielfunktion ausgeführt, nachdem mit dem Gerät eine Interaktion mehrere Male durchgeführt wurde. Ein solches Gerät weist das Problem auf, dass der Benutzer das Sprachschlüsselwort oder die Abläufe nicht im Gedächtnis behalten kann, wodurch es unmöglich wird, die Sprachbedienung durchzuführen. Zudem birgt das Gerät das Problem, dass es notwendig ist, die Interaktion mit dem Gerät mehrere Male durchzuführen, so dass es Zeit erfordert, um die Bedienung abzuschließen.
Dementsprechend gibt es eine Benutzerschnittstelle, in welcher das Ausführen einer Zielfunktion mit einer Sprachansage ermöglicht ist, ohne sich an die Abläufe erinnern zu müssen, wenn eine Vielzahl von Buttons mit den Spracherkennungen assoziiert sind, welche mit Funktionen der Buttons verknüpft sind (Patentliteratur 1).
Liste der zitierten Schriften
Patentliteratur

Patentliteratur 1: WO 2013/015364

Die US 2002/0065836 A1 offenbart ein Vorhersagesystem zum Vorhersagen einer Nutzerinformation mit einem Vorhersagemittel und einem Rechenmittel. Durch das Vorhersagemittel wird dabei ein Wert für beispielsweise eine Temperatureinstellung basierend auf durch das Rechenmittel berechneten einer zeitlichen oder einer räumlichen Charakteristik vorhergesagt.
Die DE 10 2007 036 425 A1 offenbart ein menügesteuertes Mehrfunktionssystem mit mehreren funktionalen Gruppen, wobei die Hauptfunktionen des Mehrfunktionssystems aus einer Hauptmenüebene auswählbar sind. In einer Grundeinstellung wird dabei auf einer kombinierten Anzeige- und Eingabevorrichtung eine Untermenüebene präsentiert, deren Menüpunkte jeweils ein und derselben funktionalen Gruppe zugeordnet sind.
Zusammenfassung der Erfindung
Technisches Problem
Es gibt allerdings eine Einschränkung darin, dass die Anzahl der auf einem Bildschirm angezeigten Buttons der Anzahl von Eingängen zu einer Sprachbedienung entspricht und somit ein Problem darin besteht, dass viele Eingänge zur Sprachbedienung nicht angeordnet werden können. In dem Fall, in welchem viele Eingänge zur Sprachbedienung angeordnet sind, ergibt sich zudem das Problem, dass die Anzahl der Buttons extrem groß wird, so dass es schwierig wird, einen Zielbutton zu finden.
Die vorliegende Erfindung wurde zur Lösung der vorgenannten Probleme konzipiert und eine Aufgabe der Erfindung besteht darin, eine Bedienungsbelastung des Benutzers zu reduzieren, welcher eine Spracheingabe durchführt.
Lösung des Problems
Diese Aufgabe wird durch das Benutzerschnittstellensystem nach Anspruch 1, die Benutzerschnittstellensteuereinrichtung nach Anspruch 4, das Benutzerschnittstellensteuerverfahren nach Anspruch 7 und das Benutzerschnittstellensteuerprogramm nach Anspruch 8 gelöst. Vorteilhafte Weiterbildungen finden sich in den abhängigen Ansprüchen.
Vorteilhafte Wirkungen der Erfindung
Gemäß der vorliegenden Erfindung ist es möglich eine Bedienungsbelastung des Benutzers zu reduzieren, welcher die Spracheingabe durchführt, da ein Eingang zur Sprachbedienung, welcher zu der Intention des Benutzers passt, in Entsprechung mit der Situation bereitgestellt ist.
Kurzbeschreibung der Zeichnungen
1 ist eine Ansicht zum Darstellen einer Konfiguration eines Benutzerschnittstellensystems gemäß Ausführungsform 1;
2 ist ein Flussdiagramm zum Darstellen einer Operation des Benutzerschnittstellensystems gemäß Ausführungsform 1;
3 ist ein Anzeigebeispiel von einem Sprachbedienungskandidaten gemäß Ausführungsform 1;
4 ist ein Bedienungsbeispiel des Benutzerschnittstellensystems gemäß Ausführungsform 1;
5 ist eine Ansicht zum Darstellen einer Konfiguration eines Benutzerschnittstellensystems gemäß Ausführungsform 2;
6 ist ein Flussdiagramm zum Darstellen einer Operation des Benutzerschnittstellensystems gemäß Ausführungsform 2;
7 ist ein Bedienungsbeispiel des Benutzerschnittstellensystems gemäß Ausführungsform 2;
8 ist eine Ansicht zum Darstellen einer weiteren Konfiguration des Benutzerschnittstellensystems gemäß Ausführungsform 2;
9 ist eine Ansicht zum Darstellen einer Konfiguration eines Benutzerschnittstellensystems gemäß Ausführungsform 3;
10 ist eine Ansicht zum Darstellen eines Beispiels von Schlüsselwortwissen gemäß Ausführungsform 3;
11 ist ein Flussdiagramm zum Darstellen einer Bedienung des Benutzerschnittstellensystems gemäß Ausführungsform 3;
12 ist ein Bedienungsbeispiel des Benutzerschnittstellensystems gemäß Ausführungsform 3;
13 ist eine Ansicht zum Darstellen einer Konfiguration eines Benutzerschnittstellensystems gemäß Ausführungsform 4;
14 ist ein Flussdiagramm zum Darstellen einer Operation des Benutzerschnittstellensystems gemäß Ausführungsform 4;
15 ist ein Beispiel von einem geschätzten Sprachbedienungskandidaten und dessen Wahrscheinlichkeit gemäß Ausführungsform 4;
16 ist ein Anzeigebeispiel des Sprachbedienungskandidaten gemäß Ausführungsform 4;
17 zeigt ein Beispiel des geschätzten Sprachbedienungskandidaten und dessen Wahrscheinlichkeit gemäß Ausführungsform 4;
18 ist ein Anzeigebeispiel des Sprachbedienungskandidaten gemäß Ausführungsform 4; und
19 ist eine Ansicht zum Darstellen eines Beispiels von einer Hardwarekonfiguration von einer Benutzerschnittstellensteuereinrichtung in jeder von den Ausführungsformen 1 bis 4.
Beschreibung der Ausführungsformen
Ausführungsform 1
1 ist eine Ansicht zum Darstellen eines Benutzerschnittstellensystems gemäß Ausführungsform 1 der Erfindung. Ein Benutzerschnittstellensystem 1 umfasst eine Benutzerschnittstellensteuereinrichtung 2, einen Kandidatenauswahlabschnitt 5, einen Führungsausgabeabschnitt 7 und einen Funktionsausführungsabschnitt 10. Der Kandidatenauswahlabschnitt 5, der Führungsausgabeabschnitt 7 und der Funktionsausführungsabschnitt 10 werden durch die Benutzerschnittstellensteuereinrichtung 2 gesteuert. Zudem weist die Benutzerschnittstellensteuereinrichtung 2 einen Schätzungsabschnitt 3, einen Kandidatenbestimmungsabschnitt 4, einen Führungserzeugungsabschnitt 6, einen Spracherkennungsabschnitt 8 und einen Funktionsbestimmungsabschnitt 9 auf. Nachstehend folgt eine Beschreibung unter Annahme des Falles, in welchem das Benutzerschnittstellensystem auf das Fahren von einem Kraftfahrzeug als ein Beispiel angewandt ist.
Der Schätzungsabschnitt 3 empfängt mit einer aktuellen Situation verknüpfte Informationen und schätzt einen Kandidaten für eine Sprachbedienung, welche ein Benutzer zu dem aktuellen Zeitpunkt durchführen will, das heißt, den Kandidaten für die Sprachbedienung, welcher zu der Intention des Benutzers passt. Beispiele für mit der aktuellen Situation verknüpfte Informationen umfassen externe Umgebungsinformationen und Historieninformationen. Der Schätzungsabschnitt 3 kann entweder beide Informationsgruppen nutzen oder kann auch nur eine davon nutzen. Die externen Umgebungsinformationen umfassen Fahrzeuginformationen, beispielsweise die aktuelle Geschwindigkeit von einem eigenen Fahrzeug und einen Bremszustand, und Informationen, wie Temperatur, aktuelle Zeit und aktuelle Position. Die Fahrzeuginformationen werden mittels eines CAN (Controller Area Network) oder dergleichen akquiriert. Zudem wird die Temperatur mittels eines Temperatursensors oder dergleichen akquiriert, und die aktuelle Position wird mittels eines GPS-Signals akquiriert, welches von einem GPS-(Global Positioning System)-Satelliten gesendet wird. Die Historieninformationen umfassen zum Beispiel aus der Vergangenheit Einstellungsinformationen von einem Ort, welcher von einem Benutzer als ein Ziel eingestellt wurde, und Geräte, beispielsweise ein Fahrzeugnavigationsgerät, ein Audiogerät, ein Klimagerät und ein Telefon, welche von dem Benutzer bedient wurden, und einen Inhalt, welcher von dem Benutzer in dem später beschriebenen Kandidatenauswahlabschnitt 5 ausgewählt wurde, eine Inhaltseingabe durch Sprache von dem Benutzer, und eine Funktion, welche in dem später beschriebenen Funktionsausführungsabschnitt 10 ausgeführt wurde, und die Historieninformationen werden zusammen mit dem Datum und der Zeit des Vorkommens und Positionsinformationen usw. in jeder von den vorstehenden Einstellungsinformationen, Inhalten und Funktionen gespeichert. Demzufolge nutzt der Schätzungsabschnitt 3 für das Schätzen die aus den Historieninformationen mit der aktuellen Zeit und der aktuellen Position verknüpften Informationen. Somit sind selbst in den Vergangenheitsinformationen die Informationen, welche die aktuelle Situation beeinflussen, in den mit der aktuellen Situation verknüpften Informationen enthalten. Die Historieninformationen können in einem Speicherabschnitt in der Benutzerschnittstellensteuereinrichtung gespeichert sein oder auch in einem Speicherabschnitt von einem Server gespeichert sein.
Der Kandidatenbestimmungsabschnitt 4 extrahiert aus einer Vielzahl von Kandidaten für die Sprachbedienung, welche von dem Schätzungsabschnitt 3 geschätzt wird, einige Kandidaten von der Anzahl, welche durch den Kandidatenauswahlabschnitt 5 präsentiert werden kann, und gibt die extrahierten Kandidaten an den Kandidatenauswahlabschnitt 5 aus. Es wird angemerkt, dass der Schätzungsabschnitt 3 jeder von den Funktionen, welche zu der Intention des Benutzers passt, eine Wahrscheinlichkeit zuweisen kann. In diesem Fall kann der Kandidatenbestimmungsabschnitt 4 die Kandidaten von der Anzahl, welche durch den Kandidatenauswahlabschnitt 5 in absteigender Reihenfolge der Wahrscheinlichkeiten präsentiert werden kann, entsprechend extrahieren. Ferner kann der Schätzungsabschnitt 3 die zu präsentierenden Kandidaten direkt an den Kandidatenauswahlabschnitt 5 ausgeben. Der Kandidatenauswahlabschnitt 5 präsentiert dem Benutzer die Kandidaten für die Sprachbedienung, welche von dem Kandidatenbestimmungsabschnitt 4 empfangen wurden, so dass der Benutzer ein Ziel der Sprachbedienung auswählen kann, welches von dem Benutzer gewünscht ist. Das heißt, der Kandidatenauswahlabschnitt 5 dient als ein Eingang zur Sprachbedienung. Nachstehend folgt eine Beschreibung unter der Annahme, dass der Kandidatenauswahlabschnitt 5 eine Touch-Panel-Anzeige ist. Zum Beispiel in dem Fall, in welchem die maximale Anzahl der Kandidaten, welche auf dem Kandidatenauswahlabschnitt 5 angezeigt werden können, drei beträgt, werden drei von dem Schätzungsabschnitt 3 geschätzte Kandidaten in absteigender Reihenfolge der Wahrscheinlichkeiten angezeigt. Wenn die Anzahl der von dem Schätzungsabschnitt 3 geschätzten Kandidaten eins beträgt, wird der eine Kandidat auf dem Kandidatenauswahlabschnitt 5 angezeigt. 3 ist ein Beispiel, in welchem drei Kandidaten für die Sprachbedienung auf der Touch-Panel-Anzeige angezeigt werden. In 3(1) werden drei Kandidaten ”Rufe an”, ”Stelle ein Ziel ein” und ”Höre Musik” angezeigt, in 3(2) werden drei Kandidaten ”Fahre Essen”, ”Höre Musik” und ”Fahre zu Erholungspark” angezeigt. Die drei Kandidaten werden in jedem von den Beispielen gemäß 3 angezeigt, aber die Anzahl der angezeigten Kandidaten, deren Anzeigereihenfolge und deren Anordnung kann jede beliebige Anzahl, Reihenfolge beziehungsweise Anordnung sein.
Der Benutzer wählt den Kandidaten, welchen der Benutzer durch Sprache einzugeben wünscht, aus den angezeigten Kandidaten aus. Bezüglich eines Auswahlverfahrens kann der auf der Touch-Panel-Anzeige angezeigte Kandidat entsprechend berührt und ausgewählt werden. Wenn der Kandidat für die Sprachbedienung durch den Benutzer ausgewählt wird, sendet der Kandidatenauswahlabschnitt 5 eine ausgewählte Koordinatenposition auf der Touch-Panel-Anzeige an den Kandidatenbestimmungsabschnitt 4, und der Kandidatenbestimmungsabschnitt 4 assoziiert die Koordinatenposition mit dem Kandidaten für die Sprachbedienung und bestimmt ein Ziel, in welchem die Sprachbedienung durchgeführt werden soll. Es wird darauf hingewiesen, dass das Bestimmen des Ziels der Sprachbedienung in dem Kandidatenauswahlabschnitt 5 durchgeführt werden kann, und Informationen über den ausgewählten Kandidaten für die Sprachbedienung konfiguriert sein können, um direkt an den Führungserzeugungsabschnitt 6 ausgegeben zu werden. Das bestimmte Ziel der Sprachbedienung wird als die Historieninformation zusammen mit den Zeitinformationen, Positionsinformationen und dergleichen gesammelt, und für zukünftige Schätzungen der Kandidaten für die Sprachbedienung verwendet.
Der Führungserzeugungsabschnitt 6 erzeugt eine Führung, welche die Spracheingabe des Benutzers in Entsprechung mit dem Ziel der Sprachbedienung anfordert, welches in dem Kandidatenauswahlabschnitt 5 bestimmt wird. Die Führung ist vorzugsweise in Form von einer Frage bereitgestellt und der Benutzer beantwortet die Frage und die Spracheingabe wird dadurch zugelassen. Wenn die Führung erzeugt wird, wird ein Führungswörterbuch genutzt, welches eine Sprachführung, eine Anzeigeführung oder einen Geräuscheffekt speichert, welche für jeden Kandidaten für die auf dem Kandidatenauswahlabschnitt 5 angezeigte Sprachbedienung vorherbestimmt sind. Das Führungswörterbuch kann in dem Speicherabschnitt in der Benutzerschnittstellensteuereinrichtung gespeichert sein, oder kann auch in dem Speicherabschnitt des Servers gespeichert sein.
Der Führungsausgabeabschnitt 7 gibt die in dem Führungserzeugungsabschnitt 6 erzeugte Führung aus. Der Führungsausgebeabschnitt 7 kann ein Lautsprecher sein, welcher die Führung durch Sprache ausgibt oder kann auch ein Anzeigeabschnitt sein, welcher die Führung mittels Buchstaben ausgibt. Alternativ kann die Führung auch sowohl mittels des Lautsprechers als auch des Anzeigeabschnitts ausgegeben werden. In dem Fall, in welchem die Führung mittels Buchstaben ausgegeben wird, kann die Touch-Panel-Anzeige, welche der Kandidatenauswahlabschnitt 5 ist, als der Führungsausgabeabschnitt 7 eingesetzt werden. Wie in 4(1) dargestellt, kann zum Beispiel in dem Fall, in welchem ”Rufe an” als das Ziel der Sprachbedienung ausgewählt wird, eine Führungssprachenführung ”Wer soll angerufen werden?” ausgegeben oder eine Nachricht ”Wer soll angerufen werden?” auf einem Bildschirm angezeigt werden. Der Benutzer führt die Spracheingabe auf die Führungsausgabe aus dem Führungsausgabeabschnitt 7 durch. Der Benutzer spricht zum Beispiel einen Vornamen ”Yamada” auf die Führung ”Wer soll angerufen werden?”.
Der Spracherkennungsabschnitt 8 führt die Spracherkennung des vom Benutzer gesprochenen Inhalts in Antwort auf die Führung des Führungsausgabeabschnitts 7 durch. Zu diesem Zeitpunkt führt der Spracherkennungsabschnitt 8 die Spracherkennung mittels eines Spracherkennungswörterbuchs durch. Die Anzahl der Spracherkennungswörterbücher kann eins betragen oder das Wörterbuch kann dem Ziel der Sprachbedienung entsprechend gewechselt werden, welches in dem Kandidatenbestimmungsabschnitt 4 bestimmt wird. Wenn das Wörterbuch gewechselt oder eingegrenzt wird, wird eine Spracherkennungsrate verbessert. In dem Fall, in welchem das Wörterbuch gewechselt oder eingegrenzt wird, werden mit dem Ziel der Sprachbedienung, welches in dem Kandidatenbestimmungsabschnitt 4 bestimmt wird, verknüpfte Informationen nicht nur in den Führungserzeugungsabschnitt 6 eingegeben, sondern auch in den Spracherkennungsabschnitt 8. Das Spracherkennungswörterbuch kann in dem Speicherabschnitt in der Benutzerschnittstellensteuerung gespeichert sein, oder kann auch in dem Speicherabschnitt des Servers gespeichert sein.
Der Funktionsbestimmungsabschnitt 9 bestimmt die Funktion entsprechend der Spracheingabe, welche in dem Spracherkennungsabschnitt 8 erkannt wird, und sendet die Instruktionsinformationen an den Funktionsausführungsabschnitt 10, so dass die Funktion ausgeführt wird. Der Funktionsausführungsabschnitt 10 umfasst Geräte, beispielsweise das Fahrzeugnavigationsgerät, Audiogerät, Klimagerät oder Telefon in dem Kraftfahrzeug, und die Funktionen entsprechen einigen Funktionen, welche durch die Geräte ausgeführt werden. Zum Beispiel in dem Fall, in welchem der Spracherkennungsabschnitt 8 die Spracheingabe des Benutzers ”Yamada” erkannt hat, sendet der Funktionsbestimmungsabschnitt 9 die Instruktionsinformationen an einen Telefonapparat, wie einen, welcher in dem Funktionsausführungsabschnitt 10 enthalten ist, so dass eine Funktion ”Yamada anrufen” ausgeführt wird. Die ausgeführte Funktion wird als die Historieninformation zusammen mit den Zeitinformationen, Positionsinformationen und dergleichen gesammelt und für zukünftige Schätzungen des Kandidaten für die Sprachbedienung verwendet.
2 ist ein Flussdiagramm zum Erläutern einer Operation des Benutzerschnittstellensystems gemäß Ausführungsform 1. In dem Flussdiagramm sind zumindest Operationen in ST101 und ST105 Operationen der Benutzerschnittstellensteuereinrichtung (d. h. Verarbeitungsvorgänge von einem Benutzerschnittstellensteuerprogramm). Die Operationen der Benutzerschnittstellensteuereinrichtung und des Benutzerschnittstellensystems werden unter Bezugnahme auf 1 bis 3 erläutert.
Der Schätzungsabschnitt 3 schätzt den Kandidaten für die Sprachbedienung, welche der Benutzer durchführen möchte, d. h. die Sprachbedienung, welche der Benutzer mittels der mit der aktuellen Situation verknüpften Informationen (die externen Umgebungsinformationen, Bedienungshistorie und dergleichen) durchzuführen wünscht (ST101). In dem Fall, in welchem das Benutzerschnittstellensystem zum Beispiel als ein im Fahrzeug installiertes Gerät eingesetzt wird, kann die Schätzungsoperation zu dem Zeitpunkt gestartet werden, wenn der Motor gestartet wird, und kann periodisch durchgeführt werden, zum Beispiel im Sekundentakt, oder kann auch zu einem Zeitpunkt durchgeführt werden, wenn sich die externe Umgebung verändert. Beispiele der zu schätzenden Sprachbedienung umfassen die folgenden Operationen. In dem Fall von einer Person, welche ein Telefonat öfter von einem Parkplatz von einer Firma nach Arbeitsschluss tätigt und Heim fährt, in einer Situation, in welcher die aktuelle Position ein ”Firmenparkplatz” ist und die aktuelle Zeit ”Nacht” ist, wird die Sprachbedienung ”Rufe an” geschätzt. Der Schätzungsabschnitt 3 kann eine Vielzahl von Kandidaten für die Sprachbedienung schätzen. Zum Beispiel in dem Fall von einer Person, welche oft einen Anruf tätigt, ein Ziel einstellt und beim nach Hause fahren Radio hört, schätzt der Schätzungsabschnitt 3 die Funktion ”Rufe an”, ”Stelle ein Ziel ein” und ”Höre Musik” in absteigender Reihenfolge der Wahrscheinlichkeiten.
Der Kandidatenauswahlabschnitt 5 akquiriert Informationen über die Kandidaten für die Sprachbedienung, welche von dem Kandidatenbestimmungsabschnitt 4 oder dem Schätzungsabschnitt 3 zu präsentieren sind, und präsentiert die Kandidaten (ST102). Insbesondere werden die Kandidaten zum Beispiel auf der Touch-Panel-Anzeige angezeigt. 3 umfasst Beispiele, welche jeweils drei Funktionskandidaten anzeigen. 3(1) ist ein Anzeigebeispiel in dem Fall, in welchem die vorgenannten Funktionen ”Rufe an” ”Stelle ein Ziel ein” und ”Höre Musik” geschätzt werden. 3(2) ist ein Anzeigebeispiel in dem Fall, in welchem die Kandidaten für die Sprachbedienung ”Fahre Essen”, ”Höre Musik” und ”Fahre in Erholungspark” in einer Situation von zum Beispiel ”Ferien” und ”11:00” geschätzt werden.
Anschließend bestimmt der Kandidatenbestimmungsabschnitt 4 oder Kandidatenauswahlabschnitt 5 was der durch den Benutzer unter den angezeigten Kandidaten für die Sprachbedienung ausgewählte Kandidat ist und bestimmt das Ziel der Sprachbedienung (ST103).
Anschließend erzeugt der Führungserzeugungsabschnitt 6 die Führung, welche die Spracheingabe des Benutzers in Entsprechung mit dem Ziel der Sprachbedienung anfordert, welches durch den Kandidatenbestimmungsabschnitt 4 bestimmt wird. Dann gibt der Führungsausgabeabschnitt 7 die in dem Führungserzeugungsabschnitt 6 erzeugte Führung aus (ST104). 4 zeigt Beispiele für die Führungsausgabe. Zum Beispiel, wie in 4(1) dargestellt, in dem Fall, in welchem die Sprachbedienung ”Rufe an” als die Sprachbedienung bestimmt ist, welche der Benutzer in ST103 durchführen möchte, wird die Führung ”Wer soll angerufen werden?” durch Sprache oder Anzeige ausgegeben. Alternativ, wie in 4(2) dargestellt, in dem Fall, in welchem die Sprachbedienung ”Stelle ein Ziel ein” bestimmt ist, wird eine Führung ”Wo soll hingefahren werden?” ausgegeben. Da das Ziel der Sprachbedienung somit spezifisch ausgewählt wird, kann der Führungsausgabeabschnitt 7 die spezifische Führung für den Benutzer bereitstellen.
Wie in 4(1) dargestellt, gibt der Benutzer zum Beispiel ”Yamada” durch Sprache in Antwort auf die Führung ”Wer soll angerufen werden?” aus. Wie in 4(2) dargestellt, gibt der Benutzer zum Beispiel ”Bahnhof Tokyo” durch Sprache in Antwort auf die Führung ”Wo soll hingefahren werden?” ein. Der Inhalt der Führung ist vorzugsweise eine Frage, in welcher die Antwort von einem Benutzer auf die Führung direkt zum Ausführen der Funktion führt. Dem Benutzer wird eine spezifische Frage gestellt, beispielsweise ”Wer soll angerufen werden?” oder ”Wo soll hingefahren werden?” anstelle von einer allgemeinen Führung von ”Bitte Sprechen Sie beim Hören eines Pieptons”, und der Benutzer kann somit leicht verstehen, was gesagt werden soll und die Spracheingabe bezüglich der ausgewählten Sprachbedienung wird vereinfacht.
Der Spracherkennungsabschnitt 8 führt die Spracherkennung mittels des Spracherkennungswörterbuchs durch (ST105). Zu diesem Zeitpunkt kann das zu benutzende Spracherkennungswörterbuch auf ein Wörterbuch gewechselt werden, welches mit der in Schritt ST103 bestimmten Sprachbedienung verknüpft ist. Zum Beispiel in dem Fall, in welchem die Sprachbedienung ”Rufe an” ausgewählt wird, kann das zu benutzende Wörterbuch auf ein Wörterbuch gewechselt werden, in welchem mit ”Telefon” verknüpfte Wörter gespeichert sind, beispielsweise der Familienname von einer Person und der Name von einem Ort, von dem die Telefonnummern eingetragen sind.
Der Funktionsbestimmungsabschnitt 9 bestimmt die Funktion entsprechend der erkannten Sprache und sendet ein Instruktionssignal an den Funktionsausführungsabschnitt 10, so dass die Funktion ausgeführt wird. Anschließend führt der Funktionsausführungsabschnitt 10 die Funktion basierend auf den Instruktionsinformationen aus (ST106). Zum Beispiel, wenn die Sprachansage ”Yamada” in dem Beispiel in 4(1) erkannt wird, wird die Funktion ”Rufe Yamada an” bestimmt, und die in einem Telefonbuch eingetragene Yamada wird mit dem Telefon angerufen, wie eines, welches in dem Funktionsausführungsabschnitt 10 enthalten ist. Zudem, wenn eine Sprachansage ”Bahnhof Tokyo” in dem Beispiel in 4(2) erkannt wird, wird eine Funktion ”Rufe eine Route zum Bahnhof Tokyo ab” bestimmt und eine Routenabfrage zum Bahnhof Tokyo durch das Fahrzeugnavigationsgerät durchgeführt, wie eines, welches in dem Funktionsausführungsabschnitt 19 enthalten ist. Es wird darauf hingewiesen, dass dem Benutzer das Ausführen der Funktion mit ”Rufe Yamada an” durch Sprache oder Anzeige bekanntgegeben werden kann, wenn die Funktion von Yamada anrufen ausgeführt wird.
In der vorstehende Beschreibung wird angenommen, dass der Kandidatenauswahlabschnitt 5 die Touch-Panel-Anzeige ist, und dass der Präsentationsabschnitt, welcher dem Benutzer den geschätzten Kandidaten für die Sprechbedienung bekanntgibt, und der Eingabeabschnitt, welcher es dem Benutzer ermöglicht, einen Kandidaten auszuwählen, miteinander integriert sind. Die Konfiguration des Kandidatenauswahlabschnitts 5 ist allerdings nicht darauf beschränkt. Wie nachstehend beschrieben können der Präsentationsabschnitt, welcher dem Benutzer den geschätzten Kandidaten für die Sprachbedienung bekanntgibt, und der Eingabeabschnitt, welcher es dem Benutzer ermöglicht, einen Kandidaten auszuwählen, auch separat konfiguriert sein. Zum Beispiel kann der auf der Anzeige angezeigte Kandidat durch eine Cursorbedienung mit einem Joystick oder dergleichen ausgewählt werden. In diesem Fall bilden die Anzeige als der Präsentationsabschnitt und der Joystick als der Eingabeabschnitt und dergleichen den Kandidatenauswahlabschnitt 5. Zudem kann ein Hard-Button entsprechend dem auf der Anzeige angezeigten Kandidaten in einem Griff oder dergleichen bereitgestellt sein, und der Kandidat kann durch ein Drücken des Hard-Buttons ausgewählt werden. In diesem Fall bilden die Anzeige als der Präsentationsabschnitt und der Hard-Button als der Eingabeabschnitt den Kandidatenauswahlabschnitt 5. Ferner kann der angezeigte Kandidat auch durch eine Gestenbedienung ausgewählt werden. In diesem Fall ist eine Kamera oder dergleichen, welche eine Gestenbedienung detektiert, in dem Kandidatenauswahlabschnitt 5 als der Eingabeabschnitt enthalten. Zudem kann der geschätzte Kandidat für die Sprachbedienung von einem Lautsprecher durch Sprache ausgegeben werden, und der Kandidat kann durch den Benutzer über die Buttonbedienung, Joystickbedienung oder Sprachbedienung ausgewählt werden. In diesem Fall bilden der Lautsprecher als der Präsentationsabschnitt und der Hard-Button, der Joystick oder ein Mikrofon als der Eingabeabschnitt den Kandidatenauswahlabschnitt 5. Wenn der Führungsausgabeabschnitt 7 der Lautsprecher ist, kann der Lautsprecher auch als der Präsentationsabschnitt des Kandidatenauswahlabschnitts 5 eingesetzt werden.
In dem Fall, in welchem der Benutzer eine falsche Bedienung bemerkt, nachdem der Kandidat für die Sprachbedienung ausgewählt ist, ist es möglich den Kandidaten unter einer Vielzahl der präsentierten Kandidaten neu auszuwählen. Zum Beispiel wird ein Beispiel in dem Fall erläutert, in welchem drei Kandidaten, wie in 4 gezeigt, präsentiert werden. In dem Fall, in welchem der Benutzer die falsche Bedienung bemerkt, nachdem die Funktion ”Stelle ein Ziel ein” ausgewählt ist und dann die Sprachführung ”Wo soll hingefahren werden?” ausgegeben wird, ist es möglich, ”Höre Musik” unter den gleichen drei Kandidaten neu auszuwählen. Der Führungserzeugungsabschnitt 6 erzeugt eine Führung ”Was soll gehört werden?” für die zweite Auswahl. Der Benutzer führt die Sprachbedienung über das Musikabspielen in Antwort auf die Führung ”Was soll gehört werden?” durch, welche von dem Führungsausgabeabschnitt 7 ausgegeben wird. Die Möglichkeit zum Neuauswählen des Kandidaten für die Sprachbedienung gilt für die folgenden Ausführungsformen.
Wie vorstehend erläutert ist es gemäß dem Benutzerschnittstellensystem und der Benutzerschnittstellensteuereinrichtung gemäß Ausführungsform 1 möglich, den Kandidaten für die Sprachbedienung bereitzustellen, welcher zu der Intention des Benutzers in Entsprechung mit der Situation passt, das heißt, einen Eingang zu der Sprachbedienung, so dass eine Bedienungsbelastung des Benutzers, welcher die Spracheingabe durchführt, reduziert wird. Zudem ist es möglich, viele Kandidaten für die Sprachbedienung untergliederten Zielen entsprechend zu erstellen, und es ist somit möglich, verschiedenen Zielen des Benutzers weitestgehend gerecht zu werden.
Ausführungsform 2
In der vorstehend erläuterten Ausführungsform 1 wurde das Beispiel erläutert, in welchem die von dem Benutzer gewünschte Funktion durch die eine Spracheingabe des Benutzers auf die Führung ausgeführt wird, welche von dem Führungsausgabeabschnitt 7 ausgegeben wird. In Ausführungsform 2 folgt eine Beschreibung der Benutzerschnittstellensteuereinrichtung und des Benutzerschnittstellensystems, welche das Ausführen der Funktion mit einer einfachen Bedienung ermöglichen, selbst in dem Fall, in welchem die auszuführende Funktion durch die eine Spracheingabe des Benutzers nicht bestimmt werden kann, wie in dem Fall, in welchem ein Vielzahl von Erkennungsergebnissen durch den Spracherkennungsabschnitt 8 vorhanden sind, oder in dem Fall, in welchem zum Beispiel eine Vielzahl von Funktionen entsprechend der erkannten Sprache vorhanden sind.
5 ist eine Ansicht zum Darstellen des Benutzerschnittstellensystems gemäß Ausführungsform 2 der Erfindung. Die Benutzerschnittstellensteuereinrichtung 2 gemäß Ausführungsform 2 weist einen Erkennungsbeurteilungsabschnitt 11 auf, welcher beurteilt, ob eine auszuführende Funktion als das Ergebnis der Spracherkennung durch den Spracherkennungsabschnitt 8 spezifiziert werden kann. Ferner weist das Benutzerschnittstellensystem 1 gemäß Ausführungsform 2 einen Funktionskandidatenauswahlabschnitt 12 auf, welcher eine Vielzahl von Funktionskandidaten präsentiert, welche als das Ergebnis der Spracherkennung für den Benutzer extrahiert werden, und den Benutzer veranlasst, den Kandidaten auszuwählen. Nachstehend folgt eine Beschreibung unter der Annahme, dass der Funktionskandidatenauswahlabschnitt 12 die Touch-Panel-Anzeige ist. Die weiteren Konfigurationen sind gleich den Konfigurationen in Ausführungsform 1, gezeigt in 1.
In der vorliegenden Ausführungsform wird ein Aspekt erläutert, welcher sich von den Aspekten gemäß Ausführungsform 1 unterscheidet. Der Erkennungsbeurteilungsabschnitt 11 beurteilt, ob die Spracheingabe, welche als das Ergebnis der Spracherkennung erkannt wird oder nicht, einer Funktion entspricht, welche durch den Funktionsausführungsabschnitt 10 ausgeführt wird, das heißt, ob eine Vielzahl von Funktionen entsprechend der erkannten Sprache vorhanden sind oder nicht. Der Erkennungsbeurteilungsabschnitt 11 beurteilt zum Beispiel, ob die Anzahl der erkannten Spracheingaben eins oder mehr als eins beträgt. In dem Fall, in welchem die Anzahl an erkannten Spracheingaben eins beträgt, beurteilt der Erkennungsbeurteilungsabschnitt 11, ob die Anzahl der Funktionen entsprechend der Spracheingabe eins oder mehr als eins beträgt.
In dem Fall, in welchem die Anzahl der erkannten Spracheingaben eins beträgt und die Anzahl der Funktionen entsprechend der Spracheingabe eins beträgt, wird das Ergebnis der Erkennungsbeurteilung an den Funktionsbestimmungsabschnitt 9 ausgegeben und der Funktionsbestimmungsabschnitt 9 bestimmt die Funktion entsprechend der erkannten Spracheingabe. Die Operation ist in diesem Fall gleich der Operation gemäß Ausführungsform 1.
Andererseits, in dem Fall, in welchem eine Vielzahl von Spracherkennungsergebnissen vorhanden sind, gibt der Erkennungsbeurteilungsabschnitt 11 die Erkennungsergebnisse an den Funktionskandidatenauswahlabschnitt 12 aus. Zudem, selbst wenn die Anzahl der Spracherkennungsergebnisse eins beträgt, in dem Fall, in welchem eine Vielzahl von Funktionen entsprechend der erkannten Spracheingabe vorhanden sind, wird das Beurteilungsergebnis (Kandidaten entsprechend der einzelnen Funktion) an den Funktionskandidatenauswahlabschnitt 12 gesendet. Der Funktionskandidatenauswahlabschnitt 12 zeigt eine Vielzahl von Kandidaten an, welche in dem Erkennungsbeurteilungsabschnitt 11 beurteilt wurden. Wenn der Benutzer einen unter den angezeigten Kandidaten auswählt, wird der ausgewählte Kandidat an den Funktionsbestimmungsabschnitt 9 gesendet. Bezüglich eines Auswahlverfahrens kann der auf der Touch-Panel-Anzeige angezeigte Kandidat berührt und ausgewählt werden. In diesem Fall weist der Kandidatenauswahlabschnitt 5 die Funktion von einem Eingang zu der Sprachbedienung auf, welcher die Spracheingabe empfängt, wenn der angezeigte Kandidat von dem Benutzer berührt wird, während der Funktionskandidatenauswahlabschnitt 12 die Funktion von einem manuellen Bedienungseingabeabschnitt aufweist, in welchem die Berührungsbedienung des Benutzers direkt zum Ausführen der Funktion führt. Der Funktionsbestimmungsabschnitt 9 bestimmt die Funktion entsprechend dem durch den Benutzer ausgewählten Kandidaten und sendet Instruktionsinformationen an den Funktionsausführungsabschnitt 10, so dass die Funktion ausgeführt wird.
Wie zum Beispiel in 4(1) dargestellt, wird der Fall erläutert, in welchem der Benutzer zum Beispiel ”Yamada” durch Sprache in Antwort auf die Führung ”Wer soll angerufen werden?” eingibt. In dem Fall, in welchem drei Kandidaten zum Beispiel ”Yamada”, ”Yamana” und ”Yamasa” als das Erkennungsergebnis des Spracherkennungsabschnitts 8 extrahiert werden, ist eine auszuführende Funktion nicht spezifiziert. Aus diesem Grund sendet der Erkennungsbeurteilungsabschnitt 11 ein Instruktionssignal an den Funktionskandidatenauswahlabschnitt 12, so dass die obigen drei Kandidaten auf dem Funktionskandidatenauswahlabschnitt 12 angezeigt werden. Selbst wenn der Spracherkennungsabschnitt 8 die Spracheingabe als ”Yamada” erkennt, gibt es Fälle, bei welchen eine Vielzahl von ”Yamada's”, zum Beispiel ”Yamada Taro”, ”Yamada Kyoko” und ”Yamada Atsushi” in dem Telefonbuch eingetragen sind, so dass diese nicht auf eine eingegrenzt werden können. Mit anderen Worten umfassen diese Fälle den Fall, bei welchen eine Vielzahl von Funktionen ”Yamada Taro anrufen”, ”Yamada Kyoko anrufen” und ”Yamada Atsushi anrufen” als die Funktionen entsprechend ”Yamada” vorhanden sind. In diesem Fall sendet der Erkennungsbeurteilungsabschnitt 11 das Instruktionssignal an den Funktionskandidatenauswahlabschnitt 12, so dass die Kandidaten ”Yamada Taro”, ”Yamada Kyoko” und ”Yamada Atsushi” auf dem Funktionskandidatenauswahlabschnitt 12 angezeigt werden.
Wenn ein Kandidat unter der Vielzahl von Kandidaten, welche auf dem Funktionskandidatenauswahlabschnitt 12 angezeigt sind, durch das manuelle Bedienen durch den Benutzer ausgewählt wird, bestimmt der Funktionsbestimmungsabschnitt 9 die Funktion entsprechend dem ausgewählten Kandidaten und instruiert den Funktionsausführungsabschnitt 10, die Funktion auszuführen. Es wird darauf hingewiesen, dass das Bestimmen der auszuführenden Funktion in dem Funktionskandidatenauswahlabschnitt 12 ausgeführt werden kann, und dass die Instruktionsinformationen direkt an den Funktionsausführungsabschnitt 10 von dem Funktionskandidatenauswahlabschnitt 12 ausgegeben werden können. Wenn zum Beispiel ”Yamada Taro” ausgewählt wird, wird Yamada Taro angerufen.
6 ist ein Flussdiagramm des Benutzerschnittstellensystems gemäß Ausführungsform 2. In dem Flussdiagramm sind zumindest Operationen in ST201, ST205 und ST206 Operationen der Benutzerschnittstellensteuereinrichtung (d. h. Verarbeitungsvorgänge von einem Benutzerschnittstellensteuerprogramm). In 6 sind ST201 bis ST204 gleich wie ST101 bis ST104 gemäß 2 zur Erklärung von Ausführungsform 1, so dass auf Erläuterungen hierzu verzichtet wird.
In ST205 führt der Spracherkennungsabschnitt 9 die Spracherkennung mittels des Spracherkennungswörterbuchs durch. Der Erkennungsbeurteilungsabschnitt 11 beurteilt, ob die erkannte Spracheingabe einer Funktion entspricht, welche durch den Funktionsausführungsabschnitt 10 ausgeführt wird (ST206). In dem Fall, in welchem die Anzahl der erkannten Spracheingaben eins beträgt und die Anzahl der Funktionen entsprechend der Spracheingabe eins beträgt, sendet der Erkennungsbeurteilungsabschnitt 11 das Ergebnis der Erkennungsbeurteilung an den Funktionsbestimmungsabschnitt 9, und der Funktionsbestimmungsabschnitt 9 bestimmt die Funktion entsprechend der erkannten Spracheingabe. Der Funktionsausführungsabschnitt 10 führt die Funktion basierend auf der in dem Funktionsbestimmungsabschnitt 9 bestimmten Funktion aus (ST207).
In dem Fall, in welchem der Erkennungsbeurteilungsabschnitt 11 beurteilt, dass eine Vielzahl von den Erkennungsergebnissen der Spracheingabe in dem Spracherkennungsabschnitt 8 vorhanden sind, oder beurteilt, dass eine Vielzahl der Funktionen entsprechend einer erkannten Spracheingabe vorhanden sind, werden die Kandidaten entsprechend der Vielzahl von Funktionen durch den Funktionskandidatenauswahlabschnitt 12 präsentiert (ST208). Insbesondere werden die Kandidaten auf der Touch-Panel-Anzeige angezeigt. Wenn ein Kandidat unter den auf dem Funktionskandidatenauswahlabschnitt 12 angezeigten Kandidaten durch das manuelle Bedienen durch den Benutzer ausgewählt wird, bestimmt der Funktionsbestimmungsabschnitt 9 die auszuführende Funktion (ST209) und der Funktionsausführungsabschnitt 10 führt die Funktion basierend auf der Instruktion von dem Funktionsbestimmungsabschnitt 9 aus (ST207). Es wird darauf hingewiesen, dass wie vorstehend erläutert, das Bestimmen der auszuführenden Funktion in dem Funktionskandidatenauswahlabschnitt 12 durchgeführt werden kann, und die Instruktionsinformationen direkt an den Funktionsausführungsabschnitt 10 von dem Funktionskandidatenauswahlabschnitt 12 ausgegeben werden können. Wenn die Sprachbedienung und die manuelle Bedienung in Kombination eingesetzt werden, ist es möglich, die Zielfunktion schneller und zuverlässiger als in dem Fall auszuführen, in welchem die Interaktion zwischen dem Benutzer und dem Gerät nur durch Sprache wiederholt wird.
Zum Beispiel in dem Fall, wie in 7 dargestellt, in welchem der Benutzer ”Yamada” durch Sprache in Antwort auf die Führung ”Wer soll angerufen werden?” eingibt, wenn eine Funktion als das Ergebnis der Spracherkennung bestimmt werden kann, wird die Funktion ”Yamada anrufen” durchgeführt und die Anzeige oder Sprachansage ”Yamada anrufen” wird ausgegeben. Zudem werden in dem Fall, in welchem drei Kandidaten ”Yamada”, ”Yamana” und ”Yamasa” als das Ergebnis der Spracherkennung extrahiert werden, drei Kandidaten angezeigt. Wenn der Benutzer ”Yamada” auswählt, wird die Funktion ”Yamada anrufen” ausgeführt und die Anzeige oder die Sprachansage ”Yamada anrufen” wird ausgegeben.
In der vorstehenden Beschreibung wird angenommen, dass der Funktionskandidatenauswahlabschnitt 12 die Touch-Panel-Anzeige ist, und dass der Präsentationsabschnitt, welcher dem Benutzer den Kandidaten für die Funktion bekanntgibt, und der Eingabeabschnitt für den Benutzer zum Auswählen eines Kandidaten miteinander integriert sind. Die Konfiguration des Funktionskandidatenauswahlabschnitts 12 ist allerdings nicht hierauf beschränkt. In ähnlicher Weise wie der Kandidatenauswahlabschnitt 5 können der Präsentationsabschnitt, welcher dem Benutzer den Kandidaten für die Funktion bekannt gibt, und der Eingabeabschnitt, welcher es dem Benutzer ermöglicht, einen Kandidaten auszuwählen, separat konfiguriert sein. Der Präsentationsabschnitt ist zum Beispiel nicht auf die Anzeige beschränkt und kann der Lautsprecher sein, und der Eingabeabschnitt kann ein Joystick, Hard-Button oder Mikrophon sein.
Zudem sind in der vorstehenden Beschreibung unter Bezugnahme auf 5 der Kandidatenauswahlabschnitt 5 als der Eingang zur Sprachbedienung, der Führungsausgabeabschnitt 7 und der Funktionskandidatenauswahlabschnitt 12 zum endgültigen Auswählen der Funktion, welche der Benutzer auszuführen wünscht, separat bereitgestellt, diese können aber auch in einem Anzeigeabschnitt vorgesehen sein (Touch-Panel-Anzeige). 8 ist ein Konfigurationsdiagramm in dem Fall, in welchem ein Anzeigeabschnitt 13 die Funktion von dem Eingang zur Sprachbedienung, die Funktion der Führungsausgabe und die Funktion des manuellen Bedienungseingabeabschnitts zum endgültigen Auswählen der Funktion aufweist. Das heißt, der Anzeigeabschnitt 13 entspricht dem Kandidatenauswahlabschnitt, dem Führungsausgabeabschnitt und einem Funktionskandidatenausgabeabschnitt. In dem Fall, in welchem der eine Anzeigeabschnitt 13 eingesetzt wird, wird die Nutzbarkeit für den Benutzer verbessert, indem angezeigt wird, welcher Art von Bedienungsziel das angezeigte Element entspricht. Zum Beispiel in dem Fall, in welchem der Anzeigeabschnitt als der Eingang zur Sprachbedienung dient, wird ein Icon des Mikrophons vor dem angezeigten Element angezeigt. Die Anzeige der drei Kandidaten in 3 und 4 ist ein Anzeigebeispiel in dem Fall, in welchem der Anzeigeabschnitt als der Eingang zur Sprachbedienung dient. Zudem ist die Anzeige der drei Kandidaten in 7 ein Anzeigebeispiel für eine manuelle Bedieneingabe ohne dem Icon des Mikrophons.
Weiterhin kann der Führungsausgabeabschnitt der Lautsprecher sein, und der Kandidatenauswahlabschnitt 5 und der Funktionskandidatenauswahlabschnitt 12 können durch einen Anzeigeabschnitt (Touch-Panel-Anzeige) konfiguriert sein. Zudem können der Kandidatenauswahlabschnitt 5 und der Funktionskandidatenauswahlabschnitt 12 durch einen Präsentationsabschnitt und einen Eingabeabschnitt konfiguriert sein. In diesem Fall werden der Kandidat für die Sprachbedienung und der Kandidat für die auszuführende Funktion durch einen Präsentationsabschnitt präsentiert, und der Benutzer wählt den Kandidaten für die Sprachbedienung aus und wählt die auszuführende Funktion mittels des einen Eingabeabschnitts aus.
Zudem ist der Funktionskandidatenauswahlabschnitt 12 so konfiguriert, dass der Kandidat für die Funktion durch das manuelle Bedienen durch den Benutzer ausgewählt wird, aber auch so konfiguriert sein kann, dass die von dem Benutzer gewünschte Funktion durch die Sprachbedienung unter den angezeigten Kandidaten für die Funktion oder den Kandidaten für die Funktionsausgabe durch Sprache ausgewählt werden kann. Zum Beispiel in dem Fall, in welchem die Kandidaten für die Funktion ”Yamada Taro”, ”Yamada Kyoko” und ”Yamada Atsushi” präsentiert werden, kann konfiguriert sein, dass ”Yamada Taro” durch eine Eingabe ”Yamada Taro” durch Sprache ausgewählt wird, oder dass dann, wenn die Kandidaten jeweils mit Zahlen assoziiert sind, beispielsweise ”1”, ”2” und ”3”, ”Yamada Taro” durch eine Eingabe von ”1” durch Sprache ausgewählt wird.
Wie vorstehend erläutert ist es gemäß des Benutzerschnittstellensystems und der Benutzerschnittstellensteuereinrichtung gemäß Ausführungsform 2 selbst in dem Fall, in welchem die Zielfunktion nicht durch eine Spracheingabe spezifiziert werden kann, da diese konfiguriert ist, dass der Benutzer eine Auswahl unter den präsentierten Kandidaten für die Funktion treffen kann, möglich, die Zielfunktion mit der einfachen Bedienung auszuführen.
Ausführungsform 3
Wenn ein von einem Benutzer gesprochenes Schlüsselwort ein Schlüsselwort mit einer weit gefassten Bedeutung ist, gibt es Fälle, bei welchen die Funktion nicht als nicht ausführbar spezifiziert werden kann, oder viele Funktionskandidaten präsentiert werden, so dass es Zeit erfordert, den Kandidaten auszuwählen. Zum Beispiel in dem Fall, in welchem der Benutzer ”Vergnügungspark” in Antwort auf eine Frage ”Wo soll hingefahren werden?” spricht, ist es nicht möglich, den Vergnügungspark zu spezifizieren, da zu ”Vergnügungspark” eine große Anzahl von Orten gehören. Zudem, wenn eine große Anzahl von Ortsnamen des Vergnügungsparks als Kandidaten angezeigt werden erfordert es von dem Benutzer Zeit, um eine Auswahl zu treffen. Aus diesem Grund ist ein Merkmal der vorliegenden Ausführungsform das Folgende: In dem Fall, in welchem das von dem Benutzer gesprochene Schlüsselwort ein Wort mit einer weit gefassten Bedeutung ist, wird ein Kandidat für eine Sprachbedienung, welche der Benutzer auszuführen wünscht, durch die Verwendung einer Intentionsschätzungsmethode geschätzt, das geschätzte Ergebnis spezifisch als der Kandidat für die Sprachbedienung präsentiert, das heißt, ein Eingang zur Sprachebedienung, und das Ausführen einer Zielfunktion ist konfiguriert, um beim nächsten Sprechen zugelassen zu werden.
In der vorliegenden Ausführungsform wird hauptsächlich ein Aspekt erläutert, welcher sich von den in der vorstehenden Ausführungsform 2 erläuterten Aspekten unterscheidet. 9 ist ein Konfigurationsdiagramm von einem Benutzerschnittstellensystem gemäß Ausführungsform 3. Ein Hauptunterschied zu der vorstehend erläuterten Ausführungsform 2 besteht darin, dass der Erkennungsbeurteilungsabschnitt 11 Schlüsselwortwissen 14 einsetzt, und dass der Schätzungsabschnitt 3 erneut in Entsprechung mit dem Ergebnis der Beurteilung des Erkennungsbeurteilungsabschnitts 11 verwendet wird, um dadurch den Kandidaten für die Sprachbedienung zu schätzen. Nachstehend folgt eine Beschreibung unter der Annahme, dass ein Kandidatenauswahlabschnitt 15 die Touch-Panel-Anzeige ist.
Der Erkennungsbeurteilungsabschnitt 11 beurteilt mittels des Schlüsselwortwissens 14, ob das in dem Spracherkennungsabschnitt 8 erkannte Schlüsselwort ein Schlüsselwort von einer oberen Ebene oder ein Schlüsselwort von einer unteren Ebene ist. In dem Schlüsselwortwissen 14 sind zum Beispiel Wörter wie in einer Tabelle in 10 gespeichert. Zum Beispiel ist als das Schlüsselwort der oberen Ebene ”Themenpark” und als das Schlüsselwort der unteren Ebene des Themenparks ”Erholungspark”, ”Zoo” und ”Aquarium” damit assoziiert. Zudem sind als die Schlüsselwörter der oberen Ebene ”Essen”, ”Reis” und ”Hungrig” und als die Schlüsselwörter der unteren Ebene ”Nudeln”, ”Chinesische Küche”, ”Familienrestaurant” und dergleichen damit assoziiert.
Zum Beispiel in dem Fall, in welchem der Erkennungsbeurteilungsabschnitt 11 die erste Spracheingabe als ”Themenpark” erkennt, da ”Themenpark” das Wort der oberen Ebene ist, werden Wörter wie ”Erholungspark”, ”Zoo”, ”Aquarium” und ”Museum” als die Schlüsselwörter der unteren Ebene entsprechend ”Themenpark” an den Schätzungsabschnitt 3 gesendet. Der Schätzungsabschnitt 3 schätzt das Wort entsprechend der Funktion, welche der Benutzer auszuführen wünscht, unter den Wörtern, wie ”Erholungspark”, ”Zoo”, ”Aquarium” und ”Museum”, welche von dem Erkennungsbeurteilungsabschnitt 11 mittels den externen Umgebungsinformationen und Historieninformationen empfangen wurden. Der Kandidat für das durch die Schätzung erhaltene Wort wird auf dem Kandidatenauswahlabschnitt 15 angezeigt.
Andererseits wird in dem Fall, in welchem der Erkennungsbeurteilungsabschnitt 11 beurteilt, dass der in dem Spracherkennungsabschnitt 8 erkannte Wort ein Wort der unteren Ebene ist, welcher zu der endgültigen Ausführungsfunktion führt, der Wort an den Funktionsbestimmungsabschnitt 9 gesendet und die Funktion entsprechend dem Wort durch den Funktionsausführungsabschnitt 10 ausgeführt.
11 ist ein Flussdiagramm zum Darstellen der Operation des Benutzerschnittstellensystems gemäß Ausführungsform 3. In dem Flussdiagramm sind zumindest Operationen in ST301, ST305, ST306 und St308 Operationen der Benutzerschnittstellensteuereinrichtung (d. h. Verarbeitungsvorgänge von einem Benutzerschnittstellensteuerprogramm). Operationen in ST301 bis ST304, in welchen die Sprachbedienung, welche der Benutzer durchzuführen wünscht, das heißt die Sprachbedienung, welche zu der Intention des Benutzers passt, in Entsprechung mit der Situation geschätzt wird, der geschätzte Kandidat für die Sprachbedienung präsentiert wird und die mit der Sprachbedienung, welche durch den Benutzer ausgewählt wird, verknüpfte Führungsausgabe durchgeführt wird, gleich denen in den vorstehend erläuterten Ausführungsformen 1 und 2. 12 ist eine Ansicht zum Darstellen eines Anzeigebeispiels gemäß Ausführungsform 3. Nachstehend werden hauptsächlich Operationen in und nach ST305, welche sich von denen gemäß Ausführungsformen 1 und 2 unterscheiden, das heißt Operation nach der Operation, in welcher das Sprechen des Benutzers für die Führungsausgabe erkannte Spracheingabe ist, unter Bezugnahme auf 9 bis 12 erläutert.
Zunächst, wie in 12 gezeigt, wird angenommen, dass es drei Kandidaten für die Sprachbedienung gibt, welche in ST301 geschätzt und in ST302 auf dem Kandidatenauswahlabschnitt 15 angezeigt werden, wobei die Kandidaten ”Rufe an” ”Stelle ein Ziel ein” und ”Höre Musik” sind. Wenn der Benutzer ”Stelle ein Ziel ein” auswählt, wird das Ziel der Sprachbedienung bestimmt (ST303) und der Führungsausgabeabschnitt 7 stellt dem Benutzer die Frage ”Wo soll hingefahren werden?” durch Sprache (ST304). Wenn der Benutzer ”Themenpark” durch Sprache in Antwort auf die Führung eingibt, führt der Spracherkennungsabschnitt 8 die Spracherkennung durch (ST305). Der Erkennungsbeurteilungsabschnitt 11 empfängt das Erkennungsergebnis von dem Spracherkennungsabschnitt 8 und beurteilt, ob das Erkennungsergebnis das Schlüsselwort der oberen Ebene oder das Schlüsselwort der unteren Ebene ist, indem dieser auf das Schlüsselwortwissen 14 zugreift (ST306). In dem Fall, in welchem beurteilt wird, dass das Erkennungsergebnis das Schlüsselwort der oberen Ebene ist, geht der Ablauf bis ST308. Andererseits, in dem Fall, in welchem beurteilt wird, dass das Erkennungsergebnis das Schlüsselwort der unteren Ebene ist, geht der Ablauf bis ST307.
Es wird zum Beispiel angenommen, dass der Spracherkennungsabschnitt 8 die Sprachansage als ”Themenpark” erkannt hat. Wie in 10 dargestellt, da ”Themenpark” das Schlüsselwort der oberen Ebene ist, sendet der Erkennungsbeurteilungsabschnitt 11 die Schlüsselwörter der unteren Ebene entsprechend ”Themenpark”, wie ”Erholungspark”, ”Zoo”, ”Aquarium” und ”Museum” an den Schätzungsabschnitt 3. Der Schätzungsabschnitt 3 schätzt den Kandidaten für die Sprachbedienung, welche der Benutzer durchzuführen wünschen könnte, unter einer Vielzahl der Schlüsselwörter der unteren Ebene, welche von dem Erkennungsbeurteilungsabschnitt 11 empfangen wurden, beispielsweise ”Erholungspark”, ”Zoo”, ”Aquarium” und ”Museum” mittels den externen Umgebungsinformationen und Historieninformationen (ST308). Es wird darauf hingewiesen, dass auch nur entweder die externen Umgebungsinformationen oder die Historieninformationen verwendet werden können.
Der Kandidatenauswahlabschnitt 15 präsentiert den geschätzten Kandidaten für die Sprachbedienung (ST309). Wie zum Beispiel in 12 dargestellt, werden drei Elemente ”Fahre zu Zoo”, ”Fahre zu Aquarium” und ”Fahre zu Erholungspark” als die Eingänge zur Sprachbedienung angezeigt. Der Kandidatenbestimmungsabschnitt 4 bestimmt das der Sprachbedienung zu unterziehende Ziel unter den präsentierten Sprachbedienungskandidaten basierend auf der Auswahl durch den Benutzer (ST310). Es wird darauf hingewiesen, dass das Bestimmen des Ziels der Sprachbedienung in dem Kandidatenauswahlabschnitt 15 durchgeführt werden kann, und Informationen über den ausgewählten Sprachbedienungskandidaten direkt an den Führungserzeugungsabschnitt 6 ausgegeben werden können. Dann erzeugt der Führungserzeugungsabschnitt 6 die Führung entsprechend dem bestimmten Ziel der Sprachbedienung, und der Führungsausgabeabschnitt 7 gibt die Führung aus. Zum Beispiel in dem Fall, in welchem beurteilt wird, dass der Benutzer ”Fahre zu Erholungspark” unter den dem Benutzer präsentierten Elementen ausgewählt hat, wird ein Führung ”Zu welchem Erholungspark soll gefahren werden?” durch Sprache ausgegeben (ST311). Der Spracherkennungsabschnitt 8 erkennt die Ansage des Benutzers zu der Führung (ST305). Somit ist es möglich, den Kandidaten durch erneutes Schätzen des Kandidaten für die Sprachbedienung, welche zu der Intention des Benutzers passt, einzugrenzen und den Benutzer zu fragen, was er genau zu tun wünscht, und der Benutzer kann die Spracheingabe somit leicht durchführen und die Zielfunktion ohne wiederholtes Durchführen der Spracheingabe ausführen.
Wenn das Erkennungsergebnis des Spracherkennungsabschnitts 8 das ausführbare Schlüsselwort der unteren Ebene ist, wird die dem Schlüsselwort entsprechende Funktion ausgewählt (ST307). Zum Beispiel in dem Fall, in welchem der Benutzer ”Japanischer Erholungspark” in Antwort auf die Führung ”Zu welchem Erholungspark möchten Sie fahren?” spricht, wird die Funktion zum Beispiel zum Abrufen einer Route zu ”Japanischer Erholungspark” durch das Fahrzeugnavigationsgerät als der Funktionsausführungsabschnitt 10 ausgeführt.
Das Ziel der Sprachbedienung, welche durch den Kandidatenbestimmungsabschnitt 4 in Schritt ST309 bestimmt wird, und die durch den Funktionsausführungsabschnitt 10 in ST307 ausgeführte Funktion sind in einer Datenbank (nicht dargestellt) als die Historieninformationen zusammen mit den Zeitinformationen, Positionsinformationen und dergleichen gesammelt und werden für das zukünftige Schätzen des Kandidaten für die Sprachbedienung verwendet.
Obwohl dies in dem Flussdiagramm gemäß 11 weggelassen ist, kann in dem Fall, in welchem der Erkennungsbeurteilungsabschnitt 11 beurteilt, dass das in dem Spracherkennungsabschnitt 8 erkannte Schlüsselwort Wort der unteren Ebene ist, aber nicht zu der endgültigen Ausführungsfunktion führt, ähnlich der vorstehend beschriebenen Ausführungsform 2, der Kandidat für die Funktion zur Auswahl der endgültigen Ausführungsfunktion durch den Benutzer auf dem Kandidatenauswahlabschnitt 15 angezeigt werden, und die Funktion durch die Auswahl durch den Benutze entsprechend bestimmt werden (ST208 und ST209 in 6). Zum Beispiel in dem Fall, in welchem eine Vielzahl von Erholungsparks mit Namen ähnlich ”Japanischer Erholungspark” vorhanden sind und diese durch den Spracherkennungsabschnitt 8 nicht auf einen eingegrenzt werden können, oder in dem Fall, wenn beurteilt wird, dass eine Vielzahl von Funktionen entsprechend einem erkannten Kandidaten von zum Beispiel Abrufen der Route und Abrufen des Parkplatzes vorhanden sind, wird der Kandidat, welcher zu der endgültigen Funktion führt, auf dem Kandidatenauswahlabschnitt 15 angezeigt. Dann, wenn der Kandidat für eine Funktion durch das Bedienen durch den Benutzer ausgewählt wird, wird die auszuführende Funktion bestimmt.
In 9 ist die Konfiguration gegeben, in welcher die Auswahl des Sprachbedienungskandidaten und die Auswahl des Kandidaten für die Funktion durch einen Kandidatenauswahlabschnitt 15 durchgeführt werden, es kann aber auch eine Konfiguration gegeben sein, in welcher, wie in 5 dargestellt, der Kandidatenauswahlabschnitt 5 zum Auswählen des Sprachbedienungskandidaten und der Funktionskandidatenauswahlabschnitt 12 zum Auswählen des Kandidaten für die Funktion nach der Spracheingabe separat bereitgestellt sind. Zudem kann wie in 8 ein Anzeigeabschnitt 13 die Funktion von dem Eingang zur Sprachbedienung, die Funktion des manuellen Bedienungseingabeabschnitts und die Funktion der Führungsausgabe haben.
Zudem wird in der vorstehenden Beschreibung angenommen, dass der Kandidatenauswahlabschnitt 15 die Touch-Panel-Anzeige ist, und dass der Präsentationsabschnitt, welcher dem Benutzer den geschätzten Kandidaten für die Sprachbedienung bekanntgibt, und der Eingabeabschnitt für den Benutzer zum Auswählen des Kandidaten miteinander integriert sind, die Konfiguration des Kandidatenauswahlabschnitts 15 allerdings nicht hierauf beschränkt ist. Wie in Ausführungsform 1 beschrieben, können der Präsentationsabschnitt, welcher dem Benutzer den geschätzten Kandidaten für die Sprachbedienung bekanntgibt, und der Eingabeabschnitt für den Benutzer zum Auswählen eines Kandidaten, separat konfiguriert sein. Zum Beispiel ist der Präsentationsabschnitt nicht auf die Anzeige beschränkt, sondern kann auch der Lautsprecher sein, und der Eingabeabschnitt kann auch ein Joystick, Hard-Button oder Mikrophon sein.
Zudem wird in der vorstehenden Beschreibung angenommen, dass der Schlüsselwortwissen 14 in der Benutzerschnittstellensteuereinrichtung gespeichert ist, dieses kann aber auch in dem Speicherabschnitt des Servers gespeichert sein.
Wie vorstehend beschrieben, gemäß des Benutzerschnittstellensystems und der Benutzerschnittstellensteuereinrichtung gemäß Ausführungsform 3, ist es selbst dann, wenn das von dem Benutzer durch Sprache eingegebene Schlüsselwort das Schlüsselwort ist, welches eine weit gefasste Bedeutung hat, wenn der Kandidat für die Sprachbedienung, welche zu der Intention des Benutzers passt, erneut geschätzt wird, um somit den Kandidaten einzugrenzen, und der eingegrenzte Kandidat dem Benutzer präsentiert wird, möglich, die Bedienungsbelastung für den Benutzer zu reduzieren, welcher die Spracheingabe durchführt.
Ausführungsform 4
In jeder von den vorstehend erläuterten Ausführungsformen ist konfiguriert, dass die Kandidaten für die Sprachbedienung, welche von dem Schätzungsabschnitt 3 geschätzt wird, dem Benutzer präsentiert werden. In dem Fall, in welchem eine Wahrscheinlichkeit von jedem von den Kandidaten für die von dem Schätzungsabschnitt 3 geschätzte Sprachbedienung allerdings gering ist, werden die Kandidaten präsentiert, welche jeweils eine geringe Wahrscheinlichkeit aufweisen, welche zu der Intention des Benutzers passt. Aus diesem Grund wird in Ausführungsform 4 in dem Fall, in welchem die Wahrscheinlichkeit von jedem von den von dem Schätzungsabschnitt 3 geschätzten Kandidaten gering ist, angenommen, dass die Kandidaten zu einem übergeordneten Konzept konvertiert präsentiert werden.
In der vorliegenden Ausführungsform wird hauptsächlich ein Aspekt erläutert, welcher sich von den Aspekten gemäß der vorstehend erläuterten Ausführungsform 1 unterscheidet. 13 ist ein Konfigurationsdiagramm des Benutzerschnittstellensystems gemäß Ausführungsform 4. Ein Unterschied gegenüber der vorstehend erläuterten Ausführungsform 1 besteht darin, dass der Schätzungsabschnitt 3 das Schlüsselwortwissen 14 einsetzt. Die anderen Konfigurationen sind gleich den Konfigurationen gemäß Ausführungsform 1. Das Schlüsselwortwissen 14 ist gleich dem Schlüsselwortwissen 14 gemäß der vorstehend erläuterten Ausführungsform 3. Es wird darauf hingewiesen, dass wie in 1 dargestellt, die folgende Beschreibung unter der Annahme erfolgt, dass der Schätzungsabschnitt 3 gemäß Ausführungsform 1 das Schlüsselwortwissen 14 einsetzt, allerdings auch eine Konfiguration gegeben sein kann, in welcher der Schätzungsabschnitt 3 in jeder von den Ausführungsformen 2 und 3 (der Schätzungsabschnitt 3 in jeder von den 5, 8 und 9) das Schlüsselwortwissen 14 einsetzen kann.
Der Schätzungsabschnitt 3 empfängt die mit der aktuellen Situation verknüpften Informationen, beispielsweise die externen Umgebungsinformationen und Historieninformationen, und schätzt den Kandidaten für die Sprachbedienung, welche der Benutzer zum gegenwärtigen Zeitpunkt durchführen möchte. In dem Fall, in welchem die Wahrscheinlichkeit von jedem von den durch die Schätzung extrahierten Kandidaten gering ist, wenn eine Wahrscheinlichkeit von einem Kandidaten für eine Sprachbedienung von einer oberen Ebene hoch ist, sendet der Schätzungsabschnitt 3 den Kandidaten für die Sprachbedienung der oberen Ebene an den Kandidatenbestimmungsabschnitt 4.
14 ist ein Flussdiagramm des Benutzerschnittstellensystems gemäß Ausführungsform 4. In dem Flussdiagramm sind zumindest Operationen in ST401 bis ST403, ST406 und ST409 Operationen der Benutzerschnittstellensteuereinrichtung (d. h. Verarbeitungsvorgänge von einem Benutzerschnittstellensteuerprogramm). Zudem ist jede von 15 bis 18 ein Beispiel für den geschätzten Kandidaten für die Sprachbedienung. Die Operationen in Ausführungsform 4 werden unter Bezugnahme auf 13 bis 18 und 10, welche das Schlüsselwortwissen 14 zeigt, erläutert.
Der Schätzungsabschnitt 3 schätzt den Kandidaten für die Sprachbedienung, welcher der Benutzer durchführen möchte, mittels der mit der aktuellen Situation verknüpften Informationen (die externen Umgebungsinformationen, Historieninformationen und dergleichen) (ST401). Dann extrahiert der Schätzungsabschnitt 3 die Wahrscheinlichkeit für jeden von den geschätzten Kandidaten (ST402). Wenn die Wahrscheinlichkeit von jedem Kandidaten hoch ist, geht der Ablauf bis ST404, der Kandidatenbestimmungsabschnitt 4 bestimmt, was der durch den Benutzer ausgewählte Kandidat ist unter den Kandidaten für die in dem Kandidatenauswahlabschnitt 5 präsentierte Sprachbedienung, und bestimmt das Ziel der Sprachbedienung. Zudem kann das Bestimmen des Ziels der Sprachbedienung in dem Kandidatenauswahlabschnitt 5 durchgeführt werden, und Informationen über den ausgewählten Kandidaten für die Sprachbedienung können direkt an den Führungserzeugungsabschnitt 6 ausgegeben werden. Der Führungsausgabeabschnitt 7 gibt die Führung aus, welche die Spracheingabe des Benutzers in Entsprechung mit dem bestimmten Ziel der Sprachbedienung anfordert (ST405). Der Spracherkennungsabschnitt 8 erkennt die Spracheingabe des Benutzers in Antwort auf die Führung (ST406) und der Funktionsausführungsabschnitt 10 führt die Funktion entsprechend der erkannten Sprache aus (ST407).
Andererseits, in dem Fall, in welchem der Schätzungsabschnitt 3 bestimmt, dass die Wahrscheinlichkeit von jedem geschätzten Kandidaten in ST403 gering ist, geht der Ablauf bis zu ST408. Ein Beispiel von einem solchen Fall umfasst den Fall, in welchem die in 15 gezeigten Kandidaten als das Ergebnis der Schätzung bestimmt werden. 15 ist eine Tabelle, in welcher die einzelnen Kandidaten in absteigender Reihenfolge ihrer Wahrscheinlichkeiten angeordnet sind. Die Wahrscheinlichkeit von einem Kandidaten von ”Fahre zu chinesischem Restaurant” beträgt 15%, die Wahrscheinlichkeit von einem Kandidaten von ”Fahre zu italienischem Restaurant” beträgt 14% und die Wahrscheinlichkeit des Kandidaten ”Rufe an” beträgt 13%, so dass die Wahrscheinlichkeit von jedem Kandidaten gering ist, und somit, wie zum Beispiel in 16 dargestellt, selbst wenn die Kandidaten in absteigender Reihenfolge der Wahrscheinlichkeiten angezeigt werden, die Wahrscheinlichkeit gering ist, dass der Kandidat zu einem Ziel passt, welches durch den Benutzer durch Sprache bedient werden soll.
Aus diesem Grund wird in Ausführungsform 4 die Wahrscheinlichkeit der Sprachbedienung der oberen Ebene von jedem geschätzten Kandidaten berechnet. Bezüglich eines Berechnungsverfahrens werden zum Beispiel die Wahrscheinlichkeiten von den Kandidaten der unteren Ebene, welche zu der gleichen Sprachbedienung der oberen Ebene gehören, addiert. Zum Beispiel, wie in 10 dargestellt, ist die obere Ebene der Kandidaten ”Chinesische Küche”, ”Italienische Küche”, ”Französische Küche”, ”Familienrestaurant”, ”Curry” und ”Koreanisches Barbecue” ”Essen”; wenn die Wahrscheinlichkeiten der Kandidaten der unteren Ebene addiert werden, beträgt die Wahrscheinlichkeit von ”Essen” als der Kandidat für die Sprachbedienung von der obere Ebene 67%. Basierend auf dem Berechnungsergebnis schätzt der Schätzungsabschnitt 3 den Kandidaten, welcher die Sprachbedienung der oberen Ebene enthält (ST409). In dem vorstehenden Beispiel, wie in 17 dargestellt, schätzt der Schätzungsabschnitt 3 ”Fahre zu Restaurant” (Wahrscheinlichkeit 67%), ”Rufe an” (Wahrscheinlichkeit 13%) und ”Höre Musik” (10%) in absteigender Reihenfolge der Wahrscheinlichkeiten. Der Schätzungsabschnitt wird auf dem Kandidatenauswahlabschnitt 5, wie zum Beispiel in 18 dargestellt, angezeigt, und das Ziel der Sprachbedienung wird durch den Kandidatenbestimmungsabschnitt 4 oder den Kandidatenauswahlabschnitt 5 basierend auf der Auswahl durch den Benutzer (ST404) bestimmt. Operationen in und nach ST405 sind gleich den Operationen in dem Fall, in welchem die Wahrscheinlichkeit von jedem vorstehend beschriebenen Kandidaten hoch ist, und somit auf Erläuterungen hierzu verzichtet wird.
Es wird darauf hingewiesen, dass in der vorstehenden Beschreibung angenommen wird, dass das Schlüsselwortwissen 14 in der Benutzerschnittstellensteuereinrichtung gespeichert ist, aber auch in dem Speicherabschnitt des Servers gespeichert sein kann.
Wie vorstehend erläutert wird gemäß dem Benutzerschnittstellensystem und der Benutzerschnittstellensteuereinrichtung gemäß Ausführungsform 4 der Kandidat für die Sprachbedienung des übergeordneten Konzepts mit einer hohen Wahrscheinlichkeit präsentiert, welcher zu der Intention des Benutzers passt, und es ist somit möglich, die Spracheingabe zuverlässiger durchzuführen.
19 ist eine Ansicht zum Darstellen eines Beispiels von einer Hardware-Konfiguration der Benutzerschnittstellensteuereinrichtung 2 in jeder von den Ausführungsformen 1 bis 4. Die Benutzerschnittstellensteuereinrichtung 2 ist ein Computer und enthält Hardware, beispielsweise eine Speichereinrichtung 20, eine Verarbeitungseinrichtung 30, eine Eingabeeinrichtung 40 und eine Ausgabeeinrichtung 50. Die Hardware wird von den einzelnen Abschnitten (den Schätzungsabschnitt 3, den Kandidatenbestimmungsabschnitt 4, den Führungserzeugungsabschnitt 6, den Spracherkennungsabschnitt 8, den Funktionsbestimmungsabschnitt 9 und den Erkennungsbeurteilungsabschnitt 11) der Benutzerschnittstellensteuereinrichtung 2 genutzt.
Die Speichereinrichtung 20 ist zum Beispiel ein ROM (Read Only Memory), ein RAM (Random Access Memory) oder ein HDD (Hard Disk Drive). Der Speicherabschnitt des Servers und der Speicherabschnitt der Benutzerschnittstellensteuereinrichtung 2 können über die Speichereinrichtung 20 installiert sein. In der Speichereinrichtung 20 sind ein Programm 21 und eine Datei 22 gespeichert. Das Programm 21 enthält Programme, welche das Verarbeiten der einzelnen Abschnitte ausführen. Die Datei 22 enthält Daten, Informationen, Signale und dergleichen von denen die Eingabe, Ausgabe, Operationen und dergleichen durch die einzelnen Abschnitte durchgeführt werden. Ferner ist das Schlüsselwortwissen 14 in der Datei 22 enthalten. Zudem ist das Schlüsselwortwissen 14 in der Datei 22 enthalten. Zudem können die Historieninformationen, das Führungswörterbuch oder das Spracherkennungswörterbuch in der Datei 22 enthalten sein.
Die Verarbeitungseinrichtung 30 ist zum Beispiel eine CPU (Central Processing Unit). Die Verarbeitungseinrichtung 30 liest das Programm 21 aus der Speichereinrichtung 20 und führt das Programm 21 aus. Die Operationen der einzelnen Abschnitte der Benutzerschnittstellensteuereinrichtung 2 können durch die Verarbeitungseinrichtung 30 implementiert sein.
Die Eingabeeinrichtung 40 wird für Eingaben (Empfänge) von Daten, Informationen, Signalen und dergleichen von den einzelnen Abschnitten der Benutzerschnittstellensteuereinrichtung 2 genutzt. Zudem wird die Ausgabeeinrichtung 50 für Ausgaben (Sendungen) der Daten, Informationen, Signale und dergleichen von den einzelnen Abschnitten der Benutzerschnittstellensteuereinrichtung 2 genutzt.
Bezugszeichenliste

1: Benutzerschnittstellensystem
2: Benutzerschnittstellensteuereinrichtung
3: Schätzungsabschnitt
4: Kandidatenbestimmungsabschnitt
5: Kandidatenauswahlabschnitt
6: Führungserzeugungsabschnitt
7: Führungsausgabeabschnitt
8: Spracherkennungsabschnitt
9: Funktionsbestimmungsabschnitt
10: Funktionsausführungsabschnitt
11: Erkennungsbeurteilungsabschnitt
12: Funktionskandidatenauswahlabschnitt
13: Anzeigeabschnitt
14: Schlüsselwortwissen
15: Kandidatenauswahlabschnitt
20: Speichereinrichtung
21: Programm
22: Datei
30: Verarbeitungseinrichtung
40: Eingabeeinrichtung
50: Ausgabeeinrichtung

Claims

Benutzerschnittstellensystem (1), umfassend: einen Schätzer (3), welcher Kandidaten für eine von einem Benutzer beabsichtigte Sprachbedienung mittels mit einer aktuellen Situation verknüpften externen und/oder gespeicherten Informationen schätzt und eine Wahrscheinlichkeit für jeden von den geschätzten Kandidaten extrahiert; einen Kandidatenauswähler (5), welcher es dem Benutzer ermöglicht, einen Kandidaten aus einer Vielzahl von Kandidaten für die von dem Schätzer (3) geschätzte Sprachbedienung auszuwählen; einen Führungsausgabeprozessor (7), welcher eine Führung ausgibt, um eine Spracheingabe des Benutzers bezüglich des durch den Benutzer ausgewählten Kandidaten anzufordern; und einen Funktionsausführer (10), welcher eine Funktion entsprechend der Spracheingabe des Benutzers in Antwort auf die Führung ausführt, wobei in einem Fall, in welchem Wahrscheinlichkeiten der Vielzahl von Kandidaten für die geschätzte Sprachbedienung gering sind, der Schätzer (3) die Wahrscheinlichkeit für einen Kandidaten für die Sprachbedienung von einem übergeordneten Konzept, zu welchem Kandidaten konvertiert werden, aus der Vielzahl von Kandidaten an den Kandidatenauswähler berechnet, Kandidaten schätzt, welche den Kandidaten für die Sprachbedienung von dem übergeordneten Konzept enthalten, und die geschätzten Kandidaten als ein Schätzungsergebnis ausgibt, und der Kandidatenauswähler (5) die Kandidaten dem Benutzer präsentiert.
Benutzerschnittstellensystem (1) nach Anspruch 1, wobei in einem Fall, in welchem eine Vielzahl von Kandidaten für die Funktion entsprechend der Spracheingabe des Benutzers vorhanden sind, die Vielzahl von Kandidaten für die Funktion so präsentiert werden, dass ein Kandidat für die Funktion durch den Benutzer ausgewählt wird.
Benutzerschnittstellensystem (1) nach Anspruch 1, wobei der Schätzer (3) in einem Fall, in welchem die Spracheingabe des Benutzers ein Wort von einem übergeordneten Konzept ist, einen Kandidaten für die Sprachbedienung von einem untergeordneten Konzept schätzt, welcher in dem Wort des übergeordneten Konzepts enthalten ist, basierend auf den mit der aktuellen Situation verknüpften Informationen, und der Kandidatenauswähler (5) den Kandidaten für die durch den Schätzer (3) geschätzte Sprachbedienung des untergeordneten Konzepts präsentiert.
Benutzerschnittstellensteuereinrichtung (2), umfassend: einen Schätzer (3), welcher Kandidaten für eine von einem Benutzer beabsichtigte Sprachbedienung mittels mit einer aktuellen Situation verknüpften externen und/oder gespeicherten Informationen schätzt und eine Wahrscheinlichkeit für jeden von den geschätzten Kandidaten extrahiert; einen Führungserzeuger (7), welcher eine Führung erzeugt, um eine Spracheingabe des Benutzers bezüglich eines Kandidaten anzufordern, welcher basierend auf einer Auswahl durch den Benutzer aus einer Vielzahl von Kandidaten für die von dem Schätzer (3) geschätzte Sprachbedienung bestimmt wird; einen Spracherkenner (8), welcher die Spracheingabe des Benutzers in Antwort auf die Führung erkennt; und einen Funktionsbestimmer (9), welcher Instruktionsinformationen ausgibt, so dass eine Funktion entsprechend der erkannten Spracheingabe ausgeführt wird, wobei in einem Fall, in welchem Wahrscheinlichkeiten der Vielzahl von Kandidaten für die geschätzte Sprachbedienung gering sind, der Schätzer (3) die Wahrscheinlichkeit für einen Kandidaten für die Sprachbedienung von einem übergeordneten Konzept, zu welchem Kandidaten konvertiert werden, aus der Vielzahl von Kandidaten berechnet, Kandidaten, welche den Kandidaten für die Sprachbedienung von dem übergeordneten Konzept enthalten, schätzt und die geschätzten Kandidaten als ein Schätzungsergebnis ausgibt, und der Führungserzeuger (6) die Führung erzeugt, um die Spracheingabe des Benutzers bezüglich des geschätzten Kandidaten anzufordern.
Benutzerschnittstellensteuereinrichtung (2) nach Anspruch 4, ferner umfassend einen Erkennungsbeurteilungsprozessor (11), welcher beurteilt, ob eine Vielzahl von Kandidaten für die Funktion entsprechend der von dem Spracherkenner (8) erkannten Spracheingabe des Benutzers vorhanden sind oder nicht, und in einem Fall, in welchem der Erkennungsbeurteilungsprozessor (11) beurteilt, dass die Vielzahl von Kandidaten für die Funktion vorhanden sind, ein Ergebnis der Beurteilung ausgibt, so dass dem Benutzer die Vielzahl von Kandidaten für die Funktion präsentiert werden.
Benutzerschnittstellensteuereinrichtung (2) nach Anspruch 4, wobei der Spracherkenner (8) bestimmt, ob die Spracheingabe des Benutzers ein Wort von einem übergeordneten Konzept oder ein Wort von einem untergeordneten Konzept ist, der Schätzer (3) in einem Fall, in welchem die Spracheingabe des Benutzers der Wort des übergeordneten Konzepts ist, einen Kandidaten für die Sprachbedienung des untergeordneten Konzepts schätzt, welcher in dem Wort des übergeordneten Konzepts enthalten ist, basierend auf den mit der aktuellen Situation verknüpften Informationen, und der Führungserzeuger (6) die Führung bezüglich eines Kandidaten erzeugt, welcher basierend auf der Auswahl durch den Benutzer aus den Kandidaten für die Sprachbedienung des untergeordneten Konzepts bestimmt wird.
Benutzerschnittstellensteuerverfahren, umfassend die Schritte: Schätzen (ST401) von Kandidaten für eine von einem Benutzer beabsichtigten Sprachbedienung mittels mit einer aktuellen Situation verknüpften externen und/oder gespeicherten Informationen und Extrahieren einer Wahrscheinlichkeit für jeden von den geschätzten Kandidaten; in einem Fall, in welchem Wahrscheinlichkeiten der Vielzahl von Kandidaten für die in dem Schätzungsschritt (ST401) geschätzte Sprachbedienung gering sind, Berechnen (ST402) der Wahrscheinlichkeit eines Kandidaten für die Sprachbedienung von einem übergeordneten Konzept, zu welchem Kandidaten konvertiert werden, aus der Vielzahl von Kandidaten, Schätzen (ST409) von Kandidaten, welche den Kandidaten für die Sprachbedienung von dem übergeordneten Konzept enthalten, und Ausgeben der geschätzten Kandidaten an den Kandidatenauswähler als ein Schätzungsergebnis; Präsentieren (ST102) der Kandidaten für die Sprachbedienung an den Benutzer; Erzeugen einer Führung, um eine Spracheingabe des Benutzers bezüglich eines Kandidaten anzufordern, welcher basierend auf einer Auswahl durch den Benutzer aus einer Vielzahl von Kandidaten für die in dem Schätzungsschritt geschätzte Sprachbedienung bestimmt wird; Erkennen (ST406) der Spracheingabe des Benutzers in Antwort auf die Führung; Ausgeben von Instruktionsinformationen, so dass eine Funktion entsprechend der erkannten Spracheingabe ausgeführt wird.
Benutzerschnittstellensteuerprogramm zum Veranlassen eines Computers zum Ausführen von: einem Schätzungsverarbeiten (ST401), welches mittels mit einer aktuellen Situation verknüpften externen und/oder gespeicherten Informationen Kandidaten für eine von einem Benutzer beabsichtigte Sprachbedienung schätzt und für jeden von den geschätzten Kandidaten eine Wahrscheinlichkeit extrahiert; in einem Fall, in welchem Wahrscheinlichkeiten der Vielzahl von Kandidaten für die in dem Schätzungsschritt geschätzte Sprachbedienung gering sind, einem Verarbeiten, welches eine Wahrscheinlichkeit für einen Kandidaten für die Sprachbedienung von einem übergeordneten Konzept, zu welchem Kandidaten konvertiert werden, der Vielzahl von Kandidaten berechnet und Kandidaten, welche den Kandidaten für die Sprachbedienung von dem übergeordneten Konzept enthalten, schätzt und die geschätzten Kandidaten an den Kandidatenauswähler als ein Schätzungsergebnis ausgibt; einem Verarbeiten, welches die Kandidaten an den Benutzer präsentiert; einem Führungserzeugungsverarbeiten, welches eine Führung erzeugt, um eine Spracheingabe des Benutzers bezüglich eines Kandidaten anzufordern, welcher basierend auf einer Auswahl durch den Benutzer aus einer Vielzahl von Kandidaten für die durch das Schätzungsverarbeiten geschätzte Sprachbedienung bestimmt wird; einem Spracherkennungsverarbeiten (ST406), welches die Spracheingabe des Benutzers in Antwort auf die Führung erkennt; einem Verarbeiten (ST407), welches Instruktionsinformationen ausgibt, so dass eine Funktion entsprechend der erkannten Spracheingabe ausgeführt wird.