DE112014007207B4

DE112014007207B4 - Informations-Präsentationssystem

Info

Publication number: DE112014007207B4
Application number: DE112014007207.9T
Authority: DE
Inventors: Naoya Baba; Yuki Furumoto; Takumi Takei; Tatsuhiko Saito; Masanobu Osawa
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-11-25
Filing date: 2014-11-25
Publication date: 2019-12-24
Anticipated expiration: 2034-11-26
Also published as: CN107004404A; WO2016084129A1; JP6073540B2; DE112014007207T5; US20170309269A1; JPWO2016084129A1; CN107004404B

Abstract

Informations-Präsentationssystem (1), umfassend:eine Extraktionseinheit (12, 22, 32), die konfiguriert ist, einen Text zu analysieren, um dadurch den Text in Wörter oder Wortketten zu segmentieren und aus den Wörtern oder Wortketten ein Spracherkennungswortziel zu extrahieren, wobei das Spracherkennungswortziel ein Wort oder eine Wortkette ist, für welche Zusatzinformation aus einer Informationsquelle erfasst werden kann;ein Wörterbuchgenerator (16), der konfiguriert ist, ein Erkennungswörterbuch (17), durch Nutzung des extrahierten Spracherkennungswortziels, zu generieren;eine Synthesesteuerung (13, 23, 33), die konfiguriert ist, Information zur Verwendung bei einer Sprachsynthese zum Vorlesen des Texts zu generieren und auszugeben, und das von der Extraktionseinheit (12, 22, 32) extrahierte Spracherkennungswortziel auszugeben;einen Sprachsynthetisierer (14, 24, 34), der konfiguriert ist, den Text unter Verwendung der von der Synthesesteuerung (13, 23, 33) empfangenen Information vorzulesen;eine Anzeigesteuerung (15, 25, 35), die konfiguriert ist, eine Anzeigeeinheit zu steuern, um in einer ersten Anzeigefläche (C1, C2, C3) der Anzeigeflächen (A, B, C1, C2, C3) auf der Anzeigeeinheit, nur das von der Synthesesteuerung (13, 23, 33) empfangene Spracherkennungswortziel, synchron mit einem Timing anzuzeigen, mit dem der Sprachsynthetisierer (14, 24, 34) dasselbe Wort oder dieselbe Wortkette als das extrahierte Spracherkennungswortziel vorliest;einen Spracherkenner (18), der konfiguriert ist, auf das Erkennungswörterbuch (17) zu verweisen, um von einem Mikrofon (6) aufgenommene Sprache zu erkennen, und ein Erkennungsergebnis auszugeben; undeine Abfrageeinheit (10), die konfiguriert ist, zusätzliche zu dem Erkennungsergebnis zugehörige Information, von einer externen Informationsquelle zu beschaffen.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf ein Informations-Präsentationssystem zum Auslesen eines Textes, um dadurch einem Anwender Information zu präsentieren.
HINTERGRUND
Bislang gibt es von Informations-Präsentationsvorrichtungen zum Erfassen eines Textes aus einer Informationsquelle wie etwa einem Web, etc., um ihn einem Anwender zu präsentieren, eine Vorrichtung, welche, wenn ein in dem so präsentierten Text enthaltenes Schlüsselwort durch den Anwender gesprochen wird, phonetisch dieses Schlüsselwort erkennt, um dadurch weiter Information entsprechend diesem Schlüsselwort zu erfassen und dann zu präsentieren.
Gemäß der Informations-Präsentationsvorrichtung, die eine solche Spracherkennung verwendet, ist es notwendig, explizit dem Anwender zu präsentieren, welches Wort ein Spracherkennungsziel im Text ist.
In dieser Hinsicht ist in JP H11 - 25 098 A als ein Weg zum expliziten Präsentieren des Spracherkennungswortziels dem Anwender ein solches Verfahren beschrieben, in welchem aus, aus einem Web erfasster Hypertext-Information zumindest ein Teil eines deskriptiven Texts (Wort/Wörter, die Spracherkennung unterworfen sind) über eine verknüpfte Datei emphatisch auf einem Bildschirm angezeigt wird. Gleichermaßen wird in JP 2007 - 4280 A ein solches Verfahren beschrieben, bei dem aus, von außerhalb erfasster Inhaltinformation das Wort/die Wörter, der Spracherkennung unterworfen sind, nachdem sie in Anzeigeform modifiziert sind, auf einem Bildschirm angezeigt werden. Auf ähnliche Art und Weise wird in US 2002/0 091 529 A1 ein Multimedia-Buch beschrieben, bei dem mit einem Verweis versehene Worte mit visuellen und akustischen Signalen begleitet werden.
ZUSAMMENFASSUNG DER ERFINDUNG
TECHNISCHES PROBLEM
In Bezug auf Vorrichtungen, deren Bildschirm klein ist, wie etwa Fahrzeugvorrichtungen oder ähnliche Vorrichtungen, gibt es Fälle, bei denen der Text dem Anwender in einer Weise präsentiert wird, die nicht auf dem Bildschirm angezeigt wird, sondern ausgelesen wird. In diesen Fällen ist es nicht möglich, die Verfahren, die in JP H11 - 25 098 A und JP 2007 - 4280 A beschrieben sind, anzuwenden.
Zusätzlich, wenn der Bildschirm klein ist, ist die Anzahl von anzeigbaren Zeichen beschränkt, so dass es Fälle gibt, bei denen, falls der Text auf dem Bildschirm anzuzeigen ist, der Text nicht vollständig darauf angezeigt wird. In diesen Fällen ist es gemäß den in JP H11 - 25 098 A und JP 2007 - 4280 A beschriebenen Verfahren möglich, dass das Spracherkennungswortziel nicht auf dem Bildschirm angezeigt wird, aufgrund der Zeichenanzahlbeschränkung, was es unmöglich macht, das Spracherkennungswortziel explizit dem Anwender zu zeigen.
Diese Erfindung ist gemacht worden, um die oben beschriebenen Probleme zu lösen und eine Aufgabe der Erfindung ist, es Empfehlungsinformation explizit, selbst wenn ein vorzulesender Text nicht auf dem Bildschirm angezeigt wird oder die Anzahl von anzeigbaren Zeichen auf dem Bildschirm beschränkt ist, das im Text enthaltene Spracherkennungswortziel dem Anwender zu präsentieren.
Problemlösung
Die Aufgabe wird durch das Informations-Präsentationssystem gemäß Patentanspruch 1 gelöst. Die abhängigen Patentansprüche definieren bevorzugte Ausführungsformen.
VORTEILHAFTER EFFEKT DER ERFINDUNG
Gemäß der Erfindung, wenn ein Text vorgelesen wird, wird das Spracherkennungswortziel darin zu dem Zeitpunkt angezeigt, wenn es vorgelesen wird, so dass, selbst wenn der vorzulesende Text nicht auf dem Bildschirm angezeigt wird oder die Anzahl anzeigbarer Zeichen auf dem Bildschirm beschränkt ist, es möglich ist, das in dem Text enthaltene Spracherkennungswortziel dem Anwender explizit zu präsentieren.
Figurenliste

1 ist ein Diagramm, welches schematisch ein Informations-Präsentationssystem und Peripherievorrichtungen desselben gemäß Ausführungsform 1 der Erfindung illustriert.
2 ist ein Diagramm, das ein Anzeigebeispiel auf einer Anzeige gemäß Ausführungsform 1 zeigt.
3 ist ein schematisches Diagramm, das eine Haupt-Hardware-Konfiguration des Informations-Präsentationssystems und der peripheren Vorrichtungen desselben gemäß Ausführungsform 1 zeigt.
4 ist ein Blockdiagramm, das ein Konfigurationsbeispiel des Informations-Präsentationssystems gemäß Ausführungsform 1 zeigt.

5 ist ein Flussdiagramm, welches Operationen einer Informationsverarbeitungs-Steuereinheit im Informations-Präsentationssystem gemäß Ausführungsform 1 zeigt.
6 ist ein Flussdiagramm, das ein Beispiel von Operationen durch das Informations-Präsentationssystem zeigt, wenn ein Anwender ein Spracherkennungswortziel in Ausführungsform 1 spricht.
7 ist ein Blockdiagramm, das ein Konfigurationsbeispiel eines Informations-Präsentationssystems gemäß Ausführungsform 2 zeigt.
8 ist ein Flussdiagramm, das Operationen einer Informationsverarbeitungs-Steuereinheit im Informations-Präsentationssystem gemäß Ausführungsform 2 zeigt.
9 ist ein Blockdiagramm, das ein Konfigurationsbeispiel eines Informations-Präsentationssystems gemäß Ausführungsform 3 zeigt.
10 ist ein Flussdiagramm, das Operationen einer Informationsverarbeitungs-Steuereinheit im Informations-Präsentationssystem gemäß Ausführungsform 2 zeigt.

BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
Nachfolgend werden zur Illustration der Erfindung im größeren Detail Ausführungsformen zum Ausführen der Erfindung gemäß den beigefügten Zeichnungen beschrieben.
Es ist anzumerken, dass in nachfolgenden Ausführungsformen das Informations-Präsentationssystem gemäß der Erfindung beschrieben wird, wobei als ein Beispiel ein Fall zitiert wird, bei dem es auf eine Navigationsvorrichtung für ein Fahrzeug oder gleiches sich bewegendes Objekt angewendet wird; jedoch kann das System auf etwas Anderes als eine Navigationsvorrichtung angewendet werden, auf einen PC (Persönlichen Computer) oder ein tragbares Informationsendgerät wie etwa ein Tablet-PC, ein Smartphone etc..
Ausführungsform 1
1 ist ein Diagramm, welches schematisch ein Informations-Präsentationssystem 1 und dessen periphere Vorrichtungen gemäß Ausführungsform 1 der Erfindung illustriert.
Das Informations-Präsentationssystem 1 erfasst einen Lesetext aus einer externen Informationsquelle, wie etwa einem Web-Server 3, über ein Netzwerk 2 und steuert dann einen Lautsprecher 5 zur Ausgabe der Stimme des erfassten Lesetexts. Zusätzlich kann das Informations-Präsentationssystem 1 eine Anzeige (Anzeigeeinheit) 4 steuern, um den Lesetext anzuzeigen.
Weiterhin, zum Zeitpunkt des Vorlesens eines Worts oder Wortkette, die in dem Lesetext enthalten ist und Spracherkennung unterworfen ist, steuert das Informations-Präsentationssystem 1 die Anzeige 4 zum Anzeigen dieses Wortes oder dieser Wortkette. Darin wird das Wort oder die Wortkette als eine „linguistische Einheit wie etwa eine Wortkette“ bezeichnet und die linguistische Einheit wie etwa eine Wortkette, die der Spracherkennung unterworfen wird, wird als „Spracherkennungswortziel“ bezeichnet.
Wenn ein Spracherkennungswortziel durch einen Anwender gesprochen wird, erkennt das Informations-Präsentationssystem 1 die gesprochene Stimme als ihre Erfassung über ein Mikrofon 6 und steuert dann den Lautsprecher 5, durch Stimme Information auszugeben, welche sich auf die erkannte linguistische Einheit wie etwa eine Wortkette bezieht. Nachfolgend wird die sich auf die linguistische Einheit wie etwa eine Wortkette beziehende Information als eine „Zusatzinformation“ bezeichnet.
2 zeigt eine Anzeigebeispiel auf der Anzeige 4. In diesen Ausführungsformen werden Beschreibungen unter der Annahme gegeben, dass der Lesetext ist „Premierminister ergreift Maßnahmen zum Starten einer Diskussion mit Experten über die Festlegung dazu, ob die Verbrauchssteuer angehoben wird, „zu überdenken, falls ein Ausstieg aus der Deflation schwierig ist““, und die Spracherkennungswortziele sind „Premierminister“ , „Verbrauchssteuer“ und „Deflation“.
In einer Anzeigefläche A auf der Anzeige 4 wird ein Navigationsbildschirm, in welchem die Wirts-Fahrzeugposition, die Karte und dergleichen gezeigt sind, angezeigt, so dass eine Anzeigefläche B zum Anzeigen des Lesetextes eng ist. Somit kann der Lesetext nicht auf einmal auf der Anzeigefläche B voll angezeigt werden. Aus diesem Grund zeigt das Informations-Präsentationssystem 1 nur einen Teil des Lesetextes an und gibt den gesamten Text per Stimme aus.
Wenn stattdessen die Anzeigefläche B nicht etabliert werden kann, kann das Informations-Präsentationssystem 1 den Lesetext nur durch Stimme ausgeben, ohne diesen Text anzuzeigen.
Das Informations-Präsentationssystem 1 zeigt „Premierminister“, „Verbrauchssteuer“ und „Deflation“, welche die Spracherkennungswortziele sind, in ihren Anzeigeflächen C1, C2 und C3 auf der Anzeige 5 zu entsprechenden Zeitpunkten an, wenn sie vorgelesen werden. Dann, wenn beispielsweise „Verbrauchssteuer“ durch den Anwender gesprochen wird, präsentiert das Informations-Präsentationssystem 1 dem Anwender sie sich auf die „Verbrauchssteuer“ beziehende Zusatzinformation (beispielsweise die Bedeutung von „Verbrauchssteuer“, deren detaillierte Erläuterung oder dergleichen), durch Ausgeben der Information durch Stimme über den Lautsprecher 8, oder etwas in dieser Art. Es ist anzumerken, dass, obwohl die drei Anzeigeflächen in diesem Fall vorbereitet sind, die Anzahl von Anzeigeflächen nicht auf drei beschränkt ist.
3 ist ein schematisches Diagramm, das eine Haupt-Hardware-Konfiguration des Informations-Präsentationssystems 1 und von dessen Peripherievorrichtungen gemäß Ausführungsform 1 zeigt. Mit einem Bus sind eine CPU (Zentraleinheit) 101, ein ROM (Nurlesespeicher) 102, ein RAM (Wahlfreizugriffspeicher) 103, eine Eingabevorrichtung 104, eine Kommunikationsvorrichtung 105, eine HDD (Festplattenlaufwerk) 106 und eine Ausgabevorrichtung 107 verbunden.
Die CPU 101 liest eine Vielzahl von in dem ROM 102 und/oder der HDD 106 gespeicherten Programmen aus und führt sie aus, um dadurch eine Vielzahl von Funktionen des Informations-Präsentationssystems 1 in Kooperation mit den jeweiligen Hardware-Komponenten zu implementieren. Die Vielzahl von Funktionen des Informations-Präsentationssystems 1, welche durch die CPU 101 implementiert werden, werden unter Verwendung der später erwähnten 4 beschrieben.
Das RAM 103 ist ein Speicher, der in der Programmausführung zu verwenden ist.
Die Eingabevorrichtung 104 ist eine Vorrichtung, die eine Anwendereingabe empfängt und ist ein Mikrofon, eine Fernsteuerung oder gleichartige Bedienvorrichtung, ein Touch-Sensor oder dergleichen. In 1 ist das Mikrofon 6 als ein Beispiel der Eingabevorrichtung 104 illustriert.
Die Kommunikationsvorrichtung 105 ist das, was die Kommunikation über das Netzwerk 2 durchführt.
Die HDD 106 ist ein Beispiel einer externen Speichervorrichtung. Außer der HDD sind Beispiele der externen Speichervorrichtung eine CD/DVD, Flash-Speicherbasierter Speicher wie etwa ein USB-Speicher, eine SD-Karte oder dergleichen.
Die Ausgabevorrichtung 107 ist das, was dem Anwender Information präsentiert und ist ein Lautsprecher, eine LCD-Anzeige, eine organische EL (Elektrolumineszenz) und/oder dergleichen. In 1 sind die Anzeige 4 und der Lautsprecher 5 als ein Beispiel der Ausgabevorrichtung 107 illustriert.
4 ist ein Blockdiagramm, das ein Konfigurationsbeispiel des Informations-Präsentationssystems 1 gemäß Ausführungsform 1 zeigt.
Das Informations-Präsentationssystem 1 beinhaltet eine Abrufeinheit 10, eine Extraktionseinheit 12, eine Synthesesteuerung 13, einen Sprachsynthetisierer 14, eine Anzeigesteuerung 15, einen Wörterbuchgenerator 16, ein Erkennungswörterbuch 17 und einen Spracherkenner 18. Die Funktionen dieser Einheiten werden implementiert, wenn die CPU 101 die Programme für sie ausführt.
Die Extraktionseinheit 12, die Synthesesteuerung 13, der Sprachsynthetisierer 14 und die Anzeigesteuerung 15 bilden eine Informations-Verarbeitungssteuereinheit 11.
Es wird angemerkt, dass die Abrufeinheit 10, die Extraktionseinheit 12, die Synthesesteuerung 13, der Sprachsynthetisierer 14, die Anzeigesteuerung 15, der Wörterbuchgenerator 16, das Erkennungswörterbuch 17 und der Spracherkenner 18, welche das Informations-Präsentationssystem 1 bilden, in eine einzelne Vorrichtung konsolidiert sein können, wie in 4 gezeigt, oder über einem Server auf dem Netzwerk, ein tragbares Informationsendgerät wie etwa ein Smartphone etc. und eine Fahrzeugvorrichtung verteilt sein können.
Die Abrufeinheit 10 ruft einen in HTML (HyperText Markup Language) oder XML (eXtensible Markup Language) Format geschriebenen Inhalt aus dem Webserver 3 über das Netzwerk 2 ab. Dann analysiert die Abrufeinheit 10 den abgerufenen Inhalt, um dadurch einen dem Anwender zu präsentierenden Lesetext zu erfassen.
Es ist anzumerken, dass als Netzwerk 2 beispielsweise das Internet oder eine öffentliche Leitung für Mobiltelefon oder dergleichen verwendet werden kann.
Die Extraktionseinheit 12 analysiert den durch die Abrufeinheit 10 erfassten Lesetext, um den Text in linguistische Einheiten wie etwa Wortketten zu segmentieren. Als Verfahren der Segmentierung reicht es aus, ein öffentlich bekanntes Verfahren wie etwa beispielsweise morphologische Analyse zu verwenden, so dass seine Beschreibung hier weggelassen wird. Es ist anzumerken, dass die Unterteilungseinheit nicht auf ein Morphem beschränkt ist.
Zusätzlich extrahiert die Extraktionseinheit 12 aus den linguistischen Einheiten, wie etwa durch die Segmentation erhaltenen Wortketten, jedes Spracherkennungswortziel. Das Spracherkennungswortziel ist eine linguistische Einheit, wie etwa eine in dem Lesetext enthaltene Wortkette, für welche Zusatzinformation, die sich auf diese linguistische Einheit bezieht, wie etwa eine Wortkette, beispielsweise die Bedeutung der linguistischen Einheit, wie etwa einer Wortkette oder eine detaillierte Erläuterung derselben) aus einer Informationsquelle erfasst werden kann.
Es ist anzumerken, dass die Informationsquelle der Zusatzinformation eine externe Informationsquelle wie etwa der Webserver 3 auf dem Netzwerk 2 sein kann, oder eine (nicht gezeigte) Datenbank oder dergleichen sein kann, über welche das Informations-Präsentationssystem 1 verfügt. Die Extraktionseinheit 12 kann über die Abrufeinheit 10 mit der externen Informationsquelle auf dem Netzwerk 2 verbunden sein oder kann direkt damit verbunden sein, nicht durch die Abrufeinheit 10.
Weiterhin bestimmt die Extraktionseinheit 12 jede Anzahl von Moren ab dem Anfang des Lesetextes bis zu jedem Spracherkennungswortziel in diesem Lesetext.
In Fällen des oben beschriebenen Lesetextes von „Premierminister ergreift Maßnahmen zum Starten einer Diskussion mit Experten über die Festlegung dazu, ob die Verbrauchssteuer angehoben wird, „zu überdenken, falls ein Ausstieg aus der Deflation schwierig ist““, wird die Anzahl von Moren (auf Japanisch) ab dem Anfang des Lesetexts (in Japanisch) als „1“ für „Premierminister“, als „4“ für „Verbrauchssteuer“ und als „33“ für „Deflation“ bereitgestellt.
Die Synthesesteuerung 13 bestimmt für den gesamten Lesetext Information über Akzente oder dergleichen (nachfolgend als „Akzentinformation“ beschrieben), die zum Zeitpunkt der Stimmsynthese erforderlich ist. Dann gibt die Synthesesteuerung 13 die festgestellte Information an den Sprachsynthetisierer 14 aus.
Es ist anzumerken, dass es als ein Bestimmungsverfahren der Akzentinformation ausreicht, ein öffentlich bekanntes Verfahren zu verwenden, so dass eine Beschreibung hier weggelassen wird.
Zusätzlich berechnet die Synthesesteuerung 13 für jedes durch die Extraktionseinheit 12 festgestellte Spracherkennungswortziel Startzeiten zur Stimmausgabe auf Basis der Anzahl von Moren ab dem Anfang des Lesetextes bis zum Spracherkennungswortziel. Beispielsweise ist eine Geschwindigkeit des Vorlesens pro einem Mora in der Synthesesteuerung 13 vorbestimmt, so dass die Startzeiten für Stimmausgaben des Spracherkennungswortziels auf solche Weise berechnet wird, dass die Anzahl von Moren bis zu diesem Spracherkennungswortziel durch diese Geschwindigkeit segmentiert ist. Und dann zählt die Synthesesteuerung 13 die Zeit ab dann, wenn die Ausgabe der Akzentinformation für den Lesetext zum Sprachsynthetisierer 14 gestartet wird, und gibt das Spracherkennungswortziel an die Anzeigesteuerung 15 aus, wenn die Zeit die geschätzten Startzeiten für Stimmausgaben erreicht. Dies ermöglicht es, das Spracherkennungswortziel synchron mit dem Timing anzuzeigen, wenn das Spracherkennungswortziel vorgelesen wird.
Es ist anzumerken, dass die Zeit ab dann, wenn die Ausgabe zum Sprachsynthetisierer 14 gestartet wird, gezählt wird, jedoch, wie später beschrieben wird, kann die Zeit ab dann gezählt werden, wenn der Sprachsynthetisierer 14 den Lautsprecher 5 steuert, die synthetisierte Stimme auszugeben.
Der Sprachsynthetisierer 14 erzeugt die synthetisierte Stimme, basierend auf der aus der Synthesesteuerung 13 ausgegebenen Akzentinformation und steuert dann den Lautsprecher 5, die synthetisierte Stimme auszugeben.
Es ist anzumerken, dass es als ein Syntheseverfahren dieser Stimme ausreicht, eine öffentlich bekanntes Verfahren zu verwenden, so dass seine Beschreibung hier weggelassen wird.
Die Anzeigesteuerung 15 steuert die Anzeige 4, um das aus der Synthesesteuerung 13 ausgegebene Spracherkennungswortziel anzuzeigen.
Der Wörterbuchgenerator 16 erzeugt das Erkennungswörterbuch 17 unter Verwendung des durch die Extraktionseinheit 12 extrahierten Spracherkennungswortziels.
Unter Bezugnahme auf das Erkennungswörterbuch 17 erkennt der Spracherkenner 18 die durch das Mikrofon 6 erfasste Stimme, um dadurch eine Erkennungsergebniswortkette auszugeben.
Es ist anzumerken, dass es als das Erkennungsverfahren dieser Stimme ausreicht, ein öffentlich bekanntes Verfahren zu verwenden, so dass seine Beschreibung hier weggelassen wird.
Als Nächstes werden Operationen des Informations-Präsentationssystems 1 von Ausführungsform 1 unter Verwendung von in 5 und 6 gezeigten Flussdiagrammen unter einem spezifischen Beispiel beschrieben.
Zuerst werden Operationen der Informations-Verarbeitungssteuereinheit 11 unter Verwendung des Flussdiagramms in 5 beschrieben.
Hier werden Beschreibungen unter der Annahme gemacht, dass der Lesetext „Premierminister ergreift Maßnahmen zum Starten einer Diskussion mit Experten über die Festlegung dazu, ob die Verbrauchssteuer angehoben wird, „zu überdenken, falls ein Ausstieg aus der Deflation schwierig ist““, und sind die Spracherkennungswortziele „Premierminister“, „Verbrauchssteuer“ und „Deflation“ bereitgestellt.
Anfangs segmentiert die Extraktionseinheit 12 den obigen Lesetext in ein oder mehr linguistische Einheiten wie etwa Wortketten (Schritt ST01). Hier führt die Extraktionseinheit 12 eine morphologische Analyse durch, um dadurch den obigen Lesetext in „/Premierminister/ ergreift/ Maßnahmen/ zum/ Starten/ einer/ Diskussion/ mit/ Experten/ über/ die/ Festlegung/ dazu/ , /ob/ die/ Verbrauchssteuer/ angehoben/ wird/, „/zu/ überdenken/ , /falls/ ein/ Ausstieg/ aus/ der/ Deflation/ schwierig/ ist/““.
Nachfolgend extrahiert die Extraktionseinheit 12 aus den durch die Segmentierung ermittelten linguistischen Einheiten wie etwa Wortketten die Spracherkennungswortziele:

„Premierminister“, „Verbrauchssteuer“ und „Deflation“ (Schritt ST002).

Bei dieser Gelegenheit erzeugt der Wörterbuchgenerator 16 das Erkennungswörterbuch 17, basierend auf den drei Spracherkennungswortzielen „Premierminister“, „Verbrauchssteuer“ und „Deflation“, welche durch die Extraktionseinheit 12 extrahiert sind (Schritt ST003).
Nachfolgend, die Anzahl von Moren ab dem Anfang des Lesetextes bis zum Spracherkennungswortziel:

„Premierminister“ verwendend und die Geschwindigkeit zum Vorlesen des Textes verwendend, berechnet die Synthesesteuerung 13 den Startzeitpunkt für die Stimmausgabe von „Premierminister“, wenn der Lesetext vorgelesen wird (Schritt ST004). Gleichermaßen berechnet die Synthesesteuerung 13, basierend auf der Anzahl von Moren bis zu jedem der Spracherkennungswortziele „Verbrauchssteuer“ und „Deflation“ die Startzeit für die Stimmausgabe von jedem von ihnen.

Zusätzlich erzeugt die Synthesesteuerung 13 die Akzentinformation, die benötigt wird, um die Stimme des Lesetextes zu synthetisieren (Schritt ST005).
Ein Fluss von Schritt ST006 und ein Fluss von Schritten ST007 bis ST009, die später zu beschreiben sind, werden parallel ausgeführt.
Die Synthesesteuerung 13 gibt die Akzentinformation für den Lesetext an den Sprachsynthetisierer 14 aus und der Sprachsynthetisierer 14 erzeugt die synthetisierte Stimme des Lesetextes und gibt ihn an den Lautsprecher 5 aus, um dadurch das Vorlesen zu starten (Schritt ST006).
Parallel zu Schritt ST006 bestimmt die Synthesesteuerung 13, ob die Startzeit für Stimmausgabe verstrichen ist oder nicht, für jedes der Spracherkennungswortziele in aufsteigender Reihenfolge der Anzahl von Moren ab dem Anfang des Lesetextes (Schritt ST007). Wenn der Zeitpunkt die Startzeit für die Stimmausgabe des Spracherkennungswortziels „Premierminister“ erreicht, dessen Anzahl von Moren ab dem Anfang des Lesetextes klein ist (Schritt ST007 „JA“), gibt die Synthesesteuerung 13 das Spracherkennungswortziel „Premierminister“ an die Anzeigesteuerung 15 aus (Schritt ST008). Die Anzeigesteuerung 15 erteilt eine Anweisung an die Anzeige 4, um sie damit zu veranlassen, das Spracherkennungswortziel „Premierminister“ anzuzeigen.
Nachfolgend bestimmt die Synthesesteuerung 13, ob die drei Spracherkennungswortziele angezeigt worden sind oder nicht (Schritt ST009). Zu dieser Zeit, weil die Spracherkennungswortziele „Verbrauchssteuer“ und „Deflation“ nicht-angezeigt bleiben (Schritt ST009 „NEIN“), wiederholt die Synthesesteuerung 13 zweimal Schritte ST007 bis ST009. Die Synthesesteuerung 13 beendet die obige Serie der Verarbeitung zum Zeitpunkt des Abschlusses der Anzeige aller Spracherkennungswortziele (Schritt ST009 „JA“).
Als Ergebnis, in 2, zu einem Zeitpunkt, wo „Premierminister“ im Lesetext „Premierminister ergreift Maßnahmen zum Starten einer Diskussion mit Experten über die Festlegung dazu, ob die Verbrauchssteuer angehoben wird, „zu überdenken, falls ein Ausstieg aus der Deflation schwierig ist““, vorgelesen wird, wird „Premierminister“ auf der Anzeigefläche C1 angezeigt; zum Zeitpunkt, zu dem „Verbrauchssteuer“ vorgelesen wird, wird „Verbrauchssteuer“ auf der Anzeigefläche C2 angezeigt; und zum Zeitpunkt, wenn „Deflation“ vorgelesen wird, wird „Deflation“ auf der Anzeigefläche C3 angezeigt.
Wenn der Anwender das in jeder der Anzeigeflächen C1 bis C3 angezeigte Spracherkennungswortziel ausspricht, kann er /sie eine Repräsentation der sich auf das Wortziel beziehenden Zusatzinformation empfangen. Wie die Zusatzinformation zu präsentieren ist, wird detailliert unter Verwendung von 6 dargestellt.
Es wird angemerkt, dass, wenn das Spracherkennungswortziel auf der Anzeige 4 anzuzeigen ist, die Anzeigesteuerung 15 die Anzeige steuern kann, dieses Wort hervorzuheben. Für das Hervorheben für das Spracherkennungswortziel gibt es Verfahren von: Anwenden eines herausragenden Zeichenstils, Vergrößern von Zeichen; Anwenden einer herausragenden Zeichenfarbe; blinken lassen jede der Anzeigeflächen C1 bis C3 oder Hinzufügen eines Symbols (beispielsweise “ “). Stattdessen kann ein solches Verfahren verwendet werden, bei dem die Farbe auf jeder der Anzeigeflächen C1 bis C3 (das heißt Hintergrundfarbe) oder die Helligkeit darin geändert wird, bevor und nachdem das Spracherkennungswortziel angezeigt wird. Diese Arten von Hervorhebung können in Kombination verwendet werden.
Weiter, wenn das Spracherkennungswortziel auf der Anzeige 4 angezeigt wird, kann die Anzeigesteuerung 15 als eine Softwaretaste zum Auswählen des Spracherkennungswortziels fungieren. Die Software-Taste muss lediglich durch den Anwender unter Verwendung der Eingabevorrichtung 104 bedienbar und auswählbar sein und wird beispielsweise als eine Touch-Taste, die unter Verwendung eines Touch-Sensors auswählbar ist, eine Taste, die unter Verwendung einer Manipulationsvorrichtung auswählbar ist, oder dergleichen bereitgestellt.
Als Nächstes werden Operationen des Informations-Präsentationssystems 1 in dem Fall, bei dem der Anwender das Spracherkennungswortziel ausspricht, unter Verwendung des Flussdiagramms von 6 beschrieben.
Der Spracherkenner 18 erfasst über das Mikrofon 6 die durch den Anwender gesprochene Sprache und erkennt sie dann unter Bezugnahme auf das Erkennungswörterbuch 17, um dadurch die Erkennungsergebniswortkette auszugeben (Schritt ST101). Nachfolgend fragt die Abrufeinheit 10 die Zusatzinformation, die sich auf das Erkennungsergebnis, wie etwa eine durch den Spracherkenner 18 ausgegebene Wortkette bezieht, über das Netzwerk 2 aus dem Web-Server 3 oder anderen Vorrichtungen ab (Schritt ST102). Dann bestimmt die Synthesesteuerung 13 die Akzentinformation, die zur Sprachsynthese erforderlich ist, zur durch die Abfrageeinheit 10 abgefragten Information und gibt sie an den Sprachsynthetisierer 14 aus (Schritt ST103). Zuletzt erzeugt der Sprachsynthetisierer 14 eine synthetisierte Stimme, basierend auf der durch die Synthesesteuerung 13 ausgegebenen Akzentinformation und steuert dann den Lautsprecher 5, um die Stimme auszugeben (Schritt ST104).
Es ist anzumerken, dass in 6, obwohl das Informations-Präsentationssystem 1 konfiguriert ist, wenn das Spracherkennungswortziel durch den Anwender gesprochen wird, die sich auf das Wortziel beziehende Information zu erfassen, gefolgt von der Ausgabe der Information durch Stimme, das System nicht darauf beschränkt ist und beispielsweise konfiguriert sein kann, eine vorgegebene Operation zum Ausführen durchzuführen, wenn die erkannte linguistische Einheit wie etwa eine Wortkette ein Markenname oder eine Einrichtung ist, eine Peripheriesuche zu dem Markennamen durchzuführen, gefolgt von dem Anzeigen eines Resultats dieser Suche oder irgendetwas dieser Art. Die Zusatzinformation kann aus einer externen Informationsquelle wie etwa dem Web-Server 3 oder den anderen Vorrichtung erfasst werden, oder kann aus der Datenbank oder dergleichen erfasst werden, die im Informations-Präsentationssystem 1 enthalten ist.
Weiter, obwohl das Informations-Präsentationssystem so konfiguriert ist, dass die Abfrageeinheit 10 die Zusatzinformation, nachdem der Anwender spricht, abfragt, ist das System nicht darauf beschränkt und kann so konfiguriert sein, dass beispielsweise die Extraktionseinheit 12 nicht nur die Anwesenheit/Abwesenheit der Zusatzinformation bestimmen kann, sondern auch die Zusatzinformation erfasst und speichert, zu einer Zeit der Extraktion des Spracherkennungswortziels aus dem Lesetext.
In Zusammenfassung ist gemäß Ausführungsform 1 das Informations-Präsentationssystem 1 konfiguriert, zu beinhalten: die Extraktionseinheit 12 zum Extrahieren, aus den linguistischen Einheiten wie etwa in einem Lesetext enthaltenen Wortketten, von Zusatzinformation, die sich auf die linguistischen Einheiten bezieht, welche in der Lage ist, aus einer Informationsquelle erfasst zu werden, als ein Spracherkennungswortziel; die Synthesesteuerung 13 zum Ausgeben der zum Synthetisieren einer Stimme zum Vorlesen des Lesetexts verwendeter Akzentinformation und dem durch die Extraktionseinheit 12 extrahierten Spracherkennungswortziel; den Sprachsynthetisierer 14 zum Vorlesen des Lesetexts unter Verwendung der aus der Synthesesteuerung 13 empfangenen Akzentinformation; und die Anzeigesteuerung 15 zum Steuern der Anzeige 4, das aus der Synthesesteuerung 13 empfangene Spracherkennungswortziel anzuzeigen, synchron zu dem Zeitpunkt, zu dem der Sprachsynthetisierer 14 das Spracherkennungswortziel vorliest. Die Anzeigesteuerung 15 empfängt das Spracherkennungswortziel aus der Synthesesteuerung 13 synchron zum Timing, zu dem der Sprachsynthetisierer 14 dieses Spracherkennungswortziel vorliest, und somit die Anzeige 4 veranlasst, das empfangene Spracherkennungswortziel anzuzeigen. Als Ergebnis, wenn der Text vorgelesen wird, wird das Spracherkennungswortziel zu diesem Zeitpunkt angezeigt, zu dem es vorgelesen wird, so dass selbst wenn der Lesetext nicht auf dem Bildschirm angezeigt wird oder die Anzahl anzeigbarer Zeichen auf dem Bildschirm beschränkt ist, es möglich ist, explizit das in dem Text enthaltene Spracherkennungswortziel dem Anwender zu präsentieren.
Weiter, gemäß Ausführungsform 1, kann die Anzeigesteuerung 15 konfiguriert sein, die Anzeige 4 zu steuern, das Spracherkennungswortziel hervorzuheben. Somit wird es für den Anwender einfacher, aufzufinden, dass das Spracherkennungswortziel angezeigt worden ist.
Weiter kann gemäß Ausführungsform 1 die Anzeigesteuerung 15 konfiguriert sein, die Anzeige 4 zu steuern, um die Anzeigefläche, auf der das Spracherkennungswortziel angezeigt wird, dazu zu bringen, zu einem Software-Schlüssel zum Auswählen dieses Spracherkennungswortziels zu fungieren. Somit kann der Anwender sowohl eine Sprachbedienung als auch eine Software-Tastenbedienung abhängig von der Situation getrennt verwenden, so dass die Bequemlichkeit verbessert wird.
Ausführungsform 2
7 ist ein Blockdiagramm, das ein Konfigurationsbeispiel eines Informations-Präsentationssystems 1 gemäß Ausführungsform 2 der Erfindung zeigt. In 7 werden denselben oder äquivalenten Teilen zu jenen in 4 dieselben Bezugszeichen gegeben, so dass ihre Beschreibung hier weggelassen wird.
Das Informations-Präsentationssystem 1 von Ausführungsform 2 beinhaltet einen Speicher 20 zum Speichern des Spracherkennungswortziels. Weiter unterscheidet sich eine Informationsverarbeitungs-Steuereinheit 21 von Ausführungsform 2 teilweise im Betrieb von der Informations-Verarbeitungssteuereinheit 11 von Ausführungsform 1 und wird somit unten beschrieben.
Wie in Ausführungsform 1, analysiert die Extraktionseinheit 22 den durch die Abfrageeinheit 10 erfassten Lesetext, um den Text in eine oder mehrere linguistische Einheiten wie etwa Wortketten zu segmentieren.
Die Extraktionseinheit 22 von Ausführungsform 2 extrahiert aus den linguistischen Einheiten wie etwa Wortketten, die durch Segmentation erhalten sind, das Spracherkennungswortziel und veranlasst den Speicher 20, das extrahierte Spracherkennungswortziel zu speichern.
Wie in Ausführungsform 1, analysiert eine Synthesesteuerung 23 den durch die Abfrageeinheit 10 erfassten Lesetext, um dadurch den Text in linguistische Einheiten wie etwa Wortketten zu segmentieren. Zusätzlich bestimmt die Synthesesteuerung 23 für jede der linguistischen Einheiten wie etwa durch die Segmentation ermittelten Wortketten Akzentinformation, die zum Zeitpunkt der Sprachesynthese benötigt wird. Dann gibt die Synthesesteuerung 23 die festgestellte Akzentinformation pro jeder linguistischen Einheit wie etwa einer Wortkette ab dem Anfang des Lesetexts an einen Sprachsynthetisierer 24 aus.
Die Synthesesteuerung 23 von Ausführungsform 2 gibt die Akzentinformation an den Sprachsynthetisierer 24 aus und gibt gleichzeitig die linguistische Einheit wie etwa eine Wortkette entsprechend dieser Akzentinformation an die Anzeigesteuerung 25 aus.
Wie in Ausführungsform 1, erzeugt der Sprachsynthetisierer 24 eine synthetisierte Stimme, basierend auf der aus der Synthesesteuerung 23 ausgegebenen Akzentinformation und steuert dann den Lautsprecher 5, um die synthetisierte Stimme auszugeben.
Eine Anzeigesteuerung 25 von Ausführungsform 2 bestimmt, ob die linguistische Einheit wie etwa eine aus der Synthesesteuerung 23 ausgegebene Wortkette im Speicher 20 vorhanden ist. Sie bestimmt nämlich, ob die linguistische Einheit wie etwa eine Wortkette, die aus der Synthesesteuerung 23 ausgegeben wird, ein Spracherkennungswortziel ist. Wenn die linguistische Einheit wie etwa eine Wortkette, die aus der Synthesesteuerung 23 ausgegeben ist, im Speicher 20 vorliegt, steuert die Anzeigesteuerung 25 die Anzeige 4, diese linguistische Einheit wie etwa eine Wortkette anzuzeigen, nämlich das Spracherkennungswortziel.
Es ist anzumerken, dass in 7, obwohl die Synthesesteuerung 23 den Lesetext aus der Abfrageeinheit 10 erfasst, um den Text in die linguistische Einheit wie etwa Wortketten zu segmentieren, sie stattdessen bereits ermittelte linguistische Einheiten wie etwa Wortketten aus der Extraktionseinheit 22 erfassen kann.
Weiter, obwohl die Anzeigesteuerung 25 unter Bezugnahme auf den Speicher 20 bestimmt, ob die linguistische Einheit wie etwa eine Wortkette ein Spracherkennungswortziel ist oder nicht, kann die Synthesesteuerung 23 stattdessen diese Bestimmung durchführen. Bei dieser Gelegenheit bestimmt die Synthesesteuerung 23 beim Ausgeben der Akzentinformation an den Sprachsynthetisierer 24, ob die linguistische Einheit wie etwa eine Wortkette entsprechend dieser Akzentinformation im Speicher 20 vorliegt oder nicht, und gibt dann die linguistische Einheit wie etwa eine Wortkette, falls im Speicher 20 vorhanden, an die Anzeigesteuerung 25 aus, gibt aber die linguistische Einheit wie etwa eine Wortkette, falls darin abwesend, nicht aus. Dies führt dazu, dass die Anzeigesteuerung 25 nur die Anzeige 4 steuert, die linguistische Einheit wie etwa eine Wortkette, die aus der Synthesesteuerung 23 ausgegeben ist, anzuzeigen.
Weiter, wie in Ausführungsform 1, kann zum Zeitpunkt, zu dem das Spracherkennungswortziel auf der Anzeige 4 anzuzeigen ist, die Anzeigesteuerung 25 die Anzeige steuern, dieses Wort hervorzuheben. Weiterhin kann die Anzeigesteuerung 25 die Anzeige steuern, um die Anzeigefläche (C1 bis C3) (gezeigt in 2), wo das Spracherkennungswortziel angezeigt wird, dazu zu bringen, als eine Software-Taste zum Auswählen des Spracherkennungswortziels zu fungieren.
Als Nächstes werden Operationen der Informationsverarbeitungs-Steuereinheit 21 unter Verwendung des Flussdiagramms in 8 beschrieben.
Hier werden Beschreibungen unter der Annahme gemacht, dass der Lesetext „Premierminister ergreift Maßnahmen zum Starten einer Diskussion mit Experten über die Festlegung dazu, ob die Verbrauchssteuer angehoben wird, „zu überdenken, falls ein Ausstieg aus der Deflation schwierig ist““ ist und die Spracherkennungswortziele sind „Premierminister“, „Verbrauchssteuer“ und „Deflation“.
Anfangs segmentiert die Extraktionseinheit 22 den obigen Lesetext in eine oder mehr linguistische Einheiten wie etwa Wortketten (Schritt ST201), und extrahiert jedes Spracherkennungswortziel aus den linguistischen Einheiten wie etwa Wortketten, welche durch die Segmentierung ermittelt sind (Schritt ST202).
Zu dieser Zeit erzeugt der Wörterbuchgenerator 16 das Erkennungswörterbuch 17, basierend auf den durch die Extraktionseinheit 22 extrahierten obigen drei Spracherkennungswortzielen (Schritt ST203).
Weiter veranlasst die Extraktionseinheit 22 den Speicher 20, die extrahierten drei Spracherkennungswortziele zu speichern (Schritt ST204).
Nachfolgend segmentiert die Synthesesteuerung 23 den obigen Lesetext in eine oder mehr linguistische Einheiten wie etwa Wortketten, und bestimmt ihre Akzentinformation, welche für Sprachsynthese erforderlich ist (Schritt ST205). Dann gibt die Synthesesteuerung 23 die Akzentinformation und die linguistischen Einheiten wie etwa Wortketten pro jeder linguistischen Einheit wie etwa einer Wortkette in der Reihenfolge ab dem Anfang (hier „Premierminister“) der ermittelten linguistische Einheit wie etwa Wortketten an den Sprachsynthetisierer 24 und die Anzeigesteuerung 25 aus (Schritt ST206) .
Der Sprachsynthetisierer 24 erzeugt eine synthetisierte Stimme der linguistischen Einheiten wie etwa Wortketten, basierend auf der Akzentinformation pro jeder linguistischer Einheit, wie etwa einer Wortkette, die aus der Synthesesteuerung 23 ausgegeben wird, und gibt die Stimme an den Lautsprecher 5 aus, um sie dadurch vorzulesen (Schritt ST207).
Parallel zum Schritt ST207 bestimmt die Anzeigesteuerung 25, ob die linguistische Einheit wie etwa eine Wortkette, die aus der Synthesesteuerung 23 ausgegeben ist, zu dem in dem Speicher 20 gespeicherten Spracherkennungswortziel passt oder nicht (Schritt ST208). Wenn die linguistische Einheit wie etwa eine Wortkette, die aus der Synthesesteuerung 23 ausgegeben ist, zum Spracherkennungswortziel im Speicher 20 passt (Schritt ST208 „JA“), steuert die Anzeigesteuerung 25 die Anzeige 4, diese linguistische Einheit wie etwa eine Wortkette anzuzeigen (Schritt ST209). Wenn andererseits die linguistische Einheit wie etwa eine Wortkette, die aus der Synthesesteuerung 23 ausgegeben wird, nicht zu dem Spracherkennungswortziel im Speicher 20 passt (Schritt ST208 „NEIN“), überspringt der Sprachsynthetisierer 24 den Schritt ST209.
Da „Premierminister“, welches die linguistische Einheit wie etwa eine Wortkette am Anfang des Lesetextes ist, ein Spracherkennungswortziel ist, wird sie vorgelesen und gleichzeitig auf der Anzeigefläche C1 (gezeigt in 2) auf der Anzeige 4 angezeigt.
Nachfolgend bestimmt die Synthesesteuerung 23, ob die linguistischen Einheiten wie Wortketten im Lesetext alle ausgegeben worden sind, oder nicht (Schritt ST210). Zu dieser Zeit, wenn das Ausgeben der linguistischen Einheit wie etwa einer Wortkette am Anfang abgeschlossen ist (Schritt ST210 „NEIN“), kehrt die Synthesesteuerung 23 zum Schritt ST206 zurück. Die Synthesesteuerung 23 beendet die obige Verarbeitungsreihe zum Zeitpunkt des Abschlusses des Ausgebens der linguistischen Einheiten wie etwa Wortketten ab der beginnenden linguistischen Einheit wie etwa einer Wortkette bis zur letzten linguistischen Einheit wie etwa einer Wortkette im Lesetext (Schritt ST210 „JA“).
Als Ergebnis, wie in 2 gezeigt, zu den Zeitpunkten, zu denen „Premierminister“, „Verbrauchssteuer“ und „Deflation“ im Lesetext „Premierminister ergreift Maßnahmen zum Starten einer Diskussion mit Experten über die Festlegung dazu, ob die Verbrauchssteuer angehoben wird, „zu überdenken, falls ein Ausstieg aus der Deflation schwierig ist““ vorgelesen werden, werden „Premierminister“, „Verbrauchssteuer“ und „Deflation“ auf den Anzeigeflächen C1 bis C3 angezeigt.
Wenn der Anwender das auf jeder der Anzeigeflächen C1 bis C3 angezeigte Spracherkennungswortziel spricht, kann er/sie die Präsentation der sich auf das Wortziel beziehenden Zusatzinformation empfangen.
Schlussfolgernd ist gemäß Ausführungsform 1 das Informations-Präsentationssystem 1 konfiguriert, zu umfassen: die Extraktionseinheit 22 zum Extrahieren, aus den linguistischen Einheiten wie etwa Wortketten, die in einem Lesetext enthalten sind, von sich auf die linguistischen Einheiten beziehender Zusatzinformation, die in der Lage ist, aus einer Informationsquelle erfasst zu werden, als ein Spracherkennungswortziel; die Synthesesteuerung 23 zum Ausgeben der zum Synthetisieren der Stimme zum Vorlesen des Lesetextes verwendeten Akzentinformation und des durch die Extraktionseinheit 22 extrahierten Spracherkennungswortziels; ein Sprachsynthetisierer 24 zum Vorlesen des Lesetexts unter Verwendung der aus der Synthesesteuerung 23 empfangenen Akzentinformation; und die Anzeigesteuerung 25 zum Steuern der Anzeige 4, das aus der Synthesesteuerung 23 empfangene Spracherkennungswortziel anzuzeigen, synchron zu dem Zeitpunkt, wenn der Sprachsynthetisierer 24 das Spracherkennungswortziel vorliest. Die Anzeigesteuerung 25 empfängt die linguistische Einheit wie etwa eine Wortkette aus der Synthesesteuerung 23 synchron zum Timing, zu dem der Sprachsynthetisierer 24 diese linguistische Einheit wie etwa eine Wortkette vorliest, und veranlasst die Anzeige 4, die empfangene linguistische Einheit wie etwa eine Wortkette anzuzeigen, wenn sie ein Spracherkennungswortziel ist. Als Ergebnis, wenn der Text vorgelesen wird, wird das Spracherkennungswortziel zu dem Zeitpunkt angezeigt, wenn es vorgelesen wird, so dass selbst, wenn der Lesetext nicht auf dem Bildschirm angezeigt wird oder die Anzahl von anzeigbaren Zeichen auf dem Bildschirm beschränkt ist, es möglich ist, explizit das in diesem Text enthaltene Spracherkennungswortziel dem Anwender zu präsentieren.
Ausführungsform 3
9 ist ein Blockdiagramm, das ein Konfigurationsbeispiel eines Informations-Präsentationssystems 1 gemäß Ausführungsform 3 der Erfindung zeigt. In 9 werden den gleichen oder äquivalenten Teilen zu jenen in 4 und 7 dieselben Bezugszeichen gegeben, so dass ihre Beschreibung hier weggelassen wird.
Das Informations-Präsentationssystem 1 von Ausführungsform 3 beinhaltet einen Speicher 30 zum Speichern des Spracherkennungswortziels. Weiter beinhaltet eine Informationsverarbeitungs-Steuereinheit 31 von Ausführungsform 3 eine Ausgabeverfahren-Änderungseinheit 36, um das Spracherkennungswortziel und eine andere linguistische Einheit wie etwa eine Wortkette unterschiedlich zu behandeln, wenn der Lesetext vorgelesen wird.
Da die Informationsverarbeitungs-Steuereinheit 31 von Ausführungsform 3 die Ausgabeverfahren-Änderungseinheit 36 enthält, ist sie teils anders als die Informationsverarbeitungs-Steuereinheit 21 von Ausführungsform 2 und wird somit unten beschrieben.
Wie in Ausführungsform 2, analysiert eine Extraktionseinheit 32 den durch die Abfrageeinheit 10 erfassten Lesetext, um den Text in eine oder mehrere linguistische Einheiten wie etwa Wortketten zu segmentieren und extrahiert dann aus den linguistischen Einheiten wie etwa Wortketten, welche durch die Segmentierung erhalten sind, jedes Spracherkennungswortziel und veranlasst den Speicher 30, dieses Wort zu speichern.
Wie in Ausführungsform 2 analysiert eine Synthesesteuerung 33 den durch die Abfrageeinheit 10 erfassten Lesetext, um dadurch den Text in linguistische Einheiten wie etwa Wortketten zu segmentieren, und bestimmt Akzentinformation pro jeder der linguistischen Einheiten wie etwa Wortketten.
Die Synthesesteuerung 33 von Ausführungsform 3 bestimmt, ob jede linguistische Einheit wie etwa eine Wortkette im Speicher 30 vorhanden ist oder nicht. Sie bestimmt nämlich, ob die linguistische Einheit wie etwa eine Wortkette ein Spracherkennungswortziel ist oder nicht. Dann gibt die Synthesesteuerung 33 die festgestellte Akzentinformation pro jeder linguistischen Einheit wie etwa eine Wortkette ab dem Anfang des Lesetextes an einen Sprachsynthetisierer 34 aus. Zu dieser Zeit, wenn die linguistische Einheit wie etwa eine Wortkette entsprechend der ausgegebenen Akzentinformation ein Spracherkennungswortziel ist, steuert die Synthesesteuerung 33 die Ausgabeverfahren-Änderungseinheit 36, um das Ausgabeverfahren für diese linguistische Einheit wie etwa eine Wortkette zu ändern. Zusätzlich, wenn die linguistische Einheit wie etwa eine Wortkette, welche der ausgegebenen Akzentinformation entspricht, ein Spracherkennungswortziel ist, gibt die Synthesesteuerung 33 die linguistische Einheit wie etwa eine Wortkette an eine Anzeigesteuerung 35 aus.
Die Ausgabeverfahren-Änderungseinheit 36 bestimmt wieder die Akzentinformation, um so das Ausgabeverfahren zu ändern, nur wenn sie durch die Synthesesteuerung 33 gesteuert wird, das Ausgabeverfahren für die linguistische Einheit wie etwa eine Wortkette zu ändern. Das ändern des Ausgabeverfahrens wird erreicht durch zumindest eines der Verfahren: Ändern der Vorlesetonlage (Stimmlage)?; Ändern der Vorlesegeschwindigkeit; Wechseln zwischen Anwesenheit und Abwesenheit einer Pause vor/nach dem Vorlesen; Ändern der Lautstärke während des Vorlesens und Wechseln zwischen Anwesenheit und Abwesenheit eines Toneffekts während des Vorlesens.
Damit der Anwender leicht im Ton zwischen einem Spracherkennungswortziel und einer anderen linguistischen Einheit wie etwa einer Wortkette unterscheiden kann, wird es bevorzugt, die Tonlage zum Vorlesen des Spracherkennungswortziels höher zu machen; um eine Pause vor/nach dem Spracherkennungswortziel einzufügen, die Lautstärke zum Vorlesen des Spracherkennungswortes lauter zu machen; und/oder einen Toneffekt während des Vorlesens des Spracherkennungswortziels hinzuzufügen.
Der Sprachsynthetisierer 34 erzeugt eine synthetisierte Stimme, basierend auf der aus der Ausgabeverfahren-Änderungseinheit 36 ausgegebenen Akzentinformation und steuert den Lautsprecher 5, die synthetisierte Stimme auszugeben.
Die Rohrleitungsbereich 35 steuert die Anzeige, um die linguistische Einheit wie etwa eine Wortkette, die aus der Synthesesteuerung 33 ausgegeben ist, anzuzeigen. In Ausführungsform 3 sind die aus der Synthesesteuerung 33 an die Anzeigesteuerung 35 ausgegebenen linguistischen Einheiten wie etwa Wortketten alle die Spracherkennungswortziele.
Es ist anzumerken, dass in 9, obwohl die Synthesesteuerung 33 den Lesetext aus einer Abfrageeinheit 10 erfasst, um dadurch den Text in die linguistischen Einheiten wie etwa Wortketten zu segmentieren, sie stattdessen bereits erhaltene linguistische Einheiten wie etwa Wortketten aus der Extraktionseinheit 32 erfassen kann.
Weiter, wie in Ausführungsform 1, zum Zeitpunkt, zu dem das Spracherkennungswortziel auf der Anzeige 4 anzuzeigen ist, kann die Anzeigesteuerung 35 die Anzeige steuern, dieses Wort hervorzuheben. Weiterhin kann die Anzeigesteuerung 35 die Anzeige steuern, um die Anzeigefläche (C1 bis C3) (gezeigt in 2), wo das Spracherkennungswortziel angezeigt wird, dazu zu bringen, als eine Software-Taste zum Auswählen des Spracherkennungswortziels zu fungieren.
Als Nächstes werden Operationen der Informationsverarbeitungs-Steuereinheit 31 unter Verwendung des Flussdiagramms in 10 beschrieben.
Hier werden Beschreibungen unter der Annahme gegeben, dass der Lesetext „Premierminister ergreift Maßnahmen zum Starten einer Diskussion mit Experten über die Festlegung dazu, ob die Verbrauchssteuer angehoben wird, „zu überdenken, falls ein Ausstieg aus der Deflation schwierig ist““ ist und die Spracherkennungswortziele „Premierminister“, „Verbrauchssteuer“ und „Deflation“ sind.
Anfangs segmentiert die Extraktionseinheit 32 den obigen Lesetext in ein oder mehrere linguistische Einheiten wie etwa Wortketten (Schritt ST301) und extrahiert jedes Spracherkennungswortziel aus den linguistischen Einheiten wie etwa Wortketten, die durch die Segmentierung erhalten werden (Schritt ST302).
Zu dieser Zeit erzeugt der Wörterbuchgenerator 16 das Erkennungswörterbuch 17, basierend auf den durch die Extraktionseinheit 32 extrahierten obigen drei Spracherkennungswortzielen (Schritt ST303).
Weiter veranlasst die Extraktionseinheit 32 den Speicher 30, die extrahierten drei Spracherkennungswortziele zu speichern (Schritt ST304).
Nachfolgend segmentiert die Synthesesteuerung 33 den obigen Text in linguistische Einheiten wie etwa Wortketten, und bestimmt ihre Akzentinformation, welche für Sprachsynthese erforderlich ist (Schritt ST305). Dann, wenn die Synthesesteuerung 33 die Akzentinformation pro jeder linguistischen Einheit wie etwa einer Wortkette, in der Reihenfolge ab dem Anfang (hier „Premierminister“) der ermittelten linguistischen Einheiten wie etwa Wortketten an die Ausgabeverfahren-Änderungseinheit 36 ausgibt, bestimmt die Synthesesteuerung, ob die linguistische Einheit wie etwa eine Wortkette, im Speicher 30 gespeichert ist oder nicht, das heißt sie ein Spracherkennungswortziel ist oder nicht (Schritt ST306).
Wenn die linguistische Einheit wie etwa eine Wortkette, die auszugeben ist, ein Spracherkennungswortziel ist (Schritt ST305 „JA“), gibt die Synthesesteuerung 33 die Akzentinformation für diese linguistische Einheit wie etwa eine Wortkette und eine Vorleseanweisung an die Ausgabeverfahren-Änderungseinheit 36 aus (Schritt ST307).
Die Ausgabeverfahren-Änderungseinheit 36 bestimmt wieder die Akzentinformation für das Spracherkennungswortziel gemäß der vorgelesenen Änderungsanweisung, die aus der Synthesesteuerung 33 ausgegeben ist, und gibt die Information an den Sprachsynthetisierer 34 aus (Schritt ST308).
Der Sprachsynthetisierer 34 erzeugt eine synthetisierte Stimme des Spracherkennungswortziels, basierend auf der durch die Ausgabeverfahren-Änderungseinheit 36 neu bestimmten Akzentinformation, und gibt die Stimme an den Lautsprecher 5 aus, um dadurch das Wort vorzulesen (Schritt ST309).
Parallel zu den Schritten ST307 bis ST309 gibt die Synthesesteuerung 33 das der an die Ausgabeverfahren-Änderungseinheit 36 ausgegebene Akzentinformation entsprechende Spracherkennungswortziel an die Anzeigesteuerung 35 aus (Schritt ST310). Die Anzeigesteuerung 35 steuert die Anzeige 4, das aus der Synthesesteuerung 33 ausgegebene Spracherkennungswortziel anzuzeigen.
Da „Premierminister“, welches die linguistische Einheit wie etwa eine Wortkette am Anfang des Lesetextes ist, ein Spracherkennungswortziel ist, wird sein Vorleseverfahren geändert und wird sie gleichzeitig auf der Anzeigefläche C1 (gezeigt in 2) auf der Anzeige 4 angezeigt.
Falls andererseits die linguistische Einheit wie etwa eine Wortkette, die auszugeben ist, nicht ein Spracherkennungswortziel ist (Schritt ST306 „NEIN“), gibt die Synthesesteuerung 33 die Akzentinformation für diese linguistische Einheit wie etwa eine Wortkette an die Ausgabeverfahren-Änderungseinheit 36 aus (Schritt ST311).
Es gibt keine Ausgabe aus der Synthesesteuerung 33 an die Anzeigesteuerung 35.
Die Ausgabeverfahren-Änderungseinheit 36 gibt die Akzentinformation für die linguistische Einheit wie etwa eine Wortkette, die aus der Synthesesteuerung 33 ausgegeben ist, ohne Änderung an den Sprachsynthetisierer 34 aus, so dass der Sprachsynthetisierer 34 eine synthetisierte Stimme der linguistischen Einheit wie etwa einer Wortkette erzeugt, basierend auf dieser Akzentinformation, gefolgt von dem Ausgeben der Stimme an den Lautsprecher 5, um dadurch diese linguistische Einheit wie etwa eine Wortkette vorzulesen (Schritt ST312).
Nachfolgend bestimmt die Synthesesteuerung 33, ob die linguistischen Einheiten wie etwa Wortketten ab der beginnenden linguistischen Einheit wie etwa einer Wortkette bis zur letzten linguistischen Einheit wie etwa einer Wortkette im Lesetext alle ausgegeben worden sind oder nicht (Schritt ST313). Die Synthesesteuerung 33 kehrt zum Schritt ST306 zurück, wenn das Ausgeben aller linguistischen Einheiten wie etwa Wortketten im Lesetext nicht abgeschlossen worden ist (Schritt ST313 „NEIN“), und beendet die obige Verarbeitungsserie, wenn die Ausgabe von ihnen allen abgeschlossen worden ist (Schritt ST313 „JA“).
Als Ergebnis, wie in 2 gezeigt, zu den Zeitpunkten, wo „Premierminister“, „Verbrauchssteuer“ und „Deflation“ im Lesetext „Premierminister ergreift Maßnahmen zum Starten einer Diskussion mit Experten über die Festlegung dazu, ob die Verbrauchssteuer angehoben wird, „zu überdenken, falls ein Ausstieg aus der Deflation schwierig ist““, vorgelesen werden, wird das Ausgabeverfahren gewechselt und werden „Premierminister“, „Verbrauchssteuer“ und „Deflation“ auf den Anzeigeflächen C1 bis C3 angezeigt.
Wenn der Anwender das Spracherkennungswortziel ausspricht, dessen Ausgabeverfahren geändert worden ist, oder das in jeder der Anzeigeflächen C1 bis C3 angezeigt wird, kann er/sie die Präsentation der sich auf das Wortziel beziehenden Zusatzinformation empfangen.
Schlussfolgernd ist gemäß Ausführungsform 3 das Informations-Präsentationssystem 1 konfiguriert, zu umfassen:

die Extraktionseinheit 32 zum Extrahieren, aus den linguistischen Einheiten wie etwa Wortketten, die im Lesetext enthalten sind, von sich auf die linguistischen Einheiten beziehender Zusatzinformation, die aus einer Informationsquelle erfasst werden kann, als einem Spracherkennungswortziel; die Synthesesteuerung 33 zur Ausgabe der für das Synthetisieren einer Stimme zum Vorlesen des Lesetextes verwendeter Akzentinformation und des durch die Extraktionseinheit 32 extrahierten Spracherkennungswortziel; den Sprachsynthetisierer 34 zum Vorlesen des Lesetextes unter Verwendung der aus der Synthesesteuerung 33 empfangenen Akzentinformation und die Anzeigesteuerung 35 zum Steuern der Anzeige 4, das aus der Synthesesteuerung 33 empfangene Spracherkennungswortziel synchron zu dem Zeitpunkt anzuzeigen, zu dem der Sprachsynthetisierer 34 das Spracherkennungswortziel vorliest. Die Anzeigesteuerung 35 empfängt das Spracherkennungswortziel aus der Synthesesteuerung 33 synchron zu dem Zeitpunkt, zu dem der Sprachsynthetisierer 34 dieses Spracherkennungswortziel vorliest, und somit die Anzeige 4 veranlasst, das empfangene Spracherkennungswortziel anzuzeigen. Als Ergebnis, wenn der Text vorgelesen wird, wird das Spracherkennungswortziel zu dem Zeitpunkt, zu dem es vorgelesen wird, angezeigt, so dass selbst wenn der Lesetext nicht auf dem Bildschirm angezeigt wird oder die Anzeige anzeigbarer Zeichen auf dem Bildschirm beschränkt ist, es möglich ist, das in diesem Text enthaltene Spracherkennungswortziel dem Anwender explizit zu präsentieren.

Weiter ist gemäß Ausführungsform 3 das Informations-Präsentationssystem 1 konfiguriert, die Ausgabeverfahren-Änderungseinheit 36 zu umfassen, durch welche das durch den Sprachsynthetisierer 34 auszuführende Ausgabeverfahren zwischen einem Verfahren für das Spracherkennungswortziel und einem Verfahren für ein anderes Wort im Lesetext gewechselt wird. Somit kann der Anwender das Spracherkennungswortziel selbst in einer Situation erkennen, in welcher er/sie es sich nicht leisten kann, den Bildschirm zu betrachten, etwa in einem Fall, wo die Belastung durch das Fahren hoch ist, so dass die Bequemlichkeit verbessert wird.
Es ist anzumerken, dass die Ausgabeverfahren-Änderungseinheit 36 zum Informations-Präsentationssystem 1 von Ausführungsform 1 oder 2 hinzugefügt werden kann.
In den Ausführungsformen 1 bis 3, obwohl das Informations-Präsentationssystem 1 konfiguriert ist, an das Lesen von Text auf Japanisch angepasst zu sein, kann es konfiguriert sein, an eine andere Sprache als Japanisch angepasst zu sein.
Es sollte angemerkt werden, dass eine unbegrenzte Kombination der jeweiligen Ausführungsformen, Modifikation oder jegliches Konfigurationselement in den Ausführungsformen oder Weglassung jedes Konfigurationselements in den Ausführungsformen in der vorliegenden Erfindung gemacht werden kann, ohne vom Schutzumfang der Erfindung abzuweichen.
INDUSTRIELLE ANWENDBARKEIT
Das Informations-Präsentationssystem gemäß der Erfindung ist konfiguriert, zum Zeitpunkt des Vorlesens des Textes, das Spracherkennungswortziel zu dem Zeitpunkt, zu dem es vorgelesen wird, so anzuzeigen, dass es geeignet ist, in einer Fahrzeugvorrichtung, einem tragbaren Informationsendgerät oder dergleichen verwendet zu werden, in welche die Anzahl anzeigbarer Zeichen auf dem Bildschirm beschränkt ist.
Bezugszeichenliste
1 Informations-Präsentationssystem; 2 Netzwerk; 3 Web-Server (Informationsquelle); 4 Anzeige (Anzeigeeinheit); 5 Lautsprecher; 6 Mikrofon; 10 Abfrageeinheit; 11, 21, 31: Informations-Verarbeitungssteuereinheit; 12, 22, 32: Extraktionseinheit; 13, 23, 33: Synthesesteuerung; 14, 24, 34: Sprachsynthetisierer; 15, 25, 35: Anzeigesteuerung; 16 Wörterbuchgenerator ; 17 Erkennungswörterbuch; 18 Spracherkenner; 20, 30: Speicher; 36 Ausgabeverfahren-Änderungseinheit; 101 CPU; 102 ROM; 103 RAM; 104 Eingabevorrichtung; 105 Kommunikationsvorrichtung; 106: HDD und 107: Ausgabevorrichtung.

Claims

Informations-Präsentationssystem (1), umfassend: eine Extraktionseinheit (12, 22, 32), die konfiguriert ist, einen Text zu analysieren, um dadurch den Text in Wörter oder Wortketten zu segmentieren und aus den Wörtern oder Wortketten ein Spracherkennungswortziel zu extrahieren, wobei das Spracherkennungswortziel ein Wort oder eine Wortkette ist, für welche Zusatzinformation aus einer Informationsquelle erfasst werden kann; ein Wörterbuchgenerator (16), der konfiguriert ist, ein Erkennungswörterbuch (17), durch Nutzung des extrahierten Spracherkennungswortziels, zu generieren; eine Synthesesteuerung (13, 23, 33), die konfiguriert ist, Information zur Verwendung bei einer Sprachsynthese zum Vorlesen des Texts zu generieren und auszugeben, und das von der Extraktionseinheit (12, 22, 32) extrahierte Spracherkennungswortziel auszugeben; einen Sprachsynthetisierer (14, 24, 34), der konfiguriert ist, den Text unter Verwendung der von der Synthesesteuerung (13, 23, 33) empfangenen Information vorzulesen; eine Anzeigesteuerung (15, 25, 35), die konfiguriert ist, eine Anzeigeeinheit zu steuern, um in einer ersten Anzeigefläche (C1, C2, C3) der Anzeigeflächen (A, B, C1, C2, C3) auf der Anzeigeeinheit, nur das von der Synthesesteuerung (13, 23, 33) empfangene Spracherkennungswortziel, synchron mit einem Timing anzuzeigen, mit dem der Sprachsynthetisierer (14, 24, 34) dasselbe Wort oder dieselbe Wortkette als das extrahierte Spracherkennungswortziel vorliest; einen Spracherkenner (18), der konfiguriert ist, auf das Erkennungswörterbuch (17) zu verweisen, um von einem Mikrofon (6) aufgenommene Sprache zu erkennen, und ein Erkennungsergebnis auszugeben; und eine Abfrageeinheit (10), die konfiguriert ist, zusätzliche zu dem Erkennungsergebnis zugehörige Information, von einer externen Informationsquelle zu beschaffen.
Informations-Präsentationssystem (1) nach Anspruch 1, wobei die Anzeigesteuerung (15, 25, 35) die Anzeigeeinheit steuert, um eine Anzeige des Spracherkennungswortziels hervorzuheben.
Informations-Präsentationssystem (1) nach Anspruch 2, wobei die hervorgehobene Anzeige unter Verwendung mindestens eines Verfahrens durchgeführt wird, das ausgewählt ist aus: Zeichenstil; Zeichengröße; Zeichenfarbe; Hintergrundfarbe; Helligkeit; Blinken; und durch Symbolhinzufügung.
Informations-Präsentationssystem (1) nach Anspruch 1, weiter umfassend eine Ausgabeverfahren-Änderungseinheit (36), die konfiguriert ist, um bei einem von dem Sprachsynthetisierer (34) auszuführenden Ausgabeverfahren, zwischen einem Verfahren für das Spracherkennungswortziel und einem Verfahren für ein anderes Wort im Text zu wechseln.
Informations-Präsentationssystem (1) nach Anspruch 4, wobei das Ausgabeverfahren durch mindestens eines der folgenden geändert wird: Ändern einer Vorlesetonlage; Ändern einer Vorlesegeschwindigkeit; Wechseln zwischen Anwesenheit und Abwesenheit von Pausen vor/nach dem Vorlesen; Ändern einer Lautstärke während des Vorlesens und Wechseln zwischen Anwesenheit und Abwesenheit von Toneffekten während des Vorlesens.
Informations-Präsentationssystem (1) nach Anspruch 1, wobei die Anzeigesteuerung (15, 25, 35) die Anzeigeeinheit steuert, um eine erste Anzeigefläche (C1, C2, C3) zu bilden, die als eine Software-Taste zur Auswahl des Spracherkennungswortziels fungiert.
Informations-Präsentationssystem (1) nach Anspruch 1, wobei die Anzeigesteuerung (15, 25, 35) konfiguriert ist, die Anzeigeeinheit so zu kontrollieren, dass ein Teil des Textes in einer zweiten Anzeigefläche (B), die anders als die erste Anzeigefläche (C1, C2, C3) der Anzeigefläche (A, B, C1, C2, C3) ist, angezeigt wird.