DE112013003444T5

DE112013003444T5 - Sprachverarbeitungssystem und Endgerät

Info

Publication number: DE112013003444T5
Application number: DE201311003444
Authority: DE
Inventors: c/o National Institute of Informa Sugiura Komei; c/o National Institute of Informa Okuma Hideo; c/o National Institute of Info Kimura Noriyuki; c/o National Institute of Inf Shiga Yoshinori; c/o National Institute of Infor Hayashi Teruaki; c/o National Institute of Informa Mizukami Etsuo
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2012-07-09
Filing date: 2013-07-01
Publication date: 2015-04-16
Also published as: CN104488027A; US9824687B2; CN104488027B; GB2518318A; JP2014016475A; US20170148436A1; JP5967569B2; WO2014010450A1

Abstract

Durch die vorliegende Erfindung wird ein benutzerfreundliches Sprachverarbeitungssystem bereitgestellt, durch das eine höhere Genauigkeit der Spracherkennung erzielt wird. Nach dem Empfang einer Sprachäußerung führt das Sprachverarbeitungssystem eine Spracherkennung aus und stellt einen Text (158) des Erkennungsergebnisses dar. Außerdem übersetzt das Sprachverarbeitungssystem das Erkennungsergebnis gemäß Einstellungen in einen Text (176) einer anderen Sprache und stellt das Übersetzungsergebnis dar und synthetisiert die Sprache des Übersetzungsergebnisses. Außerdem wählt das Sprachverarbeitungssystem Äußerungskandidaten, die eine hohe Wahrscheinlichkeit dafür haben, als nächste Äußerung ausgesprochen zu werden, und hohe Übersetzungs- und Spracherkennungs-Score-Werte haben, unter Verwendung von Ausgangssignalen verschiedener Sensoren zum Zeitpunkt der Äußerung, eines im Voraus gelernten Äußerungssequenzmodells und von Übersetzungs- und Spracherkennungs-Score-Werten von Äußerungskandidaten aus und empfiehlt Äußerungskandidaten in der Form einer Äußerungskandidatenempfehlungsliste (192). Ein Benutzer kann unter Verwendung der Äußerungen in der Äußerungskandidatenempfehlungsliste (192) als Hinweise darüber nachdenken, was er als nächstes sagen möchte.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft einen Dienst, der Spracherkennung nutzt, und insbesondere eine Technik, die es einem Benutzer ermöglicht, unter Verwendung der Spracherkennung flüssig zu kommunizieren.
Hintergrundtechnik
Tragbare Telefongeräte, insbesondere Smartphones, werden mittlerweile weit verbreitet verwendet, und es sind verschiedenartige Anwendungen dafür entwickelt worden. Es wird vermutet, dass darunter solche Anwendungen populär werden, die eine Spracheingabe verwenden, weil eine Texteingabe auf einem kleinen Gerät wie einem Smartphone schwierig ist.
Unter solchen Anwendungen, die eine Spracheingabe verwenden, muss ein Benutzer bei Anwendungen, die das Aussprechen einer Folge einfacher, auf einem Bildschirm dargestellter Texte wie ”JA/NEIN” verlangen, nicht lange überlegen, was er als nächstes sagen soll. Wenn Spracheingabe als ein Instrument für eine Kommunikation mit einer anderen Person verwendet wird, wie beispielsweise im Fall einer Sprachübersetzung, wird der Benutzer jedoch normalerweise zögern, eine solche Anwendung zu verwenden, weil er nicht sicher ist, was er durch Sprache eingeben soll. Betrachtet man beispielsweise eine Sprachübersetzungsanwendung, so wird der Benutzer oft verunsichert sein, was er anfangs sagen soll.
Außerdem ist es nicht ungewöhnlich, wenn der Benutzer durch Laute wie ”ah” oder ”eh” herumdruckst, bevor er tatsächlich beginnt eine Äußerung auszusprechen. Solche bedeutungslosen Laute vermindern die Genauigkeit der Spracherkennung.
Eine Situation, in der man etwas sagen muss, aber nicht weiß, was man sagen soll, tritt häufig auf, und ein derartiges Problem ist nicht auf das Gebiet der Sprachübersetzung beschränkt. Eine solche Situation tritt auf, wenn wir mit anderen Menschen sprechen. Manchmal weicht man von Gesprächsthemen ab und ist nicht in der Lage, den Gesprächsfaden wieder aufzunehmen.
In der nachstehend angegebenen Patentliteratur 1 ist eine Vorrichtung zum Vorschlagen von Gesprächsthemen dargestellt, die Gesprächsthemen präsentiert, um ein Gespräch in Gang zu halten, wenn es von einem Gesprächsthema abweicht. Gemäß der Beschreibung in Patentliteratur 1 verwendet das System eine Themendatenbank, die Themen und den Themen zugeordnete Stichwörter speichert, wobei die Stichwörter aus für die Themen allgemein verwendeten Standpunkten ausgewählt sind. Es werden verschiedene Standpunkte im Voraus bereitgestellt. Dieses System arbeitet wie folgt: Wörter und Phrasen werden aus Gesprächen von Benutzern extrahiert, ein Gewicht für jedes der Wörter und Phrasen bezüglich jedes der Standpunkte wird berechnet, das dem Benutzer zuletzt präsentierte Thema wird mit jedem der in der Themendatenbank gespeicherten Themen verglichen, und die Ähnlichkeit dazwischen wird Standpunkt für Standpunkt berechnet, die Ähnlichkeit wird mit dem Gewicht des Wortes/der Phrase multipliziert, das/die für jeden Standpunkt berechnet wurde, und die Summe der Multiplikationsergebnisse wird bestimmt. Das Thema mit der größten Summe wird dem Benutzer als ein Vorschlag für das neue Thema präsentiert. Die Standpunkte beinhalten typischerweise das sogenannte ”5W1H”-Schema
Gemäß Patentliteratur 1 kann die Vorrichtung ein Thema präsentieren, das dem Standpunkt in der Mitte des aktuellen Gesprächs nahe kommt und weit von anderen Standpunkten entfernt ist.
Zitatliste
Patentliteratur

Patentliteratur 1: Offengelegtes japanisches Patent Nr. 2011-123530

Zusammenfassung der Erfindung
Technisches Problem
In der in Patentliteratur 1 beschriebenen Erfindung tritt jedoch ein Problem dahingehend auf, dass es, obwohl es möglich ist, das Thema für das Gespräch zu spezifizieren, falls das Gespräch ausreichend lang ist, schwierig ist, ein zu präsentierendes Thema zu bestimmen, wenn das Gespräch kurz ist. Insbesondere ist es, wenn jede Äußerung ziemlich kurz ist, wie im Fall eines Gesprächs unter Verwendung einer Sprachübersetzung, sehr schwierig, die in Patentliteratur 1 beschriebene Erfindung anzuwenden.
Ein spezifisch bei einer Sprachübersetzung auftretendes Problem ist, dass der Sprecher sich zu viel Gedanken darüber macht, was er sagen soll, um eine korrekte Spracherkennung und Übersetzung zu erzielen. Manchmal veranlasst dies den Benutzer etwas überflüssiges oder sinnloses zu sagen, so dass seine/ihre Äußerung nicht korrekt übersetzt werden kann. Für das Sprachübersetzungssystem ist es bevorzugt, wenn die Äußerung des Benutzers leicht erkennbar und leicht automatisch übersetzbar ist. Wenn es allerdings einem Benutzer aufgrund von Überlegungen hinsichtlich einer solchen leichten Erkennbarkeit und leichten automatischen Übersetzung schwerfällt, überhaupt irgendeine Äußerung zu machen, können die Wirkungen der Sprachübersetzung nicht ausreichend erzielt werden.
Daher ist es eine Aufgabe der vorliegenden Erfindung, ein benutzerfreundliches Sprachverarbeitungssystem mit genaueren Spracherkennungsergebnissen sowie ein für das Sprachverarbeitungssystem verwendetes Endgerät bereitzustellen.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein benutzerfreundliches Sprachverarbeitungssystem mit genaueren Spracherkennungsergebnissen und einem unter Verwendung der Spracherkennungsergebnisse bereitgestellten genaueren Sprachdienst sowie ein für das Sprachverarbeitungssystem verwendetes Endgerät bereitzustellen.
Lösung des Problems
Gemäß einem ersten Aspekt wird durch die vorliegende Erfindung ein Sprachverarbeitungssystem bereitgestellt, mit: einer Äußerungseingabeeinrichtung zum Empfangen von Äußerungseingabeinformation, die ein Sprachsignal, das eine Äußerung darstellt, und vorgegebene Umgebungsinformation beinhaltet, die eine Umgebung darstellt, in der die Äußerung gemacht wird; einer Spracherkennungseinrichtung zum Ausführen einer Spracherkennung bezüglich des Sprachsignals in der durch die Äußerungseingabeeinrichtung empfangenen Äußerungsinformation und zum Ausgeben eines Erkennungsergebnisses als Text; einer Datenverarbeitungseinrichtung zum Ausführen einer vorgegebenen Datenverarbeitung bezüglich des durch die Spracherkennungseinrichtung ausgegebenen Textes; einer Äußerungssequenzmodelspeichereinrichtung zum Speichern eines Äußerungssequenzmodells, das statistisch gelernt wurde, so dass beim Empfang eines Textes einer Äußerung und der vorgegebenen Umgebungsinformation eine Wahrscheinlichkeit für eine Äußerung in einer vorgegebenen Zusammenstellung von Äußerungen berechnet werden kann, die der durch den Text dargestellten Äußerung aufeinanderfolgend folgen; einer Äußerungsspeichereinrichtung zum Speichern von Äußerungen in der vorgegebenen Zusammenstellung von Äußerungen und des Zuverlässigkeitsgrades der Datenverarbeitung, wenn jede der Äußerungen in der Zusammenstellung von Äußerungen durch die Datenverarbeitungseinrichtung verarbeitet wird; und einer Äußerungskandidatempfehlungseinrichtung, die dazu geeignet ist, in der Zusammenstellung von Äußerungen Äußerungskandidaten, die einem Benutzer empfohlen werden sollen, der die durch die Spracherkennungseinrichtung erkannte Äußerung gemacht hat, basierend auf einem Bewertungs-Score-Wert zu bewerten, der erhalten wird durch Kombinieren i) einer Wahrscheinlichkeit, die für jede Äußerung in der vorgegebenen Zusammenstellung durch das in der Äußerungssequenzmodellspeichereinrichtung gespeicherte Äußerungssequenzmodell berechnet wird, in einer vorgegebenen Form unter Verwendung des Erkennungsergebnisses der durch die Äußerungserkennungseinrichtung ausgeführten Äußerungserkennung und der in der Sprachinformation enthaltenen Umgebungsinformation, und ii) des Zuverlässigkeitsgrades der Datenverarbeitung bezüglich jeder Äußerung in der vorgegebenen Zusammenstellung von Äußerungen und dazu geeignet ist, einen Äußerungskandidaten für den Benutzer basierend auf den Bewertungs-Score-Werten zu empfehlen.
Wenn die Äußerungseingabeeinrichtung eine Äußerungsinformation empfängt, führt die Spracherkennungseinrichtung eine Spracherkennung für ein in der Äußerungsinformation enthaltenes Sprachsignal aus und gibt einen Text als ein Erkennungsergebnis aus. Die Datenverarbeitungseinrichtung führt eine Datenverarbeitung bezüglich des Textes aus. Unter Verwendung des als das Erkennungsergebnis erhaltenen Textes und der in der Äußerungsinformation enthaltenen Umgebungsinformation berechnet die Äußerungskandidatempfehlungseinrichtung die Wahrscheinlichkeit für jede Äußerung, die als die nächste Äußerung betrachtet wird, basierend auf dem Äußerungssequenzmodell, bewertet die als nächste Äußerung zu empfehlenden Äußerungen unter Verwendung der Wahrscheinlichkeit und des Zuverlässigkeitsgrades für jede Äußerung in der Datenverarbeitung und empfiehlt die Kandidaten der nächsten Äußerung gemäß dem Bewertungsergebnis.
Weil der Kandidat für die nächste Äußerung empfohlen wird, erhält der Benutzer Anhaltspunkte oder Erkenntnisse für die nächste Äußerung unter Verwendung des Äußerungskandidaten als ein Hinweis. Damit wird die Wahrscheinlichkeit dafür vermindert, dass der Benutzer nicht mehr weiß, was er als nächstes äußern soll.
Vorzugsweise weist die Datenverarbeitungseinrichtung eine automatische Übersetzungseinrichtung, die ein von der Spracherkennungseinrichtung ausgegebenes Erkennungsergebnis für eine bestimmte Äußerung empfängt, zum automatischen Übersetzen des Erkennungsergebnisses in eine andere Sprache, die von der Sprache der bestimmten Äußerung verschieden ist, und zum Ausgeben des Übersetzungsergebnisses als einen Text auf. Der Zuverlässigkeitsgrad ist die Wahrscheinlichkeit, dass das Übersetzungsergebnis der automatischen Übersetzungseinrichtung eine Übersetzung der bestimmten Äußerung in der anderen Sprache ist.
Bevorzugter weist die Datenverarbeitungseinrichtung ferner eine Sprachsyntheseeinrichtung zum Synthetisieren eines Sprachsignals der anderen Sprache basierend auf dem durch die automatische Übersetzungseinrichtung ausgegebenen Text in der anderen Sprache auf.
Die Äußerungskandidatenempfehlungseinrichtung kann eine Einrichtung zum Schätzen von Äußerungskandidaten, die nacheinander der Äußerung folgen, die durch die Spracherkennungseinrichtung spracherkannt wurde, basierend auf einer Auswertung hinsichtlich einer linearen Summe der Wahrscheinlichkeit, die durch das Äußerungssequenzmodell für jede Äußerung in der vorgegebenen Zusammenstellung von Äußerungen berechnet wurde, und des Zuverlässigkeitsgrades für jede Äußerung in der in der Äußerungsspeichereinrichtung gespeicherten vorgegebenen Zusammenstellung aufweisen. Hierbei sind in der linearen Summe die Koeffizienten des Zuverlässigkeitsgrades und der Wahrscheinlichkeit beide positiv.
Vorzugsweise weist das Sprachverarbeitungssystem ferner eine Äußerungskandidatenpräsentationseinrichtung auf, die einem Benutzer einen durch die Äußerungskandidatenempfehlungseinrichtung empfohlenen Äußerungskandidaten empfiehlt.
Bevorzugter weist das Sprachverarbeitungssystem ferner eine Äußerungstextinformationseingabeeinrichtung auf, die Äußerungstextinformation empfängt, die einen eine Äußerung darstellenden Text und die vorgegebene Umgebungsinformation aufweist, um den Text in der Äußerungstextinformation an Stelle der Ausgabe der Spracherkennungseinrichtung der Äußerungskandidatenempfehlungseinrichtung und der Datenverarbeitungseinrichtung zuzuführen.
Gemäß einem zweiten Aspekt wird durch die vorliegende Erfindung ein Endgerät bereitgestellt, mit: einem Mikrofon, einem Sensorsatz zum Erfassen von mit der Umgebung in Beziehung stehender Information, einer Displayeinrichtung, einer Kommunikationseinrichtung und einer mit dem Mikrophon, dem Sensorsatz und der Kommunikationseinrichtung verbundenen Äußerungsinformationsübertragungseinrichtung zum Übertragen von Äußerungsinformationen, die ein Sprachsignal enthält, das von einem durch das Mikrofon beim Empfang einer Äußerung ausgegebenen Signal erhalten wird, und von Information, die von dem Sensorsatz erhalten wird, wenn das Sprachsignal erhalten wird, an einen vorgegebenen Sprachverarbeitungsserver über die Kommunikationseinrichtung, und zum Anfordern einer Spracherkennung und einer vorgegebenen Datenverarbeitung bezüglich eines Erkennungsergebnisses. Das Endgerät weist ferner auf: eine mit der Kommunikationseinrichtung verbundene Verarbeitungsergebnispräsentationseinrichtung zum Empfangen eines Verarbeitungsergebnisses der Datenverarbeitung, das vom Sprachverarbeitungsserver in Antwort auf die Anforderung übertragen wird, und zum Präsentieren des Verarbeitungsergebnisses für einen Benutzer, und eine Äußerungskandidatenempfehlungslistenanzeigeeinrichtung, die eine Äußerungskandidatenempfehlungsliste, in der mehrere Äußerungskandidaten empfohlen werden, vom Sprachverarbeitungsserver empfängt und die Liste auf der Displayeinrichtung anzeigt und damit dem Benutzer Äußerungskandidaten empfiehlt.
Vorzugsweise ist die vorgegebene Datenverarbeitung, die durch den Sprachverarbeitungsserver bezüglich des Ergebnisses der Spracherkennung ausgeführt wird, eine Verarbeitung zum automatischen Übersetzen der Äußerung in eine von der Sprache der Äußerung verschiedene Sprache und zum Synthetisieren einer Sprache von einem Ergebnis der automatischen Übersetzung. Das vom Sprachverarbeitungsserver übertragene Verarbeitungsergebnis der Datenverarbeitung ist ein Sprachsignal, das die durch den Sprachverarbeitungsserver synthetisierte Sprache darstellt. Die Verarbeitungsergebnispräsentationseinrichtung weist einen Lautsprecher und eine Einrichtung zum Ansteuern des Lautsprechers durch das Sprachsignal auf, das die durch den Sprachverarbeitungsserver synthetisierte Sprache darstellt.
Bevorzugter weist das Endgerät ferner auf: eine durch einen Benutzer bedienbare Auswahleinrichtung zum Auswählen eines beliebigen der durch die Äußerungskandidatenempfehlungsliste angezeigten Äußerungskandidaten und eine Äußerungstextinformationsübertragungseinrichtung, die auf die Auswahl eines beliebigen der Äußerungskandidaten in der Äußerungskandidatenempfehlungsliste durch die Auswahleinrichtung anspricht, zum Übertragen von Äußerungstextinformation, die einen Text des ausgewählten Äußerungskandidat und vom Sensorsatz erhaltene Information enthält, an einen vorgegebenen Sprachverarbeitungsserver über die Kommunikationseinrichtung, und zum Anfordern der vorgegebenen Datenverarbeitung bezüglich der Äußerungstextinformation.
Vorteilhafte Wirkungen der Erfindung
Wie vorstehend beschrieben wurde, vermindert die vorliegende Erfindung die Wahrscheinlichkeit, dass der Benutzer, der den Sprachdienst nutzt, verunsichert ist, was er sagen soll, und macht den Sprachdienst einfacher verwendbar. Ferner werden Laute wie ”ah” und ”eh”, die der Benutzer äußert, während er darüber nachdenkt, was er sagen möchte, reduziert, so dass die Genauigkeit der Spracherkennung erhöht werden kann und außerdem die Genauigkeit des Sprachdienstes unter Verwendung der Ergebnisse der Spracherkennung erhöht werden kann.
Dadurch können ein benutzerfreundliches Sprachverarbeitungssystem und ein Endgerät bereitgestellt werden, durch die eine höhere Genauigkeit der Spracherkennung erzielt werden.
Außerdem können ein benutzerfreundliches Sprachverarbeitungssystem und ein Endgerät bereitgestellt werden, durch die eine höhere Genauigkeit der Spracherkennung und eine höhere Genauigkeit des Sprachdienstes erzielt werden, der die Ergebnisse der Spracherkennung nutzt.
Kurzbeschreibung der Zeichnungen
1 zeigt ein schematisches Diagramm zum Darstellen einer Gesamtkonfiguration eines Sprachübersetzungssystems gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
2 zeigt schematisch einen Bildschirm für eine Sprachübersetzung, der auf einem Display eines in dem in 1 dargestellten System verwendeten tragbaren Endgeräts angezeigt wird;
3 zeigt einen Arbeitsablauf für eine Sprachübersetzung, der zwischen dem tragbaren Endgerät und einem Server in dem Sprachübersetzungssystem gemäß der ersten Ausführungsform ausgeführt wird;
4 zeigt ein Blockdiagramm zum Darstellen einer Hardwarekonfiguration des tragbaren Endgeräts;
5 zeigt ein Ablaufdiagramm zum Darstellen einer Steuerungsstruktur eines Programms, das eine mit der Sprachübersetzung unter Verwendung einer Spracheingabe in Beziehung stehende Verarbeitung im tragbaren Endgerät realisiert;
6 zeigt ein Funktionsblockdiagramm eines Servers, der die Verarbeitung zum Empfangen von Spracheingaben von mehreren tragbaren Endgeräten, die Übersetzung der Spracheingaben in eine bestimmte Sprache, das Synthetisieren von Sprache der Übersetzung und das Zurückübertragen der synthetisierten Sprachen an die tragbaren Endgeräte in den Sprachübersetzungssystemen gemäß der ersten Ausführungsform ausführt;
7 zeigt ein Ablaufdiagramm eines Programms zum Realisieren der Funktion des in 6 dargestellten Servers; und
8 zeigt ein Blockdiagramm einer Modellerzeugungseinheit, die einen Lernvorgang für das im Server verwendete Äußerungssequenzmodell ausführt und Übersetzungs-Score-Werte für Äußerungen in einem Korpus berechnet.
Beschreibung von Ausführungsformen
In der folgenden Beschreibung und in den Zeichnungen werden die gleichen Komponenten durch die gleichen Bezugszeichen bezeichnet. Daher werden diese nicht wiederholt detailliert beschrieben.
Erste Ausführungsform
Konfiguration
– Gesamtkonfiguration –
Gemäß 1 weist ein erfindungsgemäßes Sprachübersetzungssystem 100 auf: einen mit dem Internet 102 verbundenen Server 106 zum Ausführen eines Sprachübersetzungsdienstes und ein mit dem Internet 102 verbindbares tragbares Endgerät 104, in dem eine Anwendung zum Nutzen des Sprachübersetzungsdienstes installiert ist.
– Anwendungsbildschirm –
Gemäß 2 ist ein Anwendungsbildschirm 130, der die Nutzung des Sprachübersetzungsdienstes des tragbaren Endgeräts 104 ermöglicht, grob in sechs Bereiche geteilt. Insbesondere weisen die Bereiche auf: einen Sprachanzeigebereich 140 zum Anzeigen eines Sprachpaars (Quellsprache und Zielsprache) als das Objekt des Sprachübersetzungsdienstes, einen Eingabetextanzeigebereich 150 zum Anzeigen eines Erkennungsergebnisses einer Spracheingabe in der Quellsprache, einen Übersetzungsergebnisanzeigebereich 170 zum Anzeigen eines durch die automatische Übersetzung des spracherkannten Satzes erhaltenen Textes, einen Rückwärtsübersetzungsbereich 160 zum Anzeigen eines Satzes, der durch Rückwärtsübersetzung des Übersetzungsergebnisses in die Originalsprache erhalten wird, einen Äußerungskandidatenempfehlungsbereich 190 zum Anzeigen einer Liste von Kandidaten, die als Kandidaten für die nächste Äußerung empfohlen werden (Äußerungskandidatenempfehlungsliste) und einen Statusbereich 180 zum Anzeigen des Nutzungsstatus des Sprachübersetzungssystems.
Im Sprachanzeigebereich 140 werden die Sprachbezeichnung der Quellsprache auf der linken Seite und die Sprachbezeichnung der Zielsprache auf der rechten Seite jeweils in der Quellsprache angezeigt. Es wird darauf hingewiesen, dass auf dem Anwendungsbildschirm vom Übersetzungsergebnis verschiedene Texte alle in der Quellsprache angezeigt werden. Zwischen den Sprachbezeichnungen der Quell- und der Zielsprache wird eine Einstellungstaste 142 zum Einstellen der Kombination der Sprachübersetzung angezeigt.
Im Eingabetextanzeigebereich 150 sind angeordnet: eine Darstellung 156 der Sprachbezeichnung der Quellsprache, eine Spracheingabetaste 152, die durch den Benutzer bei einer Spracheingabe betätigt wird, und eine Texteingabetaste 154, die die Anzeige eines Texteingabebildschirm veranlasst, der die direkte Texteingabe anstatt einer Spracheingabe ermöglicht. Das Ergebnis der Spracheingabe und das Ergebnis der Texteingabe werden beide als Text 158 im Eingabetextanzeigebereich 150 dargestellt. In der vorliegenden Ausführungsform wird, während die Spracheingabetaste 152 gedrückt wird, Sprache aufgezeichnet. Wenn die gedrückte Spracheingabetaste 152 freigegeben wird, wird die Sprachaufzeichnung beendet.
Im Rückwärtsübersetzungsbereich 160 werden angezeigt: ein Satz 162, der als Ergebnis der Rückwärtsübersetzung des durch eine automatische Übersetzung vom Ergebnis der Spracheingabe erhaltenen Satzes in der Zielsprache in die Quellsprache erhalten wird, und eine Übersetzungstaste 164 zum Starten einer Übersetzung, wenn beispielweise ein Satz durch Texteingabe eingegeben wird. Durch die Rückwärtsübersetzung des Übersetzungsergebnisses, das von dem in der Quellsprache eingegebenen Satz zurück in die Quellsprache erhalten wird, und Darstellen des Ergebnisses im Rückwärtsübersetzungsbereich 160 kann festgestellt werden, ob die Übersetzung die Absicht des Sprechers korrekt wiedergibt. In der Beschreibung der vorliegenden Ausführungsform werden jedoch Details des mit der Rückwärtsübersetzung in Beziehung stehenden Funktionsabschnitts zum besseren Verständnis der Ausführungsform nicht beschrieben.
Im Übersetzungsergebnisanzeigebereich 170 werden angezeigt: die Bezeichnung 174 der Zielsprache, ein Text 176 des Satzes, der durch eine automatische Übersetzung (Satz in der Zielsprache) erhalten wird, und ein Wiedergabetaste 172 zum Wiedergeben der synthetisierten Sprache des Textes 176. Das Ergebnis der Sprachübersetzung wird automatisch als synthetisierte Sprache ausgegeben, wobei wenn es erwünscht ist, das Ergebnis noch einmal zu hören, dies durch Betätigen der Wiedergabetaste 172 veranlasst werden kann.
Im Äußerungskandidatenempfehlungsbereich 190 werden angezeigt: eine Äußerungskandidatenempfehlungsliste 192, die Äußerungen enthält, die als Äußerungen empfohlen werden, die nach der unmittelbar vorangehenden Äußerung durch den Benutzer mit hoher Wahrscheinlichkeit ausgesprochen und mit hoher Wahrscheinlichkeit für eine automatische Übersetzung akzeptiert werden, und Übersetzungsanforderungstasten 194, die jeder Äußerung der Äußerungskandidatenempfehlungsliste 192 zugeordnet sind, zum Erzeugen einer Übersetzungsanforderung für jede Äußerung.
Im Statusbereich 180 werden der Nutzungsstatus des Systems, wie beispielsweise die Anzahl der Nutzungen, und eine Mikrofontaste 182 angezeigt. Die Mikrofontaste 182 hat wie die Spracheingabetaste 152 eine Funktion zum Starten einer Aufzeichnung. Im Gegensatz zu Spracheingabetaste 152 startet, wenn die Mikrofontaste 182 einmal gedrückt und losgelassen wird, eine Sprachaufzeichnung, und wenn die Mikrofontaste 182 erneut gedrückt und losgelassen wird, wird die Sprachaufzeichnung beendet.
– Ablauf der Sprachübersetzung –
Nachstehend wird unter Bezug auf 3 eine typischer Kommunikationsablauf zwischen dem tragbaren Endgerät 104 und dem Server 106 für eine Sprachübersetzung unter Verwendung des Sprachübersetzungssystems 100 beschrieben. Zunächst erfolgt eine Spracheingabe 200 über das tragbare Endgerät 104, und es wird eine Spracherkennungsanforderung 202 erzeugt, die die Sprache, Information, wie beispielsweise die Sprachkombination für die Sprachübersetzung, und durch einen Sensorsatz erhaltene Umgebungsinformation enthält. Die Spracherkennungsanforderung 202 wird vom tragbaren Endgerät 104 zum Server 106 übertragen. Nachdem der Server 106 die Spracherkennungsanforderung empfangen hat, führt er eine Spracherkennungsverarbeitung 220 aus und gibt als Ergebnis der Spracherkennung (in der vorliegenden Ausführungsform ist die Spracherkennungsverarbeitung 220 eine statistische Spracherkennungsverarbeitung und wird nur eine Hypothese ausgegeben, die den höchsten Erkennungs-Score-Wert hat) einen Text aus. Der Text wird einer automatischen Übersetzungsverarbeitung 222 als Eingabe zugeführt. In der automatischen Übersetzungsverarbeitung 222 wird der in der Quellsprache eingegebene Satz in die Zielsprache übersetzt und wird ein Satz in der Zielsprache erzeugt. Der Satz in der Zielsprache wird einer Sprachsyntheseverarbeitung 224 zugeführt. In der Sprachsyntheseverarbeitung 224 wird vom zugeführten Satz in der Zielsprache Sprache synthetisiert.
Der durch die Erkennung durch die Spracherkennungsverarbeitung 220 erhaltene Text wird außerdem zusammen mit der Umgebungsinformation einer Äußerungskandidatenlistenerstellungsverarbeitung 230 zugeführt. Der Server 106 weist auf: ein Äußerungssequenzmodell 226, das ein im Voraus gelerntes statistisches Modell ist, so dass es dazu geeignet ist, für jede Äußerung in einem Satz von Äußerungen eine Wahrscheinlichkeit dafür zu berechnen, dass die Äußerung nach einer vorgegebenen Äußerung ausgesprochen wird, und eine Äußerungskandidatenspeichereinheit 228 zum Speichern eines Satzes von Äußerungen, die jeweils einen Übersetzungs-Score-Wert haben, der eine Akzeptanz für den automatischen Übersetzungsprozess 222 der Äußerung in der Quellsprache darstellt. In der Äußerungskandidatenlistenerstellungsverarbeitung 230 werden unter Verwendung der Wahrscheinlichkeit für jede Äußerung in der Zusammenstellung von Äußerungen, die durch das Äußerungssequenzmodell 226 berechnet wird, und des Übersetzungs-Score-Wertes für jede in der Äußerungskandidatenspeichereinheit 228 gespeicherte Äußerung eine vorgegebene Anzahl von Äußerungen ausgewählt, die mit hoher Wahrscheinlichkeit als nächstes ausgesprochen werden und höhere Übersetzungs-Score-Werte haben, und diese werden in der Form einer Liste ausgegeben. In der vorliegenden Ausführungsform wird für diese Bewertung wird ein Bewertungs-Score-Wert verwendet, der aus einer linearen Summe der Wahrscheinlichkeit, dass eine bestimmte Äußerung als nächstes ausgesprochen wird, und dem Übersetzungs-Score-Wert der Äußerung besteht. In der vorliegenden Ausführungsform wird die Äußerung mit dem höheren Bewertungs-Score-Wert als für einen Kandidaten besser geeignet betrachtet. Daher ist jeder Koeffizient der linearen Summe positiv. Die Koeffizientenwerte unterscheiden sich in Abhängigkeit von der Größenordnung der Wahrscheinlichkeit und der Größenordnung des Übersetzungs-Score-Wertes, so dass die Koeffizientenwerte basierend auf spezifischen Kombinationen geeignet bestimmt werden müssen.
Das Äußerungssequenzmodell 226 wird statistisch so gelernt, dass, wenn es einen Text einer Äußerung und Umgebungsinformationen empfängt, wenn eine Äußerung gemacht wird, es die Wahrscheinlichkeit dafür berechnen kann, dass Äußerungen in einer vorgegebenen Zusammenstellung von Äußerungen nach der durch den Text dargestellten Äußerung nacheinander ausgesprochen werden.
Der Text des durch die Spracherkennungsverarbeitung 220 ausgegebenen Spracherkennungsergebnisses, der Text des durch die automatische Übersetzungsverarbeitung 222 erhaltenen Übersetzungsergebnisses, die durch die Sprachsyntheseverarbeitung 224 synthetisierten Sprachdaten und die durch die Äußerungskandidatenlistenerstellungsverarbeitung 230 erzeugte Äußerungskandidatenliste werden alle einer Übertragungseinheit 232 zugeführt, um diese Daten an das tragbare Endgerät 104 zu übertragen. Die Übertragungseinheit 232 wandelt die zugeführten Daten in ein vorgegebenes Format für eine Übertragung um und überträgt die umgewandelten Daten an das tragbare Endgerät 104.
Nach dem Empfang der Daten von der Übertragungseinheit 232 zeigt das tragbare Endgerät 104 das empfangene Spracherkennungsergebnis, das Ergebnis der automatischen Übersetzung und die Äußerungskandidatenliste an (Schritt 204). Außerdem gibt das tragbare Endgerät 104 die von der Übertragungseinheit 232 empfangene synthetisierte Sprache aus (Schritt 206). Nach der Ausgabe kehrt das tragbare Endgerät 104 in den Ruhezustand zurück und wartet auf die nächste Spracheingabe 200.
Wie vorstehend erwähnt wurde, ist in 3 ein typischer Arbeitsablauf dargestellt. Wenn anstatt einer Spracheingabe eine Texteingabe ausgeführt wird, unterscheidet sich der auszuführende Arbeitsablauf von dem in 3 dargestellten Arbeitsablauf.
– Tragbares Endgerät 104 –
Gemäß 4 weist das tragbare Endgerät 104 auf: einen Prozessor 250 zum Steuern verschiedener Einheiten und Komponenten des tragbaren Endgeräts 104 durch Ausführen eines vorgegebenen Programms, um verschiedene Funktionen zu realisieren, einen Speicher 252, der durch den Prozessor 250 ausgeführte Programme und für die Ausführung des Programms erforderliche Daten speichert und außerdem als ein Arbeitsbereich des Prozessors 250 dient, und eine Schnittstelle zwischen dem Prozessor 250 und verschiedenen Sensoren, wie später beschrieben wird. Jede der nachstehend beschriebenen Komponenten kann über eine Schnittstelle 254 mit dem Prozessor 250 kommunizieren.
Das tragbare Endgerät 104 weist ferner mehrere Sensoren auf, wie beispielsweise: einen GPS-Empfänger 258 zum Erhalten von Breiten- und Längengradinformation der Position des tragbaren Endgeräts 104 durch eine GPS-Funktion, einen Beschleunigungssensor 260 zum Erfassen der Beschleunigung des tragbaren Endgeräts 104 in drei axialen Richtungen, einen Neigungssensor 262 zum Erfassen einer Neigung des tragbaren Endgeräts 104 bezüglich der drei Achsen, einen Magnetfeldsensor 264 zum Erfassen eines Magnetfeldes in der Umgebung des tragbaren Endgeräts 104, einen Helligkeitssensor 266 zum Erfassen der Helligkeit in der Umgebung des tragbaren Endgeräts 104, einen Drucksensor 268 zum Erfassen eines an einer vorgegebenen Position des tragbaren Endgeräts 104 ausgeübten Drucks und einen Temperatursensor 270 zum Erfassen der Temperatur in der Umgebung des tragbaren Endgeräts 104. Das tragbare Endgerät weist ferner auf: ein Mikrofon 256, eine Kommunikationseinrichtung 272, die durch eine Drahtloskommunikation über eine nicht dargestellte Basisstation mit dem Internet 102 verbindbar ist, ein Touchpanel 274, eine an einem Gehäuse des tragbaren Endgeräts 104, beabstandet vom Touchpanel 274 angeordnete Bedientaste 276 und einen Lautsprecher 280.
Der GPS-Empfänger 258, der Beschleunigungssensor 260, der Neigungssensor 262, der Magnetfeldsensor 264, der Helligkeitssensor 266, der Drucksensor 268 und der Temperatursensor 270 dienen zum Erfassen von die Umgebung darstellender Information, wenn eine Äußerung gemacht wird. In der vorliegenden Ausführungsform werden die Ausgangssignale dieser Sensoren bei einer Spracheingabe in einer vorgegebenen Form als Umgebungsinformation, die die Umgebung zu dem Zeitpunkt darstellt, zu dem die Äußerung gemacht wird, zusammen mit Einstellungsinformation, z. B. dem Sprachpaar für die Sprachübersetzung, und dem von der Sprache erhaltenen ADPCM-Sprachsignal an den Server 106 übertragen. Die auf diese Weise an den Server 106 übertragene Information beinhaltet eine Sprachübersetzungsanforderung, die eine Spracherkennung der ausgesprochenen Sprache und eine Datenverarbeitung bezüglich des Ergebnisses der Spracherkennung anfordert, d. h., eine automatische Übersetzung und eine Sprachsynthese des Übersetzungsergebnisses.
Unter verschiedenen Programmen, die die Funktionen des tragbaren Endgeräts 104 realisieren, hat die Anwendung, die die Verwendung eines Sprachübersetzungsdienstes ermöglicht, eine nachstehend beschriebene Steuerungsstruktur. Gemäß 5 wird, wenn das Programm aktiviert wird, eine Initialisierungsverarbeitung ausgeführt (Schritt 300), in der ein Speicherbereich sichergestellt wird und verschiedene Speicherplätze mit vorgegebenen Anfangswerten initialisiert werden. Wenn die Initialisierung abgeschlossen ist, wird ein Startbildschirm, der den Sprachübersetzungsdienst ermöglicht, auf dem Touchpanel 274 des tragbaren Endgeräts 104 angezeigt (Schritt 302). Auf dem Startbildschirm sind eine Spracheingabetaste 152, eine Texteingabetaste 154, eine Mikrofontaste 182 und eine Einstellungstaste 142 aktiv, während die Übersetzungstaste 164 und die Wiedergabetaste 172 inaktiv sind.
Dann wartet das Programm auf eine Eingabe von einem Benutzer, und je nachdem, was eingegeben wird, verzweigt sich der Steuerungsablauf (Schritt 304).
Wenn die Spracheingabetaste (Spracheingabetaste 152 von 2) gedrückt wird, wird die Spracheingabeverarbeitung ausgeführt (Schritt 310). Die Spracheingabeverarbeitung wird durch Aufruf einer API (Application Programming Interface) für die Spracheingabe ausgeführt. Daraufhin wird die eingegebene Sprache einer vorgegebenen Signalverarbeitung unterzogen und ein Sprachsignal in der Form einer ADPCM (Adaptive Differential Pulse Code Modulation) erzeugt (Schritt 312). Außerdem wird basierend auf dem Sprachsignal, Ausgangssignalen der verschiedenen Sensoren zu diesem Zeitpunkt und Einstellungsinformation, wie beispielsweise die Übersetzungssprache, die Sprachübersetzungsanforderung erzeugt und an den Server 106 übertragen (Schritt 314). Danach werden das Ergebnis der Spracherkennung, das Ergebnis der automatischen Übersetzung, die davon synthetisierte Sprache und die Liste der Äußerungskandidaten vom Server 106 empfangen (Schritt 316), und diese Daten werden in vorgegebenen Speicherbereichen gespeichert, um den das Ergebnis der Spracherkennung darstellenden Text, den das Ergebnis der automatischen Übersetzung darstellenden Text und die Liste der Äußerungskandidaten im Eingabetextanzeigebereich 150, im Rückwärtsübersetzungsbereich 160 bzw. im Übersetzungsergebnisanzeigebereich 170 von 2 darzustellen (Schritt 318).
Ferner wird die das Ergebnis der automatischen Übersetzung darstellende synthetisierte Sprache durch Ansteuern des Lautsprechers 280 erzeugt (Schritt 320). D. h., durch Ansteuern des Lautsprechers 280 wird dem Benutzer das angeforderte Übersetzungsergebnis der Äußerung in der Form von Sprache präsentiert. Schließlich wird der Anwendungsbildschirm 130 aktualisiert (Schritt 322) und kehrt der Ablauf zu Schritt 304 zurück, um auf eine Eingabe zu warten. Hierbei wird zusätzlich zur Spracheingabetaste 152, zur Texteingabetaste 154 und zur Mikrofontaste 182 auch die Wiedergabetaste 172 aktiviert.
Wenn die Texteingabetaste (Texteingabetaste 154 von 2) in Schritt 304 gedrückt wird, wird die API für die Texteingabe aufgerufen und damit eine Texteingabe empfangen (Schritt 340). Der Eingabetext wird gespeichert (Schritt 342), der Bildschirm wird aktualisiert, so dass der Eingabetext im Eingabetextanzeigebereich 150 und im Rückwärtsübersetzungsbereich 160 angezeigt wird (Schritt 322), und der Ablauf kehrt zu Schritt 304 zurück. Hierbei ist auf dem aktualisierten Bildschirm die Übersetzungstaste 164 aktiviert, während die Wiedergabetaste 172 deaktiviert ist.
Wenn die Übersetzungstaste (Übersetzungstaste 164 in 2) in Schritt 304 gedrückt wird, wird unter Verwendung des in Schritt 340 eingegebenen und in Schritt 342 gespeicherten Textes, der Ausgangssignale der verschiedenen Sensoren zu diesem Zeitpunkt und der Einstellungsinformation die Textübersetzungsanforderung erzeugt und an den Server 106 übertragen (Schritt 360). Daraufhin werden das in Antwort auf die Anforderung erhaltene Übersetzungsergebnis, die das Übersetzungsergebnis darstellende synthetisierte Sprache und die Äußerungskandidatenempfehlungsliste empfangen (Schritt 362). Der das Übersetzungsergebnis darstellende, empfangene Text wird im Übersetzungsergebnisanzeigebereich 170 (2) dargestellt (Schritt 364), und die das Übersetzungsergebnis darstellende synthetisierte Sprache wird ausgegeben (Schritt 366). Dann wird der Anwendungsbildschirm 130 aktualisiert (Schritt 322), woraufhin der Ablauf zu Schritt 304 zurückspringt.
Schließlich wird, wenn die Einstellungstaste 142 gedrückt wird, ein im Voraus vorbereiteter Bildschirm dargestellt, der Änderungen an den Einstellungen ermöglicht, und jegliche Einstellungsänderungen werden empfangen (Schritt 380). Wenn die Einstellungen abgeschlossen sind, werden die erhaltenen Einstellungen im Speicher 252 gespeichert (Schritt 382). Dann wird der Anwendungsbildschirm 130 gemäß den geänderten Einstellungen aktualisiert (Schritt 322), woraufhin die Steuerung zu Schritt 304 zurückspringt.
– Server 106 –
Gemäß 6 hat der Server 106 die folgende funktionelle Konfiguration. Hinsichtlich der Hardware wird der Server 106 durch einen Computer mit einem externen Speicher mit einer großen Kapazität und einem auf dem Computer ausgeführten Sprachübersetzungsserverprogramm realisiert.
Der Server 106 weist auf: eine Empfangseinheit 406, die eine Sprachübersetzungsanforderung und eine Textübersetzungsanforderung von einer unbestimmten Anzahl von Endgeräten, wie beispielsweise vom tragbaren Endgerät 104, über das Internet 102 (vergl. 1) empfängt, und eine Steuereinheit 408, die die Gesamtsteuerung der Sprachübersetzung durch Analysieren der durch Empfangseinheit 406 empfangenen Anforderungen, die Zufuhr von Daten zu einem vorgegebenen Funktionsmodul oder die Ausgabe eines Steuersignals für eine Datenauswahl gemäß dem Analyseergebnis steuert. Der Server 106 weist ferner auf: sprachspezifische Spracherkennungsressourcen 400, die im Voraus für jede von mehreren Sprachen bereitgestellt werden, zum Realisieren einer Spracherkennung mehrerer Quellsprachen und zum Erzeugen von Sätzen in Zielsprachen durch eine automatische Übersetzung, sprachpaarspezifische Ressourcen 402, die im Voraus für eine automatische Übersetzung für jede Kombination von mehreren Quellsprachen und mehreren Zielsprachen bereitgestellt werden, und sprachspezifische Sprachsyntheseressourcen 404, die im Voraus für die Sprachsynthese für jede der Zielsprachen bereitgestellt werden.
In der vorliegenden Ausführungsform weisen die sprachspezifischen Spracherkennungsressourcen 400 für jede Sprache ein statistisches akustisches Modell, ein Wörterbuch und ein statistisches Sprachmodell für die Spracherkennung auf. Das Wörterbuch und das Sprachmodell werden außerdem für eine automatische Übersetzung verwendet, wenn die entsprechende Sprache die Zielsprache ist. Daher weist der Server 106 ferner auf: eine Auswahleinheit 410 zum Auswählen von Ressourcen der Quellsprache, die durch die Sprachübersetzungsanforderung spezifiziert ist, von den sprachspezifischen Spracherkennungsressourcen 400, und eine Auswahleinheit 412 zum Auswählen von Ressourcen der Zielsprache, die durch die Sprachübersetzungsanforderung spezifiziert ist, von den sprachspezifischen Spracherkennungsressourcen 400.
Die sprachpaarspezifischen Ressourcen 402 weisen für jede Kombination der Quellsprache und der Zielsprache ein im Voraus bereitgestelltes statistisches Übersetzungsmodell auf. Der Server 106 weist ferner eine Auswahleinheit 414 zum Auswählen von Ressourcen des Sprachpaars, das durch die Sprachübersetzungsanforderung spezifiziert ist, von den sprachpaarspezifischen Ressourcen 402 auf.
Die sprachspezifische Sprachsyntheseressourcen 404 weisen einzelsprachliche Ressourcen auf, die für die Sprachsynthese der Zielsprache erforderlich sind. Wenn die Sprachsynthese vom Sprachelementverknüpfungstyp ist, sind sprachspezifische Sprachelementdatenbanken in den Ressourcen enthalten. Der Server 106 weist ferner eine Auswahleinheit 416 zum Auswählen von Ressourcen der Zielsprache, die durch die Sprachübersetzungsanforderung spezifiziert ist, von den sprachspezifischen Sprachsyntheseressourcen 404 auf.
Die Steuereinheit 408 hat eine Funktion zum Übertragen eines Steuersignals, das jede der Auswahleinheiten 410, 412, 414 und 416 veranlasst, basierend auf der Kombination der Quell- und der Zielsprache, die in der Sprachübersetzungsanforderung enthalten ist, geeignete Ressourcen auszuwählen.
Der Server 106 weist ferner auf: eine Spracherkennungsmaschine 418, die die ADPCM-Daten in der Sprachübersetzungsanforderung von der Steuereinheit 408 empfängt, eine Spracherkennung der Quellsprache unter Verwendung der durch die Auswahleinheit 410 ausgewählten Ressourcen ausführt und die erhaltenen Textdaten ausgibt, eine automatische Übersetzungsmaschine 422, die Textdaten in der Quellsprache empfängt, die von der Spracherkennungsmaschine 418 ausgegeben werden, den Satz in der Quellsprache unter Verwendung der durch die Auswahleinheit 412 ausgewählten Zielsprachenressourcen und der Ressourcen, die dem durch die Auswahleinheit 414 ausgewählten Sprachpaar der Quell- und Zielsprache entsprechen, in einen Satz in der Zielsprache übersetzt und das Ergebnis als Textdaten ausgibt, und eine Sprachsyntheseeinheit 424, die die von der automatischen Übersetzungsmaschine 422 ausgegebenen Textdaten in der Zielsprache empfängt und eine Sprachsynthese unter Verwendung der durch die Auswahleinheit 416 ausgewählten Sprachressourcen ausführt.
Zwischen dem Ausgang der Spracherkennungsmaschine 418 und dem Eingang der automatischen Übersetzungsmaschine 422 ist eine Auswahleinheit 420 mit zwei Eingängen und einem mit einem Eingang der automatischen Übersetzungsmaschine 422 verbundenen Ausgang eingefügt. Ein Eingang der Auswahleinheit 420 ist mit einem Ausgang 438 der Spracherkennungsmaschine 418 verbunden. Dem anderen Eingang werden Textdaten 440 in der von der Steuereinheit 408 ausgegebenen Textübersetzungsanforderung zugeführt. Wie vorstehend beschrieben wurde, ermöglicht das tragbare Endgerät 104 nicht nur eine Spracheingabe, sondern auch eine Texteingabe. Im Fall einer Spracheingabe werden Textdaten als Ausgabe 438 der Spracherkennungsmaschine 418 der automatischen Übersetzungsmaschine 422 zugeführt, während im Fall einer Texteingabe Textdaten 440 in der Anforderung direkt der automatischen Übersetzungsmaschine 422 zugeführt werden, d. h. nicht über die Spracherkennungsmaschine 418. Welcher der beiden Eingänge durch die Auswahleinheit 420 ausgewählt wird, wird durch die Steuereinheit 408 unter Verwendung eines Schaltsignals 442 im Hinblick auf den Inhalt der Sprachübersetzungsanforderung gesteuert. Die mit der Textübersetzungsanforderung in Beziehung stehende Verarbeitung unterscheidet sich von der mit der Sprachübersetzungsanforderung in Beziehung stehenden Verarbeitung nur in der Art der Eingabe, wobei die Verarbeitungsschritte nach der automatischen Übersetzung die gleichen sind wie die mit der Sprachübersetzungsanforderung in Beziehung stehenden Verarbeitungsschritte. Daher wird eine ausführliche Beschreibung der mit der Textübersetzungsanforderung in Beziehung stehenden Verarbeitung hier nicht wiederholt. Es wird darauf hingewiesen, dass die in der Sprachübersetzungsanforderung enthaltenen Ausgangswerte der verschiedenen Sensoren sowohl den von der Spracherkennungsmaschine 418 ausgegebenen Textdaten als auch den Textdaten hinzugefügt werden, die von der Steuereinheit 408 direkt der Auswahleinheit 420 zugeführt werden.
Der Server 106 weist ferner auf: verschiedene Datenbanken (DBs) 430 zum Bestimmen von Elementen, die zum Umwandeln der Ausgangswerte der verschiedenen Sensoren, die der Sprachübersetzungsanforderung hinzugefügt sind, in Werte von Elementen von Merkmalsvektoren verwendet werden, die zum Schätzen von Kandidaten für die nächste Äußerung verwendet werden, Speichereinheiten zum Speichern mehrerer Äußerungssequenzmodelle 226, die für mehrere Sprachen bereitgestellt werden, als Objekte, Speichereinheiten 228 zum Speichern mehrerer Äußerungskandidaten, die für mehrere Sprachen bereitgestellt werden, als Objekte, und Auswahleinheiten 434 und 436 zum Auswählen eines Modells und einer Äußerungskandidatenspeichereinheit, die der Sprache der Äußerung entspricht, aus den mehreren Äußerungssequenzmodellen 226 und den mehreren Äußerungskandidatenspeichereinheiten 228 und zum Verbinden dieser mit einer Äußerungswahrscheinlichkeitsberechnungseinheit 426 und einer Äußerungskandidatenempfehlungslistenerstellungseinheit 428. Der Server 106 weist ferner auf: eine Äußerungswahrscheinlichkeitsberechnungseinheit 426, die die von der Auswahleinheit 420 ausgegebenen Textdaten empfängt und für jede im Voraus bereitgestellte Äußerung die Wahrscheinlichkeit dafür, dass die Äußerung die der vorgegebenen Äußerung folgende nächste Äußerung ist, unter Verwendung verschiedener Datenbanken DBs 430 zum Bestimmen von Elementen und des Äußerungssequenzmodells 226 berechnet, eine Äußerungskandidatenempfehlungslistenerstellungseinheit 428 zum Erzeugen der Äußerungskandidatenempfehlungsliste basierend auf der Wahrscheinlichkeit, die für jede Äußerung durch die Äußerungswahrscheinlichkeitsberechnungseinheit 426 berechnet wird, und auf den Übersetzungs- und Spracherkennungs-Score-Werten der in der Äußerungskandidatenspeichereinheit 228 gespeicherten jeweiligen Äußerungen durch Auswählen mehrerer Äußerungen, die eine hohe Wahrscheinlichkeit dafür haben, dass sie als nächstes ausgesprochen werden, und eine hohe Wahrscheinlichkeit dafür, dass sie durch die automatische Übersetzungsmaschine 422 akzeptiert (korrekt übersetzt) werden, aus Äußerungen mit hohen Score-Werten, und eine Übertragungseinheit 432, die Rückgabedaten mit einem vorgegebenen Datenformat von den Textdaten, die das von der automatischen Übersetzungsmaschine 422 ausgegebene Übersetzungsergebnis darstellen, der von der Sprachsyntheseeinheit 424 ausgegebenen synthetisierten Sprache und der durch die Äußerungskandidatenempfehlungslistenerstellungseinheit 428 erzeugten Äußerungskandidatenempfehlungsliste konfiguriert und die Daten an das Endgerät (tragbare Endgerät 104 oder dergleichen) zurück überträgt, das die Sprachübersetzungsanforderung übertragen hat.
Die vorstehend beschriebenen Äußerungssequenzmodelle 226 und Äußerungskandidatenspeichereinheiten 228 müssen im Voraus bereitgestellt werden. Zu diesem Zweck wird eine Modellerzeugungseinheit 108 bereitgestellt. Die Konfiguration der Modellerzeugungseinheit 108 wird später beschrieben.
Gemäß 7 hat das durch die Hardware des den Server 106 implementierenden Computers zum Realisieren der Funktionen der in 6 dargestellten Steuereinheit 408 eine nachstehend beschriebene Steuerungsstruktur. Diese weist insbesondere auf: einen Initialisierungsschritt 450, der ausgeführt wird, wenn das Programm aktiviert wird, zum Ausführen von Verarbeitungen, die unmittelbar nach der Aktivierung einmal ausgeführt werden müssen, wie beispielsweise die Sicherung eines erforderlichen Speicherbereichs und eine Initialisierung, einen Schritt 452, der nach der Initialisierung ausgeführt wird und in dem auf eine mit einer Sprachübersetzung in Beziehung stehende Anforderung von einem anderen Endgerät über das Internet 102 gewartet wird, und einen Schritt 454 zum Verzweigen des Steuerungsablaufs in Abhängigkeit davon, welche Anforderung in Schritt 452 empfangen wird.
Wenn basierend auf der in der Anforderung enthaltenen Information über das Sprachpaar festgestellt wird, dass die Anforderung eine Sprachübersetzungsanforderung ist, wird die Kombination der Quellsprache und der Zielsprache konfiguriert, werden die in 6 dargestellten Auswahleinheiten 410, 412, 414 und 416 konfiguriert (Schritt 460), und wird die Spracherkennung ausgeführt (Schritt 462). Wenn die Spracherkennung abgeschlossen ist, wird unter Verwendung des das Ergebnis darstellenden Textes in der Quellsprache als Eingabe eine automatische Übersetzung in die Zielsprache ausgeführt (Schritt 464). Wenn die automatische Übersetzung abgeschlossen ist, wird unter Verwendung des durch die automatische Übersetzung erhaltenen Ausgabetextes als Eingabe eine Sprachsynthese ausgeführt wird (Schritt 466). Ferner wird basierend auf den in Schritt 462 erhaltenen Textdaten ein Merkmalsvektor zum Abschätzen der nächsten Äußerung erzeugt (Schritt 468). Zum Erzeugen des Merkmalsvektors können in der Anforderung enthaltene unverarbeitete Sensorausgangssignale verwendet werden, oder die unverarbeiteten Sensorausgangssignale können unter Verwendung verschiedener Datenbänke DB 430 für eine Elementbestimmung (vergl. 6) in Werte anderer Kategorien umgewandelt werden. Beispielsweise kann die als GPS-Ausgangssignale erhaltene Breiten- und Längengradinformation direkt als die Elemente des Merkmalsvektors verwendet werden. Alternativ kann eine entsprechende Beziehung zwischen der Längen- und der Breitengradinformation und einem an dieser Position vorhandenen Einrichtungsnamen oder einem Regionalnamen, der die Position enthält, in der Datenbank DB 430 für eine Elementbestimmung gespeichert sein, und die Information kann in den Einrichtungsnamen oder den Regionalnamen umgewandelt werden, und die umgewandelten Werte können als Elemente für den Merkmalsvektor verwendet werden. Unter Verwendung der erzeugten Merkmalsvektoren schätzt die in 6 dargestellte Äußerungswahrscheinlichkeitsberechnungseinheit 426 eine vorgegebene Anzahl von Äußerungskandidaten, die mit hoher Wahrscheinlichkeit als nächstes ausgesprochen werden. Ferner werden unter Verwendung der in 6 dargestellten Äußerungskandidatenspeichereinheit 228 basierend auf dem Bewertungs-Score-Wert, der durch Kombinieren der Wahrscheinlichkeit für jeden Äußerungskandidaten und der Übersetzungs- und Spracherkennungs-Score-Werte erhalten wird, eine vorgegebene Anzahl von Äußerungskandidaten mit hohen Übersetzungs-Score-Werten und mit einer hohen Wahrscheinlichkeit dafür, dass sie als nächstes ausgesprochen werden, ausgewählt, und damit wird die Äußerungskandidatenenempfehlungsliste erstellt (Schritt 470). Schließlich werden das in Schritt 462 erhaltene Ergebnis der Spracherkennung in der Quellsprache, der Text, der das in Schritt 464 erhaltene Ergebnis der automatischen Übersetzung darstellt, die in Schritt 466 erhaltene Sprachsynthese und die in Schritt 470 erhaltene Äußerungskandidatenempfehlungsliste an das Gegenstellen-Endgerät zurück übertragen (Schritt 472), woraufhin die Steuerung zu Schritt 452 zurückspringt.
Andererseits werden, wenn festgestellt wird, dass die Anforderung die nächste Textübersetzungsanforderung ist, basierend auf der in der Anforderung enthaltenen Einstellungsinformation über das Sprachpaar die in 6 dargestellten Auswahleinheiten 410, 412, 414 und 416 eingestellt (Schritt 478) und der Eingangstext in der Quellsprache wird automatisch in die Zielsprache übersetzt (Schritt 480). Basierend auf dem in der Zielsprache erhaltenen Text wird eine Sprache in der Zielsprache synthetisiert (Schritt 482). Basierend auf dem Eingabetext in der Quellsprache und der in der Anforderung enthaltenen Umgebungsinformation werden Merkmalsvektoren erzeugt (Schritt 484), und unter Bezug auf das Äußerungssequenzmodell 226 wird die Äußerungskandidatenempfehlungsliste erzeugt (Schritt 486), die die Äußerungskandidaten mit hohen Übersetzungs-Score-Werten und einer hohen Wahrscheinlichkeit dafür enthält, dass sie als nächstes ausgesprochen werden. Schließlich werden die in Schritt 480 erhaltenen Textdaten in der Zielsprache, die in Schritt 482 erhaltene synthetisierte Sprache in der Zielsprache und die in Schritt 486 erhaltenen Äußerungskandidaten an das tragbare Endgerät übertragen (Schritt 488), woraufhin die Steuerung zu Schritt 452 zurückkehrt.
Vorstehend wurde die Steuerungsstruktur des Programms dargestellt, das einen in 6 dargestellten Server realisiert.
Die Äußerungssequenzmodelle 226 und eine in den in 6 dargestellten Äußerungskandidatenspeichereinheiten 228 gespeicherte Zusammenstellung von Äußerungskandidaten müssen im Voraus bereitgestellt werden. Eine Konfiguration der Modellerzeugungseinheit 108 für diesen Zweck ist in 8 dargestellt. In der vorliegenden Ausführungsform weisen verschiedene in 6 dargestellte Datenbanken DB 430 für eine Elementbestimmung auf: einen GPS/Regionalinformationsumwandlungsdatenbank 518, die eine entsprechende Beziehung zwischen der von einem GPS-System erhaltenen Breiten-/Längengradinformation und Regionalinformation über ein Land, eine Region, ein Bundesland, einen Verwaltungsbezirk, eine Stadt, eine Gemeinde und dergleichen speichert, die durch die Breiten-/Längengradinformation spezifiziert sind, und eine IP-Adresse-Einrichtungsnamen-Umwandlungsdatenbank 522, die eine entsprechende Beziehung zwischen IP-Adressen und Einrichtungsnamen speichert, die die IP-Adressen haben.
Gemäß 8 weist die Modellerzeugungseinheit 108 einen Korpus 510 mit einer großen Anzahl von Äußerungstexten in einer einzigen Sprache auf. Eine im Korpus 510 gespeicherte Äußerung enthält Sprachdaten der Äußerung und einen Transkriptionstext der Äußerung. Jeder Transkriptionstext ist in vorgegebene Einheiten unterteilt, wie beispielsweise in Morpheme, und jeder Einheit ist ein als DA-(Dialogaktivität)Etikett bezeichnetes Etikett hinzugefügt, das eine Situation darstellt, in der die Äußerung gemacht wird. Außerdem werden jeder Äußerung das Datum und die Uhrzeit, zu der die Äußerung gemacht wurde, eine Benutzer-ID oder eine Endgerät-ID des Benutzers, der die Äußerung gemacht hat, die Position des Benutzers (von einem GPS-System erhaltene Breiten- und Längengradinformation), die IP-Adresse des Endgeräts, das die Äußerung übertragen hat, und Information über die Beschleunigung, die Neigung, das Magnetfeld, die Helligkeit, den Druck und die Temperatur, die durch die Sensoren des Endgeräts erfasst werden, hinzugefügt. Unter dieser Information wird für Information, die nicht durch das tragbare Endgerät erhalten werden konnte, weil beispielweise der entsprechende Sensor nicht vorhanden ist, ein vorgegebener Wert eingefügt, der das Nichtvorhandensein von Informationen anzeigt.
Die Modellerzeugungseinheit 108 weist ferner auf: eine Eingabeeinheit 512, die durch den Benutzer verwendet wird, wenn eine morphologische Analyse, ein Etikettierungsprozess oder ein anderer Prozess manuell auf die im Korpus 510 enthaltenen Äußerungsdaten angewendet werden soll, und eine Basismerkmalsvektorerzeugungseinheit 514, die von jedem der im Korpus 510 gespeicherten Sätze einen Basismerkmalsvektor erzeugt, von dem Lerndaten zum Lernen des Äußerungssequenzmodells 226 erzeugt werden. Die Basismerkmalsvektorerzeugungseinheit 514 ordnet in einer vorgegebenen Folge zumindest für jeden im Korpus 510 gespeicherten Satz das Datum und die Uhrzeit, die Benutzer-ID oder die Endgerät-ID und verschiedene Sensorinformation an, die dem Satz hinzugefügt ist, und erzeugt dann einen Vektor mit einer Identifikationsnummer der nächsten gesprochenen Äußerung als ein Element.
Die Modellerzeugungseinheit 108 weist ferner auf: eine Einheit 516 zum Hinzufügen von Regionalinformation, die die Breiten-/Längengradinformation, die in jedem durch die Basismerkmalsvektorerzeugungseinheit 514 erzeugten Merkmalsvektor enthalten ist, mit der GPS/Regionalinformationsumwandlungsdatenbank 518 vergleicht und dadurch Regionalinformation über das Land, die Region, das Bundesland, den Verwaltungsbezirk, die Stadt oder die Gemeinde erhält, wo die dem Merkmalsvektor entsprechende Äußerung gemacht wurde, und die Information an einer geeigneten Position im Merkmalsvektor einfügt, eine Einheit 520 zum Hinzufügen von Einrichtungsinformation, die den Merkmalsvektor von der Einheit 516 zum Hinzufügen von Regionalinformation empfängt, die darin enthaltene IP-Adresse mit der IP-Adressen-Einrichtungsnamenumwandlungsdatenbank 522 vergleicht und dadurch den Einrichtungsnamen erhält, wo die Äußerung gemacht wurde, und diesen an einer geeigneten Stelle im Merkmalsvektor einfügt, eine Merkmalsvektorspeichereinheit 526, die die von der Einheit 520 zum Hinzufügen von Einrichtungsinformation ausgegebenen Merkmalsvektoren speichert, und eine Äußerungssequenzmodelliereinheit 524 zum Ausführen eines statistischen Lernvorgangs des Äußerungssequenzmodells 226 unter Verwendung der in der Merkmalsvektorspeichereinheit 526 gespeicherten Merkmalsvektoren als Lerndaten.
Die Modellerzeugungseinheit 108 weist ferner auf: eine Äußerungsgruppierungseinheit 540, die einige Äußerungen der im Korpus 510 enthaltenen Äußerungen Korpus 510 gruppiert und dadurch einen Satz erzeugt, der nur aus voneinander verschiedenen Äußerungen besteht, eine Übersetzungsmaschine 544, die jede der durch die Äußerungsgruppierungseinheit 540 gruppierten Äußerungen in mehrere Sprachen übersetzt und einen Score-Wert des Übersetzungsergebnisses für jede Äußerung ausgibt, und eine Übersetzungs-Score-Wert-Berechnungseinheit 542, die Übersetzungsergebnis-Score-Werte Äußerung für Äußerung mittelt, die durch die Übersetzung in die mehreren Sprachen durch die Übersetzungsmaschine 544 erhalten werden, und dadurch einen mittleren Übersetzungs-Score-Wert für jede Äußerung berechnet und diesen in der Äußerungskandidaten-Speichereinheit 228 speichert. Hierbei wird angenommen, dass die Übersetzungsmaschine 544 eine Maschine ist, die eine statistische automatische Übersetzung ausführt, und die Wahrscheinlichkeit des Übersetzungsergebnisses wird als der Übersetzungs-Score-Wert betrachtet. Ein höherer Übersetzungs-Score-Wert bedeutet, dass die ursprüngliche Äußerung in der Quellsprache leicht übersetzbar ist.
Die Modellerzeugungseinheit 108 weist ferner auf: eine Spracherkennungsmaschine 546, die eine Spracherkennung von Sprachdaten jeder im Korpus 510 enthaltenen Äußerung ausführt, und eine Spracherkennungs-Score-Wert-Berechnungseinheit 548, die Transkriptionsdaten jeder im Korpus 510 enthaltenen Äußerung mit dem von der Spracherkennungsmaschine 546 erhaltenen Erkennungsergebnis der Äußerung vergleicht und damit einen Spracherkennungs-Score-Wert für jede Äußerung berechnet, wobei der jeder Äußerung hinzugefügte Score-Wert derart bereitgestellt wird, dass er in der Äußerungskandidatenspeichereinheit 228 gespeichert werden kann.
Obwohl in 8 eine einzelne Modellerzeugungseinheit 108 dargestellt ist, wird darauf hingewiesen, dass die Modellerzeugungseinheit 108 für jede zu übersetzende Quellsprache bereitgestellt werden muss. Hinsichtlich der Übersetzungsmaschine 544 können alle Übersetzungsmaschinen verwendet werden, die für eine Quellsprache zur Verfügung stehen, und die erhaltenen Übersetzungs-Score-Werte können gemittelt werden. Alternativ können Übersetzungsmaschinen nur für eine spezifische Anzahl von Zielsprachen für die Berechnung von Übersetzungs-Score-Werten verwendet werden, und die erhaltenen Score-Werte können gemittelt werden. In einigen Fällen können Übersetzungsmaschinen 544 für nur eine Sprache als Zielsprache verwendet werden.
<Betrieb>
– Überblick –
Das Sprachübersetzungssystem 100 arbeitet auf die folgende Weise. Der Server 106 hat zwei Betriebsphasen. Die erste besteht im Lernvorgang für das Äußerungssequenzmodell 226 und die Äußerungskandidatenspeichereinheit 228 durch die Modellerzeugungseinheit 108, und die zweite besteht in der Ausführung des Sprachübersetzungsdienstes unter Verwendung des gelernten Äußerungssequenzmodells 226 und der gelernten Äußerungskandidatenspeichereinheit 228. Nachfolgend wird zunächst der Betrieb des Servers in der Lernphase beschrieben, und dann wird der Betrieb des tragbaren Endgeräts 104 und des Servers 106 in der Sprachübersetzungsdienstphase beschrieben.
– Lernvorgang –
Es ist erforderlich, das Äußerungssequenzmodell 226 und die Übersetzungs-Score-Werte und die Spracherkennungs-Score-Werte für jede in der Äußerungskandidatenspeichereinheit 228 gespeicherte Äußerung im Voraus zu lernen. Zu diesem Zweck werden für jede Sprache als Objekt der Verarbeitung Sätze getrennt gesammelt, und der Korpus 510 wird sprachweise gebildet. Es ist bevorzugt, wenn jeder Satz im Korpus 510 im Voraus einer morphologischen Analyse oder dergleichen unterzogen und mit einem DA-Tag versehen wird. Gegebenenfalls wird eine solche Verarbeitung unter Verwendung der Eingabeeinheit 512 ausgeführt.
Jeder Satz im Korpus 510 (der sowohl Sprachdaten als auch Transkriptionstexte enthält) einer bestimmten Sprache wird den folgenden Verarbeitungen unterzogen. Insbesondere wird unter Verwendung von dem Satz hinzugefügter Information ein Basismerkmalsvektor durch die Basismerkmalsvektorerzeugungseinheit 514 erzeugt (8). Hierbei wird basierend auf der Information über die Benutzer-ID und das Datum und die Uhrzeit der Äußerung, die jeder Äußerung hinzugefügt sind, spezifiziert, welche Äußerung welcher Äußerung folgt, und eine die nächste Äußerung spezifizierende Information wird an einer geeigneten Stelle im Merkmalsvektor in ein Element eingefügt. Danach werden die Breiten-/Längengradinformation, die in jedem Merkmalsvektor enthalten sind, mit der GPS/Regionalinformationsumwandlungsdatenbank 518 verglichen, um von der Breiten-/Längengradinformation die Regionalinformation über das Land, die Region, das Bundesland, den Verwaltungsbezirk, die Stadt, die Gemeinde oder dergleichen zu erhalten, und die erhaltene Information wird in ein geeignetes Element im Merkmalsvektor eingefügt. Wenn die entsprechende Information nicht zur Verfügung steht, wird dem Element ein spezifischer Wert zugeführt, der das Nichtvorhandensein von Information anzeigt (das gleiche gilt für andere Elemente). Ferner wird die im Merkmalsvektor enthaltene IP-Adresse mit der IP-Adresse-Einrichtungsnamenumwandlungsdatenbank 522 verglichen, um die IP-Adresse, bei der die Äußerung aufgezeichnet wurde, in den der IP-Adresse entsprechenden Einrichtungsnamen umzuwandeln, und das Ergebnis wird einem entsprechenden Element im Merkmalsvektor zugeführt. Auf diese Weise werden die Merkmalsvektoren in der Merkmalsvektorspeichereinheit 526 akkumuliert.
Nachdem die Merkmalsvektoren in der Merkmalsvektorspeichereinheit 526 akkumuliert wurden, oder parallel mit der Akkumulierung, führt die Äußerungssequenzmodelllerneinheit 524 einen statistischen Lernvorgang für das Äußerungssequenzmodell 226 aus. Der statistische Lernvorgang wird dazu führen, dass das Äußerungssequenzmodell 226 in der Lage ist, für jede Äußerung eine Wahrscheinlichkeit dafür zu berechnen, dass eine Äußerung als nächstes ausgesprochen wird, nachdem ein Merkmalsvektors einer Äußerung mit dem Datum und der Uhrzeit der Äußerung, der Benutzer-ID, der IP-Adresse, der Breiten-/Längengradinformation und den Werten der verschiedenen Sensoren als Elemente empfangen wurden. Die Äußerungssequenzmodelle 226 werden vorzugsweise in einer nichtflüchtigen Speichereinrichtung gespeichert.
Andererseits gruppiert die Äußerungsgruppierungseinheit 540 Äußerungen, die die gleichen Textinhalte haben, von verschiedenen im Korpus 510 enthaltenen Äußerungen. Die Übersetzungs-Score-Wert-Berechnungseinheit 542 führt jede gruppierte Äußerung der Übersetzungsmaschine 544 zu, wodurch der Übersetzungs-Score-Wert der Äußerung berechnet wird. In der vorliegenden Ausführungsform werden statistische Übersetzungsmaschinen, die in verschiedene Sprachen übersetzen, als Übersetzungsmaschinen 544 bereitgestellt, und eine mittlere Wahrscheinlichkeit von durch die Übersetzungsmaschinen erhaltenen Übersetzungsergebnissen wird als der Übersetzungs-Score-Wert der Äußerung betrachtet. Die Übersetzungs-Score-Wert-Berechnungseinheit 542 erzeugt für jede Quellsprache eine Übersetzungs-Score-Wert-Datenbank, die aus für die Äußerungen erhaltenen Übersetzungs-Score-Werten besteht, und speichert sie in Äußerungskandidatenspeichereinheiten 228. Auf die vorstehend beschriebene Weise wird der Lernvorgang für das Äußerungssequenzmodell 226 und die Übersetzungs-Score-Wert-Datenbank abgeschlossen. Ferner wird durch die Spracherkennungsmaschine 546 und die Spracherkennungs-Score-Wert-Berechnungseinheit 548 der Spracherkennungs-Score-Wert zum Zeitpunkt der Spracherkennung für jeden im Korpus 510 enthaltenen Satz berechnet. Insbesondere führt die Spracherkennungsmaschine 546 die Spracherkennung von Sprachdaten für jeden Satz aus. Die Spracherkennungs-Score-Wert-Berechnungseinheit 548 vergleicht das durch die Spracherkennungsmaschine 546 erhaltene Ergebnis der Spracherkennung mit dem im Voraus dem Satz hinzugefügten Transkriptionssatz und berechnet dadurch den Spracherkennungs-Score-Wert des Satzes. Der Spracherkennungs-Score-Wert wird für jede im Korpus 510 gespeicherte Äußerung in der Äußerungskandidatenspeichereinheit 228 gespeichert. Dadurch können unter Verwendung von in der Äußerungskandidatenspeichereinheit 228 gespeicherter Information der Übersetzungs-Score-Wert und der Spracherkennungs-Score-Wert für jede im Korpus 510 gespeicherte Äußerung berechnet werden.
– Sprachübersetzungsdienst –
Es ist notwendig, dass eine Sprachübersetzungsanwendung, wie beispielsweise in 2 dargestellt, im Voraus auf das tragbare Endgerät 104 verteilt wird und dergleichen. In der vorliegenden Ausführungsform wird der Server 106, mit dem das tragbare Endgerät 104 verbindbar ist, durch die Sprachübersetzungsanwendung im Voraus bestimmt. Wenn mehrere Server 106 vorhanden sind, kann der Benutzer einen gewünschten Server davon auswählen.
Wenn der Benutzer den Sprachübersetzungsdienst des Servers 106 nutzen möchte, hat er grob zwei Optionen. Die erste ist die Sprachübersetzung, und die zweite ist die Textübersetzung. Nachstehend werden zunächst die Operationen beschrieben, die durch den Benutzer und durch das tragbare Endgerät 104 und durch den Server 106 ausgeführt werden, wenn die Sprachübersetzung verwendet wird, und dann werden die Operationen beschrieben, die durch den Benutzer und durch das tragbare Endgerät 104 und durch den Server 106 ausgeführt werden, wenn eine Textübersetzung verwendet wird. Vor jeder Option, ist es notwendig, dass der Benutzer den Einstellungsbildschirm durch Betätigen der in 2 dargestellten Einstellungstaste 142 aufruft und die zu verwendende Kombination von Quell- und Zielsprache auswählt.
Für eine Sprachübersetzung stehen dem Benutzer zwei Verfahren zur Verfügung. Im ersten Verfahren drückt der Benutzer eine Spracheingabetaste 152, spricht einen Satz, während die Taste gedrückt ist, und gibt die Spracheingabetaste 152 frei, wenn der Satz beendet ist. Im zweiten Verfahren, drückt der Benutzer die Mikrofontaste 182, um eine Sprachaufzeichnung zu starten, spricht einen Satz, und drückt, wenn der Satz beendet ist, erneut die Mikrofontaste 182, um die Sprachaufzeichnung zu beenden. In jedem Fall ruft das Programm in den Schritten 310 und 312 von 5 die der ausgewählten Verarbeitung entsprechende API auf und werden die Sprachaufzeichnung und die Signalverarbeitung ausgeführt, um Sprachdaten in einem vorgegebenen Format zu erzeugen.
Wenn die Aufzeichnung endet (wenn die Spracheingabetaste 152 freigegeben wird, oder wenn die Mikrofontaste 182 erneut gedrückt wird, während eine Sprachaufzeichnung ausgeführt wird), wird die in 5 dargestellte Verarbeitung von Schritt 314 ausgeführt, und der Anforderungsbefehl für die Sprachübersetzung, Information über das Sprachpaar gemäß den Einstellungen, Sprachdaten und Umgebungsinformation werden an den Server 106 übertragen. Der Anforderung sind Information über das Sprachpaar gemäß den Einstellungen, das Datum und die Uhrzeit der Äußerung, die Benutzeridentifizierungsinformation und die Umgebungsinformation, wie beispielsweise die Ausgangssignale des GPS-Empfängers 258, des Beschleunigungssensors 260, des Neigungssensors 262, des Magnetfeldsensors 264, des Helligkeitssensors 266, des Drucksensors 268 und des Temperatursensors 270 hinzugefügt.
Nach dem Empfang der Sprachübersetzungsanforderung (Schritt 452 in 7) wählt der Server 106 das Sprachpaar gemäß der Sprachpaarinformationen in der Anforderung aus (Schritte 454 bis 460), steuert die Auswahleinheiten 410, 412, 414, 416, 434 und 436 gemäß der ausgewählten Sprachkombination, und wählt geeignete Elemente aus. Der Server 106 führt ferner eine Spracherkennung (Schritt 462), eine automatische Übersetzung des Ergebnisses der Spracherkennung (Schritt 464) und eine Sprachsynthese des Übersetzungsergebnisses aus (Schritt 466). Daraufhin erzeugt der Server 106 aus dem Ergebnis der Spracherkennung und verschiedener der Sprachübersetzungsanforderung hinzugefügter Information einen Merkmalsvektor der eingegebenen Äußerung (Schritt 468), und erzeugt unter Verwendung des Äußerungssequenzmodells 226 und der Übersetzungs- und Spracherkennungs-Score-Werte jeder Äußerung in der Äußerungskandidatenspeichereinheit 228 die Äußerungskandidatenempfehlungsliste, die Äußerungskandidaten enthält, die eine hohe Wahrscheinlichkeit dafür haben, als nächstes ausgesprochen zu werden, und die einen hohen Übersetzungs- und Spracherkennungs-Score-Wert haben (Schritt 478). Schließlich überträgt der Server 106 das Ergebnis der Spracherkennung, die Textdaten des Übersetzungsergebnisses, die synthetisierte Sprache des Übersetzungsergebnisses und die Äußerungskandidatenempfehlungsliste an das tragbare Endgerät 104 (Schritt 472). Wenn diese Verarbeitung beendet ist, schreitet der Server 106 zur Verarbeitung für die nächste Anforderung fort (Schritt 452).
Gemäß 2 stellt das tragbare Endgerät 104 nach dem Empfang der Antwort vom Server 106 (Schritt 316 in 5) das Ergebnis der Spracherkennung auf dem Eingabetextanzeigebereich 150 dar, den das Ergebnis der automatischen Übersetzung darstellenden Text auf dem Übersetzungsergebnisanzeigebereich 170 dar und die Äußerungskandidatempfehlungsliste bzw. die Übersetzungsanforderungstasten 194 auf dem Äußerungskandidatenempfehlungsbereich 190 dar (Schritt 318) und gibt eine Äußerung durch Ansteuern des Lautsprechers 280 gemäß den synthetisierten Sprachdaten aus (Schritt 320). Der Bildschirm wird durch die Ergebnisse von Schritt 318 aktualisiert (Schritt 322), und das Endgerät kehrt in einen Wartezustand zurück, in dem auf die nächste Operation des Benutzers gewartet wird.
Wenn der Benutzer eine nächste Äußerung macht, kann er/sie auf die auf dem Äußerungskandidatenempfehlungsbereich 190 dargestellte Äußerungskandidatenempfehlungsliste Bezug nehmen. Dadurch muss der Benutzer die nächste Äußerung nicht aus dem Nichts ersinnen, sondern der Benutzer kann eine nächste Äußerung machen, während er bestimmte Sätze betrachtet. Daher wird der Benutzer nicht beunruhigt sein. Außerdem werden Äußerungen, die mit hoher Wahrscheinlichkeit nach der vorangehenden Äußerung ausgesprochen werden, als Empfehlungen dargestellt. Daher wird der Benutzer weniger wahrscheinlich durch dies und jenes gestört, wenn er das tragbare Endgerät 104 bedient. Außerdem haben die in der Äußerungskandidatempfehlungsliste dargestellten Äußerungen hohe Übersetzungs- und Spracherkennungs-Score-Werte. Daher wird, wenn eine Äußerung gemäß der empfohlenen Äußerung gemacht wird, das Ergebnis der Spracherkennung wahrscheinlich richtig sein, und ferner wird das Ergebnis der automatischen Übersetzung unter Verwendung des Ergebnisses ebenfalls wahrscheinlich richtig sein. Daher kann ein Gespräch zwischen dem Benutzer des tragbaren Endgeräts 104 und einem anderssprachigen Benutzer reibungslos geführt werden, ohne dass ein Missverständnis auftritt.
In der vorliegenden Ausführungsform dienen auf der Äußerungskandidatenempfehlungsliste 192 dargestellte Übersetzungsanforderungstasten 194 jeweils als eine Taste zum Erzeugen einer Übersetzungsanforderung für die entsprechende Äußerung. Insbesondere wird, wenn der Benutzer die einem der Äußerungskandidaten entsprechende Übersetzungsanforderungstaste 194 drückt, der entsprechende Text als nächste Äußerung ausgewählt und als das Objekt der nächsten automatischen Übersetzung an den Server 106 übertragen.
Im Falle einer Textübersetzung arbeitet das tragbare Endgerät 104 auf die folgende Weise. Gemäß 2 betätigt der Benutzer die Texteingabetaste 154 und ruft den Texteingabebildschirm auf. Im tragbaren Endgerät 104 werden die Schritte 304 bis 340 des in 5 dargestellten Ablaufdiagramms aufgerufen. Wenn die Texteingabe beendet ist, drückt der Benutzer eine Taste, um die Texteingabe zu beenden (in 2 nicht dargestellt). Das tragbare Endgerät 104 speichert den Eingabetext (Schritt 342) und aktualisiert den Bildschirm, um den Eingabetext auf dem Eingabetextanzeigebereich 150 darzustellen (Schritt 322). Daraufhin wird, wenn der Benutzer außerdem die Übersetzungstaste 164 drückt, die Verarbeitung der Schritte 304 bis 360 in 5 ausgeführt und wird die Textübersetzungsanforderung erzeugt und an den Server 106 übertragen. Der Anforderung sind der Textübersetzungsbefehl, die mit dem Sprachpaar gemäß den Einstellungen in Beziehung stehende Information, die Eingabetextdaten in der Quellsprache, das Datum und die Uhrzeit, zu dem/der die Übersetzungstaste 164 gedrückt wurde, die Identifikationsinformation des Benutzers und die Ausgangswerte der verschiedenen Sensoren hinzugefügt.
Nach dem Empfang der Anforderung übersetzt der Server 106 den Eingabetext in die Zielsprache und synthetisiert die Sprache durch die in 7 dargestellten Schritte 454, 478, 480, 482, 484 und 486. Außerdem erzeugt der Server 106 einen Merkmalsvektor vom Eingabetext und die verschiedene Information, die der Textübersetzungsanforderung hinzugefügt ist, und erzeugt unter Verwendung des Äußerungssequenzmodells 226 und des Übersetzungs-Score-Wertes jeder in der Äußerungskandidatenspeichereinheit 228 gespeicherten Äußerung die Äußerungskandidatenempfehlungsliste als eine Liste von Äußerungen in der Quellsprache, die eine hohe Wahrscheinlichkeit dafür haben, als nächste Äußerung ausgesprochen zu werden, und außerdem einen hohen Übersetzungs-Score-Wert haben. Dann überträgt der Server den das Übersetzungsergebnis darstellenden Text, die synthetisierte Sprache der Übersetzung und die Äußerungskandidatenempfehlungsliste an das tragbare Endgerät 104 zurück.
Nach dem Empfang der Antwort stellt das tragbare Endgerät 104 den das Übersetzungsergebnis darstellenden Text auf dem Übersetzungsergebnisanzeigebereich 170 dar und stellt die Äußerungskandidatenempfehlungsliste 192 und die Übersetzungsanforderungstasten 194 auf dem Äußerungskandidatenempfehlungsbereich 190 dar.
Auch hier wird die Äußerungskandidatenempfehlungsliste, die den Benutzer dabei unterstützt, über die nächste Äußerung nachzudenken, wie im Fall einer Sprachübersetzung auf dem Äußerungskandidatenempfehlungsbereich 190 dargestellt. Daher kann der Benutzer unabhängig davon, ob die nächste Äußerung durch Spracheingabe oder Tasteneingabe gemacht wird, der Benutzer einfach über die nächste Äußerung nachdenken.
Wie vorstehend beschrieben wurde, wird gemäß der vorliegenden Ausführungsform im Sprachübersetzungssystem 100, das eine Sprachübersetzung ausführt, wenn der Benutzer des tragbaren Endgeräts 104 eine Äußerung macht und dann versucht, die nächste Äußerung zu finden, die Äußerungskandidatenempfehlungsliste auf dem Bildschirm des tragbaren Endgeräts 104 dargestellt. Die dargestellten Äußerungskandidaten haben alle eine hohe Wahrscheinlichkeit dafür, nach der vorhergehenden Äußerung ausgesprochen zu werden, und haben außerdem eine hohe Wahrscheinlichkeit dafür, korrekt übersetzt zu werden. Daher wird es, wenn der Benutzer unter Bezug auf die Äußerungskandidaten über die nächste Äußerung nachdenkt, möglich, eine reibungslose Kommunikation mit dem Gesprächspartner fortzusetzen und kann die Wahrscheinlichkeit eines durch eine fehlerhafte Übersetzung verursachten Missverständnis vermindert werden.
Die hierin beschriebenen Ausführungsformen sind lediglich beispielhaft und sollten nicht als einschränkend interpretiert werden. Der Umfang der vorliegenden Erfindung ist durch die Ansprüche unter geeigneter Berücksichtigung der Beschreibung der Ausführungsformen bestimmt und schließt Modifikationen innerhalb der Inhalte und Äquivalente der Ansprüche ein.
Industrielle Anwendbarkeit
Die vorliegende Erfindung ist auf ein Endgerät anwendbar, das eine Kommunikation zwischen mehreren Personen unterstützt, insbesondere zwischen Personen mit verschiedenen Muttersprachen.
Bezugszeichenliste

100: Sprachübersetzungssystem
104: tragbares Endgerät
106: Server
108: Modellerzeugungseinheit
130: Anwendungsbildschirm
140: Sprachanzeigebereich
150: Eingabetextanzeigebereich
160: Rückübersetzungsbereich
180: Statusbereich
190: Äußerungskandidatenempfehlungsbereich
192: Äußerungskandidatenempfehlungsliste
220: Spracherkennungsverarbeitung
222: automatische Übersetzungsverarbeitung
224: Sprachsyntheseverarbeitung
226: Äußerungssequenzmodell
228: Äußerungskandidatenspeichereinheit
230: Äußerungskandidatenlistenerstellungsverarbeitung
232: Übertragungseinheit
418: Spracherkennungsmaschine
422: automatische Übersetzungsmaschine
424: Sprachsyntheseeinheit
426: Äußerungswahrscheinlichkeitsberechnungseinheit
428: Äußerungskandidatenempfehlungslistenerstellungseinheit

Claims

Sprachverarbeitungssystem mit: einer Äußerungseingabeeinrichtung zum Empfangen einer Eingabe einer Äußerungsinformation, die ein eine Äußerung darstellendes Sprachsignal und vorgegebene Umgebungsinformation enthält, die eine Umgebung darstellt, in der die Äußerung gemacht wird; einer Spracherkennungseinrichtung zum Ausführen einer Spracherkennung bezüglich des Sprachsignals in der durch die Äußerungseingabeeinrichtung empfangenen Äußerungsinformationen und zum Ausgeben eines Erkennungsergebnisses als Text; einer Datenverarbeitungseinrichtung zum Ausführen einer vorgegebenen Datenverarbeitung bezüglich des durch die Spracherkennungseinrichtung ausgegebenen Textes; einer Äußerungssequenzmodellspeichereinrichtung zum Speichern eines Äußerungssequenzmodell, das statistisch gelernt ist, so dass beim Empfang eines Textes einer Äußerung und der vorgegebenen Umgebungsinformation eine Wahrscheinlichkeit einer Äußerung in einer vorgegebenen Zusammenstellung von Äußerungen berechnet werden kann, die nach der durch den Text dargestellten Äußerung nacheinander ausgesprochen werden; einer Äußerungsspeichereinrichtung zum Speichern von Äußerungen in der vorgegebenen Zusammenstellung von Äußerungen und eines Zuverlässigkeitsgrades der Datenverarbeitung, wenn jede der Äußerungen in der Zusammenstellung von Äußerungen durch die Datenverarbeitungseinrichtung verarbeitet wird; und einer Äußerungskandidatenempfehlungseinrichtung, die in der Zusammenstellung von Äußerungen Äußerungskandidaten, die einem Benutzer empfohlen werden sollen, der die durch die Spracherkennungseinrichtung erkannte Äußerung gemacht hat, basierend auf einem Bewertungs-Score-Wert bewertet, der erhalten wird durch Kombinieren einer Wahrscheinlichkeit, die für jede Äußerung in der vorgegebenen Zusammenstellung durch das in der Äußerungssequenzmodellspeichereinrichtung gespeicherte Äußerungssequenzmodell berechnet wird, in einer vorgegebenen Form unter Verwendung des Erkennungsergebnisses der Spracherkennungseinrichtung der durch die Äußerungseingabeeinrichtung empfangenen Äußerungsinformation und der in der Sprachinformation enthaltenen Umgebungsinformation, und des Zuverlässigkeitsgrades der Datenverarbeitung bezüglich jeder Äußerung in der vorgegebenen Zusammenstellung von Äußerungen, und einen Äußerungskandidaten für den Benutzer basierend auf den Score-Werten empfiehlt.
Sprachverarbeitungssystem nach Anspruch 1, wobei die Datenverarbeitungseinrichtung eine automatische Übersetzungseinrichtung aufweist, die ein von der Spracherkennungseinrichtung ausgegebenes Erkennungsergebnis einer bestimmten Äußerung empfängt, zum automatischen Übersetzen des Erkennungsergebnisses in eine von der Sprache der vorgegebenen Äußerung verschiedene Sprache und zum Ausgeben des Übersetzungsergebnisses als einen Text, und wobei der Zuverlässigkeitsgrad eine Wahrscheinlichkeit dafür ist, dass das durch die automatische Übersetzungseinrichtung erhaltene Übersetzungsergebnisses eine Übersetzung der vorgegebenen Äußerung in die andere Sprache ist.
Sprachverarbeitungssystem nach Anspruch 2, wobei die Datenverarbeitungseinrichtung ferner eine Sprachsyntheseeinrichtung aufweist, die dazu geeignet ist, auf der Basis des von der automatischen Übersetzungseinrichtung ausgegebenen Textes in der anderen Sprache ein Sprachsignal der anderen Sprache zu synthetisieren.
Sprachverarbeitungssystem nach einem der Ansprüche 1 bis 3, wobei die Äußerungskandidatenempfehlungseinrichtung eine Einrichtung aufweist, die dazu geeignet ist, in der Zusammenstellung von Äußerungen einen Äußerungskandidaten, der der durch Spracherkennung durch die Spracherkennungseinrichtung erhaltenen Äußerung folgt, basierend auf einer Bewertung bezüglich einer linearen Summe der durch das Äußerungssequenzmodell für jede Äußerung in der vorgegebenen Zusammenstellung berechneten Wahrscheinlichkeit und des Zuverlässigkeitsgrades jeder Äußerung in der in der Äußerungsspeichereinrichtung gespeicherten vorgegebenen Zusammenstellung zu schätzen; und in der linearen Summe Koeffizienten des Zuverlässigkeitsgrades und der Wahrscheinlichkeit beide positiv sind.
Sprachverarbeitungssystem nach einem der Ansprüche 1 bis 4, ferner mit einer Äußerungskandidatenpräsentationseinrichtung, die dazu geeignet ist, einem Benutzer einen durch die Äußerungskandidatenempfehlungseinrichtung empfohlenen Äußerungskandidaten zu präsentieren.
Sprachverarbeitungssystem nach einem der Ansprüche 1 bis 5, ferner mit einer Äußerungstextinformationseingabeeinrichtung, die dazu geeignet ist, eine Äußerungstextinformation, die einen eine Äußerung darstellenden Text und die vorgegebene Umgebungsinformation aufweist, zu empfangen, um den Text in der Äußerungstextinformation an Stelle der Ausgabe der Spracherkennungseinrichtung der Äußerungskandidatenempfehlungseinrichtung und der Datenverarbeitungseinrichtung zuzuführen.
Endgerät mit: einem Mikrofon; einem Sensorsatz zum Erfassen von mit der Umgebung in Beziehung stehender Information; einer Displayeinrichtung; einer Kommunikationseinrichtung; und einer Äußerungsinformationsübertragungseinrichtung, die mit dem Mikrofon, dem Sensorsatz und der Kommunikationseinrichtung verbunden ist, zum Übertragen der Äußerungsinformation, die ein Sprachsignal, das von einem durch das Mikrofon nach dem Empfang einer Äußerung ausgegebenen Signal erhalten wird, und Umgebungsinformation enthält, die von dem Sensorsatz erhalten wird, wenn das Sprachsignal erhalten wird, an einen vorgegebenen Sprachverarbeitungsserver über die Kommunikationseinrichtung, und zum Anfordern einer Spracherkennung und einer vorgegebenen Datenverarbeitung bezüglich eines Erkennungsergebnisses; ferner mit: einer mit der Kommunikationseinrichtung verbundenen Verarbeitungsergebnispräsentationseinrichtung zum Empfangen eines Verarbeitungsergebnisses der Datenverarbeitung, das vom Sprachverarbeitungsserver in Antwort auf die Anforderung übertragen wird, und zum Präsentieren des Verarbeitungsergebnis für einen Benutzer; und einer Äußerungskandidatenempfehlungslistenanzeigeeinrichtung, die eine Äußerungskandidatenempfehlungsliste empfängt, in der mehrere vom Sprachverarbeitungsserver erhaltene Äußerungskandidaten empfohlen werden, und die Liste auf der Displayeinrichtung darstellt, um dem Benutzer Äußerungskandidaten zu empfehlen.
Endgerät nach Anspruch 7, wobei die durch den Sprachverarbeitungsserver bezüglich des Ergebnisses der Spracherkennung ausgeführte vorgegebene Datenverarbeitung eine Verarbeitung zum automatischen Übersetzen der Äußerung in eine von der Sprache der Äußerung verschiedene Sprache und ferner zum Synthetisieren einer Sprache eines Ergebnisses der automatischen Übersetzung ist; das durch den Sprachverarbeitungsserver übertragene Verarbeitungsergebnis der Datenverarbeitung ein Sprachsignal ist, das die durch den Sprachverarbeitungsserver synthetisierte Sprache darstellt; und die Verarbeitungsergebnispräsentationseinrichtung aufweist: einen Lautsprecher; und eine Einrichtung zum Ansteuern des Lautsprechers mit dem Sprachsignal, das die durch den Sprachverarbeitungsserver synthetisierte Sprache darstellt.
Endgerät nach Anspruch 7 oder 8, ferner mit: einer durch einen Benutzer bedienbaren Auswahleinrichtung zum Auswählen eines beliebigen durch die Äußerungskandidatenempfehlungsliste dargestellten Äußerungskandidaten; und einer Äußerungstextinformationsübertragungseinrichtung, die auf die Auswahl eines beliebigen der Äußerungskandidaten in der Äußerungskandidatenempfehlungsliste durch die Auswahleinrichtung anspricht, zum Übertragen von Äußerungstextinformation, die einen Text des ausgewählten Äußerungskandidaten und Information enthält, die von dem Sensorsatz erhalten wird, an einen vorgegebenen Sprachverarbeitungsserver über die Kommunikationseinrichtung, und zum Anfordern der vorgegebenen Datenverarbeitung bezüglich der Äußerungstextinformation.