DE112014007287B4

DE112014007287B4 - Spracherkennungsvorrichtung und Spracherkennungsverfahren

Info

Publication number: DE112014007287B4
Application number: DE112014007287.7T
Authority: DE
Inventors: Yuzo Maruta
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2019-10-31
Anticipated expiration: 2034-12-25
Also published as: US10403265B2; CN107112007B; US20180240455A1; JP6109451B2; DE112014007287T5; JPWO2016103358A1; WO2016103358A1; CN107112007A

Abstract

Spracherkennungsvorrichtung, die in einem Navigationssystem eingebaut ist, umfassend:
ein Glossare definierendes Spracherkennungs-Wörterbuch (5), das ein Ziel zur Spracherkennung ist; und
eine Spracherkennungs-Verarbeitungsschaltung (4), die konfiguriert ist, eine Spracherkennung von eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs durchzuführen,
wobei
die Spracherkennungs-Verarbeitungsschaltung beinhaltet
eine Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen (4A, 4B, 4C), die in der Lage sind, eine Spracherkennung unter Verwendung von Phonemen in jeweils vorbestimmten Sprachen durchzuführen,
das Spracherkennungs-Wörterbuch beinhaltet
eine Vielzahl von ersten Wörterbüchern (51A, 51B, 51C), mit denen jede der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen die Spracherkennung mit einem ersten Glossar durchführt, welches ein Glossar ist, das Phoneme in einer entsprechenden Sprache als die Sprache verwendet, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, und
eine Vielzahl von zweiten Wörterbüchern (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC), die jeweils von jeder der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet werden, um Phoneme in einer anderen Sprache, die sich von der entsprechenden Sprache unterscheidet, durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung mit einem zweiten Glossar, welches ein anderes Glossar ist, durchzuführen, wobei in den zweiten Wörterbüchern, jeweils für das zweite Glossar, Phoneme in der anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind,
die Spracherkennungsvorrichtung weiter umfasst:
eine Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6), die konfiguriert ist, die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen einzustellen, wobei die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, basierend auf einem Ziel des Navigationssystems einstellt; und
eine Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), die konfiguriert ist, aus der Vielzahl von ersten Wörterbüchern das erste Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt; und von der Vielzahl von zweiten Wörterbüchern das zweite Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache, durchführt.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung, die zum Durchführen von Spracherkennung in der Lage ist, und ein Spracherkennungsverfahren.
Hintergrund
Es wird ein Navigationssystem vorgeschlagen, das eine Spracherkennungsvorrichtung aufweist, die darin eingebaut ist, um Spracherkennung von einer Stimme eines Anwenders zu gestatten, so dass eine Adresse eingegeben werden kann. Wenn ein solches Navigationssystem in einem Bereich wie Europa verwendet wird, unterscheidet sich eine Sprache, die als eine Sprache eingestellt ist, die im Navigationssystem verwendet wird (nachfolgend als Systemeinstellungssprache bezeichnet) von einer Sprache, die ein Ziel ausdrückt. Beispielsweise in einem Fall, bei dem ein Anwender Engländer ist und ein Ziel einer Adresse in Deutschland ist, wird erwartet, dass die Systemeinstellungssprache Englisch ist und eine, ein Ziel ausdrückende Sprache Deutsch ist.
Hier werden Phoneme (äquivalent zu phonetischen Symbolen) für einen Ortsnamen zum Durchführen von Spracherkennung des Ortsnamens durch ein Kartenerstellungsunternehmen bereitgestellt, die typischerweise Phoneme in einer Sprache sind, die hauptsächlich im Bereich des Ortsnamens verwendet werden. Beispielsweise werden für den Namen eines Orts in Deutschland deutsche Phoneme als Phoneme verwendet. Entsprechend, wenn eine ein Ziel ausdrückende Sprache Deutsch ist, ist es im Hinblick auf die Effizienz wünschenswert, ein Spracherkennungs-Wörterbuch zu verwenden, das durch ein Kartenerstellungsunternehmen bereitgestellte deutsche Phoneme enthält, und eine dem Wörterbuch entsprechende Spracherkennungs-„Engine“ für Deutsch.
Andererseits ist es üblich, dass eine Muttersprache eines Anwenders als Systemeinstellungssprache verwendet wird. Entsprechend, wenn die Systemeinstellungssprache Englisch ist, ist es wünschenswert, eine Spracherkennungs-Engine für Englisch zu verwenden.
Daher wird in einem Fall, bei welchem die Systemeinstellungssprache Englisch ist und die ein Ziel ausdrückende Sprache Deutsch ist, ein für die ein Ziel ausdrückende Sprache wünschenswertes Spracherkennungs-Wörterbuch sich von einem für die Systemeinstellungssprache wünschenswerten Spracherkennungs-Wörterbuch unterscheiden.
Jedoch, da einige der in einer von englischen und deutschen Sprachen enthaltenen Phoneme (Aussprache) nicht in der anderen der Sprachen enthalten sind, hat es ein Problem damit gegeben, dass eine Spracherkennungs-Engine für englische oder deutsche Sprache die Phoneme für die andere der Sprachen nicht handhaben kann.
Um dieses Problem zu lösen, ist eine Technik vorgeschlagen worden, die ein Spracherkennungs-Wörterbuch verwendet, in welchem ein Phonem A in einer Sprache A mit einem von Phonemen B in einer Sprache B assoziiert ist, das identisch oder am ähnlichsten zum Phonem A ist (z.B. JP 2011-033874 A ).
Die Verwendung eines solchen Spracherkennungs-Wörterbuchs gestattet es, dass Phoneme in der Sprache A durch Phoneme in der Sprache B ersetzt werden, um eine Spracherkennung mit der Spracherkennungs-Engine in der Sprache B durchzuführen. Nachfolgend wird in einem Spracherkennungs-Wörterbuch das Assoziieren von Phonemen in einer Sprache mit Phonemen in einer anderen Sprache auch als „Phonem-Kartierung“ bezeichnet.
Eine vergleichbare „Phonem-Kartierung“ wird auch in US 2005 / 0 197 835 A1 beschrieben, wo Wörter einer Muttersprache und Fremdwörter mit Phonemen der Muttersprache beschrieben werden. Dies ermöglicht jedoch nur die verbesserte Erkennung von Wörtern wenn sie von einem Nicht-Muttersprachler ausgesprochen werden. Die Kombination verschiedener Sprachen in einer Äußerung kann demnach nicht erkannt werden. US 2013/0 166 290 A1 offenbart ein Verfahren mit dem eine Äußerung in einen Teil der Befehle enthält und einen Teil der Daten enthält, aufgeteilt werden können. Jedoch beschränkt sich dieses Verfahren auf eine Sprache und kann (auch in Kombination mit US 2005 / 0 197 835 A1 oder JP 2011-033874 A ) eine Kombination verschiedener Sprachen in einer Äußerung erkennen.
Zusammenfassung der Erfindung
Durch die Erfindung zu lösende Probleme
Jedoch weist eine konventionelle Spracherkennungsvorrichtung Probleme auf, dass eine Spracherkennung von einer, eine Mehrzahl von Sprachen enthaltenen Stimme nicht durchgeführt werden kann, und dass eine Datengröße eines Spracherkennungs-Wörterbuchs, in welchem eine Phonem-Kartierung wie oben beschrieben angewendet worden ist, relativ groß ist.
Somit ist die vorliegende Erfindung im Hinblick auf die obigen Probleme gemacht und ihre Aufgabe ist es, eine Technik bereitzustellen, welche die Spracherkennung einer Stimme gestattet, die eine Mehrzahl von Sprachen enthält, während eine Datengröße eines Spracherkennungs-Wörterbuchs gemindert wird.
Mittel zum Lösen der Probleme
Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung beinhaltet ein Spracherkennungs-Wörterbuch, das ein Glossar definiert, das ein Ziel zur Spracherkennung ist; und eine Spracherkennungs-Verarbeitungsschaltung, die konfiguriert ist, eine Spracherkennung von eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs durchzuführen. Die Spracherkennungs-Verarbeitungsschaltung beinhaltet eine Mehrzahl von ersten Wörterbüchern, mit denen jede der Mehrzahl von sprach-spezifischen Sprachkennungs-Verarbeitungsschaltungen die Spracherkennung eines ersten Glossars durchführt, welches entweder das Glossar ist, das Phoneme in der entsprechenden Sprache verwendet, als die Sprache, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, und eine Mehrzahl von zweiten Wörterbüchern, die alle durch jede der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet werden, um Phoneme in einer anderen Sprache als die sich von der entsprechenden Sprache unterscheidende Sprache durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung eines zweiten Glossars, welches ein anderes Glossar ist, der zweiten Wörterbücher durchzuführen, in welchen jeweils für das zweite Glossar Phoneme in der anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind. Die Spracherkennungsvorrichtung beinhaltet weiter: eine Spracherkennungs-Spracheinstell-Verarbeitungsschaltung, die konfiguriert ist, die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen einzustellen; und eine Spracherkennungs-Wörterbuch-Einstellverarbeitungsschaltung, die konfiguriert ist, aus der Mehrzahl von ersten Wörterbüchern das erste Wörterbuch, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt, einzustellen; und von der Mehrzahl von zweiten Wörterbüchern das zweite Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Ein Spracherkennungsverfahren gemäß der vorliegenden Erfindung beinhaltet die Schritte: Vorbereiten eines Spracherkennungs-Wörterbuchs, das ein Glossar definiert, welches ein Ziel zur Spracherkennung ist; und Durchführen von Spracherkennung an eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs. Das Durchführen der Spracherkennung beinhaltet das Vorbereiten einer Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen, die zur Durchführung der Spracherkennung unter Verwendung von Phonemen in entsprechend vorbestimmten Sprachen in der Lage sind. Das Vorbereiten des Spracherkennungs-Wörterbuchs beinhaltet das Vorbereiten einer Mehrzahl von ersten Wörterbüchern, mit welchen jede der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen die Spracherkennung eines ersten Glossars durchführt, welches eines des Glossars ist, das Phoneme in der entsprechenden Sprache als der Sprache, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, verwendet, und einer Mehrzahl zweiter Wörterbücher, die jedes durch jede der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet wird, um Phoneme in einer anderen Sprache als die sich von der entsprechenden Sprache unterscheidende Sprache durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung eines zweiten Glossars, welches ein anderes des Glossars ist, durchzuführen, der zweiten Wörterbücher, in denen jeweils für ein zweites Glossar Phoneme in einer anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind. Das Spracherkennungsverfahren beinhaltet weiter: Einstellen der sprachspezifischen Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen; und Einstellen einer Spracherkennungs-Wörterbuch-Einstellverarbeitungsschaltung, aus der Mehrzahl von ersten Wörterbüchern das erste Wörterbuch, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt,; und von der Mehrzahl von zweiten Wörterbüchern das zweite Wörterbuch, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Effekte der Erfindung
Gemäß der vorliegenden Erfindung ist es möglich, eine Spracherkennung von Stimme durchzuführen, die eine Mehrzahl von Sprachen enthält, während eine Datengröße eines Spracherkennungs-Wörterbuches vermindert wird.
Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden aus der nachfolgenden detaillierten Beschreibung zusammen mit den beigefügten Zeichnungen ersichtlicher.
Figurenliste

1 ist ein Blockdiagramm, welches eine Hardware-Konfiguration einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 illustriert.
2 ist ein Blockdiagramm, das eine Haupt-Konfiguration der Spracherkennungsvorrichtung gemäß Ausführungsform 1 illustriert.
3 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung gemäß Ausführungsform 1 illustriert.
4 ist ein Diagramm, das Phonem-Kartierung gemäß Ausführungsform 1 illustriert.
5 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 zeigt.
6 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 zeigt.
7 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 2 zeigt.

Beschreibung von Ausführungsformen
Ausführungsform 1
Nachfolgend wird eine Beschreibung gegeben, wobei eine Konfiguration angenommen wird, in der als ein Beispiel eine Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung in ein Navigationssystems (oder eine Navigationsvorrichtung) eingebaut ist.
1 ist ein Blockdiagramm, das eine Hardware-Konfiguration einer Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 illustriert. Die Spracherkennungsvorrichtung in 1 beinhaltet einen Prozessor 81, der beispielsweise durch eine CPU (Zentraleinheit) und einen Speicher 82 aufgebaut ist, der beispielsweise durch einen Halbleiterspeicher aufgebaut ist.
2 ist ein Blockdiagramm, das eine Hauptfunktions-Konfiguration der Spracherkennungsvorrichtung gemäß Ausführungsform 1 illustriert. Die Spracherkennungsvorrichtung in 2 beinhaltet eine Spracherkennungseinheit 4, ein Spracherkennungs-Wörterbuch 5, eine Spracherkennungs-Spracheinstelleinheit 6 und eine Spracherkennungs-Wörterbuch-Einstelleinheit 7. Hier werden die Spracherkennungseinheit 4, die Spracherkennungs-Spracheinstelleinheit 6 und die Spracherkennungs-Wörterbuch-Einstelleinheit 7 durch den Prozessor 81 in 1 realisiert, der in einer Speichervorrichtung wie etwa dem Speicher 82 gespeicherte Programme als Funktion des Prozessors 81 ausführt. Es sollte angemerkt werden, dass diese Funktionen durch eine Mehrzahl von Prozessoren 81 kooperativ realisiert werden können. Das Spracherkennungs-Wörterbuch 5 entspricht einer Speichervorrichtung wie etwa dem Speicher 82 in 1 und einer HDD (Festplattenlaufwerk), die nicht illustriert ist.
3 ist ein Blockdiagramm, das eine Hauptfunktions-Konfiguration und eine Zusatzfunktions-Konfiguration der Spracherkennungsvorrichtung illustriert. Hier ist die Zusatzkonfiguration, die nur in 3 illustriert ist, eine Konfiguration, die sich nur indirekt auf die vorliegende Erfindung bezieht, und es können verschiedene andere Konfigurationen außer der unten beschriebenen Konfiguration eingesetzt werden. Die Spracherkennungsvorrichtung in 3 beinhaltet, zusätzlich zu den Komponenten in 2, eine Stimmeingabeeinheit 1, eine Stimmeinführeinheit 2 und eine Tonanalyseeinheit 3.
Als Nächstes werden Komponenten der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1, die in 2 und 3 illustriert ist, im Detail beschrieben.
Die Stimmeingabeeinheit 1 erfasst Stimme von außerhalb (z.B. einen Anwender). Die Stimmeinführeinheit 2 wandelt die durch die Stimmeingabeeinheit 1 erfasste Stimme in ein Digitalsignal um, um ein Stimmsignal zu erzeugen. Die Tonanalyseeinheit 3 analysiert das Stimmsignal und wandelt das Stimmsignal in eine Vektorsequenz einer chronologischen Abfolge von akustischen Merkmalen um.
Die Spracherkennungseinheit 4 führt eine Spracherkennung von eingegebener Stimme (einer Vektorsequenz oder einer chronologischen Sequenz von akustischen Merkmalen) unter Verwendung des Spracherkennungs-Wörterbuchs 5 durch, das ein Glossar definiert, welches ein Ziel zur Spracherkennung ist. Als Ergebnis gibt die Spracherkennungseinheit 4 ein Wort oder einen Ausdruck, der aus dem Glossar der Spracherkennungs-Wörterbuch 5 am wahrscheinlichsten ist, aus.
In dieser Ausführungsform 1 beinhaltet die Spracherkennungseinheit 4 sprachspezifische Spracherkennungseinheiten 4A, 4B und 4C als eine Mehrzahl von sprachspezifischen Spracherkennungseinheiten (nachfolgend gemeinsam als „sprachspezifische Spracherkennungseinheiten 4A bis 4C“ bezeichnet).
Die sprachspezifischen Spracherkennungseinheiten 4A bis 4C sind Spracherkennungs-Engines, die in der Lage sind, eine Spracherkennung unter Verwendung von Phonemen in den entsprechenden vorbestimmten Sprachen durchzuführen. Beispielsweise weist die sprachspezifische Spracherkennungseinheit 4A ein akustisches Modell (nicht illustriert) zur Erkennung in einer Sprache A auf, die der sprachspezifischen Spracherkennungseinheit 4A korrespondiert, und in der Lage ist, eine Spracherkennung unter Verwendung von Phonemen in der Sprache A durchzuführen. Die sprachspezifische Spracherkennungseinheit 4B und die sprachspezifische Spracherkennungseinheit 4C sind auch ähnlich konfiguriert und sind in der Lage, eine Spracherkennung unter Verwendung von Phonemen in einer Sprache B und in einer Sprache C durchzuführen, die jeweils zur sprachspezifischen Spracherkennungseinheit 4B und der sprachspezifischen Spracherkennungseinheit 4C korrespondiert.
Es sollte angemerkt werden, dass in der nachfolgenden Beschreibung eine, einer der sprachspezifischen Spracherkennungseinheiten 4A bis 4C korrespondierende Sprache als eine „entsprechende Sprache“ bezeichnet wird und eine andere Sprache als die entsprechende Sprache als eine „andere Sprache“ bezeichnet wird. Spezifisch ist eine Sprache A eine entsprechende Sprache A für die sprachspezifische Spracherkennungseinheit 4A, und eine andere Sprache A für die sprachspezifische Spracherkennungseinheit 4B.
Unter Verwendung der sprachspezifischen Spracherkennungseinheiten 4A bis 4C ist die Spracherkennungseinheit 4 in der Lage, eine Spracherkennung in einer von entsprechenden Sprachen A bis C, je nachdem, durchzuführen.
Das Spracherkennungs-Wörterbuch 5 definiert ein Glossar, welches ein Ziel zur Spracherkennung ist. In dieser Ausführungsform 1 beinhaltet das Spracherkennungs-Wörterbuch 5 Ortsnamen-Wörterbücher 51A, 51B und 51C als eine Mehrzahl erster Wörterbücher (nachfolgend gemeinsam als „Ortsnamen-Wörterbücher 51A bis 51C“ bezeichnet), Hausnummer-Wörterbücher 52AA, 52BB und 52CC und Hausnummer-Wörterbücher 52BA, 52CA, 52AB, 52CB, 52AC und 52BC als eine Mehrzahl von zweiten Wörterbüchern. Es sollte angemerkt werden, dass in der nachfolgenden Beschreibung die Hausnummer-Wörterbücher 52BA, 52CA, 52AB, 52CB, 52AC und 52BC gemeinsam als „Hausnummer-Wörterbücher 52BA-52BC“ bezeichnet werden.
Die Ortsnamen-Wörterbücher 51A bis 51C sind Wörterbücher, mit denen die sprachspezifischen Spracherkennungseinheiten 4A bis 4C eine Spracherkennung eines Worts oder Ausdrucks in einem Glossar von Ortsnamen (erstes Glossar) unter Verwendung von Phonemen in jeweils den entsprechenden Sprachen A bis C durchführen. Beispielsweise definiert das Ortsnamen-Wörterbücher 51A ein Glossar von Ortsnamen, die hauptsächlich in der entsprechenden Sprache A verwendet werden, unter Verwendung des Ortsnamen-Wörterbuchs 51A ist die sprachspezifische Spracherkennungseinheit 4A in der Lage, eine Spracherkennung durchzuführen, um einen Ortsnamen in Phonemen der entsprechenden Sprache A zu spezifizieren, aus eingegebener Stimme in Phonemen der entsprechenden Sprache A.
Jedoch, da die Phoneme in der entsprechenden Sprache A sich üblicherweise von Phonemen in den Sprachen B und C unterscheiden, ist die sprachspezifische Spracherkennungseinheit 4A nicht in der Lage, eine Spracherkennung durchzuführen, um den Ortsnamen in Phonemen der entsprechenden Sprache A aus eingegebener Stimme in Phonemen anderer Sprachen B und C, die andere sind als die entsprechende Sprache A, zu spezifizieren. Dies gilt auch für die sprachspezifischen Spracherkennungseinheiten 4B und 4C.
Die Hausnummer-Wörterbücher 52AA, 52BB, und 52CC sind Wörterbücher, mit welchen die sprachspezifischen Spracherkennungseinheiten 4A bis 4C eine Spracherkennung eine Worts oder Ausdrucks in einem Glossar von Hausnummern (Hausnummern) (zweites Glossar) unter Verwendung von Phonemen jeweils in den entsprechenden Sprachen A bis C durchführen. Beispielsweise unter Verwendung des Hausnummer-Wörterbuchs 52AA, ist die sprachspezifische Spracherkennungseinheit 4A in der Lage, eine Spracherkennung zum Spezifizieren einer Hausnummer in Phonemen der entsprechenden Sprache A aus Eingabestimmen in Phonemen der entsprechenden Sprache A durchzuführen. Dies gilt auch für die sprachspezifischen Spracherkennungseinheiten 4B und 4C.
Die Hausnummer-Wörterbücher 52BA und 52CA sind Wörterbücher, mit welchen die sprachspezifische Spracherkennungseinheit 4A eine Spracherkennung eines Worts oder Ausdrucks in einem Glossar von Hausnummern (zweites Glossar, ein Glossar vorbestimmter Nummern) durchführt, unter Verwendung von Phonemen in den jeweiligen anderen Sprachen B und C, in denen Phoneme in der entsprechenden Sprache A substituiert sind.
4 ist ein Diagramm, welches die Hausnummer-Wörterbücher 52AA, 52BA und 52CA illustriert. Wie in 4 illustriert, wird ausschließlich des Hausnummer-Wörterbuchs 52AA Phonem-Kartierung auf die Hausnummer-Wörterbücher 52BA und 52CA angewendet.
Das Hausnummer-Wörterbücher 52BA ist ein Spracherkennungs-Wörterbuch, in welchem für ein Wort oder Ausdruck in einem Glossar von Hausnummern (zweites Glossar, ein Glossar vorbestimmter Nummern) ein Phonem B in der anderen Sprache B auf eines von Phonemen A in der entsprechenden Sprache A, die identisch oder am ähnlichsten zum Phonem b ist, kartiert wird. Das Hausnummer-Wörterbücher 52CA ist ein Spracherkennungs-Wörterbuch, in welchem als ein Wort oder Ausdruck in einem Glossar von Hausnummern (zweites Glossar, ein Glossar vorbestimmter Nummern) ein Phonem c in einer anderen Sprache C auf eines von Phonemen a in einer entsprechenden Sprache A kartiert wird, das identisch oder am ähnlichsten zum Phonem c ist. Es sollte angemerkt werden, dass als die Phonem-Kartierung beispielsweise die in JP 2011 - 033874 offenbarte Technologie verwendet werden kann.
Unter Verwendung des Hausnummer-Wörterbuchs 52AA ist die sprachspezifische Spracherkennungseinheit 4A in der Lage, eine Spracherkennung durchzuführen, um eine Hausnummer in Phonemen der entsprechenden Sprache A aus eingegebener Stimme in Phonemen der entsprechenden Sprache A zu spezifizieren.
Unter Verwendung des Hausnummer-Wörterbuchs 52BA substituiert die sprachspezifische Spracherkennungseinheit 4A eingegebene Stimme in Phonemen der anderen Sprache B für Stimme durch Phoneme der entsprechenden Sprache A, die identisch oder am ähnlichsten sind, und ist in der Lage, eine Spracherkennung durchzuführen, um die Hausnummer in Phonemen der entsprechenden Sprache A aus der substituierten eingegebenen Stimme zu spezifizieren.
Unter Verwendung des Hausnummer-Wörterbuchs 52CA substituiert die sprachspezifische Spracherkennungseinheit 4A eingegebene Stimme in Phonemen der anderen Sprache C durch Stimme in Phonemen der entsprechenden Sprache A, die identisch oder am ähnlichsten sind, und ist in der Lage, eine Spracherkennung durchzuführen, um eine Hausnummer in Phonemen der entsprechenden Sprache A aus der substituierten eingegebenen Stimme zu spezifizieren.
In dieser Weise ist die sprachspezifisch Spracherkennungseinheit 4A in der Lage, eine Spracherkennung unter Verwendung der Hausnummer-Wörterbücher 52AA, 52BA und 52CA durchzuführen.
Während die Hausnummer-Wörterbücher 52BA und 52CA oben beschrieben sind, gilt dasselbe für die Hausnummer-Wörterbücher 52AB, 52CB, 52AC und 52BC in 2 und 3. Mit anderen Worten sind die Hausnummer-Wörterbücher 52AB und 52CB Spracherkennungs-Wörterbücher, die in der sprachspezifischen Spracherkennungseinheit 4B verwendet werden, um Phoneme in den anderen Sprachen A und C durch Phoneme in der entsprechenden Sprache B zu substituieren, um eine Spracherkennung eines Worts oder Ausdrucks in einem Glossar von Hausnummern durchzuführen. In jenen Wörterbüchern werden für das Wort oder den Ausdruck der Hausnummer im Glossar die Phoneme in den anderen Sprachen A und C auf die Phoneme in der entsprechenden Sprache B kartiert. Die Hausnummer-Wörterbücher 52AC und 52BC sind Spracherkennungs-Wörterbücher, die in der sprachspezifischen Spracherkennungseinheit 4C verwendet werden, um Phoneme in den anderen Sprachen A und B durch Phoneme in der entsprechenden Sprache C zu substituieren, um eine Spracherkennung eines Worts oder Ausdrucks in einem Glossar von Hausnummer durchzuführen. In jenen Wörterbüchern werden für das Wort oder Ausdruck in der Hausnummer im Glossar die Phoneme in den anderen Sprachen A und B auf die Phoneme in der entsprechenden Sprache C kartiert.
Von den sprachspezifischen Spracherkennungseinheiten 4A bis 4C stellt die Spracherkennungs-Spracheinstelleinheit 6 eine in einer Spracherkennung zu verwendende, sprachspezifische Spracherkennungseinheit ein. In dieser Ausführungsform 1 wird angenommen, dass ein Ziel (z.B. ein Zwischenhalt oder ein Endziel) im oben beschriebenen Navigationssystem vorab durch den Anwender eingestellt wird und die Spracherkennungs-Spracheinstelleinheit 6 eine sprachspezifische Spracherkennungseinheit, die bei der Spracherkennung zu verwenden ist, basierend auf dem Ziel einstellen würde.
Beispielsweise speichert die Spracherkennungs-Spracheinstelleinheit 6 vorab eine Tabelle, die eine Mehrzahl von Flächen mit Sprachen assoziiert, die hauptsächlich in den entsprechenden Flächen verwendet werden. Dann erfasst die Spracherkennungs-Spracheinstelleinheit 6 eine mit einer Fläche, zu welcher ein Ortsname des Ziels gehört, assoziierte Sprache aus der Tabelle, und stellt eine bei der Spracherkennung verwendete sprachspezifische Spracherkennungseinheit in der erfassten Sprache ein.
In der nachfolgenden Beschreibung wird die sprachspezifische Spracherkennungseinheit, welche durch die Spracherkennungs-Spracheinstelleinheit 6 eingestellt worden ist, auch als eine „eingestellte Spracherkennungseinheit“ bezeichnet.
Als Nächstes wird das Einstellen eines Ortsnamen-Wörterbuchs und eines Hausnummer-Wörterbuchs durch die Spracherkennungs-Wörterbuch-Einstelleinheit 7 beschrieben.
Die Spracherkennungs-Wörterbuch-Einstelleinheit 7 stellt ein Ortsnamen-Wörterbuch von den Ortsnamen-Wörterbüchern 51A bis 51C ein, mit welchem die eingestellte Spracherkennungseinheit (eine sprachspezifische Spracherkennungseinheit, welche durch die Spracherkennungs-Spracheinstelleinheit 6 eingestellt ist) die Spracherkennung eines Ortsnamens unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Wenn beispielsweise die eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit 4A ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 das Ortsnamen-Wörterbuch 51A ein.
Weiter, wenn die Systemeinstellungssprache (eine durch das Navigationssystem eingestellte Sprache) dieselbe wie die entsprechende Sprache für die eingestellte Spracherkennungseinheit ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein Hausnummer-Wörterbuch von den Hausnummer-Wörterbüchern 52AA, 52BB und 52CC ein, mit welchem die eingestellte Spracherkennungseinheit Spracherkennung einer Hausnummer unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Wenn beispielsweise die eingestellte Spracherkennungseinheit eine sprachspezifische Spracherkennungseinheit 4A ist, und die Systemeinstellungssprache die entsprechende Sprache A für die sprachspezifische Spracherkennungseinheit 4A ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 das Hausnummer-Wörterbücher 52AA ein.
Wenn andererseits die Systemeinstellungssprache nicht dieselbe ist wie die entsprechende Sprache für die eingestellte Spracherkennungseinheit, sondern eine andere Sprache, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein Hausnummer-Wörterbuch von den Hausnummer-Wörterbüchern 52BA bis 52BC, mit welchem die eingestellte Spracherkennungseinheit eine Spracherkennung einer Hausnummer durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache, ein. Wenn beispielsweise die eingestellte Spracherkennungseinheit eine sprachspezifische Spracherkennungseinheit 4A ist und die Systemeinstellungssprache die andere Sprache B für die sprachspezifische Spracherkennungseinheit 4A ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 das Hausnummer-Wörterbuch 52BA ein. Mit anderen Worten, wenn die Systemeinstellungssprache eine andere Sprache ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein Hausnummer-Wörterbuch, in welchem die andere Sprache und die Systemeinstellungssprache die gleiche sind, als ein Hausnummer-Wörterbuch ein, mit welchem die eingestellte Spracherkennungseinheit arbeitet, eine Spracherkennung durchzuführen, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Es sollte angemerkt werden, dass die eingestellte Spracherkennungseinheit so konfiguriert ist, dass eine Spracherkennung an einem ersten vorbestimmten Bereich der eingegebenen Stimme in einer Eingangsreihenfolge durchgeführt wird, unter Verwendung eines Ortsnamen-Wörterbuches (irgendeines der Ortsnamen-Wörterbücher 51A bis 51C). Weiter ist die eingestellte Spracherkennungseinheit so konfiguriert, dass eine Spracherkennung durchgeführt wird an einem vorbestimmten zweiten Bereich der eingegebenen Stimme in der Eingangsreihenfolge, unter Verwendung eines Hausnummer-Wörterbuchs (irgendeines der Hausnummer-Wörterbücher 52AA, 52BB und 52CC und der Hausnummer-Wörterbücher 52BA bis 52BC).
Hier wird im Allgemeinen, da ein Ortsnamen vor einer Hausnummer in einer einzelnen Äußerung für Stimmeingabe einer Adresse geäußert wird, angenommen, dass in dieser Ausführungsform 1 der erste Bereich auf eine erste Hälfte von eingegebener Stimme in der Eingangsreihenfolge angewendet wird und der zweite Bereich auf eine letztere Hälfte der Eingangsstimme in der eingegebenen Reihenfolge angewendet wird.
Betrieb
5 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 zeigt. Es sollte angemerkt werden, dass nachfolgend eine Beschreibung unter Verwendung eines Falls gegeben wird, in welchem als ein Beispiel eine Adresse des Ziels in Deutschland (eine Zielsprache ist Deutsch) ist, die Systemeinstellungssprache Englisch ist, eine sprachspezifische Spracherkennungseinheit für Deutsch die sprachspezifische Spracherkennungseinheit 4A ist, ein Ortsnamen-Wörterbuch für Deutsch das Ortsnamen-Wörterbuch 51A ist, ein Hausnummer-Wörterbuch, in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, das Hausnummer-Wörterbuch 52BA ist. Jedoch ist dies lediglich ein Beispiel und die vorliegende Erfindung ist nicht auf dieses Beispiel beschränkt.
Zuerst erfasst (empfängt) in Schritt S1 die Stimmeingabeeinheit 1 Stimme (Äußerung) vom Anwender. Im Schritt S2 erzeugt die Stimmeinführeinheit 2 ein Stimmsignal aus der durch die Stimmeingabeeinheit 1 erfassten Stimme. Im Schritt S3 analysiert die Tonanalyseeinheit 3 das Stimmsignal und wandelt das Stimmsignal in eine Vektorsequenz, eine chronologische Sequenz oder dergleichen, von akustischen Merkmalen um.
Im Schritt S4 stellt von den sprachspezifischen Spracherkennungseinheiten 4A bis 4C die Spracherkennungs-Spracheinstelleinheit 6 eine sprachspezifische Spracherkennungseinheit ein (wählt sie aus) basierend auf dem Ziel. Im obigen Beispiel, da das Ziel einen Ortsnamen in Deutschland hat, stellt die Spracherkennungs-Spracheinstelleinheit 6 die sprachspezifische Spracherkennungseinheit 4A für Deutsch ein. Spezifisch ist die eingestellte Spracherkennungseinheit eine sprachspezifische Spracherkennungseinheit 4A für Deutsch.
Im Schritt S5 stellt (selektiert) die Spracherkennungs-Wörterbuch-Einstelleinheit 7 einen Ortsnamen-Wörterbuch von den Ortsnamen-Wörterbüchern 51A bis 51C ein, mit welchen die eingestellte Spracherkennungseinheit eine Spracherkennung eines Ortsnamens unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Im obigen Beispiel, da die eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit 4A für Deutsch ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 das Ortsnamen-Wörterbuch 51A für Deutsch ein.
Im Schritt S6 stellt (selektiert) die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein Hausnummer-Wörterbuch aus den Hausnummer-Wörterbüchern 52AA, 52BB und 52CC und den Hausnummer-Wörterbüchern 52BA bis 52BC ein, mit welchen die eingestellte Spracherkennungseinheit Spracherkennung einer Hausnummer unter Verwendung von Phonemen in der Systemeinstellungssprache durchführt. Im obigen Beispiel, da die eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit 4A für Deutsch ist und die Systemeinstellungssprache Englisch ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 das Hausnummer-Wörterbuch 52BA, in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, ein.
Im Schritt S7 bezieht sich die Spracherkennungseinheit 4 auf das Spracherkennungs-Wörterbuch 5 und führt eine Spracherkennung für akustische Daten durch, welche der Tonanalyse unterworfen worden sind, um ein Erkennungsergebnis, das am wahrscheinlichsten ist, auszugeben. Im obigen Beispiel führt die sprachspezifische Spracherkennungseinheit 4A für Deutsch eine Spracherkennung unter Verwendung des Ortsnamen-Wörterbuchs 51A der ersten Hälfte der eingegebenen Stimme in der Eingangsreihenfolge durch und führt eine Spracherkennung unter Verwendung des Hausnummer-Wörterbuchs 52BA, in welchem eine Kartierung auf die letztere Hälfte der eingegebenen Stimme in der Eingangsreihenfolge angewendet worden ist, durch. Das aus der Spracherkennungseinheit 4 im Schritt S7 ausgegebene Erkennungsergebnis wird als Stimme aus einem Lautsprecher, der nicht illustriert ist, ausgegeben oder auf einer Anzeigevorrichtung, die nicht illustriert ist, angezeigt. Dann endet der Betrieb in 5.
Abschluss von Ausführungsform 1
Als ein Beispiel wird ein Fall angenommen, bei dem ein Engländer als Anwender (wobei Englisch die Systemeinstellungssprache ist) eine Stimmeingabe einer Adresse in Deutschland als Ziel durchführt. In diesem Fall wird erwartet, das der Engländer einen Ortsnamen in Deutschland (z.B. „Stuttgart Neckarstraße“) in deutscher Aussprache äußert und dann eine Hausnummer (z.B. „one, two, three“) ein englischer Aussprache.
Hier ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 in der Lage, eine Spracherkennung „Stuttgart Neckarstraße“ beispielsweise unter Verwendung eines ersten Wörterbuches (dem Ortsnamen-Wörterbüchern 51A bis 51C) durchzuführen. Dann ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 in der Lage, Spracherkennung beispielsweise an „one, two, three“ unter Verwendung eines zweiten Wörterbuchs durchzuführen, in welchem eine Phonem-Kartierung angewendet worden ist (Hausnummer-Wörterbücher 52BA bis 52BC). Gemäß einer solchen Konfiguration ist es beispielsweise möglich, Spracherkennung einer einzelnen Äußerung durchzuführen, die eine Mehrzahl von Sprachen wie etwa Deutsch und Englisch unterhält. Weiter, indem keine Phonem-Kartierung an Ortsnamen und dergleichen durchgeführt wird, ist es möglich, ein Verhältnis der Spracherkennungs-Wörterbücher mit relativ großer Datengröße, und in denen Phonem-Kartierung angewendet worden ist, zu reduzieren. Als Ergebnis ist es möglich, die Datengröße der Spracherkennungs-Wörterbücher zu reduzieren. Zusätzlich wird auch eine Reduktion einer falschen Erkennung erwartet.
Weiter führt die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 eine Spracherkennung am vorbestimmten ersten Bereich der eingegebenen Stimme in Eingangsreihenfolge unter Verwendung des Ortsnamen-Wörterbuchs durch und Spracherkennung am vorbestimmten zweiten Teil der eingegebenen Stimme in Eingangsreihenfolge unter Verwendung des Hausnummer-Wörterbuchs. Damit ist es möglich, die Genauigkeit bei der Spracherkennung zu verbessern.
Variationen von Ausführungsform 1
In Ausführungsform 1 ist das zweite Glossar jedes der zweiten Wörterbücher, in welchen Phonem-Kartierung angewendet worden ist (die Hausnummer-Wörterbücher 52BA bis 52BC) ein Glossar von Hausnummern. Jedoch ist die vorliegende Erfindung nicht auf ein solches Beispiel beschränkt und das zweite Glossar jedes der zweiten Wörterbücher kann ein Glossar vorbestimmter Nummern wie etwa Postleitzahlen sein.
Weiter kann das zweite Glossar des zweiten Wörterbuchs ein Glossar für eine vorbestimmte Kategorie von POI (Point Of Interest, interessanter Punkt) in einem Navigationssystem sein. Dann, wenn die Systemeinstellungssprache eine andere Sprache ist, kann die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein zweites Wörterbuch, in welchem die andere Sprache und die Systemeinstellungssprache dieselbe sind, als das zweite Wörterbuch einstellen, mit welchem die eingestellte Spracherkennungseinheit Spracherkennung eines Worts oder Ausdrucks im Glossar der obigen Kategorie durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache durchführt.
Beispielsweise wird ein Fall angenommen, in welchem „Aachener Dom“ als POI in Deutsch gesprochen eingegeben wird, nachdem die Stimme „World Heritage“ als eine POI-Kategorie in Englisch eingegeben wird. Um eine solche Annahme anzugehen, ist es möglich, eine Konfiguration bereitzustellen, in der die sprachspezifische Spracherkennungseinheit 4A für Deutsch die Spracherkennung für den ersten Halbteil der eingegebenen Stimme in der Eingangsreihenfolge unter Verwendung des zweiten Wörterbuchs, in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, durchführt, und Spracherkennung für den letzten Halbteil der eingegebenen Stimme in der Eingangsreihenfolge unter Verwendung des ersten Wörterbuchs in Deutsch durchführt. Selbst in einer solchen Konfiguration ist es auch möglich, denselben Effekt für Kategorie und POI wie in Ausführungsform 1 zu erhalten.
Weiter kann das zweite Glossar des zweiten Wörterbuchs ein Glossar vorbestimmter Befehle für das Navigationssystem sein. Dann, wenn die Systemeinstellungssprache eine andere Sprache ist, kann die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein zweites Wörterbuch, dessen andere Sprache und die Systemeinstellungssprache dieselbe sind, als das zweite Wörterbuch einstellen, mit welchem die eingestellte Spracherkennungseinheit Spracherkennung eines Worts oder Ausdrucks im Glossar für die obigen Befehle durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Beispielsweise sei ein Fall, in dem die Stimme „Aachener Dom“ als POI in Deutsch eingegeben wird, nachdem die Stimme „Navigate to“ als ein Befehl in Englisch eingegeben wird, angenommen. Um eine solche Annahme anzugehen, ist es möglich, eine Konfiguration bereitzustellen, in der die sprachspezifische Spracherkennungseinheit 4A für Deutsch eine Spracherkennung für den ersten Halbteil der eingegebenen Stimme in der Eingangsreihenfolge unter Verwendung des zweiten Wörterbuchs durchführt, in welchem Phoneme in Englisch auf Phoneme in Deutsch abgebildet sind, und Spracherkennung für den letzteren Halbteil der eingegebenen Stimme in der Eingangsreihenfolge unter Verwendung des ersten Wörterbuchs in Deutsch durchführt. Selbst bei einer solchen Konfiguration ist es auch möglich, denselben Effekt wie in Ausführungsform 1 zu erhalten. Hier gilt Dasselbe für Fälle, in denen Stimme, die einen Musiknamen ein Deutsch angibt, eingegeben wird, nachdem „Play“ als ein Befehl in Englisch eingegeben wird, und in welcher Stimme, die einen menschlichen Namen in Deutsch angibt, eingegeben wird, nachdem die Stimme „Call“ als ein Befehl in Englisch eingegeben wird.
Es sollte angemerkt werden, dass gemäß der Konfiguration, die in Ausführungsform 1 beschrieben ist, ein erstes Wörterbuch, in welchem Phonem-Kartierung nicht durchgeführt wird, für Ortsnamen verwendet wird und ein zweites Wörterbuch, in welchem Phonem-Kartierung angewendet ist, für Hausnummern verwendet wird. Jedoch ist die vorliegende Erfindung nicht auf ein solches Beispiel beschränkt, ein erstes Wörterbuch, in welchem Phoneme nicht kartiert sind, kann für die Hausnummern verwendet werden, und ein zweites Wörterbuch, in welchem Phonem-Kartierung angewendet worden ist, kann für Ortsnamen verwendet werden. Jedoch ist es wie in Ausführungsform 1 möglich, die Größe von Daten für Spracherkennungs-Wörterbücher effizienter zu reduzieren, wenn Phoneme für Hausnummern kartiert sind, die nur in kleinen Zahlen existieren, im Vergleich zu einem Fall, bei dem Phoneme für Ortsnamen, die in größerer Anzahl existieren, kartiert werden.
Es sollte angemerkt werden, dass die oben beschriebenen Variationen auch in Ausführungsform 2 anwendbar sind und das Nachfolgende wird unten beschrieben.
Ausführungsform 2
In Ausführungsform 1 wird angenommen, dass ein Ziel für das Navigationssystem (z.B. ein Zwischenhalt, ein Endziel oder dergleichen) vorher durch den Anwender bestimmt wird, und basierend auf dem Ziel stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 eine sprachspezifische Erkennungseinheit, die bei der Spracherkennung zu verwenden ist, ein. Jedoch wird bei praktischem Einsatz das Ziel oft nicht vor Äußerung eingestellt. Somit, wie oben beschrieben, ist es in dieser Ausführungsform 2 möglich, dieselbe Operation wie in Ausführungsform 1 durchzuführen, ohne zuvor das Ziel einzustellen.
6 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 illustriert. Hier werden in der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 ähnliche und gleiche Komponenten wie jene, die oben beschrieben sind, durch dieselben Bezugszeichen bezeichnet und es werden hauptsächlich Differenzen beschrieben.
Die in 6 illustrierte Spracherkennungsvorrichtung beinhaltet weiter eine Stimmspeichereinheit 8 und eine Primär-Erkennungsergebnis-Bestimmungseinheit 9, zusätzlich zu den in 3 gezeigten Komponenten.
Hier entspricht die Stimmspeichereinheit 8 einer Speichervorrichtung, wie etwa dem Speicher 82 in 1. Die Primär-Erkennungsergebnis-Bestimmungseinheit 9 wird durch den Prozessor 81 in 1 realisiert, der in einer Speichervorrichtung wie etwa den Speicher 82 gespeicherte Programme ausführt, als eine Funktion des Prozessors 81. Es sollte angemerkt werden, dass diese Funktionen durch eine Mehrzahl von Prozessoren 81 in Kooperation realisiert werden können.
Die Stimmspeichereinheit 8 speichert zeitweilig die einzelne Eingabe von Stimme (hier eine Vektorsequenz oder eine chronologische Sequenz von akustischen Merkmalen, welche durch die Tonanalyseeinheit 3 umgewandelt sind), um Spracherkennung an einer einzelnen Eingabe von Stimme mehrmals durch die Spracherkennungseinheit 4 durchzuführen. Es ist ausreichend, falls die Stimmspeichereinheit 8 bei jeder Spracherkennung verwendet werden kann, und eine solche Stimmspeichereinheit 8 kann unter Verwendung einer konventionellen Technik realisiert werden. Daher wird eine detaillierte Beschreibung der Stimmspeichereinheit 8 und ihres Betriebs weggelassen.
Es sollte angemerkt werden, dass, wie später im Detail beschrieben, in dieser Ausführungsform 2 die Spracherkennungseinheit 4 Spracherkennung an einer Einzeleingabe von Stimme zweimal durchführt. Durch die erste Spracherkennung von den Zweien wird eine Sprache für das Ziel erfasst. Spezifisch, nachdem die erste Spracherkennung durchgeführt wird, ist die Situation im Wesentlichen dieselbe wie die Situation, bei der das Ziel zuvor eingestellt wird. Dann wird als zweite Spracherkennung eine Spracherkennung ähnlich zu derjenigen in Ausführungsform 1 durchgeführt.
Nunmehr beinhalten in dieser Ausführungsform 2 die Spracherkennungs-Wörterbücher 5 eine Mehrzahl von Ortsnamen-Wörterbüchern 51A bis 51C, Hausnummer- und Befehlswörterbücher 53AA, 53BB und 53CC, und Hausnummer- und Befehlswörterbücher 53BA, 53CA, 53AB, 53CB, 53AC und 53BC als eine Mehrzahl zweiter Wörterbücher. In der nachfolgenden Beschreibung werden die Hausnummer- und Befehlswörterbücher 53BA, 53CA, 53AB, 53CB, 53AC und 53BC gemeinsam als die „Hausnummer- und Befehlswörterbücher 53BA bis 53BC“ bezeichnet. Zusätzlich beinhalten die Spracherkennungs-Wörterbücher 5 Befehls- und Ausschuss-Wörterbücher 54A, 54B und 54C (nachfolgend als „die Befehls- und Ausschuss-Wörterbücher 54A bis 54C“ bezeichnet), als eine Mehrzahl von dritten Wörterbüchern.
Von den Spracherkennungs-Wörterbücher 5 sind die Ortsnamen-Wörterbücher 51A bis 51C dieselben wie die Ortsnamen-Wörterbücher 51A bis 51C gemäß Ausführungsform 1.
Die Hausnummer- und Befehlswörterbücher 53AA, 53BB und 53CC sind Wörterbücher, in welchen die Hausnummern der Hausnummer-Wörterbücher 52AA, 52BB und 52CC gemäß Ausführungsform 1 durch Hausnummern und Befehle für das Navigationssystem ersetzt sind. Daher ist die sprachspezifische Spracherkennungseinheit 4A durch beispielsweise Verwenden des Hausnummer- und Befehlswörterbuchs 53AA in der Lage, Spracherkennung zum Spezifizieren einer Hausnummer und eines Befehls in den Phonemen der entsprechenden Sprache A aus eingegebener Stimme in die Phoneme der entsprechenden Sprache A durchzuführen. Hier beinhalten die Befehle für das Navigationssystem „Navigiere nach Deutschland“, „Navigiere nach Frankreich“ und dergleichen.
Die Hausnummer- und Befehlswörterbücher 53BA bis 53BC sind Wörterbücher, in welchen die Hausnummern in den Hausnummer-Wörterbüchern 52BA bis 52BC gemäß Ausführungsform 1 durch Hausnummern und Befehle für das Navigationssystem ersetzt sind. Daher ist beispielsweise unter Verwendung des Hausnummer- und Befehlswörterbuchs 53BA die sprachspezifische Spracherkennungseinheit 4A in der Lage, Phoneme der anderen Sprache B durch Phoneme der entsprechenden Sprache A aus eingegebener Stimme in den Phonemen der unterschiedlichen Sprache B zu substituieren und Spracherkennung zum Spezifizieren einer Hausnummer und eines Befehls in den Phonemen der entsprechenden Sprache A aus eingegebener Stimme nach der Substitution durchzuführen.
Die Befehls- und Ausschuss-Wörterbücher 54A bis 54C sind Wörterbücher, mit welchen die entsprechenden sprachspezifischen Spracherkennungseinheiten 4A bis 4C die erste Spracherkennung einschließlich Ausschusserkennung unter Verwendung von Phonemen in der entsprechenden Sprache durchführen.
Hier wird nachfolgend eine Beschreibung gegeben, bei der ein Fall angenommen wird, in welchem die entsprechende Sprache A für das Befehls- und Ausschuss-Wörterbuch 54A Deutsch ist, und die Befehle für das Navigationssystem wie etwa „Navigieren Deutschland“ und „Navigieren Frankreich“ im Befehls- und Ausschuss-Wörterbuch 54A als ein Beispiel eingestellt sind. Weiter wird eine Beschreibung gegeben, die einen Fall nimmt, bei welchem die entsprechende Sprache B für das Befehls- und Ausschuss-Wörterbuch 54B Englisch ist und die Befehle für das Navigationssystem wie etwa „Navigate to Germany“ und „Navigate to France“ in dem Befehls- und Ausschuss-Wörterbuch 54B als ein Beispiel eingestellt sind. Jedoch sind diese nur Beispiele und die vorliegende Erfindung ist nicht auf diese Beispiele beschränkt.
Nunmehr wird eine Ausschusserkennung in einem Erkennungsverfahren zum Durchführen von Erkennung unter Verwendung eines Ausschuss-Akustikmodells. Gemäß einer solchen Ausschusserkennung ist es möglich, für jegliche Äußerung einen Erkennungsrang auszugeben, der einen Passungsgrad zwischen der Äußerung und einigen Worten und Ausdrücken in einem Wörterbuch angibt.
Als ein Beispiel wird angenommen, dass die sprachspezifische Spracherkennungseinheit 4B für Englisch eine Spracherkennung einschließlich Ausschusserkennung unter Verwendung des Befehls- und Ausschuss-Wörterbuchs 54B durchführt. In diesem Fall, egal welche Eingangsstimme „Navigate to Germany Stuttgart Neckarstraße“ oder „Navigate to Germany Aachener Dom“ ist, gibt die sprachspezifische Spracherkennungseinheit 4B einen höheren Erkennungsrang an ein Ergebnis von Spracherkennung für „Navigate to Germany <..>“ als ein Ergebnis von Spracherkennung für „Navigate to France <..>“. Hier ist <..> allgemein ein Symbol, das ein Ergebnis von Ausschusserkennung angibt.
In dieser Ausführungsform 2 wird die obige Ausschusserkennung an einer Mehrzahl von vorbestimmten Befehlen für das Navigationssystem durchgeführt. Weiter wird angenommen, dass jeder der Befehle ein Wort oder einen Ausdruck beinhaltet, der einen Ortsnamen, einen Ländernamen oder/und eine in jenen Bereichen verwendete Sprache angibt, die als ein Ziel des Navigationssystems eingestellt sein kann (z.B. Deutschland, Frankreich, Germany, France und dergleichen).
Die Primär-Erkennungsergebnis-Bestimmungseinheit 9 bestimmt die in der zweiten Spracherkennung zu verwendende Sprache basierend auf einem Ergebnis der Ausschusserkennung, die in einem Ergebnis enthalten ist, und einer ersten Spracherkennung unter Verwendung der Befehls- und Ausschuss-Wörterbücher 54A bis 54C. In dieser Ausführungsform 2 bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit 9 einen einer Mehrzahl von Befehlen, basierend auf dem Ergebnis von Ausschusserkennung, und bestimmt eine in der zweiten Spracherkennung zu verwendende Sprache, basierend auf einem Wort oder Ausdruck, der einen Ortsnamen, einen Ländernamen oder/und einen in jenen Bereichen verwendete Sprache angibt, die in diesem einen Befehl enthalten ist.
Als ein Beispiel wird angenommen, dass ein Erkennungsrang für „Navigate to Germany <..>“ am höchsten ist als ein Ergebnis der in einem Resultat der ersten Spracherkennung unter Verwendung von den Befehls- und Ausschuss-Wörterbüchern 54A bis 54C enthaltenen Ausschusserkennung. In diesem Fall bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit 9 „Navigate to Germany“ mit dem höchsten Erkennungsrang, der eine Befehl wie oben beschrieben zu sein, von der Mehrzahl von Befehlen, und bestimmt die in der zweiten Spracherkennung zu verwendende Sprache als „Deutsch“, basierend auf in diesem einen Befehl enthaltenen „Germany“.
Wenn die Systemeinstellungssprache eine andere Sprache ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein Hausnummer- und Befehlswörterbuch, in welchem die andere Sprache und die Systemeinstellungssprache die gleiche sind, als die Hausnummer- und Befehlswörterbücher 53BA bis 53BC ein, mit welchen die eingestellte Spracherkennungseinheit Spracherkennung einer Häusernummer und einen Befehl (zweites Glossar) durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Betrieb
7 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 zeigt. Es ist anzumerken, dass nachfolgend eine Beschreibung unter Verwendung eines Falls gegeben wird, bei welchem beispielsweise die Systemeinstellungssprache Englisch ist, eine sprachspezifische Spracherkennungseinheit für Deutsch die sprachspezifische Spracherkennungseinheit 4A ist, eine sprachspezifische Spracherkennungseinheit für Englisch die sprachspezifische Spracherkennungseinheit 4B ist, ein Ortsnamen-Wörterbuch für Deutsch das Ortsnamen-Wörterbuch 51A ist, ein Hausnummer- und Befehlswörterbuch, in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, das Hausnummer- und Befehlswörterbuch 53BA ist, und ein Befehls- und Ausschuss-Wörterbuch in Englisch das Befehls- und Ausschuss-Wörterbuch 54B ist. Die Beschreibung wird auch unter Annahme des Falls gegeben, in welchem ein Befehl „Navigate to Germany“ in englischer Aussprache, ein Ortsname „Stuttgart Neckarstraße“ in deutscher Aussprache und eine Hausnummer „one, two, three“ in englischer Aussprache in dieser Reihenfolge als ein Beispiel eingegeben werden. Jedoch sind dies nur Beispiele und die vorliegende Erfindung ist nicht auf diese Beispiele beschränkt.
Zuerst wird im Schritt S11 bis S13 dieselbe Operation wie im Schritt S1 bis Schritt S3 gemäß Ausführungsform 1 ausgeführt.
Dann speichert in Schritt S14 die Stimmspeichereinheit 8 eine Vektorsequenz, eine chronologische Sequenz oder dergleichen von durch die Tonanalyseeinheit 3 umgewandelten akustischen Merkmalen.
Im Schritt S15 stellt von den sprachspezifischen Spracherkennungseinheiten 4A bis 4C die Spracherkennungs-Spracheinstelleinheit 6 eine sprachspezifische Spracherkennungseinheit, die in der ersten Spracherkennung zu verwenden ist, basierend auf der Systemeinstellungssprache ein. Wie im obigen Beispiel, da die Systemeinstellungssprache Englisch ist, stellt die Spracherkennungs-Spracheinstelleinheit 6 die sprachspezifische Spracherkennungseinheit 4B für Englisch ein. Hier wird in der nachfolgenden Beschreibung die durch die Spracherkennungs-Spracheinstelleinheit 6 in Schritt S15 eingestellte sprachspezifische Spracherkennungseinheit auch als eine „erste eingestellte Spracherkennungseinheit“ bezeichnet.
Im Schritt S16 stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein Befehls- und Ausschuss-Wörterbuch von den Befehls- und Ausschuss-Wörterbüchern 54A bis 54C ein, mit welchem die erste eingestellte Spracherkennungseinheit eine Spracherkennung einschließlich Ausschusserkennung unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Im obigen Beispiel, da die erste eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit 4B für Englisch ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 das Befehls- und Ausschuss-Wörterbuch 54B für Englisch ein.
In Schritt S17 referenziert die Spracherkennungseinheit 4 auf das Spracherkennungs-Wörterbuch 5 und führt erste Spracherkennung für akustische Daten, die der Tonanalyse unterworfen worden sind, durch, um ein Erkennungsergebnis, das am wahrscheinlichsten ist, auszugeben. Im obigen Beispiel führt die sprachspezifische Spracherkennungseinheit 4B für Englisch Spracherkennung einschließlich Ausschusserkennung unter Verwendung des Befehls- und Ausschuss-Wörterbuchs 54B zum Eingeben von Stimme von „Navigate to Germany Stuttgart Neckarstraße one, two, three“ durch. Als Ergebnis der Ausschusserkennung wird der höchste Erkennungsrang dem Befehl „Navigate to Germany <..>“ gegeben.
Im Schritt S18 bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit 9 einen der Mehrzahl von Befehlen, basierend auf dem Ergebnis von Ausschusserkennung, und bestimmt eine in dem zweiten Spracherkennung zu verwendende Sprache ? basierend auf einem Wort oder Ausdruck, das zumindest eines von einem Ortsnamen, einem Ländernamen und einer in jenen Bereichen verwendeten Sprache angibt, die in diesem einen Befehl enthalten ist. Mit anderen Worten bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit 9 die Sprache im Wesentlichen gleich wie die Sprache des Ziels in Ausführungsform 1.
Im obigen Beispiel bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit 9 „Navigate to Germany“ mit dem höchsten Erkennungsrang aus der Mehrzahl von Befehlen und bestimmt die in der zweiten Spracherkennung zu verwendende Sprache, das heißt die Sprache des Ziels, „Deutsch“ zu sein, basierend auf „Germany“, das in diesem einen Befehl enthalten ist.
Im Schritt S19 wird eine Operation, welche dieselbe ist wie in Schritt S4, gemäß Ausführungsform 1, durchgeführt. Spezifisch stellt von den sprachspezifischen Spracherkennungseinheiten 4A bis 4C die Spracherkennungs-Spracheinstelleinheit 6 als die in der zweiten Spracherkennung zu verwendende, sprachspezifische Spracherkennungseinheit eine sprachspezifische Spracherkennungseinheit basierend auf der durch die Primär-Erkennungsergebnis-Bestimmungseinheit 9 bestimmten Sprache ein. Im obigen Beispiel, da die Sprache des Ziels Deutsch ist, stellt die Spracherkennungs-Spracheinstelleinheit 6 die sprachspezifische Spracherkennungseinheit 4A für Deutsch ein. Hier wird in der nachfolgenden Beschreibung die durch die Spracherkennungs-Spracheinstelleinheit 6 im Schritt S19 eingestellte sprachspezifische Spracherkennungseinheit auch als eine „zweite eingestellte Spracherkennungseinheit“ bezeichnet.
Im Schritt S20 wird eine zum Schritt S5 gemäß Ausführungsform 1 ähnliche Operation durchgeführt. Spezifisch stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein Ortsnamen-Wörterbuch von den Ortsnamen-Wörterbüchern 51A bis 51C ein, mit welchen die zweite eingestellte Spracherkennungseinheit Spracherkennung eines Ortsnamens (erstes Glossar) unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Im obigen Beispiel bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit 9 „Navigate to Germany“ mit dem höchsten Erkennungsrang von der Mehrzahl von Befehlen und bestimmt die in der zweiten Spracherkennung zu verwendende Sprache, das heißt die Sprache des Ziels, als „Deutsch“, basierend auf in diesem einen Befehl enthaltenem „Germany“.
In Schritt S21 wird eine Operation, welche dieselbe ist wie in Schritt S6 gemäß Ausführungsform 1, durchgeführt. Spezifisch stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 ein Hausnummer- und Befehlswörterbuch von den Hausnummer- und Befehlswörterbüchern 53AA, 53BB und 53CC und den Hausnummer- und Befehlswörterbüchern 53BA bis 53BC ein, mit welchen die zweite eingestellte Spracherkennungseinheit die Spracherkennung einer Hausnummer und eines Befehls (zweites Glossar) unter Verwendung von Phonemen in der Systemeinstellungssprache durchführt. Im obigen Beispiel, da die zweite eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit 4A für Deutsch ist und die Systemeinstellungssprache Englisch ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit 7 das Hausnummer- und Befehlswörterbuch 53BA, in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, ein.
Im Schritt S22 werden eine Vektorsequenz und eine chronologische Abfolge akustischer Merkmale, die in der Stimmspeichereinheit 8 gespeichert sind, das heißt eine Vektorabfolge und eine chronologische Abfolge von akustischen Merkmalen, welche die gleichen wie die akustischen Merkmale sind, in welchen die erste Spracherkennung durchgeführt wird, an der Spracherkennungseinheit 4 Eingegeben.
Im Schritt S23 bezieht sich die Spracherkennungseinheit 4 auf das Spracherkennungs-Wörterbuch 5 und führt eine zweite Spracherkennung für akustische Daten, die eingegeben worden sind, durch, um ein Erkennungsergebnis, das am wahrscheinlichsten ist, auszugeben. Im obigen Beispiel führt die sprachspezifische Spracherkennungseinheit 4A eine Spracherkennung unter Verwendung des Ortsnamen-Wörterbuchs 51A an der eingegebenen Stimme „Stuttgart Neckarstraße“ durch, und führt eine Spracherkennung unter Verwendung des Hausnummer- und Befehlswörterbuchs 53BA durch, in welchem Kartierung auf die eingegebene Stimme „Navigate to Germany“ und die eingegebene Stimme „one, two, three“ angewendet worden ist. Das aus der Spracherkennungseinheit 4 ausgegebene Erkennungsergebnis im Schritt S23 wird als Stimme aus einem Lautsprecher ausgegeben, der nicht illustriert ist, oder auf einer nicht illustrierten Anzeigevorrichtung angezeigt. Dann endet die Operation in 7.
Abschluss von Ausführungsform 2
Mit der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2, wie oben beschrieben, ist es auch möglich, dieselben Effekte wie Ausführungsform 1 zu erhalten. Weiter wird gemäß dieser Ausführungsform 2 eine Sprache für das Ziel erfasst, indem eine erste Spracherkennung durchgeführt wird, die eine Ausschusserkennung beinhaltet, an einer einzelnen Eingabe von Stimme, und eine Spracherkennung, welche dieselbe ist wie in Ausführungsform 1, wird an der einzelnen Eingabe von Stimme durchgeführt, indem eine zweite Spracherkennung durchgeführt wird, in welcher die Sprache für das Ziel eingestellt wird. Daher ist es möglich, Probleme zu eliminieren, ein Ziel vorher einzustellen.
Variationen von Ausführungsform 2
In Ausführungsform 2 wird in der zweiten Spracherkennung eine Spracherkennung unter Verwendung eines Hausnummer- und Befehlswörterbuchs, in welchem eine Kartierung auf ein Befehlsteil von eingegebener Stimme angewendet worden ist (eine Vektorabfolge oder eine chronologische Abfolge von akustischen Merkmalen) durchgeführt. Jedoch ist die vorliegende Erfindung nicht auf ein solches Beispiel beschränkt, und solange wie ein Befehlsteil (z.B. „Navigate to Germany“ aus der eingegebenen Stimme entfernt werden kann (eine Vektorabfolge oder eine chronologische Abfolge akustischer Merkmale), ist es möglich, eine Spracherkennung unter Verwendung eines Ortsnamen-Wörterbuches an einem ersten Halbteil des verbleibenden Teils (z.B. „Stuttgart Neckarstraße one, two, three“) durchzuführen und eine Spracherkennung unter Verwendung eines Hausnummer-Wörterbuchs an einem letzteren Halbteil durchzuführen. Mit anderen Worten kann in diesem Fall anstelle der Verwendung von Hausnummer- und Befehlswörterbüchern 53AA, 53BB, 53CC und 52BA bis 53BC die Hausnummer-Wörterbücher 52AA, 52BB, 52CC und 52BA bis 52BC ähnlich zur Ausführungsform 1 verwendet werden.
Weiter, während in Ausführungsform 2 der Fall, in welchem eine Sprache für das Ziel nicht eingestellt ist, beschrieben wird, ist die vorliegende Erfindung nicht auf ein solches Beispiel beschränkt. Beispielsweise in einem Fall, in dem eine Sprache eines Personennamens, der zu suchen ist, nicht eingestellt ist, und ein Befehl „Call Japan“ in englischer Aussprache und dann ein Personenname „Yamada Taro“ in japanischer Aussprache in dieser Reihenfolge eingegeben werden, kann die Spracherkennung in derselben Weise wie oben beschrieben durchgeführt werden.
Andere Variationen
In der obigen Beschreibung wird die Spracherkennungseinheit 4 durch den Prozessor 81 in 1, der ein in einer Speichervorrichtung wie etwa dem Speicher 82 gespeichertes Programm ausführt, realisiert. Jedoch ist die Spracherkennungsvorrichtung nicht auf die als Software auf diese Weise realisierte Spracherkennungseinheit 4 beschränkt, und kann als Hardware mit einer Funktion realisiert werden, welches dieselbe ist wie diejenige der Spracherkennungseinheit 4. Mit anderen Worten ist es ausreichend, dass die Spracherkennungsvorrichtung eine Spracherkennungs-Verarbeitungsschaltung enthält, als ein breiteres Konzept, das der als Software realisierten Spracherkennungseinheit 4 gemein ist, und Hardware, die eine Funktion aufweist, welche dieselbe ist wie diejenige der Spracherkennungseinheit 4.
Weiter kann die Spracherkennungsvorrichtung eine ähnliche, sprachspezifische Spracherkennungs-Verarbeitungsschaltung als breiteres Konzept der sprachspezifischen Spracherkennungseinheiten 4A bis 4C, eine ähnliche Spracherkennungs-Spracheinstell-Verarbeitungsschaltung als ein breiteres Konzept der Spracherkennungs-Spracheinstelleinheit 6, und eine ähnliche Spracherkennungs-Wörterbucheinstell-Verarbeitungsschaltung als ein breiteres Konzept der Spracherkennungs-Wörterbuch-Einstelleinheit 7 enthalten. Ähnlich kann die Spracherkennungsvorrichtung gemäß Ausführungsform 2 eine ähnliche primäre Erkennungsergebnis-Verarbeitungsschaltung als ein breiteres Konzept der Primär-Erkennungsergebnis-Bestimmungseinheit 9 enthalten.
Darüber hinaus beinhaltet die oben beschriebene Spracherkennungsvorrichtung ein Spracherkennungssystem, das als ein System konfiguriert ist, das angemessen nicht nur die Navigationsvorrichtung, die an Fahrzeugen montiert werden kann, sondern eine tragbare Navigationsvorrichtung, ein Kommunikationsendgerät (z.B. ein Mobilendgerät wie etwa ein Mobiltelefon, ein Smartphone, oder ein Tablet), und eine Funktion einer darin installierten Anwendung, wie auch ein Server kombiniert. In diesem Fall können die Funktionen und die Komponenten der oben beschriebenen Spracherkennungsvorrichtung für Vorrichtungen bereitgestellt sein, die das System in einer verteilten Weise bilden, oder für eine solcher Vorrichtungen in einer konzentrierten Weise bereitgestellt sein.
Es sollte angemerkt werden, dass die vorliegende Erfindung innerhalb des Umfangs der Erfindung, welche die Ausführungsformen und Variationen frei kombiniert, oder jegliche der Ausführungsformen und der Variationen angemessen ändert oder weglassen kann.
Während die vorliegende Erfindung im Detail beschrieben worden ist, ist die obige Beschreibung in den Aspekten nur illustrativ und ist die vorliegende Erfindung nicht auf die Beschreibung beschränkt. Es versteht sich, dass zahlreiche Variationen, die nicht illustriert sind, vorstellbar sein können, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen.
Bezugszeichenliste

4: Spracherkennungseinheit
4A, 4B, 4C:: Sprachspezifische Spracherkennungseinheit
5: Spracherkennungs-Wörterbuch
6: Spracherkennungs-Spracheinstelleinheit
7: Spracherkennungs-Wörterbuch-Einstelleinheit
8: Stimmspeichereinheit
9: Primär-Erkennungsergebnis-Bestimmungseinheit
51A, 51B, 51C:: Ortsnamen-Wörterbuch
52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC:: Hausnummer-Wörterbuch
53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC:: Hausnummer- und Befehlswörterbuch
54A, 54B, 54C:: Befehls- und Ausschuss-Wörterbuch

Claims

Spracherkennungsvorrichtung, die in einem Navigationssystem eingebaut ist, umfassend: ein Glossare definierendes Spracherkennungs-Wörterbuch (5), das ein Ziel zur Spracherkennung ist; und eine Spracherkennungs-Verarbeitungsschaltung (4), die konfiguriert ist, eine Spracherkennung von eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs durchzuführen, wobei die Spracherkennungs-Verarbeitungsschaltung beinhaltet eine Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen (4A, 4B, 4C), die in der Lage sind, eine Spracherkennung unter Verwendung von Phonemen in jeweils vorbestimmten Sprachen durchzuführen, das Spracherkennungs-Wörterbuch beinhaltet eine Vielzahl von ersten Wörterbüchern (51A, 51B, 51C), mit denen jede der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen die Spracherkennung mit einem ersten Glossar durchführt, welches ein Glossar ist, das Phoneme in einer entsprechenden Sprache als die Sprache verwendet, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, und eine Vielzahl von zweiten Wörterbüchern (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC), die jeweils von jeder der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet werden, um Phoneme in einer anderen Sprache, die sich von der entsprechenden Sprache unterscheidet, durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung mit einem zweiten Glossar, welches ein anderes Glossar ist, durchzuführen, wobei in den zweiten Wörterbüchern, jeweils für das zweite Glossar, Phoneme in der anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind, die Spracherkennungsvorrichtung weiter umfasst: eine Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6), die konfiguriert ist, die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen einzustellen, wobei die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, basierend auf einem Ziel des Navigationssystems einstellt; und eine Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), die konfiguriert ist, aus der Vielzahl von ersten Wörterbüchern das erste Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt; und von der Vielzahl von zweiten Wörterbüchern das zweite Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache, durchführt.
Spracherkennungsvorrichtung gemäß Anspruch 1, wobei das zweite Glossar jedes zweiten Wörterbuchs (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC) ein Glossar vorbestimmter Nummern beinhaltet.
Spracherkennungsvorrichtung gemäß Anspruch 2, wobei die Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), wenn eine in einem Navigationssystem eingestellte Sprache die andere Sprache ist, das zweite Wörterbuch, in welchem die andere Sprache die gleiche wie die im Navigationssystem eingestellte Sprache ist, als das zweite Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) eingestellt ist, die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Spracherkennungsvorrichtung gemäß Anspruch 1, wobei das zweite Glossar jedes von zweiten Wörterbüchern (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC) ein Glossar für eine vorbestimmte Kategorie von POI (Point Of Interest, interessanter Punkt) in einem Navigationssystem beinhaltet.
Spracherkennungsvorrichtung gemäß Anspruch 4, wobei die Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), wenn eine in einem Navigationssystem eingestellte Sprache die andere Sprache ist, das zweite Wörterbuch, in welchem die andere Sprache die gleiche wie die im Navigationssystem eingestellte Sprache ist, als das zweite Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) eingestellt ist, die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Spracherkennungsvorrichtung gemäß Anspruch 1, wobei das zweite Glossar jedes der zweiten Wörterbücher (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC) ein Glossar für vorbestimmte Befehle eines Navigationssystems enthält, und die Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), wenn eine in dem Navigationssystem eingestellte Sprache die andere Sprache ist, das zweite Wörterbuch, in welchem die andere Sprache die gleiche ist wie die in dem Navigationssystem eingestellte Sprache, als das zweite Wörterbuch einstellt, mit welchem die durch die Spracherkennungs-Spracheinstellverarbeitungsschaltung (6) eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) eingestellt ist, durchführt: eine Spracherkennung an einem vorbestimmten ersten Bereich der eingegebenen Stimme unter Verwendung des ersten Wörterbuchs (51A, 51B, 51C) und die Spracherkennung am vorbestimmten zweiten Bereich der eingegebenen Stimme, wobei der vorbestimmte zweite Bereich nach dem vorbestimmten ersten Bereich eingegeben wird, unter Verwendung des zweiten Wörterbuchs (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC).
Spracherkennungsvorrichtung gemäß Anspruch 1, weiter umfassend: eine Speichervorrichtung (8), die eine einzelne Eingabe von Stimme speichert, um Spracherkennung an der einzelnen Eingabe von Stimme mehrmals durch die Spracherkennungseinheit (4) durchzuführen; und eine Primär-Erkennungsergebnis-Bestimmungs-Verarbeitungsschaltung (9), wobei das Spracherkennungs-Wörterbuch (5) weiter beinhaltet eine Vielzahl dritter Wörterbücher (54A, 54B, 54C), mit welchen die Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen (4A, 4B, 4C) jeweils eine erste Spracherkennung, die Ausschusserkennung beinhaltet, unter Verwendung von Phonemen in der entsprechenden Sprache durchführt, wobei die Ausschusserkennung einen Erkennungsrang ausgibt, der einen Passungsgrad zwischen der Äußerung und einigen Worten und Ausdrücken in dem dritten Wörterbuch angibt, die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) die in der ersten Spracherkennung von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen zu verwendende sprachspezifische Spracherkennungs-Verarbeitungsschaltung auf eine in dem Navigationssystem eingestellte Sprache einstellt, die Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7) von der Vielzahl von dritten Wörterbüchern das dritte Wörterbuch, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellten ersten Spracherkennung zu verwenden ist, welche die Ausschusserkennung enthält, unter Verwendung von Phonemen in der entsprechenden Sprache durchführt, die Primär-Erkennungsergebnis-Bestimmungs-Verarbeitungsschaltung die in der zweiten Spracherkennung zu verwendende Sprache basierend auf einem Ergebnis der Ausschusserkennung, die in einem Ergebnis der ersten Spracherkennung enthalten ist, unter Verwendung von dem dritten Wörterbuch, bestimmt, die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung die in der zweiten Spracherkennung von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen zu verwendende sprachspezifische Spracherkennungs-Verarbeitungsschaltung einstellt, basierend auf der durch die Primär-Erkennungsergebnis-Bestimmungs-Verarbeitungsschaltung bestimmten Sprache, und die Spracherkennungs-Wörterbucheinstell-Verarbeitungsschaltung von der Vielzahl von ersten Wörterbüchern das erste Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der zweiten Spracherkennung zu verwenden ist, und welche durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellt ist, die Spracherkennung des ersten Glossars durchführt, unter Verwendung von Phonemen in der entsprechenden Sprache, und von der Vielzahl von zweiten Wörterbüchern das zweite Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der zweiten Spracherkennung zu verwenden ist, und die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellt ist, die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Spracherkennungsvorrichtung gemäß Anspruch 8, wobei die Ausschusserkennung durchgeführt wird an einer Vielzahl von vorbestimmten Befehlen in dem Navigationssystem, und jeder der Befehle enthält: ein Wort oder einen Ausdruck, der einen Ortsnamens, einen Ländernamens und/oder eine Sprache angibt, die in solchen Bereichen verwendet wird, die als ein Ziel des Navigationssystems eingestellt sein können.
Spracherkennungsvorrichtung gemäß Anspruch 9, wobei die Primär-Erkennungsergebnis-Bestimmungs-Verarbeitungsschaltung (9) einen der Vielzahl von Befehlen bestimmt, basierend auf einem Ergebnis der Ausschusserkennung, und eine Sprache bestimmt, die in der zweiten Spracherkennung zu verwenden ist, basierend auf einem Wort oder Ausdruck, der den Ortsnamen, den Ländernamen oder/und die Sprache, die in dem einen Befehl enthalten ist, angibt.
Spracherkennungsvorrichtung gemäß Anspruch 8, wobei das zweite Glossar jedes der zweiten Wörterbücher (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC) ein Glossar vorbestimmter Befehle des Navigationssystems enthält, und die Spracherkennungs-Wörterbuch-Einstelleinheit (7) wenn eine in dem Navigationssystem eingestellte Sprache die andere Sprache ist, das zweite Wörterbuch, in welchem die andere Sprache die gleiche wie die in dem Navigationssystem eingestellte Sprache ist, als das zweite Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die durch die Spracherkennungs-Spracheinstelleinheit (6) eingestellt ist, die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
Spracherkennungsverfahren, umfassend die Schritte: Vorbereiten eines Glossar definierenden Spracherkennungs-Wörterbuchs (5), welches ein Ziel zur Spracherkennung ist; und Durchführen von Spracherkennung an eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs, wobei das Durchführen der Spracherkennung beinhaltet Vorbereiten einer Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen (4A, 4B, 4C), die zur Durchführung der Spracherkennung unter Verwendung von Phonemen in entsprechend vorbestimmten Sprachen in der Lage sind, das Vorbereiten des Spracherkennungs-Wörterbuchs beinhaltet Vorbereiten einer Vielzahl von ersten Wörterbüchern (51A, 51B, 51C), mit welchen jede der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen die Spracherkennung mit einem ersten Glossar durchführt, welches ein Glossar ist, das Phoneme in einer entsprechenden Sprache als die Sprache verwendet, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, und Vorbereiten einer Vielzahl zweiter Wörterbücher (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC), die jeweils von jeder der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet werden, um Phoneme in einer anderen Sprache, die sich von der entsprechenden Sprache unterscheidet, durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung mit einem zweiten Glossar, welches ein anderes Glossar ist, durchzuführen, wobei in den zweiten Wörterbüchern, jeweils für ein zweites Glossar, Phoneme in einer anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind, das Spracherkennungsverfahren umfasst weiter: Einstellen der sprachspezifischen Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen, wobei das Einstellen der sprachspezifischen Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, basierend auf einem Ziel eines Navigationssystems erfolgt; und Einstellen des ersten Wörterbuchs, aus der Vielzahl von ersten Wörterbüchern, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt, und Einstellen des zweiten Wörterbuchs, aus der Vielzahl von zweiten Wörterbüchern, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache, durchführt.