DE112014007287B4 - Spracherkennungsvorrichtung und Spracherkennungsverfahren - Google Patents
Spracherkennungsvorrichtung und Spracherkennungsverfahren Download PDFInfo
- Publication number
- DE112014007287B4 DE112014007287B4 DE112014007287.7T DE112014007287T DE112014007287B4 DE 112014007287 B4 DE112014007287 B4 DE 112014007287B4 DE 112014007287 T DE112014007287 T DE 112014007287T DE 112014007287 B4 DE112014007287 B4 DE 112014007287B4
- Authority
- DE
- Germany
- Prior art keywords
- speech recognition
- language
- speech
- dictionary
- processing circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 11
- 238000012545 processing Methods 0.000 claims abstract description 101
- 238000001514 detection method Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- FGRBYDKOBBBPOI-UHFFFAOYSA-N 10,10-dioxo-2-[4-(N-phenylanilino)phenyl]thioxanthen-9-one Chemical compound O=C1c2ccccc2S(=O)(=O)c2ccc(cc12)-c1ccc(cc1)N(c1ccccc1)c1ccccc1 FGRBYDKOBBBPOI-UHFFFAOYSA-N 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- TVEXGJYMHHTVKP-UHFFFAOYSA-N 6-oxabicyclo[3.2.1]oct-3-en-7-one Chemical compound C1C2C(=O)OC1C=CC2 TVEXGJYMHHTVKP-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- General Engineering & Computer Science (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
Spracherkennungsvorrichtung, die in einem Navigationssystem eingebaut ist, umfassend:
ein Glossare definierendes Spracherkennungs-Wörterbuch (5), das ein Ziel zur Spracherkennung ist; und
eine Spracherkennungs-Verarbeitungsschaltung (4), die konfiguriert ist, eine Spracherkennung von eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs durchzuführen,
wobei
die Spracherkennungs-Verarbeitungsschaltung beinhaltet
eine Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen (4A, 4B, 4C), die in der Lage sind, eine Spracherkennung unter Verwendung von Phonemen in jeweils vorbestimmten Sprachen durchzuführen,
das Spracherkennungs-Wörterbuch beinhaltet
eine Vielzahl von ersten Wörterbüchern (51A, 51B, 51C), mit denen jede der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen die Spracherkennung mit einem ersten Glossar durchführt, welches ein Glossar ist, das Phoneme in einer entsprechenden Sprache als die Sprache verwendet, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, und
eine Vielzahl von zweiten Wörterbüchern (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC), die jeweils von jeder der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet werden, um Phoneme in einer anderen Sprache, die sich von der entsprechenden Sprache unterscheidet, durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung mit einem zweiten Glossar, welches ein anderes Glossar ist, durchzuführen, wobei in den zweiten Wörterbüchern, jeweils für das zweite Glossar, Phoneme in der anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind,
die Spracherkennungsvorrichtung weiter umfasst:
eine Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6), die konfiguriert ist, die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen einzustellen, wobei die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, basierend auf einem Ziel des Navigationssystems einstellt; und
eine Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), die konfiguriert ist, aus der Vielzahl von ersten Wörterbüchern das erste Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt; und von der Vielzahl von zweiten Wörterbüchern das zweite Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache, durchführt.
ein Glossare definierendes Spracherkennungs-Wörterbuch (5), das ein Ziel zur Spracherkennung ist; und
eine Spracherkennungs-Verarbeitungsschaltung (4), die konfiguriert ist, eine Spracherkennung von eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs durchzuführen,
wobei
die Spracherkennungs-Verarbeitungsschaltung beinhaltet
eine Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen (4A, 4B, 4C), die in der Lage sind, eine Spracherkennung unter Verwendung von Phonemen in jeweils vorbestimmten Sprachen durchzuführen,
das Spracherkennungs-Wörterbuch beinhaltet
eine Vielzahl von ersten Wörterbüchern (51A, 51B, 51C), mit denen jede der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen die Spracherkennung mit einem ersten Glossar durchführt, welches ein Glossar ist, das Phoneme in einer entsprechenden Sprache als die Sprache verwendet, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, und
eine Vielzahl von zweiten Wörterbüchern (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC), die jeweils von jeder der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet werden, um Phoneme in einer anderen Sprache, die sich von der entsprechenden Sprache unterscheidet, durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung mit einem zweiten Glossar, welches ein anderes Glossar ist, durchzuführen, wobei in den zweiten Wörterbüchern, jeweils für das zweite Glossar, Phoneme in der anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind,
die Spracherkennungsvorrichtung weiter umfasst:
eine Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6), die konfiguriert ist, die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen einzustellen, wobei die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, basierend auf einem Ziel des Navigationssystems einstellt; und
eine Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), die konfiguriert ist, aus der Vielzahl von ersten Wörterbüchern das erste Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt; und von der Vielzahl von zweiten Wörterbüchern das zweite Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache, durchführt.
Description
- Technisches Gebiet
- Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung, die zum Durchführen von Spracherkennung in der Lage ist, und ein Spracherkennungsverfahren.
- Hintergrund
- Es wird ein Navigationssystem vorgeschlagen, das eine Spracherkennungsvorrichtung aufweist, die darin eingebaut ist, um Spracherkennung von einer Stimme eines Anwenders zu gestatten, so dass eine Adresse eingegeben werden kann. Wenn ein solches Navigationssystem in einem Bereich wie Europa verwendet wird, unterscheidet sich eine Sprache, die als eine Sprache eingestellt ist, die im Navigationssystem verwendet wird (nachfolgend als Systemeinstellungssprache bezeichnet) von einer Sprache, die ein Ziel ausdrückt. Beispielsweise in einem Fall, bei dem ein Anwender Engländer ist und ein Ziel einer Adresse in Deutschland ist, wird erwartet, dass die Systemeinstellungssprache Englisch ist und eine, ein Ziel ausdrückende Sprache Deutsch ist.
- Hier werden Phoneme (äquivalent zu phonetischen Symbolen) für einen Ortsnamen zum Durchführen von Spracherkennung des Ortsnamens durch ein Kartenerstellungsunternehmen bereitgestellt, die typischerweise Phoneme in einer Sprache sind, die hauptsächlich im Bereich des Ortsnamens verwendet werden. Beispielsweise werden für den Namen eines Orts in Deutschland deutsche Phoneme als Phoneme verwendet. Entsprechend, wenn eine ein Ziel ausdrückende Sprache Deutsch ist, ist es im Hinblick auf die Effizienz wünschenswert, ein Spracherkennungs-Wörterbuch zu verwenden, das durch ein Kartenerstellungsunternehmen bereitgestellte deutsche Phoneme enthält, und eine dem Wörterbuch entsprechende Spracherkennungs-„Engine“ für Deutsch.
- Andererseits ist es üblich, dass eine Muttersprache eines Anwenders als Systemeinstellungssprache verwendet wird. Entsprechend, wenn die Systemeinstellungssprache Englisch ist, ist es wünschenswert, eine Spracherkennungs-Engine für Englisch zu verwenden.
- Daher wird in einem Fall, bei welchem die Systemeinstellungssprache Englisch ist und die ein Ziel ausdrückende Sprache Deutsch ist, ein für die ein Ziel ausdrückende Sprache wünschenswertes Spracherkennungs-Wörterbuch sich von einem für die Systemeinstellungssprache wünschenswerten Spracherkennungs-Wörterbuch unterscheiden.
- Jedoch, da einige der in einer von englischen und deutschen Sprachen enthaltenen Phoneme (Aussprache) nicht in der anderen der Sprachen enthalten sind, hat es ein Problem damit gegeben, dass eine Spracherkennungs-Engine für englische oder deutsche Sprache die Phoneme für die andere der Sprachen nicht handhaben kann.
- Um dieses Problem zu lösen, ist eine Technik vorgeschlagen worden, die ein Spracherkennungs-Wörterbuch verwendet, in welchem ein Phonem A in einer Sprache A mit einem von Phonemen B in einer Sprache B assoziiert ist, das identisch oder am ähnlichsten zum Phonem A ist (z.B.
JP 2011-033874 A - Die Verwendung eines solchen Spracherkennungs-Wörterbuchs gestattet es, dass Phoneme in der Sprache A durch Phoneme in der Sprache B ersetzt werden, um eine Spracherkennung mit der Spracherkennungs-Engine in der Sprache B durchzuführen. Nachfolgend wird in einem Spracherkennungs-Wörterbuch das Assoziieren von Phonemen in einer Sprache mit Phonemen in einer anderen Sprache auch als „Phonem-Kartierung“ bezeichnet.
- Eine vergleichbare „Phonem-Kartierung“ wird auch in
US 2005 / 0 197 835 A1 US 2013/0 166 290 A1 US 2005 / 0 197 835 A1 JP 2011-033874 A - Zusammenfassung der Erfindung
- Durch die Erfindung zu lösende Probleme
- Jedoch weist eine konventionelle Spracherkennungsvorrichtung Probleme auf, dass eine Spracherkennung von einer, eine Mehrzahl von Sprachen enthaltenen Stimme nicht durchgeführt werden kann, und dass eine Datengröße eines Spracherkennungs-Wörterbuchs, in welchem eine Phonem-Kartierung wie oben beschrieben angewendet worden ist, relativ groß ist.
- Somit ist die vorliegende Erfindung im Hinblick auf die obigen Probleme gemacht und ihre Aufgabe ist es, eine Technik bereitzustellen, welche die Spracherkennung einer Stimme gestattet, die eine Mehrzahl von Sprachen enthält, während eine Datengröße eines Spracherkennungs-Wörterbuchs gemindert wird.
- Mittel zum Lösen der Probleme
- Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung beinhaltet ein Spracherkennungs-Wörterbuch, das ein Glossar definiert, das ein Ziel zur Spracherkennung ist; und eine Spracherkennungs-Verarbeitungsschaltung, die konfiguriert ist, eine Spracherkennung von eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs durchzuführen. Die Spracherkennungs-Verarbeitungsschaltung beinhaltet eine Mehrzahl von ersten Wörterbüchern, mit denen jede der Mehrzahl von sprach-spezifischen Sprachkennungs-Verarbeitungsschaltungen die Spracherkennung eines ersten Glossars durchführt, welches entweder das Glossar ist, das Phoneme in der entsprechenden Sprache verwendet, als die Sprache, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, und eine Mehrzahl von zweiten Wörterbüchern, die alle durch jede der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet werden, um Phoneme in einer anderen Sprache als die sich von der entsprechenden Sprache unterscheidende Sprache durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung eines zweiten Glossars, welches ein anderes Glossar ist, der zweiten Wörterbücher durchzuführen, in welchen jeweils für das zweite Glossar Phoneme in der anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind. Die Spracherkennungsvorrichtung beinhaltet weiter: eine Spracherkennungs-Spracheinstell-Verarbeitungsschaltung, die konfiguriert ist, die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen einzustellen; und eine Spracherkennungs-Wörterbuch-Einstellverarbeitungsschaltung, die konfiguriert ist, aus der Mehrzahl von ersten Wörterbüchern das erste Wörterbuch, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt, einzustellen; und von der Mehrzahl von zweiten Wörterbüchern das zweite Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
- Ein Spracherkennungsverfahren gemäß der vorliegenden Erfindung beinhaltet die Schritte: Vorbereiten eines Spracherkennungs-Wörterbuchs, das ein Glossar definiert, welches ein Ziel zur Spracherkennung ist; und Durchführen von Spracherkennung an eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs. Das Durchführen der Spracherkennung beinhaltet das Vorbereiten einer Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen, die zur Durchführung der Spracherkennung unter Verwendung von Phonemen in entsprechend vorbestimmten Sprachen in der Lage sind. Das Vorbereiten des Spracherkennungs-Wörterbuchs beinhaltet das Vorbereiten einer Mehrzahl von ersten Wörterbüchern, mit welchen jede der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen die Spracherkennung eines ersten Glossars durchführt, welches eines des Glossars ist, das Phoneme in der entsprechenden Sprache als der Sprache, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, verwendet, und einer Mehrzahl zweiter Wörterbücher, die jedes durch jede der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet wird, um Phoneme in einer anderen Sprache als die sich von der entsprechenden Sprache unterscheidende Sprache durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung eines zweiten Glossars, welches ein anderes des Glossars ist, durchzuführen, der zweiten Wörterbücher, in denen jeweils für ein zweites Glossar Phoneme in einer anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind. Das Spracherkennungsverfahren beinhaltet weiter: Einstellen der sprachspezifischen Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Mehrzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen; und Einstellen einer Spracherkennungs-Wörterbuch-Einstellverarbeitungsschaltung, aus der Mehrzahl von ersten Wörterbüchern das erste Wörterbuch, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt,; und von der Mehrzahl von zweiten Wörterbüchern das zweite Wörterbuch, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache.
- Effekte der Erfindung
- Gemäß der vorliegenden Erfindung ist es möglich, eine Spracherkennung von Stimme durchzuführen, die eine Mehrzahl von Sprachen enthält, während eine Datengröße eines Spracherkennungs-Wörterbuches vermindert wird.
- Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden aus der nachfolgenden detaillierten Beschreibung zusammen mit den beigefügten Zeichnungen ersichtlicher.
- Figurenliste
-
-
1 ist ein Blockdiagramm, welches eine Hardware-Konfiguration einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 illustriert. -
2 ist ein Blockdiagramm, das eine Haupt-Konfiguration der Spracherkennungsvorrichtung gemäß Ausführungsform 1 illustriert. -
3 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung gemäß Ausführungsform 1 illustriert. -
4 ist ein Diagramm, das Phonem-Kartierung gemäß Ausführungsform 1 illustriert. -
5 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 zeigt. -
6 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 zeigt. -
7 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 2 zeigt. - Beschreibung von Ausführungsformen
- Ausführungsform 1
- Nachfolgend wird eine Beschreibung gegeben, wobei eine Konfiguration angenommen wird, in der als ein Beispiel eine Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung in ein Navigationssystems (oder eine Navigationsvorrichtung) eingebaut ist.
-
1 ist ein Blockdiagramm, das eine Hardware-Konfiguration einer Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 illustriert. Die Spracherkennungsvorrichtung in1 beinhaltet einen Prozessor81 , der beispielsweise durch eine CPU (Zentraleinheit) und einen Speicher82 aufgebaut ist, der beispielsweise durch einen Halbleiterspeicher aufgebaut ist. -
2 ist ein Blockdiagramm, das eine Hauptfunktions-Konfiguration der Spracherkennungsvorrichtung gemäß Ausführungsform 1 illustriert. Die Spracherkennungsvorrichtung in2 beinhaltet eine Spracherkennungseinheit4 , ein Spracherkennungs-Wörterbuch5 , eine Spracherkennungs-Spracheinstelleinheit6 und eine Spracherkennungs-Wörterbuch-Einstelleinheit7 . Hier werden die Spracherkennungseinheit4 , die Spracherkennungs-Spracheinstelleinheit6 und die Spracherkennungs-Wörterbuch-Einstelleinheit7 durch den Prozessor81 in1 realisiert, der in einer Speichervorrichtung wie etwa dem Speicher82 gespeicherte Programme als Funktion des Prozessors81 ausführt. Es sollte angemerkt werden, dass diese Funktionen durch eine Mehrzahl von Prozessoren81 kooperativ realisiert werden können. Das Spracherkennungs-Wörterbuch5 entspricht einer Speichervorrichtung wie etwa dem Speicher82 in1 und einer HDD (Festplattenlaufwerk), die nicht illustriert ist. -
3 ist ein Blockdiagramm, das eine Hauptfunktions-Konfiguration und eine Zusatzfunktions-Konfiguration der Spracherkennungsvorrichtung illustriert. Hier ist die Zusatzkonfiguration, die nur in3 illustriert ist, eine Konfiguration, die sich nur indirekt auf die vorliegende Erfindung bezieht, und es können verschiedene andere Konfigurationen außer der unten beschriebenen Konfiguration eingesetzt werden. Die Spracherkennungsvorrichtung in3 beinhaltet, zusätzlich zu den Komponenten in2 , eine Stimmeingabeeinheit1 , eine Stimmeinführeinheit2 und eine Tonanalyseeinheit3 . - Als Nächstes werden Komponenten der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1, die in
2 und3 illustriert ist, im Detail beschrieben. - Die Stimmeingabeeinheit
1 erfasst Stimme von außerhalb (z.B. einen Anwender). Die Stimmeinführeinheit2 wandelt die durch die Stimmeingabeeinheit1 erfasste Stimme in ein Digitalsignal um, um ein Stimmsignal zu erzeugen. Die Tonanalyseeinheit3 analysiert das Stimmsignal und wandelt das Stimmsignal in eine Vektorsequenz einer chronologischen Abfolge von akustischen Merkmalen um. - Die Spracherkennungseinheit
4 führt eine Spracherkennung von eingegebener Stimme (einer Vektorsequenz oder einer chronologischen Sequenz von akustischen Merkmalen) unter Verwendung des Spracherkennungs-Wörterbuchs5 durch, das ein Glossar definiert, welches ein Ziel zur Spracherkennung ist. Als Ergebnis gibt die Spracherkennungseinheit4 ein Wort oder einen Ausdruck, der aus dem Glossar der Spracherkennungs-Wörterbuch5 am wahrscheinlichsten ist, aus. - In dieser Ausführungsform 1 beinhaltet die Spracherkennungseinheit
4 sprachspezifische Spracherkennungseinheiten4A ,4B und4C als eine Mehrzahl von sprachspezifischen Spracherkennungseinheiten (nachfolgend gemeinsam als „sprachspezifische Spracherkennungseinheiten4A bis 4C“ bezeichnet). - Die sprachspezifischen Spracherkennungseinheiten
4A bis4C sind Spracherkennungs-Engines, die in der Lage sind, eine Spracherkennung unter Verwendung von Phonemen in den entsprechenden vorbestimmten Sprachen durchzuführen. Beispielsweise weist die sprachspezifische Spracherkennungseinheit4A ein akustisches Modell (nicht illustriert) zur Erkennung in einer SpracheA auf, die der sprachspezifischen Spracherkennungseinheit4A korrespondiert, und in der Lage ist, eine Spracherkennung unter Verwendung von Phonemen in der SpracheA durchzuführen. Die sprachspezifische Spracherkennungseinheit4B und die sprachspezifische Spracherkennungseinheit4C sind auch ähnlich konfiguriert und sind in der Lage, eine Spracherkennung unter Verwendung von Phonemen in einer SpracheB und in einer SpracheC durchzuführen, die jeweils zur sprachspezifischen Spracherkennungseinheit4B und der sprachspezifischen Spracherkennungseinheit4C korrespondiert. - Es sollte angemerkt werden, dass in der nachfolgenden Beschreibung eine, einer der sprachspezifischen Spracherkennungseinheiten
4A bis4C korrespondierende Sprache als eine „entsprechende Sprache“ bezeichnet wird und eine andere Sprache als die entsprechende Sprache als eine „andere Sprache“ bezeichnet wird. Spezifisch ist eine SpracheA eine entsprechende SpracheA für die sprachspezifische Spracherkennungseinheit4A , und eine andere SpracheA für die sprachspezifische Spracherkennungseinheit4B . - Unter Verwendung der sprachspezifischen Spracherkennungseinheiten
4A bis4C ist die Spracherkennungseinheit4 in der Lage, eine Spracherkennung in einer von entsprechenden SprachenA bisC , je nachdem, durchzuführen. - Das Spracherkennungs-Wörterbuch
5 definiert ein Glossar, welches ein Ziel zur Spracherkennung ist. In dieser Ausführungsform1 beinhaltet das Spracherkennungs-Wörterbuch5 Ortsnamen-Wörterbücher51A ,51B und51C als eine Mehrzahl erster Wörterbücher (nachfolgend gemeinsam als „Ortsnamen-Wörterbücher51A bis51C “ bezeichnet), Hausnummer-Wörterbücher52AA ,52BB und52CC und Hausnummer-Wörterbücher52BA ,52CA ,52AB ,52CB ,52AC und52BC als eine Mehrzahl von zweiten Wörterbüchern. Es sollte angemerkt werden, dass in der nachfolgenden Beschreibung die Hausnummer-Wörterbücher52BA ,52CA ,52AB ,52CB ,52AC und52BC gemeinsam als „Hausnummer-Wörterbücher52BA -52BC“ bezeichnet werden. - Die Ortsnamen-Wörterbücher
51A bis51C sind Wörterbücher, mit denen die sprachspezifischen Spracherkennungseinheiten4A bis4C eine Spracherkennung eines Worts oder Ausdrucks in einem Glossar von Ortsnamen (erstes Glossar) unter Verwendung von Phonemen in jeweils den entsprechenden SprachenA bisC durchführen. Beispielsweise definiert das Ortsnamen-Wörterbücher51A ein Glossar von Ortsnamen, die hauptsächlich in der entsprechenden SpracheA verwendet werden, unter Verwendung des Ortsnamen-Wörterbuchs51A ist die sprachspezifische Spracherkennungseinheit4A in der Lage, eine Spracherkennung durchzuführen, um einen Ortsnamen in Phonemen der entsprechenden SpracheA zu spezifizieren, aus eingegebener Stimme in Phonemen der entsprechenden SpracheA . - Jedoch, da die Phoneme in der entsprechenden Sprache
A sich üblicherweise von Phonemen in den SprachenB undC unterscheiden, ist die sprachspezifische Spracherkennungseinheit4A nicht in der Lage, eine Spracherkennung durchzuführen, um den Ortsnamen in Phonemen der entsprechenden SpracheA aus eingegebener Stimme in Phonemen anderer SprachenB undC , die andere sind als die entsprechende SpracheA , zu spezifizieren. Dies gilt auch für die sprachspezifischen Spracherkennungseinheiten4B und4C . - Die Hausnummer-Wörterbücher
52AA ,52BB , und52CC sind Wörterbücher, mit welchen die sprachspezifischen Spracherkennungseinheiten4A bis4C eine Spracherkennung eine Worts oder Ausdrucks in einem Glossar von Hausnummern (Hausnummern) (zweites Glossar) unter Verwendung von Phonemen jeweils in den entsprechenden SprachenA bisC durchführen. Beispielsweise unter Verwendung des Hausnummer-Wörterbuchs52AA , ist die sprachspezifische Spracherkennungseinheit4A in der Lage, eine Spracherkennung zum Spezifizieren einer Hausnummer in Phonemen der entsprechenden SpracheA aus Eingabestimmen in Phonemen der entsprechenden SpracheA durchzuführen. Dies gilt auch für die sprachspezifischen Spracherkennungseinheiten4B und4C . - Die Hausnummer-Wörterbücher
52BA und52CA sind Wörterbücher, mit welchen die sprachspezifische Spracherkennungseinheit4A eine Spracherkennung eines Worts oder Ausdrucks in einem Glossar von Hausnummern (zweites Glossar, ein Glossar vorbestimmter Nummern) durchführt, unter Verwendung von Phonemen in den jeweiligen anderen SprachenB undC , in denen Phoneme in der entsprechenden SpracheA substituiert sind. -
4 ist ein Diagramm, welches die Hausnummer-Wörterbücher52AA ,52BA und52CA illustriert. Wie in4 illustriert, wird ausschließlich des Hausnummer-Wörterbuchs52AA Phonem-Kartierung auf die Hausnummer-Wörterbücher52BA und52CA angewendet. - Das Hausnummer-Wörterbücher
52BA ist ein Spracherkennungs-Wörterbuch, in welchem für ein Wort oder Ausdruck in einem Glossar von Hausnummern (zweites Glossar, ein Glossar vorbestimmter Nummern) ein PhonemB in der anderen SpracheB auf eines von PhonemenA in der entsprechenden SpracheA , die identisch oder am ähnlichsten zum Phonemb ist, kartiert wird. Das Hausnummer-Wörterbücher52CA ist ein Spracherkennungs-Wörterbuch, in welchem als ein Wort oder Ausdruck in einem Glossar von Hausnummern (zweites Glossar, ein Glossar vorbestimmter Nummern) ein Phonemc in einer anderen SpracheC auf eines von Phonemen a in einer entsprechenden SpracheA kartiert wird, das identisch oder am ähnlichsten zum Phonemc ist. Es sollte angemerkt werden, dass als die Phonem-Kartierung beispielsweise die inJP 2011 033874 - Unter Verwendung des Hausnummer-Wörterbuchs
52AA ist die sprachspezifische Spracherkennungseinheit4A in der Lage, eine Spracherkennung durchzuführen, um eine Hausnummer in Phonemen der entsprechenden SpracheA aus eingegebener Stimme in Phonemen der entsprechenden SpracheA zu spezifizieren. - Unter Verwendung des Hausnummer-Wörterbuchs
52BA substituiert die sprachspezifische Spracherkennungseinheit4A eingegebene Stimme in Phonemen der anderen SpracheB für Stimme durch Phoneme der entsprechenden SpracheA , die identisch oder am ähnlichsten sind, und ist in der Lage, eine Spracherkennung durchzuführen, um die Hausnummer in Phonemen der entsprechenden SpracheA aus der substituierten eingegebenen Stimme zu spezifizieren. - Unter Verwendung des Hausnummer-Wörterbuchs
52CA substituiert die sprachspezifische Spracherkennungseinheit4A eingegebene Stimme in Phonemen der anderen SpracheC durch Stimme in Phonemen der entsprechenden SpracheA , die identisch oder am ähnlichsten sind, und ist in der Lage, eine Spracherkennung durchzuführen, um eine Hausnummer in Phonemen der entsprechenden SpracheA aus der substituierten eingegebenen Stimme zu spezifizieren. - In dieser Weise ist die sprachspezifisch Spracherkennungseinheit
4A in der Lage, eine Spracherkennung unter Verwendung der Hausnummer-Wörterbücher52AA ,52BA und52CA durchzuführen. - Während die Hausnummer-Wörterbücher
52BA und52CA oben beschrieben sind, gilt dasselbe für die Hausnummer-Wörterbücher52AB ,52CB ,52AC und52BC in2 und3 . Mit anderen Worten sind die Hausnummer-Wörterbücher52AB und52CB Spracherkennungs-Wörterbücher, die in der sprachspezifischen Spracherkennungseinheit4B verwendet werden, um Phoneme in den anderen SprachenA undC durch Phoneme in der entsprechenden SpracheB zu substituieren, um eine Spracherkennung eines Worts oder Ausdrucks in einem Glossar von Hausnummern durchzuführen. In jenen Wörterbüchern werden für das Wort oder den Ausdruck der Hausnummer im Glossar die Phoneme in den anderen SprachenA undC auf die Phoneme in der entsprechenden SpracheB kartiert. Die Hausnummer-Wörterbücher52AC und52BC sind Spracherkennungs-Wörterbücher, die in der sprachspezifischen Spracherkennungseinheit4C verwendet werden, um Phoneme in den anderen SprachenA undB durch Phoneme in der entsprechenden SpracheC zu substituieren, um eine Spracherkennung eines Worts oder Ausdrucks in einem Glossar von Hausnummer durchzuführen. In jenen Wörterbüchern werden für das Wort oder Ausdruck in der Hausnummer im Glossar die Phoneme in den anderen SprachenA undB auf die Phoneme in der entsprechenden SpracheC kartiert. - Von den sprachspezifischen Spracherkennungseinheiten
4A bis4C stellt die Spracherkennungs-Spracheinstelleinheit6 eine in einer Spracherkennung zu verwendende, sprachspezifische Spracherkennungseinheit ein. In dieser Ausführungsform1 wird angenommen, dass ein Ziel (z.B. ein Zwischenhalt oder ein Endziel) im oben beschriebenen Navigationssystem vorab durch den Anwender eingestellt wird und die Spracherkennungs-Spracheinstelleinheit6 eine sprachspezifische Spracherkennungseinheit, die bei der Spracherkennung zu verwenden ist, basierend auf dem Ziel einstellen würde. - Beispielsweise speichert die Spracherkennungs-Spracheinstelleinheit
6 vorab eine Tabelle, die eine Mehrzahl von Flächen mit Sprachen assoziiert, die hauptsächlich in den entsprechenden Flächen verwendet werden. Dann erfasst die Spracherkennungs-Spracheinstelleinheit6 eine mit einer Fläche, zu welcher ein Ortsname des Ziels gehört, assoziierte Sprache aus der Tabelle, und stellt eine bei der Spracherkennung verwendete sprachspezifische Spracherkennungseinheit in der erfassten Sprache ein. - In der nachfolgenden Beschreibung wird die sprachspezifische Spracherkennungseinheit, welche durch die Spracherkennungs-Spracheinstelleinheit
6 eingestellt worden ist, auch als eine „eingestellte Spracherkennungseinheit“ bezeichnet. - Als Nächstes wird das Einstellen eines Ortsnamen-Wörterbuchs und eines Hausnummer-Wörterbuchs durch die Spracherkennungs-Wörterbuch-Einstelleinheit
7 beschrieben. - Die Spracherkennungs-Wörterbuch-Einstelleinheit
7 stellt ein Ortsnamen-Wörterbuch von den Ortsnamen-Wörterbüchern51A bis51C ein, mit welchem die eingestellte Spracherkennungseinheit (eine sprachspezifische Spracherkennungseinheit, welche durch die Spracherkennungs-Spracheinstelleinheit6 eingestellt ist) die Spracherkennung eines Ortsnamens unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Wenn beispielsweise die eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit4A ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 das Ortsnamen-Wörterbuch51A ein. - Weiter, wenn die Systemeinstellungssprache (eine durch das Navigationssystem eingestellte Sprache) dieselbe wie die entsprechende Sprache für die eingestellte Spracherkennungseinheit ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit
7 ein Hausnummer-Wörterbuch von den Hausnummer-Wörterbüchern52AA ,52BB und52CC ein, mit welchem die eingestellte Spracherkennungseinheit Spracherkennung einer Hausnummer unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Wenn beispielsweise die eingestellte Spracherkennungseinheit eine sprachspezifische Spracherkennungseinheit4A ist, und die Systemeinstellungssprache die entsprechende SpracheA für die sprachspezifische Spracherkennungseinheit4A ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 das Hausnummer-Wörterbücher52AA ein. - Wenn andererseits die Systemeinstellungssprache nicht dieselbe ist wie die entsprechende Sprache für die eingestellte Spracherkennungseinheit, sondern eine andere Sprache, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit
7 ein Hausnummer-Wörterbuch von den Hausnummer-Wörterbüchern52BA bis52BC , mit welchem die eingestellte Spracherkennungseinheit eine Spracherkennung einer Hausnummer durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache, ein. Wenn beispielsweise die eingestellte Spracherkennungseinheit eine sprachspezifische Spracherkennungseinheit4A ist und die Systemeinstellungssprache die andere SpracheB für die sprachspezifische Spracherkennungseinheit4A ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 das Hausnummer-Wörterbuch52BA ein. Mit anderen Worten, wenn die Systemeinstellungssprache eine andere Sprache ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 ein Hausnummer-Wörterbuch, in welchem die andere Sprache und die Systemeinstellungssprache die gleiche sind, als ein Hausnummer-Wörterbuch ein, mit welchem die eingestellte Spracherkennungseinheit arbeitet, eine Spracherkennung durchzuführen, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache. - Es sollte angemerkt werden, dass die eingestellte Spracherkennungseinheit so konfiguriert ist, dass eine Spracherkennung an einem ersten vorbestimmten Bereich der eingegebenen Stimme in einer Eingangsreihenfolge durchgeführt wird, unter Verwendung eines Ortsnamen-Wörterbuches (irgendeines der Ortsnamen-Wörterbücher
51A bis51C ). Weiter ist die eingestellte Spracherkennungseinheit so konfiguriert, dass eine Spracherkennung durchgeführt wird an einem vorbestimmten zweiten Bereich der eingegebenen Stimme in der Eingangsreihenfolge, unter Verwendung eines Hausnummer-Wörterbuchs (irgendeines der Hausnummer-Wörterbücher52AA ,52BB und52CC und der Hausnummer-Wörterbücher52BA bis52BC ). - Hier wird im Allgemeinen, da ein Ortsnamen vor einer Hausnummer in einer einzelnen Äußerung für Stimmeingabe einer Adresse geäußert wird, angenommen, dass in dieser Ausführungsform
1 der erste Bereich auf eine erste Hälfte von eingegebener Stimme in der Eingangsreihenfolge angewendet wird und der zweite Bereich auf eine letztere Hälfte der Eingangsstimme in der eingegebenen Reihenfolge angewendet wird. - Betrieb
-
5 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß dieser Ausführungsform1 zeigt. Es sollte angemerkt werden, dass nachfolgend eine Beschreibung unter Verwendung eines Falls gegeben wird, in welchem als ein Beispiel eine Adresse des Ziels in Deutschland (eine Zielsprache ist Deutsch) ist, die Systemeinstellungssprache Englisch ist, eine sprachspezifische Spracherkennungseinheit für Deutsch die sprachspezifische Spracherkennungseinheit4A ist, ein Ortsnamen-Wörterbuch für Deutsch das Ortsnamen-Wörterbuch51A ist, ein Hausnummer-Wörterbuch, in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, das Hausnummer-Wörterbuch52BA ist. Jedoch ist dies lediglich ein Beispiel und die vorliegende Erfindung ist nicht auf dieses Beispiel beschränkt. - Zuerst erfasst (empfängt) in Schritt
S1 die Stimmeingabeeinheit1 Stimme (Äußerung) vom Anwender. Im SchrittS2 erzeugt die Stimmeinführeinheit2 ein Stimmsignal aus der durch die Stimmeingabeeinheit1 erfassten Stimme. Im SchrittS3 analysiert die Tonanalyseeinheit3 das Stimmsignal und wandelt das Stimmsignal in eine Vektorsequenz, eine chronologische Sequenz oder dergleichen, von akustischen Merkmalen um. - Im Schritt
S4 stellt von den sprachspezifischen Spracherkennungseinheiten4A bis4C die Spracherkennungs-Spracheinstelleinheit6 eine sprachspezifische Spracherkennungseinheit ein (wählt sie aus) basierend auf dem Ziel. Im obigen Beispiel, da das Ziel einen Ortsnamen in Deutschland hat, stellt die Spracherkennungs-Spracheinstelleinheit6 die sprachspezifische Spracherkennungseinheit4A für Deutsch ein. Spezifisch ist die eingestellte Spracherkennungseinheit eine sprachspezifische Spracherkennungseinheit4A für Deutsch. - Im Schritt
S5 stellt (selektiert) die Spracherkennungs-Wörterbuch-Einstelleinheit7 einen Ortsnamen-Wörterbuch von den Ortsnamen-Wörterbüchern51A bis51C ein, mit welchen die eingestellte Spracherkennungseinheit eine Spracherkennung eines Ortsnamens unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Im obigen Beispiel, da die eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit4A für Deutsch ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 das Ortsnamen-Wörterbuch51A für Deutsch ein. - Im Schritt
S6 stellt (selektiert) die Spracherkennungs-Wörterbuch-Einstelleinheit7 ein Hausnummer-Wörterbuch aus den Hausnummer-Wörterbüchern52AA ,52BB und52CC und den Hausnummer-Wörterbüchern52BA bis52BC ein, mit welchen die eingestellte Spracherkennungseinheit Spracherkennung einer Hausnummer unter Verwendung von Phonemen in der Systemeinstellungssprache durchführt. Im obigen Beispiel, da die eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit4A für Deutsch ist und die Systemeinstellungssprache Englisch ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 das Hausnummer-Wörterbuch52BA , in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, ein. - Im Schritt
S7 bezieht sich die Spracherkennungseinheit4 auf das Spracherkennungs-Wörterbuch5 und führt eine Spracherkennung für akustische Daten durch, welche der Tonanalyse unterworfen worden sind, um ein Erkennungsergebnis, das am wahrscheinlichsten ist, auszugeben. Im obigen Beispiel führt die sprachspezifische Spracherkennungseinheit4A für Deutsch eine Spracherkennung unter Verwendung des Ortsnamen-Wörterbuchs51A der ersten Hälfte der eingegebenen Stimme in der Eingangsreihenfolge durch und führt eine Spracherkennung unter Verwendung des Hausnummer-Wörterbuchs52BA , in welchem eine Kartierung auf die letztere Hälfte der eingegebenen Stimme in der Eingangsreihenfolge angewendet worden ist, durch. Das aus der Spracherkennungseinheit4 im SchrittS7 ausgegebene Erkennungsergebnis wird als Stimme aus einem Lautsprecher, der nicht illustriert ist, ausgegeben oder auf einer Anzeigevorrichtung, die nicht illustriert ist, angezeigt. Dann endet der Betrieb in5 . - Abschluss von Ausführungsform 1
- Als ein Beispiel wird ein Fall angenommen, bei dem ein Engländer als Anwender (wobei Englisch die Systemeinstellungssprache ist) eine Stimmeingabe einer Adresse in Deutschland als Ziel durchführt. In diesem Fall wird erwartet, das der Engländer einen Ortsnamen in Deutschland (z.B. „Stuttgart Neckarstraße“) in deutscher Aussprache äußert und dann eine Hausnummer (z.B. „one, two, three“) ein englischer Aussprache.
- Hier ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 in der Lage, eine Spracherkennung „Stuttgart Neckarstraße“ beispielsweise unter Verwendung eines ersten Wörterbuches (dem Ortsnamen-Wörterbüchern
51A bis51C ) durchzuführen. Dann ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 in der Lage, Spracherkennung beispielsweise an „one, two, three“ unter Verwendung eines zweiten Wörterbuchs durchzuführen, in welchem eine Phonem-Kartierung angewendet worden ist (Hausnummer-Wörterbücher52BA bis52BC ). Gemäß einer solchen Konfiguration ist es beispielsweise möglich, Spracherkennung einer einzelnen Äußerung durchzuführen, die eine Mehrzahl von Sprachen wie etwa Deutsch und Englisch unterhält. Weiter, indem keine Phonem-Kartierung an Ortsnamen und dergleichen durchgeführt wird, ist es möglich, ein Verhältnis der Spracherkennungs-Wörterbücher mit relativ großer Datengröße, und in denen Phonem-Kartierung angewendet worden ist, zu reduzieren. Als Ergebnis ist es möglich, die Datengröße der Spracherkennungs-Wörterbücher zu reduzieren. Zusätzlich wird auch eine Reduktion einer falschen Erkennung erwartet. - Weiter führt die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 eine Spracherkennung am vorbestimmten ersten Bereich der eingegebenen Stimme in Eingangsreihenfolge unter Verwendung des Ortsnamen-Wörterbuchs durch und Spracherkennung am vorbestimmten zweiten Teil der eingegebenen Stimme in Eingangsreihenfolge unter Verwendung des Hausnummer-Wörterbuchs. Damit ist es möglich, die Genauigkeit bei der Spracherkennung zu verbessern.
- Variationen von Ausführungsform 1
- In Ausführungsform 1 ist das zweite Glossar jedes der zweiten Wörterbücher, in welchen Phonem-Kartierung angewendet worden ist (die Hausnummer-Wörterbücher
52BA bis52BC ) ein Glossar von Hausnummern. Jedoch ist die vorliegende Erfindung nicht auf ein solches Beispiel beschränkt und das zweite Glossar jedes der zweiten Wörterbücher kann ein Glossar vorbestimmter Nummern wie etwa Postleitzahlen sein. - Weiter kann das zweite Glossar des zweiten Wörterbuchs ein Glossar für eine vorbestimmte Kategorie von POI (Point Of Interest, interessanter Punkt) in einem Navigationssystem sein. Dann, wenn die Systemeinstellungssprache eine andere Sprache ist, kann die Spracherkennungs-Wörterbuch-Einstelleinheit
7 ein zweites Wörterbuch, in welchem die andere Sprache und die Systemeinstellungssprache dieselbe sind, als das zweite Wörterbuch einstellen, mit welchem die eingestellte Spracherkennungseinheit Spracherkennung eines Worts oder Ausdrucks im Glossar der obigen Kategorie durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache durchführt. - Beispielsweise wird ein Fall angenommen, in welchem „Aachener Dom“ als POI in Deutsch gesprochen eingegeben wird, nachdem die Stimme „World Heritage“ als eine POI-Kategorie in Englisch eingegeben wird. Um eine solche Annahme anzugehen, ist es möglich, eine Konfiguration bereitzustellen, in der die sprachspezifische Spracherkennungseinheit
4A für Deutsch die Spracherkennung für den ersten Halbteil der eingegebenen Stimme in der Eingangsreihenfolge unter Verwendung des zweiten Wörterbuchs, in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, durchführt, und Spracherkennung für den letzten Halbteil der eingegebenen Stimme in der Eingangsreihenfolge unter Verwendung des ersten Wörterbuchs in Deutsch durchführt. Selbst in einer solchen Konfiguration ist es auch möglich, denselben Effekt für Kategorie und POI wie in Ausführungsform 1 zu erhalten. - Weiter kann das zweite Glossar des zweiten Wörterbuchs ein Glossar vorbestimmter Befehle für das Navigationssystem sein. Dann, wenn die Systemeinstellungssprache eine andere Sprache ist, kann die Spracherkennungs-Wörterbuch-Einstelleinheit
7 ein zweites Wörterbuch, dessen andere Sprache und die Systemeinstellungssprache dieselbe sind, als das zweite Wörterbuch einstellen, mit welchem die eingestellte Spracherkennungseinheit Spracherkennung eines Worts oder Ausdrucks im Glossar für die obigen Befehle durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache. - Beispielsweise sei ein Fall, in dem die Stimme „Aachener Dom“ als POI in Deutsch eingegeben wird, nachdem die Stimme „Navigate to“ als ein Befehl in Englisch eingegeben wird, angenommen. Um eine solche Annahme anzugehen, ist es möglich, eine Konfiguration bereitzustellen, in der die sprachspezifische Spracherkennungseinheit
4A für Deutsch eine Spracherkennung für den ersten Halbteil der eingegebenen Stimme in der Eingangsreihenfolge unter Verwendung des zweiten Wörterbuchs durchführt, in welchem Phoneme in Englisch auf Phoneme in Deutsch abgebildet sind, und Spracherkennung für den letzteren Halbteil der eingegebenen Stimme in der Eingangsreihenfolge unter Verwendung des ersten Wörterbuchs in Deutsch durchführt. Selbst bei einer solchen Konfiguration ist es auch möglich, denselben Effekt wie in Ausführungsform 1 zu erhalten. Hier gilt Dasselbe für Fälle, in denen Stimme, die einen Musiknamen ein Deutsch angibt, eingegeben wird, nachdem „Play“ als ein Befehl in Englisch eingegeben wird, und in welcher Stimme, die einen menschlichen Namen in Deutsch angibt, eingegeben wird, nachdem die Stimme „Call“ als ein Befehl in Englisch eingegeben wird. - Es sollte angemerkt werden, dass gemäß der Konfiguration, die in Ausführungsform 1 beschrieben ist, ein erstes Wörterbuch, in welchem Phonem-Kartierung nicht durchgeführt wird, für Ortsnamen verwendet wird und ein zweites Wörterbuch, in welchem Phonem-Kartierung angewendet ist, für Hausnummern verwendet wird. Jedoch ist die vorliegende Erfindung nicht auf ein solches Beispiel beschränkt, ein erstes Wörterbuch, in welchem Phoneme nicht kartiert sind, kann für die Hausnummern verwendet werden, und ein zweites Wörterbuch, in welchem Phonem-Kartierung angewendet worden ist, kann für Ortsnamen verwendet werden. Jedoch ist es wie in Ausführungsform 1 möglich, die Größe von Daten für Spracherkennungs-Wörterbücher effizienter zu reduzieren, wenn Phoneme für Hausnummern kartiert sind, die nur in kleinen Zahlen existieren, im Vergleich zu einem Fall, bei dem Phoneme für Ortsnamen, die in größerer Anzahl existieren, kartiert werden.
- Es sollte angemerkt werden, dass die oben beschriebenen Variationen auch in Ausführungsform 2 anwendbar sind und das Nachfolgende wird unten beschrieben.
- Ausführungsform 2
- In Ausführungsform 1 wird angenommen, dass ein Ziel für das Navigationssystem (z.B. ein Zwischenhalt, ein Endziel oder dergleichen) vorher durch den Anwender bestimmt wird, und basierend auf dem Ziel stellt die Spracherkennungs-Wörterbuch-Einstelleinheit
7 eine sprachspezifische Erkennungseinheit, die bei der Spracherkennung zu verwenden ist, ein. Jedoch wird bei praktischem Einsatz das Ziel oft nicht vor Äußerung eingestellt. Somit, wie oben beschrieben, ist es in dieser Ausführungsform 2 möglich, dieselbe Operation wie in Ausführungsform 1 durchzuführen, ohne zuvor das Ziel einzustellen. -
6 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 illustriert. Hier werden in der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 ähnliche und gleiche Komponenten wie jene, die oben beschrieben sind, durch dieselben Bezugszeichen bezeichnet und es werden hauptsächlich Differenzen beschrieben. - Die in
6 illustrierte Spracherkennungsvorrichtung beinhaltet weiter eine Stimmspeichereinheit8 und eine Primär-Erkennungsergebnis-Bestimmungseinheit9 , zusätzlich zu den in3 gezeigten Komponenten. - Hier entspricht die Stimmspeichereinheit
8 einer Speichervorrichtung, wie etwa dem Speicher82 in1 . Die Primär-Erkennungsergebnis-Bestimmungseinheit9 wird durch den Prozessor81 in1 realisiert, der in einer Speichervorrichtung wie etwa den Speicher82 gespeicherte Programme ausführt, als eine Funktion des Prozessors81 . Es sollte angemerkt werden, dass diese Funktionen durch eine Mehrzahl von Prozessoren81 in Kooperation realisiert werden können. - Die Stimmspeichereinheit
8 speichert zeitweilig die einzelne Eingabe von Stimme (hier eine Vektorsequenz oder eine chronologische Sequenz von akustischen Merkmalen, welche durch die Tonanalyseeinheit3 umgewandelt sind), um Spracherkennung an einer einzelnen Eingabe von Stimme mehrmals durch die Spracherkennungseinheit4 durchzuführen. Es ist ausreichend, falls die Stimmspeichereinheit8 bei jeder Spracherkennung verwendet werden kann, und eine solche Stimmspeichereinheit8 kann unter Verwendung einer konventionellen Technik realisiert werden. Daher wird eine detaillierte Beschreibung der Stimmspeichereinheit8 und ihres Betriebs weggelassen. - Es sollte angemerkt werden, dass, wie später im Detail beschrieben, in dieser Ausführungsform 2 die Spracherkennungseinheit
4 Spracherkennung an einer Einzeleingabe von Stimme zweimal durchführt. Durch die erste Spracherkennung von den Zweien wird eine Sprache für das Ziel erfasst. Spezifisch, nachdem die erste Spracherkennung durchgeführt wird, ist die Situation im Wesentlichen dieselbe wie die Situation, bei der das Ziel zuvor eingestellt wird. Dann wird als zweite Spracherkennung eine Spracherkennung ähnlich zu derjenigen in Ausführungsform 1 durchgeführt. - Nunmehr beinhalten in dieser Ausführungsform 2 die Spracherkennungs-Wörterbücher
5 eine Mehrzahl von Ortsnamen-Wörterbüchern51A bis51C , Hausnummer- und Befehlswörterbücher53AA ,53BB und53CC , und Hausnummer- und Befehlswörterbücher53BA ,53CA ,53AB ,53CB ,53AC und53BC als eine Mehrzahl zweiter Wörterbücher. In der nachfolgenden Beschreibung werden die Hausnummer- und Befehlswörterbücher53BA ,53CA ,53AB ,53CB ,53AC und53BC gemeinsam als die „Hausnummer- und Befehlswörterbücher53BA bis53BC “ bezeichnet. Zusätzlich beinhalten die Spracherkennungs-Wörterbücher5 Befehls- und Ausschuss-Wörterbücher54A ,54B und54C (nachfolgend als „die Befehls- und Ausschuss-Wörterbücher54A bis54C “ bezeichnet), als eine Mehrzahl von dritten Wörterbüchern. - Von den Spracherkennungs-Wörterbücher
5 sind die Ortsnamen-Wörterbücher51A bis51C dieselben wie die Ortsnamen-Wörterbücher51A bis51C gemäß Ausführungsform1 . - Die Hausnummer- und Befehlswörterbücher
53AA ,53BB und53CC sind Wörterbücher, in welchen die Hausnummern der Hausnummer-Wörterbücher52AA ,52BB und52CC gemäß Ausführungsform1 durch Hausnummern und Befehle für das Navigationssystem ersetzt sind. Daher ist die sprachspezifische Spracherkennungseinheit4A durch beispielsweise Verwenden des Hausnummer- und Befehlswörterbuchs53AA in der Lage, Spracherkennung zum Spezifizieren einer Hausnummer und eines Befehls in den Phonemen der entsprechenden SpracheA aus eingegebener Stimme in die Phoneme der entsprechenden SpracheA durchzuführen. Hier beinhalten die Befehle für das Navigationssystem „Navigiere nach Deutschland“, „Navigiere nach Frankreich“ und dergleichen. - Die Hausnummer- und Befehlswörterbücher
53BA bis53BC sind Wörterbücher, in welchen die Hausnummern in den Hausnummer-Wörterbüchern52BA bis52BC gemäß Ausführungsform1 durch Hausnummern und Befehle für das Navigationssystem ersetzt sind. Daher ist beispielsweise unter Verwendung des Hausnummer- und Befehlswörterbuchs53BA die sprachspezifische Spracherkennungseinheit4A in der Lage, Phoneme der anderen SpracheB durch Phoneme der entsprechenden SpracheA aus eingegebener Stimme in den Phonemen der unterschiedlichen SpracheB zu substituieren und Spracherkennung zum Spezifizieren einer Hausnummer und eines Befehls in den Phonemen der entsprechenden SpracheA aus eingegebener Stimme nach der Substitution durchzuführen. - Die Befehls- und Ausschuss-Wörterbücher
54A bis54C sind Wörterbücher, mit welchen die entsprechenden sprachspezifischen Spracherkennungseinheiten4A bis4C die erste Spracherkennung einschließlich Ausschusserkennung unter Verwendung von Phonemen in der entsprechenden Sprache durchführen. - Hier wird nachfolgend eine Beschreibung gegeben, bei der ein Fall angenommen wird, in welchem die entsprechende Sprache
A für das Befehls- und Ausschuss-Wörterbuch54A Deutsch ist, und die Befehle für das Navigationssystem wie etwa „Navigieren Deutschland“ und „Navigieren Frankreich“ im Befehls- und Ausschuss-Wörterbuch54A als ein Beispiel eingestellt sind. Weiter wird eine Beschreibung gegeben, die einen Fall nimmt, bei welchem die entsprechende SpracheB für das Befehls- und Ausschuss-Wörterbuch54B Englisch ist und die Befehle für das Navigationssystem wie etwa „Navigate to Germany“ und „Navigate to France“ in dem Befehls- und Ausschuss-Wörterbuch54B als ein Beispiel eingestellt sind. Jedoch sind diese nur Beispiele und die vorliegende Erfindung ist nicht auf diese Beispiele beschränkt. - Nunmehr wird eine Ausschusserkennung in einem Erkennungsverfahren zum Durchführen von Erkennung unter Verwendung eines Ausschuss-Akustikmodells. Gemäß einer solchen Ausschusserkennung ist es möglich, für jegliche Äußerung einen Erkennungsrang auszugeben, der einen Passungsgrad zwischen der Äußerung und einigen Worten und Ausdrücken in einem Wörterbuch angibt.
- Als ein Beispiel wird angenommen, dass die sprachspezifische Spracherkennungseinheit
4B für Englisch eine Spracherkennung einschließlich Ausschusserkennung unter Verwendung des Befehls- und Ausschuss-Wörterbuchs54B durchführt. In diesem Fall, egal welche Eingangsstimme „Navigate to Germany Stuttgart Neckarstraße“ oder „Navigate to Germany Aachener Dom“ ist, gibt die sprachspezifische Spracherkennungseinheit4B einen höheren Erkennungsrang an ein Ergebnis von Spracherkennung für „Navigate to Germany <..>“ als ein Ergebnis von Spracherkennung für „Navigate to France <..>“. Hier ist <..> allgemein ein Symbol, das ein Ergebnis von Ausschusserkennung angibt. - In dieser Ausführungsform 2 wird die obige Ausschusserkennung an einer Mehrzahl von vorbestimmten Befehlen für das Navigationssystem durchgeführt. Weiter wird angenommen, dass jeder der Befehle ein Wort oder einen Ausdruck beinhaltet, der einen Ortsnamen, einen Ländernamen oder/und eine in jenen Bereichen verwendete Sprache angibt, die als ein Ziel des Navigationssystems eingestellt sein kann (z.B. Deutschland, Frankreich, Germany, France und dergleichen).
- Die Primär-Erkennungsergebnis-Bestimmungseinheit
9 bestimmt die in der zweiten Spracherkennung zu verwendende Sprache basierend auf einem Ergebnis der Ausschusserkennung, die in einem Ergebnis enthalten ist, und einer ersten Spracherkennung unter Verwendung der Befehls- und Ausschuss-Wörterbücher54A bis54C . In dieser Ausführungsform2 bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit9 einen einer Mehrzahl von Befehlen, basierend auf dem Ergebnis von Ausschusserkennung, und bestimmt eine in der zweiten Spracherkennung zu verwendende Sprache, basierend auf einem Wort oder Ausdruck, der einen Ortsnamen, einen Ländernamen oder/und einen in jenen Bereichen verwendete Sprache angibt, die in diesem einen Befehl enthalten ist. - Als ein Beispiel wird angenommen, dass ein Erkennungsrang für „Navigate to Germany <..>“ am höchsten ist als ein Ergebnis der in einem Resultat der ersten Spracherkennung unter Verwendung von den Befehls- und Ausschuss-Wörterbüchern
54A bis54C enthaltenen Ausschusserkennung. In diesem Fall bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit9 „Navigate to Germany“ mit dem höchsten Erkennungsrang, der eine Befehl wie oben beschrieben zu sein, von der Mehrzahl von Befehlen, und bestimmt die in der zweiten Spracherkennung zu verwendende Sprache als „Deutsch“, basierend auf in diesem einen Befehl enthaltenen „Germany“. - Wenn die Systemeinstellungssprache eine andere Sprache ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit
7 ein Hausnummer- und Befehlswörterbuch, in welchem die andere Sprache und die Systemeinstellungssprache die gleiche sind, als die Hausnummer- und Befehlswörterbücher53BA bis53BC ein, mit welchen die eingestellte Spracherkennungseinheit Spracherkennung einer Häusernummer und einen Befehl (zweites Glossar) durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache. - Betrieb
-
7 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 zeigt. Es ist anzumerken, dass nachfolgend eine Beschreibung unter Verwendung eines Falls gegeben wird, bei welchem beispielsweise die Systemeinstellungssprache Englisch ist, eine sprachspezifische Spracherkennungseinheit für Deutsch die sprachspezifische Spracherkennungseinheit4A ist, eine sprachspezifische Spracherkennungseinheit für Englisch die sprachspezifische Spracherkennungseinheit4B ist, ein Ortsnamen-Wörterbuch für Deutsch das Ortsnamen-Wörterbuch51A ist, ein Hausnummer- und Befehlswörterbuch, in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, das Hausnummer- und Befehlswörterbuch53BA ist, und ein Befehls- und Ausschuss-Wörterbuch in Englisch das Befehls- und Ausschuss-Wörterbuch54B ist. Die Beschreibung wird auch unter Annahme des Falls gegeben, in welchem ein Befehl „Navigate to Germany“ in englischer Aussprache, ein Ortsname „Stuttgart Neckarstraße“ in deutscher Aussprache und eine Hausnummer „one, two, three“ in englischer Aussprache in dieser Reihenfolge als ein Beispiel eingegeben werden. Jedoch sind dies nur Beispiele und die vorliegende Erfindung ist nicht auf diese Beispiele beschränkt. - Zuerst wird im Schritt
S11 bisS13 dieselbe Operation wie im SchrittS1 bis SchrittS3 gemäß Ausführungsform1 ausgeführt. - Dann speichert in Schritt
S14 die Stimmspeichereinheit8 eine Vektorsequenz, eine chronologische Sequenz oder dergleichen von durch die Tonanalyseeinheit3 umgewandelten akustischen Merkmalen. - Im Schritt
S15 stellt von den sprachspezifischen Spracherkennungseinheiten4A bis4C die Spracherkennungs-Spracheinstelleinheit6 eine sprachspezifische Spracherkennungseinheit, die in der ersten Spracherkennung zu verwenden ist, basierend auf der Systemeinstellungssprache ein. Wie im obigen Beispiel, da die Systemeinstellungssprache Englisch ist, stellt die Spracherkennungs-Spracheinstelleinheit6 die sprachspezifische Spracherkennungseinheit4B für Englisch ein. Hier wird in der nachfolgenden Beschreibung die durch die Spracherkennungs-Spracheinstelleinheit6 in SchrittS15 eingestellte sprachspezifische Spracherkennungseinheit auch als eine „erste eingestellte Spracherkennungseinheit“ bezeichnet. - Im Schritt
S16 stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 ein Befehls- und Ausschuss-Wörterbuch von den Befehls- und Ausschuss-Wörterbüchern54A bis54C ein, mit welchem die erste eingestellte Spracherkennungseinheit eine Spracherkennung einschließlich Ausschusserkennung unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Im obigen Beispiel, da die erste eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit4B für Englisch ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 das Befehls- und Ausschuss-Wörterbuch54B für Englisch ein. - In Schritt
S17 referenziert die Spracherkennungseinheit4 auf das Spracherkennungs-Wörterbuch5 und führt erste Spracherkennung für akustische Daten, die der Tonanalyse unterworfen worden sind, durch, um ein Erkennungsergebnis, das am wahrscheinlichsten ist, auszugeben. Im obigen Beispiel führt die sprachspezifische Spracherkennungseinheit4B für Englisch Spracherkennung einschließlich Ausschusserkennung unter Verwendung des Befehls- und Ausschuss-Wörterbuchs54B zum Eingeben von Stimme von „Navigate to Germany Stuttgart Neckarstraße one, two, three“ durch. Als Ergebnis der Ausschusserkennung wird der höchste Erkennungsrang dem Befehl „Navigate to Germany <..>“ gegeben. - Im Schritt
S18 bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit9 einen der Mehrzahl von Befehlen, basierend auf dem Ergebnis von Ausschusserkennung, und bestimmt eine in dem zweiten Spracherkennung zu verwendende Sprache ? basierend auf einem Wort oder Ausdruck, das zumindest eines von einem Ortsnamen, einem Ländernamen und einer in jenen Bereichen verwendeten Sprache angibt, die in diesem einen Befehl enthalten ist. Mit anderen Worten bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit9 die Sprache im Wesentlichen gleich wie die Sprache des Ziels in Ausführungsform 1. - Im obigen Beispiel bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit
9 „Navigate to Germany“ mit dem höchsten Erkennungsrang aus der Mehrzahl von Befehlen und bestimmt die in der zweiten Spracherkennung zu verwendende Sprache, das heißt die Sprache des Ziels, „Deutsch“ zu sein, basierend auf „Germany“, das in diesem einen Befehl enthalten ist. - Im Schritt
S19 wird eine Operation, welche dieselbe ist wie in SchrittS4 , gemäß Ausführungsform 1, durchgeführt. Spezifisch stellt von den sprachspezifischen Spracherkennungseinheiten4A bis4C die Spracherkennungs-Spracheinstelleinheit6 als die in der zweiten Spracherkennung zu verwendende, sprachspezifische Spracherkennungseinheit eine sprachspezifische Spracherkennungseinheit basierend auf der durch die Primär-Erkennungsergebnis-Bestimmungseinheit9 bestimmten Sprache ein. Im obigen Beispiel, da die Sprache des Ziels Deutsch ist, stellt die Spracherkennungs-Spracheinstelleinheit6 die sprachspezifische Spracherkennungseinheit4A für Deutsch ein. Hier wird in der nachfolgenden Beschreibung die durch die Spracherkennungs-Spracheinstelleinheit6 im SchrittS19 eingestellte sprachspezifische Spracherkennungseinheit auch als eine „zweite eingestellte Spracherkennungseinheit“ bezeichnet. - Im Schritt
S20 wird eine zum SchrittS5 gemäß Ausführungsform 1 ähnliche Operation durchgeführt. Spezifisch stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 ein Ortsnamen-Wörterbuch von den Ortsnamen-Wörterbüchern51A bis51C ein, mit welchen die zweite eingestellte Spracherkennungseinheit Spracherkennung eines Ortsnamens (erstes Glossar) unter Verwendung von Phonemen in der entsprechenden Sprache durchführt. Im obigen Beispiel bestimmt die Primär-Erkennungsergebnis-Bestimmungseinheit9 „Navigate to Germany“ mit dem höchsten Erkennungsrang von der Mehrzahl von Befehlen und bestimmt die in der zweiten Spracherkennung zu verwendende Sprache, das heißt die Sprache des Ziels, als „Deutsch“, basierend auf in diesem einen Befehl enthaltenem „Germany“. - In Schritt
S21 wird eine Operation, welche dieselbe ist wie in SchrittS6 gemäß Ausführungsform 1, durchgeführt. Spezifisch stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 ein Hausnummer- und Befehlswörterbuch von den Hausnummer- und Befehlswörterbüchern53AA ,53BB und53CC und den Hausnummer- und Befehlswörterbüchern53BA bis53BC ein, mit welchen die zweite eingestellte Spracherkennungseinheit die Spracherkennung einer Hausnummer und eines Befehls (zweites Glossar) unter Verwendung von Phonemen in der Systemeinstellungssprache durchführt. Im obigen Beispiel, da die zweite eingestellte Spracherkennungseinheit die sprachspezifische Spracherkennungseinheit4A für Deutsch ist und die Systemeinstellungssprache Englisch ist, stellt die Spracherkennungs-Wörterbuch-Einstelleinheit7 das Hausnummer- und Befehlswörterbuch53BA , in welchem Phoneme in Englisch auf Phoneme in Deutsch kartiert sind, ein. - Im Schritt
S22 werden eine Vektorsequenz und eine chronologische Abfolge akustischer Merkmale, die in der Stimmspeichereinheit8 gespeichert sind, das heißt eine Vektorabfolge und eine chronologische Abfolge von akustischen Merkmalen, welche die gleichen wie die akustischen Merkmale sind, in welchen die erste Spracherkennung durchgeführt wird, an der Spracherkennungseinheit4 Eingegeben. - Im Schritt
S23 bezieht sich die Spracherkennungseinheit4 auf das Spracherkennungs-Wörterbuch5 und führt eine zweite Spracherkennung für akustische Daten, die eingegeben worden sind, durch, um ein Erkennungsergebnis, das am wahrscheinlichsten ist, auszugeben. Im obigen Beispiel führt die sprachspezifische Spracherkennungseinheit4A eine Spracherkennung unter Verwendung des Ortsnamen-Wörterbuchs51A an der eingegebenen Stimme „Stuttgart Neckarstraße“ durch, und führt eine Spracherkennung unter Verwendung des Hausnummer- und Befehlswörterbuchs53BA durch, in welchem Kartierung auf die eingegebene Stimme „Navigate to Germany“ und die eingegebene Stimme „one, two, three“ angewendet worden ist. Das aus der Spracherkennungseinheit4 ausgegebene Erkennungsergebnis im SchrittS23 wird als Stimme aus einem Lautsprecher ausgegeben, der nicht illustriert ist, oder auf einer nicht illustrierten Anzeigevorrichtung angezeigt. Dann endet die Operation in7 . - Abschluss von Ausführungsform 2
- Mit der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2, wie oben beschrieben, ist es auch möglich, dieselben Effekte wie Ausführungsform 1 zu erhalten. Weiter wird gemäß dieser Ausführungsform 2 eine Sprache für das Ziel erfasst, indem eine erste Spracherkennung durchgeführt wird, die eine Ausschusserkennung beinhaltet, an einer einzelnen Eingabe von Stimme, und eine Spracherkennung, welche dieselbe ist wie in Ausführungsform 1, wird an der einzelnen Eingabe von Stimme durchgeführt, indem eine zweite Spracherkennung durchgeführt wird, in welcher die Sprache für das Ziel eingestellt wird. Daher ist es möglich, Probleme zu eliminieren, ein Ziel vorher einzustellen.
- Variationen von Ausführungsform 2
- In Ausführungsform 2 wird in der zweiten Spracherkennung eine Spracherkennung unter Verwendung eines Hausnummer- und Befehlswörterbuchs, in welchem eine Kartierung auf ein Befehlsteil von eingegebener Stimme angewendet worden ist (eine Vektorabfolge oder eine chronologische Abfolge von akustischen Merkmalen) durchgeführt. Jedoch ist die vorliegende Erfindung nicht auf ein solches Beispiel beschränkt, und solange wie ein Befehlsteil (z.B. „Navigate to Germany“ aus der eingegebenen Stimme entfernt werden kann (eine Vektorabfolge oder eine chronologische Abfolge akustischer Merkmale), ist es möglich, eine Spracherkennung unter Verwendung eines Ortsnamen-Wörterbuches an einem ersten Halbteil des verbleibenden Teils (z.B. „Stuttgart Neckarstraße one, two, three“) durchzuführen und eine Spracherkennung unter Verwendung eines Hausnummer-Wörterbuchs an einem letzteren Halbteil durchzuführen. Mit anderen Worten kann in diesem Fall anstelle der Verwendung von Hausnummer- und Befehlswörterbüchern
53AA ,53BB ,53CC und52BA bis53BC die Hausnummer-Wörterbücher52AA ,52BB ,52CC und52BA bis52BC ähnlich zur Ausführungsform 1 verwendet werden. - Weiter, während in Ausführungsform 2 der Fall, in welchem eine Sprache für das Ziel nicht eingestellt ist, beschrieben wird, ist die vorliegende Erfindung nicht auf ein solches Beispiel beschränkt. Beispielsweise in einem Fall, in dem eine Sprache eines Personennamens, der zu suchen ist, nicht eingestellt ist, und ein Befehl „Call Japan“ in englischer Aussprache und dann ein Personenname „Yamada Taro“ in japanischer Aussprache in dieser Reihenfolge eingegeben werden, kann die Spracherkennung in derselben Weise wie oben beschrieben durchgeführt werden.
- Andere Variationen
- In der obigen Beschreibung wird die Spracherkennungseinheit
4 durch den Prozessor81 in1 , der ein in einer Speichervorrichtung wie etwa dem Speicher82 gespeichertes Programm ausführt, realisiert. Jedoch ist die Spracherkennungsvorrichtung nicht auf die als Software auf diese Weise realisierte Spracherkennungseinheit4 beschränkt, und kann als Hardware mit einer Funktion realisiert werden, welches dieselbe ist wie diejenige der Spracherkennungseinheit4 . Mit anderen Worten ist es ausreichend, dass die Spracherkennungsvorrichtung eine Spracherkennungs-Verarbeitungsschaltung enthält, als ein breiteres Konzept, das der als Software realisierten Spracherkennungseinheit4 gemein ist, und Hardware, die eine Funktion aufweist, welche dieselbe ist wie diejenige der Spracherkennungseinheit4 . - Weiter kann die Spracherkennungsvorrichtung eine ähnliche, sprachspezifische Spracherkennungs-Verarbeitungsschaltung als breiteres Konzept der sprachspezifischen Spracherkennungseinheiten
4A bis4C , eine ähnliche Spracherkennungs-Spracheinstell-Verarbeitungsschaltung als ein breiteres Konzept der Spracherkennungs-Spracheinstelleinheit6 , und eine ähnliche Spracherkennungs-Wörterbucheinstell-Verarbeitungsschaltung als ein breiteres Konzept der Spracherkennungs-Wörterbuch-Einstelleinheit7 enthalten. Ähnlich kann die Spracherkennungsvorrichtung gemäß Ausführungsform 2 eine ähnliche primäre Erkennungsergebnis-Verarbeitungsschaltung als ein breiteres Konzept der Primär-Erkennungsergebnis-Bestimmungseinheit9 enthalten. - Darüber hinaus beinhaltet die oben beschriebene Spracherkennungsvorrichtung ein Spracherkennungssystem, das als ein System konfiguriert ist, das angemessen nicht nur die Navigationsvorrichtung, die an Fahrzeugen montiert werden kann, sondern eine tragbare Navigationsvorrichtung, ein Kommunikationsendgerät (z.B. ein Mobilendgerät wie etwa ein Mobiltelefon, ein Smartphone, oder ein Tablet), und eine Funktion einer darin installierten Anwendung, wie auch ein Server kombiniert. In diesem Fall können die Funktionen und die Komponenten der oben beschriebenen Spracherkennungsvorrichtung für Vorrichtungen bereitgestellt sein, die das System in einer verteilten Weise bilden, oder für eine solcher Vorrichtungen in einer konzentrierten Weise bereitgestellt sein.
- Es sollte angemerkt werden, dass die vorliegende Erfindung innerhalb des Umfangs der Erfindung, welche die Ausführungsformen und Variationen frei kombiniert, oder jegliche der Ausführungsformen und der Variationen angemessen ändert oder weglassen kann.
- Während die vorliegende Erfindung im Detail beschrieben worden ist, ist die obige Beschreibung in den Aspekten nur illustrativ und ist die vorliegende Erfindung nicht auf die Beschreibung beschränkt. Es versteht sich, dass zahlreiche Variationen, die nicht illustriert sind, vorstellbar sein können, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen.
- Bezugszeichenliste
-
- 4
- Spracherkennungseinheit
- 4A, 4B, 4C:
- Sprachspezifische Spracherkennungseinheit
- 5
- Spracherkennungs-Wörterbuch
- 6
- Spracherkennungs-Spracheinstelleinheit
- 7
- Spracherkennungs-Wörterbuch-Einstelleinheit
- 8
- Stimmspeichereinheit
- 9
- Primär-Erkennungsergebnis-Bestimmungseinheit
- 51A, 51B, 51C:
- Ortsnamen-Wörterbuch
- 52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC:
- Hausnummer-Wörterbuch
- 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC:
- Hausnummer- und Befehlswörterbuch
- 54A, 54B, 54C:
- Befehls- und Ausschuss-Wörterbuch
Claims (12)
- Spracherkennungsvorrichtung, die in einem Navigationssystem eingebaut ist, umfassend: ein Glossare definierendes Spracherkennungs-Wörterbuch (5), das ein Ziel zur Spracherkennung ist; und eine Spracherkennungs-Verarbeitungsschaltung (4), die konfiguriert ist, eine Spracherkennung von eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs durchzuführen, wobei die Spracherkennungs-Verarbeitungsschaltung beinhaltet eine Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen (4A, 4B, 4C), die in der Lage sind, eine Spracherkennung unter Verwendung von Phonemen in jeweils vorbestimmten Sprachen durchzuführen, das Spracherkennungs-Wörterbuch beinhaltet eine Vielzahl von ersten Wörterbüchern (51A, 51B, 51C), mit denen jede der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen die Spracherkennung mit einem ersten Glossar durchführt, welches ein Glossar ist, das Phoneme in einer entsprechenden Sprache als die Sprache verwendet, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, und eine Vielzahl von zweiten Wörterbüchern (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC), die jeweils von jeder der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet werden, um Phoneme in einer anderen Sprache, die sich von der entsprechenden Sprache unterscheidet, durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung mit einem zweiten Glossar, welches ein anderes Glossar ist, durchzuführen, wobei in den zweiten Wörterbüchern, jeweils für das zweite Glossar, Phoneme in der anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind, die Spracherkennungsvorrichtung weiter umfasst: eine Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6), die konfiguriert ist, die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen einzustellen, wobei die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, basierend auf einem Ziel des Navigationssystems einstellt; und eine Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), die konfiguriert ist, aus der Vielzahl von ersten Wörterbüchern das erste Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt; und von der Vielzahl von zweiten Wörterbüchern das zweite Wörterbuch einzustellen, mit welchem die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache, durchführt.
- Spracherkennungsvorrichtung gemäß
Anspruch 1 , wobei das zweite Glossar jedes zweiten Wörterbuchs (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC) ein Glossar vorbestimmter Nummern beinhaltet. - Spracherkennungsvorrichtung gemäß
Anspruch 2 , wobei die Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), wenn eine in einem Navigationssystem eingestellte Sprache die andere Sprache ist, das zweite Wörterbuch, in welchem die andere Sprache die gleiche wie die im Navigationssystem eingestellte Sprache ist, als das zweite Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) eingestellt ist, die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache. - Spracherkennungsvorrichtung gemäß
Anspruch 1 , wobei das zweite Glossar jedes von zweiten Wörterbüchern (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC) ein Glossar für eine vorbestimmte Kategorie von POI (Point Of Interest, interessanter Punkt) in einem Navigationssystem beinhaltet. - Spracherkennungsvorrichtung gemäß
Anspruch 4 , wobei die Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), wenn eine in einem Navigationssystem eingestellte Sprache die andere Sprache ist, das zweite Wörterbuch, in welchem die andere Sprache die gleiche wie die im Navigationssystem eingestellte Sprache ist, als das zweite Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) eingestellt ist, die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache. - Spracherkennungsvorrichtung gemäß
Anspruch 1 , wobei das zweite Glossar jedes der zweiten Wörterbücher (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC) ein Glossar für vorbestimmte Befehle eines Navigationssystems enthält, und die Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7), wenn eine in dem Navigationssystem eingestellte Sprache die andere Sprache ist, das zweite Wörterbuch, in welchem die andere Sprache die gleiche ist wie die in dem Navigationssystem eingestellte Sprache, als das zweite Wörterbuch einstellt, mit welchem die durch die Spracherkennungs-Spracheinstellverarbeitungsschaltung (6) eingestellte sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache. - Spracherkennungsvorrichtung gemäß
Anspruch 1 , wobei die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) eingestellt ist, durchführt: eine Spracherkennung an einem vorbestimmten ersten Bereich der eingegebenen Stimme unter Verwendung des ersten Wörterbuchs (51A, 51B, 51C) und die Spracherkennung am vorbestimmten zweiten Bereich der eingegebenen Stimme, wobei der vorbestimmte zweite Bereich nach dem vorbestimmten ersten Bereich eingegeben wird, unter Verwendung des zweiten Wörterbuchs (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC). - Spracherkennungsvorrichtung gemäß
Anspruch 1 , weiter umfassend: eine Speichervorrichtung (8), die eine einzelne Eingabe von Stimme speichert, um Spracherkennung an der einzelnen Eingabe von Stimme mehrmals durch die Spracherkennungseinheit (4) durchzuführen; und eine Primär-Erkennungsergebnis-Bestimmungs-Verarbeitungsschaltung (9), wobei das Spracherkennungs-Wörterbuch (5) weiter beinhaltet eine Vielzahl dritter Wörterbücher (54A, 54B, 54C), mit welchen die Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen (4A, 4B, 4C) jeweils eine erste Spracherkennung, die Ausschusserkennung beinhaltet, unter Verwendung von Phonemen in der entsprechenden Sprache durchführt, wobei die Ausschusserkennung einen Erkennungsrang ausgibt, der einen Passungsgrad zwischen der Äußerung und einigen Worten und Ausdrücken in dem dritten Wörterbuch angibt, die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung (6) die in der ersten Spracherkennung von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen zu verwendende sprachspezifische Spracherkennungs-Verarbeitungsschaltung auf eine in dem Navigationssystem eingestellte Sprache einstellt, die Spracherkennungs-Wörterbuch-Einstell-Verarbeitungsschaltung (7) von der Vielzahl von dritten Wörterbüchern das dritte Wörterbuch, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellten ersten Spracherkennung zu verwenden ist, welche die Ausschusserkennung enthält, unter Verwendung von Phonemen in der entsprechenden Sprache durchführt, die Primär-Erkennungsergebnis-Bestimmungs-Verarbeitungsschaltung die in der zweiten Spracherkennung zu verwendende Sprache basierend auf einem Ergebnis der Ausschusserkennung, die in einem Ergebnis der ersten Spracherkennung enthalten ist, unter Verwendung von dem dritten Wörterbuch, bestimmt, die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung die in der zweiten Spracherkennung von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen zu verwendende sprachspezifische Spracherkennungs-Verarbeitungsschaltung einstellt, basierend auf der durch die Primär-Erkennungsergebnis-Bestimmungs-Verarbeitungsschaltung bestimmten Sprache, und die Spracherkennungs-Wörterbucheinstell-Verarbeitungsschaltung von der Vielzahl von ersten Wörterbüchern das erste Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der zweiten Spracherkennung zu verwenden ist, und welche durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellt ist, die Spracherkennung des ersten Glossars durchführt, unter Verwendung von Phonemen in der entsprechenden Sprache, und von der Vielzahl von zweiten Wörterbüchern das zweite Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die in der zweiten Spracherkennung zu verwenden ist, und die durch die Spracherkennungs-Spracheinstell-Verarbeitungsschaltung eingestellt ist, die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache. - Spracherkennungsvorrichtung gemäß
Anspruch 8 , wobei die Ausschusserkennung durchgeführt wird an einer Vielzahl von vorbestimmten Befehlen in dem Navigationssystem, und jeder der Befehle enthält: ein Wort oder einen Ausdruck, der einen Ortsnamens, einen Ländernamens und/oder eine Sprache angibt, die in solchen Bereichen verwendet wird, die als ein Ziel des Navigationssystems eingestellt sein können. - Spracherkennungsvorrichtung gemäß
Anspruch 9 , wobei die Primär-Erkennungsergebnis-Bestimmungs-Verarbeitungsschaltung (9) einen der Vielzahl von Befehlen bestimmt, basierend auf einem Ergebnis der Ausschusserkennung, und eine Sprache bestimmt, die in der zweiten Spracherkennung zu verwenden ist, basierend auf einem Wort oder Ausdruck, der den Ortsnamen, den Ländernamen oder/und die Sprache, die in dem einen Befehl enthalten ist, angibt. - Spracherkennungsvorrichtung gemäß
Anspruch 8 , wobei das zweite Glossar jedes der zweiten Wörterbücher (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC) ein Glossar vorbestimmter Befehle des Navigationssystems enthält, und die Spracherkennungs-Wörterbuch-Einstelleinheit (7) wenn eine in dem Navigationssystem eingestellte Sprache die andere Sprache ist, das zweite Wörterbuch, in welchem die andere Sprache die gleiche wie die in dem Navigationssystem eingestellte Sprache ist, als das zweite Wörterbuch einstellt, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung, die durch die Spracherkennungs-Spracheinstelleinheit (6) eingestellt ist, die Spracherkennung des zweiten Glossars durchführt, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache. - Spracherkennungsverfahren, umfassend die Schritte: Vorbereiten eines Glossar definierenden Spracherkennungs-Wörterbuchs (5), welches ein Ziel zur Spracherkennung ist; und Durchführen von Spracherkennung an eingegebener Stimme unter Verwendung des Spracherkennungs-Wörterbuchs, wobei das Durchführen der Spracherkennung beinhaltet Vorbereiten einer Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen (4A, 4B, 4C), die zur Durchführung der Spracherkennung unter Verwendung von Phonemen in entsprechend vorbestimmten Sprachen in der Lage sind, das Vorbereiten des Spracherkennungs-Wörterbuchs beinhaltet Vorbereiten einer Vielzahl von ersten Wörterbüchern (51A, 51B, 51C), mit welchen jede der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen die Spracherkennung mit einem ersten Glossar durchführt, welches ein Glossar ist, das Phoneme in einer entsprechenden Sprache als die Sprache verwendet, die jeder der sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen entspricht, und Vorbereiten einer Vielzahl zweiter Wörterbücher (52AA, 52BA, 52CA, 52AB, 52BB, 52CB, 52AC, 52BC, 52CC, 53AA, 53BA, 53CA, 53AB, 53BB, 53CB, 53AC, 53BC, 53CC), die jeweils von jeder der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen verwendet werden, um Phoneme in einer anderen Sprache, die sich von der entsprechenden Sprache unterscheidet, durch Phoneme in der entsprechenden Sprache zu substituieren, um die Spracherkennung mit einem zweiten Glossar, welches ein anderes Glossar ist, durchzuführen, wobei in den zweiten Wörterbüchern, jeweils für ein zweites Glossar, Phoneme in einer anderen Sprache auf Phoneme in der entsprechenden Sprache kartiert sind, das Spracherkennungsverfahren umfasst weiter: Einstellen der sprachspezifischen Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, von der Vielzahl von sprachspezifischen Spracherkennungs-Verarbeitungsschaltungen, wobei das Einstellen der sprachspezifischen Spracherkennungs-Verarbeitungsschaltung, die in der Spracherkennung zu verwenden ist, basierend auf einem Ziel eines Navigationssystems erfolgt; und Einstellen des ersten Wörterbuchs, aus der Vielzahl von ersten Wörterbüchern, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des ersten Glossars unter Verwendung von Phonemen in der entsprechenden Sprache durchführt, und Einstellen des zweiten Wörterbuchs, aus der Vielzahl von zweiten Wörterbüchern, mit welchem die sprachspezifische Spracherkennungs-Verarbeitungsschaltung die Spracherkennung des zweiten Glossars, durch Substituieren von Phonemen in der anderen Sprache durch Phoneme in der entsprechenden Sprache, durchführt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/084105 WO2016103358A1 (ja) | 2014-12-24 | 2014-12-24 | 音声認識装置及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE112014007287T5 DE112014007287T5 (de) | 2017-10-12 |
DE112014007287B4 true DE112014007287B4 (de) | 2019-10-31 |
Family
ID=56149457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112014007287.7T Active DE112014007287B4 (de) | 2014-12-24 | 2014-12-24 | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
Country Status (5)
Country | Link |
---|---|
US (1) | US10403265B2 (de) |
JP (1) | JP6109451B2 (de) |
CN (1) | CN107112007B (de) |
DE (1) | DE112014007287B4 (de) |
WO (1) | WO2016103358A1 (de) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112017007852B4 (de) | 2017-09-11 | 2023-05-17 | Mitsubishi Electric Corporation | Spracherkennung-Wörterbuchdaten-Konstruktionsvorrichtung, Spracherkennungsvorrichtung, Spracherkennung-Wörterbuchdaten-Konstruktionsverfahren |
JP7038919B2 (ja) * | 2019-08-01 | 2022-03-18 | 三菱電機株式会社 | 多言語音声認識装置および多言語音声認識方法 |
CN110534115B (zh) * | 2019-10-14 | 2021-11-26 | 上海企创信息科技有限公司 | 多方言混合语音的识别方法、装置、***和存储介质 |
CN111147444B (zh) | 2019-11-20 | 2021-08-06 | 维沃移动通信有限公司 | 一种交互方法及电子设备 |
JP6879521B1 (ja) * | 2019-12-02 | 2021-06-02 | 國立成功大學National Cheng Kung University | 多言語音声認識およびテーマ−意義素解析方法および装置 |
EP4323908A1 (de) * | 2021-06-04 | 2024-02-21 | Google Llc | Systeme und verfahren zur erzeugung phonetischer rechtschreibungsvariationen |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050197835A1 (en) * | 2004-03-04 | 2005-09-08 | Klaus Reinhard | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US20130166290A1 (en) * | 2011-12-26 | 2013-06-27 | Denso Corporation | Voice recognition apparatus |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
US6470315B1 (en) * | 1996-09-11 | 2002-10-22 | Texas Instruments Incorporated | Enrollment and modeling method and apparatus for robust speaker dependent speech models |
JP3039399B2 (ja) | 1996-10-31 | 2000-05-08 | 日本電気株式会社 | 非母国語音声認識装置 |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
US6138095A (en) * | 1998-09-03 | 2000-10-24 | Lucent Technologies Inc. | Speech recognition |
US6292778B1 (en) * | 1998-10-30 | 2001-09-18 | Lucent Technologies Inc. | Task-independent utterance verification with subword-based minimum verification error training |
US7447635B1 (en) * | 1999-10-19 | 2008-11-04 | Sony Corporation | Natural language interface control system |
JP3378547B2 (ja) * | 1999-12-27 | 2003-02-17 | 日本電信電話株式会社 | 音声認識方法及び装置 |
US20060074664A1 (en) * | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
US7295979B2 (en) | 2000-09-29 | 2007-11-13 | International Business Machines Corporation | Language context dependent data labeling |
EP1215654B1 (de) * | 2000-12-13 | 2006-05-24 | Sony Deutschland GmbH | Verfahren zur Spracherkennung |
US20030023437A1 (en) * | 2001-01-27 | 2003-01-30 | Pascale Fung | System and method for context-based spontaneous speech recognition |
JP2002358095A (ja) * | 2001-03-30 | 2002-12-13 | Sony Corp | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
KR100940630B1 (ko) * | 2001-05-02 | 2010-02-05 | 소니 주식회사 | 로봇 장치와, 문자 인식 장치 및 문자 인식 방법과, 제어프로그램 및 기록 매체 |
JP3816779B2 (ja) | 2001-10-12 | 2006-08-30 | アルパイン株式会社 | ナビゲーション装置 |
JP2003255991A (ja) * | 2002-03-06 | 2003-09-10 | Sony Corp | 対話制御システム、対話制御方法及びロボット装置 |
JP2004053742A (ja) * | 2002-07-17 | 2004-02-19 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP3776391B2 (ja) | 2002-09-06 | 2006-05-17 | 日本電信電話株式会社 | 多言語音声認識方法、装置、プログラム |
JP3678421B2 (ja) * | 2003-02-19 | 2005-08-03 | 松下電器産業株式会社 | 音声認識装置及び音声認識方法 |
US7353174B2 (en) * | 2003-03-31 | 2008-04-01 | Sony Corporation | System and method for effectively implementing a Mandarin Chinese speech recognition dictionary |
US7392188B2 (en) * | 2003-07-31 | 2008-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method enabling acoustic barge-in |
WO2005122144A1 (ja) * | 2004-06-10 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置、音声認識方法、及びプログラム |
WO2006127504A2 (en) * | 2005-05-20 | 2006-11-30 | Sony Computer Entertainment Inc. | Optimisation of a grammar for speech recognition |
JP2007155833A (ja) | 2005-11-30 | 2007-06-21 | Advanced Telecommunication Research Institute International | 音響モデル開発装置及びコンピュータプログラム |
US7865357B2 (en) * | 2006-03-14 | 2011-01-04 | Microsoft Corporation | Shareable filler model for grammar authoring |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US8433576B2 (en) * | 2007-01-19 | 2013-04-30 | Microsoft Corporation | Automatic reading tutoring with parallel polarized language modeling |
EP1975923B1 (de) | 2007-03-28 | 2016-04-27 | Nuance Communications, Inc. | Mehrsprachige nicht-muttersprachliche Spracherkennung |
DE102007033472A1 (de) * | 2007-07-18 | 2009-01-29 | Siemens Ag | Verfahren zur Spracherkennung |
US8315870B2 (en) * | 2007-08-22 | 2012-11-20 | Nec Corporation | Rescoring speech recognition hypothesis using prosodic likelihood |
JP5310563B2 (ja) * | 2007-12-25 | 2013-10-09 | 日本電気株式会社 | 音声認識システム、音声認識方法、および音声認識用プログラム |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
JP5692493B2 (ja) * | 2009-02-05 | 2015-04-01 | セイコーエプソン株式会社 | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
JP2011033874A (ja) * | 2009-08-03 | 2011-02-17 | Alpine Electronics Inc | 多言語音声認識装置及び多言語音声認識辞書作成方法 |
JP4942860B2 (ja) | 2010-01-22 | 2012-05-30 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
CN102959618B (zh) * | 2010-06-28 | 2015-08-05 | 三菱电机株式会社 | 声音识别装置 |
US20160372116A1 (en) * | 2012-01-24 | 2016-12-22 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
WO2013110125A1 (en) * | 2012-01-24 | 2013-08-01 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US9672815B2 (en) * | 2012-07-20 | 2017-06-06 | Interactive Intelligence Group, Inc. | Method and system for real-time keyword spotting for speech analytics |
CN104143328B (zh) * | 2013-08-15 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 一种关键词检测方法和装置 |
US9666188B2 (en) * | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
WO2015075789A1 (ja) * | 2013-11-20 | 2015-05-28 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US10360904B2 (en) * | 2014-05-09 | 2019-07-23 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using a garbage model |
EP3172729B1 (de) * | 2014-07-24 | 2022-04-20 | Harman International Industries, Incorporated | Textregelbasierte erkennung von sprache mit mehrern akzenten mit einzelnem akustikmodel und automatischer akzenterkennung |
JP6118838B2 (ja) * | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
JP6052814B2 (ja) * | 2014-09-24 | 2016-12-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 |
US10672391B2 (en) * | 2014-09-26 | 2020-06-02 | Nuance Communications, Inc. | Improving automatic speech recognition of multilingual named entities |
US10229674B2 (en) * | 2015-05-15 | 2019-03-12 | Microsoft Technology Licensing, Llc | Cross-language speech recognition and translation |
US9852728B2 (en) * | 2015-06-08 | 2017-12-26 | Nuance Communications, Inc. | Process for improving pronunciation of proper nouns foreign to a target language text-to-speech system |
KR102413067B1 (ko) * | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
US10249298B2 (en) * | 2017-01-11 | 2019-04-02 | Here Global B.V. | Method and apparatus for providing global voice-based entry of geographic information in a device |
-
2014
- 2014-12-24 US US15/525,716 patent/US10403265B2/en active Active
- 2014-12-24 JP JP2016565721A patent/JP6109451B2/ja active Active
- 2014-12-24 CN CN201480084337.3A patent/CN107112007B/zh active Active
- 2014-12-24 WO PCT/JP2014/084105 patent/WO2016103358A1/ja active Application Filing
- 2014-12-24 DE DE112014007287.7T patent/DE112014007287B4/de active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050197835A1 (en) * | 2004-03-04 | 2005-09-08 | Klaus Reinhard | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US20130166290A1 (en) * | 2011-12-26 | 2013-06-27 | Denso Corporation | Voice recognition apparatus |
Also Published As
Publication number | Publication date |
---|---|
US10403265B2 (en) | 2019-09-03 |
CN107112007B (zh) | 2020-08-07 |
US20180240455A1 (en) | 2018-08-23 |
JP6109451B2 (ja) | 2017-04-05 |
DE112014007287T5 (de) | 2017-10-12 |
JPWO2016103358A1 (ja) | 2017-05-25 |
WO2016103358A1 (ja) | 2016-06-30 |
CN107112007A (zh) | 2017-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112017004374B4 (de) | System und Verfahren zur Spracherkennung | |
DE112014007287B4 (de) | Spracherkennungsvorrichtung und Spracherkennungsverfahren | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE102020205786B4 (de) | Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze | |
DE112010005918B4 (de) | Spracherkennungsvorrichtung | |
DE112010005168B4 (de) | Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer | |
DE112017004397T5 (de) | System und Verfahren zur Einstufung von hybriden Spracherkennungsergebnissen mit neuronalen Netzwerken | |
DE112010006037B4 (de) | Spracherkennungsvorrichtung und Navigationssystem | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE112014006542B4 (de) | Einrichtung und Verfahren zum Verständnis von einer Benutzerintention | |
DE69421324T2 (de) | Verfahren und Vorrichtung zur Sprachkommunikation | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE112013006770B4 (de) | Spracherkennungsvorrichtung und Spracherkennungsverfahren | |
DE112014006795B4 (de) | Spracherkennungssystem und Spracherkennungsverfahren | |
DE112016006512T5 (de) | Absichtseinschätzungsvorrichtung und Absichtseinschätzungsverfahren | |
DE102015109379A1 (de) | Systeme und Verfahren für ein Navigationssystem, das eine Suche mit Diktieren und Teilübereinstimmung verwendet | |
CN109658931B (zh) | 语音交互方法、装置、计算机设备及存储介质 | |
DE212016000292U1 (de) | System zur Text-zu-Sprache-Leistungsbewertung | |
DE202016008204U1 (de) | Suchergebnis unter vorherigem Abrufen von Sprachanfragen | |
DE112012003479T5 (de) | Verringerung von falschen Treffern in Spracherkennungssystemen | |
DE102014107028A1 (de) | Verbesserte biometrische Passwortsicherheit | |
EP3152753B1 (de) | Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen | |
DE112006000225T5 (de) | Dialogsystem und Dialogsoftware | |
DE102017104094B4 (de) | Sprachverarbeitungssystem und sprachverarbeitungsverfahren | |
DE102018111896A1 (de) | Bereitstellen einer Ausgabe, die mit einem Dialekt verknüpft ist |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R084 | Declaration of willingness to licence | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final |