JP6109451B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP6109451B2
JP6109451B2 JP2016565721A JP2016565721A JP6109451B2 JP 6109451 B2 JP6109451 B2 JP 6109451B2 JP 2016565721 A JP2016565721 A JP 2016565721A JP 2016565721 A JP2016565721 A JP 2016565721A JP 6109451 B2 JP6109451 B2 JP 6109451B2
Authority
JP
Japan
Prior art keywords
speech recognition
language
dictionary
processing circuit
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016565721A
Other languages
English (en)
Other versions
JPWO2016103358A1 (ja
Inventor
裕三 丸田
裕三 丸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6109451B2 publication Critical patent/JP6109451B2/ja
Publication of JPWO2016103358A1 publication Critical patent/JPWO2016103358A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • General Engineering & Computer Science (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識が可能な音声認識装置及び音声認識方法に関する。
音声認識装置を内蔵することにより、ユーザからの音声を音声認識して住所入力が可能なナビゲーションシステムが提案されている。このようなナビゲーションシステムがヨーロッパなどの地域で使用される場合、ナビゲーションシステムに使用する言語として設定された言語(以下「システム設定言語」と記す)と、目的地を示す言語とが異なることがある。例えば、ユーザがイギリス人であり、目的地がドイツの住所である場合には、システム設定言語は英語となり、目的地を示す言語はドイツ語となることが想定される。
さて、地名の音声認識を行うための地名の音素(発音記号に相当)は、地図作成業者により提供され、通常、当該地名が示す地域で主に使用される言語の音素が提供される。例えば、ドイツの地名の音素には、ドイツ語の音素が用いられる。このため、目的地を示す言語がドイツ語である場合には、地図作成業者から提供されるドイツ語の音素からなる音声認識辞書を用いるとともに、それに対応するドイツ語の音声認識エンジンを用いることが効率化の観点から好ましい。
一方、システム設定言語には、ユーザの母国語が用いられることが通常である。このため、システム設定言語が英語である場合には、英語の音声認識エンジンを用いることが好ましい。
したがって、システム設定言語が英語であり、目的地を示す言語がドイツ語であるような場合には、目的地を示す言語に関して好ましい音声認識辞書と、システム設定言語に関して好ましい音声認識辞書とが異なることになる。
しかしながら、英語及びドイツ語の一方の言語には存在する音素(発音)が、他方の言語には存在しないことがあるため、英語及びドイツ語の一方の言語の音声認識エンジンで、他方の言語の音素を取り扱うことができないという問題があった。
この問題を解決するため、ある言語Aの音素aを、別の言語Bの音素bのうち、当該音素aと同じまたは最も近い音素bに対応付けた音声認識辞書を用いる技術が提案されている(例えば特許文献1)。このような音声認識辞書を用いれば、言語Aの音素を言語Bの音素に置換して言語Bの音声認識エンジンで音声認識を行うことが可能となる。以下、音声認識辞書において、ある言語の音素を、別の言語の音素に対応付けることを「音素のマッピング」と記すこともある。
特開2011−033874号公報
しかしながら、従来の音声認識装置では、複数の言語が混在する音声を音声認識することができず、また、上述の音素のマッピングが施された音声認識辞書のデータサイズが、比較的大きいという問題があった。
そこで、本発明は、上記のような問題点を鑑みてなされたものであり、音声認識辞書のデータサイズを抑制しつつ、複数の言語が混在する音声を音声認識可能な技術を提供することを目的とする。
本発明に係る音声認識装置は、音声認識対象の語彙が規定された音声認識辞書と、入力音声の音声認識を、音声認識辞書を用いて行う音声認識処理回路とを備える。音声認識処理回路は、それぞれ予め定められた言語の音素で音声認識を行うことが可能な複数の言語用音声認識処理回路を含む。音声認識辞書は、複数の言語用音声認識処理回路のそれぞれが、自身に対応する言語である対応言語の音素で第1の語彙の音声認識を行うための複数の第1辞書と、複数の言語用音声認識処理回路のそれぞれが、対応言語と異なる言語である他言語の音素を対応言語の音素に置換して第2の語彙の音声認識を行うための、第2の語彙について他言語の音素を対応言語の音素にマッピングした複数の第2辞書とを含む。音声認識装置は、音声認識に用いるべき言語用音声認識処理回路を、複数の言語用音声認識処理回路の中から設定する音声認識言語設定処理回路と、音声認識言語設定処理回路に設定された言語用音声認識処理回路が対応言語の音素で第1の語彙の音声認識を行うための第1辞書を、複数の第1辞書の中から設定するとともに、音声認識言語設定処理回路に設定された言語用音声認識処理回路が他言語の音素を対応言語の音素に置換して第2の語彙の音声認識を行うための第2辞書を、複数の第2辞書の中から設定する音声認識辞書設定処理回路とをさらに備える。
本発明に係る音声認識方法は、音声認識対象の語彙が規定された音声認識辞書を準備することと、入力音声の音声認識を、音声認識辞書を用いて行うこととを備える。音声認識を行うことは、それぞれ予め定められた言語の音素で音声認識を行うことが可能な複数の言語用音声認識処理回路を準備することを含む。音声認識辞書を準備することは、複数の言語用音声認識処理回路のそれぞれが、自身に対応する言語である対応言語の音素で第1の語彙の音声認識を行うための複数の第1辞書と、複数の言語用音声認識処理回路のそれぞれが、対応言語と異なる言語である他言語の音素を対応言語の音素に置換して第2の語彙の音声認識を行うための、第2の語彙について他言語の音素を対応言語の音素にマッピングした複数の第2辞書とを準備することを含む。音声認識方法は、音声認識に用いるべき言語用音声認識処理回路を、複数の言語用音声認識処理回路の中から設定することと、設定された言語用音声認識処理回路が対応言語の音素で第1の語彙の音声認識を行うための第1辞書を、複数の第1辞書の中から設定するとともに、設定された言語用音声認識処理回路が他言語の音素を対応言語の音素に置換して第2の語彙の音声認識を行うための第2辞書を、複数の第2辞書の中から設定することとをさらに備える。
本発明によれば、音声認識辞書のデータサイズを抑制しつつ、複数の言語が混在する音声を音声認識することができる。
本発明の目的、特徴、態様及び利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1に係る音声認識装置のハードウェア構成を示すブロック図である。 実施の形態1に係る音声認識装置の主要な構成を示すブロック図である。 実施の形態1に係る音声認識装置の構成を示すブロック図である。 実施の形態1に係る音素のマッピングを説明するための図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 実施の形態2に係る音声認識装置の構成を示すブロック図である。 実施の形態2に係る音声認識装置の動作を示すフローチャートである。
<実施の形態1>
以下、本発明の実施の形態1に係る音声認識装置が、ナビゲーションシステム(またはナビゲーション装置)に搭載されている構成を例にして説明する。
図1は、本実施の形態1に係る音声認識装置のハードウェア構成を示すブロック図である。図1の音声認識装置は、例えばCPU(Central Processing Unit)などからなるプロセッサ81と、例えば半導体メモリなどからなるメモリ82とを備えている。
図2は、実施の形態1に係る音声認識装置の主要な機能構成を示すブロック図である。図2の音声認識装置は、音声認識部4と、音声認識辞書5と、音声認識言語設定部6と、音声認識辞書設定部7とを備えている。ここで、音声認識部4、音声認識言語設定部6、及び、音声認識辞書設定部7は、図1のプロセッサ81がメモリ82などの記憶装置に記憶されたプログラムを実行することにより、当該プロセッサ81の機能として実現される。なお、上記機能は、複数のプロセッサ81が連携して実現されてもよい。音声認識辞書5は、図1のメモリ82や図示しないHDD(Hard Disk Drive)などの記憶装置に対応する。
図3は、当該音声認識装置の主要な機能構成及び付加的な機能構成を示すブロック図である。なお、図3にのみ示されている付加的な構成は、本発明に間接的に関係する構成に過ぎず、以下で説明する構成以外にも様々な構成を適用することができる。図3の音声認識装置は、図2の構成要素に加えて、音声入力部1と、音声取り込み部2と、音響分析部3とを備えている。
次に、本実施の形態1に係る音声認識装置の図2及び図3の各構成要素について詳細に説明する。
音声入力部1は、音声を外部(例えばユーザ)から取り込む。音声取り込み部2は、音声入力部1で取り込んだ音声をデジタル信号化して音声信号を生成する。音響分析部3は、音声信号を分析して音響特徴のベクトル列や時系列に変換する。
音声認識部4は、音声認識対象の語彙が規定された音声認識辞書5を用いて、入力音声(音響特徴のベクトル列や時系列)の音声認識を行う。その結果として、音声認識部4は、音声認識辞書5の語彙の中から最も確からしい語彙を出力する。
本実施の形態1では、音声認識部4は、複数の言語用音声認識部である言語用音声認識部4A,4B,4C(以下まとめて「言語用音声認識部4A〜4C」と記す)を含んでいる。
言語用音声認識部4A〜4Cは、それぞれ予め定められた言語の音素で音声認識を行うことが可能な音声認識エンジンである。例えば、言語用音声認識部4Aは、自身に対応する言語Aの認識用の音響モデル(図示せず)を有しており、当該言語Aの音素で音声認識を行うことが可能となっている。言語用音声認識部4B及び言語用音声認識部4Cも同様に構成されており、それぞれ自身に対応する言語B及び言語Cの音素で音声認識を行うことが可能となっている。
なお、以下の説明では、言語用音声認識部4A〜4Cのそれぞれに対応する言語を「対応言語」と記し、対応言語と異なる言語を「他言語」と記す。具体的には、言語Aは、言語用音声認識部4Aにとっては対応言語Aであるが、言語用音声認識部4Bにとっては他言語Aである。
音声認識部4は、言語用音声認識部4A〜4Cのうちいずれか1つを適宜用いることにより、対応言語A〜Cの1つについての音声認識を適宜行うことが可能となっている。
音声認識辞書5には、音声認識対象の語彙が規定されている。本実施の形態1では、音声認識辞書5は、複数の第1辞書である地名辞書51A,51B,51C(以下まとめて「地名辞書51A〜51C」と記す)と、番地辞書52AA,52BB,52CCと、複数の第2辞書である番地辞書52BA,52CA,52AB,52CB,52AC,52BCとを含んでいる。なお以下の説明では、番地辞書52BA,52CA,52AB,52CB,52AC,52BCを、まとめて「番地辞書52BA〜52BC」と記す。
地名辞書51A〜51Cは、言語用音声認識部4A〜4Cのそれぞれが対応言語A〜Cの音素で地名の語彙(第1の語彙)の音声認識を行うための辞書である。例えば、地名辞書51Aには、対応言語Aが主に使用されている地名の語彙が規定されている。言語用音声認識部4Aは、このような地名辞書51Aを用いることにより、対応言語Aの音素の入力音声から、対応言語Aの音素の地名を特定する音声認識を行うことが可能となっている。
ただし、通常、対応言語Aの音素と言語B,Cの音素とは異なるため、言語用音声認識部4Aは、対応言語Aと異なる他言語B,Cなどの音素の入力音声から、対応言語Aの音素の地名を特定する音声認識を行うことはできない。このことは、言語用音声認識部4B,4Cについても同様である。
番地辞書52AA,52BB,52CCは、言語用音声認識部4A〜4Cのそれぞれが対応言語A〜Cの音素で番地(ハウスナンバー)の語彙(第1の語彙)の音声認識を行うための辞書である。例えば、言語用音声認識部4Aは、番地辞書52AAを用いることにより、対応言語Aの音素の入力音声から、対応言語Aの音素の番地を特定する音声認識を行うことが可能となっている。このことは、言語用音声認識部4B,4Cについても同様である。
番地辞書52BA,52CAは、言語用音声認識部4Aが他言語B,Cの音素を対応言語Aの音素に置換して番地の語彙(第2の語彙,予め定められた数字の語彙)の音声認識を行うための辞書である。
図4は、番地辞書52AA,52BA,52CAを説明するための図である。図4に示されるように、番地辞書52AAを除いて番地辞書52BA,52CAには音素のマッピングが施されている。
番地辞書52BAは、番地の語彙(第2の語彙,予め定められた数字の語彙)について他言語Bの音素bを、対応言語Aの音素aのうち、当該音素bと同じまたは最も近い音素aにマッピングした音声認識辞書である。番地辞書52CAは、番地の語彙(第2の語彙,予め定められた数字の語彙)について他言語Cの音素cを、対応言語Aの音素aのうち、当該音素cと同じまたは最も近い音素aにマッピングした音声認識辞書である。なお、音素のマッピングには、例えば特許文献1に開示された技術などを適用することができる。
言語用音声認識部4Aは、番地辞書52AAを用いることにより、対応言語Aの音素の入力音声から、対応言語Aの音素の番地を特定する音声認識を行うことが可能となっている。
言語用音声認識部4Aは、番地辞書52BAを用いることにより、他言語Bの音素の入力音声を、対応言語Aの音素のうち同一または類似の音素の音声に置換し、置換後の入力音声から、対応言語Aの音素の番地を特定する音声認識を行うことが可能となっている。
言語用音声認識部4Aは、番地辞書52CAを用いることにより、他言語Cの音素の入力音声を、対応言語Aの音素のうち同一または類似の音素の音声に置換し、置換後の入力音声から、対応言語Aの音素の番地を特定する音声認識を行うことが可能となっている。
以上のように、言語用音声認識部4Aは、番地辞書52AA,52BA,52CAを用いて音声認識を行うことが可能となっている。
以上では番地辞書52BA,52CAについて説明したが、図2,3の番地辞書52AB,52CB,52AC,52BCについても同様である。つまり、番地辞書52AB,52CBは、言語用音声認識部4Bが他言語A,Cの音素を対応言語Bの音素に置換して番地の語彙の音声認識を行うための音声認識辞書であり、番地の語彙について他言語A,Cの音素を対応言語Bの音素にマッピングした音声認識辞書である。番地辞書52AC,52BCは、言語用音声認識部4Cが他言語A,Bの音素を対応言語Cの音素に置換して番地の語彙の音声認識を行うための音声認識辞書であり、番地の語彙について他言語A,Bの音素を対応言語Cの音素にマッピングした音声認識辞書である。
音声認識言語設定部6は、音声認識に用いるべき1つの言語用音声認識部を、言語用音声認識部4A〜4Cの中から設定する。本実施の形態1では、上述のナビゲーションシステムにおける目的地(例えば経由地、最終到達地など)がユーザによって予め設定されており、音声認識言語設定部6は、当該目的地に基づいて、音声認識に用いるべき1つの言語用音声認識部を設定するものとする。
例えば、音声認識言語設定部6は、複数の地域と、各地域で主に使用されている言語とを対応付けたテーブルを予め記憶しておく。そして、音声認識言語設定部6は、目的地の地名が属する地域に対応付けられた言語を当該テーブルから取得し、当該取得した言語を音声認識する言語用音声認識部を設定する。
以下の説明では、音声認識言語設定部6に設定された言語用音声認識部を「設定音声認識部」と記すこともある。
次に、音声認識辞書設定部7による地名辞書及び番地辞書の設定について説明する。
音声認識辞書設定部7は、設定音声認識部(音声認識言語設定部6に設定された言語用音声認識部)が対応言語の音素で地名の音声認識を行うための地名辞書を、地名辞書51A〜51Cの中から設定する。例えば、設定音声認識部が言語用音声認識部4Aであった場合には、音声認識辞書設定部7は、地名辞書51Aを設定する。
また、システム設定言語(ナビゲーションシステムで設定された言語)が、設定音声認識部の対応言語と同じである場合、音声認識辞書設定部7は、設定音声認識部が対応言語の音素で番地の音声認識を行うための番地辞書を、番地辞書52AA,52BB,52CCの中から設定する。例えば、設定音声認識部が言語用音声認識部4Aであり、システム設定言語が言語用音声認識部4Aの対応言語Aであった場合には、音声認識辞書設定部7は、番地辞書52AAを設定する。
一方、システム設定言語が、設定音声認識部の対応言語と同じではなくて他言語である場合、音声認識辞書設定部7は、設定音声認識部が他言語の音素を対応言語の音素に置換して番地の音声認識を行うための番地辞書を、番地辞書52BA〜52BCの中から設定する。例えば、設定音声認識部が言語用音声認識部4Aであり、システム設定言語が言語用音声認識部4Aの他言語Bであった場合には、音声認識辞書設定部7は、番地辞書52BAを設定する。つまり、システム設定言語が他言語である場合には、音声認識辞書設定部7は、設定音声認識部が他言語の音素を対応言語の音素に置換して音声認識を行うための番地辞書として、他言語がシステム設定言語と同じ番地辞書を設定する。
なお、設定音声認識部は、入力音声の入力順次の予め定められた第1部分について、地名辞書(地名辞書51A〜51Cのいずれか1つ)を用いた音声認識を行うように構成されている。そして、設定音声認識部は、入力音声の入力順次の予め定められた第2部分について、番地辞書(番地辞書52AA,52BB,52CC及び番地辞書52BA〜52BCのいずれか1つ)を用いた音声認識を行うように構成されている。
ここで通常、住所を音声入力する1発話において、番地よりも地名が先に発話されることが多いので、本実施の形態1では、上記第1部分が入力音声の入力順次の前半部分に適用され、上記第2部分が入力音声の入力順次の後半部分に適用されているものとする。
<動作>
図5は、本実施の形態1に係る音声認識装置の動作を示すフローチャートである。なお、以下の説明では、目的地がドイツの住所(目的地の言語がドイツ語)であり、システム設定言語が英語であり、ドイツ語の言語用音声認識部が言語用音声認識部4Aであり、ドイツ語の地名辞書が地名辞書51Aであり、英語の音素がドイツ語の音素にマッピングされた番地辞書が番地辞書52BAである場合を例にして説明する。ただし、これは一例であってこれに限ったものではない。
まずステップS1にて、音声入力部1は、ユーザからの音声(発話)を取得する(受け付ける)。ステップS2にて、音声取り込み部2は、音声入力部1で取り込んだ音声から音声信号を生成する。ステップS3にて、音響分析部3は、音声信号を分析して音響特徴のベクトル列や時系列などに変換する。
ステップS4にて、音声認識言語設定部6は、目的地に基づいて言語用音声認識部を、言語用音声認識部4A〜4Cの中から設定(選定)する。上述の例では、目的地はドイツの地名であることから、音声認識言語設定部6は、ドイツ語の言語用音声認識部4Aを設定する。すなわち、設定音声認識部は、ドイツ語の言語用音声認識部4Aとなる。
ステップS5にて、音声認識辞書設定部7は、設定音声認識部が対応言語の音素で地名の音声認識を行うための地名辞書を、地名辞書51A〜51Cの中から設定(選定)する。上述の例では、設定音声認識部がドイツ語の言語用音声認識部4Aであることから、音声認識辞書設定部7は、ドイツ語の地名辞書51Aを設定する。
ステップS6にて、音声認識辞書設定部7は、設定音声認識部がシステム設定言語の音素で番地の音声認識を行うための番地辞書を、番地辞書52AA,52BB,52CC及び番地辞書52BA〜52BCの中から設定(選定)する。上述の例では、設定音声認識部がドイツ語の言語用音声認識部4Aであり、システム設定言語が英語であることから、音声認識辞書設定部7は、英語の音素がドイツ語の音素にマッピングされた番地辞書52BAを設定する。
ステップS7にて、音声認識部4は音声認識辞書5を参照して、音響分析された音響データについて音声認識を行い、最も確からしい認識結果を出力する。上述の例では、ドイツ語の言語用音声認識部4Aが、入力音声の入力順次の前半部分について地名辞書51Aを用いた音声認識を行い、入力音声の入力順次の後半部分について、マッピングが施された番地辞書52BAを用いた音声認識を行う。ステップS7にて音声認識部4から出力された認識結果は、図示しないスピーカから音声出力されたり、図示しないディスプレイ装置に表示されたりする。その後、図5の動作を終了する。
<実施の形態1のまとめ>
例えば、ユーザとしてのイギリス人(システム設定言語が英語)が、ドイツの住所を目的地として音声入力する場合を想定する。この場合、イギリス人は、ドイツの地名(例えば「Stuttgart Neckar strasse」)をドイツ語の発音で発声した後、番地(例えば「one,two,three」)を英語の発音で発声することが予想される。
ここで、本実施の形態1に係る音声認識装置は、例えば「Stuttgart Neckar strasse」について第1辞書(地名辞書51A〜51C)を用いて音声認識を行うことが可能である。そして、本実施の形態1に係る音声認識装置は、例えば「one,two,three」について音素のマッピングが施された第2辞書(番地辞書52BA〜52BC)を用いて音声認識を行うことが可能である。このような構成によれば、例えばドイツ語及び英語などの複数の言語が混在する1発話について音声認識を行うことができる。また、音素のマッピングを、地名などには施さないようにすることにより、比較的データサイズが大きい音素のマッピングが施された音声認識辞書の割合を低減することができる。この結果、音声認識辞書のデータサイズを抑制することができる。さらに、誤認識の低減化も期待できる。
また、本実施の形態1に係る音声認識装置は、入力音声の入力順次の予め定められた第1部分について地名辞書を用いた音声認識を行い、入力音声の入力順次の予め定められた第2部分について番地辞書を用いた音声認識を行う。これにより、音声認識の精度を高めることができる。
<実施の形態1の変形例>
実施の形態1では、音素のマッピングが施された各第2辞書(番地辞書52BA〜52BC)の第2語彙は、番地の語彙であった。しかしこれに限ったものではなく、各第2辞書の第2語彙には、郵便番号などの予め定められた数字の語彙が適用されてもよい。
また、各第2辞書の第2語彙には、ナビゲーションシステムにおけるPOI(point of interest)の予め定められたカテゴリの語彙が適用されてもよい。そして、システム設定言語が他言語である場合には、音声認識辞書設定部7は、設定音声認識部が他言語の音素を対応言語の音素に置換して上記カテゴリの語彙の音声認識を行うための第2辞書として、他言語がシステム設定言語と同じ第2辞書を設定してもよい。
例えば「World Heritage」という英語によるPOIのカテゴリの音声が入力された後に、「Aachener Dom」というドイツ語によるPOIの音声が入力された場合を想定する。この想定に対して、ドイツ語の言語用音声認識部4Aが、入力音声の入力順次の前半部分について、英語の音素をドイツ語の音素にマッピングした第2辞書を用いた音声認識を行い、入力音声の入力順次の後半部分について、ドイツ語の第1辞書を用いた音声認識を行うように構成してもよい。このように構成した場合にも、カテゴリ及びPOIについて実施の形態1と同様の効果を得ることができる。
また、各第2辞書の第2の語彙は、ナビゲーションシステムにおける予め定められたコマンドの語彙が適用されてもよい。そして、システム設定言語が他言語である場合には、音声認識辞書設定部7は、設定音声認識部が他言語の音素を対応言語の音素に置換して上記コマンドの語彙の音声認識を行うための第2辞書として、他言語がシステム設定言語と同じ第2辞書を設定してもよい。
例えば「Navigate to」という英語によるコマンドの音声が入力された後に、「Aachener Dom」というドイツ語によるPOIの音声が入力された場合を想定する。この想定に対して、ドイツ語の言語用音声認識部4Aが、入力音声の入力順次の前半部分について、英語の音素をドイツ語の音素にマッピングした第2辞書を用いた音声認識を行い、入力音声の入力順次の後半部分について、ドイツ語の第1辞書を用いた音声認識を行うように構成してもよい。このように構成した場合にも、実施の形態1と同様の効果を得ることができる。なお、例えば「Play」という英語によるコマンドの音声が入力された後に、ドイツ語による曲名を指す音声が入力された場合や、「Call」という英語によるコマンドの音声が入力された後に、ドイツ語による人名を指す音声が入力された場合などについても同様である。
なお、実施の形態1に説明した構成では、地名に音素のマッピングが施されていない第1辞書を用い、番地に音素のマッピングが施された第2辞書を用いた。しかしこれに限ったものではなく、番地に音素のマッピングが施されていない第1辞書を用い、地名に音素のマッピングが施された第2辞書を用いてもよい。ただし、実施の形態1のように、多数存在する地名について音素がマッピングされるよりも、少数しか存在しない番地について音素がマッピングされる方が、音声認識辞書のデータサイズを効率よく抑制することができる。
なお、以上に説明した変形例は、後述する実施の形態2以降においても適用可能である。
<実施の形態2>
実施の形態1では、ナビゲーションシステムにおける目的地(例えば経由地、最終到達地など)がユーザによって予め設定されているものとして、音声認識辞書設定部7が、当該目的地に基づいて、音声認識に用いるべき1つの言語用音声認識部を設定した。しかしながら、実際の運用では、発話前に上記目的地が予め設定されていないこともある。そこで、以下で説明するように、本実施の形態2では、目的地が予め設定されなくても、実施の形態1と同様の動作を行うことが可能となっている。
図6は、本実施の形態2に係る音声認識装置の構成を示すブロック図である。なお、本実施の形態2に係る音声認識装置において、以上で説明した構成要素と同一または類似するものについては同じ参照符号を付し、異なる部分について主に説明する。
図6の音声認識装置は、図3の構成要素に加えて、音声記憶部8と、一次認識結果判定部9とをさらに備えている。
ここで、音声記憶部8は図1のメモリ82などの記憶装置に対応する。一次認識結果判定部9は、図1のプロセッサ81がメモリ82などの記憶装置に記憶されたプログラムを実行することにより、当該プロセッサ81の機能として実現される。なお、上記機能は、複数のプロセッサ81が連携して実現されてもよい。
音声記憶部8は、一の入力音声に対して音声認識部4によって複数回の音声認識を行うために、当該一の入力音声(ここでは音響分析部3が変換した音響特徴のベクトル列や時系列)を一時的に記憶する。音声記憶部8は、音声認識の都度に利用可能であればよく、このような音声記憶部8は既存の技術で実現できるため、音声記憶部8の詳細な説明及び動作は省略する。
なお、後で詳細に説明するように本実施の形態2では、一の入力音声に対し、音声認識部4によって二回の音声認識を行う。このうち一回目の音声認識によって目的地の言語を取得する。すなわち、一回目の音声認識を行った後は、実質的に目的地が予め設定されている状態と同じとなる。そして、二回目の音声認識において実施の形態1と同様の音声認識を行う。
さて本実施の形態2では、音声認識辞書5は、複数の地名辞書51A〜51Cと、番地及びコマンド辞書53AA,53BB,53CCと、複数の第2辞書である番地及びコマンド辞書53BA,53CA,53AB,53CB,53AC,53BCとを含んでいる。なお以下の説明では、番地及びコマンド辞書53BA,53CA,53AB,53CB,53AC,53BCを、まとめて「番地及びコマンド辞書53BA〜53BC」と記す。そして、音声認識辞書5は、複数の第3辞書であるコマンド及びガベジ辞書54A,54B,54C(以下まとめて「コマンド及びガベジ辞書54A〜54C」と記す)をさらに含んでいる。
音声認識辞書5のうち地名辞書51A〜51Cは、実施の形態1に係る地名辞書51A〜51Cと同様である。
番地及びコマンド辞書53AA,53BB,53CCは、実施の形態1に係る番地辞書52AA,52BB,52CCの番地を、番地及びナビゲーションシステムのコマンドに置き換えた辞書である。このため、例えば言語用音声認識部4Aは、番地及びコマンド辞書53AAを用いることにより、対応言語Aの音素の入力音声から、対応言語Aの音素の地名及びコマンドを特定する音声認識を行うことが可能となっている。なお、ナビゲーションシステムのコマンドには、「Navigate to Germany」及び「Navigate to French」などが含まれるものとする。
番地及びコマンド辞書53BA〜53BCは、実施の形態1に係る番地辞書52BA〜52BCの番地を、番地及びナビゲーションシステムのコマンドに置き換えた辞書である。このため、例えば言語用音声認識部4Aは、番地及びコマンド辞書53BAを用いることにより、他言語Bの音素の入力音声から、当該他言語Bの音素を対応言語Aの音素に置換し、置換後の入力音声から、対応言語Aの音素の番地及びコマンドを特定する音声認識を行うことが可能となっている。
コマンド及びガベジ辞書54A〜54Cは、言語用音声認識部4A〜4Cのそれぞれが、ガベジ認識を含む一回目の音声認識を対応言語の音素で行うための辞書である。
ここで以下においては、コマンド及びガベジ辞書54Aの対応言語Aがドイツ語であり、「navigieren Deutschland」及び「navigieren Frankreich」などのナビゲーションシステムのコマンドが、コマンド及びガベジ辞書54Aに設定されている場合を例にして説明する。また、コマンド及びガベジ辞書54Bの対応言語Bが英語であり、「Navigate to Germany」及び「Navigate to French」などのナビゲーションシステムのコマンドが、コマンド及びガベジ辞書54Bに設定されている場合を例にして説明する。ただし、これらは一例であってこれらに限ったものではない。
さて、ガベジ認識とは、ガベジ音響モデルと呼ばれるものを用いて認識する認識方法である。このようなガベジ認識によれば、どのような発話に対しても、当該発話と、辞書内のいくつかの語彙のそれぞれとが一致している程度を示す認識スコアを出力することが可能となる。
例えば、英語の言語用音声認識部4Bが、コマンド及びガベジ辞書54Bを用いて、ガベジ認識を含む音声認識を行ったとする。この場合、入力音声が「Navigate to Germany Stuttgart Neckar strasse」及び「Navigate to Germany Aachener Dom」のいずれであっても、言語用音声認識部4Bは、「Navigate to Germany <...>」の音声認識の結果に、「Navigate to French <...>」などの音声認識の結果よりも高い認識スコアを付与することになる。なお、<...>は、通常、ガベジ認識結果を示す記号である。
本実施の形態2では、以上のようなガベジ認識が、ナビゲーションシステムにおける予め定められた複数のコマンドに対して行われる。そして、各コマンドは、ナビゲーションシステムの目的地に設定可能な地名及び国名、並びに、それらで使用されている言語の少なくともいずれか1つを示す語彙(例えば上述のDeutschland、Frankreich、Germany、Frenchなど)を含んでいるものとする。
一次認識結果判定部9は、コマンド及びガベジ辞書54A〜54Cを用いた一回目の音声認識の結果に含まれるガベジ認識の結果に基づいて、二回目の音声認識に用いるべき言語を判定する。本実施の形態2では、一次認識結果判定部9は、ガベジ認識の結果に基づいて、複数のコマンドの中から一のコマンドを決定し、当該一のコマンドに含まれる地名、国名、及び、それらで使用されている言語の少なくともいずれか1つを示す語彙に基づいて、二回目の音声認識に用いるべき言語を判定する。
例えば、コマンド及びガベジ辞書54A〜54Cを用いた一回目の音声認識の結果に含まれるガベジ認識の結果として、「Navigate to Germany <...>」の認識スコアが最も高かったとする。このような場合には、一次認識結果判定部9は、複数のコマンドの中から認識スコアが最も高い「Navigate to Germany」を、上記一のコマンドとして決定し、当該コマンドに含まれる「Germany」に基づいて、二回目の音声認識に用いる言語を「ドイツ語」と判定する。
音声認識辞書設定部7は、システム設定言語が他言語である場合には、設定音声認識部が他言語の音素を対応言語の音素に置換して番地及びコマンド(第2の語彙)の音声認識を行うための番地及びコマンド辞書53BA〜53BCとして、他言語がシステム設定言語と同じ番地及びコマンド辞書を設定する。
<動作>
図7は、本実施の形態2に係る音声認識装置の動作を示すフローチャートである。なお、以下においては、システム設定言語が英語であり、ドイツ語の言語用音声認識部が言語用音声認識部4Aであり、英語の言語用音声認識部が言語用音声認識部4Bであり、ドイツ語の地名辞書が地名辞書51Aであり、英語の音素がドイツ語の音素にマッピングされた番地及びコマンド辞書が番地及びコマンド辞書53BAであり、英語のコマンド及びガベジ辞書がコマンド及びガベジ辞書54Bである場合を例にして説明する。そして、英語の発音でコマンド「Navigate to Germany」が、ドイツ語の発音で地名「Stuttgart Neckar strasse」が、英語の発音で番地「one,two,three」がこの順に入力された場合を例にして説明する。ただし、これらは一例であってこれらに限ったものではない。
まず、ステップS11〜S13にて、実施の形態1に係るステップS1〜S3と同様の動作を行う。
その後、ステップS14にて、音声記憶部8は、音響分析部3が変換した音響特徴のベクトル列や時系列を記憶する。
ステップS15にて、音声認識言語設定部6は、システム設定言語に基づいて、一回目の音声認識に用いるべき言語用音声認識部を、言語用音声認識部4A〜4Cの中から設定する。上述の例では、システム設定言語が英語であることから、音声認識言語設定部6は、英語の言語用音声認識部4Bを設定する。なお、以下の説明では、ステップS15で音声認識言語設定部6に設定された言語用音声認識部を「一回目の設定音声認識部」と記すこともある。
ステップS16にて、音声認識辞書設定部7は、一回目の設定音声認識部が対応言語の音素でガベジ認識を含む音声認識を行うためのコマンド及びガベジ辞書を、コマンド及びガベジ辞書54A〜54Cの中から設定する。上述の例では、一回目の設定音声認識部が英語の言語用音声認識部4Bであることから、音声認識辞書設定部7は、英語のコマンド及びガベジ辞書54Bを設定する。
ステップS17にて、音声認識部4は音声認識辞書5を参照して、音響分析された音響データについて一回目の音声認識を行い、最も確からしい認識結果を出力する。上述の例では、英語の言語用音声認識部4Bが、入力音声「Navigate to Germany Stuttgart Neckar strasse one,two,three」について、コマンド及びガベジ辞書54Bを用いたガベジ認識を含む音声認識を行う。このガベジ認識の結果として、「Navigate to Germany <...>」というコマンドに、最も高い認識スコアが付与される。
ステップS18にて、一次認識結果判定部9は、ガベジ認識の結果に基づいて、複数のコマンドの中から一のコマンドを決定し、当該一のコマンドに含まれる地名、国名、及び、それらで使用されている言語の少なくともいずれか1つを示す語彙に基づいて、二回目の音声認識に用いるべき言語を判定する。つまり、一次認識結果判定部9は、実施の形態1における目的地の言語と実質的に同じ言語を判定する。
上述の例では、一次認識結果判定部9は、複数のコマンドの中から、認識スコアが最も高い「Navigate to Germany」を決定し、当該コマンドに含まれる「Germany」に基づいて、二回目の音声認識に用いる言語、つまり目的地の言語を「ドイツ語」と判定する。
ステップS19にて、実施の形態1に係るステップS4と同様の動作を行う。具体的には、音声認識言語設定部6は、一次認識結果判定部9で判定された言語に基づき、二回目の音声認識に用いるべき言語用音声認識部として、言語用音声認識部を、言語用音声認識部4A〜4Cの中から設定する。上述の例では、目的地の言語はドイツ語であることから、音声認識言語設定部6は、ドイツ語の言語用音声認識部4Aを設定する。なお、以下の説明では、ステップS19で音声認識言語設定部6に設定された言語用音声認識部を「二回目の設定音声認識部」と記すこともある。
ステップS20にて、実施の形態1に係るステップS5と同様の動作を行う。具体的には、音声認識辞書設定部7は、二回目の設定音声認識部が対応言語の音素で地名(第1の語彙)の音声認識を行うための地名辞書を、地名辞書51A〜51Cの中から設定する。上述の例では、二回目の設定音声認識部がドイツ語の言語用音声認識部4Aであることから、音声認識辞書設定部7は、ドイツ語の地名辞書51Aを設定する。
ステップS21にて、実施の形態1に係るステップS6と同様の動作を行う。具体的には、音声認識辞書設定部7は、二回目の設定音声認識部がシステム設定言語の音素で番地及びコマンド(第2の語彙)の音声認識を行うための番地及びコマンド辞書を、番地及びコマンド辞書53AA,53BB,53CC並びに番地及びコマンド辞書53BA〜53BCの中から設定する。上述の例では、二回目の設定音声認識部がドイツ語の言語用音声認識部4Aであり、システム設定言語が英語であることから、音声認識辞書設定部7は、英語の音素がドイツ語の音素にマッピングされた番地及びコマンド辞書53BAを設定する。
ステップS22にて、音声記憶部8に記憶された音響特徴のベクトル列や時系列、つまり一回目の音声認識が行われた音響特徴と同じ音響特徴のベクトル列や時系列が、音声認識部4に入力される。
ステップS23にて、音声認識部4は音声認識辞書5を参照して、入力された音響データについて二回目の音声認識を行い、最も確からしい認識結果を出力する。上述の例では、ドイツ語の言語用音声認識部4Aが、入力音声「Stuttgart Neckar strasse」について地名辞書51Aを用いた音声認識を行い、入力音声「Navigate to Germany」及び入力音声「one,two,three」について、マッピングが施された番地及びコマンド辞書53BAを用いた音声認識を行う。ステップS23にて音声認識部4から出力された認識結果は、図示しないスピーカから音声出力されたり、図示しないディスプレイ装置に表示されたりする。その後、図7の動作を終了する。
<実施の形態2のまとめ>
以上のような本実施の形態2に係る音声認識装置においても、実施の形態1と同様の効果を得ることができる。さらに本実施の形態2では、一の入力音声に対して、ガベジ認識を含む一回目の音声認識を行うことによって目的地の言語を取得し、当該一の入力音声に対して、目的地の言語が設定された二回目の音声認識によって実施の形態1と同様の音声認識を行う。したがって、目的地を予め設定する手間を省くことができる。
<実施の形態2の変形例>
実施の形態2では、二回目の音声認識の際に、入力音声(音響特徴のベクトル列や時系列)のコマンド部分について、マッピングが施された番地及びコマンド辞書を用いた音声認識を行った。しかしこれに限ったものではなく、入力音声(音響特徴のベクトル列や時系列)からコマンド部分(例えば「Navigate to Germany」)を取り除くことができるのであれば、残りの部分(例えば「Stuttgart Neckar strasse one,two,three」)のうち、前半部分について地名辞書を用いた音声認識を行い、後半部分について番地辞書を用いた音声認識を行ってもよい。つまり、この場合には、番地及びコマンド辞書53AA,53BB,53CC,53BA〜53BCを用いるのではなく、実施の形態1と同様に、番地辞書52AA,52BB,52CC,52BA〜52BCを用いることができる。
また、実施の形態2では、目的地の言語が設定されていない場合について説明したが、これに限ったものではない。例えば、検索したい人名の言語が設定されていない場合に、英語の発音でコマンド「Call Japanese」が、日本語の発音で人名「やまだたろう」がこの順に入力された場合にも、上述と同様に音声認識を行うことができる。
<その他の変形例>
以上の説明では、音声認識部4は、図1のプロセッサ81がメモリ82などの記憶装置に記憶されたプログラムを実行することによって実現された。しかし、このようにソフトウェアとして実現される音声認識部4に限ったものではなく、当該音声認識部4と同様の機能を有するハードウェアによって実現されてもよい。つまり、音声認識装置は、ソフトウェアとして実現される音声認識部4と、音声認識部4と同様の機能を有するハードウェアとの両方に共通する上位概念としての音声認識処理回路を備えていればよい。
そして、音声認識装置は、言語用音声認識部4A〜4Cの上位概念として同様の言語用音声認識処理回路と、音声認識言語設定部6の上位概念として同様の音声認識言語設定処理回路と、音声認識辞書設定部7の上位概念として同様の音声認識辞書設定処理回路とを備えていればよい。同様に、実施の形態2に係る音声認識装置は、一次認識結果判定部9の上位概念として同様の一次認識結果判定処理回路を備えていればよい。
また、以上で説明した音声認識装置は、車両に搭載可能な備え付けのナビゲーション装置だけでなく、Portable Navigation Device、通信端末(例えば携帯電話、スマートフォン、及びタブレットなどの携帯端末)、及びこれらにインストールされるアプリケーションの機能、並びにサーバなどを適宜に組み合わせてシステムとして構成される音声認識システムを含む。この場合、以上で説明した音声認識装置の各機能あるいは各構成要素は、前記システムを構築する各機器に分散して配置されてもよいし、いずれかの機器に集中して配置されてもよい。
なお、本発明は、その発明の範囲内において、各実施の形態及び各変形例を自由に組み合わせたり、各実施の形態及び各変形例を適宜、変形、省略したりすることが可能である。
本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、本発明の範囲から外れることなく想定され得るものと解される。
4 音声認識部、4A,4B,4C 言語用音声認識部、5 音声認識辞書、6 音声認識言語設定部、7 音声認識辞書設定部、8 音声記憶部、9 一次認識結果判定部、51A,51B,51C 地名辞書、52AA,52BA,52CA,52AB,52BB,52CB,52AC,52BC,52CC 番地辞書、53AA,53BA,53CA,53AB,53BB,53CB,53AC,53BC,53CC 番地及びコマンド辞書、54A,54B,54C コマンド及びガベジ辞書。

Claims (13)

  1. 音声認識対象の語彙が規定された音声認識辞書と、
    入力音声の音声認識を、前記音声認識辞書を用いて行う音声認識処理回路と
    を備え、
    前記音声認識処理回路は、
    それぞれ予め定められた言語の音素で前記音声認識を行うことが可能な複数の言語用音声認識処理回路を含み、
    前記音声認識辞書は、
    前記複数の言語用音声認識処理回路のそれぞれが、自身に対応する前記言語である対応言語の音素で第1の前記語彙の前記音声認識を行うための複数の第1辞書と、前記複数の言語用音声認識処理回路のそれぞれが、前記対応言語と異なる前記言語である他言語の音素を前記対応言語の音素に置換して第2の前記語彙の前記音声認識を行うための、前記第2の語彙について前記他言語の音素を前記対応言語の音素にマッピングした複数の第2辞書とを含み、
    前記音声認識に用いるべき前記言語用音声認識処理回路を、前記複数の言語用音声認識処理回路の中から設定する音声認識言語設定処理回路と、
    前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記対応言語の音素で前記第1の語彙の前記音声認識を行うための前記第1辞書を、前記複数の第1辞書の中から設定するとともに、前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第2の語彙の前記音声認識を行うための前記第2辞書を、前記複数の第2辞書の中から設定する音声認識辞書設定処理回路と
    をさらに備える、音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    前記音声認識言語設定処理回路は、
    ナビゲーションシステムにおける目的地に基づいて、前記音声認識に用いるべき前記言語用音声認識処理回路を設定する、音声認識装置。
  3. 請求項1に記載の音声認識装置であって、
    各前記第2辞書の前記第2の語彙は、予め定められた数字の語彙を含む、音声認識装置。
  4. 請求項3に記載の音声認識装置であって、
    前記音声認識辞書設定処理回路は、
    ナビゲーションシステムで設定された言語が前記他言語である場合に、
    前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第2の語彙の前記音声認識を行うための前記第2辞書として、前記他言語が前記ナビゲーションシステムで設定された言語と同じ前記第2辞書を設定する、音声認識装置。
  5. 請求項1に記載の音声認識装置であって、
    各前記第2辞書の前記第2の語彙は、ナビゲーションシステムにおけるPOI(point of interest)の予め定められたカテゴリの語彙を含む、音声認識装置。
  6. 請求項5に記載の音声認識装置であって、
    前記音声認識辞書設定処理回路は、
    前記ナビゲーションシステムで設定された言語が前記他言語である場合に、
    前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第2の語彙の前記音声認識を行うための前記第2辞書として、前記他言語が前記ナビゲーションシステムで設定された言語と同じ前記第2辞書を設定する、音声認識装置。
  7. 請求項1に記載の音声認識装置であって、
    各前記第2辞書の前記第2の語彙は、ナビゲーションシステムにおける予め定められたコマンドの語彙を含み、
    前記音声認識辞書設定処理回路は、
    前記ナビゲーションシステムで設定された言語が前記他言語である場合に、
    前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第2の語彙の前記音声認識を行うための前記第2辞書として、前記他言語が前記ナビゲーションシステムで設定された言語と同じ前記第2辞書を設定する、音声認識装置。
  8. 請求項1に記載の音声認識装置であって、
    前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路は、
    前記入力音声の入力順次の予め定められた第1部分について、前記第1辞書を用いた音声認識を行い、前記入力音声の入力順次の予め定められた第2部分について、前記第2辞書を用いた音声認識を行う、音声認識装置。
  9. 請求項1に記載の音声認識装置であって、
    一の前記入力音声に対して前記音声認識処理回路によって複数回の前記音声認識を行うために、当該一の入力音声を記憶する記憶装置と、
    一次認識結果判定処理回路と
    をさらに備え、
    前記音声認識辞書は、
    前記複数の言語用音声認識処理回路のそれぞれが、ガベジ認識を含む一回目の前記音声認識を前記対応言語の音素で行うための複数の第3辞書をさらに含み、
    前記音声認識言語設定処理回路は、ナビゲーションシステムで設定された言語に基づいて、前記一回目の前記音声認識に用いるべき前記言語用音声認識処理回路を、前記複数の言語用音声認識処理回路の中から設定し、前記音声認識辞書設定処理回路は、前記音声認識言語設定処理回路に設定された前記一回目の前記音声認識に用いるべき前記言語用音声認識処理回路が前記対応言語の音素で前記ガベジ認識を含む前記一回目の音声認識を行うための前記第3辞書を、前記複数の第3辞書の中から設定し、
    前記一次認識結果判定処理回路は、
    前記第3辞書を用いた前記一回目の音声認識の結果に含まれる前記ガベジ認識の結果に基づいて、二回目の音声認識に用いるべき前記言語を判定し、
    前記音声認識言語設定処理回路は、前記一次認識結果判定処理回路で判定された前記言語に基づいて、前記二回目の前記音声認識に用いるべき前記言語用音声認識処理回路を、前記複数の言語用音声認識処理回路の中から設定し、前記音声認識辞書設定処理回路は、前記音声認識言語設定処理回路に設定された前記二回目の前記音声認識に用いるべき前記言語用音声認識処理回路が前記対応言語の音素で前記第1の語彙の前記音声認識を行うための前記第1辞書を、前記複数の第1辞書の中から設定するとともに、前記音声認識言語設定処理回路に設定された前記二回目の前記音声認識に用いるべき前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第2の語彙の前記音声認識を行うための前記第2辞書を、前記複数の第2辞書の中から設定する、音声認識装置。
  10. 請求項9に記載の音声認識装置であって、
    前記ガベジ認識は、
    前記ナビゲーションシステムにおける予め定められた複数のコマンドに対して行われ、
    各前記コマンドは、
    前記ナビゲーションシステムの目的地に設定可能な地名及び国名、並びに、それらで使用されている言語の少なくともいずれか1つを示す語彙を含む、音声認識装置。
  11. 請求項10に記載の音声認識装置であって、
    前記一次認識結果判定処理回路は、
    前記ガベジ認識の結果に基づいて、前記複数のコマンドの中から一のコマンドを決定し、当該一のコマンドに含まれる前記地名、前記国名、及び、前記言語の少なくともいずれか1つを示す語彙に基づいて、前記二回目の前記音声認識に用いるべき言語を判定する、音声認識装置。
  12. 請求項9に記載の音声認識装置であって、
    各前記第2辞書の前記第2の語彙は、前記ナビゲーションシステムにおける予め定められたコマンドの語彙を含み、
    前記音声認識辞書設定処理回路は、
    前記ナビゲーションシステムで設定された言語が前記他言語である場合に、
    前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第2の語彙の前記音声認識を行うための前記第2辞書として、前記他言語が前記ナビゲーションシステムで設定された言語と同じ前記第2辞書を設定する、音声認識装置。
  13. 音声認識方法であって、
    音声認識対象の語彙が規定された音声認識辞書を準備することと、
    入力音声の音声認識を、前記音声認識辞書を用いて行うことと
    を備え、
    前記音声認識を行うことは、
    それぞれ予め定められた言語の音素で前記音声認識を行うことが可能な複数の言語用音声認識処理回路を準備することを含み、
    前記音声認識辞書を準備することは、
    前記複数の言語用音声認識処理回路のそれぞれが、自身に対応する前記言語である対応言語の音素で第1の前記語彙の前記音声認識を行うための複数の第1辞書と、前記複数の言語用音声認識処理回路のそれぞれが、前記対応言語と異なる前記言語である他言語の音素を前記対応言語の音素に置換して第2の前記語彙の前記音声認識を行うための、前記第2の語彙について前記他言語の音素を前記対応言語の音素にマッピングした複数の第2辞書とを準備することを含み、
    前記音声認識方法は、
    前記音声認識に用いるべき前記言語用音声認識処理回路を、前記複数の言語用音声認識処理回路の中から設定することと、
    設定された前記言語用音声認識処理回路が前記対応言語の音素で前記第1の語彙の前記音声認識を行うための前記第1辞書を、前記複数の第1辞書の中から設定するとともに、設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第2の語彙の前記音声認識を行うための前記第2辞書を、前記複数の第2辞書の中から設定することとをさらに備える、音声認識方法。
JP2016565721A 2014-12-24 2014-12-24 音声認識装置及び音声認識方法 Active JP6109451B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/084105 WO2016103358A1 (ja) 2014-12-24 2014-12-24 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP6109451B2 true JP6109451B2 (ja) 2017-04-05
JPWO2016103358A1 JPWO2016103358A1 (ja) 2017-05-25

Family

ID=56149457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016565721A Active JP6109451B2 (ja) 2014-12-24 2014-12-24 音声認識装置及び音声認識方法

Country Status (5)

Country Link
US (1) US10403265B2 (ja)
JP (1) JP6109451B2 (ja)
CN (1) CN107112007B (ja)
DE (1) DE112014007287B4 (ja)
WO (1) WO2016103358A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017007852B4 (de) 2017-09-11 2023-05-17 Mitsubishi Electric Corporation Spracherkennung-Wörterbuchdaten-Konstruktionsvorrichtung, Spracherkennungsvorrichtung, Spracherkennung-Wörterbuchdaten-Konstruktionsverfahren
JP7038919B2 (ja) * 2019-08-01 2022-03-18 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
CN110534115B (zh) * 2019-10-14 2021-11-26 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、***和存储介质
CN111147444B (zh) 2019-11-20 2021-08-06 维沃移动通信有限公司 一种交互方法及电子设备
JP6879521B1 (ja) * 2019-12-02 2021-06-02 國立成功大學National Cheng Kung University 多言語音声認識およびテーマ−意義素解析方法および装置
EP4323908A1 (en) * 2021-06-04 2024-02-21 Google Llc Systems and methods for generating phonetic spelling variations

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133686A (ja) * 1996-10-31 1998-05-22 Nec Corp 非母国語音声認識装置
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
WO2011089651A1 (ja) * 2010-01-22 2011-07-28 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
JP2012518207A (ja) * 2009-02-17 2012-08-09 株式会社ソニー・コンピュータエンタテインメント 複数言語音声認識

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US6470315B1 (en) * 1996-09-11 2002-10-22 Texas Instruments Incorporated Enrollment and modeling method and apparatus for robust speaker dependent speech models
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
US6292778B1 (en) * 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training
US7447635B1 (en) * 1999-10-19 2008-11-04 Sony Corporation Natural language interface control system
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
US7295979B2 (en) 2000-09-29 2007-11-13 International Business Machines Corporation Language context dependent data labeling
EP1215654B1 (en) * 2000-12-13 2006-05-24 Sony Deutschland GmbH Method for recognizing speech
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition
JP2002358095A (ja) * 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
KR100940630B1 (ko) * 2001-05-02 2010-02-05 소니 주식회사 로봇 장치와, 문자 인식 장치 및 문자 인식 방법과, 제어프로그램 및 기록 매체
JP3816779B2 (ja) 2001-10-12 2006-08-30 アルパイン株式会社 ナビゲーション装置
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP2004053742A (ja) * 2002-07-17 2004-02-19 Matsushita Electric Ind Co Ltd 音声認識装置
JP3776391B2 (ja) 2002-09-06 2006-05-17 日本電信電話株式会社 多言語音声認識方法、装置、プログラム
JP3678421B2 (ja) * 2003-02-19 2005-08-03 松下電器産業株式会社 音声認識装置及び音声認識方法
US7353174B2 (en) * 2003-03-31 2008-04-01 Sony Corporation System and method for effectively implementing a Mandarin Chinese speech recognition dictionary
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
US7415411B2 (en) 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
WO2006127504A2 (en) * 2005-05-20 2006-11-30 Sony Computer Entertainment Inc. Optimisation of a grammar for speech recognition
JP2007155833A (ja) 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム
US7865357B2 (en) * 2006-03-14 2011-01-04 Microsoft Corporation Shareable filler model for grammar authoring
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
EP1975923B1 (en) 2007-03-28 2016-04-27 Nuance Communications, Inc. Multilingual non-native speech recognition
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
US8315870B2 (en) * 2007-08-22 2012-11-20 Nec Corporation Rescoring speech recognition hypothesis using prosodic likelihood
JP5310563B2 (ja) * 2007-12-25 2013-10-09 日本電気株式会社 音声認識システム、音声認識方法、および音声認識用プログラム
JP5692493B2 (ja) * 2009-02-05 2015-04-01 セイコーエプソン株式会社 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
CN102959618B (zh) * 2010-06-28 2015-08-05 三菱电机株式会社 声音识别装置
JP5637131B2 (ja) 2011-12-26 2014-12-10 株式会社デンソー 音声認識装置
US20160372116A1 (en) * 2012-01-24 2016-12-22 Auraya Pty Ltd Voice authentication and speech recognition system and method
WO2013110125A1 (en) * 2012-01-24 2013-08-01 Auraya Pty Ltd Voice authentication and speech recognition system and method
US9672815B2 (en) * 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
CN104143328B (zh) * 2013-08-15 2015-11-25 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
US9666188B2 (en) * 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
WO2015075789A1 (ja) * 2013-11-20 2015-05-28 三菱電機株式会社 音声認識装置および音声認識方法
US10360904B2 (en) * 2014-05-09 2019-07-23 Nuance Communications, Inc. Methods and apparatus for speech recognition using a garbage model
EP3172729B1 (en) * 2014-07-24 2022-04-20 Harman International Industries, Incorporated Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
JP6052814B2 (ja) * 2014-09-24 2016-12-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
US10672391B2 (en) * 2014-09-26 2020-06-02 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
US10229674B2 (en) * 2015-05-15 2019-03-12 Microsoft Technology Licensing, Llc Cross-language speech recognition and translation
US9852728B2 (en) * 2015-06-08 2017-12-26 Nuance Communications, Inc. Process for improving pronunciation of proper nouns foreign to a target language text-to-speech system
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
US10249298B2 (en) * 2017-01-11 2019-04-02 Here Global B.V. Method and apparatus for providing global voice-based entry of geographic information in a device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133686A (ja) * 1996-10-31 1998-05-22 Nec Corp 非母国語音声認識装置
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
JP2012518207A (ja) * 2009-02-17 2012-08-09 株式会社ソニー・コンピュータエンタテインメント 複数言語音声認識
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
WO2011089651A1 (ja) * 2010-01-22 2011-07-28 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置

Also Published As

Publication number Publication date
US10403265B2 (en) 2019-09-03
CN107112007B (zh) 2020-08-07
US20180240455A1 (en) 2018-08-23
DE112014007287B4 (de) 2019-10-31
DE112014007287T5 (de) 2017-10-12
JPWO2016103358A1 (ja) 2017-05-25
WO2016103358A1 (ja) 2016-06-30
CN107112007A (zh) 2017-08-29

Similar Documents

Publication Publication Date Title
JP6109451B2 (ja) 音声認識装置及び音声認識方法
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
WO2015151157A1 (ja) 意図理解装置および方法
KR102443087B1 (ko) 전자 기기 및 그의 음성 인식 방법
US8099290B2 (en) Voice recognition device
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
JP2010236858A (ja) ナビゲーション装置
WO2012145365A1 (en) Voice assignment for text-to-speech output
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
US20140067400A1 (en) Phonetic information generating device, vehicle-mounted information device, and database generation method
US10582046B2 (en) Voice recognition-based dialing
JP2007193166A (ja) 対話装置、対話方法及びプログラム
US10600405B2 (en) Speech signal processing method and speech signal processing apparatus
JP2018060165A (ja) 音声認識方法、携帯端末、および、プログラム
JP2003162293A (ja) 音声認識装置及び方法
CN112820294B (zh) 语音识别方法、装置、存储介质及电子设备
JP5976255B2 (ja) 情報提供装置および情報提供方法
US11361752B2 (en) Voice recognition dictionary data construction apparatus and voice recognition apparatus
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP2018180260A (ja) 音声認識装置
US11308936B2 (en) Speech signal processing method and speech signal processing apparatus
JP6572969B2 (ja) 音声認識装置、音声認識システム、及び、プログラム
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
D'hoore et al. In-vehicle destination entry by voice: practical aspects.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170116

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170116

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170307

R150 Certificate of patent or registration of utility model

Ref document number: 6109451

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250