JP3916861B2

JP3916861B2 - 音声認識装置

Info

Publication number: JP3916861B2
Application number: JP2000278399A
Authority: JP
Inventors: 真吾木内; 孝一中田
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2000-09-13
Filing date: 2000-09-13
Publication date: 2007-05-23
Anticipated expiration: 2020-09-13
Also published as: JP2002091489A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力される音声に対応する文字列を特定し、その内容に応じた応答を返す音声認識装置に関する。
【０００２】
【従来の技術】
従来から、音声によって各種の操作指示等の入力を行うための音声認識装置が実用化されており、各種の装置やシステムに採用されている。例えば、音声認識装置を搭載した車載用のナビゲーション装置では、経路探索における目的地の設定等の操作指示を音声により入力できるようになっている。また、パーソナルコンピュータ（以下、「パソコン」と称する。）において所定のプログラムを実行することにより、パソコン上で音声認識装置を実現し、マイクロホンによって集音された音声に対応して文章の入力等の操作を行っているものもある。
【０００３】
ところで、一般に音声認識技術は、単語音声認識技術と連続語音声認識技術とに分類することができる。前者の単語音声認識技術は、単語毎に区切って発声された音声を認識し、対応する単語の文字列を特定する技術である。また、後者の連続語音声認識技術は、複数の単語等が連続して発声された音声を認識し、対応する複数の単語の文字列を特定する技術である。
【０００４】
従来は、比較的に処理が容易な単語音声認識技術を採用した音声認識装置が主流であったが、利用者の立場から考えると、複数の単語を連続して入力することができるほうが操作性がよく好ましいことから、近年では、連続語音声認識技術を採用した音声認識装置が普及しつつある。このような連続語音声認識技術を採用した音声認識装置をナビゲーション装置に搭載した場合には、例えば、経路探索の目的地設定等において、「○○県××市△△・・・」というように都道府県名、市町村名、地名等の単語を連続して入力して認識させることができるので、これら都道府県名等の単語を１つずつ入力する場合に比べて入力操作を快適に行うことができる。
【０００５】
【発明が解決しようとする課題】
ところで、上述した連続語音声認識技術を採用した音声認識装置では、利用者が発声した音声を取り込む際に、ほぼ無音と見なせる状態（以後、この無音状態を「ブランク」と呼ぶ。）が予め設定した一定時間を超えた場合に、その時点を区切りとしてそれまでに入力された音声に対して音声認識処理を行い、認識結果を利用者に対して応答している。
【０００６】
例えば、入力された音声において時間Ｔ１以上のブランクが含まれていることを検出した時点で、この音声に対応した音声合成処理を行って所定の応答を出力する場合を考えると、有効な音声（ブランクを除いた音声）の入力が終わってから対応する応答が出力されるまでの間に必要な時間は、ブランクに対応する時間Ｔ１と音声合成処理に必要な時間を合計した所定時間Ｔとなる。したがって、利用者の立場からすれば、この所定時間Ｔが音声入力時に許容される見かけ上のブランクであり、この所定時間Ｔよりも短いブランクしか含まずに音声入力を行った場合には、連続語として音声認識処理が行われるものと考えるのが普通である。
【０００７】
ところが、従来の音声認識装置では、所定時間Ｔよりも短い時間Ｔ１のブランクを検出した時点で音声認識処理を終了して応答処理を開始していたため、この時間Ｔ１の経過後に音声が入力されても認識されない、いわゆる「取りこぼし」が生じるという問題があった。一般に、普段言い慣れていない単語は、流暢に発声することはできず、単語間にブランクが含まれる場合が多いため、上述した取りこぼしが生じやすい。
【０００８】
例えば、音声認識装置を搭載したナビゲーション装置に対して、普段言い慣れていない住所等を入力する場合を考えると、利用者自身は、「○○県××市・・・」というように住所を連続して入力しているつもりであるにも関わらず、実際には、「○○県」と「××市」の間など各単語の間にブランクを挿入してしまい、このため、例えば「○○県」までで認識処理が中断されて対応する応答が行われ、それ以降に発声された「××市・・・」の一部が取りこぼしとなってしまうことがある。また、上述したような取りこぼしが生じた場合には、例えば、「○○県。市町村名をどうぞ。」といった応答が行われることとなるので、利用者の立場から考えると、一度入力したはずである市町村名以降の音声が無視され、再度入力を要求されるので、このような応答に対して利用者は、違和感を感じることが多い。
【０００９】
本発明は、このような点に鑑みて創作されたものであり、その目的は、応答を返すまでに入力された音声に対して取りこぼしをなくすことができる音声認識装置を提供することにある。また、本発明の他の目的は、違和感のない応答を返すことができる音声認識装置を提供することにある。
【００１０】
【課題を解決するための手段】
上述した課題を解決するために、本発明の音声認識装置では、マイクロホンにより音声を集音し、集音された音声に対して音声認識処理手段によって音声認識処理を行い、認識された内容に基づいて応答手段により応答音声を生成し、出力する場合に、中断決定手段は、マイクロホンによって集音される音声に含まれる無音状態を検出し、この無音状態が時間ｔ１以上継続したときに、音声認識処理の中断を決定する。そして、音圧レベル検出手段は、マイクロホンによって集音される音声の音圧レベルを検出しており、上述した無音状態が時間ｔ１を経過した後の時間ｔ２の間に、音圧レベル検出手段によって検出された音圧レベルが所定値を超えたときに、再開決定手段は、音声認識処理の再開を決定する。
【００１１】
音声に含まれる無音状態が時間ｔ１を経過して所定の応答処理が開始された後にも、所定の時間ｔ２が経過するまでの間に所定の音圧レベルを超える音声が入力された場合には音声認識処理手段による処理が再開されるので、応答を返すまでに入力された音声に対して取りこぼしをなくすことができる。
【００１２】
また、上述した再開決定手段は、入力音声に含まれる時間ｔ１以上の最初の無音状態に対応して音声認識処理手段に対して１回だけ処理の再開を決定することが望ましい。一般に、最初の無音状態が検出されて応答が返された場合に、利用者がこの応答と並行して音声入力を行い続けるということはあまりないので、最初の無音状態に対応して１回だけ音声認識処理手段の処理を再開するだけでも、応答を返すまでに入力された音声の取りこぼしをほとんどなくすことができる。
【００１３】
また、上述した再開決定手段は、音声認識処理手段に対して処理の再開を指示する動作とともに、応答手段に対して応答音声の出力を中止する指示を送ることが望ましい。音声認識処理手段の処理が再開された場合に応答音声に出力を中止することにより、利用者自身が発声した音声と応答音声とが重なることを防ぐことができる。特に、応答音声を返すことなく音声認識処理が再開されるため、利用者によって発声される音声に時間（ｔ１＋ｔ２）のブランクが含まれるまで連続語に対する音声認識処理を継続することができ、効率よい音声入力を行うことができる。
【００１４】
また、上述した時間ｔ２は、無音状態の継続時間が時間ｔ１となって、中断決定手段によって音声認識処理の中断が決定されてから、応答手段によって応答音声を出力するまでの時間にほぼ等しい値に設定することが望ましい。無音状態の継続時間が時間ｔ１となってから、応答手段による応答音声が出力されるまでの時間と上述した時間ｔ２をほぼ等しい値とすることにより、応答音声が出力される以前に音声入力が行われた場合に、この音声入力に確実に対応して音声認識処理を継続させることができる。したがって、利用者自身は連続して音声を入力しているつもりであるにも関わらず、入力途中の音声に対応して音声認識処理が開始されて応答音声が出力されてしまうことがなく、利用者が違和感を感じることを防ぐことができる。
【００１５】
また、応答音声やその他の音源から出力される音声を出力するスピーカと、マイクロホンによって集音される音声に含まれる音声認識対象外の成分を除去する除去手段とをさらに備えておいて、除去手段から出力される音声認識対象の音声を音声認識処理手段に入力することが望ましい。音声認識対象外の成分を除去することにより、音声認識処理の精度を向上させることができるので、車載用のナビゲーション装置等に本発明の音声認識装置を搭載する場合など、音声認識対象外の音声がマイクロホンによって集音される音声に含まれやすい環境において特に有効である。
【００１６】
また、上述した応答手段は、時間ｔ１以上の無音状態が検出された後に再開された音声認識処理手段による音声認識処理の成否に応じて異なる内容の応答音声を生成することが望ましい。具体的には、例えば、再開後の音声認識処理が成功した場合には認識結果に基づいた応答音声を出力し、音声認識処理が失敗した場合には「利用者による入力音声の存在は認識しているが音声認識処理には失敗した」という内容を含む応答音声を出力するというように、音声認識処理の成否に応じて応答音声の内容を異ならせることにより、自分の行った音声入力が無視され、あるいは途中で遮られているといった悪い印象を利用者に対して与えることがなく、利用者が応答音声に対して感じる違和感をなくすことができる。
【００１７】
【発明の実施の形態】
以下、本発明を適用した一実施形態の音声認識装置について、図面を参照しながら説明する。
図１は、本実施形態の音声認識装置の構成を示す図である。同図に示す音声認識装置１００は、車載用のナビゲーション装置３００に対して音声により操作指示を与えるために用いられるものであり、トークスイッチ１０、マイクロホン１２、制御部１４、遅延素子１６、適応フィルタ（ＡＤＦ）１７、演算部１８、音声認識処理部２０、レベルメータ３０、音声合成処理部３２、合成部３４、スピーカ３６を含んで構成されている。なお、本実施形態の音声認識装置は、連続語音声認識技術を採用しているものとする。
【００１８】
トークスイッチ１０は、利用者が音声入力を行う前に操作されるものであり、操作状況が制御部１４に出力される。マイクロホン１２は、利用者が発声した音声を集音し、これを電気信号（音声信号）に変換して出力する。
制御部１４は、音声認識装置１００の全体動作を制御するものであり、音声認識処理を行った結果得られた文字列等の情報をナビゲーション装置３００に出力する。制御部１４の動作の詳細については後述する。
【００１９】
遅延素子１６は、マイクロホン１２から出力される音声信号を所定時間だけ遅延した信号を出力する。この遅延素子１６は、例えば、伝達特性Ｚ^-mを有するＦＩＲ（Finite Impulse Response ）型のデジタルフィルタを用いて、遅延時間ｔに対応するフィルタ係数を１、それ以外のフィルタ係数を０に設定することにより実現される。
【００２０】
適応フィルタ１７は、車室内の音響空間の伝達特性、具体的には、スピーカ３６から放射される音がマイクロホン１２に到達するまでの間の伝達特性を模擬するためのものであり、フィルタ係数Ｗを有するＦＩＲ型のデジタルフィルタと、このデジタルフィルタのフィルタ係数を設定するフィルタ係数設定部とを含んで構成されている。例えば、ＬＭＳ（Least Mean Square ）アルゴリズムを用いて、スピーカ３６に入力される音声信号（後述する）を参照信号として適応等化処理を行うことによりフィルタ係数Ｗが決定され、マイクロホン１２の出力信号に含まれるスピーカ３６の出力音成分を除去する処理が演算部１８によって行われる。
【００２１】
このようにして、本実施形態では、スピーカ３６の出力音成分をマイクロホン１２から出力される音声信号から除去しているので、音声認識処理時における応答音声やオーディオ装置２００から出力されるオーディオ音などが利用者の入力した音声と重なった場合にも、利用者の音声のみを確実に抽出することでき、音声認識処理の認識率を向上させることができる。
【００２２】
音声認識処理部２０は、入力される音声に対応して文字列を特定する所定の音声認識処理を行うものであり、２つのリングバッファ２２、２４、特徴量抽出部２６、照合処理部２８を含んで構成されている。
リングバッファ２２は、演算部１８から出力される雑音成分（オーディオ音や応答音声等）除去後の音声信号を入力順に取り込んで格納する。この格納された音声信号は、格納順に読み出されて、特徴量抽出部２６に入力される。
【００２３】
特徴量抽出部２６は、音声認識処理を行うために必要な各種の音声特徴量を抽出する。特徴量抽出部２６によって抽出された音声特徴量は、制御部１４からの指示に応じて、照合処理部２８に向けて直接出力されるか、またはリングバッファ２４に格納される。
【００２４】
リングバッファ２４は、特徴量抽出部２６から出力される音声特徴量をその入力順に格納しており、照合処理部２８から読み出し要求が与えられると、この格納された音声特徴量が格納順に読み出される。
照合処理部２８は、予め音素や単語などを単位とする標準パターンを用意しており、特徴量抽出部２６によって抽出された音声特徴量とこの標準パターンとを照合することにより、入力音声に対応する文字列を特定して制御部１４に出力する。
【００２５】
レベルメータ３０は、特徴量抽出部２６から出力される音声特徴量に基づいて音声の音圧レベルを計測し、計測結果を制御部１４に出力する。
音声合成処理部３２は、制御部１４からの指示に従い、照合処理部２８から出力された認識結果に対応した応答音声を出力するための音声信号を生成し、出力する。
【００２６】
合成部３４は、音声合成処理部３２から出力される音声信号と、オーディオ装置２００から出力されるオーディオ音信号とを合成してスピーカ３６に出力する。スピーカ３６は、合成部３４からの出力信号に対応して、応答音声やオーディオ音を出力する。
【００２７】
上述した音声認識処理部２０が音声認識処理手段に、音声合成処理部３２、スピーカ３６が応答手段に、照合処理部２８が中断決定手段に、制御部１４が再開決定手段に、レベルメータ３０が音圧レベル検出手段にそれぞれ対応している。また、遅延素子１６、適応フィルタ１７、演算部１８が除去手段に対応している。
【００２８】
本実施形態の音声認識装置はこのような構成を有しており、次にその動作を説明する。
〔第１の動作手順〕
図２は、音声認識装置１００における第１の動作手順を示す流れ図である。なお、以下の説明では、ナビゲーション装置３００において目的地などを設定する場合を想定し、操作指示として「○○県××市△△……」という音声、すなわち、“都道府県名”と“市町村名”、“地名”、……と続く複数の単語で構成される連続語音声に対して音声認識処理を行うものとして説明を行う。
【００２９】
制御部１４は、トークスイッチ１０が押下されたか否かを判定しており（ステップ１００）、トークスイッチ１０が押下されると、音声認識処理部２０に対して起動指示を出力する。
音声認識処理部２０が起動した後に、マイクロホン１２に対して利用者により音声入力が行われると（ステップ１０１）、この音声入力に対応して、音声認識処理部２０により所定の音声認識処理が行われる（ステップ１０２）。具体的には、リングバッファ２２に格納される音声信号に基づいて、特徴量抽出部２６により音声特徴量が抽出され、照合処理部２８により音声特徴量と標準パターンとの照合処理が行われることにより、入力された音声に対応する文字列（単語）が順次、特定される。
【００３０】
次に、音声認識処理部２０内の照合処理部２８は、入力された音声に時間ｔ１以上のブランク（無音状態）が含まれているか否かを判定する（ステップ１０３）。時間ｔ１以上のブランクが含まれていない場合には、ステップ１０３で否定判断がなされ、ステップ１０２に戻り、所定の音声認識処理が継続される。
【００３１】
また、入力された音声に時間ｔ１以上のブランクが含まれている場合には、ステップ１０３で肯定判断がなされ、照合処理部２８は、音声認識処理部２０による音声認識処理の中断を決定するとともに、ブランク検出時点までの音声に対する認識結果を制御部１４に出力する。
【００３２】
制御部１４は、照合処理部２８から受け取った認識結果を音声合成処理部３２に出力することにより、ブランク検出時点までの音声に対応する応答音声を出力する（ステップ１０４）。
また、ステップ１０４に示した処理と並行して、制御部１４は、レベルメータ３０からの出力信号が所定値を超えたか否かを調べることにより、時間ｔ１以上のブランク検出時から時間ｔ２以内に音声入力が行われたか否かを判定する（ステップ１０５）。なお、以後の説明では、時間ｔ１以上のブランク検出時から時間ｔ２以内に行われる音声入力を「追加の音声入力」と称することとする。
【００３３】
追加の音声入力が行われた場合には、ステップ１０５で肯定判断がなされ、制御部１４は、音声認識処理の再開を決定し、音声認識処理部２０に対して再度、起動指示を出力する。この起動指示に従って、音声認識処理部２０による所定の音声認識処理が再開され（ステップ１０６）、入力音声に時間ｔ１以上の２度目のブランクが含まれるまで（ステップ１０７）、ステップ１０６に示した音声認識処理が継続される。
【００３４】
入力された音声に時間ｔ１以上の２度目のブランクが含まれる場合には、ステップ１０７で肯定判断がなされ、照合処理部２８は、ブランク検出時点までの音声に対する認識結果を制御部１４に出力する。制御部１４は、照合処理部２８から出力される認識結果に基づいて、追加の音声入力を正常に認識することができたか否かを判定する（ステップ１０８）。具体的には、追加の音声入力に対応して何らかの文字列（単語）を特定することができた場合にはその文字列、追加の音声入力に対応する文字列を特定することができなかった場合にはその旨、すなわち、認識を正常に行えなかった旨のエラー通知がそれぞれ照合処理部２８から出力されるので、制御部１４は、照合処理部２８からのエラー通知の有無に基づいて、追加の音声入力を正常に認識することができたか否かを判定する。
【００３５】
追加の音声入力を認識することができた場合には、ステップ１０８で肯定判断がなされ、制御部１４は、照合処理部２８から受け取った認識結果の文字列を音声合成処理部３２に出力することにより、追加の音声入力に対応する応答音声を出力する（ステップ１０９）。
【００３６】
また、追加の音声入力を認識できなかった場合には、ステップ１０８で否定判断がなされ、制御部１４は、音声合成処理部３２に指示を送り、追加の音声入力が存在することは認識している旨を含む応答音声を出力する（ステップ１１０）。
【００３７】
具体的には、例えば、上述したように、利用者が「○○県××市……」と入力しようとしたが、「○○県」に対応した応答音声がステップ１０４に示した処理によって出力されてしまったために、「××市……」の入力を途中でやめてしまった場合などで、追加の音声入力を正常に認識することができなかった場合には、「○○県まで認識できました。もう一度、○○県以降をお願いします」といった内容の応答音声が出力される。このように、追加の音声入力の存在を認識している旨を含む応答音声を出力することにより、再度音声入力を促す場合であっても利用者の不快感や違和感を軽減することができる。
【００３８】
また、追加の音声入力が行われなかった場合には、上述したステップ１０５で否定判断がなされ、制御部１４は、必要に応じて追加の音声入力を促す応答を出力する（ステップ１１１）。具体的には、例えば、利用者により「○○県」だけが入力された場合であれば、「○○県。市町村名以降をどうぞ」といった応答音声が出力される。
【００３９】
〔第２の動作手順〕
ところで、上述した図２に示した第１の動作手順では、入力された音声に所定の時間ｔ１以上のブランクが含まれる場合にこれを検出し、その後の時間ｔ２以内に再び音声入力が行われた場合に１回だけ音声認識処理を再開するようにしていたが、時間ｔ１以上のブランクを検出した後の時間ｔ２以内に再び音声入力が行われた場合に、その都度音声認識処理が再開されるようにしてもよい。
【００４０】
図３は、音声認識装置１００における第２の動作手順を示す流れ図であり、所定の時間ｔ２以内に再び音声入力が行われた場合に、その都度音声認識処理を再開する場合の動作手順が示されている。なお、以下の説明においても、ナビゲーション装置３００において目的地などを設定する場合を想定し、操作指示として「○○県××市△△……」という音声、すなわち、“都道府県名”と“市町村名”、“地名”、……と続く複数の単語で構成される連続語音声に対して音声認識処理を行うものとして説明を行う。また、図３に示す第２の動作手順では、上述した図２に示した第１の動作手順における動作と重複している部分が多いので、重複部分に関しては適宜、簡略化して説明を行う。
【００４１】
制御部１４は、トークスイッチ１０が押下されたか否かを判定しており（ステップ２００）、トークスイッチ１０が押下されると、音声認識処理部２０に対して起動指示を出力する。
音声認識処理部２０が起動した後に、マイクロホン１２に対して利用者により音声入力が行われると（ステップ２０１）、この音声入力に対応して、音声認識処理部２０により所定の音声認識処理が行われる（ステップ２０２）。
【００４２】
次に、音声認識処理部２０内の照合処理部２８は、入力された音声に時間ｔ１以上のブランクが含まれているか否かを判定する（ステップ２０３）。時間ｔ１以上のブランクが含まれていない場合には、ステップ１０３で否定判断がなされ、ステップ１０２に戻り、所定の音声認識処理が継続される。
【００４３】
また、入力された音声に時間ｔ１以上のブランクが含まれている場合には、ステップ２０３で肯定判断がなされ、照合処理部２８は、音声認識処理部２０による音声認識処理の中断を決定するとともに、ブランク検出時点までの音声に対する認識結果を制御部１４に出力する。
【００４４】
次に、制御部１４は、音声認識処理部２０内の特徴量抽出部２６に対して指示を送ることにより、音声特徴量をリングバッファ２４に格納し（ステップ２０４）、これと並行して、照合処理部２８から取得した認識結果を音声合成処理部３２に出力することにより、ブランク検出時点までの音声に対応する応答音声の出力処理を開始するよう指示する（ステップ２０５）。
【００４５】
次に、制御部１４は、レベルメータ３０の出力信号に基づいて、時間ｔ１以上のブランク検出時点から所定の時間ｔ２以内に音声入力が行われたか否かを判定する（ステップ２０６）。
ここで、第２の動作手順における時間ｔ１およびｔ２について説明する。図４は、第２の動作手順における時間ｔ１およびｔ２について説明する図である。同図（Ａ）に示すように、最初に入力された音声において時間ｔ１以上のブランクが含まれている場合にこのブランクが検出され、それまでに入力された音声に対応した所定の応答音声が出力されるので、ブランクの開始時点から応答音声が出力されるまでの間に必要な時間（以後、これを「応答時間」と称する。）ｔは、ブランクに対応する時間ｔ１と応答音声を出力するための処理（応答処理）に必要な時間の合計に等しくなる。上述したように、利用者の立場からすれば、この応答時間ｔが音声入力時に許容されるブランク、すなわち見かけ上のブランクに対応しており、この応答時間ｔよりも短いブランクしか含まずに音声入力を行った場合には、連続語として音声認識処理が行われるものと認識されている場合が多い。
【００４６】
したがって、本実施形態では、時間ｔ１以上のブランクを検出した後に音声入力が行われたか否かを判定する時間ｔ２を、応答処理に必要な時間とほぼ等しい値に設定している。これにより、図４（Ｂ）に示すように、第１の音声入力（音声入力１）が行われ、ブランクが検出された後に、この第１の音声入力に対応する応答音声が出力される以前、すなわち時間ｔ２が経過する以前に第２の音声入力（音声入力２）が行われた場合には、第１の音声入力に対応する応答処理が中断されて、第２の音声入力に対応する音声認識処理が開始されることとなる。すなわち、応答時間ｔよりも短いブランクしか含まずに音声入力が行れた場合には、連続語として音声認識処理を行うことができるので、利用者の認識している見かけ上のブランクと音声認識装置１００において実際に許容されるブランク時間とをほぼ等しくすることができる。
【００４７】
時間ｔ２以内に音声入力が行われた場合には、ステップ２０６で肯定判断がなされ、制御部１４は、音声合成処理部３２に指示を送り、ブランク検出時点までに入力された音声に対応する応答音声を出力する処理を中止するとともに、音声認識処理の再開を決定し、音声認識処理部２０に対して所定の起動指示を送って照合処理部２８を起動する（ステップ２０７）。
【００４８】
起動指示を受けた照合処理部２８は、リングバッファ２４に格納された音声特徴量を読み出し（ステップ２０８）、その後、ステップ２０２に戻り、読み出した音声特徴量などに基づいて所定の音声認識処理を行う。
また、時間ｔ１以上のブランク検出時点から時間ｔ２以内に音声入力が行われなかった場合には、上述したステップ２０６で否定判断がなされ、制御部１４は、特徴量抽出部２６に対して指示を送り、音声特徴量をリングバッファ２４に格納する動作を中止する（ステップ２０９）。
【００４９】
また、制御部１４は、ステップ２０６に示した判定処理と並行して、照合処理部２８から出力される認識結果に基づいて、入力された音声を正常に認識することができたか否かを判定しており（ステップ２１０）、音声を正常に認識することができた場合には、ステップ２１０で肯定判断を行って、照合処理部２８から受け取った認識結果の文字列を音声合成処理部３２に出力することにより、入力された音声に対応する応答音声を出力する（ステップ２１１）。
【００５０】
具体的には、照合処理部２８は、入力された音声の全てに対応して何らかの文字列（単語）を特定することができた場合にはその文字列を出力し、音声の一部、あるいは全てに対応する文字列を特定することができなかった場合には、その旨（エラー通知）と特定することができた分の文字列を出力する。したがって、制御部１４は、照合処理部２８からのエラー通知の有無に基づいて、音声を正常に認識することができたか否かを判定する。
【００５１】
また、音声の一部あるいは全部を認識できなかった場合には、ステップ２１０で否定判断がなされ、制御部１４は、音声合成処理部３２に指示を送り、認識できた分の音声に対応する応答と、それ以外の音声（他の音声）が入力されたことも認識している旨の応答を出力する（ステップ２１２）。具体的には、利用者が「○○県××市……」と入力したが、「○○県」だけを認識することができ、後の「××市……」を認識することができなかった場合であれば、「○○県まで認識できました。もう一度、○○県以降をお願いします」といった内容の応答が出力される。このように、認識できなかった分の音声についても、その存在を認識している旨の応答を行うことにより、再度音声入力を促す場合における利用者の不快感や違和感を軽減することができる。
【００５２】
このように、本実施形態の音声認識装置１００は、音声に含まれるブランクが時間ｔ１を経過して所定の応答処理が開始された後にも、所定の時間ｔ２が経過するまでの間に音声が入力された場合には、所定の音声認識処理を再開しているので、応答音声を返すまでに入力された音声に対して取りこぼしをなくすことができる。また、時間ｔ１以上のブランクを検出した後に再開された音声認識処理の成否に応じて、音声認識処理が失敗した場合には「利用者による音声入力の存在は認識しているのだが音声認識処理には失敗した」という内容を含む応答音声を出力しているので、自分の音声入力が無視され、あるいは途中で遮られているといった悪い印象を利用者に対して与えてしまうことがなく、利用者が応答に対して違和感を感じることを防ぐことができる。
【００５３】
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、本発明を適用した音声認識装置１００を車載用のナビゲーション装置３００と組み合わせて用いる場合の例を説明していたが、本発明の適用範囲は車載用に限定されるものではなく、他にも種々の装置やシステム、例えば、家庭用のパーソナルコンピュータ等を用いて実現される音声認識装置などに対しても適用することができる。
【００５４】
また、上述した実施形態では、車載用の用途を想定していたために、オーディオ音等を除去するための除去手段を備えた音声認識装置１００について説明したが、家庭用の用途等において、音声認識処理の対象とする音声以外の音がほとんど影響しないような場合には、除去手段を省略して構成の簡略化、低コスト化を図るようにしてもよい。
【００５５】
【発明の効果】
上述したように、本発明によれば、音声に含まれる無音状態が時間ｔ１を経過して所定の応答処理が開始された後にも、所定の時間ｔ２が経過するまでの間に所定の音圧レベルを超える音声が入力された場合には、音声認識処理手段による処理を再開しているので、応答を返すまでに入力された音声に対して取りこぼしをなくすことができる。また、時間ｔ１以上の無音状態が検出された後に再開された音声認識処理の成否に応じて、応答音声の内容を異ならせているので、自分の音声入力が無視され、あるいは途中で遮られているといった悪い印象を利用者に対して与えてしまうことがなく、利用者が応答に対して感じる違和感をなくすことができる。
【図面の簡単な説明】
【図１】一実施形態の音声認識装置の構成を示す図である。
【図２】音声認識装置における第１の動作手順を示す流れ図である。
【図３】音声認識装置における第２の動作手順を示す流れ図である。
【図４】第２の動作手順における時間ｔ１およびｔ２について説明する図である。
【符号の説明】
１０トークスイッチ
１２マイクロホン
１４制御部
１６遅延素子
１７適応フィルタ（ＡＤＦ）
１８演算部
２０音声認識処理部
２２、２４リングバッファ
２６特徴量抽出部
２８照合処理部
３０レベルメータ
３２音声合成処理部
３４合成部
３６スピーカ
１００音声認識装置
２００オーディオ装置
３００ナビゲーション装置

Claims

音声を集音するマイクロホンと、
前記マイクロホンによって集音された複数の単語を含む音声に対して音声認識処理を行う音声認識処理手段と、
前記音声認識処理手段によって認識された内容に基づいて応答音声を生成し、出力する応答手段と、
前記マイクロホンによって集音される音声に含まれる無音状態を検出し、この無音状態が時間ｔ１以上継続したときに前記音声認識処理の中断を決定する中断決定手段と、
前記マイクロホンによって集音される音声の音圧レベルを検出する音圧レベル検出手段と、
前記無音状態が前記時間ｔ１を経過した後の時間ｔ２の間に、前記音圧レベル検出手段によって検出された音圧レベルが所定値を超えたときに、前記音声認識処理手段に対して処理の再開を決定する再開決定手段と、を備え、
前記再開決定手段は、前記音声認識処理手段に対して処理の再開を指示する動作とともに、前記応答手段に対して前記応答音声の出力を中止する指示を送り、
前記時間ｔ２は、前記無音状態の継続時間が前記時間ｔ１となって、前記中断決定手段によって前記音声認識処理の中断が決定されてから、前記応答手段によって前記応答音声を出力するまでの時間にほぼ等しい値に設定することを特徴とする音声認識装置。
請求項１において、
前記応答音声やその他の音源から出力される音声を出力するスピーカと、
前記マイクロホンによって集音される音声に含まれる音声認識対象外の成分を除去する除去手段と、
をさらに備え、前記除去手段から出力される音声認識対象の音声を前記音声認識処理手段に入力することを特徴とする音声認識装置。
請求項１または２において、
前記応答手段は、前記時間ｔ１以上の無音状態が検出された後に再開された前記音声認識処理手段による音声認識処理の成否に応じて異なる内容の前記応答音声を生成することを特徴とする音声認識装置。