JP3916861B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP3916861B2
JP3916861B2 JP2000278399A JP2000278399A JP3916861B2 JP 3916861 B2 JP3916861 B2 JP 3916861B2 JP 2000278399 A JP2000278399 A JP 2000278399A JP 2000278399 A JP2000278399 A JP 2000278399A JP 3916861 B2 JP3916861 B2 JP 3916861B2
Authority
JP
Japan
Prior art keywords
voice
response
time
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000278399A
Other languages
English (en)
Other versions
JP2002091489A (ja
Inventor
真吾 木内
孝一 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2000278399A priority Critical patent/JP3916861B2/ja
Publication of JP2002091489A publication Critical patent/JP2002091489A/ja
Application granted granted Critical
Publication of JP3916861B2 publication Critical patent/JP3916861B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、入力される音声に対応する文字列を特定し、その内容に応じた応答を返す音声認識装置に関する。
【0002】
【従来の技術】
従来から、音声によって各種の操作指示等の入力を行うための音声認識装置が実用化されており、各種の装置やシステムに採用されている。例えば、音声認識装置を搭載した車載用のナビゲーション装置では、経路探索における目的地の設定等の操作指示を音声により入力できるようになっている。また、パーソナルコンピュータ(以下、「パソコン」と称する。)において所定のプログラムを実行することにより、パソコン上で音声認識装置を実現し、マイクロホンによって集音された音声に対応して文章の入力等の操作を行っているものもある。
【0003】
ところで、一般に音声認識技術は、単語音声認識技術と連続語音声認識技術とに分類することができる。前者の単語音声認識技術は、単語毎に区切って発声された音声を認識し、対応する単語の文字列を特定する技術である。また、後者の連続語音声認識技術は、複数の単語等が連続して発声された音声を認識し、対応する複数の単語の文字列を特定する技術である。
【0004】
従来は、比較的に処理が容易な単語音声認識技術を採用した音声認識装置が主流であったが、利用者の立場から考えると、複数の単語を連続して入力することができるほうが操作性がよく好ましいことから、近年では、連続語音声認識技術を採用した音声認識装置が普及しつつある。このような連続語音声認識技術を採用した音声認識装置をナビゲーション装置に搭載した場合には、例えば、経路探索の目的地設定等において、「○○県××市△△・・・」というように都道府県名、市町村名、地名等の単語を連続して入力して認識させることができるので、これら都道府県名等の単語を1つずつ入力する場合に比べて入力操作を快適に行うことができる。
【0005】
【発明が解決しようとする課題】
ところで、上述した連続語音声認識技術を採用した音声認識装置では、利用者が発声した音声を取り込む際に、ほぼ無音と見なせる状態(以後、この無音状態を「ブランク」と呼ぶ。)が予め設定した一定時間を超えた場合に、その時点を区切りとしてそれまでに入力された音声に対して音声認識処理を行い、認識結果を利用者に対して応答している。
【0006】
例えば、入力された音声において時間T1以上のブランクが含まれていることを検出した時点で、この音声に対応した音声合成処理を行って所定の応答を出力する場合を考えると、有効な音声(ブランクを除いた音声)の入力が終わってから対応する応答が出力されるまでの間に必要な時間は、ブランクに対応する時間T1と音声合成処理に必要な時間を合計した所定時間Tとなる。したがって、利用者の立場からすれば、この所定時間Tが音声入力時に許容される見かけ上のブランクであり、この所定時間Tよりも短いブランクしか含まずに音声入力を行った場合には、連続語として音声認識処理が行われるものと考えるのが普通である。
【0007】
ところが、従来の音声認識装置では、所定時間Tよりも短い時間T1のブランクを検出した時点で音声認識処理を終了して応答処理を開始していたため、この時間T1の経過後に音声が入力されても認識されない、いわゆる「取りこぼし」が生じるという問題があった。一般に、普段言い慣れていない単語は、流暢に発声することはできず、単語間にブランクが含まれる場合が多いため、上述した取りこぼしが生じやすい。
【0008】
例えば、音声認識装置を搭載したナビゲーション装置に対して、普段言い慣れていない住所等を入力する場合を考えると、利用者自身は、「○○県××市・・・」というように住所を連続して入力しているつもりであるにも関わらず、実際には、「○○県」と「××市」の間など各単語の間にブランクを挿入してしまい、このため、例えば「○○県」までで認識処理が中断されて対応する応答が行われ、それ以降に発声された「××市・・・」の一部が取りこぼしとなってしまうことがある。また、上述したような取りこぼしが生じた場合には、例えば、「○○県。市町村名をどうぞ。」といった応答が行われることとなるので、利用者の立場から考えると、一度入力したはずである市町村名以降の音声が無視され、再度入力を要求されるので、このような応答に対して利用者は、違和感を感じることが多い。
【0009】
本発明は、このような点に鑑みて創作されたものであり、その目的は、応答を返すまでに入力された音声に対して取りこぼしをなくすことができる音声認識装置を提供することにある。また、本発明の他の目的は、違和感のない応答を返すことができる音声認識装置を提供することにある。
【0010】
【課題を解決するための手段】
上述した課題を解決するために、本発明の音声認識装置では、マイクロホンにより音声を集音し、集音された音声に対して音声認識処理手段によって音声認識処理を行い、認識された内容に基づいて応答手段により応答音声を生成し、出力する場合に、中断決定手段は、マイクロホンによって集音される音声に含まれる無音状態を検出し、この無音状態が時間t1以上継続したときに、音声認識処理の中断を決定する。そして、音圧レベル検出手段は、マイクロホンによって集音される音声の音圧レベルを検出しており、上述した無音状態が時間t1を経過した後の時間t2の間に、音圧レベル検出手段によって検出された音圧レベルが所定値を超えたときに、再開決定手段は、音声認識処理の再開を決定する。
【0011】
音声に含まれる無音状態が時間t1を経過して所定の応答処理が開始された後にも、所定の時間t2が経過するまでの間に所定の音圧レベルを超える音声が入力された場合には音声認識処理手段による処理が再開されるので、応答を返すまでに入力された音声に対して取りこぼしをなくすことができる。
【0012】
また、上述した再開決定手段は、入力音声に含まれる時間t1以上の最初の無音状態に対応して音声認識処理手段に対して1回だけ処理の再開を決定することが望ましい。一般に、最初の無音状態が検出されて応答が返された場合に、利用者がこの応答と並行して音声入力を行い続けるということはあまりないので、最初の無音状態に対応して1回だけ音声認識処理手段の処理を再開するだけでも、応答を返すまでに入力された音声の取りこぼしをほとんどなくすことができる。
【0013】
また、上述した再開決定手段は、音声認識処理手段に対して処理の再開を指示する動作とともに、応答手段に対して応答音声の出力を中止する指示を送ることが望ましい。音声認識処理手段の処理が再開された場合に応答音声に出力を中止することにより、利用者自身が発声した音声と応答音声とが重なることを防ぐことができる。特に、応答音声を返すことなく音声認識処理が再開されるため、利用者によって発声される音声に時間(t1+t2)のブランクが含まれるまで連続語に対する音声認識処理を継続することができ、効率よい音声入力を行うことができる。
【0014】
また、上述した時間t2は、無音状態の継続時間が時間t1となって、中断決定手段によって音声認識処理の中断が決定されてから、応答手段によって応答音声を出力するまでの時間にほぼ等しい値に設定することが望ましい。無音状態の継続時間が時間t1となってから、応答手段による応答音声が出力されるまでの時間と上述した時間t2をほぼ等しい値とすることにより、応答音声が出力される以前に音声入力が行われた場合に、この音声入力に確実に対応して音声認識処理を継続させることができる。したがって、利用者自身は連続して音声を入力しているつもりであるにも関わらず、入力途中の音声に対応して音声認識処理が開始されて応答音声が出力されてしまうことがなく、利用者が違和感を感じることを防ぐことができる。
【0015】
また、応答音声やその他の音源から出力される音声を出力するスピーカと、マイクロホンによって集音される音声に含まれる音声認識対象外の成分を除去する除去手段とをさらに備えておいて、除去手段から出力される音声認識対象の音声を音声認識処理手段に入力することが望ましい。音声認識対象外の成分を除去することにより、音声認識処理の精度を向上させることができるので、車載用のナビゲーション装置等に本発明の音声認識装置を搭載する場合など、音声認識対象外の音声がマイクロホンによって集音される音声に含まれやすい環境において特に有効である。
【0016】
また、上述した応答手段は、時間t1以上の無音状態が検出された後に再開された音声認識処理手段による音声認識処理の成否に応じて異なる内容の応答音声を生成することが望ましい。具体的には、例えば、再開後の音声認識処理が成功した場合には認識結果に基づいた応答音声を出力し、音声認識処理が失敗した場合には「利用者による入力音声の存在は認識しているが音声認識処理には失敗した」という内容を含む応答音声を出力するというように、音声認識処理の成否に応じて応答音声の内容を異ならせることにより、自分の行った音声入力が無視され、あるいは途中で遮られているといった悪い印象を利用者に対して与えることがなく、利用者が応答音声に対して感じる違和感をなくすことができる。
【0017】
【発明の実施の形態】
以下、本発明を適用した一実施形態の音声認識装置について、図面を参照しながら説明する。
図1は、本実施形態の音声認識装置の構成を示す図である。同図に示す音声認識装置100は、車載用のナビゲーション装置300に対して音声により操作指示を与えるために用いられるものであり、トークスイッチ10、マイクロホン12、制御部14、遅延素子16、適応フィルタ(ADF)17、演算部18、音声認識処理部20、レベルメータ30、音声合成処理部32、合成部34、スピーカ36を含んで構成されている。なお、本実施形態の音声認識装置は、連続語音声認識技術を採用しているものとする。
【0018】
トークスイッチ10は、利用者が音声入力を行う前に操作されるものであり、操作状況が制御部14に出力される。マイクロホン12は、利用者が発声した音声を集音し、これを電気信号(音声信号)に変換して出力する。
制御部14は、音声認識装置100の全体動作を制御するものであり、音声認識処理を行った結果得られた文字列等の情報をナビゲーション装置300に出力する。制御部14の動作の詳細については後述する。
【0019】
遅延素子16は、マイクロホン12から出力される音声信号を所定時間だけ遅延した信号を出力する。この遅延素子16は、例えば、伝達特性Z-mを有するFIR(Finite Impulse Response )型のデジタルフィルタを用いて、遅延時間tに対応するフィルタ係数を1、それ以外のフィルタ係数を0に設定することにより実現される。
【0020】
適応フィルタ17は、車室内の音響空間の伝達特性、具体的には、スピーカ36から放射される音がマイクロホン12に到達するまでの間の伝達特性を模擬するためのものであり、フィルタ係数Wを有するFIR型のデジタルフィルタと、このデジタルフィルタのフィルタ係数を設定するフィルタ係数設定部とを含んで構成されている。例えば、LMS(Least Mean Square )アルゴリズムを用いて、スピーカ36に入力される音声信号(後述する)を参照信号として適応等化処理を行うことによりフィルタ係数Wが決定され、マイクロホン12の出力信号に含まれるスピーカ36の出力音成分を除去する処理が演算部18によって行われる。
【0021】
このようにして、本実施形態では、スピーカ36の出力音成分をマイクロホン12から出力される音声信号から除去しているので、音声認識処理時における応答音声やオーディオ装置200から出力されるオーディオ音などが利用者の入力した音声と重なった場合にも、利用者の音声のみを確実に抽出することでき、音声認識処理の認識率を向上させることができる。
【0022】
音声認識処理部20は、入力される音声に対応して文字列を特定する所定の音声認識処理を行うものであり、2つのリングバッファ22、24、特徴量抽出部26、照合処理部28を含んで構成されている。
リングバッファ22は、演算部18から出力される雑音成分(オーディオ音や応答音声等)除去後の音声信号を入力順に取り込んで格納する。この格納された音声信号は、格納順に読み出されて、特徴量抽出部26に入力される。
【0023】
特徴量抽出部26は、音声認識処理を行うために必要な各種の音声特徴量を抽出する。特徴量抽出部26によって抽出された音声特徴量は、制御部14からの指示に応じて、照合処理部28に向けて直接出力されるか、またはリングバッファ24に格納される。
【0024】
リングバッファ24は、特徴量抽出部26から出力される音声特徴量をその入力順に格納しており、照合処理部28から読み出し要求が与えられると、この格納された音声特徴量が格納順に読み出される。
照合処理部28は、予め音素や単語などを単位とする標準パターンを用意しており、特徴量抽出部26によって抽出された音声特徴量とこの標準パターンとを照合することにより、入力音声に対応する文字列を特定して制御部14に出力する。
【0025】
レベルメータ30は、特徴量抽出部26から出力される音声特徴量に基づいて音声の音圧レベルを計測し、計測結果を制御部14に出力する。
音声合成処理部32は、制御部14からの指示に従い、照合処理部28から出力された認識結果に対応した応答音声を出力するための音声信号を生成し、出力する。
【0026】
合成部34は、音声合成処理部32から出力される音声信号と、オーディオ装置200から出力されるオーディオ音信号とを合成してスピーカ36に出力する。スピーカ36は、合成部34からの出力信号に対応して、応答音声やオーディオ音を出力する。
【0027】
上述した音声認識処理部20が音声認識処理手段に、音声合成処理部32、スピーカ36が応答手段に、照合処理部28が中断決定手段に、制御部14が再開決定手段に、レベルメータ30が音圧レベル検出手段にそれぞれ対応している。また、遅延素子16、適応フィルタ17、演算部18が除去手段に対応している。
【0028】
本実施形態の音声認識装置はこのような構成を有しており、次にその動作を説明する。
〔第1の動作手順〕
図2は、音声認識装置100における第1の動作手順を示す流れ図である。なお、以下の説明では、ナビゲーション装置300において目的地などを設定する場合を想定し、操作指示として「○○県××市△△……」という音声、すなわち、“都道府県名”と“市町村名”、“地名”、……と続く複数の単語で構成される連続語音声に対して音声認識処理を行うものとして説明を行う。
【0029】
制御部14は、トークスイッチ10が押下されたか否かを判定しており(ステップ100)、トークスイッチ10が押下されると、音声認識処理部20に対して起動指示を出力する。
音声認識処理部20が起動した後に、マイクロホン12に対して利用者により音声入力が行われると(ステップ101)、この音声入力に対応して、音声認識処理部20により所定の音声認識処理が行われる(ステップ102)。具体的には、リングバッファ22に格納される音声信号に基づいて、特徴量抽出部26により音声特徴量が抽出され、照合処理部28により音声特徴量と標準パターンとの照合処理が行われることにより、入力された音声に対応する文字列(単語)が順次、特定される。
【0030】
次に、音声認識処理部20内の照合処理部28は、入力された音声に時間t1以上のブランク(無音状態)が含まれているか否かを判定する(ステップ103)。時間t1以上のブランクが含まれていない場合には、ステップ103で否定判断がなされ、ステップ102に戻り、所定の音声認識処理が継続される。
【0031】
また、入力された音声に時間t1以上のブランクが含まれている場合には、ステップ103で肯定判断がなされ、照合処理部28は、音声認識処理部20による音声認識処理の中断を決定するとともに、ブランク検出時点までの音声に対する認識結果を制御部14に出力する。
【0032】
制御部14は、照合処理部28から受け取った認識結果を音声合成処理部32に出力することにより、ブランク検出時点までの音声に対応する応答音声を出力する(ステップ104)。
また、ステップ104に示した処理と並行して、制御部14は、レベルメータ30からの出力信号が所定値を超えたか否かを調べることにより、時間t1以上のブランク検出時から時間t2以内に音声入力が行われたか否かを判定する(ステップ105)。なお、以後の説明では、時間t1以上のブランク検出時から時間t2以内に行われる音声入力を「追加の音声入力」と称することとする。
【0033】
追加の音声入力が行われた場合には、ステップ105で肯定判断がなされ、制御部14は、音声認識処理の再開を決定し、音声認識処理部20に対して再度、起動指示を出力する。この起動指示に従って、音声認識処理部20による所定の音声認識処理が再開され(ステップ106)、入力音声に時間t1以上の2度目のブランクが含まれるまで(ステップ107)、ステップ106に示した音声認識処理が継続される。
【0034】
入力された音声に時間t1以上の2度目のブランクが含まれる場合には、ステップ107で肯定判断がなされ、照合処理部28は、ブランク検出時点までの音声に対する認識結果を制御部14に出力する。制御部14は、照合処理部28から出力される認識結果に基づいて、追加の音声入力を正常に認識することができたか否かを判定する(ステップ108)。具体的には、追加の音声入力に対応して何らかの文字列(単語)を特定することができた場合にはその文字列、追加の音声入力に対応する文字列を特定することができなかった場合にはその旨、すなわち、認識を正常に行えなかった旨のエラー通知がそれぞれ照合処理部28から出力されるので、制御部14は、照合処理部28からのエラー通知の有無に基づいて、追加の音声入力を正常に認識することができたか否かを判定する。
【0035】
追加の音声入力を認識することができた場合には、ステップ108で肯定判断がなされ、制御部14は、照合処理部28から受け取った認識結果の文字列を音声合成処理部32に出力することにより、追加の音声入力に対応する応答音声を出力する(ステップ109)。
【0036】
また、追加の音声入力を認識できなかった場合には、ステップ108で否定判断がなされ、制御部14は、音声合成処理部32に指示を送り、追加の音声入力が存在することは認識している旨を含む応答音声を出力する(ステップ110)。
【0037】
具体的には、例えば、上述したように、利用者が「○○県××市……」と入力しようとしたが、「○○県」に対応した応答音声がステップ104に示した処理によって出力されてしまったために、「××市……」の入力を途中でやめてしまった場合などで、追加の音声入力を正常に認識することができなかった場合には、「○○県まで認識できました。もう一度、○○県以降をお願いします」といった内容の応答音声が出力される。このように、追加の音声入力の存在を認識している旨を含む応答音声を出力することにより、再度音声入力を促す場合であっても利用者の不快感や違和感を軽減することができる。
【0038】
また、追加の音声入力が行われなかった場合には、上述したステップ105で否定判断がなされ、制御部14は、必要に応じて追加の音声入力を促す応答を出力する(ステップ111)。具体的には、例えば、利用者により「○○県」だけが入力された場合であれば、「○○県。市町村名以降をどうぞ」といった応答音声が出力される。
【0039】
〔第2の動作手順〕
ところで、上述した図2に示した第1の動作手順では、入力された音声に所定の時間t1以上のブランクが含まれる場合にこれを検出し、その後の時間t2以内に再び音声入力が行われた場合に1回だけ音声認識処理を再開するようにしていたが、時間t1以上のブランクを検出した後の時間t2以内に再び音声入力が行われた場合に、その都度音声認識処理が再開されるようにしてもよい。
【0040】
図3は、音声認識装置100における第2の動作手順を示す流れ図であり、所定の時間t2以内に再び音声入力が行われた場合に、その都度音声認識処理を再開する場合の動作手順が示されている。なお、以下の説明においても、ナビゲーション装置300において目的地などを設定する場合を想定し、操作指示として「○○県××市△△……」という音声、すなわち、“都道府県名”と“市町村名”、“地名”、……と続く複数の単語で構成される連続語音声に対して音声認識処理を行うものとして説明を行う。また、図3に示す第2の動作手順では、上述した図2に示した第1の動作手順における動作と重複している部分が多いので、重複部分に関しては適宜、簡略化して説明を行う。
【0041】
制御部14は、トークスイッチ10が押下されたか否かを判定しており(ステップ200)、トークスイッチ10が押下されると、音声認識処理部20に対して起動指示を出力する。
音声認識処理部20が起動した後に、マイクロホン12に対して利用者により音声入力が行われると(ステップ201)、この音声入力に対応して、音声認識処理部20により所定の音声認識処理が行われる(ステップ202)。
【0042】
次に、音声認識処理部20内の照合処理部28は、入力された音声に時間t1以上のブランクが含まれているか否かを判定する(ステップ203)。時間t1以上のブランクが含まれていない場合には、ステップ103で否定判断がなされ、ステップ102に戻り、所定の音声認識処理が継続される。
【0043】
また、入力された音声に時間t1以上のブランクが含まれている場合には、ステップ203で肯定判断がなされ、照合処理部28は、音声認識処理部20による音声認識処理の中断を決定するとともに、ブランク検出時点までの音声に対する認識結果を制御部14に出力する。
【0044】
次に、制御部14は、音声認識処理部20内の特徴量抽出部26に対して指示を送ることにより、音声特徴量をリングバッファ24に格納し(ステップ204)、これと並行して、照合処理部28から取得した認識結果を音声合成処理部32に出力することにより、ブランク検出時点までの音声に対応する応答音声の出力処理を開始するよう指示する(ステップ205)。
【0045】
次に、制御部14は、レベルメータ30の出力信号に基づいて、時間t1以上のブランク検出時点から所定の時間t2以内に音声入力が行われたか否かを判定する(ステップ206)。
ここで、第2の動作手順における時間t1およびt2について説明する。図4は、第2の動作手順における時間t1およびt2について説明する図である。同図(A)に示すように、最初に入力された音声において時間t1以上のブランクが含まれている場合にこのブランクが検出され、それまでに入力された音声に対応した所定の応答音声が出力されるので、ブランクの開始時点から応答音声が出力されるまでの間に必要な時間(以後、これを「応答時間」と称する。)tは、ブランクに対応する時間t1と応答音声を出力するための処理(応答処理)に必要な時間の合計に等しくなる。上述したように、利用者の立場からすれば、この応答時間tが音声入力時に許容されるブランク、すなわち見かけ上のブランクに対応しており、この応答時間tよりも短いブランクしか含まずに音声入力を行った場合には、連続語として音声認識処理が行われるものと認識されている場合が多い。
【0046】
したがって、本実施形態では、時間t1以上のブランクを検出した後に音声入力が行われたか否かを判定する時間t2を、応答処理に必要な時間とほぼ等しい値に設定している。これにより、図4(B)に示すように、第1の音声入力(音声入力1)が行われ、ブランクが検出された後に、この第1の音声入力に対応する応答音声が出力される以前、すなわち時間t2が経過する以前に第2の音声入力(音声入力2)が行われた場合には、第1の音声入力に対応する応答処理が中断されて、第2の音声入力に対応する音声認識処理が開始されることとなる。すなわち、応答時間tよりも短いブランクしか含まずに音声入力が行れた場合には、連続語として音声認識処理を行うことができるので、利用者の認識している見かけ上のブランクと音声認識装置100において実際に許容されるブランク時間とをほぼ等しくすることができる。
【0047】
時間t2以内に音声入力が行われた場合には、ステップ206で肯定判断がなされ、制御部14は、音声合成処理部32に指示を送り、ブランク検出時点までに入力された音声に対応する応答音声を出力する処理を中止するとともに、音声認識処理の再開を決定し、音声認識処理部20に対して所定の起動指示を送って照合処理部28を起動する(ステップ207)。
【0048】
起動指示を受けた照合処理部28は、リングバッファ24に格納された音声特徴量を読み出し(ステップ208)、その後、ステップ202に戻り、読み出した音声特徴量などに基づいて所定の音声認識処理を行う。
また、時間t1以上のブランク検出時点から時間t2以内に音声入力が行われなかった場合には、上述したステップ206で否定判断がなされ、制御部14は、特徴量抽出部26に対して指示を送り、音声特徴量をリングバッファ24に格納する動作を中止する(ステップ209)。
【0049】
また、制御部14は、ステップ206に示した判定処理と並行して、照合処理部28から出力される認識結果に基づいて、入力された音声を正常に認識することができたか否かを判定しており(ステップ210)、音声を正常に認識することができた場合には、ステップ210で肯定判断を行って、照合処理部28から受け取った認識結果の文字列を音声合成処理部32に出力することにより、入力された音声に対応する応答音声を出力する(ステップ211)。
【0050】
具体的には、照合処理部28は、入力された音声の全てに対応して何らかの文字列(単語)を特定することができた場合にはその文字列を出力し、音声の一部、あるいは全てに対応する文字列を特定することができなかった場合には、その旨(エラー通知)と特定することができた分の文字列を出力する。したがって、制御部14は、照合処理部28からのエラー通知の有無に基づいて、音声を正常に認識することができたか否かを判定する。
【0051】
また、音声の一部あるいは全部を認識できなかった場合には、ステップ210で否定判断がなされ、制御部14は、音声合成処理部32に指示を送り、認識できた分の音声に対応する応答と、それ以外の音声(他の音声)が入力されたことも認識している旨の応答を出力する(ステップ212)。具体的には、利用者が「○○県××市……」と入力したが、「○○県」だけを認識することができ、後の「××市……」を認識することができなかった場合であれば、「○○県まで認識できました。もう一度、○○県以降をお願いします」といった内容の応答が出力される。このように、認識できなかった分の音声についても、その存在を認識している旨の応答を行うことにより、再度音声入力を促す場合における利用者の不快感や違和感を軽減することができる。
【0052】
このように、本実施形態の音声認識装置100は、音声に含まれるブランクが時間t1を経過して所定の応答処理が開始された後にも、所定の時間t2が経過するまでの間に音声が入力された場合には、所定の音声認識処理を再開しているので、応答音声を返すまでに入力された音声に対して取りこぼしをなくすことができる。また、時間t1以上のブランクを検出した後に再開された音声認識処理の成否に応じて、音声認識処理が失敗した場合には「利用者による音声入力の存在は認識しているのだが音声認識処理には失敗した」という内容を含む応答音声を出力しているので、自分の音声入力が無視され、あるいは途中で遮られているといった悪い印象を利用者に対して与えてしまうことがなく、利用者が応答に対して違和感を感じることを防ぐことができる。
【0053】
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、本発明を適用した音声認識装置100を車載用のナビゲーション装置300と組み合わせて用いる場合の例を説明していたが、本発明の適用範囲は車載用に限定されるものではなく、他にも種々の装置やシステム、例えば、家庭用のパーソナルコンピュータ等を用いて実現される音声認識装置などに対しても適用することができる。
【0054】
また、上述した実施形態では、車載用の用途を想定していたために、オーディオ音等を除去するための除去手段を備えた音声認識装置100について説明したが、家庭用の用途等において、音声認識処理の対象とする音声以外の音がほとんど影響しないような場合には、除去手段を省略して構成の簡略化、低コスト化を図るようにしてもよい。
【0055】
【発明の効果】
上述したように、本発明によれば、音声に含まれる無音状態が時間t1を経過して所定の応答処理が開始された後にも、所定の時間t2が経過するまでの間に所定の音圧レベルを超える音声が入力された場合には、音声認識処理手段による処理を再開しているので、応答を返すまでに入力された音声に対して取りこぼしをなくすことができる。また、時間t1以上の無音状態が検出された後に再開された音声認識処理の成否に応じて、応答音声の内容を異ならせているので、自分の音声入力が無視され、あるいは途中で遮られているといった悪い印象を利用者に対して与えてしまうことがなく、利用者が応答に対して感じる違和感をなくすことができる。
【図面の簡単な説明】
【図1】一実施形態の音声認識装置の構成を示す図である。
【図2】音声認識装置における第1の動作手順を示す流れ図である。
【図3】音声認識装置における第2の動作手順を示す流れ図である。
【図4】第2の動作手順における時間t1およびt2について説明する図である。
【符号の説明】
10 トークスイッチ
12 マイクロホン
14 制御部
16 遅延素子
17 適応フィルタ(ADF)
18 演算部
20 音声認識処理部
22、24 リングバッファ
26 特徴量抽出部
28 照合処理部
30 レベルメータ
32 音声合成処理部
34 合成部
36 スピーカ
100 音声認識装置
200 オーディオ装置
300 ナビゲーション装置

Claims (3)

  1. 音声を集音するマイクロホンと、
    前記マイクロホンによって集音された複数の単語を含む音声に対して音声認識処理を行う音声認識処理手段と、
    前記音声認識処理手段によって認識された内容に基づいて応答音声を生成し、出力する応答手段と、
    前記マイクロホンによって集音される音声に含まれる無音状態を検出し、この無音状態が時間t1以上継続したときに前記音声認識処理の中断を決定する中断決定手段と、
    前記マイクロホンによって集音される音声の音圧レベルを検出する音圧レベル検出手段と、
    前記無音状態が前記時間t1を経過した後の時間t2の間に、前記音圧レベル検出手段によって検出された音圧レベルが所定値を超えたときに、前記音声認識処理手段に対して処理の再開を決定する再開決定手段と、を備え、
    前記再開決定手段は、前記音声認識処理手段に対して処理の再開を指示する動作とともに、前記応答手段に対して前記応答音声の出力を中止する指示を送り、
    前記時間t2は、前記無音状態の継続時間が前記時間t1となって、前記中断決定手段によって前記音声認識処理の中断が決定されてから、前記応答手段によって前記応答音声を出力するまでの時間にほぼ等しい値に設定することを特徴とする音声認識装置。
  2. 請求項1において、
    前記応答音声やその他の音源から出力される音声を出力するスピーカと、
    前記マイクロホンによって集音される音声に含まれる音声認識対象外の成分を除去する除去手段と、
    をさらに備え、前記除去手段から出力される音声認識対象の音声を前記音声認識処理手段に入力することを特徴とする音声認識装置。
  3. 請求項1または2において、
    前記応答手段は、前記時間t1以上の無音状態が検出された後に再開された前記音声認識処理手段による音声認識処理の成否に応じて異なる内容の前記応答音声を生成することを特徴とする音声認識装置。
JP2000278399A 2000-09-13 2000-09-13 音声認識装置 Expired - Fee Related JP3916861B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000278399A JP3916861B2 (ja) 2000-09-13 2000-09-13 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000278399A JP3916861B2 (ja) 2000-09-13 2000-09-13 音声認識装置

Publications (2)

Publication Number Publication Date
JP2002091489A JP2002091489A (ja) 2002-03-27
JP3916861B2 true JP3916861B2 (ja) 2007-05-23

Family

ID=18763573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000278399A Expired - Fee Related JP3916861B2 (ja) 2000-09-13 2000-09-13 音声認識装置

Country Status (1)

Country Link
JP (1) JP3916861B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112006002989T5 (de) 2005-12-14 2009-02-19 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
JP4906379B2 (ja) * 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
JP5519126B2 (ja) * 2008-06-27 2014-06-11 アルパイン株式会社 音声認識装置及び音声認識方法
WO2011036762A1 (ja) * 2009-09-25 2011-03-31 株式会社東芝 音声対話装置およびプログラム
KR101368464B1 (ko) 2013-08-07 2014-02-28 주식회사 잇팩 음성 데이터 전사용 음성 인식 장치 및 방법
JP6257368B2 (ja) * 2014-02-18 2018-01-10 シャープ株式会社 情報処理装置
CN107430856B (zh) * 2015-03-23 2021-02-19 索尼公司 信息处理***和信息处理方法
JP7035979B2 (ja) * 2018-11-19 2022-03-15 トヨタ自動車株式会社 音声認識装置
JP7446900B2 (ja) * 2020-04-16 2024-03-11 株式会社日立製作所 対話装置、対話システム及び対話方法
JP7058305B2 (ja) * 2020-07-10 2022-04-21 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム

Also Published As

Publication number Publication date
JP2002091489A (ja) 2002-03-27

Similar Documents

Publication Publication Date Title
US7069221B2 (en) Non-target barge-in detection
US20030055643A1 (en) Method for controlling a voice input and output
JP3916861B2 (ja) 音声認識装置
US20070198268A1 (en) Method for controlling a speech dialog system and speech dialog system
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP3524370B2 (ja) 音声起動システム
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
JP6696803B2 (ja) 音声処理装置および音声処理方法
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
JP2006208486A (ja) 音声入力装置
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
JP2006058390A (ja) 音声認識装置
JP4810343B2 (ja) 音声処理装置およびその制御方法
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
JP4178931B2 (ja) 音声認識装置
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP5519126B2 (ja) 音声認識装置及び音声認識方法
JP2015118307A (ja) 音声認識装置及び音声認識プログラム
JP2004184803A (ja) 車両用音声認識装置
JP3588929B2 (ja) 音声認識装置
JP4101365B2 (ja) 音声認識装置
JPH11109989A (ja) 音声認識装置
JP2006023444A (ja) 音声対話装置
JP2010041188A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070207

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3916861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100216

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120216

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120216

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140216

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees