JP2008052178A

JP2008052178A - 音声認識装置と音声認識方法

Info

Publication number: JP2008052178A
Application number: JP2006230378A
Authority: JP
Inventors: Ryo Murakami; 涼村上; Seisho Watabe; 生聖渡部; Kazuya Shimooka; 和也下岡
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2006-08-28
Filing date: 2006-08-28
Publication date: 2008-03-06

Abstract

【課題】対話者の話しかける音声を認識する際に、適切に聞き返しを行うことによって、誤認識を抑制することが可能な技術を提供する。
【解決手段】本発明の音声認識装置は、音声を入力して音声データに変換する音声入力手段と、発話区間を抽出する発話区間抽出手段と、音声の特徴量の時系列を算出する音声分析手段と、候補となる単語群のそれぞれについての尤度を算出する単語尤度算出手段と、候補となる文章群のそれぞれについての尤度を算出する文章尤度算出手段と、候補となる単語群のそれぞれについての確信度を算出する確信度算出手段と、文章に含まれる単語の確信度に基づいて対話者が話しかけた文章を特定する文章特定手段と、特定された文章に含まれる単語の確信度に基づいて対話者への聞き返しの要否を判断する第１聞き返し判定手段と、対話者への聞き返しが必要と判断された場合に対話者への聞き返しを行う聞き返し手段を備える。
【選択図】図２

Description

本発明は、対話者が話しかける音声を認識する装置と方法に関する。

人間が装置の動作を制御する際に、キーボードやレバーなどのインターフェースを操作することなく、音声を発することによって装置を制御する技術がある。このような技術においては、マイクなどの音声入力手段から入力される音声から、音声によって表現される言葉の内容を認識し、認識された言葉の内容に応じた制御が行われる。このような音声認識を用いた制御を行う場合、可能な限り誤認識を抑制することが重要である。誤認識した結果に基づいて装置を制御すると、装置の誤作動を引き起こしてしまう。

音声認識における誤認識を防止するために、音声をうまく認識できなかった場合に対話者への聞き返しを行う技術が開発されている。例えば特許文献１には、対話者に聞き返しを行う音声認識システムが開示されている。このシステムでは、入力された音声を予め用意された単語の音響モデルと比較し、音声との一致率の高い音響モデルが表現する単語を対話者が話した単語として認識する。このシステムでは、音声と音響モデルとの一致率が所定のしきい値より低い場合に、対話者への聞き返しを行う。

特開２００３−４４７５６号公報

音声と音響モデルとの一致率が高い場合でも誤認識を起こしてしまう場合があるし、一致率が低い場合でも誤認識を起こさない場合がある。一般に音声と音響モデルとの一致率は、対話者の発声が明瞭であれば高い値となり、発声が不明瞭であれば低い値となる傾向がある。例えばアナウンサーのように発声が明瞭な対話者の音声が入力された場合には、対話者が実際に話した単語の音響モデルとの一致率は当然に高く評価されるが、対話者が話していない他の類似する単語の音響モデルとの一致率も高く評価される傾向がある。この様な場合、一致率が高い複数の単語の候補が存在しており、どの単語が実際に対話者が話したものであるのか曖昧さが解消されず、誤認識を起こしてしまう可能性がある。上記とは逆に、発声が不明瞭な対話者の音声が入力された場合には、候補となるどの単語についても音響モデルとの一致率は低く評価されてしまう。しかしながら、ある単語についての一致率が他の単語についての一致率に比べて相対的に大きな値であれば、候補となる単語が絞り込まれているため、一致率が低い値であっても誤認識を起こさない。この場合、あえて対話者へ聞き返さなくともよい。

上記のように、音声と音響モデルとの一致率からは、誤認識を抑制するための聞き返しの要否を適切に判断することができない。より適切に聞き返しの要否を判断することが可能な技術が待望されている。

本発明は上記課題を解決する。本発明では、対話者の話しかける音声を認識する際に、適切な聞き返しを行うことによって、誤認識を抑制することが可能な技術を提供する。

本発明は、対話者が話しかける音声を認識する装置として具現化される。本発明の音声認識装置は、音声を入力して音声データに変換する音声入力手段と、音声データから発話区間を抽出する発話区間抽出手段と、音声データから発話区間における音声の特徴量の時系列を算出する音声分析手段と、発話区間における音声の特徴量の時系列から候補となる単語群のそれぞれについての尤度を算出する単語尤度算出手段と、候補となる単語群のそれぞれについての尤度から候補となる文章群のそれぞれについての尤度を算出する文章尤度算出手段と、候補となる文章群のそれぞれについての尤度と候補となる単語群のそれぞれについての尤度から候補となる単語群のそれぞれについての確信度を算出する確信度算出手段と、文章に含まれる単語の確信度に基づいて発話区間において対話者が話しかけた文章を候補となる文章群の中から特定する文章特定手段と、特定された文章に含まれる単語の確信度に基づいて対話者への聞き返しの要否を判断する第１聞き返し判定手段と、対話者への聞き返しが必要と判断された場合に対話者への聞き返しを行う聞き返し手段を備えている。

本発明の音声認識装置では、発話区間における音声の特徴量の時系列から、候補となる単語群のそれぞれについての尤度と、候補となる文章群のそれぞれについての尤度を算出する。音声の特徴量としては、例えば周波数スペクトルそのものを扱ってもよいし、メル周波数ケプストラム係数（ＭＦＣＣ）を扱ってもよい。そして、単語群のそれぞれについての尤度と、文章群のそれぞれについての尤度から、単語群のそれぞれについての確信度を算出する。単語の確信度とは、競合する他の単語の候補に対してその単語がどの程度信頼度が高いかを示す指標である。単語の確信度の詳細については、例えば、李晃伸、河原達也、鹿野清宏、”２パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法”、信学技報、社団法人電子情報通信学会、２００３年１２月、ＳＰ２００３−１６０、ｐ．３５−４０等に記載されている。本発明の音声認識装置では、文章に含まれる単語の確信度に基づいて、候補となる文章群の中から対話者が話しかけた文章を特定する。本発明の音声認識装置によれば、確信度の高い単語を多く含む文章を対話者が話しかけた文章として特定することで、対話者が話しかけた文章を正確に認識することができる。

本発明の音声認識装置では、対話者が話しかけた文章として特定された文章に含まれる単語の確信度に基づいて、対話者への聞き返しの要否を判断する。文章に含まれる単語の確信度が低い場合、特定された文章と他の文章の間で尤度にそれほど大きな差がないと考えられるから、対話者への聞き返しを行う。逆に、文章に含まれる単語の確信度が高い場合、特定された文章は他の文章に比べて相対的に大きな尤度であると考えられるため、聞き返しを行わない。このように、本発明の音声認識装置は文章に含まれる単語の確信度に着目して聞き返しの要否を判断するから、不要な聞き返しを行うことなく、必要な場合にのみ聞き返しを行って、音声認識における誤認識を抑制することができる。

上記の音声認識装置は、音声データから発話区間での音量を検出する音量検出手段と、発話区間での音量に基づいて対話者への聞き返しの要否を判断する第２聞き返し判定手段をさらに備えることが好ましい。

一般に音声入力手段には検出可能な音声の大きさの範囲が規定されており、この範囲に入らない音声については正確に検出することができない。従って、対話者の声が大き過ぎたり小さ過ぎたりすると、正確な音声認識をすることができない。上記の音声認識装置では、検出された音量に基づいて聞き返しの要否を判断することによって、音声入力手段において正確に音声を検出できないことに起因する誤認識を抑制することができる。

上記の音声認識装置は、前記第２聞き返し判定手段が、発話区間での音量が上限値を超える場合に、対話者への聞き返しが必要と判断することが好ましい。

音声入力手段には検出可能な音声の大きさの上限が存在する。上限を超える大きさの音声については、正確に検出することができない。従って、対話者の声が大き過ぎる場合には、音声波形を正確に検出することができず、正確な音声認識をすることができない。上記の音声認識装置によれば、音量が大き過ぎる場合に聞き返しを行って、より小さな声で話すことを対話者に促す。これによって、対話者の声が大き過ぎることに起因する誤認識を抑制することができる。

上記の音声認識装置は、前記第２聞き返し判定手段が、発話区間での音量が下限値に満たない場合に、対話者への聞き返しが必要と判断することが好ましい。

音声認識装置には検出可能な音声の大きさの下限が存在する。下限を下回る大きさの音声については、正確に検出することができない。従って、対話者の声が小さ過ぎる場合には、音声波形を正確に検出することができず、正確な音声認識をすることができない。上記の音声認識装置によれば、音量が小さ過ぎる場合に聞き返しを行って、より大きな声で話すことを対話者に促す。これによって、対話者の声が小さ過ぎることに起因する誤認識を抑制することができる。

上記の音声認識装置は、候補となる人物群の中から対話者である人物を特定する対話者識別手段と、特定された人物に応じてしきい値を設定するしきい値設定手段をさらに備えており、前記第１聞き返し判定手段が、特定された文章に含まれる単語のうちで自立語である単語の確信度の平均値が前記しきい値に満たない場合に、対話者への聞き返しが必要と判断することが望ましい。

上記の音声認識装置によれば、聞き返しの要否を判断する際に用いるしきい値を、対話者に応じて個別に設定することができる。このような構成とすることによって、多種多様な対話者に対しても、適切に聞き返しの要否を判断することができる。

本発明は音声認識方法としても具現化される。本発明の方法は、音声を入力して音声データに変換する音声入力工程と、音声データから発話区間を抽出する発話区間抽出工程と、音声データから発話区間における音声の特徴量の時系列を算出する音声分析工程と、発話区間における音声の特徴量の時系列から候補となる単語群のそれぞれについての尤度を算出する単語尤度算出工程と、候補となる単語群のそれぞれについての尤度から候補となる文章群のそれぞれについての尤度を算出する文章尤度算出工程と、候補となる文章群のそれぞれについての尤度と候補となる単語群のそれぞれについての尤度から候補となる単語群のそれぞれについての確信度を算出する確信度算出工程と、文章に含まれる単語の確信度に基づいて発話区間において対話者が話しかけた文章を候補となる文章群の中から特定する文章特定工程と、特定された文章に含まれる単語の確信度に基づいて対話者への聞き返しの要否を判断する聞き返し判定工程と、対話者への聞き返しが必要と判断された場合に対話者への聞き返しを行う聞き返し工程を備えている。

本発明の音声認識装置および音声認識方法によれば、対話者の話しかける音声を認識する際に、適切な聞き返しを行うことによって、誤認識を抑制することができる。

以下に発明を実施するための最良の形態を列記する。
（形態１）単語尤度算出手段は、発話区間における音声の特徴量の時系列から、隠れマルコフ・モデル（ＨＭＭ；Hidden Markov Model）を用いて、候補となる単語群のそれぞれについての尤度を算出する。

本実施例では、図１に例示する音声認識装置１００において、対話者Ｖが話しかける音声を認識する例を説明する。音声認識装置１００は、例えばショールームやイベント会場に配置された案内ロボットであり、案内を求めて話しかけてくる来場者（対話者）Ｖが話しかける音声を認識する。

音声認識装置１００は、頭部１０２と、胴体部１０８と、腕部１１６を備えている。音声認識装置１００は、頭部１０２の前方に並んで配置された右カメラ１０４と左カメラ１０６と、頭部１０２の前方に配置されたスピーカ１１８と、胴体部１０８に対して頭部１０２および腕部１１６を駆動するアクチュエータ群１１０と、胴体部１０８の前方に設けられたマイクロホン１１２と、右カメラ１０４、左カメラ１０６、スピーカ１１８、アクチュエータ群１１０およびマイクロホン１１２の動作を制御するコントローラ１１４を備えている。

右カメラ１０４と左カメラ１０６は、一般的なＣＣＤカメラである。右カメラ１０４と左カメラ１０６は、所定の時間間隔で繰り返し撮影を行い、撮影された画像データをコントローラ１１４へ出力する。

マイクロホン１１２は、入力された音声によって膜面に加えられる音圧を検知し、検知した音圧に応じた電圧値をコントローラ１１４へ出力する。

スピーカ１１８は、コントローラ１１４から送信された信号をアンプによって増幅し、増幅された電流の変動に応じて振動板を振動させ、音声を出力する。

アクチュエータ群１１０は、コントローラ１１４から送信される制御信号に基づいて、頭部１０２および腕部１１６を駆動する。

図２はコントローラ１１４の構成を示すブロック図である。コントローラ１１４は、処理装置（ＣＰＵ）、記憶装置（光学記憶媒体、磁気記憶媒体、あるいはＲＡＭやＲＯＭといった半導体メモリ等）、入出力装置、演算装置などから構成されているコンピュータ装置である。

画像Ａ／Ｄ変換部２０２は、右カメラ１０４から入力される画像データをＡ／Ｄ変換して、デジタル画像データを生成する。以下では画像Ａ／Ｄ変換部２０２で生成されたデジタル画像データを、右側デジタル画像データと呼ぶ。画像Ａ／Ｄ変換部２０２は、生成された右側デジタル画像データを画像認識部２０６へ送信する。画像Ａ／Ｄ変換部２０４は、左カメラ１０６から入力される画像データをＡ／Ｄ変換して、デジタル画像データを生成する。以下では画像Ａ／Ｄ変換部２０４で生成されたデジタル画像データを、左側デジタル画像データと呼ぶ。画像Ａ／Ｄ変換部２０４は、生成された左側デジタル画像データを画像認識部２０６へ送信する。

画像認識部２０６は、画像Ａ／Ｄ変換部２０２から入力される右側デジタル画像データと、画像Ａ／Ｄ変換部２０４から入力される左側デジタル画像データに基づいて、人物データベース（以下ではデータベースをＤＢと表記する）２０８を用いて対話者Ｖを識別する。人物ＤＢ２０８には、対話者Ｖの候補となる人物を示す識別符号と、その人物の顔の特徴点の位置関係が関連付けて登録されている。画像認識部２０６は、右側デジタル画像データおよび左側デジタル画像データから、撮影された対話者Ｖの顔の特徴点を抽出し、抽出された特徴点の位置関係を算出して、人物ＤＢ２０８に登録された人物の中から、顔の特徴点の位置関係が最も類似する人物を検索する。

画像認識部２０６は、右カメラ１０４および左カメラ１０６が撮影する毎に、右カメラ１０４および左カメラ１０６で同一時刻に撮影された画像データに基づいて、対話者Ｖとして識別された人物の識別符号を特定する。画像認識部２０６は、対話者Ｖの識別符号を撮影時刻と関連付けて、第１聞き返し判定部２３４へ出力する。

音声Ａ／Ｄ変換部２１０は、マイクロホン１１２から入力される音圧の経時的な変化をＡ／Ｄ変換して、デジタル音声データを生成する。音声Ａ／Ｄ変換部２１０は、生成されたデジタル音声データを、発話区間抽出部２１２、音量検出部２１４、音声分析部２１６に出力する。

発話区間抽出部２１２は、音声Ａ／Ｄ変換部２１０から入力されるデジタル音声データから、発話の開始時刻と発話の終了時刻を検出する。図３に発話区間抽出部２１２に入力されるデジタル音声データが示す音声波形３０２の例を示す。発話区間抽出部２１２は、発話の開始が検知されていない状況では、音声波形３０２において音圧が所定のしきい値Ｐ１を超えるか否かを監視する。詳細には、単位時間Ｔ１において、平均音圧がしきい値Ｐ１を超えて、かつ音声波形３０２が音圧ゼロの線３０４と交差する回数が所定の回数以上となった時点で、発話区間抽出部２１２は発話が開始されたと判断する。発話の開始が検知されると、発話区間抽出部２１２は発話の開始時刻ＴＳを特定し、音量検出部２１４、音声分析部２１６に発話の開始時刻ＴＳを報知する。

発話区間抽出部２１２は、音声波形３０２が単位時間Ｔ２において音圧ゼロの線３０４と交差する回数をカウントし、カウントされた回数が所定のしきい値に達するか否かを監視する。詳細には、単位時間Ｔ２において、カウントされる回数が所定のしきい値に満たなくなり、かつ平均音圧が所定のしきい値Ｐ２に満たなくなった時点で、発話区間抽出部２１２は発話が終了したと判断する。発話の終了が検知されると、発話区間抽出部２１２は発話の終了時刻ＴＥを特定し、音量検出部２１４、音声分析部２１６に発話の終了時刻ＴＥを報知する。

音量検出部２１４は、音声Ａ／Ｄ変換部２１０から入力されるデジタル音声データに基づいて、発話の開始時刻ＴＳから発話の終了時刻ＴＥまでの間で音圧の自乗値を積算する。音量検出部２１４は、発話区間抽出部２１２から発話の開始時刻ＴＳが報知されると、音圧の自乗値の積算を開始する。音量検出部２１４は、発話区間抽出部２１２から発話の終了時刻ＴＥが報知されると、音圧の自乗値の積算を終了する。そして、音圧の自乗値の積算値を発話区間の長さＴＥ−ＴＳで除して、発話区間における平均音量を特定する。その後、音量検出部２１４は、発話区間における平均音量を第２聞き返し判定部２１８へ出力する。

第２聞き返し判定部２１８は、音量検出部２１４から入力される発話区間における平均音量に基づいて、対話者Ｖへの聞き返しの要否を判断する。まず第２聞き返し判定部２１８は、発話区間における平均音量を所定の上限値と比較する。平均音量が上限値を超えている場合、第２聞き返し判定部２１８は、発話区間における対話者Ｖの声が大き過ぎて、正確な音声認識を行うことができないと判断する。この場合、第２聞き返し判定部２１８は、対話者Ｖに対してもっと小さな声で話すことを促す聞き返しを、対応決定部２４０に指示する。次いで第２聞き返し判定部２１８は、発話区間における平均音量を所定の下限値と比較する。平均音量が下限値を下回る場合、第２聞き返し判定部２１８は、発話区間における対話者Ｖの声が小さ過ぎて、正確な音声認識を行うことができないと判断する。この場合、第２聞き返し判定部２１８は、対話者Ｖに対してもっと大きな声で話すことを促す聞き返しを、対応決定部２４０に指示する。第２聞き返し判定部２１８による上記の処理は、発話区間抽出部２１２で発話の終了時刻ＴＥが検知されて、音量検出部２１４から発話区間における平均音量が入力される度に行われる。

音声分析部２１６は、発話の開始時刻ＴＳから発話の終了時刻ＴＥまでの間で、音声の特徴量の時系列を算出する。本実施例の音声分析部２１６は、入力されるデジタル音声データについてフレーム化処理を実施し、各フレームに対応する音データの周波数スペクトルを特定する。図４に音声データのフレーム化処理と、各フレームの音声データの周波数スペクトルを特定する様子を示す。本実施例では、フレームの長さは２０ｍｓであり、フレーム間隔は１０ｍｓである。図４に示すように、音声データ４０２についてフレームＦ１、Ｆ２、Ｆ３、・・・が規定される。音声分析部２１６は、フレームＦ１、Ｆ２、Ｆ３、・・・のそれぞれにおける音声データ４０２の周波数スペクトルｆ１、ｆ２、ｆ３、・・・を特定する。周波数スペクトルは、周波数に対する振幅の分布として与えられる。周波数スペクトルの特定は、例えば高速フーリエ変換を用いて行うことができる。音声分析部２１６は、発話区間抽出部２１２から発話の開始時刻ＴＳが報知されると、上記のフレーム化処理と周波数スペクトルの特定処理を開始する。音声分析部２１６は、発話の終了時刻ＴＥが報知されるまで、上記の処理を順次実行して、各フレームの周波数スペクトルを音素尤度算出部２２０へ順次出力する。音声分析部２１６は、発話区間抽出部２１２から発話の終了時刻ＴＥが報知されると、上記のフレーム化処理と周波数スペクトルの特定処理を終了する。

音素尤度算出部２２０、単語尤度算出部２２４、文章尤度算出部２２８、確信度算出部２３２、文章特定部２３８は、音声分析部２１６から入力される各フレーム毎の周波数スペクトルから、隠れマルコフ・モデル（ＨＭＭ；Hidden Markov Model）を用いて、音素の時系列としての文章を特定する。ここで音素とは、人間が言葉を話す際に発せられる音声を構成する要素を意味する。例えば人間が「ぶどう」という言葉を話す際に発せられる音声は、「ｂ」と「ｕ」と「ｄ」と「ｏ：」という４つの音素から構成されている。ＨＭＭを用いて音素の時系列を特定する場合、１つの音素は複数の状態から構成されていると想定し、それぞれの状態を次の状態へ遷移する遷移確率と、次の状態へ遷移せずに停留する停留確率によって特徴付ける。以下では音素を構成する状態のことを音素状態と記述する。本実施例では、１つの音素が３つの音素状態から構成されている例を説明する。例えば「ｂ」という音素は、音素状態ｂ１、ｂ２、ｂ３から構成されている。ある音素状態から音素状態ｂ１へ遷移し、音素状態ｂ１から音素状態ｂ２に遷移し、音素状態ｂ２から音素状態ｂ３に遷移することで、音素「ｂ」が実現される。音素状態ｂ１は、次の音素状態である音素状態ｂ２へ遷移することもあるし、音素状態ｂ１のまま停留することもある。音素状態ｂ２、ｂ３についても同様である。本実施例では、音素状態の時系列として音素が特定され、音素の時系列として単語が特定され、単語の時系列として文章が特定される。本実施例では、音素状態の時系列としての単語および文章についての尤度を算出し、単語および文章についての尤度に基づいて文章に含まれる単語の確信度を算出して、単語の確信度に基づいて対話者Ｖが話しかけた文章を特定する。

音素尤度算出部２２０は、フレーム毎に特定された周波数スペクトルから、そのフレームに対する各音素状態の尤度を評価する。それぞれの音素状態は、その音素状態が実現された場合に、音声として観測される周波数スペクトルについての確率分布を有する。この確率分布は、実験などによって予め取得しておくことができる。この確率分布と、フレームに対して特定された周波数スペクトルから、そのフレームに対する音素状態の尤度を計算することができる。本実施例では、音素ＤＢ２２２に尤度評価の対象とする各音素の各音素状態について、周波数スペクトルから尤度を算出する関数が予め記憶されている。音素尤度算出部２２０は、周波数スペクトルｆ１、ｆ２、ｆ３、・・・のそれぞれについて、各音素の各音素状態について尤度を算出する。例えばフレームＦ１の周波数スペクトルｆ１から、フレームＦ１に対する音素「ｂ」の音素状態ｂ１、ｂ２、ｂ３のそれぞれの尤度が算出される。他の音素の音素状態についても同様にして、フレームＦ１に対する尤度が算出される。それ以降のフレームＦ２、Ｆ３、・・・についても同様にして、そのフレームに対する各音素の各音素状態の尤度が算出される。

各フレームに対する各音素状態の尤度が算出されると、単語尤度算出部２２４は、各音素の尤度の評価と、各単語の尤度の評価を行う。図５を参照しながら、各音素の尤度の評価と、各単語の尤度の評価について説明する。図５では一例として、単語「ぶどう」についての尤度を評価する例を説明する。図５の左側の欄では、単語「ぶどう」が音素「ｂ」、「ｕ」、「ｄ」、「ｏ：」の系列として構成されており、音素「ｂ」が音素状態ｂ１、ｂ２、ｂ３の系列として構成されており、音素「ｕ」が音素状態ｕ１、ｕ２、ｕ３の系列として構成されており、音素「ｄ」が音素状態ｄ１、ｄ２、ｄ３の系列として構成されており、音素「ｏ：」が音素状態ｏ：１、ｏ：２、ｏ：３の系列として構成されていることが示されている。図５では、フレームＦ１において音素状態ｂ１が実現している状態を点５０２で表現し、その後のフレームＦ２、Ｆ３、・・・Ｆｎにおいて、音素状態ｂ１、ｂ２、ｂ３、・・・が実現している状態を点５０４、５０６、５０８、５１０、５１２・・・で表現している。また、それぞれの点５０２、５０４、５０６、・・・からは、次のフレームにおいて次の音素状態へ遷移する経路と、次の音素状態へ遷移することなく停留する経路が伸びている。例えばフレームＦ１において音素状態ｂ１が実現している状態を示す点５０２からは、次のフレームＦ２において次の音素状態ｂ２へ遷移する枝５１４と、次の音素状態ｂ２へ遷移することなく音素状態ｂ１で停留する枝５１６が伸びている。枝５１４は、フレームＦ２において音素状態ｂ２が実現している状態を示す点５０４まで伸びている。枝５１６は、フレームＦ２において音素状態ｂ１が実現している状態を示す点５０６まで伸びている。

図５のそれぞれの点５０２、５０４、５０６、・・・の尤度は、各フレームに対する各音素状態の尤度として算出することができる。それぞれの枝５１４、５１６、・・・の尤度は、各音素状態の遷移確率と停留確率から算出することができる。例えば枝５１４の尤度は、音素状態ｂ１から音素状態ｂ２への遷移確率から算出することができる。枝５１６の尤度は、音素状態ｂ１の停留確率から算出することができる。単語を構成する各音素の各音素状態の遷移確率と停留確率は、実験などによって予め取得されており、単語ＤＢ２２６に記憶されている。

単語尤度算出部２２４は、各フレームに対する各音素状態の尤度して算出される点５０２、５０４、５０６、・・・の尤度と、単語ＤＢ２２６に記憶されている枝５１４、５１６、・・・の尤度に基づいて、その時点で取り得る全ての経路について尤度を計算し、最も尤度の高い経路を特定する。ここで経路についての尤度とは、その経路に沿って事象が進行した尤度のことをいう。経路に沿って事象が進行した尤度は、その経路に含まれる点の尤度と枝の尤度から算出することができる。単語尤度算出部２２４は、その単語において最も尤度の高い経路が特定されると、その経路に沿って事象が進行した尤度をその単語の尤度として特定する。
図５に示す例では、フレームＦ１、Ｆ２、・・・Ｆｎまで処理が進行している時点において、単語「ぶどう」において最も尤度の高い経路として経路５１８が特定されている。このような場合には、経路５１８に沿って事象が進行した尤度が、単語「ぶどう」の尤度として特定される。経路５１８に沿って事象が進行した尤度は、経路５１８に含まれる点５０２、５０４、５１０、・・・の尤度と、枝５１４、・・・の尤度から算出される。

単語ＤＢ２２６には対話者Ｖが話す単語として想定される単語群のそれぞれについて、単語を構成する各音素の各音素状態の遷移確率と停留確率が記憶されている。図５では単語「ぶどう」についての尤度を評価する例を説明したが、単語尤度算出部２２４は、上記した尤度の評価を、単語ＤＢ２２６に記憶されている全ての単語について実施する。これによって、単語ＤＢ２２６に記憶されている全ての単語についての尤度が評価される。

各単語についての尤度の評価と並行して、文章尤度算出部２２８は各文章の尤度を評価する。文章尤度算出部２２８は、文章ＤＢ２３０に記憶されている全ての文章について、尤度の評価を行う。文章ＤＢ２３０には、対話者Ｖが話す文章として想定される文章群のそれぞれについて、その文章を構成する単語の系列が、関連付けて記憶されている。
図６に文章の尤度を評価する様子を示している。図６に示す例では、「プリウス」（登録商標）―「の」―「燃費」―「は」―「いくら」―「ですか」という単語の系列が１つの文章を構成している。また、「プリウス」―「の」―「燃費」―「を」―「教えて」―「下さい」という単語の系列も１つの文章を構成している。これらの文章と、その文章を構成する単語の系列は、文章ＤＢ２３０に予め記憶されている。

文章尤度算出部２２８は、文章の尤度を、その文章に含まれる単語の尤度と、その文章における単語から単語への接続確率から算出する。単語から単語への接続確率は、図７に示す単語接続表７００を用いて特定される。単語接続表７００は、ある単語（図では前単語と記述している）から次に続く単語（図では後単語と記述している）への接続が出現する確率（図では出現率と記述している）を記述している。このような単語から単語への接続が出現する確率は、実験などによって取得することができる。単語接続表７００は文章ＤＢ２３０に予め記憶されており、文章尤度算出部２２８は必要に応じて文章ＤＢ２３０から単語接続表７００を読み込む。文章尤度算出部２２８は、文章ＤＢ２３０に記憶されている全ての文章について尤度を評価する。

各文章について尤度が評価されると、確信度算出部２３２は、各文章についての尤度と、各文章に含まれる各単語の尤度に基づいて、単語ごとに確信度を算出する。単語の確信度とは、競合する他の単語の候補に対してその単語がどの程度信頼度が高いかを示す指標である。音声の時系列Ｘについて、時刻τからｔの期間が単語ｗであることの確信度Ｃは、次式で算出される。

ここで、Ｗは文章を示しており、Ｗ［ｗ；τ，ｔ］は時刻τからｔの期間に単語ｗを含む文章の集合を示している。ｇ（Ｗ）は、文章Ｗの尤度を対数で表現したものである。αはスムージング係数と呼ばれる１以下の正の数である。ｐ（Ｘ）は音声の時系列がＸである尤度を示しており、ここでは全ての文章の尤度の総和で与えられる。

確信度算出部２３２は、各文章に関して、その文章に含まれる単語のそれぞれについての確信度を算出する。確信度算出部２３２は、各文章について、自立語の確信度の平均値をそれぞれ算出する。確信度算出部２３２は、各文章と、その文章の自立語の確信度の平均値を関連付けて、文章特定部２３８へ出力する。

文章特定部２３８は、自立語の確信度の平均値が最も高い文章を、対話者Ｖが話しかけた文章として特定する。文章特定部２３８は、特定された文章を対応決定部２４０へ出力する。また文章特定部２３８は、特定された文章と、その文章の自立語の確信度の平均値を、第１聞き返し判定部２３４へ出力する。

第１聞き返し判定部２３４は、文章特定部２３８から入力された文章と、その文章の自立語の確信度の平均値から、対話者Ｖへの聞き返しの要否を判断する。文章特定部２３８から入力された文章は、候補となる文章群のうちで最も自立語の確信度の平均値が高いものである。その文章の自立語の確信度が高い場合には、他の文章の尤度に比べてその文章の尤度が大きく上回っており、認識の結果に曖昧さがそれほど無いと言える。従って、このような場合には、対話者Ｖへの聞き返しを行うまでもなく、対話者Ｖの話した文章の内容を正確に認識できていると考えられる。逆に、文章特定部２３８から入力された文章の自立語の確信度の平均値が低い場合には、他の文章の尤度とその文章の尤度にはそれほど大きな差がなく、認識の結果に曖昧さがあると言える。従って、このような場合には、対話者Ｖへの聞き返しを行って、より正確に対話者Ｖの話す文章を認識する必要がある。

第１聞き返し判定部２３４は、文章特定部２３８から入力された確信度の平均値をしきい値と比較することで、聞き返しの要否を判断する。確信度の平均値がしきい値以上の場合、第１聞き返し判定部２３４は聞き返しは不要と判断する。確信度の平均値がしきい値に満たない場合、第１聞き返し判定部２３４は聞き返しが必要と判断して、対話者Ｖに対してもっとはっきりと話すことを促す聞き返しを対応決定部２４０に指示する。

なお第１聞き返し判定部２３４は、上記した判断に用いるしきい値を、画像認識部２０６から入力される対話者Ｖの識別符号に基づいて決定する。第１聞き返し判定部２３４は、対話者Ｖの識別符号をキーとして確信度ＤＢ２３６を検索し、その識別符号が示す人物に対して適切なしきい値を読み出す。人物に対する適切なしきい値は、実験などによって予め取得されている。確信度ＤＢ２３６には、人物の識別符号と、その人物に対して適切なしきい値が、関連付けて記憶されている。このような構成とすることによって、対話者Ｖがどのような人物であっても、聞き返しの要否を適切に判断することができる。

音声分析部２１６、音素尤度算出部２２０、単語尤度算出部２２４、文章尤度算出部２２８、確信度算出部２３２、文章特定部２３８は、上記したフレーム化処理から文章データの推定までの一連の処理を、発話区間抽出部２１２から発話の終了時刻ＴＥが報知されるまで繰り返し実施する。発話区間抽出部２１２から発話の終了時刻ＴＥが報知されると、文章特定部２３８は発話区間における音声から特定された文章を、文字列として対応決定部２４０へ出力する。

対応決定部２４０は、第２聞き返し判定部２１８および第１聞き返し判定部２３４からの聞き返しの指示の有無と、文章特定部２３８から入力される文字列に基づいて、対話者Ｖへの対応を決定する。

第２聞き返し判定部２１８から、もっと小さな声で話すことを対話者Ｖに促す聞き返しを指示されている場合、対応決定部２４０は対話者Ｖへの聞き返しとして「もう少し小さな声で話してください。」という文字列を音声合成部２４２へ出力する。また、対応決定部２４０は、腕部１１６を下方向へ押さえつけるようなジェスチャーを示す動作パターンを、動作生成部２４４へ出力する。

第２聞き返し判定部２１８から、もっと大きな声で話すことを対話者Ｖに促す聞き返しを指示されている場合、対応決定部２４０は対話者Ｖへの聞き返しとして「もう少し大きな声で話してください。」という文字列を音声合成部２４２へ出力する。また、対応決定部２４０は、腕部１１６の先端でスピーカ１１８の周囲を覆うようなジェスチャーを示す動作パターンを、動作生成部２４４へ出力する。

第１聞き返し判定部２３４から、もっとはっきりと話すことを対話者Ｖに促す聞き返しを指示されている場合、対応決定部２４０は対話者Ｖへの聞き返しとして「もう少しはっきりと話してください。」という文字列を音声合成部２４２へ出力する。また、対応決定部２４０は、腕部１１６を左右に広げて頭部１０２を左右に振るようなジェスチャーを示す動作パターンを、動作生成部２４４へ出力する。

第２聞き返し判定部２１８および第１聞き返し判定部２３４のいずれからも聞き返しを指示されていない場合、対応決定部２４０は、文章特定部２３８から入力される文章の文字列に基づいて、対話者Ｖへの対応を決定する。対応ＤＢ２４６には、対話者Ｖから話しかけられる文章の文字列と、それに対する適切な応答音声を示す文字列と、適切な応答動作を示す動作パターンが、関連付けて記憶されている。対応決定部２４０は、文章特定部２３８から入力された文章の文字列をキーとして対応ＤＢ２４６を検索し、適切な応答音声を示す文字列と、適切な応答動作を示す動作パターンを決定する。対応決定部２４０は、決定された文字列を音声合成部２４２へ出力し、決定された動作パターンを動作生成部２４４へ出力する。

音声合成部２４２は、対応決定部２４０から入力された文字列に基づいて、対話者Ｖへの応答音声をデジタル音声データとして生成する。音声合成部２４２は、生成されたデジタル音声データを音声Ｄ／Ａ変換部２４８へ出力する。

音声Ｄ／Ａ変換部２４８は、音声合成部２４２から入力されるデジタル音声データをＤ／Ａ変換して、スピーカ１１８へ出力する。これによって、対話者Ｖが話しかけた文章の内容に応じた適切な返答、あるいは対話者Ｖへの聞き返しが、スピーカ１１８から音声で出力される。

動作生成部２４４は、対応決定部２４０から入力された動作パターンに基づいて、アクチュエータ群１１０を駆動して、頭部１０２や腕部１１６を動作させる。

図８のフローチャートを参照しながら、コントローラ１１４が行う処理について説明する。ステップＳ８０２では、発話区間抽出部２１２が発話の開始を検出するまで待機する。ステップＳ８０２で発話の開始が検出されると、コントローラ１１４は、ステップＳ８０４からステップＳ８１４までに示す処理と、ステップＳ８１６に示す処理と、ステップＳ８１８に示す処理を並列に実行する。

まずステップＳ８０４からステップＳ８１４に示す処理について説明する。ステップＳ８０４では、音声分析部２１６が音声のフレーム化処理を実行する。ステップＳ８０６では、音声分析部２１６が各フレームについての周波数スペクトルを特定する。ステップＳ８０８では、音素尤度算出部２２０が各フレームについて音素状態毎の尤度を算出する。ステップＳ８１０では、単語尤度算出部２２４が各フレームについての音素状態毎の尤度から、単語毎の尤度を算出する。ステップＳ８１２では、文章尤度算出部２２８が単語毎の尤度から文章毎の尤度を算出する。ステップＳ８１４では、確信度算出部２３２が単語毎の尤度と文章毎の尤度から、単語毎の確信度を算出する。このようなステップＳ８０４からステップＳ８１４までの処理は、ステップＳ８２２で発話の終了が検出されるまで、繰り返し実行される。

上記の処理と並行して、ステップＳ８１６では、音量検出部２１４が発話区間における音圧の自乗値の積算処理を行う。音圧の自乗値の積算処理は、ステップＳ８２２で発話の終了が検出されるまで、繰り返し実行される。

さらに上記の処理と並行して、ステップＳ８１８では、画像認識部２０６が対話者Ｖの識別を行う。ステップＳ８１８の処理は、ステップＳ８２２で発話の終了が検出されるまで、繰り返し実行される。

ステップＳ８２２では、発話区間抽出部２１２が発話の終了を検出したか否かが判断される。ステップＳ８２２で発話の終了が検出されると、ステップＳ８２４以下の処理が実行される。

ステップＳ８２４では、第２聞き返し判定部２１８が、対話者Ｖの声が大き過ぎるか否かを判断する。対話者Ｖの声が大き過ぎる場合（ステップＳ８２４でＹＥＳの場合）、処理はステップＳ８３０へ進み、対話者Ｖに対してもっと小さな声で話すことを促す聞き返しが実行される。対話者Ｖの声が大き過ぎない場合（ステップＳ８２４でＮＯの場合）、処理はステップＳ８２６へ進む。

ステップＳ８２６では、第２聞き返し判定部２１８が、対話者Ｖの声が小さ過ぎるか否かを判断する。対話者Ｖの声が小さ過ぎる場合（ステップＳ８２６でＹＥＳの場合）、処理はステップＳ８３２へ進み、対話者Ｖに対してもっと大きな声で話すことを促す聞き返しが実行される。対話者Ｖの声が小さ過ぎない場合（ステップＳ８２６でＮＯの場合）、処理はステップＳ８２８へ進む。

ステップＳ８２８では、第１聞き返し判定部２３４が、文章特定部２３８で特定された文章における自立語の確信度の平均値が、しきい値に満たないか否かを判断する。この際のしきい値は、ステップＳ８１８での対話者Ｖの識別結果に応じて決定される。自立語の確信度の平均値がしきい値に満たない場合（ステップＳ８２８でＹＥＳの場合）、処理はステップＳ８３４へ進み、対話者Ｖに対してもっとはっきりと話すことを促す聞き返しが実行される。自立語の確信度の平均値がしきい値以上の場合（ステップＳ８２８でＮＯの場合）、処理はステップＳ８３６へ進み、文章特定部２３８で特定された文章に応じた適切な応答が実行される。

以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、特許請求の範囲を限定するものではない。特許請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組み合わせによって技術的有用性を発揮するものであり、出願時請求項記載の組み合わせに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。

図１は音声認識装置１００の外観を示す図である。図２はコントローラ１１４の構成を模式的に示す図である。図３は発話の開始時刻ＴＳと終了時刻ＴＥの検出を説明する図である。図４は音声データ３０２のフレーム化処理と周波数スペクトルの特定を説明する図である。図５は単語「ぶどう」の尤度評価を説明する図である。図６は文章の尤度評価を説明する図である。図７は単語接続表７００を例示する図である。図８はコントローラ１１４が行う処理を説明するフローチャートである。

符号の説明

１００：音声認識装置
１０２：頭部
１０４：右カメラ
１０６：左カメラ
１０８：胴体部
１１０：アクチュエータ
１１２：マイクロホン
１１４：コントローラ
１１６：腕部
１１８：スピーカ
２０２、２０４：画像Ａ／Ｄ変換部
２０６：画像認識部
２０８：人物ＤＢ
２１０：音声Ａ／Ｄ変換部
２１２：発話区間抽出部
２１４：音量検出部
２１６：音声分析部
２１８：第２聞き返し判定部
２２０：音素尤度算出部
２２２：音素ＤＢ
２２４：単語尤度算出部
２２６：単語ＤＢ
２２８：文章尤度算出部
２３０：文章ＤＢ
２３２：確信度算出部
２３４：第１聞き返し判定部
２３６：確信度ＤＢ
２３８：文章特定部
２４０：対応決定部
２４２：音声合成部
２４４：動作生成部
２４６：対応ＤＢ
２４８：Ｄ／Ａ変換部
３０２：音声波形
３０４：音圧ゼロの線
５０２、５０４、５０６、５０８、５１０、５１２：点
５１４、５１６：枝
５１８：経路
７００：単語接続表

Claims

対話者が話しかける音声を認識する装置であって、
音声を入力して音声データに変換する音声入力手段と、
音声データから、発話区間を抽出する発話区間抽出手段と、
音声データから、発話区間における音声の特徴量の時系列を算出する音声分析手段と、
発話区間における音声の特徴量の時系列から、候補となる単語群のそれぞれについての尤度を算出する単語尤度算出手段と、
候補となる単語群のそれぞれについての尤度から、候補となる文章群のそれぞれについての尤度を算出する文章尤度算出手段と、
候補となる文章群のそれぞれについての尤度と、候補となる単語群のそれぞれについての尤度から、候補となる単語群のそれぞれについての確信度を算出する確信度算出手段と、
文章に含まれる単語の確信度に基づいて、発話区間において対話者が話しかけた文章を候補となる文章群の中から特定する文章特定手段と、
特定された文章に含まれる単語の確信度に基づいて、対話者への聞き返しの要否を判断する第１聞き返し判定手段と、
対話者への聞き返しが必要と判断された場合に、対話者への聞き返しを行う聞き返し手段を備える音声認識装置。
音声データから発話区間での音量を検出する音量検出手段と、
発話区間での音量に基づいて、対話者への聞き返しの要否を判断する第２聞き返し判定手段をさらに備える請求項１の音声認識装置。
前記第２聞き返し判定手段が、発話区間での音量が上限値を超える場合に、対話者への聞き返しが必要と判断する、請求項２の音声認識装置。
前記第２聞き返し判定手段が、発話区間での音量が下限値に満たない場合に、対話者への聞き返しが必要と判断する、請求項３の音声認識装置。
候補となる人物群の中から対話者である人物を特定する対話者識別手段と、
特定された人物に応じてしきい値を設定するしきい値設定手段をさらに備えており、
前記第１聞き返し判定手段が、特定された文章に含まれる単語のうちで自立語である単語の確信度の平均値が前記しきい値に満たない場合に、対話者への聞き返しが必要と判断する、請求項１の音声認識装置。
対話者が話しかける音声を認識する方法であって、
音声を入力して音声データに変換する音声入力工程と、
音声データから、発話区間を抽出する発話区間抽出工程と、
音声データから、発話区間における音声の特徴量の時系列を算出する音声分析工程と、
発話区間における音声の特徴量の時系列から、候補となる単語群のそれぞれについての尤度を算出する単語尤度算出工程と、
候補となる単語群のそれぞれについての尤度から、候補となる文章群のそれぞれについての尤度を算出する文章尤度算出工程と、
候補となる文章群のそれぞれについての尤度と、候補となる単語群のそれぞれについての尤度から、候補となる単語群のそれぞれについての確信度を算出する確信度算出工程と、
文章に含まれる単語の確信度に基づいて、発話区間において対話者が話しかけた文章を候補となる文章群の中から特定する文章特定工程と、
特定された文章に含まれる単語の確信度に基づいて、対話者への聞き返しの要否を判断する聞き返し判定工程と、
対話者への聞き返しが必要と判断された場合に、対話者への聞き返しを行う聞き返し工程を備える音声認識方法。