JP2008052178A - 音声認識装置と音声認識方法 - Google Patents

音声認識装置と音声認識方法 Download PDF

Info

Publication number
JP2008052178A
JP2008052178A JP2006230378A JP2006230378A JP2008052178A JP 2008052178 A JP2008052178 A JP 2008052178A JP 2006230378 A JP2006230378 A JP 2006230378A JP 2006230378 A JP2006230378 A JP 2006230378A JP 2008052178 A JP2008052178 A JP 2008052178A
Authority
JP
Japan
Prior art keywords
sentence
likelihood
voice
calculating
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006230378A
Other languages
English (en)
Inventor
Ryo Murakami
涼 村上
Seisho Watabe
生聖 渡部
Kazuya Shimooka
和也 下岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2006230378A priority Critical patent/JP2008052178A/ja
Publication of JP2008052178A publication Critical patent/JP2008052178A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 対話者の話しかける音声を認識する際に、適切に聞き返しを行うことによって、誤認識を抑制することが可能な技術を提供する。
【解決手段】 本発明の音声認識装置は、音声を入力して音声データに変換する音声入力手段と、発話区間を抽出する発話区間抽出手段と、音声の特徴量の時系列を算出する音声分析手段と、候補となる単語群のそれぞれについての尤度を算出する単語尤度算出手段と、候補となる文章群のそれぞれについての尤度を算出する文章尤度算出手段と、候補となる単語群のそれぞれについての確信度を算出する確信度算出手段と、文章に含まれる単語の確信度に基づいて対話者が話しかけた文章を特定する文章特定手段と、特定された文章に含まれる単語の確信度に基づいて対話者への聞き返しの要否を判断する第1聞き返し判定手段と、対話者への聞き返しが必要と判断された場合に対話者への聞き返しを行う聞き返し手段を備える。
【選択図】 図2

Description

本発明は、対話者が話しかける音声を認識する装置と方法に関する。
人間が装置の動作を制御する際に、キーボードやレバーなどのインターフェースを操作することなく、音声を発することによって装置を制御する技術がある。このような技術においては、マイクなどの音声入力手段から入力される音声から、音声によって表現される言葉の内容を認識し、認識された言葉の内容に応じた制御が行われる。このような音声認識を用いた制御を行う場合、可能な限り誤認識を抑制することが重要である。誤認識した結果に基づいて装置を制御すると、装置の誤作動を引き起こしてしまう。
音声認識における誤認識を防止するために、音声をうまく認識できなかった場合に対話者への聞き返しを行う技術が開発されている。例えば特許文献1には、対話者に聞き返しを行う音声認識システムが開示されている。このシステムでは、入力された音声を予め用意された単語の音響モデルと比較し、音声との一致率の高い音響モデルが表現する単語を対話者が話した単語として認識する。このシステムでは、音声と音響モデルとの一致率が所定のしきい値より低い場合に、対話者への聞き返しを行う。
特開2003−44756号公報
音声と音響モデルとの一致率が高い場合でも誤認識を起こしてしまう場合があるし、一致率が低い場合でも誤認識を起こさない場合がある。一般に音声と音響モデルとの一致率は、対話者の発声が明瞭であれば高い値となり、発声が不明瞭であれば低い値となる傾向がある。例えばアナウンサーのように発声が明瞭な対話者の音声が入力された場合には、対話者が実際に話した単語の音響モデルとの一致率は当然に高く評価されるが、対話者が話していない他の類似する単語の音響モデルとの一致率も高く評価される傾向がある。この様な場合、一致率が高い複数の単語の候補が存在しており、どの単語が実際に対話者が話したものであるのか曖昧さが解消されず、誤認識を起こしてしまう可能性がある。上記とは逆に、発声が不明瞭な対話者の音声が入力された場合には、候補となるどの単語についても音響モデルとの一致率は低く評価されてしまう。しかしながら、ある単語についての一致率が他の単語についての一致率に比べて相対的に大きな値であれば、候補となる単語が絞り込まれているため、一致率が低い値であっても誤認識を起こさない。この場合、あえて対話者へ聞き返さなくともよい。
上記のように、音声と音響モデルとの一致率からは、誤認識を抑制するための聞き返しの要否を適切に判断することができない。より適切に聞き返しの要否を判断することが可能な技術が待望されている。
本発明は上記課題を解決する。本発明では、対話者の話しかける音声を認識する際に、適切な聞き返しを行うことによって、誤認識を抑制することが可能な技術を提供する。
本発明は、対話者が話しかける音声を認識する装置として具現化される。本発明の音声認識装置は、音声を入力して音声データに変換する音声入力手段と、音声データから発話区間を抽出する発話区間抽出手段と、音声データから発話区間における音声の特徴量の時系列を算出する音声分析手段と、発話区間における音声の特徴量の時系列から候補となる単語群のそれぞれについての尤度を算出する単語尤度算出手段と、候補となる単語群のそれぞれについての尤度から候補となる文章群のそれぞれについての尤度を算出する文章尤度算出手段と、候補となる文章群のそれぞれについての尤度と候補となる単語群のそれぞれについての尤度から候補となる単語群のそれぞれについての確信度を算出する確信度算出手段と、文章に含まれる単語の確信度に基づいて発話区間において対話者が話しかけた文章を候補となる文章群の中から特定する文章特定手段と、特定された文章に含まれる単語の確信度に基づいて対話者への聞き返しの要否を判断する第1聞き返し判定手段と、対話者への聞き返しが必要と判断された場合に対話者への聞き返しを行う聞き返し手段を備えている。
本発明の音声認識装置では、発話区間における音声の特徴量の時系列から、候補となる単語群のそれぞれについての尤度と、候補となる文章群のそれぞれについての尤度を算出する。音声の特徴量としては、例えば周波数スペクトルそのものを扱ってもよいし、メル周波数ケプストラム係数(MFCC)を扱ってもよい。そして、単語群のそれぞれについての尤度と、文章群のそれぞれについての尤度から、単語群のそれぞれについての確信度を算出する。単語の確信度とは、競合する他の単語の候補に対してその単語がどの程度信頼度が高いかを示す指標である。単語の確信度の詳細については、例えば、李晃伸、河原達也、鹿野清宏、”2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法”、信学技報、社団法人電子情報通信学会、2003年12月、SP2003−160、p.35−40等に記載されている。本発明の音声認識装置では、文章に含まれる単語の確信度に基づいて、候補となる文章群の中から対話者が話しかけた文章を特定する。本発明の音声認識装置によれば、確信度の高い単語を多く含む文章を対話者が話しかけた文章として特定することで、対話者が話しかけた文章を正確に認識することができる。
本発明の音声認識装置では、対話者が話しかけた文章として特定された文章に含まれる単語の確信度に基づいて、対話者への聞き返しの要否を判断する。文章に含まれる単語の確信度が低い場合、特定された文章と他の文章の間で尤度にそれほど大きな差がないと考えられるから、対話者への聞き返しを行う。逆に、文章に含まれる単語の確信度が高い場合、特定された文章は他の文章に比べて相対的に大きな尤度であると考えられるため、聞き返しを行わない。このように、本発明の音声認識装置は文章に含まれる単語の確信度に着目して聞き返しの要否を判断するから、不要な聞き返しを行うことなく、必要な場合にのみ聞き返しを行って、音声認識における誤認識を抑制することができる。
上記の音声認識装置は、音声データから発話区間での音量を検出する音量検出手段と、発話区間での音量に基づいて対話者への聞き返しの要否を判断する第2聞き返し判定手段をさらに備えることが好ましい。
一般に音声入力手段には検出可能な音声の大きさの範囲が規定されており、この範囲に入らない音声については正確に検出することができない。従って、対話者の声が大き過ぎたり小さ過ぎたりすると、正確な音声認識をすることができない。上記の音声認識装置では、検出された音量に基づいて聞き返しの要否を判断することによって、音声入力手段において正確に音声を検出できないことに起因する誤認識を抑制することができる。
上記の音声認識装置は、前記第2聞き返し判定手段が、発話区間での音量が上限値を超える場合に、対話者への聞き返しが必要と判断することが好ましい。
音声入力手段には検出可能な音声の大きさの上限が存在する。上限を超える大きさの音声については、正確に検出することができない。従って、対話者の声が大き過ぎる場合には、音声波形を正確に検出することができず、正確な音声認識をすることができない。上記の音声認識装置によれば、音量が大き過ぎる場合に聞き返しを行って、より小さな声で話すことを対話者に促す。これによって、対話者の声が大き過ぎることに起因する誤認識を抑制することができる。
上記の音声認識装置は、前記第2聞き返し判定手段が、発話区間での音量が下限値に満たない場合に、対話者への聞き返しが必要と判断することが好ましい。
音声認識装置には検出可能な音声の大きさの下限が存在する。下限を下回る大きさの音声については、正確に検出することができない。従って、対話者の声が小さ過ぎる場合には、音声波形を正確に検出することができず、正確な音声認識をすることができない。上記の音声認識装置によれば、音量が小さ過ぎる場合に聞き返しを行って、より大きな声で話すことを対話者に促す。これによって、対話者の声が小さ過ぎることに起因する誤認識を抑制することができる。
上記の音声認識装置は、候補となる人物群の中から対話者である人物を特定する対話者識別手段と、特定された人物に応じてしきい値を設定するしきい値設定手段をさらに備えており、前記第1聞き返し判定手段が、特定された文章に含まれる単語のうちで自立語である単語の確信度の平均値が前記しきい値に満たない場合に、対話者への聞き返しが必要と判断することが望ましい。
上記の音声認識装置によれば、聞き返しの要否を判断する際に用いるしきい値を、対話者に応じて個別に設定することができる。このような構成とすることによって、多種多様な対話者に対しても、適切に聞き返しの要否を判断することができる。
本発明は音声認識方法としても具現化される。本発明の方法は、音声を入力して音声データに変換する音声入力工程と、音声データから発話区間を抽出する発話区間抽出工程と、音声データから発話区間における音声の特徴量の時系列を算出する音声分析工程と、発話区間における音声の特徴量の時系列から候補となる単語群のそれぞれについての尤度を算出する単語尤度算出工程と、候補となる単語群のそれぞれについての尤度から候補となる文章群のそれぞれについての尤度を算出する文章尤度算出工程と、候補となる文章群のそれぞれについての尤度と候補となる単語群のそれぞれについての尤度から候補となる単語群のそれぞれについての確信度を算出する確信度算出工程と、文章に含まれる単語の確信度に基づいて発話区間において対話者が話しかけた文章を候補となる文章群の中から特定する文章特定工程と、特定された文章に含まれる単語の確信度に基づいて対話者への聞き返しの要否を判断する聞き返し判定工程と、対話者への聞き返しが必要と判断された場合に対話者への聞き返しを行う聞き返し工程を備えている。
本発明の音声認識装置および音声認識方法によれば、対話者の話しかける音声を認識する際に、適切な聞き返しを行うことによって、誤認識を抑制することができる。
以下に発明を実施するための最良の形態を列記する。
(形態1)単語尤度算出手段は、発話区間における音声の特徴量の時系列から、隠れマルコフ・モデル(HMM;Hidden Markov Model)を用いて、候補となる単語群のそれぞれについての尤度を算出する。
本実施例では、図1に例示する音声認識装置100において、対話者Vが話しかける音声を認識する例を説明する。音声認識装置100は、例えばショールームやイベント会場に配置された案内ロボットであり、案内を求めて話しかけてくる来場者(対話者)Vが話しかける音声を認識する。
音声認識装置100は、頭部102と、胴体部108と、腕部116を備えている。音声認識装置100は、頭部102の前方に並んで配置された右カメラ104と左カメラ106と、頭部102の前方に配置されたスピーカ118と、胴体部108に対して頭部102および腕部116を駆動するアクチュエータ群110と、胴体部108の前方に設けられたマイクロホン112と、右カメラ104、左カメラ106、スピーカ118、アクチュエータ群110およびマイクロホン112の動作を制御するコントローラ114を備えている。
右カメラ104と左カメラ106は、一般的なCCDカメラである。右カメラ104と左カメラ106は、所定の時間間隔で繰り返し撮影を行い、撮影された画像データをコントローラ114へ出力する。
マイクロホン112は、入力された音声によって膜面に加えられる音圧を検知し、検知した音圧に応じた電圧値をコントローラ114へ出力する。
スピーカ118は、コントローラ114から送信された信号をアンプによって増幅し、増幅された電流の変動に応じて振動板を振動させ、音声を出力する。
アクチュエータ群110は、コントローラ114から送信される制御信号に基づいて、頭部102および腕部116を駆動する。
図2はコントローラ114の構成を示すブロック図である。コントローラ114は、処理装置(CPU)、記憶装置(光学記憶媒体、磁気記憶媒体、あるいはRAMやROMといった半導体メモリ等)、入出力装置、演算装置などから構成されているコンピュータ装置である。
画像A/D変換部202は、右カメラ104から入力される画像データをA/D変換して、デジタル画像データを生成する。以下では画像A/D変換部202で生成されたデジタル画像データを、右側デジタル画像データと呼ぶ。画像A/D変換部202は、生成された右側デジタル画像データを画像認識部206へ送信する。画像A/D変換部204は、左カメラ106から入力される画像データをA/D変換して、デジタル画像データを生成する。以下では画像A/D変換部204で生成されたデジタル画像データを、左側デジタル画像データと呼ぶ。画像A/D変換部204は、生成された左側デジタル画像データを画像認識部206へ送信する。
画像認識部206は、画像A/D変換部202から入力される右側デジタル画像データと、画像A/D変換部204から入力される左側デジタル画像データに基づいて、人物データベース(以下ではデータベースをDBと表記する)208を用いて対話者Vを識別する。人物DB208には、対話者Vの候補となる人物を示す識別符号と、その人物の顔の特徴点の位置関係が関連付けて登録されている。画像認識部206は、右側デジタル画像データおよび左側デジタル画像データから、撮影された対話者Vの顔の特徴点を抽出し、抽出された特徴点の位置関係を算出して、人物DB208に登録された人物の中から、顔の特徴点の位置関係が最も類似する人物を検索する。
画像認識部206は、右カメラ104および左カメラ106が撮影する毎に、右カメラ104および左カメラ106で同一時刻に撮影された画像データに基づいて、対話者Vとして識別された人物の識別符号を特定する。画像認識部206は、対話者Vの識別符号を撮影時刻と関連付けて、第1聞き返し判定部234へ出力する。
音声A/D変換部210は、マイクロホン112から入力される音圧の経時的な変化をA/D変換して、デジタル音声データを生成する。音声A/D変換部210は、生成されたデジタル音声データを、発話区間抽出部212、音量検出部214、音声分析部216に出力する。
発話区間抽出部212は、音声A/D変換部210から入力されるデジタル音声データから、発話の開始時刻と発話の終了時刻を検出する。図3に発話区間抽出部212に入力されるデジタル音声データが示す音声波形302の例を示す。発話区間抽出部212は、発話の開始が検知されていない状況では、音声波形302において音圧が所定のしきい値P1を超えるか否かを監視する。詳細には、単位時間T1において、平均音圧がしきい値P1を超えて、かつ音声波形302が音圧ゼロの線304と交差する回数が所定の回数以上となった時点で、発話区間抽出部212は発話が開始されたと判断する。発話の開始が検知されると、発話区間抽出部212は発話の開始時刻TSを特定し、音量検出部214、音声分析部216に発話の開始時刻TSを報知する。
発話区間抽出部212は、音声波形302が単位時間T2において音圧ゼロの線304と交差する回数をカウントし、カウントされた回数が所定のしきい値に達するか否かを監視する。詳細には、単位時間T2において、カウントされる回数が所定のしきい値に満たなくなり、かつ平均音圧が所定のしきい値P2に満たなくなった時点で、発話区間抽出部212は発話が終了したと判断する。発話の終了が検知されると、発話区間抽出部212は発話の終了時刻TEを特定し、音量検出部214、音声分析部216に発話の終了時刻TEを報知する。
音量検出部214は、音声A/D変換部210から入力されるデジタル音声データに基づいて、発話の開始時刻TSから発話の終了時刻TEまでの間で音圧の自乗値を積算する。音量検出部214は、発話区間抽出部212から発話の開始時刻TSが報知されると、音圧の自乗値の積算を開始する。音量検出部214は、発話区間抽出部212から発話の終了時刻TEが報知されると、音圧の自乗値の積算を終了する。そして、音圧の自乗値の積算値を発話区間の長さTE−TSで除して、発話区間における平均音量を特定する。その後、音量検出部214は、発話区間における平均音量を第2聞き返し判定部218へ出力する。
第2聞き返し判定部218は、音量検出部214から入力される発話区間における平均音量に基づいて、対話者Vへの聞き返しの要否を判断する。まず第2聞き返し判定部218は、発話区間における平均音量を所定の上限値と比較する。平均音量が上限値を超えている場合、第2聞き返し判定部218は、発話区間における対話者Vの声が大き過ぎて、正確な音声認識を行うことができないと判断する。この場合、第2聞き返し判定部218は、対話者Vに対してもっと小さな声で話すことを促す聞き返しを、対応決定部240に指示する。次いで第2聞き返し判定部218は、発話区間における平均音量を所定の下限値と比較する。平均音量が下限値を下回る場合、第2聞き返し判定部218は、発話区間における対話者Vの声が小さ過ぎて、正確な音声認識を行うことができないと判断する。この場合、第2聞き返し判定部218は、対話者Vに対してもっと大きな声で話すことを促す聞き返しを、対応決定部240に指示する。第2聞き返し判定部218による上記の処理は、発話区間抽出部212で発話の終了時刻TEが検知されて、音量検出部214から発話区間における平均音量が入力される度に行われる。
音声分析部216は、発話の開始時刻TSから発話の終了時刻TEまでの間で、音声の特徴量の時系列を算出する。本実施例の音声分析部216は、入力されるデジタル音声データについてフレーム化処理を実施し、各フレームに対応する音データの周波数スペクトルを特定する。図4に音声データのフレーム化処理と、各フレームの音声データの周波数スペクトルを特定する様子を示す。本実施例では、フレームの長さは20msであり、フレーム間隔は10msである。図4に示すように、音声データ402についてフレームF1、F2、F3、・・・が規定される。音声分析部216は、フレームF1、F2、F3、・・・のそれぞれにおける音声データ402の周波数スペクトルf1、f2、f3、・・・を特定する。周波数スペクトルは、周波数に対する振幅の分布として与えられる。周波数スペクトルの特定は、例えば高速フーリエ変換を用いて行うことができる。音声分析部216は、発話区間抽出部212から発話の開始時刻TSが報知されると、上記のフレーム化処理と周波数スペクトルの特定処理を開始する。音声分析部216は、発話の終了時刻TEが報知されるまで、上記の処理を順次実行して、各フレームの周波数スペクトルを音素尤度算出部220へ順次出力する。音声分析部216は、発話区間抽出部212から発話の終了時刻TEが報知されると、上記のフレーム化処理と周波数スペクトルの特定処理を終了する。
音素尤度算出部220、単語尤度算出部224、文章尤度算出部228、確信度算出部232、文章特定部238は、音声分析部216から入力される各フレーム毎の周波数スペクトルから、隠れマルコフ・モデル(HMM;Hidden Markov Model)を用いて、音素の時系列としての文章を特定する。ここで音素とは、人間が言葉を話す際に発せられる音声を構成する要素を意味する。例えば人間が「ぶどう」という言葉を話す際に発せられる音声は、「b」と「u」と「d」と「o:」という4つの音素から構成されている。HMMを用いて音素の時系列を特定する場合、1つの音素は複数の状態から構成されていると想定し、それぞれの状態を次の状態へ遷移する遷移確率と、次の状態へ遷移せずに停留する停留確率によって特徴付ける。以下では音素を構成する状態のことを音素状態と記述する。本実施例では、1つの音素が3つの音素状態から構成されている例を説明する。例えば「b」という音素は、音素状態b1、b2、b3から構成されている。ある音素状態から音素状態b1へ遷移し、音素状態b1から音素状態b2に遷移し、音素状態b2から音素状態b3に遷移することで、音素「b」が実現される。音素状態b1は、次の音素状態である音素状態b2へ遷移することもあるし、音素状態b1のまま停留することもある。音素状態b2、b3についても同様である。本実施例では、音素状態の時系列として音素が特定され、音素の時系列として単語が特定され、単語の時系列として文章が特定される。本実施例では、音素状態の時系列としての単語および文章についての尤度を算出し、単語および文章についての尤度に基づいて文章に含まれる単語の確信度を算出して、単語の確信度に基づいて対話者Vが話しかけた文章を特定する。
音素尤度算出部220は、フレーム毎に特定された周波数スペクトルから、そのフレームに対する各音素状態の尤度を評価する。それぞれの音素状態は、その音素状態が実現された場合に、音声として観測される周波数スペクトルについての確率分布を有する。この確率分布は、実験などによって予め取得しておくことができる。この確率分布と、フレームに対して特定された周波数スペクトルから、そのフレームに対する音素状態の尤度を計算することができる。本実施例では、音素DB222に尤度評価の対象とする各音素の各音素状態について、周波数スペクトルから尤度を算出する関数が予め記憶されている。音素尤度算出部220は、周波数スペクトルf1、f2、f3、・・・のそれぞれについて、各音素の各音素状態について尤度を算出する。例えばフレームF1の周波数スペクトルf1から、フレームF1に対する音素「b」の音素状態b1、b2、b3のそれぞれの尤度が算出される。他の音素の音素状態についても同様にして、フレームF1に対する尤度が算出される。それ以降のフレームF2、F3、・・・についても同様にして、そのフレームに対する各音素の各音素状態の尤度が算出される。
各フレームに対する各音素状態の尤度が算出されると、単語尤度算出部224は、各音素の尤度の評価と、各単語の尤度の評価を行う。図5を参照しながら、各音素の尤度の評価と、各単語の尤度の評価について説明する。図5では一例として、単語「ぶどう」についての尤度を評価する例を説明する。図5の左側の欄では、単語「ぶどう」が音素「b」、「u」、「d」、「o:」の系列として構成されており、音素「b」が音素状態b1、b2、b3の系列として構成されており、音素「u」が音素状態u1、u2、u3の系列として構成されており、音素「d」が音素状態d1、d2、d3の系列として構成されており、音素「o:」が音素状態o:1、o:2、o:3の系列として構成されていることが示されている。図5では、フレームF1において音素状態b1が実現している状態を点502で表現し、その後のフレームF2、F3、・・・Fnにおいて、音素状態b1、b2、b3、・・・が実現している状態を点504、506、508、510、512・・・で表現している。また、それぞれの点502、504、506、・・・からは、次のフレームにおいて次の音素状態へ遷移する経路と、次の音素状態へ遷移することなく停留する経路が伸びている。例えばフレームF1において音素状態b1が実現している状態を示す点502からは、次のフレームF2において次の音素状態b2へ遷移する枝514と、次の音素状態b2へ遷移することなく音素状態b1で停留する枝516が伸びている。枝514は、フレームF2において音素状態b2が実現している状態を示す点504まで伸びている。枝516は、フレームF2において音素状態b1が実現している状態を示す点506まで伸びている。
図5のそれぞれの点502、504、506、・・・の尤度は、各フレームに対する各音素状態の尤度として算出することができる。それぞれの枝514、516、・・・の尤度は、各音素状態の遷移確率と停留確率から算出することができる。例えば枝514の尤度は、音素状態b1から音素状態b2への遷移確率から算出することができる。枝516の尤度は、音素状態b1の停留確率から算出することができる。単語を構成する各音素の各音素状態の遷移確率と停留確率は、実験などによって予め取得されており、単語DB226に記憶されている。
単語尤度算出部224は、各フレームに対する各音素状態の尤度して算出される点502、504、506、・・・の尤度と、単語DB226に記憶されている枝514、516、・・・の尤度に基づいて、その時点で取り得る全ての経路について尤度を計算し、最も尤度の高い経路を特定する。ここで経路についての尤度とは、その経路に沿って事象が進行した尤度のことをいう。経路に沿って事象が進行した尤度は、その経路に含まれる点の尤度と枝の尤度から算出することができる。単語尤度算出部224は、その単語において最も尤度の高い経路が特定されると、その経路に沿って事象が進行した尤度をその単語の尤度として特定する。
図5に示す例では、フレームF1、F2、・・・Fnまで処理が進行している時点において、単語「ぶどう」において最も尤度の高い経路として経路518が特定されている。このような場合には、経路518に沿って事象が進行した尤度が、単語「ぶどう」の尤度として特定される。経路518に沿って事象が進行した尤度は、経路518に含まれる点502、504、510、・・・の尤度と、枝514、・・・の尤度から算出される。
単語DB226には対話者Vが話す単語として想定される単語群のそれぞれについて、単語を構成する各音素の各音素状態の遷移確率と停留確率が記憶されている。図5では単語「ぶどう」についての尤度を評価する例を説明したが、単語尤度算出部224は、上記した尤度の評価を、単語DB226に記憶されている全ての単語について実施する。これによって、単語DB226に記憶されている全ての単語についての尤度が評価される。
各単語についての尤度の評価と並行して、文章尤度算出部228は各文章の尤度を評価する。文章尤度算出部228は、文章DB230に記憶されている全ての文章について、尤度の評価を行う。文章DB230には、対話者Vが話す文章として想定される文章群のそれぞれについて、その文章を構成する単語の系列が、関連付けて記憶されている。
図6に文章の尤度を評価する様子を示している。図6に示す例では、「プリウス」(登録商標)―「の」―「燃費」―「は」―「いくら」―「ですか」という単語の系列が1つの文章を構成している。また、「プリウス」―「の」―「燃費」―「を」―「教えて」―「下さい」という単語の系列も1つの文章を構成している。これらの文章と、その文章を構成する単語の系列は、文章DB230に予め記憶されている。
文章尤度算出部228は、文章の尤度を、その文章に含まれる単語の尤度と、その文章における単語から単語への接続確率から算出する。単語から単語への接続確率は、図7に示す単語接続表700を用いて特定される。単語接続表700は、ある単語(図では前単語と記述している)から次に続く単語(図では後単語と記述している)への接続が出現する確率(図では出現率と記述している)を記述している。このような単語から単語への接続が出現する確率は、実験などによって取得することができる。単語接続表700は文章DB230に予め記憶されており、文章尤度算出部228は必要に応じて文章DB230から単語接続表700を読み込む。文章尤度算出部228は、文章DB230に記憶されている全ての文章について尤度を評価する。
各文章について尤度が評価されると、確信度算出部232は、各文章についての尤度と、各文章に含まれる各単語の尤度に基づいて、単語ごとに確信度を算出する。単語の確信度とは、競合する他の単語の候補に対してその単語がどの程度信頼度が高いかを示す指標である。音声の時系列Xについて、時刻τからtの期間が単語wであることの確信度Cは、次式で算出される。
Figure 2008052178
ここで、Wは文章を示しており、W[w;τ,t]は時刻τからtの期間に単語wを含む文章の集合を示している。g(W)は、文章Wの尤度を対数で表現したものである。αはスムージング係数と呼ばれる1以下の正の数である。p(X)は音声の時系列がXである尤度を示しており、ここでは全ての文章の尤度の総和で与えられる。
確信度算出部232は、各文章に関して、その文章に含まれる単語のそれぞれについての確信度を算出する。確信度算出部232は、各文章について、自立語の確信度の平均値をそれぞれ算出する。確信度算出部232は、各文章と、その文章の自立語の確信度の平均値を関連付けて、文章特定部238へ出力する。
文章特定部238は、自立語の確信度の平均値が最も高い文章を、対話者Vが話しかけた文章として特定する。文章特定部238は、特定された文章を対応決定部240へ出力する。また文章特定部238は、特定された文章と、その文章の自立語の確信度の平均値を、第1聞き返し判定部234へ出力する。
第1聞き返し判定部234は、文章特定部238から入力された文章と、その文章の自立語の確信度の平均値から、対話者Vへの聞き返しの要否を判断する。文章特定部238から入力された文章は、候補となる文章群のうちで最も自立語の確信度の平均値が高いものである。その文章の自立語の確信度が高い場合には、他の文章の尤度に比べてその文章の尤度が大きく上回っており、認識の結果に曖昧さがそれほど無いと言える。従って、このような場合には、対話者Vへの聞き返しを行うまでもなく、対話者Vの話した文章の内容を正確に認識できていると考えられる。逆に、文章特定部238から入力された文章の自立語の確信度の平均値が低い場合には、他の文章の尤度とその文章の尤度にはそれほど大きな差がなく、認識の結果に曖昧さがあると言える。従って、このような場合には、対話者Vへの聞き返しを行って、より正確に対話者Vの話す文章を認識する必要がある。
第1聞き返し判定部234は、文章特定部238から入力された確信度の平均値をしきい値と比較することで、聞き返しの要否を判断する。確信度の平均値がしきい値以上の場合、第1聞き返し判定部234は聞き返しは不要と判断する。確信度の平均値がしきい値に満たない場合、第1聞き返し判定部234は聞き返しが必要と判断して、対話者Vに対してもっとはっきりと話すことを促す聞き返しを対応決定部240に指示する。
なお第1聞き返し判定部234は、上記した判断に用いるしきい値を、画像認識部206から入力される対話者Vの識別符号に基づいて決定する。第1聞き返し判定部234は、対話者Vの識別符号をキーとして確信度DB236を検索し、その識別符号が示す人物に対して適切なしきい値を読み出す。人物に対する適切なしきい値は、実験などによって予め取得されている。確信度DB236には、人物の識別符号と、その人物に対して適切なしきい値が、関連付けて記憶されている。このような構成とすることによって、対話者Vがどのような人物であっても、聞き返しの要否を適切に判断することができる。
音声分析部216、音素尤度算出部220、単語尤度算出部224、文章尤度算出部228、確信度算出部232、文章特定部238は、上記したフレーム化処理から文章データの推定までの一連の処理を、発話区間抽出部212から発話の終了時刻TEが報知されるまで繰り返し実施する。発話区間抽出部212から発話の終了時刻TEが報知されると、文章特定部238は発話区間における音声から特定された文章を、文字列として対応決定部240へ出力する。
対応決定部240は、第2聞き返し判定部218および第1聞き返し判定部234からの聞き返しの指示の有無と、文章特定部238から入力される文字列に基づいて、対話者Vへの対応を決定する。
第2聞き返し判定部218から、もっと小さな声で話すことを対話者Vに促す聞き返しを指示されている場合、対応決定部240は対話者Vへの聞き返しとして「もう少し小さな声で話してください。」という文字列を音声合成部242へ出力する。また、対応決定部240は、腕部116を下方向へ押さえつけるようなジェスチャーを示す動作パターンを、動作生成部244へ出力する。
第2聞き返し判定部218から、もっと大きな声で話すことを対話者Vに促す聞き返しを指示されている場合、対応決定部240は対話者Vへの聞き返しとして「もう少し大きな声で話してください。」という文字列を音声合成部242へ出力する。また、対応決定部240は、腕部116の先端でスピーカ118の周囲を覆うようなジェスチャーを示す動作パターンを、動作生成部244へ出力する。
第1聞き返し判定部234から、もっとはっきりと話すことを対話者Vに促す聞き返しを指示されている場合、対応決定部240は対話者Vへの聞き返しとして「もう少しはっきりと話してください。」という文字列を音声合成部242へ出力する。また、対応決定部240は、腕部116を左右に広げて頭部102を左右に振るようなジェスチャーを示す動作パターンを、動作生成部244へ出力する。
第2聞き返し判定部218および第1聞き返し判定部234のいずれからも聞き返しを指示されていない場合、対応決定部240は、文章特定部238から入力される文章の文字列に基づいて、対話者Vへの対応を決定する。対応DB246には、対話者Vから話しかけられる文章の文字列と、それに対する適切な応答音声を示す文字列と、適切な応答動作を示す動作パターンが、関連付けて記憶されている。対応決定部240は、文章特定部238から入力された文章の文字列をキーとして対応DB246を検索し、適切な応答音声を示す文字列と、適切な応答動作を示す動作パターンを決定する。対応決定部240は、決定された文字列を音声合成部242へ出力し、決定された動作パターンを動作生成部244へ出力する。
音声合成部242は、対応決定部240から入力された文字列に基づいて、対話者Vへの応答音声をデジタル音声データとして生成する。音声合成部242は、生成されたデジタル音声データを音声D/A変換部248へ出力する。
音声D/A変換部248は、音声合成部242から入力されるデジタル音声データをD/A変換して、スピーカ118へ出力する。これによって、対話者Vが話しかけた文章の内容に応じた適切な返答、あるいは対話者Vへの聞き返しが、スピーカ118から音声で出力される。
動作生成部244は、対応決定部240から入力された動作パターンに基づいて、アクチュエータ群110を駆動して、頭部102や腕部116を動作させる。
図8のフローチャートを参照しながら、コントローラ114が行う処理について説明する。ステップS802では、発話区間抽出部212が発話の開始を検出するまで待機する。ステップS802で発話の開始が検出されると、コントローラ114は、ステップS804からステップS814までに示す処理と、ステップS816に示す処理と、ステップS818に示す処理を並列に実行する。
まずステップS804からステップS814に示す処理について説明する。ステップS804では、音声分析部216が音声のフレーム化処理を実行する。ステップS806では、音声分析部216が各フレームについての周波数スペクトルを特定する。ステップS808では、音素尤度算出部220が各フレームについて音素状態毎の尤度を算出する。ステップS810では、単語尤度算出部224が各フレームについての音素状態毎の尤度から、単語毎の尤度を算出する。ステップS812では、文章尤度算出部228が単語毎の尤度から文章毎の尤度を算出する。ステップS814では、確信度算出部232が単語毎の尤度と文章毎の尤度から、単語毎の確信度を算出する。このようなステップS804からステップS814までの処理は、ステップS822で発話の終了が検出されるまで、繰り返し実行される。
上記の処理と並行して、ステップS816では、音量検出部214が発話区間における音圧の自乗値の積算処理を行う。音圧の自乗値の積算処理は、ステップS822で発話の終了が検出されるまで、繰り返し実行される。
さらに上記の処理と並行して、ステップS818では、画像認識部206が対話者Vの識別を行う。ステップS818の処理は、ステップS822で発話の終了が検出されるまで、繰り返し実行される。
ステップS822では、発話区間抽出部212が発話の終了を検出したか否かが判断される。ステップS822で発話の終了が検出されると、ステップS824以下の処理が実行される。
ステップS824では、第2聞き返し判定部218が、対話者Vの声が大き過ぎるか否かを判断する。対話者Vの声が大き過ぎる場合(ステップS824でYESの場合)、処理はステップS830へ進み、対話者Vに対してもっと小さな声で話すことを促す聞き返しが実行される。対話者Vの声が大き過ぎない場合(ステップS824でNOの場合)、処理はステップS826へ進む。
ステップS826では、第2聞き返し判定部218が、対話者Vの声が小さ過ぎるか否かを判断する。対話者Vの声が小さ過ぎる場合(ステップS826でYESの場合)、処理はステップS832へ進み、対話者Vに対してもっと大きな声で話すことを促す聞き返しが実行される。対話者Vの声が小さ過ぎない場合(ステップS826でNOの場合)、処理はステップS828へ進む。
ステップS828では、第1聞き返し判定部234が、文章特定部238で特定された文章における自立語の確信度の平均値が、しきい値に満たないか否かを判断する。この際のしきい値は、ステップS818での対話者Vの識別結果に応じて決定される。自立語の確信度の平均値がしきい値に満たない場合(ステップS828でYESの場合)、処理はステップS834へ進み、対話者Vに対してもっとはっきりと話すことを促す聞き返しが実行される。自立語の確信度の平均値がしきい値以上の場合(ステップS828でNOの場合)、処理はステップS836へ進み、文章特定部238で特定された文章に応じた適切な応答が実行される。
以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、特許請求の範囲を限定するものではない。特許請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組み合わせによって技術的有用性を発揮するものであり、出願時請求項記載の組み合わせに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。
図1は音声認識装置100の外観を示す図である。 図2はコントローラ114の構成を模式的に示す図である。 図3は発話の開始時刻TSと終了時刻TEの検出を説明する図である。 図4は音声データ302のフレーム化処理と周波数スペクトルの特定を説明する図である。 図5は単語「ぶどう」の尤度評価を説明する図である。 図6は文章の尤度評価を説明する図である。 図7は単語接続表700を例示する図である。 図8はコントローラ114が行う処理を説明するフローチャートである。
符号の説明
100:音声認識装置
102:頭部
104:右カメラ
106:左カメラ
108:胴体部
110:アクチュエータ
112:マイクロホン
114:コントローラ
116:腕部
118:スピーカ
202、204:画像A/D変換部
206:画像認識部
208:人物DB
210:音声A/D変換部
212:発話区間抽出部
214:音量検出部
216:音声分析部
218:第2聞き返し判定部
220:音素尤度算出部
222:音素DB
224:単語尤度算出部
226:単語DB
228:文章尤度算出部
230:文章DB
232:確信度算出部
234:第1聞き返し判定部
236:確信度DB
238:文章特定部
240:対応決定部
242:音声合成部
244:動作生成部
246:対応DB
248:D/A変換部
302:音声波形
304:音圧ゼロの線
502、504、506、508、510、512:点
514、516:枝
518:経路
700:単語接続表

Claims (6)

  1. 対話者が話しかける音声を認識する装置であって、
    音声を入力して音声データに変換する音声入力手段と、
    音声データから、発話区間を抽出する発話区間抽出手段と、
    音声データから、発話区間における音声の特徴量の時系列を算出する音声分析手段と、
    発話区間における音声の特徴量の時系列から、候補となる単語群のそれぞれについての尤度を算出する単語尤度算出手段と、
    候補となる単語群のそれぞれについての尤度から、候補となる文章群のそれぞれについての尤度を算出する文章尤度算出手段と、
    候補となる文章群のそれぞれについての尤度と、候補となる単語群のそれぞれについての尤度から、候補となる単語群のそれぞれについての確信度を算出する確信度算出手段と、
    文章に含まれる単語の確信度に基づいて、発話区間において対話者が話しかけた文章を候補となる文章群の中から特定する文章特定手段と、
    特定された文章に含まれる単語の確信度に基づいて、対話者への聞き返しの要否を判断する第1聞き返し判定手段と、
    対話者への聞き返しが必要と判断された場合に、対話者への聞き返しを行う聞き返し手段を備える音声認識装置。
  2. 音声データから発話区間での音量を検出する音量検出手段と、
    発話区間での音量に基づいて、対話者への聞き返しの要否を判断する第2聞き返し判定手段をさらに備える請求項1の音声認識装置。
  3. 前記第2聞き返し判定手段が、発話区間での音量が上限値を超える場合に、対話者への聞き返しが必要と判断する、請求項2の音声認識装置。
  4. 前記第2聞き返し判定手段が、発話区間での音量が下限値に満たない場合に、対話者への聞き返しが必要と判断する、請求項3の音声認識装置。
  5. 候補となる人物群の中から対話者である人物を特定する対話者識別手段と、
    特定された人物に応じてしきい値を設定するしきい値設定手段をさらに備えており、
    前記第1聞き返し判定手段が、特定された文章に含まれる単語のうちで自立語である単語の確信度の平均値が前記しきい値に満たない場合に、対話者への聞き返しが必要と判断する、請求項1の音声認識装置。
  6. 対話者が話しかける音声を認識する方法であって、
    音声を入力して音声データに変換する音声入力工程と、
    音声データから、発話区間を抽出する発話区間抽出工程と、
    音声データから、発話区間における音声の特徴量の時系列を算出する音声分析工程と、
    発話区間における音声の特徴量の時系列から、候補となる単語群のそれぞれについての尤度を算出する単語尤度算出工程と、
    候補となる単語群のそれぞれについての尤度から、候補となる文章群のそれぞれについての尤度を算出する文章尤度算出工程と、
    候補となる文章群のそれぞれについての尤度と、候補となる単語群のそれぞれについての尤度から、候補となる単語群のそれぞれについての確信度を算出する確信度算出工程と、
    文章に含まれる単語の確信度に基づいて、発話区間において対話者が話しかけた文章を候補となる文章群の中から特定する文章特定工程と、
    特定された文章に含まれる単語の確信度に基づいて、対話者への聞き返しの要否を判断する聞き返し判定工程と、
    対話者への聞き返しが必要と判断された場合に、対話者への聞き返しを行う聞き返し工程を備える音声認識方法。
JP2006230378A 2006-08-28 2006-08-28 音声認識装置と音声認識方法 Pending JP2008052178A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006230378A JP2008052178A (ja) 2006-08-28 2006-08-28 音声認識装置と音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006230378A JP2008052178A (ja) 2006-08-28 2006-08-28 音声認識装置と音声認識方法

Publications (1)

Publication Number Publication Date
JP2008052178A true JP2008052178A (ja) 2008-03-06

Family

ID=39236262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006230378A Pending JP2008052178A (ja) 2006-08-28 2006-08-28 音声認識装置と音声認識方法

Country Status (1)

Country Link
JP (1) JP2008052178A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282404A (ja) * 2009-06-04 2010-12-16 Toyota Motor Corp 対話処理装置、対話処理方法、及び対話処理プログラム
WO2011121884A1 (ja) * 2010-03-30 2011-10-06 日本電気株式会社 外国語会話支援装置、そのコンピュータプログラムおよびデータ処理方法
JP2013539569A (ja) * 2010-07-23 2013-10-24 アルデバラン ロボティクス 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム
WO2014112226A1 (ja) 2013-01-16 2014-07-24 シャープ株式会社 電子機器及び掃除機
JP2020056982A (ja) * 2018-09-30 2020-04-09 アイフライテック カンパニー,リミテッド 音声評価方法、装置、機器及び読み取り可能な記憶媒体
CN113470621A (zh) * 2021-08-23 2021-10-01 杭州网易智企科技有限公司 语音检测方法、装置、介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5934597A (ja) * 1982-08-20 1984-02-24 富士通株式会社 音声認識処理装置
JP2001343996A (ja) * 2000-06-01 2001-12-14 Mitsubishi Electric Corp 音声入力制御システム
JP2003044075A (ja) * 2001-07-30 2003-02-14 Matsushita Electric Ind Co Ltd 音声認識機能を備えた電子機器
JP2005157166A (ja) * 2003-11-28 2005-06-16 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2006030282A (ja) * 2004-07-12 2006-02-02 Nissan Motor Co Ltd 対話理解装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5934597A (ja) * 1982-08-20 1984-02-24 富士通株式会社 音声認識処理装置
JP2001343996A (ja) * 2000-06-01 2001-12-14 Mitsubishi Electric Corp 音声入力制御システム
JP2003044075A (ja) * 2001-07-30 2003-02-14 Matsushita Electric Ind Co Ltd 音声認識機能を備えた電子機器
JP2005157166A (ja) * 2003-11-28 2005-06-16 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2006030282A (ja) * 2004-07-12 2006-02-02 Nissan Motor Co Ltd 対話理解装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282404A (ja) * 2009-06-04 2010-12-16 Toyota Motor Corp 対話処理装置、対話処理方法、及び対話処理プログラム
WO2011121884A1 (ja) * 2010-03-30 2011-10-06 日本電気株式会社 外国語会話支援装置、そのコンピュータプログラムおよびデータ処理方法
JP2013539569A (ja) * 2010-07-23 2013-10-24 アルデバラン ロボティクス 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム
KR20140000189A (ko) * 2010-07-23 2014-01-02 알데바란 로보틱스 자연스러운 대화 인터페이스가 장착된 인간형 로봇, 이러한 로봇의 제어 방법 및 대응 프로그램
JP2017041260A (ja) * 2010-07-23 2017-02-23 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム
KR101880775B1 (ko) * 2010-07-23 2018-08-17 소프트뱅크 로보틱스 유럽 자연스러운 대화 인터페이스가 장착된 인간형 로봇, 이러한 로봇의 제어 방법 및 대응 프로그램
WO2014112226A1 (ja) 2013-01-16 2014-07-24 シャープ株式会社 電子機器及び掃除機
JP2014137430A (ja) * 2013-01-16 2014-07-28 Sharp Corp 電子機器及び掃除機
KR20150086339A (ko) 2013-01-16 2015-07-27 샤프 가부시키가이샤 전자 기기 및 청소기
JP2020056982A (ja) * 2018-09-30 2020-04-09 アイフライテック カンパニー,リミテッド 音声評価方法、装置、機器及び読み取り可能な記憶媒体
CN113470621A (zh) * 2021-08-23 2021-10-01 杭州网易智企科技有限公司 语音检测方法、装置、介质及电子设备
CN113470621B (zh) * 2021-08-23 2023-10-24 杭州网易智企科技有限公司 语音检测方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
EP3050052B1 (en) Speech recognizer with multi-directional decoding
US10074363B2 (en) Method and apparatus for keyword speech recognition
JP4557919B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US20220343895A1 (en) User-defined keyword spotting
KR100742888B1 (ko) 음성 인식 방법
EP2645364B1 (en) Spoken dialog system using prominence
JP4237713B2 (ja) 音声処理装置
JP2018072650A (ja) 音声対話装置及び音声対話方法
Këpuska et al. A novel wake-up-word speech recognition system, wake-up-word recognition task, technology and evaluation
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2019101385A (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2007199552A (ja) 音声認識装置と音声認識方法
JP2008052178A (ja) 音声認識装置と音声認識方法
Gulzar et al. A systematic analysis of automatic speech recognition: an overview
Këpuska Wake-up-word speech recognition
JP2019197182A (ja) 音声対話システム、音声対話方法及びプログラム
WO2018216180A1 (ja) 音声認識装置および音声認識方法
KR20190032557A (ko) 음성 기반 통신
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
Lecouteux et al. Distant speech recognition for home automation: Preliminary experimental results in a smart home
Kitayama et al. Speech starter: noise-robust endpoint detection by using filled pauses.
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081020

A977 Report on retrieval

Effective date: 20101118

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Effective date: 20101207

Free format text: JAPANESE INTERMEDIATE CODE: A131

A02 Decision of refusal

Effective date: 20110405

Free format text: JAPANESE INTERMEDIATE CODE: A02