JP2012242609A

JP2012242609A - 音声認識装置、ロボット、及び音声認識方法

Info

Publication number: JP2012242609A
Application number: JP2011112595A
Authority: JP
Inventors: Ryota Hiura; 亮太日浦; Hitoshi Miyauchi; 均宮内; Kyoko Oshima; 京子大嶋
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2011-05-19
Filing date: 2011-05-19
Publication date: 2012-12-10
Anticipated expiration: 2031-05-19
Also published as: JP5797009B2

Abstract

【課題】過応答を低減しつつ、音声認識の認識率を高める、ことを目的とする。
【解決手段】音声認識装置４０は、被写体を撮像すると共に被写体を示す画像情報をカメラ３０によって取得し、該カメラ３０による撮像が行われているときに発生している音を示す音情報をマイク３２によって取得する。そして、音声認識装置４０は、カメラ３０によって取得された画像情報に基づいて、人が発話している発話区間を検出し、検出した発話区間において、発話区間が検出されない場合に比べて、音情報に基づいた人の音声認識の感度を上げる。
【選択図】図３

Description

本発明は、音声認識装置、ロボット、及び音声認識方法に関するものである。

ユーザーの発話に応じて特定の動作コマンドを実行する音声認識機能を備えるロボットにおいて、人の音声以外の雑音（ノイズ）に対する誤反応による音声の誤認識を低減しつつ、音声認識の成功率を高めることが求められている。

ここで、特許文献１には、ユーザーが発した音声データをマイクで検出すると共に、ユーザーの顔を撮像した画像からユーザーの口が動いているかどうかを判定し、口が動いていると判定している間の音声データに含まれる音声コマンドのみを動作コマンドとして発行し、ロボット装置を制御する技術が開示されている。
また、特許文献２には、マイクロホンアレイから入力される音声に基づき、話者が発する会話の最初に利用する特定の単語もしくは文の音声とその方向とを認識し、検出された音声の方向にカメラを向け、該カメラから入力された画像から人物の顔を検出し、対話処理を行う技術が開示されている。さらに特許文献２には、及び検出した話者方向に指向性を限定して、話者の音声と方向を認識し、顔検出処理を行い、検出された顔方向に移動し、音声認識の精度をより向上させる技術が開示されている。

特開２００７−１９０６２０号公報特開２００６−２５１２６６号公報

しかしながら、特許文献１に開示されている技術は、口の動作があるときの音声コマンドのみを認識することとしているため、画像認識の遅れにより、発話開始時の音声認識の成功率が大きく低下する可能性がある。また、特許文献１に開示されている技術は、音声コマンドの採否を画像により選択するのみであることから、音声認識の成功率向上にはなんら寄与しない。
また、特許文献２に開示されている技術のように、指向性を変えるのみでは、その指向性の方向の雑音による過応答を防ぐことができない。また、屋内においては、部屋の反響音の成分が非常に大きく、指向性を変えることでの目的音と雑音の音量比がほとんど改善せず、効果が現れない可能性が高い。

なお、一般的に、画像による発話判定は、雑音の影響は少ないがタイミングに正確さを欠き（例えば、発話開始の口の動きが小さいことに由来する）、音声による発話判定は、タイミングは正確であるが雑音に弱いとされる。

本発明は、このような事情に鑑みてなされたものであって、過応答を低減しつつ、音声認識の認識率を高めることができる音声認識装置、ロボット、及び音声認識方法を提供することを目的とする。

上記課題を解決するために、本発明の音声認識装置、ロボット、及び音声認識方法は以下の手段を採用する。

すなわち、本発明に係る音声認識装置は、被写体を撮像すると共に被写体を示す画像情報を取得する撮像手段と、前記撮像手段による撮像が行われているときに発生している音を示す音情報を取得する音取得手段と、前記音取得手段によって取得された前記音情報に基づいて、人の音声を認識する音声認識手段と、前記撮像手段によって取得された前記画像情報に基づいて、人が発話している期間を示す発話区間を検出する発話区間検出手段と、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音声認識手段による音声認識の感度を上げる感度変更手段と、を備える。

本発明によれば、撮像手段によって、被写体が撮像されると共に被写体を示す画像情報が取得され、音取得手段によって、撮像手段による撮像が行われているときに発生している音を示す音情報が取得される。

また、音声認識手段によって、音情報に基づいて人の音声が認識される。しかし、音声認識手段による音声の認識において、音声以外の雑音を音声と誤認識する場合があった。誤認識は、過応答となり、音声認識率が低下することとなる。
このような誤認識は、音声認識の感度を下げることによって防ぐことが考えられるが、音声認識の感度が下げられると、本来、人の音声として認識すべき音が認識されない可能性が生じる。

そこで、発話区間検出手段によって、撮像手段で取得された画像情報に基づいて、人が発話している期間を示す発話区間が検出される。すなわち、画像情報に基づいて、人の顔が認識され、該認識された人の顔の器官の動きから、雑音の影響を受けない発話区間が検出される。
そして、感度変更手段によって、発話区間検出手段で検出された発話区間において、発話区間が検出されない場合に比べて、音声認識手段による音声認識の感度が上げられる。

従って、画像情報に基づいて検出された雑音の影響を受けない発話区間に対応して、音声認識の感度が上げられることとなるので、本発明は、過応答を低減しつつ、音声認識の認識率を高めることができる。

また、本発明の音声認識装置は、前記感度変更手段が、前記発話区間検出手段によって検出された前記発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、前記音声認識手段による音声認識の感度を上げてもよい。

人による発話の開始時（語頭）や発話の終了時（語尾）には、例えば口が大きく開けられなかったりするため、発話の語頭や語尾が発話区間として検出されない可能性がある。

本発明によれば、発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、すなわち、前及び後に太められた発話区間において、音声認識手段による音声認識の感度が上げられる。なお、所定時間は、発話区間検出手段で検出されない可能性のある語頭や語尾に対応する時間であり、実験等により求められる値であり、予め設定されている。

従って、発話の語頭や語尾においても、より確実に音声認識の感度が上げられることができる。

また、本発明の音声認識装置は、前記音声認識手段が、予め定められた閾値以上の音量を、人の音声であると認識し、前記感度変更手段が、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、前記音声認識手段による音声認識の感度を上げてもよい。

本発明によれば、予め定められた閾値以上の音量が、人の音声であると認識され、画像情報に基づいて検出した発話区間において、該閾値を下げることによって、音声認識の感度が上げられるので、簡易に音声認識の感度を変更することができる。

また、本発明の音声認識装置は、前記発話区間検出手段が、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出してもよい。

本発明によれば、人の口の動きに基づいて発話区間を検出するので、画像情報に基づいて発話区間を簡易に検出できる。

また、本発明の音声認識装置は、前記発話区間検出手段が、人の顔に含まれる目の向きに基づいて、該人が発話している発話区間を検出してもよい。

本発明によれば、人の目の向き、すなわち視線に基づいて発話区間を検出するので、音声認識装置を備えた機器に対して話しかけている人の発話区間を簡易に検出できる。

一方、本発明に係るロボットは、上記記載の音声認識装置を備える。

さらに、本発明に係る音声認識方法は、被写体を撮像すると共に被写体を示す画像情報を撮像手段によって取得し、該撮像手段による撮像が行われているときに発生している音を示す音情報を音取得手段によって取得する第１工程と、前記撮像手段によって取得された前記画像情報に基づいて、人が発話している発話区間を検出する第２工程と、前記第２工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音情報に基づいた人の音声認識の感度を上げる第３工程と、を含む。

本発明によれば、過応答を低減しつつ、音声認識の認識率を高めることができる、という優れた効果を有する。

本発明の実施形態に係るロボットの正面図である。従来の音声認識の説明に要する図である。本発明の実施形態に係る音声認識装置の機能を示す機能ブロック図である。本発明の実施形態に係る発話区間検出部で行われる処理の内容を具体的に示した模式図である。本発明の実施形態に係る音声認識装置による音声認識の結果を示した模式図である。

以下に、本発明に係る音声認識装置、ロボット、及び音声認識方法の一実施形態について、図面を参照して説明する。

図１は、本実施形態に係るロボット１０の正面図である。
図１に示すように、ロボット１０には、頭部１２と、頭部１２を下方から支持する胸部１４と、胸部１４の右側に設けられた右腕部１６ａ、胸部１４の左側に設けられた左腕部１６ｂと、胸部１４の下方に接続された腰部１８と、腰部１８の下方に接続されたスカート部２０と、スカート部２０の下方に接続された脚部２２とが設けられている。

そして、頭部１２の前面の中央近傍には、図１に示すように、前方を撮像するためのカメラ３０、及びマイクロフォン３２（以下、単に「マイク３２」という。）が設けられている。
カメラ３０は、被写体を撮像すると共に被写体を示す画像情報を取得し、マイク３２は、カメラ３０による撮像が行われているときに発生している音を示す音情報を取得する。

そして、本実施形態に係るロボット１０は、カメラ３０によって取得された画像情報に基づいて、人の顔を認識すると共に、マイク３２によって取得された音情報に基づいて、人の音声を認識する音声認識処理を行う。
すなわち、ロボット１０は、ロボット１０に対しコミュニケーションを取ろうとしている人の顔を認識すると共に、該人の音声を認識し、これらの認識結果に応じた動作を行う。

ここで、従来の音声認識について図２を参照して説明する。
ロボット１０は、予め定められた閾値（以下、「音声閾値」という。）を超えた音量（パワー）の音情報を人が発話した音声として認識する。

しかし、図２（Ａ）に示すように、音声閾値以上の雑音（人の音声とは異なる音）が生じた場合、ロボット１０は、該雑音も人の音声として誤認識することとなる。また、図２（Ｂ）に示すように、人の音声に音声閾値以上の雑音が重なり合っている場合も、ロボット１０は、該雑音も人の音声として誤認識するばかりか、人の音声を正しく認識できないこととなる。このような、誤認識は、過応答となり、音声認識の認識率の低下を招く。

図２（Ａ），（Ｂ）に示すような雑音の誤認識は、音声認識の感度を下げること、すなわち音声閾値の値を大きくすることによって防ぐことが考えられる。しかし、音声認識の感度が下げられると、本来、人の音声として認識すべき音が認識されない可能性が生じる。

そこで、本実施形態に係るロボット１０は、カメラ３０によって取得した画像情報に基づいて認識した人の顔の器官の動きから、人が発話している期間を示す発話区間を検出し、検出した発話区間において、発話区間が検出されない場合に比べて、音声認識の感度を上げる（音声閾値を下げる）処理を行う。この発話区間は、画像情報から求められるため、雑音の影響を受けない。

図３は、音声認識処理を行う音声認識装置４０の機能を示す機能ブロック図である。
なお、本実施形態に係るロボット１０は、ＣＰＵ（Central Processing Unit）によってプログラムを実行することにより、音声認識装置４０が備える各構成要素による処理を実現する。この場合、該プログラムは、ＲＯＭ（Read Only Memory）やその他の記憶媒体に予めインストールされる形態や、コンピュータ読み取り可能なＣＤ−ＲＯＭ等の可搬型の記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等を適用することができる。

音声認識装置４０は、画像情報に基づいて人の発話区間の検出を行う発話区間検出部４２Ａ、音情報に基づいて人の発話区間の検出を行う発話区間検出部４２Ｂ、発話区間における人の音声を認識する音声認識部４４を備える。

発話区間検出部４２Ａは、顔器官検出部５０、動き量算出部５２、閾値処理部５４、及び音声閾値変更部５６を備える。

顔器官検出部５０は、カメラ３０で取得された画像情報に基づいて、人の顔を認識し、所定の顔器官を検出する。顔器官の検出方法は、従来既知のものを用いればよい。
なお、本実施形態に係る顔器官検出部５０は、顔器官として人の口を検出する。

動き量算出部５２は、顔器官検出部５０で検出された顔器官の動きを算出する。
本実施形態では、顔器官として人の口を検出するため、口の動きとして口の開き加減、より具体的には上唇と下唇との開き量を算出する。

閾値処理部５４は、動き量算出部５２で算出された値が予め定められた閾値（以下、「画像閾値」という。）以上か否かを判定し、画像閾値以上となった期間（時間）を、人が発話している期間を示す発話区間として検出する。

音声閾値変更部５６は、閾値処理部５４で検出された発話区間において、該発話区間が検出されない場合に比べて、音声閾値を下げることによって、音声認識の感度を上げる。下げられた音声閾値の大きさ及び区間を示す音声閾値変更情報は、音声閾値変更部５６から発話区間検出部４２Ｂへ出力される。

発話区間検出部４２Ｂは、音量算出部６０及び閾値処理部６２を備える。

音量算出部６０は、マイク３２で取得された音情報により示される波形の振幅から音量を算出する。

閾値処理部６２は、音量算出部６０で算出された音量が音声閾値以上か否かを判定し、該音声閾値以上の音量を発話区間として検出する。なお、本実施形態に係る閾値処理部６２は、音声閾値変更部５６から入力された音声閾値変更情報により示される区間及び下げられた音声閾値の値を用いて、発話区間を検出し、該発話区間を発話区間情報として音声認識部４４へ出力する。

発話区間検出部４２Ｂへ入力される音情報は、ディレイ処理部７０Ａを介して所定の時間遅れを持って入力される。
上述のように、閾値処理部６２は、音声閾値変更部５６から出力された閾値変更情報を用いて発話区間を検出するため、発話区間検出部４２Ａが備える音声閾値変更部５６による閾値変更情報の出力が終了した後に、閾値処理部６２による処理を開始させるためである。

音声認識部４４は、特徴量抽出部８０及びマッチング処理部８２を備えている。

特徴量抽出部８０は、マイク３２で取得された音情報を、例えばフーリエ変換等することによって、音の特徴（特徴量）を抽出する。

マッチング処理部８２は、音の特徴量に応じた発話内容を示した認識辞書情報に基づいて、閾値処理部６２から出力された発話区間情報により示される発話区間における音の特徴量から、人の発話内容を特定し（マッチング処理）、音声認識結果として出力する。なお、認識辞書情報は、不図示の記憶手段に予め記憶されている。
そして、ロボット１０は、例えば音声認識結果が「おはよう」との発話を示している場合は、「おはよう」と音声を出力する等の、音声認識結果に基づいた動作を行う。

また、音声認識部４４へ入力される音情報は、ディレイ処理部７０Ｂを介して所定の時間遅れを持って入力される。
上述のように、マッチング処理部８２は、閾値処理部６２から出力された発話区間情報を用いて音声認識を行うため、閾値処理部６２による発話区間情報の出力が終了した後に、マッチング処理部８２による処理を開始させるためである。このため、ディレイ処理部７０Ｂによる時間遅れは、ディレイ処理部７０Ａによる時間遅れよりもさらに遅くなければならない。

図４（Ａ），（Ｂ）は、発話区間検出部４２Ａ，４２Ｂで行われる処理の内容を具体的に示した模式図である。

図４（Ａ）に示されるように、動き量算出部５２は、口の動き量を、例えば６０分の１（１／６０）秒や３０分の１（１／３０）秒毎に算出する。閾値処理部５４は、動き量が画像閾値以上か否かを判定し、動き量が画像閾値以上となった期間を発話区間として検出する。この閾値判定によって、小さな口の動きは、発話区間として検出されないこととなる。

なお、本実施形態に係る閾値処理部５４は、検出した発話区間を、該発話区間に連続した前及び後の所定時間に広げる、太め処理を行う。
人による発話の開始時（語頭）や発話の終了時（語尾）には、口が大きく開けられなかったりするため、発話の語頭や語尾が発話区間として検出されない可能性がある。
そこで、発話区間を前及び後に広げることによって、発話の語頭及語尾も発話区間に含まれるようにする。なお、発話区間を広めるための上記所定時間は、閾値処理部５４によって検出されない可能性のある語頭や語尾に対応する時間であり、実験等により求められる値であり、予め設定されている。

そして、音声閾値変更部５６によって、太め処理が行われた発話区間において、音声閾値が下げられ、音声閾値変更情報として閾値処理部６２へ出力される。

一方、図４（Ｂ）に示されるように、音量算出部６０は、時間遅れを持って入力された音情報により示される音に基づいて、例えば所定時間間隔毎における振幅の最大値の平均値を音量として算出する。
音量算出部６０によって算出された音量は、閾値処理部６２へ出力され、閾値処理部６２は、音量変更情報により示される音声閾値を用いて、閾値判定を行い、音声閾値以上の音量が生じた区間を発話区間として検出する。

図５（Ａ），（Ｂ）は、本実施形態に係る音声認識装置４０による音声認識の結果を示した模式図である。なお、図５（Ａ），（Ｂ）の左図は、従来の音声認識の結果（図２参照）であり、図５（Ａ），（Ｂ）の右図は、本実施形態に係る音声認識の結果である。
図５（Ａ）の右図に示されるように、音声閾値を下げることで、雑音を誤認識することが防がれる。そして、画像情報に基づいて検出された発話区間において音声閾値が下げられることにより、音声認識の感度が上げるため、音声認識装置４０は、雑音に対して過応答することなく、人の音声は正しく認識されることとなる。
また、図５（Ｂ)の右図に示されるように、雑音と人の音声が重なり合っていても、雑音を誤認識することがなくなるため、人の音声は正しく認識されることとなる。

また、ロボット１０周辺の環境によって、画像情報に基づいて検出された発話区間における音声閾値（以下、「区間内音声閾値」という。）の大きさや、発話区間が検出されていない区間における音声閾値（以下、「区間外音声閾値」という。）の大きさを異ならせてもよい。例えば、雑音の音量が大きい環境（例えばアミューズメント施設内等）では、区間外音声閾値は、より高く設定される。また、人がロボット１０に対して話しかける声が小さくなりやすい環境（例えば資料館内等）では、区間内音声閾値は、より小さく設定される。
このように、ロボット１０周辺の環境に応じて、区間内音声閾値と区間外音声閾値との比率を変更することによって、雑音に対して過応答する比率を下げ、音声認識率の向上を図ることが望ましい。

また、言語に応じて、区間内音声閾値及び区間外音声閾値の大きさや比率を変更してもよい。

以上説明したように、本実施形態に係る音声認識装置４０は、被写体を撮像すると共に被写体を示す画像情報をカメラ３０によって取得し、該カメラ３０による撮像が行われているときに発生している音を示す音情報をマイク３２によって取得する。そして、音声認識装置４０は、カメラ３０によって取得された画像情報に基づいて、人が発話している発話区間を検出し、検出した発話区間において、発話区間が検出されない場合に比べて、音情報に基づいた人の音声認識の感度を上げる。
従って、本実施形態に係る音声認識装置４０は、画像情報に基づいて検出された雑音の影響を受けない発話区間に対応して、音声認識の感度が上げられることとなるので、過応答を低減しつつ、音声認識の認識率を高めることができる。

また、本実施形態に係る音声認識装置４０は、画像情報に基づいて検出した発話区間と共に、該発話区間に連続した前及び後において音声認識の感度を上げるので、発話の語頭や語尾においても、より確実に音声認識の感度が上げるこができる。

また、本実施形態に係る音声認識装置４０は、予め定められた音声閾値以上の音量を、人の音声であると認識し、画像情報に基づいて検出した発話区間において、音声閾値を下げることによって、音声認識の感度を上げるので、簡易に音声認識の感度を変更することができる。

また、本実施形態に係る音声認識装置４０は、人の口の動きに基づいて発話区間を検出するので、画像情報に基づいて発話区間を簡易に検出できる。

以上、本発明を、上記実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更または改良を加えることができ、該変更または改良を加えた形態も本発明の技術的範囲に含まれる。

例えば、上記実施形態では、音声認識装置４０が、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出する形態について説明したが、本発明は、これに限定されるものではなく、人の顔に含まれる目の向き、すなわち視線に基づいて、該人が発話している発話区間を検出する形態としてもよい。
この形態の場合、音声認識装置４０は、視線がロボット１０の向きを向いている人物を特定し、特定した人の視線がロボット１０の向きを向いている場合に、音声閾値を下げる。

また、音声認識装置４０は、口の動きと視線の向きとを組み合わせてもよく、視線がロボット１０の方向を向き、かつ口の動きが画像閾値以上の場合に、音声閾値を下げてもよい。これにより、カメラ３０による撮像範囲に複数人存在する場合でも、ロボット１０に対して話しかけている人の音声のみを認識することができる。

さらに、人の口の動きや視線以外にも、例えば人の顔や頭部の向きや位置の変化を検出し、人の顔がロボット１０の方向を向いている場合を、人が発話している発話区間として検出する形態としてもよい。

また、上記実施形態では、発話区間検出部４２Ａは、口の動きとして口の開き加減を算出する形態について説明したが、本発明は、これに限定されるものではなく、例えば、口の動き（口の開き加減）を周波数分析して、所定の周波数以上の場合に、口が動いていると判断してもよいし、歯を検出した場合（上唇と下唇との間に白色を検出した場合）に口が動いていると判断してもよい。

また、上記実施形態では、発話区間検出部４２Ａは、画像情報に基づいて検出した発話区間を前後に太める太め処理を行う形態について説明したが、本発明は、これに限定されるものではなく、該発話区間の前及び後の何れか一方のみを太める形態としてもよい。

また、上記実施形態では、音声認識装置４０をロボット１０に適用する形態について説明したが、本発明は、これに限定されるものではなく、パーソナルコンピュータやＩＣレコーダ等他の機器に適用する形態としてもよい。

１０ロボット
３０カメラ
３２マイク
４０音声認識装置
４２Ａ発話区間検出部
４４音声認識部
５６音声閾値変更部

Claims

被写体を撮像すると共に被写体を示す画像情報を取得する撮像手段と、
前記撮像手段による撮像が行われているときに発生している音を示す音情報を取得する音取得手段と、
前記音取得手段によって取得された前記音情報に基づいて、人の音声を認識する音声認識手段と、
前記撮像手段によって取得された前記画像情報に基づいて、人が発話している期間を示す発話区間を検出する発話区間検出手段と、
前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音声認識手段による音声認識の感度を上げる感度変更手段と、
を備えた音声認識装置。
前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、前記音声認識手段による音声認識の感度を上げる請求項１記載の音声認識装置。
前記音声認識手段は、予め定められた閾値以上の音量を、人の音声であると認識し、
前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、前記音声認識手段による音声認識の感度を上げる請求項１又は請求項２記載の音声認識装置。
前記発話区間検出手段は、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出する請求項１から請求項３の何れか１項記載の音声認識装置。
前記発話区間検出手段は、人の顔に含まれる目の向きに基づいて、該人が発話している発話区間を検出する請求項１から請求項４の何れか１項記載の音声認識装置。
請求項１から請求項５の何れか１項記載の音声認識装置を備えたロボット。
被写体を撮像すると共に被写体を示す画像情報を撮像手段によって取得し、該撮像手段による撮像が行われているときに発生している音を示す音情報を音取得手段によって取得する第１工程と、
前記撮像手段によって取得された前記画像情報に基づいて、人が発話している発話区間を検出する第２工程と、
前記第２工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音情報に基づいた人の音声認識の感度を上げる第３工程と、
を含む音声認識方法。