JP2009222969A

JP2009222969A - 音声認識ロボットおよび音声認識ロボットの制御方法

Info

Publication number: JP2009222969A
Application number: JP2008067103A
Authority: JP
Inventors: Ryo Murakami; 涼村上
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2008-03-17
Filing date: 2008-03-17
Publication date: 2009-10-01

Abstract

【課題】音声認識が成功しなかった際に、発話者に対して音声認識の失敗した原因を理解させるような音声認識ロボットおよび音声認識ロボットの制御方法を提供すること。
【解決手段】音声認識ロボットにおいて、発話者が発声した音声を受信する受信部と、受信した音声の内容を認識する音声認識部と、音声を受信した方向について撮像し、撮像した画像を画像データとして取得する撮像部と、撮像した画像内に存在する発話者の顔を検出する顔検出部と、検出した顔の中から特定部位の動きを抽出する抽出部と、抽出した特定部位の動きに基づいて音声の受信状態を判定する判定部と、音声認識が成功しなかった際に、前記判定した音声の受信状態に基づいて警告信号を出力する出力部と、を設け、受信した音声が確実に発話者から発声されたことを確認することで、発話者に対して音声認識の失敗した原因を理解させるような警告信号を出力可能とした。
【選択図】図３

Description

本発明は、発話者の発した音声の内容を認識するとともに、発話者に対して応答する会話応対型の音声認識ロボット、およびこのような音声認識ロボットの制御方法に関するものである。

近年、人間（発話者）が話し掛けた内容を音声データとして受信し、その内容を認識してその内容に対応した応答文を音声として出力することで、人間との会話を行うための会話型の音声認識システムが、開発されつつある。このような音声認識システムは、システム内部の記憶領域に応答文として発話する音声データを多数記憶しておき、認識した音声の内容に最も関連付けられる音声データを選択し、選択した音声データを音声として発話するものである。このような音声認識システムは、話し掛けられた内容を音声データとして取得し、この音声データを所定の言語の文節に区切ることで、各文節の順序や近接度合いに基づいてその内容に最も適した応答文を選択する。（例えば特許文献１）

一方、このような音声認識システムを利用した、音声認識機能を備えたロボットも、接客などに活用されつつある。このような音声認識ロボットは、人間から話し掛けられた内容が必ずしも理解できるとは限らないため、音声認識を失敗した場合に、話し掛けた人間に対して、音声認識ができなかったことを理解させるために、ロボットに特有の動作を行わせることが行われる（例えば特許文献２）。

特開２００４−１０９３２３号公報特開２００２−１１６７９２号公報

しかしながら、このような音声認識機能を備えたロボットが、音声認識を失敗する理由としては、人間の発した音声の強さ（ボリューム）や音声内容の問題に起因するもの以外に、音声を入力するハードウェア（マイク）の故障や、ドライバ不良などのソフトウェア上の問題に起因するものもある。これらの音声認識を失敗する理由のうち、人間の発声した発話の強さや内容に起因するもの以外の理由については、入力する音声を修正しても音声認識を正しく行うことができない。そのため、前述のように、音声認識が成功しなかったことをロボットが動作により人間（発話者）に伝えた場合、発話者側の音声を調整しても再度音声認識を失敗してしまう。

本発明は、このような問題を解決するためになされたものであり、音声認識が成功しなかった際に、発話者に対して音声認識の失敗した原因を理解させることの可能な音声認識ロボットおよび音声認識ロボットの制御方法を提供することを目的としている。

本発明にかかる音声認識ロボットは、発話者が発声した音声を受信する受信部と、受信した音声の内容を認識する音声認識部と、を備える音声認識ロボットであって、音声を受信した方向について撮像し、撮像した画像を画像データとして取得する撮像部と、撮像した画像内に存在する発話者の顔を検出する顔検出部と、検出した顔の中から特定部位の動きを抽出する抽出部と、抽出した特定部位の動きに基づいて音声の受信状態を判定する判定部と、音声認識が成功しなかった際に、前記判定した音声の受信状態に基づいて警告信号を出力する出力部と、を備えることを特徴としている。

このような音声認識ロボットは、受信した音声の音声認識を成功しなかった際に、受信した音声が確実に発話者から発声されたことを確認することができる。そのため、発話者から音声が発声されたにも関わらず、音声認識ができなかった場合に、発話者の発話の強さや内容によるものではなく、ロボット内部のハードウェアまたはソフトウェア上の理由であると判断することができる。したがって、出力する警告信号中に、音声認識を失敗した理由が発話者の発話の強さや内容によるものではなく、ロボット内部のハードウェアまたはソフトウェア上の理由である旨を含めることにより、発話者に対して音声認識の失敗した原因を理解させることが可能となる。

なお、前記抽出部の抽出する特定部位は、発話者が音声を発声したことを判定できる部位であればいずれの部位を利用してもよいが、検出した顔に含まれる***であることが好ましい。発話者の***の動きを抽出し、その動きに基づいて受信した音声が発話者から発声されたか否かを判定することにより、受信した音声が発話者から確実に発声したものであることを確認することが可能となる。

また、抽出された特定部位が***である場合に、前記判定部は、抽出された***の開閉度合いに基づいて、音声の受信状態を判定するものであってもよい。このように、音声を受信した際に発話者の***が開閉しているか否かを判定することによって、受信した音声が発話者から確実に発声したものであることを簡単に確認することができる。

なお、前記顔検出部としては、どのような手段により発話者の顔を検出するものであってもよいが、発話者の顔に含まれる目と***の位置を特定し、これらの位置に基づいて顔の輪郭を推定することで、顔全体を検出するものであってもよい。このようにすると、人物（発話者）の顔近辺に別の人物や物体等が存在し、ロボットからの距離を測定するだけでは人物の顔の輪郭が特定できない場合であっても、人物の顔内の目と口の位置を検出するだけで、顔の輪郭を特定することが可能になる。

また、このような音声認識ロボットにおいては、前記顔検出部が検出した顔に含まれる両目の位置に基づいて、検出した顔の方向を認識する方向認識部をさらに備えていることが好ましい。このようにすると、顔全体の位置や、発話者の身体全体を考慮することなく、簡単に発話者の顔の向きを簡単に判別することができるとともに、音声を受信した方向に複数の人間が存在した場合に、検出した各々の顔の方向を認識することによって、発話者を特定することが可能となる。なお、音声を受信した方向を特定する手段としては、指向性を有する１または複数のマイクロフォンなどを利用してもよい。このように構成された音声認識ロボットは、音声の受信した方向を簡単にかつ精度よく検出することができるため好適である。

さらに、このような音声認識ロボットは、前記撮像部が、顔検出部により検出した顔を撮像した画像内の略中央に位置し続けさせるように、撮像する方向を変更するように構成されていると、さらに好適である。このようにすると、発話者がロボットに向かって話し掛けている間に移動し、ロボットとの相対的な位置を変更しても、その動きに追従して発話者の顔を検出することができる。さらに、このような音声認識ロボットがヒューマノイド型に構成されている場合、前記撮像部をロボットの顔に相当する位置に設けると、発話者が発話している間、常に会話対象の人物（発話者）の方を向いて応答することができるため、あたかも発話者の顔を見続けて会話を行っているように見せることができるという効果も得られる。

なお、このような音声認識ロボットとしては、床面などに固定されたものであってもよいが、移動手段を備え、所定の領域内を移動可能に構成されているものであってもよい。このような音声認識ロボットは、発話者を特定した状態で自己位置を変更して移動することができるため、例えば会場内などにおいて移動と行いつつ案内を行う案内動作を行うような案内ロボットに用いることが可能になる。

また、本発明は、発話者が発声した音声を受信し、その内容を認識する音声認識ロボットを制御するロボット制御方法をも提供する。このようなロボット制御方法は、詳細には、音声を受信した方向について撮像し、その撮像した画像を画像データとして取得する撮像ステップと、撮像した画像内に存在する発話者の顔を検出する顔検出ステップと、検出した顔の中から特定部位の動きを抽出する抽出ステップと、抽出した特定部位の動きに基づいて音声入力の状態を判定する判定ステップと、音声認識が成功しなかった際に、前記判定した結果に基づいて警告信号を出力する出力ステップと、を備えることを特徴としている。

このようなロボット制御方法を用いることによって、受信した音声の音声認識を成功しなかった際に、受信した音声が確実に発話者から発声されたことを確認することができる。そのため、発話者から音声が発声されたにも関わらず、音声認識ができなかった場合に、発話者の発話の強さや内容によるものではなく、ロボット内部のハードウェアまたはソフトウェア上の理由であることがわかる。したがって、出力する警告信号中に、音声認識を失敗した理由が発話者の発話の強さや内容によるものではなく、ロボット内部のハードウェアまたはソフトウェア上の理由である旨を含めることにより、発話者に対して音声認識の失敗した原因を理解させることが可能となる。

なお、前記抽出ステップにおいて抽出する特定部位は、発話者が音声を発声したことを判定できる部位であればいずれの部位を利用してもよいが、検出した顔に含まれる***であることが好ましい。発話者の***の動きを抽出し、その動きに基づいて受信した音声が発話者から発声されたか否かを判定することにより、受信した音声が発話者から確実に発声したものであることを確認することが可能となる。

また、前記判定ステップにおいては、前記***の開閉度合いに基づいて音声の受信状態の判定を行ってもよい。このように、音声を受信した際に発話者の***が開閉しているか否かを判定することによって、受信した音声が発話者から確実に発声したものであることを簡単に確認することができる。

以上、説明したように、本発明によると、音声認識ロボットに話し掛けた発話者が、ロボットの音声認識を失敗した原因を理解することが可能となる。

発明の実施の形態１．
以下に、図１から図５を参照しつつ本発明の実施の形態１にかかる音声認識ロボットおよび音声認識ロボットの制御方法について説明する。この実施の形態においては、音声認識ロボット（以下、単にロボットという）は、車輪駆動により移動可能で、かつ、上半身がヒューマノイド型に構成されたロボットである例を用いて説明するものとする。

図１に示すロボット１０は、その上半身がヒューマノイド型に構成されるロボットであり、頭部１１、胴体部１２、右腕部１３、左腕部１４、腰部１５および移動手段としての車輪駆動部２０を備えている。

頭部１１は、その前面左右において撮像部としてのカメラ１１１、１１２が設けられるとともに、その側面にアンテナ１１３を備えるほか、前面下方に出力部としてのスピーカ１１４を備えており、さらに外部からの音声信号を入力するための受信部としてのマイク１１５，１１６を備えている。また、頭部１１は、胴体１２に対して床面に水平な面内で左右方向に回動可能に接続されており、頭部１１を回動することでカメラ１１１，１１２の撮像範囲を状況に応じて変更し、周囲の環境を把握することができる。

頭部１１に設けられたカメラ１１１、１１２は周囲の環境を視認するものであり、視認した結果得られる画像データを後述する制御コンピュータに出力する。このようなカメラとしては、例えば周囲の環境を撮像し、撮像した画像をディジタル信号として取得するディジタルカメラを用いることができる。

また、アンテナ１１３は、ロボット１０の絶対位置を認識する位置信号を受信するともに、現在の自己位置や自己の状態を示す信号を送信するために用いられる。これらの情報の送受信は、図示しないロボット監視システムとの間で行われる。後述する制御コンピュータは、アンテナ１１３により受信した位置信号に基づいて、自身の絶対位置をリアルタイムで認識する。このようにして得られた位置信号は、移動する経路や方向を定める際に用いられる。

また、スピーカ１１４は、頭部１１の前面下方に設けられており、制御コンピュータの記憶領域に含まれる音声データファイルから、適宜選択された音声データを外部に出力する。スピーカ１１４から出力される音声ファイルは、ガイドなどの情報の他、後述するように、発話者に話し掛けられた際に応答する内容の複数のファイルで構成されている。そして、これらの音声ファイルのうち、適切なものが発話者に対して適宜選択され、スピーカ１１４を介して外部に出力される。

マイク１１５，１１６は、各々一定の方向からの音声を取得可能な、いわゆる指向性を有するマイクロフォンを水平方向に複数配置したものであり、周囲で発声した音声が、音声認識ロボット１からみて相対的にどの方向から伝達されたものかを大まかに特定することができる。これらのマイク１１５，１１６は、頭部１１の左右の側面に設けられており、音声認識ロボット１の周囲で発せられた音声を取得し、音声データとして取り込み、制御コンピュータ１２０へ出力する。

胴体部１２は、前述のように制御コンピュータ１２０を内蔵するとともに、ロボットの各構成要素に電力を供給するためのバッテリー（図示せず）を備えている。

そして、図２に示すように、胴体部１２の内部には、カメラ１１１や１１２から入力された画像データとしてのディジタル信号や、マイク１１５，１１６から入力された音声信号の内容を認識し、適切な動作を行うための制御部としての制御コンピュータ１２０と、このコンピュータ１２０を含む各構成要素を動作させるための電力供給を行うバッテリー（図示せず）が備えられている。この制御コンピュータ１２０に含まれる図示しない演算処理部は、画像処理により、カメラ１１１，１１２から入力された画像データとしてのディジタル信号から、音声信号を発声した発話者の顔を検出し、さらに、検出した顔の中から目や***を抽出する。これらの画像処理に関する詳細な手順については後述する。

また、右腕部１３および左腕部１４は、胴体部１２の左右側面に取り付けられ、肘部、手首部、指部などの各所において図示しないモータ部により駆動する複数の関節部を備える。そして、制御コンピュータ１２０からの信号により、これらの関節部の関節駆動量を変更することでその姿勢を変更し、物体把持、方向指示などの所望の動作を行うことができる。また、関節部により駆動される各腕部は、その形状が予め制御コンピュータに記憶されており、関節部の駆動により動作を行う際に、その動作により腕部が占める空間が演算処理部により計算されるものとする。

腰部１５は、車輪駆動部２０の上方に固定されるとともに、胴体部１２の底面に対してモータ等の駆動力によって回動可能に取り付けられ、車輪駆動部２０と胴体部１２との相対的な姿勢を変更可能としている。

また、車輪駆動部２０は、図２に示すように、1対の対向する車輪２１、２１と、その前方にキャスタ２２を備える対向２輪型の車両で構成されている。ロボット１０は、これらの車輪２１、２１、キャスタ２２とでその姿勢を水平に支持された状態で移動可能となっている。さらに、車輪駆動部２０の内部には、車輪２１、２１をそれぞれ駆動するモータ２３、２３と、各車輪の回転数を検出するためのカウンタ２４、２４とが備えられている。このように構成された車輪駆動部は、制御コンピュータ１２０により、車輪２１、２１の駆動量をそれぞれ独立に制御され、直進や曲線移動（旋回）、後退、その場回転（両車輪の中点を中心とした旋回）などの移動動作を行うことができるとともに、移動速度や移動する方向が自律的に定められる。

なお、制御コンピュータ１２０は、図３に示すように、入力される音声データからその内容を認識する音声認識部１２１、頭部１０に備えられた前記カメラ１１１，１１２により撮像した画像内に存在する人物の顔を検出する顔検出部１２２、顔検出部１２２により検出した顔の向きを認識する方向認識部１２３、検出した顔の中から、特定部位としての***部分を抽出する抽出部１２４、抽出した特定部位の動きに基づいて音声受信の状態を判定する判定部１２５、警告信号として出力するための応答文データを作成する音声合成部１２６、および所定のプログラムや複数の応答文データからなる応答文データベースなどを記憶する記憶領域１２７ａを有するコントロール部１２７を備えている。

音声認識部１２１は、マイク１１５，１１６から取得した音声をＷＡＶＥファイルなどの音声データに変換するとともに、その音声データを発話区間毎に分割し、各音節を記憶領域１２７ａに記憶された単語データベースを用いて単語に置き換える。そして、各発話区間に含まれる単語およびその語順を解析して、記憶領域に記憶された多数の文章のうち、この解析した音声データに最も近い文章を選び出す。選び出した文章と、音声データとの近似度合いが所定の値以上の場合は、解析した音声データが、選び出した文章と同一の内容として認識し、取得した音声を、選び出した文章と等しい旨を示す信号を出力する。また、最も近い文章が、所定の近似度合いに満たない場合は、該当する文章が記憶領域に記憶されていないとし、取得した音声の内容を認識できなかったことを表す信号を出力する。

なお、音声データを発話区間毎に分割するための処理は、例えばＭＦＣＣ（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）パラメータで表される音声特徴量を用いることができる。このＭＦＣＣパラメータの一例としては、例えば１６［ｂｉｔ］，１６［Ｈｚ］の音声データを所定の微小時間間隔（例えば２０［ｍｓ］）のフレームで、静的特徴ＭＦＣＣ１２次元、動的特徴ＭＦＣＣ１２次元、パワー１次元の合計２５次元の特徴量で表されるものを用いることができる。このようなＭＦＣＣパラメータを入力された音声データから計算し、このＭＦＣＣパラメーから２５個の正規分布からなる音声区間判別用データを計算する。そして、これらの音声区間判別用データと、ＭＦＣＣパラメータとを各次元毎に類似度（例えばマハラノビス距離などを利用）を計算し、この計算を一定時間繰り返した結果得られた平均値を所定の閾値と比較することで、発話区間を判別する。

また、音声認識部１２１は、入力された音声データが音声入力か否かを判別する機能を有している。この音声入力か否かを判別する手法としては、任意の情報処理を利用することができるが、例えば入力された音声の音量が一定時間あたりに音量ゼロのラインを交差する数（ゼロ交差数）を計算し、このゼロ交差数が所定の閾値を超えた場合に音声入力と判別する手法、もしくは、入力された音声データの振幅値の２乗平均を、一定時間について計算し、その値が閾値を超えた場合に音声入力と判別する手法などを用いることができる。

顔検出部１２２は、カメラ１１１、１１２で撮像することにより得られた画像データから、人物の顔部分のみを検出する。この顔検出部１２２は、まず、人物の顔中に含まれる目および口（***）を抽出し、これらの位置に基づいて、顔の輪郭に相当する縁部を推定する。そして、このように推定された顔の輪郭によって囲まれる領域を人物の顔として検出する。

方向認識部１２３は、顔検出部１２２によって、検出された人物の顔に含まれる目の位置、すなわちロボットからの相対距離および相対的方向に基づいて、検出した顔が、ロボットから見てどの方向を向いているかどうかを推定することができる。詳細には、人物の顔に含まれる右目および左目の各中心位置を特定するとともに、各中心位置を結ぶ線分上の中点を特定する。そして、この各中心位置を結ぶ線分を含み、床面に平行な平面内で、この中点から各中心位置を結ぶ線分に垂直な方向を求め、この方向を視線方向、すなわち発話者の顔の向いている方向とする。

さらに、方向認識部１２３は、顔検出部１２２によって検出された、撮像された画像内に含まれる各顔の、ロボットからの相対位置および向いている方向から、検出された顔がロボット自身に向けられているか否かを認識する。具体的には、ロボット自身の位置（例えば頭部１１の中心点）を基準としてここで、各顔の向いている方向には、所定の幅をもたせることとし、詳細には各方向を中心として床面に水平な方向に左右微小角度（例えば５度）ずつ幅を持たせるものとしている。このようにして、各顔がロボット自身の向きを向いているか否かを判断し、ロボット自身の向きを向いていないものは、発話者ではないとみなすものとする。

抽出部１２４は、方向認識部１２３において、ロボットの方を向いていると判断された画像中の顔の中から、特定部位として、***を抽出する。この***部分を抽出するための処理は、任意の処理を用いることができるが、例えば***の形状データを予め多数記憶させておき、認識した顔の中で、前記形状データで表される形状に近似する部分を***として抽出する処理などが用いられる。なお、抽出部１２４においては、抽出した***の画像データを時系列的に連続したフレームとして取得し、記憶領域１２７に記憶する。

判定部１２５は、抽出部１２４で抽出した***の形状を示す画像データで表される連続したフレームから、***が開閉しているか否かを判定する。このような判定手法としては、図４に示すような連続して取得されたＮ個のフレームについて、現在のフレームからＮ個前までのフレームに表される画像との相関値の平均に基づいて判定するものが用いられる。このような平均Ｖ（ｔ）は、現在のフレームをｐ（ｔ）、現在からｉ個前のフレームをＲ（ｔ−ｉ）、相関値を計算する関数をＳとすると、以下の（式１）で表される：

このような平均Ｖ（ｔ）の計算を所定回数（Ｍ回）のフレームごとに繰り返し、フレーム数Ｍ個の相関値平均と、所定の閾値とを比較し、閾値を下回っている場合に、***が開閉していると判断する。なお、***が開閉しているか否かの判定結果は、音声合成部１２６に送信され、出力する音声データを選択する際の判断に利用される。

音声合成部１２６は、音声認識部１２１によって認識された、取得した音声の内容に対応する、予め記憶領域内に多数記憶された応答文データ群の中から、最も適切な応答文データを読み出し、音声ファイルに変換してスピーカ１１４を介して外部に出力する。このとき、必要に応じて、腕部（右腕１２、左腕１３）を用いて身振りなどの動作を、音声出力に併せて行うようにしてもよい。また、音声合成部１２６は、受信した音声の認識に失敗すると、判定部１２５から送信された判定結果に基づいて、適切な応答文データを選択し、音声情報として出力する。

コントロール部１２７は、記憶したプログラムに基づいて、前述した画像データや音声データについて、記憶，加工，出力等の処理を行う他、腕部（右腕部および左腕部）を駆動するモータの駆動量や車輪駆動部２０の動きを制御する。特に、前述した記憶領域１２７ａ内において記憶された、移動経路を決定するためのプログラムに基づいて、周囲の環境に応じて移動経路を適宜決定する。詳細については説明を省略するが、コントロール部１２７においては、移動動作を行う際に、認識された外部の物体に関する情報に基づいて、移動する方向や経路計画、または取り得る動作を自律的に選択することができる。

次に、このように構成された音声認識ロボット１０が、発話者が発声した音声を認識し、その音声入力の状態を判定した後に、判定した結果に基づいて警告信号を出力するまでの手順について、図５に示すフローチャートを用いて説明する。

図５に示すように、まず、音声認識ロボットは、音が入力されるのを待機した状態であり、この状態で外部から音声認識ロボットに向けて発せられた音を受信すると（ＳＴＥＰ１０１）、マイク１１５、１１６は、受信した音が発せられた方向（ロボットが音を受信した方向）を特定する（ＳＴＥＰ１０２）。そして、特定した方向に頭部１１の前面が位置するように頭部１１を回動し、カメラ１１１、１１２により、音の発せられた方向を撮像して画像データを取得する（ＳＴＥＰ１０３）。カメラ１１１，１１２により得られた画像データは、コントロール部１２７に送信され、記憶領域１２７ａ内に記憶される。

次に、記憶された画像データの中から、顔検出部１２２が人物の顔を検出できるか否かを判断する（ＳＴＥＰ１０４）。ここで、画像データ中に人物の顔が１つでも検出できれば、検出した顔の向きを、方向認識部１２３によって認識し、音声認識ロボット１の方を向いている顔が存在するか否かを判断する（ＳＴＥＰ１０５）。また、画像データ中から顔が検出できなければ、音の入力されるのを待機した初期状態に戻る。

音声認識ロボット１の方を向いている顔が存在すれば、それらの顔の、音声認識ロボット１からの各距離を求めて、最も近い位置に存在する顔を選択する（ＳＴＥＰ１０６）。このようにすることで、撮像した画面内に含まれる複数の人物に対して、自分が応答すべき人物を特定することができる。一方、ＳＴＥＰ１０５においてロボットを向いている顔が検出できなかったり、ＳＴＥＰ１０６においてロボットの方を向いている顔が存在しないと判断された場合は、音声認識ロボット１に対して話し掛けた発話者は存在しないと判断し、音の入力されるのを待機した初期状態に戻る。

次に、選択した顔の中から、***部分のみと抽出し（ＳＴＥＰ１０７）、抽出した***の開閉動作が行われているか否かを判断する（ＳＴＥＰ１０８）。そして、開閉動作が行われていなければ、音声認識ロボット１に対して音声が発せられていないと判断し、ＳＴＥＰ１０１に戻って音声を受信するまで待機する。***の開閉動作が行われていると、音声認識部１２１により音声認識を行った結果、受信した音が音声か否かを判断する（ＳＴＥＰ１０９）。受信した音が音声であると判断されると、音声認識部１２１は続いて受信した音声の音声認識を行う（ＳＴＥＰ１１０）。受信した音が音声でないと判断されると、音の入力を待機した初期状態に戻る。

次に、音声認識部１２１の音声認識が成功したか否かを判断する（ＳＴＥＰ１１１）。音声認識が成功すると、認識した音声の内容に対して適切な応答文を記憶された応答部データベースの中から選択し、出力する（ＳＴＥＰ１１２）。一方、音声認識が失敗すると、受信した音声を音声認識できなかった原因として、音声を受信するためのマイク（ハードウェア）またはソフトウェア上の問題であると推定し、その旨を知らせるための応答文（例えば、"マイクを確認してください"など）を選択し、出力する（ＳＴＥＰ２１２）。

そして、応答文の出力が終了した後は、再度音声受信を継続するか否かを判断し（ＳＴＥＰ１１３）、継続する場合は音の入力を待機した初期状態に戻る。音声の受信を継続しない場合は、所定の終了処理を行った後、音声の受信を終了する。

このように、上述した実施形態によると、音声認識ロボットは、受信した音を発話者からの音声であると判断することができるため、この音声が認識できない理由が、受信するためのハードウェアまたはソフトウェア上の問題が原因であると判断することができる。そのため、このような原因を指摘する旨の警告信号を出力することによって、発話者に対してロボットの音声認識を失敗した原因を理解することが可能となる。

なお、このような警告信号の出力は、音声認識を失敗した具体的な理由を内容に含めた音声データを発するものであってもよいが、これに加えて、腕部などの関節駆動によるジェスチャーなどにより、発話者に音声認識を失敗した理由を伝えるようにしてもよい。また、ＬＥＤなどの発光素子をロボットに設け、この発光素子を点滅させることにより、ロボット側のマイク等が不調である旨を発話者に対して伝えるようにしてもよい。また、発話者がロボットに対して遠隔操作を行うためのコントローラ等を所持し、このコントローラを介してロボットに信号を送信している場合には、このコントローラに設けた発光素子や振動素子などを動作させて、ロボットのマイク等が不調である旨を伝えるようにしてもよい。

また、前述の実施形態においては、音声認識ロボットは、受信した音の発声した方向を撮像し、その撮像した画像データ内から発話者の顔を検出するように制御されているが、これに加えて、顔を検出した後も、検出した顔が撮像して得られる画像中の略中央に位置するように、カメラの方向を修正するように制御されてもよい。このようにすると、発話者に対して応答している最中に、ロボットの「顔」に相当する部分が常に発話者を向くため、発話者の顔を見続けて会話を行っているように見せることができるという効果も得られる。また、ロボットの応対中に発話者が移動しても、発話者の動きに追従して発話者の顔を検出することができる。このような、発話者の動きに追従する動作（トラッキング）は、発話者（検出された発話者の顔）が、音声認識ロボットから所定距離以上離れた位置に移動するまで続けるようにすると好適である。このような、発話者の動きに追従する動作を継続するための距離は、撮像部の解像度や、周囲の明るさなどに基づいて決定してもよい。

また、前述の実施形態においては、検出した顔の向きを認識する手法として、発話者の目の位置に基づいて判断した各顔の中心位置に基づいた認識手法を用いているが、これに代えて、発話者の目や口の形状上の特徴（目じりや口端部など）をニューラルネットワークにより抽出することにより認識する手法を用いてもよい。また、カメラにより撮像された画像内における特徴点の三次元位置と、これらの特徴点から得られる顔モデルとの比較により、顔モデルの向きを求めるようにしてもよい。

また、音声認識ロボットの移動手段としては、前述のような車輪とキャスタの組み合わせに限られるものではなく、車輪のみで構成される倒立振子型の移動手段であってもよく、脚部を駆動することで移動する歩行型の移動手段であってもよい。

また、ロボットに設けられる周囲の外部環境を認識する手段としては、撮像部のみではなく、レーザレンジセンサやＣＣＤ等の光学カメラを別途設けたり、ロボット外部に設けられた基地局によりそのような外部環境情報をロボットに送信したりしてもよい。

なお、前述の実施形態においては、、図示しないロボット監視システムからの信号をアンテナ１１３で受信し、ロボットの絶対位置を認識しているが、これに代えて、車輪の回転数などにより移動した距離および方向をオドメトリ法により算出し、自己位置を求めるものであってもよい。また、ロボット監視システムからの情報およびオドメトリ法により算出された自己位置を組み合わせて、より正確な自己位置を算出するようにしてもよい。

また、本実施形態においては、音声認識部は、取得した音声を音声データに変換するとともに、その音声データを音節毎に分割し、分割された音節を単語に置き換える手法が用いられているが、本発明はこれに限られるものではなく、現在用いられている多くの音声認識手法を用いることが可能である。さらに、認識した音声の内容に対して応答する応答文を選択する手法等についても、前記実施形態に限られるものではなく、他の手法を適用することも可能である。

本発明に係る第１の実施の形態である音声認識ロボットの外観を示す全体概略図である。図１に示す音声認識ロボットに備えられた車輪駆動部の内部構造を概略的に示す概略図である。図１に示す音声認識ロボットに備えられた制御部の内部機能を概念的に表したブロック図である。連続して取得されたＮ個のフレームについて、現在のフレームからＮ個前までのフレームに表される画像との相関値の平均に基づいて判定する様子を概念的に示す図である。図１に示す音声認識ロボットが、発話者が発声した音声を認識し、その音声入力の状態を判定した後に、判定した結果に基づいて警告信号を出力するまでの手順を示すフローチャートである。

符号の説明

１０・・・音声認識ロボット
１００・・・制御部
１２１・・・音声認識部
１２２・・・顔検出部
１２３・・・方向認識部
１２４・・・抽出部
１２５・・・判定部
１２６・・・音声合成部
１２７・・・コントロール部
１２７ａ・・・記憶領域
１１１，１１２・・・撮像部（カメラ）
１１４・・・出力部（スピーカ）
１１５，１１６・・・受信部（マイク）
２０・・・移動手段（車輪駆動部）

Claims

発話者が発した音声を受信する受信部と、受信した音声の内容を認識する音声認識部と、を備える音声認識ロボットであって、
音声を受信した方向について撮像し、撮像した画像を画像データとして取得する撮像部と、
撮像した画像内に存在する発話者の顔を検出する顔検出部と、
検出した顔の中から特定部位の動きを抽出する抽出部と、
抽出した特定部位の動きに基づいて音声の受信状態を判定する判定部と、
音声認識が成功しなかった際に、前記判定した音声の受信状態に基づいて警告信号を出力する出力部と、を備える音声認識ロボット。
前記抽出部の抽出する特定部位が、検出した顔に含まれる***であることを特徴とする請求項１に記載の音声認識ロボット。
前記判定部が、前記***の開閉度合いに基づいて、音声の受信状態を判定することを特徴とする請求項２に記載の音声認識ロボット。
前記顔検出部が、発話者の顔に含まれる目と***の位置を特定し、これらの位置に基づいて顔の輪郭を推定することで、顔全体を検出することを特徴とする請求項１から３のいずれかに記載の音声認識ロボット。
検出した顔に含まれる両目の位置に基づいて、検出した顔の方向を認識する方向認識部をさらに備えていることを特徴とする請求項１から４のいずれかに記載の音声認識ロボット。
前記撮像部が、検出した顔を撮像した画像内の略中央に位置し続けさせるように、撮像する方向を変更可能であることを特徴とする請求項１から５のいずれかに記載の音声認識ロボット。
前記音声認識ロボットがさらに移動手段を備え、所定の領域内を移動可能に構成されていることを特徴とする請求項１から６のいずれかに記載の音声認識ロボット。
発話者が発した音声を受信し、その内容を認識する音声認識ロボットを制御する制御方法であって、
音声を受信した方向について撮像し、その撮像した画像を画像データとして取得する撮像ステップと、
撮像した画像内に存在する発話者の顔を検出する顔検出ステップと、
検出した顔の中から特定部位の動きを抽出する抽出ステップと、
抽出した特定部位の動きに基づいて音声の受信状態を判定する判定ステップと、
音声認識が成功しなかった際に、前記判定した結果に基づいて警告信号を出力する出力ステップと、
を備えることを特徴とする音声認識ロボットの制御方法。
前記抽出ステップにおいて抽出する特定部位が、検出した顔に含まれる***であることを特徴とする請求項８に記載の音声認識ロボットの制御方法。
前記判定ステップにおいて、前記***の開閉度合いに基づいて音声の受信状態を判定することを特徴とする請求項９に記載の音声認識ロボットの制御方法。