JP2006181651A - 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム - Google Patents

対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム Download PDF

Info

Publication number
JP2006181651A
JP2006181651A JP2004374946A JP2004374946A JP2006181651A JP 2006181651 A JP2006181651 A JP 2006181651A JP 2004374946 A JP2004374946 A JP 2004374946A JP 2004374946 A JP2004374946 A JP 2004374946A JP 2006181651 A JP2006181651 A JP 2006181651A
Authority
JP
Japan
Prior art keywords
voice
interactive robot
sound source
target voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004374946A
Other languages
English (en)
Other versions
JP4204541B2 (ja
Inventor
Takashi Sonoura
隆史 園浦
Kaoru Suzuki
薫 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004374946A priority Critical patent/JP4204541B2/ja
Priority to US11/311,429 priority patent/US7680667B2/en
Publication of JP2006181651A publication Critical patent/JP2006181651A/ja
Application granted granted Critical
Publication of JP4204541B2 publication Critical patent/JP4204541B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Manipulator (AREA)

Abstract

【課題】対話する人間の操作負担を増加させることなく、音声認識精度を向上させることのできる対話型ロボットを提供する。
【解決手段】音声認識可能な対話型ロボット400であって、音声認識の対象となる目的音声の音源方向を推定する音源方向推定手段と、音源方向推定手段が推定した音源方向に当該対話型ロボット自身を移動させる移動手段と、移動手段による移動後の位置において、目的音声を取得する目的音声取得手段と、目的音声取得手段が取得した目的音声に対して音声認識を行う音声認識手段とを備えた。
【選択図】図1

Description

本発明は、音声認識可能な対話型ロボット、当該対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラムに関するものである。
従来から、人間と音声によって対話するロボットが知られている。このような対話型ロボットには、人間の音声を正確に認識することのできる音声認識機能が必要である。
音声認識機能を向上させるため、S/N比を向上させる技術が開発されている。例えば、少ない数(通常2個)のマイクロホンを使用し、さらに、主副2つのビームフォーマを使用する。そして、副ビームフォーマで目的方向以外の雑音成分を推定し、主ビームフォーマによる目的方向音声を主成分とする音声から雑音成分を差し引く方法が知られている(例えば「特許文献1」参照)。これにより、積極的に目的方向外の雑音を抑圧することができる。
この方法は、目的音声と雑音の入射方向の違いに着目して、信号処理によって目的音声を雑音から分離しようとするものである。したがって、目的音源と雑音源がほぼ同方向にある場合には原理的に分離することができない。目的音源が雑音源よりも十分近くないと雑音の影響が大きく残ることになる。
この問題は、音源を発した音声(球面状に広がる粗密波)の強度が同じ場合には、マイクロホンに到達したときの強度が音声の伝播距離の2乗に反比例するという物理現象に深く関係している。すなわち、目的音源が雑音源より相対的に近いほどS/N比は向上する。例えば30cmの距離から発せられた音声と1mの距離から発せられた音声では強度が10倍異なる。
しかし、2mと3mではその差が1mあるが、強度的は2.25倍の差にしかならない。すなわち、目的音源がマイクロホンに近いほど音声認識を精度よく行うことができる。
この事実を利用したものが話者の口元にマイクロホンを持っていく方法である。例えば、パソコンに実装されている音声認識システムの多くは、話者がヘッドセット型マイクロホンを装着するものである。このように、音源の至近距離にマイクロホンを配置することにより、S/N比の向上を図っている。
特開2001−100800号公報
しかしながら、この方法では話者は常にマイクロホンを装着していなければならない。対話型ロボットにおいては、当該ロボットにマイクロホンが内蔵されている。したがって、上述のように話者との距離に着目した方法を対話型ロボットに採用した場合には、対話型ロボットは常に話者の近くにいなければならない。したがって、話者の命令に応じて移動し、様々な行動を行うような対話型ロボットには適さない。一方、人間自身が発話する度に、対話型ロボットに近づくことも可能である。しかし、動けない人などにとっては不便である。
本発明は、上記に鑑みてなされたものであって、対話する人間の操作負担を増加させることなく、音声認識精度を向上させることのできる対話型ロボットを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、音声認識可能な対話型ロボットであって、音声認識の対象となる目的音声の音源方向を推定する音源方向推定手段と、前記音源方向推定手段が推定した前記音源方向に当該対話型ロボット自身を移動させる移動手段と、前記移動手段による移動後の位置において、前記目的音声を取得する目的音声取得手段と、前記目的音声取得手段が取得した前記目的音声に対して前記音声認識を行う音声認識手段とを備えたことを特徴とする。
また、本発明は、音声認識可能な対話型ロボットの音声認識方法であって、音声認識の対象となる目的音声の音源方向を推定する音源方向推定ステップと、前記音源方向推定ステップにおいて推定した前記音源方向に当該対話型ロボットを移動させる移動ステップと、前記対話型ロボットが前記移動ステップにおける移動後の位置に存在するときに、前記目的音声を取得する目的音声取得ステップと、前記目的音声取得ステップにおいて取得した前記目的音声に対して前記音声認識を行う音声認識ステップとを有することを特徴とする。
また、本発明は、音声認識可能な対話型ロボットの音声認識処理をコンピュータに実行させる音声認識プログラムであって、音声認識の対象となる目的音声の音源方向を推定する音源方向推定ステップと、前記音源方向推定ステップにおいて推定した前記音源方向に当該対話型ロボットを移動させる移動ステップと、前記対話型ロボットが前記移動ステップにおける移動後の位置に存在するときに、前記目的音声を取得する目的音声取得ステップと、前記目的音声取得ステップにおいて抽出した前記目的音声に対して前記音声認識を行う音声認識ステップとを有することを特徴とする。
本発明にかかる対話型ロボットは、音源方向推定手段が音声認識の対象となる目的音声の音源方向を推定し、移動手段が音源方向に当該対話型ロボット自身を移動させ、目的音声取得手段が移動手段による移動後の位置において、外部の音から目的音声を取得し、音声認識手段が目的音声に対して前記音声認識を行うので、目的音声を良好な状態で取得することができるという効果を奏する。さらに、このように、対話型ロボット自身が移動するので対話者の煩雑な操作を要することなく、音声認識精度を向上させることができるという効果を奏する。
以下に、本発明にかかる対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
(実施の形態1)
図1は、実施の形態1にかかる対話型ロボット400の外観図である。対話型ロボット400は、人間が命令内容を発話すると、音声認識により命令内容を認識する。そして、命令内容を実行する。例えば、「右に移動」と命令すると、右に移動というフレーズを音声認識し、実際に右に移動する。
対話型ロボット400は、CCDカメラ411,412と、マイクロホンアレイ430と、超音波センサ440と、移動用車輪451,452とを備えている。
マイクロホンアレイ430は、画像センサである。2つのCCDカメラ411,412を備えることにより、ステレオ視による距離の算出が可能である。
マイクロホンアレイ430は、複数の音声マイクにより形成されている。各音声マイクの受信回路にはゲイン調整機能付OPアンプによる信号増幅装置(後述)が内蔵されている。この信号増幅装置により、入力信号の強度を適切な大きさに増幅することができる。
超音波センサ440は、測距センサである。なお、距離を測定するためのセンサであればよく、特に超音波センサ440に限定されるものではない。他の例としては、例えば、レーザーレンジファインダーであってもよい。
移動用車輪451,452は、対話型ロボット400自身を移動させるための移動手段である。移動用車輪451,452はさらに回転可能であって、移動方向を変更することもできる。このように、移動手段を備えることにより、自律的に任意の位置および方向に移動することができる。
図2は、対話型ロボット400に特徴的な音声認識処理を実現する処理部100の機能構成を示すブロック図である。
処理部100は、命令音声データベース(DB)102と、誤認通知音声DB104と、音声認識部110と、命令内容実行指示部112と、音源方向推定部120と、音源距離推定部122と、移動指示部124と、S/N比算出部130と、信号強度評価部132と、増幅ゲイン調整指示部134と、増幅ゲイン値取得部140と、飽和評価部142とを備えている。なお、本実施の形態にかかる音声認識部110は、特許請求の範囲に記載の目的音声取得手段および音声認識手段に相当する。
命令音声DB102は、処理部100が実行可能な命令内容に対応する命令音声の音声パターンを格納している。
誤認通知音声DB104は、誤認通知音声の音声パターンを格納している。ここで、誤認通知音声とは、人間が対話型ロボット400に対して「右に移動」と命令したにもかかわらず、左に移動した場合に音声認識を誤っていることを対話型ロボット400に通知するための音声である。誤認通知音声DB104は、予め所定の誤認通知音声の音声パターンを格納している。なお、対話型ロボット400と対話する人間は、誤認通知音声DB104に格納されている誤認通知音声を知っているものとする。
誤認通知音声は、特に所定の音声、すなわち単語やフレーズに限定されるものではないが、対話型ロボット400との対話において頻繁に利用されるフレーズ以外のフレーズであることが望ましい。頻繁に利用されるフレーズ等を誤認通知音声とした場合には、命令内容に誤認通知フレーズが含まれる場合が生じやすい。この場合、対話者が対話型ロボット400に対して命令内容を話し掛けているにもかかわらず、命令内容の途中で誤認通知音声を誤って音声認識し、誤認したと判断してしまうからである。
音声認識部110は、マイクロホンアレイ430から音声信号を取得する。そして、取得した音声信号に対して音声認識を行う。より具体的には、マイクロホンアレイ430を用いて収音した音に対して、周波数解析やパターンマッチングを行う。詳細な技術については、特開2003−204346号公報に記載されている。さらに、本実施の形態においては、命令音声DB102に格納されている命令音声の音声パターンおよび誤認通知音声DB104に格納されている誤認通知音声の音声パターンとのパターンマッチングにより、音声認識を行う。
命令内容実行指示部112は、命令音声DB102に格納されている命令音声が音声認識結果として得られた場合に、命令音声に対応する命令内容の実行を各部に指示する。例えば、「右に移動」という命令音声であった場合には、移動用車輪451,452の駆動機構に対して駆動を指示する。
音源方向推定部120は、人間が話し掛けた場合にマイクロホンアレイ430の各音声マイクが検出した音声に基づいて、音源の方向を推定する。すなわち、対話者の方向を推定する。
図3および図4を参照しつつ、マイクロホンアレイ430の検出結果に基づいて音源方向を推定する方法を説明する。図3は、マイクロホンアレイ430のうち2つの音声マイクMi,Mjにおいて観測された平面波の信号強度を示している。グラフの横軸は時間を示している。
平面波は、2つの音声マイクMi,Mjが感知した同一の音声信号に対応するものである。そこで、平面波Mi,Mjの到達時間差ΔTijを算出する。そして、2つの音声マイクMi,Mjの間の距離dと、時間差ΔTijとに基づいて、音源方向θを算出することができる。具体的には、(式1)によりθを算出する。
Figure 2006181651
ここで、Vswは音速を示している。
なお、(式1)は、(式2)に示す連立方程式から得られる。
Figure 2006181651
さらに別の音声マイクの組を用いて、同様の手法により同一の音波から推定音源方向の候補となる方向成分θ’を求める。そして、この2つの音源方向の候補を重ね合わせることにより音源方向の範囲を限定する。音源方向の範囲が予め定めた閾値内に収まるまで、複数の組み合わせから音源方向の範囲を限定する処理を繰り返す。そして、収束した方向を音源方向とする。
また、他の例としては、超音波センサ440のような測距センサからの検出結果に基づいて音源方向を推定してもよい。
また他の例としては、CCDカメラ411,412が人間の口の画像を撮像した場合に、撮像方向を音源方向として推定する。このように、対話型ロボット400が備えている各種センサに入力された信号に基づいて音源方向を推定すればよく、その方法は本実施の形態に限定されるものではない。
音源距離推定部122は、音源までの距離である音源距離を推定する。具体的には、超音波センサ440からの検出結果に基づいて、音源距離を推定する。また他の例としては、CCDカメラ411,412のステレオ視により音源距離を推定してもよい。
移動指示部124は、対話型ロボット400を移動させるべく移動を指示する。具体的には、移動用車輪451,452の駆動機構に対して移動すべき旨を示す移動指示を出力する。駆動機構に対して移動指示が送られると、移動指示に基づいて駆動し、移動用車輪451,452が動作する。これにより実際に対話型ロボット400が移動する。
移動指示部124は、対話者が話し掛けているにもかかわらず、音声認識に失敗した場合など、所定の場合に移動を指示する。
S/N比算出部130は、マイクロホンアレイ430が収音した音声信号のS/N比を算出する。ここで、S/N比とは、対話者の音声の信号強度の、外部ノイズの信号強度に対する相対値である。信号強度評価部132は、S/N比算出部130が算出したS/N比と予め定めた閾値とを比較する。増幅ゲイン調整指示部134に対して出力指示を送る。また、音声認識部110に対して認識開始指示を送る。いずれの指示を送るかは比較結果に応じて決定する。
増幅ゲイン値取得部140は、信号増幅用OPアンプ(後述)から現在設定されている増幅ゲインの値を取得する。
飽和評価部142は、マイクロホンアレイ430が取得した音声の信号強度と飽和強度とを比較する。ここで、飽和強度を説明する前提として、マイクロホンアレイ430の各音声マイクにおいて収音された音声信号の処理について説明する。
図5は、マイクロホンアレイ430の各音声マイクにおいて収音された音声信号の処理にかかるハードウェア構成を示す図である。
対話型ロボット400は、音声信号処理にかかるハードウェア構成として、信号増幅用OPアンプ200と、A/D変換部202と、コントローラ300とを備えている。
マイクロホンアレイ430の音声マイク432が収音した音声信号は、信号増幅用OPアンプ200において増幅される。信号増幅用OPアンプ200で増幅された音声信号は、A/D変換部202においてA/D変換される。そして、デジタル信号としてコントローラ300に送られる。コントローラ300に送られたデジタル信号は処理部100に利用される。
図6は、飽和強度を説明するための図である。図6に示すグラフは、音声信号のスペクトル分布とA/D変換域とを示している。音声信号がA/D変換における最大参照電圧まで達している場合には、信号強度に応じた信号に変換されず一定値に変換されてしまう。このような飽和状態になるデジタル信号の信号強度が飽和強度である。すなわち、A/D変換域の最大値が飽和強度である。
飽和評価部142は、さらに増幅ゲイン値取得部140から現在の増幅ゲイン値を取得する。そして、飽和強度以上である場合には、増幅ゲイン調整指示部134に対して、増幅ゲイン値を調整すべく出力指示を送る。または、移動指示部124に対して、対話型ロボット400を対話者から遠ざけるべく出力指示を送る。いずれの指示を送るかは、現在の増幅ゲイン値に基づいて決定する。
図7は、命令音声DB102のデータ構成を模式的に示している。命令音声DB102は、各種命令を示す命令音声の音声パターンに対応付けて、命令内容実行指示部112が指示すべき命令内容を格納している。
例えば、「右に移動」に対応する命令内容とは、具体的には、例えば、「命令先:移動用車輪451,452、実行内容:移動、移動方向:右」のように具体的に指示すべき実行内容が格納されている。
図8は、処理部100の音声認識処理を示すフローチャートである。対話型ロボット400は、常に音声認識エンジンを作動させている。人との対話をしていないときは別の作業を行っているが、人から話しかけられた場合には、音声認識を行う。
対話型ロボット400には、対話を開始するための対話開始キーワードが予め登録されている。この対話開始キーワードを認識すると、以降話しかけられた内容を音声認識し、命令内容を実行する。
例えば、音声認識部110は「ロボット君」という単語を対話開始キーワードとして保持しておく。そして、命令音声DB102は、マイクロホンアレイ430が対話開始キーワードの音声信号を収音するのを待ち受けている。
マイクロホンアレイ430が対話開始キーワードを収音すると、音声認識部110は、音声認識結果として「ロボット君」という対話開始キーワードを得る。これにより、本実施の形態に特徴的な音声認識処理が開始する。
このように、対話開始キーワードの音声認識は以降の対話を開始するための開始条件となる。したがって、言葉の強弱や撥音便などが少ないものを対話開始キーワードとするのが好ましい。また、ワード長も適切な長さとし、外乱ノイズに強いものを対話開始キーワードとするのが好ましい。これにより、一般の会話音声よりも容易に対話開始キーワードの音声認識を行うことができる。
図8に示すように、音声認識部110が音声認識の結果として「ロボット君」という対話開始キーワードを得ると(ステップS100,Yes)、次に、音源方向推定部120は、音源方向を推定する(ステップS102)。具体的には、「ロボット君」という音声信号に対するマイクロホンアレイ430の各音声マイクの検出結果に基づいて音源方向を推定する。
次に、移動指示部124は、音源方向推定部120が推定した音声方向に対話型ロボット400本体を向けるよう対話型ロボット400を回転させる(ステップS104)。具体的には、移動指示部124は、移動用車輪451,452を回転させる旨の指示である回転指示を移動用車輪451,452の駆動機構に向けて出力する。当該情報により、移動用車輪451,452の駆動機構が駆動して実際の回転動作が実行される。なお、駆動機構については後述する。
なお、本実施の形態にかかる対話型ロボット400は、対話型ロボット400の筐体の周囲に複数の音声マイクが取り付けられているので、必ずしも当該処理は必要ではない。ただし、CCDカメラ411,412が人の画像を捕らえる観点からは、CCDカメラ411,412を音声方向に向けるよう方向を変更するのが好ましい。
次に、音源距離推定部122は、超音波センサ440の検出結果に基づいて音源距離を推定する(ステップ106)。以上の処理が完了すると、対話者の発話を待ち受ける。
そして、命令音声DB102が音声信号を取得すると(ステップS110,Yes)、S/N比算出部130は、「ロボット君」という音声に対応する音声信号を取得し、当該音声信号のS/N比を算出する(ステップS112)。
次に、信号強度評価部132は、S/N比算出部130が算出したS/N比と予め定めた閾値とを比較する。S/N比が閾値よりも小さい場合には(ステップS114,No)、信号強度評価部132は、対話型ロボット400を音源方向に移動させるべく移動指示部124に対して出力指示を送る。移動指示部124は、出力指示を取得すると音源方向への移動指示を駆動機構に対して出力する(ステップS116)。駆動機構は、移動指示を取得すると移動用車輪451,452を駆動させる。これにより、実際に対話型ロボット400が音源方向に移動する。そして、ステップS110へ戻り、再び音声信号の入力を待ち受ける。
なお、移動距離は、音源方向推定部120が推定した音源距離に基づいて定める。例えば、このとき進む距離を予め設定しておく。そして、音源方向推定部120が推定した音源距離以下であれば、予め設定された距離だけ進む。一方、音源距離よりも大きい場合には、音源距離またはこれより一定値だけ短い距離だけ進むこととする。このように音源方向に移動することにより、S/N比を向上させることができる。
以上のように、本実施の形態においては、より精度よく音声認識を行うべく対話型ロボット400自身が対話者の方向に移動する。このように、対話型ロボット400が対話者の方へ近づくことにより、対話者との親和性の向上を図ることもできる。
従来手法のように、ロボットが人に対して認識を失敗したときと同じ状況でもう一度発話を要求するとか、人をロボットの方へ近づけさせるよう人間に対して命令するのではなく、ロボット自身が人間に近づきその上で再度の発話を要求をすることで、ロボット側から歩み寄りがあったという状況を作り、この状況が心理的に「ロボットに命令された」という負の印象を和らげ、ロボットに対する不満・不快感を和らげる心理的効果を得ることができる。
図9−1および図9−2は、対話者と対話型ロボット400との距離とS/N比との関係を説明するための図である。
図9−1に示すように、外部ノイズが大きい場合には対話者が発話しているにもかかわらず、対話者の音声成分が外部ノイズに埋もれてしまう。このため、対話者の音声成分を分離することが困難である。
これに対し、図9−2に示すように、対話型ロボット400が対話者に近付くと、対話者の音声成分の信号強度が増大する。したがって、対話者の音声成分を外部ノイズから分離するのが容易になる。このように、S/N比を向上させることができる。
図10−1、図10−2および図11は、発話者の後方に外部ノイズの音源が存在する場合の、対話者と対話型ロボット400との距離とS/N比との関係を説明するための図である。図10−1および図10−2は、対話者と対話型ロボット400との距離および外部ノイズ音源と対話型ロボット400との距離を示している。図11に示すグラフの横軸は対話者と対話型ロボット400との距離を示している。縦軸は、音声信号の信号強度を示している。
図10−1に示す位置500に対話型ロボット400が位置する場合には、対話型ロボット400と対話者との間の距離は距離510である。対話型ロボット400が図10−1に示す位置500から図10−2に示す位置502まで移動した場合には、対話型ロボット400が対話者に近付くので、対話型ロボット400と対話者との間の距離は距離510より短い距離512となる。
ただし、このとき、対話型ロボット400と外部ノイズの音源との距離も距離520から距離520よりも短い距離522に変化するので、外部ノイズの信号強度も大きくなってしまう。
しかし、図11のグラフに示すように、音波の強度は空間においては距離の二乗に反比例して減衰する。したがって、対話型ロボット400が対話者に接近することにより、外部ノイズとの距離が小さくなることによる影響よりも対話型ロボット400との距離が小さくなることの影響の方が大きい。すなわち、S/N比を効果的に向上させることができる。
再び説明を図8に戻す。ステップS114において、S/N比が閾値以上である場合には(ステップS114,Yes)、ステップS120へ進む。
次に、飽和評価部142は、信号強度と飽和強度とを比較する。信号強度が飽和強度以上である場合には(ステップS120,Yes)、飽和評価部142は、増幅ゲイン値取得部140から現在設定されている増幅ゲインの値を取得する(ステップS122)。そして、現在設定されている増幅ゲインの値が設定可能な増幅ゲイン値の下限値でなければ(ステップS124,No)、増幅ゲインの値を下げる(ステップS126)。
このように、増幅ゲインの値を下げることにより信号強度を飽和強度以下に下げることができる。したがって、良好にA/D変換を行うことができる。
一方、現在設定されている増幅ゲインの値が設定可能な増幅ゲインの下限値である場合には(ステップS124,Yes)、飽和評価部142は、移動指示部124に対して対話型ロボット400を音源方向と逆の方向に移動させるべく出力指示を送る(ステップS128)。移動指示部124は、出力指示を取得すると音源方向と逆の方向、すなわち音源から遠ざかる方向への移動指示を駆動機構に対して出力する。そして、駆動機構は、移動指示を取得すると移動用車輪451,452を駆動させて、実際に対話型ロボット400が音源から遠ざかる方向に移動する。そして、ステップS110へ戻り、再び音声信号の入力を待ち受ける。
対話者が話し掛けているにもかかわらず対話ロボットが対話者から遠ざかると、対話者に「自分が避けられている」という心象を抱かせる可能性が高い。このため、対話型ロボット400に対する不快感を抱かせ、親和性を損なう可能性が高い。そこで、上述のように信号強度が強い場合には、まず増幅ゲインの値の調整により対応することとした。これにより、親和性の低下を回避することができる。
なお、対話者の声および外部ノイズの両方が大きい場合には、まず増幅ゲインを下げることにより、音声信号の大きさを適切な値に調整する。
図12は、対話者と対話型ロボット400との距離がTである場合の音声信号の信号強度を示している。なお、このときの増幅ゲインの値は、Gである。このとき、対話者の音声成分の信号強度は、飽和強度よりも大きい値を示している。したがって、A/D変換された場合には、音声信号に対応する信号が得られない。そこで、この場合には、増幅ゲインの値をG’とする。ここで、G’は、Gよりも小さい値である。このように、増幅ゲインの値を小さくすることにより信号強度を小さくすることができる。
図13は、増幅ゲインの値をG’とした場合の音声信号の信号強度を示している。なお、このときの距離はTである。図13に示すように、音声信号の信号強度は、飽和強度よりも小さい値となっている。さらに、この場合には、外部ノイズに対する信号強度も小さくなる。したがって、S/N比は増幅ゲインを下げる前と変わらない。
このように、増幅ゲインの値を小さくし、A/D変換時に信号強度を飽和強度より小さくすることにより、音声信号に対応するデジタル信号を得ることができる。
ただし、図12に示す状態において、増幅ゲインの値Gが増幅ゲインの変更可能な範囲の下限値であった場合には、これ以上増幅ゲインを下げることができない。そこで、上述のように、対話者から離れる方向に移動することとする。
図8に示すステップS120において信号強度が飽和信号よりも小さい場合には(ステップS120,No)、図14に示すステップS130へ進む。
そして、図14に示すように、A/D信号が飽和しておらず、かつ信号強度が閾値以上となると音声認識部110は音声認識を行う(ステップS130)。例えば、パターンマッチング手法を用いることで音声内容を認識する。
入力信号からフィルタリング等を用いてノイズ除去抽出された音声波形すなわち音声パターンの形状と命令音声DB102に予め登録されている命令音声の音声パターンまたは誤認通知音声DB104に予め登録されている誤認通知音声の音声パターンの形状とを1つずつ照合する。そして、一致精度の最も高いものを発話内容として認識する。一致精度が一定の閾値を越えない場合、その入力信号はどの登録音声とも一致しないとみなすこととする。この状況は音声認識の失敗に該当する。
音声認識に失敗した場合には(ステップS132,No)、ステップS116へ進む。すなわち、命令内容実行指示部112は、移動指示部124に対して音源方向に移動させる旨の移動命令を送る。そして、移動指示部124は、音源方向への移動指示を出力する。
音声認識に成功し、かつ音声認識結果が命令音声DB102に格納されている命令音声であった場合には(ステップS132,Yes、ステップS134,Yes)、命令内容実行指示部112は、命令内容指示を出力する。これにより、指示内容が実行される(ステップS136)。
命令内容を実行している間にさらに音声を取得すると(ステップS140,Yes)、命令内容実行指示部112は、実行中断命令を出力する。これにより、命令内容の実行が中断される(ステップS142)。そして、ステップS130へ戻り、ステップS140において取得した音声に対する音声認識が行われる。
命令内容の実行中に音声を取得した場合、取得した音声は誤認通知音声である可能性が高い。そこでこのように、音声を取得した場合には実行内容を中断し、取得した音声内容の認識処理を行う。なお、実行中断は、誤認通知音声であると判断されたときに行ってもよい。
一方、命令内容実行中に音声を取得せず命令内容の実行が完了すると(ステップS140,No、ステップS144,Yes)、音声認識処理が完了する。
また、音声認識の結果が命令音声ではなく、誤認通知音声であった場合には(ステップS134,No)、ステップS116へ進む。すなわち、命令内容実行指示部112は、移動指示部124に対して音源方向に移動させる旨の移動命令を送る。そして、移動指示部124は、音源方向への移動指示を出力する。
音声認識部110は音声認識を誤る場合がある。しかし、対話型ロボット400自身は誤認していることを判断できない。したがって、対話型ロボット400は誤認した命令内容の実行を開始する。一方、対話者はこの行動を見て、誤認していると判断することができる。そこで、対話者が誤認通知音声を話し掛けることとする。対話型ロボット400が誤認通知音声を認識すれば、前回の音声認識が誤認であったと判断することができる。誤認通知音声は、例えば「違う、違う」のように「違う」と2度繰り返す単語などが好ましい。2度繰り返すことにより、他のフレーズとの区別が容易となるからである。また2度繰り返す対象となる単語を簡単な単語とすることで、音声認識が容易となるからである。
さらに、より具体的な処理について説明する。例えば、対話者である人間の発話の音以外の音、すなわち外部ノイズが大きい場合が想定される。この場合には、人間の発話に対する信号強度と外部ノイズの信号強度の差が小さい場合、すなわちS/N比が閾値よりも小さい場合には(ステップS114,No)、音源方向への移動指示が出力され(ステップS116)、対話者に近付く。そして、対話者と対話型ロボット400との距離を小さくした上で、再度発話要求を出す。例えば、「もう一度しゃべってください」等の音声を出力してもよい。
具体的には、例えば、対話型ロボット400はスピーカを備えており、移動指示部124はスピーカに対して、発話要求を送る。移動指示部124は、発話要求に応じて「もう一度しゃべってください」と音声を出力する。なお、本実施の形態にかかる移動指示部124は、特許請求の範囲に記載の発音指示手段に相当する。
対話者に近付くことにより対話者の発話に対する音声信号の信号強度が大きくなる。一方、外部ノイズの信号強度はほとんど変化しない。したがって、対話者の発話に対する音声信号の、外部ノイズの信号強度に対する相対的強度が高まる。すなわち、S/N比が低下する。これにより、対話者の発話に対する音声信号の検出率が上昇する。したがって、音声認識の性能も向上する。
このとき、信号強度が飽和強度よりも小さくなるよう処理が行われるので(ステップS120〜ステップS128)、A/D変換を良好に行える状態に調整することができる。また、以上の処理により適切な信号強度に設定した後、音声認識を行うので(ステップS130)、音声認識精度を向上させることができる。
さらに、音声認識に失敗した場合や、誤認した場合には、音源方向に移動した上で、再度発話要求を出す。これにより、より良好な状態で対話者の音声信号を取得することができる。
図15は、実施の形態1に係る対話型ロボット400のハードウェア構成を示す図である。対話型ロボット400は、ハードウェア構成として、対話型ロボット400における音声認識処理を実行する音声認識プログラムなどが格納されているROM52と、ROM52内のプログラムに従って対話型ロボット400の各部を制御するCPU51と、対話型ロボット400の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。
先に述べた対話型ロボット400における音声認識プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
この場合には、音声認識プログラムは、対話型ロボット400において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、本実施の形態の音声認識プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
さらに、対話型ロボット400は、ハードウェア構成として、前述のマイクロホンアレイ430と、CCDカメラ411,412と、信号増幅用OPアンプ200と、A/D変換部202と、超音波センサ440と、移動用車輪451,452と、車輪駆動機構460と、これらのハードウェアを制御するコントローラ300とを備えている。
(実施の形態2)
次に、実施の形態2にかかる対話型ロボット400について説明する。実施の形態2にかかる対話型ロボット400は、CCDカメラ411,412が得たカメラ画像において対話者を捕らえる。そして、画像中の対話者の口の動きに基づいて発話中か否かを判断する。この点で、実施の形態2にかかる対話型ロボット400は、音声認識により発話中か否かを判断する実施の形態1にかかる対話型ロボット400と異なっている。
図16は、実施の形態2にかかる対話型ロボット400の処理部100の機能構成を示すブロック図である。実施の形態2にかかる処理部100は、実施の形態1にかかる処理部100の構成に加えて、画像取得部160と、口動作検出部162と、発話判断部164とを備えている。
画像取得部160は、CCDカメラ411,412からカメラ画像を取得する。口動作検出部162は、画像取得部160が取得したカメラ画像から対話者を抽出する。さらに、対話者の口部分を割り出す。口部分を割り出す処理の詳細は、特開2000−99722号公報に記載されている。そして、口の動きを検出する。より具体的には、口が動いているか否かを判断する。例えば、オプティカルフローを用いて口の動きを検出してもよい。
発話判断部164は、口動作検出部162から口が動いているか否かの判断結果を取得する。さらに、カメラ画像がCCDカメラ411,412により撮影されたタイミングでマイクロホンアレイ430が収音した音声信号を取得する。発話判断部164は、音声信号に対話者の音声が含まれるか否かおよび口の動きの有無に基づいて、移動指示部124に出力指示を送る。
例えば、口が動いていないにもかかわらず対話者の音声が検出され、音声認識が行われた場合には、誤った音声認識であることがわかる。すなわち、良好な状態で音声信号を取得できていないことがわかる。そこで、この場合には、対話者の発話内容をより正確に音声認識することができる。
図17は、実施の形態2にかかる対話型ロボット400の音声認識処理のうちの一部の処理を示すフローチャートである。実施の形態2にかかる対話型ロボット400の音声認識処理は、実施の形態1にかかる対話型ロボット400の音声認識処理とほぼ同様であるので、ここでは、実施の形態2に特徴的な処理について説明する。
図17に示すように、実施の形態1において図8を参照しつつ説明した(ステップS110において音声信号を取得せず待機している状態のときにも、画像取得部160は、定期的に画像を取得する(ステップS200)。次に、口動作検出部162は、画像取得部160が取得した画像から口動作を検出する(ステップS202)。次に、発話判断部164は、口動作検出部162の検出結果に基づいて発話の有無を判断する。発話がないと判断した場合には(ステップS204,No)、ステップS110に戻り、再び音声信号の入力を待ち受ける。
音声信号を取得しておらず、かつ口動作もない場合には、対話者は話し掛けていないと判断することができる。この場合に発話判断部164は発話がないと判断する。
一方、ステップS204において、発話があったと判断した場合には(ステップS204,Yes)、図8に示したステップS116へ進む。
音声信号を取得していないにもかかわらず、口動作が検出された場合には音声信号を正しく収音できていない可能性が高い。そこで、ステップS116の処理を行うことにより、効率的に対話者の音声を取得する。
また、ステップS110において音声信号を取得した場合には(ステップS110,Yes)、画像取得部160は、マイクロホンアレイ430が音声信号を収音したタイミングでCCDカメラ411,412が撮像したカメラ画像を取得する(ステップS210)。次に、発話判断部164は、口動作を検出し(ステップS212)、発話判断部164は、発話の有無を判断する。
発話があったと判断した場合には(ステップS214,Yes)、図8に示したステップS112へ進む。音声信号を取得し、かつ口動作が検出された場合には、正しく音声信号を取得できていることがわかる。したがって、次の処理に進む。
一方、発話がないと判断した場合には(ステップS214,No)、図8に示したステップS116へ進む。
音声信号を取得したにもかかわらず、口動作が検出されない場合には、外部ノイズを対話者の発話と誤って取得した可能性が高い。そこで、ステップS116の処理を行うことにより、精度よく対話者の音声を取得する。
このように、実施の形態2にかかる対話型ロボット400は、CCDカメラ411,412が取得したカメラ画像に基づいて音声信号を正確に取得できているか否かを判断することができる。さらに、この判断結果に基づいて、対話型ロボット400を対話者の方向に移動させるか否かを判断することができる。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
そうした第1の変更例としては、本実施の形態においては対話開始キーワードを音声認識することが処理の開始条件であったが、これにかえて、CCDカメラ411,412は定期的に対話者の画像を撮像し、当該画像において口動作が検出されたことを処理の開始条件としてもよい。
また、第2の変更例としては、実施の形態1において図8を参照しつつ説明したS/N比算出処理(ステップS112)の後に、実施の形態2において図17を参照しつつ説明した口動作検出にかかる一連の処理(ステップS200〜ステップS204)を行ってもよい。
図18はこの場合の処理を示す図である。S/N比が閾値以上であり、かつ口動作が検出された場合には、図8に示すステップS114へ進む。また、S/N比が閾値以上であり、かつ口動作が検出されなかった場合にはステップS116へ進む。S/N比が閾値以上であっても、口動作が検出されていないため対話者の音声以外の音声を取得している可能性が高いからである。
S/N比が閾値未満であって、かつ口動作が検出された場合にはステップS116へ進む。口動作が検出されていることから対話者が話しかけている可能性が高いからである。また、S/N比が閾値未満であって、かつ口動作が検出された場合にはステップS110へ進む。この場合には対話者が話し掛けていないと推定できるからである。
このように、S/N比と口動作とを総合して判断することにより、より適切な処理を行うことができる。したがって、より精度よく音声認識を行うことができる。
また、第3の変更例としては、実施の形態1において図14を参照しつつ説明した音声認識処理130の後に、実施の形態2において図17を参照しつつ説明した口動作にかかる一連の処理(ステップS200〜ステップS204)を行ってもよい。図19は、この場合の処理を示す図である。音声認識に成功し、かつ口動作が検出された場合には、図14に示すステップS134へ進む。また、音声認識に成功し、かつ口動作が検出されなかった場合には図8に示すステップS116へ進む。音声認識に成功している場合であっても、口動作が検出されていない場合には、他の音声を誤認識している可能性が高いからである。
一方、音声認識に失敗し、かつ口動作が検出された場合には、ステップS116へ進む。また、音声認識に失敗し、かつ口動作が検出されなかった場合にはステップS110へ進む。
このように、音声認識の結果と口動作とを総合して判断することにより、より適切な処理を行うことができる。したがって、より精度よく音声認識を行うことができる。
実施の形態1にかかる対話型の対話型ロボット400の外観図である。 対話型ロボット400に特徴的な音声認識処理を実現する処理部100の機能構成を示すブロック図である。 マイクロホンアレイ430の検出結果に基づいて音源方向を推定する方法を説明するための図である。 マイクロホンアレイ430の検出結果に基づいて音源方向を推定する方法を説明するための図である。 マイクロホンアレイ430の各音声マイクにおいて収音された音声信号の処理にかかるハードウェア構成を示す図である。 飽和強度を説明するための図である。 命令音声DB102のデータ構成を模式的に示す図である。 処理部100の音声認識処理を示すフローチャートである。 対話者と対話型ロボット400との距離とS/N比との関係を説明するための図である。 対話者と対話型ロボット400との距離とS/N比との関係を説明するための図である。 発話者の後方に外部ノイズの音源が存在する場合の、対話者と対話型ロボット400との距離とS/N比との関係を説明するための図である。 発話者の後方に外部ノイズの音源が存在する場合の、対話者と対話型ロボット400との距離とS/N比との関係を説明するための図である。 発話者の後方に外部ノイズの音源が存在する場合の、対話者と対話型ロボット400との距離とS/N比との関係を説明するための図である。 対話者と対話型ロボット400との距離がTである場合の音声信号の信号強度を示す図である。 増幅ゲインの値をG’とした場合の音声信号の信号強度を示す図である。 処理部100の音声認識処理を示すフローチャートである。 実施の形態1に係る対話型ロボット400のハードウェア構成を示す図である。 実施の形態2にかかる対話型ロボット400の処理部100の機能構成を示すブロック図である。 実施の形態2にかかる対話型ロボット400の音声認識処理のうちの一部の処理を示すフローチャートである。 第2の変更例にかかる処理を示す図である。 第3の変更例にかかる処理を示す図である。
符号の説明
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 処理部
102 命令音声DB
104 誤認通知音声DB
110 音声認識部
112 命令内容実行指示部
120 音源方向推定部
122 音源距離推定部
124 移動指示部
130 S/N比算出部
132 信号強度評価部
134 増幅ゲイン調整指示部
140 増幅ゲイン値取得部
142 飽和評価部
160 画像取得部
162 口動作検出部
164 発話判断部
200 信号増幅用OPアンプ
202 A/D変換部
300 コントローラ
400 対話型ロボット
411,412 CCDカメラ
430 マイクロホンアレイ
432 音声マイク
440 超音波センサ
451,452 移動用車輪
460 車輪駆動機構

Claims (18)

  1. 音声認識可能な対話型ロボットであって、
    音声認識の対象となる目的音声の音源方向を推定する音源方向推定手段と、
    前記音源方向推定手段が推定した前記音源方向に当該対話型ロボット自身を移動させる移動手段と、
    前記移動手段による移動後の位置において、前記目的音声を取得する目的音声取得手段と、
    前記目的音声取得手段が取得した前記目的音声に対して前記音声認識を行う音声認識手段と
    を備えたことを特徴とする対話型ロボット。
  2. 前記移動手段が前記音源方向に移動した後に、前記目的音声の音源に対して発音を指示する発音指示手段をさらに備え、
    前記音声認識手段は、前記発音指示手段の指示に応じて発音された前記目的音声に対して音声認識を行うことを特徴とする請求項1に記載の対話型ロボット。
  3. 前記目的音声取得手段が取得した前記目的音声のS/N比を算出するS/N比算出手段と、
    前記S/N比算出手段が算出した前記S/N比と予め定められたS/N比閾値とを比較するS/N比評価手段と
    をさらに備え、
    前記移動手段は、さらに前記S/N比評価手段が算出した前記S/N比が前記S/N比閾値よりも小さい場合に、当該対話型ロボット自身を前記音源方向に移動させることを特徴とする請求項1または2に記載の対話型ロボット。
  4. 前記目的音声は、当該対話型ロボットと対話する対話者の発声であって、
    前記目的音声の音源である前記対話者を含む画像を取得する画像取得手段と、
    前記画像取得手段が取得した画像から前記対話者の発声に伴う口動作を検出する口動作検出手段と
    をさらに備え、
    前記移動手段は、前記S/N比評価手段が算出した前記S/N比が前記S/N比閾値よりも小さく、かつ前記口動作検出手段が前記対話者の口動作を検出した場合に、当該対話型ロボット自身を前記音源方向に移動させることを特徴とする請求項3に記載の対話型ロボット。
  5. 前記目的音声は、当該対話型ロボットと対話する対話者の発声であって、
    前記目的音声の音源である前記対話者を含む画像を取得する画像取得手段と、
    前記画像取得手段が取得した画像から前記対話者の発声に伴う口動作を検出する口動作検出手段と
    をさらに備え、
    前記移動手段は、前記S/N比評価手段が算出した前記S/N比が前記S/N比閾値以上であって、かつ前記口動作検出手段が前記対話者の口動作を検出しない場合に、当該対話型ロボット自身を前記音源方向に移動させることを特徴とする請求項3に記載の対話型ロボット。
  6. 前記音声認識手段による認識結果の精度を算出する認識精度評価手段をさらに備え、
    前記移動手段は、さらに前記音声認識手段が前記目的音声に対して音声認識を行った結果の認識精度が予め定めた認識精度閾値よりも小さい場合に、当該対話型ロボット自身を前記音源方向に移動させることを特徴とする請求項1に記載の対話型ロボット。
  7. 前記目的音声は、当該対話型ロボットと対話する対話者の発声であって、
    前記目的音声の音源である前記対話者を含む画像を取得する画像取得手段と、
    前記画像取得手段が取得した画像から前記対話者の発声に伴う口動作を検出する口動作検出手段と
    をさらに備え、
    前記移動手段は、前記認識精度が前記認識精度閾値よりも小さく、かつ前記口動作検出手段が前記対話者の口動作を検出した場合に、当該対話型ロボット自身を前記音源方向に移動させることを特徴とする請求項6に記載の対話型ロボット。
  8. 前記目的音声は、当該対話型ロボットと対話する対話者の発声であって、
    前記目的音声の音源である前記対話者を含む画像を取得する画像取得手段と、
    前記画像取得手段が取得した画像から前記対話者の発声に伴う口動作を検出する口動作検出手段と
    をさらに備え、
    前記移動手段は、前記認識精度が前記認識精度閾値以上であって、かつ前記口動作検出手段が前記対話者の口動作を検出しない場合に、当該対話型ロボット自身を前記音源方向に移動させることを特徴とする請求項6に記載の対話型ロボット。
  9. 前記目的音声の音声パターンを保持する目的音声保持手段をさらに備え、
    前記音声認識手段は、前記目的音声保持手段が保持している前記目的音声の音声パターンと前記目的音声取得手段が取得した前記目的音声とのパターンマッチングにより音声認識を行い、
    前記認識精度評価手段は、前記目的音声保持手段に保持されている前記目的音声の音声パターンとの一致度を前記認識精度として算出することを特徴とする請求項6に記載の対話型ロボット。
  10. 前記目的音声は、前記音声認識手段による音声認識が誤っていることを示す誤認通知音声であって、
    前記目的音声保持手段は、前記誤認通知音声の音声パターンを保持し、
    前記移動手段は、さらに前記音声認識手段が前記目的音声保持手段が保持している前記誤認通知音声を認識した場合に、当該対話型ロボット自身を前記音源方向に移動させることを特徴とする請求項9に記載の対話型ロボット。
  11. 前記目的音声は、当該対話型ロボットと対話する対話者の発声であって、
    前記目的音声の音源である前記対話者を含む画像を取得する画像取得手段と、
    前記画像取得手段が取得した画像から前記対話者の発声に伴う口動作を検出する口動作検出手段と
    をさらに備え、
    前記移動手段は、前記口動作検出手段が前記口動作を検出し、かつ前記目的音声取得手段が前記目的音声を取得しない場合に、当該対話型ロボットを前記音源方向に移動させることを特徴とする請求項1に記載の対話型ロボット。
  12. 前記目的音声は、当該対話型ロボットと対話する対話者の発話であって、
    前記目的音声の音源である前記対話者を含む画像を取得する画像取得手段と、
    前記画像取得手段が取得した画像から前記対話者の口の動きを検出する口動作検出手段と
    をさらに備え、
    前記移動手段は、前記口動作検出手段が前記口動作を検出せず、かつ前記目的音声取得手段が前記目的音声を取得した場合に、当該対話型ロボットを前記音源方向に移動させることを特徴とする請求項1に記載の対話型ロボット。
  13. 前記目的音声を収音する複数の音声マイクを有するマイクロホンアレイをさらに備え、
    前記マイクロホンアレイの各音声マイクが収音した前記目的音声の平面波の到達時間の差分値に基づいて前記音源方向を推定することを特徴とする請求項1から12のいずれか一項に記載の対話型ロボット。
  14. 前記目的音声と、当該対話型ロボットとの距離を測定する測距センサをさらに備え、
    前記音源方向推定手段は、前記測距センサによる測定結果に基づいて前記音源方向を推定することを特徴とする請求項1から12のいずれか一項に記載の対話型ロボット。
  15. 前記目的音声の音源の画像を撮像する撮像ユニットをさらに備え、
    前記音源方向推定手段は、前記撮像ユニットが前記画像を撮像した方向を前記音源方向として推定することを特徴とする請求項12のいずれか一項に記載の対話型ロボット。
  16. 前記移動手段による移動後の位置において、前記目的音声取得手段が取得した前記目的音声の信号強度を測定する信号強度測定手段と、
    前記信号強度測定手段が測定した前記信号強度の値に基づいて、前記目的音声の音声信号を増幅する増幅ゲインの値を調整する増幅ゲイン調整手段と
    をさらに備え、
    前記音声認識手段は、前記増幅ゲイン調整手段が前記増幅ゲインの値を調整した後に前記目的音声取得手段が取得した前記目的音声に対して、音声認識を行うことを特徴とする請求項1から15のいずれか一項に記載の対話型ロボット。
  17. 音声認識可能な対話型ロボットの音声認識方法であって、
    音声認識の対象となる目的音声の音源方向を推定する音源方向推定ステップと、
    前記音源方向推定ステップにおいて推定した前記音源方向に当該対話型ロボットを移動させる移動ステップと、
    前記対話型ロボットが前記移動ステップにおける移動後の位置に存在するときに、前記目的音声を取得する目的音声取得ステップと、
    前記目的音声取得ステップにおいて取得した前記目的音声に対して前記音声認識を行う音声認識ステップと
    を有することを特徴とする対話型ロボットの音声認識方法。
  18. 音声認識可能な対話型ロボットの音声認識処理をコンピュータに実行させる音声認識プログラムであって、
    音声認識の対象となる目的音声の音源方向を推定する音源方向推定ステップと、
    前記音源方向推定ステップにおいて推定した前記音源方向に当該対話型ロボットを移動させる移動ステップと、
    前記対話型ロボットが前記移動ステップにおける移動後の位置に存在するときに、前記目的音声を取得する目的音声取得ステップと、
    前記目的音声取得ステップにおいて抽出した前記目的音声に対して前記音声認識を行う音声認識ステップと
    を有することを特徴とする対話型ロボットの音声認識プログラム。
JP2004374946A 2004-12-24 2004-12-24 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム Expired - Fee Related JP4204541B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004374946A JP4204541B2 (ja) 2004-12-24 2004-12-24 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
US11/311,429 US7680667B2 (en) 2004-12-24 2005-12-20 Interactive robot, speech recognition method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004374946A JP4204541B2 (ja) 2004-12-24 2004-12-24 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2006181651A true JP2006181651A (ja) 2006-07-13
JP4204541B2 JP4204541B2 (ja) 2009-01-07

Family

ID=36612889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004374946A Expired - Fee Related JP4204541B2 (ja) 2004-12-24 2004-12-24 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム

Country Status (2)

Country Link
US (1) US7680667B2 (ja)
JP (1) JP4204541B2 (ja)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009192942A (ja) * 2008-02-15 2009-08-27 Toshiba Corp 音声対話装置及び支援方法
JP2010020165A (ja) * 2008-07-11 2010-01-28 Fujitsu Ltd 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
JP2010204266A (ja) * 2009-03-02 2010-09-16 Fujitsu Ltd 音響信号変換装置、方法、及びプログラム
JP2011000681A (ja) * 2009-06-19 2011-01-06 Advanced Telecommunication Research Institute International コミュニケーションロボット
JP2016076007A (ja) * 2014-10-03 2016-05-12 株式会社Nttドコモ 対話装置および対話方法
WO2017145929A1 (ja) * 2016-02-25 2017-08-31 シャープ株式会社 姿勢制御装置、ロボット及び姿勢制御方法
WO2018043235A1 (ja) * 2016-08-29 2018-03-08 Groove X株式会社 音源の方向を認識する自律行動型ロボット
JP2018034221A (ja) * 2016-08-29 2018-03-08 Kddi株式会社 ロボットシステム
JP2018511962A (ja) * 2015-08-31 2018-04-26 深▲せん▼前海達闥科技有限公司Cloudminds (Shenzhen) Technologies Co., Ltd. 声を受信する処理方法、装置、記憶媒体、携帯端末及びロボット
JP2018126808A (ja) * 2017-02-06 2018-08-16 日本信号株式会社 ブース付ロボット
JP2018202567A (ja) * 2017-06-07 2018-12-27 シャープ株式会社 動作制御装置およびその制御方法、ロボットならびに制御プログラム
CN109141620A (zh) * 2017-06-23 2019-01-04 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
JP2019505047A (ja) * 2016-01-28 2019-02-21 クアルコム,インコーポレイテッド ドローン飛行制御
JP2019036174A (ja) * 2017-08-17 2019-03-07 ヤフー株式会社 制御装置、入出力装置、制御方法、および制御プログラム
KR101965530B1 (ko) * 2018-04-10 2019-04-03 이화여자대학교 산학협력단 이동형 스피커 장치 및 이동형 스피커 장치의 음향 출력 방법
JP2019096365A (ja) * 2019-03-19 2019-06-20 ヤフー株式会社 制御装置、入出力装置、制御方法、および制御プログラム
JP2019123055A (ja) * 2018-01-18 2019-07-25 株式会社ユピテル 装置
WO2019187834A1 (ja) * 2018-03-30 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019219509A (ja) * 2018-06-20 2019-12-26 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
JP2020046478A (ja) * 2018-09-14 2020-03-26 株式会社フュートレック ロボットシステム
WO2020170510A1 (ja) * 2019-02-19 2020-08-27 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
WO2020170489A1 (ja) * 2019-02-19 2020-08-27 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
WO2020202621A1 (ja) * 2019-03-29 2020-10-08 パナソニックIpマネジメント株式会社 無人移動体及び情報処理方法
WO2020213198A1 (ja) * 2019-04-18 2020-10-22 パナソニックIpマネジメント株式会社 無人飛行体、制御方法及びプログラム
KR20200129934A (ko) * 2019-05-10 2020-11-18 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
JPWO2019087495A1 (ja) * 2017-10-30 2020-12-10 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2022236002A1 (en) * 2021-05-06 2022-11-10 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
KR20080111290A (ko) * 2007-06-18 2008-12-23 삼성전자주식회사 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법
WO2009044509A1 (ja) * 2007-10-01 2009-04-09 Panasonic Corporation 音源方向検知装置
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8488246B2 (en) 2010-02-28 2013-07-16 Osterhout Group, Inc. See-through near-eye display glasses including a curved polarizing film in the image source, a partially reflective, partially transmitting optical element and an optically flat film
WO2011106798A1 (en) 2010-02-28 2011-09-01 Osterhout Group, Inc. Local advertising content on an interactive head-mounted eyepiece
US9366862B2 (en) 2010-02-28 2016-06-14 Microsoft Technology Licensing, Llc System and method for delivering content to a group of see-through near eye display eyepieces
US8477425B2 (en) 2010-02-28 2013-07-02 Osterhout Group, Inc. See-through near-eye display glasses including a partially reflective, partially transmitting optical element
US9097891B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc See-through near-eye display glasses including an auto-brightness control for the display brightness based on the brightness in the environment
US20150309316A1 (en) 2011-04-06 2015-10-29 Microsoft Technology Licensing, Llc Ar glasses with predictive control of external device based on event input
US9229227B2 (en) 2010-02-28 2016-01-05 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a light transmissive wedge shaped illumination system
US8472120B2 (en) 2010-02-28 2013-06-25 Osterhout Group, Inc. See-through near-eye display glasses with a small scale image source
US9129295B2 (en) 2010-02-28 2015-09-08 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a fast response photochromic film system for quick transition from dark to clear
US9128281B2 (en) 2010-09-14 2015-09-08 Microsoft Technology Licensing, Llc Eyepiece with uniformly illuminated reflective display
US9182596B2 (en) 2010-02-28 2015-11-10 Microsoft Technology Licensing, Llc See-through near-eye display glasses with the optical assembly including absorptive polarizers or anti-reflective coatings to reduce stray light
US20120249797A1 (en) 2010-02-28 2012-10-04 Osterhout Group, Inc. Head-worn adaptive display
US9759917B2 (en) 2010-02-28 2017-09-12 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered AR eyepiece interface to external devices
US9091851B2 (en) 2010-02-28 2015-07-28 Microsoft Technology Licensing, Llc Light control in head mounted displays
US9285589B2 (en) 2010-02-28 2016-03-15 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered control of AR eyepiece applications
US9134534B2 (en) 2010-02-28 2015-09-15 Microsoft Technology Licensing, Llc See-through near-eye display glasses including a modular image source
US9341843B2 (en) 2010-02-28 2016-05-17 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a small scale image source
US9097890B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc Grating in a light transmissive illumination system for see-through near-eye display glasses
US10180572B2 (en) 2010-02-28 2019-01-15 Microsoft Technology Licensing, Llc AR glasses with event and user action control of external applications
US8482859B2 (en) 2010-02-28 2013-07-09 Osterhout Group, Inc. See-through near-eye display glasses wherein image light is transmitted to and reflected from an optically flat film
US8467133B2 (en) 2010-02-28 2013-06-18 Osterhout Group, Inc. See-through display with an optical assembly including a wedge-shaped illumination system
US9223134B2 (en) 2010-02-28 2015-12-29 Microsoft Technology Licensing, Llc Optical imperfections in a light transmissive illumination system for see-through near-eye display glasses
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
US20120260284A1 (en) * 2011-04-07 2012-10-11 Sony Corporation User interface for audio video display device such as tv personalized for multiple viewers
US8183997B1 (en) 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
US10466795B2 (en) * 2013-03-29 2019-11-05 Lg Electronics Inc. Mobile input device and command input method using the same
US9310800B1 (en) * 2013-07-30 2016-04-12 The Boeing Company Robotic platform evaluation system
US9753119B1 (en) * 2014-01-29 2017-09-05 Amazon Technologies, Inc. Audio and depth based sound source localization
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
WO2016053316A1 (en) * 2014-09-30 2016-04-07 Hewlett-Packard Development Company, L.P. Sound conditioning
JP6551507B2 (ja) * 2015-02-17 2019-07-31 日本電気株式会社 ロボット制御装置、ロボット、ロボット制御方法およびプログラム
US20160267075A1 (en) * 2015-03-13 2016-09-15 Panasonic Intellectual Property Management Co., Ltd. Wearable device and translation system
US10152476B2 (en) * 2015-03-19 2018-12-11 Panasonic Intellectual Property Management Co., Ltd. Wearable device and translation system
KR20180037543A (ko) * 2016-10-04 2018-04-12 삼성전자주식회사 음성 인식 전자 장치
US10120386B2 (en) * 2016-11-18 2018-11-06 Robert Bosch Start-Up Platform North America, LLC, Series 1 Robotic creature and method of operation
KR102549465B1 (ko) * 2016-11-25 2023-06-30 삼성전자주식회사 마이크 파라미터를 조절하는 전자 장치
EP3611941A4 (en) * 2017-04-10 2020-12-30 Yamaha Corporation VOICE TRANSMISSION DEVICE, VOICE TRANSMISSION METHOD, AND PROGRAM
WO2018205083A1 (zh) * 2017-05-08 2018-11-15 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
US10824870B2 (en) * 2017-06-29 2020-11-03 Accenture Global Solutions Limited Natural language eminence based robotic agent control
CN111968643A (zh) * 2017-09-29 2020-11-20 赵成智 智能识别方法、机器人及计算机可读存储介质
CN109877842A (zh) * 2017-12-06 2019-06-14 湘潭宏远电子科技有限公司 一种机器人交互***
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
US10723017B1 (en) * 2019-04-01 2020-07-28 Shenzhen Wangrui Technology Co., Ltd. Robotic eye systems
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
US11651759B2 (en) * 2019-05-28 2023-05-16 Bose Corporation Gain adjustment in ANR system with multiple feedforward microphones
CN110164443B (zh) * 2019-06-28 2021-09-14 联想(北京)有限公司 用于电子设备的语音处理方法、装置以及电子设备
WO2021015308A1 (ko) * 2019-07-19 2021-01-28 엘지전자 주식회사 로봇 및 그의 기동어 인식 방법
CN112925235A (zh) * 2021-01-21 2021-06-08 深圳市普渡科技有限公司 交互时的声源定位方法、设备和计算机可读存储介质
CN114242072A (zh) * 2021-12-21 2022-03-25 上海帝图信息科技有限公司 一种用于智能机器人的语音识别***

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01118900A (ja) * 1987-11-01 1989-05-11 Ricoh Co Ltd 雑音抑圧装置
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
JP2000099722A (ja) 1998-09-22 2000-04-07 Toshiba Corp 人物顔認識装置及び人物顔認識方法
JP3484112B2 (ja) 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP3797047B2 (ja) 1999-12-08 2006-07-12 富士通株式会社 ロボット装置
CN1283428C (zh) * 2000-03-31 2006-11-08 索尼公司 机器人设备、控制机器人设备动作的方法
JP2001296883A (ja) 2000-04-14 2001-10-26 Sakai Yasue 音声認識方法および装置、音声合成方法および装置、記録媒体
JP4027565B2 (ja) 2000-04-19 2007-12-26 株式会社ケンウッド ディジタル受信機
JP2001312292A (ja) 2000-04-28 2001-11-09 Sharp Corp 音声処理装置
JP4815661B2 (ja) * 2000-08-24 2011-11-16 ソニー株式会社 信号処理装置及び信号処理方法
US6967455B2 (en) * 2001-03-09 2005-11-22 Japan Science And Technology Agency Robot audiovisual system
JP2003131683A (ja) * 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2003195886A (ja) 2001-12-26 2003-07-09 Sony Corp ロボット
JP3529049B2 (ja) 2002-03-06 2004-05-24 ソニー株式会社 学習装置及び学習方法並びにロボット装置
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP4281286B2 (ja) 2002-03-18 2009-06-17 ソニー株式会社 ロボット装置及びその制御方法
JP4131392B2 (ja) 2003-01-28 2008-08-13 ソニー株式会社 ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2004283927A (ja) 2003-03-20 2004-10-14 Sony Corp ロボット制御装置および方法、記録媒体、並びにプログラム
JP4239635B2 (ja) 2003-03-20 2009-03-18 ソニー株式会社 ロボット装置、その動作制御方法、及びプログラム
JP2005049153A (ja) 2003-07-31 2005-02-24 Toshiba Corp 音声方向推定装置及びその方法

Cited By (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155968B2 (en) 2008-02-15 2012-04-10 Kabushiki Kaisha Toshiba Voice recognition apparatus and method for performing voice recognition comprising calculating a recommended distance range between a user and an audio input module based on the S/N ratio
JP2009192942A (ja) * 2008-02-15 2009-08-27 Toshiba Corp 音声対話装置及び支援方法
JP2010020165A (ja) * 2008-07-11 2010-01-28 Fujitsu Ltd 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
US9135924B2 (en) 2008-07-11 2015-09-15 Fujitsu Limited Noise suppressing device, noise suppressing method and mobile phone
JP2010204266A (ja) * 2009-03-02 2010-09-16 Fujitsu Ltd 音響信号変換装置、方法、及びプログラム
JP2011000681A (ja) * 2009-06-19 2011-01-06 Advanced Telecommunication Research Institute International コミュニケーションロボット
JP2016076007A (ja) * 2014-10-03 2016-05-12 株式会社Nttドコモ 対話装置および対話方法
JP2018511962A (ja) * 2015-08-31 2018-04-26 深▲せん▼前海達闥科技有限公司Cloudminds (Shenzhen) Technologies Co., Ltd. 声を受信する処理方法、装置、記憶媒体、携帯端末及びロボット
US10306360B2 (en) 2015-08-31 2019-05-28 Cloudminds (Shenzhen) Technologies Co., Ltd. Method and device for processing received sound and memory medium, mobile terminal, robot having the same
JP2019505047A (ja) * 2016-01-28 2019-02-21 クアルコム,インコーポレイテッド ドローン飛行制御
JPWO2017145929A1 (ja) * 2016-02-25 2018-10-25 シャープ株式会社 姿勢制御装置、ロボット及び姿勢制御方法
CN108698231A (zh) * 2016-02-25 2018-10-23 夏普株式会社 姿势控制装置、机器人及姿势控制方法
WO2017145929A1 (ja) * 2016-02-25 2017-08-31 シャープ株式会社 姿勢制御装置、ロボット及び姿勢制御方法
JP2018034221A (ja) * 2016-08-29 2018-03-08 Kddi株式会社 ロボットシステム
JPWO2018043235A1 (ja) * 2016-08-29 2018-12-20 Groove X株式会社 音源の方向を認識する自律行動型ロボット
JP2019162714A (ja) * 2016-08-29 2019-09-26 Groove X株式会社 音源の方向を認識するロボット
GB2567600B (en) * 2016-08-29 2022-05-04 Groove X Inc Autonomously acting robot that recognizes direction of sound source
WO2018043235A1 (ja) * 2016-08-29 2018-03-08 Groove X株式会社 音源の方向を認識する自律行動型ロボット
US11376740B2 (en) 2016-08-29 2022-07-05 Groove X, Inc. Autonomously acting robot that recognizes direction of sound source
GB2567600A (en) * 2016-08-29 2019-04-17 Groove X Inc Autonomous behavior robot recognizing direction of sound source
JP2018126808A (ja) * 2017-02-06 2018-08-16 日本信号株式会社 ブース付ロボット
JP2018202567A (ja) * 2017-06-07 2018-12-27 シャープ株式会社 動作制御装置およびその制御方法、ロボットならびに制御プログラム
JP2019008134A (ja) * 2017-06-23 2019-01-17 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
CN109141620B (zh) * 2017-06-23 2021-01-22 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
US10665249B2 (en) 2017-06-23 2020-05-26 Casio Computer Co., Ltd. Sound source separation for robot from target voice direction and noise voice direction
CN109141620A (zh) * 2017-06-23 2019-01-04 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
JP2019036174A (ja) * 2017-08-17 2019-03-07 ヤフー株式会社 制御装置、入出力装置、制御方法、および制御プログラム
JPWO2019087495A1 (ja) * 2017-10-30 2020-12-10 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019123055A (ja) * 2018-01-18 2019-07-25 株式会社ユピテル 装置
EP3778151A4 (en) * 2018-03-30 2021-06-16 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
JP7259843B2 (ja) 2018-03-30 2023-04-18 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US11468891B2 (en) 2018-03-30 2022-10-11 Sony Corporation Information processor, information processing method, and program
CN111788043A (zh) * 2018-03-30 2020-10-16 索尼公司 信息处理装置、信息处理方法和程序
WO2019187834A1 (ja) * 2018-03-30 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN111788043B (zh) * 2018-03-30 2024-06-14 索尼公司 信息处理装置、信息处理方法和程序
JPWO2019187834A1 (ja) * 2018-03-30 2021-07-15 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
KR101965530B1 (ko) * 2018-04-10 2019-04-03 이화여자대학교 산학협력단 이동형 스피커 장치 및 이동형 스피커 장치의 음향 출력 방법
JP7176244B2 (ja) 2018-06-20 2022-11-22 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
JP2019219509A (ja) * 2018-06-20 2019-12-26 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
JP2020046478A (ja) * 2018-09-14 2020-03-26 株式会社フュートレック ロボットシステム
WO2020170510A1 (ja) * 2019-02-19 2020-08-27 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
WO2020170489A1 (ja) * 2019-02-19 2020-08-27 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
US11928974B2 (en) 2019-02-19 2024-03-12 Panasonic Intellectual Property Management Co., Ltd. Unmanned aircraft, information processing method, and recording medium
JPWO2020170489A1 (ja) * 2019-02-19 2021-12-16 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
JPWO2020170510A1 (ja) * 2019-02-19 2021-12-16 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
CN112912309A (zh) * 2019-02-19 2021-06-04 松下知识产权经营株式会社 无人飞行体、信息处理方法以及程序
JP7442147B2 (ja) 2019-02-19 2024-03-04 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
EP3929074A4 (en) * 2019-02-19 2022-06-01 Panasonic Intellectual Property Management Co., Ltd. UNMANNED AIRCRAFT, INFORMATION PROCESSING METHOD AND PROGRAM
JP7296554B2 (ja) 2019-02-19 2023-06-23 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
JP2019096365A (ja) * 2019-03-19 2019-06-20 ヤフー株式会社 制御装置、入出力装置、制御方法、および制御プログラム
EP3950498A4 (en) * 2019-03-29 2022-04-27 Panasonic Intellectual Property Management Co., Ltd. MOBILE BODY WITHOUT PILOT AND INFORMATION PROCESSING METHOD
WO2020202621A1 (ja) * 2019-03-29 2020-10-08 パナソニックIpマネジメント株式会社 無人移動体及び情報処理方法
JPWO2020202621A1 (ja) * 2019-03-29 2020-10-08
JP7426631B2 (ja) 2019-03-29 2024-02-02 パナソニックIpマネジメント株式会社 無人移動体及び情報処理方法
WO2020213198A1 (ja) * 2019-04-18 2020-10-22 パナソニックIpマネジメント株式会社 無人飛行体、制御方法及びプログラム
CN113056419A (zh) * 2019-04-18 2021-06-29 松下知识产权经营株式会社 无人飞行体、控制方法以及程序
KR20200129934A (ko) * 2019-05-10 2020-11-18 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
KR102230667B1 (ko) * 2019-05-10 2021-03-22 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
WO2022236002A1 (en) * 2021-05-06 2022-11-10 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot
KR20220151517A (ko) * 2021-05-06 2022-11-15 베어 로보틱스, 인크. 로봇을 제어하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
KR102506113B1 (ko) * 2021-05-06 2023-03-03 베어 로보틱스, 인크. 로봇을 제어하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
US11934203B2 (en) 2021-05-06 2024-03-19 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot

Also Published As

Publication number Publication date
JP4204541B2 (ja) 2009-01-07
US20060143017A1 (en) 2006-06-29
US7680667B2 (en) 2010-03-16

Similar Documents

Publication Publication Date Title
JP4204541B2 (ja) 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP4847022B2 (ja) 発声内容認識装置
JP4986433B2 (ja) 物体を認識および追跡する装置及び方法
KR100754384B1 (ko) 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템
JP2018049143A (ja) 音声取得システムおよび音声取得方法
WO2016098228A1 (ja) 音声認識装置および音声認識方法
KR100758707B1 (ko) 로봇 환경에서 음원 추적 시스템 및 방법
JP4715738B2 (ja) 発話検出装置及び発話検出方法
US20020181723A1 (en) Robot and controlling method of the same
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP2006251266A (ja) 視聴覚連携認識方法および装置
JP4825552B2 (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP2007264473A (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2011191423A (ja) 発話認識装置、発話認識方法
KR100822880B1 (ko) 지능형 로봇 환경에서 오디오-비디오 기반 음원추적을 통한화자 인식 시스템 및 방법
WO2017000775A1 (zh) 一种机器人语音寻向转动***及方法
JP2008087140A (ja) 音声認識ロボットおよび音声認識ロボットの制御方法
JP6374936B2 (ja) 音声認識方法、音声認識装置及びプログラム
JP6977448B2 (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
JP6827536B2 (ja) 音声認識装置および音声認識方法
WO2020250828A1 (ja) 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
JP2001067098A (ja) 人物検出方法と人物検出機能搭載装置
JP6916130B2 (ja) 話者推定方法および話者推定装置
US20210383808A1 (en) Control device, system, and control method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081007

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081014

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4204541

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131024

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees