JP2012242609A - 音声認識装置、ロボット、及び音声認識方法 - Google Patents

音声認識装置、ロボット、及び音声認識方法 Download PDF

Info

Publication number
JP2012242609A
JP2012242609A JP2011112595A JP2011112595A JP2012242609A JP 2012242609 A JP2012242609 A JP 2012242609A JP 2011112595 A JP2011112595 A JP 2011112595A JP 2011112595 A JP2011112595 A JP 2011112595A JP 2012242609 A JP2012242609 A JP 2012242609A
Authority
JP
Japan
Prior art keywords
utterance section
voice
utterance
detected
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011112595A
Other languages
English (en)
Other versions
JP5797009B2 (ja
Inventor
Ryota Hiura
亮太 日浦
Hitoshi Miyauchi
均 宮内
Kyoko Oshima
京子 大嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2011112595A priority Critical patent/JP5797009B2/ja
Publication of JP2012242609A publication Critical patent/JP2012242609A/ja
Application granted granted Critical
Publication of JP5797009B2 publication Critical patent/JP5797009B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)

Abstract

【課題】過応答を低減しつつ、音声認識の認識率を高める、ことを目的とする。
【解決手段】音声認識装置40は、被写体を撮像すると共に被写体を示す画像情報をカメラ30によって取得し、該カメラ30による撮像が行われているときに発生している音を示す音情報をマイク32によって取得する。そして、音声認識装置40は、カメラ30によって取得された画像情報に基づいて、人が発話している発話区間を検出し、検出した発話区間において、発話区間が検出されない場合に比べて、音情報に基づいた人の音声認識の感度を上げる。
【選択図】図3

Description

本発明は、音声認識装置、ロボット、及び音声認識方法に関するものである。
ユーザーの発話に応じて特定の動作コマンドを実行する音声認識機能を備えるロボットにおいて、人の音声以外の雑音(ノイズ)に対する誤反応による音声の誤認識を低減しつつ、音声認識の成功率を高めることが求められている。
ここで、特許文献1には、ユーザーが発した音声データをマイクで検出すると共に、ユーザーの顔を撮像した画像からユーザーの口が動いているかどうかを判定し、口が動いていると判定している間の音声データに含まれる音声コマンドのみを動作コマンドとして発行し、ロボット装置を制御する技術が開示されている。
また、特許文献2には、マイクロホンアレイから入力される音声に基づき、話者が発する会話の最初に利用する特定の単語もしくは文の音声とその方向とを認識し、検出された音声の方向にカメラを向け、該カメラから入力された画像から人物の顔を検出し、対話処理を行う技術が開示されている。さらに特許文献2には、及び検出した話者方向に指向性を限定して、話者の音声と方向を認識し、顔検出処理を行い、検出された顔方向に移動し、音声認識の精度をより向上させる技術が開示されている。
特開2007−190620号公報 特開2006−251266号公報
しかしながら、特許文献1に開示されている技術は、口の動作があるときの音声コマンドのみを認識することとしているため、画像認識の遅れにより、発話開始時の音声認識の成功率が大きく低下する可能性がある。また、特許文献1に開示されている技術は、音声コマンドの採否を画像により選択するのみであることから、音声認識の成功率向上にはなんら寄与しない。
また、特許文献2に開示されている技術のように、指向性を変えるのみでは、その指向性の方向の雑音による過応答を防ぐことができない。また、屋内においては、部屋の反響音の成分が非常に大きく、指向性を変えることでの目的音と雑音の音量比がほとんど改善せず、効果が現れない可能性が高い。
なお、一般的に、画像による発話判定は、雑音の影響は少ないがタイミングに正確さを欠き(例えば、発話開始の口の動きが小さいことに由来する)、音声による発話判定は、タイミングは正確であるが雑音に弱いとされる。
本発明は、このような事情に鑑みてなされたものであって、過応答を低減しつつ、音声認識の認識率を高めることができる音声認識装置、ロボット、及び音声認識方法を提供することを目的とする。
上記課題を解決するために、本発明の音声認識装置、ロボット、及び音声認識方法は以下の手段を採用する。
すなわち、本発明に係る音声認識装置は、被写体を撮像すると共に被写体を示す画像情報を取得する撮像手段と、前記撮像手段による撮像が行われているときに発生している音を示す音情報を取得する音取得手段と、前記音取得手段によって取得された前記音情報に基づいて、人の音声を認識する音声認識手段と、前記撮像手段によって取得された前記画像情報に基づいて、人が発話している期間を示す発話区間を検出する発話区間検出手段と、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音声認識手段による音声認識の感度を上げる感度変更手段と、を備える。
本発明によれば、撮像手段によって、被写体が撮像されると共に被写体を示す画像情報が取得され、音取得手段によって、撮像手段による撮像が行われているときに発生している音を示す音情報が取得される。
また、音声認識手段によって、音情報に基づいて人の音声が認識される。しかし、音声認識手段による音声の認識において、音声以外の雑音を音声と誤認識する場合があった。誤認識は、過応答となり、音声認識率が低下することとなる。
このような誤認識は、音声認識の感度を下げることによって防ぐことが考えられるが、音声認識の感度が下げられると、本来、人の音声として認識すべき音が認識されない可能性が生じる。
そこで、発話区間検出手段によって、撮像手段で取得された画像情報に基づいて、人が発話している期間を示す発話区間が検出される。すなわち、画像情報に基づいて、人の顔が認識され、該認識された人の顔の器官の動きから、雑音の影響を受けない発話区間が検出される。
そして、感度変更手段によって、発話区間検出手段で検出された発話区間において、発話区間が検出されない場合に比べて、音声認識手段による音声認識の感度が上げられる。
従って、画像情報に基づいて検出された雑音の影響を受けない発話区間に対応して、音声認識の感度が上げられることとなるので、本発明は、過応答を低減しつつ、音声認識の認識率を高めることができる。
また、本発明の音声認識装置は、前記感度変更手段が、前記発話区間検出手段によって検出された前記発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、前記音声認識手段による音声認識の感度を上げてもよい。
人による発話の開始時(語頭)や発話の終了時(語尾)には、例えば口が大きく開けられなかったりするため、発話の語頭や語尾が発話区間として検出されない可能性がある。
本発明によれば、発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、すなわち、前及び後に太められた発話区間において、音声認識手段による音声認識の感度が上げられる。なお、所定時間は、発話区間検出手段で検出されない可能性のある語頭や語尾に対応する時間であり、実験等により求められる値であり、予め設定されている。
従って、発話の語頭や語尾においても、より確実に音声認識の感度が上げられることができる。
また、本発明の音声認識装置は、前記音声認識手段が、予め定められた閾値以上の音量を、人の音声であると認識し、前記感度変更手段が、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、前記音声認識手段による音声認識の感度を上げてもよい。
本発明によれば、予め定められた閾値以上の音量が、人の音声であると認識され、画像情報に基づいて検出した発話区間において、該閾値を下げることによって、音声認識の感度が上げられるので、簡易に音声認識の感度を変更することができる。
また、本発明の音声認識装置は、前記発話区間検出手段が、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出してもよい。
本発明によれば、人の口の動きに基づいて発話区間を検出するので、画像情報に基づいて発話区間を簡易に検出できる。
また、本発明の音声認識装置は、前記発話区間検出手段が、人の顔に含まれる目の向きに基づいて、該人が発話している発話区間を検出してもよい。
本発明によれば、人の目の向き、すなわち視線に基づいて発話区間を検出するので、音声認識装置を備えた機器に対して話しかけている人の発話区間を簡易に検出できる。
一方、本発明に係るロボットは、上記記載の音声認識装置を備える。
さらに、本発明に係る音声認識方法は、被写体を撮像すると共に被写体を示す画像情報を撮像手段によって取得し、該撮像手段による撮像が行われているときに発生している音を示す音情報を音取得手段によって取得する第1工程と、前記撮像手段によって取得された前記画像情報に基づいて、人が発話している発話区間を検出する第2工程と、前記第2工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音情報に基づいた人の音声認識の感度を上げる第3工程と、を含む。
本発明によれば、過応答を低減しつつ、音声認識の認識率を高めることができる、という優れた効果を有する。
本発明の実施形態に係るロボットの正面図である。 従来の音声認識の説明に要する図である。 本発明の実施形態に係る音声認識装置の機能を示す機能ブロック図である。 本発明の実施形態に係る発話区間検出部で行われる処理の内容を具体的に示した模式図である。 本発明の実施形態に係る音声認識装置による音声認識の結果を示した模式図である。
以下に、本発明に係る音声認識装置、ロボット、及び音声認識方法の一実施形態について、図面を参照して説明する。
図1は、本実施形態に係るロボット10の正面図である。
図1に示すように、ロボット10には、頭部12と、頭部12を下方から支持する胸部14と、胸部14の右側に設けられた右腕部16a、胸部14の左側に設けられた左腕部16bと、胸部14の下方に接続された腰部18と、腰部18の下方に接続されたスカート部20と、スカート部20の下方に接続された脚部22とが設けられている。
そして、頭部12の前面の中央近傍には、図1に示すように、前方を撮像するためのカメラ30、及びマイクロフォン32(以下、単に「マイク32」という。)が設けられている。
カメラ30は、被写体を撮像すると共に被写体を示す画像情報を取得し、マイク32は、カメラ30による撮像が行われているときに発生している音を示す音情報を取得する。
そして、本実施形態に係るロボット10は、カメラ30によって取得された画像情報に基づいて、人の顔を認識すると共に、マイク32によって取得された音情報に基づいて、人の音声を認識する音声認識処理を行う。
すなわち、ロボット10は、ロボット10に対しコミュニケーションを取ろうとしている人の顔を認識すると共に、該人の音声を認識し、これらの認識結果に応じた動作を行う。
ここで、従来の音声認識について図2を参照して説明する。
ロボット10は、予め定められた閾値(以下、「音声閾値」という。)を超えた音量(パワー)の音情報を人が発話した音声として認識する。
しかし、図2(A)に示すように、音声閾値以上の雑音(人の音声とは異なる音)が生じた場合、ロボット10は、該雑音も人の音声として誤認識することとなる。また、図2(B)に示すように、人の音声に音声閾値以上の雑音が重なり合っている場合も、ロボット10は、該雑音も人の音声として誤認識するばかりか、人の音声を正しく認識できないこととなる。このような、誤認識は、過応答となり、音声認識の認識率の低下を招く。
図2(A),(B)に示すような雑音の誤認識は、音声認識の感度を下げること、すなわち音声閾値の値を大きくすることによって防ぐことが考えられる。しかし、音声認識の感度が下げられると、本来、人の音声として認識すべき音が認識されない可能性が生じる。
そこで、本実施形態に係るロボット10は、カメラ30によって取得した画像情報に基づいて認識した人の顔の器官の動きから、人が発話している期間を示す発話区間を検出し、検出した発話区間において、発話区間が検出されない場合に比べて、音声認識の感度を上げる(音声閾値を下げる)処理を行う。この発話区間は、画像情報から求められるため、雑音の影響を受けない。
図3は、音声認識処理を行う音声認識装置40の機能を示す機能ブロック図である。
なお、本実施形態に係るロボット10は、CPU(Central Processing Unit)によってプログラムを実行することにより、音声認識装置40が備える各構成要素による処理を実現する。この場合、該プログラムは、ROM(Read Only Memory)やその他の記憶媒体に予めインストールされる形態や、コンピュータ読み取り可能なCD−ROM等の可搬型の記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等を適用することができる。
音声認識装置40は、画像情報に基づいて人の発話区間の検出を行う発話区間検出部42A、音情報に基づいて人の発話区間の検出を行う発話区間検出部42B、発話区間における人の音声を認識する音声認識部44を備える。
発話区間検出部42Aは、顔器官検出部50、動き量算出部52、閾値処理部54、及び音声閾値変更部56を備える。
顔器官検出部50は、カメラ30で取得された画像情報に基づいて、人の顔を認識し、所定の顔器官を検出する。顔器官の検出方法は、従来既知のものを用いればよい。
なお、本実施形態に係る顔器官検出部50は、顔器官として人の口を検出する。
動き量算出部52は、顔器官検出部50で検出された顔器官の動きを算出する。
本実施形態では、顔器官として人の口を検出するため、口の動きとして口の開き加減、より具体的には上唇と下唇との開き量を算出する。
閾値処理部54は、動き量算出部52で算出された値が予め定められた閾値(以下、「画像閾値」という。)以上か否かを判定し、画像閾値以上となった期間(時間)を、人が発話している期間を示す発話区間として検出する。
音声閾値変更部56は、閾値処理部54で検出された発話区間において、該発話区間が検出されない場合に比べて、音声閾値を下げることによって、音声認識の感度を上げる。下げられた音声閾値の大きさ及び区間を示す音声閾値変更情報は、音声閾値変更部56から発話区間検出部42Bへ出力される。
発話区間検出部42Bは、音量算出部60及び閾値処理部62を備える。
音量算出部60は、マイク32で取得された音情報により示される波形の振幅から音量を算出する。
閾値処理部62は、音量算出部60で算出された音量が音声閾値以上か否かを判定し、該音声閾値以上の音量を発話区間として検出する。なお、本実施形態に係る閾値処理部62は、音声閾値変更部56から入力された音声閾値変更情報により示される区間及び下げられた音声閾値の値を用いて、発話区間を検出し、該発話区間を発話区間情報として音声認識部44へ出力する。
発話区間検出部42Bへ入力される音情報は、ディレイ処理部70Aを介して所定の時間遅れを持って入力される。
上述のように、閾値処理部62は、音声閾値変更部56から出力された閾値変更情報を用いて発話区間を検出するため、発話区間検出部42Aが備える音声閾値変更部56による閾値変更情報の出力が終了した後に、閾値処理部62による処理を開始させるためである。
音声認識部44は、特徴量抽出部80及びマッチング処理部82を備えている。
特徴量抽出部80は、マイク32で取得された音情報を、例えばフーリエ変換等することによって、音の特徴(特徴量)を抽出する。
マッチング処理部82は、音の特徴量に応じた発話内容を示した認識辞書情報に基づいて、閾値処理部62から出力された発話区間情報により示される発話区間における音の特徴量から、人の発話内容を特定し(マッチング処理)、音声認識結果として出力する。なお、認識辞書情報は、不図示の記憶手段に予め記憶されている。
そして、ロボット10は、例えば音声認識結果が「おはよう」との発話を示している場合は、「おはよう」と音声を出力する等の、音声認識結果に基づいた動作を行う。
また、音声認識部44へ入力される音情報は、ディレイ処理部70Bを介して所定の時間遅れを持って入力される。
上述のように、マッチング処理部82は、閾値処理部62から出力された発話区間情報を用いて音声認識を行うため、閾値処理部62による発話区間情報の出力が終了した後に、マッチング処理部82による処理を開始させるためである。このため、ディレイ処理部70Bによる時間遅れは、ディレイ処理部70Aによる時間遅れよりもさらに遅くなければならない。
図4(A),(B)は、発話区間検出部42A,42Bで行われる処理の内容を具体的に示した模式図である。
図4(A)に示されるように、動き量算出部52は、口の動き量を、例えば60分の1(1/60)秒や30分の1(1/30)秒毎に算出する。閾値処理部54は、動き量が画像閾値以上か否かを判定し、動き量が画像閾値以上となった期間を発話区間として検出する。この閾値判定によって、小さな口の動きは、発話区間として検出されないこととなる。
なお、本実施形態に係る閾値処理部54は、検出した発話区間を、該発話区間に連続した前及び後の所定時間に広げる、太め処理を行う。
人による発話の開始時(語頭)や発話の終了時(語尾)には、口が大きく開けられなかったりするため、発話の語頭や語尾が発話区間として検出されない可能性がある。
そこで、発話区間を前及び後に広げることによって、発話の語頭及語尾も発話区間に含まれるようにする。なお、発話区間を広めるための上記所定時間は、閾値処理部54によって検出されない可能性のある語頭や語尾に対応する時間であり、実験等により求められる値であり、予め設定されている。
そして、音声閾値変更部56によって、太め処理が行われた発話区間において、音声閾値が下げられ、音声閾値変更情報として閾値処理部62へ出力される。
一方、図4(B)に示されるように、音量算出部60は、時間遅れを持って入力された音情報により示される音に基づいて、例えば所定時間間隔毎における振幅の最大値の平均値を音量として算出する。
音量算出部60によって算出された音量は、閾値処理部62へ出力され、閾値処理部62は、音量変更情報により示される音声閾値を用いて、閾値判定を行い、音声閾値以上の音量が生じた区間を発話区間として検出する。
図5(A),(B)は、本実施形態に係る音声認識装置40による音声認識の結果を示した模式図である。なお、図5(A),(B)の左図は、従来の音声認識の結果(図2参照)であり、図5(A),(B)の右図は、本実施形態に係る音声認識の結果である。
図5(A)の右図に示されるように、音声閾値を下げることで、雑音を誤認識することが防がれる。そして、画像情報に基づいて検出された発話区間において音声閾値が下げられることにより、音声認識の感度が上げるため、音声認識装置40は、雑音に対して過応答することなく、人の音声は正しく認識されることとなる。
また、図5(B)の右図に示されるように、雑音と人の音声が重なり合っていても、雑音を誤認識することがなくなるため、人の音声は正しく認識されることとなる。
また、ロボット10周辺の環境によって、画像情報に基づいて検出された発話区間における音声閾値(以下、「区間内音声閾値」という。)の大きさや、発話区間が検出されていない区間における音声閾値(以下、「区間外音声閾値」という。)の大きさを異ならせてもよい。例えば、雑音の音量が大きい環境(例えばアミューズメント施設内等)では、区間外音声閾値は、より高く設定される。また、人がロボット10に対して話しかける声が小さくなりやすい環境(例えば資料館内等)では、区間内音声閾値は、より小さく設定される。
このように、ロボット10周辺の環境に応じて、区間内音声閾値と区間外音声閾値との比率を変更することによって、雑音に対して過応答する比率を下げ、音声認識率の向上を図ることが望ましい。
また、言語に応じて、区間内音声閾値及び区間外音声閾値の大きさや比率を変更してもよい。
以上説明したように、本実施形態に係る音声認識装置40は、被写体を撮像すると共に被写体を示す画像情報をカメラ30によって取得し、該カメラ30による撮像が行われているときに発生している音を示す音情報をマイク32によって取得する。そして、音声認識装置40は、カメラ30によって取得された画像情報に基づいて、人が発話している発話区間を検出し、検出した発話区間において、発話区間が検出されない場合に比べて、音情報に基づいた人の音声認識の感度を上げる。
従って、本実施形態に係る音声認識装置40は、画像情報に基づいて検出された雑音の影響を受けない発話区間に対応して、音声認識の感度が上げられることとなるので、過応答を低減しつつ、音声認識の認識率を高めることができる。
また、本実施形態に係る音声認識装置40は、画像情報に基づいて検出した発話区間と共に、該発話区間に連続した前及び後において音声認識の感度を上げるので、発話の語頭や語尾においても、より確実に音声認識の感度が上げるこができる。
また、本実施形態に係る音声認識装置40は、予め定められた音声閾値以上の音量を、人の音声であると認識し、画像情報に基づいて検出した発話区間において、音声閾値を下げることによって、音声認識の感度を上げるので、簡易に音声認識の感度を変更することができる。
また、本実施形態に係る音声認識装置40は、人の口の動きに基づいて発話区間を検出するので、画像情報に基づいて発話区間を簡易に検出できる。
以上、本発明を、上記実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更または改良を加えることができ、該変更または改良を加えた形態も本発明の技術的範囲に含まれる。
例えば、上記実施形態では、音声認識装置40が、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出する形態について説明したが、本発明は、これに限定されるものではなく、人の顔に含まれる目の向き、すなわち視線に基づいて、該人が発話している発話区間を検出する形態としてもよい。
この形態の場合、音声認識装置40は、視線がロボット10の向きを向いている人物を特定し、特定した人の視線がロボット10の向きを向いている場合に、音声閾値を下げる。
また、音声認識装置40は、口の動きと視線の向きとを組み合わせてもよく、視線がロボット10の方向を向き、かつ口の動きが画像閾値以上の場合に、音声閾値を下げてもよい。これにより、カメラ30による撮像範囲に複数人存在する場合でも、ロボット10に対して話しかけている人の音声のみを認識することができる。
さらに、人の口の動きや視線以外にも、例えば人の顔や頭部の向きや位置の変化を検出し、人の顔がロボット10の方向を向いている場合を、人が発話している発話区間として検出する形態としてもよい。
また、上記実施形態では、発話区間検出部42Aは、口の動きとして口の開き加減を算出する形態について説明したが、本発明は、これに限定されるものではなく、例えば、口の動き(口の開き加減)を周波数分析して、所定の周波数以上の場合に、口が動いていると判断してもよいし、歯を検出した場合(上唇と下唇との間に白色を検出した場合)に口が動いていると判断してもよい。
また、上記実施形態では、発話区間検出部42Aは、画像情報に基づいて検出した発話区間を前後に太める太め処理を行う形態について説明したが、本発明は、これに限定されるものではなく、該発話区間の前及び後の何れか一方のみを太める形態としてもよい。
また、上記実施形態では、音声認識装置40をロボット10に適用する形態について説明したが、本発明は、これに限定されるものではなく、パーソナルコンピュータやICレコーダ等他の機器に適用する形態としてもよい。
10 ロボット
30 カメラ
32 マイク
40 音声認識装置
42A 発話区間検出部
44 音声認識部
56 音声閾値変更部

Claims (7)

  1. 被写体を撮像すると共に被写体を示す画像情報を取得する撮像手段と、
    前記撮像手段による撮像が行われているときに発生している音を示す音情報を取得する音取得手段と、
    前記音取得手段によって取得された前記音情報に基づいて、人の音声を認識する音声認識手段と、
    前記撮像手段によって取得された前記画像情報に基づいて、人が発話している期間を示す発話区間を検出する発話区間検出手段と、
    前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音声認識手段による音声認識の感度を上げる感度変更手段と、
    を備えた音声認識装置。
  2. 前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、前記音声認識手段による音声認識の感度を上げる請求項1記載の音声認識装置。
  3. 前記音声認識手段は、予め定められた閾値以上の音量を、人の音声であると認識し、
    前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、前記音声認識手段による音声認識の感度を上げる請求項1又は請求項2記載の音声認識装置。
  4. 前記発話区間検出手段は、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出する請求項1から請求項3の何れか1項記載の音声認識装置。
  5. 前記発話区間検出手段は、人の顔に含まれる目の向きに基づいて、該人が発話している発話区間を検出する請求項1から請求項4の何れか1項記載の音声認識装置。
  6. 請求項1から請求項5の何れか1項記載の音声認識装置を備えたロボット。
  7. 被写体を撮像すると共に被写体を示す画像情報を撮像手段によって取得し、該撮像手段による撮像が行われているときに発生している音を示す音情報を音取得手段によって取得する第1工程と、
    前記撮像手段によって取得された前記画像情報に基づいて、人が発話している発話区間を検出する第2工程と、
    前記第2工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音情報に基づいた人の音声認識の感度を上げる第3工程と、
    を含む音声認識方法。
JP2011112595A 2011-05-19 2011-05-19 音声認識装置、ロボット、及び音声認識方法 Active JP5797009B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011112595A JP5797009B2 (ja) 2011-05-19 2011-05-19 音声認識装置、ロボット、及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011112595A JP5797009B2 (ja) 2011-05-19 2011-05-19 音声認識装置、ロボット、及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2012242609A true JP2012242609A (ja) 2012-12-10
JP5797009B2 JP5797009B2 (ja) 2015-10-21

Family

ID=47464386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011112595A Active JP5797009B2 (ja) 2011-05-19 2011-05-19 音声認識装置、ロボット、及び音声認識方法

Country Status (1)

Country Link
JP (1) JP5797009B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016098228A1 (ja) * 2014-12-18 2016-06-23 三菱電機株式会社 音声認識装置および音声認識方法
US9489941B2 (en) 2014-05-20 2016-11-08 Panasonic Intellectual Property Management Co., Ltd. Operation assisting method and operation assisting device
JP2016536648A (ja) * 2013-09-17 2016-11-24 クゥアルコム・インコーポレイテッドQualcomm Incorporated ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置
WO2019093123A1 (ja) * 2017-11-07 2019-05-16 ソニー株式会社 情報処理装置および電子機器
JP2021521497A (ja) * 2018-05-04 2021-08-26 グーグル エルエルシーGoogle LLC 検出された口運動および/または注視に基づく自動化アシスタントの適応
US11493992B2 (en) 2018-05-04 2022-11-08 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
US12020704B2 (en) 2022-01-19 2024-06-25 Google Llc Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10910001B2 (en) 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
JP2005115345A (ja) * 2003-09-19 2005-04-28 Ntt Docomo Inc 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
JP2007094104A (ja) * 2005-09-29 2007-04-12 Sony Corp 情報処理装置および方法、並びにプログラム
JP2007156493A (ja) * 2005-12-08 2007-06-21 Korea Electronics Telecommun 音声区間検出装置及び方法並びに音声認識システム
JP2009059257A (ja) * 2007-09-03 2009-03-19 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2009222969A (ja) * 2008-03-17 2009-10-01 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
JP2011039222A (ja) * 2009-08-10 2011-02-24 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
JP2005115345A (ja) * 2003-09-19 2005-04-28 Ntt Docomo Inc 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
JP2007094104A (ja) * 2005-09-29 2007-04-12 Sony Corp 情報処理装置および方法、並びにプログラム
JP2007156493A (ja) * 2005-12-08 2007-06-21 Korea Electronics Telecommun 音声区間検出装置及び方法並びに音声認識システム
JP2009059257A (ja) * 2007-09-03 2009-03-19 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2009222969A (ja) * 2008-03-17 2009-10-01 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
JP2011039222A (ja) * 2009-08-10 2011-02-24 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016536648A (ja) * 2013-09-17 2016-11-24 クゥアルコム・インコーポレイテッドQualcomm Incorporated ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置
US9489941B2 (en) 2014-05-20 2016-11-08 Panasonic Intellectual Property Management Co., Ltd. Operation assisting method and operation assisting device
WO2016098228A1 (ja) * 2014-12-18 2016-06-23 三菱電機株式会社 音声認識装置および音声認識方法
JPWO2016098228A1 (ja) * 2014-12-18 2017-04-27 三菱電機株式会社 音声認識装置および音声認識方法
CN107004405A (zh) * 2014-12-18 2017-08-01 三菱电机株式会社 语音识别装置和语音识别方法
WO2019093123A1 (ja) * 2017-11-07 2019-05-16 ソニー株式会社 情報処理装置および電子機器
JP2021521497A (ja) * 2018-05-04 2021-08-26 グーグル エルエルシーGoogle LLC 検出された口運動および/または注視に基づく自動化アシスタントの適応
US11493992B2 (en) 2018-05-04 2022-11-08 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
US11614794B2 (en) 2018-05-04 2023-03-28 Google Llc Adapting automated assistant based on detected mouth movement and/or gaze
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
US12020704B2 (en) 2022-01-19 2024-06-25 Google Llc Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant

Also Published As

Publication number Publication date
JP5797009B2 (ja) 2015-10-21

Similar Documents

Publication Publication Date Title
JP5797009B2 (ja) 音声認識装置、ロボット、及び音声認識方法
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
CN109410957B (zh) 基于计算机视觉辅助的正面人机交互语音识别方法及***
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
Wang et al. Secure your voice: An oral airflow-based continuous liveness detection for voice assistants
US8762144B2 (en) Method and apparatus for voice activity detection
US20160266910A1 (en) Methods And Apparatus For Unsupervised Wakeup With Time-Correlated Acoustic Events
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
US20170256270A1 (en) Voice Recognition Accuracy in High Noise Conditions
WO2015154419A1 (zh) 一种人机交互装置及方法
US11978478B2 (en) Direction based end-pointing for speech recognition
JP2022529783A (ja) 発話認識エンジンのための入力の識別
JPWO2016098228A1 (ja) 音声認識装置および音声認識方法
CN109558788B (zh) 静默语音输入辨识方法、计算装置和计算机可读介质
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
WO2020244416A1 (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
US20160077792A1 (en) Methods and apparatus for unsupervised wakeup
CN108665907B (zh) 声音识别装置、声音识别方法、记录介质以及机器人
WO2020244411A1 (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
JPWO2018216180A1 (ja) 音声認識装置および音声認識方法
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
Wong Authentication through sensing of tongue and lip motion via smartphone
CN109300475A (zh) 麦克风阵列拾音方法和装置
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150818

R151 Written notification of patent or utility model registration

Ref document number: 5797009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151