JP2012242609A - 音声認識装置、ロボット、及び音声認識方法 - Google Patents
音声認識装置、ロボット、及び音声認識方法 Download PDFInfo
- Publication number
- JP2012242609A JP2012242609A JP2011112595A JP2011112595A JP2012242609A JP 2012242609 A JP2012242609 A JP 2012242609A JP 2011112595 A JP2011112595 A JP 2011112595A JP 2011112595 A JP2011112595 A JP 2011112595A JP 2012242609 A JP2012242609 A JP 2012242609A
- Authority
- JP
- Japan
- Prior art keywords
- utterance section
- voice
- utterance
- detected
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Manipulator (AREA)
Abstract
【解決手段】音声認識装置40は、被写体を撮像すると共に被写体を示す画像情報をカメラ30によって取得し、該カメラ30による撮像が行われているときに発生している音を示す音情報をマイク32によって取得する。そして、音声認識装置40は、カメラ30によって取得された画像情報に基づいて、人が発話している発話区間を検出し、検出した発話区間において、発話区間が検出されない場合に比べて、音情報に基づいた人の音声認識の感度を上げる。
【選択図】図3
Description
また、特許文献2には、マイクロホンアレイから入力される音声に基づき、話者が発する会話の最初に利用する特定の単語もしくは文の音声とその方向とを認識し、検出された音声の方向にカメラを向け、該カメラから入力された画像から人物の顔を検出し、対話処理を行う技術が開示されている。さらに特許文献2には、及び検出した話者方向に指向性を限定して、話者の音声と方向を認識し、顔検出処理を行い、検出された顔方向に移動し、音声認識の精度をより向上させる技術が開示されている。
また、特許文献2に開示されている技術のように、指向性を変えるのみでは、その指向性の方向の雑音による過応答を防ぐことができない。また、屋内においては、部屋の反響音の成分が非常に大きく、指向性を変えることでの目的音と雑音の音量比がほとんど改善せず、効果が現れない可能性が高い。
このような誤認識は、音声認識の感度を下げることによって防ぐことが考えられるが、音声認識の感度が下げられると、本来、人の音声として認識すべき音が認識されない可能性が生じる。
そして、感度変更手段によって、発話区間検出手段で検出された発話区間において、発話区間が検出されない場合に比べて、音声認識手段による音声認識の感度が上げられる。
図1に示すように、ロボット10には、頭部12と、頭部12を下方から支持する胸部14と、胸部14の右側に設けられた右腕部16a、胸部14の左側に設けられた左腕部16bと、胸部14の下方に接続された腰部18と、腰部18の下方に接続されたスカート部20と、スカート部20の下方に接続された脚部22とが設けられている。
カメラ30は、被写体を撮像すると共に被写体を示す画像情報を取得し、マイク32は、カメラ30による撮像が行われているときに発生している音を示す音情報を取得する。
すなわち、ロボット10は、ロボット10に対しコミュニケーションを取ろうとしている人の顔を認識すると共に、該人の音声を認識し、これらの認識結果に応じた動作を行う。
ロボット10は、予め定められた閾値(以下、「音声閾値」という。)を超えた音量(パワー)の音情報を人が発話した音声として認識する。
なお、本実施形態に係るロボット10は、CPU(Central Processing Unit)によってプログラムを実行することにより、音声認識装置40が備える各構成要素による処理を実現する。この場合、該プログラムは、ROM(Read Only Memory)やその他の記憶媒体に予めインストールされる形態や、コンピュータ読み取り可能なCD−ROM等の可搬型の記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等を適用することができる。
なお、本実施形態に係る顔器官検出部50は、顔器官として人の口を検出する。
本実施形態では、顔器官として人の口を検出するため、口の動きとして口の開き加減、より具体的には上唇と下唇との開き量を算出する。
上述のように、閾値処理部62は、音声閾値変更部56から出力された閾値変更情報を用いて発話区間を検出するため、発話区間検出部42Aが備える音声閾値変更部56による閾値変更情報の出力が終了した後に、閾値処理部62による処理を開始させるためである。
そして、ロボット10は、例えば音声認識結果が「おはよう」との発話を示している場合は、「おはよう」と音声を出力する等の、音声認識結果に基づいた動作を行う。
上述のように、マッチング処理部82は、閾値処理部62から出力された発話区間情報を用いて音声認識を行うため、閾値処理部62による発話区間情報の出力が終了した後に、マッチング処理部82による処理を開始させるためである。このため、ディレイ処理部70Bによる時間遅れは、ディレイ処理部70Aによる時間遅れよりもさらに遅くなければならない。
人による発話の開始時(語頭)や発話の終了時(語尾)には、口が大きく開けられなかったりするため、発話の語頭や語尾が発話区間として検出されない可能性がある。
そこで、発話区間を前及び後に広げることによって、発話の語頭及語尾も発話区間に含まれるようにする。なお、発話区間を広めるための上記所定時間は、閾値処理部54によって検出されない可能性のある語頭や語尾に対応する時間であり、実験等により求められる値であり、予め設定されている。
音量算出部60によって算出された音量は、閾値処理部62へ出力され、閾値処理部62は、音量変更情報により示される音声閾値を用いて、閾値判定を行い、音声閾値以上の音量が生じた区間を発話区間として検出する。
図5(A)の右図に示されるように、音声閾値を下げることで、雑音を誤認識することが防がれる。そして、画像情報に基づいて検出された発話区間において音声閾値が下げられることにより、音声認識の感度が上げるため、音声認識装置40は、雑音に対して過応答することなく、人の音声は正しく認識されることとなる。
また、図5(B)の右図に示されるように、雑音と人の音声が重なり合っていても、雑音を誤認識することがなくなるため、人の音声は正しく認識されることとなる。
このように、ロボット10周辺の環境に応じて、区間内音声閾値と区間外音声閾値との比率を変更することによって、雑音に対して過応答する比率を下げ、音声認識率の向上を図ることが望ましい。
従って、本実施形態に係る音声認識装置40は、画像情報に基づいて検出された雑音の影響を受けない発話区間に対応して、音声認識の感度が上げられることとなるので、過応答を低減しつつ、音声認識の認識率を高めることができる。
この形態の場合、音声認識装置40は、視線がロボット10の向きを向いている人物を特定し、特定した人の視線がロボット10の向きを向いている場合に、音声閾値を下げる。
30 カメラ
32 マイク
40 音声認識装置
42A 発話区間検出部
44 音声認識部
56 音声閾値変更部
Claims (7)
- 被写体を撮像すると共に被写体を示す画像情報を取得する撮像手段と、
前記撮像手段による撮像が行われているときに発生している音を示す音情報を取得する音取得手段と、
前記音取得手段によって取得された前記音情報に基づいて、人の音声を認識する音声認識手段と、
前記撮像手段によって取得された前記画像情報に基づいて、人が発話している期間を示す発話区間を検出する発話区間検出手段と、
前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音声認識手段による音声認識の感度を上げる感度変更手段と、
を備えた音声認識装置。 - 前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、前記音声認識手段による音声認識の感度を上げる請求項1記載の音声認識装置。
- 前記音声認識手段は、予め定められた閾値以上の音量を、人の音声であると認識し、
前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、前記音声認識手段による音声認識の感度を上げる請求項1又は請求項2記載の音声認識装置。 - 前記発話区間検出手段は、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出する請求項1から請求項3の何れか1項記載の音声認識装置。
- 前記発話区間検出手段は、人の顔に含まれる目の向きに基づいて、該人が発話している発話区間を検出する請求項1から請求項4の何れか1項記載の音声認識装置。
- 請求項1から請求項5の何れか1項記載の音声認識装置を備えたロボット。
- 被写体を撮像すると共に被写体を示す画像情報を撮像手段によって取得し、該撮像手段による撮像が行われているときに発生している音を示す音情報を音取得手段によって取得する第1工程と、
前記撮像手段によって取得された前記画像情報に基づいて、人が発話している発話区間を検出する第2工程と、
前記第2工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音情報に基づいた人の音声認識の感度を上げる第3工程と、
を含む音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011112595A JP5797009B2 (ja) | 2011-05-19 | 2011-05-19 | 音声認識装置、ロボット、及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011112595A JP5797009B2 (ja) | 2011-05-19 | 2011-05-19 | 音声認識装置、ロボット、及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012242609A true JP2012242609A (ja) | 2012-12-10 |
JP5797009B2 JP5797009B2 (ja) | 2015-10-21 |
Family
ID=47464386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011112595A Active JP5797009B2 (ja) | 2011-05-19 | 2011-05-19 | 音声認識装置、ロボット、及び音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5797009B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016098228A1 (ja) * | 2014-12-18 | 2016-06-23 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US9489941B2 (en) | 2014-05-20 | 2016-11-08 | Panasonic Intellectual Property Management Co., Ltd. | Operation assisting method and operation assisting device |
JP2016536648A (ja) * | 2013-09-17 | 2016-11-24 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置 |
WO2019093123A1 (ja) * | 2017-11-07 | 2019-05-16 | ソニー株式会社 | 情報処理装置および電子機器 |
JP2021521497A (ja) * | 2018-05-04 | 2021-08-26 | グーグル エルエルシーGoogle LLC | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
US11493992B2 (en) | 2018-05-04 | 2022-11-08 | Google Llc | Invoking automated assistant function(s) based on detected gesture and gaze |
US11688417B2 (en) | 2018-05-04 | 2023-06-27 | Google Llc | Hot-word free adaptation of automated assistant function(s) |
US12020704B2 (en) | 2022-01-19 | 2024-06-25 | Google Llc | Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10910001B2 (en) | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358089A (ja) * | 2001-06-01 | 2002-12-13 | Denso Corp | 音声処理装置及び音声処理方法 |
JP2005115345A (ja) * | 2003-09-19 | 2005-04-28 | Ntt Docomo Inc | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 |
JP2007094104A (ja) * | 2005-09-29 | 2007-04-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP2007156493A (ja) * | 2005-12-08 | 2007-06-21 | Korea Electronics Telecommun | 音声区間検出装置及び方法並びに音声認識システム |
JP2009059257A (ja) * | 2007-09-03 | 2009-03-19 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2009222969A (ja) * | 2008-03-17 | 2009-10-01 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
JP2011039222A (ja) * | 2009-08-10 | 2011-02-24 | Nec Corp | 音声認識システム、音声認識方法および音声認識プログラム |
-
2011
- 2011-05-19 JP JP2011112595A patent/JP5797009B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358089A (ja) * | 2001-06-01 | 2002-12-13 | Denso Corp | 音声処理装置及び音声処理方法 |
JP2005115345A (ja) * | 2003-09-19 | 2005-04-28 | Ntt Docomo Inc | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 |
JP2007094104A (ja) * | 2005-09-29 | 2007-04-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP2007156493A (ja) * | 2005-12-08 | 2007-06-21 | Korea Electronics Telecommun | 音声区間検出装置及び方法並びに音声認識システム |
JP2009059257A (ja) * | 2007-09-03 | 2009-03-19 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2009222969A (ja) * | 2008-03-17 | 2009-10-01 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
JP2011039222A (ja) * | 2009-08-10 | 2011-02-24 | Nec Corp | 音声認識システム、音声認識方法および音声認識プログラム |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016536648A (ja) * | 2013-09-17 | 2016-11-24 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置 |
US9489941B2 (en) | 2014-05-20 | 2016-11-08 | Panasonic Intellectual Property Management Co., Ltd. | Operation assisting method and operation assisting device |
WO2016098228A1 (ja) * | 2014-12-18 | 2016-06-23 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
JPWO2016098228A1 (ja) * | 2014-12-18 | 2017-04-27 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
CN107004405A (zh) * | 2014-12-18 | 2017-08-01 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
WO2019093123A1 (ja) * | 2017-11-07 | 2019-05-16 | ソニー株式会社 | 情報処理装置および電子機器 |
JP2021521497A (ja) * | 2018-05-04 | 2021-08-26 | グーグル エルエルシーGoogle LLC | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
US11493992B2 (en) | 2018-05-04 | 2022-11-08 | Google Llc | Invoking automated assistant function(s) based on detected gesture and gaze |
US11614794B2 (en) | 2018-05-04 | 2023-03-28 | Google Llc | Adapting automated assistant based on detected mouth movement and/or gaze |
US11688417B2 (en) | 2018-05-04 | 2023-06-27 | Google Llc | Hot-word free adaptation of automated assistant function(s) |
US12020704B2 (en) | 2022-01-19 | 2024-06-25 | Google Llc | Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant |
Also Published As
Publication number | Publication date |
---|---|
JP5797009B2 (ja) | 2015-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5797009B2 (ja) | 音声認識装置、ロボット、及び音声認識方法 | |
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
CN109410957B (zh) | 基于计算机视觉辅助的正面人机交互语音识别方法及*** | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
Wang et al. | Secure your voice: An oral airflow-based continuous liveness detection for voice assistants | |
US8762144B2 (en) | Method and apparatus for voice activity detection | |
US20160266910A1 (en) | Methods And Apparatus For Unsupervised Wakeup With Time-Correlated Acoustic Events | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
US20170256270A1 (en) | Voice Recognition Accuracy in High Noise Conditions | |
WO2015154419A1 (zh) | 一种人机交互装置及方法 | |
US11978478B2 (en) | Direction based end-pointing for speech recognition | |
JP2022529783A (ja) | 発話認識エンジンのための入力の識別 | |
JPWO2016098228A1 (ja) | 音声認識装置および音声認識方法 | |
CN109558788B (zh) | 静默语音输入辨识方法、计算装置和计算机可读介质 | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
WO2020244416A1 (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
US20160077792A1 (en) | Methods and apparatus for unsupervised wakeup | |
CN108665907B (zh) | 声音识别装置、声音识别方法、记录介质以及机器人 | |
WO2020244411A1 (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
JPWO2018216180A1 (ja) | 音声認識装置および音声認識方法 | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
US20150039314A1 (en) | Speech recognition method and apparatus based on sound mapping | |
Wong | Authentication through sensing of tongue and lip motion via smartphone | |
CN109300475A (zh) | 麦克风阵列拾音方法和装置 | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140513 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150721 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150818 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5797009 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |