JP2019008134A - 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム - Google Patents

音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム Download PDF

Info

Publication number
JP2019008134A
JP2019008134A JP2017123643A JP2017123643A JP2019008134A JP 2019008134 A JP2019008134 A JP 2019008134A JP 2017123643 A JP2017123643 A JP 2017123643A JP 2017123643 A JP2017123643 A JP 2017123643A JP 2019008134 A JP2019008134 A JP 2019008134A
Authority
JP
Japan
Prior art keywords
sound source
source separation
voice
lip
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017123643A
Other languages
English (en)
Other versions
JP6686977B2 (ja
Inventor
崇史 山谷
Takashi Yamatani
崇史 山谷
浩一 中込
Koichi Nakagome
浩一 中込
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2017123643A priority Critical patent/JP6686977B2/ja
Priority to US15/985,360 priority patent/US10665249B2/en
Priority to CN201810635835.2A priority patent/CN109141620B/zh
Publication of JP2019008134A publication Critical patent/JP2019008134A/ja
Application granted granted Critical
Publication of JP6686977B2 publication Critical patent/JP6686977B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/22Source localisation; Inverse modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Manipulator (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラムに関し、信号音声を雑音音声から分離できる音源分離情報を検出することが可能な音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラムを提供する。【解決手段】音声取得手段として動作する音声入力部301は、音声を取得するための所定の指向性を有する。第1方向検出手段として動作する音源到来方向推定部302は、取得された所定の対象の信号音声から、信号音声の到来方向である第1方向を検出する。また、第2方向検出手段として動作する音源到来方向推定部302は、取得された雑音音声から、雑音音声の到来方向である第2方向を検出する。音源分離部303、音量算出部308、及びS/N比算出部309からなる検出手段は、第1方向と第2方向とに基づいて、音源分離方向又は音源分離位置を検出する。【選択図】図3

Description

本発明は、音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラムに関する。
人間、動物等に模した形態を有し、人間と会話等のコミュニケーションをすることができるロボットが知られている。このようなロボットには、自装置に搭載されたマイクの出力に基づいてロボットの周囲に発生した音を検出し、その音が対象者の発声した音声であると判別すると、その対象者がいる方向にロボットの顔の向きあるいは体の向きを変え、その対象者に話しかけたり手を振ったりする等の動作をするものもある。
かかるロボットの動作を実現するためには、対象者が発声する音声である信号音声(信号源)の方向又は位置を検出するために、ロボットの周囲に発生した音から信号音声以外の音声である不要な雑音音声(雑音源)を取り除いて対象者が発声する信号音声のみを分離させる、音源分離技術が必要となる。
従来、信号音声対雑音音声比(S/N比)を高めるために音源分離技術の一種であるビームフォーミングをする技術(例えば特許文献1)が知られている。
特開2005−253071号公報
しかしながら、従来の音源分離技術では、信号音声と雑音音声とが同方向から到来する場合には音源分離が困難であるという課題があり、そのような場合に、信号音声と雑音音声とを同時に検出してしまい、対象者の信号音声(信号源)の方向又は位置の検出において誤検出が発生するという問題点があった。
本発明は、以上のような課題を解決するためのものであり、信号音声を雑音音声から分離できる音源分離情報を検出することが可能な音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラムを供給することを目的とする。
前記目的を達成するため、本発明に係る音源分離情報検出装置の一様態は、
音声を取得するために所定の指向性を有する音声取得手段と、
前記音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出する第1方向検出手段と、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出する第2方向検出手段と、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段と、
を備える、
ことを特徴とする。
前記目的を達成するため、本発明に係るロボットの一様態は、
前記音源分離情報検出装置と、
自装置を移動させる移動手段と、
前記音源分離情報検出装置及び前記移動手段を制御する制御手段と、
を備える、
ことを特徴とする。
前記目的を達成するため、本発明に係る音源分離情報検出方法の一様態は、
音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ことを含む、
ことを特徴とする。
前記目的を達成するため、本発明に係るプログラムの一様態は、
音源分離情報検出装置のコンピュータを、
音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ように機能させる、
ことを特徴とする。
本発明によれば、信号音声を雑音音声から分離できる音源分離情報を検出することが可能な音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラムを供給することが可能になる。
本発明の実施の形態にかかるロボットの外観図である。 ロボットの構成を示すブロック図である。 ロボット制御機能の構成を示すブロック図である。 図3のブロック図の構成の処理例を示すフローチャートである。 ラベル付けされた顔パーツ検出結果のフォーマット例を示す図である。 頭部の回転の自由度を模式的に表した図である。 雑音音声の音源到来方向推定処理の例を示すフローチャートである。 仮の音源位置とマイクの配置との一例を示す図である。 マイクアレイの指向特性の例を示す図である。 音源分離情報検出の説明図(その1)である。 音源分離情報検出の説明図(その2)である。 音源分離情報検出の説明図(その3)である。
以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。図1は、実施の形態に係るロボット100を正面から見た場合の外観を模式的に示した図である。ロボット100は、頭部101と胴体102とを備えた人型のコミュニケーションロボットである。ロボット100は、例えば住宅内に設置され、所定の対象である住人等(以下「対象者」と記載)に呼びかけられると、呼びかけた対象者と会話する。
図1に示すように、ロボット100の頭部101には、カメラ104(画像取得手段)と、マイクアレイ103(音声取得手段)と、スピーカ105(報知手段)と、センサ群106と、首関節駆動部107と、足回り駆動部108と、が設けられている。
カメラ104は、頭部101の前面の下側、人の顔でいうところの鼻の位置に設けられている。カメラ104は、後述する制御部127の制御の下、撮像を行う。
マイクアレイ103は、例えば13個のマイクからなる。13個のマイクのうちの8個のマイクが、人の顔でいうところの額の高さの位置であって、頭部101の周周りに等間隔で配置されている。これら8個のマイクよりも上側に、4個のマイクが頭部101の周回りに等間隔で配置されている。更に、1個のマイクが頭部101の頭頂部に配置されている。マイクアレイ103はロボット100の周囲で発生した音を検出する。
スピーカ105は、カメラ104より下側、人の顔でいうところの口の位置に設けられている。スピーカ105は、後述する制御部127の制御の下、各種の音声を出力する。
センサ群106は、人の顔でいうところの目の位置と耳の位置とに設けられている。センサ群106は、加速度センサ、障害物検知センサ等を含み、ロボット100の姿勢制御や、安全性の確保のために使用される。
首関節駆動部107は、頭部101と胴体102とを連結する部材である。頭部101は、破線で示される首関節駆動部107によって、胴体102に連結されている。首関節駆動部107は、複数のモータを含む。後述する制御部127がこれら複数のモータを駆動すると、ロボット100の頭部101が回転する。首関節駆動部107は、ロボット100の頭部101を回転させると共にその回転量を取得する、顔部回転量取得手段としての役割を有する。
足回り駆動部108は、ロボット100を移動させる移動手段としての役割を有する。特には図示しないが、足回り駆動部108は、胴体102の下側に設けられた4つの車輪(ホイール)を含む。4つの車輪のうち、2つが胴体102の前側に、残り2つが後ろ側に配置されている。車輪として、例えば、オムニホイール、メカナムホイールが使用される。後述の制御部201は、足回り駆動部108の車輪を回転させることにより、ロボット100を移動させる。
図2は、図1の外観を有するロボット100の制御系であるロボット制御システム200を示すブロック図である。図2において、図1と同じ参照番号を付した部分は図1と同じものである。図2において、胴体102内に設置される制御部201は、CPU(Central Processing Unit:中央演算処理装置)、RAM(Random Access Memory:ランダムアクセスメモリ)等を含む。制御部201は、頭部101内のマイクアレイ103、カメラ104、スピーカ105、センサ群106、胴体102内の首関節駆動部107及び足回り駆動部108と、それぞれ電気的に接続され、RAMを作業領域として、後述する記憶部202に記憶されている制御プログラム205を読み出して実行することにより、前記各部を制御する。
記憶部202は、ソリッドステートディスクドライブ、ハードディスクドライブ、フラッシュメモリ等を含み、胴体102の内部に設けられている。記憶部202は、制御部201によって実行される制御プログラム205、マイクアレイ103が集音した音声データ、カメラ104が撮像した画像データ等を含む各種データを記憶する。記憶部202が記憶する制御プログラム205には、後述する音源分離情報検出プログラム、移動プログラム、及び対話プログラム等が含まれる。
操作ボタン203は、胴体102の背中に設けられている(図1において不図示)。操作ボタン203は、ロボット100を操作するための各種のボタンであり、電源ボタン、スピーカ105の音量調節ボタン等を含む。
電源部204は、胴体102に内蔵された充電池であり、ロボット制御システム200の各部に電力を供給する。
図3は、図2の制御部201が記憶部202内の制御プログラム205を実行する機能の一部として実現される対話機能の構成を示すブロック図である。なお、図3に示される各機能部は、制御部201内のFPGA(Field Programmable Array)等のハードウェアによって実現されてもよい。
図3において、音声取得手段として機能する音声入力部301は、図1のマイクアレイ103を構成する各マイクから、音声を入力する。
画像取得手段として機能する画像入力部304、顔検出部305、及び口パーツ検出部306は、音声入力部301が音声を取得するタイミングで、所定の対象である対象者の***画像を取得する。具体的には、画像入力部304が、図1のカメラ104から画像を入力する。次に、顔検出部305が、音声入力部301が例えば所定の閾値以上のパワーを有する音声を入力するタイミングで、入力された画像から顔領域を検出する。そして、口パーツ検出部306が、検出された顔領域から口パーツを検出し、***画像とする。
判定手段として機能する口開閉判定部307は、口パーツ検出部306が出力する***画像に基づいて、対象者の***の開口又は***の閉口を判定する。
音源到来方向推定部302は、口開閉判定部307が***の開口(***が開いている状態)を判定しているときには、第1方向検出手段として機能し、音声入力部301が入力する音声を信号音声として、口パーツ検出部306が出力する***画像及びその信号音声の信号音声パワーに基づいて、信号音声の到来方向である第1方向を推定する。
一方、音源到来方向推定部302は、口開閉判定部307が***の閉口(***が閉じている状態)を判定しているときには、第2方向検出手段として機能し、音声入力部301が入力する音声を雑音音声として、その雑音音声の雑音音声パワーに基づいて、雑音音声の到来方向である第2方向を推定する。
音源到来方向推定部302は、第2方向検出手段として機能するときの処理例として、音源定位手法の一手法であるMUSIC(MUltiple SIgnal Classification)法に基づく処理を実行することにより、対象者以外の音源からの雑音音声の音源定位(雑音源の位置)を推定する。この処理の詳細については後述する。
音源分離部303は、例えば下記文献1で示されているビームフォーミング技術に基づく演算処理を実行することにより、音源到来方向推定部302により現在得られている信号音声の到来方向である第1方向又は雑音音声の到来方向である第2方向を入力として、対象者が発声する信号音声を強調し又は信号音声以外の雑音音声を抑圧する音源分離の処理を実行する。
<文献1>
浅野 太、“音源分離”、[online]、2011年11月受領、電子情報通信学会『知識の森』、[2017年6月15日検索]、インターネット
<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>
具体的には、音源分離部303は、口開閉判定部307が***の開口を判定しているときには、上記ビームフォーミングの演算処理により、信号音声を音源到来方向推定部302により現在得られている第1方向にビームステアリング(強調)するビームステアリング演算処理を実行することにより、強調された信号音声を得て、それを音量算出部308に出力する。
一方、音源分離部303は、口開閉判定部307が***の閉口を判定しているときには、上記ビームフォーミングの演算処理により、雑音音声を音源到来方向推定部302により現在得られている第2方向にヌルステアリング(抑圧)するヌルステアリング演算処理を実行することにより、抑圧された雑音音声を得て、それを音量算出部308に出力する。
なお、音源分離部303が実行する前記処理は、マイクアレイ103として所定の指向性を有する物理的な指向性マイクを用いて実現されてもよい。
音量算出部308は、音源分離部303が出力するビームステアリング(強調)された信号音声又はヌルステアリング(抑圧)された雑音音声のそれぞれの音量を算出する。
S/N算出部309は、音量算出部308が算出する信号音声の音量と雑音音声の音量とに基づいて、信号対雑音比(以下「S/N比」と記載)を算出し、そのS/N比が閾値よりも大きいか否かを判定する。音源分離部303、音量算出部308、及びS/N算出部309は、第1方向と第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段として機能する。
S/N算出部309での判定の結果、S/N比が閾値以下である場合には、図2の制御部201は、音声認識のための十分なS/N比が得られていないと判定する。この場合、制御部201は例えば、図1又は図2の足回り駆動部108を制御することにより、例えば対象者に対して一定の関係(例えば一定の距離又は一定の角度等)を維持しながら、ロボット100を移動させる。
ロボット100の移動の後、制御部201は再び、図3のロボット制御機能を動作させ、上述と同様のS/N比の判定動作を実行させる。この結果、S/N算出部309が算出するS/N比が閾値よりも大きくなると、図2の制御部201は、音声認識のための十分なS/N比が得られ、対象者に対するロボット100の位置関係が、信号音声を雑音音声から最も良く分離できる最適化された位置である音源分離位置になったと判定する(又は、対象者に対するロボット100の方向関係が、信号音声を雑音音声から最も良く分離できる最適化された方向である音源分離方向になったと判定する)。この場合、制御部201は、図3の音声認識部310に、音源分離部303が出力するビームステアリング(強調)された信号音声に対する音声認識処理を実行させることにより、対象者の発話内容を理解する。更に、制御部201は、この音声認識結果に応じて、対話アルゴリズムに従って、図3の発声部311から図1又は図2のスピーカ105を介して、対象者に対して発声を行って対話をする。
図3において、音声認識部310は、既知の音声認識技術を使って音声認識処理を実行する。また、発声部311は、既知の音声合成技術を使って音声合成による発声処理を実行する。
図4は、図3のブロック図の構成の処理例を示すフローチャートである。このフローチャートの処理例は、図3のブロック図の構成を実現する制御部201のハードウェアが実行する処理として、又は図2の制御部201が実行する制御プログラム205の処理として実現される。
まず、図3の顔検出部305が、顔検出処理を実行する(ステップS401)。この顔検出処理では、音声入力部301が例えば所定の閾値以上のパワーを有する音声を入力するタイミングで、カメラ104から画像入力部304を介して入力された画像から、顔領域が検出される。顔検出処理としては、既知の顔検出技術を使用することができる。例えば、下記文献2に記載されている何れかの顔検出技術が適用されてよい。
<文献2>
堀田 一弘、“小特集 顔認識技術 1.顔認識の研究動向” 、[online]、2012年3月28日公開、映像情報メディア学会誌、Vol.64,No.4(2010),p.459-462、[2017年6月15日検索]、インターネット
<URL: https://www.jstage.jst.go.jp/article/itej/64/4/64_4_455/_pdf>
次に、図3の口パーツ検出部306が、口パーツ検出処理を実行する(ステップS402)。口パーツ検出処理としては、既知の顔パーツ検出技術を使用することができる。例えば、下記文献3に記載されている何れかの顔パーツ検出技術が適用されてよい。
<文献3>
littlewing、“WEBカメラで利用できる顔認識技術まとめ-その2”、[online]、2015年4月7日公開、[2017年6月15日検索]、インターネット
<URL: http://littlewing.hatenablog.com/entry/2015/04/07/221856>
ステップS402の口パーツ検出処理により、まず例えばラベル付けされた座標値である顔パーツ検出結果が得られる。ラベル付けされた顔パーツ検出結果のフォーマット例としては、例えば図5に示されるように、下記文献4のFigure2として記載されている例を採用することができる。
<文献4>
C.sagonas,”Facial point annotations”、[online]、[2017年6月15日検索]、インターネット
<URL: https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/>
ステップS402の口パーツ検出処理では、図5に例示される顔パーツ検出結果のうちの例えば、ラベル49から68が口パーツとして検出され、またラベル28から36が鼻パーツとして検出される。
次に、図3の口開閉判定部307は、ステップS402で算出された口パーツと鼻パーツのラベル付けされた座標値(例えば図5のラベル49〜68、ラベル28〜36)を用いて、***の開口(***が開いているか)又は***の閉口(***が綴じているか)を検出する口開閉検出処理を実行する(ステップS403)。
ステップS403で口開閉判定部307はまず、***の縦座標(顔の上下方向)の変化Δyを算出する。今、ある時刻のフレームF(t)にて、下記(1)式の演算により、y座標量差分総計y(t)が算出される。
y(t)=yy1+yy2 ・・・(1)
(1)式において、yy1は、上***(下側)と下***(上側)のy座標量差分総計であり、図5の関係より、下記(2)式から(7)式の累算演算により算出される。これらの式において、演算「+=」は、左辺の値に右辺の値を累算する演算を示す。また、関数「fabs()」は、括弧内の数値に対する絶対値を浮動小数で算出する関数である。また例えば、「data.y[61](t)」は、時刻tのフレーム画像F(t)内における図5のラベル61番のy座標データ値を示す。他も同様である。
yy1+=fabs(data.y[61](t)
−data.y[67](t))・・・(2)
yy1+=fabs(data.y[61](t)
−data.y[58](t))・・・(3)
yy1+=fabs(data.y[62](t)
−data.y[66](t))・・・(4)
yy1+=fabs(data.y[62](t)
−data.y[57](t))・・・(5)
yy1+=fabs(data.y[63](t)
−data.y[65](t))・・・(6)
yy1+=fabs(data.y[63](t)
−data.y[56](t))・・・(7)
(1)式において、yy2は、鼻下と下***(上側)のy座標量差分総計であり、図5の関係より、下記(8)式から(12)式の演算により算出される。
yy2+=fabs(data.y[31](t)
−data.y[60](t))・・・(8)
yy2+=fabs(data.y[32](t)
−data.y[61](t))・・・(9)
yy2+=fabs(data.y[33](t)
−data.y[62](t))・・・(10)
yy2+=fabs(data.y[34](t)
−data.y[63](t))・・・(11)
yy2+=fabs(data.y[34](t)
−data.y[64](t))・・・(12)
図4のステップS403で口開閉判定部307は次に、下記(13)式により、時刻tのフレーム画像F(t)に対して(1)式の演算で算出したy座標量差分総計y(t)と、1フレーム時刻前の時刻(t−1)のフレーム画像F(t−1)に対して(1)式と同様の演算で算出したy座標量差分総計y(t−1)との差分絶対値Δyを求める。ここで、関数「abs()」は、括弧内の数値に対する絶対値を整数で算出する関数である。
Δy=abs(y(t)−y(t−1))・・・(13)
(13)式で算出されるΔyは、***の移動量を示しており、上***と下***が離れる方向もしくは近づく方向に移動している時に大きくなる。即ち、口開閉判定部307は、***移動量取得手段として動作する。
図4のステップS403で口開閉判定部307は、***の横座標(顔の左右方向)の変化Δxについても、前記Δyの場合と同様の演算で算出する。
即ち今、ある時刻のフレームF(t)にて、下記(14)式の演算によって、x座標量差分総計x(t)が算出される。(14)式で例えば、「data.x[61](t)」は、時刻tのフレーム画像F(t)内における図5のラベル61番のx座標データ値を示す。他も同様である。
x(t)=data.x[61](t)+data.x[62](t)
+data.x[63](t)+data.x[67](t)
+data.x[66](t)+data.x[65](t)
・・・(14)
次に、下記(15)式により、時刻tのフレーム画像F(t)に対して(14)式の演算で算出したx座標量差分総計x(t)と、1フレーム時刻前の時刻(t−1)のフレーム画像F(t−1)に対し(14)式と同様の演算で算出したx座標量差分総計x(t−1)との差分絶対値Δxが算出される。
Δx=abs(x(t)−x(t−1))・・・(15)
(15)式で算出されるΔxの値は、Δyの場合と同様に***の移動量を示しており、***が左右どちらかに移動している時に大きくなる。この場合も口開閉判定部307は、***移動量取得手段として動作する。
図4のステップS403で口開閉判定部307は続いて、図1の頭部101の回転判定を行う。口開閉判定部307は、図1又は図2の首関節駆動部107から制御部201に入力する信号に基づいて、フレーム時刻tのフレーム画像F(t)と、その1時刻前のフレーム時刻(t−1)のフレーム画像F(t−1)における、頭部姿勢の差分Δroll、Δyaw及びΔpitchを、下記(16)式、(17)式及び(18)式により算出する。
Δroll=abs(F(t)roll−F(t−1)roll)・・・(16)
Δyaw=abs(F(t)yaw−F(t−1)yaw)・・・(17)
Δpitch=abs(F(t)pitch−F(t−1)pitch)
・・・(18)
ここで例えば、F(t)rollは、時刻tのフレーム画像F(t)に対応して図1又は図2の首関節駆動部107から制御部201に入力するロール角度値F(t−1)rollは、時刻(t−1)のフレーム画像F(t−1)に対応して図1又は図2の首関節駆動部107から制御部201に入力するロール角度値である。ヨー角度値F(t)yaw及びF(t−1)yaw、ピッチ角度値F(t)pitch及びF(t−1)pitchについても、それぞれ同様である。図6は、図1のロボット100の頭部101の回転の自由度を模式的に表した図である。図1又は図2の首関節駆動部107により、ロボット100の頭部101は、胴体102に対して、ピッチ軸Xmの軸回り、ロール軸Zmの軸回り、ヨー軸Ymの軸回りにそれぞれ回転可能である。首関節駆動部107は、ピッチ軸Xmの軸回りのピッチ角度値、ロール軸Zmの軸回りのロール角度値及びヨー軸Ymの軸回りのヨー角度値をそれぞれ、上記のようにして制御部201に出力する。
図4のステップS403で口開閉判定部307は、上記(16)式、(17)式及び(18)式の演算の結果、ロール角度差分値Δroll、ヨー角度差分値Δyaw及びピッチ角度差分値Δpitchを、頭部101の回転角度として算出する。この場合、口開閉判定部307は、頭部101=***画像の回転量を取得する***回転量取得手段として動作する。
なお、頭部101の回転角度の推定方式としては様々な手法が知られており、上記以外の技術が採用されてもよい。
図4のステップS403で口開閉判定部307は、以上のようにして、***の縦座標の変化Δyと、横座標の変化Δxと、ロボット100の頭部101の回転角度としてロール角度差分値Δroll、ヨー角度差分値Δyaw及びピッチ角度差分値Δpitchに基づいて、以下のルールにより***の開閉判定を行う。即ち、口開閉判定部307は、下記(19)式の論理式で示される条件が満たされたときに、***の開口(***が開いている状態)を判定し、その条件が満たされないときに、***の閉口(***が閉じている状態)を判定する。なお、(19)式において、第1の閾値であるy_th、第2の閾値であるx_th、並びに、第3の閾値群であるroll_th、yaw_th及びpitch_thはそれぞれ、Δy、Δx、Δroll、Δyaw及びΔpitchの判定閾値である。
Δy>y_th &&
Δx<x_th &&
Δroll<roll_th &&
Δyaw<yaw_th &&
Δpitch<pitch_th
・・・(19)
即ち、口開閉判定部307は、上***と下***が離れる方向もしくは近づく方向に移動しており、***の横方向移動量は少なく、かつロボット100の頭部101があまり回転していない場合に、***の開口を判定する。Δyだけでなく、Δx、Δroll、Δyaw、及びΔpitchも***の開閉判定に用いることにより、イヤイヤ(左右に首を振る)、考えるために首を傾げるといった動作でも、誤判定を起こりにくくすることができる。
図4の説明に戻り、上記ステップS403での一連の処理により口開閉判定部307により***の開口が判定されると、以下のステップS404からステップS406までの一連の処理が実行される。
まず、図3の音源到来方向推定部302が、信号音声の到来方向の推定処理として、図3の顔検出部305により検出されている顔画像(=***画像)の***方向に基づいて、ロボット100(のカメラ104)に対する***方向角度S_angを算出する処理を実行する(ステップS404)。
続いて、図3の音源分離部303が、例えば前述した文献1に記載されているビームフォーミングの演算処理により、ステップS404で算出された***方向角度S_angの方向(第1方向)にビームステアリング(強調)するビームステアリング演算処理を実行することにより、強調された信号音声を得る(ステップS405)。
そして、図3の音量算出部308が、ステップS405で得られたビームステアリング(強調)された信号音声の音量Spow を算出する(ステップS406)。
一方、ステップS403での一連の処理により口開閉判定部307により***の閉口が判定されると、以下のステップS407からステップS409までの一連の処理が実行される。
まず、図3の音源到来方向推定部302が、音源定位手法の一手法であるMUSIC法に基づく処理を実行することにより、対象者以外の音源からの雑音音声の音源定位(雑音源の位置)を推定してノイズ方向角度N_angを決定する処理を実行する(ステップS407)。この処理の詳細については、後述する。
続いて、図3の音源分離部303が、例えば前述した文献1に記載されているビームフォーミングの演算処理により、ステップS407で算出されたノイズ方向角度N_angの方向(第2方向)にヌルステアリング(抑圧)するヌルステアリング演算処理を実行することにより、抑圧された雑音音声を得る(ステップS408)。
そして、図3の音量算出部308が、ステップS408で得られたヌルステアリング(抑圧)された雑音音声の音量Npow を算出する(ステップS409)。
その後、図3のS/N算出部309が、ステップS406で算出された信号音声の音量Spow とステップS409で算出された雑音音声の音量Npow とに基づいて、下記(20)式の演算に基づいて、S/N比を算出する。
S/N比=Spow /Npow ・・・(20)
更に、S/N算出部309が、下記(21)式の判定演算に基づいて、算出したS/N比が閾値sn_thより大きいか否かを判定する(ステップS410)。
S/N比>sn_th・・・(21)
ステップS410の判定がNOの場合には、図2の制御部201は、音声認識のための十分なS/N比が得られていないと判定する。この場合、制御部201は例えば、図1又は図2の足回り駆動部108を制御することにより、例えば対象者に対して一定の関係(例えば一定の距離又は一定の角度等)を維持しながら、ロボット100を移動させる(ステップS411)。移動処理の詳細については、後述する。
ロボット100の移動の後再び、図4のステップS401からS409の一連の制御処理が実行され、ステップS410のS/N比の判定が行われる。
やがて、ステップS410の判定がYESになると、図2の制御部201は、音声認識のための十分なS/N比が得られ、対象者に対するロボット100の位置関係が、信号音声を雑音音声から最も良く分離できる最適化された位置である音源分離位置になったと判定する。この場合、制御部201は、図3の音声認識部310に、音源分離部303が出力するビームステアリング(強調)された信号音声に対する音声認識処理を実行させることにより、対象者の発話内容を理解する。更に、制御部201は、この音声認識結果に応じて、対話アルゴリズムに従って、図3の発声部311から図1又は図2のスピーカ105を介して、対象者に対して発声を行って対話をする(以上、ステップS412)。対話終了後、図2の制御部201は、図4のフローチャートで示される制御処理を終了する。
図7は、図4のステップS403での一連の処理により口開閉判定部307により***の閉口が判定された場合に、ステップS407で図3の音源到来方向推定部302によりMUSIC法に基づいて実行される、対象者以外の音源からの雑音音声の音源定位(雑音源の位置)を推定してノイズ方向角度N_angを決定する処理の詳細例を示すフローチャートである。
まず、図1又は図2のマイクアレイ103に入力された音声が、時間周波数変換される(ステップS701)。ここでは例えば、時間周波数変換演算処理として、STFT(Short−Time Fourier Transform:短時間フーリエ変換)が実行される。
音源数をNとすると、第n番目の音源の信号Snは、下記(22)式で表せる。なお、ωは角周波数、fはフレーム番号である(以下の説明でも同様)。
Sn(ω,f)(n=1,2,…,N)・・・(22)
図1又は図2のマイクアレイ103の各マイクで観測される信号は、マイクアレイ103におけるマイクの数をMとすると、下記(23)式で表せる。
Xm(ω,f)(m=1,2,・・・,M)・・・(23)
音源から出た音は、空気を伝わってマイクアレイ103のマイクで観測されるが、そのときの伝達関数をHnm(ω)とすると、音源の信号を表す数式に、伝達関数を乗じることで、マイクアレイ103の各マイクで観測される信号を求めることができる。m番目のマイクで観測される信号Xm(ω,f)は下記(24)式のように表される。
ロボット100は、マイクアレイ103としてマイクを複数有しているので、マイクアレイ103全体で観測される信号x(ω,f)は下記(25)式で表すことができる。
同様に、全音源の信号s(ω,f)も下記(26)式で表すことができる。
同様に、第n番目の音源の伝達関数hn(ω)は下記(27)式で表すことができる。
全ての伝達関数を下記(28)式のように表記する。
h(ω)=[h1(ω),h2(ω),…hN(ω)]・・・(28)
(28)式で表される伝達関数を、前述した(24)式に適用すると、下記(29)式のように表される。
x(ω,f)=h(ω)s(ω,f)・・・(29)
hn(ω)は音源位置毎に独立であり、ある程度のフレーム数(例えば、フレーム数をLとする))で見ればSn(ω,f)は無相関とみなせるので、x(ω,f)は音源数NをRANKとする超平面を構成する。このとき、距離で正規化した音量が大きな音源の伝達関数方向に分布が広がりやすい。そこで、部分空間とゼロ空間とに分解することを考える。
再び図7を参照する。次の(30)式に示されるように、相関行列が計算される(ステップS702)。ここで、「*」は複素共役転置を表す。
続いて、固有値分解が実行される(ステップS703)。ここで、固有値λm(ω,f)と固有ベクトルem(ω,f)とは固有値が降順になるように並べ替えられているものとする
原理的には、hn(ω)は部分空間の固有ベクトルem(ω,f)(m=1〜N)の重み付け加算から復元できるが、実際には復元が困難であるためゼロ空間を構成する固有ベクトルem(ω,f)(m=N+1〜M)がhn(ω)と直交することを使って音源定位を実現する。
しかし、雑音音声の音源は例えば建物室内を移動する可能性があるため、音源位置を予め知ることはできず、音源位置の伝達関数を予め取得しておくことは難しい。このため、仮の音源位置が決められ、仮の音源位置の伝達関数が予め用意されて、音源定位が行われる。
図8は、仮の音源位置とマイクの配置との一例を示す図である。図8では、太線の円がロボット100の頭110を表し、太線上の黒丸がマイクアレイ103のマイクを表す。なお、ここでは、便宜上図1のマイクアレイ103の13個のマイクの全てを表示していない。ロボット100の回りには4個の仮の音源位置があるものとする。
マイクアレイ103の複数のマイクは、ロボット100の頭110に配置されていることから、円周に沿って配置されているとみなすことができる。X軸の正の向きと、各マイクが成す円の中心(ロボット100の頭110の中心位置に相当)と仮の音源1〜4とをそれぞれ結んだ線と、がなす角度をθ1、θ2、θ3、θ4として、それぞれの伝達関数hθ(ω)を予め計算しておく。
図8では、音源が4個の例を示したが、音源数がN個の場合、θ1、θ2、・・・、θNのそれぞれの伝達関数hθ(ω)を予め計算しておけばよい。或いは、仮の音源位置の伝達関数を用意するのではなく、幾何的な情報をもとに予め伝達関数を計算しておいてもよい。
再び図7を参照する。下記(31)式を使用して、周波数帯毎のMUSICスペクトルが計算される(ステップS704)。
ここで、(31)式の分母は、ノイズや誤差、STFTの周波数帯間の信号漏洩の影響等からゼロにはならない。また、音源の方向と予め決めた角度θ(θ1、θ2、・・・、θN)の何れかが近い場合、つまりhn(ω)とhθ(ω)とが近い場合、(31)式の値は極端に大きなものになる。図8に示す例では、雑音音声の音源と仮の音源の位置とが近いため、θ2の伝達関数を使用した場合、(31)式の値が極端に大きくなることが想定される。
次に、統合したMUSICのパワーを求めるため、下記(32)式の演算により、周波数帯毎のMUSICスペクトルが重み付け加算される(ステップS705)。
重み付け係数は、固有値λm(ω,f)が大きいほど大きくすれば、Sn(ω,f)に含まれるパワーに応じた計算をすることもできる。この場合はSn(ω,f)に殆どパワーがない場合の悪影響を軽減できる。
最後に、パワースペクトルから適切なピーク(極大値)が選択される(ステップS706)。具体的には、まず、複数のピークが算出され、その中から適切なピークが選択されて、選択されたピークにおけるθが図4のステップS407で説明した雑音音声の音源方向のノイズ方向角度N_angとされる。ここで、ピークを求めるのは以下のような理由による。本来の音源方向のθのパワーが必ずしも一番大きいとは限らず、本来の音源方向に近いθのパワーは総じて大きくなるので、音源方向は複数のピークの何れかに正解があるからである。その後、図7のフローチャートの処理が終了して、図4のステップS407の雑音音声の音源到来方向推定処理が終了する。
以上の説明では、雑音音声の音源到来方向として平面を仮定して説明したが、3次元空間を仮定しても上記説明は成り立つ。
図9は、図1又は図2のマイクアレイ103の指向特性の例を示す図、図10から図12は、音源分離方向検出の説明図である。図9において、マイクアレイ103は、120度付近で、各周波数においてまんべんなくマイナスゲインが得られている。従って、下記(33)式のように、図4のステップS404で算出される***方向角度である対象者の信号音声方向S_angと、ステップS407で算出されるノイズ方向角度N_angとの差分の絶対値が120度付近になる音源分離方向が、最も良い音源分離が期待できる方向となる。
abs(S_ang−N_ang)・・・(33)
図4のステップS410の判定がNO→S411→S401として実行される処理により実現されるアルゴリズムとしては、ロボット100の位置毎に、前述した(20)式により算出される信号音声対雑音音声のS/N比が前述した(21)式の判定演算により閾値sn_thを超えたか否かが判定されながら、前述した図4のステップS411でのロボット100の移動処理が繰り返され、S/N比が閾値sn_thを超えたと判定された地点が、信号音声と雑音音声の最適な分離位置、即ち音源分離位置とされる。
なお、S/N比が閾値sn_thを超えた時点ではなく、閾値を超えた後にS/N比が最高となる地点が音源分離位置とされてもよい。
例えば、図10は、S_ang=0度、N_ang=10度と算出された状態の例を示している。ロボット100のカメラ104(図1)から見ると、対象者の右10度方向にノイズの音源が存在していることになる。この状態から、図2の制御部201は、図1又は図2の足回り駆動部108を制御することにより、ロボット100を、対象者を中心にして例えば右方向(図10の方向A)に移動させる。左方向への移動が行われてももちろん良い。ただし、図10の例の場合は、右移動の方が音源分離位置に最短距離で近づくことができる。図11は、上記移動後のロボット100と対象者とノイズ音源の位置関係を示す図である。このような移動が繰り返されることにより、ロボット100は最終的に、図12に示される音源分離位置まで移動をして、移動を完了する。この音源分離位置は、マイクアレイ103が図9に示される指向特性を有する場合に、(33)式で算出される信号音声方向S_angとノイズ方向角度N_angとの差分の絶対値が120度付近になる位置である。
上述の動作において、図2の制御部201は、移動開始時に「聞き取りやすい位置に移動するね」などの音声を、図3の発声部311から発声させることにより、移動中は対話を中止してもらえるような文言を喋られせることが望ましい。また、移動中にも対話できるようにしてもよい。
上述した図4のフローチャートで例示される制御処理において、S/N算出部309でのステップS410の判定の結果、S/N比が閾値sn_th以下である場合に、制御部201は例えば、図3の発声部311を介して図1又は図2のスピーカ105から、対象者に対して、「僕を中心にして・・・度ほど回転するように移動してください。」というような意味の発声を行って、対象者に移動を促すような制御が行われてもよい。
また、上述のような発声を行いながら、継続的に取得したノイズ方向角度N_angが都合の良い角度になるまで、「もう少し」や「ストップ」などの発声を行って対象者に指示をするような制御が行われてもよい。
例えば建物室内のマップ情報を利用できる場合には、対象者やノイズの2次元又は3次元の音源位置をマップ上で推定し、その推定結果に基づいて音源分離位置に移動するような制御が実施されてもよい。音源位置のマップは、ノイズ音源になるべく近づいてその位置を特定して登録するようにしてもよい。
一方、音源位置のマップが無い場合には、ロボット100の移動中に獲得したノイズ方向とその時の位置とロボット100本体の向きから、ノイズの音源位置を推定するようにしてもよい。この場合、観測点が2点以上あれば音源位置が決められる。推定方向にある程度の誤差を持たせて、より多くの観測点から推定が行われるようにしてもよい。
更に、上記のようなマップ情報を使ったノイズの音源位置の推定結果に基づいて、「あと・・・度回転して」というような発声を行って対象者に指示をするような制御が行われてもよい。
上述した実施形態において、ロボット100が移動するときに、ロボット100がそっぽを向きながら移動したり、ロボット100が勝手に動いていると、対象者が違和感を感じてしまうため、対象者が違和感を感じないように、移動することが望ましい。例えば、対象者とアイコンタクトを取ったり、対象者の方を向きながら移動することが望ましい。また、音源分離位置まで一気に移動するのではなく、少しだけ動いたり、回転のみをしてもよい。
以上の実施形態によれば、信号音声が雑音音声から最も良く分離した状態で音源分離が行える最適化された音源分離情報(音源分離方向又は音源分離位置)を検出することが可能となる。これにより、対象者の音声以外の他の音声を排除して、音声認識の誤認識を減らすことが可能となる。
以上説明した実施形態において、図2の制御部201が記憶部202に記憶され図4や図7のフローチャートの処理例で示される制御プログラム205を実行することにより図3で示される機能を実現する場合、制御プログラム205は、例えば外部記憶装置や可搬記録媒体に記録して配布してもよく、あるいは特には図示しない無線や有線の通信インタフェースを介してネットワークから取得できるようにしてもよい。
以上の実施形態に関して、更に以下の付記を開示する。
(付記1)
音声を取得するために所定の指向性を有する音声取得手段と、
前記音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出する第1方向検出手段と、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出する第2方向検出手段と、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段と、
を備える、
ことを特徴とする音源分離情報検出装置。
(付記2)
前記検出手段は、前記信号音声と前記雑音音声とから算出された信号対雑音比が閾値以下である場合、前記第1方向と前記第2方向とに基づいて、前記信号対雑音比が前記閾値を超える前記音源分離方向又は前記音源分離位置を検出する、
ことを特徴とする付記1に記載の音源分離情報検出装置。
(付記3)
前記音声取得手段が前記音声を取得するタイミングで前記所定の対象の***画像を取得する画像取得手段と、
前記***画像に基づいて、前記所定の対象の***の開口又は前記***の閉口を判定する判定手段と、
を更に備え、
前記第1方向検出手段は、前記判定手段による前記***の開口の判定時に、前記音声取得手段により取得された前記音声を前記信号音声とし、
前記第2方向検出手段は、前記判定手段による前記***の閉口の判定時に、前記音声取得手段により取得された前記音声を前記雑音音声とする、
ことを特徴とする付記1又は2に記載の音源分離情報検出装置。
(付記4)
前記画像取得手段は、顔部画像を更に取得し、
前記***画像から前記所定の対象の前記***の移動量を取得する***移動量取得手段と、
前記顔部画像から前記所定の対象の顔部の回転量を取得する顔部回転量取得手段と、
を更に備え、
前記判定手段は、前記***の移動量と前記顔部の回転量とに基づいて、前記所定の対象の前記***の開口又は前記***の閉口を判定する、
ことを特徴とする付記3に記載の音源分離情報検出装置。
(付記5)
前記判定手段は、前記***の移動量のうちの前記***の開閉方向の移動量が第1の閾値を超え、且つ、前記***の移動量のうちの前記***の延伸方向の移動量が第2の閾値未満であり、且つ、前記顔部の回転量が第3の閾値未満であるときに、前記***の開口又は前記***の閉口を判定する、
ことを特徴とする付記4に記載の音源分離情報検出装置。
(付記6)
前記第1方向検出手段は、前記判定手段による前記***の開口の判定時に、前記信号音声の信号音声パワーに基づいて、前記第1方向を検出し、
前記第2方向検出手段は、前記判定手段による前記***の閉口の判定時に、前記雑音音声の雑音音声パワーに基づいて、前記第2方向を検出する、
ことを特徴とする付記3乃至5の何れか1つに記載の音源分離情報検出装置。
(付記7)
前記検出手段は、前記信号対雑音比が前記閾値を超えて最大となる方向を前記音源分離方向とする、又は、前記信号対雑音比が前記閾値を超えて最大となる位置を前記音源分離位置とする、
ことを特徴とする付記2乃至6の何れか1つに記載の音源分離情報検出装置。
(付記8)
前記検出手段は、前記信号対雑音比が前記閾値を超える場合、現在方向を前記音源分離方向とする、又は、現在位置を前記音源分離位置とする、
ことを特徴とする付記2乃至6の何れか1つに記載の音源分離情報検出装置。
(付記9)
前記所定の対象にメッセージを報知する報知手段を更に備え、
前記報知手段は、前記所定の対象に現在位置から前記音源分離位置まで移動させるために、前記音源分離位置までの移動方向及び移動距離を含む前記メッセージを報知する、
ことを特徴とする付記1乃至8の何れか1つに記載の音源分離情報検出装置。
(付記10)
前記所定の対象は人又は動物である、
ことを特徴とする付記1乃至9の何れか1つに記載の音源分離情報検出装置。
(付記11)
付記1乃至10の何れかに記載の音源分離情報検出装置と、
自装置を移動させる移動手段と、
前記音源分離情報検出装置及び前記移動手段を制御する制御手段と、
を備える、
ことを特徴とするロボット。
(付記12)
前記制御手段は、前記移動手段を制御して、前記音源分離位置に前記自装置を移動させる、
ことを特徴とする付記11に記載のロボット。
(付記13)
音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ことを含む、
ことを特徴とする音源分離情報検出方法。
(付記14)
音源分離情報検出装置のコンピュータを、
音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ように機能させる、
ことを特徴とするプログラム。
100 ロボット
101 頭部
102 胴体
103 マイクアレイ
104 カメラ
105 スピーカ
106 センサ群
107 首関節駆動部
108 足回り駆動部
200 ロボット制御システム
201 制御部
202 記憶部
203 操作ボタン
204 電源部
205 制御プログラム
301 音声入力部
302 音源到来方向推定部
303 音源分離部
304 画像入力部
305 顔検出部
306 口パーツ検出部
307 口開閉判定部
308 音量算出部
309 S/N算出部
310 音声認識部
311 発声部
前記目的を達成するため、本発明に係る音源分離情報検出装置の一様態は、
音声を取得するために所定の指向性を有する音声取得手段と、
前記音声取得手段により取得された前記音声から、所定の対象の信号音声の到来方向である第1方向を検出する第1方向検出手段と、
前記音声取得手段により取得された前記音声から、雑音音声の到来方向である第2方向を検出する第2方向検出手段と、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段と、
を備える、
ことを特徴とする。
前記目的を達成するため、本発明に係るロボットの一様態は、
前記音源分離情報検出装置と、
自装置を移動る移動手段と、
前記自装置を動作する動作手段と、
前記音源分離情報検出装置前記移動手段及び前記動作手段を制御する制御手段と、
を備える、
ことを特徴とする。
前記目的を達成するため、本発明に係る音源分離情報検出方法の一様態は、
音声を取得するために所定の指向性を有する音声取得手段により取得された前記音声から、所定の対象の信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された前記音声から、雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ことを含む、
ことを特徴とする。
前記目的を達成するため、本発明に係るプログラムの一様態は、
音源分離情報検出装置のコンピュータを、
音声を取得するために所定の指向性を有する音声取得手段により取得された前記音声から、所定の対象の信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された前記音声から、雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ように機能させる、
ことを特徴とする。
スピーカ105は、カメラ104より下側、人の顔でいうところの口の位置に設けられている。スピーカ105は、後述する制御部127の制御の下、各種の音声を出力する。
足回り駆動部108は、ロボット100を移動させる移動手段としての役割を有する。特には図示しないが、足回り駆動部108は、胴体102の下側に設けられた4つの車輪(ホイール)を含む。4つの車輪のうち、2つが胴体102の前側に、残り2つが後ろ側に配置されている。車輪として、例えば、オムニホイール、メカナムホイールが使用される。後述の制御部201は、足回り駆動部108の車輪を回転させることにより、ロボット100を移動させる。
S/N算出部309は、音量算出部308が算出する信号音声の音量と雑音音声の音量とに基づいて、信号対雑音比(以下「S/N比」と記載)を算出し、そのS/N比が閾値よりも大きいか否かを判定する。音源分離部303、音量算出部308、及びS/N算出部309は、第1方向と第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段として機能する。
S/N算出部309での判定の結果、S/N比が閾値以下である場合には、図2の制御部201は、音声認識のための十分なS/N比が得られていないと判定する。この場合、制御部201は例えば、図1又は図2の足回り駆動部108を制御することにより、例えば対象者に対して一定の関係(例えば一定の距離又は一定の角度等)を維持しながら、ロボット100を移動させる。
ロボット100の移動の後、制御部201は再び、図3のロボット制御機能を動作させ、上述と同様のS/N比の判定動作を実行させる。この結果、S/N算出部309が算出するS/N比が閾値よりも大きくなると、図2の制御部201は、音声認識のための十分なS/N比が得られ、対象者に対するロボット100の位置関係が、信号音声を雑音音声から最も良く分離できる最適化された位置である音源分離位置になったと判定する(又は、対象者に対するロボット100の方向関係が、信号音声を雑音音声から最も良く分離できる最適化された方向である音源分離方向になったと判定する)。この場合、制御部201は、図3の音声認識部310に、音源分離部303が出力するビームステアリング(強調)された信号音声に対する音声認識処理を実行させることにより、対象者の発話内容を理解する。更に、制御部201は、この音声認識結果に応じて、対話アルゴリズムに従って、図3の発声部311から図1又は図2のスピーカ105を介して、対象者に対して発声を行って対話をする。
ステップS402の口パーツ検出処理では、図5に例示される顔パーツ検出結果のうちの例えば、ラベル49から68までが口パーツとして検出され、またラベル28から36までが鼻パーツとして検出される。
次に、図3の口開閉判定部307は、ステップS402で算出された口パーツと鼻パーツのラベル付けされた座標値(例えば図5のラベル49〜68、ラベル28〜36)を用いて、***の開口(***が開いているか)又は***の閉口(***がじているか)を検出する口開閉検出処理を実行する(ステップS403)。
(1)式において、yy1は、上***(下側)と下***(上側)のy座標量差分総計であり、図5の関係より、下記(2)式から(7)式までの累算演算により算出される。これらの式において、演算「+=」は、左辺の値に右辺の値を累算する演算を示す。また、関数「fabs()」は、括弧内の数値に対する絶対値を浮動小数で算出する関数である。また例えば、「data.y[61](t)」は、時刻tのフレーム画像F(t)内における図5のラベル61番のy座標データ値を示す。他も同様である。
(1)式において、yy2は、鼻下と下***(上側)のy座標量差分総計であり、図5の関係より、下記(8)式から(12)式までの演算により算出される。
(13)式で算出されるΔyは、***の移動量を示しており、上***と下***が離れる方向もしくは近づく方向に移動している時に大きくなる。即ち、口開閉判定部307は、***移動量取得手段として動作する。
即ち、口開閉判定部307は、上***と下***が離れる方向もしくは近づく方向に移動しており、***の横方向移動量は少なく、かつロボット100の頭部101があまり回転していない場合に、***の開口を判定する。Δyだけでなく、Δx、Δroll、Δyaw、及びΔpitchも***の開閉判定に用いることにより、イヤイヤ(左右に首を振る)、考えるために首を傾げるといった動作でも、誤判定を起こりにくくすることができる。
その後、図3のS/N算出部309が、ステップS406で算出された信号音声の音量Spow とステップS409で算出された雑音音声の音量Npow とに基づいて、下記(20)式の演算に基づいて、S/N比を算出する。
更に、S/N算出部309が、下記(21)式の判定演算に基づいて、算出したS/N比が閾値sn_thより大きいか否かを判定する(ステップS410)。
ロボット100の移動の後再び、図4のステップS401からステップS409までの一連の制御処理が実行され、ステップS410のS/N比の判定が行われる。
図4のステップS410の判定がNO→S411→S401として実行される処理により実現されるアルゴリズムとしては、ロボット100の位置毎に、前述した(20)式により算出される信号音声対雑音音声のS/N比が前述した(21)式の判定演算により閾値sn_thを超えたか否かが判定されながら、前述した図4のステップS411でのロボット100の移動処理が繰り返され、S/N比が閾値sn_thを超えたと判定された地点が、信号音声と雑音音声の最適な分離位置、即ち音源分離位置とされる。
上述の動作において、図2の制御部201は、移動開始時に「聞き取りやすい位置に移動するね」などの音声を、図3の発声部311から発声させることにより、移動中は対話を中止してもらえるような文言を喋らせることが望ましい。また、移動中にも対話できるようにしてもよい。
上述した図4のフローチャートで例示される制御処理において、S/N算出部309でのステップS410の判定の結果、S/N比が閾値sn_th以下である場合に、制御部201は例えば、図3の発声部311を介して図1又は図2のスピーカ105から、対象者に対して、「僕を中心にして・・・度ほど回転するように移動してください。」というような意味の発声を行って、対象者に移動を促すような制御が行われてもよい。
一方、音源位置のマップが無い場合には、ロボット100の移動中に獲得したノイズ方向とその時の位置とロボット100本体の向きから、ノイズの音源位置を推定するようにしてもよい。この場合、観測点が2点以上あれば音源位置が決められる。推定方向にある程度の誤差を持たせて、より多くの観測点から推定が行われるようにしてもよい。
100 ロボット
101 頭部
102 胴体
103 マイクアレイ
104 カメラ
105 スピーカ
106 センサ群
107 首関節駆動部
108 足回り駆動部
200 ロボット制御システム
201 制御部
202 記憶部
203 操作ボタン
204 電源部
205 制御プログラム
301 音声入力部
302 音源到来方向推定部
303 音源分離部
304 画像入力部
305 顔検出部
306 口パーツ検出部
307 口開閉判定部
308 音量算出部
309 S/N算出部
310 音声認識部
311 発声部

Claims (14)

  1. 音声を取得するために所定の指向性を有する音声取得手段と、
    前記音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出する第1方向検出手段と、
    前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出する第2方向検出手段と、
    前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段と、
    を備える、
    ことを特徴とする音源分離情報検出装置。
  2. 前記検出手段は、前記信号音声と前記雑音音声とから算出された信号対雑音比が閾値以下である場合、前記第1方向と前記第2方向とに基づいて、前記信号対雑音比が前記閾値を超える前記音源分離方向又は前記音源分離位置を検出する、
    ことを特徴とする請求項1に記載の音源分離情報検出装置。
  3. 前記音声取得手段が前記音声を取得するタイミングで前記所定の対象の***画像を取得する画像取得手段と、
    前記***画像に基づいて、前記所定の対象の***の開口又は前記***の閉口を判定する判定手段と、
    を更に備え、
    前記第1方向検出手段は、前記判定手段による前記***の開口の判定時に、前記音声取得手段により取得された前記音声を前記信号音声とし、
    前記第2方向検出手段は、前記判定手段による前記***の閉口の判定時に、前記音声取得手段により取得された前記音声を前記雑音音声とする、
    ことを特徴とする請求項1又は2に記載の音源分離情報検出装置。
  4. 前記画像取得手段は、顔部画像を更に取得し、
    前記***画像から前記所定の対象の前記***の移動量を取得する***移動量取得手段と、
    前記顔部画像から前記所定の対象の顔部の回転量を取得する顔部回転量取得手段と、
    を更に備え、
    前記判定手段は、前記***の移動量と前記顔部の回転量とに基づいて、前記所定の対象の前記***の開口又は前記***の閉口を判定する、
    ことを特徴とする請求項3に記載の音源分離情報検出装置。
  5. 前記判定手段は、前記***の移動量のうちの前記***の開閉方向の移動量が第1の閾値を超え、且つ、前記***の移動量のうちの前記***の延伸方向の移動量が第2の閾値未満であり、且つ、前記顔部の回転量が第3の閾値未満であるときに、前記***の開口又は前記***の閉口を判定する、
    ことを特徴とする請求項4に記載の音源分離情報検出装置。
  6. 前記第1方向検出手段は、前記判定手段による前記***の開口の判定時に、前記信号音声の信号音声パワーに基づいて、前記第1方向を検出し、
    前記第2方向検出手段は、前記判定手段による前記***の閉口の判定時に、前記雑音音声の雑音音声パワーに基づいて、前記第2方向を検出する、
    ことを特徴とする請求項3乃至5の何れか1項に記載の音源分離情報検出装置。
  7. 前記検出手段は、前記信号対雑音比が前記閾値を超えて最大となる方向を前記音源分離方向とする、又は、前記信号対雑音比が前記閾値を超えて最大となる位置を前記音源分離位置とする、
    ことを特徴とする請求項2乃至6の何れか1項に記載の音源分離情報検出装置。
  8. 前記検出手段は、前記信号対雑音比が前記閾値を超える場合、現在方向を前記音源分離方向とする、又は、現在位置を前記音源分離位置とする、
    ことを特徴とする請求項2乃至6の何れか1項に記載の音源分離情報検出装置。
  9. 前記所定の対象にメッセージを報知する報知手段を更に備え、
    前記報知手段は、前記所定の対象に現在位置から前記音源分離位置まで移動させるために、前記音源分離位置までの移動方向及び移動距離を含む前記メッセージを報知する、
    ことを特徴とする請求項1乃至8の何れか1項に記載の音源分離情報検出装置。
  10. 前記所定の対象は人又は動物である、
    ことを特徴とする請求項1乃至9の何れか1項に記載の音源分離情報検出装置。
  11. 請求項1乃至10の何れか1項に記載の音源分離情報検出装置と、
    自装置を移動させる移動手段と、
    前記音源分離情報検出装置及び前記移動手段を制御する制御手段と、
    を備える、
    ことを特徴とするロボット。
  12. 前記制御手段は、前記移動手段を制御して、前記音源分離位置に前記自装置を移動させる、
    ことを特徴とする請求項11に記載のロボット。
  13. 音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
    前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
    前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
    ことを含む、
    ことを特徴とする音源分離情報検出方法。
  14. 音源分離情報検出装置のコンピュータを、
    音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
    前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
    前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
    ように機能させる、
    ことを特徴とするプログラム。
JP2017123643A 2017-06-23 2017-06-23 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム Active JP6686977B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017123643A JP6686977B2 (ja) 2017-06-23 2017-06-23 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US15/985,360 US10665249B2 (en) 2017-06-23 2018-05-21 Sound source separation for robot from target voice direction and noise voice direction
CN201810635835.2A CN109141620B (zh) 2017-06-23 2018-06-20 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017123643A JP6686977B2 (ja) 2017-06-23 2017-06-23 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019008134A true JP2019008134A (ja) 2019-01-17
JP6686977B2 JP6686977B2 (ja) 2020-04-22

Family

ID=64692737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017123643A Active JP6686977B2 (ja) 2017-06-23 2017-06-23 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム

Country Status (3)

Country Link
US (1) US10665249B2 (ja)
JP (1) JP6686977B2 (ja)
CN (1) CN109141620B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021084905A1 (ja) * 2019-10-30 2021-05-06 パナソニックIpマネジメント株式会社 収音装置および収音方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11310593B2 (en) * 2017-10-11 2022-04-19 Sony Corporation Voice input device and method for estimation of utterance direction
CN109767774A (zh) * 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
CN108109619B (zh) * 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN109831717B (zh) * 2017-11-23 2020-12-15 深圳市优必选科技有限公司 一种降噪处理方法、***及终端设备
US11200902B2 (en) * 2018-02-15 2021-12-14 DMAI, Inc. System and method for disambiguating a source of sound based on detected lip movement
US11017779B2 (en) 2018-02-15 2021-05-25 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition
US11017551B2 (en) 2018-02-15 2021-05-25 DMAI, Inc. System and method for identifying a point of interest based on intersecting visual trajectories
US10811032B2 (en) * 2018-12-19 2020-10-20 Cirrus Logic, Inc. Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers
CN111383649B (zh) * 2018-12-28 2024-05-03 深圳市优必选科技有限公司 一种机器人及其音频处理方法
WO2020172828A1 (zh) * 2019-02-27 2020-09-03 华为技术有限公司 一种声源分离方法、装置及设备
JP7180470B2 (ja) * 2019-03-18 2022-11-30 トヨタ自動車株式会社 コミュニケーションシステム、及びコミュニケーションシステムの制御方法
CN110210196B (zh) * 2019-05-08 2023-01-06 北京地平线机器人技术研发有限公司 身份认证方法及装置
KR20200144366A (ko) * 2019-06-18 2020-12-29 엘지전자 주식회사 로봇을 위한 기동어 인식 모델의 생성
JP7191793B2 (ja) * 2019-08-30 2022-12-19 株式会社東芝 信号処理装置、信号処理方法、及びプログラム
EP3797938B1 (en) * 2019-09-27 2024-01-03 Tata Consultancy Services Limited Attention shifting of a robot in a group conversation using audio-visual perception based speaker localization
US11072075B2 (en) * 2019-10-24 2021-07-27 Disney Enterprises, Inc. Eye contact sensing and control for robotic characters
CN111402912A (zh) * 2020-02-18 2020-07-10 云知声智能科技股份有限公司 一种语音信号降噪方法及装置
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
US12019993B2 (en) * 2020-02-29 2024-06-25 Embodied, Inc. Systems and methods for short- and long-term dialog management between a robot computing device/digital companion and a user
CN112770208B (zh) * 2021-01-18 2022-05-31 塔里木大学 一种基于自控分级的智能语音降噪采集装置
CN113782048B (zh) * 2021-09-24 2024-07-09 科大讯飞股份有限公司 多模态语音分离方法、训练方法及相关装置
WO2023080341A1 (en) * 2021-11-02 2023-05-11 Samsung Electronics Co., Ltd. Dynamic positioning of ai speaker in an iot ecosystem
US20230298568A1 (en) * 2022-03-15 2023-09-21 Drift.com, Inc. Authoring content for a conversational bot
CN114708642B (zh) * 2022-05-24 2022-11-18 成都锦城学院 商务英语仿真实训装置、***、方法及存储介质
CN115570568B (zh) * 2022-10-11 2024-01-30 江苏高倍智能装备有限公司 一种多机械手协同控制方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005253071A (ja) * 2004-03-02 2005-09-15 Microsoft Corp マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法
JP2005529421A (ja) * 2002-06-05 2005-09-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 可動ユニット及び可動ユニットを制御する方法
JP2006181651A (ja) * 2004-12-24 2006-07-13 Toshiba Corp 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP2014207589A (ja) * 2013-04-15 2014-10-30 シャープ株式会社 音声入力装置、および画像表示装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6449593B1 (en) * 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
US20030061032A1 (en) * 2001-09-24 2003-03-27 Clarity, Llc Selective sound enhancement
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
EP1473964A3 (en) 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
US20050147258A1 (en) * 2003-12-24 2005-07-07 Ville Myllyla Method for adjusting adaptation control of adaptive interference canceller
JP4247195B2 (ja) * 2005-03-23 2009-04-02 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体
JP5070873B2 (ja) * 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
CN101192411B (zh) * 2007-12-27 2010-06-02 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除***
JP2011191423A (ja) 2010-03-12 2011-09-29 Honda Motor Co Ltd 発話認識装置、発話認識方法
KR101375432B1 (ko) * 2010-06-21 2014-03-17 한국전자통신연구원 통합 음원 분리 방법 및 장치
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
EP2618564A1 (en) * 2012-01-18 2013-07-24 Harman Becker Automotive Systems GmbH Method for operating a conference system and device for a conference system
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
JP2014153663A (ja) 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US20150063589A1 (en) * 2013-08-28 2015-03-05 Csr Technology Inc. Method, apparatus, and manufacture of adaptive null beamforming for a two-microphone array
JP6290827B2 (ja) 2015-06-05 2018-03-07 リウ チン フォンChing−Feng LIU オーディオ信号を処理する方法及び補聴器システム
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
US10015592B2 (en) * 2016-05-20 2018-07-03 Ricoh Company, Ltd. Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium
JP6844135B2 (ja) * 2016-07-05 2021-03-17 富士ゼロックス株式会社 移動ロボットおよび移動制御システム
US10482899B2 (en) * 2016-08-01 2019-11-19 Apple Inc. Coordination of beamformers for noise estimation and noise suppression
US10531187B2 (en) * 2016-12-21 2020-01-07 Nortek Security & Control Llc Systems and methods for audio detection using audio beams
JP6708154B2 (ja) * 2017-03-28 2020-06-10 カシオ計算機株式会社 対象物検出装置、対象物検出方法、及びプログラム
JP6673276B2 (ja) * 2017-03-28 2020-03-25 カシオ計算機株式会社 音声検出装置、音声検出方法、及びプログラム
JP6885160B2 (ja) * 2017-03-31 2021-06-09 カシオ計算機株式会社 移動装置、移動装置の制御方法及びプログラム
US20190278294A1 (en) * 2018-03-07 2019-09-12 Casio Computer Co., Ltd. Autonomous mobile apparatus, autonomous move method, and recording medium
US10997979B2 (en) * 2018-06-21 2021-05-04 Casio Computer Co., Ltd. Voice recognition device and voice recognition method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005529421A (ja) * 2002-06-05 2005-09-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 可動ユニット及び可動ユニットを制御する方法
JP2005253071A (ja) * 2004-03-02 2005-09-15 Microsoft Corp マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法
JP2006181651A (ja) * 2004-12-24 2006-07-13 Toshiba Corp 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP2014207589A (ja) * 2013-04-15 2014-10-30 シャープ株式会社 音声入力装置、および画像表示装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
藤田善弘: "パーソナルロボットR100", 日本ロボット学会誌, vol. 18, no. 2, JPN6019012281, March 2000 (2000-03-01), pages 198 - 199, ISSN: 0004090624 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021084905A1 (ja) * 2019-10-30 2021-05-06 パナソニックIpマネジメント株式会社 収音装置および収音方法
US12033654B2 (en) 2019-10-30 2024-07-09 Panasonic Intellectual Property Management Co., Ltd. Sound pickup device and sound pickup method

Also Published As

Publication number Publication date
CN109141620B (zh) 2021-01-22
JP6686977B2 (ja) 2020-04-22
US10665249B2 (en) 2020-05-26
US20180374494A1 (en) 2018-12-27
CN109141620A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
JP6686977B2 (ja) 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US10424320B2 (en) Voice detection, apparatus, voice detection method, and non-transitory computer-readable storage medium
Khan et al. An unsupervised acoustic fall detection system using source separation for sound interference suppression
Ohata et al. Improvement in outdoor sound source detection using a quadrotor-embedded microphone array
Ishi et al. Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments
US10997979B2 (en) Voice recognition device and voice recognition method
JP5328744B2 (ja) 音声認識装置及び音声認識方法
CN108664889B (zh) 对象物检测装置、对象物检测方法以及记录介质
Deleforge et al. The cocktail party robot: Sound source separation and localisation with an active binaural head
Ince et al. Assessment of general applicability of ego noise estimation
US20140222425A1 (en) Speech recognition learning method using 3d geometric information and speech recognition method using 3d geometric information
Saffari et al. Ava (a social robot): Design and performance of a robotic hearing apparatus
Tezuka et al. Ego-motion noise suppression for robots based on semi-blind infinite non-negative matrix factorization
EP3696811A1 (en) Speech input device, method therefor, and program
Chau et al. Audio-visual slam towards human tracking and human-robot interaction in indoor environments
Okuno et al. Robot audition: Missing feature theory approach and active audition
Ktistakis et al. A multimodal human-machine interaction scheme for an intelligent robotic nurse
CN108109614A (zh) 一种新型的机器人带噪音语音识别装置及方法
JP7351105B2 (ja) 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット
Díaz et al. Short-time deep-learning based source separation for speech enhancement in reverberant environments with beamforming
JP4660740B2 (ja) 電動車椅子搭載用音声入力装置
JP7196467B2 (ja) 開閉状態判定装置、開閉状態判定方法及びプログラム
Takashima et al. Prediction of unlearned position based on local regression for single-channel talker localization using acoustic transfer function
Kim et al. Binaural active audition for humanoid robots to localise speech over entire azimuth range
Hosoya et al. Robot auditory system using head-mounted square microphone array

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180601

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180601

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190415

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200316

R150 Certificate of patent or registration of utility model

Ref document number: 6686977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150