JP2019008134A - 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム - Google Patents
音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム Download PDFInfo
- Publication number
- JP2019008134A JP2019008134A JP2017123643A JP2017123643A JP2019008134A JP 2019008134 A JP2019008134 A JP 2019008134A JP 2017123643 A JP2017123643 A JP 2017123643A JP 2017123643 A JP2017123643 A JP 2017123643A JP 2019008134 A JP2019008134 A JP 2019008134A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- source separation
- voice
- lip
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 146
- 238000001514 detection method Methods 0.000 title claims abstract description 120
- 241001465754 Metazoa Species 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 35
- 238000000034 method Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 30
- 210000003128 head Anatomy 0.000 description 27
- 238000012545 processing Methods 0.000 description 27
- 238000012546 transfer Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000004807 localization Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000255777 Lepidoptera Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H17/00—Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/02—Sensing devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/22—Source localisation; Inverse modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Manipulator (AREA)
- Circuit For Audible Band Transducer (AREA)
- Image Analysis (AREA)
Abstract
Description
音声を取得するために所定の指向性を有する音声取得手段と、
前記音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出する第1方向検出手段と、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出する第2方向検出手段と、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段と、
を備える、
ことを特徴とする。
前記音源分離情報検出装置と、
自装置を移動させる移動手段と、
前記音源分離情報検出装置及び前記移動手段を制御する制御手段と、
を備える、
ことを特徴とする。
音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ことを含む、
ことを特徴とする。
音源分離情報検出装置のコンピュータを、
音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ように機能させる、
ことを特徴とする。
浅野 太、“音源分離”、[online]、2011年11月受領、電子情報通信学会『知識の森』、[2017年6月15日検索]、インターネット
<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>
堀田 一弘、“小特集 顔認識技術 1.顔認識の研究動向” 、[online]、2012年3月28日公開、映像情報メディア学会誌、Vol.64,No.4(2010),p.459-462、[2017年6月15日検索]、インターネット
<URL: https://www.jstage.jst.go.jp/article/itej/64/4/64_4_455/_pdf>
littlewing、“WEBカメラで利用できる顔認識技術まとめ-その2”、[online]、2015年4月7日公開、[2017年6月15日検索]、インターネット
<URL: http://littlewing.hatenablog.com/entry/2015/04/07/221856>
C.sagonas,”Facial point annotations”、[online]、[2017年6月15日検索]、インターネット
<URL: https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/>
−data.y[67](t))・・・(2)
yy1+=fabs(data.y[61](t)
−data.y[58](t))・・・(3)
yy1+=fabs(data.y[62](t)
−data.y[66](t))・・・(4)
yy1+=fabs(data.y[62](t)
−data.y[57](t))・・・(5)
yy1+=fabs(data.y[63](t)
−data.y[65](t))・・・(6)
yy1+=fabs(data.y[63](t)
−data.y[56](t))・・・(7)
−data.y[60](t))・・・(8)
yy2+=fabs(data.y[32](t)
−data.y[61](t))・・・(9)
yy2+=fabs(data.y[33](t)
−data.y[62](t))・・・(10)
yy2+=fabs(data.y[34](t)
−data.y[63](t))・・・(11)
yy2+=fabs(data.y[34](t)
−data.y[64](t))・・・(12)
+data.x[63](t)+data.x[67](t)
+data.x[66](t)+data.x[65](t)
・・・(14)
Δyaw=abs(F(t)yaw−F(t−1)yaw)・・・(17)
Δpitch=abs(F(t)pitch−F(t−1)pitch)
・・・(18)
Δx<x_th &&
Δroll<roll_th &&
Δyaw<yaw_th &&
Δpitch<pitch_th
・・・(19)
。
(付記1)
音声を取得するために所定の指向性を有する音声取得手段と、
前記音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出する第1方向検出手段と、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出する第2方向検出手段と、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段と、
を備える、
ことを特徴とする音源分離情報検出装置。
(付記2)
前記検出手段は、前記信号音声と前記雑音音声とから算出された信号対雑音比が閾値以下である場合、前記第1方向と前記第2方向とに基づいて、前記信号対雑音比が前記閾値を超える前記音源分離方向又は前記音源分離位置を検出する、
ことを特徴とする付記1に記載の音源分離情報検出装置。
(付記3)
前記音声取得手段が前記音声を取得するタイミングで前記所定の対象の***画像を取得する画像取得手段と、
前記***画像に基づいて、前記所定の対象の***の開口又は前記***の閉口を判定する判定手段と、
を更に備え、
前記第1方向検出手段は、前記判定手段による前記***の開口の判定時に、前記音声取得手段により取得された前記音声を前記信号音声とし、
前記第2方向検出手段は、前記判定手段による前記***の閉口の判定時に、前記音声取得手段により取得された前記音声を前記雑音音声とする、
ことを特徴とする付記1又は2に記載の音源分離情報検出装置。
(付記4)
前記画像取得手段は、顔部画像を更に取得し、
前記***画像から前記所定の対象の前記***の移動量を取得する***移動量取得手段と、
前記顔部画像から前記所定の対象の顔部の回転量を取得する顔部回転量取得手段と、
を更に備え、
前記判定手段は、前記***の移動量と前記顔部の回転量とに基づいて、前記所定の対象の前記***の開口又は前記***の閉口を判定する、
ことを特徴とする付記3に記載の音源分離情報検出装置。
(付記5)
前記判定手段は、前記***の移動量のうちの前記***の開閉方向の移動量が第1の閾値を超え、且つ、前記***の移動量のうちの前記***の延伸方向の移動量が第2の閾値未満であり、且つ、前記顔部の回転量が第3の閾値未満であるときに、前記***の開口又は前記***の閉口を判定する、
ことを特徴とする付記4に記載の音源分離情報検出装置。
(付記6)
前記第1方向検出手段は、前記判定手段による前記***の開口の判定時に、前記信号音声の信号音声パワーに基づいて、前記第1方向を検出し、
前記第2方向検出手段は、前記判定手段による前記***の閉口の判定時に、前記雑音音声の雑音音声パワーに基づいて、前記第2方向を検出する、
ことを特徴とする付記3乃至5の何れか1つに記載の音源分離情報検出装置。
(付記7)
前記検出手段は、前記信号対雑音比が前記閾値を超えて最大となる方向を前記音源分離方向とする、又は、前記信号対雑音比が前記閾値を超えて最大となる位置を前記音源分離位置とする、
ことを特徴とする付記2乃至6の何れか1つに記載の音源分離情報検出装置。
(付記8)
前記検出手段は、前記信号対雑音比が前記閾値を超える場合、現在方向を前記音源分離方向とする、又は、現在位置を前記音源分離位置とする、
ことを特徴とする付記2乃至6の何れか1つに記載の音源分離情報検出装置。
(付記9)
前記所定の対象にメッセージを報知する報知手段を更に備え、
前記報知手段は、前記所定の対象に現在位置から前記音源分離位置まで移動させるために、前記音源分離位置までの移動方向及び移動距離を含む前記メッセージを報知する、
ことを特徴とする付記1乃至8の何れか1つに記載の音源分離情報検出装置。
(付記10)
前記所定の対象は人又は動物である、
ことを特徴とする付記1乃至9の何れか1つに記載の音源分離情報検出装置。
(付記11)
付記1乃至10の何れかに記載の音源分離情報検出装置と、
自装置を移動させる移動手段と、
前記音源分離情報検出装置及び前記移動手段を制御する制御手段と、
を備える、
ことを特徴とするロボット。
(付記12)
前記制御手段は、前記移動手段を制御して、前記音源分離位置に前記自装置を移動させる、
ことを特徴とする付記11に記載のロボット。
(付記13)
音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ことを含む、
ことを特徴とする音源分離情報検出方法。
(付記14)
音源分離情報検出装置のコンピュータを、
音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ように機能させる、
ことを特徴とするプログラム。
101 頭部
102 胴体
103 マイクアレイ
104 カメラ
105 スピーカ
106 センサ群
107 首関節駆動部
108 足回り駆動部
200 ロボット制御システム
201 制御部
202 記憶部
203 操作ボタン
204 電源部
205 制御プログラム
301 音声入力部
302 音源到来方向推定部
303 音源分離部
304 画像入力部
305 顔検出部
306 口パーツ検出部
307 口開閉判定部
308 音量算出部
309 S/N算出部
310 音声認識部
311 発声部
音声を取得するために所定の指向性を有する音声取得手段と、
前記音声取得手段により取得された前記音声から、所定の対象の信号音声の到来方向である第1方向を検出する第1方向検出手段と、
前記音声取得手段により取得された前記音声から、雑音音声の到来方向である第2方向を検出する第2方向検出手段と、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段と、
を備える、
ことを特徴とする。
前記音源分離情報検出装置と、
自装置を移動する移動手段と、
前記自装置を動作する動作手段と、
前記音源分離情報検出装置、前記移動手段及び前記動作手段を制御する制御手段と、
を備える、
ことを特徴とする。
音声を取得するために所定の指向性を有する音声取得手段により取得された前記音声から、所定の対象の信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された前記音声から、雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ことを含む、
ことを特徴とする。
音源分離情報検出装置のコンピュータを、
音声を取得するために所定の指向性を有する音声取得手段により取得された前記音声から、所定の対象の信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された前記音声から、雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ように機能させる、
ことを特徴とする。
101 頭部
102 胴体
103 マイクアレイ
104 カメラ
105 スピーカ
106 センサ群
107 首関節駆動部
108 足回り駆動部
200 ロボット制御システム
201 制御部
202 記憶部
203 操作ボタン
204 電源部
205 制御プログラム
301 音声入力部
302 音源到来方向推定部
303 音源分離部
304 画像入力部
305 顔検出部
306 口パーツ検出部
307 口開閉判定部
308 音量算出部
309 S/N比算出部
310 音声認識部
311 発声部
Claims (14)
- 音声を取得するために所定の指向性を有する音声取得手段と、
前記音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出する第1方向検出手段と、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出する第2方向検出手段と、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する検出手段と、
を備える、
ことを特徴とする音源分離情報検出装置。 - 前記検出手段は、前記信号音声と前記雑音音声とから算出された信号対雑音比が閾値以下である場合、前記第1方向と前記第2方向とに基づいて、前記信号対雑音比が前記閾値を超える前記音源分離方向又は前記音源分離位置を検出する、
ことを特徴とする請求項1に記載の音源分離情報検出装置。 - 前記音声取得手段が前記音声を取得するタイミングで前記所定の対象の***画像を取得する画像取得手段と、
前記***画像に基づいて、前記所定の対象の***の開口又は前記***の閉口を判定する判定手段と、
を更に備え、
前記第1方向検出手段は、前記判定手段による前記***の開口の判定時に、前記音声取得手段により取得された前記音声を前記信号音声とし、
前記第2方向検出手段は、前記判定手段による前記***の閉口の判定時に、前記音声取得手段により取得された前記音声を前記雑音音声とする、
ことを特徴とする請求項1又は2に記載の音源分離情報検出装置。 - 前記画像取得手段は、顔部画像を更に取得し、
前記***画像から前記所定の対象の前記***の移動量を取得する***移動量取得手段と、
前記顔部画像から前記所定の対象の顔部の回転量を取得する顔部回転量取得手段と、
を更に備え、
前記判定手段は、前記***の移動量と前記顔部の回転量とに基づいて、前記所定の対象の前記***の開口又は前記***の閉口を判定する、
ことを特徴とする請求項3に記載の音源分離情報検出装置。 - 前記判定手段は、前記***の移動量のうちの前記***の開閉方向の移動量が第1の閾値を超え、且つ、前記***の移動量のうちの前記***の延伸方向の移動量が第2の閾値未満であり、且つ、前記顔部の回転量が第3の閾値未満であるときに、前記***の開口又は前記***の閉口を判定する、
ことを特徴とする請求項4に記載の音源分離情報検出装置。 - 前記第1方向検出手段は、前記判定手段による前記***の開口の判定時に、前記信号音声の信号音声パワーに基づいて、前記第1方向を検出し、
前記第2方向検出手段は、前記判定手段による前記***の閉口の判定時に、前記雑音音声の雑音音声パワーに基づいて、前記第2方向を検出する、
ことを特徴とする請求項3乃至5の何れか1項に記載の音源分離情報検出装置。 - 前記検出手段は、前記信号対雑音比が前記閾値を超えて最大となる方向を前記音源分離方向とする、又は、前記信号対雑音比が前記閾値を超えて最大となる位置を前記音源分離位置とする、
ことを特徴とする請求項2乃至6の何れか1項に記載の音源分離情報検出装置。 - 前記検出手段は、前記信号対雑音比が前記閾値を超える場合、現在方向を前記音源分離方向とする、又は、現在位置を前記音源分離位置とする、
ことを特徴とする請求項2乃至6の何れか1項に記載の音源分離情報検出装置。 - 前記所定の対象にメッセージを報知する報知手段を更に備え、
前記報知手段は、前記所定の対象に現在位置から前記音源分離位置まで移動させるために、前記音源分離位置までの移動方向及び移動距離を含む前記メッセージを報知する、
ことを特徴とする請求項1乃至8の何れか1項に記載の音源分離情報検出装置。 - 前記所定の対象は人又は動物である、
ことを特徴とする請求項1乃至9の何れか1項に記載の音源分離情報検出装置。 - 請求項1乃至10の何れか1項に記載の音源分離情報検出装置と、
自装置を移動させる移動手段と、
前記音源分離情報検出装置及び前記移動手段を制御する制御手段と、
を備える、
ことを特徴とするロボット。 - 前記制御手段は、前記移動手段を制御して、前記音源分離位置に前記自装置を移動させる、
ことを特徴とする請求項11に記載のロボット。 - 音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ことを含む、
ことを特徴とする音源分離情報検出方法。 - 音源分離情報検出装置のコンピュータを、
音声を取得するために所定の指向性を有する音声取得手段により取得された所定の対象の信号音声から、前記信号音声の到来方向である第1方向を検出し、
前記音声取得手段により取得された雑音音声から、前記雑音音声の到来方向である第2方向を検出し、
前記第1方向と前記第2方向とに基づいて、音源分離方向又は音源分離位置を検出する、
ように機能させる、
ことを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017123643A JP6686977B2 (ja) | 2017-06-23 | 2017-06-23 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
US15/985,360 US10665249B2 (en) | 2017-06-23 | 2018-05-21 | Sound source separation for robot from target voice direction and noise voice direction |
CN201810635835.2A CN109141620B (zh) | 2017-06-23 | 2018-06-20 | 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017123643A JP6686977B2 (ja) | 2017-06-23 | 2017-06-23 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019008134A true JP2019008134A (ja) | 2019-01-17 |
JP6686977B2 JP6686977B2 (ja) | 2020-04-22 |
Family
ID=64692737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017123643A Active JP6686977B2 (ja) | 2017-06-23 | 2017-06-23 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10665249B2 (ja) |
JP (1) | JP6686977B2 (ja) |
CN (1) | CN109141620B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021084905A1 (ja) * | 2019-10-30 | 2021-05-06 | パナソニックIpマネジメント株式会社 | 収音装置および収音方法 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11310593B2 (en) * | 2017-10-11 | 2022-04-19 | Sony Corporation | Voice input device and method for estimation of utterance direction |
CN109767774A (zh) * | 2017-11-08 | 2019-05-17 | 阿里巴巴集团控股有限公司 | 一种交互方法和设备 |
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN109831717B (zh) * | 2017-11-23 | 2020-12-15 | 深圳市优必选科技有限公司 | 一种降噪处理方法、***及终端设备 |
US11200902B2 (en) * | 2018-02-15 | 2021-12-14 | DMAI, Inc. | System and method for disambiguating a source of sound based on detected lip movement |
US11017779B2 (en) | 2018-02-15 | 2021-05-25 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
US11017551B2 (en) | 2018-02-15 | 2021-05-25 | DMAI, Inc. | System and method for identifying a point of interest based on intersecting visual trajectories |
US10811032B2 (en) * | 2018-12-19 | 2020-10-20 | Cirrus Logic, Inc. | Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers |
CN111383649B (zh) * | 2018-12-28 | 2024-05-03 | 深圳市优必选科技有限公司 | 一种机器人及其音频处理方法 |
WO2020172828A1 (zh) * | 2019-02-27 | 2020-09-03 | 华为技术有限公司 | 一种声源分离方法、装置及设备 |
JP7180470B2 (ja) * | 2019-03-18 | 2022-11-30 | トヨタ自動車株式会社 | コミュニケーションシステム、及びコミュニケーションシステムの制御方法 |
CN110210196B (zh) * | 2019-05-08 | 2023-01-06 | 北京地平线机器人技术研发有限公司 | 身份认证方法及装置 |
KR20200144366A (ko) * | 2019-06-18 | 2020-12-29 | 엘지전자 주식회사 | 로봇을 위한 기동어 인식 모델의 생성 |
JP7191793B2 (ja) * | 2019-08-30 | 2022-12-19 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
EP3797938B1 (en) * | 2019-09-27 | 2024-01-03 | Tata Consultancy Services Limited | Attention shifting of a robot in a group conversation using audio-visual perception based speaker localization |
US11072075B2 (en) * | 2019-10-24 | 2021-07-27 | Disney Enterprises, Inc. | Eye contact sensing and control for robotic characters |
CN111402912A (zh) * | 2020-02-18 | 2020-07-10 | 云知声智能科技股份有限公司 | 一种语音信号降噪方法及装置 |
CN113284504A (zh) * | 2020-02-20 | 2021-08-20 | 北京三星通信技术研究有限公司 | 姿态检测方法、装置、电子设备及计算机可读存储介质 |
US12019993B2 (en) * | 2020-02-29 | 2024-06-25 | Embodied, Inc. | Systems and methods for short- and long-term dialog management between a robot computing device/digital companion and a user |
CN112770208B (zh) * | 2021-01-18 | 2022-05-31 | 塔里木大学 | 一种基于自控分级的智能语音降噪采集装置 |
CN113782048B (zh) * | 2021-09-24 | 2024-07-09 | 科大讯飞股份有限公司 | 多模态语音分离方法、训练方法及相关装置 |
WO2023080341A1 (en) * | 2021-11-02 | 2023-05-11 | Samsung Electronics Co., Ltd. | Dynamic positioning of ai speaker in an iot ecosystem |
US20230298568A1 (en) * | 2022-03-15 | 2023-09-21 | Drift.com, Inc. | Authoring content for a conversational bot |
CN114708642B (zh) * | 2022-05-24 | 2022-11-18 | 成都锦城学院 | 商务英语仿真实训装置、***、方法及存储介质 |
CN115570568B (zh) * | 2022-10-11 | 2024-01-30 | 江苏高倍智能装备有限公司 | 一种多机械手协同控制方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005253071A (ja) * | 2004-03-02 | 2005-09-15 | Microsoft Corp | マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法 |
JP2005529421A (ja) * | 2002-06-05 | 2005-09-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 可動ユニット及び可動ユニットを制御する方法 |
JP2006181651A (ja) * | 2004-12-24 | 2006-07-13 | Toshiba Corp | 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム |
JP2014207589A (ja) * | 2013-04-15 | 2014-10-30 | シャープ株式会社 | 音声入力装置、および画像表示装置 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5586215A (en) * | 1992-05-26 | 1996-12-17 | Ricoh Corporation | Neural network acoustic and visual speech recognition system |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6449593B1 (en) * | 2000-01-13 | 2002-09-10 | Nokia Mobile Phones Ltd. | Method and system for tracking human speakers |
US20030061032A1 (en) * | 2001-09-24 | 2003-03-27 | Clarity, Llc | Selective sound enhancement |
JP2003255993A (ja) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
EP1473964A3 (en) | 2003-05-02 | 2006-08-09 | Samsung Electronics Co., Ltd. | Microphone array, method to process signals from this microphone array and speech recognition method and system using the same |
US20050147258A1 (en) * | 2003-12-24 | 2005-07-07 | Ville Myllyla | Method for adjusting adaptation control of adaptive interference canceller |
JP4247195B2 (ja) * | 2005-03-23 | 2009-04-02 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
JP5070873B2 (ja) * | 2006-08-09 | 2012-11-14 | 富士通株式会社 | 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム |
CN101192411B (zh) * | 2007-12-27 | 2010-06-02 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除*** |
JP2011191423A (ja) | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
KR101375432B1 (ko) * | 2010-06-21 | 2014-03-17 | 한국전자통신연구원 | 통합 음원 분리 방법 및 장치 |
BR112012031656A2 (pt) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | dispositivo, e método de separação de fontes sonoras, e, programa |
EP2618564A1 (en) * | 2012-01-18 | 2013-07-24 | Harman Becker Automotive Systems GmbH | Method for operating a conference system and device for a conference system |
US9263044B1 (en) * | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
JP2014153663A (ja) | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
US20150063589A1 (en) * | 2013-08-28 | 2015-03-05 | Csr Technology Inc. | Method, apparatus, and manufacture of adaptive null beamforming for a two-microphone array |
JP6290827B2 (ja) | 2015-06-05 | 2018-03-07 | リウ チン フォンChing−Feng LIU | オーディオ信号を処理する方法及び補聴器システム |
US9591427B1 (en) * | 2016-02-20 | 2017-03-07 | Philip Scott Lyren | Capturing audio impulse responses of a person with a smartphone |
US10015592B2 (en) * | 2016-05-20 | 2018-07-03 | Ricoh Company, Ltd. | Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium |
JP6844135B2 (ja) * | 2016-07-05 | 2021-03-17 | 富士ゼロックス株式会社 | 移動ロボットおよび移動制御システム |
US10482899B2 (en) * | 2016-08-01 | 2019-11-19 | Apple Inc. | Coordination of beamformers for noise estimation and noise suppression |
US10531187B2 (en) * | 2016-12-21 | 2020-01-07 | Nortek Security & Control Llc | Systems and methods for audio detection using audio beams |
JP6708154B2 (ja) * | 2017-03-28 | 2020-06-10 | カシオ計算機株式会社 | 対象物検出装置、対象物検出方法、及びプログラム |
JP6673276B2 (ja) * | 2017-03-28 | 2020-03-25 | カシオ計算機株式会社 | 音声検出装置、音声検出方法、及びプログラム |
JP6885160B2 (ja) * | 2017-03-31 | 2021-06-09 | カシオ計算機株式会社 | 移動装置、移動装置の制御方法及びプログラム |
US20190278294A1 (en) * | 2018-03-07 | 2019-09-12 | Casio Computer Co., Ltd. | Autonomous mobile apparatus, autonomous move method, and recording medium |
US10997979B2 (en) * | 2018-06-21 | 2021-05-04 | Casio Computer Co., Ltd. | Voice recognition device and voice recognition method |
-
2017
- 2017-06-23 JP JP2017123643A patent/JP6686977B2/ja active Active
-
2018
- 2018-05-21 US US15/985,360 patent/US10665249B2/en active Active
- 2018-06-20 CN CN201810635835.2A patent/CN109141620B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005529421A (ja) * | 2002-06-05 | 2005-09-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 可動ユニット及び可動ユニットを制御する方法 |
JP2005253071A (ja) * | 2004-03-02 | 2005-09-15 | Microsoft Corp | マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法 |
JP2006181651A (ja) * | 2004-12-24 | 2006-07-13 | Toshiba Corp | 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム |
JP2014207589A (ja) * | 2013-04-15 | 2014-10-30 | シャープ株式会社 | 音声入力装置、および画像表示装置 |
Non-Patent Citations (1)
Title |
---|
藤田善弘: "パーソナルロボットR100", 日本ロボット学会誌, vol. 18, no. 2, JPN6019012281, March 2000 (2000-03-01), pages 198 - 199, ISSN: 0004090624 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021084905A1 (ja) * | 2019-10-30 | 2021-05-06 | パナソニックIpマネジメント株式会社 | 収音装置および収音方法 |
US12033654B2 (en) | 2019-10-30 | 2024-07-09 | Panasonic Intellectual Property Management Co., Ltd. | Sound pickup device and sound pickup method |
Also Published As
Publication number | Publication date |
---|---|
CN109141620B (zh) | 2021-01-22 |
JP6686977B2 (ja) | 2020-04-22 |
US10665249B2 (en) | 2020-05-26 |
US20180374494A1 (en) | 2018-12-27 |
CN109141620A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6686977B2 (ja) | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム | |
US10424320B2 (en) | Voice detection, apparatus, voice detection method, and non-transitory computer-readable storage medium | |
Khan et al. | An unsupervised acoustic fall detection system using source separation for sound interference suppression | |
Ohata et al. | Improvement in outdoor sound source detection using a quadrotor-embedded microphone array | |
Ishi et al. | Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments | |
US10997979B2 (en) | Voice recognition device and voice recognition method | |
JP5328744B2 (ja) | 音声認識装置及び音声認識方法 | |
CN108664889B (zh) | 对象物检测装置、对象物检测方法以及记录介质 | |
Deleforge et al. | The cocktail party robot: Sound source separation and localisation with an active binaural head | |
Ince et al. | Assessment of general applicability of ego noise estimation | |
US20140222425A1 (en) | Speech recognition learning method using 3d geometric information and speech recognition method using 3d geometric information | |
Saffari et al. | Ava (a social robot): Design and performance of a robotic hearing apparatus | |
Tezuka et al. | Ego-motion noise suppression for robots based on semi-blind infinite non-negative matrix factorization | |
EP3696811A1 (en) | Speech input device, method therefor, and program | |
Chau et al. | Audio-visual slam towards human tracking and human-robot interaction in indoor environments | |
Okuno et al. | Robot audition: Missing feature theory approach and active audition | |
Ktistakis et al. | A multimodal human-machine interaction scheme for an intelligent robotic nurse | |
CN108109614A (zh) | 一种新型的机器人带噪音语音识别装置及方法 | |
JP7351105B2 (ja) | 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット | |
Díaz et al. | Short-time deep-learning based source separation for speech enhancement in reverberant environments with beamforming | |
JP4660740B2 (ja) | 電動車椅子搭載用音声入力装置 | |
JP7196467B2 (ja) | 開閉状態判定装置、開閉状態判定方法及びプログラム | |
Takashima et al. | Prediction of unlearned position based on local regression for single-channel talker localization using acoustic transfer function | |
Kim et al. | Binaural active audition for humanoid robots to localise speech over entire azimuth range | |
Hosoya et al. | Robot auditory system using head-mounted square microphone array |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180601 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180601 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190415 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6686977 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |