JP6840302B2 - 情報処理装置、プログラム及び情報処理方法 - Google Patents
情報処理装置、プログラム及び情報処理方法 Download PDFInfo
- Publication number
- JP6840302B2 JP6840302B2 JP2020557460A JP2020557460A JP6840302B2 JP 6840302 B2 JP6840302 B2 JP 6840302B2 JP 2020557460 A JP2020557460 A JP 2020557460A JP 2020557460 A JP2020557460 A JP 2020557460A JP 6840302 B2 JP6840302 B2 JP 6840302B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- time
- microphone
- observation
- spectral component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 25
- 238000003672 processing method Methods 0.000 title claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 168
- 238000006243 chemical reaction Methods 0.000 claims description 91
- 238000004364 calculation method Methods 0.000 claims description 89
- 238000001228 spectrum Methods 0.000 claims description 85
- 230000000873 masking effect Effects 0.000 claims description 80
- 238000012937 correction Methods 0.000 claims description 62
- 238000001914 filtration Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 20
- 238000005314 correlation function Methods 0.000 claims description 18
- 238000000926 separation method Methods 0.000 description 46
- 230000002159 abnormal effect Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 16
- 230000015654 memory Effects 0.000 description 14
- 238000000034 method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000012806 monitoring device Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 102220515664 Zinc finger protein Helios_S13D_mutation Human genes 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 102220515663 Zinc finger protein Helios_S13A_mutation Human genes 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102200012170 rs10084168 Human genes 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/18—Methods or devices for transmitting, conducting or directing sound
- G10K11/26—Sound-focusing or directing, e.g. scanning
- G10K11/34—Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明の第2の態様に係る情報処理装置は、第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部と、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部と、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部と、を備え、前記マスク生成部は、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。
本発明の第2の態様に係るプログラムは、コンピュータを、第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部、として機能させ、前記マスク生成部は、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。
本発明の第2の態様に係る情報処理方法は、第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成し、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成し、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する情報処理方法であって、前記フィルタリング係数を算出する際に、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出し、前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化し、前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出し、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出することを特徴とする。
図1は、実施の形態1に係る情報処理装置としての音源分離装置100の構成を概略的に示すブロック図である。
音源分離装置100は、アナログ/デジタル変換部(以下、A/D変換部という)103と、時間/周波数変換部(以下、T/F変換部という)104と、マスク生成部105と、マスキングフィルタ部110と、時間/周波数逆変換部(以下、T/F逆変換部という)111と、デジタル/アナログ変換部(以下、D/A変換部という)112とを備える。
音源分離装置100は、第1のマイクロホン101及び第2のマイクロホン102に接続されている。
マスク生成部105は、マスク係数算出部106と、発話量比算出部107と、ゲイン算出部108と、マスク修正部109とを備える。
以下、図1及び図2に基づいて、実施の形態1の音源分離装置100の構成及びその動作原理を説明する。音源分離装置100は、第1のマイクロホン101及び第2のマイクロホン102で取得された時間領域の信号から生成された、周波数領域における信号に基づいて、マスキングフィルタを形成し、それを第1のマイクロホン101で取得された信号に対応する周波数領域の信号に掛けることで、妨害音が除去された目的音の出力信号を得る構成となっている。
また、以降の説明を簡単にするため、図3に示されているように、第1のマイクロホン101と、第2のマイクロホン102とは、同一水平面に位置し、かつ、それらの位置は既知であり、かつ、時間で変化しないものとする。さらに、目的音及び妨害音が到来し得る方向範囲についても時間で変化しないものとする。なお、目的音が到来する方向を第1の方向ともいい、妨害音が到来する方向を第2の方向ともいう。
ここでは、目的音及び妨害音は、それぞれ別の単一話者による音声であるものとして説明する。
第2のマイクロホン102は、観測音を電気信号に変換することで、第2の観測アナログ信号を生成する。第2の観測アナログ信号は、A/D変換部103に与えられる。
第1の観測デジタル信号x1(t)及び第2の観測デジタル信号x2(t)は、T/F変換部104に与えられる。
なお、以下では、特に断わりのない限り、現フレームの短時間スペクトル成分は、単にスペクトル成分としてその記載を省略する。
また、第1のマイクロホン101と第2のマイクロホン102との間隔は、間隔dとなっているものとする。
そのため、目的音を分離するためのマスキングを行うマスク係数b(ω,τ)は、下記の式(5)のように表すことができる。
マスク係数算出部106は、マスク係数b(ω,τ)を、マスク修正部109に与える。
図4(A)は、第1のマイクロホン101で取得された観測アナログ信号の時間波形の一例を示すグラフである。
図4(B)は、目的音話者と妨害音話者との発話量の時間変動の一例を示すグラフである。
図4(C)は、目的音話者の発話量と、妨害音話者の発話量とから得られた発話量比SR(τ)の時間変動の一例を示すグラフである。
また、0.3≦SR(τ)≦0.5の場合は、目的音も妨害音も両方存在する場合とみなすことができる。
一方、妨害音の可能性が高い場合には、上述の式(5)中のMが更に小さくなるように、言い換えると、妨害音の抑圧量が更に大きくなるように制御されることとなる。
即ち、ゲイン算出部108は、発話量比が高いほど、マスキングが行われる強度が低くなるように、マスク係数を修正するための修正ゲインを算出する。
また、音源分離の対象が機械の異常音であれば、その音響信号の周波数特性に応じて式(10)の周波数補正係数を変更することで、異常音を効率良く分離することが可能となる。
図5(A)は、図4(A)と同様に、第1のマイクロホン101で取得された観測アナログ信号の時間波形の一例を示すグラフである。
図5(B)は、D/A変換部112から出力される出力信号の時間変動の一例を示すグラフである。
図5(A)及び(B)から明らかなように、出力信号からは妨害音が殆ど除去されて目的音のみが分離されていることが分かる。
信号入出力部131は、マイクロホン回路140及び外部装置141との接続機能を実現するインタフェース回路である。マイクロホン回路140は、第1のマイクロホン101及び第2のマイクロホン102に対応し、例えば、音響振動を捉えて電気信号へ変換する装置等を使用することができる。
また、図1のA/D変換部103及びD/A変換部112は、信号入出力部131により実現することができる。
図7の例では、音源分離装置100は、信号入出力部131、CPU135を内蔵するプロセッサ136、メモリ137、記録媒体138及びバス等の信号路134により構成されている。
信号入出力部131は、マイクロホン回路140及び外部装置141との接続機能を実現するインタフェース回路である。
また、A/D変換部103及びD/A変換部112は、信号入出力部131で実現することができる。
図8は、音源分離装置100の動作を示すフローチャートである。
まず、A/D変換部103は、第1のマイクロホン101及び第2のマイクロホン102のそれぞれから入力された、第1の観測アナログ信号及び第2の観測アナログ信号のそれぞれを、予め定められたフレーム間隔で取り込み、それぞれをA/D変換することで、第1の観測デジタル信号x1(t)及び第2の観測デジタル信号x2(t)を生成して、それらをT/F変換部104に与える(S10)。
そして、A/D変換部103からの出力は、サンプル番号tが予め定められた値Tよりも小さい場合(S11でNo)には、繰り返し行われる。
そして、D/A変換部112からの出力は、サンプル番号tが予め定められた値Tより小さい場合(S17でYes)には、繰り返し行われる。
実施の形態1では、音声による構成を例示したが、妨害音となる音声以外の雑音が存在する場合にも適用することができる実施の形態を、実施の形態2として説明する。
実施の形態2における第1のマイクロホン101及び第2のマイクロホン102は、実施の形態1における第1のマイクロホン101及び第2のマイクロホン102と同様である。また、外部装置141は、図6又は図7を用いて説明した外部装置141と同様である。
実施の形態2に係る音源分離装置200のA/D変換部103、T/F変換部104、マスキングフィルタ部110及びT/F逆変換部111は、実施の形態1の音源分離装置100のA/D変換部103、T/F変換部104、マスキングフィルタ部110及びT/F逆変換部111と同様である。
但し、実施の形態2に係る音源分離装置200では、T/F逆変換部111で生成された出力デジタル信号y(t)が外部装置141に与えられる。
実施の形態2におけるマスク生成部205のマスク係数算出部106、ゲイン算出部108及びマスク修正部109は、実施の形態1におけるマスク生成部105のマスク係数算出部106、ゲイン算出部108及びマスク修正部109と同様である。
実施の形態1では、式(1)のクロススペクトルD(ω,τ)の虚数部Q(ω,τ)の符号により、目的音の到来方向を判別していたが、式(13)のように、条件式において、到来方向の角度を意味する、第1のチャンネルCh1及び第2のチャンネルCh2の時間差δ(ω,τ)を組み合わせることで、発話量の計算から目的音話者と妨害音話者以外の雑音の影響を除外することができる。
δθDTは、観測アナログ信号の到来時間差が極めて小さく、到来方向が目的音方向なのか妨害音方向なのか判別が難しい場合、あるいは正面方向から騒音が到来している場合を想定し、それらの場合を発話量の計算から除外するための閾値である。
δθDNは、目的音及び妨害音の想定する到来方向から外れている可能性が高い場合、言い換えれば、観測アナログ信号が、例えば窓から混入する風きり音等の方向性雑音、又は、スピーカから放出される音楽等の可能性が高い場合において、そのような場合を発話量の計算から除外するための閾値である。
図10の例は、第1のチャンネルCh1を基準に除外範囲を記載している。
図10のように、発話量の計算において除外範囲を設定することで、目的音及び妨害音以外の雑音の影響を除外することができるので、発話量比の計算精度が向上し、更に品質の高い音源分離装置を構成することが可能となる。
実施の形態1及び2では、発話量比の計算に現フレーム情報だけを使用しているが、実施の形態はこのような例に限定されるものではなく、過去のフレーム情報を用いて計算することも可能である。
実施の形態3に係る音源分離装置300のA/D変換部103、T/F変換部104、マスキングフィルタ部110、T/F逆変換部111及びD/A変換部112は、実施の形態1に係る音源分離装置100のA/D変換部103、T/F変換部104、マスキングフィルタ部110、T/F逆変換部111及びD/A変換部112と同様である。
実施の形態3におけるマスク生成部305のマスク係数算出部106、ゲイン算出部108及びマスク修正部109は、実施の形態1におけるマスク生成部105のマスク係数算出部106、ゲイン算出部108及びマスク修正部109と同様である。
Claims (7)
- 第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部と、
前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部と、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、
前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部と、を備え、
前記マスク生成部は、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
前記第1のスペクトル成分の内、前記第1の範囲から到来する音のスペクトル成分の量の、前記第2の範囲から到来する音のスペクトル成分の量に対する比率を算出する発話量比算出部と、
前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
を特徴とする情報処理装置。 - 第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部と、
前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部と、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、
前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部と、を備え、
前記マスク生成部は、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、
前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
を特徴とする情報処理装置。 - 前記発話量比算出部は、前記第1の範囲及び前記第2の範囲には含まれない方向から到来する音のスペクトル成分を除外して、前記比率を算出すること
を特徴とする請求項1又は2に記載の情報処理装置。 - コンピュータを、
第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部、
前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、
前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部、として機能させ、
前記マスク生成部は、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
前記第1のスペクトル成分の内、前記第1の範囲から到来する音のスペクトル成分の量の、前記第2の範囲から到来する音のスペクトル成分の量に対する比率を算出する発話量比算出部と、
前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
を特徴とするプログラム。 - コンピュータを、
第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部、
前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部、
前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部、として機能させ、
前記マスク生成部は、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、
前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
を特徴とするプログラム。 - 第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成し、
前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成し、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、
前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する情報処理方法であって、
前記フィルタリング係数を算出する際に、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出し、
前記第1のスペクトル成分の内、前記第1の範囲から到来する音のスペクトル成分の量の、前記第2の範囲から到来する音のスペクトル成分の量に対する比率を算出し、
前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出し、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出すること
を特徴とする情報処理方法。 - 第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成し、
前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成し、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、
前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、
前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する情報処理方法であって、
前記フィルタリング係数を算出する際に、
前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出し、
前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化し、
前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出し、
前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出すること
を特徴とする情報処理方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/043747 WO2020110228A1 (ja) | 2018-11-28 | 2018-11-28 | 情報処理装置、プログラム及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6840302B2 true JP6840302B2 (ja) | 2021-03-10 |
JPWO2020110228A1 JPWO2020110228A1 (ja) | 2021-03-11 |
Family
ID=70854207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020557460A Active JP6840302B2 (ja) | 2018-11-28 | 2018-11-28 | 情報処理装置、プログラム及び情報処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6840302B2 (ja) |
WO (1) | WO2020110228A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7109349B2 (ja) * | 2018-12-04 | 2022-07-29 | 富士通株式会社 | 発話検出プログラム、発話検出方法、および発話検出装置 |
DE112021007311T5 (de) * | 2021-05-20 | 2024-01-04 | Mitsubishi Electric Corporation | Klangbilderfassungsvorrichtung, klangbilderfassungsverfahren und klangbilderfassungsprogramm |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4247037B2 (ja) * | 2003-01-29 | 2009-04-02 | 株式会社東芝 | 音声信号処理方法と装置及びプログラム |
JP4906908B2 (ja) * | 2009-11-30 | 2012-03-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム |
JP5817366B2 (ja) * | 2011-09-12 | 2015-11-18 | 沖電気工業株式会社 | 音声信号処理装置、方法及びプログラム |
JP5692006B2 (ja) * | 2011-11-02 | 2015-04-01 | トヨタ自動車株式会社 | 音源推定装置、方法、プログラム、及び移動体 |
-
2018
- 2018-11-28 JP JP2020557460A patent/JP6840302B2/ja active Active
- 2018-11-28 WO PCT/JP2018/043747 patent/WO2020110228A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JPWO2020110228A1 (ja) | 2021-03-11 |
WO2020110228A1 (ja) | 2020-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650796B2 (en) | Single-channel, binaural and multi-channel dereverberation | |
JP5007442B2 (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
EP2773137B1 (en) | Microphone sensitivity difference correction device | |
JP6279181B2 (ja) | 音響信号強調装置 | |
WO2015196729A1 (zh) | 一种麦克风阵列语音增强方法及装置 | |
JP5834088B2 (ja) | 動的マイクロフォン信号ミキサ | |
JP2013524267A (ja) | 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 | |
US20130016854A1 (en) | Microphone array processing system | |
JP6545419B2 (ja) | 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置 | |
JP2008507720A (ja) | 音声信号反響除去 | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
US9532138B1 (en) | Systems and methods for suppressing audio noise in a communication system | |
EP1913591B1 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise | |
JP6840302B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JP4448464B2 (ja) | 雑音低減方法、装置、プログラム及び記録媒体 | |
Jin et al. | Multi-channel noise reduction for hands-free voice communication on mobile phones | |
JP2012189906A (ja) | 音声判別装置、音声判別方法および音声判別プログラム | |
JPWO2015114674A1 (ja) | 集音装置、集音装置の入力信号補正方法および移動機器情報システム | |
US11386911B1 (en) | Dereverberation and noise reduction | |
US11984132B2 (en) | Noise suppression device, noise suppression method, and storage medium storing noise suppression program | |
JP5105336B2 (ja) | 音源分離装置、プログラム及び方法 | |
US10887709B1 (en) | Aligned beam merger | |
JP6631127B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声処理装置 | |
JP6361360B2 (ja) | 残響判定装置及びプログラム | |
Gong et al. | Noise power spectral density matrix estimation based on modified IMCRA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201203 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201203 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201203 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6840302 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |