JP4986248B2 - 音源分離装置、方法及びプログラム - Google Patents
音源分離装置、方法及びプログラム Download PDFInfo
- Publication number
- JP4986248B2 JP4986248B2 JP2009282024A JP2009282024A JP4986248B2 JP 4986248 B2 JP4986248 B2 JP 4986248B2 JP 2009282024 A JP2009282024 A JP 2009282024A JP 2009282024 A JP2009282024 A JP 2009282024A JP 4986248 B2 JP4986248 B2 JP 4986248B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- target sound
- spectrum
- signal
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 95
- 238000000034 method Methods 0.000 title description 41
- 238000001228 spectrum Methods 0.000 claims description 158
- 230000005236 sound signal Effects 0.000 claims description 48
- 230000001629 suppression Effects 0.000 claims description 34
- 230000003111 delayed effect Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 description 47
- 238000004364 calculation method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
なお、マイクロフォンアレーによる指向特性制御の技術自体は公知の技術であり、例えば、遅延和アレー(DSA:Delayed Sum Array、又は、BF:Beam−Forming)による指向特性制御に関する技術、あるいは、DCMP(Directionally Constrained Minimization of Power)アダプティブアレーによる指向特性制御に関する技術等がある。
そこで、マイクロフォン322の出力から、マイクロフォン321の出力を時間差τだけ遅延させた後に減じると、互いが相殺されて抑圧角度θの方向の音は抑圧される。図4(A)は、抑圧角度θに設定された空間フィルタの、音源の方向ごとの抑圧処理後のゲインを示している。第1及び第2目的音優勢信号生成手段331及び332ではそれぞれ、抑圧角度θを、例えば、−90度、90度に設定した空間フィルタを用いて、目的音成分を抽出するとともに、妨害音成分を抑圧している。一方、目的音劣勢信号生成手段340では、抑圧角度θが0度の空間フィルタを用いて、目的音成分を抑圧すると共に、妨害音成分を抽出している。
以下、本発明による音源分離装置、方法及びプログラムの第1の実施形態を、図面を参照しながら説明する。第1の実施形態の音源分離装置の用途は限定されるものではないが、例えば、音声認識装置の前処理装置(雑音除去装置)として搭載されたり、ハンズフリー電話機(携帯電話機をハンズフリー電話機として用いる場合を含む)等の捕捉音声の初期処理段に設けたりするものである。
図1は、第1の実施形態に係る音源分離装置の全体構成を示すブロック図である。第1の実施形態の音源分離装置は、ディスクリート部品などの組み合わせや半導体チップなどによって専用的に構成されたものであっても良く、また、プロセッサを備えるパソコンなどの情報処理装置(1台に限定されず、複数台を分散処理し得るようにしたものであっても良い)上に、第1の実施形態の音源分離プログラム(固定データを含む)をインストールすることにより構築されるものであっても良く、さらには、第1の実施形態の音源分離プログラムが書き込まれたディジタルシグナルプロセッサを利用するものであっても良く、その実現化方法は問われないが、機能的には図1で表すことができる。なお、ソフトウェア処理を中心とする場合であっても、マイクロフォンやアナログ/ディジタル変換器の部分はハードウェア構成を適用することになる。
最小選択部44は、空間フィルタ41から出力された目的音を強調したスペクトルE1(m)と、空間フィルタ42から出力された目的音を強調したスペクトルE2(m)とを統合した目的音強調スペクトルM(m)を形成するものである。最小選択部44は、各帯域毎に、(8)式に示すように、空間フィルタ41からの出力スペクトルE1(m)の絶対値と、空間フィルタ42からの出力スペクトルE2(m)の絶対値とのうち最小値を、当該最小選択部44からの出力スペクトルM(m)の要素とする処理を行うものである。
(9)式を演算する位相生成手段70は、目的音方向に指向性を持つ空間フィルタになっている。位相スペクトルF(m)の特性が目的音方向に指向性を持っているため、目的音の信号成分を多く含んでおり、その位相成分は、帯域毎の選択処理を行っていないため連続的であり、急峻な特性を持っていない。
y(n)=h(n)+h’(n+N/4) …(12)
ここで、相前後する分析単位でデータ(サンプル)を重複させるように、N/4個のデータをシフトしながら、上述した処理を行うのは、波形接続を円滑に行うためであり、この手法は良く用いられている。1つの分析単位に対し、分析手段30から当該生成手段60までの上述した一連の処理に許される時間は、NT/4となる。
次に、第1の実施形態に係る音源分離装置10の動作(音源分離方法)を説明する。
第1の実施形態によれば、帯域選択を基本処理としているので目的音を容易に分離でき、しかも、複数の受音信号の合成によって目的音分離に適用する位相の情報を得るようにしているので、受音信号に妨害音成分が多い場合でも、安定した目的音に係る位相成分を目的音分離に使うことができ、その結果、分離後の目的音の音質を高めることができる。
次に、本発明による音源分離装置、方法及びプログラムの第2の実施形態を、図面を参照しながら説明する。第1の実施形態の音源分離装置は2つのマイクロフォンを用いたものであったが、第2の実施形態は、4つのマイクロフォンを用いたものである。
第2の実施形態の位相スペクトルF(m)も、4つのマイクロフォンに係るスペクトルを単純に加算したものであるので目的音の信号成分を多く含んでおり、その位相成分は、帯域毎の選択処理を行っていないため連続的であり、急峻な特性を持っていない。
第2の実施形態では、音源分離部80−Aの2個のマイクロフォン21−A及び22−Aと、音源分離部80−Bの2個のマイクロフォン21−B及び22−Bとの計4個のマイクロフォンを用いる場合を示したが、音源分離部80−Aと音源分離部80−Bとで1個のマイクロフォンを共通に使うことにより、3個のマイクロフォン構成としても良い。このようにした場合、マイクロフォン数も少なく、音源分離部80−A及び80−Bで共通の演算があるため(例えば、周波数分析演算)、最終的な演算量は少なくなり実用的である。この場合において、位相生成手段は、3つのマイクロフォンに対応する周波数分析スペクトルを単純に合算するようにしても良く、共通なマイクロフォンに対応する周波数分析スペクトルを、他の周波数分析スペクトルより重みを増して(例えば2倍)合算するようにしても良い。
20、20−A、20−B…入力手段、
21、21−A、21−B、22、22−A、22−B…マイクロフォン、
30、30−A、30−B…分析手段、
31、32…周波数分析部、
40、40−A、40−B…分離手段、
41〜43…空間フィルタ、
44…最小選択部、
50、51…除去手段、
60…生成手段、
70、71…位相生成手段、
80−A、80−B…音源分離部。
Claims (3)
- 目的音と、この目的音の到来方向以外の任意の方向から到来する妨害音とを分離する音源分離装置において、
間隔を置いて配置された複数個のマイクロフォンの受音信号のうち、2個のマイクロフォンによる第1及び第2の受音信号を用いて時間軸上あるいは周波数領域上で、上記第1の受音信号に係る値から、上記第2の受音信号を第1の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも1つの第1の目的音優勢のスペクトルを生成する第1目的音優勢スペクトル生成手段と、
時間軸上あるいは周波数領域上で、上記第2の受音信号に係る値から、上記第1の受音信号を第2の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも1つの第2の目的音優勢のスペクトルを生成する第2目的音優勢スペクトル生成手段と、
上記第1及び第2の受音信号を用いて、時間軸上あるいは周波数領域上で目的音抑圧用の線形結合処理を行うことにより、上記第1目的音優勢スペクトル、上記第2目的音優勢スペクトルと組になる少なくとも1つの目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、
間隔を置いて配置された上記複数個のマイクロフォンの受音信号のうち、複数個のマイクロフォンの受音信号を用いて、周波数領域上で合算することにより位相信号を生成する位相生成手段と、
上記第1目的音優勢スペクトル、上記第2目的音優勢スペクトル、上記目的音抑圧スペクトル及び、上記位相信号を用いて、目的音と妨害音とを分離する目的音分離手段と
を有することを特徴とする音源分離装置。 - 目的音と、この目的音の到来方向以外の任意の方向から到来する妨害音とを分離する音源分離方法において、
第1目的音優勢スペクトル生成手段、第2目的音優勢スペクトル生成手段、目的音抑圧スペクトル生成手段、位相生成手段及び目的音分離手段を備え、
上記第1目的音優勢スペクトル生成手段は、間隔を置いて配置された複数個のマイクロフォンの受音信号のうち、2個のマイクロフォンによる第1及び第2の受音信号を用いて時間軸上あるいは周波数領域上で、上記第1の受音信号に係る値から、上記第2の受音信号を第1の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも1つの第1の目的音優勢のスペクトルを生成し、
上記第2目的音優勢スペクトル生成手段は、時間軸上あるいは周波数領域上で、上記第2の受音信号に係る値から、上記第1の受音信号を第2の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも1つの第2の目的音優勢のスペクトルを生成し、
上記目的音抑圧スペクトル生成手段は、上記第1及び第2の受音信号を用いて、時間軸上あるいは周波数領域上で目的音抑圧用の線形結合処理を行うことにより、上記第1目的音優勢スペクトル、上記第2目的音優勢スペクトルと組になる少なくとも1つの目的音抑圧スペクトルを生成し、
上記位相生成手段は、間隔を置いて配置された上記複数個のマイクロフォンの受音信号のうち、複数個のマイクロフォンの受音信号を用いて、周波数領域上で合算することにより位相信号を生成し、
上記目的音分離手段は、上記第1目的音優勢スペクトル、上記第2目的音優勢スペクトル、上記目的音抑圧スペクトル及び、上記位相信号を用いて、目的音と妨害音とを分離する
ことを特徴とする音源分離方法。 - 目的音と、この目的音の到来方向以外の任意の方向から到来する妨害音とを分離するための音源分離プログラムであって、
コンピュータを、
間隔を置いて配置された複数個のマイクロフォンの受音信号のうち、2個のマイクロフォンによる第1及び第2の受音信号を用いて時間軸上あるいは周波数領域上で、上記第1の受音信号に係る値から、上記第2の受音信号を第1の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも1つの第1の目的音優勢のスペクトルを生成する第1目的音優勢スペクトル生成手段と、
時間軸上あるいは周波数領域上で、上記第2の受音信号に係る値から、上記第1の受音信号を第2の所定時間だけ遅延させた遅延信号に係る値を減算することにより、少なくとも1つの第2の目的音優勢のスペクトルを生成する第2目的音優勢スペクトル生成手段と、
上記第1及び第2の受音信号を用いて、時間軸上あるいは周波数領域上で目的音抑圧用の線形結合処理を行うことにより、上記第1目的音優勢スペクトル、上記第2目的音優勢スペクトルと組になる少なくとも1つの目的音抑圧スペクトルを生成する目的音抑圧スペクトル生成手段と、
間隔を置いて配置された上記複数個のマイクロフォンの受音信号のうち、複数個のマイクロフォンの受音信号を用いて、周波数領域上で合算することにより位相信号を生成する位相生成手段と、
上記第1目的音優勢スペクトル、上記第2目的音優勢スペクトル、上記目的音抑圧スペクトル及び、上記位相信号を用いて、目的音と妨害音とを分離する目的音分離手段と
して機能させることを特徴とする音源分離プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009282024A JP4986248B2 (ja) | 2009-12-11 | 2009-12-11 | 音源分離装置、方法及びプログラム |
CN2010105922905A CN102097099A (zh) | 2009-12-11 | 2010-12-10 | 使用通过线性组合的频谱分析的源声分离器及其方法 |
US12/926,820 US8422694B2 (en) | 2009-12-11 | 2010-12-10 | Source sound separator with spectrum analysis through linear combination and method therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009282024A JP4986248B2 (ja) | 2009-12-11 | 2009-12-11 | 音源分離装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011124872A JP2011124872A (ja) | 2011-06-23 |
JP4986248B2 true JP4986248B2 (ja) | 2012-07-25 |
Family
ID=44130164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009282024A Active JP4986248B2 (ja) | 2009-12-11 | 2009-12-11 | 音源分離装置、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8422694B2 (ja) |
JP (1) | JP4986248B2 (ja) |
CN (1) | CN102097099A (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4873913B2 (ja) * | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 |
JP5927887B2 (ja) * | 2011-12-13 | 2016-06-01 | 沖電気工業株式会社 | 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム |
JP5865050B2 (ja) * | 2011-12-15 | 2016-02-17 | キヤノン株式会社 | 被検体情報取得装置 |
JP5928048B2 (ja) * | 2012-03-22 | 2016-06-01 | ソニー株式会社 | 情報処理装置、情報処理方法、情報処理プログラムおよび端末装置 |
JP2013235050A (ja) * | 2012-05-07 | 2013-11-21 | Sony Corp | 情報処理装置及び方法、並びにプログラム |
CN105230044A (zh) * | 2013-03-20 | 2016-01-06 | 诺基亚技术有限公司 | 空间音频装置 |
JP6206003B2 (ja) | 2013-08-30 | 2017-10-04 | 沖電気工業株式会社 | 音源分離装置、音源分離プログラム、収音装置及び収音プログラム |
CN104683933A (zh) | 2013-11-29 | 2015-06-03 | 杜比实验室特许公司 | 音频对象提取 |
JP6369022B2 (ja) * | 2013-12-27 | 2018-08-08 | 富士ゼロックス株式会社 | 信号解析装置、信号解析システムおよびプログラム |
CN103971681A (zh) * | 2014-04-24 | 2014-08-06 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及*** |
CN106576204B (zh) | 2014-07-03 | 2019-08-20 | 杜比实验室特许公司 | 声场的辅助增大 |
CN108574906B (zh) * | 2017-03-09 | 2019-12-10 | 比亚迪股份有限公司 | 用于汽车的声音处理方法、***和汽车 |
CN107274907A (zh) * | 2017-07-03 | 2017-10-20 | 北京小鱼在家科技有限公司 | 双麦克风设备上实现指向性拾音的方法和装置 |
CN108206023A (zh) * | 2018-04-10 | 2018-06-26 | 南京地平线机器人技术有限公司 | 声音处理设备和声音处理方法 |
KR102607863B1 (ko) * | 2018-12-03 | 2023-12-01 | 삼성전자주식회사 | 음원 분리 장치 및 음원 분리 방법 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN111429937B (zh) * | 2020-05-09 | 2023-09-15 | 北京声智科技有限公司 | 语音分离方法、模型训练方法及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3355598B2 (ja) | 1996-09-18 | 2002-12-09 | 日本電信電話株式会社 | 音源分離方法、装置及び記録媒体 |
JP3541339B2 (ja) * | 1997-06-26 | 2004-07-07 | 富士通株式会社 | マイクロホンアレイ装置 |
JP3484112B2 (ja) * | 1999-09-27 | 2004-01-06 | 株式会社東芝 | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
JP4873913B2 (ja) * | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 |
JP4225430B2 (ja) * | 2005-08-11 | 2009-02-18 | 旭化成株式会社 | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム |
-
2009
- 2009-12-11 JP JP2009282024A patent/JP4986248B2/ja active Active
-
2010
- 2010-12-10 US US12/926,820 patent/US8422694B2/en active Active
- 2010-12-10 CN CN2010105922905A patent/CN102097099A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2011124872A (ja) | 2011-06-23 |
US20110142252A1 (en) | 2011-06-16 |
US8422694B2 (en) | 2013-04-16 |
CN102097099A (zh) | 2011-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4986248B2 (ja) | 音源分離装置、方法及びプログラム | |
US8934640B2 (en) | Microphone array processor based on spatial analysis | |
EP2984852B1 (en) | Method and apparatus for recording spatial audio | |
JP3940662B2 (ja) | 音響信号処理方法及び音響信号処理装置及び音声認識装置 | |
US7991166B2 (en) | Microphone apparatus | |
US9232309B2 (en) | Microphone array processing system | |
JP2008311866A (ja) | 音響信号処理方法及び装置 | |
JP6065028B2 (ja) | 収音装置、プログラム及び方法 | |
KR102191736B1 (ko) | 인공신경망을 이용한 음성향상방법 및 장치 | |
JP5772151B2 (ja) | 音源分離装置、プログラム及び方法 | |
JP4724054B2 (ja) | 特定方向収音装置、特定方向収音プログラム、記録媒体 | |
JPWO2009051132A1 (ja) | 信号処理システムと、その装置、方法及びそのプログラム | |
JP6436180B2 (ja) | 収音装置、プログラム及び方法 | |
JP2016163135A (ja) | 収音装置、プログラム及び方法 | |
JP5105336B2 (ja) | 音源分離装置、プログラム及び方法 | |
JP2019068133A (ja) | 収音装置、プログラム及び方法 | |
JP5635024B2 (ja) | 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム | |
JP6241520B1 (ja) | 収音装置、プログラム及び方法 | |
JP6260666B1 (ja) | 収音装置、プログラム及び方法 | |
JP6624256B1 (ja) | 収音装置、プログラム及び方法 | |
JP2012049715A (ja) | 音源分離装置、音源分離方法、及び、プログラム | |
JP5170465B2 (ja) | 音源分離装置、方法及びプログラム | |
JP6863004B2 (ja) | 収音装置、プログラム及び方法 | |
JP2021022872A (ja) | 収音装置、収音プログラム、及び収音方法 | |
US20240214729A1 (en) | Apparatus and method for narrowband direction-of-arrival estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120420 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4986248 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |