JP4272107B2 - 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム - Google Patents
音響信号除去装置、音響信号除去方法及び音響信号除去プログラム Download PDFInfo
- Publication number
- JP4272107B2 JP4272107B2 JP2004144177A JP2004144177A JP4272107B2 JP 4272107 B2 JP4272107 B2 JP 4272107B2 JP 2004144177 A JP2004144177 A JP 2004144177A JP 2004144177 A JP2004144177 A JP 2004144177A JP 4272107 B2 JP4272107 B2 JP 4272107B2
- Authority
- JP
- Japan
- Prior art keywords
- amplitude spectrum
- mixed
- acoustic amplitude
- acoustic signal
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 83
- 238000001228 spectrum Methods 0.000 claims abstract description 207
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000003595 spectral effect Effects 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 14
- 238000012417 linear regression Methods 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 abstract description 19
- 230000010363 phase shift Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 19
- 238000003860 storage Methods 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 15
- 238000005070 sampling Methods 0.000 description 8
- 238000013075 data extraction Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 101100285899 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SSE2 gene Proteins 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Description
本発明の実施形態について図面を参照しながら説明する。図1は、本実施形態に係る既知音響除去システムの全体構成を示すブロック図である。
以上説明した構成を有する既知音響除去システムは、以下のように動作する。図2は、既知音響除去システムの動作を示すフロー図である。なお、本実施形態では、映像と音声がステレオで記録された映像ファイル(DV)を混合音響(MIX音声)とし、オリジナル曲が記録された音声ファイルを既知音響とし、映像ファイル中にBGMとして包含されている当該オリジナル曲を除去する場合を例に説明する。本実施形態おける処理は、(1)前処理、(2)音楽消去処理、(3)後処理に大別される。以下、各処理について詳述する。
前処理では、DVから消去対象用のMIX音声を取り出すとともに、BGM用音声(オリジナル曲)を用意する。具体的には、DVキャプチャー2からDV用のビデオ編集ソフトを使用して動画をキャプチャーし(S101)、このキャプチャーしたファイルを、タイプ1のAVIファイル(出力ファイル名:MIX.AVI)として、記憶装置5に蓄積する。
音楽消去処理では、除去エンジンプログラム(GEQ)100により、MIX音声からBGM音声を消去する(S106)。この消去後出力される音声ファイルは、左右チャンネルともにモノラル48kHzのWAVファイル(出力ファイル名:左チャンネルがERASE-L.WAV、右チャンネルがERASE-R.WAV)として、メモリ7又は記憶装置5に蓄積される。
後処理では、除去エンジンプログラムで消去した音声を、DV用の音声に変換し、DV(AVIファイル)に復元する。先ず、音声変換部(PostWav)3により、周波数変換、及びモノラルからステレオへの変換を行う(S107)。すなわち、音響除去エンジン100から出力された左右2チャンネルのWAVファイルをステレオに合成し、必要ならば元のDVの音声と同じサンプリングレートに変換し、WAVファイル(ファイル名:ERASE.WAV)として、記憶装置5に蓄積する。次いで、音声データ抽出部(DVReMix)4において、キャプチャーしたAVIファイル(BGM.AVI)の音声を、消去後の音声(ERASE.WAV)と入れ替え、除去後音響ファイル(ファイル名:ERASE.AVI)として、記憶装置5に蓄積する。
以上説明した理論に基づく音響除去エンジン100の構成について説明する。図3は、音響除去エンジン100の機能を示すブロック図である。なお、本実施形態に係る音響除去エンジン100は、CPU等の演算処理装置上で音響除去プログラムを実行することにより、CPU上に仮想的に構築されるモジュールである。
次いで、上述した音響除去エンジン100について詳述する。本プログラムの処理の流れを図4に示す。
そして、上述したステップS204では、混合音響と既知音響の一致度を計算する。具体的には、一致度算定部304により、混合音響と既知音響の振幅スペクトルの強度を比較し、これらの一致度を算定する。具体的には、以下の手順による。
混合音響信号、既知音響信号およびそれぞれをフーリエ変換して得られた振幅スペクトルに対して与えられた混合音響の区間(Tms,Tme)と既知音響の区間(Tms,Tme)と仮定される開始時刻のずれ(Td)より一致度を求め。なお、TdがTf(フーリエ変換時のフレーム長)の倍数となっている場合は、ステップS201で求めた振幅スペクトルを使用することができる。それ以外の場合は、毎回振幅スペクトルを計算する。
そして、図6に示すように、既知音響振幅スペクトルと混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定する。
次いで、定常ブロックの全てについて、定常ブロックを含む範囲を有する推定ブロックを設定する。具体的には、定常ブロックごとに、そのブロックを囲むさらに大きな推定ブロックを設定する(例えば図6では、横幅は400ミリ秒(40フレーム)、音程は約1オクターブとなっている。この推定ブロックに含まれるデータを使用して実際の既知音響(BGM)の強度を推定する)。
その後、ブロックごとの平均信号強度(スペクトル強度)を算出する。具体的には、全ての推定ブロックについて以下の処理を行う。混合音響振幅スペクトルでのある推定ブロックの範囲が時間軸(Tks<Ti<Tke)、周波数軸(ωks<ωi<ωke)とするときに、該当する全てのTiとωiでの混合音響振幅スペクトル値M(ωi、Ti)と、開始時刻のずれTdを仮定した場合の対応する既知音響振幅スペクトル値B(ωTi+Td)の全ての組を求める。
次いで、この推定ブロック内での一致度を以下のいずれかの手順で求める。具体的には、一致度算定部304により、図8に示すように、既知音響振幅スペクトル及び混合音響振幅スペクトル間において対応する推定ブロックのスペクトル強度を平面上にプロットし、全強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度により一致度を算定するとともに、乖離度が最も低い共通線を求め、その共通線の傾きによって、スペクトル強度を求める。図8(a)では、強度点が共通直線上にほぼ位置することから一致度が高く、図8(b)では、既知音響以外の音響(音声やノイズ)や、同一周波数上での干渉により、一致度が低下している。
この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きとする。すなわち、この手法は、典型的なロバスト統計手法であり、原点を通る直線となる一次回帰手法等を用いてあてはまる直線を求め、次に、この直線から遠い点を探し、遠い方から10%の点を排除する。そして、残った点について再度、あてはまる直線を求め、残った点のうちさらに、新しい直線から遠い点を10%ほど排除する。この処理を5回程度繰り返すと、あてはめるべき点として50%の点が残り、最後にあてはめられた直線の傾きが結果となる。削減する量や設定方法についてはいろいろな手法を用いてよい。
具体的には、該当する全てのTiとωiについて初期値を1としたWを定める。このとき、
この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きを求める。上記(6−2)の手法では、選ばれなかった点は全て捨てられてしまうが、本手法では、捨てずに直線からの距離にしたがった重みをつけて計算する。距離に対する重み関数により、距離に従って、それらの関数を重みとして掛けて統計を取る。
この手法では、共通線の傾きを、平面のX軸及びY軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きとする。すなわち、X軸Y軸のスケールがほぼ同じという性質を使った計算量の小さい簡単な方法であり、例えば、一次回帰を計算する場合に、例えば重みとして X*Y をかけ、X軸やY軸に近い点を軽視し、(X*Y)の二乗や高次の項を掛ける方法がある。
なお、共通線の傾きは、以下の手順によっても求めることができる。この手順では、原点から各スペクトル強度点を通る全直線のうち、N/2番目のスペクトル強度点を通る直線の傾きを求める。すなわち、上記のグラフ内の全てのプロット点についてその原点から見こんだ傾きを求め(各点の混合音/BGMの値)、ある点の値が(BGM=20、混合音=30)であれば、その傾きは混合音/BGMで1.5となり、同じように「推定ブロック」内の全ての点についてこの傾きを求める。
なお、上述した実施形態及びその変更例に係る既知音響除去プログラムでは、ユーザー端末やWebサーバ等のコンピュータやICチップにインストールすることにより、上述した各機能を有する装置やシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。
以上説明した本実施形態によれば、振幅データは位相が変化してもかわらないので、位相に依存しない処理が可能となる。したがって、例えば、音声と音楽が混じった番組の音声信号から、番組作成時に使用した音楽CD等の音のデータを使って、音楽だけを消去することができる。
2…DVキャプチャー
3…音声データ抽出部
4…音声変換部
5…記憶装置
6…ユーザーインターフェース
6a…キーボード
6b…マウス
7…メモリ
8…出力I/F
9…同期制御部
10…モニタ
11…スピーカー
14…シミュレーション部
100…音響除去エンジン
101…混合音響入力部
102…既知音響信号入力部
103…制御部
104…除去処理部
105…オシレータ部
106…配置処理部
107…除去後音響信号出力部
116〜119…記録媒体
120…汎用コンピュータ
200…振幅スペクトル抽出部
201…データ分割部
202…窓関数処理部
203…フーリエ変換部
300…パラメータ推定部
301…周波数特性変化補正部
302…強度補正部
303…時間位置補正部
304…一致度算定部
Claims (24)
- 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、
算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させる時間位置補正部と、
前記時間位置補正部により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する除去処理部と、
を備え、前記一致度算定部は、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去装置。 - 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、
算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正する周波数特性補正部と、
前記時間位置補正部により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する除去処理部と、
を備え、前記一致度算定部は、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去装置。 - 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する一致度算定部と、
算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去する音響消去部と
を備え、前記一致度算定部は、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去装置。 - 前記共通線は直線であり、
前記除去処理部は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する
ことを特徴とする請求項1又は2に記載の音響信号除去装置。 - 共通線の傾きは、前記スペクトル強度点がN個ある場合、
原点から前記各スペクトル強度点を通る全直線のうち、N/2番目のスペクトル強度点を通る直線の傾きである
ことを特徴とする請求項4に記載の音響信号除去装置。 - 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである
ことを特徴とする請求項4に記載の音響信号除去装置。 - 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
ことを特徴とする請求項4に記載の音響信号除去装置。 - 共通線の傾きは、
前記平面のX軸及びY軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、
各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである
ことを特徴とする請求項4に記載の音響信号除去装置。 - 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させるステップ(3)と、
前記ステップ(3)により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ(4)と
を有し、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去方法。 - 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正するステップ(3)と、
前記ステップ(3)により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ(4)と
を有し、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去方法。 - 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
前記ステップ(2)により算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去するステップ(4)と
を有し、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去方法。 - 前記共通線は直線であり、
前記ステップ(4)は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する
ことを特徴とする請求項9又は10に記載の音響信号除去方法。 - 共通線の傾きは、前記スペクトル強度点がN個ある場合、
原点から前記各スペクトル強度点を通る全直線のうち、N/2番目のスペクトル強度点を通る直線の傾きである
ことを特徴とする請求項12に記載の音響信号除去方法。 - 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである
ことを特徴とする請求項12に記載の音響信号除去方法。 - 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
ことを特徴とする請求項12に記載の音響信号除去方法。 - 共通線の傾きは、
前記平面のX軸及びY軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、
各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである
ことを特徴とする請求項12に記載の音響信号除去方法。 - コンピュータに、
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させるステップ(3)と、
前記ステップ(3)により時間位置が変位された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ(4)と
を有する処理を実行させるプログラムであって、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去プログラム。 - コンピュータに、
除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正するステップ(3)と、
前記ステップ(3)により周波数特性が補正された前記既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去するステップ(4)と
を有する処理を実行させるプログラムであって、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去プログラム。 - 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記既知音響信号と他の音響信号とが混合してなる混合音響信号から混合音響振幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定するステップ(2)と、
前記ステップ(2)により算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範囲を推定し、当該範囲の混合音響信号を消去するステップ(4)と
を有する処理を実行させるプログラムであって、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定ブロックを設定し、既知音響振幅スペクトル及び前記混合音響振幅スペクトル間において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全強度点に対する共通線を設定し、各スペクトル強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去プログラム。 - 前記共通線は直線であり、
前記ステップ(4)は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから除去する
ことを特徴とする請求項17又は18に記載の音響信号除去プログラム。 - 共通線の傾きは、前記スペクトル強度点がN個ある場合、
原点から前記各スペクトル強度点を通る全直線のうち、N/2番目のスペクトル強度点を通る直線の傾きである
ことを特徴とする請求項20に記載の音響信号除去プログラム。 - 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の傾きである
ことを特徴とする請求項20に記載の音響信号除去プログラム。 - 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直線の傾きである
ことを特徴とする請求項20に記載の音響信号除去プログラム。 - 共通線の傾きは、
前記平面のX軸及びY軸から各スペクトル強度点までの距離を積算して設定された重みを算出し、
各重みを、原点を通る直線から各スペクトル強度点までの距離に積算し、その統計により得られた直線の傾きである
ことを特徴とする請求項20に記載の音響信号除去プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004144177A JP4272107B2 (ja) | 2004-05-13 | 2004-05-13 | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
PCT/JP2004/013168 WO2005112007A1 (ja) | 2004-05-13 | 2004-09-09 | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004144177A JP4272107B2 (ja) | 2004-05-13 | 2004-05-13 | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005326587A JP2005326587A (ja) | 2005-11-24 |
JP4272107B2 true JP4272107B2 (ja) | 2009-06-03 |
Family
ID=35394384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004144177A Expired - Lifetime JP4272107B2 (ja) | 2004-05-13 | 2004-05-13 | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4272107B2 (ja) |
WO (1) | WO2005112007A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5365380B2 (ja) * | 2009-07-07 | 2013-12-11 | ソニー株式会社 | 音響信号処理装置、その処理方法およびプログラム |
JP5057535B1 (ja) * | 2011-08-31 | 2012-10-24 | 国立大学法人電気通信大学 | ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法 |
JP7344649B2 (ja) * | 2019-02-25 | 2023-09-14 | 株式会社ベネッセコーポレーション | 情報端末装置およびプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57161800A (en) * | 1981-03-30 | 1982-10-05 | Toshiyuki Sakai | Voice information filter |
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
JPS59165098A (ja) * | 1983-03-10 | 1984-09-18 | 三洋電機株式会社 | 音声スペクトルパラメ−タ抽出装置 |
JP3135937B2 (ja) * | 1991-05-16 | 2001-02-19 | 株式会社リコー | 雑音除去装置 |
JP3522954B2 (ja) * | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
JP3418855B2 (ja) * | 1996-10-30 | 2003-06-23 | 京セラ株式会社 | 雑音除去装置 |
JP4026198B2 (ja) * | 1997-06-25 | 2007-12-26 | 株式会社デンソー | 音声認識装置 |
JPH1138997A (ja) * | 1997-07-16 | 1999-02-12 | Olympus Optical Co Ltd | 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体 |
JP4119112B2 (ja) * | 2001-11-05 | 2008-07-16 | 本田技研工業株式会社 | 混合音の分離装置 |
JP2002314637A (ja) * | 2001-04-09 | 2002-10-25 | Denso Corp | 雑音低減装置 |
JP3786038B2 (ja) * | 2002-03-14 | 2006-06-14 | 日産自動車株式会社 | 入力信号処理方法および入力信号処理装置 |
-
2004
- 2004-05-13 JP JP2004144177A patent/JP4272107B2/ja not_active Expired - Lifetime
- 2004-09-09 WO PCT/JP2004/013168 patent/WO2005112007A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2005112007A1 (ja) | 2005-11-24 |
JP2005326587A (ja) | 2005-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6405163B1 (en) | Process for removing voice from stereo recordings | |
TWI493541B (zh) | 用以操縱包含暫態事件的音訊信號之裝置、方法和電腦程式 | |
RU2467406C2 (ru) | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания | |
US8891778B2 (en) | Speech enhancement | |
JP6576934B2 (ja) | 圧縮済みオーディオ信号の信号品質ベース強調及び補償 | |
KR20180050652A (ko) | 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용 | |
US9646592B2 (en) | Audio signal analysis | |
US20140122068A1 (en) | Signal processing apparatus, signal processing method and computer program product | |
US20190172477A1 (en) | Systems and methods for removing reverberation from audio signals | |
JP4274419B2 (ja) | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム | |
WO2015092492A1 (en) | Audio information processing | |
US8660845B1 (en) | Automatic separation of audio data | |
KR101008250B1 (ko) | 기지 음향신호 제거방법 및 장치 | |
US20130108079A1 (en) | Audio signal processing device, method, program, and recording medium | |
JP4272107B2 (ja) | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム | |
JP2005284163A (ja) | 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置 | |
US20230057082A1 (en) | Electronic device, method and computer program | |
JP4274418B2 (ja) | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム | |
CN113411663B (zh) | 一种用于非编工程中的音乐节拍提取方法 | |
JP2009282536A (ja) | 既知音響信号除去方法及び装置 | |
JP2018072723A (ja) | 音響処理方法および音響処理装置 | |
JP6313619B2 (ja) | 音声信号処理装置及びプログラム | |
JP2005284016A (ja) | 音声信号の雑音推定方法およびそれを用いた雑音除去装置 | |
JP2006180392A (ja) | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 | |
Łopatka | Detection of dialogue in movie soundtrack for speech intelligibility enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050920 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20081127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090203 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090226 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120306 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4272107 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130306 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130306 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140306 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |