JP5516169B2 - 音響処理装置およびプログラム - Google Patents

音響処理装置およびプログラム Download PDF

Info

Publication number
JP5516169B2
JP5516169B2 JP2010159543A JP2010159543A JP5516169B2 JP 5516169 B2 JP5516169 B2 JP 5516169B2 JP 2010159543 A JP2010159543 A JP 2010159543A JP 2010159543 A JP2010159543 A JP 2010159543A JP 5516169 B2 JP5516169 B2 JP 5516169B2
Authority
JP
Japan
Prior art keywords
noise
component
acoustic signal
matrix
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010159543A
Other languages
English (en)
Other versions
JP2012022120A (ja
Inventor
多伸 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010159543A priority Critical patent/JP5516169B2/ja
Publication of JP2012022120A publication Critical patent/JP2012022120A/ja
Application granted granted Critical
Publication of JP5516169B2 publication Critical patent/JP5516169B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、音響信号に含まれる雑音成分を抑圧する技術に関する。
目的音成分と雑音成分との混合音の音響信号から雑音成分を抑圧する技術が従来から提案されている。例えば特許文献1には、複数の音響信号の各々における低域成分と各低域成分の平均成分とのうち強度が最小となる成分を選択して各音響信号の高域成分と合成することで、風雑音が抑圧された雑音抑圧信号を生成する技術が開示されている。
特許第4356670号公報
しかし、特許文献1の技術では、雑音抑圧信号の生成に利用される成分が強度のみを基準として選択されるから、例えば風雑音と比較して目的音成分の強度が小さい場合には目的音成分が除去される可能性がある。また、複数の音響信号の平均成分が雑音抑圧信号の低域成分として選択された場合には、雑音抑圧信号の生成の過程で目的音成分の波形が大幅に変化するから、目的音成分が忠実に再現されないという問題もある。以上の事情を考慮して、本発明は、音響信号の雑音成分を高精度に抑圧することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の各要素と後述の各実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音響処理装置は、並列に収音された第1音響信号および第2音響信号の各々について、当該音響信号の周波数毎の成分値の時系列を要素とする観測行列(例えば観測行列Vi)の非負行列因子分解で、当該音響信号の相異なる成分の周波数毎の成分値を示す複数の基底(例えば基底Ci[1]〜Ci[K])を含む基底行列(例えば基底行列Wi)と、当該各基底の重み値の時系列を各々が示す複数の重み系列(例えば重み系列Ei[1]〜Ei[K])を含む係数行列(例えば係数行列Hi)とを生成する行列分解手段(例えば行列分解部44)と、第1音響信号の基底行列の複数の基底のうち第2音響信号の基底行列の基底との相関が高い基底を、第1音響信号の雑音成分に対応する雑音基底(例えば雑音基底Ci_noise)として特定する雑音特定手段(例えば雑音特定部46)と、第1音響信号から雑音成分を抑圧した推定目的音成分(例えば推定目的音信号qTiのスペクトルYTi)を基底行列のうち雑音基底以外の各基底と係数行列のうち雑音基底以外に対応する各重み系列とを利用して生成する目的音抽出手段(例えば目的音抽出部52)と、第1音響信号から目的音成分を抑圧した推定雑音成分(例えば推定雑音信号qNiのスペクトルYNi)を雑音基底と係数行列のうち当該雑音基底に対応する重み系列(例えば重み系列Ei_noise)とを利用して生成する雑音抽出手段(例えば雑音抽出部54)と、目的音成分の調波構造に対応する残留成分(例えば残留成分のスペクトルRi)を推定雑音成分から抽出する調波成分抽出手段(例えば調波成分抽出部64)と、推定目的音成分と残留成分とを合成する目的音合成手段(例えば目的音合成部66)とを具備する。
以上の構成では、第1音響信号および第2音響信号の各々の観測行列が基底行列と係数行列とに分解され、第1音響信号の基底行列の複数の基底のうち第2音響信号の基底行列の基底との相関が高い雑音基底が除外されたうえで推定目的音成分が抽出される。したがって、第1音響信号の目的音成分の強度が雑音成分と比較して低い場合でも雑音成分を高精度に抑圧することが可能である。また、目的音成分の調波構造に対応する残留成分が推定雑音成分から抽出されて推定目的音成分に合成されるから、推定雑音成分に目的音成分の一部(残留成分)が残留した場合でも、目的音成分の欠落を有効に防止できるという利点がある。しかも、調波構造を手掛かりに推定雑音成分から残留成分を抽出するから、残留成分の強度が雑音成分に対して低い場合でも残留成分を高精度に抽出できるという利点がある。なお、本発明の適用の範囲は、2系統の音響信号を処理する構成に限定されない。すなわち、3系統以上の音響信号を処理する構成でも、特定の2系統の音響信号に着目したときに本発明の要件を充足する構成は、本発明の範囲に当然に包含される。
本発明の好適な態様において、調波成分抽出手段は、目的音成分の基本周波数を推定する周波数推定手段(例えば周波数推定部72)と、推定雑音成分のうち基本周波数の整数倍の周波数の調波成分が強調されるように各係数値が設定された調波係数列を生成する調波係数列生成手段(例えば調波係数列生成部74)と、調波係数列を推定雑音成分に作用させて残留成分を抽出する調波抽出手段(例えば調波抽出部78)とを含む。以上の態様においては、周波数推定手段が推定した目的音成分の基本周波数に応じて生成された調波係数列の適用で推定雑音成分から残留成分が抽出される。したがって、音響信号の周波数特性(調波構造)に応じた適切な残留成分を抽出できるという利点がある。
さらに好適な態様において、周波数推定手段は、目的音抽出手段が生成した推定目的音成分の基本周波数を推定する。以上の態様においては、雑音成分が抑圧された推定目的音成分について基本周波数が推定されるから、雑音成分が混在した状態で基本周波数を推定する場合と比較して目的音成分の基本周波数を高精度に推定できるという利点がある。ただし、目的音成分と雑音成分とが混在した第1音響信号または第2音響信号を対象として目的音成分の基本周波数を推定する方法も採用され得る。なお、基本周波数の推定の方法(例えば周波数領域での処理か時間領域での処理か)は任意である。
本発明の好適な態様に係る音響処理装置は、第1音響信号および第2音響信号のスペクトルの時系列を第1解析パラメータ(例えば窓幅ωA,移動量δA)のもとで観測行列として生成する第1周波数分析手段(例えば周波数分析部42)と、第1解析パラメータとは相違する第2解析パラメータ(例えば窓幅ωB,移動量δB)のもとで推定目的音成分および推定雑音成分のスペクトルを順次に生成する第2周波数分析手段(例えば周波数分析部62)と、第2解析パラメータに応じた間隔で時間軸上および周波数軸上に配列する解析点(例えば解析点p2)毎に係数値が設定された補正係数列(例えば補正係数列GBi)を生成する係数列補正手段(例えば係数列補正部76)とを具備し、雑音抽出手段は、第1解析パラメータに応じた間隔で時間軸上および周波数軸上に配列する解析点(例えば解析点p1)毎に係数値が設定された雑音係数列(例えば雑音係数列GNi)を、雑音基底と当該雑音基底に対応する重み系列とを利用して生成し、雑音係数列を観測行列に作用させて推定雑音成分を生成し、係数列補正手段は、雑音係数列から補正係数列を生成し、調波係数列生成手段は、補正係数列から基本周波数の整数倍の周波数の成分を抽出して調波係数列を生成する。以上の態様においては、推定雑音成分の抽出に利用される雑音係数列が調波係数列の生成に流用されるから、調波係数列の生成に雑音係数列を利用しない構成と比較して残留成分の抽出に必要な処理の負荷が軽減される。また、第1解析パラメータに応じた雑音係数列が第2解析パラメータに応じた補正係数列に補正されたうえで調波係数列の生成(さらには残留成分の抽出)に適用されるから、第1解析パラメータと第2解析パラメータとが相違する場合でも、残留成分の抽出に利用される適切な調波係数列を生成することが可能である。したがって、例えば非負行列因子分解に最適な数値に第1解析パラメータを設定し、基本周波数の推定や残留成分と推定目的音成分との合成に最適な数値に第2解析パラメータを設定することが可能である。
本発明の好適な態様に係る音響処理装置は、第1音響信号と第2音響信号との位相差(例えば位相差ΔP[nA])を算定する位相差算定手段(例えば位相差算定部582)を具備し、目的音抽出手段は、位相差算定手段が算定した位相差に応じて各係数値が可変に設定された目的音係数列を、基底行列のうち雑音基底以外の各基底と係数行列のうち雑音基底以外に対応する重み系列とから生成して観測行列に作用させる。例えば、第1音響信号と第2音響信号との位相差が大きい(雑音成分が優勢である)ほど目的音係数列による雑音抑圧の効果が増加するように、目的音係数列の各係数値が位相差に応じて設定される。以上の態様においては、第1音響信号と第2音響信号との位相差が目的音係数列に反映されるから、目的音係数列に位相差を反映させない構成と比較して雑音成分を充分に抑圧した推定目的音成分を生成できるという利点がある。なお、位相差算定手段が算定した位相差を雑音係数列に反映させる構成も採用され得る。すなわち、雑音抽出手段は、第1音響信号と第2音響信号との位相差に応じて各係数値が可変に設定された雑音係数列を、雑音基底と当該雑音基底に対応する重み系列とから生成して観測行列に作用させる。
本発明の好適な態様に係る音響処理装置は、第1音響信号と第2音響信号との強度差(例えば強度差ΔA[nA])を算定する強度差算定手段(例えば強度差算定部584)を具備し、目的音抽出手段は、強度差算定手段が算定した強度差(例えば振幅差やパワー差)に応じて各係数値が可変に設定された目的音係数列を、基底行列のうち雑音基底以外の各基底と係数行列のうち雑音基底以外に対応する重み系列とから生成して観測行列に作用させる。例えば、第1音響信号と第2音響信号との強度差が大きい(雑音成分が優勢である)ほど目的音係数列による雑音抑圧の効果が増加するように、目的音係数列の各係数値が強度差に応じて設定される。以上の形態においては、第1音響信号と第2音響信号との強度差が目的音係数列に反映されるから、目的音係数列に強度差を反映させない構成と比較して雑音成分を充分に抑圧した推定目的音成分を生成できるという利点がある。なお、強度差算定手段が算定した強度差を雑音係数列に反映させる構成も採用され得る。すなわち、雑音抽出手段は、第1音響信号と第2音響信号との強度差に応じて各係数値が可変に設定された雑音係数列を、雑音基底と当該雑音基底に対応する重み系列とから生成して観測行列に作用させる。
以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、並列に収音された第1音響信号および第2音響信号の各々について、当該音響信号の周波数毎の成分値の時系列を要素とする観測行列の非負行列因子分解で、当該音響信号の相異なる成分の周波数毎の成分値を示す複数の基底を含む基底行列と、当該各基底の重み値の時系列を各々が示す複数の重み系列を含む係数行列とを生成する行列分解処理と、第1音響信号の基底行列の複数の基底のうち第2音響信号の基底行列の基底との相関が高い基底を、第1音響信号の雑音成分に対応する雑音基底として特定する雑音特定処理と、第1音響信号から雑音成分を抑圧した推定目的音成分を基底行列のうち雑音基底以外の各基底と係数行列のうち雑音基底以外に対応する各重み系列とを利用して生成する目的音抽出処理と、第1音響信号から目的音成分を抑圧した推定雑音成分を雑音基底と係数行列のうち当該雑音基底に対応する重み系列とを利用して生成する雑音抽出処理と、目的音成分の調波構造に対応する残留成分を推定雑音成分から抽出する調波成分抽出処理と、推定目的音成分と残留成分とを合成する目的音合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音響処理装置のブロック図である。 第1処理部のブロック図である。 観測行列の説明図である。 基底行列および係数行列の説明図である。 目的音抽出部および雑音抽出部のブロック図である。 第2処理部のブロック図である。 第2処理部の処理で想定される解析点の説明図である。 調波成分抽出部のブロック図である。 調波成分抽出部の動作の説明図である。 第2実施形態における第1処理部のブロック図である。 第3実施形態における第2処理部のブロック図である。 第4実施形態における調波成分抽出部のブロック図である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。図1に示すように、音響処理装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、相異なる位置で並列(同時)に収音されたステレオ形式の音響信号s1および音響信号s2を音響処理装置100に供給する。各音響信号si(i=1,2)は、目的音成分と雑音成分との混合音の音圧波形を表す時間領域信号である。図1では、相互に離間して配置された複数の収音機器122(例えば無指向性のマイクロホン)が信号供給装置12として例示されている。ただし、可搬型または内蔵型の記録媒体から各音響信号siを取得して音響処理装置100に供給する再生装置や、各音響信号siを通信網から受信して音響処理装置100に供給する通信装置を、信号供給装置12として採用することも可能である。
音響処理装置100は、音響信号s1および音響信号s2からステレオ形式の音響信号q1および音響信号q2を生成する。各音響信号qiは、音響信号siから雑音成分を抑圧(目的音成分を強調)した時間領域信号である。放音装置14(例えばステレオスピーカやステレオヘッドホン)は、音響処理装置100が生成した音響信号q1および音響信号q2に応じた音波を放射する。なお、音響信号siをアナログからデジタルに変換するA/D変換器や音響信号qiをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。
図1に示すように、音響処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムや演算処理装置22が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置24として任意に採用され得る。音響信号s1および音響信号s2を記憶装置24に記憶した構成(したがって信号供給装置12は省略され得る)も好適である。
演算処理装置22は、記憶装置24に格納されたプログラムの実行で、音響信号siから音響信号qiを生成するための複数の機能(第1処理部31,第2処理部32)を実現する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
図1の第1処理部31は、目的音成分を強調(雑音成分を抑圧)したステレオ形式の推定目的音信号qT1および推定目的音信号qT2(T:target)と、雑音成分を強調(目的音成分を抑圧)したステレオ形式の推定雑音信号qN1および推定雑音信号qN2(N:noise)とを、音響信号s1および音響信号s2から生成する。すなわち、音響信号siが目的音成分(推定目的音信号qTi)と雑音成分(推定雑音信号qNi)とに分離される。ただし、目的音成分と雑音成分との完全な分離は困難であるから、本来的には推定目的音信号qTiに選別されるべき目的音成分の一部(以下「残留成分」という)が推定雑音信号qNiに混在する可能性がある。そこで、第2処理部32は、残留成分を推定雑音信号qNiから抽出して推定目的音信号qTiに合成することで音響信号qi(q1,q2)を生成する。
図2は、第1処理部31のブロック図である。図2に示すように、第1処理部31は、周波数分析部42と行列分解部44と雑音特定部46と目的音抽出部52と雑音抽出部54と波形合成部56とを含んで構成される。
周波数分析部42は、図3に示すように、各音響信号siのスペクトルSi(S1,S2)を時間軸上の単位期間(フレーム)毎に順次に生成する。各単位期間のスペクトルSiは、周波数軸上の相異なる周波数(f1,f2,……,fMA,……)に対応する複数の成分値(パワー)xiを配列したパワースペクトルである。すなわち、図3に示すように、時間軸上に間隔ΔtAで配列する時点t(t1,t2,……)と周波数軸上に間隔ΔfAで配列する周波数f(f1,f2,……)とに対応して時間-周波数平面に行列状に配列する解析点(グリッド)p1毎に成分値xiが算定される。
各スペクトルSiの生成には、単位期間の窓幅(フレーム長)ωAおよび移動量(時間軸上のシフト量)δAを解析パラメータとして適用した短時間フーリエ変換が採用される。各解析点p1の時間軸上の間隔ΔtAおよび周波数軸上の間隔ΔfAは、周波数分析部42による周波数分析の解析パラメータ(窓幅ωA,移動量δA)に応じて可変に設定される。
図3に示すように、各音響信号siのスペクトルSiは、帯域BLa内のスペクトルXiと帯域BHa内のスペクトルXHiとに区分される。帯域BLaは、雑音成分の周波数を包含するように設定される。本実施形態では風雑音を雑音成分として想定する。風雑音は、空気自体が流動して収音機器122の振動板に直接に衝突することで発生する雑音成分である。空気の衝突に起因した振動板の振動の周波数は、空気の振動(音圧変化)として振動板に伝播する音波の周波数と比較して低い。具体的には、風雑音の周波数は、例えば1kHz以下の低周波成分が支配的となる。以上の傾向を考慮して、帯域BLaは、MA個(MAは自然数)の周波数f1〜fMAを含む1kHz以下の範囲に設定される。帯域BHaは、帯域BLaと比較して高域側(例えば1kHz以上)の帯域である。
図3に示すように、周波数分析部42が生成したスペクトルSiの時系列(スペクトログラム)は、NA個の時点t1〜tNAを含む解析期間T0毎に時間軸上で区分される。解析期間T0は、例えば数十秒程度の長時間に設定される。図3に示すように、帯域BLa内のMA個の周波数f1〜fMAと解析期間T0内のNA個の時点t1〜tNAとに対応する解析点p1の成分値xi[1,1]〜xi[MA,NA]をMA行×NA列に配列した観測行列Viが、音響信号s1および音響信号s2の各々について解析期間T0毎に規定される。成分値xi[mA,nA]は、帯域BLa内のMA個の周波数f1〜fMAのうち第mA番目(mA=1〜MA)の周波数fmAと、解析期間T0内のNA個の時点t1〜tNAのうち第nA番目(nA=1〜NA)の時点tnAとに対応する解析点p1の成分値xiを意味する。
以上の説明から理解されるように、観測行列Viの第nA列は、解析期間T0内の第nA番目の時点tnAにおけるスペクトルXiのMA個の成分値xi[1,nA]〜xi[MA,nA]の系列に相当し、観測行列Viの第mA行は、解析期間T0内のNA個の時点t1〜tNAにわたる周波数fmAの成分値xi[mA,t1]〜xi[mA,NA]の時系列に相当する。スペクトルXiの成分値xi[mA,nA]はパワー(非負値)を意味するから、観測行列Viは非負行列(負数を含まない行列)である。なお、スペクトルSi(Xi)を振幅スペクトルとした構成も採用され得る。
図2の行列分解部44は、各観測行列Viの非負行列因子分解(NMF:Non-negative Matrix Factorization)で基底行列Wi(W1,W2)と係数行列Hi(H1,H2)とを生成する。図4に示すように、基底行列Wiは、成分値wi[1,1]〜wi[MA,K]を配列したMA行×K列の非負行列であり、係数行列Hiは、重み値hi[1,1]〜hi[K,NA]を配列したK行×NA列の非負行列である(Kは自然数)。基底行列Wiと係数行列Hiとの積が観測行列Viと近似する(Vi≒Wi・Hi)ように基底行列Wiと係数行列Hiとが生成される。周波数分析部42が適用する解析パラメータ(窓幅ωA,移動量δA)は、観測行列Viの非負行列因子分解が適切に実行され得る数値に設定される。
図4に示すように、基底行列Wiは、K個の基底(codebook)Ci[1]〜Ci[K]で構成される。第k列目(k=1〜K)の基底Ci[k]は、解析期間T0内の音響信号siを構成するK種類の音響成分から選択された1種類の音響成分について周波数f1〜fMAでの成分値wi[1,k]〜wi[MA,k]を配列したパワースペクトルに相当する。他方、係数行列Hiは、図4に示すように、K個の重み系列(excitation)Ei[1]〜Ei[K]で構成される。第k行目の重み系列Ei[k]は、基底行列Wiの基底Ci[k]が示す音響成分に対する単位期間毎の重み値hi[k,1]〜hi[k,NA]の時系列(基底Ci[k]の各成分値wi[mA,k]の時間変化)に相当する。以上の定義から理解されるように、音響信号siの時点tnAでのスペクトルXiは、係数行列Hiのうち当該時点tnAに対応するK個の重み値hi[1,nA]〜hi[K,nA]を適用したK個の基底Ci[1]〜Ci[K]の加重和で近似される(Xi≒hi[1,nA]×Ci[1]+hi[2,nA]×Ci[2]+……+hi[K,nA]×Ci[K])。
観測行列Viの非負行列因子分解には公知の方法が任意に採用される。例えば、基底行列Wiおよび係数行列Hiの積と観測行列Viとの相違(例えば距離)が最小化するように基底行列Wiと係数行列Hiとを逐次的に更新(反復演算)する方法が好適に採用される。反復演算に適用される基底行列Wiの初期値(成分値wi[mA,k]の初期値)は、例えば乱数に設定される。なお、例えば風雑音のスペクトル(高域ほど減衰する周波数特性)を模擬するように各基底Ci[k]のMA個の成分値wi[1,k]〜wi[MA,k]の初期値を設定した構成も好適である。
図2の雑音特定部46は、各基底行列WiのK個の基底Ci[1]〜Ci[K]のうち雑音成分(風雑音)に対応する1個の基底Ci[k](以下では「雑音基底Ci_noise」と表記する)を特定する。風雑音は、収音機器122に衝突する空気の乱流に起因して発生するから、相異なる位置で収音された音響信号s1および音響信号s2の各々に含まれる風雑音の瞬時的な周波数特性は相互に統計的に独立する。ただし、風雑音の長期的な周波数特性は、音声等と比較すると、収音の位置に関わらず同様の特性に維持され易い。すなわち、解析期間T0のような長期間にわたる風雑音の周波数特性は音響信号s1と音響信号s2とで類似するという傾向がある。
以上の傾向を考慮して、雑音特定部46は、音響信号s1の基底行列W1(K個の基底C1[1]〜C1[K])と音響信号s2の基底行列W2(K個の基底C2[1]〜C2[K])との間で相互に相関が高い各基底Ci[k](C1[k1],C2[k2])を雑音基底Ci_noiseとして基底行列W1および基底行列W2の各々から特定する。例えば、基底行列W1の1個の基底C1[k]と基底行列W2の1個の基底C2[k]とを選択する全通りの組合せについて基底C1[k]と基底C2[k]との相関の度合を示す指標(相関指標)を算定し、相関指標が示す相関の度合が最大となる組合せの基底C1[k1]と基底C2[k2]との各々(変数k1と変数k2との数値の異同は不問)を雑音基底Ci_noise(C1_noise,C2_noise)として抽出する。基底C1[k]と基底C2[k]との相関指標としては、例えば距離(ユークリッド距離)や内積が好適に採用される。
図2の目的音抽出部52は、音響信号siから目的音成分を抽出した推定目的音信号qTiのスペクトルYTi(YT1,YT2)を順次に生成する。雑音抽出部54は、音響信号siから雑音成分を抽出した推定雑音信号qNiのスペクトルYNi(YN1,YN2)を生成する。図5は、目的音抽出部52および雑音抽出部54のブロック図である。
図5に示すように、目的音抽出部52は、係数列生成部522と抽出処理部524とを含んで構成される。係数列生成部522は、解析期間T0毎に目的音係数列GTi(GT1,GT2)を生成する。目的音係数列GTiは、係数値gTi[1,1]〜gTi[MA,NA]を配列したMA行×NA列の行列である。目的音係数列GTiのうち第mA行の第nA列に位置する係数値gTi[mA,nA]は、時点tnAのスペクトルXiのうち周波数fmAでの成分値xi[mA,nA]に対する利得(スペクトルゲイン)に相当し、0以上かつ1以下の範囲内で音響信号siの特性(風雑音の強度)に応じて可変に設定される。すなわち、時点tnAでの音響信号siの周波数fmAの音響成分において風雑音が優勢であるほど係数値gTi[mA,nA]は小さい数値に設定される。
第1実施形態の係数列生成部522は、図4に示すように、音響信号siの基底行列Wiから雑音基底Ci_noiseを除外したMA行×(K-1)列の行列WTiと、雑音基底Ci_noiseに対応する重み系列Ei_noiseを係数行列Hiから除外した(K-1)行×NA列の行列HTiとから目的音係数列GTi(G1,G2)を生成する。
具体的には、係数列生成部522は、第1に、雑音基底Ci_noiseの除外後の行列WTiと重み系列Ei_noiseの除外後の行列HTiとの乗算で行列VTiを算定する。図4に示すように、行列VTiは、要素値vTi[1,1]〜vTi[MA,NA]をMA行×NA列に配列した行列である。以上の説明から理解されるように、行列VTiの第nA列に位置するMA個の要素値vTi[1,nA]〜vTi[MA,nA]は、時点tnAのスペクトルXiから風雑音を抑圧したパワースペクトルの推定値に相当する。
第2に、係数列生成部522は、以下の数式(A)の演算で目的音係数列GTiの係数値gTi[mA,nA]を算定する。数式(A)の記号v[mA,nA]は、基底行列Wiと係数行列Hiとを乗算したMA行×NA列の行列のうち第m行の第n列の要素値(すなわち、スペクトルXiの成分値xi[mA,nA]の推定値)に相当する。要素値vTi[mA,nA]を要素値v[mA,nA]で除算するのは、係数値gTi[mA,nA]を0以上かつ1以下の数値に正規化するためである。以上のように風雑音の雑音基底Ci_noiseおよび重み系列Ei_noiseを除外した行列VTiから目的音係数列GTiが生成されるから、風雑音が優勢であるほど係数値gTi[mA,nA]は小さい数値に設定される。
gTi[mA,nA]=vTi[mA,nA]/v[mA,nA] ……(A)
図5の抽出処理部524は、係数列生成部522が生成した目的音係数列GTiを音響信号siの観測行列Viに作用させることで、解析期間T0内のNA個の時点t1〜tNAの各々に対応するNA個のスペクトルYTiの時系列(解析期間T0内のスペクトログラム)を解析期間T0毎に順次に生成する。時点tnAのスペクトルYTiは、MA個の成分値yTi[1,nA]〜yTi[MA,nA]で構成されるパワースペクトルである。具体的には、成分値yTi[mA,nA]は、目的音係数列GTiの係数値gTi[mA,nA]と観測行列Viの成分値xi[mA,nA]との乗算値に設定される(yTi[mA,nA]=gTi[mA,nA]×xi[mA,nA])。前述のように風雑音が優勢であるほど係数値gTi[mA,nA]は小さい数値に設定されるから、抽出処理部524が生成するスペクトルYTiは、音響信号siのスペクトルXiから風雑音を抑圧したスペクトルに相当する。
図5の雑音抽出部54は、目的音抽出部52と同様に、係数値gNi[1,1]〜gNi[MA,NA]で構成されるMA行×NA列の雑音係数列GNi(GN1,GN2)を解析期間T0毎に生成する係数列生成部542と、雑音係数列GNiを観測行列Viに作用させてNA個のスペクトルYNiの時系列(解析期間T0内のスペクトログラム)を生成する抽出処理部544とを含んで構成される。
図4に示すように、係数列生成部542は、第1に、雑音特定部46が特定した雑音基底Ci_noiseと当該雑音基底Ci_noiseに対応する重み系列Ei_noiseとの乗算で、要素値vNi[1,1]〜vNi[MA,NA]をMA行×NA列に配列した行列VNiを算定する。行列VNiは、解析期間T0内の音響信号siの雑音成分のスペクトログラムに相当する。第2に、係数列生成部542は、前述の数式(A)と同様の数式(B)の演算で0以上かつ1以下の係数値gNi[mA,nA]を算定する。以上の説明から理解されるように、時点tnAでの音響信号siの周波数fmAの音響成分において風雑音が優勢であるほど係数値gNi[mA,nA]は大きい数値に設定される。
gNi[mA,nA]=vNi[mA,nA]/v[mA,nA] ……(B)
抽出処理部544は、係数列生成部542が生成した雑音係数列GNiを音響信号siの観測行列Viに作用させることで、解析期間T0内のNA個のスペクトルYNiの時系列(スペクトログラム)を解析期間T0毎に順次に生成する。スペクトルYNiは、MA個の成分値yNi[1,nA]〜yNi[MA,nA]で構成されるパワースペクトルである。具体的には、成分値yNi[mA,nA]は、雑音係数列GNiの係数値gNi[mA,nA]と観測行列Viの成分値xi[mA,nA]との乗算値に設定される(yNi[mA,nA]=gNi[mA,nA]×xi[mA,nA])。前述のように雑音成分(風雑音)が優勢であるほど係数値gNi[mA,nA]は大きい数値に設定されるから、抽出処理部544が生成するスペクトルYNiは、音響信号siのスペクトルXiから風雑音を抽出したスペクトルに相当する。
以上に説明したように、目的音抽出部52は音響信号siから目的音成分を抽出し、雑音抽出部54は音響信号siから雑音成分を抽出する。すなわち、目的音抽出部52および雑音抽出部54は、音響信号siを目的音成分(YT1,YT2)と雑音成分(YN1,YN2)とに分離する要素として機能する。
図2の波形合成部56は、目的音抽出部52が単位期間毎に生成したスペクトルYTi(帯域BLa)と周波数分析部42が生成したスペクトルXHi(帯域BHa)とから時間領域の推定目的音信号qTi(qT1,qT2)を生成する。具体的には、波形合成部56は、スペクトルYTiおよびスペクトルXHiの加算値の振幅スペクトルと音響信号siの位相スペクトルとを適用した逆フーリエ変換で時間領域信号を生成するとともに前後の単位期間で相互に連結することで推定目的音信号qTiを生成する。また、波形合成部56は、雑音抽出部54が単位期間毎に生成したスペクトルYNiから時間領域の推定雑音信号qNi(qN1,qN2)を生成する。
図1の第2処理部32は、前述のように、以上の手順で生成された推定雑音信号qNiから残留成分を抽出して推定目的音信号qTiに合成する。第1実施形態では、目的音成分が調波構造の音響(典型的には音声)である場合を想定し、推定雑音信号qNiのうち調波構造を構成する調波成分(基音成分および倍音成分)を残留成分として推定雑音信号qNiから抽出する。図6は、第2処理部32のブロック図である。図6に示すように、第2処理部32は、周波数分析部62と調波成分抽出部64と目的音合成部66と波形合成部68とを含んで構成される。
周波数分析部62は、推定目的音信号qTiのスペクトルSTi(ST1,ST2)と推定雑音信号qNiのスペクトルSNi(SN1,SN2)とを単位期間毎に順次に生成する。推定目的音信号qTiのスペクトルSTiは、複数の成分値(パワー)sTiを配列したパワースペクトルである。同様に、推定雑音信号qNiのスペクトルSNiは、複数の成分値sNiを配列したパワースペクトルである。図7に示すように、時間軸上に間隔ΔtBで配列する各時点tと周波数軸上に間隔ΔfBで配列する各周波数fとに対応する解析点p2毎に成分値xTiおよび成分値xNiが算定される。図6に示すように、推定目的音信号qTiのスペクトルSTiは、帯域BLb内のスペクトルZiと帯域BHb内のスペクトルZHiとに区分される。帯域BLbは、MB個(MBは自然数)の周波数f1〜fMBを含む範囲(例えば0.1kHzから4.4kHzまでの帯域)に設定され、帯域BHbは、帯域BLbの高域側(例えば4.4kHz以上の帯域)に設定される。
スペクトルSTiおよびスペクトルSNiの算定には、単位期間の窓幅ωBおよび移動量(時間軸上のシフト量)δBを解析パラメータとした短時間フーリエ変換が採用される。周波数分析部42の解析パラメータ(窓幅ωA,移動量δA)が非負行列因子分解に好適な数値という観点から選定されるのに対し、周波数分析部62の解析パラメータ(窓幅ωB,移動量δA)は、第2処理部32での残留成分(調波成分)の抽出および合成にとって好適な数値という観点から選定される。以上の相違に起因して、周波数分析部42の解析パラメータ(窓幅ωA,移動量δA)と周波数分析部62の解析パラメータ(窓幅ωB,移動量δB)とは相違する。すなわち、第1処理部31で想定される各解析点p1の時間軸上の間隔ΔtAと第2処理部32で想定される各解析点p2の間隔ΔtBとは相違し、第1処理部31で想定される各解析点p1の周波数軸上の間隔ΔfAと第2処理部32で想定される各解析点p2の間隔ΔfBとは相違する。具体的には、時間分解能は周波数分析部62が周波数分析部42を上回り(ΔtB<ΔtA)、周波数分解能は周波数分析部42が周波数分析部62を上回る(ΔfA<ΔfB)ように、各解析パラメータが選定される。例えば、周波数分析部42については窓幅ωAが512msに設定されて移動量δAが64msに設定されるのに対し、周波数分析部62については窓幅ωBが25msに設定されて移動量δBが5msに設定される。
図6の調波成分抽出部64は、雑音成分の推定雑音信号qNiから残留成分のスペクトルRiを順次に抽出する。NB個のスペクトルRiの時系列(残留成分のスペクトログラム)が解析期間T0毎に順次に生成される。
図8は、調波成分抽出部64のブロック図である。図8に示すように、調波成分抽出部64は、周波数推定部72と調波係数列生成部74と係数列補正部76と調波抽出部78とを含んで構成される。周波数推定部72は、推定目的音信号qTiのスペクトルZiの解析で各解析期間T0内のNB個の単位期間の各々について音響信号siの目的音成分(推定目的音信号qTi)の基本周波数Fi[nB](Fi[1]〜Fi[NB])を推定する。基本周波数Fi[nB]の推定には公知の技術(例えば調波構造の解析やケプストラムの算定)が任意に採用される。
調波係数列生成部74は、周波数推定部72が推定した基本周波数Fi[nB]と第1処理部31の係数列生成部542が生成した雑音係数列GNiとを利用して調波係数列GHi(H:harmonics)を生成する。図9に示すように、調波係数列GHiは、時間-周波数平面内の相異なる解析点p2に対応する係数値gHi[1,1]〜gHi[MB,NB]を配列したMB行×NB列の行列である。調波係数列GHiの第nB列を構成するMB個の係数値gHi[1,nB]〜gHi[MB,nB]は、解析期間T0のうち第nB番目の単位期間(時点tnB)における目的音成分の調波構造を示す係数列である。
調波係数列生成部74による調波係数列GHiの生成には雑音係数列GNiが利用されるが、雑音係数列GNiの各係数値gNi[mA,nA]に対応する解析点p1と、調波係数列GHiの各係数値gHi[mB,nB]に対応する解析点p2とは相違する。以上の相違を補償するために、係数列補正部76は、図9に示すように、第1処理部31の係数列生成部542が生成した雑音係数列GNiの補正で解析期間T0毎に補正係数列GBiを生成する。補正係数列GBiは、係数値gBi[1,1]〜gBi[MB,NB]を配列したMB行×NB列の行列である。
具体的には、係数列補正部76は、雑音係数列GNiの各係数値gNi[mA,nA]の補間または間引で補正係数列GBiの各係数値gBi[mB,nB]を生成する。例えば雑音係数列GNiの行数MAが目標の行数MBを上回る場合(MA>MB)、係数列補正部76は、雑音係数列GNiの各列を構成するMA個の係数値gNi[1,nA]〜gHi[MA,nA]の間引(補間)でMB個の係数列gBi[1,nA]〜gBi[MB,nA]を生成する。また、雑音係数列GNiの列数NAが目標の列数NBを下回る場合(NA<NB)、係数列補正部76は、雑音係数列GNiの各行を構成するNA個の係数値gNi[mA,1]〜gNi[mA,NA]の補間でNB個の係数列gBi[mA,1]〜gBi[mA,NB]を生成する。補間や間引には公知の技術(例えば直線補間)が任意に採用される。
図8に示すように、調波係数列生成部74は、調波構造特定部742と係数列合成部744とを含んで構成される。調波構造特定部742は、音響信号siの目的音成分(残留成分)の調波構造を示す調波係数列Diを生成する。図9に示すように、調波係数列Diは、係数値di[1,1]〜di[MB,NB]を配列したMB行×NB列の行列である。調波係数列Diの第nB列を構成するMB個の係数値di[1,nB]〜di[MB,nB]の数値列は、解析期間T0内の第nB番目の単位期間における目的音成分の調波構造を指定する。具体的には、図9に示すように、MB個の係数値di[1,nB]〜di[MB,nB]のうち周波数推定部72が推定した基本周波数Fi[nB]の整数倍の周波数(F0[nB],2F0[nB],3F0[nB],……)に対応する係数値di[mB,nB]が1に設定されるとともに他の係数値di[mB,nB]はゼロに設定される。
図8の係数列合成部744は、係数列補正部76が生成した補正係数列GBiと調波構造特定部742が生成した調波係数列Diとの合成で調波係数列GHiを生成する。具体的には、調波係数列GHiの係数値gHi[mB,nB]は、図9に示すように、補正係数列GBiの係数値gBi[mB,nB]と調波係数列Diの係数値di[mB,nB]との乗算値に設定される(gHi[mB,nB]=gBi[mB,nB]×di[mB,nB])。したがって、基本周波数Fi[nB]の整数倍の周波数において残留成分が優勢であるほど係数値gHi[mB,nB]は大きい数値に設定される。
図8の調波抽出部78は、係数列合成部744が生成した調波係数列GHiを推定雑音信号qNiのスペクトルSNiに作用させることで、解析期間T0内のNB個のスペクトルRiの時系列(残留成分のスペクトログラム)を生成する。時点tnBのスペクトルRiは、周波数f1〜fMBに対応するMB個の成分値ri[1,nB]〜ri[MB,nB]で構成されるパワースペクトルである。調波抽出部78は、推定雑音信号qNiの時点tnBのスペクトルSNiのうち周波数fmBの成分値sNi[mB,nB]と調波係数列GHiの係数値gHi[mB,nB]との乗算値をスペクトルRiの成分値ri[mB,nB]として算定する(ri[mB,nB]=gHi[mB,nB]×sNi[mB,nB])。したがって、スペクトルRiは、推定雑音信号qNiに混入した残留成分(周波数Fi[nB]を基本周波数とする調波成分)のスペクトルの推定値に相当する。以上が調波成分抽出部64の構成および作用である。
図6の目的音合成部66は、周波数分析部62が推定目的音信号qTiから生成したスペクトルZi(帯域BLb)と調波成分抽出部64が生成したスペクトルRiとの合成(スペクトル加算)で単位期間毎に順次にスペクトルZRiを生成する。すなわち、スペクトルZRiは、推定目的音信号qTiのうち帯域BLb内の目的音成分と推定雑音信号qNiに残留した残留成分との混合音のパワースペクトルに相当する。
波形合成部68は、目的音合成部66が単位期間毎に生成したスペクトルZRi(帯域BLb)と周波数分析部62が生成したスペクトルZHi(帯域BHb)とから時間領域の音響信号qi(q1,q2)を生成する。波形合成部68による音響信号qiの生成には、波形合成部56による推定目的音信号qTiの生成と同様の方法が採用される。以上の説明から理解されるように、音響信号qiの再生音は、推定目的音信号qTiの目的音成分と推定雑音信号qNiの残留成分との混合音に相当する。
以上に説明したように、第1実施形態では、音響信号siの観測行列Viが基底行列Wiと係数行列Hiとに分解され、雑音基底Ci_noiseを除外した基底行列Wi(行列WTi)と重み系列Ei_noiseを除外した係数行列Hi(行列HTi)とを利用して目的音係数列GTiが生成される。したがって、音響信号siの目的音成分の強度が雑音成分と比較して低い場合でも、高精度に風雑音を抑圧することが可能である。また、基底行列Wiのうち雑音基底Ci_noise以外の各基底Ci[k]と係数行列Hiのうち重み系列Ei_noise以外の各重み系列Ei[k]とは維持されるから、音響信号siの目的音成分の波形が忠実に維持された音響信号qiを生成できるという利点もある。
なお、基底行列Wiから雑音基底Ci_noiseを特定する方法としては、例えば、風雑音の周波数特性を模擬するように事前に作成されたモデルを基底行列Wiの各基底Ci[k]と比較する構成も採用され得る。しかし、風雑音のモデルを利用する構成では、事前に用意されたモデルとは周波数特性が相違する風雑音を充分に抑圧できない可能性がある。他方、第1実施形態では、基底行列W1と基底行列W2との間で相関が高い各基底Ci[k]が雑音基底Ci_noiseとして特定されるから、風雑音のモデルを利用する構成と比較して、多様な特性の風雑音を充分に抑圧できるという利点がある。
また、第1実施形態では、推定雑音信号qNi内に残留する目的音成分(残留成分)が抽出されて推定目的音信号qTi(スペクトルZi)に合成されるから、例えば推定目的音信号qTiを放音装置14から再生する場合と比較して、再生音における目的音成分の欠落を防止することが可能である。しかも、調波構造の解析で残留成分を雑音成分から分離するため、残留成分の強度が雑音成分に対して低い場合でも残留成分を高精度に抽出できるという利点がある。
また、第1実施形態では、解析点p1に対応する雑音係数列GNiが第2処理部32での解析点p2に対応するように補正されたうえで残留成分の抽出に利用される。したがって、第1処理部31の周波数分析部42による解析パラメータ(窓幅ωA,移動量δA)と第2処理部32の周波数分析部62による解析パラメータ(窓幅ωB,移動量δB)とを個別に選定できるという利点がある。具体的には、前述のように、行列分解部44による非負行列因子分解に適切な数値という観点から周波数分析部42の解析パラメータ(窓幅ωA,移動量δA)を選定し、残留成分の抽出および合成に適切な数値という観点から周波数分析部62の解析パラメータを選定することが可能である。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各例示において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
信号供給装置12の2個の収音機器122に対して正面方向から到来する目的音成分は、位相差を殆ど発生させずに略同等の強度(振幅)で各収音機器122に到達する。他方、風雑音は前述のように空気の乱流に起因するから、同位相かつ同振幅で各収音機器122に到達する可能性は低い。したがって、音響信号s1や音響信号s2にて風雑音が優勢となるほど両者間の位相差や強度差が増加するという傾向がある。以上の傾向を考慮して、本実施形態では、音響信号s1と音響信号s2との位相差や強度差に応じて目的音係数列GTiの各係数値gTi[mA,nA]や雑音係数列GNiの各係数値gNi[mA,nA]を可変に設定する。
第2実施形態の音響処理装置100は、図10に示すように、第1実施形態の第1処理部31に位相差算定部582と強度差算定部584とを追加した構成である。音響信号s1および音響信号s2の各々の帯域BMの成分が位相差算定部582および強度差算定部584に供給される。帯域BMは、風雑音の周波数と主要な目的音成分の周波数とを包含するように設定される。例えば、帯域BMは4kHz以下の範囲(すなわち帯域BLaを含む帯域)に設定される。
図10の位相差算定部582は、音響信号s1と音響信号s2との位相差ΔP[nA]を単位期間毎(時点tnA毎)に順次に算定する。位相差ΔP[nA]は、例えば、帯域BM内の各周波数での位相差の代表値(例えば平均値)である。同様に、強度差算定部584は、音響信号s1と音響信号s2との強度差(例えば振幅差やパワー差)ΔA[nA]を単位期間毎に順次に算定する。
目的音抽出部52の係数列生成部522は、位相差算定部582が算定した位相差ΔP[nA]と強度差算定部584が算定した強度差ΔA[nA]とに応じて目的音係数列GTiの係数値gTi[mA,nA]を可変に設定する。具体的には、係数列生成部522は、位相差ΔP[nA]または強度差ΔA[nA]が大きい(時点tnAで風雑音が優勢である)ほど、前掲の数式(A)で算定される係数値gTi[mA,nA]を小さい数値に補正する。したがって、第2実施形態によれば、第1実施形態と比較して風雑音を充分に抑圧した推定目的音信号qTiを生成できるという利点がある。
他方、雑音抽出部54の係数列生成部542は、位相差ΔP[nA]と強度差ΔA[nA]とに応じて雑音係数列GNiの係数値gNi[mA,nA]を可変に設定する。具体的には、係数列生成部542は、位相差ΔP[nA]または強度差ΔA[nA]が大きい(時点tnAで風雑音が優勢である)ほど、前掲の数式(B)で算定される係数値gNi[mA,nA]を大きい数値に補正する。したがって、第2実施形態によれば、第1実施形態と比較して風雑音を充分に強調した推定雑音信号qNiを生成できるという利点がある。
<C:第3実施形態>
第3実施形態の音響処理装置100は、図11に示すように第2処理部32に調整部65を追加した構成である。調整部65は、推定雑音信号qNiのスペクトルSNiの強度(パワー)を減少させる増幅器(例えば1未満の数値を乗算する乗算器)である。目的音合成部66は、第1実施形態と同様のスペクトルZi(帯域BLb)およびスペクトルRiと、調整部65による処理後(減衰後)のスペクトルSNiとの合成で単位期間毎に順次にスペクトルZRiを生成する。すなわち、音響信号siの雑音成分が低音量で再生音に付加される。
第3実施形態でも第1実施形態と同様の効果が実現される。なお、推定目的音信号qTiのスペクトルZiと残留成分のスペクトルRiとのみを合成してスペクトルZRiを生成する第1実施形態の構成では、雑音成分を高度に除外することが可能であるが、再生音が聴感的に不自然な印象となる可能性がある。第3実施形態では、推定雑音信号qNiのスペクトルSNiがスペクトルZRiの合成に適用されるから、聴感的に自然な印象の再生音を生成できるという利点がある。
<D:第4実施形態>
第1実施形態では、基底行列Wiと係数行列Hiとから生成した目的音係数列GTiを目的音抽出部52が観測行列Viに作用させることでスペクトルYTiの時系列を生成し、雑音係数列GNiを雑音抽出部54が観測行列Viに作用させることでスペクトルYNiの時系列を生成した。第4実施形態は、目的音抽出部52や雑音抽出部54の動作を簡略化した形態である。
図4を参照して前述したように、基底行列Wiから雑音基底Ci_noiseを除外した行列WTiと係数行列Hiから重み系列Ei_noiseを除外した行列HTiとを乗算した行列VTiは、音響信号siから雑音成分を抑圧した場合のスペクトログラムに近似する。そこで、第4実施形態の目的音抽出部52は、雑音成分の抑圧後のスペクトルYTiの時系列(スペクトログラム)として行列VTiを解析期間T0毎に順次に生成する。行列VTiの第nA列に位置するMA個の要素値vTi[1,nA]〜vTi[MA,nA]の系列がスペクトルYTiとして波形合成部56に供給される。
また、雑音基底Ci_noiseと重み系列Ei_noiseとを乗算した行列VNiは、音響信号siから目的音成分を抑圧した場合のスペクトログラムに近似する。そこで、第4実施形態の雑音抽出部54は、目的音成分の抑圧後のスペクトルYNiの時系列(スペクトログラム)として行列VNiを解析期間T0毎に順次に生成する。行列VNiの第nA列に位置するMA個の要素値vNi[1,nA]〜vNi[MA,nA]の系列がスペクトルYNiとして利用される。
図12は、第4実施形態における調波成分抽出部64のブロック図である。図12に示すように、第4実施形態の調波成分抽出部64は、第1実施形態の係数列合成部744を省略した構成である。係数列補正部76には、雑音抽出部54が生成した行列VNiが供給される。
行列VNiは、各解析点p1に対応した要素値vNi[1,1]〜vNi[MA,NA]で構成されたMA行×NA列の行列である。係数列補正部76は、行列VNiの各要素値vNi[mA,nA]の補正(補間,間引)で行列VBiを生成する。行列VBiは、周波数分析部62の解析パラメータ(窓幅ωB,移動量δB)に応じた各解析点p2に対応した要素値vBi[1,1]〜vBi[MB,NB]で構成される。
調波抽出部78は、調波構造特定部742が生成した調波係数列Diを係数列補正部76による補正後の行列VBiに作用させることで、解析期間T0内のNB個のスペクトルRiの時系列(残留成分のスペクトログラム)を生成する。具体的には、調波抽出部78は、行列VBiの要素値vBi[mB,nB]と調波係数列Diの係数値di[mB,nB]との乗算値をスペクトルRiの成分値ri[mB,nB]として算定する。行列VBiは、第1処理部31での分離後の雑音成分のスペクトルの推定値に近似するから、スペクトルRiは、分離後の雑音成分から目的音成分の残留成分(すなわち基本周波数Fi[nB]の整数倍の周波数の調波成分)を抽出したスペクトルの推定値に相当する。したがって、第4実施形態でも第1実施形態と同様の効果が実現される。
<E:変形例>
以上の各形態には多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
以上の各形態では、推定目的音信号qTiのスペクトルZiから音響信号siの目的音成分の基本周波数Fi[nB]を推定したが、基本周波数Fi[nB]の推定の方法は任意である。例えば、推定目的音信号qTiの基本周波数Fi[nB]を時間領域の処理(例えば自己相関関数を利用した方法)で推定することも可能である。また、目的音成分の抽出前の音響信号si(またはスペクトルXi)の解析で基本周波数Fi[nB]を推定する構成も採用され得る。ただし、雑音成分が混在している段階では基本周波数Fi[nB]の推定の精度が低下するから、基本周波数Fi[nB]の高精度な推定という観点からは、雑音成分の抑圧後に基本周波数Fi[nB]を推定する第1実施形態の構成が有利である。
なお、例えば目的音成分と雑音成分とが混在している音響信号siから基本周波数Fiを推定する場合でも、遮断周波数を下回る成分の除去(ローカットフィルタ処理)で雑音成分を減衰させれば基本周波数Fi[nB]の高精度な推定も可能である。しかし、雑音成分の周波数が刻々と変化する状況を想定すると、遮断周波数を最適値に選定することは非常に困難である。前述の各実施形態においては、雑音成分の周波数が変化する場合でも雑音成分が有効に抑圧され、抑圧後の推定目的音信号qTiを対象として基本周波数Fi[nB]が推定されるから、雑音成分の周波数が変化した場合の遮断周波数の選定を問題とせずに基本周波数Fi[nB]を高精度に推定できるという利点がある。
(2)変形例2
目的音成分と雑音成分との分離(第1処理部31)や残留成分の抽出(第2処理部32)の対象を低域側の帯域(BLa,BLb)に限定する構成は省略され得る。例えば、音響信号siの全帯域を行列分解部44や雑音特定部46による処理の対象とした構成も採用され得る。ただし、風雑音の強度は高域側の帯域(例えば帯域BHa)で低下するから、音響信号siの帯域分割を省略した構成では、風雑音の独立した基底Ci[k]を非負行列因子分解で高精度に抽出することが困難となる。したがって、抑圧の対象となる雑音成分の周波数帯域が事前に判明している場合には、雑音成分を包含する周波数帯域(帯域BLa)のみを行列分解部44や雑音特定部46による処理の対象とした前述の構成が格別に好適である。
(3)変形例3
以上の各形態では、音響信号siの解析期間T0毎に目的音係数列GTiおよび雑音係数列GNiを生成したが、解析期間T0の区切は省略される。例えば、音響信号siの全区間にわたる単位期間毎のスペクトルXiの時系列を1個の観測行列Viとした構成も採用され得る。
(4)変形例4
以上の各形態では、目的音係数列GTiの各係数値gTi[mA,nA]を音響信号siの各成分値xi[mA,nA]に乗算することで推定目的音信号qTiを生成したが、目的音係数列GTiを音響信号siに作用させる方法は適宜に変更される。例えば、音響信号siの各成分値xi[mA,nA]に係数値gTi[mA,nA]を加算する構成も採用され得る。また、以上の各形態での例示とは反対に、風雑音が優勢であるほど係数値gTi[mA,nA]が大きい数値となるように目的音係数列GTiを生成する構成では、成分値xi[mA,nB]を係数値gTi[mA,nA]で除算または減算する構成が採用され得る。雑音成分の強調用の雑音係数列GNiについても同様に、音響信号siに対する適用の方法や風雑音の優劣との関係は適宜に変更される。
(5)変形例5
以上の各形態では、2系統の音響信号qi(q1,q2)を生成したが、1系統(モノラル形式)の音響信号q1のみを生成する場合にも以上の各形態が同様に適用され得る。例えば、音響信号s1に対応する1系統のみを対象として目的音成分と雑音成分との分離や残留成分の抽出および付加が実行される。以上の構成では、音響信号s1の基底行列W1から雑音基底C1_noiseを特定するために音響信号s2が利用される。
(6)変形例6
演算処理装置22の処理は、音響信号siの供給に並行して実時間的に実行され、処理毎に逐次的に音響信号qiが再生され得る。ただし、事前に用意された音響信号siに対する処理が完了してから音響信号qiの再生を開始する構成(バッチ処理)も好適である。
100……音響処理装置、12……信号供給装置、14……放音装置、22……演算処理装置、24……記憶装置、31……第1処理部、32……第2処理部、42……周波数分析部、44……行列分解部、46……雑音特定部、52……目的音抽出部、54……雑音抽出部、56……波形合成部、522……係数列生成部、524……抽出処理部、542……係数列生成部、544……抽出処理部、582……位相差算定部、584……強度差算定部、62……周波数分析部、64……調波成分抽出部、65……調整部、66……目的音合成部、68……波形合成部、72……周波数推定部、74……調波係数列生成部、742……調波構造特定部、744……係数列合成部、76……係数列補正部、78……調波抽出部。

Claims (6)

  1. 並列に収音された第1音響信号および第2音響信号の各々について、当該音響信号の周波数毎の成分値の時系列を要素とする観測行列の非負行列因子分解で、当該音響信号の相異なる成分の周波数毎の成分値を示す複数の基底を含む基底行列と、当該各基底の重み値の時系列を各々が示す複数の重み系列を含む係数行列とを生成する行列分解手段と、
    前記第1音響信号の前記基底行列の前記複数の基底のうち前記第2音響信号の前記基底行列の基底との相関が高い基底を、前記第1音響信号の雑音成分に対応する雑音基底として特定する雑音特定手段と、
    前記第1音響信号から前記雑音成分を抑圧した推定目的音成分を前記基底行列のうち前記雑音基底以外の各基底と前記係数行列のうち前記雑音基底以外に対応する各重み系列とを利用して生成する目的音抽出手段と、
    前記第1音響信号から目的音成分を抑圧した推定雑音成分を前記雑音基底と前記係数行列のうち当該雑音基底に対応する重み系列とを利用して生成する雑音抽出手段と、
    前記目的音成分の調波構造に対応する残留成分を前記推定雑音成分から抽出する調波成分抽出手段と、
    前記推定目的音成分と前記残留成分とを合成する目的音合成手段と
    を具備する音響処理装置。
  2. 前記調波成分抽出手段は、
    前記目的音成分の基本周波数を推定する周波数推定手段と、
    前記推定雑音成分のうち前記基本周波数の整数倍の周波数の調波成分が強調されるように各係数値が設定された調波係数列を生成する調波係数列生成手段と、
    前記調波係数列を前記推定雑音成分に作用させて前記残留成分を抽出する調波抽出手段とを含む
    請求項1の音響処理装置。
  3. 前記周波数推定手段は、前記目的音抽出手段が生成した前記推定目的音成分の基本周波数を推定する
    請求項2の音響処理装置。
  4. 前記第1音響信号および前記第2音響信号の単位区間毎のスペクトルの時系列を、各単位区間の窓幅と移動量とを含む第1解析パラメータのもとで前記観測行列として生成する第1周波数分析手段と、
    前記第1解析パラメータとは相違する窓幅と移動量とを含む第2解析パラメータのもとで前記推定目的音成分および前記推定雑音成分のスペクトルを単位区間毎に順次に生成する第2周波数分析手段と、
    前記第2解析パラメータに応じた間隔で時間軸上および周波数軸上に配列する解析点毎に係数値が設定された補正係数列を生成する係数列補正手段とを具備し、
    前記雑音抽出手段は、前記第1解析パラメータに応じた間隔で時間軸上および周波数軸上に配列する解析点毎に係数値が設定された雑音係数列を、前記雑音基底と当該雑音基底に対応する重み系列とを利用して生成し、前記雑音係数列を前記観測行列に作用させて前記推定雑音成分を生成し、
    前記係数列補正手段は、前記雑音係数列から前記補正係数列を生成し、
    前記調波係数列生成手段は、前記補正係数列から前記基本周波数の整数倍の周波数の成分を抽出して前記調波係数列を生成する
    請求項2または請求項3の音響処理装置。
  5. 前記第1音響信号と前記第2音響信号との位相差を算定する位相差算定手段と、
    前記第1音響信号と前記第2音響信号との強度差を算定する強度差算定手段とを具備し、
    前記目的音抽出手段は、前記第1音響信号と前記第2音響信号との位相差および強度差に応じて各係数値が可変に設定された目的音係数列を、前記基底行列のうち前記雑音基底以外の各基底と前記係数行列のうち前記雑音基底以外に対応する重み系列とから生成して前記観測行列に作用させ、
    前記雑音抽出手段は、前記第1音響信号と前記第2音響信号との位相差および強度差に応じて各係数値が可変に設定された雑音係数列を、前記雑音基底と当該雑音基底に対応する重み系列とから生成して前記観測行列に作用させる
    請求項4の音響処理装置。
  6. 並列に収音された第1音響信号および第2音響信号の各々について、当該音響信号の周波数毎の成分値の時系列を要素とする観測行列の非負行列因子分解で、当該音響信号の相異なる成分の周波数毎の成分値を示す複数の基底を含む基底行列と、当該各基底の重み値の時系列を各々が示す複数の重み系列を含む係数行列とを生成する行列分解処理と、
    前記第1音響信号の前記基底行列の前記複数の基底のうち前記第2音響信号の前記基底行列の基底との相関が高い基底を、前記第1音響信号の雑音成分に対応する雑音基底として特定する雑音特定処理と、
    前記第1音響信号から前記雑音成分を抑圧した推定目的音成分を前記基底行列のうち前記雑音基底以外の各基底と前記係数行列のうち前記雑音基底以外に対応する各重み系列とを利用して生成する目的音抽出処理と、
    前記第1音響信号から目的音成分を抑圧した推定雑音成分を前記雑音基底と前記係数行列のうち当該雑音基底に対応する重み系列とを利用して生成する雑音抽出処理と、
    前記目的音成分の調波構造に対応する残留成分を前記推定雑音成分から抽出する調波成分抽出処理と、
    前記推定目的音成分と前記残留成分とを合成する目的音合成処理と
    をコンピュータに実行させるプログラム。
JP2010159543A 2010-07-14 2010-07-14 音響処理装置およびプログラム Expired - Fee Related JP5516169B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010159543A JP5516169B2 (ja) 2010-07-14 2010-07-14 音響処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010159543A JP5516169B2 (ja) 2010-07-14 2010-07-14 音響処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2012022120A JP2012022120A (ja) 2012-02-02
JP5516169B2 true JP5516169B2 (ja) 2014-06-11

Family

ID=45776455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010159543A Expired - Fee Related JP5516169B2 (ja) 2010-07-14 2010-07-14 音響処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5516169B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013160735A1 (en) * 2012-04-27 2013-10-31 Sony Mobile Communications Ab Noise suppression based on correlation of sound in a microphone array
JP6174856B2 (ja) 2012-12-27 2017-08-02 キヤノン株式会社 雑音抑制装置、その制御方法、及びプログラム
US9384553B2 (en) * 2013-04-03 2016-07-05 Mitsubishi Electric Research Laboratories, Inc. Method for factorizing images of a scene into basis images
JP2015118361A (ja) * 2013-11-15 2015-06-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP6371516B2 (ja) 2013-11-15 2018-08-08 キヤノン株式会社 音響信号処理装置および方法
JP6482173B2 (ja) * 2014-01-20 2019-03-13 キヤノン株式会社 音響信号処理装置およびその方法
JP6274872B2 (ja) * 2014-01-21 2018-02-07 キヤノン株式会社 音処理装置、音処理方法
US10515650B2 (en) 2015-06-30 2019-12-24 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
JP7443823B2 (ja) * 2020-02-28 2024-03-06 ヤマハ株式会社 音響処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001124621A (ja) * 1999-10-28 2001-05-11 Matsushita Electric Ind Co Ltd 風雑音低減可能な騒音計測装置
JP2006227152A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> 計算装置およびその計算装置を利用した収音装置
JP4356670B2 (ja) * 2005-09-12 2009-11-04 ソニー株式会社 雑音低減装置及び雑音低減方法並びに雑音低減プログラムとその電子機器用収音装置
JP2008263483A (ja) * 2007-04-13 2008-10-30 Sanyo Electric Co Ltd 風雑音低減装置、音響信号録音装置及び撮像装置
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
JP5454330B2 (ja) * 2010-04-23 2014-03-26 ヤマハ株式会社 音響処理装置

Also Published As

Publication number Publication date
JP2012022120A (ja) 2012-02-02

Similar Documents

Publication Publication Date Title
JP5516169B2 (ja) 音響処理装置およびプログラム
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
WO2014021318A1 (ja) 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
US20080228470A1 (en) Signal separating device, signal separating method, and computer program
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
EP2946382B1 (en) Vehicle engine sound extraction and reproduction
US8090119B2 (en) Noise suppressing apparatus and program
JP6019969B2 (ja) 音響処理装置
JP5454330B2 (ja) 音響処理装置
JP5187666B2 (ja) 雑音抑圧装置およびプログラム
JP5034735B2 (ja) 音処理装置およびプログラム
US10297272B2 (en) Signal processor
EP2640096A2 (en) Sound processing apparatus
US9959852B2 (en) Vehicle engine sound extraction
JP5942388B2 (ja) 雑音抑圧用係数設定装置、雑音抑圧装置および雑音抑圧用係数設定方法
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
JP5387442B2 (ja) 信号処理装置
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
Dreier et al. Sound source modelling by nonnegative matrix factorization for virtual reality applications
US20130322644A1 (en) Sound Processing Apparatus
JP5263020B2 (ja) 信号処理装置
JP5884473B2 (ja) 音響処理装置および音響処理方法
JP6790659B2 (ja) 音響処理装置および音響処理方法
JP2015169901A (ja) 音響処理装置
Kreutzer et al. Time domain attack and release modeling-applied to spectral domain sound synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140317

R150 Certificate of patent or registration of utility model

Ref document number: 5516169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees