以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.概要
2.第1の実施形態
2−1.第1の構成例
2−2.動作処理例
2−3.効果
2−4.第2の構成例
2−5.第3の構成例
2−6.第4の構成例
3.第2の実施形態
3−1.第1の構成例
3−2.動作処理例
3−3.効果
3−4.第2の構成例
4.第3の実施形態
4−1.構成例
4−2.動作処理例
5.第4の実施形態
6.ハードウェア構成
7.まとめ
<1.概要>
まず、本開示の一実施形態に係る信号処理装置の概要について説明する。
本実施形態に係る信号処理装置は、入力された音響信号から特定音を抑制する信号処理を行う。抑制される特定音は、例えば音響信号の中央に定位する音であってもよい。そのような特定音としては、例えばボーカルや、ベース系の音が挙げられる。以下では、一例として、本実施形態に係る信号処理装置100が抑制する特定音はボーカルであるものとして説明する。また、特定音を抑制する処理を、以下ではぼかし(blur)処理とも称する。
本実施形態に係る信号処理装置は、まず、差分信号を生成することで、音響信号の中央に定位する特定音を抑制する。続いて、本実施形態に係る信号処理装置は、ぼかし処理を行うことにより、差分信号の生成過程で生じた聴覚ノイズを低減する。
以下、図1〜図28を参照して、本実施形態について詳細に説明する。
<2.第1の実施形態>
[2−1.第1の構成例]
図1は、本実施形態に係る信号処理装置100の論理的な構成の一例を示すブロック図である。図1に示す構成例を、以下では第1の構成例とも称する。図1に示すように、本構成例に係る信号処理装置100は、差分信号計算部110及びぼかし処理部120を有する。信号処理装置100は、入力されたオーディオ信号(音響信号)に信号処理を施して、処理後の音響信号を出力する。
(1)差分信号計算部110
差分信号計算部110は、入力された音響信号を形成する第1のチャネルの音響信号及び第2のチャネルの音響信号の差分信号を計算する機能を有する。例えば、入力された音響信号はステレオ信号であり、第1のチャネルの音響信号は左チャネルの音響信号であり、第2のチャネルの音響信号は右チャネルの音響信号である。以下では、左チャネルの音響信号をLchとも称し、右チャネルの音響信号をRchとも称する。差分信号計算部110から出力される音響信号は、ステレオ信号であってもよい。以下では、出力される左チャネルの音響信号をL´chとも称し、出力される右チャネルの音響信号をR´chとも称する。
差分信号計算部110は、時間領域で差分信号を計算する。例えば、差分信号計算部110は、時間領域の信号であるRchの信号とLchの信号との差分をとることで、差分信号を計算する。以下、図2〜図5を参照して、時間領域で差分信号を計算するための、差分信号計算部110のシグナルフローの一例を説明する。
図2は、本実施形態に係る差分信号計算部110のシグナルフローの一例を示す図である。図2に示す例では、差分信号計算部110は、LchからRchを減算し、0.5倍することで、差分信号S(i)を得る。本シグナルフローは、以下の数式で表現される。
S(i)=(L(i)−R(i))×0.5 (数式1)
ここで、L(i)はLchの信号であり、R(i)はRchの信号である。iはサンプル時刻を表す。差分信号計算部110は、処理前後の信号レベルを保つ目的で減算後の信号を0.5倍している。
図3は、本実施形態に係る差分信号計算部110のシグナルフローの一例を示す図である。図3に示す例では、差分信号計算部110は、図2に示した例と同様にして差分信号S(i)を計算する。そして、差分信号計算部110はL´ch及びR´chで同じ差分信号S(i)を出力する。本シグナルフローによる出力信号は、実質的にモノラル信号と同等である。
図4は、本実施形態に係る差分信号計算部110のシグナルフローの一例を示す図である。図4に示す例では、差分信号計算部110は、図2に示した例と同様にして差分信号S(i)を計算する。そして、差分信号計算部110は、L’chの位相を反転したものをR’chとして出力する。本シグナルフローによる出力信号は、図3に示した例と比較して、ユーザに広がり感を感じさせることが可能である。ただし、本シグナルフローによる出力信号は、本位相が反転したことに起因する違和感をユーザに与え得る。
図5は、本実施形態に係る差分信号計算部110のシグナルフローの一例を示す図である。図5に示す例では、差分信号計算部110は、まず、入力信号のLchとRchを加算してモノラル化することで中央に定位するボーカルを抽出する。次に、差分信号計算部110は、モノラル化した信号を0.5倍して信号レベルを保ち、Lch及びRchの各々から減算することで、L’ch及びR’chを得る。本シグナルフローによる出力信号は、図4に示した例と同様である。
(2)ぼかし処理部120
ぼかし処理部120は、ぼかし処理を行う。詳しくは、ぼかし処理部120は、差分信号計算部110により計算された差分信号に、当該差分信号を処理した信号を加算する処理部としての機能を有する。差分信号を処理した信号は多様に考えられる。本実施形態に係るぼかし処理部120は、差分信号を処理した信号として、差分信号を遅延させた遅延信号を生成する。そして、ぼかし処理部120は、差分信号に生成した遅延信号を加算することで、出力信号を得る。なお、差分信号に遅延信号を加算する処理は、単純な加算であってもよいし、重み付け加算であってもよいし、いずれか一方の符号を反転させた上での加算(即ち、減算)であってもよい。以下では、ぼかし処理部120からの出力信号を、ぼかし信号F(i)とも称する。
ぼかし処理部120は、IIR(Infinite impulse response)フィルタを用いて遅延信号を生成してもよい。ここで、図6を参照して、IIRフィルタを用いて遅延信号を生成して、ぼかし信号F(i)を得るためのシグナルフローを説明する。
図6は、本実施形態に係るぼかし処理部120のシグナルフローの一例を示す図である。図6に示すように、ぼかし処理部120は、遅延バッファDB121に蓄積された遅延信号D(i)を差分信号S(i)に加算することで、ぼかし信号F(i)を得る。遅延信号D(i)は、ぼかし信号F(i)がnサンプル遅延した信号である。加算の際、ぼかし処理部120は、加算に係る重み付け係数rを用いて、差分信号S(i)と遅延信号D(i)とを重み付け加算する。重み付け係数rは、差分信号S(i)及び遅延信号D(i)の混合率であるとも捉えることが可能である。本シグナルフローは、以下の数式で表現される。
F(i)=(1−r)×S(i)+r×D(i) (数式2)
ここで、重み付け係数rは以下の範囲の値をとる。
0 < r < 1 (数式3)
ぼかし処理部120は、FIR(Finite impulse response)フィルタを用いて遅延信号を生成してもよい。ここで、図7を参照して、FIRフィルタを用いて遅延信号を生成して、ぼかし信号F(i)を得るためのシグナルフローを説明する。
図7は、本実施形態に係るぼかし処理部120のシグナルフローの一例を示す図である。図7に示すように、ぼかし処理部120は、入力された信号を1サンプル遅延させる遅延器122をm個有し、差分信号S(i)に最大mサンプル遅延した遅延信号までを重み付け加算することで、ぼかし信号F(i)を得る。ここでの遅延信号は、差分信号S(i)が遅延した信号である。本シグナルフローは、以下の数式で表現される。
F(i)=r0×S(i)+r1×S(i−1)+・・・+rm×S(i−m)
(数式4)
ここで、S(i−m)はmサンプル過去の差分信号を表す。また、重み付け係数r0〜rmは、それぞれ上記数式3を満たす。
なお、ぼかし処理部120は、IIRフィルタ又はFIRフィルタのいずれか一方を用いてもよいし、両方を組み合わせて用いてもよいし、他の任意の方法で遅延信号を生成してもよい。
以上、第1の構成例について説明した。続いて、本実施形態に係る信号処理装置100の動作処理を説明する。
[2−2.動作処理例]
図8は、本実施形態に係る信号処理装置100において実行される信号処理の流れの一例を示すフローチャートである。なお、本フローチャートでは、ぼかし処理部120がIIRフィルタを用いて遅延信号を生成する例を説明する。
図8に示すように、まず、ステップS102で、差分信号計算部110は、i番目のLchの信号L(i)及びRchの信号R(i)の入力を受け付ける。
次いで、ステップS104で、差分信号計算部110は、差分信号S(i)を計算する。例えば、差分信号計算部110は、上記数式1を用いて差分信号S(i)を計算する。
次に、ステップS106で、ぼかし処理部120は、差分信号S(i)と遅延信号D(i)からぼかし信号F(i)を計算する。例えば、ぼかし処理部120は、上記数式2を用いてぼかし信号F(i)を計算する。
次いで、ステップS108で、ぼかし処理部120は、遅延バッファDB121を更新する。本処理は後に詳しく説明するため、ここでの説明は省略する。
そして、ステップS110で、ぼかし処理部120は、計算したぼかし信号F(i)を出力する。
以上、信号処理装置100による信号処理例を説明した。続いて、図9を参照して、上記ステップS108における処理を説明する。
図9は、本実施形態に係るぼかし処理部120において実行される遅延バッファDB121の更新処理の流れの一例を示すフローチャートである。
図9に示すように、まず、ステップS202で、ぼかし処理部120は、j=0とおく。jは更新処理のために用いられる変数である。
次いで、ステップS204で、ぼかし処理部120は、j<n−1を満たすか否かを判定する。ここで、nは遅延バッファDB121のサイズであり、遅延量を表す。
j<n−1であると判定された場合(S204/YES)、ステップS206で、ぼかし処理部120は、遅延バッファDB[j]に遅延バッファDB[j+1]をコピーする。ここで、遅延バッファDB[j]とは、遅延バッファDB121に格納されるj番目のデータを表す。
次に、ステップS208で、ぼかし処理部120は、j=j+1として変数jをインクリメントする。
その後、処理は再度ステップS204へ戻る。このようにして、j<n−1が満たされなくなるまで、ステップS206及びS208における処理が繰り返される。
j<n−1でないと判定された場合(S204/NO)、ステップS210で、ぼかし処理部120は、遅延バッファDB[n−1]にぼかし信号F(i)をコピーする。
以上説明した処理により、遅延バッファDB[0]には、nサンプル遅延した信号が格納されることとなる。ぼかし処理部120は、遅延バッファDB[0]を遅延信号D(i)として利用する。以上、ぼかし処理部120による遅延バッファDB121の更新処理例を説明した。
[2−3.効果]
以下では、比較例と比較して本実施形態に係る信号処理装置100の効果を説明する。
(前提知識)
圧縮符号化技術のひとつに、チャネル間の相関を利用して符号化するジョイントステレオ(Joint Stereo)符号化方式がある。ジョイントステレオ符号化方式には、ミドルサイドステレオ(Middle Side Stereo)符号化方式とインテンシティステレオ(Intensity Stereo)符号化方式がある。ミドルサイドステレオ符号化方式は、和信号(Lch+Rch)と差信号(Lch−Rch)に分けて符号化する方式であり、和信号(Lch+Rch)に重みを付けて符号化することで符号化効率を向上させることが可能な符号化方式である。インテンシティステレオ符号化方式は、和信号(Lch+Rch)と左右のチャネルのパワー比を符号化することで符号化効率を向上させることが可能な符号化方式である。ジョイントステレオ符号化方式は、圧縮効率を向上させ、より少ないビットレートでの圧縮を可能にしたり、同じビットレートであればより高音質での圧縮を可能にしたりする。
(第1の比較例)
まず、第1の比較例として、上述した、ステレオ信号の両チャネルの信号で差分をとることで、両チャネルに同じように録音されているボーカルを抑制する信号処理装置について考える。以下では、図10〜図12を参照して、第1の比較例に係る信号処理装置が、ジョイントステレオ符号化方式を利用して圧縮された音源について処理する場合について説明する。
図10〜図12は、第1の比較例に係る信号処理を説明するための図である。詳しくは、図10は、ジョイントステレオ符号化方式を利用して圧縮された音源が本比較例に係る信号処理装置により処理された場合のパワースペクトログラムの例である。図10においては、横軸は時間であり、縦軸は周波数であり、有色の部分は信号レベル(パワー)が高いことを示し、無色の部分は信号レベルが低いことを示している。図10を参照すると、信号レベルが高い部分と低い部分とが、時間方向をフレーム単位とし周波数方向をスケールファクターバンド単位とするブロック状に形成され、混在している。このような、信号レベルが高い部分と低い部分とがブロック状に形成されることに起因して、耳障りな聴覚ノイズが生じる。
また、図11は、図10の区間AB間のパワースペクトログラムを抜き出したグラフであり、ある時刻における周波数方向の変化の様子を示している。図11においては、横軸は周波数であり、縦軸はパワーである。横軸の目盛はスケールファクターバンド単位で振られている。なお、実際の圧縮符号化では、低域のスケールファクターバンドの幅は高域に比べて狭く設定されるが、図11では模式的に同じ幅で描写している。図11を参照すると、スケールファクターバンドごとにパワースペクトルが急峻に上がったり下がったりしている。このような急峻な変化は、音源がジョイントステレオ符号化方式を用いて圧縮されていることに起因する。
詳しく説明すると、まず、ジョイントステレオ符号化方式では、スケールファクターバンドごとにミドルサイドステレオ符号化をするか否かの判断やインテンシティステレオ符号化が行なわれる。ミドルサイドステレオ符号化方式による圧縮が行なわれたスケールファクターバンドの差信号(Lch−Rch)に割り当てられるビットレートが非常に小さい場合、圧縮後の音響信号における当該スケールファクターバンド部分は実質的にモノラル信号に近くなる。そのため、本比較例に係る信号処理装置による処理では、実質的にモノラル信号に近いスケールファクターバンド部分のレベルがゼロに近い値になり得る。同様に、インテンシティステレオ符号化方式による圧縮が行なわれたスケールファクターバンドの左右のチャネルのパワー比が1に近い場合、圧縮後の音響信号における当該スケールファクターバンド部分は実質的にモノラル信号に近くなる。そのため、本比較例に係る信号処理装置による処理では、実質的にモノラル信号に近いスケールファクターバンド部分のレベルがゼロに近い値になり得る。このように、音源がジョイントステレオ符号化方式を用いて圧縮されていることに起因して、図11に示した周波数方向の急峻なレベルの変化が生じ得る。このような周波数方向の急峻なレベルの変化が、耳障りな聴覚ノイズが発生する原因の1つである。
また、図12は、図10の区間CD間のパワースペクトログラムを抜き出したグラフであり、ある周波数における時間方向の変化の様子を示している。図12においては、横軸は時間であり、縦軸はパワーである。横軸の目盛はフレーム単位で振られている。図12を参照すると、フレームごとにパワースペクトルが急峻に上がったり下がったりしている。このような時間方向の急峻なレベルの変化は、音源がフレームごとにジョイントステレオ符号化方式を用いて圧縮されることに起因して、各スケールファクターバンドにおいて生じ得る。そして、このような時間方向の急峻なレベルの変化こそが、耳障りな聴覚ノイズが発生する大きな原因の1つになっている。
(第2の比較例)
次いで、第2の比較例として、圧縮音源であっても聴覚ノイズの発生を防ぐ効果のある、上記特許文献1に記載された技術を用いた信号処理装置について考える。本比較例に係る信号処理装置は、上述したように、一旦音響信号を周波数領域で表現した上で、ボーカルを抑制するための差分計算、つまりLch−Rchを周波数領域で行う。以下では、図13及び図14を参照して、第2の比較例に係る信号処理装置が、ジョイントステレオ符号化方式を利用して圧縮された音源について処理する場合について説明する。
図13及び図14は、第2の比較例に係る信号処理を説明するための図である。詳しくは、図13の符号200は、Lchのスケールファクターバンドごとのパワー(Pl)である。図13の符号210は、Rchのスケールファクターバンドごとのパワー(Pr)である。図13の符号220は、差分信号Lch−Rchのスケールファクターバンドごとのパワー(Pd)である。LchのパワーとRchのパワーとが、同一のスケールファクターバンドにおいて同程度のレベルである場合、差分信号のパワーはゼロに近いレベルになる。例えば、符号201と211、符号202と符号212、符号203と符号213、及び符号204と214は、それぞれ同程度のレベルである。このため、符号220に示す差分信号において、これらに対応するスケールファクターバンドのパワーはゼロに近いレベルになっている。このような状態は、図11に示した例と同様である。
そこで、本比較例に係る信号処理装置は、図14に示すように、ゼロに近いレベルとなった部分を、元の信号により補完することで、このような急峻なレベルの変化を緩和している。例えば、本比較例に係る信号処理装置は、第1のステップとして、区間11、区間12、及び区間13のような急峻なレベル低下を検出する。そして、本比較例に係る信号処理装置は、第2のステップとして、もとのLchの信号を利用して、区間11、区間12、区間13を補完することで、急峻なレベル低下を防ぐ。
具体的には、図14の符号240に示すように、本比較例に係る信号処理装置は、図13の符号220に示した差分信号の区間11、12及び13に、符号200に示すLchにおける各区間に対応するスケールファクターバンドのパワー201、202、203及び204をコピーする。本比較例に係る信号処理装置は、コピーの際に任意の係数を乗算し得る。図13の符号220と図14の符号240とを比較すると、区間11、12及び13以外の区間は同一である。図14の符号240に示すように、本比較例に係る信号処理装置は、周波数方向の急峻なレベル変化を防ぐことが可能である。これに伴い、本比較例に係る信号処理装置は、時間方向の急峻なレベル変化もある程度防ぐことが予想されるので、聴覚ノイズの発生を防ぎ得る。
しかし、本比較例に係る信号処理装置は、ノイズを低減する代償としてボーカルを抑制する性能が低下していた。これは、本比較例に係る信号処理装置は、急峻なレベル変化を防ぐために、ボーカルを含むLchの信号を用いて急峻なレベル低下が検出された区間を補完していたことに起因する。
また、本比較例に係る信号処理装置は、上述した第1のステップに失敗した場合、失敗した区間を補完することができない。さらに、第1のステップは周波数領域で行われるので、処理対象の信号が時間領域信号であった場合、本比較例に係る信号処理装置は、ボーカル抑制処理前後で時間領域及び周波数領域の変換処理を行っていた。例えば、本比較例に係る信号処理装置は、ボーカル抑制処理前にFFT(Fast Fourier Transform)等で周波数領域の信号へ変換し、ボーカル抑制処理後にIFFT(Inverse FFT)等で時間領域信号へ変換し得る。このような変換処理のための演算量は少なくない。また、第1のステップにおける検出処理のための演算量も少なくない。
(本実施形態の効果)
以下では、図15を参照して、本実施形態に係る信号処理装置100の効果を説明する。
図15は、本実施形態に係る信号処理装置100の効果を説明するための図である。詳しくは、図15の符号300は、ジョイントステレオ符号化方式を利用して圧縮された音源が本実施形態に係る信号処理装置100により処理された場合のパワースペクトログラムの、ある周波数における時間方向の変化の様子を示している。また、図15の符号310は、図12に示したパワースペクトログラムの変化の様子である。図12及び図15における同一記号の区間は同一区間を示す。
図15を参照すると、本実施形態に係る信号処理装置100により処理された場合、急峻なレベルの変化が緩和されている。例えば、区間CD2において、符号310では急峻なレベルの落ち込みが認められる一方で、符号300では急峻なレベルの落ち込みが認められず、徐々に変化している。これは、急峻なレベル低下が生じた区間に、レベル低下が生じていない遅延信号が加算されることに起因する。図15に示したように、本実施形態に係る信号処理装置100は、時間方向の急峻なレベルの変化を緩和することが可能であるため、耳障りな聴覚ノイズの発生を防ぐことができる。
また、本実施形態に係るぼかし処理部120は、ボーカルが抑制された差分信号を用いて遅延信号を生成し、この遅延信号を用いて急峻なレベルの変化を緩和する。そのため、本実施形態では、第2の比較例のようにボーカル抑制性能を代償とすることがなく、高いボーカル抑制性能を実現することが可能である。
また、本実施形態に係るぼかし処理部120は、差分信号計算部110から出力された時間領域の信号を、周波数領域に変換することなく処理可能である。このため、本実施形態に係る信号処理装置100は、第2の比較例に係る信号処理装置と比較して、変換処理のための演算量を削減することが可能である。
また、本実施形態に係るぼかし処理部120は、遅延信号をIIRやFIR等を用いて生成するため、小さな演算量で急峻なレベルの変化を緩和することが可能である。さらに、本実施形態に係るぼかし処理部120は、急峻なレベル低下を検出しないので、第2の比較例と比較して、検出処理の失敗に起因する補完の失敗を回避することが可能であり、検出処理のための演算量を削減することが可能である。
以上、本実施形態に係る効果について説明した。以下では、本実施形態に係る他の構成例について説明する。なお、以下で説明する他の構成例においても、上述した効果は同様に奏される。
[2−4.第2の構成例]
本構成例は、ぼかし処理部120により用いられる遅延量n及び重み付け係数rを適切に設定する構成例である。以下、図16を参照して、本構成例について説明する。
図16は、本実施形態に係る信号処理装置100の論理的な構成の一例を示すブロック図である。図16に示す構成例を、以下では第2の構成例とも称する。図16に示すように、本構成例に係る信号処理装置100は、差分信号計算部110、ぼかし処理部120、遅延量設定部123及び係数設定部124を有する。
差分信号計算部110は、差分信号S(i)を出力する。ぼかし処理部120は、上記数式2に、遅延量設定部123により設定された遅延量n及び係数設定部124により設定された重み付け係数rを用いて、ぼかし信号F(i)を得る。差分信号計算部110及びぼかし処理部120の内部処理については上記説明した通りであるので、ここでの詳細な説明は省略する。
(1)遅延量設定部123
遅延量設定部123は、遅延信号の遅延量nを設定する機能を有する。遅延量設定部123は、適切な遅延量nを設定することで、時間方向の急峻なレベルの変化を緩和することが可能である。
第1の比較例において生じていた図10に示したブロック状のスペクトログラムの各ブロックのサイズは、圧縮符号化情報(オーディオコーデック)に依存する。詳しくは、ブロックの時間方向のサイズはオーディオコーデックのフレーム幅にほぼ等しく、ブロックの周波数方向のサイズはオーディオコーデックのスケールファクターバンド幅にほぼ等しい。第1の比較例において生じていた図12に示した時間軸方向のレベル変動の例の通り、レベルが急峻にゼロに近い値になったり、ある程度のレベルに戻ったりするときの時間幅は、オーディオコーデックのフレーム幅の整数倍にほぼ合致している。例えば、図12における区間CD2は1フレーム分の幅であり、区間CD2と区間CD3の間の幅も1フレーム分である。
このように、第1の比較例における時間方向の急峻なレベル変動がオーディオコーデックのフレーム単位で生じることから、遅延量設定部123は、入力された音響信号の圧縮符号化情報を用いて遅延量nを設定する。本実施形態において、信号処理装置100から出力されるぼかし信号F(i)の現在のフレームのレベルが直前のフレームに比べて急峻に下がることを防ぐためには、差分信号S(i)に加算される遅延信号D(i)のレベルが、ある程度あることが望ましい。つまり、上記数式2において、差分信号S(i)のレベルがゼロに近い場合に、遅延信号D(i)のレベルがある程度ある場合、ぼかし信号F(i)の急峻なレベル低下が防がれる。よって、遅延量設定部123は、下記の数式に示すように、遅延信号D(i)の遅延量nをオーディオコーデックが示すフレーム幅以下に設定する。
0 < 遅延量n <= オーディオコーデックのフレーム幅 (数式5)
この場合、差分信号S(i)のレベルがゼロに近くなったタイミングでは、その直前のゼロでない差分信号S(i)成分が遅延信号D(i)に含まれることになる。よって、差分信号S(i)のレベルがゼロに近い場合であっても、遅延信号D(i)のレベルがある程度あることが実現され、ぼかし信号F(i)の急峻なレベル低下が防がれる。
なお、経験的には、下記の数式の範囲で遅延量nが設定されることが望ましい。
オーディオコーデックのフレーム幅の70%<遅延量n
<オーディオコーデックのフレーム幅 (数式6)
(2)係数設定部124
係数設定部124は、ぼかし処理部120による加算に係る重み付け係数rを設定する機能を有する。係数設定部124は、適切な重み付け係数rを設定することで、ぼかし処理の強弱を調整することが可能である。例えば、係数設定部124は、入力された音響信号のオーディオコーデックに基づいて重み付け係数rを設定する。
オーディオコーデックのビットレートが低い場合、第1の比較例において図10に示したブロック状のスペクトログラムが生じやすい。これは、オーディオコーデックのビットレートが低い場合、より積極的にジョイントステレオ符号化が使用されるためである。そこで、係数設定部124は、オーディオコーデックのうちビットレートに基づいて重み付け係数rを設定する。より具体的には、係数設定部124は、オーディオコーデックのビットレートが低い場合に、より強くぼかし処理を行なうよう重み付け係数rを設定する。つまり、係数設定部124は、数式2において、オーディオコーデックのビットレートが低い場合に重み付け係数rを1側に寄せて設定し、オーディオコーデックのビットレートが高い場合に重み付け係数rをゼロ側に寄せて設定する。他にも、係数設定部124は、ジョイントステレオ符号化の使用状況に応じて重み付け係数rを設定してもよい。信号処理装置100は、このような設定により、聴覚ノイズが生じる可能性が高い場合に強くぼかし処理を行い、聴覚ノイズが生じる可能性が低い場合にぼかし処理を弱めて原音を活かすことが可能となる。
なお、経験的には、係数設定部124は、下記の数式の範囲で重み付け係数rを設定することが望ましい。
0.0 < r < 0.4 (数式7)
(3)その他
遅延量設定部123及び係数設定部124は、遅延量n及び重み付け係数rを時間変化させてもよい。この場合、遅延量設定部123及び係数設定部124は、複数のフレーム幅の自動切り替えや、可変ビットレートのオーディオコーデックにも対応可能となる。係数設定部124は、オーディオコーデック情報により、ジョイントステレオ符号化が使用されていないことが判明した場合、重み付け係数rにゼロを設定し、ぼかし処理をオフにしてもよい。
以上説明したように、本構成例によれば、信号処理装置100は、遅延量nの設定により、時間方向の急峻なレベルの変化を確実に緩和することが可能である。また、本構成例によれば、信号処理装置100は、重み付け係数rの設定により、聴覚ノイズを低減させることと原音を活かすこととを両立させることができる。
[2−5.第3の構成例]
本構成例は、係数設定部124が重み付け係数rを設定するためのパラメータが導入された構成例である。以下、図17及び図18を参照して、本構成例について説明する。
図17は、本実施形態に係る信号処理装置100の論理的な構成の一例を示すブロック図である。図17に示す構成例を、以下では第3の構成例とも称する。図17に示すように、本構成例に係る信号処理装置100は、差分信号計算部110、ぼかし処理部120、係数設定部124及びぼかしレベル計算部125を有する。
差分信号計算部110は、差分信号S(i)を出力する。本実施形態に係る係数設定部124は、ぼかしレベル計算部125により計算されたぼかしレベルf(i)に応じて、重み付け係数rを設定する。ぼかし処理部120は、上記数式2に、係数設定部124により設定された重み付け係数rを用いて、ぼかし信号F(i)を得る。差分信号計算部110、ぼかし処理部120及び係数設定部124の内部処理については上記説明した通りであるので、ここでの詳細な説明は省略する。
ぼかしレベル計算部125は、入力された音響信号の聴覚ノイズの目立ちやすさに応じてぼかしレベルf(i)を設定する。以下では、聴覚ノイズの目立ち易さの尺度の一例として、入力された音響信号がモノラルに近い度合が採用される例を説明する。
第1の比較例において生じていた、図10に示したブロック状のスペクトログラムに起因する聴覚ノイズの程度は、楽曲中に変化し得る。このため、聴覚ノイズの目立ち易さに応じて、ぼかし処理の強度を変化させることが望ましい。聴覚ノイズの目立ち易さは、例えば、入力された音響信号のLchとRchがどの程度似ているか、言い換えると、どの程度モノラルに近いかでおおよそ測ることができる。入力された音響信号においてモノラルに近いパート、つまり、殆どの音が中央に定位するパートは聴覚ノイズが目立ち易い。例えば、ボーカルのソロのパートはモノラルに近いことが多く、聴覚ノイズが目立ち易い。逆にモノラルに近くないパート、つまり、中央に定位する音が少ないパートは聴覚ノイズが目立ち難い。これは、ジョイントステレオ符号化自体が、モノラルに近いパートで主に利用されることに起因する。このため、入力された音響信号がモノラルに近い場合に、より強くぼかし処理が行われることが望ましい。
そこで、係数設定部124は、入力された音響信号がモノラルに近い度合に基づいて、重み付け係数rを設定する。そのために、ぼかしレベル計算部125は、入力された音響信号がモノラルに近い度合に基づいてぼかしレベルf(i)を計算する。例えば、ぼかしレベル計算部125は、入力された音響信号がモノラルに近い場合にぼかしレベルf(i)を大きく設定し、モノラルに近くない場合にぼかしレベルぼかしレベルf(i)を小さく設定する。そして、係数設定部124は、ぼかしレベルf(i)に応じて重み付け係数rを設定する。例えば、係数設定部124は、ぼかしレベルf(i)が大きいほど重み付け係数rを1側に寄せて設定し、ぼかしレベルf(i)が小さいほどほど重み付け係数rをゼロ側に寄せて設定する。
モノラルに近いか否かは、下記数式に示す、モノラルにどの程度近いかを示す尺度t(i)により判定され得る。
PeakS(i)=(1−k)×PeakS(i−1)
+k×(|L(i)−R(i)|) (数式8)
PeakM(i)=(1−k)×PeakM(i−1)
+k×(|L(i)+R(i)|) (数式9)
t(i)=PeakS(i)/PeakM(i) (数式10)
ここで、係数kは時定数である。また、PeakM(i)はゼロでないと仮定している。PeakS(i)は、LchからRchを減算した信号のピークレベルである。PeakM(i)は、LchにRchを加算した信号のピークレベルである。なお、上記数式8及び9では絶対値が用いられているが、二乗が用いられていてもよい。
入力された音響信号がモノラルに近い場合、PeakS(i)は小さくなり、PeakM(i)は大きくなる。一方で、モノラルに近くない場合、PeakS(i)は大きくなり、PeakM(i)は小さくなる。よって、尺度t(i)は、モノラルに近い場合に小さくなり、モノラルに近くない場合に大きくなる。この点を、図18を参照してさらに詳しく説明する。
図18は、入力された音響信号がモノラルに近い度合を説明するための図である。詳しくは、図18では、符号401に示すピークレベルPeakM(i)の時間的変化の例と、符号402に示すピークレベルPeakS(i)と時間的変化の例とを、それぞれ示している。区間21及び区間22は、入力された音響信号がモノラルに近いパートであると同時に、聴覚ノイズが目立ち易いパートである。これらの区間では、符号402に示すピークレベルPeakS(i)は小さくなり、符号401に示すピークレベルPeakM(i)は大きくなるため、尺度t(i)は小さくなる。その他の区間では、区間21及び区間22と比較して尺度t(i)は大きくなる。
ぼかしレベル計算部125は、尺度t(i)に応じてぼかしレベルf(i)を計算する。例えば、ぼかしレベル計算部125は、尺度t(i)が小さい場合にぼかしレベルf(i)を大きく設定する。このため、係数設定部124は、図18に示した区間21及び区間22に相当する差分信号S(i)について重み付け係数rを大きく設定し、ぼかし処理部120は強くぼかし処理を行う。一方で、ぼかしレベル計算部125は、尺度t(i)が大きい場合にぼかしレベルf(i)を小さく設定する。このため、係数設定部124は、図18に示した区間21及び区間22以外の区間に相当する差分信号S(i)について重み付け係数rを小さく設定し、ぼかし処理部120は弱くぼかし処理を行う。このように、本構成例に係る信号処理装置100は、聴覚ノイズの目立ち易さによってぼかしレベルの強度を変化させることにより、聴覚ノイズが目立ち易いパートに的を絞って強くぼかし処理を行なうことができ、より効果的に聴覚ノイズを防ぐことができる。
なお、PeakS(i)の大小だけでは、入力された音響信号がモノラルに近いのか、音響信号のレベル自体が小さいのかを判定することは困難である。また、ぼかしレベル計算部125は、LchとRchの相関を尺度t(i)として用いてもよい。ただし、その場合、尺度t(i)の大小関係は逆になる。
以上説明したように、本構成例によれば、信号処理装置100は、聴覚ノイズが目立ち易いパートに的を絞って強くぼかし処理を行なうことで、より効果的に聴覚ノイズを防ぐことができる。
[2−6.第4の構成例]
本構成例は、差分信号のうち聴覚ノイズが生じる帯域を抽出して、ぼかし処理を行う構成例である。以下、図19を参照して、本構成例について説明する。
図19は、本実施形態に係る信号処理装置100の論理的な構成の一例を示すブロック図である。図19に示す構成例を、以下では第4の構成例とも称する。図19に示すように、本構成例に係る信号処理装置100は、差分信号計算部110、ぼかし処理部120、帯域分割部130及び合成部131を有する。
差分信号計算部110は、差分信号を出力する。次いで、帯域分割部130は、差分信号を複数の帯域に分割する。次に、ぼかし処理部120は、帯域分割部130により分割された複数の帯域のうち少なくともひとつの帯域においてぼかし処理を行う。そして、合成部131は、ぼかし処理部120によるぼかし処理がされた信号とされなかった信号とを合成して、ぼかし信号を得る。差分信号計算部110及びぼかし処理部120の内部処理については上記説明した通りであるので、ここでの詳細な説明は省略する。
(1)帯域分割部130
帯域分割部130は、差分信号計算部110から出力された差分信号を複数の帯域に分割する機能を有する。例えば、帯域分割部130は、ぼかし処理部120によるぼかし処理の対象となる帯域と、対象外となる帯域とに分割する。ぼかし処理の対象となる帯域は、ひとつの連続した帯域であってもよいし、複数の非連続な帯域の集合体であってもよい。ぼかし処理の対象外となる帯域についても同様である。
第1の比較例において生じていた、図10に示したブロック状のスペクトログラムに起因する聴覚ノイズの目立ち易さは、どの周波数帯域でブロック状のスペクトログラムが生じるかによって違いがある。これは、ジョイントステレオ符号化が対象とする周波数帯域の偏りや、人間の聴覚の特性に依存すると考えられる。聴覚ノイズが目立ち易い周波数帯域は、経験的に、1kHz〜10kHzである。このため、聴覚ノイズが目立ち易い帯域で重点的にぼかし処理が行なわれることが望ましい。そこで、帯域分割部130は、聴覚ノイズが目立ち易い帯域についてはぼかし処理部120へ出力し、その他の帯域については合成部131へ出力する。
例えば、帯域分割部130は、下側のカットオフ周波数がFc1であり、上側のカットオフ周波数がFc2であるようなバンドパスフィルタを用いて、ぼかし処理部120へ出力する帯域の信号を抽出し得る。カットオフ周波数は、経験的にFc1=1kHz程度、Fc2=10kHz程度が効果的である。帯域分割部130は、バンドパスフィルタにより抽出した帯域の信号についてぼかし処理部120へ出力することで、当該帯域に関する重点的なぼかし処理を実現することができる。帯域分割部130は、カットオフ周波数がFc1のハイパスフィルタをバンドパスフィルタの代わりに含んでいてもよく、その場合は演算量を抑制可能である。
なお、帯域分割部130は、差分信号計算部110よりも前段に設けられていてもよい。その場合、帯域分割部130は、差分信号を求める帯域を、主にボーカルの音が存在する周波数帯域に絞ることで、例えば中央に定位することが多いベース系の音が抑制されて低域が少ない軽い音になってしまうことを回避することができる。
(2)合成部131
合成部131は、帯域分割部130により分割された複数の差分信号を合成する機能を有する。詳しくは、合成部131は、ぼかし処理部120によりぼかし処理された帯域の差分信号とぼかし処理部120により分割された複数の帯域のうちぼかし処理部120によるぼかし処理がなされなかった帯域の差分信号とを合成する。合成部131は、これらの信号を単純に加算することで合成し得る。
以上説明したように、本構成例によれば、信号処理装置100は、聴覚ノイズが目立ち易い帯域で重点的にぼかし処理を行うことで、より効果的に聴覚ノイズを防ぐことができる。
<3.第2の実施形態>
本実施形態は、ゲイン制御により聴覚ノイズを低減する形態である。まず、図20を参照して、本実施形態の基本構成を説明する。
[3−1.第1の構成例]
図20は、本実施形態に係る信号処理装置100の論理的な構成の一例を示すブロック図である。図20に示す構成例を、以下では第1の構成例とも称する。図20に示すように、本構成例に係る信号処理装置100は、差分信号計算部110、ゲインレベル設定部140及びゲイン制御部141を有する。
差分信号計算部110は、差分信号を出力する。次いで、ゲインレベル設定部140は、ゲインレベルを設定する。そして、ゲイン制御部141は、ゲインレベル設定部140により設定されたゲインレベルを用いて、差分信号のゲインを制御する。本実施形態に係る信号処理装置100は、ボーカルが中央に定位する楽曲である時間領域の音響信号を入力され、ボーカルを抑制した時間領域の音響信号を出力する。差分信号計算部110の内部処理については上記説明した通りであるので、ここでの詳細な説明は省略する。
(1)ゲインレベル設定部140
ゲインレベル設定部140は、差分信号のゲインレベルを設定する機能を有する。例えば、ゲインレベル設定部140は、入力された音響信号の聴覚ノイズの目立ち易さに応じてゲインレベルを設定する。
第1の比較例において生じていた、図10に示したブロック状のスペクトログラムに起因する聴覚ノイズの程度は、楽曲中に変化し得る。このため、聴覚ノイズの目立ち易さに応じて、差分信号のゲインレベルを変化させることが望ましい。上述したように、入力された音響信号がモノラルに近い、例えばボーカルのソロのパート等の殆どの音が中央に定位するパートは聴覚ノイズが目立ち易く、他のパートでは目立ち難い。そのため、入力された音響信号がモノラルに近い場合に、差分信号のゲインレベルを変化させることが望ましい。
そこで、ゲインレベル設定部140は、聴覚ノイズの目立ち易さの尺度の一例として、上記数式8〜数式10に示した尺度t(i)を利用して、入力された音響信号がモノラルに近い度合に基づいてゲインレベルを設定する。具体的には、ゲインレベル設定部140は、尺度t(i)が小さい場合にゲインレベルg(i)を小さく設定し、尺度t(i)が大きい場合にゲインレベルg(i)を大きく設定する。例えば、ゲインレベル設定部140は、下記の数式の範囲でゲインレベルg(i)を設定する。
0.0 <= g(i) <= 1.0 (数式11)
なお、経験的には、下記の数式の範囲でゲインレベルg(i)が設定されることが望ましい。
0.25 < g(i) <= 1.0 (数式12)
(2)ゲイン制御部141
ゲイン制御部141は、ゲインレベル設定部140により設定されたゲインレベルを用いて差分信号のゲインを制御する機能を有する。例えば、ゲイン制御部141は、ゲインレベル設定部140による設定に基づくゲインレベルの制御を行うことで、ボーカルが目立つ区間においてゲインを低下させ、ボーカルを抑制した時間領域の音響信号を出力することが可能である。ゲインレベル設定部140により設定されたゲインレベルをg(i)とすると、ゲイン制御部141は、下記の数式によりゲインが制御された信号G(i)を計算する。
G(i)=g(i)×S(i) (数式13)
以上、第1の構成例について説明した。続いて、本実施形態に係る信号処理装置100の動作処理を説明する。
[3−2.動作処理例]
図21は、本実施形態に係る信号処理装置100において実行される信号処理の流れの一例を示すフローチャートである。
図21に示すように、まず、ステップS302で、差分信号計算部110は、i番目のLchの信号L(i)及びRchの信号R(i)の入力を受け付ける。
次いで、ステップS304で、差分信号計算部110は、差分信号S(i)を計算する。例えば、差分信号計算部110は、上記数式1を用いて差分信号S(i)を計算する。
次に、ステップS306で、ゲインレベル設定部140は、ゲインレベルg(i)を計算する。例えば、ゲインレベル設定部140は、上記数式8〜数式12を用いてゲインレベルg(i)を計算する。
次いで、ステップS308で、ゲイン制御部141は、ゲインが制御された信号G(i)を計算する。例えば、ゲイン制御部141は、上記数式13を用いてゲインが制御された信号G(i)を計算する。
そして、ステップS310で、ゲイン制御部141は、計算したゲインが制御された信号G(i)を出力する。
[3−3.効果]
以下では、図22を参照して、本実施形態に係る信号処理装置100の効果を説明する。
図22は、本実施形態に係る信号処理装置100の効果を説明するための図である。図22の実線は、第1の比較例に係る信号処理装置により処理された音響信号のパワーの時間変化例である。例えば、区間31及び区間32は、ボーカルのソロのパートなど、入力された音響信号がモノラルに近い区間である。このような区間は、モノラルに近い信号が抑制されることで差分信号のパワーが小さくなった区間であると共に、聴覚ノイズが目立ち易い部分である。区間31及び区間32以外の区間は、様々な楽器が存在するパートなど、入力された音響信号がモノラルに近くない区間である。このような区間は、差分信号のパワーが区間31及び区間32と比較して大きい区間であると共に、聴覚ノイズが目立ち難い部分である。
図22の破線は、本実施形態に係る信号処理装置100により処理された音響信号のパワーの時間変化例である。区間31及び区間32の破線に示すように、本実施形態に係る信号処理装置100は、主に聴覚ノイズが目立ち易い部分についてゲイン制御を行ってレベルを下げることができる。信号処理装置100は、聴覚ノイズが目立ちやすい部分について、聴覚ノイズごとレベルを下げることができるため、ユーザに与える聴覚ノイズの不快感を軽減することが可能である。また、本実施形態に係る信号処理装置100は、第2の比較例のような周波数領域での処理を行わないので、小さな演算量で処理することが可能である。
以上、本実施形態に係る効果について説明した。以下では、本実施形態に係る他の構成例について説明する。なお、以下で説明する他の構成例においても、上述した効果は同様に奏される。
[3−4.第2の構成例]
本構成例は、差分信号のうち聴覚ノイズが生じる帯域を抽出して、ゲイン制御を行う構成例である。以下、図23を参照して、本構成例について説明する。
図23は、本実施形態に係る信号処理装置100の論理的な構成の一例を示すブロック図である。図23に示す構成例を、以下では第2の構成例とも称する。図23に示すように、本構成例に係る信号処理装置100は、差分信号計算部110、帯域分割部130、合成部131、ゲインレベル設定部140及びゲイン制御部141を有する。
差分信号計算部110は、差分信号を出力する。次いで、帯域分割部130は、差分信号を複数の帯域に分割する。詳しくは、帯域分割部130は、ゲイン制御部141によるゲイン制御の対象となる帯域と、対象外となる帯域とに分割する。ここで、第1の実施形態における第4の構成例と同様の理由で、聴覚ノイズが目立ち易い帯域で重点的にゲイン制御が行われることが望ましい。そこで、帯域分割部130は、聴覚ノイズが目立ち易い帯域についてはゲイン制御部141へ出力し、その他の帯域については合成部131へ出力する。
次いで、ゲインレベル設定部140は、ゲインレベルを設定する。そして、ゲイン制御部141は、ゲインレベル設定部140により設定されたゲインレベルを用いて、差分信号のゲインを制御する。詳しくは、ゲイン制御部141は、帯域分割部130により分割された複数の帯域のうち少なくともひとつの帯域において、ゲインレベル設定部140により設定されたゲインレベルを用いて差分信号のゲインを制御する。
そして、合成部131は、ゲイン制御部141から出力された信号と帯域分割部130から合成部131へ直接的に出力された信号とを合成することで、出力する音響信号を得る。詳しくは、合成部131は、ゲイン制御部141によりゲイン制御された帯域の差分信号と帯域分割部130により分割された複数の帯域のうちゲイン制御部141によるゲイン制御がなされなかった帯域の差分信号とを合成する。
以上説明したように、本構成例によれば、信号処理装置100は、聴覚ノイズが目立ち易い帯域で重点的にゲイン制御を行うことで、ユーザに与える聴覚ノイズの不快感を効率的に軽減することが可能である。また、本構成例に係る信号処理装置100は、一部の帯域でゲイン制御を行うため、出力される音響信号全体の音量が過度に低下することを防止することができる。
<4.第3の実施形態>
本実施形態は、上述した第1の実施形態と第2の実施形態とを組み合わせた形態である。以下、図24を参照して、本実施形態に係る信号処理装置100の構成例について説明する。
[4−1.構成例]
図24は、本実施形態に係る信号処理装置100の論理的な構成の一例を示すブロック図である。図24に示すように、本実施形態に係る信号処理装置100は、差分信号計算部110、帯域分割部130、ぼかし処理部120、遅延量設定部123、係数設定部124、ぼかしレベル計算部125、ゲインレベル設定部140、ゲイン制御部141及び合成部131を有する。
差分信号計算部110は、差分信号を出力する。次いで、帯域分割部130は、差分信号を複数の帯域に分割する。詳しくは、帯域分割部130は、ぼかし処理部120によるぼかし処理及びゲイン制御部141によるゲイン制御の対象となる帯域と、対象外となる帯域とに分割する。例えば、帯域分割部130は、聴覚ノイズが目立ち易い帯域についてはぼかし処理部120へ出力し、その他の帯域については合成部131へ出力する。
次いで、ぼかし処理部120は、帯域分割部130から出力された帯域の差分信号についてぼかし処理を行う。詳しくは、ぼかし処理部120は、帯域分割部130により分割された複数の帯域のうち少なくともひとつの帯域においてぼかし処理を行う。その際、ぼかし処理部120は、遅延量設定部123により設定された遅延量n及び係数設定部124により設定された重み係数rを用いて、上記数式2によりぼかし信号F(i)を得る。
ここで、係数設定部124は、第1の実施形態の第2の構成例で説明した処理を行ってもよいし、第2の実施形態の第3の構成例で説明した処理を行ってもよい。即ち、係数設定部124は、入力された音響信号のオーディオコーデックに基づいて重み付け係数rを設定してもよいし、ぼかしレベル計算部125により計算されたぼかしレベルf(i)に応じて重み付け係数rを設定してもよい。例えば、前者による重み付け係数をr1とし、後者による重み付け係数をr2とすると、係数設定部124は、下記の数式に示すように最大値を重み付け係数rとして採用してもよい。
r(i)=MAX(r1(i),r2(i)) (数式14)
また、係数設定部124は、r1及びr2を組み合わせて重み付け係数rを設定してもよい。例えば、係数設定部124は、r1及びr2の平均値により重み付け係数rを設定してもよい。つまり、r1及びr2の大小関係が重み付け係数rに反映されればよい。
ゲイン制御部141は、ぼかし処理部120から出力されたぼかし信号のゲイン制御を行う。詳しくは、ゲイン制御部141は、ゲインレベル設定部140により設定されたゲインレベルを用いて、ぼかし処理部120によりぼかし処理された信号のゲインを制御する。例えば、ゲイン制御部141は、下記の数式を用いてゲインが制御された信号G(i)を得る。
G(i)=g(i)×F(i) (数式15)
そして、合成部131は、ゲイン制御部141から出力された信号と帯域分割部130から合成部131へ直接的に出力された信号とを合成することで、出力する音響信号を得る。詳しくは、合成部131は、ゲイン制御部141によりゲイン制御された信号と帯域分割部130により分割された複数の帯域のうちゲイン制御部141によるゲイン制御がなされなかった帯域の差分信号とを合成する。
なお、ぼかしレベル計算部125及びゲインレベル設定部140は、聴覚の聴覚ノイズの目立ち易さの尺度として、上記数式8〜10に示した尺度t(i)を共通して用いてもよいし、異なる尺度を採用してもよい。
また、ぼかし処理部120及びゲインレベル設定部140の処理の順番は逆でもよい。
以上、本実施形態に係る信号処理装置100の構成例について説明した。続いて、本実施形態に係る信号処理装置100の動作処理を説明する。
[4−2.動作処理例]
図25は、本実施形態に係る信号処理装置100において実行される信号処理の流れの一例を示すフローチャートである。
図25に示すように、まず、ステップS402で、差分信号計算部110は、i番目のLchの信号L(i)及びRchの信号R(i)の入力を受け付ける。
次いで、ステップS404で、差分信号計算部110は、差分信号S(i)を計算する。例えば、差分信号計算部110は、上記数式1を用いて差分信号S(i)を計算する。
次に、ステップS406で、ゲインレベル設定部140は、ゲインレベルg(i)を計算する。例えば、ゲインレベル設定部140は、上記数式8〜数式12を用いてゲインレベルg(i)を計算する。
次いで、ステップS408で、遅延量設定部123は遅延量nを計算し、係数設定部124は重み付け係数rを計算する。例えば、遅延量設定部123は、上記数式5及び数式6を用いて遅延量nを計算する。例えば、係数設定部124は、上記数式14を用いて重み付け係数rを計算する。
次に、ステップS410で、帯域分割部130は、差分信号S(i)を処理対象の帯域と処理対象外の帯域とに分割する。ここでの処理対象とは、ぼかし処理部120によるぼかし処理及びゲイン制御部141によるゲイン制御の対象を指す。例えば、帯域分割部130は、差分信号S(i)を聴覚ノイズが目立ち易い帯域とそうでない帯域とに分割し、目立ち易い帯域を処理対象の帯域とし、そうでない帯域を処理対象外の帯域とする。
次いで、ステップS412で、ぼかし処理部120は、処理対象の帯域においてぼかし信号F(i)を計算する。例えば、ぼかし処理部120は、帯域分割部130により分割された複数の帯域のうち、聴覚ノイズが目立ち易い帯域の差分信号について、上記数式2を用いてぼかし信号F(i)を計算する。
次に、ステップS414で、ゲイン制御部141は、処理対象の帯域においてゲインが制御された信号G(i)を計算する。例えば、ゲイン制御部141は、ぼかし処理部120により出力されたぼかし信号F(i)について、上記数式15を用いてゲインが制御された信号G(i)を計算する。
次いで、ステップS416で、合成部131は、上記ステップS412及びS414における処理後の信号と処理対象外の信号とを合成する。例えば、合成部131は、上記ステップS414においてゲイン制御された処理対象の帯域におけるゲインが制御された信号G(i)と、上記ステップS410において分割された処理対象外の帯域における差分信号S(i)とを合成する。
そして、ステップS418で、合成部131は、上記ステップS416において合成された信号を出力する。
以上説明したように、本実施形態によれば、信号処理装置100は、第1の実施形態及び第2の実施形態の効果を両立させることが可能であり、より効果的に聴覚ノイズを防ぐことができる。
<5.第4の実施形態>
本実施形態は、信号処理装置100が周波数領域の信号に対してボーカル抑制処理を行う形態である。以下では、図26及び図27を参照して、本実施形態について説明する。
図26は、本実施形態に係る信号処理装置100の論理的な構成の一例を示すブロック図である。図26に示すように、本実施形態に係る信号処理装置100は、FFT部150、差分信号計算部110、ぼかし処理部120及びIFFT部151を有する。
(1)FFT部150
FFT部150は、入力された時間領域の信号を周波数領域の信号へ変換する機能を有する。例えば、FFT部150は、FFTにより時間領域の信号を周波数領域の信号へ変換する。本変換処理には、FFT以外の任意の方式が採用されてもよい。また、入力された音響信号が周波数領域の信号である場合、FFT部150は省略されてもよい。入力された音響信号が周波数領域の信号である場合、上記第1〜第3の実施形態では、周波数領域の信号を時間領域の信号に変換する工程が要される。これに対し、本実施形態に係る信号処理装置100は、本工程を省略可能であるので、処理が効率化される。
(2)差分信号計算部110
本実施形態に係る差分信号計算部110は、周波数領域で差分信号を計算する。例えば、差分信号計算部110は、Lch及びRchについて、対応するスケールファクターバンドのパワーを減算処理することで、差分信号を計算する。差分信号計算部110は、LchからRchを減算してもよいし、RchからLchを減算してもよい。
(3)ぼかし処理部120
本実施形態に係るぼかし処理部120は、差分信号計算部110により計算された周波数領域の差分信号に、当該差分信号を処理した周波数領域の信号を加算する。例えば、ぼかし処理部120は、差分信号を処理した信号として、差分信号を遅延させた遅延信号を生成する。そして、ぼかし処理部120は、周波数領域の差分信号に、周波数領域の遅延信号を加算する。以下、図27を参照して、本実施形態に係るぼかし処理部120のシグナルフローの一例を説明する。
図27は、本実施形態に係るぼかし処理部120のシグナルフローの一例を示す図である。図27では、時間的に連続する2つのフレームのスペクトルを用いてぼかし処理する例を図示している。図27に示すように、ぼかし処理部120は、入力された信号を1フレーム遅延させる遅延器122を有し、差分信号S(i)に1フレーム遅延した遅延信号を重み付け加算することで、ぼかし信号F(i)を得る。符号401及び符号402は、差分信号S(i)のスケールファクターバンドごとのパワーを示している。例えば、符号401は、差分信号の第h番目のフレームのスケールファクターバンドごとのパワーであり、符号402は、差分信号の第h−1番目のフレームのスケールファクターバンドごとのパワーである。符号403は、ぼかし信号F(i)のスケールファクターバンドごとのパワーを示している。詳しくは、符号403は、符号401に示した信号と符号402に示した信号とを0.5ずつの重みで加重平均した信号の、スケールファクターバンドごとのパワーである。符号403に示すように、出力信号F(i)のスケールファクターバンドごとのパワーの時間方向の変化の急峻さは抑制されており、その結果、聴覚ノイズが抑制される。
なお、図27に示した例では、説明の簡略化のため、ぼかし処理部120はひとつの遅延器122を有するとし、重み付け係数r=0.5としているが、他の任意の設定であってもよい。また、図27では、FIRフィルタを用いて遅延信号を生成する例を説明したが、IIRフィルタが用いられてもよい。
(4)IFFT部151
IFFT部151は、入力された周波数領域の信号を時間領域の信号へ変換する機能を有する。例えば、IFFT部151は、IFFTにより時間領域の信号を周波数領域の信号へ変換する。本変換処理には、IFFT以外の任意の方式が採用されてもよい。また、出力する信号が周波数領域の信号である場合、IFFT部151は省略されてもよい。
以上説明したように、本実施形態によれば、周波数領域の音響信号についても、特定音を抑制しつつ、聴覚上のノイズの発生を防止することができる。
<6.ハードウェア構成>
最後に、図28を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図28は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図28に示す情報処理装置900は、例えば、図1、図16、図17、図19、図20、図23、図24及び図26にそれぞれ示した各実施形態に係る信号処理装置100を実現し得る。各実施形態に係る信号処理装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
図28に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911、通信装置913及びセンサ915を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、DSP若しくはASIC等の処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図1、図16、図17、図19、図20、図23、図24及び図26にそれぞれ示した各実施形態に係る信号処理装置100に含まれる各構成要素を形成し得る。
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
<7.まとめ>
以上、図1〜図28を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態係る信号処理装置100は、入力された音響信号を形成する第1のチャネルの音響信号及び第2のチャネルの音響信号の差分信号を計算して、差分信号に差分信号を処理した信号を加算する。信号処理装置100は、差分信号に差分信号を処理した信号を加算することにより、時間方向の急峻なレベルの変化を緩和して、耳障りな聴覚ノイズの発生を防ぐことができる。この効果は、入力された音響信号がジョイントステレオ符号化方式等により圧縮されていた場合により顕著に得られる。本実施形態によれば、聴覚ノイズが発生する大きな原因のひとつである時間方向の急峻なレベルの変化を、直接的に緩和することが可能である。このため、本実施形態に係る信号処理装置100は、時間方向の急峻なレベルの変化を間接的に緩和し得る第2の比較例と比較して、聴覚ノイズの発生の防止効果が高く且つ効率的であると考えられる。また、信号処理装置100は、特定音が抑制された差分信号を処理した信号を加算するので、特定音の抑制性能を代償とすることがなく、高い抑制性能を実現することが可能である。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、本実施形態に係る信号処理装置100は多様な機器に搭載されることができる。例えば、ステレオコンポーネントシステム等の音源を再生する装置に本実施形態に係る信号処理装置100が搭載される場合、ユーザは、楽曲のボーカルを抑制して再生することで、手軽にカラオケを楽しむことができる。また、カーナビゲーションシステム等の音声ガイドを再生する装置に本実施形態に係る信号処理装置100が搭載される場合、信号処理装置100は、音声ガイドが再生されるときに再生中の楽曲のボーカルを抑制してもよい。その場合、音声ガイドが楽曲のボーカルに掻き消されることが防止されるので、ユーザは、楽曲の再生を楽しみつつ音声ガイドを鮮明に聞き取ることが可能となる。
なお、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部又は全部が別々の装置として実現されても良い。例えば、信号処理装置100の一部又は全部の構成要素がネットワーク等で接続されたサーバ等の装置に備えられていても良く、サーバ単体で又はサーバと信号処理装置100との協働で上述した処理が行われてもよい。
また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
入力された音響信号を形成する第1のチャネルの音響信号及び第2のチャネルの音響信号の差分信号を計算する差分信号計算部と、
前記差分信号計算部により計算された前記差分信号に前記差分信号を処理した信号を加算する処理部と、
を備える信号処理装置。
(2)
前記処理部は、前記差分信号を処理した信号として、前記差分信号を遅延させた遅延信号を生成する、前記(1)に記載の信号処理装置。
(3)
前記信号処理装置は、前記遅延信号の遅延量を設定する遅延量設定部をさらに備える、前記(2)に記載の信号処理装置。
(4)
前記遅延量設定部は、前記入力された音響信号の圧縮符号化情報を用いて前記遅延量を設定する、前記(3)に記載の信号処理装置。
(5)
前記遅延量設定部は、前記遅延量を前記圧縮符号化情報が示すフレーム幅以下に設定する、前記(4)に記載の信号処理装置。
(6)
前記処理部は、IIR(Infinite impulse response)フィルタを用いて前記遅延信号を生成する、前記(2)〜(5)のいずれか一項に記載の信号処理装置。
(7)
前記処理部は、FIR(Finite impulse response)フィルタを用いて前記遅延信号を生成する、前記(2)〜(5)のいずれか一項に記載の信号処理装置。
(8)
前記信号処理装置は、前記処理部による前記加算に係る重み付け係数を設定する係数設定部をさらに備える、前記(2)〜(6)のいずれか一項に記載の信号処理装置。
(9)
前記係数設定部は、前記入力された音響信号の圧縮符号化情報に基づいて前記重み付け係数を設定する、前記(8)に記載の信号処理装置。
(10)
前記係数設定部は、前記入力された音響信号がモノラルに近い度合に基づいて、前記重み付け係数を設定する、前記(8)又は(9)に記載の信号処理装置。
(11)
前記信号処理装置は、
前記差分信号を複数の帯域に分割する帯域分割部と、
前記帯域分割部により分割された複数の前記差分信号を合成する合成部と、
をさらに備え、
前記処理部は、前記帯域分割部により分割された複数の帯域のうち少なくともひとつの帯域において前記差分信号に前記差分信号を処理した信号を加算し、
前記合成部は、前記処理部により処理された帯域の前記差分信号と前記帯域分割部により分割された複数の帯域のうち前記処理部による処理がなされなかった帯域の前記差分信号とを合成する、前記(1)〜(10)のいずれか一項に記載の信号処理装置。
(12)
前記信号処理装置は、
前記差分信号のゲインレベルを設定するゲインレベル設定部と、
前記ゲインレベル設定部により設定されたゲインレベルを用いて前記差分信号のゲインを制御するゲイン制御部と、
をさらに備える、前記(1)〜(11)のいずれか一項に記載の信号処理装置。
(13)
前記ゲインレベル設定部は、前記入力された音響信号がモノラルに近い度合に基づいて前記ゲインレベルを設定する、前記(12)に記載の信号処理装置。
(14)
前記信号処理装置は、
前記差分信号を複数の帯域に分割する帯域分割部と、
前記帯域分割部により分割された複数の前記差分信号を合成する合成部と、
をさらに備え、
前記ゲイン制御部は、前記帯域分割部により分割された複数の帯域のうち少なくともひとつの帯域において、前記ゲインレベル設定部により設定された前記ゲインレベルを用いて前記差分信号のゲインを制御し、
前記合成部は、前記ゲイン制御部により制御された帯域の前記差分信号と前記帯域分割部により分割された複数の帯域のうち前記ゲイン制御部による制御がなされなかった帯域の前記差分信号とを合成する、前記(12)又は(13)に記載の信号処理装置。
(15)
前記処理部は、前記帯域分割部により分割された複数の帯域のうち少なくともひとつの帯域において前記差分信号に前記差分信号を処理した信号を加算し、
前記ゲイン制御部は、前記ゲインレベル設定部により設定された前記ゲインレベルを用いて前記処理部により処理された信号のゲインを制御し、
前記合成部は、前記ゲイン制御部により制御された信号と前記帯域分割部により分割された複数の帯域のうち前記ゲイン制御部による制御がなされなかった帯域の前記差分信号とを合成する、前記(14)に記載の信号処理装置。
(16)
前記差分信号計算部は、時間領域で前記差分信号を計算する、前記(1)〜(15)のいずれか一項に記載の信号処理装置。
(17)
前記差分信号計算部は、周波数領域で前記差分信号を計算する、前記(1)〜(15)のいずれか一項に記載の信号処理装置。
(18)
入力された音響信号を形成する第1のチャネルの音響信号及び第2のチャネルの音響信号の差分信号を計算することと、
計算された前記差分信号に前記差分信号を処理した信号をプロセッサにより加算することと、
を含む信号処理方法。
(19)
コンピュータを、
入力された音響信号を形成する第1のチャネルの音響信号及び第2のチャネルの音響信号の差分信号を計算する差分信号計算部と、
前記差分信号計算部により計算された前記差分信号に前記差分信号を処理した信号を加算する処理部と、
として機能させるためのプログラム。