JP6314803B2

JP6314803B2 - 信号処理装置、信号処理方法及びプログラム

Info

Publication number: JP6314803B2
Application number: JP2014239051A
Authority: JP
Inventors: 中村　理; 理中村; 金章藤下
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2018-04-25
Anticipated expiration: 2034-11-26
Also published as: JP2016099606A

Description

本開示は、信号処理装置、信号処理方法及びプログラムに関する。

近年、音響信号から特定の音を抑制するための信号処理装置が開発されている。一例として、楽曲からボーカルを抑制して再生する、いわゆるカラオケ機能を実現する信号処理装置が多く開発されている。ボーカルの抑制技術においては、ボーカルが定位する位置が一般的に中央であることに着目してボーカルを抑制することが基本的な方針となっている。詳しくは、楽曲の多くはボーカルが中央に定位するように作成されているので、結果的に、ボーカルが左チャネルと右チャネルに同じように録音されている。このため、ステレオ信号の両チャネルの信号で差分をとると、両チャネルに同じように録音されているボーカルが抑制される。ただし、このようなボーカル抑制技術においては、聴覚上のノイズが生じる場合があるため、ノイズを低減するための技術が求められている。

例えば、下記特許文献１では、一旦音響信号を周波数領域で表現した上で、ボーカルを抑制するための差分計算を周波数領域で行い、信号レベルが低い周波数帯域を元の音響信号により補完する技術が開示されている。

特許第５３６５３８０号公報

しかし、上記特許文献１に記載された技術では、ノイズを低減する代償としてボーカルを抑制する性能が低下していた。詳しくは、信号レベルが低い周波数帯域が、ボーカルを含む元の音響信号により補完されてしまっていた。

そこで、本開示では、音響信号から特定の音を抑制することと聴覚上のノイズを低減することとを両立することが可能な、新規かつ改良された信号処理装置、信号処理方法及びプログラムを提案する。

本開示によれば、入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算する差分信号計算部と、前記差分信号計算部により計算された前記差分信号に前記差分信号を処理した信号を加算する処理部と、を備える信号処理装置が提供される。

また、本開示によれば、入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算することと、計算された前記差分信号に前記差分信号を処理した信号をプロセッサにより加算することと、を含む信号処理方法が提供される。

また、本開示によれば、コンピュータを、入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算する差分信号計算部と、前記差分信号計算部により計算された前記差分信号に前記差分信号を処理した信号を加算する処理部と、として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、音響信号から特定の音を抑制することと聴覚上のノイズを低減することとを両立することが可能である。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

第１の実施形態に係る信号処理装置の論理的な構成の一例を示すブロック図である。第１の実施形態に係る差分信号計算部のシグナルフローの一例を示す図である。第１の実施形態に係る差分信号計算部のシグナルフローの一例を示す図である。第１の実施形態に係る差分信号計算部のシグナルフローの一例を示す図である。第１の実施形態に係る差分信号計算部のシグナルフローの一例を示す図である。第１の実施形態に係るぼかし処理部のシグナルフローの一例を示す図である。第１の実施形態に係るぼかし処理部のシグナルフローの一例を示す図である。第１の実施形態に係る信号処理装置において実行される信号処理の流れの一例を示すフローチャートである。第１の実施形態に係るぼかし処理部において実行される遅延バッファＤＢの更新処理の流れの一例を示すフローチャートである。第１の比較例に係る信号処理を説明するための図である。第１の比較例に係る信号処理を説明するための図である。第１の比較例に係る信号処理を説明するための図である。第２の比較例に係る信号処理を説明するための図である。第２の比較例に係る信号処理を説明するための図である。第１の実施形態に係る信号処理装置の効果を説明するための図である。第１の実施形態に係る信号処理装置の論理的な構成の一例を示すブロック図である。第１の実施形態に係る信号処理装置の論理的な構成の一例を示すブロック図である。入力された音響信号がモノラルに近い度合を説明するための図である。第１の実施形態に係る信号処理装置の論理的な構成の一例を示すブロック図である。第２の実施形態に係る信号処理装置の論理的な構成の一例を示すブロック図である。第２の実施形態に係る信号処理装置において実行される信号処理の流れの一例を示すフローチャートである。第２の実施形態に係る信号処理装置の効果を説明するための図である。第２の実施形態に係る信号処理装置の論理的な構成の一例を示すブロック図である。第３の実施形態に係る信号処理装置の論理的な構成の一例を示すブロック図である。第３の実施形態に係る信号処理装置において実行される信号処理の流れの一例を示すフローチャートである。第４の実施形態に係る信号処理装置の論理的な構成の一例を示すブロック図である。第４の実施形態に係るぼかし処理部のシグナルフローの一例を示す図である。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．概要
２．第１の実施形態
２−１．第１の構成例
２−２．動作処理例
２−３．効果
２−４．第２の構成例
２−５．第３の構成例
２−６．第４の構成例
３．第２の実施形態
３−１．第１の構成例
３−２．動作処理例
３−３．効果
３−４．第２の構成例
４．第３の実施形態
４−１．構成例
４−２．動作処理例
５．第４の実施形態
６．ハードウェア構成
７．まとめ

＜１．概要＞
まず、本開示の一実施形態に係る信号処理装置の概要について説明する。

本実施形態に係る信号処理装置は、入力された音響信号から特定音を抑制する信号処理を行う。抑制される特定音は、例えば音響信号の中央に定位する音であってもよい。そのような特定音としては、例えばボーカルや、ベース系の音が挙げられる。以下では、一例として、本実施形態に係る信号処理装置１００が抑制する特定音はボーカルであるものとして説明する。また、特定音を抑制する処理を、以下ではぼかし（blur）処理とも称する。

本実施形態に係る信号処理装置は、まず、差分信号を生成することで、音響信号の中央に定位する特定音を抑制する。続いて、本実施形態に係る信号処理装置は、ぼかし処理を行うことにより、差分信号の生成過程で生じた聴覚ノイズを低減する。

以下、図１〜図２８を参照して、本実施形態について詳細に説明する。

＜２．第１の実施形態＞
［２−１．第１の構成例］
図１は、本実施形態に係る信号処理装置１００の論理的な構成の一例を示すブロック図である。図１に示す構成例を、以下では第１の構成例とも称する。図１に示すように、本構成例に係る信号処理装置１００は、差分信号計算部１１０及びぼかし処理部１２０を有する。信号処理装置１００は、入力されたオーディオ信号（音響信号）に信号処理を施して、処理後の音響信号を出力する。

（１）差分信号計算部１１０
差分信号計算部１１０は、入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算する機能を有する。例えば、入力された音響信号はステレオ信号であり、第１のチャネルの音響信号は左チャネルの音響信号であり、第２のチャネルの音響信号は右チャネルの音響信号である。以下では、左チャネルの音響信号をＬｃｈとも称し、右チャネルの音響信号をＲｃｈとも称する。差分信号計算部１１０から出力される音響信号は、ステレオ信号であってもよい。以下では、出力される左チャネルの音響信号をＬ´ｃｈとも称し、出力される右チャネルの音響信号をＲ´ｃｈとも称する。

差分信号計算部１１０は、時間領域で差分信号を計算する。例えば、差分信号計算部１１０は、時間領域の信号であるＲｃｈの信号とＬｃｈの信号との差分をとることで、差分信号を計算する。以下、図２〜図５を参照して、時間領域で差分信号を計算するための、差分信号計算部１１０のシグナルフローの一例を説明する。

図２は、本実施形態に係る差分信号計算部１１０のシグナルフローの一例を示す図である。図２に示す例では、差分信号計算部１１０は、ＬｃｈからＲｃｈを減算し、０．５倍することで、差分信号Ｓ（ｉ）を得る。本シグナルフローは、以下の数式で表現される。
Ｓ（ｉ）＝（Ｌ（ｉ）−Ｒ（ｉ））×０．５（数式１）

ここで、Ｌ（ｉ）はＬｃｈの信号であり、Ｒ（ｉ）はＲｃｈの信号である。ｉはサンプル時刻を表す。差分信号計算部１１０は、処理前後の信号レベルを保つ目的で減算後の信号を０．５倍している。

図３は、本実施形態に係る差分信号計算部１１０のシグナルフローの一例を示す図である。図３に示す例では、差分信号計算部１１０は、図２に示した例と同様にして差分信号Ｓ（ｉ）を計算する。そして、差分信号計算部１１０はＬ´ｃｈ及びＲ´ｃｈで同じ差分信号Ｓ（ｉ）を出力する。本シグナルフローによる出力信号は、実質的にモノラル信号と同等である。

図４は、本実施形態に係る差分信号計算部１１０のシグナルフローの一例を示す図である。図４に示す例では、差分信号計算部１１０は、図２に示した例と同様にして差分信号Ｓ（ｉ）を計算する。そして、差分信号計算部１１０は、Ｌ’ｃｈの位相を反転したものをＲ’ｃｈとして出力する。本シグナルフローによる出力信号は、図３に示した例と比較して、ユーザに広がり感を感じさせることが可能である。ただし、本シグナルフローによる出力信号は、本位相が反転したことに起因する違和感をユーザに与え得る。

図５は、本実施形態に係る差分信号計算部１１０のシグナルフローの一例を示す図である。図５に示す例では、差分信号計算部１１０は、まず、入力信号のＬｃｈとＲｃｈを加算してモノラル化することで中央に定位するボーカルを抽出する。次に、差分信号計算部１１０は、モノラル化した信号を０．５倍して信号レベルを保ち、Ｌｃｈ及びＲｃｈの各々から減算することで、Ｌ’ｃｈ及びＲ’ｃｈを得る。本シグナルフローによる出力信号は、図４に示した例と同様である。

（２）ぼかし処理部１２０
ぼかし処理部１２０は、ぼかし処理を行う。詳しくは、ぼかし処理部１２０は、差分信号計算部１１０により計算された差分信号に、当該差分信号を処理した信号を加算する処理部としての機能を有する。差分信号を処理した信号は多様に考えられる。本実施形態に係るぼかし処理部１２０は、差分信号を処理した信号として、差分信号を遅延させた遅延信号を生成する。そして、ぼかし処理部１２０は、差分信号に生成した遅延信号を加算することで、出力信号を得る。なお、差分信号に遅延信号を加算する処理は、単純な加算であってもよいし、重み付け加算であってもよいし、いずれか一方の符号を反転させた上での加算（即ち、減算）であってもよい。以下では、ぼかし処理部１２０からの出力信号を、ぼかし信号Ｆ（ｉ）とも称する。

ぼかし処理部１２０は、ＩＩＲ（Infinite impulse response）フィルタを用いて遅延信号を生成してもよい。ここで、図６を参照して、ＩＩＲフィルタを用いて遅延信号を生成して、ぼかし信号Ｆ（ｉ）を得るためのシグナルフローを説明する。

図６は、本実施形態に係るぼかし処理部１２０のシグナルフローの一例を示す図である。図６に示すように、ぼかし処理部１２０は、遅延バッファＤＢ１２１に蓄積された遅延信号Ｄ（ｉ）を差分信号Ｓ（ｉ）に加算することで、ぼかし信号Ｆ（ｉ）を得る。遅延信号Ｄ（ｉ）は、ぼかし信号Ｆ（ｉ）がｎサンプル遅延した信号である。加算の際、ぼかし処理部１２０は、加算に係る重み付け係数ｒを用いて、差分信号Ｓ（ｉ）と遅延信号Ｄ（ｉ）とを重み付け加算する。重み付け係数ｒは、差分信号Ｓ（ｉ）及び遅延信号Ｄ（ｉ）の混合率であるとも捉えることが可能である。本シグナルフローは、以下の数式で表現される。
Ｆ（ｉ）＝（１−ｒ）×Ｓ（ｉ）＋ｒ×Ｄ（ｉ）（数式２）

ここで、重み付け係数ｒは以下の範囲の値をとる。
０＜ｒ＜１（数式３）

ぼかし処理部１２０は、ＦＩＲ（Finite impulse response）フィルタを用いて遅延信号を生成してもよい。ここで、図７を参照して、ＦＩＲフィルタを用いて遅延信号を生成して、ぼかし信号Ｆ（ｉ）を得るためのシグナルフローを説明する。

図７は、本実施形態に係るぼかし処理部１２０のシグナルフローの一例を示す図である。図７に示すように、ぼかし処理部１２０は、入力された信号を１サンプル遅延させる遅延器１２２をｍ個有し、差分信号Ｓ（ｉ）に最大ｍサンプル遅延した遅延信号までを重み付け加算することで、ぼかし信号Ｆ（ｉ）を得る。ここでの遅延信号は、差分信号Ｓ（ｉ）が遅延した信号である。本シグナルフローは、以下の数式で表現される。
Ｆ（ｉ）＝ｒ_０×Ｓ（ｉ）＋ｒ_１×Ｓ（ｉ−１）＋・・・＋ｒ_ｍ×Ｓ（ｉ−ｍ）
（数式４）

ここで、Ｓ（ｉ−ｍ）はｍサンプル過去の差分信号を表す。また、重み付け係数ｒ_０〜ｒ_ｍは、それぞれ上記数式３を満たす。

なお、ぼかし処理部１２０は、ＩＩＲフィルタ又はＦＩＲフィルタのいずれか一方を用いてもよいし、両方を組み合わせて用いてもよいし、他の任意の方法で遅延信号を生成してもよい。

以上、第１の構成例について説明した。続いて、本実施形態に係る信号処理装置１００の動作処理を説明する。

［２−２．動作処理例］
図８は、本実施形態に係る信号処理装置１００において実行される信号処理の流れの一例を示すフローチャートである。なお、本フローチャートでは、ぼかし処理部１２０がＩＩＲフィルタを用いて遅延信号を生成する例を説明する。

図８に示すように、まず、ステップＳ１０２で、差分信号計算部１１０は、ｉ番目のＬｃｈの信号Ｌ（ｉ）及びＲｃｈの信号Ｒ（ｉ）の入力を受け付ける。

次いで、ステップＳ１０４で、差分信号計算部１１０は、差分信号Ｓ（ｉ）を計算する。例えば、差分信号計算部１１０は、上記数式１を用いて差分信号Ｓ（ｉ）を計算する。

次に、ステップＳ１０６で、ぼかし処理部１２０は、差分信号Ｓ（ｉ）と遅延信号Ｄ（ｉ）からぼかし信号Ｆ（ｉ）を計算する。例えば、ぼかし処理部１２０は、上記数式２を用いてぼかし信号Ｆ（ｉ）を計算する。

次いで、ステップＳ１０８で、ぼかし処理部１２０は、遅延バッファＤＢ１２１を更新する。本処理は後に詳しく説明するため、ここでの説明は省略する。

そして、ステップＳ１１０で、ぼかし処理部１２０は、計算したぼかし信号Ｆ（ｉ）を出力する。

以上、信号処理装置１００による信号処理例を説明した。続いて、図９を参照して、上記ステップＳ１０８における処理を説明する。

図９は、本実施形態に係るぼかし処理部１２０において実行される遅延バッファＤＢ１２１の更新処理の流れの一例を示すフローチャートである。

図９に示すように、まず、ステップＳ２０２で、ぼかし処理部１２０は、ｊ＝０とおく。ｊは更新処理のために用いられる変数である。

次いで、ステップＳ２０４で、ぼかし処理部１２０は、ｊ＜ｎ−１を満たすか否かを判定する。ここで、ｎは遅延バッファＤＢ１２１のサイズであり、遅延量を表す。

ｊ＜ｎ−１であると判定された場合（Ｓ２０４／ＹＥＳ）、ステップＳ２０６で、ぼかし処理部１２０は、遅延バッファＤＢ［ｊ］に遅延バッファＤＢ［ｊ＋１］をコピーする。ここで、遅延バッファＤＢ［ｊ］とは、遅延バッファＤＢ１２１に格納されるｊ番目のデータを表す。

次に、ステップＳ２０８で、ぼかし処理部１２０は、ｊ＝ｊ＋１として変数ｊをインクリメントする。

その後、処理は再度ステップＳ２０４へ戻る。このようにして、ｊ＜ｎ−１が満たされなくなるまで、ステップＳ２０６及びＳ２０８における処理が繰り返される。

ｊ＜ｎ−１でないと判定された場合（Ｓ２０４／ＮＯ）、ステップＳ２１０で、ぼかし処理部１２０は、遅延バッファＤＢ［ｎ−１］にぼかし信号Ｆ（ｉ）をコピーする。

以上説明した処理により、遅延バッファＤＢ［０］には、ｎサンプル遅延した信号が格納されることとなる。ぼかし処理部１２０は、遅延バッファＤＢ［０］を遅延信号Ｄ（ｉ）として利用する。以上、ぼかし処理部１２０による遅延バッファＤＢ１２１の更新処理例を説明した。

［２−３．効果］
以下では、比較例と比較して本実施形態に係る信号処理装置１００の効果を説明する。

（前提知識）
圧縮符号化技術のひとつに、チャネル間の相関を利用して符号化するジョイントステレオ（ＪｏｉｎｔＳｔｅｒｅｏ）符号化方式がある。ジョイントステレオ符号化方式には、ミドルサイドステレオ（ＭｉｄｄｌｅＳｉｄｅＳｔｅｒｅｏ）符号化方式とインテンシティステレオ（ＩｎｔｅｎｓｉｔｙＳｔｅｒｅｏ）符号化方式がある。ミドルサイドステレオ符号化方式は、和信号（Ｌｃｈ＋Ｒｃｈ）と差信号（Ｌｃｈ−Ｒｃｈ）に分けて符号化する方式であり、和信号（Ｌｃｈ＋Ｒｃｈ）に重みを付けて符号化することで符号化効率を向上させることが可能な符号化方式である。インテンシティステレオ符号化方式は、和信号（Ｌｃｈ＋Ｒｃｈ）と左右のチャネルのパワー比を符号化することで符号化効率を向上させることが可能な符号化方式である。ジョイントステレオ符号化方式は、圧縮効率を向上させ、より少ないビットレートでの圧縮を可能にしたり、同じビットレートであればより高音質での圧縮を可能にしたりする。

（第１の比較例）
まず、第１の比較例として、上述した、ステレオ信号の両チャネルの信号で差分をとることで、両チャネルに同じように録音されているボーカルを抑制する信号処理装置について考える。以下では、図１０〜図１２を参照して、第１の比較例に係る信号処理装置が、ジョイントステレオ符号化方式を利用して圧縮された音源について処理する場合について説明する。

図１０〜図１２は、第１の比較例に係る信号処理を説明するための図である。詳しくは、図１０は、ジョイントステレオ符号化方式を利用して圧縮された音源が本比較例に係る信号処理装置により処理された場合のパワースペクトログラムの例である。図１０においては、横軸は時間であり、縦軸は周波数であり、有色の部分は信号レベル（パワー）が高いことを示し、無色の部分は信号レベルが低いことを示している。図１０を参照すると、信号レベルが高い部分と低い部分とが、時間方向をフレーム単位とし周波数方向をスケールファクターバンド単位とするブロック状に形成され、混在している。このような、信号レベルが高い部分と低い部分とがブロック状に形成されることに起因して、耳障りな聴覚ノイズが生じる。

また、図１１は、図１０の区間ＡＢ間のパワースペクトログラムを抜き出したグラフであり、ある時刻における周波数方向の変化の様子を示している。図１１においては、横軸は周波数であり、縦軸はパワーである。横軸の目盛はスケールファクターバンド単位で振られている。なお、実際の圧縮符号化では、低域のスケールファクターバンドの幅は高域に比べて狭く設定されるが、図１１では模式的に同じ幅で描写している。図１１を参照すると、スケールファクターバンドごとにパワースペクトルが急峻に上がったり下がったりしている。このような急峻な変化は、音源がジョイントステレオ符号化方式を用いて圧縮されていることに起因する。

詳しく説明すると、まず、ジョイントステレオ符号化方式では、スケールファクターバンドごとにミドルサイドステレオ符号化をするか否かの判断やインテンシティステレオ符号化が行なわれる。ミドルサイドステレオ符号化方式による圧縮が行なわれたスケールファクターバンドの差信号（Ｌｃｈ−Ｒｃｈ）に割り当てられるビットレートが非常に小さい場合、圧縮後の音響信号における当該スケールファクターバンド部分は実質的にモノラル信号に近くなる。そのため、本比較例に係る信号処理装置による処理では、実質的にモノラル信号に近いスケールファクターバンド部分のレベルがゼロに近い値になり得る。同様に、インテンシティステレオ符号化方式による圧縮が行なわれたスケールファクターバンドの左右のチャネルのパワー比が１に近い場合、圧縮後の音響信号における当該スケールファクターバンド部分は実質的にモノラル信号に近くなる。そのため、本比較例に係る信号処理装置による処理では、実質的にモノラル信号に近いスケールファクターバンド部分のレベルがゼロに近い値になり得る。このように、音源がジョイントステレオ符号化方式を用いて圧縮されていることに起因して、図１１に示した周波数方向の急峻なレベルの変化が生じ得る。このような周波数方向の急峻なレベルの変化が、耳障りな聴覚ノイズが発生する原因の１つである。

また、図１２は、図１０の区間ＣＤ間のパワースペクトログラムを抜き出したグラフであり、ある周波数における時間方向の変化の様子を示している。図１２においては、横軸は時間であり、縦軸はパワーである。横軸の目盛はフレーム単位で振られている。図１２を参照すると、フレームごとにパワースペクトルが急峻に上がったり下がったりしている。このような時間方向の急峻なレベルの変化は、音源がフレームごとにジョイントステレオ符号化方式を用いて圧縮されることに起因して、各スケールファクターバンドにおいて生じ得る。そして、このような時間方向の急峻なレベルの変化こそが、耳障りな聴覚ノイズが発生する大きな原因の１つになっている。

（第２の比較例）
次いで、第２の比較例として、圧縮音源であっても聴覚ノイズの発生を防ぐ効果のある、上記特許文献１に記載された技術を用いた信号処理装置について考える。本比較例に係る信号処理装置は、上述したように、一旦音響信号を周波数領域で表現した上で、ボーカルを抑制するための差分計算、つまりＬｃｈ−Ｒｃｈを周波数領域で行う。以下では、図１３及び図１４を参照して、第２の比較例に係る信号処理装置が、ジョイントステレオ符号化方式を利用して圧縮された音源について処理する場合について説明する。

図１３及び図１４は、第２の比較例に係る信号処理を説明するための図である。詳しくは、図１３の符号２００は、Ｌｃｈのスケールファクターバンドごとのパワー（Ｐｌ）である。図１３の符号２１０は、Ｒｃｈのスケールファクターバンドごとのパワー（Ｐｒ）である。図１３の符号２２０は、差分信号Ｌｃｈ−Ｒｃｈのスケールファクターバンドごとのパワー（Ｐｄ）である。ＬｃｈのパワーとＲｃｈのパワーとが、同一のスケールファクターバンドにおいて同程度のレベルである場合、差分信号のパワーはゼロに近いレベルになる。例えば、符号２０１と２１１、符号２０２と符号２１２、符号２０３と符号２１３、及び符号２０４と２１４は、それぞれ同程度のレベルである。このため、符号２２０に示す差分信号において、これらに対応するスケールファクターバンドのパワーはゼロに近いレベルになっている。このような状態は、図１１に示した例と同様である。

そこで、本比較例に係る信号処理装置は、図１４に示すように、ゼロに近いレベルとなった部分を、元の信号により補完することで、このような急峻なレベルの変化を緩和している。例えば、本比較例に係る信号処理装置は、第１のステップとして、区間１１、区間１２、及び区間１３のような急峻なレベル低下を検出する。そして、本比較例に係る信号処理装置は、第２のステップとして、もとのＬｃｈの信号を利用して、区間１１、区間１２、区間１３を補完することで、急峻なレベル低下を防ぐ。

具体的には、図１４の符号２４０に示すように、本比較例に係る信号処理装置は、図１３の符号２２０に示した差分信号の区間１１、１２及び１３に、符号２００に示すＬｃｈにおける各区間に対応するスケールファクターバンドのパワー２０１、２０２、２０３及び２０４をコピーする。本比較例に係る信号処理装置は、コピーの際に任意の係数を乗算し得る。図１３の符号２２０と図１４の符号２４０とを比較すると、区間１１、１２及び１３以外の区間は同一である。図１４の符号２４０に示すように、本比較例に係る信号処理装置は、周波数方向の急峻なレベル変化を防ぐことが可能である。これに伴い、本比較例に係る信号処理装置は、時間方向の急峻なレベル変化もある程度防ぐことが予想されるので、聴覚ノイズの発生を防ぎ得る。

しかし、本比較例に係る信号処理装置は、ノイズを低減する代償としてボーカルを抑制する性能が低下していた。これは、本比較例に係る信号処理装置は、急峻なレベル変化を防ぐために、ボーカルを含むＬｃｈの信号を用いて急峻なレベル低下が検出された区間を補完していたことに起因する。

また、本比較例に係る信号処理装置は、上述した第１のステップに失敗した場合、失敗した区間を補完することができない。さらに、第１のステップは周波数領域で行われるので、処理対象の信号が時間領域信号であった場合、本比較例に係る信号処理装置は、ボーカル抑制処理前後で時間領域及び周波数領域の変換処理を行っていた。例えば、本比較例に係る信号処理装置は、ボーカル抑制処理前にＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）等で周波数領域の信号へ変換し、ボーカル抑制処理後にＩＦＦＴ（ＩｎｖｅｒｓｅＦＦＴ）等で時間領域信号へ変換し得る。このような変換処理のための演算量は少なくない。また、第１のステップにおける検出処理のための演算量も少なくない。

（本実施形態の効果）
以下では、図１５を参照して、本実施形態に係る信号処理装置１００の効果を説明する。

図１５は、本実施形態に係る信号処理装置１００の効果を説明するための図である。詳しくは、図１５の符号３００は、ジョイントステレオ符号化方式を利用して圧縮された音源が本実施形態に係る信号処理装置１００により処理された場合のパワースペクトログラムの、ある周波数における時間方向の変化の様子を示している。また、図１５の符号３１０は、図１２に示したパワースペクトログラムの変化の様子である。図１２及び図１５における同一記号の区間は同一区間を示す。

図１５を参照すると、本実施形態に係る信号処理装置１００により処理された場合、急峻なレベルの変化が緩和されている。例えば、区間ＣＤ２において、符号３１０では急峻なレベルの落ち込みが認められる一方で、符号３００では急峻なレベルの落ち込みが認められず、徐々に変化している。これは、急峻なレベル低下が生じた区間に、レベル低下が生じていない遅延信号が加算されることに起因する。図１５に示したように、本実施形態に係る信号処理装置１００は、時間方向の急峻なレベルの変化を緩和することが可能であるため、耳障りな聴覚ノイズの発生を防ぐことができる。

また、本実施形態に係るぼかし処理部１２０は、ボーカルが抑制された差分信号を用いて遅延信号を生成し、この遅延信号を用いて急峻なレベルの変化を緩和する。そのため、本実施形態では、第２の比較例のようにボーカル抑制性能を代償とすることがなく、高いボーカル抑制性能を実現することが可能である。

また、本実施形態に係るぼかし処理部１２０は、差分信号計算部１１０から出力された時間領域の信号を、周波数領域に変換することなく処理可能である。このため、本実施形態に係る信号処理装置１００は、第２の比較例に係る信号処理装置と比較して、変換処理のための演算量を削減することが可能である。

また、本実施形態に係るぼかし処理部１２０は、遅延信号をＩＩＲやＦＩＲ等を用いて生成するため、小さな演算量で急峻なレベルの変化を緩和することが可能である。さらに、本実施形態に係るぼかし処理部１２０は、急峻なレベル低下を検出しないので、第２の比較例と比較して、検出処理の失敗に起因する補完の失敗を回避することが可能であり、検出処理のための演算量を削減することが可能である。

以上、本実施形態に係る効果について説明した。以下では、本実施形態に係る他の構成例について説明する。なお、以下で説明する他の構成例においても、上述した効果は同様に奏される。

［２−４．第２の構成例］
本構成例は、ぼかし処理部１２０により用いられる遅延量ｎ及び重み付け係数ｒを適切に設定する構成例である。以下、図１６を参照して、本構成例について説明する。

図１６は、本実施形態に係る信号処理装置１００の論理的な構成の一例を示すブロック図である。図１６に示す構成例を、以下では第２の構成例とも称する。図１６に示すように、本構成例に係る信号処理装置１００は、差分信号計算部１１０、ぼかし処理部１２０、遅延量設定部１２３及び係数設定部１２４を有する。

差分信号計算部１１０は、差分信号Ｓ（ｉ）を出力する。ぼかし処理部１２０は、上記数式２に、遅延量設定部１２３により設定された遅延量ｎ及び係数設定部１２４により設定された重み付け係数ｒを用いて、ぼかし信号Ｆ（ｉ）を得る。差分信号計算部１１０及びぼかし処理部１２０の内部処理については上記説明した通りであるので、ここでの詳細な説明は省略する。

（１）遅延量設定部１２３
遅延量設定部１２３は、遅延信号の遅延量ｎを設定する機能を有する。遅延量設定部１２３は、適切な遅延量ｎを設定することで、時間方向の急峻なレベルの変化を緩和することが可能である。

第１の比較例において生じていた図１０に示したブロック状のスペクトログラムの各ブロックのサイズは、圧縮符号化情報（オーディオコーデック）に依存する。詳しくは、ブロックの時間方向のサイズはオーディオコーデックのフレーム幅にほぼ等しく、ブロックの周波数方向のサイズはオーディオコーデックのスケールファクターバンド幅にほぼ等しい。第１の比較例において生じていた図１２に示した時間軸方向のレベル変動の例の通り、レベルが急峻にゼロに近い値になったり、ある程度のレベルに戻ったりするときの時間幅は、オーディオコーデックのフレーム幅の整数倍にほぼ合致している。例えば、図１２における区間ＣＤ２は１フレーム分の幅であり、区間ＣＤ２と区間ＣＤ３の間の幅も１フレーム分である。

このように、第１の比較例における時間方向の急峻なレベル変動がオーディオコーデックのフレーム単位で生じることから、遅延量設定部１２３は、入力された音響信号の圧縮符号化情報を用いて遅延量ｎを設定する。本実施形態において、信号処理装置１００から出力されるぼかし信号Ｆ（ｉ）の現在のフレームのレベルが直前のフレームに比べて急峻に下がることを防ぐためには、差分信号Ｓ（ｉ）に加算される遅延信号Ｄ（ｉ）のレベルが、ある程度あることが望ましい。つまり、上記数式２において、差分信号Ｓ（ｉ）のレベルがゼロに近い場合に、遅延信号Ｄ（ｉ）のレベルがある程度ある場合、ぼかし信号Ｆ（ｉ）の急峻なレベル低下が防がれる。よって、遅延量設定部１２３は、下記の数式に示すように、遅延信号Ｄ（ｉ）の遅延量ｎをオーディオコーデックが示すフレーム幅以下に設定する。
０＜遅延量ｎ＜＝オーディオコーデックのフレーム幅（数式５）

この場合、差分信号Ｓ（ｉ）のレベルがゼロに近くなったタイミングでは、その直前のゼロでない差分信号Ｓ（ｉ）成分が遅延信号Ｄ（ｉ）に含まれることになる。よって、差分信号Ｓ（ｉ）のレベルがゼロに近い場合であっても、遅延信号Ｄ（ｉ）のレベルがある程度あることが実現され、ぼかし信号Ｆ（ｉ）の急峻なレベル低下が防がれる。

なお、経験的には、下記の数式の範囲で遅延量ｎが設定されることが望ましい。
オーディオコーデックのフレーム幅の７０％＜遅延量ｎ
＜オーディオコーデックのフレーム幅（数式６）

（２）係数設定部１２４
係数設定部１２４は、ぼかし処理部１２０による加算に係る重み付け係数ｒを設定する機能を有する。係数設定部１２４は、適切な重み付け係数ｒを設定することで、ぼかし処理の強弱を調整することが可能である。例えば、係数設定部１２４は、入力された音響信号のオーディオコーデックに基づいて重み付け係数ｒを設定する。

オーディオコーデックのビットレートが低い場合、第１の比較例において図１０に示したブロック状のスペクトログラムが生じやすい。これは、オーディオコーデックのビットレートが低い場合、より積極的にジョイントステレオ符号化が使用されるためである。そこで、係数設定部１２４は、オーディオコーデックのうちビットレートに基づいて重み付け係数ｒを設定する。より具体的には、係数設定部１２４は、オーディオコーデックのビットレートが低い場合に、より強くぼかし処理を行なうよう重み付け係数ｒを設定する。つまり、係数設定部１２４は、数式２において、オーディオコーデックのビットレートが低い場合に重み付け係数ｒを１側に寄せて設定し、オーディオコーデックのビットレートが高い場合に重み付け係数ｒをゼロ側に寄せて設定する。他にも、係数設定部１２４は、ジョイントステレオ符号化の使用状況に応じて重み付け係数ｒを設定してもよい。信号処理装置１００は、このような設定により、聴覚ノイズが生じる可能性が高い場合に強くぼかし処理を行い、聴覚ノイズが生じる可能性が低い場合にぼかし処理を弱めて原音を活かすことが可能となる。

なお、経験的には、係数設定部１２４は、下記の数式の範囲で重み付け係数ｒを設定することが望ましい。
０．０＜ｒ＜０．４（数式７）

（３）その他
遅延量設定部１２３及び係数設定部１２４は、遅延量ｎ及び重み付け係数ｒを時間変化させてもよい。この場合、遅延量設定部１２３及び係数設定部１２４は、複数のフレーム幅の自動切り替えや、可変ビットレートのオーディオコーデックにも対応可能となる。係数設定部１２４は、オーディオコーデック情報により、ジョイントステレオ符号化が使用されていないことが判明した場合、重み付け係数ｒにゼロを設定し、ぼかし処理をオフにしてもよい。

以上説明したように、本構成例によれば、信号処理装置１００は、遅延量ｎの設定により、時間方向の急峻なレベルの変化を確実に緩和することが可能である。また、本構成例によれば、信号処理装置１００は、重み付け係数ｒの設定により、聴覚ノイズを低減させることと原音を活かすこととを両立させることができる。

［２−５．第３の構成例］
本構成例は、係数設定部１２４が重み付け係数ｒを設定するためのパラメータが導入された構成例である。以下、図１７及び図１８を参照して、本構成例について説明する。

図１７は、本実施形態に係る信号処理装置１００の論理的な構成の一例を示すブロック図である。図１７に示す構成例を、以下では第３の構成例とも称する。図１７に示すように、本構成例に係る信号処理装置１００は、差分信号計算部１１０、ぼかし処理部１２０、係数設定部１２４及びぼかしレベル計算部１２５を有する。

差分信号計算部１１０は、差分信号Ｓ（ｉ）を出力する。本実施形態に係る係数設定部１２４は、ぼかしレベル計算部１２５により計算されたぼかしレベルｆ（ｉ）に応じて、重み付け係数ｒを設定する。ぼかし処理部１２０は、上記数式２に、係数設定部１２４により設定された重み付け係数ｒを用いて、ぼかし信号Ｆ（ｉ）を得る。差分信号計算部１１０、ぼかし処理部１２０及び係数設定部１２４の内部処理については上記説明した通りであるので、ここでの詳細な説明は省略する。

ぼかしレベル計算部１２５は、入力された音響信号の聴覚ノイズの目立ちやすさに応じてぼかしレベルｆ（ｉ）を設定する。以下では、聴覚ノイズの目立ち易さの尺度の一例として、入力された音響信号がモノラルに近い度合が採用される例を説明する。

第１の比較例において生じていた、図１０に示したブロック状のスペクトログラムに起因する聴覚ノイズの程度は、楽曲中に変化し得る。このため、聴覚ノイズの目立ち易さに応じて、ぼかし処理の強度を変化させることが望ましい。聴覚ノイズの目立ち易さは、例えば、入力された音響信号のＬｃｈとＲｃｈがどの程度似ているか、言い換えると、どの程度モノラルに近いかでおおよそ測ることができる。入力された音響信号においてモノラルに近いパート、つまり、殆どの音が中央に定位するパートは聴覚ノイズが目立ち易い。例えば、ボーカルのソロのパートはモノラルに近いことが多く、聴覚ノイズが目立ち易い。逆にモノラルに近くないパート、つまり、中央に定位する音が少ないパートは聴覚ノイズが目立ち難い。これは、ジョイントステレオ符号化自体が、モノラルに近いパートで主に利用されることに起因する。このため、入力された音響信号がモノラルに近い場合に、より強くぼかし処理が行われることが望ましい。

そこで、係数設定部１２４は、入力された音響信号がモノラルに近い度合に基づいて、重み付け係数ｒを設定する。そのために、ぼかしレベル計算部１２５は、入力された音響信号がモノラルに近い度合に基づいてぼかしレベルｆ（ｉ）を計算する。例えば、ぼかしレベル計算部１２５は、入力された音響信号がモノラルに近い場合にぼかしレベルｆ（ｉ）を大きく設定し、モノラルに近くない場合にぼかしレベルぼかしレベルｆ（ｉ）を小さく設定する。そして、係数設定部１２４は、ぼかしレベルｆ（ｉ）に応じて重み付け係数ｒを設定する。例えば、係数設定部１２４は、ぼかしレベルｆ（ｉ）が大きいほど重み付け係数ｒを１側に寄せて設定し、ぼかしレベルｆ（ｉ）が小さいほどほど重み付け係数ｒをゼロ側に寄せて設定する。

モノラルに近いか否かは、下記数式に示す、モノラルにどの程度近いかを示す尺度ｔ（ｉ）により判定され得る。
Ｐｅａｋ_Ｓ（ｉ）＝（１−ｋ）×Ｐｅａｋ_Ｓ（ｉ−１）
＋ｋ×（｜Ｌ（ｉ）−Ｒ（ｉ）｜）（数式８）
Ｐｅａｋ_Ｍ（ｉ）＝（１−ｋ）×Ｐｅａｋ_Ｍ（ｉ−１）
＋ｋ×（｜Ｌ（ｉ）＋Ｒ（ｉ）｜）（数式９）
ｔ（ｉ）＝Ｐｅａｋ_Ｓ（ｉ）／Ｐｅａｋ_Ｍ（ｉ）（数式１０）

ここで、係数ｋは時定数である。また、Ｐｅａｋ_Ｍ（ｉ）はゼロでないと仮定している。Ｐｅａｋ_Ｓ（ｉ）は、ＬｃｈからＲｃｈを減算した信号のピークレベルである。Ｐｅａｋ_Ｍ（ｉ）は、ＬｃｈにＲｃｈを加算した信号のピークレベルである。なお、上記数式８及び９では絶対値が用いられているが、二乗が用いられていてもよい。

入力された音響信号がモノラルに近い場合、Ｐｅａｋ_Ｓ（ｉ）は小さくなり、Ｐｅａｋ_Ｍ（ｉ）は大きくなる。一方で、モノラルに近くない場合、Ｐｅａｋ_Ｓ（ｉ）は大きくなり、Ｐｅａｋ_Ｍ（ｉ）は小さくなる。よって、尺度ｔ（ｉ）は、モノラルに近い場合に小さくなり、モノラルに近くない場合に大きくなる。この点を、図１８を参照してさらに詳しく説明する。

図１８は、入力された音響信号がモノラルに近い度合を説明するための図である。詳しくは、図１８では、符号４０１に示すピークレベルＰｅａｋ_Ｍ（ｉ）の時間的変化の例と、符号４０２に示すピークレベルＰｅａｋ_Ｓ（ｉ）と時間的変化の例とを、それぞれ示している。区間２１及び区間２２は、入力された音響信号がモノラルに近いパートであると同時に、聴覚ノイズが目立ち易いパートである。これらの区間では、符号４０２に示すピークレベルＰｅａｋ_Ｓ（ｉ）は小さくなり、符号４０１に示すピークレベルＰｅａｋ_Ｍ（ｉ）は大きくなるため、尺度ｔ（ｉ）は小さくなる。その他の区間では、区間２１及び区間２２と比較して尺度ｔ（ｉ）は大きくなる。

ぼかしレベル計算部１２５は、尺度ｔ（ｉ）に応じてぼかしレベルｆ（ｉ）を計算する。例えば、ぼかしレベル計算部１２５は、尺度ｔ（ｉ）が小さい場合にぼかしレベルｆ（ｉ）を大きく設定する。このため、係数設定部１２４は、図１８に示した区間２１及び区間２２に相当する差分信号Ｓ（ｉ）について重み付け係数ｒを大きく設定し、ぼかし処理部１２０は強くぼかし処理を行う。一方で、ぼかしレベル計算部１２５は、尺度ｔ（ｉ）が大きい場合にぼかしレベルｆ（ｉ）を小さく設定する。このため、係数設定部１２４は、図１８に示した区間２１及び区間２２以外の区間に相当する差分信号Ｓ（ｉ）について重み付け係数ｒを小さく設定し、ぼかし処理部１２０は弱くぼかし処理を行う。このように、本構成例に係る信号処理装置１００は、聴覚ノイズの目立ち易さによってぼかしレベルの強度を変化させることにより、聴覚ノイズが目立ち易いパートに的を絞って強くぼかし処理を行なうことができ、より効果的に聴覚ノイズを防ぐことができる。

なお、Ｐｅａｋ_Ｓ（ｉ）の大小だけでは、入力された音響信号がモノラルに近いのか、音響信号のレベル自体が小さいのかを判定することは困難である。また、ぼかしレベル計算部１２５は、ＬｃｈとＲｃｈの相関を尺度ｔ（ｉ）として用いてもよい。ただし、その場合、尺度ｔ（ｉ）の大小関係は逆になる。

以上説明したように、本構成例によれば、信号処理装置１００は、聴覚ノイズが目立ち易いパートに的を絞って強くぼかし処理を行なうことで、より効果的に聴覚ノイズを防ぐことができる。

［２−６．第４の構成例］
本構成例は、差分信号のうち聴覚ノイズが生じる帯域を抽出して、ぼかし処理を行う構成例である。以下、図１９を参照して、本構成例について説明する。

図１９は、本実施形態に係る信号処理装置１００の論理的な構成の一例を示すブロック図である。図１９に示す構成例を、以下では第４の構成例とも称する。図１９に示すように、本構成例に係る信号処理装置１００は、差分信号計算部１１０、ぼかし処理部１２０、帯域分割部１３０及び合成部１３１を有する。

差分信号計算部１１０は、差分信号を出力する。次いで、帯域分割部１３０は、差分信号を複数の帯域に分割する。次に、ぼかし処理部１２０は、帯域分割部１３０により分割された複数の帯域のうち少なくともひとつの帯域においてぼかし処理を行う。そして、合成部１３１は、ぼかし処理部１２０によるぼかし処理がされた信号とされなかった信号とを合成して、ぼかし信号を得る。差分信号計算部１１０及びぼかし処理部１２０の内部処理については上記説明した通りであるので、ここでの詳細な説明は省略する。

（１）帯域分割部１３０
帯域分割部１３０は、差分信号計算部１１０から出力された差分信号を複数の帯域に分割する機能を有する。例えば、帯域分割部１３０は、ぼかし処理部１２０によるぼかし処理の対象となる帯域と、対象外となる帯域とに分割する。ぼかし処理の対象となる帯域は、ひとつの連続した帯域であってもよいし、複数の非連続な帯域の集合体であってもよい。ぼかし処理の対象外となる帯域についても同様である。

第１の比較例において生じていた、図１０に示したブロック状のスペクトログラムに起因する聴覚ノイズの目立ち易さは、どの周波数帯域でブロック状のスペクトログラムが生じるかによって違いがある。これは、ジョイントステレオ符号化が対象とする周波数帯域の偏りや、人間の聴覚の特性に依存すると考えられる。聴覚ノイズが目立ち易い周波数帯域は、経験的に、１ｋＨｚ〜１０ｋＨｚである。このため、聴覚ノイズが目立ち易い帯域で重点的にぼかし処理が行なわれることが望ましい。そこで、帯域分割部１３０は、聴覚ノイズが目立ち易い帯域についてはぼかし処理部１２０へ出力し、その他の帯域については合成部１３１へ出力する。

例えば、帯域分割部１３０は、下側のカットオフ周波数がＦｃ１であり、上側のカットオフ周波数がＦｃ２であるようなバンドパスフィルタを用いて、ぼかし処理部１２０へ出力する帯域の信号を抽出し得る。カットオフ周波数は、経験的にＦｃ１＝１ｋＨｚ程度、Ｆｃ２＝１０ｋＨｚ程度が効果的である。帯域分割部１３０は、バンドパスフィルタにより抽出した帯域の信号についてぼかし処理部１２０へ出力することで、当該帯域に関する重点的なぼかし処理を実現することができる。帯域分割部１３０は、カットオフ周波数がＦｃ１のハイパスフィルタをバンドパスフィルタの代わりに含んでいてもよく、その場合は演算量を抑制可能である。

なお、帯域分割部１３０は、差分信号計算部１１０よりも前段に設けられていてもよい。その場合、帯域分割部１３０は、差分信号を求める帯域を、主にボーカルの音が存在する周波数帯域に絞ることで、例えば中央に定位することが多いベース系の音が抑制されて低域が少ない軽い音になってしまうことを回避することができる。

（２）合成部１３１
合成部１３１は、帯域分割部１３０により分割された複数の差分信号を合成する機能を有する。詳しくは、合成部１３１は、ぼかし処理部１２０によりぼかし処理された帯域の差分信号とぼかし処理部１２０により分割された複数の帯域のうちぼかし処理部１２０によるぼかし処理がなされなかった帯域の差分信号とを合成する。合成部１３１は、これらの信号を単純に加算することで合成し得る。

以上説明したように、本構成例によれば、信号処理装置１００は、聴覚ノイズが目立ち易い帯域で重点的にぼかし処理を行うことで、より効果的に聴覚ノイズを防ぐことができる。

＜３．第２の実施形態＞
本実施形態は、ゲイン制御により聴覚ノイズを低減する形態である。まず、図２０を参照して、本実施形態の基本構成を説明する。

［３−１．第１の構成例］
図２０は、本実施形態に係る信号処理装置１００の論理的な構成の一例を示すブロック図である。図２０に示す構成例を、以下では第１の構成例とも称する。図２０に示すように、本構成例に係る信号処理装置１００は、差分信号計算部１１０、ゲインレベル設定部１４０及びゲイン制御部１４１を有する。

差分信号計算部１１０は、差分信号を出力する。次いで、ゲインレベル設定部１４０は、ゲインレベルを設定する。そして、ゲイン制御部１４１は、ゲインレベル設定部１４０により設定されたゲインレベルを用いて、差分信号のゲインを制御する。本実施形態に係る信号処理装置１００は、ボーカルが中央に定位する楽曲である時間領域の音響信号を入力され、ボーカルを抑制した時間領域の音響信号を出力する。差分信号計算部１１０の内部処理については上記説明した通りであるので、ここでの詳細な説明は省略する。

（１）ゲインレベル設定部１４０
ゲインレベル設定部１４０は、差分信号のゲインレベルを設定する機能を有する。例えば、ゲインレベル設定部１４０は、入力された音響信号の聴覚ノイズの目立ち易さに応じてゲインレベルを設定する。

第１の比較例において生じていた、図１０に示したブロック状のスペクトログラムに起因する聴覚ノイズの程度は、楽曲中に変化し得る。このため、聴覚ノイズの目立ち易さに応じて、差分信号のゲインレベルを変化させることが望ましい。上述したように、入力された音響信号がモノラルに近い、例えばボーカルのソロのパート等の殆どの音が中央に定位するパートは聴覚ノイズが目立ち易く、他のパートでは目立ち難い。そのため、入力された音響信号がモノラルに近い場合に、差分信号のゲインレベルを変化させることが望ましい。

そこで、ゲインレベル設定部１４０は、聴覚ノイズの目立ち易さの尺度の一例として、上記数式８〜数式１０に示した尺度ｔ（ｉ）を利用して、入力された音響信号がモノラルに近い度合に基づいてゲインレベルを設定する。具体的には、ゲインレベル設定部１４０は、尺度ｔ（ｉ）が小さい場合にゲインレベルｇ（ｉ）を小さく設定し、尺度ｔ（ｉ）が大きい場合にゲインレベルｇ（ｉ）を大きく設定する。例えば、ゲインレベル設定部１４０は、下記の数式の範囲でゲインレベルｇ（ｉ）を設定する。
０．０＜＝ｇ（ｉ）＜＝１．０（数式１１）

なお、経験的には、下記の数式の範囲でゲインレベルｇ（ｉ）が設定されることが望ましい。
０．２５＜ｇ（ｉ）＜＝１．０（数式１２）

（２）ゲイン制御部１４１
ゲイン制御部１４１は、ゲインレベル設定部１４０により設定されたゲインレベルを用いて差分信号のゲインを制御する機能を有する。例えば、ゲイン制御部１４１は、ゲインレベル設定部１４０による設定に基づくゲインレベルの制御を行うことで、ボーカルが目立つ区間においてゲインを低下させ、ボーカルを抑制した時間領域の音響信号を出力することが可能である。ゲインレベル設定部１４０により設定されたゲインレベルをｇ（ｉ）とすると、ゲイン制御部１４１は、下記の数式によりゲインが制御された信号Ｇ（ｉ）を計算する。
Ｇ（ｉ）＝ｇ（ｉ）×Ｓ（ｉ）（数式１３）

［３−２．動作処理例］
図２１は、本実施形態に係る信号処理装置１００において実行される信号処理の流れの一例を示すフローチャートである。

図２１に示すように、まず、ステップＳ３０２で、差分信号計算部１１０は、ｉ番目のＬｃｈの信号Ｌ（ｉ）及びＲｃｈの信号Ｒ（ｉ）の入力を受け付ける。

次いで、ステップＳ３０４で、差分信号計算部１１０は、差分信号Ｓ（ｉ）を計算する。例えば、差分信号計算部１１０は、上記数式１を用いて差分信号Ｓ（ｉ）を計算する。

次に、ステップＳ３０６で、ゲインレベル設定部１４０は、ゲインレベルｇ（ｉ）を計算する。例えば、ゲインレベル設定部１４０は、上記数式８〜数式１２を用いてゲインレベルｇ（ｉ）を計算する。

次いで、ステップＳ３０８で、ゲイン制御部１４１は、ゲインが制御された信号Ｇ（ｉ）を計算する。例えば、ゲイン制御部１４１は、上記数式１３を用いてゲインが制御された信号Ｇ（ｉ）を計算する。

そして、ステップＳ３１０で、ゲイン制御部１４１は、計算したゲインが制御された信号Ｇ（ｉ）を出力する。

［３−３．効果］
以下では、図２２を参照して、本実施形態に係る信号処理装置１００の効果を説明する。

図２２は、本実施形態に係る信号処理装置１００の効果を説明するための図である。図２２の実線は、第１の比較例に係る信号処理装置により処理された音響信号のパワーの時間変化例である。例えば、区間３１及び区間３２は、ボーカルのソロのパートなど、入力された音響信号がモノラルに近い区間である。このような区間は、モノラルに近い信号が抑制されることで差分信号のパワーが小さくなった区間であると共に、聴覚ノイズが目立ち易い部分である。区間３１及び区間３２以外の区間は、様々な楽器が存在するパートなど、入力された音響信号がモノラルに近くない区間である。このような区間は、差分信号のパワーが区間３１及び区間３２と比較して大きい区間であると共に、聴覚ノイズが目立ち難い部分である。

図２２の破線は、本実施形態に係る信号処理装置１００により処理された音響信号のパワーの時間変化例である。区間３１及び区間３２の破線に示すように、本実施形態に係る信号処理装置１００は、主に聴覚ノイズが目立ち易い部分についてゲイン制御を行ってレベルを下げることができる。信号処理装置１００は、聴覚ノイズが目立ちやすい部分について、聴覚ノイズごとレベルを下げることができるため、ユーザに与える聴覚ノイズの不快感を軽減することが可能である。また、本実施形態に係る信号処理装置１００は、第２の比較例のような周波数領域での処理を行わないので、小さな演算量で処理することが可能である。

［３−４．第２の構成例］
本構成例は、差分信号のうち聴覚ノイズが生じる帯域を抽出して、ゲイン制御を行う構成例である。以下、図２３を参照して、本構成例について説明する。

図２３は、本実施形態に係る信号処理装置１００の論理的な構成の一例を示すブロック図である。図２３に示す構成例を、以下では第２の構成例とも称する。図２３に示すように、本構成例に係る信号処理装置１００は、差分信号計算部１１０、帯域分割部１３０、合成部１３１、ゲインレベル設定部１４０及びゲイン制御部１４１を有する。

差分信号計算部１１０は、差分信号を出力する。次いで、帯域分割部１３０は、差分信号を複数の帯域に分割する。詳しくは、帯域分割部１３０は、ゲイン制御部１４１によるゲイン制御の対象となる帯域と、対象外となる帯域とに分割する。ここで、第１の実施形態における第４の構成例と同様の理由で、聴覚ノイズが目立ち易い帯域で重点的にゲイン制御が行われることが望ましい。そこで、帯域分割部１３０は、聴覚ノイズが目立ち易い帯域についてはゲイン制御部１４１へ出力し、その他の帯域については合成部１３１へ出力する。

次いで、ゲインレベル設定部１４０は、ゲインレベルを設定する。そして、ゲイン制御部１４１は、ゲインレベル設定部１４０により設定されたゲインレベルを用いて、差分信号のゲインを制御する。詳しくは、ゲイン制御部１４１は、帯域分割部１３０により分割された複数の帯域のうち少なくともひとつの帯域において、ゲインレベル設定部１４０により設定されたゲインレベルを用いて差分信号のゲインを制御する。

そして、合成部１３１は、ゲイン制御部１４１から出力された信号と帯域分割部１３０から合成部１３１へ直接的に出力された信号とを合成することで、出力する音響信号を得る。詳しくは、合成部１３１は、ゲイン制御部１４１によりゲイン制御された帯域の差分信号と帯域分割部１３０により分割された複数の帯域のうちゲイン制御部１４１によるゲイン制御がなされなかった帯域の差分信号とを合成する。

以上説明したように、本構成例によれば、信号処理装置１００は、聴覚ノイズが目立ち易い帯域で重点的にゲイン制御を行うことで、ユーザに与える聴覚ノイズの不快感を効率的に軽減することが可能である。また、本構成例に係る信号処理装置１００は、一部の帯域でゲイン制御を行うため、出力される音響信号全体の音量が過度に低下することを防止することができる。

＜４．第３の実施形態＞
本実施形態は、上述した第１の実施形態と第２の実施形態とを組み合わせた形態である。以下、図２４を参照して、本実施形態に係る信号処理装置１００の構成例について説明する。

［４−１．構成例］
図２４は、本実施形態に係る信号処理装置１００の論理的な構成の一例を示すブロック図である。図２４に示すように、本実施形態に係る信号処理装置１００は、差分信号計算部１１０、帯域分割部１３０、ぼかし処理部１２０、遅延量設定部１２３、係数設定部１２４、ぼかしレベル計算部１２５、ゲインレベル設定部１４０、ゲイン制御部１４１及び合成部１３１を有する。

差分信号計算部１１０は、差分信号を出力する。次いで、帯域分割部１３０は、差分信号を複数の帯域に分割する。詳しくは、帯域分割部１３０は、ぼかし処理部１２０によるぼかし処理及びゲイン制御部１４１によるゲイン制御の対象となる帯域と、対象外となる帯域とに分割する。例えば、帯域分割部１３０は、聴覚ノイズが目立ち易い帯域についてはぼかし処理部１２０へ出力し、その他の帯域については合成部１３１へ出力する。

次いで、ぼかし処理部１２０は、帯域分割部１３０から出力された帯域の差分信号についてぼかし処理を行う。詳しくは、ぼかし処理部１２０は、帯域分割部１３０により分割された複数の帯域のうち少なくともひとつの帯域においてぼかし処理を行う。その際、ぼかし処理部１２０は、遅延量設定部１２３により設定された遅延量ｎ及び係数設定部１２４により設定された重み係数ｒを用いて、上記数式２によりぼかし信号Ｆ（ｉ）を得る。

ここで、係数設定部１２４は、第１の実施形態の第２の構成例で説明した処理を行ってもよいし、第２の実施形態の第３の構成例で説明した処理を行ってもよい。即ち、係数設定部１２４は、入力された音響信号のオーディオコーデックに基づいて重み付け係数ｒを設定してもよいし、ぼかしレベル計算部１２５により計算されたぼかしレベルｆ（ｉ）に応じて重み付け係数ｒを設定してもよい。例えば、前者による重み付け係数をｒ１とし、後者による重み付け係数をｒ２とすると、係数設定部１２４は、下記の数式に示すように最大値を重み付け係数ｒとして採用してもよい。
ｒ（ｉ）＝ＭＡＸ（ｒ１（ｉ），ｒ２（ｉ））（数式１４）

また、係数設定部１２４は、ｒ１及びｒ２を組み合わせて重み付け係数ｒを設定してもよい。例えば、係数設定部１２４は、ｒ１及びｒ２の平均値により重み付け係数ｒを設定してもよい。つまり、ｒ１及びｒ２の大小関係が重み付け係数ｒに反映されればよい。

ゲイン制御部１４１は、ぼかし処理部１２０から出力されたぼかし信号のゲイン制御を行う。詳しくは、ゲイン制御部１４１は、ゲインレベル設定部１４０により設定されたゲインレベルを用いて、ぼかし処理部１２０によりぼかし処理された信号のゲインを制御する。例えば、ゲイン制御部１４１は、下記の数式を用いてゲインが制御された信号Ｇ（ｉ）を得る。
Ｇ（ｉ）＝ｇ（ｉ）×Ｆ（ｉ）（数式１５）

そして、合成部１３１は、ゲイン制御部１４１から出力された信号と帯域分割部１３０から合成部１３１へ直接的に出力された信号とを合成することで、出力する音響信号を得る。詳しくは、合成部１３１は、ゲイン制御部１４１によりゲイン制御された信号と帯域分割部１３０により分割された複数の帯域のうちゲイン制御部１４１によるゲイン制御がなされなかった帯域の差分信号とを合成する。

なお、ぼかしレベル計算部１２５及びゲインレベル設定部１４０は、聴覚の聴覚ノイズの目立ち易さの尺度として、上記数式８〜１０に示した尺度ｔ（ｉ）を共通して用いてもよいし、異なる尺度を採用してもよい。

また、ぼかし処理部１２０及びゲインレベル設定部１４０の処理の順番は逆でもよい。

以上、本実施形態に係る信号処理装置１００の構成例について説明した。続いて、本実施形態に係る信号処理装置１００の動作処理を説明する。

［４−２．動作処理例］
図２５は、本実施形態に係る信号処理装置１００において実行される信号処理の流れの一例を示すフローチャートである。

図２５に示すように、まず、ステップＳ４０２で、差分信号計算部１１０は、ｉ番目のＬｃｈの信号Ｌ（ｉ）及びＲｃｈの信号Ｒ（ｉ）の入力を受け付ける。

次いで、ステップＳ４０４で、差分信号計算部１１０は、差分信号Ｓ（ｉ）を計算する。例えば、差分信号計算部１１０は、上記数式１を用いて差分信号Ｓ（ｉ）を計算する。

次に、ステップＳ４０６で、ゲインレベル設定部１４０は、ゲインレベルｇ（ｉ）を計算する。例えば、ゲインレベル設定部１４０は、上記数式８〜数式１２を用いてゲインレベルｇ（ｉ）を計算する。

次いで、ステップＳ４０８で、遅延量設定部１２３は遅延量ｎを計算し、係数設定部１２４は重み付け係数ｒを計算する。例えば、遅延量設定部１２３は、上記数式５及び数式６を用いて遅延量ｎを計算する。例えば、係数設定部１２４は、上記数式１４を用いて重み付け係数ｒを計算する。

次に、ステップＳ４１０で、帯域分割部１３０は、差分信号Ｓ（ｉ）を処理対象の帯域と処理対象外の帯域とに分割する。ここでの処理対象とは、ぼかし処理部１２０によるぼかし処理及びゲイン制御部１４１によるゲイン制御の対象を指す。例えば、帯域分割部１３０は、差分信号Ｓ（ｉ）を聴覚ノイズが目立ち易い帯域とそうでない帯域とに分割し、目立ち易い帯域を処理対象の帯域とし、そうでない帯域を処理対象外の帯域とする。

次いで、ステップＳ４１２で、ぼかし処理部１２０は、処理対象の帯域においてぼかし信号Ｆ（ｉ）を計算する。例えば、ぼかし処理部１２０は、帯域分割部１３０により分割された複数の帯域のうち、聴覚ノイズが目立ち易い帯域の差分信号について、上記数式２を用いてぼかし信号Ｆ（ｉ）を計算する。

次に、ステップＳ４１４で、ゲイン制御部１４１は、処理対象の帯域においてゲインが制御された信号Ｇ（ｉ）を計算する。例えば、ゲイン制御部１４１は、ぼかし処理部１２０により出力されたぼかし信号Ｆ（ｉ）について、上記数式１５を用いてゲインが制御された信号Ｇ（ｉ）を計算する。

次いで、ステップＳ４１６で、合成部１３１は、上記ステップＳ４１２及びＳ４１４における処理後の信号と処理対象外の信号とを合成する。例えば、合成部１３１は、上記ステップＳ４１４においてゲイン制御された処理対象の帯域におけるゲインが制御された信号Ｇ（ｉ）と、上記ステップＳ４１０において分割された処理対象外の帯域における差分信号Ｓ（ｉ）とを合成する。

そして、ステップＳ４１８で、合成部１３１は、上記ステップＳ４１６において合成された信号を出力する。

以上説明したように、本実施形態によれば、信号処理装置１００は、第１の実施形態及び第２の実施形態の効果を両立させることが可能であり、より効果的に聴覚ノイズを防ぐことができる。

＜５．第４の実施形態＞
本実施形態は、信号処理装置１００が周波数領域の信号に対してボーカル抑制処理を行う形態である。以下では、図２６及び図２７を参照して、本実施形態について説明する。

図２６は、本実施形態に係る信号処理装置１００の論理的な構成の一例を示すブロック図である。図２６に示すように、本実施形態に係る信号処理装置１００は、ＦＦＴ部１５０、差分信号計算部１１０、ぼかし処理部１２０及びＩＦＦＴ部１５１を有する。

（１）ＦＦＴ部１５０
ＦＦＴ部１５０は、入力された時間領域の信号を周波数領域の信号へ変換する機能を有する。例えば、ＦＦＴ部１５０は、ＦＦＴにより時間領域の信号を周波数領域の信号へ変換する。本変換処理には、ＦＦＴ以外の任意の方式が採用されてもよい。また、入力された音響信号が周波数領域の信号である場合、ＦＦＴ部１５０は省略されてもよい。入力された音響信号が周波数領域の信号である場合、上記第１〜第３の実施形態では、周波数領域の信号を時間領域の信号に変換する工程が要される。これに対し、本実施形態に係る信号処理装置１００は、本工程を省略可能であるので、処理が効率化される。

（２）差分信号計算部１１０
本実施形態に係る差分信号計算部１１０は、周波数領域で差分信号を計算する。例えば、差分信号計算部１１０は、Ｌｃｈ及びＲｃｈについて、対応するスケールファクターバンドのパワーを減算処理することで、差分信号を計算する。差分信号計算部１１０は、ＬｃｈからＲｃｈを減算してもよいし、ＲｃｈからＬｃｈを減算してもよい。

（３）ぼかし処理部１２０
本実施形態に係るぼかし処理部１２０は、差分信号計算部１１０により計算された周波数領域の差分信号に、当該差分信号を処理した周波数領域の信号を加算する。例えば、ぼかし処理部１２０は、差分信号を処理した信号として、差分信号を遅延させた遅延信号を生成する。そして、ぼかし処理部１２０は、周波数領域の差分信号に、周波数領域の遅延信号を加算する。以下、図２７を参照して、本実施形態に係るぼかし処理部１２０のシグナルフローの一例を説明する。

図２７は、本実施形態に係るぼかし処理部１２０のシグナルフローの一例を示す図である。図２７では、時間的に連続する２つのフレームのスペクトルを用いてぼかし処理する例を図示している。図２７に示すように、ぼかし処理部１２０は、入力された信号を１フレーム遅延させる遅延器１２２を有し、差分信号Ｓ（ｉ）に１フレーム遅延した遅延信号を重み付け加算することで、ぼかし信号Ｆ（ｉ）を得る。符号４０１及び符号４０２は、差分信号Ｓ（ｉ）のスケールファクターバンドごとのパワーを示している。例えば、符号４０１は、差分信号の第ｈ番目のフレームのスケールファクターバンドごとのパワーであり、符号４０２は、差分信号の第ｈ−１番目のフレームのスケールファクターバンドごとのパワーである。符号４０３は、ぼかし信号Ｆ（ｉ）のスケールファクターバンドごとのパワーを示している。詳しくは、符号４０３は、符号４０１に示した信号と符号４０２に示した信号とを０．５ずつの重みで加重平均した信号の、スケールファクターバンドごとのパワーである。符号４０３に示すように、出力信号Ｆ（ｉ）のスケールファクターバンドごとのパワーの時間方向の変化の急峻さは抑制されており、その結果、聴覚ノイズが抑制される。

なお、図２７に示した例では、説明の簡略化のため、ぼかし処理部１２０はひとつの遅延器１２２を有するとし、重み付け係数ｒ＝０．５としているが、他の任意の設定であってもよい。また、図２７では、ＦＩＲフィルタを用いて遅延信号を生成する例を説明したが、ＩＩＲフィルタが用いられてもよい。

（４）ＩＦＦＴ部１５１
ＩＦＦＴ部１５１は、入力された周波数領域の信号を時間領域の信号へ変換する機能を有する。例えば、ＩＦＦＴ部１５１は、ＩＦＦＴにより時間領域の信号を周波数領域の信号へ変換する。本変換処理には、ＩＦＦＴ以外の任意の方式が採用されてもよい。また、出力する信号が周波数領域の信号である場合、ＩＦＦＴ部１５１は省略されてもよい。

以上説明したように、本実施形態によれば、周波数領域の音響信号についても、特定音を抑制しつつ、聴覚上のノイズの発生を防止することができる。

＜６．ハードウェア構成＞
最後に、図２８を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図２８は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図２８に示す情報処理装置９００は、例えば、図１、図１６、図１７、図１９、図２０、図２３、図２４及び図２６にそれぞれ示した各実施形態に係る信号処理装置１００を実現し得る。各実施形態に係る信号処理装置１００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図２８に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１、通信装置９１３及びセンサ９１５を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図１、図１６、図１７、図１９、図２０、図２３、図２４及び図２６にそれぞれ示した各実施形態に係る信号処理装置１００に含まれる各構成要素を形成し得る。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜７．まとめ＞
以上、図１〜図２８を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態係る信号処理装置１００は、入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算して、差分信号に差分信号を処理した信号を加算する。信号処理装置１００は、差分信号に差分信号を処理した信号を加算することにより、時間方向の急峻なレベルの変化を緩和して、耳障りな聴覚ノイズの発生を防ぐことができる。この効果は、入力された音響信号がジョイントステレオ符号化方式等により圧縮されていた場合により顕著に得られる。本実施形態によれば、聴覚ノイズが発生する大きな原因のひとつである時間方向の急峻なレベルの変化を、直接的に緩和することが可能である。このため、本実施形態に係る信号処理装置１００は、時間方向の急峻なレベルの変化を間接的に緩和し得る第２の比較例と比較して、聴覚ノイズの発生の防止効果が高く且つ効率的であると考えられる。また、信号処理装置１００は、特定音が抑制された差分信号を処理した信号を加算するので、特定音の抑制性能を代償とすることがなく、高い抑制性能を実現することが可能である。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、本実施形態に係る信号処理装置１００は多様な機器に搭載されることができる。例えば、ステレオコンポーネントシステム等の音源を再生する装置に本実施形態に係る信号処理装置１００が搭載される場合、ユーザは、楽曲のボーカルを抑制して再生することで、手軽にカラオケを楽しむことができる。また、カーナビゲーションシステム等の音声ガイドを再生する装置に本実施形態に係る信号処理装置１００が搭載される場合、信号処理装置１００は、音声ガイドが再生されるときに再生中の楽曲のボーカルを抑制してもよい。その場合、音声ガイドが楽曲のボーカルに掻き消されることが防止されるので、ユーザは、楽曲の再生を楽しみつつ音声ガイドを鮮明に聞き取ることが可能となる。

なお、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部又は全部が別々の装置として実現されても良い。例えば、信号処理装置１００の一部又は全部の構成要素がネットワーク等で接続されたサーバ等の装置に備えられていても良く、サーバ単体で又はサーバと信号処理装置１００との協働で上述した処理が行われてもよい。

また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算する差分信号計算部と、
前記差分信号計算部により計算された前記差分信号に前記差分信号を処理した信号を加算する処理部と、
を備える信号処理装置。
（２）
前記処理部は、前記差分信号を処理した信号として、前記差分信号を遅延させた遅延信号を生成する、前記（１）に記載の信号処理装置。
（３）
前記信号処理装置は、前記遅延信号の遅延量を設定する遅延量設定部をさらに備える、前記（２）に記載の信号処理装置。
（４）
前記遅延量設定部は、前記入力された音響信号の圧縮符号化情報を用いて前記遅延量を設定する、前記（３）に記載の信号処理装置。
（５）
前記遅延量設定部は、前記遅延量を前記圧縮符号化情報が示すフレーム幅以下に設定する、前記（４）に記載の信号処理装置。
（６）
前記処理部は、ＩＩＲ（Infinite impulse response）フィルタを用いて前記遅延信号を生成する、前記（２）〜（５）のいずれか一項に記載の信号処理装置。
（７）
前記処理部は、ＦＩＲ（Finite impulse response）フィルタを用いて前記遅延信号を生成する、前記（２）〜（５）のいずれか一項に記載の信号処理装置。
（８）
前記信号処理装置は、前記処理部による前記加算に係る重み付け係数を設定する係数設定部をさらに備える、前記（２）〜（６）のいずれか一項に記載の信号処理装置。
（９）
前記係数設定部は、前記入力された音響信号の圧縮符号化情報に基づいて前記重み付け係数を設定する、前記（８）に記載の信号処理装置。
（１０）
前記係数設定部は、前記入力された音響信号がモノラルに近い度合に基づいて、前記重み付け係数を設定する、前記（８）又は（９）に記載の信号処理装置。
（１１）
前記信号処理装置は、
前記差分信号を複数の帯域に分割する帯域分割部と、
前記帯域分割部により分割された複数の前記差分信号を合成する合成部と、
をさらに備え、
前記処理部は、前記帯域分割部により分割された複数の帯域のうち少なくともひとつの帯域において前記差分信号に前記差分信号を処理した信号を加算し、
前記合成部は、前記処理部により処理された帯域の前記差分信号と前記帯域分割部により分割された複数の帯域のうち前記処理部による処理がなされなかった帯域の前記差分信号とを合成する、前記（１）〜（１０）のいずれか一項に記載の信号処理装置。
（１２）
前記信号処理装置は、
前記差分信号のゲインレベルを設定するゲインレベル設定部と、
前記ゲインレベル設定部により設定されたゲインレベルを用いて前記差分信号のゲインを制御するゲイン制御部と、
をさらに備える、前記（１）〜（１１）のいずれか一項に記載の信号処理装置。
（１３）
前記ゲインレベル設定部は、前記入力された音響信号がモノラルに近い度合に基づいて前記ゲインレベルを設定する、前記（１２）に記載の信号処理装置。
（１４）
前記信号処理装置は、
前記差分信号を複数の帯域に分割する帯域分割部と、
前記帯域分割部により分割された複数の前記差分信号を合成する合成部と、
をさらに備え、
前記ゲイン制御部は、前記帯域分割部により分割された複数の帯域のうち少なくともひとつの帯域において、前記ゲインレベル設定部により設定された前記ゲインレベルを用いて前記差分信号のゲインを制御し、
前記合成部は、前記ゲイン制御部により制御された帯域の前記差分信号と前記帯域分割部により分割された複数の帯域のうち前記ゲイン制御部による制御がなされなかった帯域の前記差分信号とを合成する、前記（１２）又は（１３）に記載の信号処理装置。
（１５）
前記処理部は、前記帯域分割部により分割された複数の帯域のうち少なくともひとつの帯域において前記差分信号に前記差分信号を処理した信号を加算し、
前記ゲイン制御部は、前記ゲインレベル設定部により設定された前記ゲインレベルを用いて前記処理部により処理された信号のゲインを制御し、
前記合成部は、前記ゲイン制御部により制御された信号と前記帯域分割部により分割された複数の帯域のうち前記ゲイン制御部による制御がなされなかった帯域の前記差分信号とを合成する、前記（１４）に記載の信号処理装置。
（１６）
前記差分信号計算部は、時間領域で前記差分信号を計算する、前記（１）〜（１５）のいずれか一項に記載の信号処理装置。
（１７）
前記差分信号計算部は、周波数領域で前記差分信号を計算する、前記（１）〜（１５）のいずれか一項に記載の信号処理装置。
（１８）
入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算することと、
計算された前記差分信号に前記差分信号を処理した信号をプロセッサにより加算することと、
を含む信号処理方法。
（１９）
コンピュータを、
入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算する差分信号計算部と、
前記差分信号計算部により計算された前記差分信号に前記差分信号を処理した信号を加算する処理部と、
として機能させるためのプログラム。

１００信号処理装置
１１０差分信号計算部
１２０ぼかし処理部
１２１遅延バッファＤＢ
１２２遅延器
１２３遅延量設定部
１２４係数設定部
１２５ぼかしレベル計算部
１３０帯域分割部
１３１合成部
１４０ゲインレベル設定部
１４１ゲイン制御部
１５０ＦＦＴ部
１５１ＩＦＦＴ部

Claims

入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算する差分信号計算部と、
前記差分信号計算部により計算された前記差分信号に前記差分信号を遅延させた遅延信号を加算する処理部と、
前記遅延信号の遅延量を、前記入力された音響信号の圧縮符号化情報が示すフレーム幅以下に設定する遅延量設定部と、
を備える信号処理装置。
前記処理部は、ＩＩＲ（Infinite impulse response）フィルタを用いて前記遅延信号を生成する、請求項１に記載の信号処理装置。
前記処理部は、ＦＩＲ（Finite impulse response）フィルタを用いて前記遅延信号を生成する、請求項１に記載の信号処理装置。
前記信号処理装置は、前記処理部による前記加算に係る重み付け係数を設定する係数設定部をさらに備える、請求項１〜３のいずれか一項に記載の信号処理装置。
前記係数設定部は、前記入力された音響信号の圧縮符号化情報が示すビットレート及び／又はジョイントステレオ符号化の使用状況に基づいて前記重み付け係数を設定する、請求項４に記載の信号処理装置。
前記係数設定部は、前記入力された音響信号がモノラルに近い度合に基づいて、前記重み付け係数を設定する、請求項４又は５に記載の信号処理装置。
前記信号処理装置は、
前記差分信号を複数の帯域に分割する帯域分割部と、
前記帯域分割部により分割された複数の前記差分信号を合成する合成部と、
をさらに備え、
前記処理部は、前記帯域分割部により分割された複数の帯域のうち少なくともひとつの帯域において前記差分信号に前記遅延信号を加算し、
前記合成部は、前記処理部により処理された帯域の前記差分信号と前記帯域分割部により分割された複数の帯域のうち前記処理部による処理がなされなかった帯域の前記差分信号とを合成する、請求項１〜６のいずれか一項に記載の信号処理装置。
前記信号処理装置は、
前記差分信号のゲインレベルを設定するゲインレベル設定部と、
前記ゲインレベル設定部により設定されたゲインレベルを用いて前記差分信号に前記遅延信号を加算した信号のゲインを制御するゲイン制御部と、
をさらに備える、請求項１〜６のいずれか一項に記載の信号処理装置。
前記ゲインレベル設定部は、前記入力された音響信号がモノラルに近い度合に基づいて前記ゲインレベルを設定する、請求項８に記載の信号処理装置。
前記信号処理装置は、
前記差分信号を複数の帯域に分割する帯域分割部と、
前記帯域分割部により分割された複数の前記差分信号を合成する合成部と、
をさらに備え、
前記処理部は、前記帯域分割部により分割された複数の帯域のうち少なくともひとつの帯域において前記差分信号に前記遅延信号を加算し、
前記ゲイン制御部は、前記ゲインレベル設定部により設定された前記ゲインレベルを用いて前記処理部により処理された信号のゲインを制御し、
前記合成部は、前記ゲイン制御部により制御された信号と前記帯域分割部により分割された複数の帯域のうち前記ゲイン制御部による制御がなされなかった帯域の前記差分信号とを合成する、請求項８又は９に記載の信号処理装置。
前記差分信号計算部は、時間領域で前記差分信号を計算する、請求項１〜１０のいずれか一項に記載の信号処理装置。
前記差分信号計算部は、周波数領域で前記差分信号を計算する、請求項１〜１０のいずれか一項に記載の信号処理装置。
入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算することと、
計算された前記差分信号に前記差分信号を遅延させた遅延信号をプロセッサにより加算することと、
前記遅延信号の遅延量を、前記入力された音響信号の圧縮符号化情報が示すフレーム幅以下に設定することと、
を含む信号処理方法。
コンピュータを、
入力された音響信号を形成する第１のチャネルの音響信号及び第２のチャネルの音響信号の差分信号を計算する差分信号計算部と、
前記差分信号計算部により計算された前記差分信号に前記差分信号を遅延させた遅延信号を加算する処理部と、
前記遅延信号の遅延量を、前記入力された音響信号の圧縮符号化情報が示すフレーム幅以下に設定する遅延量設定部と、
として機能させるためのプログラム。