JP2017181761A

JP2017181761A - 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム

Info

Publication number: JP2017181761A
Application number: JP2016068405A
Authority: JP
Inventors: 大藤枝; Masaru Fujieda
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2017-10-05

Abstract

【課題】入力信号に対して目的音を強調する処理を行う際の音質をより向上させる。【解決手段】音響信号処理装置１００は、複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第１のゲインを得るゲイン算出手段１０２と、第１のゲインに基づいて帯域ごとの結合係数を得る結合係数算出手段１０３と、結合係数に基づいて第１のゲインと帯域ごとに所定の定数値で与えられる第２のゲインとを凸結合することで第１のゲインを修正した帯域ごとの第３のゲインを得るゲイン修正手段１０４と、複数の入力スペクトルの１つに帯域ごとに第３のゲインを乗じて目的音強調スペクトルを得る目的音強調手段１０５とを有することを特徴とする。【選択図】図１

Description

本発明は、音響信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラムに関し、例えば、複数の音源が存在する環境下で、特定の音源のみ強調し収音する音声処理装置（音響信号処理装置）に適用し得る。

複数の音源が存在する環境下において、ある目的の音源を抽出する技術として、複数のマイクロホンを用いた音源分離や、マイクロホンを直線や平面、球面上等に配置したマイクロホンアレイを用いたビームフォーマや、ヌルフォーマ等がある。特に、目的の音源以外の音源が非定常である場合や、複数ある場合には、単一のマイクロホンを用いたノイズサプレッサによる目的音源の抽出は難しく、２つ以上のマイクロホンを用いることが必須となる。

上述したマイクロホンアレイを用いたビームフォーマとは、ある特定の方向の音のみ強調し収音する技術である。ビームフォーマとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である。

ビームフォーマには、加算型と減算型という２つの種類がある。加算型ビームフォーマに比べて、減算型ビームフォーマはより少ないマイクロホン数で鋭い指向性を形成できるという利点がある。

図４は、マイクロホン数が２個の場合の減算型ビームフォーマを適用した従来の収音装置ＰＳの構成について示したブロック図である。

減算型ビームフォーマを適用した収音装置ＰＳでは、まず遅延器により目的とする方向に存在する目的音が各マイクロホンＭ１−Ｍ２に到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。時間差は（１）式により算出される。（１）式において、ｄはマイクロホン間の距離、ｃは音速、τ_Ｌは遅延量をそれぞれ表している。また、（１）式において、θ_Ｌは、２つのマイクロホンＭ１−Ｍ２の位置を結んだ直線に対する垂直方向から目的方向への角度を表している。

収音装置ＰＳの遅延器は、例えば、死角がマイクロホンＭ１とマイクロホンＭ２の中心に対し、マイクロホンＭ１の方向に存在する場合、マイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、収音装置ＰＳの減算器では、（２）式に従い処理が行われる。

収音装置ＰＳの減算器では、周波数領域でも減算処理を同様に行うことができ、その場合（２）式は（３）式のように変更される。

例えば、θ_Ｌ＝±π／２の場合、（３）式により形成される指向性は、図５に示すようなカージオイド型の単一指向性となる。また、例えば、θ_Ｌ＝０，πの場合、（３）式により形成される指向性は、図６のような８の字型の双指向性となる。以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。

また、従来の収音装置では、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ：ＳＳ）を用いることで、双指向性の死角方向に強い指向性を形成することができる。従来の収音装置において、ＳＳによる指向性の形成は、例えば、以下の（４）式を用いて行うことができる。（４）式では、マイクロホンＭ１の入力信号Ｘ_１（ω）を用いているが、マイクロホンＭ２の入力信号Ｘ_２（ω）でも同様の効果を得ることができる。また、（４）式において、αはＳＳの強度を調整するための係数であり、βは最大抑圧量である。

非特許文献１では、単一指向性及び双指向性の２種類の指向性を利用することで、目的方向に強い指向性を形成する手法を提案している。非特許文献１の手法では、まず目的方向に対して左右（垂直方向）に死角を向ける２つの単一指向性と、目的方向と同じ方向に死角を向ける双指向性を形成する。その後、非特許文献１の手法では、２つの単一指向性フィルタ出力のうち、パワーの小さい方を選択し、選択した単一指向性フィルタ出力から双指向性フィルタ出力をＳＳすることにより、非目的音を抑圧し、目的音を強調する。非特許文献１の手法では、周囲に存在する非目的音を抑圧し、目的音のみを強調できる。特に、ＳＳを用いる場合、使用するマイクロホン数が少なく、且つ低演算量で鋭い指向性を形成できる。

矢頭隆、森戸誠、山田圭、小川哲司、"正方形マイクロホンアレイによる音源分離技術"、情報処理、Ｖｏｌ．５１、Ｎｏ．１１、２０１０

しかしながら、従来の目的音強調処理において、ＳＳが適用される場合、通常フロアリング処理を行うが、このとき（時間周波数領域における）周囲の周波数成分に比べてパワーの大きい孤立周波数成分ができてしまうと、不快なミュージカルノイズが発生する原因となってしまう。従来の目的音強調処理では、ビームフォーマに限らず、音源分離やヌルフォーマでも、除去しきれずに歪んだ状態で非目的音が残留したり、特に周波数領域で処理した場合には上述のＳＳと同様にミュージカルノイズが発生したりすることが多い。

以上のような問題に鑑みて、入力信号に対して目的音を強調する処理を行う際の音質をより向上（例えば、非目的音の残留音やミュージカルノイズのような不快な音を軽減）させることができる音響信号処理装置及びゲイン処理装置が望まれている。

第１の本発明の音響信号処理装置は、（１）複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第１のゲインを得るゲイン算出手段と、（２）前記第１のゲインに基づいて前記帯域ごとの結合係数を得る結合係数算出手段と、（３）前記結合係数に基づいて前記第１のゲインと前記帯域ごとに所定の定数値で与えられる第２のゲインとを凸結合することで前記第１のゲインを修正した前記帯域ごとの第３のゲインを得るゲイン修正手段と、（４）前記複数の入力スペクトルの一部又は全部に前記帯域ごとに前記第３のゲインを乗じて目的音強調スペクトルを得る目的音強調手段とを有することを特徴とする。

第２の本発明のゲイン処理装置は、（１）複数の入力音響信号に基づく複数の入力スペクトルに基づいて目的音成分を強調した所定の帯域ごとの第１のゲインについて、前記帯域ごとの結合係数を得る結合係数算出手段と、（２）前記結合係数に基づいて前記第１のゲインと前記帯域ごとに所定の定数値で与えられる第２のゲインとを凸結合することで、前記第１のゲインを修正した前記帯域ごとの第３のゲインを得るゲイン修正手段とを有することを特徴とする。

第３の本発明の音響信号処理プログラムは、コンピュータを、（１）複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第１のゲインを得るゲイン算出手段と、（２）前記第１のゲインに基づいて前記帯域ごとの結合係数を得る結合係数算出手段と、（３）前記結合係数に基づいて前記第１のゲインと前記帯域ごとに所定の定数値で与えられる第２のゲインとを凸結合することで前記第１のゲインを修正した前記帯域ごとの第３のゲインを得るゲイン修正手段と、（４）前記複数の入力スペクトルの一部又は全部に前記帯域ごとに前記第３のゲインを乗じて目的音強調スペクトルを得る目的音強調手段として機能させることを特徴とする。

第４の本発明のゲイン処理プログラムは、コンピュータを、（１）複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調した所定の帯域ごとの第１のゲインについて、前記帯域ごとの結合係数を得る結合係数算出手段と、（２）前記結合係数に基づいて前記第１のゲインと前記帯域ごとに所定の定数値で与えられる第２のゲインとを凸結合することで前記第１のゲインを修正した前記帯域ごとの第３のゲインを得るゲイン修正手段として機能させることを特徴とする。

本発明によれば、入力信号に対して目的音を強調する処理を行う際の音質をより向上（例えば、信号の歪みやミュージカルノイズの抑制）させることができる。

第１の実施形態に係る音声処理装置の機能的構成について示したブロック図である。第２の実施形態に係る音声処理装置の機能的構成について示したブロック図である。第３の実施形態に係る音声処理装置の機能的構成について示したブロック図である。従来の収音装置の構成について示した説明図である。従来の単一指向性フィルタにより形成される指向特性の一例を説明する説明図である。従来の双指向性フィルタにより形成される指向特性の一例を説明する説明図である。

（Ａ）第１の実施形態
以下、本発明による音響信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラムの第１の実施形態を、図面を参照しながら詳述する。以下では、本発明の音響信号処理装置及びゲイン処理装置を音声処理装置に適用した例について説明する。

（Ａ−１）第１の実施形態の構成
図１は、この実施形態の音声処理装置１００の全体構成を示すブロック図である。

音声処理装置１００は、目的音源を含むＭ個の入力信号ｘ_１〜ｘ_Ｍ（時間領域の入力信号）を用いて、所定の入力信号について目的音強調処理を行い、目的音強調信号ｙ（時間領域の出力信号）を生成するものである。音声処理装置１００としては、例えば、通信端末（例えば、携帯電話端末やスマートホン等の音声通話が可能な通信端末）、オーディオ機器、音声認識装置等の目的音を収音して種々の音響信号処理を行う装置に適用することができる。

なお、入力信号の数は限定されないものであるが、例えば、音声処理装置１００が２つのマイクロホンにより構成されるマイクロホンアレイから入力される入力信号を処理する場合、Ｍ＝２となる。

音声処理装置１００は、周波数解析手段１０１−１〜１０１−Ｍと、ゲイン算出手段１０２と、結合係数算出手段１０３と、ゲイン修正手段１０４と、乗算手段１０５と、波形復元手段１０６とを有する。

音声処理装置１００は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態に係る音響信号処理プログラムを含む）をインストールすることにより実現するようにしてもよい。

第１の実施形態では、結合係数算出手段１０３、及びゲイン修正手段１０４により、本発明のゲイン処理装置が構成されている。本発明のゲイン処理装置についても、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態に係るゲイン処理プログラム）をインストールすることにより実現するようにしてもよい。

第１の実施形態の音声処理装置１００は、周波数領域で目的音を強調する際に、歪みやミュージカルノイズ等を低減するものである。第１の実施形態の音声処理装置１００において、目的音強調に適用する手法（方式）としては、例えば、（４）式のビームフォーマ手法（以下、「ＳＳＢＦ」と呼ぶ）や、非特許文献１に記載のビームフォーマ手法（以下、「ＣＳＳＢＦ」と呼ぶ）や、独立成分分析や独立ベクトル分析を用いて音源を分離する方法（以下、「ＩＣＡＢＢＳ」と呼ぶ）や、マイクロホン間の振幅比や位相差に注目して時間周波数点ごとに０又は１のゲインを乗じて音源を分離する手法（以下「ＭａｓｋＢＳＳ」と呼ぶ）等（以下、これらの手法を総称して「従来手法」と呼ぶ）を適用することができる。

ゲイン算出手段１０２では、従来手法を用いて、特定の音源、又は特定の方向を強調する帯域ごとのゲイン（第１のゲイン）を算出する。第１のゲインを入力スペクトルの１つに帯域ごとに乗じると、従来手法によるスペクトルが得られるが、上述した通り、歪んだ非目的音が残留したり、ミュージカルノイズが発生したりしてしまう場合がある。

結合係数算出手段１０３は、第１のゲインを周波数方向と時間方向に平滑化して、帯域ごとの結合係数（範囲０．０〜１．０）を算出する。第１のゲインは、目的音が存在すると判断した帯域では１．０に近い値を取り、目的音が存在しないと判断した帯域では０．０に近い値を取る。すなわち、第１のゲインは目的音らしさの一指標となっており、これを平滑化した結合係数も目的音らしさを表している。平滑化する理由は後述する。

第１の実施形態においては、ゲイン修正手段１０４は、歪みやミュージカルノイズを生じる第１のゲインと、まったく歪みを生じない第２のゲインとを、結合係数によってファジーに切り替えることで、不快な雑音を生じない第３のゲインを算出する。第２のゲインは、帯域ごとに所定の定数で与えられる。当該所定の定数は、ある程度小さく（例えば、０．１程度）、且つ周波数方向に十分滑らかとするのが好適である（例えば、隣り合う帯域の比が±１ｄＢ以内）。局所的（例えば、区間１００ミリ秒且つ帯域２００Ｈｚ程度）に見れば、第２のゲインは「音の大きさ」を変化させているだけなので、もし第２のゲインを入力スペクトルの１つに帯域ごとに乗じると、まったく歪みを生じないが、目的音もろとも抑圧されたスペクトルが得られる。ある帯域において、第１のゲインをＧ（目的音強調ゲイン）、第２のゲインをＦ（無歪ゲイン）、結合係数をＣ、第３のゲインをＨ（修正ゲイン）とすると、ゲイン修正手段１０４は、（５）式を用いて第３のゲインＨを算出することができる。すなわち、Ｃが目的音らしさを意味しているため、第３のゲインＨを適用することは、目的音が優勢な帯域については第１のゲインＧを適用し、目的音が優勢でない帯域については第２のゲインＦを適用することになる。第３のゲインＨにおいて、第１のゲインＧと第２のゲインＦの切り替えが急激に行われると、不快な歪みを生じてしまうが、Ｃは周波数方向と時間方向に平滑化されているので、切り替えは緩やかに（ファジーに）行われ、不快な歪みが抑制される。

乗算手段１０５（目的音強調手段）は、以上のようにして得られた第３のゲインを、入力スペクトルの１つに帯域ごとに乗じて、不快な歪みを生じない目的音強調スペクトルを得る。

（Ａ−２）第１の実施形態の動作
次に、上述した構成を有する第１の実施形態の音声処理装置１００の動作について、図１を参照しながら説明する。

周波数解析手段１０１−１〜１０１−Ｍは、フーリエ変換に代表される任意の周波数解析手法、またはフィルタバンクに代表される任意の帯域分割手段によって、入力信号ｘ_１〜ｘ_ＭをそれぞれＫ個の帯域に分割する。入力信号ｘ_ｍからｋ番目の帯域に分割された信号をＸ_ｋ；ｍと表し、Ｋ個の帯域すべてをまとめて入力スペクトルＸ_ｍと表す。そして、周波数解析手段１０１−１〜１０１−Ｍは、得られた入力スペクトルＸ_１〜Ｘ_Ｍをゲイン算出手段１０２に与えるとともに、所定の入力信号に基づく入力スペクトル（この実施形態では、Ｘ_１とする）を乗算手段１０５に与える。なお、乗算手段１０５に与えられる入力スペクトルは１番目の入力スペクトルＸ_１としたが、これに限定されるものではなく、１〜Ｍ番目のいずれの入力スペクトルを乗算手段１０５に与えても良い。

ゲイン算出手段１０２は、周波数解析手段１０１−１〜１０１−Ｍから与えられた入力スペクトルＸ_１〜Ｘ_Ｍに基づいて、所定の目的音強調方法によって入力スペクトルＸ_１〜Ｘ_Ｍに含まれる目的音成分又は目的音方向の推定を行い、得られた目的音強調ゲインＧ（第１のゲイン）を結合係数算出手段１０３及びゲイン修正手段１０４に与える。

目的音強調ゲインＧには、それぞれの帯域について、個別の値を有している。以下では、目的音強調ゲインＧにおける、任意の帯域ｋの値をＧ_ｋと表す。Ｇ_ｋは０．０〜１．０の範囲の実数値となる。

ゲイン算出手段１０２における目的音強調方法としては、例えば、ＳＳＢＦ、ＣＳＳＢＦ、ＩＣＡＢＢＳ、ＭａｓｋＢＢＳ等に代表される任意の処理（例えば、ビームフォーマ、ヌルフォーマ、音源分離等）を適用することができる。以下では、ゲイン算出手段１０２は、一例として、ＳＳＢＦを用いた目的音強調ゲインＧの算出を行うものとして説明する。

以下では、算出手段１０２では、ＳＳＢＦのパラメータＭ＝２とし、目的音源は正面方向（２つのマイクロホンを結んだ直線の鉛直方向）に存在しているものとする。ゲイン算出手段１０２は、まず双指向性フィルタ、すなわち（６）式によって、目的音を除去した妨害音スペクトルＤを得る。そして、ゲイン算出手段１０２は、（７）式によって目的音強調ゲインＧを得る。ところで、（７）式の両辺に｜Ｘ_ｋ；１｜を乗じると、（４）式と同じ形となる。そこで、ゲイン算出手段１０２は、（７）式で得られたゲインをＸ_１の帯域ごとに乗じればＳＳを実行したことと同じ結果になることが確認できる。

結合係数算出手段１０３は、ゲイン算出手段１０２から与えられた目的音強調ゲインＧに基づいて結合係数Ｃを算出し、得られた結合係数Ｃをゲイン修正手段１０４に与える。

結合係数Ｃは、目的音強調ゲインＧと同様に、帯域それぞれに個別の値を有している。以下では、結合係数Ｃの任意の帯域ｋの値をＣ_ｋと表す。Ｃ_ｋは０．０〜１．０の範囲の実数値となる。Ｃ_ｋは、大きいほど目的音らしさが高いことを意味する。

結合係数算出手段１０３は、目的音強調ゲインＧを周波数方向と時間方向に平滑化した値を結合係数Ｃとして算出する。結合係数算出手段１０３が行う平滑化の方法は任意であり、例えば画像処理で用いられるような２次元の移動平均法や、２次元ガウシアンフィルタなどを適用できる。結合係数算出手段１０３が行う平滑化方式として、より好適には、まず周波数方向に移動平均法を用いて平滑化し、次に時間方向に時定数フィルタ（リーク積分ともいう）を用いて平滑化する方式がある。

また、結合係数算出手段１０３は、周波数方向に移動平均法によって平滑化する際には、単なる平均を取っても良いし、加重平均を取るようにしても良い。また、結合係数算出手段１０３は、周波数によって平均又は加重平均する範囲を変更しても良く、例えば臨界帯域幅に比例する範囲を平均又は加重平均するようにしてもよい。

臨界帯域幅とは、人間の聴覚において、ある純音に対する聴覚マスキングが有効な帯域幅のことである。臨界帯域幅は、純音の周波数に対して非線形で、５００Ｈｚ以下の純音に対しては常に１００Ｈｚであり、５００Ｈｚより上の周波数では純音の周波数に対して１／３〜１／４オクターブの割合で増加していく特性を持つ。臨界帯域幅（単位はＢａｒｋ）の近似式がいくつか提案されている。結合係数算出手段１０３は、例えば、以下の（８）式を用いて臨界帯域幅ｂ［Ｂａｒｋ］を求めることができる。なお、（８）式において、ｆは周波数（単位はＨｚ）である。

ゲイン修正手段１０４は、目的音強調ゲインＧと所定の定数値で与えられた無歪ゲインＨ（第２のゲイン）とを、結合係数Ｃに基づいて帯域ごとに凸結合し、得られた修正ゲインＨ（第３のゲイン）を乗算手段１０５に与える。

無歪ゲインＦ及び修正ゲインＨは、目的音強調ゲインＧと同様に、帯域それぞれに個別の値を有している。以下では、無歪ゲインＦの任意の帯域ｋの値をＦ_ｋと表す。また、以下では、修正ゲインＨの任意の帯域ｋの値をＨ_ｋと表す。Ｆ_ｋ、Ｈ_ｋはいずれも０．０〜１．０の範囲の実数値となる。

無歪ゲインＦは、帯域ごとに所定の定数となる。無歪ゲインＦの帯域ごとに設定される所定の定数は、ある程度小さく（例えば、０．１程度）、且つ周波数方向に十分滑らかとする（例えば、隣り合う帯域の比を±１ｄＢ以内とする）ことが望ましい。なお、無歪ゲインＦでは、全帯域に渡って同じ値を設定するようにしてもよい。

ゲイン修正手段１０４は、例えば、（９）式を用いて、帯域ごとの修正ゲインＨ_ｋを得ることができる。

乗算手段１０５は、入力スペクトルＸ_１に帯域ごとに修正ゲインＨを乗じ、得られた目的音強調スペクトルＹを波形復元手段１０６に与える。

目的音強調スペクトルＹは、入力スペクトルＸ_１と同様に、帯域それぞれに個別の値を有している。以下では、目的音強調スペクトルＹの任意の帯域ｋの値をＹ_ｋと表す。

波形復元手段１０６は、周波数解析手段１０１−１〜１０１−Ｍで用いた周波数解析手法または帯域分割手法に対応する波形復元手法を用いて、乗算手段１０５から与えられた目的音強調スペクトルＹに基づいて時間波形を再構成し、得られた目的音強調信号ｙを出力する。

なお、音声処理装置１００は、目的音強調スペクトルＹの波形を復元して目的音強調信号ｙを出力するものとして説明したが、波形を復元せずに目的音強調スペクトルＹを出力しても良い。また、目的音強調スペクトルＹと目的音強調信号ｙの両方を出力するようにしても良い。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施形態の音声処理装置１００は、目的音強調ゲインＧ（目的音源又は目的音方向を強調できるが歪みを生じる場合のあるゲイン）と、所定の定数値で与えられた無歪ゲインＦ（歪みはないが音声成分を強調できないゲイン）とを、目的音らしさを意味し且つ周波数方向と時間方向とに滑らかに変化する結合係数Ｃに基づいて凸結合することによって修正ゲインＨを得る。そして、第１の実施形態の音声処理装置１００は、修正ゲインＨを用いて入力スペクトルについて目的音成分を強調することで、従来の目的音強調方法と同等の目的音強調性能を維持しながら歪みを生じない信号処理を行うことができる。

（Ｂ）第２の実施形態
以下、本発明による音響信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラムの第２の実施形態を、図面を参照しながら詳述する。以下では、本発明の音響信号処理装置及びゲイン処理装置を音声処理装置に適用した例について説明する。

（Ｂ−１）第２の実施形態の構成
図２は、第２の実施形態の音声処理装置２００の構成を示すブロック図である。図２では、上述の図１と同一部分又は対応部分には、同一符号又は対応符号を付している。

以下では、第２の実施形態について第１の実施形態との差異を説明する。

図２に示すように、第２の実施形態の音声処理装置２００には、平滑化手段２０７が追加されている点で第１の実施形態と異なっている。

第２の実施形態では、結合係数算出手段１０３、ゲイン修正手段１０４、及び平滑化手段２０７により、本発明のゲイン処理装置が構成されている。

（Ｂ−２）第２の実施形態の動作
次に、上述した構成を有する第２の実施形態の音声処理装置２００の動作について、図２を参照しながら説明する。

以下では、第２の実施形態の音声処理装置２００の動作について、第１の実施形態との差異部分のみを説明する。

第２の実施形態の音声処理装置２００では、ゲイン算出手段１０２によって算出された目的音強調ゲインＧが平滑化手段２０７にも与えられる点と、平滑化手段２０７により、目的音強調ゲインＧに応じた無歪ゲインＦが生成され、ゲイン修正手段１０４に供給される点で、第１の実施形態と異なっている。

平滑化手段２０７は、ゲイン算出手段１０２から与えられた目的音強調ゲインＧに基づいて無歪ゲインＦを算出し、得られた無歪ゲインＦをゲイン修正手段１０４に与える。

平滑化手段２０７は、目的音強調ゲインＧを周波数方向と時間方向に平滑化した値を無歪ゲインＦとして算出する。平滑化手段２０７が行う平滑化の方法は任意であり、例えば、画像処理で用いられるような２次元の移動平均法や２次元ガウシアンフィルタなどを適用できる。平滑化手段２０７が行う平滑化方式として、より好適には、まず周波数方向に移動平均法を用いて平滑化し、次に時間方向に時定数フィルタ（リーク積分ともいう）を用いて平滑化する方式がある。

また、平滑化手段２０７は、周波数方向に移動平均法によって平滑化する際には、単なる平均を取っても良いし、加重平均を取るようにしても良い。また、平滑化手段２０７は、周波数によって平均又は加重平均する範囲を変更しても良く、例えば臨界帯域幅に比例する範囲を平均又は加重平均するようにしてもよい。また、平滑化手段２０７では、結合係数算出手段１０３における平滑化方法と同一としても良いし、異なる方法やパラメータを用いても良いが、無歪ゲインＦは歪みをまったく生じない特性を持つ必要がある。したがって、平滑化手段２０７は、周波数方向の平滑化は臨界帯域幅で平滑化した場合と同等以上に滑らかにし、時間方向の平滑化は結合係数算出手段１０３よりも滑らかにすることが好ましい。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、以下のような効果を奏することができる。

第２の実施形態では、平滑化手段２０７が、目的音強調ゲインＧを周波数方向と時間方向に平滑化した値を無歪ゲインＦとして算出する。そして、ゲイン修正手段１０４は、平滑化手段２０７から供給された無歪ゲインＦを用いて、目的音強調ゲインＧを修正する。これにより、第２の実施形態では、入力信号の特性によって変化する目的音強調ゲインＧに対して適応した無歪ゲインＦを適用することができ、目的音強調ゲインＧが優勢な帯域及び時刻と無歪ゲインＦが優勢な帯域及び時刻との差異が適応的に調整される。これにより、第２の実施形態の音声処理装置１００では、音声強調性能を維持しながら、入力信号の特性に適応して歪み等を低減させることができる。

（Ｃ）第３の実施形態
以下、本発明による音響信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラムの第３の実施形態を、図面を参照しながら詳述する。以下では、本発明の音響信号処理装置及びゲイン処理装置を音声処理装置に適用した例について説明する。

（Ｃ−１）第３の実施形態の構成
次に、上述した構成を有する第２の実施形態の音声処理装置３００の動作について、図３を参照しながら説明する。

以下では、第３の実施形態の音声処理装置３００の動作について、第２の実施形態との差異部分のみを説明する。

第３の実施形態の音声処理装置３００では、乗算手段１０５と波形復元手段１０６が入力信号ｘ_１〜ｘ_Ｍごとに配置されている点で第１の実施形態と異なっている。すなわち、第３の実施形態の音声処理装置３００では、乗算手段１０５と波形復元手段１０６が周波数解析手段１０１と同じ数（Ｍ個）配置されている。第３の実施形態に係る音声処理装置３００は、Ｍ個の乗算手段１０５（１０５−１〜１０５−Ｍ）と、Ｍ個の波形復元手段１０６（１０６−１〜１０６−Ｍ）とを有している。

（Ｃ−２）第３の実施形態の動作
次に、上述した構成を有する第２の実施形態の音声処理装置３００の動作について、図３を参照しながら説明する。

以下では、第３の実施形態の音声処理装置３００の動作について、第１の実施形態との差異部分のみを説明する。

第１の実施形態では、入力信号ｘ_１のみが乗算手段１０５に供給されていた。これに対して、第２の実施形態では、入力信号ｘ_１〜ｘ_Ｍが、それぞれ乗算手段１０５−１〜１０５−Ｍに供給される。

また、第１の実施形態の音声処理装置１００では、ゲイン修正手段１０４が、得られた修正ゲインＨを、ただ１つの乗算手段１０５に与えていた。これに対して、第２の実施形態のゲイン修正手段１０４は、得られた修正ゲインＨを、Ｍ個の乗算手段１０５−１〜１０５−Ｍに与える。

そして、第２の実施形態では、乗算手段１０５−１〜１０５−Ｍにより、それぞれ入力信号ｘ_１〜ｘ_Ｍと修正ゲインＨとが乗算される。以下では、乗算手段１０５−１〜１０５−Ｍの乗算処理により得られる目的音強調スペクトルをＹ_１〜Ｙ_ｍと表す。

そして、目的音強調スペクトルＹ_１〜Ｙ_ｍは、それぞれ波形復元手段１０６−１〜１０６−Ｍに供給される。そして、波形復元手段１０６−１〜１０６−Ｍは、それぞれ目的音強調スペクトルＹ_１〜Ｙ_ｍに基づいて時間波形を再構成し、得られた目的音強調信号を出力する。以下では、波形復元手段１０６−１〜１０６−Ｍが出力する目的音強調信号を、ｙ_１〜ｙ_Ｍと表す。

音声処理装置３００は、例えば、複数の入力信号（マイクロホンの入力）を用いる任意の装置の前処理として適用できる。音声処理装置３００から出力される目的音強調信号ｙ_１〜ｙ_Ｍは、例えば、所定の方向に音源を定位する装置（音像定位装置）に供給するようにしてもよい。

（Ｃ−３）第３の実施形態の効果
第３の実施形態によれば、以下のような効果を奏することができる。

第３の実施形態の音声処理装置１００では、すべての入力信号（マイクロホンの入力）に対して同じ修正ゲインＨを用いて目的音強調を行うので、複数の入力信号（マイクロホンの入力）を用いる任意の装置の前処理として好適な目的音強調処理（歪みやミュージカルノイズの少ない目的音強調処理）を提供できる。

（Ｄ）他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｄ−１）上記の各実施形態では、強調する目的音を音声としているが、音声以外の音（例えば、機械音や操作音等の音）を目的音（強調対象となる音響信号）としてもよい。

（Ｄ−２）第３の実施形態では、音声処理装置３００は、すべての目的音強調スペクトルの波形を復元して目的音強調信号を出力するものとして説明したが、波形を復元せずにすべての目的音強調スペクトルを出力するようにしても良いし、一部の目的音強調スペクトルを波形に復元して目的音強調信号と目的音強調スペクトルの両方を出力するようにしても良い。また、第３の実施形態では、音声処理装置３００は、すべてのマイクロホンの入力に関して目的音強調信号を出力するものとして説明したが、少なくとも２つ以上の任意の入力信号（図示しないマイクロホンからの入力信号）を選択して目的音強調信号を生成して出力するようにしても良い。

（Ｄ−３）上記の各実施形態では、音声処理装置に時間領域の入力信号を供給しているが、音声処理装置に予め周波数領域に変換した入力スペクトルを供給するようにしてもよい。

１００…音声処理装置、１０１、１０１−１〜１０１−Ｍ…周波数解析手段、１０２…ゲイン算出手段、１０３…結合係数算出手段、１０４…ゲイン修正手段、１０５…乗算手段、１０６…波形復元手段。

Claims

複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第１のゲインを得るゲイン算出手段と、
前記第１のゲインに基づいて前記帯域ごとの結合係数を得る結合係数算出手段と、
前記結合係数に基づいて前記第１のゲインと前記帯域ごとに所定の定数値で与えられる第２のゲインとを凸結合することで前記第１のゲインを修正した前記帯域ごとの第３のゲインを得るゲイン修正手段と、
前記複数の入力スペクトルの一部又は全部に前記帯域ごとに前記第３のゲインを乗じて目的音強調スペクトルを得る目的音強調手段と
を有することを特徴とする音響信号処理装置。
前記結合係数算出手段は、前記第１のゲインを周波数方向と時間方向とに平滑化して、前記結合係数を得ることを特徴とする請求項１に記載の音響信号処理装置。
前記結合係数算出手段は、前記第１のゲインを周波数方向に移動平均法によって平滑化し、さらに時間方向に時定数フィルタによって平滑化して前記結合係数を得ることを特徴とする請求項２に記載の音響信号処理装置。
前記結合係数算出手段は、前記第１のゲインを周波数方向に平滑化する際に、平均する範囲を臨界帯域幅に比例させることを特徴とする請求項３に記載の音響信号処理装置。
前記第１のゲインを周波数方向と時間方向とに平滑化して前記第２のゲインを取得する平滑化手段をさらに備え、
前記ゲイン修正手段は、前記平滑化手段が取得した前記第２のゲインを用いて前記第３のゲインを得る
ことを特徴とする請求項１〜４のいずれかに記載の音響信号処理装置。
前記平滑化手段は、前記第１のゲインを周波数方向に移動平均法によって平滑化し、さらに時間方向に時定数フィルタによって平滑化することで、前記第２のゲインを得ることを特徴とする請求項５に記載の音響信号処理装置。
前記平滑化手段は、前記第１のゲインを周波数方向に平滑化する際に、平均する範囲を臨界帯域幅に比例させることを特徴とする請求項６に記載された音響信号処理装置。
前記目的音強調手段は、前記複数の入力スペクトルのうちの少なくとも２つについて、それぞれ前記帯域ごとに前記第３のゲインを乗じて複数の目的音強調スペクトルを得ることを特徴とする請求項１〜７のいずれかに記載の音響信号処理装置。
複数の入力音響信号に基づく複数の入力スペクトルに基づいて目的音成分を強調した所定の帯域ごとの第１のゲインについて、前記帯域ごとの結合係数を得る結合係数算出手段と、
前記結合係数に基づいて前記第１のゲインと前記帯域ごとに所定の定数値で与えられる第２のゲインとを凸結合することで、前記第１のゲインを修正した前記帯域ごとの第３のゲインを得るゲイン修正手段と
を有することを特徴とするゲイン処理装置。
コンピュータを、
複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第１のゲインを得るゲイン算出手段と、
前記第１のゲインに基づいて前記帯域ごとの結合係数を得る結合係数算出手段と、
前記結合係数に基づいて前記第１のゲインと前記帯域ごとに所定の定数値で与えられる第２のゲインとを凸結合することで前記第１のゲインを修正した前記帯域ごとの第３のゲインを得るゲイン修正手段と、
前記複数の入力スペクトルの一部又は全部に前記帯域ごとに前記第３のゲインを乗じて目的音強調スペクトルを得る目的音強調手段と
して機能させることを特徴とする音響信号処理プログラム。
コンピュータを、
複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調した所定の帯域ごとの第１のゲインについて、前記帯域ごとの結合係数を得る結合係数算出手段と、
前記結合係数に基づいて前記第１のゲインと前記帯域ごとに所定の定数値で与えられる第２のゲインとを凸結合することで前記第１のゲインを修正した前記帯域ごとの第３のゲインを得るゲイン修正手段と
して機能させることを特徴とするゲイン処理プログラム。