JP5705190B2

JP5705190B2 - 音響信号強調装置、音響信号強調方法、およびプログラム

Info

Publication number: JP5705190B2
Application number: JP2012243616A
Authority: JP
Inventors: 達也加古; 小林　和則; 和則小林; 羽田　陽一; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-05
Filing date: 2012-11-05
Publication date: 2015-04-22
Anticipated expiration: 2032-11-05
Also published as: JP2014092705A

Description

本発明は、複数個のチャネルのデジタル音響信号から特定の音を強調する技術に関する。

発話者ごとの信号区間分類を行う従来の技術に、音の到来方向から発話者をクラスタリングし、各話者の発話区間を分類する手法がある（例えば、非特許文献１参照）。音源の位置やマイクロホン間の相対位置が未知の条件下で、複数のマイクロホンを利用した音声強調手法として、ＩＣＡ、ＳＮ比最大化ビームフォーマなどの手法がある。ＩＣＡはマイクロホンで収音した音響信号の統計的独立性を利用して音源を分離する手法であり、混合音から雑音を分離することで目的音を強調することができる。またＳＮ比最大化ビームフォーマは、音源とマイクロホンの間の伝達関数の性質が未知の状態で、目的音とその他の雑音のパワー比が最大になるフィルタを設計する手法である（例えば、非特許文献２参照）。

荒木章子，藤本雅清，石塚健太郎，澤田宏，牧野昭二，"音声区間検出と方向情報を用いた会議音声話者識別システムとその評価，" 音講論（春），ｐｐ．１−２，２００８．小笠原基、石塚健太郎、荒木章子、藤本雅清、中谷智広、大塚和弘、"ＳＮ比最大化ビームフォーマを用いたオンライン会議音声強調、"音講論（春）、ｐｐ．６９５−６９８，２００９．

従来手法のマイクロホンアレーを利用した音源方向に基づいて信号区間を分類し、特定の音を強調する手法では、マイクロホンの相対位置関係が既知である必要がある。そのため自由に配置されたマイクロホンで観測して得られたデジタル音響信号に対しては、従来のマイクロホンアレー処理を行い、音源方向に基づいて信号区間を分類し、特定の音を強調することが出来ない。

本発明の課題は、観測位置が未知な複数個のチャネルのデジタル音響信号から、音源位置に基づいた信号区間分類を行い、特定の音を強調することである。

本発明では、チャネルごとに音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して特徴量を得て、複数個のチャネルに対して得られた特徴量からなる特徴量列をクラスタリングし、当該特徴量列が属する信号区間分類を決定する。また複数個の時間区間のそれぞれでデジタル音響信号を周波数領域に変換し、複数個の振幅スペクトルと位相スペクトルとを得る。さらに複数個の振幅スペクトルに対し、信号区間分類の何れかである強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調する処理を行い、処理後振幅スペクトルに位相スペクトルを付与して複素スペクトルを得る。

本発明では、音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して得られる特徴量を用いるため、観測位置が未知な複数個のチャネルのデジタル音響信号から、音源位置に基づいた信号区間分類を行うことができ、その結果を用いて特定の音を強調することができる。

図１は実施形態のシステム構成を説明するためのブロック図である。図２は実施形態の音響信号強調装置の構成を説明するためのブロック図である。図４は実施形態の音響信号強調方法を説明するためのフロー図である。図４Ａは各チャネルのデジタル音響信号から算出したＳ／Ｎベクトルの成分ごとの時間変化を例示する図であり、図４Ｂは信号区間分類結果を例示する図である。図５Ａは観測装置で得られたデジタル音響信号のパワースペクトルを例示する図である。図５Ｂはフィルタ適用後のデジタル音響信号のパワースペクトルを例示する図である。図５Ｃはフィルタ適用後のデジタル音響信号を例示する図である。

以下、図面を参照して本発明の実施形態を説明する。
図１に例示するように、本形態の音響信号強調装置１０は、自由に配置されたＫ個（Ｋは２以上の整数）の観測装置２０−１，・・・，２０−Ｋで得られたデジタル音響信号から、特定の音を強調した音響信号を得て出力する。

図２に例示するように、本形態の音響信号強調装置１０は、受信部１０１、サンプリング周波数変換部１０２、信号同期部１０３、フレーム分割部１０４、ＶＡＤ判定部１０５、非音声パワー記憶部１０６、Ｓ／Ｎベクトル生成部１０７（特徴量列取得部）、ベクトル分類部１０８（分類部）、スペクトル算出部１０９、振幅スペクトル記憶部１１０、位相スペクトル記憶部１１１、フィルタ係数算出部１１２（強調処理部）、フィルタ係数記憶部１１３、フィルタリング部１１４（強調処理部）、位相付与部１１５、および時間領域変換部１１６を有する。本形態の音響信号強調装置１０は、例えばＣＰＵ（central processing unit）やＲＡＭ（random-access memory）等を備える公知のコンピュータに所定のプログラムが読み込まれて構成される特別な装置である。音響信号強調装置１０に入力されたデータおよび処理されたデータは、図示していないメモリに格納され、必要に応じて処理部から読み出される。

各観測装置２０−ｋ（ｋ＝１，２，・・・，Ｋ）は、マイクロホン２１−ｋおよびＡ／Ｄ変換器２２−ｋを有する。観測装置２０−１，・・・，２０−Ｋの位置や互いの相対位置は、未知であってもよいし、既知であってもよい。観測装置２０−１，・・・，２０−Ｋは互いに独立に動作する。マイクロホン２１−１，・・・，２１−Ｋの感度は、互いに異なっていてもよいし、同一であってもよく、Ａ／Ｄ変換器２２−１，・・・，２２−Ｋのサンプリング周波数は、互いに異なっていてもよいし、同一であってもよい。観測装置２０−１，・・・，２０−Ｋの具体例は、互いにサンプリング周波数およびマイクロホン感度が異なる、スマートフォン、固定電話、ボイスレコーダなどの録音機能をもつ端末装置である。

各観測装置２０−ｋのマイクロホン２１−ｋは音響信号を観測する。各マイクロホン２１−ｋで観測された音響信号はＡ／Ｄ変換器２２−ｋに入力される。各Ａ／Ｄ変換器２２−ｋはそれぞれのサンプリング周波数で当該音響信号をＡ／Ｄ変換し、複数個のサンプル点での入力デジタル音響信号ｘ_ｋ（ｉ_ｋ）を得て出力する。ただし、ｉ_ｋは時間領域のサンプル点を表す整数のインデックスである。すなわち、ｘ_ｋ（ｉ_ｋ）は、インデックスｉ_ｋで表されるサンプル点の入力デジタル音響信号を表す。

観測装置２０−ｋで得られた入力デジタル音響信号ｘ_ｋ（ｉ_ｋ）に対応する処理を行う処理系列をチャネルｋと呼ぶ。言い換えると、Ａ／Ｄ変換器２２−ｋで音響信号を変換して得られた入力デジタル音響信号ｘ_ｋ（ｉ_ｋ）に対応する処理を行う処理系列をチャネルｋと呼ぶ。すなわち、チャネルｋは入力デジタル音響信号ｘ_ｋ（ｉ_ｋ）および入力デジタル音響信号ｘ_ｋ（ｉ_ｋ）から得られる値を取り扱う。本形態ではＫ個のチャネルｋ＝１，・・・，Ｋが存在する。

＜受信部１０１＞
受信部１０１は、複数個の観測装置２０−ｋ，・・・，２０−Ｋで得られた複数個のチャネルｋ＝１，・・・，Ｋの入力デジタル音響信号ｘ_１（ｉ_１），・・・，ｘ_Ｋ（ｉ_Ｋ）を受信する。受信部１０１は、例えば、ネットワークやbluetooth（登録商標）を利用して伝送された入力デジタル音響信号ｘ_１（ｉ_１），・・・，ｘ_Ｋ（ｉ_Ｋ）を受信する（ステップＳ１０１）。

＜サンプリング周波数変換部１０２＞
受信された複数個のチャネルｋ＝１，・・・，Ｋの入力デジタル音響信号ｘ_ｋ（ｉ_ｋ）は、サンプリング周波数変換部１０２に入力される。異なるチャネルｋの入力デジタル音響信号ｘ_ｋ（ｉ_ｋ）は、異なるＡ／Ｄ変換器２２−ｋで得られたものであるため、サンプリング周波数が異なる場合がある。サンプリング周波数変換部１０２は、すべてのチャネルｋ＝１，・・・，Ｋの入力デジタル音響信号ｘ_ｋ（ｉ_ｋ）のサンプリング周波数を任意の同一のサンプリング周波数に揃える。言い換えると、サンプリング周波数変換部１０２は、複数個のチャネルｋ＝１，・・・，Ｋの入力デジタル音響信号ｘ_ｋ（ｉ_ｋ）をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号ｃｘ_ｋ（ｉ_ｋ）を複数個のチャネルｋ＝１，・・・，Ｋについて得る。「特定のサンプリング周波数」は、Ａ／Ｄ変換器２２−１，・・・，２２−Ｋの何れか一つのサンプリング周波数であってもよいし、その他のサンプリング周波数であってもよい。「特定のサンプリング周波数」の一例は１６ｋＨｚである。サンプリング周波数変換部１０２は、各Ａ／Ｄ変換器２２−ｋのサンプリング周波数の公称値に基づいてサンプリング周波数変換を行う。すなわち、サンプリング周波数変換部１０２は、各Ａ／Ｄ変換器２２−ｋのサンプリング周波数の公称値でサンプリングされた信号を、特定のサンプリング周波数でサンプリングされた信号に変換する。このようなサンプリング周波数変換は周知である。サンプリング周波数変換部１０２は、以上のように得た各チャネルｋの変換デジタル音響信号ｃｘ_ｋ（ｉ_ｋ）を出力する（ステップＳ１０２）。

＜信号同期部１０３＞
信号同期部１０３は、チャネルｋ＝１，・・・，Ｋの変換デジタル音響信号ｃｘ_１（ｉ_１），・・・，ｃｘ_Ｋ（ｉ_Ｋ）を入力として受け取る。信号同期部１０３は、変換デジタル音響信号ｃｘ_１（ｉ_１），・・・，ｃｘ_Ｋ（ｉ_Ｋ）をチャネルｋ＝１，・・・，Ｋ間で同期させ、チャネルｋ＝１，・・・，Ｋのデジタル音響信号ｓｘ_１（ｉ_１），・・・，ｓｘ_Ｋ（ｉ_Ｋ）を得て出力する（ステップＳ１０３）。以下にこの詳細を説明する。

Ａ／Ｄ変換器２２−ｋには個体差がある。そのためＡ／Ｄ変換器２２−ｋのサンプリング周波数の公称値がｆ_ｋであったとしても、Ａ／Ｄ変換器２２−ｋがサンプリング周波数ｆ_ｋ／α_ｋでＡ／Ｄ変換を行う場合もある。ただし、α_ｋはＡ／Ｄ変換器２２−ｋの実際のサンプリング周波数とサンプリング周波数の公称値との間の周波数ずれを表す正のパラメータである。音響信号をサンプリング周波数ｆ_ｋでＡ／Ｄ変換して得られる入力デジタル音響信号をｘ_ｋ’（ｉ_ｋ）とおくと、同じ音響信号をサンプリング周波数ｆ_ｋ／α_ｋでＡ／Ｄ変換して得られる入力デジタル音響信号はｘ_ｋ’（ｉ_ｋ×α_ｋ）となる。ただし「×」は乗算演算子を表す。すなわち、サンプリング周波数の周波数ずれは、入力デジタル音響信号の時間領域でのタイミングずれとなって現れる。

サンプリング周波数変換部１０２は、各Ａ／Ｄ変換器２２−ｋのサンプリング周波数の公称値ｆ_ｋに基づいてサンプリング周波数変換を行っている。すなわち、すべてのチャネルｋ＝１，・・・，Ｋに共通の「特定のサンプリング周波数」をＦとすると、サンプリング周波数変換部１０２は、各チャネルｋのサンプリング周波数をＦ／ｆ_ｋ倍にするサンプリング周波数変換を行っている。そのため、各Ａ／Ｄ変換器２２−ｋの実際のサンプリング周波数がｆ_ｋ／α_ｋであるとすると、各チャネルｋの変換デジタル音響信号ｃｘ_ｋ（ｉ_ｋ）のサンプリング周波数はＦ×α_ｋとなる。この個体差に基づく周波数ずれは、チャネルｋ＝１，・・・，Ｋ間における、変換デジタル音響信号ｃｘ_ｋ（ｉ_ｋ）の時間領域でのタイミングずれとなって現れる。

信号同期部１０３は、個体差に基づく変換デジタル音響信号ｃｘ_ｋ（ｉ_ｋ）の時間領域でのタイミングずれを減らすために、時間領域の変換デジタル音響信号ｃｘ_１（ｉ_１），・・・，ｃｘ_Ｋ（ｉ_Ｋ）をチャネルｋ＝１，・・・，Ｋ間で同期させる。例えば信号同期部１０３は、チャネル間の相互相関が最大になるように、変換デジタル音響信号ｃｘ_１（ｉ_１），・・・，ｃｘ_Ｋ（ｉ_Ｋ）を時間軸方向（サンプル点方向）に互いにずらし、同期後のデジタル音響信号ｓｘ_１（ｉ_１），・・・，ｓｘ_Ｋ（ｉ_Ｋ）を得る。

例えば信号同期部１０３は、各チャネルｋの変換デジタル音響信号ｃｘ_ｋ（ｉ_ｋ）から、単語の発話など十分特徴的な波形の変化を観測できる長さ（例えば３秒）のサンプル列ｃｘ_ｋ（１），・・・，ｃｘ_ｋ（Ｉ）をとりだす（ステップＳ１０３１）。ただし、Ｉは正整数を表す。次に信号同期部１０３は、取り出したサンプル列のうち１つのチャネルｋ’∈｛１，・・・，Ｋ｝のサンプル列ｃｘ_ｋ’（１），・・・，ｃｘ_ｋ’（Ｉ）を基準サンプル列とする（ステップＳ１０３２）。次に信号同期部１０３は、チャネルｋ’以外のチャネルｋ”∈｛１，・・・，Ｋ｝（ｋ”≠ｋ’）のサンプル列ｃｘ_ｋ”（１），・・・，ｃｘ_ｋ”（Ｉ）を時間軸にずらしたサンプル列ｃｘ_ｋ”（１＋τ_ｋ”），・・・，ｃｘ_ｋ”（Ｉ＋τ_ｋ”）と基準サンプル列ｃｘ_ｋ’（１），・・・，ｃｘ_ｋ’（Ｉ）との相互相関Σ_ｎ｛ｃｘ_ｋ”（ｎ）×ｃｘ_ｋ’（ｎ）｝を最大にする遅延τ_ｋ”を所定の探索範囲から探索し、ｓｘ_ｋ”（ｉ_ｋ”）＝ｃｘ_ｋ”（ｉ_ｋ”＋τ_ｋ”）およびｓｘ_ｋ’（ｉ_ｋ’）＝ｃｘ_ｋ’（ｉ_ｋ’）とする（ステップＳ１０３３）。さらに信号同期部１０３は、サンプル列ｃｘ_ｋ（１），・・・，ｃｘ_ｋ（Ｉ）を切り出す範囲をシフトさせ（例えば１秒の時間に対応するサンプル点だけシフトさせ）、ステップＳ１０３１〜Ｓ１０３３の処理を実行する処理を繰り返し、同期後のデジタル音響信号ｓｘ_１（ｉ_１），・・・，ｓｘ_Ｋ（ｉ_Ｋ）をすべてのサンプル点について得て出力する。

＜フレーム分割部１０４＞
フレーム分割部１０４は、同期後のデジタル音響信号ｓｘ_１（ｉ_１），・・・，ｓｘ_Ｋ（ｉ_Ｋ）を入力として受け取る。フレーム分割部１０４は、チャネルｋごとにデジタル音響信号ｓｘ_ｋ（ｉ_ｋ）を所定の時間区間であるフレームに分割する（ステップＳ１０４）。このフレーム分割処理では、フレーム切り出し区間長（フレーム長）Ｌ点と切り出し区間のずらし幅ｍ点を任意に決めることができる。ただし、Ｌおよびｍは正整数である。例えば、切り出し区間長を２０４８点、切り出し区間のずらし幅を２５６点とする。フレーム分割部１０４は、チャネルｋごとに切り出し区間長のデジタル音響信号ｓｘ_ｋ（ｉ_ｋ）を切り出して出力する。さらにフレーム分割部１０４は、決められた切り出し区間のずらし幅に従い切り出し区間をずらし、チャネルｋごとに上記切り出し区間長のデジタル音響信号ｓｘ_ｋ（ｉ_ｋ）を切り出して出力する処理を繰り返す。以上の処理により、各チャネルｋについて各フレームのデジタル音響信号が出力される。以下では、チャネルｋのｒ番目のフレームｒに属するデジタル音響信号をｓｘ_ｋ（ｉ_{ｋ，ｒ，０}），・・・，ｓｘ_ｋ（ｉ_{ｋ，ｒ，Ｌ−１}）と表現する。

＜ＶＡＤ判定部１０５＞
ＶＡＤ判定部１０５は、各チャネルｋの各フレームｒに属するデジタル音響信号ｓｘ_ｋ（ｉ_{ｋ，ｒ，０}），・・・，ｓｘ_ｋ（ｉ_{ｋ，ｒ，Ｌ−１}）を入力として受け取る。ＶＡＤ判定部１０５は、入力されたデジタル音響信号を用い、各チャネルｋの各フレームｒが音声区間であるか非音声区間であるかを判定する（ステップＳ１０５）。ＶＡＤ判定部１０５は、例えば参考文献１に記載されたような周知技術を用い、フレームｒが音声区間であるか非音声区間であるかの判定を行う。
［参考文献１］Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based Voice Activity Detection,” IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999．

これらの判定に基づき、ＶＡＤ判定部１０５は、各フレームｒに対し、音声区間であるか非音声区間であるかの判定結果を表すラベルθ_ｒを付与する。例えば、「フレームｒが音声区間であると判定されたチャネルの個数」が「フレームｒが非音声区間であると判定されたチャネルの個数」以上である場合、ＶＡＤ判定部１０５は、フレームｒが音声区間であると判定し、音声区間であることを表すラベルθ_ｒをフレームｒに対して付与する。一方、「フレームｒが音声区間であると判定されたチャネルの個数」が「フレームｒが非音声区間であると判定されたチャネルの個数」未満である場合、ＶＡＤ判定部１０５は、フレームｒが非音声区間であると判定し、非音声区間であることを表すラベルθ_ｒをフレームｒに対して付与する。その他、チャネルｋ＝１，・・・，Ｋのうち、デジタル音響信号ｓｘ_ｋ（ｉ_{ｋ，ｒ，０}），・・・，ｓｘ_ｋ（ｉ_{ｋ，ｒ，Ｌ−１}）の平均パワーや平均Ｓ／Ｎ比が最も大きなチャネルに対する判定結果を表すラベルθ_ｒをフレームｒに付与してもよい。また、音声区間であることを表すラベルの例はθ_ｒ＝１であり、非音声区間であることを表すラベルの例はθ_ｒ＝０である。ＶＡＤ判定部１０５は、各ラベルθ_ｒを出力する。

＜Ｓ／Ｎベクトル生成部１０７＞
Ｓ／Ｎベクトル生成部１０７は、各チャネルｋの各フレームｒのデジタル音響信号ｓｘ_ｋ（ｉ_{ｋ，ｒ，０}），・・・，ｓｘ_ｋ（ｉ_{ｋ，ｒ，Ｌ−１}）およびラベルθ_ｒを入力として受け取る。Ｓ／Ｎベクトル生成部１０７は、チャネルｋごとに音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化した特徴量を得、チャネルｋ＝１，・・・，Ｋに対して得られた特徴量を要素とするＳ／Ｎベクトル（特徴量列）を得て出力する（ステップＳ１０７）。「特徴量」の例は、非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比を表す値である。「デジタル音響信号の大きさ」の例は、デジタル音響信号のパワーや絶対値、デジタル音響信号のパワーの平均値や絶対値の平均値、デジタル音響信号のパワーの合計値や絶対値の合計値、それらの正負反転値や関数値などである。「比を表す特徴量」の例は、「非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比」そのもの、その逆数その他の関数値である。以下では、デジタル音響信号のパワーの平均値を「デジタル音響信号の大きさ」とし、「非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比」そのものを「特徴量」とした例を示す。

Ｓ／Ｎベクトル生成部１０７は、以下の処理を実行する。
［ステップＳ１０７１］
Ｓ／Ｎベクトル生成部１０７は、ｒを１に初期化する。

［ステップＳ１０７２］
Ｓ／Ｎベクトル生成部１０７は、ラベルθ_ｒが音声区間を表すか非音声区間を表すかを判定する。

［ステップＳ１０７３］
ラベルθ_ｒが非音声区間を表す場合、Ｓ／Ｎベクトル生成部１０７は、すべてのチャネルｋ＝１，・・・，Ｋについて、フレームｒに属するデジタル音響信号ｓｘ_ｋ（ｉ_{ｋ，ｒ，０}），・・・，ｓｘ_ｋ（ｉ_{ｋ，ｒ，Ｌ−１}）の平均パワーＰ_Ｎ（ｋ，ｒ）を計算し（式（１）参照）、平均パワーＰ_Ｎ（ｋ，ｒ）をｋ番目の要素とする平均パワーベクトルＰ_Ｎ（ｒ）＝（Ｐ_Ｎ（１，ｒ），・・・，Ｐ_Ｎ（Ｋ，ｒ））を非音声パワー記憶部１０６に格納する。

［ステップＳ１０７４］
ラベルθ_ｒが音声区間を表す場合、Ｓ／Ｎベクトル生成部１０７は、非音声パワー記憶部１０６に格納されている非音声区間のフレームｒ’の平均パワーベクトルＰ_Ｎ（ｒ’）＝（Ｐ_Ｎ（１，ｒ’），・・・，Ｐ_Ｎ（Ｋ，ｒ’））を取り出す。このフレームｒ’は処理対象のフレームｒに近いことが望ましい。例えば、Ｓ／Ｎベクトル生成部１０７は、フレームｒに最も近い非音声区間のフレームｒ’の平均パワーベクトルＰ_Ｎ（ｒ’）を取り出す。なお、非音声パワー記憶部１０６には平均パワーベクトルの初期値も格納されている。平均パワーベクトルの初期値の例は、Ｋ個の定数（例えば１）を要素とするベクトルなどである。非音声区間の平均パワーベクトルが得られていない場合、Ｓ／Ｎベクトル生成部１０７は、平均パワーベクトルの初期値を非音声パワー記憶部１０６から取り出し、それをＰ_Ｎ（ｒ’）＝（Ｐ_Ｎ（１，ｒ’），・・・，Ｐ_Ｎ（Ｋ，ｒ’））とする。

さらにＳ／Ｎベクトル生成部１０７は、すべてのチャネルｋ＝１，・・・，Ｋについて、音声区間のフレームｒに属するデジタル音響信号ｓｘ_ｋ（ｉ_{ｋ，ｒ，０}），・・・，ｓｘ_ｋ（ｉ_{ｋ，ｒ，Ｌ−１}）の平均パワーをＰ_Ｎ（ｋ，ｒ’）で除算し、正規化平均パワーＰ_Ｖ（ｋ，ｒ）を得る（式（２）参照）。

Ｐ_Ｎ（ｋ，ｒ’）で除算することで各チャネルｋのデジタル音響信号の平均パワーを正規化し、各チャネルｋのマイクロホン２１−ｋの感度の違いによる影響を排除できる。Ｓ／Ｎベクトル生成部１０７は、得られた正規化平均パワーＰ_Ｖ（ｋ，ｒ）をｋ番目の要素とするＳ／ＮベクトルＰ_Ｖ（ｒ）＝（Ｐ_Ｎ（１，ｒ），・・・，Ｐ_Ｎ（Ｋ，ｒ））を出力する。

［ステップＳ１０７５］
未処理のデジタル音響信号が存在する場合、Ｓ／Ｎベクトル生成部１０７はｒに１を加算した値を新たなｒとし、処理がステップＳ１０７２に進む。未処理のデジタル音響信号が存在しない場合、Ｓ／Ｎベクトル生成部１０７の処理を終える。

＜非音声パワー記憶部１０６＞
前述のように、非音声パワー記憶部１０６は、平均パワーベクトルの初期値、およびＳ／Ｎベクトル生成部１０７で得られた平均パワーベクトルＰ_Ｎ（ｒ）を格納する。

＜ベクトル分類部１０８＞
ベクトル分類部１０８は、複数個のＳ／ＮベクトルＰ_Ｖ（ｒ）（複数個のチャネルに対して得られた特徴量からなる特徴量列）を入力として受け取る。ベクトル分類部１０８は、入力された複数個のＳ／ＮベクトルＰ_Ｖ（ｒ）をクラスタリングし、各Ｓ／ＮベクトルＰ_Ｖ（ｒ）が属する信号区間分類（クラスタ）を決定する（ステップＳ１０８）。ベクトル分類部１０８は、複数個のＳ／ＮベクトルＰ_Ｎ（ｒ）（例えば、５秒間に対応する区間でのＳ／ＮベクトルＰ_Ｎ（ｒ））が入力されるたびに、新たに入力されたＳ／ＮベクトルＰ_Ｎ（ｒ）をクラスタリング対象に追加してクラスタリングを実行してもよいし、１個のＳ／ＮベクトルＰ_Ｎ（ｒ）が入力されるたびに、新たに入力されたＳ／ＮベクトルＰ_Ｎ（ｒ）をクラスタリング対象に追加してクラスタリングを実行してもよい。クラスタリングの例は、教師なし学習であるオンラインクラスタリングなどであり、その一例はｌｅａｄｅｒ−ｆｏｌｌｏｗｅｒクラスタリング（例えば、参考文献２参照）である。クラスタリングの指標となる距離にはコサイン類似度を用いることができる。コサイン類似度の距離関数は以下のように定義できる。

ただし、ＣＬは各クラスタのラベルであり、ラベルＣＬは非音声区間を表すラベルθ_ｒ（例えば０）以外の値（例えば、１以上の整数）をとる。Ｐ_ＣＬはクラスタＣＬの重心ベクトルである。ｄ（ＣＬ）はクラスタＣＬの重心ベクトルＰ_ＣＬと入力されたＳ／ＮベクトルＰ_Ｖ（ｒ）との距離を表す。コサイン類似度を距離関数とするクラスタリングによって得られたラベルＣＬが、入力されたＳ／ＮベクトルＰ_Ｖ（ｒ）が属する信号区間分類を表す。ベクトル分類部１０８は、入力されたＳ／ＮベクトルＰ_Ｖ（ｒ）に対して得られたラベルＣＬをラベルθ_ｒに代入してラベルθ_ｒを更新する。これにより、音声区間のフレームｒのラベルθ_ｒはラベルＣＬの値となり、非音声区間のフレームｒのラベルθ_ｒは非音声区間を表す値となる。ベクトル分類部１０８は各フレームｒのラベルθ_ｒを出力する。
［参考文献２］Richard O. Duda, Peter E. Hart, David G. Stork, “Pattern
Classication,” Wiley-Interscience, 2000．

＜スペクトル算出部１０９＞
スペクトル算出部１０９は、フレーム分割部１０４で分割された、各チャネルｋの各フレームｒに属するデジタル音響信号ｓｘ_ｋ（ｉ_{ｋ，ｒ，０}），・・・，ｓｘ_ｋ（ｉ_{ｋ，ｒ，Ｌ−１}）を入力として受け取る。ここで、フレームｒでの各チャネルｋのデジタル音響信号ｓｘ_ｋ（ｉ_{ｋ，ｒ，ｊ}）を要素とするＫ次元の縦ベクトルをｘ（ｊ，ｒ）＝［ｓｘ_１（ｉ_{１，ｒ，ｊ}），・・・，ｓｘ_Ｋ（ｉ_{Ｋ，ｒ，ｊ}）］^Ｔと記述する。ただし、［η］^Ｔは［η］の転置を表す。また、フレームｒに属するＫ次元ベクトルｘ（０，ｒ），・・・，ｘ（Ｌ−１，ｒ）の要素を周波数領域に変換して得られる値を要素とするＫ次元の縦ベクトルをＸ（ｆ，ｒ）と記述する。すなわち、フレームｒに属するｓｘ_ｋ（ｉ_{ｋ，ｒ，０}），・・・，ｓｘ_ｋ（ｉ_{ｋ，ｒ，Ｌ−１}）を周波数領域に変換して得られる値Ｘ（ｋ，ｆ，ｒ）をｋ番目の要素とするＫ次元の縦ベクトルをスペクトルベクトルＸ（ｆ，ｒ）＝［Ｘ（１，ｆ，ｒ），・・・，Ｘ（Ｋ，ｆ，ｒ）］^Ｔと記述する。ただし、ｆは離散周波数を表すインデックスである。周波数領域への変換方法の例は、ＦＦＴ（Fast Fourier Transform）などの離散フーリエ変換である。また、Ｘ（ｋ，ｆ，ｒ）の振幅スペクトルＡ（ｋ，ｆ，ｒ）をｋ番目の要素とするＫ次元の縦ベクトルを振幅スペクトルベクトルＡ（ｆ，ｒ）＝［Ａ（１，ｆ，ｒ），・・・，Ａ（Ｋ，ｆ，ｒ）］^Ｔと記述する。さらに、Ｘ（ｋ，ｆ，ｒ）の位相スペクトルφ（ｋ，ｆ，ｒ）をｋ番目の要素とするＫ次元の縦ベクトルを位相スペクトルベクトルφ（ｆ，ｒ）＝［φ（１，ｆ，ｒ），・・・，φ（Ｋ，ｆ，ｒ）］^Ｔと記述する。スペクトル算出部１０９は、ｘ（ｊ，ｒ）＝［ｓｘ_１（ｉ_{１，ｒ，ｊ}），・・・，ｓｘ_Ｋ（ｉ_{Ｋ，ｒ，ｊ}）］^Ｔを周波数領域に変換し、フレームｒごとに、ｋ個の振幅スペクトルＡ（ｋ，ｆ，ｒ）からなる振幅スペクトルベクトルＡ（ｆ，ｒ）と、ｋ個の位相スペクトルφ（ｋ，ｆ，ｒ）からなる位相スペクトルベクトルφ（ｆ，ｒ）を得て出力する（ステップＳ１０９）。

＜振幅スペクトル記憶部１１０・位相スペクトル記憶部１１１＞
振幅スペクトルベクトルＡ（ｆ，ｒ）は振幅スペクトル記憶部１１０に格納され、位相スペクトルベクトルφ（ｆ，ｒ）は位相スペクトル記憶部１１１に格納される。

＜フィルタ係数算出部１１２・フィルタ係数記憶部１１３＞
フィルタ係数算出部１１２は、ベクトル分類部１０８から出力された各フレームｒのラベルθ_ｒ、および振幅スペクトル記憶部１１０から読み出した振幅スペクトルベクトルＡ（ｆ，ｒ）を入力として受け取る。ここでラベルθ_ｒがとり得る値（分類ラベル番号）のうち、音を強調する信号区間分類（強調信号区間分類）を表す分類ラベル番号をｃとする。１個の分類ラベル番号ｃのみが設定されてもよいし、複数個の分類ラベル番号ｃが設定されてもよい。例えば、任意に分類ラベル番号ｃが決定されてもよいし、属するＳ／ＮベクトルＰ_Ｖ（ｒ）のノルムの平均値または合計値が大きい順に選択された１個以上の信号区間分類を強調信号区間分類として分類ラベル番号ｃが決定されてもよいし、属するＳ／ＮベクトルＰ_Ｖ（ｒ）のノルムの平均値または合計値が閾値を超える信号区間分類を強調信号区間分類として分類ラベル番号ｃが決定されてもよい。θ_ｒ＝ｃは、フレームｒが強調信号区間分類に分類されていることを表す。

フィルタ係数算出部１１２は、強調信号区間分類に属するＳ／ＮベクトルＰ_Ｖ（ｒ）に対応する振幅スペクトルＡ（ｋ，ｆ，ｒ）を強調するフィルタリングのためのフィルタ係数を算出する（ステップＳ１１２）。以下の参考文献３に開示されたＳＮ比最大化ビームフォーマでは、複素スペクトルをそのまま用いて、最大固有値に対する固有ベクトルを求めてフィルタ係数としている。これに対し、本形態のフィルタ係数算出部１１２は、振幅スペクトルベクトルＡ（ｆ，ｒ）を用いてＳＮ比最大化ビームフォーマを構成する。すなわち、フィルタ係数算出部１１２は、以下の式（４）の一般化固有値問題を解き、最大固有値γ（ｆ）に対応する固有ベクトルの値を、各分類ラベル番号ｃの音声を強調するフィルタ係数ｗ_ｃ（ｆ）として得る。

また、Ｅ［ρ］_θｒ＝ｃ（下付きθｒはθ_ｒ）は、θ_ｒ＝ｃであるフレームｒからなる区間における、行列ρの要素の期待値からなる行列を表す。Ｅ［ρ］_θｒ≠ｃは、θ_ｒ≠ｃであるフレームｒからなる区間における、行列ρの要素の期待値からなる行列を表す。式（５）（６）を求めるための区間は、例えば１０秒以上の時間に対応する。またフィルタ係数ｗ_ｃ（ｆ）は、チャネルｋに対応する係数ｗ_ｃ（ｆ，ｋ）をｋ番目の要素とするＫ次元の横ベクトル［ｗ_ｃ（ｆ，１），・・・，ｗ_ｃ（ｆ，Ｋ）］である。フィルタ係数算出部１１２は、各インデックスｆおよび各分類ラベル番号ｃについてフィルタ係数ｗ_ｃ（ｆ）を得て出力する。さらにフィルタ係数算出部１１２は、（５）（６）を求めるための区間において、θ_ｒ＝ｃである各フレームｒのＳ／ＮベクトルＰ_Ｖ（ｒ）の要素のうち最大の要素に対応するチャネルを、最大チャネル番号ｋ_ｃ，ｒとして得る。フィルタ係数算出部１１２は、フィルタ係数ｗ_ｃ（ｆ）と最大チャネル番号ｋ_ｃ，ｒとを各分類ラベル番号ｃに対応付け、フィルタ係数記憶部１１３に格納する。話者の移動や雑音の変化に対応するため、フィルタ係数算出部１１２は、定期的（例えば１分置き）に、式（５）（６）を得るための区間を更新し、各フィルタ係数ｗ_ｃ（ｆ）および最大チャネル番号ｋ_ｃ，ｒを得て、フィルタ係数記憶部１１３に格納された各フィルタ係数ｗ_ｃ（ｆ）および最大チャネル番号ｋ_ｃ，ｒを更新する。
［参考文献３］H. L. Van Tree, ed., “Optimum Array Processing,” Wiley, 2002.

＜フィルタリング部１１４＞
フィルタリング部１１４は、フィルタ係数記憶部１１３から読み出したフィルタ係数ｗ_ｃ（ｆ）、および振幅スペクトル記憶部１１０から読み出した振幅スペクトルベクトルＡ（ｆ，ｒ）を入力として受け取る。フィルタリング部１１４は、振幅スペクトルベクトルＡ（ｆ，ｒ）を構成する複数個の振幅スペクトルＡ（１，ｆ，ｒ），・・・，Ａ（Ｋ，ｆ，ｒ）に対し、フィルタ係数ｗ_ｃ（ｆ）＝［ｗ_ｃ（ｆ，１），・・・，ｗ_ｃ（ｆ，Ｋ）］によるフィルタリングを行い、処理後振幅スペクトルＡ_ｃ’（ｆ，ｒ）を得て出力する（ステップＳ１１４）。例えばフィルタリング部１１４は、以下の式（７）のように、フィルタ係数ｗ_ｃ（ｆ）と振幅スペクトルベクトルＡ（ｆ，ｒ）との内積を処理後振幅スペクトルＡ_ｃ’（ｆ，ｒ）として得る。
Ａ_ｃ’（ｆ，ｒ）＝ｗ_ｃ（ｆ）Ａ（ｆ，ｒ） (7)

以上のステップＳ１１２およびＳ１１４により、複数個の振幅スペクトルＡ（１，ｆ，ｒ），・・・，Ａ（Ｋ，ｆ，ｒ）に対し、強調信号区間分類に属するＳ／ＮベクトルＰ_Ｖ（ｒ）に対応する振幅スペクトルを強調する処理が行われ、複数個の処理後振幅スペクトルＡ_ｃ’（ｆ，ｒ）が得られる。

＜位相付与部１１５＞
位相付与部１１５は、処理後振幅スペクトルＡ_ｃ’（ｆ，ｒ）に、それに対応する位相スペクトルを付与して複素スペクトルを得て出力する（ステップＳ１１５）。本形態では、位相付与部１１５は、フィルタ係数記憶部１１３から各フレームｒおよび各分類ラベル番号ｃに対応する最大チャネル番号ｋ_ｃ，ｒ読み出す。位相付与部１１５は、位相スペクトル記憶部１１１から全チャネルｋに対応する位相スペクトルφ（ｋ，ｆ，ｒ）を読み出し、それらから最大チャネル番号ｋ_ｃ，ｒに対応する位相スペクトルφ（ｋ_ｃ，ｒ，ｆ，ｒ）を選択する。さらに位相付与部１１５は、フィルタリング部１１４から出力された処理後振幅スペクトルＡ_ｃ’（ｆ，ｒ）を入力として受け取る。位相付与部１１５は、以下の式（８）のように処理後振幅スペクトルＡ_ｃ’（ｆ，ｒ）に位相スペクトルφ（ｋ_ｃ，ｒ，ｆ，ｒ）を付与し、複素スペクトルＹ_ｃ（ｆ，ｒ）を得て出力する。
Ｙ_ｃ（ｆ，ｒ）＝Ａ_ｃ’（ｆ，ｒ）ｅｘｐ（ｉφ（ｋ_ｃ，ｒ，ｆ，ｒ）） (8)
ただし、ｉは虚数単位であり、ｅｘｐは指数関数である。

＜時間領域変換部１１６＞
時間領域変換部１１６は、複素スペクトルＹ_ｃ（ｆ，ｒ）を入力として受け取り、複素スペクトルＹ_ｃ（ｆ，ｒ）を時間領域に変換して強調音響信号ｙ_ｃ（ｎ，ｒ）（ｎ＝０，・・・，Ｌ−１）を得る。ただし、ｎはサンプル点を表すインデックスである。時間領域に変換する方法としては、例えば逆フーリエ変換を用いることができる。さらに時間領域変換部１１６は、オーバーラップアド法を用いて強調音響信号ｙ_ｃ（ｎ，ｒ）（ｎ＝０，・・・，Ｌ−１）を合成して時間領域の音響信号波形を得て出力する。分類ラベル番号ｃが複数存在する場合、時間領域変換部１１６は、各分類ラベル番号ｃに対応する音響信号波形を複数出力する。または、各分類ラベル番号ｃに対応する音響信号波形の同じサンプル点ごとの加算値を出力してもよい。

本実施例では、Ｋ＝５とし、観測装置２０−ｋ（ｋ＝１，・・・，５）としてスマートフォン端末装置を用い、直線配置されていない３個の音源から発音された音を録音して観測信号を得、上記の音響信号強調装置１０での信号区間分類を行った。クラスタリングにはｌｅａｄｅｒ−ｆｏｌｌｏｗｅｒクラスタリングを用い、新たなクラスタリングを生成するための距離ｄ（ＣＬ）の閾値を０．６５とした。図４Ａはこの場合の各チャネルｋ＝１，・・・，５のデジタル音響信号ｓｘ_ｋ（ｉ_ｋ）ら算出したＳ／ＮベクトルＰ_Ｖ（ｒ）の成分Ｐ_Ｖ（ｋ，ｒ）ごとの時間変化を示し、図４Ｂは信号区間分類結果（ラベルθ_ｒ）を示す。図５Ａにスマートフォンで収音されたフィルタリング前のデジタル音響信号のパワースペクトルを例示し、図５Ｂにフィルタリング後のデジタル音響信号に対するパワースペクトルを例示し、図５Ｃに最大チャネル番号のチャネルの位相スペクトルを付与して得られた処理後振幅スペクトルを時間領域に変換して得られた音響信号波形の振幅を例示する。図５Ａおよび５Ｂでは、パワースペクトルの大きさ（［ｄＢ］表記）を色の濃淡で表現している。図５Ａ〜Ｃにおいてαで示す部分が強調音声部分である。フィルタを適用することで強調音声以外が抑圧されていることが分かる。

本形態では、音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して得られる複数個のＳ／Ｎベクトルをクラスタリングする。そのため、自由に配置されたマイクロホン感度が異なる複数個のスマートフォン端末装置、固定電話、ボイスレコーダなどの録音機能をもつ端末装置で録音されたデジタル音響信号から、音源位置に基づいた信号区間分類を行うことができる。

また本形態では、音源からマイクロホンへ到達するまでの音圧の減衰に着目するため、クラスタリングに用いる距離尺度にコサイン類似度を使用した。さらに本形態では、サンプリング周波数変換部１０２でサンプリング周波数変換を行ってチャネル間のサンプリング周波数のずれを補正し、信号同期部１０３でチャネル間での同期を行って観測装置２０−ｋの個体差による影響を抑制した。そのため、各チャネルのＡ／Ｄ変換器２２−ｋのサンプリング周波数の公称値が互いに異なっていたり、サンプリング周波数の個体差があったりしても、信号区間分類を精度よく行うことができる。

以上のような区間分類結果を用いて目的音区間とその他の音源区間に分類ができるため、雑音を抑圧し目的音を強調するフィルタの設計のための情報として利用できる。そのため本形態では、自由に配置した複数のサンプリング周波数およびマイクロホン感度が異なる、スマートフォン、固定電話、ボイスレコーダなどの録音機能をもつ複数端末装置で得られたデジタル音響信号から、特定の目的音を強調することができる。

＜変形例等＞
なお、本発明は上述の実施の形態に限定されるものではない。例えば、すべてのチャネルｋ＝１，・・・，ＫのＡ／Ｄ変換器２２−ｋのサンプリング周波数の公称値が互いに同一であるならば、サンプリング周波数変換部１０２の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「変換デジタル音響信号」として信号同期部１０３に入力されてもよい。このような場合にはサンプリング周波数変換部１０２を設けなくてもよい。

さらにすべてのチャネルｋ＝１，・・・，ＫのＡ／Ｄ変換器２２−ｋのサンプリング周波数の公称値が互いに同一であり、それらの個体差の影響も小さいのであれば、サンプリング周波数変換部１０２および信号同期部１０３の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「デジタル音響信号」としてフレーム分割部１０４に入力されてもよい。このような場合にはサンプリング周波数変換部１０２および信号同期部１０３を設けなくてもよい。

また位相付与部１１５は、最大チャネル番号ｋ_ｃ，ｒに対応する位相スペクトルφ（ｋ_ｃ，ｒ，ｆ，ｒ）を処理後振幅スペクトルＡ_ｃ’（ｆ，ｒ）に付与した。しかしながら、その他のチャネルの位相スペクトルφ（ｋ，ｆ，ｒ）を処理後振幅スペクトルＡ_ｃ’（ｆ，ｒ）に付与してもよい。

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１０音響信号強調装置
２０−１〜Ｋ観測装置

Claims

複数個のチャネルの入力デジタル音響信号を入力とし、前記複数個のチャネルの入力デジタル音響信号をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号を得るサンプリング周波数変換部と、
前記複数個の変換デジタル音響信号について各チャネルから一定時間長のサンプル列をそれぞれ取得し、１つのチャネルのサンプル列を基準サンプル列として、当該基準サンプル列としたチャネル以外のチャネルの非基準サンプル列に対して前記基準サンプル列との相互相関を最大にする遅延量をそれぞれ探索し、前記非基準サンプル列に対して当該遅延量を加えたサンプル列をそれぞれ生成することを前記一定時間長よりも短い時間間隔で前記サンプル列を取得する範囲をシフトさせながら定期的に繰り返すことによって、チャネル間で同期した変換デジタル音響信号を取得する信号同期部と、
チャネルごとに音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさを非音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさで正規化した要素からなるＳ／Ｎベクトルである特徴量を得る特徴量列取得部と、
前記複数個のチャネルに対して得られた前記特徴量からなる特徴量列をクラスタリングし、前記特徴量列が属する信号区間分類を決定する分類部と、
複数個の時間区間のそれぞれで前記チャネル間で同期した変換デジタル音響信号を周波数領域に変換し、複数個の振幅スペクトルと位相スペクトルとを得るスペクトル算出部と、
前記複数個の振幅スペクトルに対し、前記信号区間分類の何れかである強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調する処理を行い、複数個の処理後振幅スペクトルを得る強調処理部と、
前記処理後振幅スペクトルに前記位相スペクトルを付与して複素スペクトルを得る位相付与部と、
を有する音響信号強調装置。
請求項１の音響信号強調装置であって、
前記強調処理部は、
前記強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調するフィルタリングのためのフィルタ係数を算出するフィルタ係数算出部と、
前記複数個の振幅スペクトルに対し、前記フィルタ係数によるフィルタリングを行い、前記処理後振幅スペクトルを得るフィルタリング部と、
を有する音響信号強調装置。
請求項１または２の音響信号強調装置であって、
前記複数個のチャネルの入力デジタル音響信号のそれぞれは、録音機能を持つ複数個の装置のそれぞれで得られたものである、
ことを特徴とする音響信号強調装置。
請求項１から３の何れかの音響信号強調装置であって、
前記複素スペクトルを時間領域に変換して強調音響信号を得る時間領域変換部を有する音響信号強調装置。
複数個のチャネルの入力デジタル音響信号を入力とし、前記複数個のチャネルの入力デジタル音響信号をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号を得るサンプリング周波数変換ステップと、
前記複数個の変換デジタル音響信号について各チャネルから一定時間長のサンプル列をそれぞれ取得し、１つのチャネルのサンプル列を基準サンプル列として、当該基準サンプル列としたチャネル以外のチャネルの非基準サンプル列に対して前記基準サンプル列との相互相関を最大にする遅延量をそれぞれ探索し、前記非基準サンプル列に対して当該遅延量を加えたサンプル列をそれぞれ生成することを前記一定時間長よりも短い時間間隔で前記サンプル列を取得する範囲をシフトさせながら定期的に繰り返すことによって、チャネル間で同期した変換デジタル音響信号を取得する信号同期ステップと、
チャネルごとに音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさを非音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさで正規化した要素からなるＳ／Ｎベクトルである特徴量を得る特徴量列取得ステップと、
前記複数個のチャネルに対して得られた前記特徴量からなる特徴量列をクラスタリングし、前記特徴量列が属する信号区間分類を決定する分類ステップと、
複数個の時間区間のそれぞれで前記チャネル間で同期した変換デジタル音響信号を周波数領域に変換し、複数個の振幅スペクトルと位相スペクトルとを得るスペクトル算出ステップと、
前記複数個の振幅スペクトルに対し、前記信号区間分類の何れかである強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調する処理を行い、複数個の処理後振幅スペクトルを得る強調処理ステップと、
前記処理後振幅スペクトルに前記位相スペクトルを付与して複素スペクトルを得る位相付与ステップと、
を有する音響信号強調方法。
請求項１から４の何れかの音響信号強調装置の各部としてコンピュータを機能させるためのプログラム。