WO2016009654A1

WO2016009654A1 - 雑音抑圧システムと雑音抑圧方法及びプログラムを格納した記録媒体

Info

Publication number: WO2016009654A1
Application number: PCT/JP2015/003604
Authority: WO
Inventors: 剛範辻川; 亮輔磯谷
Original assignee: 日本電気株式会社
Priority date: 2014-07-16
Filing date: 2015-07-16
Publication date: 2016-01-21
Also published as: US20170169837A1; US10748551B2; JP6696424B2; JPWO2016009654A1

Abstract

　所望の信号に雑音が混在した入力信号に対して、雑音の大きさが変動した場合でも雑音抑圧の精度の低下を回避し高精度に雑音成分を抑圧する。雑音抑圧システムは、信号と雑音が混在した入力信号から推定される前記信号と前記雑音のＳＮ比の推定値に対して、事前ＳＮ比モデル、又は、信号モデルと雑音モデルに基づき、補正を施し事前ＳＮ比の期待値を計算する部と、前記事前ＳＮ比の期待値を用いて雑音抑圧係数を計算する雑音抑圧係数計算部と、前記雑音抑圧係数を前記入力信号に乗ずることで前記入力信号に含まれる雑音成分を抑圧する雑音抑圧部を備える。

Description

雑音抑圧システムと雑音抑圧方法及びプログラムを格納した記録媒体

　本発明は、雑音抑圧技術に関し、特に、入力信号に含まれる雑音成分を抑圧して所望の信号を抽出するシステムや用途等に好適な雑音抑圧システムと雑音抑圧方法及びプログラムに関する。

　所望の信号と雑音とが混在する入力信号から所望の信号を取得する技術開発が進んでいる。例えば、特許文献１には、入力音声信号に含まれる雑音を抑圧して仮推定音声を求め、音声の標準パタンを用いて仮推定音声を補正することにより、音声の情報を欠落させることなく、高い精度で雑音成分を除去可能とする構成が開示されている。特許文献１の技術は、標準パタンを構成する確率分布が仮推定音声を出力する確率と、該標準パタンを構成する確率分布の平均値とを用いた期待値演算処理により求めた仮推定音声の期待値を、仮推定音声の補正値としている。

　なお、特許文献２と非特許文献１は、後の実施形態の説明で参照される。このうち、特許文献２には、ノイズを除去する方法が開示されている。そのノイズ除去方法は、まず周波数別の第１の信号対雑音比を求め、第１の信号対雑音比に基づいて周波数別の重みを求め、周波数別の重みを周波数領域信号に重み付けして求めた重み付き周波数領域信号に基づいて周波数別の推定雑音を求める。続いてノイズ除去方法は、周波数領域信号と周波数別の推定雑音とに基づいて第２の信号対雑音比を求め、第２の信号対雑音比に基づいて抑圧係数を定め、抑圧係数を周波数領域信号に重み付けする。

特許第４７６５４６１号公報特許第４２８２２２７号公報

Handbook of Speech Processing, 44章, Spectral Enhancement Methods, Springer, 2008年, pp.873-902

　上記特許文献１においては、音声の標準パタンを用いて仮推定音声を補正することにより音声の情報の欠落を防いでいるが、雑音の大きさの変動等により、雑音抑圧の精度が低下する場合がある。

　本発明は、上述の課題に鑑みて創案されたものであって、その目的は、所望の信号に雑音が混在した入力信号に対して、雑音の大きさが変動した場合でも雑音抑圧の精度の低下を回避し高精度に雑音成分を抑圧する技術を提供することにある。

　上記目的を達成するため、本発明の１つの側面によれば、雑音抑圧システムは、以下の構成により提供される。雑音抑圧システムは、信号と雑音が混在した入力信号から推定した信号と雑音に関する事前ＳＮ比（Signal to Noise ratio）の推定値に対して、事前ＳＮ比モデル、又は、信号モデルと雑音モデルに基づき、補正を施し、事前ＳＮ比の期待値を取得する事前ＳＮ比推定・期待値計算部を有する。更に雑音抑圧システムは、前記事前ＳＮ比の期待値を用いて雑音抑圧係数を計算する雑音抑圧係数計算部と、前記雑音抑圧係数を前記入力信号に乗じることで前記入力信号に含まれる雑音を抑圧する雑音抑圧部を有する。

　本発明の別の側面によれば、雑音抑圧方法は、信号と雑音が混在した入力信号から推定した前記信号と前記雑音に関する事前ＳＮ比の推定値に対して、事前ＳＮ比モデル、又は、信号モデルと雑音モデルに基づき、補正を施して事前ＳＮ比の期待値を取得する。更に、雑音抑圧方法は、前記事前ＳＮ比の期待値を用いて、雑音抑圧係数を計算し、前記雑音抑圧係数を前記入力信号に乗ずることで、前記入力信号に含まれる雑音成分を抑圧する。

　本発明の別の側面によれば、以下の処理をコンピュータに実行させるプログラムが提供される。その処理は、信号と雑音が混在した入力信号から推定した前記信号と前記雑音に関する事前ＳＮ比の推定値に対して、事前ＳＮ比モデル、又は、信号モデルと雑音モデルに基づき、補正を施して事前ＳＮ比の期待値を取得する処理である。更に、その処理は、前記事前ＳＮ比の期待値を用いて、雑音抑圧係数を計算する処理と、前記雑音抑圧係数を前記入力信号に乗ずることで、前記入力信号に含まれる雑音成分を抑圧する処理である。本発明によれば、該プログラムを記録したコンピュータで読み出し可能な記録媒体（non-transitory computer readable recording medium）が提供される。

　本発明によれば、所望の信号に雑音が混在した入力信号に対して、雑音の大きさが変動した場合でも雑音抑圧の精度の低下を回避し高精度に雑音成分を抑圧することができる。

本発明の第１の実施形態に係る雑音抑圧システムの構成を例示する図である。本発明の第２の実施形態に係る雑音抑圧システムの構成を例示する図である。本発明の第２の実施形態に係る第１の事前ＳＮ比推定部の構成を例示する図である。本発明の第２の実施形態に係る事前ＳＮ比の期待値計算部の構成を例示する図である。本発明の第２の実施形態に係る雑音抑圧システムの処理手順を説明するためのフローチャートである。本発明の第３の実施形態に係る雑音抑圧システムの構成を例示する図である。本発明の第３の実施形態に係る第１の音声と第１の雑音の推定部の構成を例示する図である。本発明の第３の実施形態に係る事前ＳＮ比の期待値計算部の構成を例示する図である。本発明の第４の実施形態に係る雑音抑圧システムの構成を例示する図である。本発明の第４の実施形態に係る事前ＳＮ比の期待値計算部の構成を例示する図である。木構造化された音声モデルを説明するための模式図である。本発明の実施形態の基本概念を説明するための図である。

　以下では、本発明の実施形態に共通する基本概念を説明し、つづいて各実施形態について説明する。なお、以下の説明において、括弧内の参照符号は、本発明の基本概念をより明確とするために一例として示したものであって、本発明を限定するために解釈されるべきものでないことは勿論である。また、第１～４の実施形態の構成を示すブロック図において、ブロック間の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。

　図１２は、各実施形態に共通な基本概念を模式的に例示した図である。図１２を参照すると、本発明の一態様である雑音抑圧システム（１０）は、事前ＳＮ比推定・期待値計算部（１１）、雑音抑圧係数計算部（１２）、雑音抑圧部（１３）を備える。事前ＳＮ比推定・期待値計算部（１１）は、信号と雑音が混在した入力信号から推定される信号と雑音のＳＮ比の推定値（事前ＳＮ比推定値）に補正を施し事前ＳＮ比の期待値（Ｒ_ｓｎＥ）を取得する。その補正は、事前ＳＮ比モデル、又は、信号モデルと雑音モデル、に基づく。更に、雑音抑圧係数計算部（１２）は、事前ＳＮ比の期待値（Ｒ_ｓｎＥ）を用いて雑音抑圧係数（Ｗ_ｏ）を計算する。更に、雑音抑圧部（１３）は、雑音抑圧係数（Ｗ_ｏ）を入力信号に乗ずることで入力信号に含まれる雑音成分を抑圧し、信号の推定値を出力する。雑音抑圧システム（１０）の各部の処理・機能の少なくとも一部又は全部は、雑音抑圧システム（１０）を構成するコンピュータ上で実行されるプログラムにより実現するようにしてもよい。

　本発明の好ましい形態の一つによれば、雑音抑圧システム（図１の１００）は、第１の事前ＳＮ比推定部（図１の１０１）、記憶部（図１の１０５）、事前ＳＮ比の期待値計算部（図１の１０２）を備える。第１の事前ＳＮ比推定部（１０１）は、信号と雑音が混在した入力信号を入力し、入力信号から信号と雑音とを推定し、推定した信号と雑音に関する事前ＳＮ比を推定する。記憶部（１０５）は、予め用意された事前ＳＮ比モデル（Ｍ_ｓｎ）を記憶する。事前ＳＮ比の期待値計算部（１０２）は、第１の事前ＳＮ比推定部（１０１）で推定された事前ＳＮ比を、記憶部（１０５）に記憶された事前ＳＮ比モデルを用いて補正することで事前ＳＮ比の期待値（Ｒ_ｓｎＥ）を計算する。雑音抑圧係数計算部（図１の１０３）は、事前ＳＮ比の期待値（Ｒ_ｓｎＥ）を用いて雑音抑圧係数（Ｗ_ｏ）を計算する。雑音抑圧部（図１の１０４）は、雑音抑圧係数（Ｗ_ｏ）を、入力信号に乗ずることで入力信号に含まれる雑音成分を抑圧し、信号の推定値を出力する。なお、第１の事前ＳＮ比推定部（１０１）、記憶部（１０５）、及び、事前ＳＮ比の期待値計算部（１０２）は、図１２の事前ＳＮ比推定・期待値計算部（１１）に対応する。

　本発明の別の形態によれば、予め用意された事前ＳＮ比モデルの代わりに、予め用意された音声モデルと予め用意した雑音モデルを用いて事前ＳＮ比モデルを推定するようにしてもよい。例えば、雑音抑圧システム（図６の３００）は、第１の音声と第１の雑音の推定部（図６の３０５）、記憶部（図６の３０７）、記憶部（図６の３０８）、事前ＳＮ比の期待値計算部（図６の３０６）を備える。第１の音声と第１の雑音の推定部（３０５）は、信号と雑音が混在した入力信号を入力し、入力信号から信号と雑音とを推定する。記憶部（３０７）は、予め用意された音声モデル（Ｍ_ｓ）を記憶する。記憶部（３０８）は、予め用意された雑音モデル（Ｍ_ｎ）を記憶する。事前ＳＮ比の期待値計算部（３０６）は、第１の音声と第１の雑音の推定部（３０５）で推定された信号と雑音とを入力し、信号の雑音に対する事前ＳＮ比を、記憶部（３０７、３０８）にそれぞれ記憶された音声モデルと雑音モデルとを用いて補正し、事前ＳＮ比の期待値（Ｒ_ｓｎＥ）を計算する。雑音抑圧係数計算部（図６の３０３）は、事前ＳＮ比の期待値（Ｒ_ｓｎＥ）を用いて雑音抑圧係数（Ｗ_ｏ）を計算する。雑音抑圧部（図６の３０４）は、雑音抑圧係数（Ｗ_ｏ）を、入力信号に乗ずることで入力信号に含まれる雑音成分を抑圧し、信号の推定値を出力する。なお、第１の音声と第１の雑音の推定部（３０５）、記憶部（３０７、３０８）、及び、事前ＳＮ比の期待値計算部（３０６）は、図１２の事前ＳＮ比推定・期待値計算部（１１）に対応する。

　あるいは、本発明の別の形態によれば、雑音抑圧システム（図９の４００）は、信号と雑音が混在した入力信号を入力し、入力信号から信号と雑音とを推定する、第１の音声と第１の雑音の推定部（図９の４０５）と、予め用意された音声モデルを記憶する記憶部（図９の４０７）を備える。更に雑音抑圧システム（４００）は、事前ＳＮ比の期待値計算部（図９の４０６）を備える。事前ＳＮ比の期待値計算部（４０６）は、第１の音声と第１の雑音の推定部（図９の４０５）で推定された信号と雑音とを入力し、雑音に基づき雑音モデル（Ｍ_ｎ）を生成し、信号の雑音に対する比（事前ＳＮ比）を、音声モデルと雑音モデルを用いて補正する。これにより、事前ＳＮ比の期待値計算部（４０６）は、事前ＳＮ比の期待値（Ｒ_ｓｎＥ）を計算する。雑音抑圧係数計算部（図９の４０３）は、事前ＳＮ比の期待値を用いて雑音抑圧係数を計算する。雑音抑圧部（図９の４０４）は、雑音抑圧係数を、入力信号に乗ずることで入力信号に含まれる雑音成分を抑圧し、信号の推定値を出力する構成としてもよい。なお、第１の音声と第１の雑音の推定部（４０５）、記憶部（４０７）、及び、事前ＳＮ比の期待値計算部（４０６）は、図１２の事前ＳＮ比推定・期待値計算部（１１）に対応する。以下、図面を参照して、本発明の例示的な実施の形態について詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明は、かかる構成に限定されるものでないことは勿論である。

［第１の実施形態］
　図１は、第１の実施形態に係る雑音抑圧システム１００の構成を例示する図である。図１を参照して、本発明の第１の実施形態としての雑音抑圧システム１００について説明する。図１に示すように、雑音抑圧システム１００は、第１の事前ＳＮ比推定部１０１と、事前ＳＮ比の期待値計算部１０２と、雑音抑圧係数計算部１０３と、雑音抑圧部１０４と、事前ＳＮ比モデル（Ｍ_ｓｎ）を記憶する記憶部１０５と、を含む。

　事前ＳＮ比と事後ＳＮ比は、以下のように区別して定義される。

事前ＳＮ比＝所望の信号パワー／雑音パワー

事後ＳＮ比＝（所望の信号と雑音の混合信号パワー）／雑音パワー

　第１の事前ＳＮ比推定部１０１は、所望の信号と雑音が混在する入力信号Ｘ_０を入力とする。第１の事前ＳＮ比推定部１０１は、入力信号Ｘ_０に含まれる所望の信号パワーと雑音パワーの比（事前ＳＮ比）Ｒ_ｓｎ１を推定し、推定した事前ＳＮ比Ｒ_ｓｎ１を出力する。なお、入力信号Ｘ_０は、所望の信号と雑音が混在する混合信号の周波数スペクトル（周波数振幅スペクトル、周波数パワースペクトル等）であり、時間領域の信号を離散フーリエ変換（Discrete Fourier Transform：DFT）等により周波数領域の信号（実部と虚部を含む複素信号）に変換したものである。また、以後の実施形態において表記される入力信号Ｘ_０も同様である。

　事前ＳＮ比の期待値計算部１０２は、第１の事前ＳＮ比推定部１０１から出力される事前ＳＮ比Ｒ_ｓｎ１と、記憶部１０５に予め格納された事前ＳＮ比モデルＭ_ｓｎと、を入力とする。事前ＳＮ比モデルＭ_ｓｎは事前ＳＮ比のパタンからなる。事前ＳＮ比の期待値計算部１０２は、事前ＳＮ比Ｒ_ｓｎ１と、事前ＳＮ比モデルＭ_ｓｎとを比較し、事前ＳＮ比Ｒ_ｓｎ１を、事前ＳＮ比モデルＭ_ｓｎによって補正した値を、事前ＳＮ比の期待値Ｒ_ｓｎＥとして出力する。

　雑音抑圧係数計算部１０３は、事前ＳＮ比の期待値計算部１０２から出力される事前ＳＮ比の期待値Ｒ_ｓｎＥを入力する。雑音抑圧係数計算部１０３は、事前ＳＮ比の期待値Ｒ_ｓｎＥを用いて雑音抑圧係数Ｗ_０を計算し、該雑音抑圧係数Ｗ_０を出力する。

　雑音抑圧部１０４は、雑音抑圧係数計算部１０３から出力される雑音抑圧係数Ｗ_０と、入力信号Ｘ_０と、を入力とする。雑音抑圧部１０４は、雑音抑圧係数Ｗ_０を入力信号Ｘ_０に乗じることにより、入力信号Ｘ_０に含まれる雑音成分を抑圧し、所望の信号の推定値Ｓ_０を出力する。

　第１の実施形態において、第１の事前ＳＮ比推定部１０１、事前ＳＮ比の期待値計算部１０２、雑音抑圧係数計算部１０３、雑音抑圧部１０４、記憶部１０５を１つにまとめて単一の装置内に実装してもよい。あるいは、それぞれがネットワーク等の通信手段を介して相互接続される分散システムとして構成してもよい。また、第１の事前ＳＮ比推定部１０１と、事前ＳＮ比の期待値計算部１０２と、雑音抑圧係数計算部１０３の処理・機能の少なくとも一部は、コンピュータ上で実行されるプログラムで実現するようにしてもよい。また、雑音抑圧部１０４と、記憶部１０５（読み出し制御、書き込み制御）の処理・機能の少なくとも一部は、コンピュータ上で実行されるプログラムで実現するようにしてもよい。他の実施形態についても同様である。

　第１の実施形態によれば、事前ＳＮ比Ｒ_ｓｎ１を雑音の大きさの変動を考慮した事前ＳＮ比モデルＭ_ｓｎにより補正する。事前ＳＮ比の期待値Ｒ_ｓｎＥを用いて計算した雑音抑圧係数Ｗ_０を入力信号Ｘ_０に乗じることにより、所望の信号成分を除去せずに、雑音の大きさが変動しても高精度に雑音成分を抑圧することができる。

［第２の実施形態］
　次に、図２乃至図５を参照して、本発明の第２の実施形態に係る雑音抑圧システム２００について説明する。なお、図５は、第２の実施形態の雑音抑圧システムの処理を示すフローチャートである。

（全体構成）
　図２は、第２の実施形態に係る雑音抑圧システム２００の構成を例示する図である。第２の実施形態に係る雑音抑圧システム２００は、所望の信号と雑音とが混在する混在信号から所望の信号を取得（抽出）する。以下の例では、所望の信号を音声信号として説明するが、所望の信号は、音声信号にのみ限定されるものでないことは勿論である。

　雑音抑圧システム２００は、第１の事前ＳＮ比推定部２０１と、事前ＳＮ比の期待値計算部２０２と、雑音抑圧係数計算部２０３と、雑音抑圧部２０４と、事前ＳＮ比モデル（事前ＳＮ比のパタン）Ｍ_ｓｎを予め記憶保持する記憶部２０５とを含む。

　第１の事前ＳＮ比推定部２０１は、所望の信号と雑音が混在する入力信号Ｘ_０を入力とする。そして、第１の事前ＳＮ比推定部２０１は、入力信号Ｘ_０に含まれる所望の信号パワーと雑音パワーの比（事前ＳＮ比）Ｒ_ｓｎ１を推定し、推定したＲ_ｓｎ１を出力する。

　事前ＳＮ比の期待値計算部２０２は、第１の事前ＳＮ比推定部２０１から出力される事前ＳＮ比Ｒ_ｓｎ１と、記憶部２０５に予め記憶保持されている事前ＳＮ比モデルＭ_ｓｎを入力とする。事前ＳＮ比の期待値計算部２０２は、推定した事前ＳＮ比Ｒ_ｓｎ１と、事前ＳＮ比モデルＭ_ｓｎとを比較し、事前ＳＮ比モデルＭ_ｓｎにより補正された値の事前ＳＮ比の期待値Ｒ_ｓｎＥを出力する。

　雑音抑圧係数計算部２０３は、事前ＳＮ比の期待値計算部２０２の出力Ｒ_ｓｎＥを入力とする。事前ＳＮ比の期待値Ｒ_ｓｎＥを用いて雑音抑圧係数Ｗ_０を計算し、Ｗ_０を出力する。

　雑音抑圧部２０４は、雑音抑圧係数計算部２０３から出力される雑音抑圧係数Ｗ_０と、入力信号Ｘ_０とを入力とする。雑音抑圧部２０４は、雑音抑圧係数Ｗ_０を入力信号Ｘ_０に乗じることにより、入力信号に含まれる雑音成分を抑圧し、所望の信号の推定値Ｓ_０を出力する。

　以下、図２の雑音抑圧システム２００の各部についてさらに詳述する。

（第１の事前ＳＮ比推定部）
　まず、図２の第１の事前ＳＮ比推定部２０１の処理について説明する。所望の信号と雑音が混在する入力信号Ｘ_０を、以下の（式１）のようにモデル化する。

　　　　　　　　　　　　　　　　　　　　　　・・・・(式1)

　ただし、Ｘ_０（ｆ，ｔ）は、所望の信号と雑音が混在する混合信号の周波数スペクトル（周波数振幅スペクトル、周波数パワースペクトル等）である。時間領域の信号に対して例えば離散フーリエ変換（Discrete Fourier Transform：DFT）等により周波数領域の信号に変換したものであり（実部と虚部を含む複素信号）、絶対値演算により振幅成分、振幅成分の２乗演算によりパワー成分が得られる。ｆは周波数のインデックス（周波数インデックスは、例えばＤＣ（直流）成分（インデックス：０）からナイキスト周波数までとなる）、ｔは時間（離散時間）のインデックスである。また、時間のインデックスｔにおけるＸ_０、Ｓ、Ｎは、周波数方向の成分を要素に持つベクトルである。

　右辺のＳは、所望の音声成分の周波数スペクトルである。

　またＮは、雑音成分の周波数スペクトルである。

　図３は、第１の事前ＳＮ比推定部２０１の構成を例示する図である。図３を参照すると、第１の事前ＳＮ比推定部２０１は、第１の雑音推定部２０１１と、第１の音声推定部２０１２と、事前ＳＮ比推定部２０１３とを含む。

　第１の雑音推定部２０１１は、入力信号Ｘ_０を入力とし、入力信号Ｘ_０に含まれる雑音成分を推定し、第１の推定雑音Ｎ_１を出力する。

　第１の音声推定部２０１２は、入力信号Ｘ_０と、第１の推定雑音Ｎ_１とを入力とし、第１の推定音声Ｓ_１を出力する。

　事前ＳＮ比推定部２０１３は、第１の推定音声Ｓ_１と第１の推定雑音Ｎ_１とを入力とし、推定事前ＳＮ比Ｒ_ｓｎ１（＝Ｓ_１／Ｎ_１）を出力する。なお、時間のインデックスｔにおけるＳ_１、Ｎ_１は周波数方向の成分を要素に持つベクトルである。

（第１の雑音推定部）
　第１の雑音推定部２０１１では、入力信号Ｘ_０に含まれる雑音成分を推定し、第１の推定雑音Ｎ_１を出力する。

　　　　　　　　　　　　　　・・・・（式２）

　ただし、ＮＥ［］は雑音推定演算子（noise estimator）であり、入力信号Ｘ_０に含まれる雑音成分の推定には、公知の手法である最小統計法（minimum statistics）や重み付き雑音推定法等を用いることができる。なお、式２の右辺は、雑音推定演算子ＮＥ［］によってベクトルＸ_０の成分ごとに計算され、ベクトルＸ_０の成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｙ_ｉ＝ＮＥ［ｘ_ｉ］（ｙ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＸ_０の第ｉ成分）を意味する。

（第１の音声推定部）
　第１の音声推定部２０１２では、入力信号Ｘ_０に含まれる雑音成分を抑圧することにより、入力信号Ｘ_０に含まれる音声成分を推定し、第１の推定音声Ｓ_１を出力する。

　　　　　　　　　　　　　　　・・・・（式3）

　ただし、ＮＳ[]は雑音抑圧演算子(Noise Suppressor)であり、例えば、非特許文献１に記載のスペクトル減算（ＳＳ: Spectral Subtraction）法を用いることができる。式３の右辺は、雑音抑圧演算子ＮＳ［］によってベクトルＸ_０、ベクトルＮ_１の成分ごとに計算され、ベクトルＸ_０、ベクトルＮ_１の成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｙ_ｉ＝ＮＳ［Ｘ_ｉ，Ｎ_ｉ］（ｙ_ｉは出力ベクトルの第ｉ成分、Ｘ_ｉ、Ｎ_ｉはベクトルＸ_ｉ、ベクトルＮ_１の第ｉ成分）を意味する。
この他、ウィナーフィルタ（ＷＦ: Wiener Filter）法、ＭＭＳＥ　ＳＴＳＡ (Minimum Mean Square Error Short Time Spectral Amplitude) 法、ＭＭＳＥ　ＬＳＡ(Minimum Mean Square Error Log Spectral Amplitude)法等を用いることができる。

（事前ＳＮ比推定部）
　事前ＳＮ比推定部２０１３は、第１の音声推定部２０１２からの第１の推定音声Ｓ_１（入力信号Ｘ_０に含まれる音声成分）と、第１の雑音推定部２０１１からの第１の推定雑音Ｎ_１とを入力とし、音声信号と雑音のＳＮ比（＝Ｓ_１／Ｎ_１）を推定し、この値を、事前ＳＮ比Ｒ_ｓｎ１として出力する。

　　　　　　　　　　　　　　　　　・・・・(式4)

式４の右辺は、ベクトルＳ_１、ベクトルＮ_１の成分ごとに計算され、ベクトルＳ_１、ベクトルＮ_１の成分に対応して出力され、例えば、Ｓ_１／Ｎ_１は、（Ｓ_１２／Ｎ_１１，Ｓ_１２／Ｎ_１１，・・・，Ｓ_１ｎ／Ｎ_１ｎ）のように出力される。ベクトルの成分に対応して出力されとは、ｙ_ｉ＝ｘ_ｉ／ｚ_ｉ（ｙ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉ、ｚ_ｉはベクトルＳ_１、ベクトルＮ_１の第ｉ成分）を意味する。
　ただし、事前ＳＮ比推定部２０１３において、（式４）の右辺の分母の第１の推定雑音Ｎ_１は、入力信号Ｘ_０と第１の推定音声Ｓ_１を用いて再推定した雑音成分Ｎ_１’（＝Ｘ_０－Ｓ_１）を用いてもよい。この場合、事前ＳＮ比Ｒ_ｓｎ１は、以下の（式５）で与えられる。

　　　　　　　　　　　　　　　　・・・・(式5)

　式５の右辺も段落００５３と同様に、ベクトルＸ_０，ベクトルＳ_１の成分ごとに計算される。また、第１の音声推定部２０１２において、ＷＦ法、ＭＭＳＥ　ＳＴＳＡ法、又は、ＭＭＳＥ　ＬＳＡ法を用いる場合には、第１の音声推定部２０１２において、事前ＳＮ比を求めることができる。このため、第１の音声推定部２０１２で推定された事前ＳＮ比を、第１の事前ＳＮ比推定部２０１の出力（事前ＳＮ比Ｒ_ｓｎ１）としてもよい。この場合、図３の事前ＳＮ比推定部２０１３は不要となる。

　事前ＳＮ比Ｒ_ｓｎ１は、以下の（式６）の周波数のインデックスｆ毎の値のほかにも、例えば、（式７）の複数の周波数のインデックスｆをまとめた周波数帯域Ｂ（例えば、メル周波数帯域）毎の値や、（式８）の全てのｆをまとめた値等を用いて計算してもよい。なお、時間のインデックスｔにおける事前ＳＮ比Ｒ_ｓｎ１は、周波数のインデックスｆや周波数帯域Ｂの数に相当する分、存在する。したがって、ｔにおける事前ＳＮ比Ｒ_ｓｎ１は周波数方向の成分を要素に持つベクトルである。

　　　　　　　　　　　　　　　・・・・(式6)

　　　　　　　　　　　　　　　　　・・・・(式7)

　　　　　　　　　　　　　　　　　・・・・(式8)

（事前ＳＮ比の期待値計算部）
　図４は、図２の事前ＳＮ比の期待値計算部２０２の構成を例示する図である。図４を参照すると、事前ＳＮ比の期待値計算部２０２は、特徴量変換部２０２１と、期待値計算部２０２２と、特徴量逆変換部２０２３と、を含む。

　特徴量変換部２０２１は、第１の事前ＳＮ比推定部２０１から出力される事前ＳＮ比Ｒ_ｓｎ１を入力とし、事前ＳＮ比Ｒ_ｓｎ１の特徴量Ｆ_ｓｎ１を出力する。

　期待値計算部２０２２は、特徴量Ｆ_ｓｎ１と予め用意した事前ＳＮ比モデル（事前ＳＮ比のパタン）Ｍ_ｓｎとを入力とし、事前ＳＮ比の期待値の特徴量Ｆ_ｓｎＥを出力する。

　特徴量逆変換部２０２３は、特徴量Ｆ_ｓｎＥを入力とし、事前ＳＮ比の期待値Ｒ_ｓｎＥを出力する。

（特徴量変換部）
　特徴量変換部２０２１では、事前ＳＮ比Ｒ_ｓｎ１を特徴量Ｆ_ｓｎ１に変換し、特徴量Ｆ_ｓｎ１を出力する。特徴量としては、例えば、以下の（式９）の対数値、あるいは、（式１０）に示すように、対数値をコサイン変換（Discrete Cosine Transform(DCT）:離散コサイン変換）した値（ケプストラム）等を用いることがきる。

　　　　　　　　　　　　　　　　　・・・・(式９)
なお、式９に示すｌｏｇは自然対数とする。以降で示されるｌｏｇも同様である。なお、ｌｏｇは自然対数の他に常用対数を用いることもできる。なお、式９の右辺は、ベクトルＲ_ｓｎ１の成分ごとに対数計算され、ベクトルＲ_ｓｎ１の成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｙ_ｉ＝ｌｏｇｘ_ｉ（ｙ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＲ_ｓｎ１の第ｉ成分）を意味する。

　　　　　　　　　　　　　　　　　・・・・(式10)

　ただし、Ｃ［］はコサイン変換演算子(DCT演算子)である。式１０の右辺は、ベクトルｌｏｇＲ_ｓｎ１の成分ごとにコサイン変換され、ベクトルＲ_ｓｎ１の成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｚ_ｉ＝C［ｘ_ｉ］（ｚ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＲ_ｓｎ１の第ｉ成分）を意味する。また、式１０の対数演算については式９における計算と同様である。

　なお、特徴量Ｆ_ｓｎ１は、時間のインデックスｔ毎に計算できるが、過去の時間（例えばｔ－１）の特徴量との差分をとり、一次差分特徴量を用いてもよい。あるいは、さらに差分をとり、二次差分特徴量を用いるようにしてもよい。時間のインデックスｔにおける特徴量Ｆ_ｓｎ１は、ケプストラムの次元数や一次差分特徴量、二次差分特徴量の数だけ存在するため、多次元のベクトルである。

（期待値計算部）
　期待値計算部２０２２では、特徴量Ｆ_ｓｎ１と、記憶部２０５に予め記憶されている事前ＳＮ比モデルＭ_ｓｎと、を入力とし、事前ＳＮ比の期待値の特徴量Ｆ_ｓｎＥを出力する。以下では、一例として、事前ＳＮ比モデルＭ_ｓｎをＧ個のガウス分布から構成される混合ガウス分布モデル（GMM：Gaussian Mixture Model）として説明する。ただし、本発明は以下の例に限定されるものでないことは勿論である。

　事前ＳＮ比モデルＭ_ｓｎを、平均値μ_ｓｎ，ｇ、分散σ^２ _ｓｎ，ｇのＧ個（Ｇ＞１）のガウス分布が重みｗ_ｓｎ,ｇで混合された混合ガウス分布モデルとする。ただし、ｇはガウス分布のインデックス（ｇ=0、1、・・・、G-1）である。

　期待値計算部２０２２では、事前ＳＮ比の期待値の特徴量Ｆ_ｓｎＥを、以下の（式１１）のように、事前ＳＮ比モデルＭ_ｓｎの平均値μ_ｓｎ,ｇの重み付け和として計算する。

　　　　　　　　　　　　　　　　　・・・・(式11)

　（式１１）において、重みであるＰ（ｇ｜Ｆ_ｓｎ１）は、特徴量Ｆ_ｓｎ１に対する事後確率である。Ｐ（ｇ｜Ｆ_ｓｎ１）は、例えば（式１２）のように計算する。

　　　　　　　　　　　　　　　　　・・・・(式12)

　（式１２）において、Ｐ（Ｆ_ｓｎ１｜ｇ）は、事前ＳＮ比モデルＭ_ｓｎのガウス分布ｇが特徴量Ｆ_ｓｎ１を出力する確率であり、以下の（式１３）のように計算される。

　　　　　　　　　　　　　　　　　・・・・(式13)

　ただし、特徴量Ｆ_ｓｎ１と平均値μ_ｓｎ，ｇは、ともにＤ次元の列ベクトル、分散σ^２ _ｓｎ，ｇはＤ×Ｄの行列とする。ｄｅｔ［］は行列式演算子である。また、Ｔは転置を表し、｛Ｆ_ｓｎ１－μ_ｓｎ，ｇ｝^TはＤ次元の行ベクトルとなる。なお、次元数を示すＤの値は、入力信号の種別に応じて適宜変えることができる。音声信号を含む場合は、１０次元以上が望ましい。

　記憶部１０５に予め記憶保持される事前ＳＮ比モデルＭ_ｓｎは、平均値μ_ｓｎ，ｇと分散σ^２ _ｓｎ，ｇを使用して表現されており、該分散σ^２ _ｓｎ，ｇには、音声信号の変動や雑音の大きさの変動が含まれている。このため、（式１１）において、重みとして用いる事後確率Ｐ（ｇ｜Ｆ_ｓｎ１）は雑音の大きさの変動が考慮された値となる。

　事前ＳＮ比モデルＭ_ｓｎは、予め大量の入力信号に対する特徴量Ｆ_ｓｎ１を用いて作成すればよい。混合ガウス分布モデルの場合、事前ＳＮ比モデルＭ_ｓｎは、例えば、期待値最大化（expectation maximization）アルゴリズム等を用いて学習（作成）すればよい。
あるいは、事前ＳＮ比モデルＭ_ｓｎは、音声のモデルＭ_ｓと雑音のモデルＭ_ｎを組み合わせることにより作成することができる。音声のモデルＭ_ｓと雑音のモデルＭ_ｎの組み合わせ方法については、次の実施の形態（図８の期待値計算部３０６２の説明参照）で説明する。

（特徴量逆変換部）
　特徴量逆変換部２０２３では、事前ＳＮ比の期待値の特徴量Ｆ_ｓｎＥを変換し、事前ＳＮ比の期待値Ｒ_ｓｎＥを出力する。特徴量変換部２０２１において、（式９）の対数値を用いた場合には、（式１４）により逆変換し、（式１０）に示すように、対数値をコサイン変換した値を用いた場合には、（式１５）により逆変換すればよい。

　　　　　　　　　　　　　　　　　・・・・(式1４)

　　　　　　　　　　　　　　　　　・・・・(式1５)

　ただし、ｅｘｐ［］は指数演算子であり、Ｃ^－１［］は逆コサイン変換演算子（Inverse　Discrete Cosine Transform (IDCT):逆離散コサイン変換演算子）である。なお、式１４の右辺は、ｅｘｐ関数としてｅｘｐ［Ｆ_ｓｎＥ］と表すことができ、ベクトルＦ_ｓｎＥの成分ごとに計算され、（ｅ^{ＦｓｎＥ１}，ｅ^{ＦｓｎＥ２}，・・・，ｅ^{ＦｓｎＥｎ}）のようにベクトルの成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｙ_ｉ＝ｅ^ｘｉ（ｙ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＦ_ｓｎＥの第ｉ成分）を意味する。また、式１５の右辺は、ｅｘｐ関数としてｅｘｐ［Ｃ^－１［Ｆ_ｓｎＥ］］として表すことができる。Ｃ^－１［Ｆ_ｓｎＥ］は、逆コサイン変換されたベクトルＦ_ｓｎＥの成分ごとに計算され、ベクトルＦ_ｓｎＥの成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｚ_ｉ＝C^－１［ｘ_ｉ］（ｚ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＦ_ｓｎＥの第ｉ成分）を意味する。また、式１５の指数演算については式１４における計算と同様である。

　ここで、（式１５）に、（式１１）を代入すると、次式が得られる。

　　　　　　　　　　　　　　　　　・・・・(式1６)

　逆コサイン変換Ｃ^－１は線形変換であることから、事前ＳＮ比モデルＭ_ｓｎの平均値μ_ｓｎ，ｇに対して逆コサイン変換した値Ｃ^－１［μ_ｓｎ，ｇ］を、記憶部２０５に予め記憶保持しておく。事前ＳＮ比モデルＭ_ｓｎの平均値μ_ｓｎ，ｇが変化しない限り、（式１６）において、記憶部２０５の演算結果Ｃ^－１［μ_ｓｎ，ｇ］を利用することで、逆コサイン変換の演算は不要となる。

（雑音抑圧係数計算部）
　雑音抑圧係数計算部２０３では、事前ＳＮ比の期待値Ｒ_ｓｎＥを用いて、雑音抑圧係数Ｗ_０を計算して出力する。例えばウィナーフィルタ法による雑音抑圧係数は、事前ＳＮ比の期待値Ｒ_ｓｎＥを用いて、次式のように計算できる。

　　　　　　　　　　　　　　　　　・・・・(式17)
式１７の右辺は、ベクトルＲ_ｓｎＥの成分ごとに計算され、例えば、｛（Ｒ_ｓｎＥ１／（１＋Ｒ_ｓｎＥ１），（Ｒ_ｓｎＥ２／（１＋Ｒ_ｓｎＥ２），・・・，（Ｒ_ｓｎＥｎ／（１＋Ｒ_ｓｎＥｎ））のようにベクトルの成分に対応して出力される。ベクトルの成分に対応して出力されるとは、ｙ_ｉ＝ｘ_ｉ／（１＋ｘ_ｉ）（ｙ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＲ_ｓｎＥの第ｉ成分）を意味する。

　なお、雑音抑圧係数計算部２０３において、事前ＳＮ比の期待値Ｒ_ｓｎＥを用いて雑音抑圧係数を計算するにあたり、ＭＭＳＥ　ＳＴＳＡ法、ＭＭＳＥ　ＬＳＡ法等他の雑音抑圧法を用いてもよいことはもちろんである。

　雑音抑圧係数計算部２０３において、雑音抑圧係数の計算に、事後ＳＮ比（所望の信号と雑音の混合信号と雑音の比）を用いる雑音抑圧法の場合、入力信号Ｘ_０と第１の事前ＳＮ比推定部２０１における第１の推定雑音Ｎ_１から、事後ＳＮ比（Ｘ_０／Ｎ_１）を算出して、雑音抑圧係数の計算に用いればよい。

（雑音抑圧部）
　雑音抑圧部２０４では、雑音抑圧係数Ｗ_０を入力信号Ｘ_０に乗じることにより、入力信号Ｘ_０に含まれる雑音成分を抑圧し、所望の信号の推定値Ｓ_０を出力する。

　　　　　　　　　　　　　　　　　・・・・(式18)

　すなわち、事前ＳＮ比の期待値Ｒ_ｓｎＥを所望の信号の推定値Ｓ_０と雑音の推定値Ｎ_０の比で近似すると、Ｗ_０≒Ｓ_０／（Ｓ_０＋Ｎ_０）と近似され、Ｘ_０≒Ｓ_０＋Ｎ_０から、Ｗ_０×Ｘ_０は所望の信号の推定値Ｓ_０となる。

　図５は、図２乃至図４を参照して説明した第２の実施形態の処理手順（動作）を説明するためのフローチャートである。

（ステップＳ６０１）
　第１の事前ＳＮ比推定部２０１は、所望の信号と雑音が混在する入力信号Ｘ_０に含まれる所望の信号と雑音の比Ｒ_ｓｎ１を推定する。

（ステップＳ６０２）
　事前ＳＮ比の期待値計算部２０２は、第１の事前ＳＮ比推定部２０１によって推定された事前ＳＮ比Ｒ_ｓｎ１と、記憶部２０５の事前ＳＮ比モデルＭ_ｓｎとを比較し、事前ＳＮ比モデルＭ_ｓｎにより補正した値である事前ＳＮ比の期待値Ｒ_ｓｎＥを計算する。

（ステップＳ６０３）
　雑音抑圧係数計算部２０３は、事前ＳＮ比の期待値Ｒ_ｓｎＥを用いて雑音抑圧係数Ｗ_０を計算する。

（ステップＳ６０４）
　雑音抑圧部２０４は、雑音抑圧係数Ｗ_０を入力信号Ｘ_０に乗じることにより、入力信号に含まれる雑音成分を抑圧し、所望の信号の推定値Ｓ_０を得る。

　本実施形態によれば、事前ＳＮ比Ｒ_ｓｎ１を雑音の大きさの変動を考慮した事前ＳＮ比モデルＭ_ｓｎにより補正する。補正された事前ＳＮ比の期待値Ｒ_ｓｎＥを用いて計算した雑音抑圧係数により、所望の信号成分を除去せずに、雑音の大きさが変動しても高精度に雑音成分を抑圧することができる。

［第３の実施形態］
　次に、図６、図７、図８を参照して、本発明の第３の実施形態に係る雑音抑圧システムについて説明する。図２の第２の実施形態に係る雑音抑圧システム２００と、図６の第３の実施形態に係る雑音抑圧システム３００を比較すると、
・図２の第１の事前ＳＮ比推定部２０１が、図６の第１の音声と第１の雑音の推定部３０５に置き換えられている点、
・図２の事前ＳＮ比の期待値計算部２０２が、図６の事前ＳＮ比の期待値計算部３０６に置き換えられている点、
・図２の記憶部２０５に記憶保持される事前ＳＮ比モデルＭ_ｓｎが、図６では、記憶部３０７、３０８にそれぞれ記憶保持される音声モデルＭ_ｓと雑音モデルＭ_ｎである点が、
第２の実施形態と異なる。なお、図６等では、単に、説明を容易化するため、音声モデルＭ_ｓと雑音モデルＭ_ｎを別々の記憶部に記憶保持する構成としたが、音声モデルＭ_ｓと雑音モデルＭ_ｎを同一の記憶部に記憶保持する構成としてもよいことは勿論である。

　図６の雑音抑圧係数計算部３０３、雑音抑圧部３０４の動作は、それぞれ図２の雑音抑圧係数計算部２０３、雑音抑圧部２０４の動作とそれぞれ同じである。図２の第２の実施形態と同一部分については重複を回避するため適宜省略し、以下では、本実施形態について、第２の実施形態との相違点について説明する。すなわち、以下では、第１の音声と第１の雑音の推定部３０５、事前ＳＮ比の期待値計算部３０６、音声モデルＭ_ｓと雑音モデルＭ_ｎについて説明する。

　第１の音声と第１の雑音の推定部３０５は、所望の信号と雑音が混在する入力信号Ｘ_０を入力とする。そして、入力信号Ｘ_０に含まれる第１の所望の信号（音声）の推定値Ｓ_１と第１の雑音の推定値Ｎ_１を出力する。

　事前ＳＮ比の期待値計算部３０６は、第１の音声と第１の雑音の推定部３０５から出力される第１の所望の信号（音声）の推定値Ｓ_１と、第１の雑音の推定値Ｎ_１、記憶部３０７に予め記憶保持されている音声モデル（音声のパタン）Ｍ_ｓを入力とする。更に、事前ＳＮ比の期待値計算部３０６は、記憶部３０８に予め記憶保持されている雑音モデル（雑音のパタン）Ｍ_ｎを入力とする。事前ＳＮ比の期待値計算部３０６は、所望の信号（音声）の推定値Ｓ_１と雑音の推定値Ｎ_１と、音声モデルＭ_ｓと雑音モデルＭ_ｎと、を比較し、事前ＳＮ比の期待値Ｒ_ｓｎＥを出力する。

（第１の音声と第１の雑音の推定部）
　図７は、第１の音声と第１の雑音の推定部３０５の構成を例示する図である。第１の音声と第１の雑音の推定部３０５は、第１の雑音推定部３０５１、第１の音声推定部３０５２を含む。

　第１の雑音推定部３０５１は、入力信号Ｘ_０を入力とし、第１の推定雑音Ｎ_１を出力する。

　第１の音声推定部３０５２は、入力信号Ｘ_０と、第１の推定雑音Ｎ_１とを入力とし、第１の推定音声Ｓ_１を出力する。図７の第１の雑音推定部３０５１と第１の音声推定部３０５２の動作は、それぞれ、図３の第１の雑音推定部２０１１と第１の音声推定部２０１２の動作と同じであるため、説明を省略する。ただし、第１の音声と第１の雑音の推定部３０５の出力のうち、第１の推定雑音Ｎ_１には、入力信号Ｘ_０と第１の推定音声Ｓ_１を用いて、再推定した雑音成分Ｎ_１’を用いてもよい（（式５）の右辺分母参照）。

（事前ＳＮ比の期待値計算部）
　図８は、事前ＳＮ比の期待値計算部３０６の構成を例示する図である。事前ＳＮ比の期待値計算部３０６は、特徴量変換部３０６１ｓと、特徴量変換部３０６１ｎと、期待値計算部３０６２と、特徴量逆変換部３０６３と、を含む。

　特徴量変換部３０６１ｓは、第１の推定音声Ｓ_１を入力とし、第１の推定音声Ｓ_１の特徴量Ｆ_ｓ１を出力する。

　特徴量変換部３０６１ｎは、第１の推定雑音Ｎ_１を入力とし、第１の推定雑音Ｎ_１の特徴量Ｆ_ｎ１を出力する。

　期待値計算部３０６２は、特徴量Ｆ_ｓ１と、特徴量Ｆ_ｎ１と、予め用意した音声モデルＭ_ｓと、雑音モデルＭ_ｎを入力とし、事前ＳＮ比の期待値の特徴量Ｆ_ｓｎＥを出力する。

　特徴量逆変換部３０６３は、特徴量Ｆ_ｓｎＥを入力とし、事前ＳＮ比の期待値Ｒ_ｓｎＥを出力する。特徴量逆変換部３０６３の動作は、図４の特徴量逆変換部２０２３の動作と同じであるため、説明を省略する。

（特徴量変換部）
　特徴量変換部３０６１ｓは、第１の推定音声Ｓ_１を入力とし、入力した第１の推定音声Ｓ_１を変換して特徴量Ｆ_ｓ１を出力する。特徴量としては、（式１９）の対数値、あるいは、（式２０）に示すように、対数値をコサイン変換（離散コサイン変換）した値（ケプストラム）等を用いることができる。

　　　　　　　　　　　　　　　　　・・・・(式19)
　なお式１９の右辺は、なお、式１９の右辺は、ベクトルＳ_１の成分ごとに対数計算され、ベクトルＳ_１の成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｙ_ｉ＝ｌｏｇｘ_ｉ（ｙ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＳ_１の第ｉ成分）を意味する。

　　　　　　　　　　　　　　　　　・・・・(式20)
また、式２０の右辺は、のベクトルｌｏｇＳ_１の成分ごとにコサイン変換され、ベクトルＳ_１の成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｚ_ｉ＝C［ｘ_ｉ］（ｚ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＳ_１の第ｉ成分）を意味する。また、式２０の対数演算については式１９における計算と同様である。

　特徴量変換部３０６１ｎは、第１の推定雑音Ｎ_１を入力とし、入力した第１の推定雑音Ｎ_１を変換して特徴量Ｆ_ｎ１を出力する。特徴量としては、（式２１）の対数値、あるいは、（式２２）に示すように、対数値をコサイン変換（離散コサイン変換）した値（ケプストラム）等を用いることができる。

　　　　　　　　　　　　　　　　　・・・・(式21)
　なお式２１の右辺は、なお、式２１の右辺は、ベクトルＮ_１の成分ごとに対数計算され、ベクトルＮ_１の成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｙ_ｉ＝ｌｏｇｘ_ｉ（ｙ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＮ_１の第ｉ成分）を意味する。

　　　　　　　　　　　　　　　　　・・・・(式22)

また、式２２の右辺は、ベクトルｌｏｇＮ_１の成分ごとにコサイン変換され、ベクトルＮ_１の成分に対応して出力される。式２０の右辺は、ベクトルｌｏｇＮ_１の成分ごとにコサイン変換され、ベクトルＮ_１の成分に対応して出力される。ここでベクトルの成分に対して出力されるとは、ｚ_ｉ＝C［ｘ_ｉ］（ｚ_ｉは出力ベクトルの第ｉ成分、ｘ_ｉはベクトルＮ_１の第ｉ成分）を意味する。また、式２２の対数演算については式２１における計算と同様である。
　なお、特徴量Ｆ_ｓ１とＦ_ｎ１は、時間のインデックスｔ毎に計算できるが、過去の時間（例えばｔ－１）の特徴量との差分をとり、一次差分特徴量を用いてもよいし、さらに差分をとり二次差分特徴量を用いることもできる。時間のインデックスｔにおける特徴量Ｆ_ｓ１とＦ_ｎ１は、ケプストラムの次元数や、一次差分特徴量、二次差分特徴量の数だけ存在するため、多次元のベクトルである。

（期待値計算部）
　期待値計算部３０６２は、
・特徴量変換部３０６１ｓから出力される特徴量Ｆ_ｓ１と、
・特徴量変換部３０６１ｎから出力される特徴量Ｆ_ｎ１と、
・記憶部３０７に記憶されている音声モデルＭ_ｓと、
・記憶部３０８に記憶されている雑音モデルＭ_ｎと、
を入力とし、事前ＳＮ比の期待値の特徴量Ｆ_ｓｎＥを出力する。

　以下の例では、
・音声モデルをＧ_ｓ個のガウス分布から構成される混合ガウス分布モデル、
・雑音モデルをＧ_ｎ個のガウス分布から構成される混合ガウス分布モデル
として説明するが、本発明の第３の実施形態は、以下の例に限定されるものでないことは勿論である。

・事前ＳＮ比が、（式４）～（式８）のように、Ｓ_１とＮ_１の比であること、
・特徴量が、（式９）、（式１０）のように、対数値、又は、該対数値の線形変換であること、及び、
・音声と雑音の特徴量が（式１９）～（式２２）のように対数値、又は、該対数値の線形変換であること、
　を考慮すると、事前ＳＮ比の特徴量Ｆ_ｓｎ１は、特徴量Ｆ_ｓ１とＦ_ｎ１を用いて、次のように表すことができる。

　　　　　　　　　　　　　　　　　・・・・(式23)

　上記したように、この例では、音声モデルＭ_ｓを、平均値μ_ｓ，ｇｓ、分散σ^２ _ｓ，ｇｓのＧ_ｓ個のガウス分布が重みｗ_ｓ，ｇｓで混合された混合ガウス分布モデルとする。

　また、雑音モデルＭ_ｎを、平均値μ_ｎ，ｇｎ、分散σ^２ _ｎ，ｇｎのＧ_ｎ個のガウス分布が重みｗ_ｎ，ｇｎで混合された混合ガウス分布モデルとする。

　ただし、ｇ_ｓとｇ_ｎはガウス分布のインデックスである。

　ここで、音声信号と雑音信号とが互いに独立であると仮定すると、事前ＳＮ比モデルは、平均値μ_ｓｎ，ｇ（＝μ_ｓ，ｇｓ－μ_ｎ，ｇｎ）、分散σ^２ _ｓｎ，ｇ（＝σ^２ _ｓ，ｇｓ＋σ^２ _ｎ，ｇｎ）のＧ（＝Ｇ_ｓ×Ｇ_ｎ）個のガウス分布が重みｗ_ｓｎ，ｇ（＝ｗ_ｓ，ｇｓ×ｗ_ｎ，ｇｎ）で混合された混合ガウス分布モデルとなる。

　期待値計算部３０６２では、
・（式２３）の事前ＳＮ比の特徴量Ｆ_ｓｎ１（＝Ｆ_ｓ１－Ｆ_ｎ１）と、
・音声モデルＭ_ｓと雑音モデルＭ_ｎから構成する事前ＳＮ比モデルと、
を用いて、図４の期待値計算部２０２２と同様にして、（式１１）により、期待値の特徴量Ｆ_ｓｎＥを計算して出力する。

　本実施形態によれば、第２の実施形態の事前ＳＮ比モデルＭ_ｓｎの代わりに、音声モデルＭ_ｓと雑音モデルＭ_ｎを、記憶部（３０７、３０８）に保持しておけばよい。これにより、本実施形態は、第２の実施形態に比べて、必要な記憶容量を削減することができる。その理由は、音声モデルＭ_ｓのモデル数をＡ（Ａ＞２）、雑音モデルＭ_ｎのモデル数をＢ（Ｂ＞２）としたときにＡ＋Ｂ＜ＡＢが成立つからである。例えば、音声モデルＭ_ｓのモデル数が３つ、雑音モデルＭ_ｎのモデル数が２つとすると、これらから事前ＳＮ比モデルのモデル数を６つ構成できる。すなわち、記憶部で記憶するモデル数を削減することができる。

　また、本実施形態によれば、例えば、異なる雑音環境へ対応する場合等において、雑音モデルＭ_ｎだけを再作成するだけで良いことから、対応を容易化している。

　さらに、本実施形態によれば、例えば、雑音の特徴量Ｆ_ｎ１に音声が瞬時的に含まれてしまう場合等のように、雑音の特徴量Ｆ_ｎ１の信頼度が瞬時的に低い場合には、（式２３）において、雑音の特徴量Ｆ_ｎ１を雑音モデルの平均値μ_ｎ，ｇｎで代用する。これにより、音声を、雑音と間違えて抑圧してしまうという事態を未然に回避することができる。なお、雑音の特徴量Ｆ_ｎ１が信頼できるか否かは、雑音の特徴量Ｆ_ｎ１と雑音モデルＭ_ｎを比較すればよい。例えば、雑音の特徴量Ｆ_ｎ１がμ_ｎ，ｇｎ±３σ_ｎ，ｇｎ（μ_ｎ，ｇｎは雑音モデルの平均値、σ_ｎ，ｇｎは標準偏差）の範囲内であれば、信頼度が高い、範囲外であれば、信頼度が低いなどとすればよい。

　上記のとおり、本実施形態によれば、事前ＳＮ比の特徴量と、音声モデル及び雑音モデルから構成する事前ＳＮ比モデルを用いて、事前ＳＮ比の特徴量の期待値を計算し、事前ＳＮ比の特徴量の期待値から、雑音抑圧係数を求める。これにより、他の実施形態と同様、所望の信号成分を除去せずに、雑音の大きさが変動しても高精度に雑音成分を抑圧するという作用効果を奏する。更には、本実施形態は、記憶装置の容量の削減、異なる雑音環境への対応の容易化という新たな作用効果を奏する。

［第４の実施形態］
　図９、図１０を参照して、本発明の第４の実施形態に係る雑音抑圧システムについて説明する。図９を参照すると、第４の実施形態に係る雑音抑圧システムでは、
・図６の事前ＳＮ比の期待値計算部３０６を、図９の事前ＳＮ比の期待値計算部４０６で置き換えた点、
・図６において、記憶部３０８に予め記憶保持されている雑音モデルＭ_ｎが、図９では不要である点が、
　第３の実施形態と異なる。

　図９の、第１の音声と第１の雑音の推定部４０５、雑音抑圧係数計算部４０３、雑音抑圧部４０４は、それぞれ、図６の第１の音声と第１の雑音の推定部３０５、雑音抑圧係数計算部３０３、雑音抑圧部３０４と同じ動作である。このため、図６の第３の実施形態と同一部分については重複を回避するため適宜省略し、以下では、本実施形態について、第３の実施形態との相違点について説明する。すなわち、以下では、事前ＳＮ比の期待値計算部４０６、雑音モデルＭ_ｎについて説明する。

　事前ＳＮ比の期待値計算部４０６は、第１の音声と第１の雑音の推定部４０５の出力値Ｓ_１とＮ_１、予め用意しておいた音声モデル（音声のパタン）Ｍ_ｓを入力とする。推定したＳ_１、Ｎ_１と、音声モデルＭ_ｓを用いて、事前ＳＮ比の期待値Ｒ_ｓｎＥを出力する。

（事前ＳＮ比の期待値計算部）
　図１０は、事前ＳＮ比の期待値計算部４０６の構成を例示する図である。図１０を参照すると、事前ＳＮ比の期待値計算部４０６は、特徴量変換部４０６１ｓと、特徴量変換部４０６１ｎと、期待値計算部４０６２と、特徴量逆変換部４０６３と、雑音モデル作成部４０６４とを含む。第１の推定雑音の特徴量Ｆ_ｎ１から雑音モデル作成部４０６４で雑音モデルＭ_ｎを作成し（逐次的に更新し）、期待値計算部４０６２に入力する。特徴量変換部４０６１ｓ、特徴量変換部４０６１ｎ、特徴量逆変換部４０６３の動作は、それぞれ、図８の特徴量変換部３０６１ｓ、特徴量変換部３０６１ｎ、特徴量逆変換部３０６３の動作と同じであるため、説明を省略する。

（雑音モデル作成部）
　雑音モデル作成部４０６４は、第１の推定雑音の特徴量Ｆ_ｎ１を入力とし、雑音モデルＭ_ｎを作成して（逐次的に更新し）、出力する。以下では、説明の簡単化のため、雑音モデルを単一ガウス分布として説明する。ただし、本発明の第４の実施形態は、かかる分布に限定されるものでないことは勿論である。

　雑音モデルＭ_ｎを、平均値μ_ｎ、分散σ^２ _ｎの単一ガウス分布とする。

　　　　　　　　　　　　　　　　　・・・・(式24)

　　　　　　　　　　　　　　　　　・・・・(式25)

　ただし、ＡＶＥ［］は平均値を算出する演算子、ＶＡＲ［］は分散値を算出する演算子である。例えば、時間のインデックスｔにおける雑音モデルＭ_ｎの平均値μ_ｎ（ｔ）と分散σ^２ _ｎ（ｔ）は、それぞれ、以下の（式２６）、（式２７）のように、逐次更新される。

　　　　　　　　　　　　　　　　　・・・・(式26)

　　　　　　　　　　　　　　　　　・・・・(式27)

　ここで、α_μ、α_σは、それぞれ平均値、分散値を算出するための時定数（０．０～１．０）であり、通常０．９～１．０の値に設定され、平均化効果を得る。なお、上記で例示した方法とは異なる方法で、雑音モデルＭ_ｎを作成してもよいことは勿論である。

（期待値計算部）
　期待値計算部４０６２は、
・特徴量変換部４０６１ｓから出力される特徴量Ｆ_ｓ１と、
・特徴量変換部４０６１ｎから出力される特徴量Ｆ_ｎ１と、
・記憶部４０７に予め記憶保持されている音声モデル（音声のパタン）Ｍ_ｓと、
・雑音モデル作成部４０６４からの雑音モデル（雑音のパタン）Ｍ_ｎと、
を入力とし、事前ＳＮ比の期待値の特徴量Ｆ_ｓｎＥを出力する。

　期待値計算部４０６２の動作は、図８の期待値計算部３０６２の動作と基本的に同じである。

　ここで、期待値計算部４０６２において、時々刻々と変化する雑音モデルＭ_ｎを音声モデルＭ_ｓと組み合わせて、事前ＳＮ比モデルを作成することが、計算量の観点で実現が困難である場合、例えば、以下のような工夫を施すことで、計算量を削減することができる。

　まず、事前ＳＮ比モデルの平均値μ_ｓｎ，ｇ（＝μ_ｓ，ｇｓ－μ_ｎ，ｇｎ）について検討する。（式１３）において、事前ＳＮ比の特徴量Ｆ_ｓｎ１と事前ＳＮ比モデルの平均値μ_ｓｎ，ｇの差分の計算を、音声モデルの平均値μ_ｓ，ｇｓと、雑音モデルの平均値μ_ｎ，ｇｎを用いて、書き換える。

　　　　　　　　　　　　　　　　・・・・(式28)

　雑音モデルＭ_ｎの混合分布数Ｇ_ｎが、音声モデルＭ_ｓの混合分布数Ｇ_ｓと比較して少ない場合、例えば、雑音モデルＭ_ｎが単一ガウス分布の場合には、以下の（式２９）のようになる。

　　　　　　　　　　　　　　　　　・・・・(式29)

　すなわち、事前ＳＮ比の特徴量Ｆ_ｓｎ１に雑音モデルの平均値μ_ｎを加えたものに対して、音声モデルＭ_ｓの平均値μ_ｓ，ｇｓとの差分を計算することになる。このため、事前ＳＮ比モデルの平均値を算出する計算が不要になる。

　次に、事前ＳＮ比モデルの分散σ^２ _ｓｎ，ｇ（＝σ^２ _ｓ，ｇｓ＋σ^２ _ｎ，ｇｎ）について検討する。

　音声モデルＭ_ｓとして、例えば図１１に示すような、木構造化された音声モデルを予め準備しておく。図１１の例では、１層目の混合ガウス分布１－１は２つのガウス分布からなり、１層目の２つのガウス分布はそれぞれ２層目の混合ガウス分布２－１、２－２からなり、２層目の混合ガウス分布２－１（２－２）の２つの分布はそれぞれ３層目の混合ガウス分布３－１、３－２（３－３、３－４）からなる。

　そして、上位層から、（式１３）の計算結果に応じて、木構造を探索することで、全ての事前ＳＮ比モデルの分散σ^２ _ｓｎ，ｇを計算する必要はなくなる。

　また、雑音の分散σ^２ _ｎ，ｇｎが余り変化しない場合には、事前ＳＮ比モデルの分散σ^２ _ｓｎ，ｇの計算頻度を減らすことにより、雑音抑圧の精度を維持しながら、計算量を削減することができる。

　本実施形態によれば、雑音モデルＭ_ｎを入力信号Ｘ_０から作成するため、事前に雑音モデルを準備することは不要である。

　また、本実施形態によれば、雑音モデルＭ_ｎを逐次更新することで、入力信号Ｘ_０に含まれる雑音に適した雑音モデルを使用することができる。その結果、第３の実施形態に比べて、高精度に雑音を抑圧することができる。

　別の実施形態として、マイクユニットに上記実施形態に記載した雑音抑圧システムを適用してもよい。

　さらに、本発明は、上記した実施形態の雑音抑圧システムの機能を実現する雑音抑圧プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、コンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明によって提供される。本発明によれば、実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体（non-transitory computer readable medium）が、提供される。

　本発明は、上記実施形態に制限されるものでなく、例えば実施形態を各種組み合わせた構成としてもよい。また、複数の機器から構成されるシステムに適用してもよいし、単体の装置に適用してもよい。

　なお、上記の特許文献、非特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素（各請求項の各要素、各実施例の各要素、各図面の各要素等を含む）の多様な組み合わせ乃至選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
　この出願は、２０１４年７月１６日に出願された日本出願特願２０１４－１４５７５３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１００、２００、３００、４００　雑音抑圧システム
１０１、２０１　第１の事前ＳＮ比推定部
１０２、２０２、３０６、４０６　事前ＳＮ比の期待値計算部
１０３、２０３、３０３、４０３　雑音抑圧係数計算部
１０４、２０４、３０４、４０４　雑音抑圧部
１０５、２０５　事前ＳＮ比モデル（記憶部）
３０５、４０５　第１の音声と第１の雑音の推定部
３０７、４０７　音声モデル（記憶部）
３０８　雑音モデル（記憶部）
２０１１、３０５１　第１の雑音推定部
２０１２、３０５２　第１の音声推定部
２０１３　事前ＳＮ比推定部
２０２１、３０６１ｓ、３０６１ｎ、４０６１ｓ、４０６１ｎ　特徴量変換部
２０２２、３０６２、４０６２　期待値計算部
２０２３、３０６３、４０６３　特徴量逆変換部
４０６４　雑音モデル作成部

Claims

　信号と雑音が混在した入力信号から推定される前記信号と前記雑音に関する事前ＳＮ比の推定値に対して、事前ＳＮ比モデル、又は、信号モデルと雑音モデル、に基づき、補正を施し、前記事前ＳＮ比の期待値を取得する事前ＳＮ比推定・期待値計算手段と、
　前記事前ＳＮ比の期待値を用いて雑音抑圧係数を計算する雑音抑圧係数計算手段と、
　前記雑音抑圧係数を前記入力信号に乗じて前記入力信号に含まれる雑音を抑圧する雑音抑圧手段と、
　を備える雑音抑圧システム。
　前記事前ＳＮ比推定・期待値計算手段は、
　前記入力信号を入力し、前記入力信号から前記信号と前記雑音とを推定し、推定した前記信号と前記雑音から前記事前ＳＮ比を推定する事前ＳＮ比推定手段と、
　予め用意された事前ＳＮ比モデルを記憶する記憶手段と、
　前記事前ＳＮ比推定手段で推定された前記事前ＳＮ比に対して、前記記憶手段に記憶された前記事前ＳＮ比モデルを用いて補正を施し前記事前ＳＮ比の期待値を計算する事前ＳＮ比の期待値計算手段と、
　を備える請求項１記載の雑音抑圧システム。
　前記事前ＳＮ比推定・期待値計算手段は、
　前記入力信号を入力し、前記入力信号から信号と雑音とを推定する推定手段と、
　予め用意された信号モデルと雑音モデルとを記憶する記憶手段と、
　前記推定手段で推定された前記信号と前記雑音とを入力し、前記信号の前記雑音に対する事前ＳＮ比に対して、前記記憶手段に記憶された前記信号モデルと前記雑音モデルとを用いて補正を施し前記事前ＳＮ比の期待値を計算する事前ＳＮ比の期待値計算手段と、
　を備える請求項１記載の雑音抑圧システム。
　前記事前ＳＮ比推定・期待値計算手段は、
　前記入力信号を入力し、前記入力信号から信号と雑音とを推定する推定手段と、
　予め用意された信号モデルを記憶する記憶手段と、
　前記推定手段で推定された前記信号と前記雑音とを入力し、前記雑音に基づき雑音モデルを生成し、前記信号の前記雑音に対する事前ＳＮ比に対して、前記記憶手段に記憶された前記信号モデルと、生成した前記雑音モデルとを用いて補正を施し前記事前ＳＮ比の期待値を計算する事前ＳＮ比の期待値計算手段と、
　を備える請求項１記載の雑音抑圧システム。
　前記記憶手段が、前記信号モデルとして、木構造化された信号モデルを記憶保持する請求項３又は４記載の雑音抑圧システム。
　信号と雑音が混在した入力信号から推定される前記信号と前記雑音に関する事前ＳＮ比の推定値に対して、事前ＳＮ比モデル、又は、信号モデルと雑音モデル、に基づき、補正を施して前記事前ＳＮ比の期待値を取得し、
　前記事前ＳＮ比の期待値を用いて雑音抑圧係数を計算し、
　前記雑音抑圧係数を前記入力信号に乗ずることで、前記入力信号に含まれる雑音成分を抑圧する雑音抑圧方法。
　記憶手段に、予め用意された事前ＳＮ比モデルを記憶しておき、
　信号と雑音が混在した前記入力信号を入力し、前記入力信号から信号と雑音とを推定し、推定された前記信号の前記雑音に対する事前ＳＮ比を推定し、
　前記事前ＳＮ比の期待値の取得にあたり、
　前記推定された事前ＳＮを、前記記憶手段に記憶された前記事前ＳＮ比モデルを用いて補正した値を、前記事前ＳＮ比の期待値として出力する請求項６記載の雑音抑圧方法。
　記憶手段に、予め用意された信号モデルと雑音モデルとを記憶しておき、
　信号と雑音が混在した前記入力信号を入力し、前記入力信号から信号と雑音とを推定し、
　前記事前ＳＮ比の期待値の取得にあたり、
　推定された前記信号の前記雑音に対する事前ＳＮ比を、前記記憶手段に記憶された前記信号モデルと前記雑音モデルとを用いて補正した値を、前記事前ＳＮ比の期待値として出力する請求項６記載の雑音抑圧方法。
　記憶手段に、予め用意された信号モデルを予め記憶しておき、
　前記信号と雑音が混在した前記入力信号を入力し、前記入力信号から信号と雑音とを推定し、
　前記事前ＳＮ比の期待値の取得にあたり、
　前記推定された前記雑音に基づき雑音モデルを生成し、
　推定された前記信号の前記雑音に対する事前ＳＮ比を、前記記憶手段に記憶された前記信号モデルと、前記生成した雑音モデルと、を用いて補正した値を、前記事前ＳＮ比の期待値として出力する請求項６記載の雑音抑圧方法。
　信号と雑音が混在した入力信号から推定した前記信号と前記雑音に関する事前ＳＮ比の推定値に対して、前記事前ＳＮ比モデル、又は、信号モデルと雑音モデルに基づき、補正を施して事前ＳＮ比の期待値を取得する処理と、
　前記事前ＳＮ比の期待値を用いて、雑音抑圧係数を計算する処理と、
　前記雑音抑圧係数を前記入力信号に乗ずることで、前記入力信号に含まれる雑音成分を抑圧する処理と、
　をコンピュータに実行させるプログラムを格納した記録媒体。