JP6261043B2

JP6261043B2 - 音声処理装置、音声処理方法、及び音声処理プログラム

Info

Publication number: JP6261043B2
Application number: JP2014097622A
Authority: JP
Inventors: ランディゴメス; 一博中臺; 武志水本; 圭佑中村
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-08-30
Filing date: 2014-05-09
Publication date: 2018-01-17
Anticipated expiration: 2034-05-09
Also published as: US9336777B2; JP2015064554A; US20150066500A1

Description

本発明は、音声処理装置、音声処理方法、及び音声処理プログラムに関する。

室内で放射された音は、壁面や設置物で反射が繰り返されることによって残響が生じる。室内で収録される音声には、現在発されている音声に過去に発された音声による残響が付加される。収録された音声に対して音声認識処理を行うと原音声よりも音声認識率が低下することがある。そこで、残響環境下で収録した音声から残響成分を抑圧する残響抑圧技術が従来から開発されている。

例えば、特許文献１には、観測時点以前に音源から出力された音のエネルギーが、観測された音のエネルギーに占める割合を、与えられた残響時間から推定する重み係数作成手段と、観測時点以前に出力された音のエネルギーを記憶するパワースペクトル記憶手段と、重み係数を用いて観測された音のエネルギーからパワースペクトル記憶手段に記憶された、観測時点以前に出力されたエネルギーを引き去る残響成分引き去り手段を備える残響除去装置について記載されている。この特許文献１に記載の技術では、観測された音のエネルギーから残響成分のみが引き去られる。

特開２０１１−０６５１２８号公報

一般に、発話された音声は、単語毎に音のエネルギーが異なるにもかかわらず、特許文献１に記載の技術では、音のエネルギーが残響時間に基づいて推定されており、単語間での差異が考慮されていない。そのため、現在観測された音のエネルギーから残響によるエネルギーを除去しきれないので音声認識精度が十分に向上できないことがあった。

本発明は上記の点に鑑みてなされたものであり、残響の影響を低減して音声認識精度を向上できる音声処理装置、音声処理方法、及び音声認識プログラムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された音声から認識単位を逐次に認識する音声認識部と、先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部と、前記音声認識部が認識した複数の認識単位からなる認識単位群に対応した残響影響度を前記残響影響度記憶部から選択する残響影響度選択部と、前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧部と、を備える音声処理装置である。

（２）本発明の他の態様は、（１）の音声処理装置であって、前記残響抑圧部は、前記少なくとも一部の認識単位が認識された音声に残響成分の寄与を示す残響除去係数を乗じて得られた残響成分に、前記残響影響度で重み付けた残響成分を抑圧する。

（３）本発明の他の態様は、（１）又は（２）の音声処理装置であって、前記認識単位は、単語であることを特徴とする。

（４）本発明の他の態様は、（３）の音声処理装置であって、前記認識単位群は、２つの隣接する単語からなる単語対であって、前記残響影響度は、１つの単語が認識された音声による残響が後続する単語の音声に与える影響の度合いを示す係数であることを特徴とする。

（５）本発明の他の態様は、（４）の音声処理装置であって、前記残響影響度は、前記後続する単語の音声による残響成分のパワースペクトル密度の、前記１つの単語の音声のパワースペクトル密度の比であって、前記残響影響度記憶部は、前記残響影響度と、当該１つの単語と後続する単語とからなる単語対に係る音声のパワースペクトル密度とを対応付けて記憶し、前記残響影響度選択部は、前記音声認識部が認識した単語から単語対毎に、入力された音声のパワースペクトル密度が最も近似するパワースペクトル密度に対応した残響影響度を選択する。

（６）本発明の他の態様は、（１）又は（２）の音声処理装置であって、前記認識単位は、発話の状態であることを特徴とする。

（７）本発明の他の態様は、（６）の音声処理装置であって、前記認識単位群は、複数の隣接する状態からなる状態列であって、前記残響影響度は、所定の状態列が認識された音声による残響のパワーの、当該音声のパワーに対する比であることを特徴とする。

（８）本発明の他の態様は、（６）又は（７）の音声処理装置であって、前記音声認識部は、所定の単語群が発話された音声から認識された状態列の尤度が高くなるように生成された音響モデルを参照して前記発話の状態を認識する。

（９）本発明の他の態様は、音声処理装置における音声処理方法において、入力された音声から認識単位を逐次に認識する音声認識過程と、前記音声認識過程で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択過程と、前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧過程と、を有する音声処理方法である。

（１０）本発明の他の態様は、音声処理装置のコンピュータに、入力された音声から認識単位を逐次に認識する音声認識手順、前記音声認識手順で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択手順、前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧手順、を実行させるための音声処理プログラムである。

上述した（１）、（９）又は（１０）の構成によれば、認識単位群の少なくとも一部の認識単位が認識された音声から、先行音声による残響が後続音声に与える影響を示す残響影響度で重みづけした残響成分が抑圧される。これにより、認識単位間で異なる残響の影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
上述した（２）の構成によれば、少なくとも一部の認識単位が認識された音声に残響除去係数を乗じて求めた残響成分が、認識単位間で異なる残響の影響を考慮して残響の影響が除去されるため、音声認識精度をさらに向上することができる。

上述した（３）の構成によれば、単語間で異なる残響の影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
上述した（４）の構成によれば、残響影響度に基づく残響抑圧を２つの隣接する単語対毎に行うことができるため、処理量が過大になることを抑制することができる。
上述した（５）の構成によれば、音声のパワースペクトル密度に基づいて残響影響度を選択し、選択した残響影響度を用いて残響抑圧を行うため、単語毎に異なる音声の周波数特性の変化が考慮される。そのため、音声認識精度をさらに向上することができる。

上述した（６）の構成によれば、発話の状態間で異なる残響の影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
上述した（７）の構成によれば、複数の隣接する状態列により異なる残響のパワーの影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
上述した（８）の構成によれば、音響モデルにおいて音声の物理的な特徴を示す音響特徴量と発話の状態とが対応付けられるので、状態列により音声の物理的な特徴の変化が表現される。そのため、発話の状態による音声の物理的な特徴の変化に応じて異なる残響のパワーの影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。

本発明の第１の実施形態に係る音声処理システムの構成を示すブロック図である。単語列と単語対の一例を示す図である。ある単語が発話された区間の音声信号の強度の例を示す図である。残響影響度データの例を示す図である。残響特性推定部の構成を示すブロック図である。残響影響度解析部の構成を示すブロック図である。本発明の第１の実施形態に係る音声処理を示すフローチャートである。本発明の第２の実施形態に係る音声処理システムの構成を示すブロック図である。応答データの例を示す図である。実験室における発話者と収音部の配置例を示す平面図である。処理方法毎の音声認識率の一例を示す図である。処理方法毎の音声認識率の他の例を示す図である。本発明の第３の実施形態に係る音声処理システムの構成を示すブロック図である。データ生成処理を示すフローチャートである。音響モデル生成処理を示すブロック図である。処理方法毎の音声認識率の一例を示す図である。処理方法毎の音声認識率の他の例を示す図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音声処理システム１の構成を示すブロック図である。
音声処理システム１は、音声処理装置１１及び収音部１２を含んで構成される。
音声処理装置１１は、後述するように、収音部１２から入力された音声信号に基づいて発話された単語を逐次に認識し、認識した単語のうち、少なくとも１つの単語に係る音声による残響が、その後の単語に係る音声に与える影響を示す残響影響度を選択する。そして、音声処理装置１１は、その少なくとも１つの単語に係る音声から、選択した残響影響度で重み付けした残響成分を抑圧する。

収音部１２は、Ｍ個（Ｍは０よりも大きい整数）のチャネルの音声信号を収録し、収録した音声信号を音声処理装置１１に送信する。収音部１２は、収録した音声信号を無線で送信してもよいし、有線で送信してもよい。
Ｎが１よりも大きい場合には、送信の際にＭチャネル間で音響信号が同期していればよい。収音部１２の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。収音部１２は、音声処理装置１１と一体化されていてもよいし、別体であってもよい。

ここで、残響とは、音源が音の放射を停止した後も音が到来する現象である。残響は、壁面や設置物で音波の反射が繰り返されることによって生じる。一般に、収音部１２では、音源から直接到来した直接音（ｄｉｒｅｃｔｓｏｕｎｄ）と反射音（ｒｅｆｌｅｃｔｉｏｎ）が重畳することによって、残響が付加された音声が収録される。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短い（例えば、約３０ｍｓ以下）ために、反射回数が比較的少なくそれぞれの反射パターンが区別される部分は、初期反射（ｅａｒｌｙｒｅｆｌｅｃｔｉｏｎ）と呼ばれる。反射音のうち、それよりも経過時間が長いために、反射回数が多くそれぞれの反射パターンを区別できない部分は、後期反射（ｌａｔｅｒｅｆｌｅｃｔｉｏｎ）と呼ばれる。後期反射は、後期残響（ｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ）、又は単に残響（ｒｅｖｅｒｂｅｒａｔｉｏｎ）と呼ばれることがある。

残響が生じると、過去に発話された音声による残響が現在発話されている音声に重畳する。このため、残響が付加されていない音声よりも残響が付加された音声の方が、音声認識率が低下する。また、残響は、人間の聴覚上も、発話内容に対する明瞭度（ｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙ）を低下させる。以下の説明では、このような残響による悪影響を、残響の影響（ｓｍｅａｒｉｎｇ）と呼ぶ。また、残響が付加された音声、残響が除去された音声、残響成分が無視できるほど少ない音声を、それぞれ残響付加音声（ｒｅｖｅｒｂｅｒｅｎｔｓｐｅｅｃｈ）、残響除去音声（ｄｅｒｅｖｅｒｂｅｒａｔｅｄｓｐｅｅｃｈ）、クリーン音声（ｃｌｅａｎｓｐｅｅｃｈ）、と呼ぶ。なお、残響の影響は、コンタミネーション（ｃｏｎｔａｍｉｎａｔｉｏｎ）と呼ばれることもある。

次に、音声処理装置１１の構成について説明する。
音声処理装置１１は、残響特性推定部１０１、第１残響除去部１０２、第１音声認識部１０３、単語抽出部１０４、残響影響度記憶部１０５、残響影響度選択部１０６、第２残響除去部１０７、及び第２音声認識部１０８を含んで構成される。

残響特性推定部１０１は、収音部１２から入力された音声信号に重畳されている残響の特性（残響特性）を推定する。残響特性推定部１０１は、残響特性を示す指標として、例えば、予め定めた周波数帯域ｂ毎の残響除去係数（ｄｅｒｅｖｅｒｂｅｒａｔｉｏｎｐａｒａｍｅｔｅｒ）δ_ｂを推定する。ここで、ｂの値は、１からＢの間の整数、Ｂは予め定めた周波数帯域の数を示す１よりも大きい整数である。残響除去係数δ_ｂは、残響付加音声のパワーのうち後期反射のパワーの割合を示す指標である。残響特性推定部１０１は、推定した残響除去係数δ_ｂを第１残響除去部１０２と第２残響除去部１０７に出力する。
残響特性推定部１０１の構成については後述する。

第１残響除去部１０２は、収音部１２から入力された音声信号から、残響特性推定部１０１から入力された残響除去係数δ_ｂに基づいて残響成分を除去する。第１残響除去部１０２は、残響成分を除去した残響除去音声信号を第１音声認識部１０３に出力する。ここで、第１残響除去部１０２は、例えば、式（１）を用いて、算出した周波数領域係数ｒ（ω，ｍ）と残響除去係数δ_ｂに基づいて残響除去音声の周波数領域係数ｅ（ω，ｍ）を算出する。

式（１）において、｜…｜は、…の絶対値を示す。ｒ（ω，ｍ）は、入力された音響信号の第ｍフレームにおける周波数領域係数を示す。式（１）の上段が示す処理により音響信号のパワーから後期反射成分が除去される。式（１）の下段において、βはフロアリング係数（ｆｌｏｏｒｉｎｇｃｏｅｆｆｉｃｉｅｎｔ）である。βは、１よりも０に近い予め定めた正の微小な値（例えば、０．０５）である。このように、β｜ｒ（ω，ｍ）｜^２の項を設けることで、残響除去音声信号において最低限の振幅が維持されるので例えば、ミュージカルノイズ（ｍｕｓｉｃａｌｎｏｉｓｅ）のような非線形雑音が生じにくくなる。第１残響除去部１０２は、算出した周波数領域係数ｅ（ω，ｍ）を時間領域に変換した残響除去音声信号を生成し、生成した残響除去音声信号を第１音声認識部１０３に出力する。
以下の説明では、第１残響除去部１０２が生成した残響除去音声信号を第１残響除去音声信号と呼び、後述する第２残響除去部１０７が生成した第２残響除去音声信号と区別する。

第１音声認識部１０３は、第１残響除去部１０２から入力された第１残響除去音声信号について音声認識処理を行い、発話内容（例えば、文を示すテキスト、つまり単語列）を認識し、認識した発話内容を示す認識データを単語抽出部１０４に出力する。
ここで、第１音声認識部１０３は、第１残響除去音声信号について予め定めた時間間隔（例えば、１０ｍｓ）毎に音響特徴量を算出する。音響特徴量は、例えば、静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーの組である。

第１音声認識部１０３は、算出した音響特徴量について予め設定された音響モデルλを用いて音素を認識する。音響モデルλは、例えば、連続隠れマルコフモデル（ｃｏｎｔｉｎｕｏｕｓＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。連続ＨＭＭは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して表される。音響モデルλは、クリーン音声を用いて尤度が最大になるように学習されたものであってもよい。

第１音声認識部１０３は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を示す文を認識する（連続音声認識）。認識された文は、通常、複数の単語からなる単語列である。言語モデルは、音素列から単語や文を認識する際に用いられる統計モデルである。第１音声認識部１０３は、認識した単語列を示す認識データを生成し、生成した認識データを単語抽出部１０４に出力する。
以下の説明では、第１音声認識部１０３が生成した認識データを第１認識データと呼び、後述する第２音声認識部１０８が生成した第２認識データと区別する。

単語抽出部１０４は、第１音声認識部１０３から入力された第１認識データが示す単語列から予め定めたＮ個（Ｎは、１よりも大きい整数、例えば、２）の互いに隣接する単語からなる単語群を逐次に抽出する。「逐次に」とは、抽出される単語群によって形成される先頭の単語を、順次その直後の単語に変更することである。単語抽出部１０４は、収音部１２から入力された音声信号から抽出した単語群に対応する区間の音声信号を抽出する。単語抽出部１０４は、抽出した単語群と、その単語群に対応する区間の音声信号を残響影響度選択部１０６に出力する。以下の説明では、主に、単語群が２個の隣接する単語からなる単語対（ｗｏｒｄｐａｉｒ）である場合を例にとる。単語列と単語対との関係については後述する。なお、以下の説明では、単語群に対応する区間の音声信号を「単語群区間音声信号」と呼び、単語対に対応する区間の音声信号を「単語対区間音声信号」と呼ぶことがある。

残響影響度記憶部１０５には、残響影響度データが予め記憶されている。残響影響度データは、ある１つの単語と後続する単語からなる単語対が認識された区間の音声信号の強度と、ある１つの単語に係る音声による残響が後続する単語に係る音声に与える影響の度合いを示す残響影響度とが対応付けられたデータである。強度を示す指標は、例えば、パワースペクトル密度（ＰＳＤ：ｐｏｗｅｒｓｐｅｃｔｒａｌｄｅｎｓｉｔｙ）である。
残響影響度データの例や、残響影響度を算出する処理については後述する。

残響影響度選択部１０６には、単語抽出部１０４から単語対と単語対区間音声信号が入力される。残響影響度選択部１０６は、単語対区間音声信号の強度を算出し、算出した強度とその周波数特性の時間変化が最も近似する強度に対応した残響影響度を残響影響度記憶部１０５から選択する。残響影響度選択部１０６は、近似の度合いを示す指標として、例えば、式（２）に示す類似度（ｓｉｍｉｌａｒｉｔｙ）ｓｉｍを算出する。

式（２）において、＜Ｄ^（ｃ）＊（ω），Ｄ_ｔｊ（ω）＞は、Ｄ^（ｃ）（ω）とＤ_ｔｊ（ω）との相互相関（ｃｒｏｓｓ−ｃｏｒｒｅｌａｔｉｏｎ）を示す。Ｄ^（ｃ）（ω）は、残響影響度記憶部１０５に記憶された、クラスｃに係る単語対に係る単語対音声信号のパワースペクトル密度を示す。クラスｃとは、後述するように単語対をそれぞれ識別するインデックスである。＊は、複素共役を示す。Ｄ_ｔｊ（ω）は、単語対ｔ_ｊに係る単語対区間音声信号のパワースペクトル密度を示す。
従って、類似度ｓｉｍが大きいほどＤ^（ｃ）（ω）とＤ_ｔｊ（ω）が近似し、類似度ｓｉｍが小さいほどＤ^（ｃ）（ω）とＤ_ｔｊ（ω）が相違することを示す。
ここで、残響影響度選択部１０６は、例えば、式（３）を用いてパワースペクトル密度Ｄ_ｔｊ（ω）を算出する。

式（３）において、Ｍ_ｔｊは単語対ｔ_ｊが認識された区間のフレーム数を示す。Ｐ_ｒ（ω，ｍ）は、第ｍフレームにおける単語対区間音声信号（残響付加音声信号）のピリオドグラム（ｐｅｒｉｏｄｇｒａｍ）、つまり周波数ωの成分の振幅の二乗値である。従って、パワースペクトル密度Ｄ_ｔｊ（ω）は、単語対ｔ_ｊが認識された区間における周波数ωの成分の二乗値についての平均値である。
残響影響度選択部１０６は、選択した残響影響度と単語抽出部１０４から入力された単語対を第２残響除去部１０７に出力する。

このように、残響影響度選択部１０６は、認識された単語からなる単語対に対応する単語対区間音声信号の強度に基づいて残響影響度を選択する。そのため、残響環境で認識された単語の情報を用いずに、残響成分を含んだ残響付加音声信号の強度の特性を用い、その特性に応じた残響影響度が選択される。

第２残響除去部１０７は、収音部１２から入力された音声信号のうち単語抽出部１０４から入力された単語対に対応する区間の音声信号を単語対区間音声信号として抽出する。第２残響除去部１０７は、抽出した単語対区間音声信号から、残響特性推定部１０１から入力された残響除去係数δ_ｂと残響影響度選択部１０６から入力された残響影響度に基づいて残響成分を除去する。ここで、第２残響除去部１０７は、単語対区間音声信号と残響除去係数δ_ｂを用いて残響成分を算出し、算出した残響成分について残響影響度を用いて重みづけを行う。第２残響除去部１０７は、重みづけがなされた残響成分を抽出した単語対区間音声信号から除去して第２残響除去音声信号を生成する。

第２残響除去部１０７は、例えば、式（４）を用いて、単語対区間音声信号の周波数領域係数と残響除去係数δ_ｂと残響影響度に基づいて、第２残響除去音声信号の周波数領域係数を算出する。

式（４）において、ｅ（ω，ｍ，ｗ_ｊ）は、第２残響除去音声信号のうち、単語ｗ_ｊが認識された区間の第ｍフレームにおける周波数領域係数を示す。ｒ（ω，ｍ，ｗ_ｊ）は、入力された音声信号のうち、単語ｗ_ｊが認識された区間の第ｍフレームにおける周波数領域係数を示す。τ_ｊは、単語ｗ_ｊと後続する単語ｗ_ｊ＋１からなる単語対ｔ_ｊが認識された区間の音声信号に係る残響影響度を示す。つまり、式（４）の上段の右辺の第２項は、単語ｗ_ｊが認識された区間の第ｍフレームにおける単語対区間音声信号の周波数領域係数ｒ（ω，ｍ，ｗ_ｊ）の二乗値に残響除去係数δ_ｂを乗じて残響成分の二乗値を推定し、推定した残響成分の二乗値にさらに残響影響度τ_ｊで重みづけを行うことを示す。従って、式（４）は、そのフレームにおける単語対区間音声信号の周波数領域係数ｒ（ω，ｍ，ｗ_ｊ）の二乗値から残響影響度τ_ｊで重みづけがなされた残響成分の二乗値を除去して、そのフレームの第２残響除去音声信号の周波数領域係数ｅ（ω，ｍ，ｗ_ｊ）を定めることを示す。

なお、式（４）の下段のように、β｜ｒ（ω，ｍ，ｗ_ｊ）｜^２の項を設けるのは、式（１）と同様に第２残響除去音声信号において最低限の振幅を維持することで異音を生じにくくするためである。第２残響除去部１０７は、算出した周波数領域係数ｅ（ω，ｍ，ｗ_ｊ）を時間領域に変換した第２残響除去音声信号を生成し、生成した第２残響除去音声信号を第２音声認識部１０８に出力する。

第２音声認識部１０８は、第２残響除去部１０７から入力された第２残響除去音声信号について音声認識処理を行うことで、発話内容を認識し、認識した発話内容を示す第２認識データを音声処理装置１１の外部に出力する。
第２音声認識部１０８は、第１音声認識部１０３と同様な構成を有していてもよい。つまり、第２音声認識部１０８は、第２残響除去音声信号について予め定めた時間間隔毎に音響特徴量を算出し、算出した音響特徴量について予め設定された音響モデルを用いて音素を認識する。第２音声認識部１０８は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を示す文を逐次に認識し、認識した単語列を示す第２認識データを生成し、生成した第２認識データを出力する。

第２音声認識部１０８は、残響影響度選択部１０６で選択された残響影響度を用いて重みづけした残響成分が除去された第２残響除去音声信号について音声認識処理が行われる。残響影響度とは、１つの単語に係る音声による残響が後続する単語に係る音声に与える影響の度合いを示す係数であるところ、より先行する単語が認識された区間の音声信号に係る残響成分が抑圧された音声信号が用いられるので音声認識率が向上する。

なお、残響影響度選択部１０６は、選択した残響影響度と単語抽出部１０４から入力された単語対に加えて、単語対区間音声信号を第２残響除去部１０７に出力してもよい。この場合、第２残響除去部１０７は、残響影響度選択部１０６から入力された単語対区間音声信号から、残響特性推定部１０１から入力された残響除去係数δ_ｂと残響影響度選択部１０６から入力された残響影響度に基づいて残響成分を除去する。ここで、第２残響除去部１０７は、入力された単語対区間音声信号と残響除去係数δ_ｂを用いて残響成分を算出し、算出した残響成分について残響影響度を用いて重みづけを行う。第２残響除去部１０７は、重みづけがなされた残響成分を抽出した単語対区間音声信号から除去して第２残響除去音声信号を生成する。この場合も、第２音声認識部１０８では、音声認識処理において、より先行する単語が認識された区間の音声信号に係る残響成分が抑圧された音声信号が用いられるので音声認識率が向上する。

（単語列と単語対の例）
次に、単語抽出部１０４に入力された第１認識データが示す単語列と、単語抽出部１０４が抽出する単語対との一例を示す。
図２は、単語列と単語対の一例を示す図である。
図２の上段は、認識された単語ｗ_１，ｗ_２，ｗ_３，…，ｗ_ｊ，ｗ_ｊ＋１，…からなる単語列を示す。図２の下段は、抽出された単語対ｔ_１，ｔ_２，…，ｔ_ｊ，…を示す。図２において左右方向は時刻を示す。つまり、左側よりも右側の単語もしくは単語対の方が、新たな単語もしくは単語対を示す。
ここで、単語対ｔ_１は、単語列から抽出された単語ｗ_１，ｗ_２からなり、単語対ｔ_２は、単語ｗ_２，ｗ_３からなり、単語対ｔ_ｊは、単語ｗ_ｊ，ｗ_ｊ＋１からなることを示す。このようにして、単語抽出部１０４は、単語列から単語ｗ_ｊと直後に後続する単語ｗ_ｊ＋１を抽出して単語対ｔ_ｊを生成する処理を、新たに単語ｗ_ｊ＋１が入力される毎に繰り返す。

（音声信号の強度の例）
次に、音声信号の強度の例について説明する。
図３は、ある単語ｗ_ｊ，ｗ_ｊ＋１が発話された区間の音声信号の強度の例を示す図である。図３の上段は、クリーン音声の強度の指標としてピリオドグラムを示し、図３の下段は、残響付加音声のスペクトログラムを示す。図３では、縦軸、横軸は、それぞれ周波数、時刻を示す。図３の左方は単語ｗ_ｊが発話された区間を示し、図３の右方は単語ｗ_ｊ＋１が発話された区間を示す。濃く示されている部分ほどパワーが大きく、薄く示されている部分ほどパワーが小さいことを示す。

図３の上段によれば、クリーン音声では、単語ｗ_ｊ＋１よりも単語ｗ_ｊが発話されている区間の方が、パワーが大きい。特に、単語ｗ_ｊが発話されている区間の後半には、０−１．３ｋＨｚ、２．７−５．２ｋＨｚにおけるパワーが、他の周波数帯域におけるパワーよりも大きい。単語ｗ_ｊ＋１が発話されている区間になると、パワーは急激に低下し、０−１．３ｋＨｚ、２．７−５．２ｋＨｚの帯域でパワーが他の周波数帯域におけるパワーよりも大きくなる現象が現れなくなる。

図３の下段によれば、残響付加音声でも、単語ｗ_ｊ＋１よりも単語ｗ_ｊが発話されている区間の方が、全体としてパワーが大きい。しかし、単語ｗ_ｊ＋１が発話されている区間の前半では、単語ｗ_ｊが発話されている区間で特定の周波数帯域でパワーが大きくなる現象が継続している。特に、周波数が低くなるほどその現象がより顕著に継続する。このように、残響付加音声は、ある単語ｗ_ｊに係る音声による残響が、後続するｗ_ｊに係る音声に重畳することで残響の影響が生じる。この残響によって過去の強度が継続する現象を、エネルギーの転移（ｅｎｅｒｇｙｔｒａｎｓｆｅｒ）と呼ぶこともある。この現象は、前述した残響の影響の一つである。

（残響影響度データの例）
次に、残響影響度記憶部１０５に記憶される残響影響度データの例について説明する。
図４は、残響影響度データの例を示す図である。
図４に示す残響影響度データは、（１）クラスｃ（ｃは、１からＣまでの整数、Ｃは予め定めた整数、例えば、１００００）、（２）パワースペクトル密度Ｄ^（ｃ）（ω）、及び（３）残響影響度τ^（ｃ）が対応付けられているデータである。クラスｃは、各単語対を識別するインデックスである。
図４に示す例では、例えば、クラス１に、パワースペクトル密度Ｄ^（１）（ω）、残響影響度τ^（１）が対応付けられている。
なお、後述するように、稀にしか現れない（ｉｎｆｒｅｑｕｅｎｔ）単語対については、より頻出する（ｆｒｅｑｕｅｎｔ）単語対であって、かつ、パワースペクトル密度Ｄ^（ｃ）（ω）が最も近似する単語対に係るクラスｃが用いられてもよい。これにより、音響的な特徴を損なわずにデータ量の肥大化を回避することができる。

（残響特性推定部の構成）
次に、残響特性推定部１０１の構成について説明する。
図５は、残響特性推定部１０１の構成を示すブロック図である。
残響特性推定部１０１は、特徴量算出部１０１１、残響モデル記憶部１０１２、尤度算出部１０１３、及び残響除去係数選択部１０１４を含んで構成される。

特徴量算出部１０１１は、収音部１２から入力された音響信号について予め定めた時間間隔（例えば、１０ｍｓ）毎に音響特徴量Ｔを算出する。音響特徴量Ｔは、例えば、静的メル尺度対数スペクトル（ｓｔａｔｉｃＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーの組である。これらの係数の組は特性ベクトル（ｆｅａｔｕｒｅｖｅｃｔｏｒ）とも呼ばれる。
特徴量算出部１０１１は、算出した音響特徴量Ｔを示す特徴量データを尤度算出部１０１３に出力する。

残響モデル記憶部１０１２には、音源から収音部１２までの距離ｒ毎に予め生成した適応音響モデルπ_［ｒ］と残響除去係数δ_{ｂ，［ｒ］}とが対応付けられた残響モデルデータが記憶されている。
適応音響モデルπ_［ｒ］は、距離がｒである音源からの残響付加音声で尤度が最大になるように学習された音響モデルである。適応音響モデルπ_［ｒ］は、混合ガウスモデル（ＧＭＭ：ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）である。ＧＭＭは、入力された音響特徴量に対する出力確率を複数（例えば、２５６個）の正規分布を基底として重みづけ加算して表す音響モデルの一種である。つまり、ＧＭＭは、混合重み係数、平均値、共分散行列といった統計量で規定される。

ここで、距離ｒに係る適応音響モデルπ_［ｒ］を次のようにして取得しておいてもよい。まず、予めクリーン音声で尤度が最大になるように音響モデルπ^（ｓ）を学習しておく。また、予め定めた距離Ｒの音源からの残響付加音声で尤度が最大になるように音響モデルπ^（Ｒ）を学習しておく。そして、音響モデルπ^（ｓ）の特徴量と、音響モデルπ^（Ｒ）の特徴量を、距離ｒに基づいて補間（ｉｎｔｅｒｐｏｌａｔｉｏｎ）又は外挿（ｅｘｔｒａｐｏｌａｔｉｏｎ）して適応音響モデルπ_［ｒ］を生成する。

また、適応音響モデルπ_［ｒ］は、予め与えられた音響モデル、例えば、クリーン音声に係る音響モデルπ^（ｓ）から最大尤度線形回帰法（ＭＬＬＲ：ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ）を用いて生成しておいてもよい。
距離ｒ毎の残響除去係数δ_{ｂ，［ｒ］}は、例えば、距離ｒの音源からの帯域ｂにおける後期反射のパワーを残響付加音声のパワーで除算して算出しておいてもよい。

尤度算出部１０１３は、特徴量算出部１０１１から入力された特徴量データが示す音響特徴量Ｔについて、残響モデル記憶部１０１２に記憶された音響モデルπ_［ｒ］のそれぞれについて尤度Ｌ（Ｔ｜π_［ｒ］）を算出し、算出した尤度Ｌ（Ｔ｜π_［ｒ］）を残響除去係数選択部１０１４に出力する。

残響除去係数選択部１０１４は、尤度算出部１０１３から入力された尤度Ｌ（Ｔ｜π_［ｒ］）のうち最大となる尤度ｍａｘ（Ｐ（Ｔ｜π_［ｒ］））に係る残響除去係数δ_{ｂ，［ｒ］}を選択する。残響除去係数選択部１０１４は、選択した残響除去係数δ_{ｂ，［ｒ］}を残響除去係数δ_ｂとして第１残響除去部１０２及び第２残響除去部１０７に出力する。

なお、適応音響モデルπ_［ｒ］や残響除去係数δ_{ｂ，［ｒ］}を取得する際に用いた残響付加音声に係る残響特性（例えば、ＲＴＦ（ＲｏｏｍＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ、室内伝達関数））は、予め計測されたものであってもよい。また、その残響特性は、予め定めた関数（例えば、距離ｒに反比例する成分と一定の成分とを加算する関数）に基づいて算出されたものであってもよい。また、音声処理装置１１は、残響特性を測定する残響特性測定部（図示せず）を備え、残響特性測定部が測定した残響特性を、適応音響モデルπ_［ｒ］や残響除去係数δ_{ｂ，［ｒ］}を取得する際に用いてもよい。また、音声処理装置１１が残響特性測定部（図示せず）を備える場合には、残響特性推定部１０１は、残響特性測定部が測定した残響特性から第１残響除去部１０２及び第２残響除去部１０７へ出力すべき残響除去係数δ_ｂを算出してもよい。

（残響影響度を算出する処理）
次に、残響影響度を算出する処理について説明する。残響影響度は、予め残響影響度解析部１１０で算出しておく。残響影響度解析部１１０は、音声処理装置１１に内蔵されてもよいし、音声処理装置１１とは別個の構成であってもよい。また、残響影響度解析部１１０は、必ずしも専用のハードウェアで構成されていなくてもよく、例えば、その処理がプログラムを実行することによりコンピュータで実現されてもよい。

図６は、残響影響度解析部１１０の構成を示すブロック図である。
残響影響度解析部１１０は、学習データ取得部１１０１、単語抽出部１１０２、中間データ記憶部１１０３、第１データ分割部１１０４、残響付加部１１０５、第２データ分割部１１０６、強度解析部１１０７、及び残響影響度算出部１１０８を含んで構成される。

学習データ取得部１１０１は、音声信号とその発話内容を示す単語列を対応付けた学習データを残響影響度解析部１１０の外部から取得する。発話内容を表現する言語は、自然言語であればいかなる言語、例えば、英語、日本語、等であってもよい。学習データに含まれる音声信号は、クリーン音声の音声信号である。学習データ取得部１１０１は、例えば、収音部１２に近接した話者が発話した音声をクリーン音声として取得し、発話内容を示すテキストデータを音声信号と対応付けて学習データを構成してもよい。また、学習データ取得部１１０１は、既成の音声データベースを取得してもよい。取得された音声には、複数の話者がそれぞれ発話した音声が含まれてもよい。学習データ取得部１１０１は、取得した音声を示す音声信号と単語列を対応付けて単語抽出部１１０２に出力する。

単語抽出部１１０２は、学習データ取得部１１０１から入力された単語列から互いに隣接する単語からなる単語対を逐次に抽出する。単語抽出部１１０２は、学習データ取得部１１０１から入力された音声信号から抽出した単語対に対応する区間の音声信号を抽出する。単語抽出部１１０２は、抽出した単語対と、その単語対に対応する区間の音声信号とを対応付けた中間データ（ｉｎｔｅｒｍｅｄｉａｔｅｄａｔａ）を中間データ記憶部１１０３に順次記憶する。

第１データ分割部１１０４は、中間データ記憶部１１０３から中間データを読み出し、読み出した中間データを単語対毎に分割して各単語対とそれに対応する音声信号（クリーン音声）が対応付けられた第１単語対データを生成する。また、第１データ分割部１１０４は、読み出した中間データを各単語とそれに対応する音声信号（クリーン音声）が対応付けられた第１単語データを生成する。第１データ分割部１１０４は、生成した第１単語対データと第１単語データを強度解析部１１０７に出力する。

残響付加部１１０５は、中間データ記憶部１１０３から中間データを読み出し、読み出した中間データのうち音声信号を抽出し、抽出した音声信号に予め定めた残響特性を付加して残響付加音声を示す音声信号を生成する。残響付加部１１０５が付加する残響特性は、残響特性推定部１０１で用いられる残響特性と同様なものであれば、いかなる残響特性であってもよい。残響付加部１１０５は、中間データに含まれている音声信号を生成した音声信号（残響付加音声）に置き換え、音声信号を置き換えた中間データを第２データ分割部１１０６に出力する。

第２データ分割部１１０６は、残響付加部１１０５から入力された中間データを単語対毎に分割して各単語対とそれに対応する音声信号（残響付加音声）が対応付けられた第２単語対データを生成する。また、第２データ分割部１１０６は、入力された中間データを単語毎に分割して各単語とそれに対応する音声信号（クリーン音声）が対応付けられた第２単語データを生成する。第２データ分割部１１０６は、生成した第２単語対データと第２単語データを強度解析部１１０７に出力する。

強度解析部１１０７は、第１データ分割部１１０４から入力された第１単語対データならびに第１単語データ、第２データ分割部１１０６から入力された第２単語対データならびに第２単語データのそれぞれに含まれる音声信号の強度を示す指標を算出する。強度解析部１１０７は、その指標として、例えばスペクトル密度を算出する。

ここで、強度解析部１１０７は、第１単語対データに含まれる音声信号（クリーン音声）からピリオドグラムＰ_ｓ（ω，ｍ）を算出し、算出したピリオドグラムＰ_ｓ（ω，ｍ）を式（３）のＰ_ｒ（ω，ｍ）に代入する。これにより、単語対ｔ_ｊに係るパワースペクトル密度Ｄ_ｓ，ｔｊ（ω）が算出される。強度解析部１１０７は、第２単語対データに含まれる音声信号（残響付加音声）からピリオドグラムＰ_ｒ（ω，ｍ）を算出し、算出したピリオドグラムＰ_ｒ（ω，ｍ）について式（３）を用いて単語対ｔ_ｊに係るパワースペクトル密度Ｄ_ｒ，ｔｊ（ω）を算出する。

強度解析部１１０７は、第１単語データに含まれる音声信号（クリーン音声）からピリオドグラムＰ_ｓ（ω，ｍ）を算出し、算出したピリオドグラムＰ_ｓ（ω，ｍ）について式（５）を用いて単語ｗ_ｊに係るパワースペクトル密度Ｄ_ｓ，ｗｊ（ω）を算出する。

式（５）において、Ｍ_ｗｊは単語ｗ_ｊが発話された区間のフレーム数を示す。従って、パワースペクトル密度Ｄ_ｓ，ｗｊ（ω）は、単語ｗ_ｊが発話された区間における周波数ωの成分の二乗値についての平均値である。
強度解析部１１０７は、第２単語データに含まれる音声信号（残響付加音声）からピリオドグラムＰ_ｒ（ω，ｍ）を算出し、算出したピリオドグラムＰ_ｒ（ω，ｍ）を式（５）のＰ_ｓ（ω，ｍ）に代入して単語ｗ_ｊに係るパワースペクトル密度Ｄ_ｒ，ｗｊ（ω）を算出する。
なお、強度解析部１１０７は、同様に式（５）を用いて単語対ｔ_ｊに含まれる単語ｗ_ｊ＋１に係るパワースペクトル密度Ｄ_{ｒ，ｗｊ＋１}（ω）、Ｄ_{ｓ，ｗｊ＋１}（ω）も算出する。

強度解析部１１０７は、単語対ｔ_ｊ毎に出現した頻度を計数する。強度解析部１１０７は、計数した頻度の降順に単語対ｔ_ｊを順列させ、最も頻度が高い単語対から第Ｃ番目に頻度が高い単語対まで、それぞれクラスｃとして１からＣまでの整数を割り当ててもよい。これらのＣ個のクラスを基本クラス（ｂａｓｅｃｌａｓｓｅｓ）と呼ぶ。それ以外の単語対ｔ_ｊについては、それぞれクラスｌとして１からＬ（Ｌは、出現した単語対ｔ_ｊの種類の総数からＣを減じた整数）までの整数を割り当てる。これらのクラスを希少単語対クラス（ｉｎｆｒｅｑｕｅｎｔｐａｉｒｓｃｌａｓｓｅｓ）と呼ぶ。これにより、頻出する単語対に係るデータと希少な単語対に係るデータを分類する。

強度解析部１１０７は、希少単語対クラスに属する単語対のパワースペクトル密度Ｄ_ｓ，ｔｊ（ω）のそれぞれについて、基本クラスに属する各単語対のパワースペクトル密度Ｄ_ｓ，ｔｊ（ω）との類似度ｓｉｍを、例えば式（２）を用いて算出する。強度解析部１１０７は、希少単語対クラスに属する単語対のパワースペクトル密度Ｄ_ｓ，ｔｊ（ω）のそれぞれについて、類似度が最も高い基本クラスに属する単語対のクラスｃを選択する。これにより、希少単語対クラスに属する単語対と最もパワースペクトル密度Ｄ_ｓ，ｔｊ（ω）が近似する単語対に係る基本クラスｃが定められる。

強度解析部１１０７は、基本クラスに属する単語対ｔ_ｊについて算出したパワースペクトル密度Ｄ_ｒ，ｔｊ（ω）、Ｄ_ｓ，ｗｊ（ω）、Ｄ_{ｒ，ｗｊ＋１}（ω）、Ｄ_{ｓ，ｗｊ＋１}（ω）を残響影響度算出部１１０８に出力する。これらのパワースペクトル密度は、これらに係る単語対ｔ_ｊに割り当てられたクラスｃと対応付けて出力される。

残響影響度算出部１１０８は、強度解析部１１０７から入力されたクラスｃ毎のパワースペクトル密度Ｄ_ｓ，ｗｊ（ω）、Ｄ_{ｒ，ｗｊ＋１}（ω）、Ｄ_{ｓ，ｗｊ＋１}（ω）に基づいて残響影響度τ_ｊ ^（ｃ）を算出する。残響影響度算出部１１０８は、残響影響度τ_ｊ ^（ｃ）を算出する際、例えば、式（６）を用いる。

式（６）の分子は、単語ｗ_ｊ＋１に係る残響付加音声の強度からその単語に係るクリーン音声の強度を減じられた値、つまり単語ｗ_ｊよりも後続する単語ｗ_ｊ＋１における残響の強度を示す値である。式（６）の分母は、単語ｗ_ｊに係るクリーン音声の強度である。言い換えれば、残響影響度τ_ｊ ^（ｃ）は、単語ｗ_ｊに係る残響が後続する単語ｗ_ｊ＋１に係る音声に与える影響の度合いを示す。
残響影響度算出部１１０８は、強度解析部１１０７から入力されたパワースペクトル密度Ｄ_ｒ，ｔｊ（ω）と算出した残響影響度τ_ｊ ^（ｃ）を、パワースペクトル密度Ｄ^（ｃ）（ω）と算出した残響影響度τ^（ｃ）としてクラスｃと対応付けて残響影響度データを生成する。残響影響度算出部１１０８は、生成した残響影響度データを残響影響度記憶部１０５に記憶する。

（残響除去の他の例）
上述では、第１残響除去部１０２、第２残響除去部１０７が、それぞれスペクトラルサブトラクション（ｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ）法に基づいて残響付加音声信号から残響成分を除去する処理（式（１）、（４）参照）について説明した。但し、第１残響除去部１０２、第２残響除去部１０７は、これには限られず、それぞれウィーナフィルタリング法（Ｗｉｅｎｅｒｆｉｌｔｅｒｉｎｇ）に基づいて残響付加音声から残響成分を除去する処理を行ってもよい。ウィーナフィルタリング法では、残響成分と残響除去音声信号の相関がないものと仮定して、フィルタリングされた残響付加音声信号と残響除去音声信号との平均二乗誤差を最小にする線形フィルタ（ウィーナ重み（Ｗｉｅｎｅｒｗｅｉｇｈｔｉｎｇ）とも呼ばれる）を形成する処理である。形成した線形フィルタは、残響付加音声信号をフィルタリングして残響除去音声信号を生成するために用いられる。

ここで、音声処理装置１１は、入力された音声信号が有音判定処理（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行う有音判定部（図示せず）を備える。有音判定処理は、音声信号が音声を含むか否かを判定（有音無音判定）する処理である。有音判定処理は、例えば、音声信号のパワーが予め定めた閾値よりも高く、かつ、零交差数（ｎｕｍｂｅｒｏｆｚｅｒｏｃｒｏｓｓｉｎｇｓ）が予め定めた範囲（例えば、１秒当たり２００回よりも多い）場合に有音と判定し、それ以外の場合、無音と判定する処理である。零交差数とは、時間領域の信号値が単位時間当たりに零を交差する回数、つまり、信号値が負値から正値、又は正値から負値に変化する回数である。

第１残響除去部１０２は、収音部１２から入力された音声信号についてウェーブレット変換（ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ）を行ってウェーブレット係数（ｗａｖｅｌｅｔｃｏｅｆｆｉｃｉｅｎｔ）Ｗ（ａ）を算出する。ここで、ａは、スケール（ｓｃａｌｅ）を示す。スケールは、ウェーブレット変換に用いられる基底の特徴を示す係数である。第１残響除去部１０２は、算出したウェーブレット係数Ｗ（ａ）から周波数帯域ｂにおける第ｋウェーブレット係数ｗ_ｂｋを算出する。ここで、第１残響除去部１０２は、有音判定部が直前に無音であると判定した区間の音声信号の周波数帯域ｂにおけるスケールａのパワーを後期反射成分のパワーｌ_ｂ（ａ）^２と定める。第１残響除去部１０２は、有音であると判定した区間の音声信号の周波数帯域ｂにおけるスケールａのパワーから後期反射成分のパワーｌ_ｂ（ａ）^２を差し引いて第１残響除去音声信号のパワーｅ_ｂ（ａ）^２と定める。
第１残響除去部１０２は、例えば、式（７）を用いて周波数帯域ｂの線形フィルタκ_ｂ’を算出する。

第１残響除去部１０２は、周波数帯域ｂにおける線形フィルタκ_ｂ’と第ｋウェーブレット係数ｗ_ｂｋに基づいて、例えば、式（８）を用いて、周波数帯域ｂの第１残響除去音声信号の第ｋウェーブレット係数ｗ_ｂｋ’を算出する。

そして、第１残響除去部１０２は、算出したウェーブレット係数ｗ_ｂｋ’から第１残響除去音声信号のパワーｅ_ｂ（ａ）^２を合成する。また、第１残響除去部１０２は、音声信号（残響付加信号）のパワーから合成した第１残響除去音声信号のパワーｅ_ｂ（ａ）^２を差し引いて後期反射成分のパワーｌ_ｂ（ａ）^２を合成する。第１残響除去部１０２は、例えば、合成したパワーｅ_ｂ（ａ）^２、ｌ_ｂ（ａ）^２と、有音無音判定に基づいて定めたパワーｅ_ｂ（ａ）^２、ｌ_ｂ（ａ）^２との二乗誤差が最小となるように、残響除去係数δ_ｂを定める。
第１残響除去部１０２は、定めた残響除去係数δ_ｂに基づいて得られたウェーブレット係数ｗ_ｂｋ’について逆ウェーブレット変換を行って第１残響除去音声信号を生成し、生成した第１残響除去音声信号を第１音声認識部１０３に出力する。

第２残響除去部１０７も、上述した単語対区間音声信号についてウィーナフィルタリング法を用いて第２残響除去音声信号を生成し、生成した第２残響除去音声信号を第２音声認識部１０８に出力する。但し、第２残響除去部１０７は、式（７）、（８）に代えて、式（９）、（１０）を用いる。

つまり、式（９）は、後期反射成分のパワーにさらに残響影響度τ_ｊで重みづけをして帯域ｂの線形フィルタκ_ｂ’’を算出することを示す。
式（１０）は、線形フィルタκ_ｂ’’を用いてウェーブレット係数ｗ_ｂｋ’’を算出することを示す。算出したウェーブレット係数ｗ_ｂｋ’’は、残響除去係数δ_ｂを定めたうえで逆ウェーブレット変換を行って第２残響除去音声信号を生成する際に用いられる。

（音声処理）
次に、本実施形態に係る音声処理について説明する。
図７は、本実施形態に係る音声処理を示すフローチャートである。
（ステップＳ１０１）残響特性推定部１０１、第１残響除去部１０２、単語抽出部１０４には、収音部１２から音声信号が入力される。その後、ステップＳ１０２に進む。
（ステップＳ１０２）残響特性推定部１０１は、入力された音声信号に重畳されている残響の残響特性に係る残響除去係数δ_ｂを推定する。残響特性推定部１０１は、推定した残響除去係数δ_ｂを第１残響除去部１０２と第２残響除去部１０７に出力する。その後、ステップＳ１０３に進む。

（ステップＳ１０３）第１残響除去部１０２は、収音部１２から入力された音声信号から、残響特性推定部１０１から入力された残響除去係数δ_ｂに基づいて残響成分を除去する。第１残響除去部１０２は、残響成分を除去した第１残響除去音声信号を第１音声認識部１０３に出力する。その後、ステップＳ１０４に進む。
（ステップＳ１０４）第１音声認識部１０３は、第１残響除去部１０２から入力された第１残響除去音声信号について音声認識処理を行い、認識した発話内容を示す第１認識データを単語抽出部１０４に出力する。その後、ステップＳ１０５に進む。

（ステップＳ１０５）単語抽出部１０４は、第１音声認識部１０３から入力された第１認識データが示す単語列から単語対を逐次に抽出する。単語抽出部１０４は、収音部１２から入力された音声信号から抽出した単語群に対応する区間の音声信号を抽出する。単語抽出部１０４は、抽出した単語対と、その単語対に対応する区間の音声信号を残響影響度選択部１０６に出力する。その後、ステップＳ１０６に進む。

（ステップＳ１０６）残響影響度選択部１０６には、単語抽出部１０４から単語対とその単語対に対応する区間の音声信号が入力される。残響影響度選択部１０６は、入力された音声信号のパワースペクトル密度を算出し、算出したパワースペクトル密度が最も近似するパワースペクトル密度に対応した残響影響度を残響影響度記憶部１０５から選択する。残響影響度選択部１０６は、選択した残響影響度と単語抽出部１０４から入力された単語対を第２残響除去部１０７に出力する。その後、ステップＳ１０７に進む。

（ステップＳ１０７）第２残響除去部１０７は、収音部１２から入力された音声信号から単語抽出部１０４から入力された単語対に対応する区間の音声信号を単語対区間音声信号として抽出する。第２残響除去部１０７は、抽出した単語対区間音声信号と残響特性推定部１０１から入力された残響除去係数δ_ｂを用いて残響成分を算出し、算出した残響成分を残響影響度選択部１０６から入力された残響影響度を用いて重みづけを行う。第２残響除去部１０７は、重みづけがなされた残響成分を単語対区間音声信号から除去して第２残響除去音声信号を生成する。その後、ステップＳ１０８に進む。
（ステップＳ１０８）第２音声認識部１０８は、第２残響除去部１０７から入力された第２残響除去音声信号について音声認識処理を行い、認識した発話内容を示す第２認識データを音声処理装置１１の外部に出力する。その後、図７に示す処理を終了する。

このように、本実施形態は、入力された音声に基づいて発話された単語を逐次に認識する音声認識部（第１音声認識部１０３）と、少なくとも１つの単語の音声による残響がその後の単語の音声に与える影響を示す残響影響度と、当該少なくとも１つの単語と後続する単語とからなる単語群に係る音声の強度とを対応付けて記憶する残響影響度記憶部（残響影響度記憶部１０５）を備える。また、本実施形態は、前記音声認識部が認識した単語から予め定めた数の単語からなる単語群（例えば、単語対）毎に、入力された音声の強度が最も近似する強度に対応した残響影響度を前記残響影響度記憶部から選択する残響影響度選択部（残響影響度選択部１０６）を備える。
また、本実施形態は、前記単語群のうち前記少なくとも１つの単語に係る音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧部（第２残響除去部１０７）と、を備える。

そのため、単語群のうち少なくとも１つの単語の音声から、当該少なくとも１つの単語の音声による残響がその後の単語の音声に与える影響を示す残響影響度で重みづけした残響成分が抑圧される。これにより、単語間の影響を考慮して残響抑圧が行われるので、音声認識精度を向上することができる。

（第２の実施形態）
以下、図面を参照しながら本発明の第２の実施形態について説明する。上述した実施形態と同一の構成については同一の符号を付して説明を援用する。
図８は、本実施形態に係る音声処理システム１ａの構成を示すブロック図である。
音声処理システム１ａは、音声処理装置１１ａ、収音部１２、及び音声再生部１３ａを含んで構成される。音声処理システム１ａは、音声処理装置１１ａにおいて音声認識処理によって認識された発話内容に応じて、応答内容を示す音声信号を生成する対話システムである。

音声再生部１３ａは、音声処理装置１１ａから入力された音声信号に基づく音声を再生する。音声再生部１３ａは、例えば、スピーカである。
音声処理装置１１ａは、残響特性推定部１０１、第１残響除去部１０２、第１音声認識部１０３、単語抽出部１０４、残響影響度記憶部１０５、残響影響度選択部１０６、第２残響除去部１０７、第２音声認識部１０８、対話制御部１２０ａを含んで構成される。即ち、音声処理装置１１ａは、音声処理装置１１（図１）に対して更に対話制御部１２０ａを含む。

対話制御部１２０ａは、第２音声認識部１０８から入力された第２認識データに応じた応答データを取得する。対話制御部１２０ａは、取得した応答データが示す応答テキストについて既知のテキスト音声合成処理を行い応答テキストに応じた音声信号（応答音声信号）を生成する。対話制御部１２０ａは、生成した応答音声信号を音声再生部１３ａに出力する。
ここで、対話制御部１２０ａは、認識データと応答データの組を対応付けて予め記憶しておいた記憶部（図示せず）と、応答データが示す応答テキストに応じた音声信号を合成する音声合成部（図示せず）を備える。

応答データとは、予め定めた認識データと、これに対応する応答テキストを示す応答データを対応付けたデータである。ここで、応答データの例について説明する。
図９は、応答データの例を示す図である。
図９に示す応答データのうち、先頭にＳｐ１等の文字が置かれた段落は認識データを示し、先頭にＲｂ１等の文字が置かれた段落は応答データを示す。
例えば、最初の認識データ（Ｓｐ１）は、日本語で「やあ、昨日友達と寿司屋に行って、鮎を注文したんだ。その魚について教えてもらえないかな？」を意味する英語のテキストからなる認識データである。最初の応答データ（Ｒｂ１）は、日本語で「鮎は東南アジアでありふれていて、メロンやキュウリのような香りをもった独特な風味がある食用の魚だよ。」を意味する英語のテキストからなるデータである。この例では、対話制御部１２０ａは、認識データの一部、例えば、「Ｓｗｅｅｔｆｉｓｈ」を代入して応答データを生成する。

このように、本実施形態では、第１の実施形態に係る音声処理装置１１と同様な構成を備えるので、残響付加音声について音声認識精度が向上する。そのため、認識された発話内容を示す認識データに対応する応答データが的確に選択されるため、より適確な対話を実現することができる。

（実験結果）
次に、上述した音声処理装置１１ａを用いて音声認識精度を検証した実験結果について説明する。
実験は、残響時間（ＲＴ：ｒｅｖｅｒｂｅｒａｔｉｏｎｔｉｍｅ）が２４０ｍｓ、６４０ｍｓである実験室Ａ、Ｂで行った。
図１０は、実験室Ｂにおける発話者（Ｓｐｅａｋｅｒ）Ｓｐと収音部１２の配置例を示す平面図である。
実験室Ｂの内径は、縦５．５ｍ、横４．８ｍ、高さ４．０ｍである。
実験室Ｂでは、人型ロボット（ｈｕｍａｎｏｉｄｒｏｂｏｔ）Ｒｂの胴体に音声処理装置１１ａを内蔵し、ロボットの頭部に収音部１２を内蔵した。収音部１２は８個のマイクロホンからなるマイクロホンアレイであり、８個のうちの１個のマイクロホンで収録した音声信号を音声処理装置１１ａに入力させた。ここで、発話者Ｓｐが発声した音声について音声認識率を観測した。音声認識率は、収音部１２から発話者Ｓｐまでの距離ｒが０．５ｍ、１．０ｍ、１．５ｍ、２．０ｍのそれぞれについて観測した。なお、実験室Ａも実験室Ｂと同様な大きさを有し、同様な発話者Ｓｐと収音部１２の位置関係のもとで音声認識率を観測した。

実験では、認識対象の語彙は２０００語であって、日本の伝統料理である寿司及び刺身を話題とする対話を行わせた（図９参照）。対話においては、発話者Ｓｐ毎にロボットＲｂに対する質問を発話させ、この発話に係る音声を音声処理装置１１ａに認識させる。そして、音声処理装置１１ａには、認識によって得られた認識データに対応する応答データに係る音声を再生される。ここで、対話制御部１２０ａは、認識データの一部として、認識に成功した魚の名称を応答データに含める。そこで、再生された音声に、発話者Ｓｐが発話した事物として魚の名称が含まれるか否かによって、正誤を判断した。
なお、実験に参加した発話者数は２０名であり、各発話者にはロボットＲｂに対して１０個の質問を発話させた。

なお、第１音声認識部１０３、第２音声認識部１０８で用いた音響モデルは、英語のトライフォン（ｔｒｉｐｈｏｎｅ）ＨＭＭである。学習用データとして英文の新聞記事を読み上げた音声が含まれるウォールストリートジャーナル（ＴｈｅＷａｌｌＳｔｒｅｅｔＪｏｕｒｎａｌ）データベースを用いて、音響モデルを予め学習させておいた。

音声認識率は、次の６通りの方法で処理した音声信号を用いて観測した。Ａ．処理を行わない（ｎｏｅｎｈａｎｃｅｄ）、Ｂ．既存のブラインド残響除去（ｂｌｉｎｄｄｅｒｅｖｅｒｂｅｒａｔｉｏｎ）、Ｃ．従来のウィーナフィルタリング法、Ｄ．ウィーナフィルタリング法に基づく第２残響除去部１０７による後期反射成分の除去（本実施形態）、Ｅ．従来のスペクトラルサブトラクション法、Ｆ．スペクトラルサブトラクション法に基づく第２残響除去部１０７による後期反射成分の除去（本実施形態）。

（音声認識率の例）
図１１、図１２は、処理方法毎の音声認識率の例を示す図である。
図１１、図１２には、それぞれ実験室Ａ、Ｂで得られた認識率（単位は％）が示されている。各行は発話された音声の処理方法（方法Ａ−Ｆ）を示し、各列は距離ｒを示す。
実験室Ａ、Ｂ間では、残響時間がより長い実験室Ｂの方が、音声認識率が低い。また、同一の実験室同士については、距離が大きくなるほど音声認識率が低い。音声認識率は、概ね方法Ａ、Ｂ、Ｃ、Ｅ、Ｄ、Ｆの順に高くなる。例えば、実験室Ｂ、距離ｒ＝２．０ｍの場合、本実施形態に係る方法Ｄでの６５．４％は、従来技術に係る方法Ｃの５５．２％よりも有意に高い。また、本実施形態に係る方法Ｆでの６８．３％は、従来技術に係る方法Ｅの５７．１％よりも有意に高い。この結果は、上述した残響影響度で後期反射成分に重みづけを行って残響除去処理を行うことで従来技術よりも音声認識率が向上することを示す。なお、図１１（実験室Ａ）の距離ｒ＝０．５ｍ、１．０ｍのように残響の影響が少ない場合には、方法Ａ−Ｆ間で音声認識率に有意な差は現れない。

（第３の実施形態）
以下、図面を参照しながら本発明の第３の実施形態について説明する。上述した実施形態と同一の構成については同一の符号を付して説明を援用する。
図１３は、本実施形態に係る音声処理システム１ｂの構成を示すブロック図である。
音声処理システム１ｂは、音声処理装置１１ｂ、収音部１２ｂ、及び音源分離部１４ｂを含んで構成される。

収音部１２ｂは、Ｍ（Ｍは１よりも大きい予め定めた整数）チャネルの音声信号を収録し、収録したＭチャネルの音声信号を音源分離部１４ｂに出力する。収音部１２ｂは、Ｍ個のマイクロホンをそれぞれ異なる位置に備えたマイクロホンアレイである。なお、音声処理システム１ｂは、Ｍ＝１で、かつ、図１３に示す音源分離部１４ｂが無い構成で実現されてもよい。

音源分離部１４ｂは、収音部１２ｂから入力されたＭチャネルの音声信号として得られた最大Ｓ（Ｓは、１以上Ｍ以下の予め定めた整数）個の音源から到達した音声信号について音源分離処理を行って音源毎の音声信号に分離する。音源分離部１４は、分離した音声信号のそれぞれについて有音判定処理を行い、音声区間を検出する。音源分離部１４は、検出した音声区間に係る音声信号を音声処理装置１１ｂに出力する。なお、音源分離部１４ｂは、複数の音源について音声区間を検出した場合には、音源毎の音声区間を音声処理装置１１ｂに出力してもよいし、最もパワーが大きい音源からの音声信号を音声処理装置１１ｂに出力してもよい。

音源分離部１４ｂは、音源分離処理として、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。ＧＨＤＳＳ法は、２つのコスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）として、分離尖鋭度（ｓｅｐａｒａｔｉｏｎｓｈａｒｐｎｅｓｓ）Ｊ_ＳＳ（［Ｖ（ω）］）と幾何制約度（ｇｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣ（［Ｖ（ω）］）が、それぞれ低減するように分離行列Ｖ（ω）を適応的に算出する方法である。分離行列［Ｖ（ω）］は、収音部１２から入力されたＭチャネルの音声信号［ｘ（ω）］＝［ｘ_１（ω），ｘ_２（ω），…，ｘ_Ｍ（ω）］^Ｔに乗じることによって、Ｓチャネルの音源毎の音声信号（推定値ベクトル）［ｕ’（ω）］＝［ｕ_１’（ω），ｕ_２’（ω），…，ｕ_Ｓ’（ω）］^Ｔを算出するために用いられる行列である。ここで、［…］は、ベクトル又は行列であることを示す。［…］^Ｔは、行列又はベクトルの転置を示す。

分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）は、それぞれ、式（１１）、（１２）のように表される。

式（１１）において、｜｜…｜｜^２は、行列…のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）である。フロベニウスノルムとは、行列を構成する各要素値の二乗和（スカラー値）である。φ（［ｕ’（ω）］）は、音声信号［ｕ’（ω）］の非線形関数、例えば、双曲線正接関数（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔｆｕｎｃｔｉｏｎ）である。［…］^Ｈは、行列又はベクトルの共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。ｄｉａｇ［…］は、行列…の対角成分の総和を示す。従って、分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）は、音声信号（推定値）のスペクトルのチャネル間非対角成分の大きさ、つまり、ある１つの音源が他の音源として誤って分離される度合いを表す指標値である。
式（１２）において、［Ａ（ω）］は、ある１つの音源からある１つのマイクロホンまでの伝達関数を要素として有する伝達関数行列を示す。［Ｉ］は、単位行列を示す。従って、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）とは、音声信号（推定値）のスペクトルと音声信号（音源）のスペクトルとの誤差の度合いを表す指標値である。

音源分離部１４ｂは、上述したように収音部１２から入力されたＭチャネルの音声信号［ｘ（ω）］に分離行列［Ｖ（ω）］を乗じて、Ｓ個の音源からなる分離音声信号［ｕ’（ω）］を算出する。

音声処理装置１１ｂは、残響特性推定部１０１、第１残響除去部１０２、第１音声認識部１０３、状態列取得部１０４ｂ、残響影響度記憶部１０５ｂ、残響影響度選択部１０６ｂ、第２残響除去部１０７ｂ、及び第２音声認識部１０８を含んで構成される。

状態列取得部１０４ｂは、第１音声認識部１０３から音声認識処理で生成された状態列のうち、認識されたＮ個（Ｎは、予め定めた１よりも大きい整数、例えば、２）の互いに隣接する単語からなる単語群が認識された区間内の状態列を示す状態列情報を逐次に取得する。上述の実施形態では、第１音声認識部１０３による認識単位として単語が用いられたが、本実施形態では、認識単位として発話の状態が用いられ、互いに隣接した複数の状態からなる状態列が状態列取得部１０４ｂで用いられる。ここで、第１音声認識部１０３は、予め設定された音響モデルを参照して、フレーム毎に算出した音響特徴量から起こりうる可能性がある状態を特定する。第１音声認識部１０３は、特定された状態からなる状態列の候補毎に尤度を算出し、算出した尤度が最も高い状態列を判定する。
なお、以下の説明では第１音声認識部１０３で用いられる音響モデルを「第１音響モデル」と呼んで第２音声認識部１０８で用いられる音響モデル（第２音響モデル）と区別することがある。状態列取得部１０４ｂは、入力された状態列情報を残響影響度選択部１０６ｂに出力する。

残響影響度記憶部１０５ｂには、状態列情報と残響影響度τ_Ｗとがそれぞれ対応付けて構成された残響影響度データを予め記憶させておく。本実施形態では、残響影響度τ_Ｗは、その状態列に対応する区間における先行音声による残響の後続音声に与える影響の度合いを示すパラメータである。残響影響度τ_Ｗを算出する処理については、後述する。
残響影響度選択部１０６ｂは、状態列取得部１０４ｂから入力された状態列情報に対応する残響影響度τ_Ｗを残響影響度記憶部１０５ｂから選択する。残響影響度選択部１０６ｂは、入力された状態列情報が示す状態列と、残響影響度τ_Ｗと対応付けられた状態列情報が示す状態列との非類似度（例えば、ハミング距離）を算出し、算出した非類似度が最も小さい状態列に対応する残響影響度τ_Ｗを選択する。残響影響度選択部１０６ｂは、選択した残響影響度τ_Ｗを第２残響除去部１０７ｂに出力する。

第２残響除去部１０７ｂは、音源分離部１４ｂから入力された音声信号のうち状態列取得部１０４ｂで取得された状態列に対応する区間の音声信号を状態列区間音声信号として抽出する。第２残響除去部１０７ｂは、抽出した状態列区間音声信号から、残響特性推定部１０１から入力された残響除去係数δ_ｂと残響影響度選択部１０６ｂから入力された残響影響度τ_Ｗに基づいて残響成分を除去して第２残響除去音声信号を生成する。

第２残響除去部１０７ｂは、例えば、式（１４）を用いて、状態列区間音声信号の周波数領域係数と残響除去係数δ_ｂと残響影響度τ_Ｗに基づいて、第２残響除去音声信号の周波数領域係数を算出する。

式（１４）において、ｅ（ω，ｍ，Ｗ）は、第２残響除去音声信号のうち、第１音声認識部１０３において単語群Ｗが認識された区間、つまり状態列取得部１０４ｂが取得した状態列に対応する区間における第ｍフレームにおける周波数領域係数を示す。ｒ（ω，ｍ，Ｗ）は、音源分離部１４ｂから入力された音声信号のうち、状態列区間音声信号の第ｍフレームにおける周波数領域係数を示す。従って式（１４）は、そのフレームにおける状態列区間音声信号の周波数領域係数ｒ（ω，ｍ，Ｗ）の二乗値から残響影響度τ_Ｗで重みづけがなされた残響成分の二乗値を除去して、そのフレームの第２残響除去音声信号の周波数領域係数ｅ（ω，ｍ，Ｗ）を定めることを示す。

なお、式（１４）の下段のようにβ｜ｒ（ω，ｍ，Ｗ）｜^２の項を設けるのは、式（４）と同様に異音の発生を回避又は緩和するためである。
第２残響除去部１０７ｂは、算出した周波数領域係数ｅ（ω，ｍ，Ｗ）を時間領域に変換した第２残響除去音声信号を生成し、生成した第２残響除去音声信号を第２音声認識部１０８に出力する。

なお、残響影響度選択部１０６ｂは、選択した残響影響度τ_Ｗと状態列取得部１０４ｂから入力された状態列情報に加えて、その状態列に対応する区間内の状態列区間音声信号を第２残響除去部１０７ｂに出力してもよい。この場合、第２残響除去部１０７ｂは、残響影響度選択部１０６ｂから入力された状態列区間音声信号から、残響特性推定部１０１から入力された残響除去係数δ_ｂと残響影響度選択部１０６ｂから入力された残響影響度τ_Ｗに基づいて残響成分を除去する。

（データ生成）
次に、上述した音声処理で用いられる各種のデータを生成（事前学習）するためのデータ生成処理について説明する。データ生成処理は、データ生成部１５０ｂにおいて予めオフラインで行われる。データ生成部１５０ｂは、音声処理装置１１ｂに内蔵されてもよいし、音声処理装置１１ｂとは別個の構成であってもよい。また、データ生成部１５０ｂは、必ずしも専用のハードウェアで構成されていなくてもよく、例えば、所定のプログラムをコンピュータで実行することによって構成されてもよい。

データ生成部１５０ｂは、各種のデータ、例えば、音声データベース、第１音響モデル、第２音響モデル、言語モデルを記憶する記憶媒体と、演算その他の処理を行う制御部を備える。制御部は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。制御部は、所定のプログラムを実行することにより後述する処理を実現する。

音声データベースには、学習用の音声信号として所定のＮ個の単語からなる単語群を発話内容として有するクリーン音声信号が、その発話内容と対応付けて複数個記憶されている。
第１音響モデル、第２音響モデルは、フレーム毎の音響特徴量から音素を推定する際に用いられる統計モデル、例えば、ＨＭＭである。
第１音響モデル、第２音響モデルは、それぞれ、音響特徴量と状態、ひいては音素との対応関係を与える統計モデルである。第１音響モデルでは、状態毎のＧＭＭを含んで形成される。ＧＭＭは、上述したように、混合重み係数、平均値、共分散行列といった統計量で規定され、ある音響特徴量に対して状態毎の尤度を算出する際に用いられる。状態列は、発話された音素の状態の時系列であり、状態は、例えば、所定の音素について立ち上がり、定常、立ち下がりといった音の強弱といった強勢や、高低といった声調等を指すが、必ずしも一意に対応付けられていなくてもよい。各状態は、それぞれ統計モデルによりモデル化され、各音素は状態遷移により状態毎の統計モデルが連結して形成される統計モデルによりモデル化される。例えば、各状態の統計モデルがＧＭＭで表されている場合、各音素の統計モデルは、これらのＧＭＭが連結したＨＭＭで表される。

言語モデルは、音素の時系列である音素列から単語群を認識する際に用いられる統計モデル、例えば、ＨＭＭである。言語モデルは、例えば、Ｎ−１個の先行語ｗ_{ｉ−Ｎ＋１}，…，ｗ_ｉ−１）が与えられた場合に、次の単語ｗ_ｉの出現確率を与える条件付き確率Ｐ（ｗ_ｉ｜ｗ_{ｉ−Ｎ＋１}，ｗ_ｉ｜_{ｉ−Ｎ＋２}，…，ｗ_ｉ−１）（Ｎグラム）を含んで構成される。Ｎ個の単語からなる単語群の出現確率Ｐ（Ｗ）は、Ｐ（ｗ_ｉ｜ｗ_{ｉ−Ｎ＋１}，ｗ_ｉ｜_{ｉ−Ｎ＋２}，…，ｗ_ｉ−１）をｉ＝１からＮまで掛け合わせることによって算出することができる。本実施形態では、言語モデルは予め定められたものであってもよい。

本実施形態では、データ生成部１５０ｂは、発話された音素の状態の時系列である状態列の尤度が高くなるように第１音響モデルλを更新することにより、音響特徴量と状態との対応関係を校正（ｒｅａｌｉｇｎｍｅｎｔ）する。事前学習では第１音響モデルλは、残響付加音声、クリーン音声のそれぞれについて生成され、残響付加音声について生成された第１音響モデルλが第１音声認識部１０３（図１３）で用いられる。そして、データ生成部１５０ｂは、状態列毎に先行する発話による残響が現在発話された音声への影響を与える残響影響度τ_Ｗを算出し、状態列情報と残響影響度τ_Ｗとを対応付けた残響影響度データを生成する。

次に、第１音響モデルλ及び残響影響度データを生成するデータ生成処理について説明する。
図１４は、データ生成処理を示すフローチャートである。
図１４に示す処理を開始する前に、データ生成部１５０ｂには第１音響モデルλの初期値を記憶しておく。
（ステップＳ２０１）データ生成部１５０ｂは、所定の単語群Ｗを発話内容として有するクリーン音声信号、残響付加音声信号のそれぞれについて最適な状態列ｓ’_Ｗｃ、ｓ’_Ｗｒを検索する。残響付加音声信号は、残響付加部１５０２ｂ（図１５、後述）で生成されたものであってもよい。ここで、データ生成部１５０ｂは、クリーン音声信号、残響付加音声信号のそれぞれについてフレーム毎の音響特徴量列を含んで構成される音響特徴量列ｆ^（ｃ）、ｆ^（ｒ）を算出する。データ生成部１５０ｂは、算出した音響特徴量列ｆ^（ｃ）、ｆ^（ｒ）のそれぞれについて第１音響モデルλを参照して、状態列の候補毎に尤度を算出する。データ生成部１５０ｂは、例えば、式（１５）、（１６）を用いて、算出した尤度が最も高い状態列を最適な状態列ｓ’_Ｗｃ、ｓ’_Ｗｒとして選択する。

式（１５）、（１６）においてａｒｇｍａｘ_{ｓ∈ＳＷｃ}…は、…が最大である状態列ｓを示す。Ｓ_Ｗｃ、Ｓ_Ｗｒは、それぞれクリーン音声信号、残響付加音声信号について、単語群Ｗに関してＮグラムをサポートするＨＭＭを用いて得られる可能性がある状態列の集合を示す。Ｐ（ｓ_ｊ｜ｓ_ｊ−１，ｆ^（ｃ））、Ｐ（ｓ_ｊ｜ｓ_ｊ−１，ｆ^（ｒ））は、それぞれ音響特徴量列ｆ^（ｃ）、ｆ^（ｒ）が与えられているとき、状態列内の第ｊ−１番目の状態ｓ_ｊ−１の次に第ｊ番目の状態ｓ_ｊが現れる出現確率を示す。その後、ステップＳ２０２に進む。

（ステップＳ２０２）データ生成部１５０ｂは、クリーン音声信号、残響付加音声信号のそれぞれについて、尤度が高くなるように第１音響モデルλを更新する。更新において、第１音響モデルλのパラメータ、例えば、混合重み係数、平均値、共分散行列が調整される。尤度が十分に高くなることで、音響特徴量と状態とが対応付けられる。その後、ステップＳ２０３に進む。
（ステップＳ２０３）データ生成部１５０ｂは、クリーン音声信号、残響付加音声信号のいずれについても、尤度の増加が収束したか否かを判定する。尤度の増加量が、例えば、予め定めた増加量の閾値よりも小さいか否かにより、尤度の増加が収束したか否かが判定される。
収束したと判定された場合（ステップＳ２０３ＹＥＳ）、ステップＳ２０４に進む。収束していないと判定された場合（ステップＳ２０３ＮＯ）、ステップＳ２０１に戻る。

（ステップＳ２０４）データ生成部１５０ｂは、各単語群Ｗについて得られた音響特徴量列ｆ^（ｃ）、ｆ^（ｒ）に基づいて、例えば、式（１７）を用いて残響影響度τ_Ｗを算出する。

式（１７）において、Ｏは、音響特徴量列ｆ^（ｃ）、ｆ^（ｒ）のフレーム数、ｏはフレーム番号を示す。ｐｏｗ（…）は、…から導出されるパワーを示す。即ち、式（１７）は、残響のパワーの音声のパワーに対する比のフレーム間の平均値を残響影響度τ_Ｗとして算出することを示す。なお、同一の単語群が複数回出現した場合には、データ生成部１５０ｂは、各回の残響影響度τ_Ｗの平均値を採用する。データ生成部１５０ｂは、残響付加音声の状態列ｓ’_Ｗｒを示す状態列情報と算出した残響影響度τ_Ｗを対応付けて残響影響度データを生成する。その後、ステップＳ２０５に進む。

（ステップＳ２０５）データ生成部１５０ｂは、生成した残響影響度データにおいて、単語群を形成するＮ個の単語のうち、所定の数（例えば、Ｎ−１個）の先行単語が共通である単語群に係る状態列ｓ’_Ｗｒ同士を各１つの単語群グループとしてグルーピングする。データ生成部１５０ｂは、各１つの単語群グループに属するいずれか１つの状態列ｓ’_Ｗｒと、これに対応付けられた残響影響度τ_Ｗを採用し、その他の状態列ｓ’_Ｗｒと残響影響度τ_Ｗを棄却する。従って、残響影響度データは、単語群グループ毎の状態列情報ならびに残響影響度τ_Ｗが対応付けられて形成される。これにより、残響影響度データの肥大化を抑制することができる。また、フレーム数の短い状態列ｓ’_Ｗｒや、出現頻度が低い単語群については、参照データが少ないために残響影響度τ_Ｗの信頼性が低くなることを回避することができる。なお、データ生成部１５０ｂは、所定の数の先行単語が共通であって、かつ、後続単語（例えば、Ｎ個の単語のうち最後の１つの単語）に共通の１個又は複数の音素を含む単語群に係る状態列ｓ’_Ｗｒ同士を各１つの単語群グループとしてグルーピングしてもよい。共通の１個又は複数の音素を含む後続単語の組として、例えば、英語の“ｈｅｒｅ”と“ｎｅａｒ”とからなる組が該当し、“ｆｌｙ”と“ｈｅｌｌｏ”とからなる組は該当しない。また、データ生成部１５０ｂは、各１つの単語群グループに属する残響影響度τ_Ｗの平均値を、その残響影響度τ_Ｗとして採用してもよい。その後、図１４に示す処理を終了する。

次に、第１音響モデル及び第２音響モデルを生成する音響モデル生成処理について説明する。
図１５は、音響モデル生成処理を示すブロック図である。
データ生成部１５０ｂは、所定のプログラムを動作することにより音声信号取得部１５０１ｂ、残響付加部１５０２ｂ、残響音声データ記憶部１５０３ｂ、第１音響モデル生成部１５０４ｂ、第１音響モデル記憶部１５０５ｂ、音声認識部１５０６ｂ、状態列取得部１５０７ｂ、残響影響度記憶部１５０８ｂ、残響影響度選択部１５０９ｂ、残響除去部１５１０ｂ、第２音響モデル生成部１５１１ｂ、及び第２音響モデル記憶部１５１２ｂとして機能する。

音声信号取得部１５０１ｂは、音声データベースから個々のクリーン音声信号を取得し、取得したクリーン音声信号を残響付加部１５０２ｂに出力する。
残響付加部１５０２ｂは、音声信号取得部１５０１ｂから入力されたクリーン音声信号に室内伝達関数（ＲＴＦ）を畳み込み残響付加音声信号を生成する。室内伝達関数は、その時点の室内で計測されたものでもよいし、所定のモデルに従って算出されたもの、例えば、上述した音源ｒからの距離に応じて算出されたものでもよい。残響付加部１５０２ｂは、生成した残響付加音声信号をその発話内容と対応付けて残響音声データ記憶部１５０３ｂに記憶する。

第１音響モデル生成部１５０４ｂは、残響音声データ記憶部１５０３ｂから読み取った残響付加音声信号とその発話内容に基づいて最適な第１音響モデルを生成する。第１音響モデルを生成する処理は、上述したデータ生成処理におけるステップＳ２０１−Ｓ２０３（図１４）の処理に相当する。第１音響モデル生成部１５０４ｂは、生成した第１音響モデルを第１音響モデル記憶部１５０５ｂに記憶する。

音声認識部１５０６ｂは、第１音響モデル記憶部１５０５ｂに記憶した第１音響モデルと、上述した言語モデルを用いて残響音声データ記憶部１５０３ｂから読み取った残響付加音声信号について音声認識処理を行う。音声認識部１５０６ｂは、第１音声認識部１０３（図１３）と同様に音声認識処理で生成した状態列を示す状態列情報を状態列取得部１５０７ｂに出力する。

状態列取得部１５０７ｂは、状態列取得部１０４ｂ（図１３）と同様に、音声認識部１５０６ｂから入力された状態列情報を残響影響度選択部１５０９ｂに出力する。

残響影響度記憶部１５０８ｂには、上述したデータ生成処理におけるステップＳ２０４又はステップＳ２０５（図１４）で生成した残響影響度データを予め記憶しておく。
残響影響度選択部１５０９ｂは、残響影響度選択部１０６ｂ（図１３）と同様な処理を行って、状態列取得部１５０７ｂから入力された状態列情報に対応する残響影響度τ_Ｗを残響影響度記憶部１５０８ｂから選択する。残響影響度選択部１５０９ｂは、選択した残響影響度τ_Ｗを残響除去部１５１０ｂに出力する。

残響除去部１５１０ｂは、残響音声データ記憶部１５０３ｂから読み取った残響付加音声信号のうち状態列取得部１５０７ｂで取得された状態列に対応する区間の音声信号を状態列区間音声信号として抽出する。残響除去部１５１０ｂは、第２残響除去部１０７ｂ（図１３）と同様な処理を行って、抽出した状態列区間音声信号から残響除去係数δ_ｂと残響影響度選択部１５０９ｂから入力された残響影響度τ_Ｗに基づいて残響成分を除去して残響除去音声信号を生成する。残響除去部１５１０ｂで用いられる残響除去係数δ_ｂは、残響付加部１５０２ｂで用いられた室内伝達関数に基づいて定めることができる。残響除去部１５１０ｂは、生成した残響除去音声信号を第２音響モデル生成部１５１１ｂに出力する。

第２音響モデル生成部１５１１ｂは、残響除去部１５１０ｂから入力された残響除去音声信号とその発話内容に基づいて、その発話内容の尤度に基づいて最適、つまり尤度が最も高くなるように第２音響モデルを生成する。第２音響モデル生成部１５１１ｂは、生成した第２音響モデルを第２音響モデル記憶部１５１２ｂに記憶する。

このように、本実施形態に係る音声処理装置（例えば、音声処理装置１１ｂ）は、入力された音声から発話の状態を逐次に認識する音声認識部（例えば、第１音声認識部１０３）を備える。また、本実施形態に係る音声処理装置は、先行音声による残響が当該先行音声に後続する後続音声に与える影響を示す残響影響度と、先行音声と後続音声における状態の系列である状態列とを対応付けて記憶する残響影響度記憶部（例えば、残響影響度記憶部１０５ｂ）を備える。また、本実施形態に係る音声処理装置は、音声認識部（例えば、第１音声認識部１０３）が認識した発話状態からなる状態列に最も近似する状態列に対応した残響影響度を残響影響度記憶部から選択する残響影響度選択部（例えば、残響影響度選択部１０６ｂ）を備える。また、本実施形態に係る音声処理装置は、音声認識部（例えば、第１音声認識部１０３）が状態列を認識した音声から選択された残響影響度で重みづけした残響成分を抑圧する残響抑圧部（例えば、第２残響除去部１０７ｂ）を備える。

この構成により、発話の状態間で異なる残響の影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して、例えば、第２音声認識部１０８で行われる音声認識処理において音声認識精度を向上することができる。
また、残響影響度は、所定の状態列が認識された音声による残響のパワーの、当該音声のパワーに対する比であるため、複数の隣接する状態列により異なる残響のパワーの影響を考慮して残響抑圧が行われる。そのため、残響下で収録された音声に対して、例えば、第２音声認識部１０８で行われる音声認識処理において音声認識精度を向上することができる。

また、音声認識部は、所定の単語群が発話された音声から認識された状態列の尤度が高くなるように生成された音響モデルを参照して発話の状態を認識する。音響モデルにおいて音声の物理的な特徴を示す音響特徴量と発話の状態とが対応付けられるので、状態列を用いて音声の物理的な特徴の変化を表現することができる。そのため、発話の状態による物理的な特徴の変化に応じて異なる残響のパワーの影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して、例えば、第２音声認識部１０８で行われる音声認識処理において音声認識精度を向上することができる。
また、本実施形態では、残響影響度の選択で用いられる認識単位が、単語を形成する音素よりもさらに細分化された認識単位である。そのため、発話速度の差異、変化に応じて異なる残響の影響を考慮して残響抑圧が行われるので、認識単位が単語である場合や音素である場合よりも音声認識精度を向上することができる。

（実験結果）
次に、上述した音声処理装置１１ｂを用いて音声認識精度を検証した実験結果について説明する。
上述の実験室Ａ（ＲＴ（残響時間）＝２４０ｍｓ）、Ｂ（ＲＴ＝６４０ｍｓ）について図１４、図１５に示す処理を行って第１音響モデル、第２音響モデル、及び残響影響度データを予め生成しておいた。学習用データとして上述したウォールストリートジャーナルデータベースを用いて第１音響モデル、第２音響モデルを予め学習させておいた。

実験では、３０００語の語彙を用いて連続音声認識処理を行って、音声認識率を観測した。音声処理装置１１ｂで用いられた第１音響モデル、第２音響モデルは、いずれも各音素について３状態のＨＭＭであり、言語モデルはＮグラムに対応したＨＭＭである。収音部１２ｂとして、１６チャネルのマイクロホンアレイが用いられ、試験データとして実験室Ａ、Ｂのそれぞれにおいて収音部１２ｂで収録した残響付加音声信号が用いられた。試験データを収録する際、各話者に収音部１２ｂから離れた位置に２０回ずつ発話させた。話者数は、２０名、収音部１２ｂから話者の距離Ｄは、１．０ｍ、２．０ｍ、３．０ｍの３通りである。各話者は、いずれもデータ生成処理には関わらなかった。

実験において試験データは次の８通りの方法のそれぞれを用いて処理され、処理されたデータを用いて音声認識率を観測した。Ａ．未処理（ＮｏＰｒｏｃｅｓｓｉｎｇ）、Ｂ．ウェーブレット極値クラスタリングに基づく強調（ＥｎｈａｎｃｅｍｅｎｔｂａｓｅｄｏｎＷａｖｅｌｅｔＥｘｔｒｅｍａＣｌｕｓｔｅｒｉｎｇ）、Ｃ．線形予測残差に基づく強調（ＥｎｈａｎｃｅｍｅｎｔｂａｓｅｄｏｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ（ＬＰ）Ｒｅｓｉｄｕａｌ）、Ｄ．従来のスペクトルサブトラクションによる残響抑圧（ＰｒｅｖｉｏｕｓＷｏｒｋＣｏｍｐｅｎｓａｔｉｎｇｏｎｌｙｔｈｅＷａｖｅｆｏｒｍ）、Ｅ．本実施形態において推定した室内伝達関数を用い、残響影響度データの生成においてグルーピング（ステップＳ２０５、図１４）を行わなかった場合（ＰｒｏｐｏｓｅｄＭｅｔｈｏｄ（ＥｓｔｉｍａｔｅｄＲＴＦ））、Ｆ．本実施形態において実測した室内伝達関数を用い、残響影響度データの生成においてグルーピング（ステップＳ２０５、図１４）を行わなかった場合（ＰｒｏｐｏｓｅｄＭｅｔｈｏｄ（ＭａｔｃｈｅｄＲＴＦ））、Ｇ．本実施形態において推定した室内伝達関数を用い、残響影響度データの生成においてグルーピング（ステップＳ２０５、図１４）を行った場合（ＰｒｏｐｏｓｅｄＭｅｔｈｏｄｗｉｔｈＮ−ｇｒａｍＧｒｏｕｐｉｎｇｉｎＳ２０５（ＥｓｔｉｍａｔｅｄＲＴＦ））、Ｈ．本実施形態において実測した室内伝達関数を用い、残響影響度データの生成においてグルーピング（ステップＳ２０５、図１４）を行った場合（ＰｒｏｐｏｓｅｄＭｅｔｈｏｄｗｉｔｈＮ−ｇｒａｍＧｒｏｕｐｉｎｇｉｎＳ２０５（ＭａｔｃｈｅｄＲＴＦ））。

（音声認識率の例）
図１６、図１７は、処理方法毎の音声認識率の例を示す図である。
図１６、図１７は、それぞれ実験室Ａ、Ｂにおいて得られた音声認識率を示す。距離Ｄは、１．０ｍ、２．０ｍ、３．０ｍの３通りであり、それぞれの場合で得られた音声認識率を（ａ）、（ｂ）、（ｃ）に示す。図１６、図１７ともに、縦軸、横軸は、それぞれ音声認識率（単位は％）、方法（方法Ａ−Ｈ）を示す。

実験室Ａ、Ｂ間では、残響時間がより長い実験室Ｂの方が、音声認識率が低い。また、同一の実験室同士については、距離Ｄが大きくなるほど音声認識率が低い。このことは、収録された音声信号に残響成分が多く含まれるほど音声認識率が低くなることを示す。また、音声認識率は、方法Ａ、Ｂ、Ｃ、Ｅ、Ｄ、Ｆ、Ｇ、Ｈの順に高くなり、方法Ｈについて最も高い。例えば、実験室Ａ（ＲＴ＝２４０ｍｓ）、距離Ｄ＝１．０ｍの場合（図１６（ａ））、本実施形態に係る方法Ｅ−Ｈの８４．３−８６．４％は、従来技術に係る方法Ａ−Ｄの７９．０％−８３．２％よりも有意に高い。また、実験室Ｂ（ＲＴ＝６４０ｍｓ）、距離Ｄ＝３．０ｍの場合（図１７（ｃ））、本実施形態に係る方法Ｅ−方法Ｈの４０．１％−４６．１％は、従来技術に係る方法Ａ−Ｄの１５．８％−３６．５％よりも有意に高い。この結果は、認識された状態列に応じて選択された残響影響度で後期反射成分に重みづけを行って残響抑圧処理を行うことで従来技術よりも音声認識率が向上することを示す。

また、本実施形態に係る方法Ｅ、Ｆと方法Ｇ、Ｈとの間では、方法Ｇ、Ｈの方が、方法Ｅ、Ｆよりも音声認識率が有意に高い。例えば、実験室Ａ（ＲＴ＝２４０ｍｓ）、距離Ｄ＝１．０ｍの場合（図１６（ａ））、方法Ｇ、Ｈについて音声認識率はそれぞれ８６．０％、８６．４％であるのに対し、方法Ｅ、Ｆについて音声認識率はそれぞれ８４．３％、８４．５％である。また、実験室Ｂ（ＲＴ＝６４０ｍｓ）、距離Ｄ＝３．０ｍの場合（図１７（ｃ））、方法Ｇ、Ｈについて音声認識率はそれぞれ４５．３％、４６．１％であるのに対し、方法Ｅ、Ｆについて音声認識率はそれぞれ４０．０％、４０．８％である。この結果は、残響を与える先行単語が共通である単語群同士でグルーピングを行うことで、１グループあたりの状態列の標本数が多くなるため、後続単語が異なっても音響的な特徴を損なわずに共通した残響影響度を用いることで、その精度を高め、ひいては音声認識率を向上できることを示す。

なお、上述した実施形態では、主に単語群が互いに隣接する２つの単語からなる単語対である場合を例にとって説明したが、これには限られない。単語群は、３つ以上の隣接した単語からなる単語群であってもよい。その場合、残響影響度は、複数の係数からなり、複数の係数のそれぞれが、ある単語群に含まれる各単語に係る音声による残響が、当該各単語よりも後続する単語のそれぞれに係る音声に与える影響を示す係数であってもよい。そして、第２残響除去部１０７（図１）は、当該単語群のうち各単語に係る音声から当該各単語よりも後続する単語のそれぞれに係る音声について、対応する係数で重み付けした残響成分を抑圧する。
上述した第１実施形態、第２の実施形態では、認識単位として単語を用い、第３の実施形態では、認識単位として発話の状態を用いる場合を例にしたが、これには限られない。音声処理装置１１、１１ａ、１１ｂは、単語または発話の状態に代えて、他の認識単位、例えば、音素を用いてもよい。

上述した第１の実施形態、第２の実施形態では、主に収音部１２から１チャネルの音声信号が音声処理装置１１、１１ａに入力される場合について説明したが、これには限られない。音声処理システム１、１ａは、音源分離部１４ｂ（図１３）を備え、音声処理装置１１、１１ａには、収音部１２に代え、音源分離部１４ｂから音声信号が入力されてもよい。
また、音源分離部１４ｂは、音源分離処理としてＧＨＤＳＳ法以外の方法、例えば、適応ビームフォーミング法（ａｄａｐｔｉｖｅｂｅａｍｆｏｒｍｉｎｇ）を用いてもよい。適応ビームフォーミング法は、音源方向を推定し、推定した音源方向に感度が最も高くなるように指向性を制御する方法である。
なお、音声処理システム１ｂ（図１３）では、音源分離部１４ｂが省略され、音声処理装置１１ｂに収音部１２ｂから音声信号が入力されるようにしてもよい。

また、音声処理装置１１、１１ａ、１１ｂは、第１残響除去部１０２を省略し、第１音声認識部１０３に収音部１２（又は収音部１２ｂ）から直接音声信号が入力されるようにしてもよい。
また、音声処理装置１１、１１ａ、１１ｂは、第２音声認識部１０８を省略し、第２残響除去部１０７から音声処理装置１１、１１ａ、１１ｂの外部に第２残響除去音声信号を出力してもよい。これにより、音声処理装置１１、１１ａ、１１ｂの外部に置かれた音声認識部に出力された第２残響除去音声信号が供給されるようにしてもよい。
また、データ生成部１５０ｂは、グルーピングに係る処理（図１４、ステップＳ２０５）を省略してもよい。

なお、上述した実施形態及び変形例における音声処理装置１１、１１ａ、１１ｂの一部、例えば、残響特性推定部１０１、第１残響除去部１０２、第１音声認識部１０３、単語抽出部１０４、状態列取得部１０４ｂ、残響影響度選択部１０６、１０６ｂ、第２残響除去部１０７、１０７ｂ、第２音声認識部１０８、及び対話制御部１２０ａをコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置１１、１１ａ、１１ｂに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、上述した実施形態及び変形例における音声処理装置１１、１１ａ、１１ｂの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音声処理装置１１、１１ａ、１１ｂの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１１、１１ａ、１１ｂ…音声処理装置、
１０１…残響特性推定部、
１０１１…特徴量算出部、１０１２…残響モデル記憶部、１０１３…尤度算出部、
１０１４…残響除去係数選択部、
１０２…第１残響除去部、１０３…第１音声認識部、
１０４…単語抽出部、１０４ｂ…状態列取得部、１０５、１０５ｂ…残響影響度記憶部、１０６、１０６ｂ…残響影響度選択部、
１０７、１０７ｂ…第２残響除去部、１０８…第２音声認識部、
１１０…残響影響度解析部、１１０１…学習データ取得部、１１０２…単語抽出部、
１１０３…中間データ記憶部、１１０４…第１データ分割部、１１０５…残響付加部、
１１０６…第２データ分割部、１１０７…強度解析部、１１０８…残響影響度算出部、
１２０ａ…対話制御部、
１２、１２ｂ…収音部、１３ａ…音声再生部、１４ｂ…音源分離部、
１５０ｂ…データ生成部、１５０１ｂ…音声信号取得部、１５０２ｂ…残響付加部、
１５０３ｂ…残響音声データ記憶部、１５０４ｂ…第１音響モデル生成部、
１５０５ｂ…第１音響モデル記憶部、１５０６ｂ…音声認識部、
１５０７ｂ…状態列取得部、１５０８ｂ…残響影響度記憶部、
１５０９ｂ…残響影響度選択部、１５１０ｂ…残響除去部、
１５１１ｂ…第２音響モデル生成部、１５１２ｂ…第２音響モデル記憶部

Claims

入力された音声から認識単位を逐次に認識する音声認識部と、
先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部と、
前記音声認識部が認識した複数の認識単位からなる認識単位群に対応した残響影響度を前記残響影響度記憶部から選択する残響影響度選択部と、
前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧部と、
を備える音声処理装置。
前記残響抑圧部は、前記少なくとも一部の認識単位が認識された音声に残響成分の寄与を示す残響除去係数を乗じて得られた残響成分に、前記残響影響度で重み付けた残響成分を抑圧する請求項１に記載の音声処理装置。
前記認識単位は、単語であることを特徴とする請求項１又は請求項２に記載の音声処理装置。
前記認識単位群は、２つの隣接する単語からなる単語対であって、
前記残響影響度は、１つの単語が認識された音声による残響が後続する単語の音声に与える影響の度合いを示す係数であることを特徴とする請求項３に記載の音声処理装置。
前記残響影響度は、前記後続する単語の音声による残響成分のパワースペクトル密度の、前記１つの単語の音声のパワースペクトル密度の比であって、
前記残響影響度記憶部は、前記残響影響度と、当該１つの単語と後続する単語とからなる単語対に係る音声のパワースペクトル密度とを対応付けて記憶し、
前記残響影響度選択部は、前記音声認識部が認識した単語から単語対毎に、入力された音声のパワースペクトル密度が最も近似するパワースペクトル密度に対応した残響影響度を選択する請求項４に記載の音声処理装置。
前記認識単位は、発話の状態であることを特徴とする請求項１又は請求項２に記載の音声処理装置。
前記認識単位群は、複数の隣接する状態からなる状態列であって、
前記残響影響度は、所定の状態列が認識された音声による残響のパワーの、当該音声のパワーに対する比である請求項６に記載の音声処理装置。
前記音声認識部は、所定の単語群が発話された音声から認識された状態列の尤度が高くなるように生成された音響モデルを参照して前記発話の状態を認識する請求項６又は請求項７に記載の音声処理装置。
音声処理装置における音声処理方法において、
入力された音声から認識単位を逐次に認識する音声認識過程と、
前記音声認識過程で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択過程と、
前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧過程と、
を有する音声処理方法。
音声処理装置のコンピュータに、
入力された音声から認識単位を逐次に認識する音声認識手順、
前記音声認識手順で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択手順、
前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧手順、
を実行させるための音声処理プログラム。