JP6124949B2

JP6124949B2 - 音声処理装置、音声処理方法、及び音声処理システム

Info

Publication number: JP6124949B2
Application number: JP2015103670A
Authority: JP
Inventors: ランディゴメス; 一博中臺
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2015-01-14
Filing date: 2015-05-21
Publication date: 2017-05-10
Anticipated expiration: 2035-05-21
Also published as: JP2016136229A

Description

本発明は、音声処理装置、音声処理方法、及び音声処理システムに関する。

室内で発された音は、壁面や設置物で反射が繰り返されることによって残響を生じる。収録される音には、音源から直接到来した直接音に室内で生じた残響が付加される。収録された音声に対して音声認識処理を行うと原音声よりも音声認識率が低下することがある。そこで、残響環境下で収録した音声から残響成分を抑圧する残響抑圧技術が従来から開発されている。

例えば、特許文献１には、環境中で発生したインパルス応答の残響パターンであって、インパルス応答の初期反射成分と高次反射成分を含む拡散残響成分とを有する残響パターンから拡散残響成分を取り除いた初期反射成分を抽出し、初期反射成分を学習用の音声データに反映させて音声認識に用いられる音響モデルを学習する処理装置について記載されている。

特許第４５３２５７６号公報

残響の影響やその度合いは、音源と音声データの収録点との位置関係によって異なる。他方、音源である話者や収音部が設置されているロボット等の移動体が室内を自由に移動することがある。音響モデルの生成において用いた音声を発した話者の位置と、その時点で音声認識の対象となる話者の位置との関係が変化するために音声認識率が低下することがある。

本発明は上記の点に鑑みてなされたものであり、残響下における音源位置の変化による音声認識率の低下を抑制することができる音声処理装置、音声処理方法、及び音声処理システムを提供する。

［１］本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、取得した音声から音源位置を定める音源定位部と、前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、前記残響抑圧音声の特徴量を算出する特徴量算出部と、前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、前記調整特徴量を用いて音声認識を行う音声認識部と、を備える音声処理装置である。

［２］本発明の他の態様は、［１］の音声処理装置であって、前記調整係数は、前記特徴量を用いて算出される音韻毎の尤度よりも、当該特徴量に当該調整係数を乗じて算出された調整特徴量を用いて算出される尤度のほうが高くなるように予め算出されたことを特徴とする。

［３］本発明の他の態様は、［１］又は［２］の音声処理装置であって、前記調整特徴量と音源位置毎の位置依存音響モデルを用いて算出した尤度に基づいて所定の数の位置依存音響モデルを選択し、選択した位置依存音響モデルのモデル変数を線形結合して、前記音源位置に対応する位置依存音響モデルを生成するモデル更新部を備え、前記音声認識部は、前記モデル更新部が生成した音響モデルを用いて音声認識を行う。

［４］本発明の他の態様は、［３］の音声処理装置であって、前記モデル更新部は、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合して前記音源定位部が定めた音源位置に対応する位置依存音響モデルを生成する。

［５］本発明の他の態様は、［３］又は［４］の音声処理装置であって、前記モデル更新部は、前記尤度が所定の尤度よりも低い位置依存音響モデルを除去する。

［６］本発明の他の態様は、取得した音声から音響環境毎の残響成分データに基づいて前記音響環境毎に残響抑圧音声を生成する残響抑圧部と、前記残響抑圧音声の特徴量を算出する特徴量算出部と、前記特徴量から発話状態列の尤度を前記音響環境毎に算出し、前記尤度に基づいて発話状態列を選択する音声認識部と、を備え、前記残響成分データは、所定の残響特性に対して所定のフィルタ処理により得られた補正残響特性で与えられる残響成分の寄与を示すデータであって、前記フィルタ処理に用いる補正係数は、前記音響環境毎の音声の特徴量から算出される尤度よりも、当該音声に対して当該フィルタ処理により得られた補正音声の特徴量から算出される尤度が高くなるように算出されたことを特徴とする音声処理装置である。

［７］本発明の他の態様は、［６］の音声処理装置であって、前記尤度の算出に用いる音響モデルは、特徴量の正規分布の線形結合で発話状態の出現確率を表すモデルであり、前記補正係数を算出する際、前記尤度の前記補正係数に対する勾配を用いて前記尤度をより高くするように前記補正係数を更新することを特徴とする。

［８］本発明の他の態様は、音声処理装置と収音部とを備える音声処理システムであって、前記収音部は、複数チャネルの音声を収音し、前記音声処理装置は、前記複数チャネルの音声から音源位置を定める音源定位部と、前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、前記残響抑圧音声の特徴量を算出する特徴量算出部と、前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、前記調整特徴量を用いて音声認識を行う音声認識部と、を備える音声処理システムである。

［９］本発明の他の態様は、［８］の音声処理システムであって、前記音声認識部が認識した発話に応じた動作を実行する動作制御部、を備える。

［１０］本発明の他の態様は、音声処理装置における音声処理方法であって、取得した音声から音源位置を定める音源定位過程と、前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧過程と、前記残響抑圧音声の特徴量を算出する特徴量算出過程と、前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整過程と、前記調整特徴量を用いて音声認識を行う音声認識過程と、を有する音声処理方法である。

上述した［１］、［８］又は［１０］の構成によれば、残響成分を抑圧した残響抑圧音声の特徴量に、音源位置に応じた調整係数が乗じられて算出される調整特徴量により音声認識が行われる。残響の影響の音源位置依存性が緩和されるため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

上述した［２］の構成によれば、残響抑圧音声の特徴量に調整係数を乗じた調整特徴量を用いることで、残響抑圧音声の特徴量よりも、音韻毎の尤度を高くすることができる。そのため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

上述した［３］の構成によれば、音声認識精度を著しく劣化させる尤度が低い位置依存音響モデルの選択が回避され、選択された位置依存音響モデルのモデル変数を線形結合することで、位置依存音響モデルの生成において音源位置間で異なりうる残響の影響を受けない周波数成分が相補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

上述した［４］の構成によれば、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合することで、残響の影響を受けない周波数成分が補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

上述した［５］の構成によれば、音源位置の変化に応じて尤度が低下しないように位置依存音響モデルが更新されるので、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

上述した［６］の構成によれば、音響環境に応じて異なる残響成分データを用いて残響成分が抑圧された残響成分音声信号が得られる。そして、音響環境毎に得られた残響成分音声信号から算出された音響特徴量からなる音響特徴量列に対応する発話状態列について、より高い尤度を与える発話状態列に対応する音韻列が特定される。そのため、音響環境によって異なりうる残響の影響による音声認識精度の低下が抑制される。

上述した［７］の構成によれば、尤度の補正係数に対する勾配が、音響モデルを構成する基底間の積和演算により算出される。そのため、補正係数の算出に要する計算量や計算時間を低減することができる。

上述した［９］の構成によれば、音声認識部が認識した発話に応じた動作を実行するので、残響下における音源位置の変化に関わらず、ユーザ所望の動作が発話を通じてより確実に指示される。

第１の実施形態に係る音声処理システムの構成を示すブロック図である。調整データの一例を示す図である。音源位置の分布例を示す平面図である。第１の実施形態に係る処理データ生成部を示すブロック図である。第１の実施形態に係る音響モデル更新処理を示すフローチャートである。第１の実施形態に係る音声処理を示すフローチャートである。音声信号のスペクトログラムの例を示す。調整特徴量の分布例を示す図である。第２の実施形態に係る音声処理システムの構成を示すブロック図である。対話データの例を示す図である。収音素子の配置例を示す図である。第２の実施形態の動作検証に係る実験室の平面図である。連続音声認識の実験結果の例を示す図である。音声検出率の例を示す図である。各方式による単語認識率の例を示す図である。第３の実施形態に係る音声処理システムの構成を示すブロック図である。第３の実施形態に係る処理データ生成部を示すブロック図である。第３の実施形態に係る残響成分データ生成処理を示すフローチャートである。第３の実施形態に係る音声処理を示すフローチャートである。単語正解率の音源位置依存性の一例を示す図である。単語正解率の音源位置依存性の他の例を示す図である。正解率の音源位置依存性を示す図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音声処理システム１の構成を示すブロック図である。
音声処理システム１は、音声処理装置１０及び収音部１２を含んで構成される。
音声処理装置１０は、収音部１２から入力されたＰ（Ｐは、３以上の整数）チャネルの音声信号から音源位置を定め、当該音声信号の残響成分を抑圧する。音声処理装置１０は、残響成分を抑圧した音声の特徴量を算出し、定めた音源位置に対応する調整係数を算出した特徴量に乗じて調整特徴量を算出する。音声処理装置１０は、算出した調整特徴量を用いて音声認識を行う。

収音部１２は、Ｐチャネルの音声信号を収録し、収録した音声信号を音声処理装置１０に出力する。収音部１２は、Ｐ個の収音素子（マイクロホン）をそれぞれ異なる位置に配列して構成されたマイクロホンアレイである。収音部１２は、収録した音声信号を無線で音声処理装置１０に送信してもよいし、有線で送信してもよい。収音部１２の位置は、固定されていてもよいし、ロボット、車両等の移動体に設置され移動可能であってもよい。収音部１２は、音声処理装置１０と一体化されてもよいし、別体であってもよい。

残響とは、音源が音の放射を停止した後も、放射した音が到来する現象である。残響は、部屋の内外を区分する壁面や設置物などの物体表面で音波の反射が繰り返されることによって生じる。一般に、収音部１２では、音源から直接到来した直接音（ｄｉｒｅｃｔｓｏｕｎｄ）と、物体から反射された反射音（ｒｅｆｌｅｃｔｉｏｎ）が収録される。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短い（例えば、約３０ｍｓ以下）ために、反射回数が比較的少なくそれぞれの反射パターンが区別される部分は、初期反射（ｅａｒｌｙｒｅｆｌｅｃｔｉｏｎ）と呼ばれる。反射音のうち、それよりも経過時間が長いために、反射回数が多くそれぞれの反射パターンを区別できない部分は、後期反射（ｌａｔｅｒｅｆｌｅｃｔｉｏｎ）と呼ばれる。後期反射は、後期残響（ｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ）、又は単に残響（ｒｅｖｅｒｂｅｒａｔｉｏｎ）と呼ばれることがある。

残響が生じると、過去に発話された音声による残響が現在発話されている音声に重畳する。このため、残響が付加されていない音声よりも残響が付加された音声の方が、音声認識率が低下する。その一因として、音声認識に用いられる音響モデルにおいて、音韻を形成する発話状態と対応付けられた音響特徴量が、残響が付加された音声に基づいて算出された音響特徴量とは必ずしも一致しない（ｍｉｓｍａｔｃｈ）ことが挙げられる。また、残響は、人間の聴覚上も、発話内容に対する明瞭度（ｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙ）を低下させる。以下の説明では、このような残響による悪影響を、残響の影響（ｓｍｅａｒｉｎｇ）と呼ぶ。残響の影響は、コンタミネーション（ｃｏｎｔａｍｉｎａｔｉｏｎ）とも呼ばれる。また、残響が付加された音声、残響が抑圧された音声、残響成分が無視できるほど少ない音声を、それぞれ残響付加音声（ｒｅｖｅｒｂｅｒｅｎｔｓｐｅｅｃｈ）、残響抑圧音声（ｄｅｒｅｖｅｒｂｅｒａｔｅｄｓｐｅｅｃｈ）、クリーン音声（ｃｌｅａｎｓｐｅｅｃｈ）、と呼ぶ。

次に、音声処理装置１０の構成について説明する。
音声処理装置１０は、音源定位部１０１、音源分離部１０２、残響抑圧部１０３、特徴量算出部１０４、特徴量調整部１０５、モデル記憶部１０９、モデル更新部１１０及び音声認識部１１１を含んで構成される。

音源定位部１０１は、収音部１２から入力されたＰチャネルの音声信号から音源位置を定める。音源定位部１０１は、例えば、Ｐチャネルの音声信号について予め定めた期間（例えば、５０ｍｓ）毎にＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を実行する。ＭＵＳＩＣ法については、後述する。音源定位部１０１は、定めた音源毎の音源位置を示す音源位置情報とＰチャネルの音声信号を音源分離部１０２に出力し、当該音源位置情報を特徴量調整部１０５に出力する。

音源分離部１０２は、音源定位部１０１から入力されたＰチャネルの音声信号を音源位置情報が示す音源位置に基づいて音源毎の音声信号である音源別音声信号に分離する。
周波数領域におけるＰチャネルの音声信号［ｘ（ω）］とＬ（Ｌは、１以上Ｐ以下の整数）個の音源別音声信号［ｓ（ω）］とは、例えば、式（１）に示す関係を有する。

式（１）において［…］は、ベクトル又は行列を示す。［ｘ（ω）］は、Ｐ次元のベクトル［ｘ_１（ω），ｘ_２（ω），…，ｘ_Ｐ（ω）］^Ｔである。ωは、周波数を示す。Ｔは、ベクトル又は行列の転置を示す。［Ａ（ω）］は、各音源から各チャネルの収音素子までの伝達関数を成分として有するＰ行Ｌ列の行列である。［η（ω）］は、Ｐチャネルの付加雑音信号を示す。付加雑音信号［η（ω）］は、音源別音声信号［ｓ（ω）］とは統計的に無相関であると仮定されうる。

音源分離部１０２は、音源分離方法として、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。ＧＨＤＳＳ法については、後述する。音源分離部１０２は、分離した音源毎の音源別音声信号を残響抑圧部１０３に出力する。

残響抑圧部１０３は、音源分離部１０２から入力された音源毎の音源別音声信号について残響成分をそれぞれ抑圧し、音源毎の残響抑圧音声信号を生成する。残響抑圧部１０３は、例えば、式（２）に示すように残響抑圧前の残響付加音源別音声信号［ｕ’（ω）］から残響成分［ｒ’（ω）］を差し引いて残響抑圧音声信号［ｓ’^{（ｘ，ｙ）}（ω）］を生成する。

式（２）の左辺の添え字（ｘ，ｙ）は、音源位置を示す。ｘ、ｙは、水平面上における互いに直交する方向の座標値である。残響抑圧方法については後述する。残響抑圧部１０３は、音源毎の残響抑圧音声信号を特徴量算出部１０４に出力する。

特徴量算出部１０４は、残響抑圧部１０３から入力された音源毎の残響抑圧音声信号について、所定の期間（例えば、１０ｍｓ）毎に音響特徴量を算出する。特徴量算出部１０４は、音響特徴量として、例えば、１２次のメル周波数ケプストラム係数（ＭＦＣＣ：Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）、１２次のデルタＭＦＣＣ（Δ−ＭＦＣＣ）、エネルギー、及びデルタエネルギー（Δ−エネルギー）とからなる２６次元のベクトル［ｆ^{（ｘ，ｙ）}］を音源毎に算出する。特徴量算出部１０４は、算出した音響特徴量［ｆ^{（ｘ，ｙ）}］を特徴量調整部１０５に出力する。なお、残響抑圧音声信号［ｓ’^{（ｘ，ｙ）}（ω）］と音響特徴量［ｆ^{（ｘ，ｙ）}］との関係を式（３）に示す。式（３）において、Ｆ（…）は、…の音響特徴量を算出するための演算を示す。

特徴量調整部１０５は、音源定位部１０１から入力された音源位置情報が示す当該音源の音源位置（ｘ，ｙ）に対応する調整係数［ｃ’^{（ｘ，ｙ）}］を定める。特徴量調整部１０５は、特徴量算出部１０４から入力された音源毎の音響特徴量［ｆ^{（ｘ，ｙ）}］に定めた調整係数［ｃ’^{（ｘ，ｙ）}］を乗算して調整特徴量［ｆ’］を算出する。
特徴量調整部１０５は、調整データ記憶部１０６、調整係数取得部１０７及び調整係数乗算部１０８を含んで構成される。

調整データ記憶部１０６には、所定のＭ（Ｍは、２以上の整数、例えば、１００）個の音源位置毎の調整係数［ｃ’^{（ｘ，ｙ）}］を示す調整データが予め記憶されている。調整係数［ｃ’^{（ｘ，ｙ）}］は、少なくとも既知の音韻列のセットｗについて所定の音響モデルを用いて算出される音響特徴量［ｆ^{（ｘ，ｙ）}］よりも、調整特徴量［ｆ’］を用いた方が尤度Ｐ（ｆ’（ｘ，ｙ）（［ｃ’（ｘ，ｙ）］）｜ｗ）が高くなるように定められる。調整係数［ｃ’^{（ｘ，ｙ）}］は、好ましくは、式（４）に示すように尤度Ｐ（ｆ（ｘ，ｙ）（［ｃ（ｘ，ｙ）］）｜ｗ）を最大化する調整係数［ｃ^{（ｘ，ｙ）}］である。調整データについては、後述する。

調整係数取得部１０７は、調整データ記憶部１０６に記憶された調整データを参照して、音源定位部１０１から入力された音源位置情報が示す音源位置（ｘ，ｙ）に対応する調整係数［ｃ’^{（ｘ，ｙ）}］を取得する。調整データに音源位置情報が示す音源位置（ｘ，ｙ）と一致する音源位置（ｘ，ｙ）がある場合には、調整係数取得部１０７は、その音源位置（ｘ，ｙ）に対応する調整係数［ｃ’^{（ｘ，ｙ）}］を調整データ記憶部１０６から読み取る。調整データに、音源位置情報が示す音源位置（ｘ，ｙ）と一致する音源位置（ｘ，ｙ）がない場合には、調整係数取得部１０７は、その音源位置（ｘ，ｙ）から予め定めた範囲内の音源位置（ｘ’’，ｙ’’）のそれぞれに対応する調整係数［ｃ’’^{（ｘ，ｙ）}］を調整データ記憶部１０６から読み取る。そして、調整係数取得部１０７は、読み取った調整係数［ｃ’’^{（ｘ，ｙ）}］を線形補間又は外挿して音源位置（ｘ，ｙ）に対応する調整係数［ｃ’^{（ｘ，ｙ）}］を算出する。調整係数取得部１０７は、取得した調整係数［ｃ’^{（ｘ，ｙ）}］を調整係数乗算部１０８に出力する。

調整係数乗算部１０８は、式（５）に示すように、調整係数取得部１０７から入力された音源毎の調整係数［ｃ’^{（ｘ，ｙ）}］を特徴量算出部１０４から入力された当該音源の音響特徴量［ｆ^{（ｘ，ｙ）}］に乗算して当該音源の調整特徴量［ｆ’］を算出する。調整係数乗算部１０８は、音源毎に算出した調整特徴量［ｆ’］をモデル更新部１１０及び音声認識部１１１に出力する。

モデル記憶部１０９には、音声認識に用いられるＭ＋１個の音響モデルと少なくとも１個の言語モデルが記憶されている。Ｍ＋１個のうちＭ個の音響モデルΨ^（ｎ）は、残響下でＭ個の音源位置のそれぞれにおいて発された音声を用いて生成された音響モデルΨ^（ｎ）である。以下の説明では、Ｍ個の音響モデルΨ^（ｎ）を、位置依存音響モデル（ｐｏｓｉｔｉｏｎ−ｓｅｎｓｉｔｉｖｅａｃｏｕｓｔｉｃｍｏｄｅｌ）Ψ^（ｎ）と呼ぶ。他の１個の音響モデルは、クリーン音声を用いて生成されたクリーン音声音響モデルλ^（ｓ）である。位置依存音響モデルΨ^（ｎ）、クリーン音声音響モデルλ^（ｓ）は、それぞれガウシアン混合モデル（ＧＭＭ：ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）に基づく隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。ＧＭＭは、入力された音響特徴量又は調整特徴量に対する、ある発話状態における出力確率を複数（例えば、２５６個）の正規分布を基底として重みづけ加算して表す統計モデルの一種である。ＨＭＭは、ＧＭＭのモデル変数（ｍｏｄｅｌｐａｒａｍｅｔｅｒ）である混合重み係数（ｍｉｘｔｕｒｅｗｅｉｇｈｔ）Ｃ_ｉｍ、平均値（ｍｅａｎ）［μ_ｉｍ］、共分散行列（ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）［Σ_ｉｍ］と、発話状態間の遷移確率（ｔｒａｎｓｉｔｉｏｎｐｒｏｂａｂｉｌｉｔｙ）ａ_ｉｊといった統計量をモデル変数として、その特性が規定される。ここで、ｍは個々の基底、ｉはその時点における状態、ｊは次の状態、を示す。なお、言語モデルは、音韻列の制約と音韻列毎の確率を表す統計モデル、例えば、Ｎグラム（Ｎ−ｇｒａｍ）である。

モデル更新部１１０は、調整係数乗算部１０８から入力された音源毎の調整特徴量［ｆ’］について、モデル記憶部１０９に記憶されたＭ個の位置依存音響モデルΨ^（ｎ）及びクリーン音声音響モデルλ^（ｓ）のそれぞれについて尤度を算出する。モデル更新部１１０は、算出した尤度が最も高い位置依存音響モデルΨ^（ｎ）から順にＮ個の位置依存音響モデルΨ^（ｎ）及びクリーン音声音響モデルλ^（ｓ）を選択する。
モデル更新部１１０は、選択したＮ個の位置依存音響モデルΨ^（ｎ）及びクリーン音声音響モデルλ^（ｓ）それぞれのモデル変数を線形結合して、新たな位置依存音響モデルλ^{（ｕｐｄ）}のモデル変数を算出する。モデル更新部１１０は、算出したモデル変数で規定される位置依存音響モデルλ^{（ｕｐｄ）}を、当該音源の音源位置と対応付けてモデル記憶部１０９に記憶する。音響モデルの更新に係る処理については、後述する。

音声認識部１１１は、調整係数乗算部１０８から入力された音源毎の調整特徴量［ｆ’］について、当該音源について新たに生成された位置依存音響モデルλ^{（ｕｐｄ）}をモデル記憶部１０９から読み取り、音声認識に係る処理を行う。ここで、音声認識部１１１は、当該音源の調整特徴量［ｆ’］について読み取った位置依存音響モデルλ^{（ｕｐｄ）}を用いて音韻列毎に尤度を算出する。音声認識部１１１は、可能性がある音韻列のうちモデル記憶部１０９に記憶された言語モデルに基づいて、それらの音韻列で表される文の候補毎の尤度を算出し、尤度が最も高い文を表す認識データを音声処理装置１０の外部に出力する。
このように、音源位置に応じて尤度の低下が抑制された位置依存音響モデルλ^{（ｕｐｄ）}を用いて音声認識に係る処理が行われるので、音源位置による残響の影響の差異による音声認識精度の低下が抑制される。

（音源定位）
次に、音源定位の一手法であるＭＵＳＩＣ法について説明する。
音源定位部１０１は、予め所定の間隔（例えば、０．５ｍ）に分布した音源位置毎の伝達関数が記憶されている記憶部を備える。音源定位部１０１は、各チャネルｐ（ｐは、１以上Ｐ以下の整数）までの伝達関数Ａ_{［ｌ］［ｍ］}（ω）を要素とする伝達関数ベクトルＤ（ｎ）を音源位置ｎ毎に生成する。

音源定位部１０１は、各チャネルｐの音響信号ｘ_ｐ（ｔ）（ｔは、時刻）を所定のサンプル数からなるフレーム毎に周波数領域に変換して変換係数ｘ_ｐ（ω）を算出し、算出した変換係数から式（６）に示す入力相関行列［Ｒ_ｘｘ］を算出する。

式（６）において、Ｅ［…］は、…の期待値を示す。［…］^＊は、行列又はベクトルの共役を示す。
次に、音源定位部１０１は、入力相関行列［Ｒ_ｘｘ］の固有値δ_ｉ及び固有ベクトル［ｅ_ｉ］を算出する。入力相関行列［Ｒ_ｘｘ］、固有値δ_ｉ、及び固有ベクトル［ｅ_ｉ］は、式（７）に示す関係を有する。

式（７）において、ｉは、１以上Ｐ以下の整数である。インデックスｉの順序は、固有値δ_ｉの降順である。
音源定位部１０１は、伝達関数ベクトルＤ（ｎ）と算出した固有ベクトル［ｅ_ｉ］に基づいて、式（８）に示す空間スペクトルＰ_ｓｐ（ｎ）を算出する。

式（８）において、Ｋは、検出可能な音源の個数（例えば、１）であり、Ｐよりも小さい予め定めた自然数である。
音源定位部１０１は、Ｓ／Ｎ比が予め定めた閾値（例えば、２０ｄＢ）よりも大きい周波数帯域における空間スペクトルＰ_ｓｐ（ｎ）の総和を拡張空間スペクトルＰ_ｅｘｔ（ｎ）として算出する。音源定位部１０１は、算出した拡張空間スペクトルＰ_ｅｘｔ（ｎ）の極大値をとる音源位置ｎを定める。

なお、音源定位部１０１は、ＭＵＳＩＣ法に代えて、その他の手法を用いて音源位置を算出してもよい。音源定位部１０１は、例えば、一般化固有値分解（ＧＥＶＤ：ＧｅｎｅｒａｌｉｚｅｄＥｉｇｅｎｖａｌｕｅ）−ＭＵＳＩＣ法、一般化特異値分解（ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ；ＧＳＶＤ−）ＭＵＳＩＣ法、重み付き遅延和ビームフォーミング法（ＷＤＳ−ＢＦ：ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ）、等を用いてもよい。

（音源分離）
次に、音源分離の一手法であるＧＨＤＳＳ法について説明する。
ＧＨＤＳＳ法は、２つのコスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）として、分離尖鋭度（ＳｅｐａｒａｔｉｏｎＳｈａｒｐｎｅｓｓ）Ｊ_ＳＳ（［Ｖ（ω）］）と幾何制約度（ＧｅｏｍｅｔｒｉｃＣｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣ（［Ｖ（ω）］）が、それぞれ減少するように分離行列［Ｖ（ω）］を適応的に算出する方法である。分離行列［（ω）］は、音源定位部１０１から入力されたＰチャネルの音声信号［ｘ（ω）］に乗じることによって、Ｌチャネルの音源毎の音声信号（推定値ベクトル）［ｕ’（ω）］を算出するために用いられる行列である。

分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）は、それぞれ、式（９）、（１０）のように表される。

式（９）、（１０）において、｜｜…｜｜^２は、行列…のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）である。フロベニウスノルムとは、行列を構成する各要素値の二乗和（スカラー値）である。φ（［ｕ’（ω）］）は、音声信号［ｕ’（ω）］の非線形関数、例えば、双曲線正接関数（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔｆｕｎｃｔｉｏｎ）である。［…］^Ｈは、行列又はベクトルの共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。ｄｉａｇ［…］は、行列…の対角成分の総和を示す。従って、分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）は、音声信号（推定値）のスペクトルのチャネル間非対角成分の大きさ、つまり、ある１つの音源が他の音源として誤って分離される度合いを表す指標値である。
式（１０）において、［Ｉ］は、単位行列を示す。従って、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）とは、音声信号（推定値）のスペクトルと音声信号（音源）のスペクトルとの誤差の度合いを表す指標値である。

そこで、音源分離部１０２は、式（１１）に示すように、音源定位部１０１から入力されたＰチャネルの音声信号［ｘ（ω）］に分離行列［Ｖ（ω）］を乗じて、Ｌ個の音源のそれぞれに係る音源別音声信号［ｕ’（ω）］を算出する。

（残響抑圧）
次に、本実施形態に係る残響抑圧について説明する。残響抑圧部１０３は、音源分離部１０２から入力された音源毎の残響付加音源別音声信号ｕ’（ω）を周波数帯域ｂ毎の帯域成分ｕ_ｂ’（ω）に分離する。残響抑圧部１０３は、分離した帯域成分ｕ_ｂ’（ω）毎に当該周波数帯域ｂの残響成分係数δ_ｂを乗じて残響成分ｒ_ｂ’（ω）を算出する。残響抑圧部１０３は、算出した残響成分ｒ_ｂ’（ω）を周波数帯域ｂ間で合成して全周波数帯域の残響成分ｒ’（ω）を算出する。残響抑圧部１０３は、音源毎に残響付加音源別音声信号ｕ’（ω）から算出した残響成分ｒ’（ω）を差し引いて音源毎の残響抑圧音声信号ｓ’^{（ｘ，ｙ）}（ω）を算出する。

残響抑圧部１０３は、次の処理（ａ）−（ｅ）を予め実行することによって残響成分係数δ_ｂを予め算出し、自部に設定しておく。処理（ａ）−（ｅ）によれば、音声認識精度の低下が極力抑制されるように残響成分係数δ_ｂが算出される。
（ａ）周波数帯域ｂ毎の残響成分係数δ_ｂの初期値として、既知の残響成分Ｘ_Ｌと入力信号成分ｘとの平均二乗誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ）Ｅ_ｍを最小化する残響成分係数δ_{ｂ，ＭＭＳＥ}を定める（ＭＭＳＥ：ＭｉｎｉｍｕｍＭＳＥ）。即ち、ＭＭＳＥは、残響成分Ｘ_Ｌと、周波数帯域ｂ毎に残響成分係数δ_ｂと、入力信号成分ｘを乗じて得られる値の総和との残差の二乗値であるＭＳＥが最小となる残響成分係数δ_{ｂ，ＭＭＳＥ}を算出する手法である。
（ｂ）既知の音韻列のセットｗについて、残響成分係数δ_{ｂ，ＭＭＳＥ}を用いて算出された残響抑圧音声信号ｓ^{δｂ，ＭＭＳＥ}（ω）について尤度を最大化する音響モデルλ_ＭＭＳＥを、音響モデルλの初期値として定める。
（ｃ）残響成分係数δ_ｂを用いて算出される残響抑圧音声信号ｓ’について、音韻列のセットｗと音響モデルλを用いて算出される尤度を最大化する周波数帯域ｂ毎の残響成分係数δ_{ｂ，ｏｐｔ}を算出する。
（ｄ）残響成分係数δ_{ｂ，ｏｐｔ}と音韻列のセットｗについて、尤度を最大化する音響モデルλ_ｏｐｔを与えるモデル変数を定める。
（ｅ）その時点の音響モデルλを算出した音響モデルλ_ｏｐｔに更新し、（ｃ）、（ｄ）の処理を繰り返す。処理の繰り返しは、尤度の最大値の変化量に係る絶対値が所定の変化量の閾値未満に収束するまで行われる。その後、算出された残響成分係数δ_{ｂ，ｏｐｔ}を、残響成分係数δ_ｂとして定める。

上述した処理（ａ）−（ｅ）は、次の文献に詳しく記載されている。
Ｇｏｍｅｚ，Ｒ．ａｎｄＫａｗａｈａｒａ，Ｔ．“Ｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｄｅｒｅｖｅｒｂｅｒａｔｉｏｎｐａｒａｍｅｔｅｒｏｐｔｉｍｉｚａｔｉｏｎｕｓｉｎｇａｃｏｕｓｔｉｃｍｏｄｅｌｌｉｋｅｌｉｈｏｏｄ” ＰｒｏｃｅｅｄｉｎｇｓＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓＳｐｅｅｃｈａｎｄＡｃｏｕｓｔｉｃｓＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１９，Ｎｏ．７，２０１０

なお、残響抑圧部１０３には、音響モデルλを予め設定しておき、残響成分の抑圧と並行して処理（ｃ）、（ｄ）を行ってもよい（オンライン処理）。よって、残響環境の変化に応じて残響成分を抑圧することができる。また、音声認識部１１１が処理（ａ）−（ｅ）によって得られた音響モデルλを音声認識処理に用いてもよい。そのため、残響の影響による音声認識率の低下を抑制することができる。

（調整データ）
次に、調整データについて説明する。図２は、調整データの一例を示す図である。調整データは、Ｍ個の音源位置（ｘ，ｙ）それぞれの調整係数［ｃ（ｘ，ｙ）］を示すデータである。図２の第２行に示す例では、音源位置（ｘ_１，ｙ_１）は、調整係数［ｃ（ｘ_１，ｙ_１）］と対応付けられている。なお、図２に示す例では、ベクトルを示す記号［…］の表記が省略されている。

（音源位置）
次に、調整係数もしくは位置依存音響モデルにそれぞれ対応付けられる音源位置の例について説明する。図３は、音源位置の分布例を示す平面図である。図３に示すように、Ｍ個（図３に示す例では、Ｍ＝２０）の音源位置は部屋の平面全体に分布されている。Ｍ個の音源位置は、等間隔に配列されてもよいし、ランダムに配列されてもよい。

（処理データ生成部）
次に、本実施形態に係る処理データ生成部１４の構成について説明する。処理データ生成部１４は、クリーン音声を用いて予め各音源位置について調整係数［ｃ（ｘ，ｙ）］を算出し、位置依存音響モデルΨ^（ｎ）を生成する（オフライン学習）。
図４は、本実施形態に係る処理データ生成部１４を示すブロック図である。処理データ生成部１４は、残響処理部１４１、特徴量算出部１４２、調整係数算出部１４３、特徴量調整部１４４及びモデル生成部１４５を含んで構成される。なお、クリーン音声データ記憶部１３には、予め学習用音声信号として、例えば、種々の発話内容を示すクリーン音声の音声信号から形成されるクリーン音声データベースを記憶させておく。また、モデル記憶部１０９には、予めクリーン音声音響モデルλ^（ｓ）を記憶させておく。

残響処理部１４１には、各音源位置から所定の位置に設置された収音部１２までのインパルス応答が予め記憶された記憶部を備える。残響処理部１４１は、クリーン音声データ記憶部１３から読み取ったクリーン音声の音声信号に、各音源位置のインパルス応答を畳み込み演算（ｃｏｎｖｏｌｕｔｉｏｎ）し、当該音源位置（ｘ，ｙ）に係る残響付加音声を示す残響付加音声信号を生成する。残響処理部１４１は、生成した残響付加音声信号について、残響抑圧部１０３と同様に残響成分を抑圧して残響抑圧音声信号を生成する。残響処理部１４１は、生成した残響抑圧音声信号を特徴量算出部１４２に出力する。

特徴量算出部１４２は、残響処理部１４１から入力された音源位置（ｘ，ｙ）に係る残響抑圧音声信号について、特徴量算出部１０４（図１）と同様に音響特徴量［ｆ（ｘ，ｙ）］を算出する。特徴量算出部１４２は、算出した音響特徴量［ｆ（ｘ，ｙ）］を調整係数算出部１４３と特徴量調整部１４４に出力する。

調整係数算出部１４３は、特徴量算出部１４２から入力された音源位置（ｘ，ｙ）に係る音響特徴量［ｆ（ｘ，ｙ）］と、モデル記憶部１０９から読み取ったクリーン音声音響モデルλ^（ｓ）に基づいて当該音源位置（ｘ，ｙ）に係る調整係数［ｃ’^{（ｘ，ｙ）}］を算出する。ここで、調整係数算出部１４３は、式（１２）に示すように、当該音響特徴量［ｆ（ｘ，ｙ）］の算出に用いたクリーン音声の発話を示す既知の音韻列のセットｗ及び入力された音響特徴量［ｆ（ｘ，ｙ）］について、クリーン音声音響モデルλ^（ｓ）において可能性がある発話状態列ｑ^（ｓ）のそれぞれについて尤度を算出し、算出した尤度が最大になる発話状態列ｑ’^（ｓ）を選択する。

式（１２）において、Ｑ^（ｓ）は、クリーン音声音響モデルλ^（ｓ）において可能性がある全ての発話状態列ｑ^（ｓ）のセットを示す。ｑ_ｊ ^（ｓ）、ｑ_ｊ―１ ^（ｓ）は、発話状態列ｑ^（ｓ）を形成する個々の発話状態のうち、それぞれｊ番目、ｊ−１番目の発話状態を示す。そして、調整係数算出部１４３は、音響特徴量［ｆ（ｘ，ｙ）］に調整係数［ｃ’^{（ｘ，ｙ）}］を乗じて得られる調整特徴量［ｆ（ｘ，ｙ）］が、選択した発話状態列ｑ’^（ｓ）のもとで、式（４）に示す尤度Ｐ（ｆ（ｘ，ｙ）（［ｃ（ｘ，ｙ）］）｜ｗ）を最大化する調整係数［ｃ^{（ｘ，ｙ）}］を調整係数［ｃ’^{（ｘ，ｙ）}］と定める。尤度Ｐ（［ｆ（ｘ，ｙ）］（［ｃ（ｘ，ｙ）］）｜ｗ）を最大化する調整係数［ｃ^{（ｘ，ｙ）}］を算出する手法については、次の文献に詳しく記載されている。
Ｓｅｌｔｚｅｒ，Ｍ．ａｎｄＳｔｅｒｎ，Ｒ． “Ｓｕｂｂａｎｄｌｉｋｅｌｉｈｏｏｄ−ｍａｘｉｍｉｚｉｎｇｂｅａｍｆｏｒｍｉｎｇｆｏｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｎｒｅｖｅｒｂｅｒａｎｔｅｎｖｉｒｏｎｍｅｎｔｓ”，ＩｎＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１４，Ｎｏ．６，２００６

調整係数算出部１４３は、各音源位置（ｘ，ｙ）と当該音源位置について算出した調整係数［ｃ’^{（ｘ，ｙ）}］とを対応付けて調整データを生成し、生成した調整データを調整データ記憶部１０６に記憶する。また、調整係数算出部１４３は、各音源位置について算出した調整係数［ｃ’^{（ｘ，ｙ）}］を特徴量調整部１４４に出力する。

特徴量調整部１４４は、式（５）に示すように、調整係数算出部１４３から入力された音源位置（ｘ，ｙ）毎の調整係数［ｃ’^{（ｘ，ｙ）}］を、当該音源位置（ｘ，ｙ）に係る音響特徴量［ｆ^{（ｘ，ｙ）}］に乗算して、当該音源位置（ｘ，ｙ）に係る調整特徴量［ｆ’］を算出する。特徴量調整部１４４は、算出した調整特徴量［ｆ’］をモデル生成部１４５に出力する。

モデル生成部１４５は、モデル記憶部１０９から読み取ったクリーン音声音響モデルλ^（ｓ）と特徴量調整部１４４から入力された音源位置（ｘ，ｙ）毎の調整特徴量［ｆ’］とを用いて、当該音源位置（ｘ，ｙ）に係る位置依存音響モデルΨ^（ｎ）を生成する。ｎは、音源位置（ｘ，ｙ）を示すインデックスである。位置依存音響モデルΨ^（ｎ）の生成において、モデル生成部１４５は、与えられた調整特徴量［ｆ’］のそれぞれについて尤度を算出し、尤度が増加（最大化）するように位置依存音響モデルΨ^（ｎ）のモデル変数を更新する。モデル生成部１４５は、モデル変数の更新に伴う尤度の変化量の絶対値が、所定の変化量の閾値よりも小さくなる（収束）までモデル変数の更新を繰り返す。その後、モデル生成部１４５は、音源位置（ｘ，ｙ）と当該音源位置（ｘ，ｙ）に係る位置依存音響モデルΨ^（ｎ）を対応付けてモデル記憶部１０９に記憶する。
ここで、モデル生成部１４５は、各位置依存音響モデルΨ^（ｎ）のモデル変数として、混合重み係数（ｍｉｘｔｕｒｅｗｅｉｇｈｔ）Ｃ_ｉｍ ^（ｎ）、平均値（ｍｅａｎ）［μ_ｉｍ ^（ｎ）］、共分散行列（ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）［Σ_ｉｍ ^（ｎ）］、及び遷移確率（ｔｒａｎｓｉｔｉｏｎｐｒｏｂａｂｉｌｉｔｙ）ａ_ｉｊ ^（ｎ）を、式（１３）−（１６）に示すように算出する。

式（１３）−（１６）において、Ｌ_ｉｍ ^（ｎ）、［ｍ_ｉｍ ^（ｎ）］、［ｖ_ｉｍ ^（ｎ）］は、それぞれ音源位置ｎ毎の状態ｉにおける基底ｍに係る累積混合要素占有度（ａｃｃｕｍｕｌａｔｅｄｍｉｘｔｕｒｅｏｃｃｕｐａｎｃｙ）、平均値（ｍｅａｎ）、分散（ｖａｒｉａｎｃｅ）を示す。また、Ｌ_ｉｊ ^（ｎ）は音源位置ｎ毎の状態ｉからｊへの状態遷移度（ｓｔａｔｅｔｒａｎｓｉｔｉｏｎｏｃｃｕｐａｎｃｙ）、Ｊは遷移先の状態の数を示す。

（音響モデルの更新）
次に、モデル更新部１１０が行う音響モデルの更新に係る処理について説明する。
図５は、本実施形態に係る音響モデル更新処理を示すフローチャートである。
（ステップＳ１０１）モデル更新部１１０は、調整係数乗算部１０８から入力された音源毎の調整特徴量［ｆ’］について、モデル記憶部１０９に記憶されたＭ個の位置依存音響モデルΨ^（ｎ）及びクリーン音声音響モデルλ^（ｓ）のそれぞれについて尤度を算出する。モデル更新部１１０は、位置依存音響モデルΨ^（ｎ）それぞれの尤度からクリーン音声音響モデルλ^（ｓ）の尤度を基準とした相対尤度を算出する。その後、ステップＳ１０２に進む。
（ステップＳ１０２）モデル更新部１１０は、Ｍ個の位置依存音響モデルΨ^（ｎ）のうち、最も相対尤度が高い位置依存音響モデルΨ^（ｎ）からＮ（Ｎは、Ｍよりも小さく１以上の整数、例えば、１２）番目に相対尤度が高い位置依存音響モデルΨ^（ｎ）を選択する。その後、ステップＳ１０３に進む

（ステップＳ１０３）モデル更新部１１０は、選択したＮ個の位置依存音響モデルΨ^（ｎ）のモデル変数と、クリーン音声音響モデルλ^（ｓ）との間で、それぞれのモデル変数を線形結合して新たなモデル変数を算出する。算出されたモデル変数により音源位置ｎに係る新たな位置依存音響モデルλ^{（ｕｐｄ）}が規定される。ここで、モデル更新部１１０は、式（１７）−（２０）に示すように、選択したＮ個の位置依存音響モデルΨ^（ｎ）と、クリーン音声音響モデルλ^（ｓ）との間で、モデル変数として混合重み係数Ｃ_ｉｍ、平均値［μ_ｉｍ］、共分散行列［Σ_ｉｍ］、遷移確率ａ_ｉｊに、音響モデル毎の重み係数γ_ｎをそれぞれ乗算して得られた乗算値の総和をとることにより、新たな混合重み係数Ｃ_ｉｍ ^{（ｕｐｄ）}、平均値［μ_ｉｍ］^{（ｕｐｄ）}、共分散行列［Σ_ｉｍ］^{（ｕｐｄ）}、及び遷移確率ａ_ｉｊ ^{（ｕｐｄ）}を算出する。

式（１７）−（２０）に示す例では、重み係数γ_ｎは、クリーン音声音響モデルλ^（ｓ）に対する重み係数を１として相対化された値である。また、重み係数γ_ｎは、相対尤度が高い位置依存音響モデルΨ^（ｎ）ほど大きい値であり、相対尤度が低い位置依存音響モデルΨ^（ｎ）ほど小さい値である。そのため、新たなモデル変数は、相対尤度が高い位置依存音響モデルΨ^（ｎ）ほど重視して算出される。但し、その他の位置依存音響モデルΨ^（ｎ）の寄与を考慮することにより、音源位置によって異なる残響による影響（例えば、音声認識に寄与する周波数帯域）が相互に補われる。
モデル更新部１１０は、算出した混合重み係数Ｃ_ｉｍ ^{（ｕｐｄ）}、平均値［μ_ｉｍ］^{（ｕｐｄ）}、共分散行列［Σ_ｉｍ］^{（ｕｐｄ）}、遷移確率ａ_ｉｊ ^{（ｕｐｄ）}をモデル変数とする位置依存音響モデルλ^{（ｕｐｄ）}を生成する。その後、ステップＳ１０４に進む。

（ステップＳ１０４）モデル更新部１１０は、生成した位置依存音響モデルλ^{（ｕｐｄ）}を、その音源の音源位置（ｘ，ｙ）に係る位置依存音響モデルΨ^（ｎ）としてモデル記憶部１０９に記憶する。その後、ステップＳ１０５に進む。
（ステップＳ１０５）モデル更新部１１０は、相対尤度が最も低い位置依存音響モデルΨ^（ｎ）を、モデル記憶部１０９から消去する。これにより、位置依存音響モデルΨ^（ｎ）の総数が一定に保たれる。その後、図５に示す処理を終了する。

なお、図５に示す処理において、モデル更新部１１０は、クリーン音声音響モデルλ^（ｓ）を用いずに、Ｎ個の位置依存音響モデルΨ^（ｎ）を用いて新たなモデル変数を算出してもよい。しかし、モデル更新部１１０は、残響による影響を受けずに生成されたクリーン音声音響モデルλ^（ｓ）に係るモデル変数を用いることで、音声信号に含まれる周波数成分の全体を音声認識の手がかりとして利用することができる。また、モデル更新部１１０は、ステップＳ１０５の処理を省略することにより、位置依存音響モデルΨ^（ｎ）の総数の増加を許容してもよい。

（音声処理）
次に、本実施形態に係る音声処理について説明する。図６は、本実施形態に係る音声処理を示すフローチャートである。
（ステップＳ１１１）音源定位部１０１は、収音部１２が取得したＰチャネルの音声信号を用いて音源位置を算出する。その後、ステップＳ１１２に進む。
（ステップＳ１１２）音源分離部１０２は、音源定位部１０１で音源位置を定めた音源数が複数であるか否かを判定する。音源分離部１０２は、音源数が複数である場合、Ｐチャネルの音声信号を、それぞれの音源位置に基づいて音源別音声信号に分離する。音源分離部１０２は、音源数が１個である場合、Ｐチャネルの音声信号のうちのいずれか、例えば、音声レベルの最も高いチャネルの音声信号を当該音源の音源別音声信号と定める。その後、ステップＳ１１３に進む。
（ステップＳ１１３）残響抑圧部１０３は、音源毎の音源別音声信号のそれぞれについて残響成分を抑圧し、残響抑圧音声信号を生成する。その後、ステップＳ１１４に進む。

（ステップＳ１１４）特徴量算出部１０４は、音源毎の残響抑圧音声信号のそれぞれについて音響特徴量を生成する。その後、ステップＳ１１５に進む。
（ステップＳ１１５）調整係数取得部１０７は、調整データ記憶部１０６に記憶された調整データを参照して、音源毎の音源位置に対応した調整係数を取得する。その後、ステップＳ１１６に進む。
（ステップＳ１１６）調整係数乗算部１０８は、音源毎の音響特徴量に、当該音源の音源位置に対応した調整係数を乗算して、当該音源の調整特徴量を算出する。その後、ステップＳ１１７に進む。

（ステップＳ１１７）モデル更新部１１０は、調整係数乗算部１０８で算出された音源毎の調整特徴量についてモデル更新処理（図５）を行う。その後、ステップＳ１１８に進む。
（ステップＳ１１８）音声認識部１１１は、音源毎の調整特徴量について、当該音源について生成した位置依存音響モデルを用いて音韻列を定める。音声認識部１１１は、音源毎に定めた音韻列について所定の言語モデルを用いて認識結果となる文を表す認識データを生成する。その後、図６に示す処理を終了する。

（残響の影響）
次に、残響の影響について説明する。図７は、音声信号のスペクトログラムの例を示す。図７（ａ）、（ｂ）ともに、縦軸、横軸は、それぞれ周波数、時刻を示す。図７（ａ）、（ｂ）において周波数の範囲は０−８ｋＨｚ、期間は０−２．７秒である。また、パワーの大きさが濃淡で表されている。明るい部分ほどパワーが大きく、暗い部分ほどパワーが低いことを示す。
図７（ａ）は、ある話者の発話中において残響下で収録された音声信号のスペクトログラムを示す。図７（ｂ）は、図７（ａ）に示す音声信号について残響抑圧部１０３により生成された残響抑圧音声信号のスペクトログラムを示す。図７（ａ）、（ｂ）を比較すると、図７（ａ）の方が図７（ｂ）よりも全体的にパワーが高く、パワーが高い部分が継続している。特に、図７（ａ）が示す破線で囲まれた周波数帯域及び期間におけるパワーが、図７（ｂ）に示す例では、ほぼ抑圧されている。当該期間においては、発話が停止され、もっぱら残響成分が収録されるためである。

図８は、調整特徴量の分布例を示す図である。図８において、縦軸、横軸は、それぞれ第１主成分の寄与度、第２主成分の寄与度を示す。第１主成分、第２主成分は、ある一定の音源位置（ａ，ｂ）から到来した音声の音声信号について算出した調整特徴量の集合について主成分分析（ＰＣＡ：ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を行って得られた２つの固有ベクトルである。つまり、第１主成分、第２主成分は、音源位置（ａ，ｂ）からの音声信号の調整特徴量の変化を最も説明することができる２つの成分である。第１主成分の寄与度、第２主成分の寄与度は、それぞれ調整特徴量と第１主成分との内積、当該調整特徴量と第２主成分との内積で与えられる。第１主成分の寄与度と第２主成分の寄与度を用いることで、種々の調整特徴量又は音響特徴量の分布が２次元平面上で表される。

図８において、破線で囲まれる部分が音源位置（ａ，ｂ）からの音声信号に基づく調整特徴量の分布Ｄ１を示す。以下の考察では、分布Ｄ１を目標分布とする。これに対し、○印の分布は、モデル更新部１１０による音響モデル更新処理と特徴量調整部１０５による音響特徴量の調整により得られた調整特徴量の分布Ｄ２を示す。▲印の分布は、音響モデル更新処理を行わずに、特徴量調整部１０５による音響特徴量の調整により得られた調整特徴量の分布Ｄ３を示す。□印の分布は、残響抑圧部１０３による残響抑圧も、音響モデル更新も、音響特徴量の調整も行われずに得られた音響特徴量の分布Ｄ４を示す。図８に示す例では、分布Ｄ４が、分布Ｄ１のみならず分布Ｄ２、Ｄ３からも乖離している。分布Ｄ３は、分布Ｄ４よりも分布Ｄ１に近接し、分布Ｄ１の周縁部の一部と重複する。分布Ｄ２は、分布Ｄ３よりも分布Ｄ１に近接し、分布Ｄ１のほぼ半分の領域と重複する。このことは、上述した残響成分の抑圧と音響特徴量の調整により、音響モデルの生成に係る音響特徴量と音声認識処理における音響特徴量との乖離を低減することで音声認識精度が向上することを示す。また、このことは、さらに音響モデル更新処理により当該乖離を低減して音声認識精度が向上することを示す。

以上に説明したように、本実施形態に係る音声処理装置１０は、取得した音声から音源位置を定める音源定位部１０１、音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部１０３、及び残響抑圧音声の音響特徴量を算出する特徴量算出部１０４を備える。また、音声処理装置１０は、音響特徴量に音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部１０５と、前記調整特徴量を用いて音声認識を行う音声認識部１１１を備える。
この構成により、残響成分を抑圧した残響抑圧音声の特徴量に、音源位置に応じた調整係数が乗じられて算出される調整特徴量により音声認識が行われる。残響の影響の音源位置依存性が緩和されるため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

また、音声処理装置１０において、調整係数は、音響特徴量を用いて算出される音韻毎の尤度よりも、当該音響特徴量に当該調整係数を乗じて算出された調整特徴量を用いて算出される尤度のほうが高くなるように予め算出されたことを特徴とする。
この構成により、残響抑圧音声の特徴量に調整係数を乗じた調整特徴量を用いることで、残響抑圧音声の特徴量よりも、音韻毎の尤度を高くすることができる。そのため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

また、音声処理装置１０は、調整特徴量と音源位置毎の位置依存音響モデルを用いて算出した尤度に基づいて所定の数の位置依存音響モデルを選択し、選択した位置依存音響モデルのモデル変数を線形結合して、音源位置に対応する位置依存音響モデルを生成するモデル更新部１１０を備える。また、音声認識部１１１は、モデル更新部１１０が生成した音響モデルを用いて音声認識を行う。
この構成により、音声認識精度を著しく劣化させる尤度が低い位置依存音響モデルの選択が回避され、選択された位置依存音響モデルのモデル変数を線形結合することで、位置依存音響モデルの生成において音源位置間で異なりうる残響の影響を受けない周波数成分が相補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

また、音声処理装置１０において、モデル更新部１１０は、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合して音源定位部１０１が定めた音源位置に対応する位置依存音響モデルを生成する。
この構成により、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合することで、残響の影響を受けない周波数成分が補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

また、音声処理装置１０において、モデル更新部１１０は、モデル更新部１１０は、尤度が所定の尤度よりも低い位置依存音響モデルを除去する。
この構成により、音源位置の変化に応じて尤度が低下しないように位置依存音響モデルが更新されるので、残響下における音源位置の変化による音声認識率の低下を抑制することができる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。第１の実施形態と同一の構成については、同一の符号を付してその説明を援用する。図９は、本実施形態に係る音声処理システム２の構成を示すブロック図である。
音声処理システム２は、音声処理装置１０、収音部１２、動作制御部２７、音声再生部２８及び動作機構部２９を含んで構成される。即ち、音声処理システム２は、音声処理システム１に対して更に動作制御部２７、音声再生部２８及び動作機構部２９を含む。音声処理システム２は、例えば、対話機能を有するロボットとして構成される。
動作制御部２７は、音声処理装置１０の音声認識部１１１において認識された発話に応じた動作を音声再生部２８又は動作機構部２９に実行させる。動作制御部２７は、記憶部２７１、動作判定部２７２及び音声合成部２７３を含んで構成される。

記憶部２７１には、動作データが予め記憶されている。動作データは、予め定めたユーザの発話文を示す認識データと動作機構部２９を制御するための制御変数（パラメータ）を示す制御データとを対応付けて形成されたデータである。例えば、認識データとしてロボットに対する動作（例えば、歩行）を指示するためのデータと、制御データとして当該動作を動作機構部２９が実行するための制御変数（例えば、脚部のモータを駆動するための電力）を表すデータとが対応付けられている。また、動作データには、対話データがある。対話データは、認識データと、制御データとして発話文を示す発話データとを対応付けて形成されたデータである。対話データの例について後述する。

動作判定部２７２は、音声処理装置１０から入力された認識データが示す文の一部又は全部が、一致又は近似する発話文を示す認識データを含んだ動作データを記憶部２７１から検索する。動作判定部２７２は、例えば、入力された認識データが示す文と、発話文との間のハミング距離が所定の距離の閾値よりも小さい発話文を、入力された認識データが示す文と近似する発話文と判定する。動作判定部２７２は、検索した動作データが対話データである場合には、当該対話データを音声合成部２７３に出力する。動作判定部２７２は、検索した動作データが対話データではない場合には、運動制御用の動作データであると判定し、当該動作データを動作機構部２９に出力する。

音声合成部２７３は、動作判定部２７２から入力された対話データのうち発話データが示す発話文についてテキスト音声合成処理を行い、当該発話文を表す発話音声に係る音声信号を生成する。音声合成部２７３は、生成した音声信号を音声再生部２８に出力する。

音声再生部２８は、音声合成部２７３から入力された音声信号に基づいて音声を再生する。音声再生部２８は、例えば、スピーカを含んで構成される。
動作機構部２９は、動作判定部２７２から入力された動作データが示す制御変数に基づいて、所定の動作を実行する。動作機構部２９は、例えば、制御変数として指示された電力の供給を受け、脚部に備えられたモータを駆動することによって歩行を実現する。

（対話データの例）
次に、対話データの例について説明する。図１０は、対話データの例を示す図である。図１０に示す対話データのうち、Ｓｐ１が認識データ、Ｓｐ２が発話データである。Ｓｐ１は、「やあ、昨日寿司屋に行って鮎を出してもらったんだ。鮎って英語で何て言うの？」という文を示す。Ｓｐ１において、下線が付された部分は、他の語句に置換可能な部分であり、入力された認識データとの一致又は近似を判定する際に無視される。図１０においては、Ｓｐ１の「鮎」に代えて、他の日本語の魚の名称に置換可能である。例えば、音声認識部１１１から「やあ、昨日寿司屋に行ってまぐろを出してもらったんだ。まぐろって英語で何て言うの？」を示す認識データが入力された場合を仮定すると、動作判定部２７２は、Ｓｐ１に示す認識データを含む対話データを検索する。そして、動作判定部２７２は、そして、動作判定部２７２は、入力された認識データが示す文のうち、無視した部分である日本語の魚の名称として「鮎」に代えて「まぐろ」を検出する。

Ｓｐ２は、「Ｓｗｅｅｔｆｉｓｈだよ。」という文を示す。Ｓｐ２において、下線が付された部分は、Ｓｐ１について検出された語句に置換される部分である。動作判定部２７２は、検出した「まぐろ」に相当する英語の名称「ｔｕｎａ」を、記憶部２７１に予め記憶されている単語辞書データを参照して特定する。動作判定部２７２は、検索した対話データに含まれるＳｐ２に示す発話データのうち、「Ｓｗｅｅｔｆｉｓｈ」の部分に特定した「ｔｕｎａ」を代入し、代入した発話データを音声合成部２７３に出力する。そして、音声合成部２７３は、「ｔｕｎａだよ」という発話を示す音声信号を合成し、合成した音声信号を音声再生部２８に出力する。

（収音部の配置）
図１１に示す例では、収音部１２は、ロボットＲｔとして構成された音声処理システム２の頭部に配置されたＰ個（図示の例では７個）の収音素子１２−１〜１２−７を含んで構成される。収音素子１２−１〜１２−７は、互いに半径が異なる２つの同心円上に、中心Ｃから互いに異なる方向に配列されている。これにより、平面内のあらゆる方向から到来する音を取得し、音源を特定することができる。一方の円上には、収音素子１２−１、１２−４、１２−７が配列され、他方の円上には、収音素子１２−２、１２−３、１２−５、１２−６が配列されている。

（動作検証）
次に、本実施形態に係る音声処理システム２の動作検証の例について説明する。
動作検証は、４つの実験室１−４のそれぞれにおいて行った。実験室１−４の平面上の大きさは、いずれも４．８ｍ×５．５ｍである。実験室１、２、３、４の残響時間（ＲＴ：ｒｅｖｅｒｂｅｒａｔｉｏｎｔｉｍｅ）は、それぞれ８０ｍｓ、２４０ｍｓ、９００ｍｓ、９４０ｍｓである。実験室１−４には、それぞれ空調装置、電子計算機が設置され、各々背景雑音の原因となるが、いずれも信号対雑音比は約２０ｄＢである。
図１２は、実験室４の平面図である。図１２に示すように、各実験室には、７点の音源位置Ｔ１−Ｔ７を設定した。実験室１−４間において、ロボットＲｔとして構成された音声処理システム２と音源位置Ｔ１−Ｔ７との位置関係は同様である。音源位置Ｔ１−Ｔ７の順にロボットＲｔまでの距離が大きい。そのうち、音源位置Ｔ１からの距離が最も小さく、音源位置Ｔ７からの距離が最も大きい。なお、ロボットＲｔは、自由度が２０である人型の２足歩行ロボットである。また、実験室４には、図１２に示すようにテーブルＴｂ１、Ｔｂ２、ソファＳｆ１、Ｓｆ２、白板Ｗｂ及び冷蔵庫Ｒｆなどの備品が設置されていた。これらの備品は、音源位置Ｔ１−Ｔ７とロボットＲｔとの間で伝搬する音声が遮蔽されない位置に配置されていた。

調整データ、位置依存音響モデルΨ^（ｎ）の生成に用いたクリーン音声データベースとして日本語、英語それぞれの言語の新聞記事読み上げ音声コーパスを用いた。具体的には、日本語新聞記事文（ＪＮＡＳ：ＪａｐａｎｅｓｅＮｅｗｓｐａｐｅｒＡｒｔｉｃｌｅＳｅｎｔｅｎｃｅｓ）コーパスと、ワールドストリートジャーナル（ＷｏｒｌｄＳｔｒｅｅｔＪｏｕｒｎａｌ）コーパスである。

本動作検証では、自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）、音声言語理解（ＳＬＵ：ＳｐｏｋｅｎＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）の両面について実験を行った。自動音声認識に係る実験は、１０名の日本語の母語話者と１０名の英語の母語話者に対し、音源位置Ｔ１−Ｔ７のいずれかにおいて各自２０回ずつ発話させた。発話内容は、予め原稿として用意された一定の内容である。なお、（１）連続音声認識については話者の位置をロボットＲｔに近接させて実行させたのに対し、（２）単語検出ならびに発話検出（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）については話者の位置をロボットＲｔから遠ざけて実行させた。自動音声認識では、例えば、挿入誤り（ｉｎｓｅｒｔｉｏｎｅｒｒｏｒ）、削除誤り（ｄｅｌｅｔｉｏｎｅｒｒｏｒ）の発生の有無が検証される。挿入誤りとは、発話されていない音韻が挿入される認識誤りである。削除誤りとは、発話された音韻が無視される認識誤りである。

音声言語理解に係る実験では、音声認識処理によって得られた文のうち、ロボットＲｔとして構成された音声処理システム２として無意味な情報を無視し、意味のある情報を抽出する性能を検証した。実験は、寿司屋で行われる会話を例にして行った。この例では、話者に対し、音声処理システム２に対して代表的な日本料理である寿司又は刺身に用いられる種々の魚に関する質問を発話させた。音声処理システム２には、例えば、図１０に示す対話データを用いることにより、任意の位置で発された残響付加音声を用いて魚の名称を特定させた。従って、音声処理システム２は、音声認識処理により発話内容を認識し、認識した日本語又は英語の魚の名称を、それぞれ英語又は日本語の魚の名称に翻訳した。発話させた質問の形式は自由形式である。即ち、話者には自由に質問を行わせ、音声処理システム２に対して質問内容から魚の名称を抽出させた。但し、話者間で質問内容を統一するために、予め作成した原稿を用いた。質問形式は、原稿の内容に盛り込まれている。

本動作検証では、次の内容を含む対話シナリオが用いられた。
（ａ）音声処理システム２に対して、話者に日本語又は英語の質問を理解させる。
（ｂ）連続音声認識に関する実験と単純な発話検出に関する実験（後述）とを、音声処理システム２と話者との距離に応じて実施し分ける。
（ｃ）発話検出において、音声処理システム２に近づいて確認のための質問を話者にさせて、音声を検出させる。
（ｄ）連続音声認識において、魚の名称を音声処理システム２に翻訳させる。
（ｅ）音源である話者との距離に応じて、発話データに基づいて再生した音声の音量を音声処理システム２に制御させる。音声再生部２８は、再生される音声信号のパワーが距離の二乗に比例するようにその音量を制御する。

次に、本動作検証の結果について説明する。本動作検証は、次の方法Ａ−Ｅを用いて行った。方法Ａは、音声処理システム２の残響抑圧部１０３において残響成分の抑圧を行い、モデル更新部１１０による音響モデル更新処理と特徴量調整部１０５による音響特徴量の調整を行わない方法である。方法Ｂは、残響抑圧部１０３において残響成分の抑圧を行い、予めＭＬＬＲ（ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ）適応を行って生成した音響モデルを用いて音声認識を行う方法である。ＭＬＬＲ適応では、音源位置Ｔ１−Ｔ７のそれぞれにおいて、話者に対して尤度が最大になるように音響モデルが生成される。従って、検証結果の考察において、方法Ｂによる結果を理想的な状態による結果であるものとして扱う。方法Ｃ（本実施形態に係る方法）は、残響抑圧部１０３において残響成分の抑圧を行い、モデル更新部１１０による音響モデル更新処理と特徴量調整部１０５による音響特徴量の調整を行って音声認識を行う方法である。方法Ｄ（従来方法）は、線形予測（ＬＰ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）に基づいて残響成分を抑圧して音声認識を行う方法である。方法Ｅは、残響成分の除去、音響モデル更新処理、音響特徴量の調整、いずれも行わずに音声認識を行う方法である。

（連続音声認識）
図１３は、連続音声認識の実験結果を示す図である。図１３に示す実験結果は、実験室１−４のそれぞれで得られた実験結果が総合されている。図１３では、方法Ａ、Ｂ、Ｃ、Ｄ、Ｅによる結果を、それぞれ記号△、◇、□、×、〇で示す。図１３（ａ）において、縦軸、横軸は、それぞれ単語正解率（ＷｏｒｄＡｃｃｕｒａｃｙ）、音源位置Ｔ１−Ｔ７を示す。図１３（ｂ）において、縦軸、横軸は、それぞれコマンド正解率（ＵｎｄｅｒｓｔｏｏｄＣｏｍｍａｎｄ）、音源位置Ｔ１−Ｔ７を示す。図１３（ａ）、（ｂ）の上辺には、音声処理システム２と各音源位置との間の距離が、「個人距離（ｐｅｒｓｏｎａｌｄｉｓｔａｎｃｅ）」、「社会距離（ｓｏｃｉａｌｄｉｓｔａｎｃｅ）」、「公共距離（ｐｕｂｌｉｃｄｉｓｔａｎｃｅ）」に属するかが示されている。これら３つの分類は、対人コミュニケーションにおける典型的な話者間距離の分類である。「個人距離」とは、話者の一方が手を伸ばせば他方に届く距離である。「社会距離」とは、話者間で互いに意思疎通が可能であるが詳細な表情を認識できない距離である。「公共距離」とは、意思疎通が成立しない距離である。そのうち、「個人距離」が最も距離が小さく、「公共距離」が最も距離が大きい。

図１３に示す結果より、単語正解率、コマンド正解率ともに方法Ｂ、Ｃ、Ａ、Ｄ、Ｅの順に高く、音源位置Ｔ１−Ｔ７の順に高い。単語正解率、コマンド正解率、方法Ｂについて最も高く、本実施形態に係る方法Ｃについて、その次に高い。
特に音源位置Ｔ５−Ｔ７において、方法Ｃについての単語正解率、コマンド正解率は、従来から残響抑圧方法としてしばしば用いられた方法Ｄよりも顕著に高い。また、方法Ｃについての単語正解率、コマンド正解率が、方法Ａよりも高いことは、モデル更新部１１０による音響モデル更新処理と特徴量調整部１０５による音響特徴量の調整による音声認識精度の低下の抑制を裏付ける。なお、方法Ｂ、Ｃ間において、音源位置Ｔ１、Ｔ２においては単語正解率、コマンド正解率ともに有意差がない。このことは、話者と音声処理システム２との間の距離が、親密な意思疎通な可能な「個人距離」に属する場合には、方法Ｃにおいて音声認識精度の低下がほとんど生じないことを示す。また、方法Ｂ、Ｃ間において音源位置Ｔ３−Ｔ７について、単語正解率、コマンド正解率ともに有意差が認められる。その原因として、方法Ｂにおいて音響モデルを生成する際に用いた話者毎の発話回数が３０回と、方法Ｃにおける発話回数（２０回）よりも多いことが考えられる。なお、方法Ｂのように予め音源位置毎に音響モデルを学習しておく方法は、話者の自由な移動や残響環境の変化には適応することができない。

なお、方法Ｃでは、「個人距離」又は「社会距離」に属する話者の位置である音源位置Ｔ１−Ｔ４のいずれについても単語認識率が９０％となる。このことは、残響下における連続音声認識として有用であることを示す。他方、「公共距離」に属する音源位置Ｔ５−Ｔ７では、単語認識率が７５％以下となり、残響下における連続音声認識としては有用ではない。しかしながら、かかる距離のもとでは意思疎通が成立しないことを鑑み、音声処理システム２は少なくても話者が発話した音声を検出できればよいと考えられる。

（音声検出）
音声処理装置１０は、音源毎の音源別音声信号について音声検出処理を行う音声検出部（図示せず）を備えてもよい。音声検出部は、例えば、所定の時間間隔（例えば、５０ｍｓ）で音源別音声信号の零交差点（ｚｅｒｏｃｒｏｓｓｉｎｇ）を計数し、零交差点が所定範囲内（例えば、２００〜５００回／秒）で、かつ音源別音声信号の強度が所定の強度の閾値を超える場合に、音声を検出したと判定し、それ以外の場合に音声を検出しないと判定する。また、音声認識部１１１は、推定された距離が所定の距離の閾値（例えば、２ｍ）を超える音源に係る音源別音声信号について音声認識に係る処理を停止し、距離が所定の距離の閾値以内の音源に係る音源別音声信号について音声認識に係る処理を実行してもよい。

図１４は、音声検出率を示す図である。図１４に示す音声検出率は、音源位置Ｔ１―Ｔ７のそれぞれについての音声検出率である。音声検出率は、音源位置Ｔ１−Ｔ４のいずれも１００％であり、音源位置Ｔ５−Ｔ７の順に低くなるが、いずれも９７％以上となり、実用上十分な音声検出率である。従って、音声処理システム２を装着したロボットＲｔと話者との距離が「個人距離」又は「社会距離」の範囲内に近接した場合には、音声処理システム２は、音声認識に係る処理を再開し、話者との間で対話を再開することができる。

（従来方法との比較）
次に、本実施形態に係る音声処理システム２による単語認識率と、従来の残響抑圧方法により残響成分を抑圧した音声信号についての単語認識率とを比較する。図１５は、各方式による単語認識率を示す図である。図１５の各行に方法を示し、各列に実験室を示す。方法Ａ−Ｊのうち、方法Ｊは本実施形態に係る処理である。結果の比較においては、音声認識に係る処理としてウェブサイト“ＲｅｖｅｒｂＣｈａｌｌｅｎｇｅ”（ｈｔｔｐ：／／ｒｅｖｅｒｂ２０１４．ｄｅｒｅｖｅｒｂｅｒａｔｉｏｎ．ｃｏｍ）に記載の方法を共通に用い、残響抑圧方法ならびに音響モデルの更新処理の差異に注目した。また、残響の影響は、音源からの距離が大きいほど顕著であるため、音声処理システム２までの距離が小さい音源位置Ｔ１、Ｔ２に係るデータを無視した。

本実施形態に係る方法Ｊについて、実験室１、２、３のそれぞれにおける単語認識率は、９４．３％、９１．１％、９０．２％となった。これらの単語認識率は、他の方法Ａ−Ｉのいずれに係る単語認識率よりも高い。従って、本実施形態において、残響成分を抑圧するだけではなく、音響特徴量を調整し、音響モデルを更新することにより、音声認識精度の低下が抑制されることが裏付けられる。

なお、方法Ａは、次の文献に記載されている方法のうち、ＣＭＬＬＲ（ＣｏｎｓｔｒａｉｎｅｄＭＬＬＲ）を採用した方法であり、方法Ｂは、ＣＭＬＬＲを採用していない方法（ＮｏＣＭＬＬＲ）である。
Ａｓｔｕｄｉｌｌｏ，Ｒ．，Ｂｒａｕｎ，Ｓ．ａｎｄＨａｂｅｔｓ，Ｅ．“Ａｍｕｌｔｉｃｈａｎｎｅｌｆｅａｔｕｒｅｃｏｍｐａｒｉｓｏｎａｐｐｒｏａｃｈｆｏｒｒｏｂｕｓｔａｓｒｉｎｎｏｉｓｙａｎｄｒｅｖｅｒｂｅｒａｎｔｅｎｖｉｒｏｎｍｅｎｔｓ” ＷｏｒｋｓｈｏｐｏｎＲｅｖｅｒｂＣｈａｌｌｅｎｇｅ，２０１４
方法Ｃは、次の文献に記載されている方法であり、図１３の方法Ｂに相当する。
Ｙｅｇｎａｎａｒａｙａｎａ，Ｂ．ａｎｄＳａｔｙａｒａｎｙａｒａｎａ，Ｐ．“Ｅｎｈａｎｃｅｍｅｎｔｏｆｒｅｖｅｒｂｅｒａｎｔｓｐｅｅｃｈｕｓｉｎｇｌｐｒｅｓｉｄｕａｌｓｉｇｎａｌｓ” ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，２０００
方法Ｄは、次の文献に記載されている方法である。
Ｐａｌｏｍｌｋｉ，Ｋ．ａｎｄＫａｌｌａｓｊｏｋｉ，Ｈ．“Ｒｅｖｅｂｅｒａｔｉｏｎｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｂｙｍａｔｃｈｉｎｇｄｉｓｔｒｉｂｕｔｉｏｎｓｏｆｓｐｅｃｔｒａｌｌｙａｎｄｔｅｍｐｏｒａｌｌｙｄｅｃｏｒｒｅｌａｔｅｄｆｅａｔｕｒｅｓ”，ＰｒｏｃｅｅｄｉｎｇｓＷｏｒｋｓｈｏｐｏｎＲｅｖｅｒｂＣｈａｌｌｅｎｇｅ，２０１４
方法Ｅは、次の文献に記載されている方法である。
Ｇｒｉｅｂｅｌ，Ｓ．ａｎｄＢｒａｎｄｓｔｅｉｎ，Ｍ．“Ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍｅｘｔｒｅｍａｃｌｕｓｔｅｒｉｎｇｆｏｒｍｕｌｔｉ−ｃｈａｎｎｅｌｓｐｅｅｃｈｄｅｒｅｖｅｂｅｒａｔｉｏｎ”，ＰｒｏｃｅｅｄｉｎｇｓＷｏｒｋｓｈｏｐｏｎＲｅｖｅｒｂＣｈａｌｌｅｎｇｅ，２０１４

方法Ｆは、次の文献に記載されている方法のうち、ＣＭＬＬＲ（ＣｏｎｓｔｒａｉｎｅｄＭＬＬＲ）を採用した方法であり、方法Ｇは、ＣＭＬＬＲを採用していない方法（ＮｏＣＭＬＬＲ）である。
Ｌｅｎｇ，Ｔ．，Ｄｅｎｎｉｓ，Ｊ．，Ｎｇ，Ｗ．ａｎｄＤａｔ，Ｔ．“Ｐｂｆ−ｇｓｃｂｅａｍｆｏｒｍｉｎｇｆｏｒａｓｒａｎｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｉｎｒｅｖｅｒｂｅｒａｎｔｅｎｖｉｒｏｎｍｅｎｔｓ”，ＰｒｏｃｅｅｄｉｎｇｓＷｏｒｋｓｈｏｐｏｎＲｅｖｅｒｂＣｈａｌｌｅｎｇｅ，２０１４
方法Ｈは、次の文献に記載されている方法である。
Ｘｉａｏ，Ｘ．，Ｓｈｅｎｇｋｕｉ，Ｚ．，Ｎｇｕｙｅｎ，Ｄ．ａｎｄＸｉｏｎｇｈｕ，Ｚ． “Ｔｈｅｎｔｕ−ａｄｓｃｓｙｓｔｅｍｓｆｏｒｒｅｖｅｒｂｅｒａｔｉｏｎｃｈａｌｌｅｎｇｅ２０１４”，ＰｒｏｃｅｅｄｉｎｇｓＷｏｒｋｓｈｏｐｏｎＲｅｖｅｒｂＣｈａｌｌｅｎｇｅ，２０１４
方法Ｉは、次の文献に記載されている方法である。
Ｇｅｉｇｅｒ，Ｊ．，Ｍａｒｃｈｉ，Ｅ．，Ｓｃｈｕｌｌｅｒ，Ｂ．ａｎｄＲｉｇｏｌｌ，Ｇ．“Ｔｈｅｔｕｍｓｙｓｔｅｍｆｏｒｔｈｅｒｅｖｅｒｂｃｈａｌｌｅｎｇｅ：Ｒｅｃｏｇｎｉｔｉｏｎｏｆｒｅｖｅｂｅｒａｔｅｄｓｐｅｅｃｈｕｓｉｎｇｍｕｌｔｉ−ｃｈａｎｎｅｌｃｏｒｒｅｌａｔｉｏｎｓｈａｐｉｎｇｄｅｒｅｖｅｂｅｒａｔｉｏｎａｎｄｂｌｓｔｍｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ”，ＰｒｏｃｅｅｄｉｎｇｓＷｏｒｋｓｈｏｐｏｎＲｅｖｅｒｂＣｈａｌｌｅｎｇｅ，２０１４

以上に説明したように、音声処理装置１０によれば、残響下における音源位置の変化による音声認識率の低下を抑制することができる。また、本実施形態に係る音声処理システム２は、音声認識部１１１が認識した発話に応じた動作を実行する動作制御部２７、を備える。
そのため、音声認識部１１１が認識した発話に応じた動作が実行されるので、残響下における音源位置の変化に関わらず、ユーザ所望の動作が発話を通じてより確実に指示される。

（第３の実施形態）
次に、本発明の第３の実施形態について説明する。上述の実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図１６は、本実施形態に係る音声処理システム１Ａの構成を示すブロック図である。
本実施形態に係る音声処理システム１Ａは、収音部１２及び音声処理装置１０Ａを含んで構成される。音声処理装置１０Ａは、音源定位部１０１、音源分離部１０２、残響抑圧部１０３Ａ、特徴量算出部１０４Ａ、モデル記憶部１０９Ａ、音声認識部１１１Ａ及び残響成分データ記憶部１１２Ａを含んで構成される。

残響成分データ記憶部１１２Ａには、音響環境毎に複数セットの残響成分データを予め記憶しておく。残響成分データは、各周波数帯域ｂの残響成分係数δ_ｂからなるセットを示すデータであり、一般に音響環境に依存する。音響環境は、室内の残響特性、音源位置（ｘ，ｙ）などによる残響特性に影響する音響環境の変動要素（ａｃｏｕｓｔｉｃｐｅｒｔｕｒｂａｔｉｏｎ）を意味する。残響特性は、例えば、室内伝達関数（ＲＴＦ：ＲｏｏｍＴｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）で表される。残響成分データをオフラインで生成する処理データ生成部１４Ａについては、後述する。以下の説明では、音響環境が音源位置と部屋の組である場合を例にする。残響成分データ記憶部１１２Ａに記憶される残響成分データに係る音源位置の個数は、複数（例えば、１５個）である。また、部屋の数も、一般に複数（例えば、４個）である。以下の説明では、音響環境ξ毎のセットのそれぞれを、ｚを用いて区別する。音響環境ξ毎のセットの数をＺ（Ｚは、１以上の整数、例えば、１５）で表す。

残響抑圧部１０３Ａは、音源分離部１０２から入力された音源毎の音源別音声信号についてセットｚ毎の残響成分データを用いてそれぞれ残響抑圧処理を行うことにより残響抑圧音声信号を生成する。残響抑圧部１０３Ａは、残響抑圧処理において、例えば、式（２１）を用いて残響抑圧音声信号を生成する。

式（２１）において、ｅ’（ω，ｊ）、ｒ（ω，ｊ）は、それぞれ残響抑圧音声信号、音源別音声信号のフレームｊにおける周波数成分を示す。この音源別音声信号は、その音源位置に応じた残響が付加された音声信号である残響付加音声信号に相当する。式（２１）の右辺第１行第２項は、残響成分、具体的には後期反射成分を示す。従って、式（２１）の右辺第１行は、音源別音声信号の周波数成分からセットｚ毎の残響成分を差し引いて残響抑圧音声信号の周波数成分を生成することを意味する。また、βは、０よりも大きいが１よりも０に近似する微小な実数である。従って、式（２１）の右辺第２行は、右辺第１行によって得られた値が０以下の場合（その他の場合）において、残響抑圧音声信号の周波数成分として音源別音声信号の周波数成分に微小な正の実数値を乗じて得られる値を算出することを意味する。これにより、残響抑圧処理における異常な値の発生を回避する。残響抑圧部１０３Ａは、セットｚ毎に生成した残響抑圧音声信号を特徴量算出部１０４Ａに出力する。

特徴量算出部１０４Ａは、残響抑圧部１０３Ａから入力されたセットｚ毎の残響抑圧音声信号について、所定の期間（つまり、フレーム）毎に音響特徴量を算出する。特徴量算出部１０４Ａが算出する音響特徴量は、上述した実施形態に係る特徴量算出部１０４（図１）が算出する音響特徴量と同じ種類の音響特徴量であってもよい。特徴量算出部１０４Ａは、セットｚ毎に算出した音響特徴量を音声認識部１１１Ａに出力する。

モデル記憶部１０９Ａには、音声認識に用いられる音響モデルと言語モデルが予め記憶されている。モデル記憶部１０９Ａに記憶される音響モデルの個数は少なくとも１個あれば足りる。

音声認識部１１１Ａは、特徴量算出部１０４Ａから入力されたセットｚ毎の音響特徴量について音声認識に係る処理を行う。ここで、音声認識部１１１Ａは、セットｚ毎にモデル記憶部１０９Ａに記憶された音響モデルを参照して、入力された音響特徴量からなる音響特徴量列から与えられる発話状態列について尤度を算出する。音声認識部１１１Ａは、式（２２）に示すように、セットｚ毎に算出した尤度のうち最も高い尤度を与えるセットｚ’に係る発話状態列を選択する。

式（２２）において、Ｐ（ｆ^（ｒ）（α（ω，ｚ））｜ｗ）は、セットｚに係る残響抑圧音声信号から得られた音響特徴量列から与えられる発話状態列についての尤度を示す。ｆ^（ｒ）（α（ω，ｚ））は、セットｚに係る残響抑圧音声信号から得られた音響特徴量を示す。α（ω，ｚ）は、セットｚに係る音響環境ξについて算出した補正係数（ｔｅｍｐｏｒａｌｓｍｅａｒｉｎｇｆｉｌｔｅｒ）［α］の周波数成分（後述）を示す。ｗは、算出した発話状態列に対応する音韻列を示す。音声認識部１１１Ａは、選択した発話状態列に対応する音韻列を特定し、特定した音韻列のうちモデル記憶部１０９Ａに記憶された言語モデルに基づいて、それらの音韻列で表される文の候補毎の尤度を算出し、尤度が最も高い文を表す認識データを音声処理装置１０Ａの外部、例えば、動作制御部（図９）に出力する。

このように、音声処理装置１０Ａによれば、音源位置や部屋の残響特性などの音響環境ξに応じて異なるセット毎の残響成分データを用いて残響成分が抑圧された残響成分音声信号が得られる。そして、セット毎に得られた残響成分音声信号から算出された音響特徴量からなる音響特徴量列に対応する発話状態列のうち尤度が最も高い発話状態列に対応する音韻列が特定される。そのため、音響環境ξによる残響の影響の差異による音声認識精度の低下が抑制される。
なお、本実施形態では、音声処理システム２（図９）において、音声処理装置１０に代えて音声処理装置１０Ａを含んで音声処理システム２Ａ（図示せず）を構成してもよい。

（処理データ生成部）
次に、本実施形態に係る処理データ生成部１４Ａの構成について説明する。処理データ生成部１４Ａは、音響環境ξ毎に収録した音声信号を用いて補正係数［α］を算出し、算出した補正係数［α］と所定の残響伝達関数に基づいて予め残響成分データを生成しておく（オフライン処理）。
図１７は、本実施形態に係る処理データ生成部１４Ａを示すブロック図である。処理データ生成部１４Ａは、補正係数算出部１４６Ａ及び残響成分データ生成部１４７Ａを含んで構成される。処理データ生成部１４Ａは、音声データ記憶部１５を含んで構成されてもよい。音声データ記憶部１５には、収音部１２を介して音響環境ξ毎に収録した残響付加音声信号が記憶される。記憶される残響付加音声信号は、音響環境ξ間で共通の所定の発話内容を表す音韻列を与える。

補正係数算出部１４６Ａは、音響環境ξ毎の残響付加音声信号ｒを音声データ記憶部１５から取得し、取得した残響付加音声信号から算出される尤度をより高くする補正係数［α］を再帰的にＺセット算出する。一般的に、音響特徴量からなる１つの音響特徴量列について音響モデルを用いて特定可能な発話状態列は、複数個存在しうる。具体的には、補正係数算出部１４６Ａは、次に説明する処理を行う。

補正係数算出部１４６Ａは、残響付加音声信号ｒについてセットｚ毎の補正係数［α］を用いて所定のフィルタ処理を行い、補正音声信号ｏを生成する。所定のフィルタ処理は、例えば、式（２３）に示す畳み込み演算である。

式（２３）において、ｎ、ｍは、それぞれ残響付加音声信号ｒ、補正音声信号ｏの各サンプルを示すインデックスである。ｍは、０からＭ−１のいずれかの整数を示す。Ｍは、フィルタ長、即ち補正係数［α］の要素数を示す。Ｍは、ＲＴＦを表現するために十分な数であればよい。即ち、Ｍは、残響時間に相当するサンプル数と同等かそのサンプル数よりも多ければよい。α_ｍは、補正係数［α］の要素値を示す。つまり、補正係数［α］は、［α_０，α_１，…，α_Ｍ−１］^Ｔと表されるベクトルである。

補正係数算出部１４６Ａは、セット毎に生成された補正音声信号ｏについて特徴量算出部１０４Ａと同様に音響特徴量ｆ^（ｏ）（［α］）を算出する。
補正係数算出部１４６Ａは、セット毎に算出した音響特徴量ｆ^（ｏ）（［α］）からなる音響特徴量列について、式（２４）に示す尤度Γ（［α］）をより高くする補正係数［α］を算出する。

式（２４）において、Ｐ（ｆ_ｊ ^（ｏ）（［α］）｜ｓ_ｊ’）は、フレームｊにおける音響特徴量ｆ_ｊ ^（ｏ）（［α］）についてモデル記憶部１０９Ａに記憶された音響モデルと同一の音響モデルに基づいて発話状態ｓ_ｊを与える出力確率である。発話状態ｓ_ｊは、所定の音韻列ｗに対応する発話状態列を構成する発話状態である。式（２４）は、尤度Γ（［α］）が、これらの出現確率の対数値のフレームｊ間の総和で与えられることを示す。
式（２４）に示す尤度Γ（［α］）をより大きくすることは、式（２５）で表される所定の音韻列ｗに係る尤度ｌｏｇＰ（ｆ_ｊ ^（ｏ）（［α］）｜ｗ）を最大化するための１つの要件である。

これにより、オンラインの音声認識処理において式（２６）で与えられる尤度ｌｏｇＰ（ｆ^（ｏ）（［α’］）｜ｗ）Ｐ（ｗ）が最も高い音韻列ｗ’が、正しい認識結果として得られることが期待される。

補正係数算出部１４６Ａは、補正係数［α］を算出する際、例えば、最急勾配法を用いる。最急勾配法は、指標値として尤度Γ（α）の補正係数［α］の各要素値で張られるベクトル空間における勾配∇_［α］Γ（［α］）に比例した更新量を算出し、算出した更新量を補正係数［α］に加算する処理を逐次に繰り返す手法である。勾配∇_［α］Γ（［α］）は、式（２７）に示すように、尤度Γ（α）の各要素値についての偏微分を要素値として有するベクトルである。

尤度Γ（α）の算出に用いられる音響モデルは、例えば、ＧＭＭに基づくＨＭＭである。ＧＭＭは、基底として音響特徴量の正規分布を重みづけ加算して発話状態の出力確率を表す統計モデルである。従って、勾配∇_［α］Γ（［α］）は、式（２８）で表される。

式（２８）において、ｖは、基底を示すインデックスである。Ｖは、音響モデルを表すために用いられる基底の個数を示す。γ_ｊｖ、Σ_ｊｖ、μ_ｊｖは、それぞれ発話状態のフレームｊに係る基底ｖの混合重み係数、共分散行列、平均値を示す。∂ｆ_ｊ ^（ｏ）（［α］）／∂［α］は、音響特徴量ｆ_ｊ ^（ｏ）（［α］）の補正係数［α］に対するヤコビ行列である。式（２８）に示すように勾配∇_［α］Γ（［α］）は、音響特徴量ｆ_ｊ ^（ｏ）（［α］）から平均値μ_ｊｖの差分に、逆行列Σ_ｊｖ ^−１、ヤコビ行列及び混合重み係数を乗じて得られるγ_ｊｖの総和となる。これは、音響モデルの基底として用いられる正規分布を音響特徴量で微分して得られる導関数が、その正規分布に逆行列Σ_ｊｖ ^−１を乗算して得られる行列となるためである。このように、補正係数算出部１４６Ａは、補正係数［α］の更新量を基底間の積和演算により算出することができる。そのため、更新量の算出に要する計算量は比較的少ない。

補正係数算出部１４６Ａは、補正係数［α］が所定の値に収束するまで更新量の算出と、算出した更新量に基づく補正係数［α］の更新を繰り返す。補正係数算出部１４６Ａは、更新量の絶対値が所定の絶対値の閾値以下となったとき、補正係数［α］が収束したと判定し、更新量の絶対値が所定の絶対値を超えるとき、補正係数［α］が収束していないと判定する。
補正係数算出部１４６Ａは、収束したと判定した補正係数［α］のうち、尤度Γ（［α］）が最も高い発話状態列に対応するものからＺ番目に高い発話状態列までのそれぞれに対応するものを選択する。補正係数算出部１４６Ａは、Ｚセットの補正係数［α］を残響成分データ生成部１４７Ａに出力する。

残響成分データ生成部１４７Ａは、所定のＲＴＦについて補正係数算出部１４６Ａから入力されたセットｚ毎の補正係数［α］を用いて所定のフィルタ処理を行って補正ＲＴＦを算出する。このフィルタ処理は、所定のＲＴＦの周波数成分Ａ（ω，ｚ）に補正係数α（ω，ｚ）の周波数成分を乗じて補正ＲＴＦの周波数成分Ａ’（ω，ｚ）を算出する処理と等価である。所定のＲＴＦは、例えば、セットｚの音響環境ξに係る部屋のある一点において測定されたＲＴＦである。

残響成分データ生成部１４７Ａは、クリーン音声データ記憶部１３からクリーン音声信号ｃを取得し、取得したクリーン音声信号ｃとセットｚ毎に算出した補正ＲＴＦに基づいてセットｚの残響成分係数δ_ｂを算出する。具体的には、残響成分データ生成部１４７は、次の処理を行うことにより残響成分係数δ_ｂを算出する。

残響成分データ生成部１４７Ａは、クリーン音声信号の周波数成分ｃ（ω，ｊ）に補正ＲＴＦの周波数成分Ａ’（ω，ｚ）を乗じて、セットｚの残響付加音声信号の周波数成分ｒ（ω，ｊ）を算出する。残響成分データ生成部１４７Ａは、補正ＲＴＦのうち、音声認識精度の低下原因となる後期反射成分の周波数成分Ａ^Ｌ（ω，ｚ）を算出する。ここで、補正ＲＴＦが初期反射成分と後期反射成分との和からなるとの仮定のもとで、残響成分データ生成部１４７Ａは、クリーン音声信号の周波数成分ｃ（ω，ｊ）に後期反射成分の周波数成分Ａ^Ｌ（ω，ｚ）を乗じて後期反射音声信号の周波数成分ｌ（ω，ｊ）を算出する。従って、残響付加音声信号の周波数成分ｒ（ω，ｊ）から後期反射音声信号の周波数成分ｌ（ω，ｊ）を差し引いて得られた残響抑圧音声信号の周波数成分ｅ（ω，ｊ）は、初期反射音声信号の周波数成分に相当する。

次に、残響成分データ生成部１４７Ａは、式（２９）に示すように後記反射音声信号の周波数成分ｌ（ω，ｊ）から、残響成分係数δ_ｂと残響付加音声信号の周波数成分ｒ（ω，ｊ）を乗じて得られる値の残差の二乗値の総和である平均二乗誤差Ｅ_ｍを算出する。残響成分係数δ_ｂは、後記反射音声信号の周波数成分ｌ（ω，ｊ）の残響付加音声信号の周波数成分ｒ（ω，ｊ）に対する寄与率を示す。

式（２９）において、Ｊは、平均二乗誤差Ｅ_ｍを算出する範囲内における総フレーム数を示す。Ｂ_ｑは、所定のＱ個の周波数帯域のいずれかを示す。
残響成分データ生成部１４７Ａは、各セットｚについて平均二乗誤差Ｅ_ｍを最小化するようにＱ個の周波数帯域のそれぞれに対する残響成分係数δ_ｂを算出する。残響成分データ生成部１４７Ａは、各セットｚについて算出した残響成分係数δ_ｂを示す残響成分データを生成し、生成した残響成分データを残響成分データ記憶部１１２Ａに記憶する。

（残響成分データ生成処理）
次に、本実施形態に係る残響成分データ生成処理（オフライン処理）について説明する。
図１８は、本実施形態に係る残響成分データ生成処理を示すフローチャートである。
（ステップＳ１２１）補正係数算出部１４６Ａは、音響環境ξ毎の残響付加音声信号ｒについて、セットｚ毎に算出した補正係数［α］を用いた所定のフィルタ処理を行って補正音声信号ｏを生成する。補正係数算出部１４６Ａは、生成した補正音声信号ｏについて音響特徴量ｆ^（ｏ）（［α］）を算出する。その後、ステップＳ１２２に進む。
（ステップＳ１２２）補正係数算出部１４６Ａは、音響特徴量ｆ^（ｏ）（［α］）について式（２８）を用いて尤度の勾配∇_［α］Γ（［α］）を算出し、勾配∇_［α］Γ（［α］）に比例する補正係数［α］の更新量を算出する。補正係数算出部１４６Ａは、算出した更新量を尤度Γ（［α］）に加算することにより補正係数［α］を更新する。その後、ステップＳ１２３に進む。

（ステップＳ１２３）補正係数算出部１４６Ａは、更新量の絶対値に基づいて補正係数［α］がある値に収束したか否かを判定する。収束したと判定される場合（ステップＳ１２３ＹＥＳ）、ステップＳ１２４に進む。収束していないと判定される場合（ステップＳ１２３ＮＯ）、ステップＳ１２１に戻る。
（ステップＳ１２４）補正係数算出部１４６Ａは、補正係数算出部１４６Ａは、収束したと判定した補正係数［α］のうち、尤度Γ（［α］）が最も高い発話状態列に対応するものからＺ番目に高い発話状態列までのそれぞれに対応するものを選択する。その後、ステップＳ１２５に進む。

（ステップＳ１２５）残響成分データ生成部１４７Ａは、所定のＲＴＦについて補正係数算出部１４６Ａから入力されたセットｚ毎の補正係数［α］を用いて所定のフィルタ処理を行って補正ＲＴＦを算出する。残響成分データ生成部１４７Ａは、補正ＲＴＦと、補正ＲＴＦにおける後期反射成分の周波数成分Ａ^Ｌ（ω，ｚ）から残響付加音声信号と後期反射音声信号を生成する。残響成分データ生成部１４７Ａは、生成した残響付加音声信号と後期反射音声信号から式（２９）を用いて算出される平均二乗誤差Ｅ_ｍを最小化する残響成分係数δ_ｂを算出する。残響成分データ生成部１４７Ａは、各セットｚについて算出した残響成分係数δ_ｂを示す残響成分データを残響成分データ記憶部１１２Ａに記憶する。

（音声処理）
次に、本実施形態に係る音声処理（オンライン処理）について説明する。図１９は、本実施形態に係る音声処理を示すフローチャートである。
図１９に示す音声処理は、ステップＳ１１１、Ｓ１１２及びＳ１３１−Ｓ１３４を有する。ステップＳ１１１及びＳ１１２の処理の終了後、ステップＳ１３１に進む。

（ステップＳ１３１）残響抑圧部１０３Ａは、音源毎の音源別音声信号についてセットｚ毎の残響成分データを用いてそれぞれ残響抑圧処理を行うことにより、残響抑圧音声信号を生成する。その後、ステップＳ１３２に進む。
（ステップＳ１３２）特徴量算出部１０４Ａは、セットｚ毎に生成された残響抑圧音声信号についてフレーム毎に音響特徴量を算出する。その後、ステップＳ１３３に進む。

（ステップＳ１３３）音声認識部１１１Ａは、音響モデルを用いて、セットｚ毎に算出された音響特徴量からなる音響特徴量列から与えられる発話状態列について尤度を算出する。その後、ステップＳ１３４に進む。
（ステップＳ１３４）音声認識部１１１Ａは、セットｚ毎に算出した尤度のうち最も高い尤度を与えるセットｚ’に係る発話状態列を選択する。音声認識部１１１Ａは、選択した発話状態列に対応する音韻列のうち言語モデルに基づいて、それらの音韻列で表される文の候補毎の尤度を算出する。音声認識部１１１Ａは、尤度が最も高い文を表す認識データを音声処理装置１０Ａの外部に出力する。その後、図１９に示す処理を終了する。

（動作検証）
次に、本実施形態に係る音声処理システム２Ａの動作検証の例について説明する。
動作検証は、上述の実験室１−４のそれぞれについて行った。音響モデルとして、予めワールドストリートジャーナルコーパスを用いて学習したＧＭＭに基づく３状態ＨＭＭを用いた。

試験データとして１０名の話者による英語の発話音声を用いた。各話者は、音源位置Ｐ１−Ｐ６のそれぞれにおいて、２０回の発話を行った。発話内容として、原稿として予め用意された一定の内容として、上述の寿司屋で行われる会話を構成する英語の発話文を用いた。よって、音声言語理解の結果として動作判定部２７２から日本語の魚の名称が得られる。音源位置Ｐ１−Ｐ５、Ｐ６は、それぞれ図１２の音源位置Ｔ１−Ｔ５、Ｔ７に相当する。従って、ロボットＲｔに設置された収音部１２からの距離は、音源位置Ｐ１−Ｐ６の順に大きくなる。また、音源位置Ｐ１−Ｐ５、Ｐ６は、実験室１−４間において共通である。
実験結果として、自動音声認識、音声言語理解の両面で音源位置Ｐ１−Ｐ６のそれぞれについて評価した。自動音声認識の精度として、音声認識部１１１Ａから得られる認識データにおける単語正解率を求めた。音声言語理解の精度として、動作判定部２７２から得られる日本語の魚の名称の正解率を求めた。

自動音声認識については、話者による発話音声の他に、シミュレーションによって生成された残響付加音声信号を入力し、音声認識部１１１Ａから得られる認識データにおける単語正解率を求めた。シミュレーションでは、クリーン音声信号に音響環境ξ（実験室１−４ならびに音源位置の組）毎のＲＴＦを畳み込み演算を行って残響付加音声信号を生成した。

なお、比較のため、従来の音声処理についても同様な手法で動作検証を行い、単語正解率、魚の名称の正解率をそれぞれ求めた。従来の音声処理として、以下の方法（ａ）−（ｅ）を用いた。方法（ａ）は、残響抑圧を行わずに収録された音声信号について音声認識処理を行う方法である（ＮｏＥｎｈａｎｃｅｍｅｎｔ）。方法（ｂ）は、線形予測に基づく残響抑圧処理を含む方法である（ＢａｓｅｄｏｎＬＰＲｅｓｉｄｕａｌｓ）。方法（ｃ）は、ウェーブレット変換の極値のクラスタリングに基づく残響抑圧処理を含む方法である（ＢａｓｅｄｏｎＷａｖｅｌｅｔＥｘｔｒｅｍａ）。方法（ｄ）は、残響と背景雑音への音響モデルの適応学習を含む方法である（ＢａｓｅｄｏｎＦｅａｔｕｒｅＡｄａｐｔａｔｉｏｎ）。方法（ｅ）は、従来の残響抑圧モデルを用いたスペクトラルサブトラクションを含む方法である（ＰｒｅｖｉｏｕｓＲｅｖｅｒｂｅｒａｔｉｏｎＭｏｄｅｌ）。方法（ｅ）は、本実施形態に係る残響成分係数δ_ｂに代えて、収音部１２から話者までの距離が大きいほど大きい値をとる残響成分係数を用いて残響成分を抑圧する処理である。方法（ｆ）は、本実施形態に係る音声処理である。

（自動音声認識）
次に、動作検証によって得られた自動音声認識の精度について説明する。
図２０は、単語正解率の音源位置依存性の一例を示す図である。図２０の各行は、音声処理の方法を示し、各列は音源位置を示す。図２０に示す単語正解率は、発話された単語数の総和と、そのうちの正解の単語数に基づく。単語数の総和は、実験室１−４間でとったものである。単語正解率は、方法（ａ）−（ｆ）のいずれも音源位置Ｐ１−Ｐ６の順に低下する。例えば、方法（ｆ）について、音源位置Ｐ１、Ｐ６のそれぞれについて、単語正解率は９１．２％、６６．４％である。このことは、音源位置から収音部１２までの距離が大きくなるほど、残響成分が支配的になるため音声認識精度が低下することを示す。しかしながら、単語正解率は、方法（ａ）−（ｆ）の順に高くなる。例えば、音源位置Ｐ６について、方法（ａ）、（ｆ）の単語正解率は２７．３％、６６．４％である。このことは、本実施形態に係る方法（ｆ）における残響成分抑圧処理において尤度が最も高いセットに係る残響成分係数δ_ｂが用いられるために、音声認識精度の低下が抑制されることを示す。

図２１は、単語正解率の音源位置依存性の他の例を示す図である。
図２１において縦軸、横軸は、それぞれ単語正解率、音源位置を示す。図２１に示す単語正解率は、シミュレーションにより得られた残響付加音声信号に含まれる既知の単語数の実験室１−４間の総和と、そのうちの正解の単語数に基づく。単語正解率は、方法（ａ）−（ｆ）のいずれも収音部１２からの音源位置までの距離が大きいほど低下する傾向があるが、方法（ａ）−（ｆ）の順に高くなる傾向がある。この傾向は、図２０に示す単語正解率の音源位置依存性に符合し、本実施形態に係る音声処理の有効性を裏付ける。

（音声言語理解）
次に、動作検証によって得られた音声言語理解の精度について説明する。
図２２は、正解率の音源位置依存性を示す図である。図２２の各行は、音声処理の方法を示し、各列は音源位置を示す。図２２に示す正解率は、発話された魚の名称の発話回数の総和と、そのうちの正解の回数に基づく。発話回数の総和は、実験室１−４間でとったものである。正解率は、方法（ａ）−（ｆ）のいずれも音源位置Ｐ１−Ｐ６の順に低下する。例えば、方法（ｆ）について、音源位置Ｐ１、Ｐ６のそれぞれについて、正解率は１００．０％、５９．０である。このことは、残響成分による音声認識精度の低下が発話理解を妨げることを示す。しかしながら、正解率は、方法（ａ）−（ｆ）の順に高くなる。例えば、音源位置Ｐ６について、方法（ａ）、（ｆ）の正解率は１０．０％、５９．０％である。このことは、本実施形態に係る方法（ｆ）によって、残響成分が支配的なほど著しい音声認識精度の低下が抑制されるので、音声認識精度の低下による発話理解の妨害が緩和されることを示す。

なお、上述した残響成分データ生成処理（図１８）における音響環境ξの要素として、予め定めた音源位置を用いる場合を例にしたが、これには限られない。より高い密度で分布した（例えば、２０ｃｍ間隔）仮の音源位置から尤度に基づくクラスタリングにより選択された音源位置（例えば、１ｍ間隔）が用いられてもよい。尤度は、仮の音源位置のそれぞれについて取得した残響付加音声信号の音響特徴量についてステップＳ１３２−Ｓ１３４に示す音声認識処理を行うことによって算出される。クラスタリングにより、尤度と仮の音源位置がそれぞれ所定の範囲内となる仮の音源位置からなるグループを定める処理である。各グループを代表する位置（例えば、当該グループに属する仮の音源位置の重心）が音響環境ξの要素として用いられる音源位置として選択される。クラスタリングにおいて、既知のクラスタリング法、例えば、最短距離法、重心法などの手法を利用することができる。また、残響付加音声信号は、収音部１２により取得された音声信号に限られず、それぞれの仮の音源位置に係るＲＴＦをクリーン音声信号に畳み込み演算を行うことによって生成した信号でもよい。これにより、上述した音声処理において、音響環境ξ毎の残響成分データの数を少なくすることにより演算量を低減しても、音声認識精度の低下が抑制される。

また、ステップＳ１２１、Ｓ１２５における補正係数を用いたフィルタ処理が畳み込み演算（もしくは周波数領域において畳み込み演算と等価な乗算）である場合を例にしたが、これには限られない。このフィルタ処理は、ステップＳ１２１、Ｓ１２５間において同一又は等価な処理であれば、いかなるフィルタ処理、例えば、ＩＩＲ（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ；無限インパルス応答）フィルタ処理であってもよい。

また、音声処理装置１０Ａが、上述した音声処理（図１９）のステップＳ１３１−Ｓ１３４が、全ての音響環境ξに係るセットｚについて実行する場合を例にしたが、これには限られない。音声処理装置１０Ａは、それぞれの音源別音声信号に係る音源位置に係る音響環境ξを選択する音響環境選択部（図示せず）を備え、選択された音響環境ξに係る各セットｚについてステップＳ１３１−Ｓ１３４を実行してもよい。音響環境選択部は、例えば、音源定位部１０１が定めた音源位置、又はその音源位置から最も近接した音源位置に係る音響環境ξを選択する。また、音響環境選択部は、撮影装置から取得した画像信号について画像認識処理を行って音源位置を定め、定めた音源位置又は、その音源位置から最も近接した音源位置に係る音響環境ξを選択してもよい。これにより、音響環境ξの候補が絞り込まれるため、ステップＳ１３１−Ｓ１３４の処理量を低減することができる。

なお、音声処理装置１０Ａが上述した音声処理（図１９）のステップＳ１３１−Ｓ１３４を、全ての音響環境ξに係るセットｚについて実行する場合には、音声処理装置１０Ａにおいて音源定位部１０１と音源分離部１０２が省略されてもよい。その場合には、収音部１２は、１チャネルの音声信号を取得することができればよい。残響抑圧部１０３Ａは、上述した音源別音声信号に代えて収音部１２からの音声信号について残響抑圧処理を行う。

以上に説明したように、音声処理装置１０Ａは、取得した残響付加音声信号から各音響環境ξのセットｚ毎の残響成分データに基づいて各音響環境に係るセットｚ毎に残響抑圧音声信号を生成する残響抑圧部１０３Ａと、残響抑圧音声信号の音響特徴量を算出する特徴量算出部１０４Ａとを備える。また、音声処理装置１０Ａは、音響特徴量から発話状態列の尤度をセットｚ毎に算出し、算出した尤度に基づいて発話状態列を選択する音声認識部１１１Ａを備える。そして、残響成分データは、所定の残響特性を示すＲＴＦに対してフィルタ処理を行って得られた補正ＲＴＦで与えられる残響成分の寄与を示す残響成分係数δ_ｂを示すデータである。フィルタ処理に用いる補正係数［α］は、音響環境ξ毎の残響付加音声信号から算出された音響特徴量に基づいて算出される尤度よりも、当該残響付加音声信号に対してフィルタ処理を行って得られた補正音声信号から算出された音響特徴量に基づいて算出された音響モデルを用いて算出される尤度の方が高いことを特徴とする。

そのため、音源位置や部屋の残響特性などの音響環境ξに応じて異なるセットｚ毎の残響成分データを用いて残響成分が抑圧された残響成分音声信号が得られる。そして、セットｚ毎に得られた残響成分音声信号から算出された音響特徴量からなる音響特徴量列に対応する発話状態列について、より高い尤度を与える発話状態列に対応する音韻列が特定される。そのため、音響環境ξによって異なりうる残響の影響による音声認識精度の低下が抑制される。

また、尤度の算出に用いる音響モデルは、音響特徴量の正規分布の線形結合で発話状態の出現確率を表すモデルである。補正係数［α］を算出する際、尤度Γ（［α］）の補正係数［α］に対する勾配を用いて尤度Γ（［α］）をより高くするように補正係数［α］を更新することを特徴とする。
そのため、尤度Γ（［α］）の補正係数［α］に対する勾配が、音響モデルを構成する基底間の積和演算により算出される。そのため、補正係数［α］の算出に要する計算量や計算時間を低減することができる。

なお、以上のように図面を参照してこの発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、音声処理装置１０、１０Ａは、単一の装置として実施されてもよいし、音声処理システム１、１Ａ、２、２Ａの一部として実施されてもよい。また、音声処理システム２、２Ａにおいて、音声再生部２８と動作機構部２９のいずれかが省略されてもよい。
また、処理データ生成部１４が残響成分係数δ_ｂを算出し、算出した残響成分係数δ_ｂを残響抑圧部１０３に設定してもよい。処理データ生成部１４は、音声処理装置１０、１０Ａの他の構成と一体化して単一の音声処理装置１０、１０Ａの一部として構成されてもよいし、音声処理装置１０とは別体、例えば、汎用のコンピュータであってもよい。

なお、上述した実施形態及び変形例に係る音声処理システム１、１Ａの音声処理装置１０、１０Ａの一部、例えば、音源定位部１０１、音源分離部１０２、残響抑圧部１０３、１０３Ａ、特徴量算出部１０４、１０４Ａ、特徴量調整部１０５、モデル更新部１１０及び音声認識部１１１、１１１Ａ、音声処理システム２、２Ａの一部、例えば、動作制御部２７をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置１０、１０Ａ、音声処理システム１、１Ａ、２、２Ａに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、上述した実施形態及び変形例における音声処理装置１０、１０Ａの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音声処理装置１０の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

１、１Ａ、２、２Ａ…音声処理システム、１０、１０Ａ…音声処理装置、１０１…音源定位部、１０２…音源分離部、１０３、１０３Ａ…残響抑圧部、１０４、１０４Ａ…特徴量算出部、１０５…特徴量調整部、１０６…調整データ記憶部、１０７…調整係数取得部、１０８…調整係数乗算部、１０９、１０９Ａ…モデル記憶部、１１０…モデル更新部、１１１、１１１Ａ…音声認識部、１１２Ａ…残響成分データ記憶部、１２…収音部、１３…クリーン音声データ記憶部、１４、１４Ａ…処理データ生成部、１４１…残響処理部、１４２…特徴量算出部、１４３…調整係数算出部、１４４…特徴量調整部、１４５…モデル生成部、１４６Ａ…補正係数算出部、１４７Ａ…残響成分データ生成部、２７…動作制御部、２７１…記憶部、２７２…動作判定部、２７３…音声合成部、２８…音声再生部、２９…動作機構部

Claims

取得した音声から音源位置を定める音源定位部と、
前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、
前記残響抑圧音声の特徴量を算出する特徴量算出部と、
前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、
前記調整特徴量を用いて音声認識を行う音声認識部と、
を備える音声処理装置。
前記調整係数は、前記特徴量を用いて算出される音韻毎の尤度よりも、当該特徴量に当該調整係数を乗じて算出された調整特徴量を用いて算出される尤度のほうが高くなるように予め算出されたことを特徴とする請求項１に記載の音声処理装置。
前記調整特徴量と音源位置毎の位置依存音響モデルを用いて算出した尤度に基づいて所定の数の位置依存音響モデルを選択し、選択した位置依存音響モデルのモデル変数を線形結合して、前記音源位置に対応する位置依存音響モデルを生成するモデル更新部を備え、
前記音声認識部は、前記モデル更新部が生成した音響モデルを用いて音声認識を行う請求項１又は請求項２に記載の音声処理装置。
前記モデル更新部は、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合して前記音源定位部が定めた音源位置に対応する位置依存音響モデルを生成する請求項３に記載の音声処理装置。
前記モデル更新部は、前記尤度が所定の尤度よりも低い位置依存音響モデルを除去する請求項３又は請求項４に記載の音声処理装置。
取得した音声から音響環境毎の残響成分データに基づいて前記音響環境毎に残響抑圧音声を生成する残響抑圧部と、
前記残響抑圧音声の特徴量を算出する特徴量算出部と、
前記特徴量から発話状態列の尤度を前記音響環境毎に算出し、前記尤度に基づいて発話状態列を選択する音声認識部と、を備え、
前記残響成分データは、所定の残響特性に対して所定のフィルタ処理により得られた補正残響特性で与えられる残響成分の寄与を示すデータであって、前記フィルタ処理に用いる補正係数は、前記音響環境毎の音声の特徴量から算出される尤度よりも、当該音声に対して当該フィルタ処理により得られた補正音声の特徴量から算出される尤度が高くなるように算出されたことを特徴とする音声処理装置。
前記尤度の算出に用いる音響モデルは、特徴量の正規分布の線形結合で発話状態の出現確率を表すモデルであり、前記補正係数を算出する際、前記尤度の前記補正係数に対する勾配を用いて前記尤度をより高くするように前記補正係数を更新することを特徴とする請求項６に記載の音声処理装置。
音声処理装置と収音部とを備える音声処理システムであって、
前記収音部は、複数チャネルの音声を収音し、
前記音声処理装置は、
前記複数チャネルの音声から音源位置を定める音源定位部と、
前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、
前記残響抑圧音声の特徴量を算出する特徴量算出部と、
前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、
前記調整特徴量を用いて音声認識を行う音声認識部と、を備える音声処理システム。
前記音声認識部が認識した発話に応じた動作を実行する動作制御部、
を備える請求項８に記載の音声処理システム。
音声処理装置における音声処理方法であって、
取得した音声から音源位置を定める音源定位過程と、
前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧過程と、
前記残響抑圧音声の特徴量を算出する特徴量算出過程と、
前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整過程と、
前記調整特徴量を用いて音声認識を行う音声認識過程と、
を有する音声処理方法。