JP6124949B2 - 音声処理装置、音声処理方法、及び音声処理システム - Google Patents

音声処理装置、音声処理方法、及び音声処理システム Download PDF

Info

Publication number
JP6124949B2
JP6124949B2 JP2015103670A JP2015103670A JP6124949B2 JP 6124949 B2 JP6124949 B2 JP 6124949B2 JP 2015103670 A JP2015103670 A JP 2015103670A JP 2015103670 A JP2015103670 A JP 2015103670A JP 6124949 B2 JP6124949 B2 JP 6124949B2
Authority
JP
Japan
Prior art keywords
unit
sound source
speech
reverberation
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015103670A
Other languages
English (en)
Other versions
JP2016136229A (ja
Inventor
ランディ ゴメス
ランディ ゴメス
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to US14/990,888 priority Critical patent/US9972315B2/en
Publication of JP2016136229A publication Critical patent/JP2016136229A/ja
Application granted granted Critical
Publication of JP6124949B2 publication Critical patent/JP6124949B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、音声処理装置、音声処理方法、及び音声処理システムに関する。
室内で発された音は、壁面や設置物で反射が繰り返されることによって残響を生じる。収録される音には、音源から直接到来した直接音に室内で生じた残響が付加される。収録された音声に対して音声認識処理を行うと原音声よりも音声認識率が低下することがある。そこで、残響環境下で収録した音声から残響成分を抑圧する残響抑圧技術が従来から開発されている。
例えば、特許文献1には、環境中で発生したインパルス応答の残響パターンであって、インパルス応答の初期反射成分と高次反射成分を含む拡散残響成分とを有する残響パターンから拡散残響成分を取り除いた初期反射成分を抽出し、初期反射成分を学習用の音声データに反映させて音声認識に用いられる音響モデルを学習する処理装置について記載されている。
特許第4532576号公報
残響の影響やその度合いは、音源と音声データの収録点との位置関係によって異なる。他方、音源である話者や収音部が設置されているロボット等の移動体が室内を自由に移動することがある。音響モデルの生成において用いた音声を発した話者の位置と、その時点で音声認識の対象となる話者の位置との関係が変化するために音声認識率が低下することがある。
本発明は上記の点に鑑みてなされたものであり、残響下における音源位置の変化による音声認識率の低下を抑制することができる音声処理装置、音声処理方法、及び音声処理システムを提供する。
[1]本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、取得した音声から音源位置を定める音源定位部と、前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、前記残響抑圧音声の特徴量を算出する特徴量算出部と、前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、前記調整特徴量を用いて音声認識を行う音声認識部と、を備える音声処理装置である。
[2]本発明の他の態様は、[1]の音声処理装置であって、前記調整係数は、前記特徴量を用いて算出される音韻毎の尤度よりも、当該特徴量に当該調整係数を乗じて算出された調整特徴量を用いて算出される尤度のほうが高くなるように予め算出されたことを特徴とする。
[3]本発明の他の態様は、[1]又は[2]の音声処理装置であって、前記調整特徴量と音源位置毎の位置依存音響モデルを用いて算出した尤度に基づいて所定の数の位置依存音響モデルを選択し、選択した位置依存音響モデルのモデル変数を線形結合して、前記音源位置に対応する位置依存音響モデルを生成するモデル更新部を備え、前記音声認識部は、前記モデル更新部が生成した音響モデルを用いて音声認識を行う。
[4]本発明の他の態様は、[3]の音声処理装置であって、前記モデル更新部は、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合して前記音源定位部が定めた音源位置に対応する位置依存音響モデルを生成する。
[5]本発明の他の態様は、[3]又は[4]の音声処理装置であって、前記モデル更新部は、前記尤度が所定の尤度よりも低い位置依存音響モデルを除去する。
[6]本発明の他の態様は、取得した音声から音響環境毎の残響成分データに基づいて前記音響環境毎に残響抑圧音声を生成する残響抑圧部と、前記残響抑圧音声の特徴量を算出する特徴量算出部と、前記特徴量から発話状態列の尤度を前記音響環境毎に算出し、前記尤度に基づいて発話状態列を選択する音声認識部と、を備え、前記残響成分データは、所定の残響特性に対して所定のフィルタ処理により得られた補正残響特性で与えられる残響成分の寄与を示すデータであって、前記フィルタ処理に用いる補正係数は、前記音響環境毎の音声の特徴量から算出される尤度よりも、当該音声に対して当該フィルタ処理により得られた補正音声の特徴量から算出される尤度が高くなるように算出されたことを特徴とする音声処理装置である。
[7]本発明の他の態様は、[6]の音声処理装置であって、前記尤度の算出に用いる音響モデルは、特徴量の正規分布の線形結合で発話状態の出現確率を表すモデルであり、前記補正係数を算出する際、前記尤度の前記補正係数に対する勾配を用いて前記尤度をより高くするように前記補正係数を更新することを特徴とする。
[8]本発明の他の態様は、音声処理装置と収音部とを備える音声処理システムであって、前記収音部は、複数チャネルの音声を収音し、前記音声処理装置は、前記複数チャネルの音声から音源位置を定める音源定位部と、前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、前記残響抑圧音声の特徴量を算出する特徴量算出部と、前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、前記調整特徴量を用いて音声認識を行う音声認識部と、を備える音声処理システムである。
[9]本発明の他の態様は、[8]の音声処理システムであって、前記音声認識部が認識した発話に応じた動作を実行する動作制御部、を備える。
[10]本発明の他の態様は、音声処理装置における音声処理方法であって、取得した音声から音源位置を定める音源定位過程と、前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧過程と、前記残響抑圧音声の特徴量を算出する特徴量算出過程と、前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整過程と、前記調整特徴量を用いて音声認識を行う音声認識過程と、を有する音声処理方法である。
上述した[1]、[8]又は[10]の構成によれば、残響成分を抑圧した残響抑圧音声の特徴量に、音源位置に応じた調整係数が乗じられて算出される調整特徴量により音声認識が行われる。残響の影響の音源位置依存性が緩和されるため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
上述した[2]の構成によれば、残響抑圧音声の特徴量に調整係数を乗じた調整特徴量を用いることで、残響抑圧音声の特徴量よりも、音韻毎の尤度を高くすることができる。そのため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
上述した[3]の構成によれば、音声認識精度を著しく劣化させる尤度が低い位置依存音響モデルの選択が回避され、選択された位置依存音響モデルのモデル変数を線形結合することで、位置依存音響モデルの生成において音源位置間で異なりうる残響の影響を受けない周波数成分が相補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
上述した[4]の構成によれば、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合することで、残響の影響を受けない周波数成分が補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
上述した[5]の構成によれば、音源位置の変化に応じて尤度が低下しないように位置依存音響モデルが更新されるので、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
上述した[6]の構成によれば、音響環境に応じて異なる残響成分データを用いて残響成分が抑圧された残響成分音声信号が得られる。そして、音響環境毎に得られた残響成分音声信号から算出された音響特徴量からなる音響特徴量列に対応する発話状態列について、より高い尤度を与える発話状態列に対応する音韻列が特定される。そのため、音響環境によって異なりうる残響の影響による音声認識精度の低下が抑制される。
上述した[7]の構成によれば、尤度の補正係数に対する勾配が、音響モデルを構成する基底間の積和演算により算出される。そのため、補正係数の算出に要する計算量や計算時間を低減することができる。
上述した[9]の構成によれば、音声認識部が認識した発話に応じた動作を実行するので、残響下における音源位置の変化に関わらず、ユーザ所望の動作が発話を通じてより確実に指示される。
第1の実施形態に係る音声処理システムの構成を示すブロック図である。 調整データの一例を示す図である。 音源位置の分布例を示す平面図である。 第1の実施形態に係る処理データ生成部を示すブロック図である。 第1の実施形態に係る音響モデル更新処理を示すフローチャートである。 第1の実施形態に係る音声処理を示すフローチャートである。 音声信号のスペクトログラムの例を示す。 調整特徴量の分布例を示す図である。 第2の実施形態に係る音声処理システムの構成を示すブロック図である。 対話データの例を示す図である。 収音素子の配置例を示す図である。 第2の実施形態の動作検証に係る実験室の平面図である。 連続音声認識の実験結果の例を示す図である。 音声検出率の例を示す図である。 各方式による単語認識率の例を示す図である。 第3の実施形態に係る音声処理システムの構成を示すブロック図である。 第3の実施形態に係る処理データ生成部を示すブロック図である。 第3の実施形態に係る残響成分データ生成処理を示すフローチャートである。 第3の実施形態に係る音声処理を示すフローチャートである。 単語正解率の音源位置依存性の一例を示す図である。 単語正解率の音源位置依存性の他の例を示す図である。 正解率の音源位置依存性を示す図である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
音声処理システム1は、音声処理装置10及び収音部12を含んで構成される。
音声処理装置10は、収音部12から入力されたP(Pは、3以上の整数)チャネルの音声信号から音源位置を定め、当該音声信号の残響成分を抑圧する。音声処理装置10は、残響成分を抑圧した音声の特徴量を算出し、定めた音源位置に対応する調整係数を算出した特徴量に乗じて調整特徴量を算出する。音声処理装置10は、算出した調整特徴量を用いて音声認識を行う。
収音部12は、Pチャネルの音声信号を収録し、収録した音声信号を音声処理装置10に出力する。収音部12は、P個の収音素子(マイクロホン)をそれぞれ異なる位置に配列して構成されたマイクロホンアレイである。収音部12は、収録した音声信号を無線で音声処理装置10に送信してもよいし、有線で送信してもよい。収音部12の位置は、固定されていてもよいし、ロボット、車両等の移動体に設置され移動可能であってもよい。収音部12は、音声処理装置10と一体化されてもよいし、別体であってもよい。
残響とは、音源が音の放射を停止した後も、放射した音が到来する現象である。残響は、部屋の内外を区分する壁面や設置物などの物体表面で音波の反射が繰り返されることによって生じる。一般に、収音部12では、音源から直接到来した直接音(direct sound)と、物体から反射された反射音(reflection)が収録される。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短い(例えば、約30ms以下)ために、反射回数が比較的少なくそれぞれの反射パターンが区別される部分は、初期反射(early reflection)と呼ばれる。反射音のうち、それよりも経過時間が長いために、反射回数が多くそれぞれの反射パターンを区別できない部分は、後期反射(late reflection)と呼ばれる。後期反射は、後期残響(late reverberation)、又は単に残響(reverberation)と呼ばれることがある。
残響が生じると、過去に発話された音声による残響が現在発話されている音声に重畳する。このため、残響が付加されていない音声よりも残響が付加された音声の方が、音声認識率が低下する。その一因として、音声認識に用いられる音響モデルにおいて、音韻を形成する発話状態と対応付けられた音響特徴量が、残響が付加された音声に基づいて算出された音響特徴量とは必ずしも一致しない(mismatch)ことが挙げられる。また、残響は、人間の聴覚上も、発話内容に対する明瞭度(intelligibility)を低下させる。以下の説明では、このような残響による悪影響を、残響の影響(smearing)と呼ぶ。残響の影響は、コンタミネーション(contamination)とも呼ばれる。また、残響が付加された音声、残響が抑圧された音声、残響成分が無視できるほど少ない音声を、それぞれ残響付加音声(reverberent speech)、残響抑圧音声(dereverberated speech)、クリーン音声(clean speech)、と呼ぶ。
次に、音声処理装置10の構成について説明する。
音声処理装置10は、音源定位部101、音源分離部102、残響抑圧部103、特徴量算出部104、特徴量調整部105、モデル記憶部109、モデル更新部110及び音声認識部111を含んで構成される。
音源定位部101は、収音部12から入力されたPチャネルの音声信号から音源位置を定める。音源定位部101は、例えば、Pチャネルの音声信号について予め定めた期間(例えば、50ms)毎にMUSIC(Multiple Signal Classification)法を実行する。MUSIC法については、後述する。音源定位部101は、定めた音源毎の音源位置を示す音源位置情報とPチャネルの音声信号を音源分離部102に出力し、当該音源位置情報を特徴量調整部105に出力する。
音源分離部102は、音源定位部101から入力されたPチャネルの音声信号を音源位置情報が示す音源位置に基づいて音源毎の音声信号である音源別音声信号に分離する。
周波数領域におけるPチャネルの音声信号[x(ω)]とL(Lは、1以上P以下の整数)個の音源別音声信号[s(ω)]とは、例えば、式(1)に示す関係を有する。
式(1)において[…]は、ベクトル又は行列を示す。[x(ω)]は、P次元のベクトル[x(ω),x(ω),…,x(ω)]である。ωは、周波数を示す。Tは、ベクトル又は行列の転置を示す。[A(ω)]は、各音源から各チャネルの収音素子までの伝達関数を成分として有するP行L列の行列である。[η(ω)]は、Pチャネルの付加雑音信号を示す。付加雑音信号[η(ω)]は、音源別音声信号[s(ω)]とは統計的に無相関であると仮定されうる。
音源分離部102は、音源分離方法として、例えば、GHDSS(Geometric−constrained High−order Decorrelation−based Source Separation)法を用いる。GHDSS法については、後述する。音源分離部102は、分離した音源毎の音源別音声信号を残響抑圧部103に出力する。
残響抑圧部103は、音源分離部102から入力された音源毎の音源別音声信号について残響成分をそれぞれ抑圧し、音源毎の残響抑圧音声信号を生成する。残響抑圧部103は、例えば、式(2)に示すように残響抑圧前の残響付加音源別音声信号[u’(ω)]から残響成分[r’(ω)]を差し引いて残響抑圧音声信号[s’(x,y)(ω)]を生成する。
式(2)の左辺の添え字(x,y)は、音源位置を示す。x、yは、水平面上における互いに直交する方向の座標値である。残響抑圧方法については後述する。残響抑圧部103は、音源毎の残響抑圧音声信号を特徴量算出部104に出力する。
特徴量算出部104は、残響抑圧部103から入力された音源毎の残響抑圧音声信号について、所定の期間(例えば、10ms)毎に音響特徴量を算出する。特徴量算出部104は、音響特徴量として、例えば、12次のメル周波数ケプストラム係数(MFCC:Mel−Frequency Cepstrum Coefficients)、12次のデルタMFCC(Δ−MFCC)、エネルギー、及びデルタエネルギー(Δ−エネルギー)とからなる26次元のベクトル[f(x,y)]を音源毎に算出する。特徴量算出部104は、算出した音響特徴量[f(x,y)]を特徴量調整部105に出力する。なお、残響抑圧音声信号[s’(x,y)(ω)]と音響特徴量[f(x,y)]との関係を式(3)に示す。式(3)において、F(…)は、…の音響特徴量を算出するための演算を示す。
特徴量調整部105は、音源定位部101から入力された音源位置情報が示す当該音源の音源位置(x,y)に対応する調整係数[c’(x,y)]を定める。特徴量調整部105は、特徴量算出部104から入力された音源毎の音響特徴量[f(x,y)]に定めた調整係数[c’(x,y)]を乗算して調整特徴量[f’]を算出する。
特徴量調整部105は、調整データ記憶部106、調整係数取得部107及び調整係数乗算部108を含んで構成される。
調整データ記憶部106には、所定のM(Mは、2以上の整数、例えば、100)個の音源位置毎の調整係数[c’(x,y)]を示す調整データが予め記憶されている。調整係数[c’(x,y)]は、少なくとも既知の音韻列のセットwについて所定の音響モデルを用いて算出される音響特徴量[f(x,y)]よりも、調整特徴量[f’]を用いた方が尤度P(f’(x,y)([c’(x,y)])|w)が高くなるように定められる。調整係数[c’(x,y)]は、好ましくは、式(4)に示すように尤度P(f(x,y)([c(x,y)])|w)を最大化する調整係数[c(x,y)]である。調整データについては、後述する。
調整係数取得部107は、調整データ記憶部106に記憶された調整データを参照して、音源定位部101から入力された音源位置情報が示す音源位置(x,y)に対応する調整係数[c’(x,y)]を取得する。調整データに音源位置情報が示す音源位置(x,y)と一致する音源位置(x,y)がある場合には、調整係数取得部107は、その音源位置(x,y)に対応する調整係数[c’(x,y)]を調整データ記憶部106から読み取る。調整データに、音源位置情報が示す音源位置(x,y)と一致する音源位置(x,y)がない場合には、調整係数取得部107は、その音源位置(x,y)から予め定めた範囲内の音源位置(x’’,y’’)のそれぞれに対応する調整係数[c’’(x,y)]を調整データ記憶部106から読み取る。そして、調整係数取得部107は、読み取った調整係数[c’’(x,y)]を線形補間又は外挿して音源位置(x,y)に対応する調整係数[c’(x,y)]を算出する。調整係数取得部107は、取得した調整係数[c’(x,y)]を調整係数乗算部108に出力する。
調整係数乗算部108は、式(5)に示すように、調整係数取得部107から入力された音源毎の調整係数[c’(x,y)]を特徴量算出部104から入力された当該音源の音響特徴量[f(x,y)]に乗算して当該音源の調整特徴量[f’]を算出する。調整係数乗算部108は、音源毎に算出した調整特徴量[f’]をモデル更新部110及び音声認識部111に出力する。
モデル記憶部109には、音声認識に用いられるM+1個の音響モデルと少なくとも1個の言語モデルが記憶されている。M+1個のうちM個の音響モデルΨ(n)は、残響下でM個の音源位置のそれぞれにおいて発された音声を用いて生成された音響モデルΨ(n)である。以下の説明では、M個の音響モデルΨ(n)を、位置依存音響モデル(position−sensitive acoustic model)Ψ(n)と呼ぶ。他の1個の音響モデルは、クリーン音声を用いて生成されたクリーン音声音響モデルλ(s)である。位置依存音響モデルΨ(n)、クリーン音声音響モデルλ(s)は、それぞれガウシアン混合モデル(GMM:Gaussian Mixture Model)に基づく隠れマルコフモデル(HMM:Hidden Markov Model)である。GMMは、入力された音響特徴量又は調整特徴量に対する、ある発話状態における出力確率を複数(例えば、256個)の正規分布を基底として重みづけ加算して表す統計モデルの一種である。HMMは、GMMのモデル変数(model parameter)である混合重み係数(mixture weight)Cim、平均値(mean)[μim]、共分散行列(covariance matrix)[Σim]と、発話状態間の遷移確率(transition probability)aijといった統計量をモデル変数として、その特性が規定される。ここで、mは個々の基底、iはその時点における状態、jは次の状態、を示す。なお、言語モデルは、音韻列の制約と音韻列毎の確率を表す統計モデル、例えば、Nグラム(N−gram)である。
モデル更新部110は、調整係数乗算部108から入力された音源毎の調整特徴量[f’]について、モデル記憶部109に記憶されたM個の位置依存音響モデルΨ(n)及びクリーン音声音響モデルλ(s)のそれぞれについて尤度を算出する。モデル更新部110は、算出した尤度が最も高い位置依存音響モデルΨ(n)から順にN個の位置依存音響モデルΨ(n)及びクリーン音声音響モデルλ(s)を選択する。
モデル更新部110は、選択したN個の位置依存音響モデルΨ(n)及びクリーン音声音響モデルλ(s)それぞれのモデル変数を線形結合して、新たな位置依存音響モデルλ(upd)のモデル変数を算出する。モデル更新部110は、算出したモデル変数で規定される位置依存音響モデルλ(upd)を、当該音源の音源位置と対応付けてモデル記憶部109に記憶する。音響モデルの更新に係る処理については、後述する。
音声認識部111は、調整係数乗算部108から入力された音源毎の調整特徴量[f’]について、当該音源について新たに生成された位置依存音響モデルλ(upd)をモデル記憶部109から読み取り、音声認識に係る処理を行う。ここで、音声認識部111は、当該音源の調整特徴量[f’]について読み取った位置依存音響モデルλ(upd)を用いて音韻列毎に尤度を算出する。音声認識部111は、可能性がある音韻列のうちモデル記憶部109に記憶された言語モデルに基づいて、それらの音韻列で表される文の候補毎の尤度を算出し、尤度が最も高い文を表す認識データを音声処理装置10の外部に出力する。
このように、音源位置に応じて尤度の低下が抑制された位置依存音響モデルλ(upd)を用いて音声認識に係る処理が行われるので、音源位置による残響の影響の差異による音声認識精度の低下が抑制される。
(音源定位)
次に、音源定位の一手法であるMUSIC法について説明する。
音源定位部101は、予め所定の間隔(例えば、0.5m)に分布した音源位置毎の伝達関数が記憶されている記憶部を備える。音源定位部101は、各チャネルp(pは、1以上P以下の整数)までの伝達関数A[l][m](ω)を要素とする伝達関数ベクトルD(n)を音源位置n毎に生成する。
音源定位部101は、各チャネルpの音響信号x(t)(tは、時刻)を所定のサンプル数からなるフレーム毎に周波数領域に変換して変換係数x(ω)を算出し、算出した変換係数から式(6)に示す入力相関行列[Rxx]を算出する。
式(6)において、E[…]は、…の期待値を示す。[…]は、行列又はベクトルの共役を示す。
次に、音源定位部101は、入力相関行列[Rxx]の固有値δ及び固有ベクトル[e]を算出する。入力相関行列[Rxx]、固有値δ、及び固有ベクトル[e]は、式(7)に示す関係を有する。
式(7)において、iは、1以上P以下の整数である。インデックスiの順序は、固有値δの降順である。
音源定位部101は、伝達関数ベクトルD(n)と算出した固有ベクトル[e]に基づいて、式(8)に示す空間スペクトルPsp(n)を算出する。
式(8)において、Kは、検出可能な音源の個数(例えば、1)であり、Pよりも小さい予め定めた自然数である。
音源定位部101は、S/N比が予め定めた閾値(例えば、20dB)よりも大きい周波数帯域における空間スペクトルPsp(n)の総和を拡張空間スペクトルPext(n)として算出する。音源定位部101は、算出した拡張空間スペクトルPext(n)の極大値をとる音源位置nを定める。
なお、音源定位部101は、MUSIC法に代えて、その他の手法を用いて音源位置を算出してもよい。音源定位部101は、例えば、一般化固有値分解(GEVD:Generalized Eigenvalue)−MUSIC法、一般化特異値分解(Generalized Singular Value Decomposition;GSVD−)MUSIC法、重み付き遅延和ビームフォーミング法(WDS−BF:Weighted Delay and Sum Beam Forming)、等を用いてもよい。
(音源分離)
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS([V(ω)])と幾何制約度(Geometric Constraint)JGC([V(ω)])が、それぞれ減少するように分離行列[V(ω)]を適応的に算出する方法である。分離行列[(ω)]は、音源定位部101から入力されたPチャネルの音声信号[x(ω)]に乗じることによって、Lチャネルの音源毎の音声信号(推定値ベクトル)[u’(ω)]を算出するために用いられる行列である。
分離尖鋭度JSS([V(ω)])、幾何制約度JGC([V(ω)])は、それぞれ、式(9)、(10)のように表される。
式(9)、(10)において、||…||は、行列…のフロベニウスノルム(Frobenius norm)である。フロベニウスノルムとは、行列を構成する各要素値の二乗和(スカラー値)である。φ([u’(ω)])は、音声信号[u’(ω)]の非線形関数、例えば、双曲線正接関数(hyperbolic tangent function)である。[…]は、行列又はベクトルの共役転置(conjugate transpose)を示す。diag[…]は、行列…の対角成分の総和を示す。従って、分離尖鋭度JSS([V(ω)])は、音声信号(推定値)のスペクトルのチャネル間非対角成分の大きさ、つまり、ある1つの音源が他の音源として誤って分離される度合いを表す指標値である。
式(10)において、[I]は、単位行列を示す。従って、幾何制約度JGC([V(ω)])とは、音声信号(推定値)のスペクトルと音声信号(音源)のスペクトルとの誤差の度合いを表す指標値である。
そこで、音源分離部102は、式(11)に示すように、音源定位部101から入力されたPチャネルの音声信号[x(ω)]に分離行列[V(ω)]を乗じて、L個の音源のそれぞれに係る音源別音声信号[u’(ω)]を算出する。
(残響抑圧)
次に、本実施形態に係る残響抑圧について説明する。残響抑圧部103は、音源分離部102から入力された音源毎の残響付加音源別音声信号u’(ω)を周波数帯域b毎の帯域成分u’(ω)に分離する。残響抑圧部103は、分離した帯域成分u’(ω)毎に当該周波数帯域bの残響成分係数δを乗じて残響成分r’(ω)を算出する。残響抑圧部103は、算出した残響成分r’(ω)を周波数帯域b間で合成して全周波数帯域の残響成分r’(ω)を算出する。残響抑圧部103は、音源毎に残響付加音源別音声信号u’(ω)から算出した残響成分r’(ω)を差し引いて音源毎の残響抑圧音声信号s’(x,y)(ω)を算出する。
残響抑圧部103は、次の処理(a)−(e)を予め実行することによって残響成分係数δを予め算出し、自部に設定しておく。処理(a)−(e)によれば、音声認識精度の低下が極力抑制されるように残響成分係数δが算出される。
(a)周波数帯域b毎の残響成分係数δの初期値として、既知の残響成分Xと入力信号成分xとの平均二乗誤差(MSE:Mean Squared Error)Eを最小化する残響成分係数δb,MMSEを定める(MMSE:Minimum MSE)。即ち、MMSEは、残響成分Xと、周波数帯域b毎に残響成分係数δと、入力信号成分xを乗じて得られる値の総和との残差の二乗値であるMSEが最小となる残響成分係数δb,MMSEを算出する手法である。
(b)既知の音韻列のセットwについて、残響成分係数δb,MMSEを用いて算出された残響抑圧音声信号sδb,MMSE(ω)について尤度を最大化する音響モデルλMMSEを、音響モデルλの初期値として定める。
(c)残響成分係数δを用いて算出される残響抑圧音声信号s’について、音韻列のセットwと音響モデルλを用いて算出される尤度を最大化する周波数帯域b毎の残響成分係数δb,optを算出する。
(d)残響成分係数δb,optと音韻列のセットwについて、尤度を最大化する音響モデルλoptを与えるモデル変数を定める。
(e)その時点の音響モデルλを算出した音響モデルλoptに更新し、(c)、(d)の処理を繰り返す。処理の繰り返しは、尤度の最大値の変化量に係る絶対値が所定の変化量の閾値未満に収束するまで行われる。その後、算出された残響成分係数δb,optを、残響成分係数δとして定める。
上述した処理(a)−(e)は、次の文献に詳しく記載されている。
Gomez,R.and Kawahara, T.“Robust speech recognition based on dereverberation parameter optimization using acoustic model likelihood” Proceedings IEEE Transactions Speech and Acoustics Processing,Vol.19,No.7,2010
なお、残響抑圧部103には、音響モデルλを予め設定しておき、残響成分の抑圧と並行して処理(c)、(d)を行ってもよい(オンライン処理)。よって、残響環境の変化に応じて残響成分を抑圧することができる。また、音声認識部111が処理(a)−(e)によって得られた音響モデルλを音声認識処理に用いてもよい。そのため、残響の影響による音声認識率の低下を抑制することができる。
(調整データ)
次に、調整データについて説明する。図2は、調整データの一例を示す図である。調整データは、M個の音源位置(x,y)それぞれの調整係数[c(x,y)]を示すデータである。図2の第2行に示す例では、音源位置(x,y)は、調整係数[c(x,y)]と対応付けられている。なお、図2に示す例では、ベクトルを示す記号[…]の表記が省略されている。
(音源位置)
次に、調整係数もしくは位置依存音響モデルにそれぞれ対応付けられる音源位置の例について説明する。図3は、音源位置の分布例を示す平面図である。図3に示すように、M個(図3に示す例では、M=20)の音源位置は部屋の平面全体に分布されている。M個の音源位置は、等間隔に配列されてもよいし、ランダムに配列されてもよい。
(処理データ生成部)
次に、本実施形態に係る処理データ生成部14の構成について説明する。処理データ生成部14は、クリーン音声を用いて予め各音源位置について調整係数[c(x,y)]を算出し、位置依存音響モデルΨ(n)を生成する(オフライン学習)。
図4は、本実施形態に係る処理データ生成部14を示すブロック図である。処理データ生成部14は、残響処理部141、特徴量算出部142、調整係数算出部143、特徴量調整部144及びモデル生成部145を含んで構成される。なお、クリーン音声データ記憶部13には、予め学習用音声信号として、例えば、種々の発話内容を示すクリーン音声の音声信号から形成されるクリーン音声データベースを記憶させておく。また、モデル記憶部109には、予めクリーン音声音響モデルλ(s)を記憶させておく。
残響処理部141には、各音源位置から所定の位置に設置された収音部12までのインパルス応答が予め記憶された記憶部を備える。残響処理部141は、クリーン音声データ記憶部13から読み取ったクリーン音声の音声信号に、各音源位置のインパルス応答を畳み込み演算(convolution)し、当該音源位置(x,y)に係る残響付加音声を示す残響付加音声信号を生成する。残響処理部141は、生成した残響付加音声信号について、残響抑圧部103と同様に残響成分を抑圧して残響抑圧音声信号を生成する。残響処理部141は、生成した残響抑圧音声信号を特徴量算出部142に出力する。
特徴量算出部142は、残響処理部141から入力された音源位置(x,y)に係る残響抑圧音声信号について、特徴量算出部104(図1)と同様に音響特徴量[f(x,y)]を算出する。特徴量算出部142は、算出した音響特徴量[f(x,y)]を調整係数算出部143と特徴量調整部144に出力する。
調整係数算出部143は、特徴量算出部142から入力された音源位置(x,y)に係る音響特徴量[f(x,y)]と、モデル記憶部109から読み取ったクリーン音声音響モデルλ(s)に基づいて当該音源位置(x,y)に係る調整係数[c’(x,y)]を算出する。ここで、調整係数算出部143は、式(12)に示すように、当該音響特徴量[f(x,y)]の算出に用いたクリーン音声の発話を示す既知の音韻列のセットw及び入力された音響特徴量[f(x,y)]について、クリーン音声音響モデルλ(s)において可能性がある発話状態列q(s)のそれぞれについて尤度を算出し、算出した尤度が最大になる発話状態列q’(s)を選択する。
式(12)において、Q(s)は、クリーン音声音響モデルλ(s)において可能性がある全ての発話状態列q(s)のセットを示す。q (s)、qj―1 (s)は、発話状態列q(s)を形成する個々の発話状態のうち、それぞれj番目、j−1番目の発話状態を示す。そして、調整係数算出部143は、音響特徴量[f(x,y)]に調整係数[c’(x,y)]を乗じて得られる調整特徴量[f(x,y)]が、選択した発話状態列q’(s)のもとで、式(4)に示す尤度P(f(x,y)([c(x,y)])|w)を最大化する調整係数[c(x,y)]を調整係数[c’(x,y)]と定める。尤度P([f(x,y)]([c(x,y)])|w)を最大化する調整係数[c(x,y)]を算出する手法については、次の文献に詳しく記載されている。
Seltzer,M. and Stern,R. “Subband likelihood−maximizing beamforming for speech recognition in reverberant environments”,In IEEE Transaction on Audio, Speech, and Language Processing,Vol.14,No.6,2006
調整係数算出部143は、各音源位置(x,y)と当該音源位置について算出した調整係数[c’(x,y)]とを対応付けて調整データを生成し、生成した調整データを調整データ記憶部106に記憶する。また、調整係数算出部143は、各音源位置について算出した調整係数[c’(x,y)]を特徴量調整部144に出力する。
特徴量調整部144は、式(5)に示すように、調整係数算出部143から入力された音源位置(x,y)毎の調整係数[c’(x,y)]を、当該音源位置(x,y)に係る音響特徴量[f(x,y)]に乗算して、当該音源位置(x,y)に係る調整特徴量[f’]を算出する。特徴量調整部144は、算出した調整特徴量[f’]をモデル生成部145に出力する。
モデル生成部145は、モデル記憶部109から読み取ったクリーン音声音響モデルλ(s)と特徴量調整部144から入力された音源位置(x,y)毎の調整特徴量[f’]とを用いて、当該音源位置(x,y)に係る位置依存音響モデルΨ(n)を生成する。nは、音源位置(x,y)を示すインデックスである。位置依存音響モデルΨ(n)の生成において、モデル生成部145は、与えられた調整特徴量[f’]のそれぞれについて尤度を算出し、尤度が増加(最大化)するように位置依存音響モデルΨ(n)のモデル変数を更新する。モデル生成部145は、モデル変数の更新に伴う尤度の変化量の絶対値が、所定の変化量の閾値よりも小さくなる(収束)までモデル変数の更新を繰り返す。その後、モデル生成部145は、音源位置(x,y)と当該音源位置(x,y)に係る位置依存音響モデルΨ(n)を対応付けてモデル記憶部109に記憶する。
ここで、モデル生成部145は、各位置依存音響モデルΨ(n)のモデル変数として、混合重み係数(mixture weight)Cim (n)、平均値(mean)[μim (n)]、共分散行列(covariance matrix)[Σim (n)]、及び遷移確率(transition probability)aij (n)を、式(13)−(16)に示すように算出する。
式(13)−(16)において、Lim (n)、[mim (n)]、[vim (n)]は、それぞれ音源位置n毎の状態iにおける基底mに係る累積混合要素占有度(accumulated mixture occupancy)、平均値(mean)、分散(variance)を示す。また、Lij (n)は音源位置n毎の状態iからjへの状態遷移度(state transition occupancy)、Jは遷移先の状態の数を示す。
(音響モデルの更新)
次に、モデル更新部110が行う音響モデルの更新に係る処理について説明する。
図5は、本実施形態に係る音響モデル更新処理を示すフローチャートである。
(ステップS101)モデル更新部110は、調整係数乗算部108から入力された音源毎の調整特徴量[f’]について、モデル記憶部109に記憶されたM個の位置依存音響モデルΨ(n)及びクリーン音声音響モデルλ(s)のそれぞれについて尤度を算出する。モデル更新部110は、位置依存音響モデルΨ(n)それぞれの尤度からクリーン音声音響モデルλ(s)の尤度を基準とした相対尤度を算出する。その後、ステップS102に進む。
(ステップS102)モデル更新部110は、M個の位置依存音響モデルΨ(n)のうち、最も相対尤度が高い位置依存音響モデルΨ(n)からN(Nは、Mよりも小さく1以上の整数、例えば、12)番目に相対尤度が高い位置依存音響モデルΨ(n)を選択する。その後、ステップS103に進む
(ステップS103)モデル更新部110は、選択したN個の位置依存音響モデルΨ(n)のモデル変数と、クリーン音声音響モデルλ(s)との間で、それぞれのモデル変数を線形結合して新たなモデル変数を算出する。算出されたモデル変数により音源位置nに係る新たな位置依存音響モデルλ(upd)が規定される。ここで、モデル更新部110は、式(17)−(20)に示すように、選択したN個の位置依存音響モデルΨ(n)と、クリーン音声音響モデルλ(s)との間で、モデル変数として混合重み係数Cim、平均値[μim]、共分散行列[Σim]、遷移確率aijに、音響モデル毎の重み係数γをそれぞれ乗算して得られた乗算値の総和をとることにより、新たな混合重み係数Cim (upd)、平均値[μim(upd)、共分散行列[Σim(upd)、及び遷移確率aij (upd)を算出する。
式(17)−(20)に示す例では、重み係数γは、クリーン音声音響モデルλ(s)に対する重み係数を1として相対化された値である。また、重み係数γは、相対尤度が高い位置依存音響モデルΨ(n)ほど大きい値であり、相対尤度が低い位置依存音響モデルΨ(n)ほど小さい値である。そのため、新たなモデル変数は、相対尤度が高い位置依存音響モデルΨ(n)ほど重視して算出される。但し、その他の位置依存音響モデルΨ(n)の寄与を考慮することにより、音源位置によって異なる残響による影響(例えば、音声認識に寄与する周波数帯域)が相互に補われる。
モデル更新部110は、算出した混合重み係数Cim (upd)、平均値[μim(upd)、共分散行列[Σim(upd)、遷移確率aij (upd)をモデル変数とする位置依存音響モデルλ(upd)を生成する。その後、ステップS104に進む。
(ステップS104)モデル更新部110は、生成した位置依存音響モデルλ(upd)を、その音源の音源位置(x,y)に係る位置依存音響モデルΨ(n)としてモデル記憶部109に記憶する。その後、ステップS105に進む。
(ステップS105)モデル更新部110は、相対尤度が最も低い位置依存音響モデルΨ(n)を、モデル記憶部109から消去する。これにより、位置依存音響モデルΨ(n)の総数が一定に保たれる。その後、図5に示す処理を終了する。
なお、図5に示す処理において、モデル更新部110は、クリーン音声音響モデルλ(s)を用いずに、N個の位置依存音響モデルΨ(n)を用いて新たなモデル変数を算出してもよい。しかし、モデル更新部110は、残響による影響を受けずに生成されたクリーン音声音響モデルλ(s)に係るモデル変数を用いることで、音声信号に含まれる周波数成分の全体を音声認識の手がかりとして利用することができる。また、モデル更新部110は、ステップS105の処理を省略することにより、位置依存音響モデルΨ(n)の総数の増加を許容してもよい。
(音声処理)
次に、本実施形態に係る音声処理について説明する。図6は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS111)音源定位部101は、収音部12が取得したPチャネルの音声信号を用いて音源位置を算出する。その後、ステップS112に進む。
(ステップS112)音源分離部102は、音源定位部101で音源位置を定めた音源数が複数であるか否かを判定する。音源分離部102は、音源数が複数である場合、Pチャネルの音声信号を、それぞれの音源位置に基づいて音源別音声信号に分離する。音源分離部102は、音源数が1個である場合、Pチャネルの音声信号のうちのいずれか、例えば、音声レベルの最も高いチャネルの音声信号を当該音源の音源別音声信号と定める。その後、ステップS113に進む。
(ステップS113)残響抑圧部103は、音源毎の音源別音声信号のそれぞれについて残響成分を抑圧し、残響抑圧音声信号を生成する。その後、ステップS114に進む。
(ステップS114)特徴量算出部104は、音源毎の残響抑圧音声信号のそれぞれについて音響特徴量を生成する。その後、ステップS115に進む。
(ステップS115)調整係数取得部107は、調整データ記憶部106に記憶された調整データを参照して、音源毎の音源位置に対応した調整係数を取得する。その後、ステップS116に進む。
(ステップS116)調整係数乗算部108は、音源毎の音響特徴量に、当該音源の音源位置に対応した調整係数を乗算して、当該音源の調整特徴量を算出する。その後、ステップS117に進む。
(ステップS117)モデル更新部110は、調整係数乗算部108で算出された音源毎の調整特徴量についてモデル更新処理(図5)を行う。その後、ステップS118に進む。
(ステップS118)音声認識部111は、音源毎の調整特徴量について、当該音源について生成した位置依存音響モデルを用いて音韻列を定める。音声認識部111は、音源毎に定めた音韻列について所定の言語モデルを用いて認識結果となる文を表す認識データを生成する。その後、図6に示す処理を終了する。
(残響の影響)
次に、残響の影響について説明する。図7は、音声信号のスペクトログラムの例を示す。図7(a)、(b)ともに、縦軸、横軸は、それぞれ周波数、時刻を示す。図7(a)、(b)において周波数の範囲は0−8kHz、期間は0−2.7秒である。また、パワーの大きさが濃淡で表されている。明るい部分ほどパワーが大きく、暗い部分ほどパワーが低いことを示す。
図7(a)は、ある話者の発話中において残響下で収録された音声信号のスペクトログラムを示す。図7(b)は、図7(a)に示す音声信号について残響抑圧部103により生成された残響抑圧音声信号のスペクトログラムを示す。図7(a)、(b)を比較すると、図7(a)の方が図7(b)よりも全体的にパワーが高く、パワーが高い部分が継続している。特に、図7(a)が示す破線で囲まれた周波数帯域及び期間におけるパワーが、図7(b)に示す例では、ほぼ抑圧されている。当該期間においては、発話が停止され、もっぱら残響成分が収録されるためである。
図8は、調整特徴量の分布例を示す図である。図8において、縦軸、横軸は、それぞれ第1主成分の寄与度、第2主成分の寄与度を示す。第1主成分、第2主成分は、ある一定の音源位置(a,b)から到来した音声の音声信号について算出した調整特徴量の集合について主成分分析(PCA:Principal Component Analysis)を行って得られた2つの固有ベクトルである。つまり、第1主成分、第2主成分は、音源位置(a,b)からの音声信号の調整特徴量の変化を最も説明することができる2つの成分である。第1主成分の寄与度、第2主成分の寄与度は、それぞれ調整特徴量と第1主成分との内積、当該調整特徴量と第2主成分との内積で与えられる。第1主成分の寄与度と第2主成分の寄与度を用いることで、種々の調整特徴量又は音響特徴量の分布が2次元平面上で表される。
図8において、破線で囲まれる部分が音源位置(a,b)からの音声信号に基づく調整特徴量の分布D1を示す。以下の考察では、分布D1を目標分布とする。これに対し、○印の分布は、モデル更新部110による音響モデル更新処理と特徴量調整部105による音響特徴量の調整により得られた調整特徴量の分布D2を示す。▲印の分布は、音響モデル更新処理を行わずに、特徴量調整部105による音響特徴量の調整により得られた調整特徴量の分布D3を示す。□印の分布は、残響抑圧部103による残響抑圧も、音響モデル更新も、音響特徴量の調整も行われずに得られた音響特徴量の分布D4を示す。図8に示す例では、分布D4が、分布D1のみならず分布D2、D3からも乖離している。分布D3は、分布D4よりも分布D1に近接し、分布D1の周縁部の一部と重複する。分布D2は、分布D3よりも分布D1に近接し、分布D1のほぼ半分の領域と重複する。このことは、上述した残響成分の抑圧と音響特徴量の調整により、音響モデルの生成に係る音響特徴量と音声認識処理における音響特徴量との乖離を低減することで音声認識精度が向上することを示す。また、このことは、さらに音響モデル更新処理により当該乖離を低減して音声認識精度が向上することを示す。
以上に説明したように、本実施形態に係る音声処理装置10は、取得した音声から音源位置を定める音源定位部101、音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部103、及び残響抑圧音声の音響特徴量を算出する特徴量算出部104を備える。また、音声処理装置10は、音響特徴量に音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部105と、前記調整特徴量を用いて音声認識を行う音声認識部111を備える。
この構成により、残響成分を抑圧した残響抑圧音声の特徴量に、音源位置に応じた調整係数が乗じられて算出される調整特徴量により音声認識が行われる。残響の影響の音源位置依存性が緩和されるため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
また、音声処理装置10において、調整係数は、音響特徴量を用いて算出される音韻毎の尤度よりも、当該音響特徴量に当該調整係数を乗じて算出された調整特徴量を用いて算出される尤度のほうが高くなるように予め算出されたことを特徴とする。
この構成により、残響抑圧音声の特徴量に調整係数を乗じた調整特徴量を用いることで、残響抑圧音声の特徴量よりも、音韻毎の尤度を高くすることができる。そのため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
また、音声処理装置10は、調整特徴量と音源位置毎の位置依存音響モデルを用いて算出した尤度に基づいて所定の数の位置依存音響モデルを選択し、選択した位置依存音響モデルのモデル変数を線形結合して、音源位置に対応する位置依存音響モデルを生成するモデル更新部110を備える。また、音声認識部111は、モデル更新部110が生成した音響モデルを用いて音声認識を行う。
この構成により、音声認識精度を著しく劣化させる尤度が低い位置依存音響モデルの選択が回避され、選択された位置依存音響モデルのモデル変数を線形結合することで、位置依存音響モデルの生成において音源位置間で異なりうる残響の影響を受けない周波数成分が相補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
また、音声処理装置10において、モデル更新部110は、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合して音源定位部101が定めた音源位置に対応する位置依存音響モデルを生成する。
この構成により、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合することで、残響の影響を受けない周波数成分が補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
また、音声処理装置10において、モデル更新部110は、モデル更新部110は、尤度が所定の尤度よりも低い位置依存音響モデルを除去する。
この構成により、音源位置の変化に応じて尤度が低下しないように位置依存音響モデルが更新されるので、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。第1の実施形態と同一の構成については、同一の符号を付してその説明を援用する。図9は、本実施形態に係る音声処理システム2の構成を示すブロック図である。
音声処理システム2は、音声処理装置10、収音部12、動作制御部27、音声再生部28及び動作機構部29を含んで構成される。即ち、音声処理システム2は、音声処理システム1に対して更に動作制御部27、音声再生部28及び動作機構部29を含む。音声処理システム2は、例えば、対話機能を有するロボットとして構成される。
動作制御部27は、音声処理装置10の音声認識部111において認識された発話に応じた動作を音声再生部28又は動作機構部29に実行させる。動作制御部27は、記憶部271、動作判定部272及び音声合成部273を含んで構成される。
記憶部271には、動作データが予め記憶されている。動作データは、予め定めたユーザの発話文を示す認識データと動作機構部29を制御するための制御変数(パラメータ)を示す制御データとを対応付けて形成されたデータである。例えば、認識データとしてロボットに対する動作(例えば、歩行)を指示するためのデータと、制御データとして当該動作を動作機構部29が実行するための制御変数(例えば、脚部のモータを駆動するための電力)を表すデータとが対応付けられている。また、動作データには、対話データがある。対話データは、認識データと、制御データとして発話文を示す発話データとを対応付けて形成されたデータである。対話データの例について後述する。
動作判定部272は、音声処理装置10から入力された認識データが示す文の一部又は全部が、一致又は近似する発話文を示す認識データを含んだ動作データを記憶部271から検索する。動作判定部272は、例えば、入力された認識データが示す文と、発話文との間のハミング距離が所定の距離の閾値よりも小さい発話文を、入力された認識データが示す文と近似する発話文と判定する。動作判定部272は、検索した動作データが対話データである場合には、当該対話データを音声合成部273に出力する。動作判定部272は、検索した動作データが対話データではない場合には、運動制御用の動作データであると判定し、当該動作データを動作機構部29に出力する。
音声合成部273は、動作判定部272から入力された対話データのうち発話データが示す発話文についてテキスト音声合成処理を行い、当該発話文を表す発話音声に係る音声信号を生成する。音声合成部273は、生成した音声信号を音声再生部28に出力する。
音声再生部28は、音声合成部273から入力された音声信号に基づいて音声を再生する。音声再生部28は、例えば、スピーカを含んで構成される。
動作機構部29は、動作判定部272から入力された動作データが示す制御変数に基づいて、所定の動作を実行する。動作機構部29は、例えば、制御変数として指示された電力の供給を受け、脚部に備えられたモータを駆動することによって歩行を実現する。
(対話データの例)
次に、対話データの例について説明する。図10は、対話データの例を示す図である。図10に示す対話データのうち、Sp1が認識データ、Sp2が発話データである。Sp1は、「やあ、昨日寿司屋に行って鮎を出してもらったんだ。鮎って英語で何て言うの?」という文を示す。Sp1において、下線が付された部分は、他の語句に置換可能な部分であり、入力された認識データとの一致又は近似を判定する際に無視される。図10においては、Sp1の「鮎」に代えて、他の日本語の魚の名称に置換可能である。例えば、音声認識部111から「やあ、昨日寿司屋に行ってまぐろを出してもらったんだ。まぐろって英語で何て言うの?」を示す認識データが入力された場合を仮定すると、動作判定部272は、Sp1に示す認識データを含む対話データを検索する。そして、動作判定部272は、そして、動作判定部272は、入力された認識データが示す文のうち、無視した部分である日本語の魚の名称として「鮎」に代えて「まぐろ」を検出する。
Sp2は、「Sweetfishだよ。」という文を示す。Sp2において、下線が付された部分は、Sp1について検出された語句に置換される部分である。動作判定部272は、検出した「まぐろ」に相当する英語の名称「tuna」を、記憶部271に予め記憶されている単語辞書データを参照して特定する。動作判定部272は、検索した対話データに含まれるSp2に示す発話データのうち、「Sweetfish」の部分に特定した「tuna」を代入し、代入した発話データを音声合成部273に出力する。そして、音声合成部273は、「tunaだよ」という発話を示す音声信号を合成し、合成した音声信号を音声再生部28に出力する。
(収音部の配置)
図11に示す例では、収音部12は、ロボットRtとして構成された音声処理システム2の頭部に配置されたP個(図示の例では7個)の収音素子12−1〜12−7を含んで構成される。収音素子12−1〜12−7は、互いに半径が異なる2つの同心円上に、中心Cから互いに異なる方向に配列されている。これにより、平面内のあらゆる方向から到来する音を取得し、音源を特定することができる。一方の円上には、収音素子12−1、12−4、12−7が配列され、他方の円上には、収音素子12−2、12−3、12−5、12−6が配列されている。
(動作検証)
次に、本実施形態に係る音声処理システム2の動作検証の例について説明する。
動作検証は、4つの実験室1−4のそれぞれにおいて行った。実験室1−4の平面上の大きさは、いずれも4.8m×5.5mである。実験室1、2、3、4の残響時間(RT:reverberation time)は、それぞれ80ms、240ms、900ms、940msである。実験室1−4には、それぞれ空調装置、電子計算機が設置され、各々背景雑音の原因となるが、いずれも信号対雑音比は約20dBである。
図12は、実験室4の平面図である。図12に示すように、各実験室には、7点の音源位置T1−T7を設定した。実験室1−4間において、ロボットRtとして構成された音声処理システム2と音源位置T1−T7との位置関係は同様である。音源位置T1−T7の順にロボットRtまでの距離が大きい。そのうち、音源位置T1からの距離が最も小さく、音源位置T7からの距離が最も大きい。なお、ロボットRtは、自由度が20である人型の2足歩行ロボットである。また、実験室4には、図12に示すようにテーブルTb1、Tb2、ソファSf1、Sf2、白板Wb及び冷蔵庫Rfなどの備品が設置されていた。これらの備品は、音源位置T1−T7とロボットRtとの間で伝搬する音声が遮蔽されない位置に配置されていた。
調整データ、位置依存音響モデルΨ(n)の生成に用いたクリーン音声データベースとして日本語、英語それぞれの言語の新聞記事読み上げ音声コーパスを用いた。具体的には、日本語新聞記事文(JNAS:Japanese Newspaper Article Sentences)コーパスと、ワールドストリートジャーナル(World Street Journal)コーパスである。
本動作検証では、自動音声認識(ASR:Automatic Speech Recognition)、音声言語理解(SLU:Spoken Language Understanding)の両面について実験を行った。自動音声認識に係る実験は、10名の日本語の母語話者と10名の英語の母語話者に対し、音源位置T1−T7のいずれかにおいて各自20回ずつ発話させた。発話内容は、予め原稿として用意された一定の内容である。なお、(1)連続音声認識については話者の位置をロボットRtに近接させて実行させたのに対し、(2)単語検出ならびに発話検出(VAD:Voice Activity Detection)については話者の位置をロボットRtから遠ざけて実行させた。自動音声認識では、例えば、挿入誤り(insertion error)、削除誤り(deletion error)の発生の有無が検証される。挿入誤りとは、発話されていない音韻が挿入される認識誤りである。削除誤りとは、発話された音韻が無視される認識誤りである。
音声言語理解に係る実験では、音声認識処理によって得られた文のうち、ロボットRtとして構成された音声処理システム2として無意味な情報を無視し、意味のある情報を抽出する性能を検証した。実験は、寿司屋で行われる会話を例にして行った。この例では、話者に対し、音声処理システム2に対して代表的な日本料理である寿司又は刺身に用いられる種々の魚に関する質問を発話させた。音声処理システム2には、例えば、図10に示す対話データを用いることにより、任意の位置で発された残響付加音声を用いて魚の名称を特定させた。従って、音声処理システム2は、音声認識処理により発話内容を認識し、認識した日本語又は英語の魚の名称を、それぞれ英語又は日本語の魚の名称に翻訳した。発話させた質問の形式は自由形式である。即ち、話者には自由に質問を行わせ、音声処理システム2に対して質問内容から魚の名称を抽出させた。但し、話者間で質問内容を統一するために、予め作成した原稿を用いた。質問形式は、原稿の内容に盛り込まれている。
本動作検証では、次の内容を含む対話シナリオが用いられた。
(a)音声処理システム2に対して、話者に日本語又は英語の質問を理解させる。
(b)連続音声認識に関する実験と単純な発話検出に関する実験(後述)とを、音声処理システム2と話者との距離に応じて実施し分ける。
(c)発話検出において、音声処理システム2に近づいて確認のための質問を話者にさせて、音声を検出させる。
(d)連続音声認識において、魚の名称を音声処理システム2に翻訳させる。
(e)音源である話者との距離に応じて、発話データに基づいて再生した音声の音量を音声処理システム2に制御させる。音声再生部28は、再生される音声信号のパワーが距離の二乗に比例するようにその音量を制御する。
次に、本動作検証の結果について説明する。本動作検証は、次の方法A−Eを用いて行った。方法Aは、音声処理システム2の残響抑圧部103において残響成分の抑圧を行い、モデル更新部110による音響モデル更新処理と特徴量調整部105による音響特徴量の調整を行わない方法である。方法Bは、残響抑圧部103において残響成分の抑圧を行い、予めMLLR(Maximum Likelihood Linear Regression)適応を行って生成した音響モデルを用いて音声認識を行う方法である。MLLR適応では、音源位置T1−T7のそれぞれにおいて、話者に対して尤度が最大になるように音響モデルが生成される。従って、検証結果の考察において、方法Bによる結果を理想的な状態による結果であるものとして扱う。方法C(本実施形態に係る方法)は、残響抑圧部103において残響成分の抑圧を行い、モデル更新部110による音響モデル更新処理と特徴量調整部105による音響特徴量の調整を行って音声認識を行う方法である。方法D(従来方法)は、線形予測(LP:Linear Prediction)に基づいて残響成分を抑圧して音声認識を行う方法である。方法Eは、残響成分の除去、音響モデル更新処理、音響特徴量の調整、いずれも行わずに音声認識を行う方法である。
(連続音声認識)
図13は、連続音声認識の実験結果を示す図である。図13に示す実験結果は、実験室1−4のそれぞれで得られた実験結果が総合されている。図13では、方法A、B、C、D、Eによる結果を、それぞれ記号△、◇、□、×、〇で示す。図13(a)において、縦軸、横軸は、それぞれ単語正解率(Word Accuracy)、音源位置T1−T7を示す。図13(b)において、縦軸、横軸は、それぞれコマンド正解率(Understood Command)、音源位置T1−T7を示す。図13(a)、(b)の上辺には、音声処理システム2と各音源位置との間の距離が、「個人距離(personal distance)」、「社会距離(social distance)」、「公共距離(public distance)」に属するかが示されている。これら3つの分類は、対人コミュニケーションにおける典型的な話者間距離の分類である。「個人距離」とは、話者の一方が手を伸ばせば他方に届く距離である。「社会距離」とは、話者間で互いに意思疎通が可能であるが詳細な表情を認識できない距離である。「公共距離」とは、意思疎通が成立しない距離である。そのうち、「個人距離」が最も距離が小さく、「公共距離」が最も距離が大きい。
図13に示す結果より、単語正解率、コマンド正解率ともに方法B、C、A、D、Eの順に高く、音源位置T1−T7の順に高い。単語正解率、コマンド正解率、方法Bについて最も高く、本実施形態に係る方法Cについて、その次に高い。
特に音源位置T5−T7において、方法Cについての単語正解率、コマンド正解率は、従来から残響抑圧方法としてしばしば用いられた方法Dよりも顕著に高い。また、方法Cについての単語正解率、コマンド正解率が、方法Aよりも高いことは、モデル更新部110による音響モデル更新処理と特徴量調整部105による音響特徴量の調整による音声認識精度の低下の抑制を裏付ける。なお、方法B、C間において、音源位置T1、T2においては単語正解率、コマンド正解率ともに有意差がない。このことは、話者と音声処理システム2との間の距離が、親密な意思疎通な可能な「個人距離」に属する場合には、方法Cにおいて音声認識精度の低下がほとんど生じないことを示す。また、方法B、C間において音源位置T3−T7について、単語正解率、コマンド正解率ともに有意差が認められる。その原因として、方法Bにおいて音響モデルを生成する際に用いた話者毎の発話回数が30回と、方法Cにおける発話回数(20回)よりも多いことが考えられる。なお、方法Bのように予め音源位置毎に音響モデルを学習しておく方法は、話者の自由な移動や残響環境の変化には適応することができない。
なお、方法Cでは、「個人距離」又は「社会距離」に属する話者の位置である音源位置T1−T4のいずれについても単語認識率が90%となる。このことは、残響下における連続音声認識として有用であることを示す。他方、「公共距離」に属する音源位置T5−T7では、単語認識率が75%以下となり、残響下における連続音声認識としては有用ではない。しかしながら、かかる距離のもとでは意思疎通が成立しないことを鑑み、音声処理システム2は少なくても話者が発話した音声を検出できればよいと考えられる。
(音声検出)
音声処理装置10は、音源毎の音源別音声信号について音声検出処理を行う音声検出部(図示せず)を備えてもよい。音声検出部は、例えば、所定の時間間隔(例えば、50ms)で音源別音声信号の零交差点(zero crossing)を計数し、零交差点が所定範囲内(例えば、200〜500回/秒)で、かつ音源別音声信号の強度が所定の強度の閾値を超える場合に、音声を検出したと判定し、それ以外の場合に音声を検出しないと判定する。また、音声認識部111は、推定された距離が所定の距離の閾値(例えば、2m)を超える音源に係る音源別音声信号について音声認識に係る処理を停止し、距離が所定の距離の閾値以内の音源に係る音源別音声信号について音声認識に係る処理を実行してもよい。
図14は、音声検出率を示す図である。図14に示す音声検出率は、音源位置T1―T7のそれぞれについての音声検出率である。音声検出率は、音源位置T1−T4のいずれも100%であり、音源位置T5−T7の順に低くなるが、いずれも97%以上となり、実用上十分な音声検出率である。従って、音声処理システム2を装着したロボットRtと話者との距離が「個人距離」又は「社会距離」の範囲内に近接した場合には、音声処理システム2は、音声認識に係る処理を再開し、話者との間で対話を再開することができる。
(従来方法との比較)
次に、本実施形態に係る音声処理システム2による単語認識率と、従来の残響抑圧方法により残響成分を抑圧した音声信号についての単語認識率とを比較する。図15は、各方式による単語認識率を示す図である。図15の各行に方法を示し、各列に実験室を示す。方法A−Jのうち、方法Jは本実施形態に係る処理である。結果の比較においては、音声認識に係る処理としてウェブサイト“Reverb Challenge”(http://reverb2014.dereverberation.com)に記載の方法を共通に用い、残響抑圧方法ならびに音響モデルの更新処理の差異に注目した。また、残響の影響は、音源からの距離が大きいほど顕著であるため、音声処理システム2までの距離が小さい音源位置T1、T2に係るデータを無視した。
本実施形態に係る方法Jについて、実験室1、2、3のそれぞれにおける単語認識率は、94.3%、91.1%、90.2%となった。これらの単語認識率は、他の方法A−Iのいずれに係る単語認識率よりも高い。従って、本実施形態において、残響成分を抑圧するだけではなく、音響特徴量を調整し、音響モデルを更新することにより、音声認識精度の低下が抑制されることが裏付けられる。
なお、方法Aは、次の文献に記載されている方法のうち、CMLLR(Constrained MLLR)を採用した方法であり、方法Bは、CMLLRを採用していない方法(No CMLLR)である。
Astudillo,R.,Braun,S.and Habets,E.“A multichannel feature comparison approach for robust asr in noisy and reverberant environments” Workshop on Reverb Challenge,2014
方法Cは、次の文献に記載されている方法であり、図13の方法Bに相当する。
Yegnanarayana,B.and Satyaranyarana,P.“Enhancement of reverberant speech using lp residual signals” Proceedings of IEEE transactions on Audio, Speech and Language,2000
方法Dは、次の文献に記載されている方法である。
Palomlki,K.and Kallasjoki,H.“Reveberation robust speech recognition by matching distributions of spectrally and temporally decorrelated features”,Proceedings Workshop on Reverb Challenge,2014
方法Eは、次の文献に記載されている方法である。
Griebel,S.and Brandstein,M.“Wavelet transform extrema clustering for multi−channel speech dereveberation”,Proceedings Workshop on Reverb Challenge,2014
方法Fは、次の文献に記載されている方法のうち、CMLLR(Constrained MLLR)を採用した方法であり、方法Gは、CMLLRを採用していない方法(No CMLLR)である。
Leng,T.,Dennis,J.,Ng,W.and Dat,T.“Pbf−gsc beamforming for asr and speech enhancement in reverberant environments”, Proceedings Workshop on Reverb Challenge,2014
方法Hは、次の文献に記載されている方法である。
Xiao,X.,Shengkui,Z.,Nguyen,D.and Xionghu,Z. “The ntu−adsc systems for reverberation challenge 2014”,Proceedings Workshop on Reverb Challenge,2014
方法Iは、次の文献に記載されている方法である。
Geiger,J.,Marchi,E.,Schuller,B.and Rigoll,G.“The tum system for the reverb challenge: Recognition of reveberated speech using multi−channel correlation shaping dereveberation and blstm recurrent neural networks”, Proceedings Workshop on Reverb Challenge,2014
以上に説明したように、音声処理装置10によれば、残響下における音源位置の変化による音声認識率の低下を抑制することができる。また、本実施形態に係る音声処理システム2は、音声認識部111が認識した発話に応じた動作を実行する動作制御部27、を備える。
そのため、音声認識部111が認識した発話に応じた動作が実行されるので、残響下における音源位置の変化に関わらず、ユーザ所望の動作が発話を通じてより確実に指示される。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。上述の実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図16は、本実施形態に係る音声処理システム1Aの構成を示すブロック図である。
本実施形態に係る音声処理システム1Aは、収音部12及び音声処理装置10Aを含んで構成される。音声処理装置10Aは、音源定位部101、音源分離部102、残響抑圧部103A、特徴量算出部104A、モデル記憶部109A、音声認識部111A及び残響成分データ記憶部112Aを含んで構成される。
残響成分データ記憶部112Aには、音響環境毎に複数セットの残響成分データを予め記憶しておく。残響成分データは、各周波数帯域bの残響成分係数δからなるセットを示すデータであり、一般に音響環境に依存する。音響環境は、室内の残響特性、音源位置(x,y)などによる残響特性に影響する音響環境の変動要素(acoustic perturbation)を意味する。残響特性は、例えば、室内伝達関数(RTF:Room Transfer function)で表される。残響成分データをオフラインで生成する処理データ生成部14Aについては、後述する。以下の説明では、音響環境が音源位置と部屋の組である場合を例にする。残響成分データ記憶部112Aに記憶される残響成分データに係る音源位置の個数は、複数(例えば、15個)である。また、部屋の数も、一般に複数(例えば、4個)である。以下の説明では、音響環境ξ毎のセットのそれぞれを、zを用いて区別する。音響環境ξ毎のセットの数をZ(Zは、1以上の整数、例えば、15)で表す。
残響抑圧部103Aは、音源分離部102から入力された音源毎の音源別音声信号についてセットz毎の残響成分データを用いてそれぞれ残響抑圧処理を行うことにより残響抑圧音声信号を生成する。残響抑圧部103Aは、残響抑圧処理において、例えば、式(21)を用いて残響抑圧音声信号を生成する。
式(21)において、e’(ω,j)、r(ω,j)は、それぞれ残響抑圧音声信号、音源別音声信号のフレームjにおける周波数成分を示す。この音源別音声信号は、その音源位置に応じた残響が付加された音声信号である残響付加音声信号に相当する。式(21)の右辺第1行第2項は、残響成分、具体的には後期反射成分を示す。従って、式(21)の右辺第1行は、音源別音声信号の周波数成分からセットz毎の残響成分を差し引いて残響抑圧音声信号の周波数成分を生成することを意味する。また、βは、0よりも大きいが1よりも0に近似する微小な実数である。従って、式(21)の右辺第2行は、右辺第1行によって得られた値が0以下の場合(その他の場合)において、残響抑圧音声信号の周波数成分として音源別音声信号の周波数成分に微小な正の実数値を乗じて得られる値を算出することを意味する。これにより、残響抑圧処理における異常な値の発生を回避する。残響抑圧部103Aは、セットz毎に生成した残響抑圧音声信号を特徴量算出部104Aに出力する。
特徴量算出部104Aは、残響抑圧部103Aから入力されたセットz毎の残響抑圧音声信号について、所定の期間(つまり、フレーム)毎に音響特徴量を算出する。特徴量算出部104Aが算出する音響特徴量は、上述した実施形態に係る特徴量算出部104(図1)が算出する音響特徴量と同じ種類の音響特徴量であってもよい。特徴量算出部104Aは、セットz毎に算出した音響特徴量を音声認識部111Aに出力する。
モデル記憶部109Aには、音声認識に用いられる音響モデルと言語モデルが予め記憶されている。モデル記憶部109Aに記憶される音響モデルの個数は少なくとも1個あれば足りる。
音声認識部111Aは、特徴量算出部104Aから入力されたセットz毎の音響特徴量について音声認識に係る処理を行う。ここで、音声認識部111Aは、セットz毎にモデル記憶部109Aに記憶された音響モデルを参照して、入力された音響特徴量からなる音響特徴量列から与えられる発話状態列について尤度を算出する。音声認識部111Aは、式(22)に示すように、セットz毎に算出した尤度のうち最も高い尤度を与えるセットz’に係る発話状態列を選択する。
式(22)において、P(f(r)(α(ω,z))|w)は、セットzに係る残響抑圧音声信号から得られた音響特徴量列から与えられる発話状態列についての尤度を示す。f(r)(α(ω,z))は、セットzに係る残響抑圧音声信号から得られた音響特徴量を示す。α(ω,z)は、セットzに係る音響環境ξについて算出した補正係数(temporal smearing filter)[α]の周波数成分(後述)を示す。wは、算出した発話状態列に対応する音韻列を示す。音声認識部111Aは、選択した発話状態列に対応する音韻列を特定し、特定した音韻列のうちモデル記憶部109Aに記憶された言語モデルに基づいて、それらの音韻列で表される文の候補毎の尤度を算出し、尤度が最も高い文を表す認識データを音声処理装置10Aの外部、例えば、動作制御部(図9)に出力する。
このように、音声処理装置10Aによれば、音源位置や部屋の残響特性などの音響環境ξに応じて異なるセット毎の残響成分データを用いて残響成分が抑圧された残響成分音声信号が得られる。そして、セット毎に得られた残響成分音声信号から算出された音響特徴量からなる音響特徴量列に対応する発話状態列のうち尤度が最も高い発話状態列に対応する音韻列が特定される。そのため、音響環境ξによる残響の影響の差異による音声認識精度の低下が抑制される。
なお、本実施形態では、音声処理システム2(図9)において、音声処理装置10に代えて音声処理装置10Aを含んで音声処理システム2A(図示せず)を構成してもよい。
(処理データ生成部)
次に、本実施形態に係る処理データ生成部14Aの構成について説明する。処理データ生成部14Aは、音響環境ξ毎に収録した音声信号を用いて補正係数[α]を算出し、算出した補正係数[α]と所定の残響伝達関数に基づいて予め残響成分データを生成しておく(オフライン処理)。
図17は、本実施形態に係る処理データ生成部14Aを示すブロック図である。処理データ生成部14Aは、補正係数算出部146A及び残響成分データ生成部147Aを含んで構成される。処理データ生成部14Aは、音声データ記憶部15を含んで構成されてもよい。音声データ記憶部15には、収音部12を介して音響環境ξ毎に収録した残響付加音声信号が記憶される。記憶される残響付加音声信号は、音響環境ξ間で共通の所定の発話内容を表す音韻列を与える。
補正係数算出部146Aは、音響環境ξ毎の残響付加音声信号rを音声データ記憶部15から取得し、取得した残響付加音声信号から算出される尤度をより高くする補正係数[α]を再帰的にZセット算出する。一般的に、音響特徴量からなる1つの音響特徴量列について音響モデルを用いて特定可能な発話状態列は、複数個存在しうる。具体的には、補正係数算出部146Aは、次に説明する処理を行う。
補正係数算出部146Aは、残響付加音声信号rについてセットz毎の補正係数[α]を用いて所定のフィルタ処理を行い、補正音声信号oを生成する。所定のフィルタ処理は、例えば、式(23)に示す畳み込み演算である。
式(23)において、n、mは、それぞれ残響付加音声信号r、補正音声信号oの各サンプルを示すインデックスである。mは、0からM−1のいずれかの整数を示す。Mは、フィルタ長、即ち補正係数[α]の要素数を示す。Mは、RTFを表現するために十分な数であればよい。即ち、Mは、残響時間に相当するサンプル数と同等かそのサンプル数よりも多ければよい。αは、補正係数[α]の要素値を示す。つまり、補正係数[α]は、[α,α,…,αM−1と表されるベクトルである。
補正係数算出部146Aは、セット毎に生成された補正音声信号oについて特徴量算出部104Aと同様に音響特徴量f(o)([α])を算出する。
補正係数算出部146Aは、セット毎に算出した音響特徴量f(o)([α])からなる音響特徴量列について、式(24)に示す尤度Γ([α])をより高くする補正係数[α]を算出する。
式(24)において、P(f (o)([α])|s’)は、フレームjにおける音響特徴量f (o)([α])についてモデル記憶部109Aに記憶された音響モデルと同一の音響モデルに基づいて発話状態sを与える出力確率である。発話状態sは、所定の音韻列wに対応する発話状態列を構成する発話状態である。式(24)は、尤度Γ([α])が、これらの出現確率の対数値のフレームj間の総和で与えられることを示す。
式(24)に示す尤度Γ([α])をより大きくすることは、式(25)で表される所定の音韻列wに係る尤度logP(f (o)([α])|w)を最大化するための1つの要件である。
これにより、オンラインの音声認識処理において式(26)で与えられる尤度logP(f(o)([α’])|w)P(w)が最も高い音韻列w’が、正しい認識結果として得られることが期待される。
補正係数算出部146Aは、補正係数[α]を算出する際、例えば、最急勾配法を用いる。最急勾配法は、指標値として尤度Γ(α)の補正係数[α]の各要素値で張られるベクトル空間における勾配∇[α]Γ([α])に比例した更新量を算出し、算出した更新量を補正係数[α]に加算する処理を逐次に繰り返す手法である。勾配∇[α]Γ([α])は、式(27)に示すように、尤度Γ(α)の各要素値についての偏微分を要素値として有するベクトルである。
尤度Γ(α)の算出に用いられる音響モデルは、例えば、GMMに基づくHMMである。GMMは、基底として音響特徴量の正規分布を重みづけ加算して発話状態の出力確率を表す統計モデルである。従って、勾配∇[α]Γ([α])は、式(28)で表される。
式(28)において、vは、基底を示すインデックスである。Vは、音響モデルを表すために用いられる基底の個数を示す。γjv、Σjv、μjvは、それぞれ発話状態のフレームjに係る基底vの混合重み係数、共分散行列、平均値を示す。∂f (o)([α])/∂[α]は、音響特徴量f (o)([α])の補正係数[α]に対するヤコビ行列である。式(28)に示すように勾配∇[α]Γ([α])は、音響特徴量f (o)([α])から平均値μjvの差分に、逆行列Σjv −1、ヤコビ行列及び混合重み係数を乗じて得られるγjvの総和となる。これは、音響モデルの基底として用いられる正規分布を音響特徴量で微分して得られる導関数が、その正規分布に逆行列Σjv −1を乗算して得られる行列となるためである。このように、補正係数算出部146Aは、補正係数[α]の更新量を基底間の積和演算により算出することができる。そのため、更新量の算出に要する計算量は比較的少ない。
補正係数算出部146Aは、補正係数[α]が所定の値に収束するまで更新量の算出と、算出した更新量に基づく補正係数[α]の更新を繰り返す。補正係数算出部146Aは、更新量の絶対値が所定の絶対値の閾値以下となったとき、補正係数[α]が収束したと判定し、更新量の絶対値が所定の絶対値を超えるとき、補正係数[α]が収束していないと判定する。
補正係数算出部146Aは、収束したと判定した補正係数[α]のうち、尤度Γ([α])が最も高い発話状態列に対応するものからZ番目に高い発話状態列までのそれぞれに対応するものを選択する。補正係数算出部146Aは、Zセットの補正係数[α]を残響成分データ生成部147Aに出力する。
残響成分データ生成部147Aは、所定のRTFについて補正係数算出部146Aから入力されたセットz毎の補正係数[α]を用いて所定のフィルタ処理を行って補正RTFを算出する。このフィルタ処理は、所定のRTFの周波数成分A(ω,z)に補正係数α(ω,z)の周波数成分を乗じて補正RTFの周波数成分A’(ω,z)を算出する処理と等価である。所定のRTFは、例えば、セットzの音響環境ξに係る部屋のある一点において測定されたRTFである。
残響成分データ生成部147Aは、クリーン音声データ記憶部13からクリーン音声信号cを取得し、取得したクリーン音声信号cとセットz毎に算出した補正RTFに基づいてセットzの残響成分係数δを算出する。具体的には、残響成分データ生成部147は、次の処理を行うことにより残響成分係数δを算出する。
残響成分データ生成部147Aは、クリーン音声信号の周波数成分c(ω,j)に補正RTFの周波数成分A’(ω,z)を乗じて、セットzの残響付加音声信号の周波数成分r(ω,j)を算出する。残響成分データ生成部147Aは、補正RTFのうち、音声認識精度の低下原因となる後期反射成分の周波数成分A(ω,z)を算出する。ここで、補正RTFが初期反射成分と後期反射成分との和からなるとの仮定のもとで、残響成分データ生成部147Aは、クリーン音声信号の周波数成分c(ω,j)に後期反射成分の周波数成分A(ω,z)を乗じて後期反射音声信号の周波数成分l(ω,j)を算出する。従って、残響付加音声信号の周波数成分r(ω,j)から後期反射音声信号の周波数成分l(ω,j)を差し引いて得られた残響抑圧音声信号の周波数成分e(ω,j)は、初期反射音声信号の周波数成分に相当する。
次に、残響成分データ生成部147Aは、式(29)に示すように後記反射音声信号の周波数成分l(ω,j)から、残響成分係数δと残響付加音声信号の周波数成分r(ω,j)を乗じて得られる値の残差の二乗値の総和である平均二乗誤差Eを算出する。残響成分係数δは、後記反射音声信号の周波数成分l(ω,j)の残響付加音声信号の周波数成分r(ω,j)に対する寄与率を示す。
式(29)において、Jは、平均二乗誤差Eを算出する範囲内における総フレーム数を示す。Bは、所定のQ個の周波数帯域のいずれかを示す。
残響成分データ生成部147Aは、各セットzについて平均二乗誤差Eを最小化するようにQ個の周波数帯域のそれぞれに対する残響成分係数δを算出する。残響成分データ生成部147Aは、各セットzについて算出した残響成分係数δを示す残響成分データを生成し、生成した残響成分データを残響成分データ記憶部112Aに記憶する。
(残響成分データ生成処理)
次に、本実施形態に係る残響成分データ生成処理(オフライン処理)について説明する。
図18は、本実施形態に係る残響成分データ生成処理を示すフローチャートである。
(ステップS121)補正係数算出部146Aは、音響環境ξ毎の残響付加音声信号rについて、セットz毎に算出した補正係数[α]を用いた所定のフィルタ処理を行って補正音声信号oを生成する。補正係数算出部146Aは、生成した補正音声信号oについて音響特徴量f(o)([α])を算出する。その後、ステップS122に進む。
(ステップS122)補正係数算出部146Aは、音響特徴量f(o)([α])について式(28)を用いて尤度の勾配∇[α]Γ([α])を算出し、勾配∇[α]Γ([α])に比例する補正係数[α]の更新量を算出する。補正係数算出部146Aは、算出した更新量を尤度Γ([α])に加算することにより補正係数[α]を更新する。その後、ステップS123に進む。
(ステップS123)補正係数算出部146Aは、更新量の絶対値に基づいて補正係数[α]がある値に収束したか否かを判定する。収束したと判定される場合(ステップS123 YES)、ステップS124に進む。収束していないと判定される場合(ステップS123 NO)、ステップS121に戻る。
(ステップS124)補正係数算出部146Aは、補正係数算出部146Aは、収束したと判定した補正係数[α]のうち、尤度Γ([α])が最も高い発話状態列に対応するものからZ番目に高い発話状態列までのそれぞれに対応するものを選択する。その後、ステップS125に進む。
(ステップS125)残響成分データ生成部147Aは、所定のRTFについて補正係数算出部146Aから入力されたセットz毎の補正係数[α]を用いて所定のフィルタ処理を行って補正RTFを算出する。残響成分データ生成部147Aは、補正RTFと、補正RTFにおける後期反射成分の周波数成分A(ω,z)から残響付加音声信号と後期反射音声信号を生成する。残響成分データ生成部147Aは、生成した残響付加音声信号と後期反射音声信号から式(29)を用いて算出される平均二乗誤差Eを最小化する残響成分係数δを算出する。残響成分データ生成部147Aは、各セットzについて算出した残響成分係数δを示す残響成分データを残響成分データ記憶部112Aに記憶する。
(音声処理)
次に、本実施形態に係る音声処理(オンライン処理)について説明する。図19は、本実施形態に係る音声処理を示すフローチャートである。
図19に示す音声処理は、ステップS111、S112及びS131−S134を有する。ステップS111及びS112の処理の終了後、ステップS131に進む。
(ステップS131)残響抑圧部103Aは、音源毎の音源別音声信号についてセットz毎の残響成分データを用いてそれぞれ残響抑圧処理を行うことにより、残響抑圧音声信号を生成する。その後、ステップS132に進む。
(ステップS132)特徴量算出部104Aは、セットz毎に生成された残響抑圧音声信号についてフレーム毎に音響特徴量を算出する。その後、ステップS133に進む。
(ステップS133)音声認識部111Aは、音響モデルを用いて、セットz毎に算出された音響特徴量からなる音響特徴量列から与えられる発話状態列について尤度を算出する。その後、ステップS134に進む。
(ステップS134)音声認識部111Aは、セットz毎に算出した尤度のうち最も高い尤度を与えるセットz’に係る発話状態列を選択する。音声認識部111Aは、選択した発話状態列に対応する音韻列のうち言語モデルに基づいて、それらの音韻列で表される文の候補毎の尤度を算出する。音声認識部111Aは、尤度が最も高い文を表す認識データを音声処理装置10Aの外部に出力する。その後、図19に示す処理を終了する。
(動作検証)
次に、本実施形態に係る音声処理システム2Aの動作検証の例について説明する。
動作検証は、上述の実験室1−4のそれぞれについて行った。音響モデルとして、予めワールドストリートジャーナルコーパスを用いて学習したGMMに基づく3状態HMMを用いた。
試験データとして10名の話者による英語の発話音声を用いた。各話者は、音源位置P1−P6のそれぞれにおいて、20回の発話を行った。発話内容として、原稿として予め用意された一定の内容として、上述の寿司屋で行われる会話を構成する英語の発話文を用いた。よって、音声言語理解の結果として動作判定部272から日本語の魚の名称が得られる。音源位置P1−P5、P6は、それぞれ図12の音源位置T1−T5、T7に相当する。従って、ロボットRtに設置された収音部12からの距離は、音源位置P1−P6の順に大きくなる。また、音源位置P1−P5、P6は、実験室1−4間において共通である。
実験結果として、自動音声認識、音声言語理解の両面で音源位置P1−P6のそれぞれについて評価した。自動音声認識の精度として、音声認識部111Aから得られる認識データにおける単語正解率を求めた。音声言語理解の精度として、動作判定部272から得られる日本語の魚の名称の正解率を求めた。
自動音声認識については、話者による発話音声の他に、シミュレーションによって生成された残響付加音声信号を入力し、音声認識部111Aから得られる認識データにおける単語正解率を求めた。シミュレーションでは、クリーン音声信号に音響環境ξ(実験室1−4ならびに音源位置の組)毎のRTFを畳み込み演算を行って残響付加音声信号を生成した。
なお、比較のため、従来の音声処理についても同様な手法で動作検証を行い、単語正解率、魚の名称の正解率をそれぞれ求めた。従来の音声処理として、以下の方法(a)−(e)を用いた。方法(a)は、残響抑圧を行わずに収録された音声信号について音声認識処理を行う方法である(No Enhancement)。方法(b)は、線形予測に基づく残響抑圧処理を含む方法である(Based on LP Residuals)。方法(c)は、ウェーブレット変換の極値のクラスタリングに基づく残響抑圧処理を含む方法である(Based on Wavelet Extrema)。方法(d)は、残響と背景雑音への音響モデルの適応学習を含む方法である(Based on Feature Adaptation)。方法(e)は、従来の残響抑圧モデルを用いたスペクトラルサブトラクションを含む方法である(Previous Reverberation Model)。方法(e)は、本実施形態に係る残響成分係数δに代えて、収音部12から話者までの距離が大きいほど大きい値をとる残響成分係数を用いて残響成分を抑圧する処理である。方法(f)は、本実施形態に係る音声処理である。
(自動音声認識)
次に、動作検証によって得られた自動音声認識の精度について説明する。
図20は、単語正解率の音源位置依存性の一例を示す図である。図20の各行は、音声処理の方法を示し、各列は音源位置を示す。図20に示す単語正解率は、発話された単語数の総和と、そのうちの正解の単語数に基づく。単語数の総和は、実験室1−4間でとったものである。単語正解率は、方法(a)−(f)のいずれも音源位置P1−P6の順に低下する。例えば、方法(f)について、音源位置P1、P6のそれぞれについて、単語正解率は91.2%、66.4%である。このことは、音源位置から収音部12までの距離が大きくなるほど、残響成分が支配的になるため音声認識精度が低下することを示す。しかしながら、単語正解率は、方法(a)−(f)の順に高くなる。例えば、音源位置P6について、方法(a)、(f)の単語正解率は27.3%、66.4%である。このことは、本実施形態に係る方法(f)における残響成分抑圧処理において尤度が最も高いセットに係る残響成分係数δが用いられるために、音声認識精度の低下が抑制されることを示す。
図21は、単語正解率の音源位置依存性の他の例を示す図である。
図21において縦軸、横軸は、それぞれ単語正解率、音源位置を示す。図21に示す単語正解率は、シミュレーションにより得られた残響付加音声信号に含まれる既知の単語数の実験室1−4間の総和と、そのうちの正解の単語数に基づく。単語正解率は、方法(a)−(f)のいずれも収音部12からの音源位置までの距離が大きいほど低下する傾向があるが、方法(a)−(f)の順に高くなる傾向がある。この傾向は、図20に示す単語正解率の音源位置依存性に符合し、本実施形態に係る音声処理の有効性を裏付ける。
(音声言語理解)
次に、動作検証によって得られた音声言語理解の精度について説明する。
図22は、正解率の音源位置依存性を示す図である。図22の各行は、音声処理の方法を示し、各列は音源位置を示す。図22に示す正解率は、発話された魚の名称の発話回数の総和と、そのうちの正解の回数に基づく。発話回数の総和は、実験室1−4間でとったものである。正解率は、方法(a)−(f)のいずれも音源位置P1−P6の順に低下する。例えば、方法(f)について、音源位置P1、P6のそれぞれについて、正解率は100.0%、59.0である。このことは、残響成分による音声認識精度の低下が発話理解を妨げることを示す。しかしながら、正解率は、方法(a)−(f)の順に高くなる。例えば、音源位置P6について、方法(a)、(f)の正解率は10.0%、59.0%である。このことは、本実施形態に係る方法(f)によって、残響成分が支配的なほど著しい音声認識精度の低下が抑制されるので、音声認識精度の低下による発話理解の妨害が緩和されることを示す。
なお、上述した残響成分データ生成処理(図18)における音響環境ξの要素として、予め定めた音源位置を用いる場合を例にしたが、これには限られない。より高い密度で分布した(例えば、20cm間隔)仮の音源位置から尤度に基づくクラスタリングにより選択された音源位置(例えば、1m間隔)が用いられてもよい。尤度は、仮の音源位置のそれぞれについて取得した残響付加音声信号の音響特徴量についてステップS132−S134に示す音声認識処理を行うことによって算出される。クラスタリングにより、尤度と仮の音源位置がそれぞれ所定の範囲内となる仮の音源位置からなるグループを定める処理である。各グループを代表する位置(例えば、当該グループに属する仮の音源位置の重心)が音響環境ξの要素として用いられる音源位置として選択される。クラスタリングにおいて、既知のクラスタリング法、例えば、最短距離法、重心法などの手法を利用することができる。また、残響付加音声信号は、収音部12により取得された音声信号に限られず、それぞれの仮の音源位置に係るRTFをクリーン音声信号に畳み込み演算を行うことによって生成した信号でもよい。これにより、上述した音声処理において、音響環境ξ毎の残響成分データの数を少なくすることにより演算量を低減しても、音声認識精度の低下が抑制される。
また、ステップS121、S125における補正係数を用いたフィルタ処理が畳み込み演算(もしくは周波数領域において畳み込み演算と等価な乗算)である場合を例にしたが、これには限られない。このフィルタ処理は、ステップS121、S125間において同一又は等価な処理であれば、いかなるフィルタ処理、例えば、IIR(Infinite Impulse Response;無限インパルス応答)フィルタ処理であってもよい。
また、音声処理装置10Aが、上述した音声処理(図19)のステップS131−S134が、全ての音響環境ξに係るセットzについて実行する場合を例にしたが、これには限られない。音声処理装置10Aは、それぞれの音源別音声信号に係る音源位置に係る音響環境ξを選択する音響環境選択部(図示せず)を備え、選択された音響環境ξに係る各セットzについてステップS131−S134を実行してもよい。音響環境選択部は、例えば、音源定位部101が定めた音源位置、又はその音源位置から最も近接した音源位置に係る音響環境ξを選択する。また、音響環境選択部は、撮影装置から取得した画像信号について画像認識処理を行って音源位置を定め、定めた音源位置又は、その音源位置から最も近接した音源位置に係る音響環境ξを選択してもよい。これにより、音響環境ξの候補が絞り込まれるため、ステップS131−S134の処理量を低減することができる。
なお、音声処理装置10Aが上述した音声処理(図19)のステップS131−S134を、全ての音響環境ξに係るセットzについて実行する場合には、音声処理装置10Aにおいて音源定位部101と音源分離部102が省略されてもよい。その場合には、収音部12は、1チャネルの音声信号を取得することができればよい。残響抑圧部103Aは、上述した音源別音声信号に代えて収音部12からの音声信号について残響抑圧処理を行う。
以上に説明したように、音声処理装置10Aは、取得した残響付加音声信号から各音響環境ξのセットz毎の残響成分データに基づいて各音響環境に係るセットz毎に残響抑圧音声信号を生成する残響抑圧部103Aと、残響抑圧音声信号の音響特徴量を算出する特徴量算出部104Aとを備える。また、音声処理装置10Aは、音響特徴量から発話状態列の尤度をセットz毎に算出し、算出した尤度に基づいて発話状態列を選択する音声認識部111Aを備える。そして、残響成分データは、所定の残響特性を示すRTFに対してフィルタ処理を行って得られた補正RTFで与えられる残響成分の寄与を示す残響成分係数δを示すデータである。フィルタ処理に用いる補正係数[α]は、音響環境ξ毎の残響付加音声信号から算出された音響特徴量に基づいて算出される尤度よりも、当該残響付加音声信号に対してフィルタ処理を行って得られた補正音声信号から算出された音響特徴量に基づいて算出された音響モデルを用いて算出される尤度の方が高いことを特徴とする。
そのため、音源位置や部屋の残響特性などの音響環境ξに応じて異なるセットz毎の残響成分データを用いて残響成分が抑圧された残響成分音声信号が得られる。そして、セットz毎に得られた残響成分音声信号から算出された音響特徴量からなる音響特徴量列に対応する発話状態列について、より高い尤度を与える発話状態列に対応する音韻列が特定される。そのため、音響環境ξによって異なりうる残響の影響による音声認識精度の低下が抑制される。
また、尤度の算出に用いる音響モデルは、音響特徴量の正規分布の線形結合で発話状態の出現確率を表すモデルである。補正係数[α]を算出する際、尤度Γ([α])の補正係数[α]に対する勾配を用いて尤度Γ([α])をより高くするように補正係数[α]を更新することを特徴とする。
そのため、尤度Γ([α])の補正係数[α]に対する勾配が、音響モデルを構成する基底間の積和演算により算出される。そのため、補正係数[α]の算出に要する計算量や計算時間を低減することができる。
なお、以上のように図面を参照してこの発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、音声処理装置10、10Aは、単一の装置として実施されてもよいし、音声処理システム1、1A、2、2Aの一部として実施されてもよい。また、音声処理システム2、2Aにおいて、音声再生部28と動作機構部29のいずれかが省略されてもよい。
また、処理データ生成部14が残響成分係数δを算出し、算出した残響成分係数δを残響抑圧部103に設定してもよい。処理データ生成部14は、音声処理装置10、10Aの他の構成と一体化して単一の音声処理装置10、10Aの一部として構成されてもよいし、音声処理装置10とは別体、例えば、汎用のコンピュータであってもよい。
なお、上述した実施形態及び変形例に係る音声処理システム1、1Aの音声処理装置10、10Aの一部、例えば、音源定位部101、音源分離部102、残響抑圧部103、103A、特徴量算出部104、104A、特徴量調整部105、モデル更新部110及び音声認識部111、111A、音声処理システム2、2Aの一部、例えば、動作制御部27をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置10、10A、音声処理システム1、1A、2、2Aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音声処理装置10、10Aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置10の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
1、1A、2、2A…音声処理システム、10、10A…音声処理装置、101…音源定位部、102…音源分離部、103、103A…残響抑圧部、104、104A…特徴量算出部、105…特徴量調整部、106…調整データ記憶部、107…調整係数取得部、108…調整係数乗算部、109、109A…モデル記憶部、110…モデル更新部、111、111A…音声認識部、112A…残響成分データ記憶部、12…収音部、13…クリーン音声データ記憶部、14、14A…処理データ生成部、141…残響処理部、142…特徴量算出部、143…調整係数算出部、144…特徴量調整部、145…モデル生成部、146A…補正係数算出部、147A…残響成分データ生成部、27…動作制御部、271…記憶部、272…動作判定部、273…音声合成部、28…音声再生部、29…動作機構部

Claims (10)

  1. 取得した音声から音源位置を定める音源定位部と、
    前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、
    前記残響抑圧音声の特徴量を算出する特徴量算出部と、
    前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、
    前記調整特徴量を用いて音声認識を行う音声認識部と、
    を備える音声処理装置。
  2. 前記調整係数は、前記特徴量を用いて算出される音韻毎の尤度よりも、当該特徴量に当該調整係数を乗じて算出された調整特徴量を用いて算出される尤度のほうが高くなるように予め算出されたことを特徴とする請求項1に記載の音声処理装置。
  3. 前記調整特徴量と音源位置毎の位置依存音響モデルを用いて算出した尤度に基づいて所定の数の位置依存音響モデルを選択し、選択した位置依存音響モデルのモデル変数を線形結合して、前記音源位置に対応する位置依存音響モデルを生成するモデル更新部を備え、
    前記音声認識部は、前記モデル更新部が生成した音響モデルを用いて音声認識を行う請求項1又は請求項2に記載の音声処理装置。
  4. 前記モデル更新部は、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合して前記音源定位部が定めた音源位置に対応する位置依存音響モデルを生成する請求項3に記載の音声処理装置。
  5. 前記モデル更新部は、前記尤度が所定の尤度よりも低い位置依存音響モデルを除去する請求項3又は請求項4に記載の音声処理装置。
  6. 取得した音声から音響環境毎の残響成分データに基づいて前記音響環境毎に残響抑圧音声を生成する残響抑圧部と、
    前記残響抑圧音声の特徴量を算出する特徴量算出部と、
    前記特徴量から発話状態列の尤度を前記音響環境毎に算出し、前記尤度に基づいて発話状態列を選択する音声認識部と、を備え、
    前記残響成分データは、所定の残響特性に対して所定のフィルタ処理により得られた補正残響特性で与えられる残響成分の寄与を示すデータであって、前記フィルタ処理に用いる補正係数は、前記音響環境毎の音声の特徴量から算出される尤度よりも、当該音声に対して当該フィルタ処理により得られた補正音声の特徴量から算出される尤度が高くなるように算出されたことを特徴とする音声処理装置。
  7. 前記尤度の算出に用いる音響モデルは、特徴量の正規分布の線形結合で発話状態の出現確率を表すモデルであり、前記補正係数を算出する際、前記尤度の前記補正係数に対する勾配を用いて前記尤度をより高くするように前記補正係数を更新することを特徴とする請求項6に記載の音声処理装置。
  8. 音声処理装置と収音部とを備える音声処理システムであって、
    前記収音部は、複数チャネルの音声を収音し、
    前記音声処理装置は、
    前記複数チャネルの音声から音源位置を定める音源定位部と、
    前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、
    前記残響抑圧音声の特徴量を算出する特徴量算出部と、
    前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、
    前記調整特徴量を用いて音声認識を行う音声認識部と、を備える音声処理システム。
  9. 前記音声認識部が認識した発話に応じた動作を実行する動作制御部、
    を備える請求項8に記載の音声処理システム。
  10. 音声処理装置における音声処理方法であって、
    取得した音声から音源位置を定める音源定位過程と、
    前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧過程と、
    前記残響抑圧音声の特徴量を算出する特徴量算出過程と、
    前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整過程と、
    前記調整特徴量を用いて音声認識を行う音声認識過程と、
    を有する音声処理方法。
JP2015103670A 2015-01-14 2015-05-21 音声処理装置、音声処理方法、及び音声処理システム Active JP6124949B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/990,888 US9972315B2 (en) 2015-01-14 2016-01-08 Speech processing device, speech processing method, and speech processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015005293 2015-01-14
JP2015005293 2015-01-14

Publications (2)

Publication Number Publication Date
JP2016136229A JP2016136229A (ja) 2016-07-28
JP6124949B2 true JP6124949B2 (ja) 2017-05-10

Family

ID=56512594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015103670A Active JP6124949B2 (ja) 2015-01-14 2015-05-21 音声処理装置、音声処理方法、及び音声処理システム

Country Status (1)

Country Link
JP (1) JP6124949B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
EP3318927A1 (en) * 2016-11-04 2018-05-09 ASML Netherlands B.V. Method and apparatus for measuring a parameter of a lithographic process, computer program products for implementing such methods & apparatus
JP6454916B2 (ja) * 2017-03-28 2019-01-23 本田技研工業株式会社 音声処理装置、音声処理方法及びプログラム
US11304000B2 (en) * 2017-08-04 2022-04-12 Nippon Telegraph And Telephone Corporation Neural network based signal processing device, neural network based signal processing method, and signal processing program
KR20190129580A (ko) * 2018-05-11 2019-11-20 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
JP7208846B2 (ja) * 2019-03-27 2023-01-19 株式会社 日立産業制御ソリューションズ 音響特徴量変換装置、音響特徴量変換方法、および音響特徴量変換プログラム
JP7444243B2 (ja) * 2020-04-06 2024-03-06 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
CN111724801A (zh) * 2020-06-22 2020-09-29 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN113050098B (zh) * 2021-03-08 2024-04-16 西北工业大学 基于块稀疏稳健主成分分析的反蛙人声呐混响抑制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4793291B2 (ja) * 2007-03-15 2011-10-12 パナソニック株式会社 リモコン装置
JP2010283506A (ja) * 2009-06-03 2010-12-16 Mitsubishi Electric Corp 車載用音響処理装置
JP6077957B2 (ja) * 2013-07-08 2017-02-08 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム

Also Published As

Publication number Publication date
JP2016136229A (ja) 2016-07-28

Similar Documents

Publication Publication Date Title
US9972315B2 (en) Speech processing device, speech processing method, and speech processing system
JP6124949B2 (ja) 音声処理装置、音声処理方法、及び音声処理システム
EP3707716B1 (en) Multi-channel speech separation
JP6169910B2 (ja) 音声処理装置
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6261043B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6703460B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
Delcroix et al. Strategies for distant speech recognitionin reverberant environments
JP5550456B2 (ja) 残響抑圧装置、及び残響抑圧方法
JP5738020B2 (ja) 音声認識装置及び音声認識方法
Kalinli et al. Noise adaptive training for robust automatic speech recognition
US8271277B2 (en) Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
US9858949B2 (en) Acoustic processing apparatus and acoustic processing method
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP2015070321A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP5180928B2 (ja) 音声認識装置及び音声認識装置のマスク生成方法
Shimada et al. Unsupervised beamforming based on multichannel nonnegative matrix factorization for noisy speech recognition
Couvreur et al. Blind model selection for automatic speech recognition in reverberant environments
Nirmal et al. Cepstrum liftering based voice conversion using RBF and GMM
Huang et al. An SNR-incremental stochastic matching algorithm for noisy speech recognition
Yamamoto et al. Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals
Font Multi-microphone signal processing for automatic speech recognition in meeting rooms
Sivasankaran et al. SLOGD: Speaker location guided deflation approach to speech separation
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法
Gomez et al. Improved hands-free automatic speech recognition in reverberant environment condition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170404

R150 Certificate of patent or registration of utility model

Ref document number: 6124949

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150