JP6124949B2 - 音声処理装置、音声処理方法、及び音声処理システム - Google Patents
音声処理装置、音声処理方法、及び音声処理システム Download PDFInfo
- Publication number
- JP6124949B2 JP6124949B2 JP2015103670A JP2015103670A JP6124949B2 JP 6124949 B2 JP6124949 B2 JP 6124949B2 JP 2015103670 A JP2015103670 A JP 2015103670A JP 2015103670 A JP2015103670 A JP 2015103670A JP 6124949 B2 JP6124949 B2 JP 6124949B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound source
- speech
- reverberation
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Stereophonic System (AREA)
Description
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
音声処理システム1は、音声処理装置10及び収音部12を含んで構成される。
音声処理装置10は、収音部12から入力されたP(Pは、3以上の整数)チャネルの音声信号から音源位置を定め、当該音声信号の残響成分を抑圧する。音声処理装置10は、残響成分を抑圧した音声の特徴量を算出し、定めた音源位置に対応する調整係数を算出した特徴量に乗じて調整特徴量を算出する。音声処理装置10は、算出した調整特徴量を用いて音声認識を行う。
音声処理装置10は、音源定位部101、音源分離部102、残響抑圧部103、特徴量算出部104、特徴量調整部105、モデル記憶部109、モデル更新部110及び音声認識部111を含んで構成される。
周波数領域におけるPチャネルの音声信号[x(ω)]とL(Lは、1以上P以下の整数)個の音源別音声信号[s(ω)]とは、例えば、式(1)に示す関係を有する。
特徴量調整部105は、調整データ記憶部106、調整係数取得部107及び調整係数乗算部108を含んで構成される。
モデル更新部110は、選択したN個の位置依存音響モデルΨ(n)及びクリーン音声音響モデルλ(s)それぞれのモデル変数を線形結合して、新たな位置依存音響モデルλ(upd)のモデル変数を算出する。モデル更新部110は、算出したモデル変数で規定される位置依存音響モデルλ(upd)を、当該音源の音源位置と対応付けてモデル記憶部109に記憶する。音響モデルの更新に係る処理については、後述する。
このように、音源位置に応じて尤度の低下が抑制された位置依存音響モデルλ(upd)を用いて音声認識に係る処理が行われるので、音源位置による残響の影響の差異による音声認識精度の低下が抑制される。
次に、音源定位の一手法であるMUSIC法について説明する。
音源定位部101は、予め所定の間隔(例えば、0.5m)に分布した音源位置毎の伝達関数が記憶されている記憶部を備える。音源定位部101は、各チャネルp(pは、1以上P以下の整数)までの伝達関数A[l][m](ω)を要素とする伝達関数ベクトルD(n)を音源位置n毎に生成する。
次に、音源定位部101は、入力相関行列[Rxx]の固有値δi及び固有ベクトル[ei]を算出する。入力相関行列[Rxx]、固有値δi、及び固有ベクトル[ei]は、式(7)に示す関係を有する。
音源定位部101は、伝達関数ベクトルD(n)と算出した固有ベクトル[ei]に基づいて、式(8)に示す空間スペクトルPsp(n)を算出する。
音源定位部101は、S/N比が予め定めた閾値(例えば、20dB)よりも大きい周波数帯域における空間スペクトルPsp(n)の総和を拡張空間スペクトルPext(n)として算出する。音源定位部101は、算出した拡張空間スペクトルPext(n)の極大値をとる音源位置nを定める。
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS([V(ω)])と幾何制約度(Geometric Constraint)JGC([V(ω)])が、それぞれ減少するように分離行列[V(ω)]を適応的に算出する方法である。分離行列[(ω)]は、音源定位部101から入力されたPチャネルの音声信号[x(ω)]に乗じることによって、Lチャネルの音源毎の音声信号(推定値ベクトル)[u’(ω)]を算出するために用いられる行列である。
式(10)において、[I]は、単位行列を示す。従って、幾何制約度JGC([V(ω)])とは、音声信号(推定値)のスペクトルと音声信号(音源)のスペクトルとの誤差の度合いを表す指標値である。
次に、本実施形態に係る残響抑圧について説明する。残響抑圧部103は、音源分離部102から入力された音源毎の残響付加音源別音声信号u’(ω)を周波数帯域b毎の帯域成分ub’(ω)に分離する。残響抑圧部103は、分離した帯域成分ub’(ω)毎に当該周波数帯域bの残響成分係数δbを乗じて残響成分rb’(ω)を算出する。残響抑圧部103は、算出した残響成分rb’(ω)を周波数帯域b間で合成して全周波数帯域の残響成分r’(ω)を算出する。残響抑圧部103は、音源毎に残響付加音源別音声信号u’(ω)から算出した残響成分r’(ω)を差し引いて音源毎の残響抑圧音声信号s’(x,y)(ω)を算出する。
(a)周波数帯域b毎の残響成分係数δbの初期値として、既知の残響成分XLと入力信号成分xとの平均二乗誤差(MSE:Mean Squared Error)Emを最小化する残響成分係数δb,MMSEを定める(MMSE:Minimum MSE)。即ち、MMSEは、残響成分XLと、周波数帯域b毎に残響成分係数δbと、入力信号成分xを乗じて得られる値の総和との残差の二乗値であるMSEが最小となる残響成分係数δb,MMSEを算出する手法である。
(b)既知の音韻列のセットwについて、残響成分係数δb,MMSEを用いて算出された残響抑圧音声信号sδb,MMSE(ω)について尤度を最大化する音響モデルλMMSEを、音響モデルλの初期値として定める。
(c)残響成分係数δbを用いて算出される残響抑圧音声信号s’について、音韻列のセットwと音響モデルλを用いて算出される尤度を最大化する周波数帯域b毎の残響成分係数δb,optを算出する。
(d)残響成分係数δb,optと音韻列のセットwについて、尤度を最大化する音響モデルλoptを与えるモデル変数を定める。
(e)その時点の音響モデルλを算出した音響モデルλoptに更新し、(c)、(d)の処理を繰り返す。処理の繰り返しは、尤度の最大値の変化量に係る絶対値が所定の変化量の閾値未満に収束するまで行われる。その後、算出された残響成分係数δb,optを、残響成分係数δbとして定める。
Gomez,R.and Kawahara, T.“Robust speech recognition based on dereverberation parameter optimization using acoustic model likelihood” Proceedings IEEE Transactions Speech and Acoustics Processing,Vol.19,No.7,2010
次に、調整データについて説明する。図2は、調整データの一例を示す図である。調整データは、M個の音源位置(x,y)それぞれの調整係数[c(x,y)]を示すデータである。図2の第2行に示す例では、音源位置(x1,y1)は、調整係数[c(x1,y1)]と対応付けられている。なお、図2に示す例では、ベクトルを示す記号[…]の表記が省略されている。
次に、調整係数もしくは位置依存音響モデルにそれぞれ対応付けられる音源位置の例について説明する。図3は、音源位置の分布例を示す平面図である。図3に示すように、M個(図3に示す例では、M=20)の音源位置は部屋の平面全体に分布されている。M個の音源位置は、等間隔に配列されてもよいし、ランダムに配列されてもよい。
次に、本実施形態に係る処理データ生成部14の構成について説明する。処理データ生成部14は、クリーン音声を用いて予め各音源位置について調整係数[c(x,y)]を算出し、位置依存音響モデルΨ(n)を生成する(オフライン学習)。
図4は、本実施形態に係る処理データ生成部14を示すブロック図である。処理データ生成部14は、残響処理部141、特徴量算出部142、調整係数算出部143、特徴量調整部144及びモデル生成部145を含んで構成される。なお、クリーン音声データ記憶部13には、予め学習用音声信号として、例えば、種々の発話内容を示すクリーン音声の音声信号から形成されるクリーン音声データベースを記憶させておく。また、モデル記憶部109には、予めクリーン音声音響モデルλ(s)を記憶させておく。
Seltzer,M. and Stern,R. “Subband likelihood−maximizing beamforming for speech recognition in reverberant environments”,In IEEE Transaction on Audio, Speech, and Language Processing,Vol.14,No.6,2006
ここで、モデル生成部145は、各位置依存音響モデルΨ(n)のモデル変数として、混合重み係数(mixture weight)Cim (n)、平均値(mean)[μim (n)]、共分散行列(covariance matrix)[Σim (n)]、及び遷移確率(transition probability)aij (n)を、式(13)−(16)に示すように算出する。
次に、モデル更新部110が行う音響モデルの更新に係る処理について説明する。
図5は、本実施形態に係る音響モデル更新処理を示すフローチャートである。
(ステップS101)モデル更新部110は、調整係数乗算部108から入力された音源毎の調整特徴量[f’]について、モデル記憶部109に記憶されたM個の位置依存音響モデルΨ(n)及びクリーン音声音響モデルλ(s)のそれぞれについて尤度を算出する。モデル更新部110は、位置依存音響モデルΨ(n)それぞれの尤度からクリーン音声音響モデルλ(s)の尤度を基準とした相対尤度を算出する。その後、ステップS102に進む。
(ステップS102)モデル更新部110は、M個の位置依存音響モデルΨ(n)のうち、最も相対尤度が高い位置依存音響モデルΨ(n)からN(Nは、Mよりも小さく1以上の整数、例えば、12)番目に相対尤度が高い位置依存音響モデルΨ(n)を選択する。その後、ステップS103に進む
モデル更新部110は、算出した混合重み係数Cim (upd)、平均値[μim](upd)、共分散行列[Σim](upd)、遷移確率aij (upd)をモデル変数とする位置依存音響モデルλ(upd)を生成する。その後、ステップS104に進む。
(ステップS105)モデル更新部110は、相対尤度が最も低い位置依存音響モデルΨ(n)を、モデル記憶部109から消去する。これにより、位置依存音響モデルΨ(n)の総数が一定に保たれる。その後、図5に示す処理を終了する。
次に、本実施形態に係る音声処理について説明する。図6は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS111)音源定位部101は、収音部12が取得したPチャネルの音声信号を用いて音源位置を算出する。その後、ステップS112に進む。
(ステップS112)音源分離部102は、音源定位部101で音源位置を定めた音源数が複数であるか否かを判定する。音源分離部102は、音源数が複数である場合、Pチャネルの音声信号を、それぞれの音源位置に基づいて音源別音声信号に分離する。音源分離部102は、音源数が1個である場合、Pチャネルの音声信号のうちのいずれか、例えば、音声レベルの最も高いチャネルの音声信号を当該音源の音源別音声信号と定める。その後、ステップS113に進む。
(ステップS113)残響抑圧部103は、音源毎の音源別音声信号のそれぞれについて残響成分を抑圧し、残響抑圧音声信号を生成する。その後、ステップS114に進む。
(ステップS115)調整係数取得部107は、調整データ記憶部106に記憶された調整データを参照して、音源毎の音源位置に対応した調整係数を取得する。その後、ステップS116に進む。
(ステップS116)調整係数乗算部108は、音源毎の音響特徴量に、当該音源の音源位置に対応した調整係数を乗算して、当該音源の調整特徴量を算出する。その後、ステップS117に進む。
(ステップS118)音声認識部111は、音源毎の調整特徴量について、当該音源について生成した位置依存音響モデルを用いて音韻列を定める。音声認識部111は、音源毎に定めた音韻列について所定の言語モデルを用いて認識結果となる文を表す認識データを生成する。その後、図6に示す処理を終了する。
次に、残響の影響について説明する。図7は、音声信号のスペクトログラムの例を示す。図7(a)、(b)ともに、縦軸、横軸は、それぞれ周波数、時刻を示す。図7(a)、(b)において周波数の範囲は0−8kHz、期間は0−2.7秒である。また、パワーの大きさが濃淡で表されている。明るい部分ほどパワーが大きく、暗い部分ほどパワーが低いことを示す。
図7(a)は、ある話者の発話中において残響下で収録された音声信号のスペクトログラムを示す。図7(b)は、図7(a)に示す音声信号について残響抑圧部103により生成された残響抑圧音声信号のスペクトログラムを示す。図7(a)、(b)を比較すると、図7(a)の方が図7(b)よりも全体的にパワーが高く、パワーが高い部分が継続している。特に、図7(a)が示す破線で囲まれた周波数帯域及び期間におけるパワーが、図7(b)に示す例では、ほぼ抑圧されている。当該期間においては、発話が停止され、もっぱら残響成分が収録されるためである。
この構成により、残響成分を抑圧した残響抑圧音声の特徴量に、音源位置に応じた調整係数が乗じられて算出される調整特徴量により音声認識が行われる。残響の影響の音源位置依存性が緩和されるため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
この構成により、残響抑圧音声の特徴量に調整係数を乗じた調整特徴量を用いることで、残響抑圧音声の特徴量よりも、音韻毎の尤度を高くすることができる。そのため、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
この構成により、音声認識精度を著しく劣化させる尤度が低い位置依存音響モデルの選択が回避され、選択された位置依存音響モデルのモデル変数を線形結合することで、位置依存音響モデルの生成において音源位置間で異なりうる残響の影響を受けない周波数成分が相補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
この構成により、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合することで、残響の影響を受けない周波数成分が補われる。そのため、生成した位置依存音響モデルを音声認識に用いることで、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
この構成により、音源位置の変化に応じて尤度が低下しないように位置依存音響モデルが更新されるので、残響下における音源位置の変化による音声認識率の低下を抑制することができる。
次に、本発明の第2の実施形態について説明する。第1の実施形態と同一の構成については、同一の符号を付してその説明を援用する。図9は、本実施形態に係る音声処理システム2の構成を示すブロック図である。
音声処理システム2は、音声処理装置10、収音部12、動作制御部27、音声再生部28及び動作機構部29を含んで構成される。即ち、音声処理システム2は、音声処理システム1に対して更に動作制御部27、音声再生部28及び動作機構部29を含む。音声処理システム2は、例えば、対話機能を有するロボットとして構成される。
動作制御部27は、音声処理装置10の音声認識部111において認識された発話に応じた動作を音声再生部28又は動作機構部29に実行させる。動作制御部27は、記憶部271、動作判定部272及び音声合成部273を含んで構成される。
動作機構部29は、動作判定部272から入力された動作データが示す制御変数に基づいて、所定の動作を実行する。動作機構部29は、例えば、制御変数として指示された電力の供給を受け、脚部に備えられたモータを駆動することによって歩行を実現する。
次に、対話データの例について説明する。図10は、対話データの例を示す図である。図10に示す対話データのうち、Sp1が認識データ、Sp2が発話データである。Sp1は、「やあ、昨日寿司屋に行って鮎を出してもらったんだ。鮎って英語で何て言うの?」という文を示す。Sp1において、下線が付された部分は、他の語句に置換可能な部分であり、入力された認識データとの一致又は近似を判定する際に無視される。図10においては、Sp1の「鮎」に代えて、他の日本語の魚の名称に置換可能である。例えば、音声認識部111から「やあ、昨日寿司屋に行ってまぐろを出してもらったんだ。まぐろって英語で何て言うの?」を示す認識データが入力された場合を仮定すると、動作判定部272は、Sp1に示す認識データを含む対話データを検索する。そして、動作判定部272は、そして、動作判定部272は、入力された認識データが示す文のうち、無視した部分である日本語の魚の名称として「鮎」に代えて「まぐろ」を検出する。
図11に示す例では、収音部12は、ロボットRtとして構成された音声処理システム2の頭部に配置されたP個(図示の例では7個)の収音素子12−1〜12−7を含んで構成される。収音素子12−1〜12−7は、互いに半径が異なる2つの同心円上に、中心Cから互いに異なる方向に配列されている。これにより、平面内のあらゆる方向から到来する音を取得し、音源を特定することができる。一方の円上には、収音素子12−1、12−4、12−7が配列され、他方の円上には、収音素子12−2、12−3、12−5、12−6が配列されている。
次に、本実施形態に係る音声処理システム2の動作検証の例について説明する。
動作検証は、4つの実験室1−4のそれぞれにおいて行った。実験室1−4の平面上の大きさは、いずれも4.8m×5.5mである。実験室1、2、3、4の残響時間(RT:reverberation time)は、それぞれ80ms、240ms、900ms、940msである。実験室1−4には、それぞれ空調装置、電子計算機が設置され、各々背景雑音の原因となるが、いずれも信号対雑音比は約20dBである。
図12は、実験室4の平面図である。図12に示すように、各実験室には、7点の音源位置T1−T7を設定した。実験室1−4間において、ロボットRtとして構成された音声処理システム2と音源位置T1−T7との位置関係は同様である。音源位置T1−T7の順にロボットRtまでの距離が大きい。そのうち、音源位置T1からの距離が最も小さく、音源位置T7からの距離が最も大きい。なお、ロボットRtは、自由度が20である人型の2足歩行ロボットである。また、実験室4には、図12に示すようにテーブルTb1、Tb2、ソファSf1、Sf2、白板Wb及び冷蔵庫Rfなどの備品が設置されていた。これらの備品は、音源位置T1−T7とロボットRtとの間で伝搬する音声が遮蔽されない位置に配置されていた。
(a)音声処理システム2に対して、話者に日本語又は英語の質問を理解させる。
(b)連続音声認識に関する実験と単純な発話検出に関する実験(後述)とを、音声処理システム2と話者との距離に応じて実施し分ける。
(c)発話検出において、音声処理システム2に近づいて確認のための質問を話者にさせて、音声を検出させる。
(d)連続音声認識において、魚の名称を音声処理システム2に翻訳させる。
(e)音源である話者との距離に応じて、発話データに基づいて再生した音声の音量を音声処理システム2に制御させる。音声再生部28は、再生される音声信号のパワーが距離の二乗に比例するようにその音量を制御する。
図13は、連続音声認識の実験結果を示す図である。図13に示す実験結果は、実験室1−4のそれぞれで得られた実験結果が総合されている。図13では、方法A、B、C、D、Eによる結果を、それぞれ記号△、◇、□、×、〇で示す。図13(a)において、縦軸、横軸は、それぞれ単語正解率(Word Accuracy)、音源位置T1−T7を示す。図13(b)において、縦軸、横軸は、それぞれコマンド正解率(Understood Command)、音源位置T1−T7を示す。図13(a)、(b)の上辺には、音声処理システム2と各音源位置との間の距離が、「個人距離(personal distance)」、「社会距離(social distance)」、「公共距離(public distance)」に属するかが示されている。これら3つの分類は、対人コミュニケーションにおける典型的な話者間距離の分類である。「個人距離」とは、話者の一方が手を伸ばせば他方に届く距離である。「社会距離」とは、話者間で互いに意思疎通が可能であるが詳細な表情を認識できない距離である。「公共距離」とは、意思疎通が成立しない距離である。そのうち、「個人距離」が最も距離が小さく、「公共距離」が最も距離が大きい。
特に音源位置T5−T7において、方法Cについての単語正解率、コマンド正解率は、従来から残響抑圧方法としてしばしば用いられた方法Dよりも顕著に高い。また、方法Cについての単語正解率、コマンド正解率が、方法Aよりも高いことは、モデル更新部110による音響モデル更新処理と特徴量調整部105による音響特徴量の調整による音声認識精度の低下の抑制を裏付ける。なお、方法B、C間において、音源位置T1、T2においては単語正解率、コマンド正解率ともに有意差がない。このことは、話者と音声処理システム2との間の距離が、親密な意思疎通な可能な「個人距離」に属する場合には、方法Cにおいて音声認識精度の低下がほとんど生じないことを示す。また、方法B、C間において音源位置T3−T7について、単語正解率、コマンド正解率ともに有意差が認められる。その原因として、方法Bにおいて音響モデルを生成する際に用いた話者毎の発話回数が30回と、方法Cにおける発話回数(20回)よりも多いことが考えられる。なお、方法Bのように予め音源位置毎に音響モデルを学習しておく方法は、話者の自由な移動や残響環境の変化には適応することができない。
音声処理装置10は、音源毎の音源別音声信号について音声検出処理を行う音声検出部(図示せず)を備えてもよい。音声検出部は、例えば、所定の時間間隔(例えば、50ms)で音源別音声信号の零交差点(zero crossing)を計数し、零交差点が所定範囲内(例えば、200〜500回/秒)で、かつ音源別音声信号の強度が所定の強度の閾値を超える場合に、音声を検出したと判定し、それ以外の場合に音声を検出しないと判定する。また、音声認識部111は、推定された距離が所定の距離の閾値(例えば、2m)を超える音源に係る音源別音声信号について音声認識に係る処理を停止し、距離が所定の距離の閾値以内の音源に係る音源別音声信号について音声認識に係る処理を実行してもよい。
次に、本実施形態に係る音声処理システム2による単語認識率と、従来の残響抑圧方法により残響成分を抑圧した音声信号についての単語認識率とを比較する。図15は、各方式による単語認識率を示す図である。図15の各行に方法を示し、各列に実験室を示す。方法A−Jのうち、方法Jは本実施形態に係る処理である。結果の比較においては、音声認識に係る処理としてウェブサイト“Reverb Challenge”(http://reverb2014.dereverberation.com)に記載の方法を共通に用い、残響抑圧方法ならびに音響モデルの更新処理の差異に注目した。また、残響の影響は、音源からの距離が大きいほど顕著であるため、音声処理システム2までの距離が小さい音源位置T1、T2に係るデータを無視した。
Astudillo,R.,Braun,S.and Habets,E.“A multichannel feature comparison approach for robust asr in noisy and reverberant environments” Workshop on Reverb Challenge,2014
方法Cは、次の文献に記載されている方法であり、図13の方法Bに相当する。
Yegnanarayana,B.and Satyaranyarana,P.“Enhancement of reverberant speech using lp residual signals” Proceedings of IEEE transactions on Audio, Speech and Language,2000
方法Dは、次の文献に記載されている方法である。
Palomlki,K.and Kallasjoki,H.“Reveberation robust speech recognition by matching distributions of spectrally and temporally decorrelated features”,Proceedings Workshop on Reverb Challenge,2014
方法Eは、次の文献に記載されている方法である。
Griebel,S.and Brandstein,M.“Wavelet transform extrema clustering for multi−channel speech dereveberation”,Proceedings Workshop on Reverb Challenge,2014
Leng,T.,Dennis,J.,Ng,W.and Dat,T.“Pbf−gsc beamforming for asr and speech enhancement in reverberant environments”, Proceedings Workshop on Reverb Challenge,2014
方法Hは、次の文献に記載されている方法である。
Xiao,X.,Shengkui,Z.,Nguyen,D.and Xionghu,Z. “The ntu−adsc systems for reverberation challenge 2014”,Proceedings Workshop on Reverb Challenge,2014
方法Iは、次の文献に記載されている方法である。
Geiger,J.,Marchi,E.,Schuller,B.and Rigoll,G.“The tum system for the reverb challenge: Recognition of reveberated speech using multi−channel correlation shaping dereveberation and blstm recurrent neural networks”, Proceedings Workshop on Reverb Challenge,2014
そのため、音声認識部111が認識した発話に応じた動作が実行されるので、残響下における音源位置の変化に関わらず、ユーザ所望の動作が発話を通じてより確実に指示される。
次に、本発明の第3の実施形態について説明する。上述の実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図16は、本実施形態に係る音声処理システム1Aの構成を示すブロック図である。
本実施形態に係る音声処理システム1Aは、収音部12及び音声処理装置10Aを含んで構成される。音声処理装置10Aは、音源定位部101、音源分離部102、残響抑圧部103A、特徴量算出部104A、モデル記憶部109A、音声認識部111A及び残響成分データ記憶部112Aを含んで構成される。
なお、本実施形態では、音声処理システム2(図9)において、音声処理装置10に代えて音声処理装置10Aを含んで音声処理システム2A(図示せず)を構成してもよい。
次に、本実施形態に係る処理データ生成部14Aの構成について説明する。処理データ生成部14Aは、音響環境ξ毎に収録した音声信号を用いて補正係数[α]を算出し、算出した補正係数[α]と所定の残響伝達関数に基づいて予め残響成分データを生成しておく(オフライン処理)。
図17は、本実施形態に係る処理データ生成部14Aを示すブロック図である。処理データ生成部14Aは、補正係数算出部146A及び残響成分データ生成部147Aを含んで構成される。処理データ生成部14Aは、音声データ記憶部15を含んで構成されてもよい。音声データ記憶部15には、収音部12を介して音響環境ξ毎に収録した残響付加音声信号が記憶される。記憶される残響付加音声信号は、音響環境ξ間で共通の所定の発話内容を表す音韻列を与える。
補正係数算出部146Aは、セット毎に算出した音響特徴量f(o)([α])からなる音響特徴量列について、式(24)に示す尤度Γ([α])をより高くする補正係数[α]を算出する。
式(24)に示す尤度Γ([α])をより大きくすることは、式(25)で表される所定の音韻列wに係る尤度logP(fj (o)([α])|w)を最大化するための1つの要件である。
補正係数算出部146Aは、収束したと判定した補正係数[α]のうち、尤度Γ([α])が最も高い発話状態列に対応するものからZ番目に高い発話状態列までのそれぞれに対応するものを選択する。補正係数算出部146Aは、Zセットの補正係数[α]を残響成分データ生成部147Aに出力する。
残響成分データ生成部147Aは、各セットzについて平均二乗誤差Emを最小化するようにQ個の周波数帯域のそれぞれに対する残響成分係数δbを算出する。残響成分データ生成部147Aは、各セットzについて算出した残響成分係数δbを示す残響成分データを生成し、生成した残響成分データを残響成分データ記憶部112Aに記憶する。
次に、本実施形態に係る残響成分データ生成処理(オフライン処理)について説明する。
図18は、本実施形態に係る残響成分データ生成処理を示すフローチャートである。
(ステップS121)補正係数算出部146Aは、音響環境ξ毎の残響付加音声信号rについて、セットz毎に算出した補正係数[α]を用いた所定のフィルタ処理を行って補正音声信号oを生成する。補正係数算出部146Aは、生成した補正音声信号oについて音響特徴量f(o)([α])を算出する。その後、ステップS122に進む。
(ステップS122)補正係数算出部146Aは、音響特徴量f(o)([α])について式(28)を用いて尤度の勾配∇[α]Γ([α])を算出し、勾配∇[α]Γ([α])に比例する補正係数[α]の更新量を算出する。補正係数算出部146Aは、算出した更新量を尤度Γ([α])に加算することにより補正係数[α]を更新する。その後、ステップS123に進む。
(ステップS124)補正係数算出部146Aは、補正係数算出部146Aは、収束したと判定した補正係数[α]のうち、尤度Γ([α])が最も高い発話状態列に対応するものからZ番目に高い発話状態列までのそれぞれに対応するものを選択する。その後、ステップS125に進む。
次に、本実施形態に係る音声処理(オンライン処理)について説明する。図19は、本実施形態に係る音声処理を示すフローチャートである。
図19に示す音声処理は、ステップS111、S112及びS131−S134を有する。ステップS111及びS112の処理の終了後、ステップS131に進む。
(ステップS132)特徴量算出部104Aは、セットz毎に生成された残響抑圧音声信号についてフレーム毎に音響特徴量を算出する。その後、ステップS133に進む。
(ステップS134)音声認識部111Aは、セットz毎に算出した尤度のうち最も高い尤度を与えるセットz’に係る発話状態列を選択する。音声認識部111Aは、選択した発話状態列に対応する音韻列のうち言語モデルに基づいて、それらの音韻列で表される文の候補毎の尤度を算出する。音声認識部111Aは、尤度が最も高い文を表す認識データを音声処理装置10Aの外部に出力する。その後、図19に示す処理を終了する。
次に、本実施形態に係る音声処理システム2Aの動作検証の例について説明する。
動作検証は、上述の実験室1−4のそれぞれについて行った。音響モデルとして、予めワールドストリートジャーナルコーパスを用いて学習したGMMに基づく3状態HMMを用いた。
実験結果として、自動音声認識、音声言語理解の両面で音源位置P1−P6のそれぞれについて評価した。自動音声認識の精度として、音声認識部111Aから得られる認識データにおける単語正解率を求めた。音声言語理解の精度として、動作判定部272から得られる日本語の魚の名称の正解率を求めた。
次に、動作検証によって得られた自動音声認識の精度について説明する。
図20は、単語正解率の音源位置依存性の一例を示す図である。図20の各行は、音声処理の方法を示し、各列は音源位置を示す。図20に示す単語正解率は、発話された単語数の総和と、そのうちの正解の単語数に基づく。単語数の総和は、実験室1−4間でとったものである。単語正解率は、方法(a)−(f)のいずれも音源位置P1−P6の順に低下する。例えば、方法(f)について、音源位置P1、P6のそれぞれについて、単語正解率は91.2%、66.4%である。このことは、音源位置から収音部12までの距離が大きくなるほど、残響成分が支配的になるため音声認識精度が低下することを示す。しかしながら、単語正解率は、方法(a)−(f)の順に高くなる。例えば、音源位置P6について、方法(a)、(f)の単語正解率は27.3%、66.4%である。このことは、本実施形態に係る方法(f)における残響成分抑圧処理において尤度が最も高いセットに係る残響成分係数δbが用いられるために、音声認識精度の低下が抑制されることを示す。
図21において縦軸、横軸は、それぞれ単語正解率、音源位置を示す。図21に示す単語正解率は、シミュレーションにより得られた残響付加音声信号に含まれる既知の単語数の実験室1−4間の総和と、そのうちの正解の単語数に基づく。単語正解率は、方法(a)−(f)のいずれも収音部12からの音源位置までの距離が大きいほど低下する傾向があるが、方法(a)−(f)の順に高くなる傾向がある。この傾向は、図20に示す単語正解率の音源位置依存性に符合し、本実施形態に係る音声処理の有効性を裏付ける。
次に、動作検証によって得られた音声言語理解の精度について説明する。
図22は、正解率の音源位置依存性を示す図である。図22の各行は、音声処理の方法を示し、各列は音源位置を示す。図22に示す正解率は、発話された魚の名称の発話回数の総和と、そのうちの正解の回数に基づく。発話回数の総和は、実験室1−4間でとったものである。正解率は、方法(a)−(f)のいずれも音源位置P1−P6の順に低下する。例えば、方法(f)について、音源位置P1、P6のそれぞれについて、正解率は100.0%、59.0である。このことは、残響成分による音声認識精度の低下が発話理解を妨げることを示す。しかしながら、正解率は、方法(a)−(f)の順に高くなる。例えば、音源位置P6について、方法(a)、(f)の正解率は10.0%、59.0%である。このことは、本実施形態に係る方法(f)によって、残響成分が支配的なほど著しい音声認識精度の低下が抑制されるので、音声認識精度の低下による発話理解の妨害が緩和されることを示す。
そのため、尤度Γ([α])の補正係数[α]に対する勾配が、音響モデルを構成する基底間の積和演算により算出される。そのため、補正係数[α]の算出に要する計算量や計算時間を低減することができる。
例えば、音声処理装置10、10Aは、単一の装置として実施されてもよいし、音声処理システム1、1A、2、2Aの一部として実施されてもよい。また、音声処理システム2、2Aにおいて、音声再生部28と動作機構部29のいずれかが省略されてもよい。
また、処理データ生成部14が残響成分係数δbを算出し、算出した残響成分係数δbを残響抑圧部103に設定してもよい。処理データ生成部14は、音声処理装置10、10Aの他の構成と一体化して単一の音声処理装置10、10Aの一部として構成されてもよいし、音声処理装置10とは別体、例えば、汎用のコンピュータであってもよい。
Claims (10)
- 取得した音声から音源位置を定める音源定位部と、
前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、
前記残響抑圧音声の特徴量を算出する特徴量算出部と、
前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、
前記調整特徴量を用いて音声認識を行う音声認識部と、
を備える音声処理装置。 - 前記調整係数は、前記特徴量を用いて算出される音韻毎の尤度よりも、当該特徴量に当該調整係数を乗じて算出された調整特徴量を用いて算出される尤度のほうが高くなるように予め算出されたことを特徴とする請求項1に記載の音声処理装置。
- 前記調整特徴量と音源位置毎の位置依存音響モデルを用いて算出した尤度に基づいて所定の数の位置依存音響モデルを選択し、選択した位置依存音響モデルのモデル変数を線形結合して、前記音源位置に対応する位置依存音響モデルを生成するモデル更新部を備え、
前記音声認識部は、前記モデル更新部が生成した音響モデルを用いて音声認識を行う請求項1又は請求項2に記載の音声処理装置。 - 前記モデル更新部は、クリーン音声を用いて生成された音響モデルのモデル変数をさらに線形結合して前記音源定位部が定めた音源位置に対応する位置依存音響モデルを生成する請求項3に記載の音声処理装置。
- 前記モデル更新部は、前記尤度が所定の尤度よりも低い位置依存音響モデルを除去する請求項3又は請求項4に記載の音声処理装置。
- 取得した音声から音響環境毎の残響成分データに基づいて前記音響環境毎に残響抑圧音声を生成する残響抑圧部と、
前記残響抑圧音声の特徴量を算出する特徴量算出部と、
前記特徴量から発話状態列の尤度を前記音響環境毎に算出し、前記尤度に基づいて発話状態列を選択する音声認識部と、を備え、
前記残響成分データは、所定の残響特性に対して所定のフィルタ処理により得られた補正残響特性で与えられる残響成分の寄与を示すデータであって、前記フィルタ処理に用いる補正係数は、前記音響環境毎の音声の特徴量から算出される尤度よりも、当該音声に対して当該フィルタ処理により得られた補正音声の特徴量から算出される尤度が高くなるように算出されたことを特徴とする音声処理装置。 - 前記尤度の算出に用いる音響モデルは、特徴量の正規分布の線形結合で発話状態の出現確率を表すモデルであり、前記補正係数を算出する際、前記尤度の前記補正係数に対する勾配を用いて前記尤度をより高くするように前記補正係数を更新することを特徴とする請求項6に記載の音声処理装置。
- 音声処理装置と収音部とを備える音声処理システムであって、
前記収音部は、複数チャネルの音声を収音し、
前記音声処理装置は、
前記複数チャネルの音声から音源位置を定める音源定位部と、
前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧部と、
前記残響抑圧音声の特徴量を算出する特徴量算出部と、
前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整部と、
前記調整特徴量を用いて音声認識を行う音声認識部と、を備える音声処理システム。 - 前記音声認識部が認識した発話に応じた動作を実行する動作制御部、
を備える請求項8に記載の音声処理システム。 - 音声処理装置における音声処理方法であって、
取得した音声から音源位置を定める音源定位過程と、
前記音声の残響成分を抑圧して残響抑圧音声を生成する残響抑圧過程と、
前記残響抑圧音声の特徴量を算出する特徴量算出過程と、
前記特徴量に前記音源位置に対応する調整係数を乗じて調整特徴量を算出する特徴量調整過程と、
前記調整特徴量を用いて音声認識を行う音声認識過程と、
を有する音声処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/990,888 US9972315B2 (en) | 2015-01-14 | 2016-01-08 | Speech processing device, speech processing method, and speech processing system |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015005293 | 2015-01-14 | ||
JP2015005293 | 2015-01-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016136229A JP2016136229A (ja) | 2016-07-28 |
JP6124949B2 true JP6124949B2 (ja) | 2017-05-10 |
Family
ID=56512594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015103670A Active JP6124949B2 (ja) | 2015-01-14 | 2015-05-21 | 音声処理装置、音声処理方法、及び音声処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6124949B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6703460B2 (ja) * | 2016-08-25 | 2020-06-03 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
EP3318927A1 (en) * | 2016-11-04 | 2018-05-09 | ASML Netherlands B.V. | Method and apparatus for measuring a parameter of a lithographic process, computer program products for implementing such methods & apparatus |
JP6454916B2 (ja) * | 2017-03-28 | 2019-01-23 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及びプログラム |
US11304000B2 (en) * | 2017-08-04 | 2022-04-12 | Nippon Telegraph And Telephone Corporation | Neural network based signal processing device, neural network based signal processing method, and signal processing program |
KR20190129580A (ko) * | 2018-05-11 | 2019-11-20 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
JP7208846B2 (ja) * | 2019-03-27 | 2023-01-19 | 株式会社 日立産業制御ソリューションズ | 音響特徴量変換装置、音響特徴量変換方法、および音響特徴量変換プログラム |
JP7444243B2 (ja) * | 2020-04-06 | 2024-03-06 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
CN111724801A (zh) * | 2020-06-22 | 2020-09-29 | 北京小米松果电子有限公司 | 音频信号处理方法及装置、存储介质 |
CN113050098B (zh) * | 2021-03-08 | 2024-04-16 | 西北工业大学 | 基于块稀疏稳健主成分分析的反蛙人声呐混响抑制方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4793291B2 (ja) * | 2007-03-15 | 2011-10-12 | パナソニック株式会社 | リモコン装置 |
JP2010283506A (ja) * | 2009-06-03 | 2010-12-16 | Mitsubishi Electric Corp | 車載用音響処理装置 |
JP6077957B2 (ja) * | 2013-07-08 | 2017-02-08 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
-
2015
- 2015-05-21 JP JP2015103670A patent/JP6124949B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016136229A (ja) | 2016-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9972315B2 (en) | Speech processing device, speech processing method, and speech processing system | |
JP6124949B2 (ja) | 音声処理装置、音声処理方法、及び音声処理システム | |
EP3707716B1 (en) | Multi-channel speech separation | |
JP6169910B2 (ja) | 音声処理装置 | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6703460B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
Delcroix et al. | Strategies for distant speech recognitionin reverberant environments | |
JP5550456B2 (ja) | 残響抑圧装置、及び残響抑圧方法 | |
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
Kalinli et al. | Noise adaptive training for robust automatic speech recognition | |
US8271277B2 (en) | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium | |
US9858949B2 (en) | Acoustic processing apparatus and acoustic processing method | |
EP1457968B1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP2015070321A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP5180928B2 (ja) | 音声認識装置及び音声認識装置のマスク生成方法 | |
Shimada et al. | Unsupervised beamforming based on multichannel nonnegative matrix factorization for noisy speech recognition | |
Couvreur et al. | Blind model selection for automatic speech recognition in reverberant environments | |
Nirmal et al. | Cepstrum liftering based voice conversion using RBF and GMM | |
Huang et al. | An SNR-incremental stochastic matching algorithm for noisy speech recognition | |
Yamamoto et al. | Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals | |
Font | Multi-microphone signal processing for automatic speech recognition in meeting rooms | |
Sivasankaran et al. | SLOGD: Speaker location guided deflation approach to speech separation | |
JP2003076393A (ja) | 騒音環境下における音声推定方法および音声認識方法 | |
Gomez et al. | Improved hands-free automatic speech recognition in reverberant environment condition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161213 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6124949 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |