JP6261043B2 - 音声処理装置、音声処理方法、及び音声処理プログラム - Google Patents
音声処理装置、音声処理方法、及び音声処理プログラム Download PDFInfo
- Publication number
- JP6261043B2 JP6261043B2 JP2014097622A JP2014097622A JP6261043B2 JP 6261043 B2 JP6261043 B2 JP 6261043B2 JP 2014097622 A JP2014097622 A JP 2014097622A JP 2014097622 A JP2014097622 A JP 2014097622A JP 6261043 B2 JP6261043 B2 JP 6261043B2
- Authority
- JP
- Japan
- Prior art keywords
- reverberation
- speech
- unit
- word
- influence degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 127
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims description 101
- 230000008569 process Effects 0.000 claims description 49
- 238000003860 storage Methods 0.000 claims description 48
- 230000003595 spectral effect Effects 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000001629 suppression Effects 0.000 claims description 20
- 238000010187 selection method Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 85
- 230000000694 effects Effects 0.000 description 30
- 238000000605 extraction Methods 0.000 description 30
- 238000000926 separation method Methods 0.000 description 26
- 230000004044 response Effects 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 15
- 230000014509 gene expression Effects 0.000 description 12
- 238000013500 data storage Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 11
- 238000012546 transfer Methods 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 10
- 238000013179 statistical model Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 241000251468 Actinopterygii Species 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 235000019688 fish Nutrition 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000011410 subtraction method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000972773 Aulopiformes Species 0.000 description 1
- 241000219112 Cucumis Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- 240000008067 Cucumis sativus Species 0.000 description 1
- 235000010799 Cucumis sativus var sativus Nutrition 0.000 description 1
- 241000861914 Plecoglossus altivelis Species 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 238000009408 flooring Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 235000019515 salmon Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
上述した(2)の構成によれば、少なくとも一部の認識単位が認識された音声に残響除去係数を乗じて求めた残響成分が、認識単位間で異なる残響の影響を考慮して残響の影響が除去されるため、音声認識精度をさらに向上することができる。
上述した(4)の構成によれば、残響影響度に基づく残響抑圧を2つの隣接する単語対毎に行うことができるため、処理量が過大になることを抑制することができる。
上述した(5)の構成によれば、音声のパワースペクトル密度に基づいて残響影響度を選択し、選択した残響影響度を用いて残響抑圧を行うため、単語毎に異なる音声の周波数特性の変化が考慮される。そのため、音声認識精度をさらに向上することができる。
上述した(7)の構成によれば、複数の隣接する状態列により異なる残響のパワーの影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
上述した(8)の構成によれば、音響モデルにおいて音声の物理的な特徴を示す音響特徴量と発話の状態とが対応付けられるので、状態列により音声の物理的な特徴の変化が表現される。そのため、発話の状態による音声の物理的な特徴の変化に応じて異なる残響のパワーの影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
音声処理システム1は、音声処理装置11及び収音部12を含んで構成される。
音声処理装置11は、後述するように、収音部12から入力された音声信号に基づいて発話された単語を逐次に認識し、認識した単語のうち、少なくとも1つの単語に係る音声による残響が、その後の単語に係る音声に与える影響を示す残響影響度を選択する。そして、音声処理装置11は、その少なくとも1つの単語に係る音声から、選択した残響影響度で重み付けした残響成分を抑圧する。
Nが1よりも大きい場合には、送信の際にMチャネル間で音響信号が同期していればよい。収音部12の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。収音部12は、音声処理装置11と一体化されていてもよいし、別体であってもよい。
音声処理装置11は、残響特性推定部101、第1残響除去部102、第1音声認識部103、単語抽出部104、残響影響度記憶部105、残響影響度選択部106、第2残響除去部107、及び第2音声認識部108を含んで構成される。
残響特性推定部101の構成については後述する。
以下の説明では、第1残響除去部102が生成した残響除去音声信号を第1残響除去音声信号と呼び、後述する第2残響除去部107が生成した第2残響除去音声信号と区別する。
ここで、第1音声認識部103は、第1残響除去音声信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量を算出する。音響特徴量は、例えば、静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である。
以下の説明では、第1音声認識部103が生成した認識データを第1認識データと呼び、後述する第2音声認識部108が生成した第2認識データと区別する。
残響影響度データの例や、残響影響度を算出する処理については後述する。
従って、類似度simが大きいほどD(c)(ω)とDtj(ω)が近似し、類似度simが小さいほどD(c)(ω)とDtj(ω)が相違することを示す。
ここで、残響影響度選択部106は、例えば、式(3)を用いてパワースペクトル密度Dtj(ω)を算出する。
残響影響度選択部106は、選択した残響影響度と単語抽出部104から入力された単語対を第2残響除去部107に出力する。
第2音声認識部108は、第1音声認識部103と同様な構成を有していてもよい。つまり、第2音声認識部108は、第2残響除去音声信号について予め定めた時間間隔毎に音響特徴量を算出し、算出した音響特徴量について予め設定された音響モデルを用いて音素を認識する。第2音声認識部108は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を示す文を逐次に認識し、認識した単語列を示す第2認識データを生成し、生成した第2認識データを出力する。
次に、単語抽出部104に入力された第1認識データが示す単語列と、単語抽出部104が抽出する単語対との一例を示す。
図2は、単語列と単語対の一例を示す図である。
図2の上段は、認識された単語w1,w2,w3,…,wj,wj+1,…からなる単語列を示す。図2の下段は、抽出された単語対t1,t2,…,tj,…を示す。図2において左右方向は時刻を示す。つまり、左側よりも右側の単語もしくは単語対の方が、新たな単語もしくは単語対を示す。
ここで、単語対t1は、単語列から抽出された単語w1,w2からなり、単語対t2は、単語w2,w3からなり、単語対tjは、単語wj,wj+1からなることを示す。このようにして、単語抽出部104は、単語列から単語wjと直後に後続する単語wj+1を抽出して単語対tjを生成する処理を、新たに単語wj+1が入力される毎に繰り返す。
次に、音声信号の強度の例について説明する。
図3は、ある単語wj,wj+1が発話された区間の音声信号の強度の例を示す図である。図3の上段は、クリーン音声の強度の指標としてピリオドグラムを示し、図3の下段は、残響付加音声のスペクトログラムを示す。図3では、縦軸、横軸は、それぞれ周波数、時刻を示す。図3の左方は単語wjが発話された区間を示し、図3の右方は単語wj+1が発話された区間を示す。濃く示されている部分ほどパワーが大きく、薄く示されている部分ほどパワーが小さいことを示す。
次に、残響影響度記憶部105に記憶される残響影響度データの例について説明する。
図4は、残響影響度データの例を示す図である。
図4に示す残響影響度データは、(1)クラスc(cは、1からCまでの整数、Cは予め定めた整数、例えば、10000)、(2)パワースペクトル密度D(c)(ω)、及び(3)残響影響度τ(c)が対応付けられているデータである。クラスcは、各単語対を識別するインデックスである。
図4に示す例では、例えば、クラス1に、パワースペクトル密度D(1)(ω)、残響影響度τ(1)が対応付けられている。
なお、後述するように、稀にしか現れない(infrequent)単語対については、より頻出する(frequent)単語対であって、かつ、パワースペクトル密度D(c)(ω)が最も近似する単語対に係るクラスcが用いられてもよい。これにより、音響的な特徴を損なわずにデータ量の肥大化を回避することができる。
次に、残響特性推定部101の構成について説明する。
図5は、残響特性推定部101の構成を示すブロック図である。
残響特性推定部101は、特徴量算出部1011、残響モデル記憶部1012、尤度算出部1013、及び残響除去係数選択部1014を含んで構成される。
特徴量算出部1011は、算出した音響特徴量Tを示す特徴量データを尤度算出部1013に出力する。
適応音響モデルπ[r]は、距離がrである音源からの残響付加音声で尤度が最大になるように学習された音響モデルである。適応音響モデルπ[r]は、混合ガウスモデル(GMM:Gaussian Mixture Model)である。GMMは、入力された音響特徴量に対する出力確率を複数(例えば、256個)の正規分布を基底として重みづけ加算して表す音響モデルの一種である。つまり、GMMは、混合重み係数、平均値、共分散行列といった統計量で規定される。
距離r毎の残響除去係数δb,[r]は、例えば、距離rの音源からの帯域bにおける後期反射のパワーを残響付加音声のパワーで除算して算出しておいてもよい。
次に、残響影響度を算出する処理について説明する。残響影響度は、予め残響影響度解析部110で算出しておく。残響影響度解析部110は、音声処理装置11に内蔵されてもよいし、音声処理装置11とは別個の構成であってもよい。また、残響影響度解析部110は、必ずしも専用のハードウェアで構成されていなくてもよく、例えば、その処理がプログラムを実行することによりコンピュータで実現されてもよい。
残響影響度解析部110は、学習データ取得部1101、単語抽出部1102、中間データ記憶部1103、第1データ分割部1104、残響付加部1105、第2データ分割部1106、強度解析部1107、及び残響影響度算出部1108を含んで構成される。
強度解析部1107は、第2単語データに含まれる音声信号(残響付加音声)からピリオドグラムPr(ω,m)を算出し、算出したピリオドグラムPr(ω,m)を式(5)のPs(ω,m)に代入して単語wjに係るパワースペクトル密度Dr,wj(ω)を算出する。
なお、強度解析部1107は、同様に式(5)を用いて単語対tjに含まれる単語wj+1に係るパワースペクトル密度Dr,wj+1(ω)、Ds,wj+1(ω)も算出する。
残響影響度算出部1108は、強度解析部1107から入力されたパワースペクトル密度Dr,tj(ω)と算出した残響影響度τj (c)を、パワースペクトル密度D(c)(ω)と算出した残響影響度τ(c)としてクラスcと対応付けて残響影響度データを生成する。残響影響度算出部1108は、生成した残響影響度データを残響影響度記憶部105に記憶する。
上述では、第1残響除去部102、第2残響除去部107が、それぞれスペクトラルサブトラクション(spectral subtraction)法に基づいて残響付加音声信号から残響成分を除去する処理(式(1)、(4)参照)について説明した。但し、第1残響除去部102、第2残響除去部107は、これには限られず、それぞれウィーナフィルタリング法(Wiener filtering)に基づいて残響付加音声から残響成分を除去する処理を行ってもよい。ウィーナフィルタリング法では、残響成分と残響除去音声信号の相関がないものと仮定して、フィルタリングされた残響付加音声信号と残響除去音声信号との平均二乗誤差を最小にする線形フィルタ(ウィーナ重み(Wiener weighting)とも呼ばれる)を形成する処理である。形成した線形フィルタは、残響付加音声信号をフィルタリングして残響除去音声信号を生成するために用いられる。
第1残響除去部102は、例えば、式(7)を用いて周波数帯域bの線形フィルタκb’を算出する。
第1残響除去部102は、定めた残響除去係数δbに基づいて得られたウェーブレット係数wbk’について逆ウェーブレット変換を行って第1残響除去音声信号を生成し、生成した第1残響除去音声信号を第1音声認識部103に出力する。
式(10)は、線形フィルタκb’’を用いてウェーブレット係数wbk’’を算出することを示す。算出したウェーブレット係数wbk’’は、残響除去係数δbを定めたうえで逆ウェーブレット変換を行って第2残響除去音声信号を生成する際に用いられる。
次に、本実施形態に係る音声処理について説明する。
図7は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS101)残響特性推定部101、第1残響除去部102、単語抽出部104には、収音部12から音声信号が入力される。その後、ステップS102に進む。
(ステップS102)残響特性推定部101は、入力された音声信号に重畳されている残響の残響特性に係る残響除去係数δbを推定する。残響特性推定部101は、推定した残響除去係数δbを第1残響除去部102と第2残響除去部107に出力する。その後、ステップS103に進む。
(ステップS104)第1音声認識部103は、第1残響除去部102から入力された第1残響除去音声信号について音声認識処理を行い、認識した発話内容を示す第1認識データを単語抽出部104に出力する。その後、ステップS105に進む。
(ステップS108)第2音声認識部108は、第2残響除去部107から入力された第2残響除去音声信号について音声認識処理を行い、認識した発話内容を示す第2認識データを音声処理装置11の外部に出力する。その後、図7に示す処理を終了する。
また、本実施形態は、前記単語群のうち前記少なくとも1つの単語に係る音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧部(第2残響除去部107)と、を備える。
以下、図面を参照しながら本発明の第2の実施形態について説明する。上述した実施形態と同一の構成については同一の符号を付して説明を援用する。
図8は、本実施形態に係る音声処理システム1aの構成を示すブロック図である。
音声処理システム1aは、音声処理装置11a、収音部12、及び音声再生部13aを含んで構成される。音声処理システム1aは、音声処理装置11aにおいて音声認識処理によって認識された発話内容に応じて、応答内容を示す音声信号を生成する対話システムである。
音声処理装置11aは、残響特性推定部101、第1残響除去部102、第1音声認識部103、単語抽出部104、残響影響度記憶部105、残響影響度選択部106、第2残響除去部107、第2音声認識部108、対話制御部120aを含んで構成される。即ち、音声処理装置11aは、音声処理装置11(図1)に対して更に対話制御部120aを含む。
ここで、対話制御部120aは、認識データと応答データの組を対応付けて予め記憶しておいた記憶部(図示せず)と、応答データが示す応答テキストに応じた音声信号を合成する音声合成部(図示せず)を備える。
図9は、応答データの例を示す図である。
図9に示す応答データのうち、先頭にSp1等の文字が置かれた段落は認識データを示し、先頭にRb1等の文字が置かれた段落は応答データを示す。
例えば、最初の認識データ(Sp1)は、日本語で「やあ、昨日友達と寿司屋に行って、鮎を注文したんだ。その魚について教えてもらえないかな?」を意味する英語のテキストからなる認識データである。最初の応答データ(Rb1)は、日本語で「鮎は東南アジアでありふれていて、メロンやキュウリのような香りをもった独特な風味がある食用の魚だよ。」を意味する英語のテキストからなるデータである。この例では、対話制御部120aは、認識データの一部、例えば、「Sweetfish」を代入して応答データを生成する。
次に、上述した音声処理装置11aを用いて音声認識精度を検証した実験結果について説明する。
実験は、残響時間(RT:reverberation time)が240ms、640msである実験室A、Bで行った。
図10は、実験室Bにおける発話者(Speaker)Spと収音部12の配置例を示す平面図である。
実験室Bの内径は、縦5.5m、横4.8m、高さ4.0mである。
実験室Bでは、人型ロボット(humanoid robot)Rbの胴体に音声処理装置11aを内蔵し、ロボットの頭部に収音部12を内蔵した。収音部12は8個のマイクロホンからなるマイクロホンアレイであり、8個のうちの1個のマイクロホンで収録した音声信号を音声処理装置11aに入力させた。ここで、発話者Spが発声した音声について音声認識率を観測した。音声認識率は、収音部12から発話者Spまでの距離rが0.5m、1.0m、1.5m、2.0mのそれぞれについて観測した。なお、実験室Aも実験室Bと同様な大きさを有し、同様な発話者Spと収音部12の位置関係のもとで音声認識率を観測した。
なお、実験に参加した発話者数は20名であり、各発話者にはロボットRbに対して10個の質問を発話させた。
図11、図12は、処理方法毎の音声認識率の例を示す図である。
図11、図12には、それぞれ実験室A、Bで得られた認識率(単位は%)が示されている。各行は発話された音声の処理方法(方法A−F)を示し、各列は距離rを示す。
実験室A、B間では、残響時間がより長い実験室Bの方が、音声認識率が低い。また、同一の実験室同士については、距離が大きくなるほど音声認識率が低い。音声認識率は、概ね方法A、B、C、E、D、Fの順に高くなる。例えば、実験室B、距離r=2.0mの場合、本実施形態に係る方法Dでの65.4%は、従来技術に係る方法Cの55.2%よりも有意に高い。また、本実施形態に係る方法Fでの68.3%は、従来技術に係る方法Eの57.1%よりも有意に高い。この結果は、上述した残響影響度で後期反射成分に重みづけを行って残響除去処理を行うことで従来技術よりも音声認識率が向上することを示す。なお、図11(実験室A)の距離r=0.5m、1.0mのように残響の影響が少ない場合には、方法A−F間で音声認識率に有意な差は現れない。
以下、図面を参照しながら本発明の第3の実施形態について説明する。上述した実施形態と同一の構成については同一の符号を付して説明を援用する。
図13は、本実施形態に係る音声処理システム1bの構成を示すブロック図である。
音声処理システム1bは、音声処理装置11b、収音部12b、及び音源分離部14bを含んで構成される。
式(12)において、[A(ω)]は、ある1つの音源からある1つのマイクロホンまでの伝達関数を要素として有する伝達関数行列を示す。[I]は、単位行列を示す。従って、幾何制約度JGC([V(ω)])とは、音声信号(推定値)のスペクトルと音声信号(音源)のスペクトルとの誤差の度合いを表す指標値である。
なお、以下の説明では第1音声認識部103で用いられる音響モデルを「第1音響モデル」と呼んで第2音声認識部108で用いられる音響モデル(第2音響モデル)と区別することがある。状態列取得部104bは、入力された状態列情報を残響影響度選択部106bに出力する。
残響影響度選択部106bは、状態列取得部104bから入力された状態列情報に対応する残響影響度τWを残響影響度記憶部105bから選択する。残響影響度選択部106bは、入力された状態列情報が示す状態列と、残響影響度τWと対応付けられた状態列情報が示す状態列との非類似度(例えば、ハミング距離)を算出し、算出した非類似度が最も小さい状態列に対応する残響影響度τWを選択する。残響影響度選択部106bは、選択した残響影響度τWを第2残響除去部107bに出力する。
第2残響除去部107bは、算出した周波数領域係数e(ω,m,W)を時間領域に変換した第2残響除去音声信号を生成し、生成した第2残響除去音声信号を第2音声認識部108に出力する。
次に、上述した音声処理で用いられる各種のデータを生成(事前学習)するためのデータ生成処理について説明する。データ生成処理は、データ生成部150bにおいて予めオフラインで行われる。データ生成部150bは、音声処理装置11bに内蔵されてもよいし、音声処理装置11bとは別個の構成であってもよい。また、データ生成部150bは、必ずしも専用のハードウェアで構成されていなくてもよく、例えば、所定のプログラムをコンピュータで実行することによって構成されてもよい。
第1音響モデル、第2音響モデルは、フレーム毎の音響特徴量から音素を推定する際に用いられる統計モデル、例えば、HMMである。
第1音響モデル、第2音響モデルは、それぞれ、音響特徴量と状態、ひいては音素との対応関係を与える統計モデルである。第1音響モデルでは、状態毎のGMMを含んで形成される。GMMは、上述したように、混合重み係数、平均値、共分散行列といった統計量で規定され、ある音響特徴量に対して状態毎の尤度を算出する際に用いられる。状態列は、発話された音素の状態の時系列であり、状態は、例えば、所定の音素について立ち上がり、定常、立ち下がりといった音の強弱といった強勢や、高低といった声調等を指すが、必ずしも一意に対応付けられていなくてもよい。各状態は、それぞれ統計モデルによりモデル化され、各音素は状態遷移により状態毎の統計モデルが連結して形成される統計モデルによりモデル化される。例えば、各状態の統計モデルがGMMで表されている場合、各音素の統計モデルは、これらのGMMが連結したHMMで表される。
図14は、データ生成処理を示すフローチャートである。
図14に示す処理を開始する前に、データ生成部150bには第1音響モデルλの初期値を記憶しておく。
(ステップS201)データ生成部150bは、所定の単語群Wを発話内容として有するクリーン音声信号、残響付加音声信号のそれぞれについて最適な状態列s’Wc、s’Wrを検索する。残響付加音声信号は、残響付加部1502b(図15、後述)で生成されたものであってもよい。ここで、データ生成部150bは、クリーン音声信号、残響付加音声信号のそれぞれについてフレーム毎の音響特徴量列を含んで構成される音響特徴量列f(c)、f(r)を算出する。データ生成部150bは、算出した音響特徴量列f(c)、f(r)のそれぞれについて第1音響モデルλを参照して、状態列の候補毎に尤度を算出する。データ生成部150bは、例えば、式(15)、(16)を用いて、算出した尤度が最も高い状態列を最適な状態列s’Wc、s’Wrとして選択する。
(ステップS203)データ生成部150bは、クリーン音声信号、残響付加音声信号のいずれについても、尤度の増加が収束したか否かを判定する。尤度の増加量が、例えば、予め定めた増加量の閾値よりも小さいか否かにより、尤度の増加が収束したか否かが判定される。
収束したと判定された場合(ステップS203 YES)、ステップS204に進む。収束していないと判定された場合(ステップS203 NO)、ステップS201に戻る。
図15は、音響モデル生成処理を示すブロック図である。
データ生成部150bは、所定のプログラムを動作することにより音声信号取得部1501b、残響付加部1502b、残響音声データ記憶部1503b、第1音響モデル生成部1504b、第1音響モデル記憶部1505b、音声認識部1506b、状態列取得部1507b、残響影響度記憶部1508b、残響影響度選択部1509b、残響除去部1510b、第2音響モデル生成部1511b、及び第2音響モデル記憶部1512bとして機能する。
残響付加部1502bは、音声信号取得部1501bから入力されたクリーン音声信号に室内伝達関数(RTF)を畳み込み残響付加音声信号を生成する。室内伝達関数は、その時点の室内で計測されたものでもよいし、所定のモデルに従って算出されたもの、例えば、上述した音源rからの距離に応じて算出されたものでもよい。残響付加部1502bは、生成した残響付加音声信号をその発話内容と対応付けて残響音声データ記憶部1503bに記憶する。
残響影響度選択部1509bは、残響影響度選択部106b(図13)と同様な処理を行って、状態列取得部1507bから入力された状態列情報に対応する残響影響度τWを残響影響度記憶部1508bから選択する。残響影響度選択部1509bは、選択した残響影響度τWを残響除去部1510bに出力する。
また、残響影響度は、所定の状態列が認識された音声による残響のパワーの、当該音声のパワーに対する比であるため、複数の隣接する状態列により異なる残響のパワーの影響を考慮して残響抑圧が行われる。そのため、残響下で収録された音声に対して、例えば、第2音声認識部108で行われる音声認識処理において音声認識精度を向上することができる。
また、本実施形態では、残響影響度の選択で用いられる認識単位が、単語を形成する音素よりもさらに細分化された認識単位である。そのため、発話速度の差異、変化に応じて異なる残響の影響を考慮して残響抑圧が行われるので、認識単位が単語である場合や音素である場合よりも音声認識精度を向上することができる。
次に、上述した音声処理装置11bを用いて音声認識精度を検証した実験結果について説明する。
上述の実験室A(RT(残響時間)=240ms)、B(RT=640ms)について図14、図15に示す処理を行って第1音響モデル、第2音響モデル、及び残響影響度データを予め生成しておいた。学習用データとして上述したウォールストリートジャーナルデータベースを用いて第1音響モデル、第2音響モデルを予め学習させておいた。
図16、図17は、処理方法毎の音声認識率の例を示す図である。
図16、図17は、それぞれ実験室A、Bにおいて得られた音声認識率を示す。距離Dは、1.0m、2.0m、3.0mの3通りであり、それぞれの場合で得られた音声認識率を(a)、(b)、(c)に示す。図16、図17ともに、縦軸、横軸は、それぞれ音声認識率(単位は%)、方法(方法A−H)を示す。
上述した第1実施形態、第2の実施形態では、認識単位として単語を用い、第3の実施形態では、認識単位として発話の状態を用いる場合を例にしたが、これには限られない。音声処理装置11、11a、11bは、単語または発話の状態に代えて、他の認識単位、例えば、音素を用いてもよい。
また、音源分離部14bは、音源分離処理としてGHDSS法以外の方法、例えば、適応ビームフォーミング法(adaptive beamforming)を用いてもよい。適応ビームフォーミング法は、音源方向を推定し、推定した音源方向に感度が最も高くなるように指向性を制御する方法である。
なお、音声処理システム1b(図13)では、音源分離部14bが省略され、音声処理装置11bに収音部12bから音声信号が入力されるようにしてもよい。
また、音声処理装置11、11a、11bは、第2音声認識部108を省略し、第2残響除去部107から音声処理装置11、11a、11bの外部に第2残響除去音声信号を出力してもよい。これにより、音声処理装置11、11a、11bの外部に置かれた音声認識部に出力された第2残響除去音声信号が供給されるようにしてもよい。
また、データ生成部150bは、グルーピングに係る処理(図14、ステップS205)を省略してもよい。
101…残響特性推定部、
1011…特徴量算出部、1012…残響モデル記憶部、1013…尤度算出部、
1014…残響除去係数選択部、
102…第1残響除去部、103…第1音声認識部、
104…単語抽出部、104b…状態列取得部、105、105b…残響影響度記憶部、106、106b…残響影響度選択部、
107、107b…第2残響除去部、108…第2音声認識部、
110…残響影響度解析部、1101…学習データ取得部、1102…単語抽出部、
1103…中間データ記憶部、1104…第1データ分割部、1105…残響付加部、
1106…第2データ分割部、1107…強度解析部、1108…残響影響度算出部、
120a…対話制御部、
12、12b…収音部、13a…音声再生部、14b…音源分離部、
150b…データ生成部、1501b…音声信号取得部、1502b…残響付加部、
1503b…残響音声データ記憶部、1504b…第1音響モデル生成部、
1505b…第1音響モデル記憶部、1506b…音声認識部、
1507b…状態列取得部、1508b…残響影響度記憶部、
1509b…残響影響度選択部、1510b…残響除去部、
1511b…第2音響モデル生成部、1512b…第2音響モデル記憶部
Claims (10)
- 入力された音声から認識単位を逐次に認識する音声認識部と、
先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部と、
前記音声認識部が認識した複数の認識単位からなる認識単位群に対応した残響影響度を前記残響影響度記憶部から選択する残響影響度選択部と、
前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧部と、
を備える音声処理装置。 - 前記残響抑圧部は、前記少なくとも一部の認識単位が認識された音声に残響成分の寄与を示す残響除去係数を乗じて得られた残響成分に、前記残響影響度で重み付けた残響成分を抑圧する請求項1に記載の音声処理装置。
- 前記認識単位は、単語であることを特徴とする請求項1又は請求項2に記載の音声処理装置。
- 前記認識単位群は、2つの隣接する単語からなる単語対であって、
前記残響影響度は、1つの単語が認識された音声による残響が後続する単語の音声に与える影響の度合いを示す係数であることを特徴とする請求項3に記載の音声処理装置。 - 前記残響影響度は、前記後続する単語の音声による残響成分のパワースペクトル密度の、前記1つの単語の音声のパワースペクトル密度の比であって、
前記残響影響度記憶部は、前記残響影響度と、当該1つの単語と後続する単語とからなる単語対に係る音声のパワースペクトル密度とを対応付けて記憶し、
前記残響影響度選択部は、前記音声認識部が認識した単語から単語対毎に、入力された音声のパワースペクトル密度が最も近似するパワースペクトル密度に対応した残響影響度を選択する請求項4に記載の音声処理装置。 - 前記認識単位は、発話の状態であることを特徴とする請求項1又は請求項2に記載の音声処理装置。
- 前記認識単位群は、複数の隣接する状態からなる状態列であって、
前記残響影響度は、所定の状態列が認識された音声による残響のパワーの、当該音声のパワーに対する比である請求項6に記載の音声処理装置。 - 前記音声認識部は、所定の単語群が発話された音声から認識された状態列の尤度が高くなるように生成された音響モデルを参照して前記発話の状態を認識する請求項6又は請求項7に記載の音声処理装置。
- 音声処理装置における音声処理方法において、
入力された音声から認識単位を逐次に認識する音声認識過程と、
前記音声認識過程で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択過程と、
前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧過程と、
を有する音声処理方法。 - 音声処理装置のコンピュータに、
入力された音声から認識単位を逐次に認識する音声認識手順、
前記音声認識手順で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択手順、
前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧手順、
を実行させるための音声処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014097622A JP6261043B2 (ja) | 2013-08-30 | 2014-05-09 | 音声処理装置、音声処理方法、及び音声処理プログラム |
US14/446,581 US9336777B2 (en) | 2013-08-30 | 2014-07-30 | Speech processing device, speech processing method, and speech processing program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013179196 | 2013-08-30 | ||
JP2013179196 | 2013-08-30 | ||
JP2014097622A JP6261043B2 (ja) | 2013-08-30 | 2014-05-09 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015064554A JP2015064554A (ja) | 2015-04-09 |
JP6261043B2 true JP6261043B2 (ja) | 2018-01-17 |
Family
ID=52584438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014097622A Active JP6261043B2 (ja) | 2013-08-30 | 2014-05-09 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9336777B2 (ja) |
JP (1) | JP6261043B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9390723B1 (en) * | 2014-12-11 | 2016-07-12 | Amazon Technologies, Inc. | Efficient dereverberation in networked audio systems |
US9972315B2 (en) * | 2015-01-14 | 2018-05-15 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
EP3320311B1 (en) * | 2015-07-06 | 2019-10-09 | Dolby Laboratories Licensing Corporation | Estimation of reverberant energy component from active audio source |
US20170256270A1 (en) * | 2016-03-02 | 2017-09-07 | Motorola Mobility Llc | Voice Recognition Accuracy in High Noise Conditions |
JP6703460B2 (ja) * | 2016-08-25 | 2020-06-03 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
US10127920B2 (en) * | 2017-01-09 | 2018-11-13 | Google Llc | Acoustic parameter adjustment |
US10339929B2 (en) * | 2017-06-27 | 2019-07-02 | Google Llc | Speech recognition using acoustic features in conjunction with distance information |
CN107945815B (zh) * | 2017-11-27 | 2021-09-07 | 歌尔科技有限公司 | 语音信号降噪方法及设备 |
CN111862952B (zh) * | 2019-04-26 | 2024-04-12 | 华为技术有限公司 | 一种去混响模型训练方法及装置 |
JP7191793B2 (ja) * | 2019-08-30 | 2022-12-19 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
US11062692B2 (en) | 2019-09-23 | 2021-07-13 | Disney Enterprises, Inc. | Generation of audio including emotionally expressive synthesized content |
CN111785292B (zh) * | 2020-05-19 | 2023-03-31 | 厦门快商通科技股份有限公司 | 一种基于图像识别的语音混响强度估计方法、装置及存储介质 |
CN113782002B (zh) * | 2021-09-01 | 2023-07-04 | 深聪半导体(江苏)有限公司 | 基于混响模拟的语音识别测试方法及*** |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4104626B2 (ja) * | 2003-02-07 | 2008-06-18 | 日本電信電話株式会社 | 収音方法及び収音装置 |
JP3836815B2 (ja) * | 2003-05-21 | 2006-10-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
US20070094024A1 (en) * | 2005-10-22 | 2007-04-26 | International Business Machines Corporation | System and method for improving text input in a shorthand-on-keyboard interface |
EP1993320B1 (en) * | 2006-03-03 | 2015-01-07 | Nippon Telegraph And Telephone Corporation | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium |
JP5645419B2 (ja) * | 2009-08-20 | 2014-12-24 | 三菱電機株式会社 | 残響除去装置 |
US8660842B2 (en) * | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
JP5895501B2 (ja) * | 2011-12-14 | 2016-03-30 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US9386373B2 (en) * | 2012-07-03 | 2016-07-05 | Dts, Inc. | System and method for estimating a reverberation time |
-
2014
- 2014-05-09 JP JP2014097622A patent/JP6261043B2/ja active Active
- 2014-07-30 US US14/446,581 patent/US9336777B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9336777B2 (en) | 2016-05-10 |
JP2015064554A (ja) | 2015-04-09 |
US20150066500A1 (en) | 2015-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
EP3707716B1 (en) | Multi-channel speech separation | |
US9972315B2 (en) | Speech processing device, speech processing method, and speech processing system | |
JP6169910B2 (ja) | 音声処理装置 | |
JP6501260B2 (ja) | 音響処理装置及び音響処理方法 | |
US10283115B2 (en) | Voice processing device, voice processing method, and voice processing program | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
Gray et al. | Child automatic speech recognition for US English: child interaction with living-room-electronic-devices. | |
JP6124949B2 (ja) | 音声処理装置、音声処理方法、及び音声処理システム | |
JP2011191759A (ja) | 音声認識装置及び音声認識方法 | |
JP2018169473A (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JP5385876B2 (ja) | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 | |
Garg et al. | A comparative study of noise reduction techniques for automatic speech recognition systems | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP4860962B2 (ja) | 音声認識装置、音声認識方法、及び、プログラム | |
Lipeika | Optimization of formant feature based speech recognition | |
Sarikaya | Robust and efficient techniques for speech recognition in noise | |
Zaw et al. | Speaker identification using power spectral subtraction method | |
CN110675890A (zh) | 声音信号处理装置以及声音信号处理方法 | |
Yamamoto et al. | Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals | |
Minematsu et al. | Para-linguistic information represented as distortion of the acoustic universal structure in speech | |
Sinha et al. | Exploring the role of pitch-adaptive cepstral features in context of children's mismatched ASR | |
Zhang | A study on speech signal processing for noise robust speaker and speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6261043 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |