JP6401126B2 - 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 - Google Patents

特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 Download PDF

Info

Publication number
JP6401126B2
JP6401126B2 JP2015158861A JP2015158861A JP6401126B2 JP 6401126 B2 JP6401126 B2 JP 6401126B2 JP 2015158861 A JP2015158861 A JP 2015158861A JP 2015158861 A JP2015158861 A JP 2015158861A JP 6401126 B2 JP6401126 B2 JP 6401126B2
Authority
JP
Japan
Prior art keywords
vector
feature
speech
noise
posterior probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015158861A
Other languages
English (en)
Other versions
JP2017037222A (ja
Inventor
小川 厚徳
厚徳 小川
マーク デルクロア
マーク デルクロア
拓也 吉岡
拓也 吉岡
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015158861A priority Critical patent/JP6401126B2/ja
Publication of JP2017037222A publication Critical patent/JP2017037222A/ja
Application granted granted Critical
Publication of JP6401126B2 publication Critical patent/JP6401126B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、特徴量ベクトル算出装置、音声認識装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラムに関する。
近年、音声認識技術における音響モデルとして、GMM(Gaussian Mixture Model)に基づくHMM(Hidden Markov Model)音響モデル(GMM−HMM音響モデル)よりも認識精度が高い、DNN(Deep Neural Network)に基づくHMM音響モデル(DNN−HMM音響モデル)が用いられるようになってきている(例えば非特許文献1及び2参照)。DNN−HMM音響モデルでは、話者、雑音、チャネル等の影響を受けた入力音声データの認識精度が変動することから、各種の変動要因に対するDNN−HMM音響モデルの適応化が盛んに研究されている(例えば非特許文献3及び4参照)。例えば、話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトルに基づく主に話者変動へのDNN−HMM音響モデル適応化が、簡易かつ高精度な手法として注目されている(例えば非特許文献4及び5参照)。
Geoffrey Hilton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath, and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," [online], SIGNAL PROCESSING MAGAZINE 2012, Volume:29 , Issue: 6, p.82 - p.97, [平成27年6月29日検索], インターネット< http://www.isip.piconepress.com/courses/temple/ece_8527/lectures/2014_spring/lecture_38_spmag.pdf > T. Yoshioka, M.J.F Gales, "Environmentally robust ASR front-end for deep neural network acoustic models," [online], Computer Speech & Language, Volume 31 , Issue 1, May 2015, p.65 - p.86, [平成27年6月29日検索], インターネット< http://www.sciencedirect.com/science/article/pii/S0885230814001259 > Hank Liao, "SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS," [online], in Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference, 26 - 31 May 2013, p.7947 - p.7951, [平成27年6月29日検索], インターネット< http://mazsola.iit.uni-miskolc.hu/~czap/letoltes/IS14/IS2014/PDF/AUTHOR/IS140624.PDF > Michael L. Seltzer, Dong Yu, Yongqiang Wang, "AN INVESTIGATION OF DEEP NEURAL NETWORKS FOR NOISE ROBUST SPEECH RECOGNITION," [online], in Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference, 26 - 31 May 2013, p.7398 - p.7402, [平成27年6月29日検索], インターネット< http://research.microsoft.com/pubs/194344/0007398.pdf > George Saon, Hagen Soltau, David Nahamoo and Michel Picheny, "Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors," [online], in Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop, 8 - 12 Dec 2013, p.55 - p.59, [平成27年6月29日検索], インターネット< http://www.researchgate.net/profile/George_Saon/publication/261485126_Speaker_adaptation_of_neural_network_acoustic_models_using_i-vectors/links/558d70f108ae15962d8939c7.pdf > Mickael Rouvier, Benoit Favre, "Speaker adaptation of DNN-based ASR with i-vectors: Does it actually adapt models to speakers?," [online], in Proc. of INTERSPEECH, [平成27年6月29日検索], インターネット< http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.481.855&rep=rep1&type=pdf > 小川 哲司、塩田 さやか、"i-vectorを用いた話者認識"、日本音響学会誌,70巻6号,p.332 - p.339,2014-06-01、一般社団法人日本音響学会 Yi Hu, Philipos C. Loizou, "Subjective comparison and evaluation of speech enhancement algorithms," [online], in Acoustics, Speech and Signal Processing 2006, ICASSP 2006 Proceedings, 2006 IEEE International Conference (Volume:1), [平成27年6月29日検索], インターネット< http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2098693/ > Yun Lei, Nicolas Scheffer, Luciana Ferrer, Mitchel MacLaren, "A NOVEL SCHEME FOR SPEAKER RECOGNITION USING A PHONETICALLY-AWARE DEEP NEURAL NETWORK," [online], in Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference, 4 - 9 May 2014, P.1714 - 1718, [平成27年6月29日検索], インターネット< http://www.sri.com/sites/default/files/publications/dnn.pdf > P. Kenny, V. Gupta, T. Stafylakis, P. Ouellet and J. Alam, "Deep Neural Networks for extracting Baum-Welch statistics for Speaker Recognition," [online], in The Speaker and Language Recognition Workshop 16 -19 June 2014, [平成27年6月29日検索], インターネット< http://cs.uef.fi/odyssey2014/program/pdfs/28.pdf > Daniel Garcia-Romero, Xiaohui Zhang, Alan McCree, Daniel Povey, "IMPROVING SPEAKER RECOGNITION PERFORMANCE IN THE DOMAIN ADAPTATION CHALLENGE USING DEEP NEURAL NETWORKS," [online], in Spoken Language Technology Workshop (SLT), 2014 IEEE, 7 - 10 Dec. 2014, [平成27年6月29日検索], インターネット< http://www.danielpovey.com/files/2014_slt_dnn.pdf >
しかしながら、上記技術では、i-vectorに基づくDNN−HMM音響モデル適応化において、雑音やチャネル歪みなどの影響を受けていないクリーンな入力音声データを想定して行われている。あるいは、入力音声データが雑音やチャネル歪みの影響を受けているとしても、それらに何ら対処を施さずにDNN−HMM音響モデル適応化が行われている。
ここで、i-vectorは、入力音声データの特徴量に基づき抽出されるため、入力音声データに雑音やチャネル歪みが付加されている場合は、抽出されたi-vectorも雑音やチャネル歪みの影響を受ける。よって、入力音声データが雑音やチャネル歪みなどの影響を受けている場合は、i-vectorに基づくDNN−HMM音響モデル適応化の効果が低下する。
本願が開示する実施形態の一例は、例えば、特徴量ベクトルに基づくDNN−HMM音響モデル適応化の効果の低減を抑制することを目的とする。
本願の実施形態の一例において、入力音声から第1の特徴量ベクトルを抽出する。入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する。そして、雑音又は歪みを含む音声に対して低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、第2の特徴量ベクトルが混合分布モデルの各分布に該当する確率を示す事後確率を計算する。そして、雑音又は歪みを含む音声及び事後確率から、混合分布モデルにおける各分布の平均ベクトルを算出する。そして、第1の特徴量ベクトルと、事後確率と、平均ベクトルとから、入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する。そして、0次のBaum-Welch統計量及び1次のBaum-Welch統計量から特徴量ベクトルを計算する。
本願が開示する実施形態の一例によれば、例えば、特徴量ベクトルに基づくDNN−HMM音響モデル適応化の効果の低減を抑制できる。
図1は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトルの入力の概要の一例を示す図である。 図2は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトル及びi-vectorの入力の概要の一例を示す図である。 図3は、従来技術に係るi-vectorの抽出手順の概要の一例を示す図である。 図4は、実施形態に係るi-vector算出装置の一例を示す図である。 図5は、実施形態に係るi-vector抽出処理の一例を示すフローチャートである。 図6は、プログラムが実行されることにより、実施形態に係るi-vector算出装置及びi-vector算出装置を含む音声認識装置が実現されるコンピュータの一例を示す図である。
以下、本願の開示技術に関する実施形態の一例について、図面を参照して説明する。なお、以下の実施形態により、本願の開示技術が限定されるものではない。また、以下の実施形態は、適宜組合せてもよい。以下、本願が開示する実施形態の説明に先立ち、前提となる従来技術について説明し、その後、本願が開示する実施形態を説明する。
なお、以下の記載において、記号Aに対して“^A”と表記する場合は、下記の(1−1)式に示すように、「Aの直上に^が付された記号」と同等であるとする。また、記号Aに対して“−A”と表記する場合は、下記の(1−2)式に示すように、「Aの直上に−が付された記号」と同等であるとする。また、記号Aに対して“{A}α β”と表記する場合は、下記の(1−3)式に示すように、「{A}の右方にαが下付きで表記され、{A}の右方にβが上付きで表記された記号」と同等であるとする。また、Aがベクトルである場合には「ベクトルA」、Aが行列である場合には「行列A」、Aが集合である場合には「集合A」と記載する。
Figure 0006401126
[従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトルの入力]
図1は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトルの入力の概要の一例を示す図である。図1に示すように、一般的に、音声認識において、入力音声データは、フレーム長30msec程度、フレームシフト10msec程度の単位で音響分析され、40次元程度のMFCC(Mel-Frequency Cepstral Coefficient)やFBANK(log-mel Filter BANK)等の基本特徴量ベクトルがフレーム毎に抽出される。
そして、図1に示すように、DNN−HMM音響モデルは、1フレームの基本特徴量ベクトルが与えられたときに、当該フレームのHMM状態の事後確率ベクトルを出力する。より詳細には、DNN−HMM音響モデルは、例えば当該フレーム及び当該フレームの前後5フレーム分の特徴量ベクトルが連結された合計数百〜千数百程度の次元の基本特徴量ベクトルが与えられるのに対して、当該フレームのHMM状態の事後確率ベクトルを出力する。この音声認識の基本の枠組みについては、例えば非特許文献1及び2で詳細に説明されている。
[従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトル及びi-vectorの入力]
図2は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトル及びi-vectorの入力の概要の一例を示す図である。図2に示すように、MFCCやFBANK等の基本特徴量ベクトルとは別に、入力音声データに含まれる話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトルが入力音声データから抽出される。そして、基本特徴量ベクトル及びi-vectorを連結した拡張特徴量ベクトルをDNN−HMM音響モデルに与えて、主に話者変動に対して適応化した音声認識に用いる。この方法の有効性は、例えば非特許文献4及び5で詳細に説明されている。
ここで、雑音やチャネル歪みが付加されている入力音声データを音声認識するためにi-vectorを用いる場合は、話者変動に加えて、雑音やチャネルの変動にもDNN−HMM音響モデルを適応化する必要があるため、話者の特徴に加えて、雑音やチャネル歪みの情報もi-vectorに含まれている方が望ましい。i-vectorは、元来、話者認識の分野で開発されたものである。
[従来技術に係るi-vectorの抽出手順]
図3は、従来技術に係るi-vectorの抽出手順の概要の一例を示す図である。以下、i-vectorの抽出手順について説明する。以下、i-vector抽出手順のうち、開示技術に関わる部分のみについて説明する。i-vectorが登場した経緯や抽出手順については、例えば非特許文献7で詳細に説明されている。
従来技術の話者認識における標準的なi-vectorの抽出手法は、GMM(Gaussian Mixture Model:混合ガウス分布モデル)−UBM(Universal Background Model)(GMM−UBM)アプローチである。なお、UBMもGMMの一種である。GMM−UBMアプローチは、「音声らしい」モデル(UBM)を多数の不特定話者の大量のUBM学習用の音声データを用いて学習しておき、新たな話者のモデル(GMM)は、当該話者の少量の音声データを用いてUBMを適応して得る、という手法である。
一方、近年の話者認識においては、GMMの平均ベクトルを混合数分だけ連結したGMMスーパーベクトルを特徴量ベクトルとして用いる枠組みが主流となってきている。GMMスーパーベクトルは、時系列データである音声データをベクトル空間上の一点として表現するものである。i-vectorもこのGMMスーパーベクトルを基礎としている。
ここで、入力音声データuから得られるD次元のLフレームの特徴量ベクトル系列Xuを、下記の(2)式のように定義する。特徴量ベクトルxt(t=1,2,・・・,L)は、例えばMFCCであり、その次元数Dは、例えば40である。
Figure 0006401126
また、c=1,2,・・・,CをUBM(GMM)のガウス分布を表す添え字(例えばC=2048)とし、c番目のガウス分布の混合重みπc、c番目の平均ベクトルmc、対角共分散行列Σcとすると、UBMのパラメータ集合Ωは、下記の(3)式で表される。
Figure 0006401126
このとき、特徴量ベクトルxtに対するUBMの尤度p(xt|Ω)は、下記の(4)式のように与えられる。
Figure 0006401126
このUBMから得られる話者非依存のCD(C×D)次元のGMMスーパーベクトルmは、下記(5)式のようになる。ただし、数式の右肩のTは、行列又はベクトルの転置記号である。
Figure 0006401126
そして、入力音声データuのCD次元のGMMスーパーベクトルMuは、下記の(6)式のように得られるものとする。
Figure 0006401126
ここで、上記の(6)式における行列Tは、全変動行列と呼ばれるCD次元×M次元の矩形行列(M<<CD)であり、ベクトルwuが入力音声データuに対するM次元のi-vectorである。つまり、i-vectorは、GMMスーパーベクトル空間における平均的な話者(UBMの平均)からの「差」(を次元圧縮したもの)として各入力音声データuに含まれる話者の特徴を表現したものといえる。
以下、i-vectorであるベクトルwuの具体的な一連の抽出手順について述べる。先ず、γt(c)を、UBMにおいてc番目であるガウス分布からxtが生成される事後確率とする。事後確率γt(c)は、下記の(7)式のように得られる。
Figure 0006401126
事後確率γt(c)を用いると、UBMを用いた入力音声データuに対する0次、1次のBaum-Welch統計量Nu,c、ベクトルFu,cは、下記の(8)式及び(9)式のようにそれぞれ書くことができる。ただし、ベクトルFu,cは、D次元のベクトルである。
Figure 0006401126
Figure 0006401126
さらに、上記の(8)式及び(9)式を用いて、下記の(10)式及び(11)式のように、0次、1次のBaum-Welch統計量である行列Nu、ベクトルFuを定義する。ただし、行列NuはCD次元×CD次元の行列、ベクトルFuはD次元のベクトルである。
Figure 0006401126
Figure 0006401126
ここで、上記の(10)式の対角成分に現れる行列IDは、D次元×D次元の単位行列である。また、行列Σを全変動行列Tで表現できない残留変動成分をモデル化するD次元×D次元の対角行列とする。行列T及び行列Σの計算手順は省略するが、以上を用いてi-vectorwuは、下記の(12)式のように計算できる。なお、下記の(12)式における行列IMは、M次元×M次元の単位行列である。
Figure 0006401126
上記の(7)式〜(12)式で示したi-vectorwuの具体的な一連の抽出手順は、大きく分けて二つの手順に分けることができる。<一つ目の手順>は、上記の(7)式に相当するもので、入力音声データuから得られるLフレームの特徴量ベクトル系列Xuの各フレームの特徴量xt(t=1,2,・・・,L)がUBMのc番目のガウス分布から生成される事後確率γt(c)を計算する手順である。<二つ目の手順>は、上記の(7)式で計算した事後確率γt(c)を用いて、上記の(8)式〜(12)式に従い、i-vectorwuを計算する手順である。
UBM内の各ガウス分布は、理想的には、前後数音素分の依存性も含めた音素の情報を含む各音素コンテキストに対応している。i-vector抽出の<一つ目の手順>で、事後確率γt(c)を計算しているが、これはベクトルxtの音素コンテキストを確率的に推定していることに相当する。事後確率γt(c)を精度良く計算することは、i-vector抽出の二つ目の手順で、話者の特徴を表現したi-vectorwuを、音素コンテキストすなわち入力音声データuの発話内容に依存せずに、精度良く計算するために必要不可欠である。
実環境において音声認識を行う際には、入力音声データuには雑音やチャネル歪みが付加されることが多い。この場合、i-vector抽出の<一つ目の手順>で、事後確率γt(c)を精度良く計算することが困難になり、その結果、i-vector抽出の<二つ目の手順>で、i-vectorを精度良く計算することが困難になる。この問題を解決するために、例えば何らかの音声強調技術を用いて、入力音声データuから雑音やチャネル歪みを低減した上で、上記の(7)式〜(12)式で示されるi-vector抽出の一連の手順を行うという方法が考えられる。
この方法によれば、i-vector抽出の<一つ目の手順>で、事後確率γt(c)は精度良く計算することが可能になるが、i-vector抽出の<二つ目の手順>での処理対象が雑音やチャネル歪みが低減された情報となるため、実際に計算されたi-vectorからも雑音やチャネル歪みの情報が失われることになり、話者の特徴に加えて雑音やチャネル歪みの情報もi-vectorに含めるようにして音声認識で積極的に利用したい場合に、不都合となる。
[実施形態に係るi-vector抽出]
以上から、実施形態は、i-vectorの抽出手順において、(第1の要件)i-vector抽出の<一つ目の手順>で、入力音声データuに含まれる雑音やチャネル歪みを低減して事後確率γt(c)を精度良く計算し、(第2の要件)i-vector抽出の<二つ目の手順>では、話者の特徴に加えて雑音やチャネル歪みの情報も含んだ形で、つまり、雑音やチャネル歪みが含まれる入力音声データuを使ってi-vectorを計算する。
図4は、実施形態に係るi-vector算出装置の一例を示す図である。i-vector算出装置10は、第1の基本特徴量抽出部11A、第2の基本特徴量抽出部11B、^γt(c)計算部12、−mc計算部13、^Nu,c,^Fu,c計算部14、i-vector計算部15を有する。なお、第1の基本特徴量抽出部11A、第2の基本特徴量抽出部11B、^γt(c)計算部12、−mc計算部13、^Nu,c,^Fu,c計算部14、i-vector計算部15は、CPU(Central Processing Unit)等の処理装置及びRAM(Random Access Memory)等の一時記憶装置の協働により処理を行う処理部であり、適宜統合又は分散してもよい。
実施形態では、雑音やチャネル歪みが付加された多数の不特定話者の大量のUBM学習用の音声データから抽出されるD次元、Qフレームの特徴量ベクトル時系列Oを、下記の(13)式のように定義する。特徴量ベクトル時系列Oは、雑音歪み音声特徴量記憶部100Aに保存される。
Figure 0006401126
また、雑音やチャネル歪みが付加された多数の不特定話者の大量のUBM学習用の音声データに対して所定の音声強調技術を用いて雑音やチャネル歪みを低減して得た音声データから抽出されるD次元、Qフレーム特徴量ベクトル時系列^Oを、下記の(14)式のように定義する。特徴量ベクトル時系列^Oは、雑音歪み低減音声特徴量記憶部100Bに保存される。
Figure 0006401126
雑音やチャネル歪みが付加された入力音声データuから抽出されたD次元、Lフレームの特徴量ベクトル系列Xuを、下記の(15)式のように定義する。第1の基本特徴量抽出部11Aは、下記の(15)式により、入力音声データuから特徴量ベクトル系列Xuを抽出する。
Figure 0006401126
入力音声データuに対して、上記した所定の音声強調技術を用いて雑音やチャネル歪みを低減した入力音声データ^uから得たD次元、Lフレームの特徴量ベクトル時系列^Xuを、下記の(16)式のように定義する。第2の基本特徴量抽出部11Bは、下記の(16)式により、入力音声データuから特徴量ベクトル系列^Xuを抽出する。すると、ベクトル系列^Oを用いて学習したUBM(以下、^UBMと表記する)の^xt(t=1,2,・・・,L)に対する各尤度p(^xt|^Ω)は、下記の(17)式のように書くことができる。
Figure 0006401126
Figure 0006401126
ここで、c=1,2,・・・,Cを^UBMのガウス分布を表す添え字(例えばC=2048)とし、c番目のガウス分布の混合重み^πc、c番目の平均ベクトル^mc、対角共分散行列^Σcとすると、^UBMのパラメータ集合^Ωは、下記の(18)式のようになる。^UBMのパラメータ集合^Ωは、UBM学習装置200により特徴量ベクトル時系列^Oから算出され、^UBM記憶部300に保存される。
Figure 0006401126
^γt(c)計算部12は、^UBMのパラメータ集合^Ωを用いて、^Xuの各フレームの特徴量ベクトル^xt(t=1,2,・・・,L)が^UBMのc番目のガウス分布から生成される事後確率^γt(c)を、下記の(19)式のように計算する。
Figure 0006401126
事後確率^γt(c)は、雑音やチャネル歪みを低減した^UBMと、雑音やチャネル歪みを低減したベクトル系列^Xuとを用いて計算されているため、上記の(第1の要件)を満たすi-vectorの抽出手順の<一つ目の手順>である。続けて、^Nu,c,^Fu,c計算部14は、事後確率^γt(c)を用いて、入力音声データuに対する0次、1次のBaum-Welch統計量^Nu,c、ベクトル^Fu,cを、下記の(20)式及び(21)式のようにそれぞれ計算する。ただし、ベクトル^Fu,cは、D次元のベクトルである。
Figure 0006401126
Figure 0006401126
ここで着目すべきは、上記の(21)式において、ベクトル^Fu,cの計算に、雑音やチャネル歪みが付加された入力音声データuの特徴量ベクトルxt(t=1,2,・・・,L)を用いることである。このようにベクトル^Fu,cを計算することで、最終的に抽出されるi-vectorは、話者の特徴に加えて、雑音やチャネル歪みの情報も保持したものとなり、<二つ目の手順>において上記の(第2の要件)が満されていることになる。
なお、−mc計算部13は、上記の(21)式における−mcを、事後確率^γt(c)と、上記の(13)式で示されるUBM学習用の音声データから得られるD次元、Qフレームの特徴量ベクトル時系列Oを用いて、下記の(22)式のように計算する。
Figure 0006401126
これは、仮に特徴量ベクトル時系列Oを用いてUBMを学習したとしても、UBMのガウス分布番号と、^UBMのガウス分布番号の対応を取ることは不可能であるため、単純にUBMの分布番号cのガウス分布の平均ベクトルmcを用いることができないためである。すなわち、UBMと^UBMは別物であり、UBMを構成するガウス分布と^UBMを構成するガウス分布とは何ら関係はないことから、両者のガウス分布の分布番号同士にも何ら関係はないためである。つまり、^UBMでのガウス分布番号が既知であっても、この番号はUBMでのガウス分布の分布番号とは異なり、UBMでのガウス分布番号を求めることはできないことから、特徴量ベクトルxt(t=1,2,・・・,L)から差し引くべきc番目の平均ベクトルmcを求めることができない。この問題を解決するため、^UBMでのガウス分布番号を用いて、上記の(22)式に従って、c番目の平均ベクトルmcの近似値−mcを求める。
最後に、i-vector計算部15は、下記の(23)式、(24)式、(25)式により、i-vectorwuを計算する。
Figure 0006401126
Figure 0006401126
Figure 0006401126
[実施形態に係るi-vector抽出処理]
図5は、実施形態に係るi-vector抽出処理の一例を示すフローチャートである。先ず、i-vector算出装置10の第1の基本特徴量抽出部11Aは、上記の(15)式により、入力音声データuから特徴量ベクトル系列Xu(第1の基本特徴量)を抽出する(ステップS11)。次に、第2の基本特徴量抽出部11Bは、上記の(16)式により、入力音声データuから特徴量ベクトル系列^Xu(第2の基本特徴量)を抽出する(ステップS12)。なお、ステップS11及びステップS12の実行順序は、前後しても、同時であってもよい。
次に、^γt(c)計算部12は、^UBMのパラメータ集合^Ωと、特徴量ベクトル系列^Xuとを用いて、^Xuの各フレームの特徴量ベクトル^xt(t=1,2,・・・,L)が^UBMのc番目のガウス分布から生成される事後確率^γt(c)を、上記の(19)式のように計算する(ステップS13)。
次に、−mc計算部13は、上記の(21)式における−mcを、事後確率^γt(c)と、上記の(13)式で示されるUBM学習用の音声データから得られるD次元、Qフレームの特徴量ベクトル時系列Oと、事後確率^γt(c)とを用いて、上記の(22)式のように計算する(ステップS14)。
次に、^Nu,c,^Fu,c計算部14は、特徴量ベクトル系列Xuと、事後確率^γt(c)と、−mcとから、入力音声データuに対する0次、1次のBaum-Welch統計量^Nu,c、ベクトル^Fu,cを、上記の(20)式及び(21)式のようにそれぞれ計算する(ステップS15)。
次に、i-vector計算部15は、上記の(23)式、(24)式、(25)式により、i-vectorwuを計算する(ステップS16)。i-vector算出装置10は、ステップS15で計算したi-vectorwuを出力する。i-vectorwuは、例えば図2に示すように、基本特徴量ベクトル及びi-vectorwuが連結された拡張特徴量ベクトルが、例えばDNN−HMM音響モデルに入力され求められたHMM状態事後確率ベクトルを用いて音声認識を行う音声認識装置に適用できる。
なお、以上の実施形態に係るi-vectorの抽出手順における雑音やチャネル歪みを低減する方法としては、任意の音声強調処理技術を適用することができる。各種の音声強調処理技術については、例えば非特許文献8に詳細に記載されている。または、雑音やチャネル歪みの影響を低減する方法として音声強調処理技術に代えて、DNN−HMM音響モデルから得られるボトルネック特徴量を用いる処理技術を用いてもよい。ボトルネック特徴量は、例えば非特許文献2に詳細に記載されている。
また、特徴量ベクトル時系列^Oを用いて学習する混合分布モデルは、GMMに基づくUBMに限らず、HMMであってもよい。
[評価実験]
実施形態と比較する従来技術は、非特許文献4及び5に記載の従来技術とした。下記の(表1)及び(表2)は、実施形態のi-vector算出装置10により算出されたi-vectorをDNNの音響モデルへ投入した場合の評価実験結果を示す表である。各表における百分率は、単語誤り率(Word Error Rate:WER)である。
Figure 0006401126
Figure 0006401126
(表1)において、“+”記号の左側は“i-vector抽出の<一つ目の手順>で用いた特徴量の種別”を表し、“+”記号の右側は“i-vector抽出の<二つ目の手順>で用いた特徴量の種別”を表す。“noisy MFCC”は雑音MFCCであり、“Bottleneck”はBottleneck特徴量であり、“VTS enhanced”はベクトルテーラー展開強調量である。
(表1)は、いずれの組合せであっても、ベースラインのDNNよりもWERの削減が見られたことを示す。
また、(表2)は、i-vector抽出中における^UBMの混合分布モデル学習の際に用いたボトルネック特徴量のサイズの違いによるWERを示す。(表2)は、いずれのサイズであってもベースラインのDNNよりWERの削減が見られたことを示す。
i-vector算出装置10及びi-vector算出装置10を含む音声認識装置において行われる各処理は、全部又は任意の一部が、CPU等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、i-vector算出装置10及びi-vector算出装置10を含む音声認識装置において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
(プログラムについて)
図6は、プログラムが実行されることにより、実施形態に係るi-vector算出装置及びi-vector算出装置を含む音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、i-vector算出装置10及びi-vector算出装置10を含む音声認識装置の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、i-vector算出装置10及びi-vector算出装置10を含む音声認識装置における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10 i-vector算出装置
11A 第1の基本特徴量抽出部
11B 第2の基本特徴量抽出部
12 ^γt(c)計算部
13 −mc計算部
14 ^Nu,c,^Fu,c計算部
15 i-vector計算部
1000 コンピュータ
1010 メモリ
1020 CPU

Claims (6)

  1. 入力音声から第1の特徴量ベクトルを抽出する第1の特徴量抽出部と、
    前記入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する第2の特徴量抽出部と、
    雑音又は歪みを含む音声に対して雑音又はチャネル歪みの低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、前記第2の特徴量ベクトルが前記混合分布モデルの各分布に該当する確率を示す事後確率を計算する事後確率計算部と、
    前記雑音又は歪みを含む音声及び前記事後確率から、前記混合分布モデルにおける各分布の平均ベクトルを算出する平均ベクトル算出部と、
    前記第1の特徴量ベクトルと、前記事後確率と、前記平均ベクトルとから、前記入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する統計量計算部と、
    前記0次のBaum-Welch統計量及び前記1次のBaum-Welch統計量から特徴量ベクトルを計算する特徴量ベクトル計算部と
    を備えることを特徴とする特徴量ベクトル算出装置。
  2. 前記低減処理は、音声強調処理である
    ことを特徴とする請求項1に記載の特徴量ベクトル算出装置。
  3. 前記低減処理は、ボトルネック特徴量を用いる処理である
    ことを特徴とする請求項1に記載の特徴量ベクトル算出装置。
  4. 前記第1の特徴量ベクトルと、前記特徴量ベクトル計算部により算出された前記特徴量ベクトルとを連結した拡張特徴量ベクトルを所定の音響モデルへの入力として、前記入力音声を音声認識処理する音声認識処理部をさらに有することを特徴とする請求項1〜3のいずれか一つに記載の特徴量ベクトル算出装置
  5. 特徴量ベクトル算出装置が実行する特徴量ベクトル算出方法であって、
    入力音声から第1の特徴量ベクトルを抽出する第1の特徴量抽出ステップと、
    前記入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する第2の特徴量抽出ステップと、
    雑音又は歪みを含む音声に対して前記低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、前記第2の特徴量ベクトルが前記混合分布モデルの各分布に該当する確率を示す事後確率を計算する事後確率計算ステップと、
    前記雑音又は歪みを含む音声及び前記事後確率から、前記混合分布モデルにおける各分布の平均ベクトルを算出する平均ベクトル算出ステップと、
    前記第1の特徴量ベクトルと、前記事後確率と、前記平均ベクトルとから、前記入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する統計量計算ステップと、
    前記0次のBaum-Welch統計量及び前記1次のBaum-Welch統計量から特徴量ベクトルを計算する特徴量ベクトル計算ステップと
    を含んだことを特徴とする特徴量ベクトル算出方法。
  6. 請求項1、23又はに記載の特徴量ベクトル算出装置としてコンピュータを機能させるための特徴量ベクトル算出プログラム。
JP2015158861A 2015-08-11 2015-08-11 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 Active JP6401126B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015158861A JP6401126B2 (ja) 2015-08-11 2015-08-11 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015158861A JP6401126B2 (ja) 2015-08-11 2015-08-11 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。

Publications (2)

Publication Number Publication Date
JP2017037222A JP2017037222A (ja) 2017-02-16
JP6401126B2 true JP6401126B2 (ja) 2018-10-03

Family

ID=58048199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015158861A Active JP6401126B2 (ja) 2015-08-11 2015-08-11 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。

Country Status (1)

Country Link
JP (1) JP6401126B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109473119B (zh) * 2017-09-07 2023-04-07 中国科学院声学研究所 一种声学目标事件监控方法
CN107623614B (zh) * 2017-09-19 2020-12-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
JP6977004B2 (ja) * 2019-08-23 2021-12-08 サウンドハウンド,インコーポレイテッド 車載装置、発声を処理する方法およびプログラム
WO2021152838A1 (en) * 2020-01-31 2021-08-05 Nec Corporation Speech embedding apparatus, and method
CN111739508B (zh) * 2020-08-07 2020-12-01 浙江大学 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及***
CN113393847B (zh) * 2021-05-27 2022-11-15 杭州电子科技大学 基于Fbank特征和MFCC特征融合的声纹识别方法
CN113327599B (zh) * 2021-06-30 2023-06-02 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
JP6244297B2 (ja) * 2014-12-25 2017-12-06 日本電信電話株式会社 音響スコア算出装置、その方法及びプログラム

Also Published As

Publication number Publication date
JP2017037222A (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
JP6401126B2 (ja) 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
US20100076759A1 (en) Apparatus and method for recognizing a speech
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP2017097188A (ja) 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム
Madikeri et al. Implementation of the standard i-vector system for the kaldi speech recognition toolkit
Gholamdokht Firooz et al. Spoken language recognition using a new conditional cascade method to combine acoustic and phonetic results
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
Gales et al. Canonical state models for automatic speech recognition.
Liu et al. An iterative framework for unsupervised learning in the plda based speaker verification
Gao et al. Open-set speaker identification in broadcast news
JP2017037250A (ja) 音声強調装置、音声強調方法及び音声強調プログラム
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
Bharathi et al. GMM and i-vector based speaker verification using speaker-specific-text for short utterances
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP4801108B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP4909318B2 (ja) 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体
US10170103B2 (en) Discriminative training of a feature-space transform
Varshney et al. ASR for mixed speech using SNMF based separation algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180906

R150 Certificate of patent or registration of utility model

Ref document number: 6401126

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150