JP2010152081A - 話者適応装置及びそのプログラム - Google Patents
話者適応装置及びそのプログラム Download PDFInfo
- Publication number
- JP2010152081A JP2010152081A JP2008330095A JP2008330095A JP2010152081A JP 2010152081 A JP2010152081 A JP 2010152081A JP 2008330095 A JP2008330095 A JP 2008330095A JP 2008330095 A JP2008330095 A JP 2008330095A JP 2010152081 A JP2010152081 A JP 2010152081A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- decision tree
- parameters
- adaptation
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 116
- 238000003066 decision tree Methods 0.000 claims abstract description 154
- 238000000034 method Methods 0.000 claims description 36
- 230000001419 dependent effect Effects 0.000 claims description 32
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 101100328887 Caenorhabditis elegans col-34 gene Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】決定木を入力音声の話者が発声した話者適応データに話者適応させること。
【解決手段】話者適応装置は、音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するHMM101と、前記特徴量に関する質問に答えて前記HMM101の各状態における尤度を出力する決定木102と、を有する音響モデルを取得する取得部100と、入力音声の話者が発声した話者適応データを用いて、前記決定木102を前記話者に対して話者適応させるデコーダ104とを有する。
【選択図】 図2
【解決手段】話者適応装置は、音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するHMM101と、前記特徴量に関する質問に答えて前記HMM101の各状態における尤度を出力する決定木102と、を有する音響モデルを取得する取得部100と、入力音声の話者が発声した話者適応データを用いて、前記決定木102を前記話者に対して話者適応させるデコーダ104とを有する。
【選択図】 図2
Description
本発明は、音声認識に用いられる決定木の話者適応の技術に関する。
一般に音声認識システムはHMM(Hidden Markov Model)から構成され、各HMMは音素に対応付けられる。HMMの各状態は音響特徴量の分布を表すモデルを持ち、各状態の音響特徴量の尤度を出力する。HMMのモデルパラメータ、すなわち音響特徴量の分布パラメータは数多くの話者のデータを用いて学習され、任意の話者の音声が認識できるような話者に依存しないモデル、すなわち話者非依存モデルになっている。
一方、モデルパラメータを認識したい話者のデータに適応するように変化させた場合、認識性能が明らかに向上することが良く知られている。
HMMの状態に対応する音響特徴量の分布がガウス混合分布(Gaussian Mixture Models 、以下、「GMM」という)でモデル化される従来の音声認識システムに関して、GMMのパラメータを新しい話者のデータに適応させるためのアルゴリズムが数多く開発され、認識性能の向上が報告されている(非特許文献1参照)。
しかしながら、非特許文献2に示される決定木に基づく音響モデルに関しては、話者適応の方法は今まで存在しなかった。その理由は、決定木に基づく音響モデルは、GMMと異なってパラメトリックなモデルではないため、GMMのようなモデルに基づいた適応方法が単純に適用できないためである。
すなわち、学習用のデータに含まれない新しい話者のデータに対して音声認識の性能を改善するためには、音声認識のパラメータを話者データに適応させる話者適応が有効であり、GMMに基づく音響モデルに対して話者適応の方法や効果が今までに多くの研究者によって示されている。
一方、決定木に基づく音響モデルが最近提案され、音響特徴だけではなく話者の性別や環境雑音の種類、デコーダの状態など音響特徴に影響を及ぼす非音響特徴も統一的に扱え、従来のGMMに基づく音響モデルより高い認識性能を実現できる可能性のあることが示されている(特許文献1参照)。
特開2008−76730号公報
Woodland, Phil C. (2001): 「Speaker adaptation for continuous density HMMs: A review」, Invited Lecture, In Adaptation-2001, 11-19.
Teunen, R. and Akamine, A: 「HMM-based speech recognition using decision trees instead of GMMs」, INTERSPEECH-2007, 2097-2100.
しかしながら、決定木に基づく音響モデルは、GMMと同様に話者変動の影響を受け、話者によって性能が劣化する場合がある。このような話者変動による性能劣化は、GMMの場合、前述したように話者適応の方法が種々提案され、話者適応によって改善されている。
決定木に基づく音響モデルは最近開発された新しいモデルであり、GMMのようなパラメトリックなモデルではなく音響特徴量の分布が仮定されているわけでもないため、GMMで開発された話者適応の方法が単純に適用できず、話者適応の方法が存在しなかった。
本発明は、上記問題点に鑑みてなされたものであり、決定木を入力音声の話者が発声した話者適応データに話者適応させることを目的とする。
本発明は、話者適応装置に係り、音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するHMMと、前記特徴量に関する質問に答えて前記HMMの前記各状態における尤度を出力する決定木と、を有する音響モデルを取得する取得部と、入力音声の話者が発声した話者適応データを用いて、前記決定木を前記話者に対して話者適応させる話者適応部と、を備えることを特徴とする。
本発明によれば、決定木を入力音声の話者が発声した話者適応データに話者適応させることができる。
(第1の実施形態)
以下、本発明の実施形態に係る話者適応装置を有する音声認識装置1について図1〜図10に基づいて説明する。
以下、本発明の実施形態に係る話者適応装置を有する音声認識装置1について図1〜図10に基づいて説明する。
図1は、本実施形態に係る音声認識装置1のハードウェア構成を例示的に示すブロック図である。音声認識装置1は、概略的には、自己最適化音響モデル(以下、「音響モデル」という)を用いて音声認識処理を行ない、また、話者適応装置としては、この音響モデルを話者適応させるものである。
図1に示すように、音声認識装置1は、例えば、コンピュータであり、コンピュータの主要部であって各部を制御するCPU2を備えている。このCPU2には、ROM3と、RAM4とがバス5で接続されている。バス5には、各種のプログラムやデータ等を記憶する記憶部6と、各種操作指示を行うための入力部11と、表示部12とが、図示しないI/Oを介して接続されている。
なお、記憶部6としては、CD−ROMやDVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式の記憶媒体を用いることができる。また、通信制御装置を介してネットワークを介してプログラムをダウンロードし、記憶部6に記憶させてもよい。なお、記憶部は、音声認識装置1の外部に通信可能に接続されてもよい。CPU2は、記憶部6上に記憶されたプログラムに基づいて各種処理を音声認識装置1に実行させる。
次に、音声認識装置1の記憶部6に記憶された各種のプログラムがCPU2で実行する機能のうち、本実施形態の音声認識装置1が備える特徴的な機能について説明する。
図2は、話者適応装置20の構成を示すブロック図である。図2に示すように、話者適応装置20は、例えば、図1の音声認識装置1の記憶部6に格納されたプログラムであり、CPU2により実行されうる。なお、話者適応装置20をハードウェアとして構成してもよい。話者適応装置20は、話者適応部を兼ねた取得部100と、特徴量抽出部103と、音声認識部のデコーダ104と、を備えている。
特徴量抽出部103は、入力音声から音声認識に用いる特徴量を分析して抽出し、取得部100に出力する。特徴量としては、音響特徴量の他、性別、話者、音素コンテキストなどの非音響特徴量を用いてもよい。例えば、従来の音声認識で用いられているMFCC(Mel Frequency Cepstrum Coefficient)又はPLP(Perceptual Linear Predictive)のスタティック及びΔ(一次微分),ΔΔ(二次微分)パラメータとエネルギーパラメータを合わせた39次元の音響特徴量、性別のクラス、入力音声のSNR(Signal to Noise Ratio:信号対雑音比)クラスの高位の非音響特徴量などを、特徴量として用いてもよい。
音響モデルは、一般的な音響モデルである隠れマルコフモデル(HMM)101と、分岐の繰り返しを階層化して樹形図に描き表した決定木102とを有する。HMM101は、従来のHMMの各状態の特徴量であるガウス混合モデル(GMM)が、1又は複数の決定木102で置き換えられている。この決定木102は、最適化手段を構成する。このような音響モデルは、特徴量抽出部103から入力された音声特徴量に対するHMM101の当該状態における尤度203を計算するために用いられる。尤度203とは、あるモデルがどれだけ事象を説明しているかの「尤もらしさ」を示し、そのモデルによりその事象が起こる確率で表される。
言語モデル105は、各単語がどのような文脈で出現するかを推定するための確率統計モデルである。この言語モデル105は、従来のHMM方式の音声認識処理で用いられるモデルと同様である。
デコーダ104は、音声認識部としての機能を有し、音響モデル及び言語モデル105から尤度203(図4参照)が最大になる認識単語を確定する演算を行う。より詳細には、デコーダ104は、取得部100の音響モデルから尤度203を受け取ると共に、取得部100に対してHMM101の状態の音素(又は単語)コンテキストなどの認識対象フレーム及びデコーダ104における音声認識の状態の情報を与える。音素コンテキストは、単語を構成する一連の音素のつながりの一部を取り出したものである。また、取得部100は、話者適応装置における話者適用部としての機能をも有する。
次に、音響モデルを構成するHMM101及び決定木102について詳述する。
HMM101は、特徴量抽出部103が出力する特徴量時系列データと各音素ラベルとが対応付けて登録されている。図3は、HMM101のデータ構造の一例を示す説明図である。図3に示すように、HMM101は、ノードと有向リンクとで構成される有限オートマトンで特徴量時系列データを表現する。ノードは、照合の状態を表現しており、例えば、音素iに対応する各ノードの値i1,i2,i3は、それぞれ異なる状態であることを表している。また、有向リンクには状態間の遷移確率(図示せず)が対応付けられて記憶されている。
図4は、HMM101と決定木102の関係を示している。
各HMM101は複数の状態から成り、各状態201に対して一つの決定木102が対応付けられている。
決定木102の例が図5に示されている。決定木102は複数のノード300,301と複数のリーフ302から構成される二分木であり、各ノードは各ノードの質問の答えに応じて「Yes」と「No」の子ノードに分岐する。リーフは子ノードのない、すなわち分岐のないノードである。
各ノードは任意の音響特徴量又は非音響特徴量に関する質問から構成される。各リーフ302は与えられたHMM101の状態に対する入力データの尤度を出力するために、予め学習された値を保存している。
決定木102の各ノードにおける質問は、質問の前後、すなわち分岐の前後における尤度の増加率などの客観的な評価尺度に基づいて決定される。ここで質問とはある特徴量がある閾値より大きいか否か、又はある特徴量がある値であるか否か、というものであり、音響特徴量や非音響特徴量の全てについて、あり得る全ての質問が前記の客観的な評価尺度に基づいて評価され、最大の評価を与える特徴量と閾値が決定される。このような処理は決定木の学習の過程であり、詳細は特許文献1及び非特許文献2にて開示されている。
図6は、決定木102の具体例を示す説明図である。
図6に示す決定木102では、本実施形態の音響モデルが入力音声の性別やSNR、音声認識の状態、コンテキストに応じて異なる尤度203を出力できることを示している。決定木102はHMM101の状態1(201A)と状態2(201B)の2つの状態に関係付けられており、これら2つの状態201A,201Bに対応する学習データを用いて後述の学習プロセスにより学習される。特徴量C1とC5はPLPケプストラムの1番目と5番目の係数である。ルートノード300、ノード301A、ノード301Bは状態1(201A)と状態2(201B)に共通に適用され、2つの状態で共有される。しかしながら、ノード301Cで状態に関する質問があり、ノード301C以下のノード301D〜301Gは状態依存である。したがって、ある特徴量は状態1(201A)と状態2(201B)で共通に用いられ、ある特徴量は状態に依存して異なるものが用いられることになる。また、状態によって用いられる特徴量の数も異なる。なお、図6の例においては、状態2(201B)の方が状態1(201A)より多くの特徴量を用いており、SNRが例えば5dB未満か否か、すなわち周囲雑音のレベルが高いか否かに応じて、また、当該音素の直前の音素が例えば「/ah/」か否かに応じて、異なる尤度203を出力する構成となっている。さらに、ノード301Bでは入力音声の性別が例えば女性か否かを質問しており、性別によって異なる尤度203が出力できるようになっている。
決定木102のノードの数やリーフの数、各ノードで用いられる特徴量や質問、リーフで出力する尤度などのパラメータは後述の学習プロセスにより学習データから学習され、学習データに対して尤度又は認識率が最大となるよう最適化される。また、学習データが十分に大きく、音声認識が実際に用いられる環境での音声信号を代表しているとみなせる場合、決定木102は実際の環境でも最適であると考えることができる。
次に、決定木102の音響モデルにおいて、入力された特徴量に対するモデルの尤度203がHMM101の状態毎に如何にして計算されるかについて、図7のフローチャートを参照しつつ説明する。
ステップS400では、デコーダ104は、尤度を計算する必要のある、対象音素モデルのHMM101の特定の状態201に対応する決定木102を選択する。
デコーダ104は、ステップS401では、ルートノード300を質問が可能となるアクティブノードに設定すると共に、他の全てのノード及びリーフを非アクティブノードに設定する。
ステップS402では、デコーダ104は、特徴量を特徴量抽出部103から取り出す。
ステップS403では、デコーダ104は、ステップS402で取り出された特徴量をアクティブノードに設定されたルートノード300に入力し、予め設定された質問に対する答えを計算する。
ステップS404では、デコーダ104は、ステップS403で計算された質問に対する答えを評価する。ステップS403で計算された質問に対する答えが「Yes」の場合は、ステップS406に進む。ステップS403で計算された質問に対する答えが「No」の場合は、ステップS405に進む。
ステップS405では、「No」の子ノードをアクティブノードに設定する。
ステップS406では、「Yes」の子ノードをアクティブノードに設定する。
ステップS407では、デコーダ104は、アクティブノードがリーフ302か否かを判断する。
アクティブノードがリーフ302である場合には(ステップS407で「Yes」)、これ以上の分岐はないので、ステップS408に進む。アクティブノードがリーフ302でない場合には(ステップS407で「No」)、ステップS402に戻って、次のアクティブノードの評価を行う。
ステップS408では、リーフ302に格納されている尤度203を戻し、このタイムフレームを当該リーフに関連付ける。
以上説明したように、決定木を用いた音響モデルは、特徴量と特徴量に対する質問、尤度によって記述され、これらは入力データに依存する。決定木は、音響特徴量やより高位の特徴量に関して対応する質問と尤度を入力音声や認識の状態に依存して効果的に最適化することができる。
次に、決定木102の学習プロセスについて説明する。
図8は、学習プロセスで与えられた学習データが如何にして決定木102のノードを分岐し、尤度が計算されるかを示している。決定木102の学習は、基本的に、学習しようとしている決定木102に対応しているHMM101のある状態201に入力サンプルが属しているか否かを識別するために必要な質問と尤度203とを、予め対応する状態に属しているか否かがクラス分けされた学習データを用いて決定する過程である。
学習データは、予め、一般的に用いられている音声認識法を用いて、入力サンプルがどのHMM101のどの状態に対応するかフォース・アライメントし、状態に属するサンプルを正解クラス、属さないサンプルをその他クラスとラベル化しておく。なお、HMM101は、従来と同様の方法で学習することができる。
まず、図8に示すように、D個の学習データをルートノード500に入力する。ここでD個の中のN個のサンプルは正解クラスとする。ルートノード500において、D個の全サンプルに対して予め学習によって設定された質問に対する評価が行われ、質問に対する答えに応じて「Yes」と「No」の子ノードに分岐する。分岐したデータサンプルはさらに次のノードで評価され分岐を繰り返し、分岐のないリーフに達する。あるリーフLにおける尤度203であるLikelihood at Lは、次の(1)式に基づいて計算され、リーフ毎に格納される。
ここで、Priorは正解クラスの事前確率であり、ルートノードにおけるN/Dで計算される。各ノードにおける分岐は排他的に行われるので全てのリーフにおける正解クラスのサンプル数の総和はルートノードにおける正解クラスのサンプル数Nに一致し、その他クラスのサンプル数の総和は(D−N)に一致する。
図9は、決定木102の学習プロセスを示すフローチャートである。図9を参照して学習プロセスの処理をさらに説明する。
ステップS11では、学習する決定木102に対応する当該状態の学習データを入力するとともに、単一リーフを有する決定木102を作成する。決定木102は1つのリーフ302から始まり、リーフ302の分岐によりノードと子ノードを作成され、さらにノードの分岐で子ノードを繰り返し成長させることで作成される。
ステップS12では、分岐の対象とするリーフを選択する。なお、選択されるリーフ302は、学習データの数がある程度以上であること(例えば、100以上)と、学習データが特定のクラスだけから構成されないという条件を満たす必要がある。
ステップS13では、上述した条件を対象のリーフが満足するか否かを判定する。判定結果が「No」の場合は(ステップS13で「No」)、ステップS18に進む。一方、判定結果が「Yes」の場合は(ステップS13で「Yes」)、ステップS14に進む。
ステップS14では、対象のリーフ302に入力される全ての特徴量(学習データ)に対して可能な全ての質問を実施し、その結果として得られる全ての分岐(子ノードへの分岐)を評価する。ステップS14における評価は、分岐による尤度の増加率に基づいて行う。ここで、学習データである特徴量に対する質問は、音響特徴量のように大小関係があるものと、性別や雑音の種類のように大小関係が無くクラスで表現されるもののように、特徴量に応じて異なる。大小関係がある特徴量に対しては、ある閾値より大か否かという質問であり、大小関係がない特徴量に対しては、あるクラスに属するか否かという質問である。
ステップS15では、評価を最大化する最適な質問を選択する。すなわち、全ての学習データに対して可能な全ての質問を評価し、尤度の増加率を最大化する質問を選択する。
ステップS16では、ステップS15で選択された質問に従って、学習データを「Yes」の子リーフと「No」の子リーフに分岐し、各々のリーフに属する学習データからリーフ毎に尤度203を上記の(1)式を用いて計算する。
デコーダ104は、ステップS12に戻って、新たなリーフに対してステップS12〜ステップS16を繰り返し、決定木102を成長させる。そして、ステップS13の判定で成長させる条件を満たすリーフがなくなった場合(ステップS13で「No」)、ステップS18に進み、枝刈りを行う。
ステップS17、18では、木の成長とは逆に最下位のリーフからボトムアップに上に向かってノードを削除しながら枝刈りを行う。
ステップS17では、2つの子リーフをもつ全てのノードについて、そのノードの分岐を削除してリーフにした場合に尤度がどの程度減少するかを評価し、尤度の減少が最小となるノードを探索し、そのノードを枝刈りする。このような手順をノード数が設定値以上になるまで繰り返し行い(ステップS18で「Yes」)、設定値以上となれば決定木102の1回目の学習を終了する(ステップS18で「No」)。
上述した決定木102の学習が一旦終了すると、学習に用いる音声サンプルを学習された音響モデルを用いてフォース・アライメントし、学習データを更新する。更新された学習データに対して、決定木102のリーフの尤度を再学習し、更新する。このような処理を予め設定した回数、又は、全体の尤度の増加率がある閾値以下になるまで繰り返し、学習を完了する。
図10を用いて、本実施形態の話者適応部を有する取得部100の話者適応方法について説明する。
まず、話者非依存決定木601を認識したい話者のデータに適応させるためには、その話者適応データが必要である。特徴量抽出部103は認識したい話者が発声した音声信号である入力データを音声認識に用いる前記MFCCなどの特徴量に変換する。この特徴量が話者適応データとなる。話者適応データは、二つの部分、例えば話者適応データの80%の部分(話者適応データのサンプル604)と20%の部分(話者適応データの一部サンプル611)に分けられ、前者は話者非依存決定木601のパラメータを話者適応させるため、後者は話者適応のための重みβの計算に用いられる。
まず、取得部100は、話者適応データのサンプル604を用いて、話者非依存決定木601を話者依存決定木605に作り変える。具体的には、話者適応データのサンプル604を話者非依存決定木601のルートノードから入力し、各ノード、リーフを通過させながらサンプル604を対応させていく。
次に、取得部100は、各ノードに到達したサンプル604を用いて、各ノードの質問パラメータ、すなわち閾値パラメータを再計算し、古い閾値パラメータを更新する。計算の方法は学習の過程と同じである。
次に、取得部100は、各リーフについてもリーフに到達したサンプル604を用いて尤度を再計算し、リーフのパラメータを更新する。すなわち、話者適応としては、尤度の増加率を最大化させるように質問などを変化させる。
これにより、話者適応データのサンプル604に依存した話者依存決定木605が作成される。
次に、取得部100は、話者非依存決定木601と話者依存決定木605のパラメータを組み合わせて、認識したい話者適応データに話者適応させた新しい決定木、すなわち話者適応決定木608を作成する。
まず、話者非依存決定木601の各ノードと話者依存決定木605の各ノードの質問パラメータである閾値パラメータの組合せについて説明する。
話者非依存決定木のノードJ(602)の閾値パラメータをτj SI、話者依存決定木のノードJ(606)の閾値パラメータをτj SDとする。このときに話者適応決定木608の対応するノードJ(609)の閾値パラメータτj SAは、次の(2)式のように線形結合することにより作成される。
ここで、線形結合の重みβは、話者適応データの一部サンプル611を用いて最適化される。話者非依存決定木601のノードJ(602)において、「Yes」の子ノードに分岐していく正解クラスのデータサンプル数をNp CV、「No」の子ノードに分岐していく正解クラスのデータサンプル数をNn CVとすると、重みβは、次の(3)式が最大になるように決められる。
次に、話者非依存決定木601のリーフと話者依存決定木605のリーフの尤度パラメータの組合せについて説明する。
話者適応決定木608の各リーフLの尤度パラメータLikelihood at L in SAは、質問パラメータと同様に話者非依存決定木601と話者依存決定木605の夫々対応するリーフLにおける尤度の線形結合として次の(4)式で計算され、各リーフLに格納される。
ここで、lSlは話者非依存決定木601のリーフLの尤度、lSDは話者依存決定木605のリーフLの尤度である。
本実施形態のように、話者非依存決定木601と話者依存決定木605のパラメータを組み合わせて話者適応するには次のような理由がある。
話者依存決定木605の閾値パラメータや尤度パラメータが、話者非依存決定木601の閾値パラメータや尤度パラメータと比べてはるかに少ない話者適応データから推定されているため、話者依存決定木605の閾値パラメータや尤度パラメータだけを用いた場合に話者適応データに含まれない入力データに対して性能が劣化する場合がある。
本実施形態によれば、多数の話者適応データで学習された話者非依存決定木601と、話者適応データ604で作成された話者依存決定木605の閾値パラメータや尤度パラメータを組み合わせることにより、様々な入力データに対して、このような性能劣化を防ぎ、安定した性能の向上が可能になるという効果がある。
なお、話者適応データの一部サンプル611は、二種類のパラメータを組み合わせる際の性能を保証するために用いられ、組み合わせのための重みα、βが最適化されるという効果がある。
本実施形態では、数多くの話者データを用いて話者非依存決定木601を作成する。次に、例えば話者Xの話者適応データのサンプル604を用いて話者非依存決定木601の各ノードにおける質問パラメータとリーフにおける尤度パラメータを書き換え、これを話者依存決定木605とする。次に、これら話者非依存決定木601と話者依存決定木605を組み合わせて話者適応決定木608を作成する。すなわち、話者非依存決定木601と話者依存決定木605の二種類のパラメータを線形結合することにより、話者Xに対する話者適応を実現する。線形結合の重みβは話者適応データの一部のデータ611を用いて最適化される。
これにより、本実施形態によれば、話者適応決定木に基づく音響モデルを認識したい話者のデータに話者適応させることができ、音声認識の認識性能を向上させることができる。
(第2の実施形態)
図11を用いて、本発明の第2の実施形態に係る話者適応装置を説明する。
図11を用いて、本発明の第2の実施形態に係る話者適応装置を説明する。
まず、本実施形態の話者適応装置でも、第1の実施形態と同様に話者非依存決定木701を作成する。次に、第1の実施形態と同様に話者依存決定木705を作成する。この話者依存決定木705は、話者適応データ704を用いて決定木の構造含めて全く新規に作成しても良いし、第1の実施形態と同様に話者非依存決定木701のパラメータを話者適応データ704に基づいて書き換えることにより作成しても良い。
本実施形態と第1の実施形態と異なる点は次の点である。
第1の実施形態では、話者非依存決定木601と話者依存決定木605のパラメータを組み合わせて話者適応決定木608を作成した。
これに対して、第2の実施形態では、話者適応決定木は作成せず、音響モデルが話者非依存決定木701と話者依存決定木705から構成される。
したがって、本実施形態においては、話者適応した尤度Likelihood of X given SA treeは、次のように計算する。
まず、話者非依存決定木701と話者依存決定木705の両者に話者Xの特徴量sample Xを入力して、それぞれ尤度を出力する。
次に、話者非依存決定木701の尤度Likelihood of sample X given SI tree、話者依存決定木705の尤度Likelihood of sample X given SD treeを線形結合して次の(6)式に基づいて、話者Xに話者適応した尤度Likelihood of sample X given SA treeを計算する。
Likelihood of sample X given SA tree
=α×Likelihood of sample X given SI tree+(1−α)×Likelihood of sample X given SD tree
・・・(6)
線形結合の重みαは、話者適応データ704の一部サンプルである適応データBの各サンプルiを、話者非依存決定木701と話者依存決定木705に入力して得られる尤度lSl(i)とlSl(i)を用いて、次の(6)式のように計算される。
本実施形態では.第1の実施形態と同様に話者非依存決定木701と話者依存決定木705を作成する。話者適応は、このように作成された話者非依存決定木701と話者依存決定木705の尤度パラメータを線形結合することにより実現される。線形結合の重みは話者適応データ704の一部サンプルを用いて最適化される。
これにより、本実施形態によれば、2つの決定木に基づく音響モデルを認識したい話者のデータに話者適応させることができ、音声認識の認識性能を向上させることができる。
(第3の実施形態)
図12、図13を用いて本発明の第3の実施形態に係る話者適応装置を説明する。
図12、図13を用いて本発明の第3の実施形態に係る話者適応装置を説明する。
本実施形態の話者適応装置は、複数の話者依存決定木805から固有話者決定木を作成し、それらの組み合わせで話者適応を実現するものであり、話者適応決定木の質問パラメータと尤度パラメータの両者を各ノード、各リーフで共通の重みで組み合わせることにより話者のデータに音響モデルを適応させる。
本実施形態の話者適応方法について、図12の説明図と図13のフローチャートに基づいて説明する。
ステップS901では、取得部100は、第1の実施形態と同様に、話者非依存決定木801を作成する。
ステップS902では、取得部100は、第1の実施形態と同様に、話者非依存決定木801のパラメータを各々の話者適応データ804に基づいて書き換えることにより、複数の話者1〜Nの話者依存決定木805を各々作成する。
ステップS903では、取得部100は、これら各話者1〜Nの話者依存決定木805のパラメータを一つのベクトル(以下、「スーパベクトル」という)の形にそれぞれ変換する。これにより、話者1〜Nのそれぞれのスーパーベクトルを得る。
ステップS904では、取得部100は、話者1〜Nのそれぞれのスーパーベクトルを一つの列として並べて、行列806に結合する。図12において、行列806の列ベクトルの一つ一つが各話者1〜Nのスーパーベクトルである。
ステップS905では、取得部100は、この行列806にPCA(Principal Component Analysis:主成分分析)807を適用して各話者のパラメータ間に存在する冗長性を除去する。
ステップS906では、取得部100は、PCA807の結果、冗長性が圧縮された固有のパラメータを持つ複数の固有話者決定木が構成される。図12において、行列808の列ベクトルの一つ一つが固有話者決定木のパラメータとなる。
ステップS907では、取得部100は、第2の実施形態と同様の方法で、線形結合の重みWiを計算する。
ステップS908では、取得部100は、その重みWiを用いて次の(8)式により複数の固有話者決定木iの尤度Liを線形結合させて、入力された話者Xの特徴量に対して、話者Xに話者適応した尤度Lxを計算する。
Lx=ΣWi×Li ・・・(8)
以上により本実施形態では、各話者適応データ804を用いて話者毎に話者依存決定木805を作成する。次に、作成された各々の話者依存決定木805のパラメータに対してPCA807を適用して複数の固有話者決定木を作成する。話者適応は、これら固有話者決定木の尤度を線形結合することにより実現される。線形結合の重みは話者適応データを用いて最適化される。
これにより、本実施形態によれば、固有話者決定木に基づく音響モデルを認識したい話者のデータに話者適応させることができ、音声認識の認識性能を向上させることができる。
本発明は、上記の各実施形態に限らず、その主旨を逸脱しない限り、種々に変更することができる。例えば、上記の各実施形態では、尤度の増加率を最大化させるように質問などを変化させたが、これに限らず、音声の識別率を上昇させるように変化させてもよい。また、上記の各実施形態では、各パラメータを重みを用いて線形結合して組み合わせたが、これに限らず、重みを用いて組み合わせるとは、重みをかけたパラメータの積算値を計算すること、また、重みに指数関数を適用して、この適用した値をパラメータにかけて、その総和を求めることなども含まれうる。
100 取得部
103 特徴量抽出部
104 デコーダ
105 言語モデル
103 特徴量抽出部
104 デコーダ
105 言語モデル
Claims (11)
- 音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するHMMと、前記特徴量に関する質問に答えて前記HMMの前記各状態における尤度を出力する決定木と、を有する音響モデルを取得する取得部と、
入力音声の話者が発声した話者適応データを用いて、前記決定木を前記話者に対して話者適応させる話者適応部と、
を備えることを特徴とする話者適応装置。 - 前記話者適応部は、
前記決定木のパラメータを、前記話者に依存していない話者非依存決定木のパラメータと、前記話者適応データを用いて作成した前記話者に依存する話者依存決定木のパラメータと、を組み合わせて前記話者適応させる、
ことを特徴とする請求項1に記載の話者適応装置。 - 前記パラメータが、前記質問に関する質問パラメータと前記尤度を表す尤度パラメータであり、
前記話者適応部は、
前記話者適応データを用いて、前記話者非依存決定木の各ノードの前記質問パラメータ及びリーフの前記尤度パラメータと、前記話者依存決定木の各ノードの前記質問パラメータ及びリーフの前記尤度パラメータと、をそれぞれ組み合わせて、前記話者に適応した決定木である話者適応決定木を作成して前記話者適応させる、
ことを特徴とする請求項2に記載の話者適応装置。 - 前記話者適応部は、
前記話者非依存決定木の前記パラメータと前記話者依存決定木のパラメータとを、前記話者適応データを用いて決められる重みに基づいて組み合わせて前記話者適応させる、
ことを特徴とする請求項2に記載の話者適応装置。 - 前記話者適応部は、
複数の話者のそれぞれの前記話者適応データを用いて前記各話者依存決定木を作成し、
前記各話者依存決定木の前記パラメータを用いて、PCAによって複数の固有話者決定木を作成し、
前記話者適応データを用いて、前記各固有話者決定木の尤度を組合せて前記話者適応させる、
ことを特徴とする請求項1に記載の話者適応装置。 - コンピュータに、
音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するHMMと、前記特徴量に関する質問に答えて前記HMMの前記各状態における尤度を出力する決定木と、を有する音響モデルを取得する取得機能と、
入力音声の話者が発声した話者適応データを用いて、前記決定木を前記話者に対して話者適応させ
る話者適応機能と、
を実現させるための話者適応プログラム。 - 前記話者適応機能は、
前記決定木のパラメータを、前記話者に依存していない話者非依存決定木のパラメータと、前記話者適応データを用いて作成した前記話者に依存する話者依存決定木のパラメータと、を組み合わせて前記話者適応させる、
ことを特徴とする請求項6に記載の話者適応プログラム。 - 前記パラメータが、前記質問に関する質問パラメータと前記尤度を表す尤度パラメータであり、
前記話者適応機能は、
前記話者適応データを用いて、前記話者非依存決定木の各ノードの前記質問パラメータ及びリーフの前記尤度パラメータと、前記話者依存決定木の各ノードの前記質問パラメータ及びリーフの前記尤度パラメータと、をそれぞれ組み合わせて、前記話者に適応した決定木である話者適応決定木を作成して前記話者適応させる、
ことを特徴とする請求項7に記載の話者適応プログラム。 - 前記話者適応機能は、
前記話者非依存決定木の前記パラメータと前記話者依存決定木のパラメータとを、前記話者適応データを用いて決められる重みに基づいて組み合わせて前記話者適応させる、
ことを特徴とする請求項7に記載の話者適応プログラム。 - 前記話者適応機能は、
複数の話者のそれぞれの前記話者適応データを用いて前記各話者依存決定木を作成し、
前記各話者依存決定木の前記パラメータを用いて、PCAによって複数の固有話者決定木を作成し、
前記話者適応データを用いて、前記各固有話者決定木の尤度を組合せて前記話者適応させる、
ことを特徴とする請求項6に記載の話者適応プログラム。 - 音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するHMMと、前記特徴量に関する質問に答えて前記HMMの前記各状態における尤度を出力する決定木と、を有する音響モデルを取得する取得工程と、
入力音声の話者が発声した話者適応データを用いて、前記決定木を前記話者に対して話者適応させ
る話者適応工程と、
を含むことを特徴とする話者適応方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008330095A JP2010152081A (ja) | 2008-12-25 | 2008-12-25 | 話者適応装置及びそのプログラム |
US12/561,445 US20100169094A1 (en) | 2008-12-25 | 2009-09-17 | Speaker adaptation apparatus and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008330095A JP2010152081A (ja) | 2008-12-25 | 2008-12-25 | 話者適応装置及びそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010152081A true JP2010152081A (ja) | 2010-07-08 |
Family
ID=42285987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008330095A Pending JP2010152081A (ja) | 2008-12-25 | 2008-12-25 | 話者適応装置及びそのプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20100169094A1 (ja) |
JP (1) | JP2010152081A (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
JP5494468B2 (ja) * | 2010-12-27 | 2014-05-14 | 富士通株式会社 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
US8965763B1 (en) | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US8571859B1 (en) * | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
CN104143330A (zh) * | 2013-05-07 | 2014-11-12 | 佳能株式会社 | 语音识别方法和语音识别*** |
US9842592B2 (en) * | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) * | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9892726B1 (en) * | 2014-12-17 | 2018-02-13 | Amazon Technologies, Inc. | Class-based discriminative training of speech models |
US10134394B2 (en) * | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794197A (en) * | 1994-01-21 | 1998-08-11 | Micrsoft Corporation | Senone tree representation and evaluation |
US5737487A (en) * | 1996-02-13 | 1998-04-07 | Apple Computer, Inc. | Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition |
US6266637B1 (en) * | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
US6571208B1 (en) * | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US7472064B1 (en) * | 2000-09-30 | 2008-12-30 | Intel Corporation | Method and system to scale down a decision tree-based hidden markov model (HMM) for speech recognition |
US7069214B2 (en) * | 2001-02-26 | 2006-06-27 | Matsushita Electric Industrial Co., Ltd. | Factorization for generating a library of mouth shapes |
US6895376B2 (en) * | 2001-05-04 | 2005-05-17 | Matsushita Electric Industrial Co., Ltd. | Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification |
US20030171931A1 (en) * | 2002-03-11 | 2003-09-11 | Chang Eric I-Chao | System for creating user-dependent recognition models and for making those models accessible by a user |
FI118062B (fi) * | 2003-04-30 | 2007-06-15 | Nokia Corp | Pienimuistinen päätöspuu |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
US8412528B2 (en) * | 2005-06-21 | 2013-04-02 | Nuance Communications, Inc. | Back-end database reorganization for application-specific concatenative text-to-speech systems |
JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
-
2008
- 2008-12-25 JP JP2008330095A patent/JP2010152081A/ja active Pending
-
2009
- 2009-09-17 US US12/561,445 patent/US20100169094A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20100169094A1 (en) | 2010-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010152081A (ja) | 話者適応装置及びそのプログラム | |
JP4427530B2 (ja) | 音声認識装置、プログラムおよび音声認識方法 | |
JP5229216B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP5768093B2 (ja) | 音声処理システム | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
US20100114572A1 (en) | Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
JP2006510933A (ja) | センサ・ベース音声認識装置の選択、適応、および組合せ | |
KR101217525B1 (ko) | 비터비 디코더와 이를 이용한 음성 인식 방법 | |
JP2005091476A (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
JP6823809B2 (ja) | 対話行為推定方法、対話行為推定装置およびプログラム | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
JP4796460B2 (ja) | 音声認識装置及び音声認識プログラム | |
KR100832556B1 (ko) | 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법 | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP2018013722A (ja) | 音響モデル最適化装置及びそのためのコンピュータプログラム | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
JP2010054588A (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP5161174B2 (ja) | 経路探索装置、音声認識装置、これらの方法及びプログラム | |
JP2018013721A (ja) | 音声合成パラメータ生成装置及びそのためのコンピュータプログラム | |
JP2734828B2 (ja) | 確率演算装置及び確率演算方法 |