JP2010152081A

JP2010152081A - 話者適応装置及びそのプログラム

Info

Publication number: JP2010152081A
Application number: JP2008330095A
Authority: JP
Inventors: Masami Akamine; 政巳赤嶺; Jitendra Ajmera; アズメラジテンドラ; Partha Lal; ラルパルサ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-12-25
Filing date: 2008-12-25
Publication date: 2010-07-08
Also published as: US20100169094A1

Abstract

【課題】決定木を入力音声の話者が発声した話者適応データに話者適応させること。
【解決手段】話者適応装置は、音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するＨＭＭ１０１と、前記特徴量に関する質問に答えて前記ＨＭＭ１０１の各状態における尤度を出力する決定木１０２と、を有する音響モデルを取得する取得部１００と、入力音声の話者が発声した話者適応データを用いて、前記決定木１０２を前記話者に対して話者適応させるデコーダ１０４とを有する。
【選択図】図２

Description

本発明は、音声認識に用いられる決定木の話者適応の技術に関する。

一般に音声認識システムはＨＭＭ（Hidden Markov Model）から構成され、各ＨＭＭは音素に対応付けられる。ＨＭＭの各状態は音響特徴量の分布を表すモデルを持ち、各状態の音響特徴量の尤度を出力する。ＨＭＭのモデルパラメータ、すなわち音響特徴量の分布パラメータは数多くの話者のデータを用いて学習され、任意の話者の音声が認識できるような話者に依存しないモデル、すなわち話者非依存モデルになっている。

一方、モデルパラメータを認識したい話者のデータに適応するように変化させた場合、認識性能が明らかに向上することが良く知られている。

ＨＭＭの状態に対応する音響特徴量の分布がガウス混合分布（Gaussian Mixture Models 、以下、「ＧＭＭ」という）でモデル化される従来の音声認識システムに関して、ＧＭＭのパラメータを新しい話者のデータに適応させるためのアルゴリズムが数多く開発され、認識性能の向上が報告されている（非特許文献１参照）。

しかしながら、非特許文献２に示される決定木に基づく音響モデルに関しては、話者適応の方法は今まで存在しなかった。その理由は、決定木に基づく音響モデルは、ＧＭＭと異なってパラメトリックなモデルではないため、ＧＭＭのようなモデルに基づいた適応方法が単純に適用できないためである。

すなわち、学習用のデータに含まれない新しい話者のデータに対して音声認識の性能を改善するためには、音声認識のパラメータを話者データに適応させる話者適応が有効であり、ＧＭＭに基づく音響モデルに対して話者適応の方法や効果が今までに多くの研究者によって示されている。

一方、決定木に基づく音響モデルが最近提案され、音響特徴だけではなく話者の性別や環境雑音の種類、デコーダの状態など音響特徴に影響を及ぼす非音響特徴も統一的に扱え、従来のＧＭＭに基づく音響モデルより高い認識性能を実現できる可能性のあることが示されている（特許文献１参照）。
特開２００８−７６７３０号公報 Woodland, Phil C. (2001): 「Speaker adaptation for continuous density HMMs: A review」, Invited Lecture, In Adaptation-2001, 11-19. Teunen, R. and Akamine, A: 「ＨＭＭ-based speech recognition using decision trees instead of GMMs」, INTERSPEECH-2007, 2097-2100.

しかしながら、決定木に基づく音響モデルは、ＧＭＭと同様に話者変動の影響を受け、話者によって性能が劣化する場合がある。このような話者変動による性能劣化は、ＧＭＭの場合、前述したように話者適応の方法が種々提案され、話者適応によって改善されている。

決定木に基づく音響モデルは最近開発された新しいモデルであり、ＧＭＭのようなパラメトリックなモデルではなく音響特徴量の分布が仮定されているわけでもないため、ＧＭＭで開発された話者適応の方法が単純に適用できず、話者適応の方法が存在しなかった。

本発明は、上記問題点に鑑みてなされたものであり、決定木を入力音声の話者が発声した話者適応データに話者適応させることを目的とする。

本発明は、話者適応装置に係り、音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するＨＭＭと、前記特徴量に関する質問に答えて前記ＨＭＭの前記各状態における尤度を出力する決定木と、を有する音響モデルを取得する取得部と、入力音声の話者が発声した話者適応データを用いて、前記決定木を前記話者に対して話者適応させる話者適応部と、を備えることを特徴とする。

本発明によれば、決定木を入力音声の話者が発声した話者適応データに話者適応させることができる。

（第１の実施形態）
以下、本発明の実施形態に係る話者適応装置を有する音声認識装置１について図１〜図１０に基づいて説明する。

図１は、本実施形態に係る音声認識装置１のハードウェア構成を例示的に示すブロック図である。音声認識装置１は、概略的には、自己最適化音響モデル（以下、「音響モデル」という）を用いて音声認識処理を行ない、また、話者適応装置としては、この音響モデルを話者適応させるものである。

図１に示すように、音声認識装置１は、例えば、コンピュータであり、コンピュータの主要部であって各部を制御するＣＰＵ２を備えている。このＣＰＵ２には、ＲＯＭ３と、ＲＡＭ４とがバス５で接続されている。バス５には、各種のプログラムやデータ等を記憶する記憶部６と、各種操作指示を行うための入力部１１と、表示部１２とが、図示しないＩ／Ｏを介して接続されている。

なお、記憶部６としては、ＣＤ−ＲＯＭやＤＶＤなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式の記憶媒体を用いることができる。また、通信制御装置を介してネットワークを介してプログラムをダウンロードし、記憶部６に記憶させてもよい。なお、記憶部は、音声認識装置１の外部に通信可能に接続されてもよい。ＣＰＵ２は、記憶部６上に記憶されたプログラムに基づいて各種処理を音声認識装置１に実行させる。

次に、音声認識装置１の記憶部６に記憶された各種のプログラムがＣＰＵ２で実行する機能のうち、本実施形態の音声認識装置１が備える特徴的な機能について説明する。

図２は、話者適応装置２０の構成を示すブロック図である。図２に示すように、話者適応装置２０は、例えば、図１の音声認識装置１の記憶部６に格納されたプログラムであり、ＣＰＵ２により実行されうる。なお、話者適応装置２０をハードウェアとして構成してもよい。話者適応装置２０は、話者適応部を兼ねた取得部１００と、特徴量抽出部１０３と、音声認識部のデコーダ１０４と、を備えている。

特徴量抽出部１０３は、入力音声から音声認識に用いる特徴量を分析して抽出し、取得部１００に出力する。特徴量としては、音響特徴量の他、性別、話者、音素コンテキストなどの非音響特徴量を用いてもよい。例えば、従来の音声認識で用いられているＭＦＣＣ（Mel Frequency Cepstrum Coefficient）又はＰＬＰ（Perceptual Linear Predictive）のスタティック及びΔ（一次微分），ΔΔ（二次微分）パラメータとエネルギーパラメータを合わせた３９次元の音響特徴量、性別のクラス、入力音声のＳＮＲ（Signal to Noise Ratio：信号対雑音比）クラスの高位の非音響特徴量などを、特徴量として用いてもよい。

音響モデルは、一般的な音響モデルである隠れマルコフモデル（ＨＭＭ）１０１と、分岐の繰り返しを階層化して樹形図に描き表した決定木１０２とを有する。ＨＭＭ１０１は、従来のＨＭＭの各状態の特徴量であるガウス混合モデル（ＧＭＭ）が、１又は複数の決定木１０２で置き換えられている。この決定木１０２は、最適化手段を構成する。このような音響モデルは、特徴量抽出部１０３から入力された音声特徴量に対するＨＭＭ１０１の当該状態における尤度２０３を計算するために用いられる。尤度２０３とは、あるモデルがどれだけ事象を説明しているかの「尤もらしさ」を示し、そのモデルによりその事象が起こる確率で表される。

言語モデル１０５は、各単語がどのような文脈で出現するかを推定するための確率統計モデルである。この言語モデル１０５は、従来のＨＭＭ方式の音声認識処理で用いられるモデルと同様である。

デコーダ１０４は、音声認識部としての機能を有し、音響モデル及び言語モデル１０５から尤度２０３（図４参照）が最大になる認識単語を確定する演算を行う。より詳細には、デコーダ１０４は、取得部１００の音響モデルから尤度２０３を受け取ると共に、取得部１００に対してＨＭＭ１０１の状態の音素（又は単語）コンテキストなどの認識対象フレーム及びデコーダ１０４における音声認識の状態の情報を与える。音素コンテキストは、単語を構成する一連の音素のつながりの一部を取り出したものである。また、取得部１００は、話者適応装置における話者適用部としての機能をも有する。

次に、音響モデルを構成するＨＭＭ１０１及び決定木１０２について詳述する。

ＨＭＭ１０１は、特徴量抽出部１０３が出力する特徴量時系列データと各音素ラベルとが対応付けて登録されている。図３は、ＨＭＭ１０１のデータ構造の一例を示す説明図である。図３に示すように、ＨＭＭ１０１は、ノードと有向リンクとで構成される有限オートマトンで特徴量時系列データを表現する。ノードは、照合の状態を表現しており、例えば、音素ｉに対応する各ノードの値ｉ_１，ｉ_２，ｉ_３は、それぞれ異なる状態であることを表している。また、有向リンクには状態間の遷移確率（図示せず）が対応付けられて記憶されている。

図４は、ＨＭＭ１０１と決定木１０２の関係を示している。

各ＨＭＭ１０１は複数の状態から成り、各状態２０１に対して一つの決定木１０２が対応付けられている。

決定木１０２の例が図５に示されている。決定木１０２は複数のノード３００，３０１と複数のリーフ３０２から構成される二分木であり、各ノードは各ノードの質問の答えに応じて「Ｙｅｓ」と「Ｎｏ」の子ノードに分岐する。リーフは子ノードのない、すなわち分岐のないノードである。

各ノードは任意の音響特徴量又は非音響特徴量に関する質問から構成される。各リーフ３０２は与えられたＨＭＭ１０１の状態に対する入力データの尤度を出力するために、予め学習された値を保存している。

決定木１０２の各ノードにおける質問は、質問の前後、すなわち分岐の前後における尤度の増加率などの客観的な評価尺度に基づいて決定される。ここで質問とはある特徴量がある閾値より大きいか否か、又はある特徴量がある値であるか否か、というものであり、音響特徴量や非音響特徴量の全てについて、あり得る全ての質問が前記の客観的な評価尺度に基づいて評価され、最大の評価を与える特徴量と閾値が決定される。このような処理は決定木の学習の過程であり、詳細は特許文献１及び非特許文献２にて開示されている。

図６は、決定木１０２の具体例を示す説明図である。

図６に示す決定木１０２では、本実施形態の音響モデルが入力音声の性別やＳＮＲ、音声認識の状態、コンテキストに応じて異なる尤度２０３を出力できることを示している。決定木１０２はＨＭＭ１０１の状態１（２０１Ａ）と状態２（２０１Ｂ）の２つの状態に関係付けられており、これら２つの状態２０１Ａ，２０１Ｂに対応する学習データを用いて後述の学習プロセスにより学習される。特徴量Ｃ１とＣ５はＰＬＰケプストラムの１番目と５番目の係数である。ルートノード３００、ノード３０１Ａ、ノード３０１Ｂは状態１（２０１Ａ）と状態２（２０１Ｂ）に共通に適用され、２つの状態で共有される。しかしながら、ノード３０１Ｃで状態に関する質問があり、ノード３０１Ｃ以下のノード３０１Ｄ〜３０１Ｇは状態依存である。したがって、ある特徴量は状態１（２０１Ａ）と状態２（２０１Ｂ）で共通に用いられ、ある特徴量は状態に依存して異なるものが用いられることになる。また、状態によって用いられる特徴量の数も異なる。なお、図６の例においては、状態２（２０１Ｂ）の方が状態１（２０１Ａ）より多くの特徴量を用いており、ＳＮＲが例えば５ｄＢ未満か否か、すなわち周囲雑音のレベルが高いか否かに応じて、また、当該音素の直前の音素が例えば「／ａｈ／」か否かに応じて、異なる尤度２０３を出力する構成となっている。さらに、ノード３０１Ｂでは入力音声の性別が例えば女性か否かを質問しており、性別によって異なる尤度２０３が出力できるようになっている。

決定木１０２のノードの数やリーフの数、各ノードで用いられる特徴量や質問、リーフで出力する尤度などのパラメータは後述の学習プロセスにより学習データから学習され、学習データに対して尤度又は認識率が最大となるよう最適化される。また、学習データが十分に大きく、音声認識が実際に用いられる環境での音声信号を代表しているとみなせる場合、決定木１０２は実際の環境でも最適であると考えることができる。

次に、決定木１０２の音響モデルにおいて、入力された特徴量に対するモデルの尤度２０３がＨＭＭ１０１の状態毎に如何にして計算されるかについて、図７のフローチャートを参照しつつ説明する。

ステップＳ４００では、デコーダ１０４は、尤度を計算する必要のある、対象音素モデルのＨＭＭ１０１の特定の状態２０１に対応する決定木１０２を選択する。

デコーダ１０４は、ステップＳ４０１では、ルートノード３００を質問が可能となるアクティブノードに設定すると共に、他の全てのノード及びリーフを非アクティブノードに設定する。

ステップＳ４０２では、デコーダ１０４は、特徴量を特徴量抽出部１０３から取り出す。

ステップＳ４０３では、デコーダ１０４は、ステップＳ４０２で取り出された特徴量をアクティブノードに設定されたルートノード３００に入力し、予め設定された質問に対する答えを計算する。

ステップＳ４０４では、デコーダ１０４は、ステップＳ４０３で計算された質問に対する答えを評価する。ステップＳ４０３で計算された質問に対する答えが「Ｙｅｓ」の場合は、ステップＳ４０６に進む。ステップＳ４０３で計算された質問に対する答えが「Ｎｏ」の場合は、ステップＳ４０５に進む。

ステップＳ４０５では、「Ｎｏ」の子ノードをアクティブノードに設定する。

ステップＳ４０６では、「Ｙｅｓ」の子ノードをアクティブノードに設定する。

ステップＳ４０７では、デコーダ１０４は、アクティブノードがリーフ３０２か否かを判断する。

アクティブノードがリーフ３０２である場合には（ステップＳ４０７で「Ｙｅｓ」）、これ以上の分岐はないので、ステップＳ４０８に進む。アクティブノードがリーフ３０２でない場合には（ステップＳ４０７で「Ｎｏ」）、ステップＳ４０２に戻って、次のアクティブノードの評価を行う。

ステップＳ４０８では、リーフ３０２に格納されている尤度２０３を戻し、このタイムフレームを当該リーフに関連付ける。

以上説明したように、決定木を用いた音響モデルは、特徴量と特徴量に対する質問、尤度によって記述され、これらは入力データに依存する。決定木は、音響特徴量やより高位の特徴量に関して対応する質問と尤度を入力音声や認識の状態に依存して効果的に最適化することができる。

次に、決定木１０２の学習プロセスについて説明する。

図８は、学習プロセスで与えられた学習データが如何にして決定木１０２のノードを分岐し、尤度が計算されるかを示している。決定木１０２の学習は、基本的に、学習しようとしている決定木１０２に対応しているＨＭＭ１０１のある状態２０１に入力サンプルが属しているか否かを識別するために必要な質問と尤度２０３とを、予め対応する状態に属しているか否かがクラス分けされた学習データを用いて決定する過程である。

学習データは、予め、一般的に用いられている音声認識法を用いて、入力サンプルがどのＨＭＭ１０１のどの状態に対応するかフォース・アライメントし、状態に属するサンプルを正解クラス、属さないサンプルをその他クラスとラベル化しておく。なお、ＨＭＭ１０１は、従来と同様の方法で学習することができる。

まず、図８に示すように、Ｄ個の学習データをルートノード５００に入力する。ここでＤ個の中のＮ個のサンプルは正解クラスとする。ルートノード５００において、Ｄ個の全サンプルに対して予め学習によって設定された質問に対する評価が行われ、質問に対する答えに応じて「Ｙｅｓ」と「Ｎｏ」の子ノードに分岐する。分岐したデータサンプルはさらに次のノードで評価され分岐を繰り返し、分岐のないリーフに達する。あるリーフＬにおける尤度２０３であるLikelihood at Ｌは、次の（１）式に基づいて計算され、リーフ毎に格納される。

ここで、Ｐｒｉｏｒは正解クラスの事前確率であり、ルートノードにおけるＮ／Ｄで計算される。各ノードにおける分岐は排他的に行われるので全てのリーフにおける正解クラスのサンプル数の総和はルートノードにおける正解クラスのサンプル数Ｎに一致し、その他クラスのサンプル数の総和は（Ｄ−Ｎ）に一致する。

図９は、決定木１０２の学習プロセスを示すフローチャートである。図９を参照して学習プロセスの処理をさらに説明する。

ステップＳ１１では、学習する決定木１０２に対応する当該状態の学習データを入力するとともに、単一リーフを有する決定木１０２を作成する。決定木１０２は１つのリーフ３０２から始まり、リーフ３０２の分岐によりノードと子ノードを作成され、さらにノードの分岐で子ノードを繰り返し成長させることで作成される。

ステップＳ１２では、分岐の対象とするリーフを選択する。なお、選択されるリーフ３０２は、学習データの数がある程度以上であること（例えば、１００以上）と、学習データが特定のクラスだけから構成されないという条件を満たす必要がある。

ステップＳ１３では、上述した条件を対象のリーフが満足するか否かを判定する。判定結果が「Ｎｏ」の場合は（ステップＳ１３で「Ｎｏ」）、ステップＳ１８に進む。一方、判定結果が「Ｙｅｓ」の場合は（ステップＳ１３で「Ｙｅｓ」）、ステップＳ１４に進む。

ステップＳ１４では、対象のリーフ３０２に入力される全ての特徴量（学習データ）に対して可能な全ての質問を実施し、その結果として得られる全ての分岐（子ノードへの分岐）を評価する。ステップＳ１４における評価は、分岐による尤度の増加率に基づいて行う。ここで、学習データである特徴量に対する質問は、音響特徴量のように大小関係があるものと、性別や雑音の種類のように大小関係が無くクラスで表現されるもののように、特徴量に応じて異なる。大小関係がある特徴量に対しては、ある閾値より大か否かという質問であり、大小関係がない特徴量に対しては、あるクラスに属するか否かという質問である。

ステップＳ１５では、評価を最大化する最適な質問を選択する。すなわち、全ての学習データに対して可能な全ての質問を評価し、尤度の増加率を最大化する質問を選択する。

ステップＳ１６では、ステップＳ１５で選択された質問に従って、学習データを「Ｙｅｓ」の子リーフと「Ｎｏ」の子リーフに分岐し、各々のリーフに属する学習データからリーフ毎に尤度２０３を上記の（１）式を用いて計算する。

デコーダ１０４は、ステップＳ１２に戻って、新たなリーフに対してステップＳ１２〜ステップＳ１６を繰り返し、決定木１０２を成長させる。そして、ステップＳ１３の判定で成長させる条件を満たすリーフがなくなった場合（ステップＳ１３で「Ｎｏ」）、ステップＳ１８に進み、枝刈りを行う。

ステップＳ１７、１８では、木の成長とは逆に最下位のリーフからボトムアップに上に向かってノードを削除しながら枝刈りを行う。

ステップＳ１７では、２つの子リーフをもつ全てのノードについて、そのノードの分岐を削除してリーフにした場合に尤度がどの程度減少するかを評価し、尤度の減少が最小となるノードを探索し、そのノードを枝刈りする。このような手順をノード数が設定値以上になるまで繰り返し行い（ステップＳ１８で「Ｙｅｓ」）、設定値以上となれば決定木１０２の１回目の学習を終了する（ステップＳ１８で「Ｎｏ」）。

上述した決定木１０２の学習が一旦終了すると、学習に用いる音声サンプルを学習された音響モデルを用いてフォース・アライメントし、学習データを更新する。更新された学習データに対して、決定木１０２のリーフの尤度を再学習し、更新する。このような処理を予め設定した回数、又は、全体の尤度の増加率がある閾値以下になるまで繰り返し、学習を完了する。

図１０を用いて、本実施形態の話者適応部を有する取得部１００の話者適応方法について説明する。

まず、話者非依存決定木６０１を認識したい話者のデータに適応させるためには、その話者適応データが必要である。特徴量抽出部１０３は認識したい話者が発声した音声信号である入力データを音声認識に用いる前記ＭＦＣＣなどの特徴量に変換する。この特徴量が話者適応データとなる。話者適応データは、二つの部分、例えば話者適応データの８０％の部分（話者適応データのサンプル６０４）と２０％の部分（話者適応データの一部サンプル６１１）に分けられ、前者は話者非依存決定木６０１のパラメータを話者適応させるため、後者は話者適応のための重みβの計算に用いられる。

まず、取得部１００は、話者適応データのサンプル６０４を用いて、話者非依存決定木６０１を話者依存決定木６０５に作り変える。具体的には、話者適応データのサンプル６０４を話者非依存決定木６０１のルートノードから入力し、各ノード、リーフを通過させながらサンプル６０４を対応させていく。

次に、取得部１００は、各ノードに到達したサンプル６０４を用いて、各ノードの質問パラメータ、すなわち閾値パラメータを再計算し、古い閾値パラメータを更新する。計算の方法は学習の過程と同じである。

次に、取得部１００は、各リーフについてもリーフに到達したサンプル６０４を用いて尤度を再計算し、リーフのパラメータを更新する。すなわち、話者適応としては、尤度の増加率を最大化させるように質問などを変化させる。

これにより、話者適応データのサンプル６０４に依存した話者依存決定木６０５が作成される。

次に、取得部１００は、話者非依存決定木６０１と話者依存決定木６０５のパラメータを組み合わせて、認識したい話者適応データに話者適応させた新しい決定木、すなわち話者適応決定木６０８を作成する。

まず、話者非依存決定木６０１の各ノードと話者依存決定木６０５の各ノードの質問パラメータである閾値パラメータの組合せについて説明する。

話者非依存決定木のノードＪ（６０２）の閾値パラメータをτ_ｊ ^ＳＩ、話者依存決定木のノードＪ（６０６）の閾値パラメータをτ_ｊ ^ＳＤとする。このときに話者適応決定木６０８の対応するノードＪ（６０９）の閾値パラメータτ_ｊ ^ＳＡは、次の（２）式のように線形結合することにより作成される。

ここで、線形結合の重みβは、話者適応データの一部サンプル６１１を用いて最適化される。話者非依存決定木６０１のノードＪ（６０２）において、「Ｙｅｓ」の子ノードに分岐していく正解クラスのデータサンプル数をＮ_ｐ ^ＣＶ、「Ｎｏ」の子ノードに分岐していく正解クラスのデータサンプル数をＮ_ｎ ^ＣＶとすると、重みβは、次の（３）式が最大になるように決められる。

次に、話者非依存決定木６０１のリーフと話者依存決定木６０５のリーフの尤度パラメータの組合せについて説明する。

話者適応決定木６０８の各リーフＬの尤度パラメータLikelihood at L in SAは、質問パラメータと同様に話者非依存決定木６０１と話者依存決定木６０５の夫々対応するリーフＬにおける尤度の線形結合として次の（４）式で計算され、各リーフＬに格納される。

ここで、ｌ_Ｓｌは話者非依存決定木６０１のリーフＬの尤度、ｌ_ＳＤは話者依存決定木６０５のリーフＬの尤度である。

重みαは次の（５）式のように計算される。

本実施形態のように、話者非依存決定木６０１と話者依存決定木６０５のパラメータを組み合わせて話者適応するには次のような理由がある。

話者依存決定木６０５の閾値パラメータや尤度パラメータが、話者非依存決定木６０１の閾値パラメータや尤度パラメータと比べてはるかに少ない話者適応データから推定されているため、話者依存決定木６０５の閾値パラメータや尤度パラメータだけを用いた場合に話者適応データに含まれない入力データに対して性能が劣化する場合がある。

本実施形態によれば、多数の話者適応データで学習された話者非依存決定木６０１と、話者適応データ６０４で作成された話者依存決定木６０５の閾値パラメータや尤度パラメータを組み合わせることにより、様々な入力データに対して、このような性能劣化を防ぎ、安定した性能の向上が可能になるという効果がある。

なお、話者適応データの一部サンプル６１１は、二種類のパラメータを組み合わせる際の性能を保証するために用いられ、組み合わせのための重みα、βが最適化されるという効果がある。

本実施形態では、数多くの話者データを用いて話者非依存決定木６０１を作成する。次に、例えば話者Ｘの話者適応データのサンプル６０４を用いて話者非依存決定木６０１の各ノードにおける質問パラメータとリーフにおける尤度パラメータを書き換え、これを話者依存決定木６０５とする。次に、これら話者非依存決定木６０１と話者依存決定木６０５を組み合わせて話者適応決定木６０８を作成する。すなわち、話者非依存決定木６０１と話者依存決定木６０５の二種類のパラメータを線形結合することにより、話者Ｘに対する話者適応を実現する。線形結合の重みβは話者適応データの一部のデータ６１１を用いて最適化される。

これにより、本実施形態によれば、話者適応決定木に基づく音響モデルを認識したい話者のデータに話者適応させることができ、音声認識の認識性能を向上させることができる。

（第２の実施形態）
図１１を用いて、本発明の第２の実施形態に係る話者適応装置を説明する。

まず、本実施形態の話者適応装置でも、第１の実施形態と同様に話者非依存決定木７０１を作成する。次に、第１の実施形態と同様に話者依存決定木７０５を作成する。この話者依存決定木７０５は、話者適応データ７０４を用いて決定木の構造含めて全く新規に作成しても良いし、第１の実施形態と同様に話者非依存決定木７０１のパラメータを話者適応データ７０４に基づいて書き換えることにより作成しても良い。

本実施形態と第１の実施形態と異なる点は次の点である。

第１の実施形態では、話者非依存決定木６０１と話者依存決定木６０５のパラメータを組み合わせて話者適応決定木６０８を作成した。

これに対して、第２の実施形態では、話者適応決定木は作成せず、音響モデルが話者非依存決定木７０１と話者依存決定木７０５から構成される。

したがって、本実施形態においては、話者適応した尤度Likelihood of Ｘ given SA treeは、次のように計算する。

まず、話者非依存決定木７０１と話者依存決定木７０５の両者に話者Ｘの特徴量sample Ｘを入力して、それぞれ尤度を出力する。

次に、話者非依存決定木７０１の尤度Likelihood of sample Ｘ given SI tree、話者依存決定木７０５の尤度Likelihood of sample Ｘ given SD treeを線形結合して次の（６）式に基づいて、話者Ｘに話者適応した尤度Likelihood of sample Ｘ given SA treeを計算する。

Likelihood of sample Ｘ given SA tree
＝α×Likelihood of sample Ｘ given SI tree＋（１−α）×Likelihood of sample Ｘ given SD tree

・・・（６）

線形結合の重みαは、話者適応データ７０４の一部サンプルである適応データＢの各サンプルｉを、話者非依存決定木７０１と話者依存決定木７０５に入力して得られる尤度ｌ_Ｓｌ（ｉ）とｌ_Ｓｌ（ｉ）を用いて、次の（６）式のように計算される。

本実施形態では．第１の実施形態と同様に話者非依存決定木７０１と話者依存決定木７０５を作成する。話者適応は、このように作成された話者非依存決定木７０１と話者依存決定木７０５の尤度パラメータを線形結合することにより実現される。線形結合の重みは話者適応データ７０４の一部サンプルを用いて最適化される。

これにより、本実施形態によれば、２つの決定木に基づく音響モデルを認識したい話者のデータに話者適応させることができ、音声認識の認識性能を向上させることができる。

（第３の実施形態）
図１２、図１３を用いて本発明の第３の実施形態に係る話者適応装置を説明する。

本実施形態の話者適応装置は、複数の話者依存決定木８０５から固有話者決定木を作成し、それらの組み合わせで話者適応を実現するものであり、話者適応決定木の質問パラメータと尤度パラメータの両者を各ノード、各リーフで共通の重みで組み合わせることにより話者のデータに音響モデルを適応させる。

本実施形態の話者適応方法について、図１２の説明図と図１３のフローチャートに基づいて説明する。

ステップＳ９０１では、取得部１００は、第１の実施形態と同様に、話者非依存決定木８０１を作成する。

ステップＳ９０２では、取得部１００は、第１の実施形態と同様に、話者非依存決定木８０１のパラメータを各々の話者適応データ８０４に基づいて書き換えることにより、複数の話者１〜Ｎの話者依存決定木８０５を各々作成する。

ステップＳ９０３では、取得部１００は、これら各話者１〜Ｎの話者依存決定木８０５のパラメータを一つのベクトル（以下、「スーパベクトル」という）の形にそれぞれ変換する。これにより、話者１〜Ｎのそれぞれのスーパーベクトルを得る。

ステップＳ９０４では、取得部１００は、話者１〜Ｎのそれぞれのスーパーベクトルを一つの列として並べて、行列８０６に結合する。図１２において、行列８０６の列ベクトルの一つ一つが各話者１〜Ｎのスーパーベクトルである。

ステップＳ９０５では、取得部１００は、この行列８０６にＰＣＡ（Principal Component Analysis：主成分分析）８０７を適用して各話者のパラメータ間に存在する冗長性を除去する。

ステップＳ９０６では、取得部１００は、ＰＣＡ８０７の結果、冗長性が圧縮された固有のパラメータを持つ複数の固有話者決定木が構成される。図１２において、行列８０８の列ベクトルの一つ一つが固有話者決定木のパラメータとなる。

ステップＳ９０７では、取得部１００は、第２の実施形態と同様の方法で、線形結合の重みWiを計算する。

ステップＳ９０８では、取得部１００は、その重みWiを用いて次の（８）式により複数の固有話者決定木ｉの尤度Ｌｉを線形結合させて、入力された話者Ｘの特徴量に対して、話者Ｘに話者適応した尤度Ｌｘを計算する。

Ｌｘ＝ΣＷｉ×Ｌｉ・・・（８）

以上により本実施形態では、各話者適応データ８０４を用いて話者毎に話者依存決定木８０５を作成する。次に、作成された各々の話者依存決定木８０５のパラメータに対してＰＣＡ８０７を適用して複数の固有話者決定木を作成する。話者適応は、これら固有話者決定木の尤度を線形結合することにより実現される。線形結合の重みは話者適応データを用いて最適化される。

これにより、本実施形態によれば、固有話者決定木に基づく音響モデルを認識したい話者のデータに話者適応させることができ、音声認識の認識性能を向上させることができる。

本発明は、上記の各実施形態に限らず、その主旨を逸脱しない限り、種々に変更することができる。例えば、上記の各実施形態では、尤度の増加率を最大化させるように質問などを変化させたが、これに限らず、音声の識別率を上昇させるように変化させてもよい。また、上記の各実施形態では、各パラメータを重みを用いて線形結合して組み合わせたが、これに限らず、重みを用いて組み合わせるとは、重みをかけたパラメータの積算値を計算すること、また、重みに指数関数を適用して、この適用した値をパラメータにかけて、その総和を求めることなども含まれうる。

第１の実施形態に係る話者適応装置を有する音声認識装置のハードウェア構成を示すブロック図である。第１の実施形態に係る話者適応装置を有する音声認識装置の機能構成を示すブロック図である。ＨＭＭのデータ構造の一例の説明図である。ＨＭＭと決定木の関係を示す説明図である。決定木の構成を示す説明図である。決定木の具体例を示す説明図である。決定木による音響モデルにおける特徴量に対するモデルの尤度算出処理の流れを示すフローチャートである。決定木の各ノード、リーフに到達する学習データの様子を示す説明図である。決定木の各ノード、リーフに到達する学習プロセスのフローチャートである。本発明の第１の実施形態に係る話者適応装置の適応方法を示す説明図である。本発明の第２の実施形態に係る話者適応装置の適応方法を示す説明図である。本発明の第３の実施形態に係る話者適応装置の適応方法を示す説明図である。本発明の第３の実施形態に係る話者適応装置のフローチャートである。

符号の説明

１００取得部
１０３特徴量抽出部
１０４デコーダ
１０５言語モデル

Claims

音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するＨＭＭと、前記特徴量に関する質問に答えて前記ＨＭＭの前記各状態における尤度を出力する決定木と、を有する音響モデルを取得する取得部と、
入力音声の話者が発声した話者適応データを用いて、前記決定木を前記話者に対して話者適応させる話者適応部と、
を備えることを特徴とする話者適応装置。
前記話者適応部は、
前記決定木のパラメータを、前記話者に依存していない話者非依存決定木のパラメータと、前記話者適応データを用いて作成した前記話者に依存する話者依存決定木のパラメータと、を組み合わせて前記話者適応させる、
ことを特徴とする請求項１に記載の話者適応装置。
前記パラメータが、前記質問に関する質問パラメータと前記尤度を表す尤度パラメータであり、
前記話者適応部は、
前記話者適応データを用いて、前記話者非依存決定木の各ノードの前記質問パラメータ及びリーフの前記尤度パラメータと、前記話者依存決定木の各ノードの前記質問パラメータ及びリーフの前記尤度パラメータと、をそれぞれ組み合わせて、前記話者に適応した決定木である話者適応決定木を作成して前記話者適応させる、
ことを特徴とする請求項２に記載の話者適応装置。
前記話者適応部は、
前記話者非依存決定木の前記パラメータと前記話者依存決定木のパラメータとを、前記話者適応データを用いて決められる重みに基づいて組み合わせて前記話者適応させる、
ことを特徴とする請求項２に記載の話者適応装置。
前記話者適応部は、
複数の話者のそれぞれの前記話者適応データを用いて前記各話者依存決定木を作成し、
前記各話者依存決定木の前記パラメータを用いて、ＰＣＡによって複数の固有話者決定木を作成し、
前記話者適応データを用いて、前記各固有話者決定木の尤度を組合せて前記話者適応させる、
ことを特徴とする請求項１に記載の話者適応装置。
コンピュータに、
音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するＨＭＭと、前記特徴量に関する質問に答えて前記ＨＭＭの前記各状態における尤度を出力する決定木と、を有する音響モデルを取得する取得機能と、
入力音声の話者が発声した話者適応データを用いて、前記決定木を前記話者に対して話者適応させ
る話者適応機能と、
を実現させるための話者適応プログラム。
前記話者適応機能は、
前記決定木のパラメータを、前記話者に依存していない話者非依存決定木のパラメータと、前記話者適応データを用いて作成した前記話者に依存する話者依存決定木のパラメータと、を組み合わせて前記話者適応させる、
ことを特徴とする請求項６に記載の話者適応プログラム。
前記パラメータが、前記質問に関する質問パラメータと前記尤度を表す尤度パラメータであり、
前記話者適応機能は、
前記話者適応データを用いて、前記話者非依存決定木の各ノードの前記質問パラメータ及びリーフの前記尤度パラメータと、前記話者依存決定木の各ノードの前記質問パラメータ及びリーフの前記尤度パラメータと、をそれぞれ組み合わせて、前記話者に適応した決定木である話者適応決定木を作成して前記話者適応させる、
ことを特徴とする請求項７に記載の話者適応プログラム。
前記話者適応機能は、
前記話者非依存決定木の前記パラメータと前記話者依存決定木のパラメータとを、前記話者適応データを用いて決められる重みに基づいて組み合わせて前記話者適応させる、
ことを特徴とする請求項７に記載の話者適応プログラム。
前記話者適応機能は、
複数の話者のそれぞれの前記話者適応データを用いて前記各話者依存決定木を作成し、
前記各話者依存決定木の前記パラメータを用いて、ＰＣＡによって複数の固有話者決定木を作成し、
前記話者適応データを用いて、前記各固有話者決定木の尤度を組合せて前記話者適応させる、
ことを特徴とする請求項６に記載の話者適応プログラム。
音声認識に用いる特徴量がどのような音素又は単語で構成されているかを推定するために、前記音素又は単語毎に複数の状態を有するＨＭＭと、前記特徴量に関する質問に答えて前記ＨＭＭの前記各状態における尤度を出力する決定木と、を有する音響モデルを取得する取得工程と、
入力音声の話者が発声した話者適応データを用いて、前記決定木を前記話者に対して話者適応させ
る話者適応工程と、
を含むことを特徴とする話者適応方法。