JP2005292770A

JP2005292770A - 音響モデル生成装置及び音声認識装置

Info

Publication number: JP2005292770A
Application number: JP2004286082A
Authority: JP
Inventors: Cincarek Tobias; トビアス・ツィンツァレク; Gruhn Rainer; ライナー・グルーン; Satoru Nakamura; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-03-10
Filing date: 2004-09-30
Publication date: 2005-10-20

Abstract

【課題】非ネイティブの話者の発話に対する音声認識精度を向上させる。
【解決手段】予め非ネイティブ話者グループごとに作成された複数の音響モデル３４を用いて入力発話３６に対する音声認識を行なう音声認識装置３８は、入力発話３６の音響的特徴に基づいて、入力発話３６の音響的特徴に合致する音響モデル８２を選択する話者グループ分類部８０と、選択された音響モデル８２を用いて入力発話３６に対する音声認識を行なうデコード部８４とを含む。複数の音響モデル３４を用いて並列にデコードし、最も尤度の高い仮説を選択するようにしてもよい。
【選択図】図３

Description

この発明は音声認識のための音響モデル及びそうした音響モデルを用いた音声認識装置に関し、特に、ネイティブでない発話者（非ネイティブ話者）の発話を高精度に認識可能にするための音響モデルを生成する装置及びそうした音響モデルを使用して非ネイティブ話者の発話を高精度に認識可能な音声認識装置に関する。

非ネイティブ話者の音声認識のための主な方法として、二つのものが知られている。第１は発音モデルの適応であり、第２は音響モデルの適応である。従来の研究により、発音モデルを用いることによって母語の中での外国語由来のアクセントに対する音声認識の性能が向上することが明らかとなっている。なお、このように発話者が母語以外の発話を行なう場合、その外国語を以下「非ネイティブ言語」と呼ぶことにする。

そうした方法では、辞書内の各語に対して発音の変形を手操作で追加する必要がある。しかし、非ネイティブ話者の母語と、非ネイティブ言語との双方に関する深い知識がなければ、そのような作業はできない。また、自動的にそうした作業を行なおうとすれば、ラベル付けされた大量の発話データが必要となり、そうしたデータを準備するのは困難である。加えて、この方法では母語の音素に関する置換、削除及び挿入しか対象とすることができないという問題がある。

さらに、非特許文献１によれば、非ネイティブ話者は、母語の一部である発声特徴と、非ネイティブ言語の発声特徴とを融合させることにより、生成された発音を行なうように思われる。したがって、母語と非ネイティブ言語との双方の音響モデル又は発音モデルのみを用意しても、非ネイティブ話者の発声を十分に分析することは難しい。

Ｊ．Ｅ．フレーゲ、Ｃ．シル、及びＩ．Ｒ．Ａ．マッケイ、「母語及び第二外国語の間の音素サブシステム間の相互作用」、スピーチ・コミュニケーション、４０：ｐｐ．４６７−４９１、２００３年（Ｆｌｅｇｅ，Ｊ．Ｅ．，Ｓｃｈｉｒｒｕ，Ｃ．，ａｎｄＭａｃＫａｙ，Ｉ．Ｒ．Ａ．，Ｉｎｔｅｒａｃｔｉｏｎｂｅｔｗｅｅｎｔｈｅｎａｔｉｖｅａｎｄｓｅｃｏｎｄｌａｎｇｕａｇｅｐｈｏｎｅｔｉｃｓｕｂｓｙｓｔｅｍｓ．ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，４０：４６７−４９１，２００３．）

従来の研究から、非ネイティブ話者に対する音声認識の性能を向上させるためには、各音響−音素単位モデルの適応を行なうことが必要であり、発音のモデル化のみでは十分でないという結論が得られる。

したがって本発明は、音響モデルを適応化させることにより、非ネイティブ話者に対する音声認識の性能を向上させることを目的とする。

本発明はさらに、非ネイティブ話者の、ネイティブ話者と比較して異なる音響的特徴に対処することが可能な音声認識装置を提供することを目的とする。

本発明の第１の局面に係る音響モデル生成装置は、所定の音声の特徴にしたがって予め複数グループのいずれかに分類された複数話者の音声データを準備するための音声データ準備手段と、音声データ準備手段により準備された音声データに基づいて、各グループについてそれぞれ音響モデルを作成するための音響モデル群生成手段とを含む。

音声の特徴によって分類されたグループごとに音響モデルを作成することにより、各グループに属する話者に共通する特徴に適応した音響モデルが得られる。各グループに属する話者の音声認識などの際にその音響モデルを使用すると、全ての話者の音声データから作成した音響モデルを用いる場合と比較して、認識精度が向上する。

好ましくは、音声データ準備手段は、複数話者による発話データに基づき、複数話者を複数グループにクラスタリングするための話者クラスタリング手段を含み、音響モデル群生成手段は、話者クラスタリング手段により得られた複数グループに対し、各グループに属する話者の発話データに基づいてそれぞれ音響モデルを作成するための音響モデル群生成手段を含む。

発話データに基づいてクラスタリングを行なうことにより、複数話者を所定の基準にしたがって自動的に分類することができる。

好ましくは、話者クラスタリング手段は、複数話者の各々の発話データに基づき、話者依存の音響モデルを生成するための話者依存音響モデル生成手段と、音響モデルに基づいて、複数話者の各々の代表ベクトルを生成するための代表ベクトル生成手段と、複数話者について得られた複数の代表ベクトルに対して主成分分析を行なうことにより、複数の代表ベクトルをより低次の複数の代表ベクトルに変換するための手段と、低次の複数の代表ベクトルに対し予め定めるクラスタリング処理を実行することにより、複数の話者を複数のグループにクラスタリングするためのクラスタリング手段とを含む。

さらに好ましくは、予め定めるクラスタリング処理は、Ｋ平均クラスタリング処理である。

Ｋ平均クラスタリング処理を用いることにより、同程度の大きさのクラスタを作ることができる。クラスタごとに属する話者数を均等化でき、いずれの音響モデルも同程度の頑健さで構築できる。

音響モデル群生成手段は、話者クラスタリング手段により得られた複数グループの各々に対し、各グループに属する話者の発話データを用いて音響モデルを作成するための音響モデル群生成手段、又は話者クラスタリング手段により得られた複数グループの各々に対し、予め準備された話者に依存しない基本音響モデルを各グループに属する話者の発話データを用いた最大事後推定により適応させることにより音響モデルを作成するための音響モデル群生成手段のいずれを含んでもよい。

本発明の第２の局面に係る音声認識装置は、複数の音響モデルを用いて、入力発話に対する音声認識を行なう音声認識装置である。複数の音響モデルは、それぞれ互いに異なる音響的特徴を持つ発話データから生成されたものである。音声認識装置は、入力発話の音響的特徴に基づいて、複数の音響モデルのうちで入力発話の音響的特徴に合致する音響モデルを選択するための音響モデル選択手段と、音響モデル選択手段により選択された音響モデルを用いて入力発話に対する音声認識を行なうための音声認識手段とを含む。

互いに異なる音響的特徴に基づいて分類された発話データから構築された音響モデルの中から、入力発話の音響的特徴に合致する音響モデルを選択する。このようにして選択された音響モデルを用いると、入力発話に含まれる発音のバリエーションに対して頑健な音声認識を行なうことができる。その結果、音声認識の精度を高めることができる。

本発明の第３の局面に係る音声認識装置は、複数の音響モデルを用いて、入力発話に対する音声認識を行なう音声認識装置である。複数の音響モデルは、それぞれ互いに異なる音響的特徴を持つ発話データから生成されたものである。音声認識装置は、複数の音響モデルの各々を用いて入力発話に対する音声認識を行ない、複数の仮説を出力するための音声認識手段と、音声認識手段により出力される複数の仮説に基づいて、一つの仮説を出力するための仮説出力手段とを含む。

このように複数種類の音響モデルを用いて並列に音声認識を行なうと、それら音響モデルを用いて最も確率が高いと思われる仮説が得られる。それらの仮説の中で、一つの仮説を選択することにより、入力発話の音響的特徴にしたがって音響モデルを予め選択するということなしに、入力発話に対する音声認識を実現できる。

好ましくは、音声認識手段は、複数の仮説とともにそれぞれ尤度を出力し、仮説出力手段は、複数の仮説のうち、最も尤度の高いものを選択して出力するための手段を含む。

複数の仮説の中で認識時に音響モデルを用いて得られた尤度が最も高いものを選択することにより、入力発話の音響的特徴にしたがって音響モデルを予め選択するということなしに、入力音声に対する音声認識を高精度で実現できる。

また、音声認識手段は、複数の仮説に含まれる単語ごとにそれぞれ尤度を出力し、仮説出力手段は、複数の仮説を統合することにより形成可能な単語列のうちで、各単語の尤度に基づいて算出される尤度が最も高いものを出力する仮説統合手段を含むものであってもよい。

［第１の実施の形態］
＜構成＞
図１に、本発明の一実施の形態に係る英語発話の音声認識システム２０の構成をブロック図形式で示す。図１を参照して、このシステム２０は、複数の非ネイティブ話者の英語発話データ３０を、それらの音響的特徴に基づいて複数のグループにクラスタリングし、グループ別音響モデル群３４を生成するためのグループ別音響モデル生成装置３２と、このグループ別音響モデル群３４を用い、入力発話３６に対する音声認識を行なって仮説４０を出力するための非ネイティブ発話音声認識装置３８とを含む。

図２に、グループ別音響モデル生成装置３２のより詳細な構成をブロック図形式で示す。図２を参照して、グループ別音響モデル生成装置３２は、非ネイティブ話者発話データ３０を、音響的特徴に基づいて複数のグループ６２−１〜６２−ｎにクラスタリングするための発話者クラスタリング処理部６０と、各グループ６２−１〜６２−ｎについて、予め準備された音響モデルをトレーニングし、グループ別の音響モデル群３４を生成するための音響モデルトレーニング部６４とを含む。

発話者クラスタリング処理部６０によるクラスタリングの詳細については後述する。音響モデルトレーニング部６４による音響モデルのトレーニングは、使用する発話データが、発話者クラスタリング処理部６０によってクラスタリングされた発話者グループ６２−１〜６２−ｎのいずれかである点を除き、通常のものと同様である。

図３は、このようにして生成されたグループ別音響モデル群３４を用いて、非ネイティブ話者による入力発話３６に対する音声認識を行なって仮説４０を出力する非ネイティブ発話音声認識装置３８のブロック図である。図３を参照して、この装置３８は、入力発話３６を受け、この入力発話３６の発話者がグループ別音響モデル群３４のどの話者グループに属するかを判定し、当該グループの音響モデル８２をグループ別音響モデル群３４から選択するための話者グループ分類部８０と、選択された音響モデル８２を用いて、入力発話３６をデコード（音声認識）し仮説４０を出力するためのデコード部８４とを含む。

図２に示す発話者クラスタリング処理部６０は、Ｋ平均クラスタリングアルゴリズムを用いて、データ自身の特徴に基づいて非ネイティブ話者発話データ３０を複数のグループ６２−１〜６２−ｎにクラスタリングする。その手順は以下の通りである。

すなわち、各話者について、話者依存の音響モデル（以下「ＳＤ−ＡＭ（ＳｐｅａｋｅｒＤｅｐｅｎｄｅｎｔＡｃｏｕｓｔｉｃＭｏｄｅｌ）」と呼ぶ。）を作成する。次にＳＤ−ＡＭごとに、その平均ベクトルをつなぎ合わせることにより各話者を代表する統合ベクトル（以下「代表ベクトル」と呼ぶ。）を作成する。本実施の形態ではこのＳＤ−ＡＭは、ＨＭＭ（隠れマルコフモデル）からなる、１状態あたり１ガウス分布を持つモノフォンモデルである。このＳＤ−ＡＭは、話者に依存しない基本ＡＭ（以下「ＳＩ−ＡＭ（ＳｐｅａｋｅｒＩｎｄｅｐｅｎｄｅｎｔＡｃｏｕｓｔｉｃＭｏｄｅｌ）」と呼ぶ。）に対するＭＡＰ（最大事後推定）を行なうことによって得られる。

このようにして話者ごとに得られた代表ベクトルに対し、主成分分析（ＰＣＡ）を行ない、１５次元の固有空間の基底を得る。この場合、この基底によりサンプルの変動（分散）の９５％がカバーされるように基底の次元を設定するのが望ましい。すなわち、主成分分析における固有値の和の比率をｒ_kで表すと、

となるように、基底の次元ｋを設定する。ただし上式でλ_iはｉ番目の固有値、ｍはもとの代表ベクトルの次元を表す。

前述した各話者の代表ベクトルをこの固有空間に投射することにより、各話者をより低次のベクトルで表すことが可能になる。

Ｋ平均アルゴリズムでは、同程度の大きさのクラスタを作ることができる。本実施の形態ではクラスタ数は上記したグループ数ｎ（例えばｎ＝５）に設定した。ｎは、例えば、想定される非ネイティブ話者の母語の数に等しく選択すればよい。クラスタが疎にならないように、クラスタの数は十分小さくするとよい。各クラスタをそれぞれの母語グループの話者で初期化すると、話者の数のつりあったクラスタができやすくなる。

なお、種々の距離尺度（ｍｉｎ，ｍａｘ，ａｖｅｒａｇｅ，ｍｅａｎ）を用いた階層的クラスタリングを使用してもよい。この場合、距離尺度としてｍｉｎ、ａｖｅｒａｇｅ、ｍｅａｎを使用すると一つの大きなクラスタができる傾向が高い。距離尺度としてｍａｘを使用するとクラスタが疎になる傾向が低い。

このクラスタリング処理により、複数の非ネイティブ話者の発話データがクラスタリングされ、結果として各話者は話者グループ６２−１〜６２−ｎに分類されることになる。各話者グループに対し一つの音響モデルが音響モデルトレーニング部６４によりトレーニングされる。音響モデルのトレーニングでは、ＳＩ−ＡＭに対するＭＡＰ適応処理を行なうか、モノフォンＡＭを最初から非ネイティブ発話データのみによりトレーニングするか、の二つの方法がある。いずれの方法をとってもよいが、ＡＭを非ネイティブ話者データごとに最初からトレーニングする方が、基本ＡＭに対するＭＡＰ適応処理を行なうより性能がよいという実験結果が得られている。したがって本実施の形態ではクラスタリングされた非ネイティブ話者グループごとに、音響モデルを最初からトレーニングする。

図３を参照して、話者グループ分類部８０は、入力発話３６の音響的特徴に基づいて、入力発話３６の話者がグループ別音響モデル群３４のどの話者グループに属するかを分類する機能を持つ。そして、その話者グループに対応する音響モデル８２をグループ別音響モデル群３４から選択する。

デコード部８４による、音響モデル８２を用いた入力発話３６のデコードは、従来から行なわれているものと同様である。

＜動作＞
図１〜図３を参照して、この第１の実施の形態に係る音声認識システム２０は以下のように動作する。このシステム２０の動作は二つのフェーズに分けられる。第１のフェーズはグループ別音響モデル生成装置３２による、オフラインでのグループ別音響モデル群３４の生成処理である。第２のフェーズは、このようにして生成されたグループ別音響モデル群３４を用い、非ネイティブ発話音声認識装置３８が行なう入力発話３６の音声認識である。以下順に説明する。

第１のフェーズでは、最初に非ネイティブ発話データ３０の収集を行なう。ここでは、できれば同じ性の、様々な言語を母語とする話者による、同じ英語の文の発話を収集する。一つの母語につき、複数の話者が存在することが好ましい。ただし、それぞれの話者から収集する音声データが異なっていてもよい。この場合、それぞれの話者について、音素的につりあっている文による発話の収集が欠かせない。

図２を参照して、発話者クラスタリング処理部６０は、前述した通りのクラスタリングを非ネイティブ発話データ３０に対して行ない、話者を複数の話者グループ６２−１〜６２−ｎにクラスタリングする。音響モデルトレーニング部６４は、話者グループ６２−１〜６２−ｎの各々について、それらに属する話者の発話データを用いてモノフォン音響モデルをトレーニングすることにより、グループ別音響モデル群３４を生成する。

このグループ別音響モデル群３４が生成されれば、図１に示す非ネイティブ発話音声認識装置３８による音声認識が可能になる。

図３を参照して、入力発話３６が非ネイティブ発話音声認識装置３８に与えられたものとする。通常は、入力発話３６の話者がどの言語グループに属するかについては不明である。話者グループ分類部８０は、この入力発話３６の音響的特徴に基づき、入力発話３６がグループ別音響モデル群３４のどのグループに属するものであるかを推定し、そのグループの音響モデル８２を選択する。

デコード部８４は、この音響モデル８２を用い、入力発話３６に対するデコードを行なって仮説４０を出力する。

なお、上記したように固有空間でクラスタリングするのではなく、予め話者の母語が分かっているのであれば、その母語によって話者を別グループにし、各グループの話者の音声データを用いて音響モデルをトレーニングしても同様の効果が得られる。このように話者の母語により分類された音声データを用いてトレーニングされた音響モデルをアクセント依存の音響モデルと呼ぶ。これに対し、前述したように固有空間で基底を用いてクラスタリングされた音声データを用いてトレーニングされた音響モデルをクラスタ依存の音響モデルと呼ぶ。

＜実験＞
この第１の実施の形態に係るシステム２０を用い、その効果を確認する実験を行なった。実験では、ＨＴＫ（隠れマルコフモデルツールキット）を用いて全ての音響モデルおよび言語モデルの学習、ならびにデコーディングを行なった。非ネイティブの話者として、日本、中国、フランス（仏）、ドイツ（独）、およびインドネシアの話者をそれぞれ１５人ずつ、合計７５人を対象に実験を行なった。以下の実験では全ての話者が同じ文を発音した。トレーニングおよび適応データはそれぞれ８８発話（約１０分）を含み、検証データセットは１０発話（約１分）、テストデータセットは２３発話（約３分）を、それぞれ含む。

まず、比較対象とするために、６人のネイティブ英語話者によりベースラインモデルを以下のようにして作成した。ここで使用した文は非ネイティブ話者に対して使用した文と同じである。

−音響モデル−
ＬＤＣ（ＬｉｎｇｕｉｓｔｉｃＤａｔａＣｏｎｓｏｒｔｉｕｍ）のウォールストリートジャーナル（登録商標）コーパスに含まれる６０時間以上（３７，４１３発話）の音声データを発話者に依存しないネイティブ英語音響モデルの作成に用いた。音響モデルとして、以下の３通りの構成のものを作成した
（１）３状態・１６混合分布からなるモノフォンの４４個のＨＭＭ
（２）約３，０００状態・１０混合分布からなる、状態クラスタリングされたバイフォンモデル
（３）約９，６００状態・１２混合分布からなる状態クラスタリングされたクロスワード・トライフォンモデル
モデル作成の特徴量として、１０ミリ秒間隔で３９個の音響特徴量、１２個のＭＦＣＣ（メル周波数ケプストラム係数）、エネルギとその第１次および第２次微分とを抽出した。

これら３つの音響モデルの精度を調べるため、Ｈｕｂ２５Ｋ評価タスクを行なった。その結果、モノフォンについては８０．８％、バイフォンについては８６．８％、トライフォンについては９３．６％の精度を得た。

音声データのうち、男性のみの発話を用い、ＭＡＰ適応によって話者に依存しないベースライン音響モデルを構築した。

−言語モデル−
６，４６０発話（６５，８３９単語）を含む、ホテルの予約対話ドメインの２３５対話からなるデータベースから、ｎグラム確率を推定した。辞書は、複合語を含め７，３００語に対する約８，８００個の見出しを含んでいた。３４４単語評価タスク（２３発話からなる二つの対話）により求めたパープレキシティは３２であった。

−結果−
評価のため、７５重リーブ・ワン・アウトクロス検定を話者グループ依存のモデルを用いた全ての実験に対して行ない、性能に関する実際的な評価を行なった。話者グループ依存のモデルは１０混合分布からなる４２個のＨＭＭを含んでいる。各話者グループに対して別々に音声認識結果を調べた。

・話者に依存しないモデル
前述した話者に依存しないベースラインモデルを用いた場合、どのタイプの音響モデルを用いたか、および発話者がどのグループに属するか、によってその結果は大きく変わった。その結果を表１に示す。

表１から明らかなように、ネイティブ英語話者の場合、モノフォン、バイフォン、トラ
イフォンのいずれを用いても同程度の精度が得られた。しかし、他の話者グループの場合
には、モノフォン言語モデルを用いた場合に最も高い精度が得られ、バイフォン、トライフォンとなるにしたがい得られる精度が低くなるという興味深い結果が得られた。したがって、少なくとも英語の場合には、ネイティブ以外の話者の場合にはモノフォン音響モデルを用いるのが最も好ましいことが明確に分かる。これは、非ネイティブ話者の場合にはネイティブ話者と比較して発音のバリエーションが広いことが原因と思われる。非ネイティブ話者の発音のバリエーションが広くなるのは、英語以外の場合にも同様であろうから、英語に限らず、非ネイティブ話者の音声認識を行なう場合には、モノフォン音響モデルを用いることが望ましいと推定できる。

・話者クラスタリング
いくつかの距離尺度を用いて話者のクラスタリングについても実験を行なった。階層的クラスタリングを用いた場合、最長距離の点ではバランスのとれたクラスタが得られたが、重心距離および平均ベクトル間距離という点ではかなり疎なクラスタとなった。

また、前述した主成分分析における固有空間の次元ｋが大きくなるとともに、クラスタが疎になる傾向が高くなる。次元が大きくてもよい結果を得られるのは、階層的クラスタリングで距離尺度としてｍａｘを使用した場合と、Ｋ平均を用いた場合とである。なお、主成分分析の結果得られるクラスタがあまりに疎である場合、次元の数ｋを、前述した値より低い値に設定してもよい。

クラスタリングの結果を表２に示す。

・最良認識精度
各テスト話者の母語、およびその属するクラスタについての知識を用い、選択したモデルが正しいものと想定した実験（オラクル実験）を行なって、最良の認識精度としてどのような値が得られるかを確認した。その結果を表３に示す。

表３から明らかなように、話者依存の音響モデルを用いることにより、単語認識精度が
大きく改善する。アクセント依存の音響モデルを用いた場合にも性能は高い。これは、共
通の母語を持つ話者についてはアクセントの特徴も共通していることを示唆している。クラスタ依存のモデルを用いた場合にもよい結果が得られるが、アクセント依存のモデルを用いた場合と比較するとやや精度が低くなっている。

以上のようにこの第１の実施の形態に係るシステム２０によれば、非ネイティブ話者ごとに、音声認識のために最適と思われる音響モデルを選択し、その音響モデルを用いて入力発話のデコードを行なう。したがって、話者に依存しない音響モデルを用いた場合と比較して音声認識の精度がより高くなる可能性が高い。出願人において実験したところ、特に日本人による英語の発話に関し、単語認識精度に関して４８％の相対的改善が見られた。

［第２の実施の形態］
＜構成＞
上記した第１の実施の形態のシステムでは、話者グループ分類部８０が入力発話３６の属するグループを推定し、そのグループに対応する音響モデル８２を選択してデコードに用いた。しかし本発明はそのような実施の形態には限定されない。例えば、上記した複数のグループ別音響モデルをすべて用いて並列に入力発話に対するデコードを行ない、得られた複数の仮説のうち最も尤度の高いものを選択するようにしてもよい。図４にそのような非ネイティブ発話音声認識装置１００のブロック図を示す。

図４を参照して、この非ネイティブ発話音声認識装置１００は、グループ別音響モデル群３４に含まれるグループ別の音響モデルを用い、入力発話３６に対するデコードを並列に行ない、複数の仮説１１２をそれらの尤度とともに出力するためのデコード部１１０と、複数の仮説１１２の中で最も尤度の高い仮説を選択し仮説４０として出力するための仮説選択部１１４とを含む。

音響モデルがｋ個あるものとし、得られるｋ個の仮説の尤度をそれぞれｐ_i（ｘ｜ｗ）（ｉ＝１〜ｋ）（ｘは入力音声の音響特徴ベクトル列、ｗは単語列）とすると、仮説選択部１１４は^~ｗ＝ａｒｇｍａｘ_i=1…kｌｏｇｐ_i（ｘ｜ｗ）となる仮説^~ｗ（本明細書では、符号の直前の「^~」は、直後の符号の直上に記載されるべき記号をあらわすものとする。）を最終候補として選択する。これは以下の理由による。特徴ベクトルシーケンスｘが観測されたときの、各音響モデルから得られる単語列ｗの事後確率がｌｏｇｐ_i（ｗ｜ｘ）であり、これを最大とする単語列^~ｗを求める問題は、次のように定式化される。

最後の式のうちｐ_i（ｗ）は言語モデルにおける事前確率であって、どの音響モデルを用いた場合でも等しい。したがって結局^~ｗとしては、ｌｏｇｐ_i（ｘ｜ｗ）を最大とするようなものが選択される。

＜動作＞
この非ネイティブ発話音声認識装置１００の動作については明らかであるので、ここではその詳細については述べない。なお、仮説全体として最も尤度の高いものを選択する代わりに、仮説を構成する単語ごと、または単語ネットワークの経路ごとに、最も高い尤度を選択することにより仮説４０を生成する、いわゆる仮説統合を行なうようにしてもよい。

＜実験＞
この第２の実施の形態に係る非ネイティブ発話音声認識装置１００を用いてアクセント依存モデルおよびクラスタ依存モデルを用いて実験を行なった。その結果を表４に示す。

表４に示す精度のうち、アクセント依存モデルを用いた場合の精度は、表３に示す精度と比較してやや落ちている。しかしクラスタ依存モデルを用いた場合には精度の低下はない。さらに、いずれのモデルを用いた場合でも表３に示すベースラインモデルを用いた場合よりよい結果が得られている。また、いずれのモデルを用いた場合も、日本語話者を除きモデルによる精度の差異は有意なものではない。

クラスタ分類精度（６４．６％）はアクセント分類精度（５２．５％）よりも高かったが、より多くの話者のデータが利用可能になれば、クラスタ依存モデルを用いた並列デコードの方がアクセント依存モデルを用いたものよりもよい性能を示すのではないかと考えられる。各話者グループに対して得た結果を図５に示す。

以上のように、この発明の実施の形態によれば、ある言語について非ネイティブの話者による発話データ３０に基づき、グループ別音響モデル群３４が生成される。これらグループ別音響モデル群３４を用い、入力発話３６のうちで最も適切と思われる音響モデルを用いたデコードが行なわれる。または、複数の音響モデルを用いてデコードした結果得られた仮説の中で、最も尤度の高いものが選択される。その結果、当該言語を母語としない、母語の影響を受けた独特のアクセントで当該言語の発話を行なう非ネイティブ話者の発話を高い精度で認識することができる。

［単一の非ネイティブモデル］
今回考慮した５つのアクセントグループの全話者に対する発音のバリエーションを一つのモノフォン音響モデルを用いて的確に表すことができるかどうかを調べるため、各アクセントグループから１０名、合計５０名の非ネイティブ話者を用いて１６混合分布の非ネイティブモノフォンモデル（ＮＮ）をトレーニングし、その評価を行なった。評価では、残りの２５名の話者を用いて３重クロス検定を行なった。各トレーニングセットおよびテストセットのための話者はランダムに選択した。その際、各話者の母語が均一に分布するように配慮した。

このようにして作成した話者独立な非ネイティブモノフォンモデルを用いた音声認識の結果を、テスト話者の母語別に表５に示す。

表５より、表４に示すアクセント依存モデルまたはクラスタ依存モデルを用いた並列デコーディングを用いた結果に匹敵する結果が得られることが分かる。ただし、表３に示した結果のうち、アクセント依存モデルを用いた結果と比較すると、表３の方が高い。したがって、もしもアクセントによる話者の分類が高精度でできるのであれば、対応するアクセント依存モデルを用いて音声認識を行なうことが原則としては望ましいといえる。

この話者独立な非ネイティブモノフォンモデルを用いると、その精度に限界がある。しかし、非ネイティブ話者の音声コーパスが利用できない場合には、文脈依存の頑健な音響モデルをトレーニングにより得ることは困難である。各アクセントグループ内での非ネイティブ話者の発音のバリエーションがほぼ一致した傾向を示すことを仮定すれば、アクセントおよび文脈依存のモデルを用いることで、より精度を高めることが可能と思われる。

なお、上記した実施の形態では、英語発話に対する非ネイティブ話者の発話を音声認識する実施の形態を例にした。しかし本発明はそのような実施の形態に限定されない。任意の言語に対して、上記した非ネイティブ話者の音声認識を行なうようにしてもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の第１の実施の形態に係る音声認識システム２０のブロック図である。図１に示すグループ別音響モデル生成装置３２のブロック図である。図１に示す非ネイティブ発話音声認識装置３８のブロック図である。本発明の第２の実施の形態に係る非ネイティブ発話音声認識装置１００のブロック図である。各モデルを用いて５通りの方式で得た単語認識精度を話者グループごとに示すグラフである。

符号の説明

２０音声認識システム、３０非ネイティブ話者発話データ、３２グループ別音響モデル生成装置、３４グループ別音響モデル群、３６入力発話、３８，１００非ネイティブ発話音声認識装置、４０，１１２仮説、６０発話者クラスタリング処理部、６４音響モデルトレーニング部、８０話者グループ分類部、８２音響モデル、８４，１１０デコード部、１１４仮説選択部

Claims

所定の音声の特徴にしたがって予め複数グループのいずれかに分類された複数話者の音声データを準備するための音声データ準備手段と、
前記音声データ準備手段により準備された音声データに基づいて、各グループについてそれぞれ音響モデルを作成するための音響モデル群生成手段とを含む、音響モデル生成装置。
前記音声データ準備手段は、複数話者による発話データに基づき、前記複数話者を複数グループにクラスタリングするための話者クラスタリング手段を含み、
前記音響モデル群生成手段は、前記話者クラスタリング手段により得られた複数グループに対し、各グループに属する話者の前記発話データに基づいてそれぞれ音響モデルを作成するための手段を含む、請求項１に記載の音響モデル生成装置。
前記話者クラスタリング手段は、
前記複数話者の各々の発話データに基づき、話者依存の音響モデルを生成するための話者依存音響モデル生成手段と、
前記音響モデルに基づいて、前記複数話者の各々の代表ベクトルを生成するための代表ベクトル生成手段と、
前記複数話者について得られた複数の代表ベクトルに対して主成分分析を行なうことにより、前記複数の代表ベクトルをより低次の複数の代表ベクトルに変換するための手段と、
前記低次の複数の代表ベクトルに対し予め定めるクラスタリング処理を実行することにより、前記複数の話者を複数のグループにクラスタリングするためのクラスタリング手段とを含む、請求項２に記載の音響モデル生成装置。
複数の音響モデルを用いて、入力発話に対する音声認識を行なう音声認識装置であって、前記複数の音響モデルは、それぞれ互いに異なる音響的特徴を持つ発話データから生成されたものであり、
入力発話の音響的特徴に基づいて、前記複数の音響モデルのうちで前記入力発話の音響的特徴に合致する音響モデルを選択するための音響モデル選択手段と、
前記音響モデル選択手段により選択された音響モデルを用いて前記入力発話に対する音声認識を行なうための音声認識手段とを含む、音声認識装置。
複数の音響モデルを用いて、入力発話に対する音声認識を行なう音声認識装置であって、前記複数の音響モデルは、それぞれ互いに異なる音響的特徴を持つ発話データから生成されたものであり、
前記複数の音響モデルの各々を用いて入力発話に対する音声認識を行ない、複数の仮説を出力するための音声認識手段と、
前記音声認識手段により出力される複数の仮説に基づいて、一つの仮説を出力するための仮説出力手段とを含む、音声認識装置。