JP5688761B2

JP5688761B2 - 音響モデル学習装置、および音響モデル学習方法

Info

Publication number: JP5688761B2
Application number: JP2011041078A
Authority: JP
Inventors: 一彦阿部
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2011-02-28
Filing date: 2011-02-28
Publication date: 2015-03-25
Anticipated expiration: 2031-02-28
Also published as: JP2012177815A

Description

本発明は、音声認識処理等で利用できる音響モデルを構築する音響モデル構築装置等に関するものである。

異なる言語の間の壁を越える技術として、音声翻訳等の技術が開発されている（非特許文献１、非特許文献２参照）。

また、音声翻訳等にも利用される音声認識処理において、音響モデルが利用される。そして、一般に、高い音声認識率を得るための音響モデルの学習においては、十分な学習データが必要である。特に、音響モデルの構成単位である音素ごとに十分な学習データが必要である。そこで、従来、他言語データを混ぜて音響モデルを構築する方法が提案されている。

Nakamura,Satoshietal.,"TheATRmultilingual speech-to-speechtranslationsystem,"IEEETrans.ASLP,vol.14,no.2,365-376,March2006. Sakti,Sakriani,"TheAsianNetwork-basedSpeech-to-Speech TranslationSystem",InASRU-2009,507-512

しかしながら、従来の方法においては、例えば、ポルトガル語などのマイナーな言語において、一部または全部の音素の学習データが十分ではない音響モデルが存在し、かかる音響モデルを用いた音声認識処理の精度は低かった。

本発明は、上記課題に鑑み、以下のような解決手段を有する。
本第一の発明の音響モデル学習装置は、第一言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けた１以上の第一音素関連情報を格納し得る第一音響モデル格納部と、第二言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けた１以上の第二音素関連情報を格納し得る第二音響モデル格納部と、第一言語の単語と単語の音素識別子列とを対応付けた１以上の第一単語発音情報を格納し得る第一発音辞書と、第二音響モデル格納部から、第二言語の第二音素関連情報を選択する第二音素関連情報選択部と、第一単語発音情報から、第一単語発音情報が有する音素識別子列に含まれる音素識別子を、第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成部と、第一言語の単語の１以上の音声を受け付ける受付部と、第一音響モデル格納部に格納されている１以上の第一音素関連情報と第二音素関連情報選択部が選択した第二言語の第二音素関連情報、および第一発音辞書に格納されている１以上の第一単語発音情報に仮第一単語発音情報を加えた仮第一発音辞書を用いて、受付部が受け付けた１以上の音声に対して、音声認識処理を行い、音素識別子列を含む１以上の認識結果を取得する音声認識部と、１以上の認識結果から、新第一単語発音情報が得られた数に関する情報である置換数情報を取得する置換数情報取得部と、置換数情報が予め決められた条件を満たすほど大きい場合に、第二音素関連情報選択部が選択した第二言語の第二音素関連情報が有する音素情報と、置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新音素関連情報を構成する新第一単語発音情報構成部と、新第一単語発音情報を第一音響モデル格納部に蓄積する蓄積部とを具備する音響モデル学習装置である。

かかる構成により、数多くの言語の音響モデルを効率よく構築できる。

また、本第二の発明の音響モデル学習装置は、第一の発明に対して、仮第一単語発音情報構成部は、第一音響モデル格納部に格納されている１以上の第一音素関連情報から、第一言語の各音素識別子に対応する音素情報の数である学習数を取得する学習数取得手段と、第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど学習数の少ない音素の音素識別子のみ、第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成手段とを具備する音響モデル学習装置である。

かかる構成により、極めて品質の高い、数多くの言語の音響モデルを効率よく構築できる。

本発明による音響モデル学習装置によれば、数多くの言語の音響モデルを効率よく構築できる。

実施の形態１における音響モデル学習装置のブロック図実施の形態１における音響モデル学習装置の動作について説明するフローチャート実施の形態１における置換数情報取得処理の動作について説明するフローチャート実施の形態１における音響モデル学習装置の動作の一部を説明する概念図実施の形態１における音響モデル学習装置の動作の一部を説明する概念図実施の形態１における実験結果を示す図実施の形態１におけるコンピュータシステムの概観図実施の形態１におけるコンピュータシステムのブロック図

以下、音響モデル学習装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、置換率等が高い第二言語の音素情報を、第一言語の音素情報として学習させる音響モデル学習装置について説明する。

また、本実施の形態において、第一言語の音響モデル内の低頻度の音素に関して、第二言語の対応する音素の音素情報を学習させる音響モデル学習装置について説明する。

図１は、本実施の形態における音響モデル学習装置１の内部構造を示すブロック図である。音響モデル学習装置１は、第一言語の音響モデルを格納している第一音響モデル格納部１１、第二言語の音響モデルを格納している第二音響モデル格納部１２、第一発音辞書１３、第二音素関連情報選択部１４、仮第一単語発音情報構成部１５、受付部１６、音声認識部１７、置換数情報取得部１８、新第一音素関連情報構成部１９、および蓄積部２０を具備する。

また、仮第一単語発音情報構成部１５は、学習数取得手段１５１、および仮第一単語発音情報構成手段１５２を具備する。

音響モデル学習装置１を構成する第一音響モデル格納部１１は、１以上の第一音素関連情報を格納し得る。第一音素関連情報とは、第一言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けた情報である。ここで、第一言語とは、例えば、音声認識処理を行う目的言語である。なお、第一言語を、適宜、目的言語とも言う。例えば、第一言語は、ポルトガル語、スワヒリ語など、他の言語と比較して、多数の人が使用していないマイナーな言語であることは好適である。また、音素情報とは、通常、１以上の特徴量であるが、波形でも良い。音素情報は、ＧＭＭ、ＨＭＭなど、その構造は問わない。また、特徴量とは、通常、複数である。特徴量は、例えば、１２次元ＭＦＣＣ、１２次元ΔＭＦＣＣ、Δ対数パワー、ケプストラム、パワースペクトル等である。また、音素とは、一つの音素でも良いし、複数の音素（又は音韻）でも良い。つまり、日本語の「か」に対して、音素を「ｋ」や「ａ」という単位で捕らえても良いし、「ｋａ」という単位で捕らえても良い。そして、音素を各言語の発音の単位と捕らえることは好適である。なお、本実施の形態等において、ＡとＢとを対応付けた情報とは、ＡとＢとを有する情報でも良いし、ＡとＢとが音響モデル学習装置１の外部に存在し、ＡとＢとを対応付けて取得するための情報（ＡのＩＤとＢのＩＤなど）等でも良い。つまり、ＡとＢとを対応付けた情報により、ＡとＢとを取得できれば良い。

第二音響モデル格納部１２は、１以上の第二音素関連情報を格納し得る。第二音素関連情報は、第二言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けたである。第二言語とは、適宜、補完言語とも言う。第二言語は、英語、日本語など、音響モデルの学習量が多い言語であることは好適である。また、第二言語は、２以上の言語でも良く、英語、日本語以外に、例えば、中国語、スペイン語等である。

第一発音辞書１３は、1以上の第一単語発音情報を格納し得る。第一単語発音情報とは、第一言語の単語と当該単語の音素識別子列とを対応付けた情報である。

第二音素関連情報選択部１４は、第二音響モデル格納部１２から、第二言語の第二音素関連情報を選択する。ここで、第二音素関連情報の選択の方法は問わない。第二音素関連情報選択部１４は、任意の第二音素関連情報を選択しても良い。また、第二音素関連情報選択部１４は、第二言語の音素識別子の種類だけ、１または２以上の第二音素関連情報を選択しても良い。さらに、第二音素関連情報選択部１４は、第二音響モデル格納部１２から、第二言語の一の音素識別子に対して一の第二音素関連情報を選択しても良いし、第二言語の一の音素識別子に対して２以上の第二音素関連情報を選択しても良い。つまり、第二音素関連情報選択部１４は、一の音素識別子と一の音素情報とを取得しても良いし、一の音素識別子と２以上の音素情報とを取得しても良い。第二音素関連情報選択部１４が音素識別子と音素情報とを同時に選択する必要はなく、音素識別子を選択した後、当該音素識別子に対応する１以上の音素情報を選択しても良い。

仮第一単語発音情報構成部１５は、仮第一単語発音情報を構成する。仮第一単語発音情報とは、第一単語発音情報が有する音素識別子列に含まれる一の音素識別子を、第二音素関連情報選択部１４が選択した第二言語の音素識別子に置換した情報である。つまり、仮第一単語発音情報構成部１５は、第一単語発音情報から、第一単語発音情報が有する音素識別子列に含まれる一の音素識別子を、第二音素関連情報選択部１４が選択した第二言語の音素識別子に置換して、仮第一単語発音情報を構成する。ここで、置換について、第二音素関連情報が有する音素識別子が決まれば、第一単語発音情報が有する音素識別子が決定されても良い。また、第一言語の複数種類の各音素識別子が、第二言語の複数種類の各言語識別子に置換されても良い。

また、仮第一単語発音情報構成部１５は、他の音素置換手法との組み合わせを行えるようにしても良い。つまり、仮第一単語発音情報構成部１５は、他の音素置換手法により置換されなかった第一単語発音情報が有する音素識別子列に含まれる一の音素識別子のみに対して、当該一の音素識別子を第二音素関連情報選択部１４が選択した第二言語の音素識別子に置換した情報である仮第一単語発音情報を構成しても良い。なお、他の音素置換手法とは、例えば、ＩＰＡ（International Phonetic Association, "Handbook of the International Phonetic Association: A Guide to the Use of the International Phonetic Alphabet",Cambr idge University Press, 1999.参照）を基準として用いる方法である。ＩＰＡを基準として用いる方法とは、ＩＰＡが一致する、または所定以上の類似度を有する第一言語の一の音素識別子と第二言語の一の音素識別子を置換する方法である。ＩＰＡが一致することの判断方法、または所定以上の類似度を有することの判断方法は公知技術であるので説明を省略する。

仮第一単語発音情報構成部１５を構成する学習数取得手段１５１は、第一音響モデル格納部１１に格納されている１以上の第一音素関連情報から、第一言語の各音素識別子に対応する音素情報の数である学習数を取得する。なお、学習数取得手段１５１の処理は必須ではない。

また、仮第一単語発音情報構成手段１５２は、第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど学習数の少ない音素の音素識別子のみ、第二音素関連情報選択部１４が選択した音素識別子に置換して、仮第一単語発音情報を構成する。なお、仮第一単語発音情報構成手段１５２は、学習数の多少に関わらず、第一単語発音情報が有する音素識別子列に含まれる音素識別子を、第二音素関連情報選択部１４が選択した音素識別子に置換して、仮第一単語発音情報を構成しても良い。

受付部１６は、第一言語の単語の１以上の音声を受け付ける。ここで、受け付けとは、マイクなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。

音声認識部１７は、第一音響モデル格納部１１に格納されている１以上の第一音素関連情報と第二音素関連情報選択部１４が選択した第二言語の第二音素関連情報、および第一発音辞書１３に格納されている1以上の第一単語発音情報に仮第一単語発音情報を加えた仮第一発音辞書とを用いて、受付部１６が受け付けた１以上の音声に対して、音声認識処理を行い、音素識別子列を含む１以上の認識結果を取得する。なお、通常、音声認識部１７は、音響モデル（１以上の第一音素関連情報と第二音素関連情報選択部１４が選択した第二言語の第二音素関連情報）、仮第一発音辞書、および言語モデルを用いて行われる。ただし、ここでは、言語モデルについては公知技術であるので、説明していない。また、音声認識部１７が行う音声認識処理自体は、いかなる方法でも良く、公知技術により音声認識処理は可能であるので、説明は省略する。なお、音声認識部１７は、一の音声に対して、複数の認識結果（かかる場合、候補である）を取得しても良い。

置換数情報取得部１８は、１以上の認識結果から、仮第一単語発音情報が得られた数に関する情報である置換数情報を取得する。置換数情報とは、置換数でも良いし、置換率等でも良い。置換率とは、「仮第一単語発音情報に対応する音素識別子列の数／２以上の認識結果の数」である。置換数とは、仮第一単語発音情報が得られた数である。なお、置換数情報取得部１８は、音声認識結果の信頼度を考慮しても良い。例えば、置換数情報取得部１８は、信頼度の低い認識結果については、置換数情報（例えば、置換数）を算出する対象から除外することは好適である。なお、音声認識部１７が取得した認識結果が、信頼度(スコア)を有する場合、置換数情報取得部１８は、置換数情報を算出する際に、信頼度が閾値より低い認識結果を利用しなかったり、信頼度に応じて、置換数に重み付けしたりしても良い。

新第一音素関連情報構成部１９は、置換数情報が予め決められた条件を満たすほど大きい場合に、第二音素関連情報選択部１４が選択した第二言語の第二音素関連情報が有する音素情報と、置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新第一音素関連情報を構成する。予め決められた条件とは、例えば、置換率が最も大きいこと、置換率が閾値以上であること、置換数が最も大きいこと、置換数が閾値以上であること等である。また、新第一音素関連情報構成部１９は、１以上の新第一音素関連情報を構成しても良い。また、新第一音素関連情報構成部１９は、第二音素関連情報選択部１４が選択した第二言語の第二音素関連情報が有する１以上の音素情報を取得しても良い。かかる1以上の音素情報の取得も、新第一音素関連情報の構成である、とする。

蓄積部２０は、新第一音素関連情報構成部１９が構成した新第一音素関連情報を第一音響モデル格納部１１に蓄積する。蓄積部２０は、新第一音素関連情報構成部１９が取得した１以上の音素情報を、第一言語の置換された音素識別子に対応付けて、第一音響モデル格納部１１に蓄積しても良い。かかる１以上の音素情報の蓄積も、新第一音素関連情報構成部１９が構成した新第一音素関連情報の蓄積であると考える。

第一音響モデル格納部１１、第二音響モデル格納部１２、および第一発音辞書１３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。第一音響モデル格納部１１に第一音響モデル等が記憶される過程は問わない。例えば、記録媒体を介して第一音響モデル等が第一音響モデル格納部１１等で記憶されるようになってもよく、通信回線等を介して送信された第一音響モデル等が第一音響モデル格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された第一音響モデル等が第一音響モデル格納部１１等で記憶されるようになってもよい。
受付部１６は、

第二音素関連情報選択部１４、仮第一単語発音情報構成部１５、音声認識部１７、置換数情報取得部１８、新第一音素関連情報構成部１９、および蓄積部２０は、通常、ＭＰＵやメモリ等から実現され得る。第二音素関連情報選択部１４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音響モデル学習装置１の動作について、図２のフローチャートを用いて説明する。

（ステップＳ２０１）仮第一単語発音情報構成部１５の学習数取得手段１５１は、カウントｉに１を代入する。

（ステップＳ２０２）学習数取得手段１５１は、第一言語のｉ番目の音素識別子が存在するか否かを判断する。第一言語のｉ番目の音素識別子が存在すればステップＳ２０３に行き、存在しなければ処理を終了する。

（ステップＳ２０３）学習数取得手段１５１は、第一言語のｉ番目の音素識別子を取得する。学習数取得手段１５１は、第一言語のｉ番目の音素識別子は、第一音響モデル格納部１１に格納されている１以上の第一音素関連情報から取得しても良いし、別途、保持している第一言語の音素識別子の集合から取得しても良い。なお、第一言語の音素識別子の集合からｉ番目の音素識別子を取得する場合でも、第一音響モデル格納部１１に格納されている１以上の第一音素関連情報から取得することと同意義である、とする。

（ステップＳ２０４）学習数取得手段１５１は、第一音響モデル格納部１１に格納されている１以上の第一音素関連情報から、ｉ番目の音素識別子に対応する音素情報の数である学習数を取得する。

（ステップＳ２０５）仮第一単語発音情報構成手段１５２は、ｉ番目の音素識別子の学習数が、予め決められた条件を満たすほど少ないか否か（例えば、「ｉ番目の音素識別子の学習数＜ｎ（ｎは自然数）」）を判断する。予め決められた条件を満たすほど少ない場合はステップＳ２０６に行き、少なくない場合はステップＳ２１８に行く。

（ステップＳ２０６）第二音素関連情報選択部１４は、カウントｊに１を代入する。

（ステップＳ２０７）第二音素関連情報選択部１４は、第二言語のｊ番目の音素識別子が存在するか否かを判断する。第一言語のｊ番目の音素識別子が存在すればステップＳ２０８に行き、存在しなければステップＳ２１５に行く。

（ステップＳ２０８）第二音素関連情報選択部１４は、第二言語のｊ番目の音素識別子を含む第二音素関連情報を、第二音響モデル格納部１２から取得する。ここで、第二音素関連情報選択部１４は、ｊ番目の音素識別子を含む一の第二音素関連情報を取得しても良いし、ｊ番目の音素識別子を含む２以上の第二音素関連情報を取得しても良い。

（ステップＳ２０９）仮第一単語発音情報構成手段１５２は、第一単語発音情報が有する音素識別子列に含まれるｉ番目の音素識別子を、第二音素関連情報選択部１４が選択した第二音素関連情報が有するｊ番目の音素識別子に置換した情報である仮第一単語発音情報を構成する。

（ステップＳ２１０）受付部１６は、第一言語の単語の２以上の音声を受け付ける。ここでの２以上の音声は、第一言語の一の単語の２以上の音声であることが好適である。また、ここでの２以上の各音声は、通常、第一言語のｉ番目の音素識別子に対応する音素を含む単語の音声である。

（ステップＳ２１１）音声認識部１７は、第一音響モデル格納部１１に格納されている１以上の第一音素関連情報と第二音素関連情報選択部１４が選択した第二言語の第二音素関連情報、および第一発音辞書１３に格納されている1以上の第一単語発音情報に仮第一単語発音情報を加えた仮第一発音辞書とを用いて、受付部１６が受け付けた２以上の音声に対して、音声認識処理を行い、音素識別子列を含む２以上の認識結果を取得する。

（ステップＳ２１２）置換数情報取得部１８は、ステップＳ２１１において取得された２以上の認識結果から、仮第一単語発音情報が得られた数に関する情報である置換数情報を取得する。この置換数情報取得処理について、図３のフローチャートを用いて説明する。

（ステップＳ２１３）新第一音素関連情報構成部１９は、ｊ番目の音素識別子と、ステップＳ２１２で取得された置換数情報とを対応付けて、図示しないバッファに一時蓄積する。

（ステップＳ２１４）第二音素関連情報選択部１４は、カウントｊを１、インクリメントし、ステップＳ２０７に戻る。

（ステップＳ２１５）新第一音素関連情報構成部１９は、予め決められた条件を満たすほど大きい置換数情報と対になる１以上の音素識別子を、バッファから取得する。新第一音素関連情報構成部１９は、例えば、最も置換数情報が大きい一の音素識別子をバッファから取得する。

（ステップＳ２１６）新第一音素関連情報構成部１９は、ステップＳ２１５で取得した１以上の各音素識別子に対応する第二言語の第二音素関連情報が有する音素情報と、第一言語のｉ番目の音素識別子とを有する新第一音素関連情報を構成する。

（ステップＳ２１７）蓄積部２０は、ステップＳ２１６で構成された新第一音素関連情報を第一音響モデル格納部１１に蓄積する。

（ステップＳ２１８）学習数取得手段１５１は、カウントｉを１、インクリメントし、ステップＳ２０２に戻る。

なお、図２のフローチャートにおいて、受付部１６が、音響モデルを学習する指示を受け付けた場合に、処理を開始しても良い。

また、図２のフローチャートにおいて、学習数が少ない音素に対して、新第一音素関連情報を蓄積した。しかし、すべての音素に対して、新第一音素関連情報を蓄積しても良い。

次に、ステップＳ２１２の置換数情報取得処理について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）置換数情報取得部１８は、ステップＳ２１１において取得された２以上の認識結果から、ｉ番目の音素識別子を含む音素識別子列の数（ｎ１）を取得する。

（ステップＳ３０２）置換数情報取得部１８は、ステップＳ２１１において取得された２以上の認識結果から、ｊ番目の音素識別子を含む音素識別子列の数（ｎ２）を取得する。

（ステップＳ３０３）置換数情報取得部１８は、「置換率＝ｎ２／（ｎ１＋ｎ２）」を算出し、上位処理（ステップＳ２１３）にリターンする。

なお、図３のフローチャートにおいて、置換数情報取得部１８は、ステップＳ２１１において取得された２以上の認識結果から、ｊ番目の音素識別子を含む音素識別子列の数（ｎ２）を置換数情報として取得しても良い。

以下、本実施の形態における音響モデル学習装置１の具体的な動作について説明する。まず、音響モデル学習装置１の音素マッピングの具体的な作成手順について説明する。なお、音素マッピングとは、目的言語の音素識別子と、補完言語の置換可能な音素識別子とを対応づける処理である。

（ステップ１）各言語（目的言語と補完言語）の各音素モデルを作成する。なお、音素モデルとは、音素識別子と音素情報とを対応付けた情報である。

（ステップ２）目的言語の各音素について、補完言語の各音素を用いて、以下の処理を実行し、コンヒュージョンマトリクス（ＣｏｎｆｕｓｉｏｎＭａｔｒｉｘ）を作成する。コンヒュージョンマトリクスとは、目的言語の各音素を要素とする軸と補完言語の各音素を要素とする軸とを有する２次元のマトリクスである。そして、ここでは、当該２次元のマトリクスを構成する値は、補完言語の各音素の目的言語の各音素に対する置換数情報（置換率など）が代入され得る。なお、ステップ２の処理は、以下のステップ２−１からステップ２−４の処理を含む。

（ステップ２−１）置換数情報を算出する補完言語の音素モデルを目的言語の音響モデルに追加する。

（ステップ２−２）置換数情報を算出する補完言語の音素と目的言語の音素を置換したエントリを発音辞書に追加する。

（ステップ２−３）前手順で作成した音響モデルと発音辞書を用いて目的言語音声の認識を行う。

（ステップ２−４）認識結果に含まれる置換前のエントリ数と置換後のエントリ数より置換数情報（ここでは、置換率）を求める。なお、「置換率＝置換後のエントリ数／（置換前のエントリ数＋置換後のエントリ数）」である。

（ステップ３）コンヒュージョンマトリクスに基づき，目的言語の音素に対して、最も置換されやすい補完言語の音素との対応付けを行う。

なお、音素の対応付けがなされた後、補完言語の音素に対応する１以上の音素情報が、目的言語の音素に対応付けて、第一音響モデル格納部１１に蓄積される。

以下、ポルトガル語音素識別子/e/と、英語の音素識別子/E-en/間の置換検出の手順について説明する。

仮第一単語発音情報構成部１５の学習数取得手段１５１は、第一言語（ポルトガル語）の音素識別子/e/の学習数を３と取得した、とする。

そして、仮第一単語発音情報構成手段１５２は、音素識別子/e/の学習数（ｎ）が、予め決められた条件「ｎ＞１０」を満たさない、と判断した、とする。

次に、第二音素関連情報選択部１４は、第二言語（英語）の音素識別子/E-en/を取得した、とする。

次に、第二音素関連情報選択部１４は、第二言語の音素識別子/E-en/を含む１以上の第二音素関連情報を、第二音響モデル格納部１２から取得する。そして、ここでは、第二音素関連情報選択部１４は、取得した１以上の第二音素関連情報（音素識別子/E-en/を含む第二音素関連情報）を第一音響モデル格納部１１に追加する、とする。かかる動作の概念図が図４である。図４によれば、第一言語の第一音響モデル格納部１１に第二音素関連情報（音素識別子/E-en/を含む第二音素関連情報）が追記されている。

次に、仮第一単語発音情報構成手段１５２は、第一単語発音情報が有する音素識別子列に含まれるｉ番目の音素識別子を、第二音素関連情報選択部１４が選択した第二音素関連情報が有するｊ番目の音素識別子に置換した情報である１以上の仮第一単語発音情報を構成する。そして、ここでは、仮第一単語発音情報構成手段１５２は、構成した１以上の仮第一単語発音情報を第一発音辞書１３に追記する、とする。かかる動作の概念図が図５である。図５によれば、第一言語の第一発音辞書１３に、１以上の仮第一単語発音情報が追記され、新しい第一発音辞書（１３（２））が生成されている。

次に、受付部１６は、第一言語の単語の２以上の音声を受け付ける。そして、音声認識部１７は、図４の第一音響モデル（１以上の第一音素関連情報）と、図５の第一発音辞書（１３（２））と、図示しない言語モデルとを用いて、受付部１６が受け付けたｍ個の音声に対して、音声認識処理を行い、音素識別子列を含むｍ個の認識結果を取得する。例えば、そして、音声認識部１７は、ポルトガル語"Um belo presente"の音声に対応する音素識別子列"U n b E l o p r e z e~ tS i"（置換なし）または"U n b E l o p r E-en z e~ tS i"（置換あり）を取得する。そして、置換数情報取得部１８は、音声認識部１７が取得したｍ個の認識結果から、音素識別子列"U n b E l o p r e z e~ tS i"の数がｎ個、"U n b E l o p r E-en z e~ tS i"の数が（ｍ−ｎ）個であった、と判断した、とする。次に、置換数情報取得部１８は、「置換率＝（ｍ−ｎ）／ｍ」を算出する。

次に、新第一音素関連情報構成部１９は、「置換率＝（ｍ−ｎ）／ｍ」が予め決められた条件を満たすほど大きい置換率である、と判断した、とする。

次に、新第一音素関連情報構成部１９は、第二言語（英語）の音素識別子/E-en/に対応する第二言語の１以上の音素情報を、第二言語の第二音響モデル格納部１２から取得する。

次に、蓄積部２０は、取得された第二言語の１以上の音素情報を、第一言語の音素識別子/e/に対応付けて、第一音響モデル格納部１１に蓄積する。

以上により、第一音響モデルの学習処理が行われた。
（実験）

以下に、音響モデル学習装置１の有効性を検証するための実験結果を示す。本実験は、ブラジルポルトガル語を目的言語とし、英語、日本語、中国語、およびスペイン語を補完言語とする実験である。

まず、ベースラインとなる音響モデルについて説明する。ベースラインとなるブラジルポルトガル語の音響モデルは、ＧｌｏｂａｌＰｈｏｎｅプロジェクトの音声データ（Ｔ．Ｓｃｈｕｌｔｚ，Ｐｒｏｃ．ＩＣＳＬＰ，３４５−３４８，２００２参照）、及びＳＰＯＬＴＥＣＨプロジェクト（Ｓｃｈｒａｍｍ，ＭａｕｒｉｃｉｏＣ．ｅｔａｌｔ．，Ｐｒｏｃ．ＩＣＳＬＰ，ｖｏｌ．２，５７９−５８２，２００２．参照）の音素バランス文発声データの計約１６時間分を用いて構築した。音響モデルのサンプリング周波数は１６ｋＨｚ、特徴量は１２次元ＭＦＣＣ、１２次元ΔＭＦＣＣ、Δ対数パワーを用いた。音響モデルは、より最適なモデル構造が得られるＭＤＬ−ＳＳＳ法（Ｊｉｔｓｕｈｉｒｏｅｔａｌ．，ＩＥＩＣＥＴｒａｎｓ．Ｉｎｆ．＆Ｓｙｓｔ．，Ｅ８７−Ｄ８，２１２１−２１２９，２００４．）を用いて自動的構造決定したものを用いている。

次に、音響モデル学習装置１における音響モデルの構築について説明する。音響モデル学習装置１の音響モデルの構築法を評価するにあたり、ベースラインとなるデータセットに追加する音声データとして、日本語音素バランス文音声、英語旅行会話基本文音声、中国語旅行会話基本文音声、およびスペイン語音素バランス文音声を用意した。いずれも、各言語の音響モデルを用いて高精度にアライメントされている。本評価実験では、以下の各方法に基づきに作成されたラベル情報を用いて音響モデルの学習を行い、比較を行った。

まず、ＩＰＡを基準に作成した共通の音素体系でラベリングを行った。

次に、各音素に対し，ＣｏｎｆｕｓｉｏｎＭａｔｒｉｘを元に最も置換されやすい目的言語の音素としてラベリングを行った。

音響モデルの学習データは、目的言語の音声データに４言語の音声データから音素頻度を基準とする選択方法とＴｒｉｐｈｏｎｅの頻度を基準とする選択方法を用いて追加した。選択する発話数は１００００発話を上限とし、各基準で最適なデータ量を追加することとし、ベースライン音響モデルと同条件で音響モデルを構築した。

そして、評価実験では、ブラジルポルトガル語の旅行会話基本文音声データを用いた。また、この音声データは、話者１５名であり、各話者が約５００発話の旅行会話表現を発声したデータである。言語モデルは、旅行会話基本文約１６万文を用いて作成した多重クラス複合ｂｉｇｒａｍモデル（H.Yamamoto et alt., Speeech Communication,vol.41, 369-379, 2003.参照）および単語ｔｒｉｇｒａｍモデルを用いた。デコーダは、自組織で開発した音声認識エンジンを利用した。ベースライン音響モデルによる単語誤り率は３０．４７％であった。一方、音響モデル学習装置１における音響モデルの構築法（以下、本手法）による認識性能は、図６の通りとなった。いずれの音素マッピングを用いた場合でも、本手法は、ベースライン音響モデルによる方法に比べ性能が改善している。さらに、本認識実験により提案する音素の置換率を用いることにより、ＩＰＡを基準とした音素の対応付けを行う手法に比べ認識率が改善することを確認した。特に、ＰＦＰを、選択方法を用いて作成した音響モデルが最も高い性能を示している。

以上、本実施の形態によれば、言語の音響モデルを効率よく学習できる。特に、ポルトガル語、スワヒリ語など、他の言語と比較して、多数の人が使用していないマイナーな言語の音響モデルを効率よく学習できる。

また、本実施の形態によれば、音素頻度を考慮し、低頻度の音素に対してだけ、他言語データの音声を学習データとして利用するため、数多くの言語の音響モデルを効率よく構築できる。また、十分に学習データのある言語について、他言語の音響的な違いによる影響が出ない。特に、音声データが十分に用意できない場合や、音声データは豊富にあっても音素の出現頻度が考慮されていない場合でも、音素ごとに出現頻度に応じて他の言語の音声を追加することにより、音響モデルの性能を向上させることができる。

また、本実施の形態において、認識結果が一意に定まることを前提として説明したが、複数の候補が参照可能な音声認識システムを用いる場合には、上位候補として出力された場合に置換したと判断しても良い。

また、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。

また、図７は、本明細書で述べた音響モデル学習装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図２１は、このコンピュータシステム３４０の概観図であり、図８は、コンピュータシステム３４０の内部構成を示す図である。

図７において、コンピュータシステム３４０は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２を含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４とを含む。

図８において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２に加えて、ＭＰＵ３４１３と、ＣＤ−ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３４１５とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３４０に、上述した実施の形態の音響モデル学習装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ−ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３４１に、上述した実施の形態の音響モデル学習装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音響モデル学習装置は、数多くの言語の音響モデルを効率よく構築できる、という効果を有し、音声認識装置等に利用できる音響モデル学習装置として有用である。

１音響モデル学習装置
１１第一音響モデル格納部
１２第二音響モデル格納部
１３第一発音辞書
１４第二音素関連情報選択部
１５仮第一単語発音情報構成部
１６受付部
１７音声認識部
１８置換数情報取得部
１９新第一音素関連情報構成部
２０蓄積部
１５１学習数取得手段
１５２仮第一単語発音情報構成手段

Claims

第一言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた１以上の第一音素関連情報を格納し得る第一音響モデル格納部と、
第二言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた１以上の第二音素関連情報を格納し得る第二音響モデル格納部と、
第一言語の単語と当該単語の音素識別子列とを対応付けた１以上の第一単語発音情報を格納し得る第一発音辞書と、
前記第二音響モデル格納部から、前記第二言語の音素識別子列を含む第二音素関連情報を選択する第二音素関連情報選択部と、
前記第一単語発音情報から、前記第一単語発音情報が有する音素識別子列に含まれる音素識別子を、前記第二音素関連情報選択部が選択した音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成部と、
第一言語の単語の１以上の音声を受け付ける受付部と、
前記第一音響モデル格納部に格納されている１以上の第一音素関連情報と前記第二音素関連情報選択部が選択した第二言語の第二音素関連情報、および前記第一発音辞書に格納されている１以上の第一単語発音情報に前記仮第一単語発音情報を加えた仮第一発音辞書を用いて、前記受付部が受け付けた１以上の音声に対して、音声認識処理を行い、音素識別子列を含む１以上の認識結果を取得する音声認識部と、
前記１以上の認識結果から、前記仮第一単語発音情報が得られた数に関する情報である置換数情報を取得する置換数情報取得部と、
前記置換数情報が予め決められた条件を満たすほど大きい場合に、前記第二音素関連情報選択部が選択した前記第二言語の第二音素関連情報が有する音素情報と、前記置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新第一音素関連情報を構成する新第一音素関連情報構成部と、
前記新第一音素関連情報を前記第一音響モデル格納部に蓄積する蓄積部とを具備する音響モデル学習装置。
前記仮第一単語発音情報構成部は、
前記第一音響モデル格納部に格納されている１以上の第一音素関連情報から、前記第一言語の各音素識別子に対応する音素情報の数である学習数を取得する学習数取得手段と、
前記第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど前記学習数の少ない音素の音素識別子のみ、前記第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成手段とを具備する請求項１記載の音響モデル学習装置。
記録媒体は、
第一言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた１以上の第一音素関連情報を格納し得る第一音響モデル格納部と、
第二言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた１以上の第二音素関連情報を格納し得る第二音響モデル格納部と、
第一言語の単語と当該単語の音素識別子列とを対応付けた１以上の第一単語発音情報を格納し得る第一発音辞書とを具備し、
第二音素関連情報選択部、仮第一単語発音情報構成部、受付部、音声認識部、置換数情報取得部、新第一音素関連情報構成部、および蓄積部とにより実現される音響モデル学習方法であって、
前記第二音素関連情報選択部が、前記記録媒体から、前記第二言語の音素識別子列を含む第二音素関連情報を選択する第二音素関連情報選択ステップと、
前記仮第一単語発音情報構成部が、前記第一単語発音情報から、前記第一単語発音情報が有する音素識別子列に含まれる音素識別子を、前記第二音素関連情報選択ステップで選択された音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成ステップと、
前記受付部が、第一言語の単語の１以上の音声を受け付ける受付ステップと、
前記音声認識部が、前記記録媒体に格納されている１以上の第一音素関連情報と前記第二音素関連情報選択ステップで選択された第二言語の第二音素関連情報、および前記第一発音辞書に格納されている１以上の第一単語発音情報に前記仮第一単語発音情報を加えた仮第一発音辞書を用いて、前記受付部が受け付けた１以上の音声に対して、音声認識処理を行い、音素識別子列を含む１以上の認識結果を取得する音声認識ステップと、
前記置換数情報取得部が、前記１以上の認識結果から、前記仮第一単語発音情報が得られた数に関する情報である置換数情報を取得する置換数情報取得ステップと、
前記新第一音素関連情報構成部が、前記置換数情報が予め決められた条件を満たすほど大きい場合に、前記第二音素関連情報選択ステップで選択された前記第二言語の第二音素関連情報が有する音素情報と、前記置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新第一音素関連情報を構成する新第一音素関連情報構成ステップと、
前記蓄積部が、前記新第一音素関連情報を記録媒体に蓄積する蓄積ステップとを具備する音響モデル学習方法。
前記仮第一単語発音情報構成ステップは、
前記記録媒体に格納されている１以上の第一音素関連情報から、前記第一言語の各音素識別子に対応する音素情報の数である学習数を取得する学習数取得ステップと、
前記第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど前記学習数の少ない音素の音素識別子のみ、前記第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成ステップとを具備する請求項３記載の音響モデル学習方法。