JP6350935B2

JP6350935B2 - 音響モデル生成装置、音響モデルの生産方法、およびプログラム

Info

Publication number: JP6350935B2
Application number: JP2014039028A
Authority: JP
Inventors: 雅弘西光; 繁樹松田; 堀　智織; 智織堀; 亮輔磯谷; 山本　仁; 山本　　仁
Original assignee: NEC Corp; National Institute of Information and Communications Technology
Current assignee: NEC Corp; National Institute of Information and Communications Technology
Priority date: 2014-02-28
Filing date: 2014-02-28
Publication date: 2018-07-04
Anticipated expiration: 2034-02-28
Also published as: JP2015161927A

Description

本発明は、音声認識処理に利用する音響モデルを生成する音響モデル生成装置等に関するものである。

従来、対象言語の音響モデルが存在しない場合において、教師なし音響モデル学習法の技術があった（例えば、非特許文献１参照）。

非特許文献１に示された技術は、対象言語では他言語の音響モデルを用いて得られる複数の認識結果から、一致する箇所を教師ラベルとして抽出し、音響モデルを学習するものであった（図１５参照）。

図１５において、従来技術は、対象言語の音声データ６０１に対して、日本語の音響モデル６０２１を用いて、音声認識処理６０３を行い、教師ラベル付きの音声データを取得する。また、音声データ６０１に対して、中国語の音響モデル６０２２を用いて、音声認識処理６０３を行い、教師ラベル付きの音声データを取得する。さらに、音声認識部は、音声データ６０１に対して、インドネシア語の音響モデル６０２３を用いて、音声認識処理６０３を行い、教師ラベル付きの音声データ６０４を取得する。

次に、教師ラベル付きの音声データについて、同じ教師ラベルが２以上付された教師ラベル付き音声データを、各言語に対応付けて取得する。以上の処理により、各言語に対応付けて、教師ラベル付きの音声データ６０４が得られる。なお、教師ラベル付きの音声データ６０４は、日本語、中国語、インドネシア語の各言語ごとに存在する。

次に、各言語ごとに得られた教師ラベル付きの音声データ６０４と他言語の音響モデル６０２とを用いて、音響モデルの適応処理を行い、対象言語の音響モデルを得る。なお、音響モデルの適応処理とは、他言語の音響モデル６０２と、教師ラベル付きの音声データ６０４とを用いて、音響モデルを生成する処理である。また、音響モデルの適応処理は公知技術である。

従来技術において、他言語音響モデルの学習音声と対象言語音声が共に読み上げ音声の時等は、教師あり学習に近い音響モデルを構築可能であった。

N.T.Vu et al.,"Cross-language bootstrapping based on completely unsupervised training using multilingual A-stabil.",ICASSP,2011.

しかしながら、従来技術においては、旧音響モデル（上記の例では、日本語、中国語、インドネシア語の音響モデル）の属性または旧音響モデルの学習音声が取得された属性と、対象言語音声データ（例えば、ネパール語の音声データ）が取得された属性とが大きく異なる場合、対象言語の適切な音響モデルを学習できなかった。なお、上記の属性が異なる場合とは、例えば、言語が異なる場合、発話スタイルの相違がある場合（例えば、読み上げ音声と会話の音声等の場合）、雑音の有無や程度が異なる場合等である。つまり、属性とは、音声に対応する言語に関する情報（言語の種類、言語の特性等）、音声が取得される環境に関する情報等である。また、属性とは、言語、発話スタイル、雑音の有無、雑音の程度、環境の違い等のいずれか一つ以上である。なお、属性は、必ずしも上記の例とは限らない。

本発明は、上記課題に鑑みて発明されたものであり、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声データの属性または対象言語音声データが取得された属性とが大きく異なる場合でも、適切な音響モデルを学習することを目的とする。

本第一の発明の音響モデル生成装置は、属性が異なるＮ（Ｎは２以上の自然数）の音響モデルであるＮの旧音響モデルを格納し得る第一格納部と、対象言語の１以上の音声データを受け付ける受付部と、１以上の各音声データに対して、Ｎの各旧音響モデルを用いて、Ｎの属性ごとに、１以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、Ｎの属性のうち、Ｍ_１（Ｍ_１は２以上の自然数）以上の属性に対して、同一の教師ラベルを音声認識部が付与した場合、同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、Ｎ以下の各属性の新しい音響モデルであるＮ以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部とを具備し、音声認識部は、受付部が受け付けた１以上の各音声データに対して、第一音響モデル学習部が取得したＮ以下の各新音響モデルを用いて、Ｎ以下の属性ごとに、１以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、データ取得部は、第二の音声認識処理の結果、Ｎ以下の属性のうち、Ｍ_２（Ｍ_２は２以上の自然数）以上の属性に対して、同一の教師ラベルを音声認識部が付与した場合、同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部とを具備する音響モデル生成装置である。

かかる構成により、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声データの属性または対象言語音声データが取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる。

また、本第二の発明の音響モデル生成装置は、第一の発明に対して、データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと旧音響モデルとを用いて、Ｎ以下の属性ごとに音響モデルの適応処理を行い、Ｎ以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部をさらに具備し、適応処理部が行う適応処理、音声認識部が行う、更新された旧音響モデルを使用した第一の音声認識処理、データ取得部が行う第一のデータ取得処理、第一音響モデル学習部が行う第一の学習処理、音声認識部が行う、第二の音声認識処理、およびデータ取得部が行う、第二のデータ取得処理からなる一連処理を、１または２回以上繰り返して行い、第二音響モデル学習部は、データ取得部が最後に取得した同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う音響モデル生成装置である。

かかる構成により、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声データの属性または対象言語音声データが取得された属性とが大きく異なる場合でも、より適切な音響モデルを学習できる。

また、本第三の発明の音響モデル生成装置は、第二の発明に対して、データ取得部が取得した音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さくなるまで、一連処理を繰り返す音響モデル生成装置である。

かかる構成により、適切に音響モデルの学習処理を終了できる。

また、本第四の発明の音響モデル生成装置は、第一から第三いずれかの発明に対して、第一のデータ取得処理におけるＭ_１と第二のデータ取得処理におけるＭ_２とが異なる数値である、または２回以上繰り返される第一のデータ取得処理におけるＭ_１が異なる数値である音響モデル生成装置である。

かかる構成により、柔軟な条件により、音響モデルを学習できる。

また、本第五の発明の音響モデル生成装置は、第一から第四いずれかの発明に対して、属性は、言語、発話スタイル、雑音の有無や程度、環境の違い等のいずれか一つ以上である、音響モデル生成装置である。

かかる構成により、旧音響モデルの属性はまた旧音響モデルの学習音声が取得された属性と、対象言語音声データの属性または対象言語音声データが取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる。

本発明による音響モデル生成装置によれば、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声が取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる。

本発明の実施の形態１における音響モデル生成装置１のブロック図同音響モデル生成装置１の動作について説明するフローチャート同第一の音声認識処理について説明するフローチャート同第一のデータ取得処理について説明するフローチャート同第一の学習処理について説明するフローチャート同第二の音声認識処理について説明するフローチャート同第二のデータ取得処理について説明するフローチャート同第二の学習処理について説明するフローチャート同音響モデル生成装置１の動作の概念を示す図同音響モデル生成装置１の動作の概念を示す図同教師ラベル生成実験の結果を示す図同音声認識実験の結果を示す図同コンピュータシステムの概観図同コンピュータシステムのブロック図従来技術の動作の概念を示す図

以下、音響モデル生成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）

本実施の形態において、音声認識の対象言語の音響モデルを生成する音響モデル生成装置について説明する。

また、本実施の形態において、主として、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声の属性または対象言語音声が取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる音響モデル生成装置について説明する。

図１は、本実施の形態における音響モデル生成装置１のブロック図である。

音響モデル生成装置１は、第一格納部１１、第二格納部１２、受付部１３、音声認識部１４、データ取得部１５、第一音響モデル学習部１６、適応処理部１７、第二音響モデル学習部１８、制御部１９、蓄積部２０を備える。

第一格納部１１は、属性が異なるＮ（Ｎ個と言っても良い）の旧音響モデルを格納し得る。なお、Ｎは２以上の自然数である。また、旧音響モデルは、それぞれ属性が異なる旧音響モデルである。旧音響モデルは、例えば、対象言語とは異なる言語である他言語の音響モデルである。Ｎの旧音響モデルは、例えば、それぞれ異なる言語である他言語の音響モデルである。また、旧音響モデルは、例えば、元になる音声の取得環境が異なる音響モデルである。取得環境とは、雑音の有無や程度、読み上げ音声か会話の音声か等である。また、対象言語とは、音声認識を行う対象の言語である。対象言語は、例えば、音響モデルが存在しない言語であることは好適である。また、他言語は、音響モデルが存在する言語である。また、対象言語は、例えば、ネパール語である。さらに、他言語は、例えば、日本語、中国語、英語、韓国語、フランス語、インドネシア語等である。

なお、音響モデルとは、音声認識を行う音声の音響的特徴をモデル化したものであり、例えば、隠れマルコフモデル（ＨＭＭ）を用い、ＨＭＭの各状態の出力確率分布をガウス混合分布（ＧＭＭ）で表現する。音響モデルの持つ情報（パラメータ）には、例えば、音素等のシンボル毎のＨＭＭの状態間の状態遷移確率、各状態のＧＭＭにおけるガウス分布の平均、分散がある。通常、音声認識では音声認識を行う特徴ベクトルとして、音声を周波数解析し得られる数十〜数百次元の特徴ベクトルを用いることが一般的であるので、ガウス分布の平均、分散は数十〜数百次元のベクトルとなる。

第二格納部１２は、対象言語の学習結果である対象言語の音響モデルが格納される。

受付部１３は、対象言語の１以上の音声データを受け付ける。ここで、受け付けとは、マイクからの受け付け、記録媒体からの読み出し、ウェブサーバ等の外部装置からの受信等を含む概念である。音声データの入力手段は、マイクとそのデバイスドライバーや、受信手段等で実現され得る。

音声認識部１４は、第一の音声認識処理を行う。第一の音声認識処理とは、受付部１３が受け付けた１以上の各音声データに対して、Ｎの各旧音響モデルを適用し、Ｎの属性ごとに、１以上の各音声データに教師ラベルを付与する処理である。なお、Ｎの各旧音響モデルは、第一格納部１１に格納されている。また、音響モデルを適用し、音声データに教師ラベルを付与する音声認識処理は公知技術であるので詳細な説明を省略する。なお、教師ラベルとは、通常、音素である。また、「Ｎの属性ごとに」とは、「Ｎの旧音響モデルごとに」と同様の意味である。なお、第一の音声認識処理は、受付部１３が受け付けた１以上の各音声データに対して、Ｎ以下の任意の数の各旧音響モデルを適用し、Ｎ以下の属性ごとに、１以上の各音声データに教師ラベルを付与する処理でも良い。

また、この音声認識部１４は、第二の音声認識処理も行う。第二の音声認識処理とは、受付部１３が受け付けた１以上の各音声データに対して、第一音響モデル学習部１６が取得したＮの各新音響モデルを適用し、Ｎの属性ごとに、１以上の各音声データに教師ラベルを付与する。なお、「Ｎの属性ごとに」とは、「Ｎの新音響モデルごとに」と同様の意味である。また、第二の音声認識処理は、受付部１３が受け付けた１以上の各音声データに対して、第一音響モデル学習部１６が取得したＮ以下の任意の数の各他言語新音響モデルを適用し、Ｎ以下の他言語ごとに、１以上の各音声データに教師ラベルを付与する処理でも良い。

データ取得部１５は、第一のデータ取得処理を行う。第一のデータ取得処理とは、Ｎの属性のうち、Ｍ_１以上の属性に対して、同一の教師ラベルを音声認識部１４が付与した場合、当該同一の教師ラベルを付与された音声データを取得する処理である。なお、Ｍ_１は２以上の自然数である。ここで、「Ｍ_１以上の属性に対して」とは、「Ｍ_１以上の旧音響モデルに対して」と同じ意味である。また、Ｍ_１は、Ｎと一致する数値でも良い。また、第一のデータ取得処理とは、Ｎ以下の属性のうち、Ｍ_１以上の属性に対して、同一の教師ラベルを音声認識部１４が付与した場合、当該同一の教師ラベルを付与された音声データを取得する処理でも良い。

「Ｎ＝２」の場合、データ取得部１５は、２つの旧音響モデルを用いて、音声認識された結果である、２つの教師ラベル付きの音声データのうち、同一の教師ラベルを付与された音声データのみを取得する。

「Ｎ＝３」の場合、データ取得部１５は、３つの旧音響モデルを用いて、音声認識された結果である、３つの教師ラベル付きの音声データのうち、例えば、２つの音声データに付与された教師ラベルが同じである教師ラベル付きの音声データのみを取得する。

また、この「Ｎ＝３」の場合、データ取得部１５は、３つの旧音響モデルを用いて、音声認識された結果である、３つの教師ラベル付きの音声データのうち、例えば、すべての音声データに付与された教師ラベルが同じである教師ラベル付きの音声データのみを取得しても良い。

また、「Ｎ＝５」の場合、データ取得部１５は、５つの旧音響モデルを用いて、音声認識された結果である、５つの教師ラベル付きの音声データのうち、例えば、３つの音声データに付与された教師ラベルが同じである教師ラベル付きの音声データを、対応する３つの属性の教師ラベル付きの音声データとして取得する。また、データ取得部１５は、５つの教師ラベル付きの音声データのうち、例えば、残る２つの音声データに付与された教師ラベルが同じである教師ラベル付きの音声データを、対応する２つの属性の教師ラベル付きの音声データとして取得しても良い。

また、データ取得部１５は、第二のデータ取得処理も行う。第二のデータ取得処理とは、第二の音声認識処理の結果、Ｎの属性のうち、Ｍ_２（Ｍ_２は２以上の自然数）以上の属性に対して、同一の教師ラベルを音声認識部１４が付与した場合、当該同一の教師ラベルを付与された音声データを取得する処理である。ここで、「Ｍ_２以上の属性に対して」とは、「Ｍ_２以上の新音響モデルに対して」と同じ意味である。

Ｍ_２は、Ｍ_１と同じでも良いし、異なっていても良い。また、２回以上繰り返される第一のデータ取得処理におけるＭ_１が異なる数値であっても良い。つまり、繰り返しの処理において、データ取得部１５が教師ラベル付き音声データを取得する条件が変化しても良い。

第一音響モデル学習部１６は、第一の学習処理を行う。第一の学習処理とは、データ取得部１５が取得した音声データであって、教師ラベルを付与された音声データを用いて、Ｎの属性ごとに、音響モデルの学習を行い、Ｎの各属性の新しい音響モデルであるＮの新音響モデルを取得する処理である。ここで、「Ｎの属性ごと」とは、「Ｎの旧音響モデルごと」または「Ｎの新音響モデルごと」と同じ意味である。なお、第一音響モデル学習部１６は、例えば、取得したＮの新音響モデルを第一格納部１１、または図示しないバッファに一時蓄積する。また、教師ラベルを付与された音声データを用いて音響モデルの学習を行う処理は公知技術であるので、詳細な説明を省略する。また、第一の学習処理は、データ取得部１５が取得した音声データであって、教師ラベルを付与された音声データを用いて、Ｎ以下の任意の数の属性ごとに、音響モデルの学習を行い、Ｎ以下の各属性の新しい音響モデルであるＮ以下の新音響モデルを取得する処理でも良い。

適応処理部１７は、データ取得部１５が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと旧音響モデルとを用いて、Ｎの属性ごとに、適応処理を行う。そして、適応処理部１７は、Ｎの属性ごとに、更新された旧音響モデルを取得する。なお、更新された旧音響モデルは、通常、元の旧音響モデルのパラメータが、取得された同一の教師ラベルを付与された音声データによって、変更されている音響モデルである。また、適応処理の技術は公知技術であるので、詳細な説明を省略する。また、適応処理部１７は、データ取得部１５が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと旧音響モデルとを用いて、Ｎ以下の任意の数の属性ごとに、適応処理を行っても良い。

第二音響モデル学習部１８は、第二の学習処理を行う。第二の学習処理とは、同一の教師ラベルを付与された音声データを用いて、Ｎの属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する処理である。また、第二の学習処理は、同一の教師ラベルを付与された音声データを用いて、Ｎ以下の任意の数の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する処理でも良い。

また、第二の学習処理とは、データ取得部１５が最後に取得した同一の教師ラベルを付与された音声データを用いて、Ｎの属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する処理である。また、第二の学習処理は、データ取得部１５が最後に取得した同一の教師ラベルを付与された音声データを用いて、Ｎ以下の任意の数の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する処理でも良い。

制御部１９は、以下の（１）から（６）からなる処理である一連処理を、１回、または２回以上繰り返して行うことを、対応する構成要素に指示する。なお、対応する構成要素とは、適応処理部１７、音声認識部１４、データ取得部１５、第一音響モデル学習部１６である。
（１）適応処理部１７が行う適応処理
（２）音声認識部１４が行う第一の音声認識処理であり、適応処理の結果、更新された旧音響モデルを使用した第一の音声認識処理
（３）データ取得部１５が行う第一のデータ取得処理
（４）第一音響モデル学習部１６が行う第一の学習処理
（５）音声認識部１４が行う第二の音声認識処理
（６）データ取得部１５が行う第二のデータ取得処理

制御部１９は、データ取得部１５が取得した音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さくなるまで、一連処理を繰り返すように、対応する構成要素に指示する。なお、予め決められた条件は、種々あり得る。予め決められた条件は、一連処理の１回のループにおける教師ラベルの増加量だけをパラメータとする条件でも良いし、一連処理の２回以上のループにおける教師ラベルの増加量をパラメータとする条件等でも良い。制御部１９は、例えば、一連処理を停止する閾値（Ｘ）を格納している。そして、制御部１９は、例えば、データ取得部１５が取得した、当該音声データに付されている教師ラベルの量がＸ以下、またはＸ未満であると判断した場合、一連処理を停止させる。

蓄積部２０は、第二音響モデル学習部１８が取得した対象言語の音響モデルを、第二格納部１２に蓄積する。

また、蓄積部２０は、第二音響モデル学習部１８が最後に取得した音響モデルを、第二格納部１２に蓄積する。

第一格納部１１、第二格納部１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

第一格納部１１等に音響モデル等が記憶される過程は問わない。例えば、記録媒体を介して音響モデル等が第一格納部１１で記憶されるようになってもよく、通信回線等を介して送信された音響モデル等が第一格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された音響モデル等が第一格納部１１等で記憶されるようになってもよい。

音声認識部１４、データ取得部１５、第一音響モデル学習部１６、第二音響モデル学習部１８、制御部１９、蓄積部２０は、通常、ＭＰＵやメモリ等から実現され得る。音声認識部１４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音響モデル生成装置１の動作について、図２のフローチャートを用いて説明する。

（ステップＳ２０１）受付部１３は、対象言語の音声データを取得する。

（ステップＳ２０２）音声認識部１４は、ステップＳ２０１で取得された音声データに対して、第一の音声認識処理を行う。なお、第一の音声認識処理について、図３のフローチャートを用いて説明する。

（ステップＳ２０３）データ取得部１５は、ステップＳ２０２における第一の音声認識処理の結果を用いて、第一のデータ取得処理を行う。なお、第一のデータ取得処理について、図４のフローチャートを用いて説明する。

（ステップＳ２０４）第一音響モデル学習部１６は、ステップＳ２０３で取得されたデータであり、教師ラベル付きの音声データを用いて、第一の学習処理を行う。なお、第一の学習処理について、図５のフローチャートを用いて説明する。

（ステップＳ２０５）受付部１３は、対象言語の音声データを取得する。

（ステップＳ２０６）音声認識部１４は、ステップＳ２０５で取得された音声データに対して、第二の音声認識処理を行う。なお、第二の音声認識処理について、図６のフローチャートを用いて説明する。

（ステップＳ２０７）データ取得部１５は、ステップＳ２０６における第二の音声認識処理の結果を用いて、第二のデータ取得処理を行う。なお、第二のデータ取得処理について、図７のフローチャートを用いて説明する。

（ステップＳ２０８）制御部１９は、最終的な対象言語の音響モデルの学習処理に移行するか否かを判断する。移行する場合はステップＳ２０９に行き、移行しない場合はステップＳ２１０に行く。なお、学習処理に移行するか否かの判断とは、一連処理を終了するか否かの判断でも良い。制御部１９は、例えば、ステップＳ２０７でデータ取得部１５が取得し音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さいと判断した場合、最終的な対象言語の音響モデルの学習処理に移行する、と判断する。

（ステップＳ２０９）第一音響モデル学習部１６は、ステップＳ２０７で取得された教師ラベル付きの音声データを用いて、第二の学習処理を行い、処理を終了する。なお、第二の学習処理について、図８のフローチャートを用いて説明する。

（ステップＳ２１０）学習処理に移行しない場合、適応処理部１７は、データ取得部１５が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと旧音響モデルとを用いて、Ｎの他言語ごとに、適応処理を行う。そして、適応処理部１７は、Ｎの他言語ごとに、音響モデルを取得する。これらの音響モデルは、更新された旧音響モデルである。この処理が完了すると、ステップＳ２０１に戻る。

なお、図２のフローチャートにおいて、ステップＳ２０８、ステップＳ２１０が無く、ステップＳ２０７の次に、ステップＳ２０９を実行しても良い。

次に、ステップＳ２０２の第一の音声認識処理について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）音声認識部１４は、カウンタｉに１を代入する。

（ステップＳ３０２）音声認識部１４は、「ｉ＜＝Ｎ」を満たすか否かを判断する。「ｉ＜＝Ｎ」を満たす場合はステップＳ３０３に行き、「ｉ＜＝Ｎ」を満たさない場合は上位処理にリターンする。なお、Ｎは、属性（例えば、他言語）の数であり、旧音響モデルの数である。

（ステップＳ３０３）音声認識部１４は、ｉ番目の属性の音響モデルを用いて、対象言語の音声データに対して、音声認識処理を行う。ここで、音響モデルは、第一格納部１１に格納されているｉ番目の旧音響モデル、または適応処理の結果得られたｉ番目の音響モデルである。

（ステップＳ３０４）カウンタｉを１、インクリメントし、ステップＳ３０２に戻る。

なお、図３のフローチャートにおいて、ｉがＮに到達する前に上位処理にリターンするようにしても良い。

次に、ステップＳ２０３の第一のデータ取得処理について、図４のフローチャートを用いて説明する。

（ステップＳ４０１）データ取得部１５は、カウンタｊに１を代入する。

（ステップＳ４０２）データ取得部１５は、処理対象の音声データの中に、ｊ番目の処理単位が存在するか否かを判断する。ｊ番目の処理単位が存在すればステップＳ４０３に行き、ｊ番目の処理単位が存在しなければ上位処理にリターンする。なお、処理単位とは、同一の教師ラベルが付与されているか否かを判断する音声認識結果であり、単語が好適であるが、一音素、文等の他のデータの単位でも良い。

（ステップＳ４０３）データ取得部１５は、ｊ番目の処理単位において、同一の教師ラベルが付与されている音声データの数を取得する。なお、同一の教師ラベルが付与されている音声データの数は、２以上、取得される場合もある。例えば、「Ｎ＝５」で、３つの属性の旧音響モデルを適用して取得された教師ラベル付きの音声データの教師ラベルが同じで、他の２つの属性の旧音響モデルを適用して取得された教師ラベル付きの音声データの教師ラベルが同じである場合、同一の教師ラベルが付与されているデータの数は「３」と「２」である。また、同一の教師ラベルが付与されているデータが存在しない場合、同一の教師ラベルが付与されている音声データの数は、例えば、「０」または「１」である、とする。また、例えば、処理単位が単語であり、単語に複数の教師ラベルが付与されている場合、データ取得部１５は、通常、すべての教師ラベルが一致する場合に、同一の教師ラベルが付与されていると判断する。

（ステップＳ４０４）データ取得部１５は、ステップＳ４０３で取得した１以上のそれぞれの数が、予め決められた条件に合致するか否かを判断する。予め決められた条件に合致する場合はステップＳ４０５に行き、合致しない場合はステップＳ４０６にジャンプする。

（ステップＳ４０５）データ取得部１５は、予め決められた条件に合致する数に対応する、同一の教師ラベルが付与されている音声データを取得する。そして、データ取得部１５は、同一の教師ラベルが付与されている各音声データを、各属性に対応付けて、一時蓄積する。なお、属性に対応付けることは、例えば、旧音響モデル等に対応付けることと同じ意義である、とする。また、データ取得部１５は、２種類以上の、同一の教師ラベルが付与されている音声データを取得する場合もある。２種類以上とは、上記の「Ｎ＝５」の場合であれば、同一の教師ラベルが「３」に対応するものと、「２」に対応するものである。

（ステップＳ４０６）データ取得部１５は、カウンタｊを１、インクリメントし、ステップＳ４０２に戻る。

なお、図４のフローチャートのステップＳ４０５において、例えば、「Ｎ＝５」で、３つの属性の旧音響モデルを適用して取得された教師ラベル付きの音声データの教師ラベルが同じで、かつ他の２つの属性の旧音響モデルを適用して取得された教師ラベル付きの音声データの教師ラベルが同じである場合、データ取得部１５は、同一の教師ラベルが付与されている３つの教師ラベル付き音声データを、当該３つの各属性に対応付けて取得し、同一の教師ラベルが付与されている２つの教師ラベル付き音声データを、当該２つの各属性に対応付けて取得しても良い。

次に、ステップＳ２０４の第一の学習処理について、図５のフローチャートを用いて説明する。

（ステップＳ５０１）第一音響モデル学習部１６は、カウンタｉに１を代入する。

（ステップＳ５０２）第一音響モデル学習部１６は、「ｉ＜＝Ｎ」であるか否かを判断する。「ｉ＜＝Ｎ」であればステップＳ５０３に行き、「ｉ＜＝Ｎ」でなければ上位処理にリターンする。

（ステップＳ５０３）第一音響モデル学習部１６は、ｉ番目の属性について、データ取得部１５が取得した教師ラベル付きの音声データを用いて、音響モデルの学習を行い、ｉ番目の新音響モデルを取得する。そして、第一音響モデル学習部１６は、ｉ番目の新音響モデルを図示しないバッファ、或いは第一格納部１１、または第二格納部１２に一時蓄積する。

（ステップＳ５０４）第一音響モデル学習部１６は、カウンタｉを１、インクリメントし、ステップＳ５０２に戻る。

なお、図５のフローチャートにおいて、ｉがＮに到達する前に上位処理にリターンするようにしても良い。

次に、ステップＳ２０６の第二の音声認識処理について、図６のフローチャートを用いて説明する。

（ステップＳ６０１）音声認識部１４は、カウンタｉに１を代入する。

（ステップＳ６０２）音声認識部１４は、「ｉ＜＝Ｎ」を満たすか否かを判断する。「ｉ＜＝Ｎ」を満たす場合はステップＳ６０３に行き、「ｉ＜＝Ｎ」を満たさない場合は上位処理にリターンする。

（ステップＳ６０３）音声認識部１４は、ｉ番目の属性の新音響モデルを用いて、対象言語の音声データに対して、音声認識処理を行う。

（ステップＳ６０４）カウンタｉを１、インクリメントし、ステップＳ６０２に戻る。

なお、図６のフローチャートにおいて、ｉがＮに到達する前に上位処理にリターンするようにしても良い。

次に、ステップＳ２０７の第二のデータ取得処理について、図７のフローチャートを用いて説明する。

（ステップＳ７０１）データ取得部１５は、カウンタｊに１を代入する。

（ステップＳ７０２）データ取得部１５は、処理対象の音声データの中に、ｊ番目の処理単位が存在するか否かを判断する。ｊ番目の処理単位が存在すればステップＳ７０３に行き、ｊ番目の処理単位が存在しなければ上位処理にリターンする。

（ステップＳ７０３）データ取得部１５は、ｊ番目の処理単位において、同一の教師ラベルが付与されている音声データの数を取得する。

（ステップＳ７０４）データ取得部１５は、ステップＳ７０３で取得した数が閾値以上であるか否かを判断する。閾値以上であればステップＳ７０５に行き、閾値以上でなければステップＳ７０６にジャンプする。

（ステップＳ７０５）データ取得部１５は、閾値以上の数の、同一の教師ラベルが付与されている音声データを取得する。そして、データ取得部１５は、同一の教師ラベルが付与されている各音声データを、各属性に対応付けて、一時蓄積する。なお、属性に対応付けることは、例えば、新音響モデルに対応付けることと同じ意義である、とする。

（ステップＳ７０６）データ取得部１５は、カウンタｊを１、インクリメントし、ステップＳ７０２に戻る。

次に、ステップＳ２０９の第二の学習処理について、図８のフローチャートを用いて説明する。

（ステップＳ８０１）第一音響モデル学習部１６は、カウンタｉに１を代入する。

（ステップＳ８０２）第一音響モデル学習部１６は、「ｉ＜＝Ｎ」であるか否かを判断する。「ｉ＜＝Ｎ」であればステップＳ８０３に行き、「ｉ＜＝Ｎ」でなければ上位処理にリターンする。

（ステップＳ８０３）第一音響モデル学習部１６は、ｉ番目の属性について、データ取得部１５が取得した教師ラベル付きの音声データを用いて、音響モデルの学習を行い、ｉ番目の新音響モデルを取得する。そして、第一音響モデル学習部１６は、ｉ番目の新音響モデルを第二格納部１２に一時蓄積する。

（ステップＳ８０４）第一音響モデル学習部１６は、カウンタｉを１、インクリメントし、ステップＳ８０２に戻る。

なお、図８のフローチャートにおいて、ｉがＮに到達する前に上位処理にリターンするようにしても良い。

以下、本実施の形態における音響モデル生成装置１の２つの具体的な動作について説明する。
（具体例１）

音響モデル生成装置１の動作の概念を示す図は、図９である。なお、図９において、ＡＭとは音響モデルのことである。

今、属性は、言語（他言語と言っても良い。）である。つまり、旧音響モデルは、対象言語とは異なる他言語の音響モデルである。また、対象言語は、ネパール語である。また、ネパール語の音響モデルは、例えば、世の中には存在しない、とする。また、音響モデルが存在する他言語は、日本語、中国語、インドネシア語である、とする。つまり、ここでは、変数「Ｎ＝３」である。

第一格納部１１は、図９の１１であり、日本語の音響モデル１１１、中国語の音響モデル１１２、インドネシア語の音響モデル１１３が格納されている。なお、音響モデル１１１、音響モデル１１２、音響モデル１１３は、上述の旧音響モデルである。

そして、図１を参照して音響モデル生成装置１の受付部１３は、ネパール語の音声データ３０１を受け付ける。ネパール語の音声データ３０１は、例えば、図示しないウェブサーバから取得された音声データである。

音声認識部１４は、音声データ３０１に対して、日本語の音響モデル１１１を用いて、音声認識処理を行い、教師ラベル付きの音声データ（図９の３０３１）を取得する。また、音声認識部１４は、音声データ３０１に対して、中国語の音響モデル１１２を用いて、音声認識処理を行い、教師ラベル付きの音声データ（図９の３０３２）を取得する。さらに、音声認識部１４は、音声データ３０１に対して、インドネシア語の音響モデル１１３を用いて、音声認識処理を行い、教師ラベル付きの音声データ（図９の３０３３）を取得する。

次に、データ取得部１５は、教師ラベル付きの音声データの中の各処理単位について、２以上が同じ処理単位を、各言語に対応付けて取得する。以上の処理が、図９の３０２である。

次に、第一音響モデル学習部１６は、日本語に対応付いている教師ラベル付きの音声データを用いて、音響モデルの学習を行う（図９の３０４１）。そして、第一音響モデル学習部１６は、日本語の新音響モデル（図９の３０５１）を取得する。また、第一音響モデル学習部１６は、中国語に対応付いている教師ラベル付きの音声データを用いて、音響モデルの学習を行い（図９の３０４２）、中国語の新音響モデル（図９の３０５２）を取得する。さらに、第一音響モデル学習部１６は、インドネシア語に対応付いている教師ラベル付きの音声データを用いて、音響モデルの学習を行い（図９の３０４３）、インドネシア語の新音響モデル（図９の３０５３）を取得する。

次に、音声認識部１４は、さらに、音声データ３０１に対して、日本語の新音響モデル３０５１を用いて、音声認識処理を行い、教師ラベル付きの音声データ（図９の３０７１）を取得する。また、音声認識部１４は、音声データ３０１に対して、中国語の新音響モデル３０５２を用いて、音声認識処理を行い、教師ラベル付きの音声データ（図９の３０７２）を取得する。さらに、音声認識部１４は、音声データ３０１に対して、インドネシア語の新音響モデル３０５３を用いて、音声認識処理を行い、教師ラベル付きの音声データ（図９の３０７３）を取得する。

次に、データ取得部１５は、教師ラベル付きの音声データの中の各処理単位について、２以上が同じ処理単位を、各言語に対応付けて取得する。

次に、適応処理部１７は、日本語に対応する教師ラベル付きの音声データ（図９の３０７１）と日本語の旧音響モデル１１１とを用いて、適応処理を行い、更新された日本語の旧音響モデルを取得する。また、適応処理部１７は、中国語に対応する教師ラベル付きの音声データ（図９の３０７２）と中国語の旧音響モデル１１２とを用いて、適応処理を行い、更新された中国語の旧音響モデルを取得する。さらに、適応処理部１７は、インドネシア語に対応する教師ラベル付きの音声データ（図９の３０７３）とインドネシア語の旧音響モデル１１３とを用いて、適応処理を行い、更新されたインドネシア語の旧音響モデルを取得する。

そして、音声認識部１４は、更新された各言語の旧音響モデルを用いて、再度、対象言語の音声データに対して、音声認識処理を行う。そして、音声認識部１４は、他言語ごとに、教師ラベル付きの音声データを得る。

次に、第一音響モデル学習部１６は、他言語ごとに、データ取得部１５が取得した教師ラベル付きの音声データを用いて、音響モデルの学習を行う。そして、第一音響モデル学習部１６は、他言語ごとに、新音響モデルを取得する。

次に、音声認識部１４は、他言語ごとに、新音響モデルを用いて、対象言語の音声データに対して、音声認識処理を行い、他言語ごとに、教師ラベル付きの音声データを取得する。

次に、制御部１９は、最終的な対象言語の音響モデルの学習処理に移行するか否かを判断する。つまり、制御部１９は、データ取得部１５が取得した音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さいか否かを判断する。

そして、制御部１９が小さいと判断した場合は、第一音響モデル学習部１６は、他言語ごとに、最後に得られた教師ラベル付きの音声データを用いて、第二の学習処理（３０８１，３０８２，３０８３）を行う。そして、第一音響モデル学習部１６は、対象言語の音響モデル３０９を得る。なお、対象言語の音響モデル３０９は、通常、第一音響モデル学習部１６が他言語ごとに得た音響モデルの集合（３０９１，３０９２，３０９３）である。

また、制御部１９が教師ラベルの量が予め決められた条件を満たすほど小さくないと判断した場合は、上述した一連処理を、制御部１９が小さいと判断するまで繰り返す。
（具体例２）

具体例２における、音響モデル生成装置１の動作の概念を示す図は図１０である。本具体例における、音響モデル生成装置１の音響モデル生成方法を含む本発明法は、大きく４つのステップで構成される。なお、４つのステップのうち、本発明法はＳＴＥＰ０を含まなくても良い。

まず、音響モデルを構築する言語（「対象言語」と呼ぶ）とは異なる他言語の音声データに基づく音響モデルを準備する（ＳＴＥＰ０）。発明法では、他言語の音響モデルを学習するための学習データを対象言語の音素へマッピングし、対象言語の音素セットで再学習した音響モデルを用いる。具体的には、対象言語の音素へマッピングした複数の他言語の音声データを用いて、対象言語の音素セットを持つ初期音響モデル（ＭＩＸ０）を学習する。

さらに、この対象言語初期音響モデル（ＭＩＸ０）を各他言語の特性を持つ音響モデルとするため、この音響モデル（ＭＩＸ０）を、対象言語の音素へマッピングした他言語の各データを用いてＭＡＰ適応し、対象言語の音素セットを持つ他言語初期音響モデルを生成する（ｉｎｉｔｉａｌＡＭ）。なお、他言語初期音響モデルは、上述した旧音響モデルと同じである。そして、このように作成した他言語初期音響モデルは、各他言語の音響的特徴を持つと同時に、各他言語だけでは包含困難な対象言語の音響的特徴を各他言語間で補完しているため、各他言語と対象言語において言語が異なることによる音素セットの違いや、同一の国際音声記号（ＩＰＡ）（インターネットＵＲＬ：「http://www.langsci.ucl.ac.uk/ipa/」参照）を持つ音素における言語毎の音響的特徴の違いについても柔軟にモデル化されている。これにより、従来法と比べ、精度良い教師ラベルを生成することが可能となる。

次に、ＳＴＥＰ０で構築した各他言語初期音響モデルを用いて、対象言語Ｗｅｂ音声を認識し、それら認識結果から教師ラベルを生成する（ＳＴＥＰ１）。音響モデルを学習するための教師ラベルは、従来法（非特許文献１等参照）と同様、対象言語とは異なる複数の他言語初期音響モデルを用いて、対象言語Ｗｅｂ音声を認識し、それら複数の認識結果から抽出する。なお、対象言語Ｗｅｂ音声は、対象言語の音声データの例である。

具体的には、"Multi-lingual A-stabil"（「N. T. Vu et al., "Multilingual A-STABIL:A new confidence score for multilingual unsupervised training.", SLT, 2010.」参照）と呼ばれる信頼度に基づき、ある他言語の音響モデルを用いて対象言語Ｗｅｂ音声を認識し得られる第一位認識結果を教師ラベル候補とし、その教師ラベル候補の中から、ある他言語とは異なる他言語の認識結果においても同じ認識結果となる単語を教師ラベルとする。

従来法は、このＳＴＥＰ１で得られる教師ラベルを用いて、他言語初期音響モデルをＭＡＰ適応する（STEP1_x AM）。そして、その適応した他言語音響モデルを用いて、生成される教師ラベルのデータ量の増加が一定以下になるまで、適応、認識および教師ラベル生成を繰り返す。これにより，各他言語初期音響モデルは対象言語音響モデルへと徐々に適応される。

次に，このＳＴＥＰ１で最終的に得られる教師ラベルを用いて、対象言語音響モデル（STEP2_x AM）を学習する。そして、その音響モデルを用いて、対象言語Ｗｅｂ音声を認識し、再度教師ラベルを生成する（ＳＴＥＰ２）。

一方、発明法ではＳＴＥＰ１で生成される教師ラベルでＭＡＰ適応は行わず、対象言語音響モデル（STEP2_x AM）を学習する。そして、その音響モデルを用いて対象言語Ｗｅｂ音声を認識し生成した教師ラベルを用いて、他言語初期音響モデルをＭＡＰ適応する（STEP1_xAM）。

発明法も従来法と同様、発明法のＳＴＥＰ２にて生成される教師ラベルのデータ量の増加が一定以下になるまで、この操作を繰り返す。従来法と発明法の違いは、従来法で生成される教師ラベルを用いて、対象言語音響モデルを学習し、その音響モデルを用いて教師ラベルを再生成する点である。これにより、対象言語Ｗｅｂ音声と、他言語初期音響モデルが大きく異なる場合においても、頑健に教師ラベルを生成することが可能となる。最後に、従来法、発明法のＳＴＥＰ２で生成された教師ラベルを用いて対象言語音響モデル（Final AM）を学習する（ＳＴＥＰ３）。
（実験）

以下、音響モデル生成装置１の実験結果について説明する。

まず、実験条件について説明する。本実験において、ＴＥＤ（インターネットＵＲＬ：「http://www.ted.com/」参照）の英語講演音声をＷｅｂ音声として用い、音響モデル生成装置１の方法である、多言語教師なし音響モデル学習法を評価した。具体的には、ＩＷＳＬＴの評価キャンペーンの学習セットの一部（４０時間）と、開発(ｄｅｖ２０１０) およびテストセット(ｔｓｔ２０１１)を用いた（インターネットＵＲＬ：「http://hltc.cs.ust.hk/iwslt/index.php/evaluation-campaign/ted-task.html#ASRtrack」参照）。また、対象言語とは異なる言語の音声データとして、出願人らが収集した日本語、中国語、インドネシア語の読上げ音声を用いた（「S. Sakti et al, "Indonesian Speech Recognition for Hearing and Speaking Impaired People.", ICSLP, 2004.」「磯谷他,信学論, Vol J96-D, No.1,pp.209-220, 2013.」参照）。また、各音響モデルはＨＴＫ（インターネットＵＲＬ：「http://htk.eng.cam.ac.uk/」参照）およびＫＡＬＤＩ（「D. Povey, et al, "The Kaldi Speech Recognition Toolkit,"in Proc. ASRU, 2011.」参照）を用いて作成した。また、特徴量は、ＭＦＣＣ１２次元とパワー、およびそのΔ、ΔΔの３９次元を採用した。また、音響モデルは、生成される教師ラベルのデータ量に応じて、５００〜１００００状態、４〜１６混合の内で、開発セットに対し最適な状態、混合数で学習した性別非依存トライフォンＨＭＭを用いた。学習方式はＭＬ学習であり、ＭＰＥ等の識別学習は行わなかった。言語間の音素マッピングはＩＰＡに基づいて行った。言語モデルと発音辞書は、ＩＷＳＬＴの評価キャンペーンで提供されているＴＥＤのＷｅｂページから収集可能なテキストとEnglish Gigaword コーパス等を用いて構築した（「H. Yamamoto, et al, "The NICT ASR System for IWSLT2012," IWSLT, 2012.」参照）。本実験では、他言語初期音響モデルを適応する教師ラベルとして、非特許文献１の従来法と、音響モデル生成装置１の発明法を比較した。なお、各ステップで生成される音響モデルは、各他言語毎に生成するが、生成される教師ラベルのデータ量や音素誤り率、学習される音響モデルの精度に言語間で大きな違いは見られないため、日本語の結果のみを示す。

次に、教師ラベル生成実験について説明する。多言語教師なし音響モデル学習により生成される各ステップの教師ラベルのデータ量と音素誤り率を図１１に示す。従来法は、繰り返し適応されることで、教師ラベルのデータ量が増加するものの、教師ラベルに含まれる音素誤り率は改善しないことがわかる。これは、他言語音響モデルを繰り返し適応することで音素誤り率も改善した、読み上げ音声による評価（「西光他, 音講論（春），205-208，2013．」参照）と傾向が異なる。一方で、発明法は、教師ラベルのデータ量の増加と共に教師ラベルに含まれる音素誤り率も改善することがわかることから、Ｗｅｂの講演音声と読み上げ音声で学習した他言語音響モデルを用いる場合、従来法で生成される教師ラベルではなく、発明法で生成される教師ラベルを用いて、他言語初期音響モデルを適応する効果が確認できた。

次に、音声認識実験について説明する。多言語教師なし音響モデル学習により生成される教師ラベルを用いて学習した各ステップの音響モデルの認識精度を図１２に示す。従来法、発明法ともに，ステップが進むにつれて学習された音響モデルの精度が改善し、最終的な音響モデル（Final）の単語誤り率はそれぞれ８０．９５％と４２．２％であった。また、教師あり学習音響モデルの単語誤り率は３２．９％であった。教師ラベル生成実験にて確認したように、従来法は教師ラベルのデータ量は増加するものの、教師ラベルに含まれる音素誤り率は改善しないため、学習される音響モデルの認識精度の改善も僅かである。一方、発明法は、教師ラベルのデータ量の増加と音素誤り率の改善により、学習される音響モデルの認識精度も改善する。最終的な音響モデルは、教師あり学習音響モデルと比べ、約１０％精度が低いものの、教師ラベルを自動生成しているため、書き起こし作業が不要であり、その構築コストは格段に低い。また、発明法により構築された対象言語音響モデルを初期モデルとして、従来の教師なし学習を適用することにより、さらなる認識精度の改善も期待される。

以上、本実施の形態によれば、音声認識の対象言語の高品質な音響モデルを生成できる。

また、本実施の形態によれば、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声の属性または対象言語音声が取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる。

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、属性が異なるＮ（Ｎは２以上の自然数）の音響モデルであるＮの旧音響モデルを格納し得る第一格納部を具備し、コンピュータを前記対象言語の１以上の音声データを受け付ける受付部と、前記１以上の各音声データに対して、前記Ｎの各旧音響モデルを用いて、前記Ｎの属性ごとに、前記１以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、前記Ｎの属性のうち、Ｍ_１（Ｍ_１は２以上の自然数）以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、前記データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、Ｎ以下の各属性の新しい音響モデルであるＮ以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部とを具備し、前記音声認識部は、前記受付部が受け付けた１以上の各音声データに対して、前記第一音響モデル学習部が取得したＮ以下の各新音響モデルを用いて、Ｎ以下の属性ごとに、前記１以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、前記データ取得部は、前記第二の音声認識処理の結果、Ｎの属性のうち、Ｍ_２（Ｍ_２は２以上の自然数）以上の他言語に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、前記同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部として機能させるためのプログラムである。

上記プログラムにおいて、コンピュータを、前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記Ｎ以下の属性ごとに音響モデルの適応処理を行い、前記Ｎ以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部としてさらに機能させ、前記適応処理部が行う適応処理、前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、前記データ取得部が行う前記第一のデータ取得処理、前記第一音響モデル学習部が行う前記第一の学習処理、前記音声認識部が行う、前記第二の音声認識処理、および前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、１または２回以上繰り返して行い、前記第二音響モデル学習部は、前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、前記第二の学習処理を行うものとして、コンピュータを機能させるためのプログラムであることは好適である。

上記プログラムにおいて、前記データ取得部が取得した音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さくなるまで、前記一連処理を繰り返すものとして、コンピュータを機能させるためのプログラムであることは好適である。

上記プログラムにおいて、前記第一のデータ取得処理におけるＭ_１と前記第二のデータ取得処理におけるＭ_２とが異なる数値である、または２回以上繰り返される第一のデータ取得処理におけるＭ_１が異なる数値であるものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、図１３は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音響モデル生成装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１３は、このコンピュータシステム１３００の概観図であり、図１４は、システム１３００のブロック図である。

図１３において、コンピュータシステム１３００は、ＣＤ−ＲＯＭドライブを含むコンピュータ１３０１と、キーボード１３０２と、マウス１３０３と、モニタ１３０４と、マイク１３０５とを含む。

図１４において、コンピュータ１３０１は、ＣＤ−ＲＯＭドライブ１３０１２に加えて、ＭＰＵ１３０１３と、バス１３０１４と、ＲＯＭ１３０１５と、ＲＡＭ１３０１６と、ハードディスク１３０１７とを含む。なお、バス１３０１４は、ＭＰＵ１３０１３やＣＤ−ＲＯＭドライブ１３０１２に接続されている。また、ＲＯＭ１３０１５には、ブートアッププログラム等のプログラムが記憶されている。また、ＲＡＭ１３０１６は、ＭＰＵ１３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのものである。また、ハードディスク１３０１７は、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのものである。ここでは、図示しないが、コンピュータ１３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム１３００に、上述した実施の形態の音響モデル生成装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１３１０１に記憶されて、ＣＤ−ＲＯＭドライブ１３０１２に挿入され、さらにハードディスク１３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ１３０１に送信され、ハードディスク１３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ１３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ１３１０１またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ１３０１に、上述した実施の形態の音響モデル生成装置の機能を実行させるオペレーティングシステム、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム１３００がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音響モデル生成装置は、適切な音響モデルを学習できるという効果を有し、音響モデル生成装置等として有用である。

１音響モデル生成装置
１１第一格納部
１２第二格納部
１３受付部
１４音声認識部
１５データ取得部
１６第一音響モデル学習部
１７適応処理部
１８第二音響モデル学習部
１９制御部
２０蓄積部

Claims

属性が異なるＮ（Ｎは２以上の自然数）の音響モデルであるＮの旧音響モデルを格納し得る第一格納部と、
対象言語の１以上の音声データを受け付ける受付部と、
前記１以上の各音声データに対して、前記Ｎの各旧音響モデルを用いて、前記Ｎの属性ごとに、前記１以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、
前記Ｎの属性のうち、Ｍ_１（Ｍ_１は２以上の自然数）以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、
前記データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、新しい音響モデルであるＮ以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部とを具備し、
前記音声認識部は、
前記受付部が受け付けた１以上の各音声データに対して、前記第一音響モデル学習部が取得したＮ以下の各新音響モデルを用いて、Ｎ以下の属性ごとに、前記１以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、
前記データ取得部は、
前記第二の音声認識処理の結果、Ｎ以下の属性のうち、Ｍ_２（Ｍ_２は２以上の自然数）以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、
前記同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部と、
前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記Ｎ以下の属性ごとに音響モデルの適応処理を行い、前記Ｎ以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部とを具備し、
前記適応処理部が行う適応処理、
前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、
前記データ取得部が行う前記第一のデータ取得処理、
前記第一音響モデル学習部が行う前記第一の学習処理、
前記音声認識部が行う、前記第二の音声認識処理、および
前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、１または２回以上繰り返して行い、
前記第二音響モデル学習部は、
前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、前記第二の学習処理を行う音響モデル生成装置。
前記一連処理を、教師ラベルの増加量が閾値以内、または閾値より小さくなるまで繰り返す請求項１記載の音響モデル生成装置。
前記第一のデータ取得処理におけるＭ_１と前記第二のデータ取得処理におけるＭ_２とが異なる数値である、または２回以上繰り返される第一のデータ取得処理におけるＭ_１が異なる数値である請求項１または請求項２記載の音響モデル生成装置。
前記属性は、言語、発話スタイル、雑音の有無、雑音の程度、環境の違いのうちのいずれか１以上である請求項１から請求項３いずれか一項に記載の音響モデル生成装置。
記録媒体は、
属性が異なるＮ（Ｎは２以上の自然数）の音響モデルであるＮの旧音響モデルを格納し得る第一格納部を具備し、
受付部、音声認識部、データ取得部、第一音響モデル学習部、第二音響モデル学習部、および適応処理部により実現され得る音響モデル生成方法であって、
前記受付部が、対象言語の１以上の音声データを受け付ける受付ステップと、
前記音声認識部が、前記１以上の各音声データに対して、前記Ｎの各旧音響モデルを用いて、前記Ｎの属性ごとに、前記１以上の各音声データに教師ラベルを付与する第一の音声認識ステップと、
前記データ取得部が、前記Ｎの属性のうち、Ｍ_１（Ｍ_１は２以上の自然数）以上の属性に対して、同一の教師ラベルを前記音声認識ステップで付与された場合、当該同一の教師ラベルを付与された音声データを取得する第一のデータ取得ステップと、
前記第一音響モデル学習部が、前記第一のデータ取得ステップで取得された音声データであって、教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、新しい音響モデルであるＮ以下の新音響モデルを取得する第一の学習ステップと、
前記音声認識部が、前記１以上の各音声データに対して、前記第一の学習ステップで取得されたＮの各新音響モデルを用いて、Ｎ以下の属性ごとに、前記１以上の各音声データに教師ラベルを付与する第二の音声認識ステップと、
前記データ取得部が、前記第二の音声認識ステップにおける処理の結果、Ｎ以下の属性のうち、Ｍ２（Ｍ２は２以上の自然数）以上の属性に対して、同一の教師ラベルを前記第二の音声認識ステップで付与された場合、当該同一の教師ラベルを付与された音声データを取得する第二のデータ取得ステップと、
前記第二音響モデル学習部が、前記同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する第二の学習ステップと、
前記適応処理部が、前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記Ｎ以下の属性ごとに音響モデルの適応処理を行い、前記Ｎ以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理ステップとを具備し、
前記適応処理部が行う適応処理、
前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、
前記データ取得部が行う前記第一のデータ取得処理、
前記第一音響モデル学習部が行う前記第一の学習処理、
前記音声認識部が行う、前記第二の音声認識処理、および
前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、１または２回以上繰り返して行い、
前記第二の学習ステップにおいて、
前記第二音響モデル学習部は、前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う音響モデルの生産方法。
コンピュータがアクセス可能な記録媒体は、
属性が異なるＮ（Ｎは２以上の自然数）の音響モデルであるＮの旧音響モデルを格納し得る第一格納部を具備し、
コンピュータを
対象言語の１以上の音声データを受け付ける受付部と、
前記１以上の各音声データに対して、前記Ｎの各旧音響モデルを用いて、前記Ｎの属性ごとに、前記１以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、
前記Ｎの属性のうち、Ｍ_１（Ｍ_１は２以上の自然数）以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、
前記データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、新しい音響モデルであるＮ以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部として機能させるためのプログラムであって、
前記音声認識部は、
前記受付部が受け付けた１以上の各音声データに対して、前記第一音響モデル学習部が取得したＮ以下の各新音響モデルを用いて、Ｎ以下の属性ごとに、前記１以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、
前記データ取得部は、
前記第二の音声認識処理の結果、Ｎ以下の属性のうち、Ｍ２（Ｍ２は２以上の自然数）以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、
コンピュータを、
前記同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部と、
前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記Ｎ以下の属性ごとに音響モデルの適応処理を行い、前記Ｎ以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部としてさらに機能させるためのプログラムであって、
前記適応処理部が行う適応処理、
前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、
前記データ取得部が行う前記第一のデータ取得処理、
前記第一音響モデル学習部が行う前記第一の学習処理、
前記音声認識部が行う、前記第二の音声認識処理、および
前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、１または２回以上繰り返して行い、
前記第二音響モデル学習部は、
前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、Ｎ以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、前記第二の学習処理を行うものとして、コンピュータを機能させるためのプログラム。