JP6350935B2 - 音響モデル生成装置、音響モデルの生産方法、およびプログラム - Google Patents

音響モデル生成装置、音響モデルの生産方法、およびプログラム Download PDF

Info

Publication number
JP6350935B2
JP6350935B2 JP2014039028A JP2014039028A JP6350935B2 JP 6350935 B2 JP6350935 B2 JP 6350935B2 JP 2014039028 A JP2014039028 A JP 2014039028A JP 2014039028 A JP2014039028 A JP 2014039028A JP 6350935 B2 JP6350935 B2 JP 6350935B2
Authority
JP
Japan
Prior art keywords
acoustic model
unit
data acquisition
data
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014039028A
Other languages
English (en)
Other versions
JP2015161927A (ja
Inventor
雅弘 西光
雅弘 西光
繁樹 松田
繁樹 松田
堀 智織
智織 堀
亮輔 磯谷
亮輔 磯谷
山本 仁
山本  仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
National Institute of Information and Communications Technology
Original Assignee
NEC Corp
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, National Institute of Information and Communications Technology filed Critical NEC Corp
Priority to JP2014039028A priority Critical patent/JP6350935B2/ja
Publication of JP2015161927A publication Critical patent/JP2015161927A/ja
Application granted granted Critical
Publication of JP6350935B2 publication Critical patent/JP6350935B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声認識処理に利用する音響モデルを生成する音響モデル生成装置等に関するものである。
従来、対象言語の音響モデルが存在しない場合において、教師なし音響モデル学習法の技術があった(例えば、非特許文献1参照)。
非特許文献1に示された技術は、対象言語では他言語の音響モデルを用いて得られる複数の認識結果から、一致する箇所を教師ラベルとして抽出し、音響モデルを学習するものであった(図15参照)。
図15において、従来技術は、対象言語の音声データ601に対して、日本語の音響モデル6021を用いて、音声認識処理603を行い、教師ラベル付きの音声データを取得する。また、音声データ601に対して、中国語の音響モデル6022を用いて、音声認識処理603を行い、教師ラベル付きの音声データを取得する。さらに、音声認識部は、音声データ601に対して、インドネシア語の音響モデル6023を用いて、音声認識処理603を行い、教師ラベル付きの音声データ604を取得する。
次に、教師ラベル付きの音声データについて、同じ教師ラベルが2以上付された教師ラベル付き音声データを、各言語に対応付けて取得する。以上の処理により、各言語に対応付けて、教師ラベル付きの音声データ604が得られる。なお、教師ラベル付きの音声データ604は、日本語、中国語、インドネシア語の各言語ごとに存在する。
次に、各言語ごとに得られた教師ラベル付きの音声データ604と他言語の音響モデル602とを用いて、音響モデルの適応処理を行い、対象言語の音響モデルを得る。なお、音響モデルの適応処理とは、他言語の音響モデル602と、教師ラベル付きの音声データ604とを用いて、音響モデルを生成する処理である。また、音響モデルの適応処理は公知技術である。
従来技術において、他言語音響モデルの学習音声と対象言語音声が共に読み上げ音声の時等は、教師あり学習に近い音響モデルを構築可能であった。
しかしながら、従来技術においては、旧音響モデル(上記の例では、日本語、中国語、インドネシア語の音響モデル)の属性または旧音響モデルの学習音声が取得された属性と、対象言語音声データ(例えば、ネパール語の音声データ)が取得された属性とが大きく異なる場合、対象言語の適切な音響モデルを学習できなかった。なお、上記の属性が異なる場合とは、例えば、言語が異なる場合、発話スタイルの相違がある場合(例えば、読み上げ音声と会話の音声等の場合)、雑音の有無や程度が異なる場合等である。つまり、属性とは、音声に対応する言語に関する情報(言語の種類、言語の特性等)、音声が取得される環境に関する情報等である。また、属性とは、言語、発話スタイル、雑音の有無、雑音の程度、環境の違い等のいずれか一つ以上である。なお、属性は、必ずしも上記の例とは限らない。
本発明は、上記課題に鑑みて発明されたものであり、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声データの属性または対象言語音声データが取得された属性とが大きく異なる場合でも、適切な音響モデルを学習することを目的とする。
本第一の発明の音響モデル生成装置は、属性が異なるN(Nは2以上の自然数)の音響モデルであるNの旧音響モデルを格納し得る第一格納部と、対象言語の1以上の音声データを受け付ける受付部と、1以上の各音声データに対して、Nの各旧音響モデルを用いて、Nの属性ごとに、1以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、Nの属性のうち、M(Mは2以上の自然数)以上の属性に対して、同一の教師ラベルを音声認識部が付与した場合、同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、N以下の各属性の新しい音響モデルであるN以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部とを具備し、音声認識部は、受付部が受け付けた1以上の各音声データに対して、第一音響モデル学習部が取得したN以下の各新音響モデルを用いて、N以下の属性ごとに、1以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、データ取得部は、第二の音声認識処理の結果、N以下の属性のうち、M(Mは2以上の自然数)以上の属性に対して、同一の教師ラベルを音声認識部が付与した場合、同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部とを具備する音響モデル生成装置である。
かかる構成により、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声データの属性または対象言語音声データが取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる。
また、本第二の発明の音響モデル生成装置は、第一の発明に対して、データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと旧音響モデルとを用いて、N以下の属性ごとに音響モデルの適応処理を行い、N以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部をさらに具備し、適応処理部が行う適応処理、音声認識部が行う、更新された旧音響モデルを使用した第一の音声認識処理、データ取得部が行う第一のデータ取得処理、第一音響モデル学習部が行う第一の学習処理、音声認識部が行う、第二の音声認識処理、およびデータ取得部が行う、第二のデータ取得処理からなる一連処理を、1または2回以上繰り返して行い、第二音響モデル学習部は、データ取得部が最後に取得した同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う音響モデル生成装置である。
かかる構成により、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声データの属性または対象言語音声データが取得された属性とが大きく異なる場合でも、より適切な音響モデルを学習できる。
また、本第三の発明の音響モデル生成装置は、第二の発明に対して、データ取得部が取得した音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さくなるまで、一連処理を繰り返す音響モデル生成装置である。
かかる構成により、適切に音響モデルの学習処理を終了できる。
また、本第四の発明の音響モデル生成装置は、第一から第三いずれかの発明に対して、第一のデータ取得処理におけるMと第二のデータ取得処理におけるMとが異なる数値である、または2回以上繰り返される第一のデータ取得処理におけるMが異なる数値である音響モデル生成装置である。
かかる構成により、柔軟な条件により、音響モデルを学習できる。
また、本第五の発明の音響モデル生成装置は、第一から第四いずれかの発明に対して、属性は、言語、発話スタイル、雑音の有無や程度、環境の違い等のいずれか一つ以上である、音響モデル生成装置である。
かかる構成により、旧音響モデルの属性はまた旧音響モデルの学習音声が取得された属性と、対象言語音声データの属性または対象言語音声データが取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる。
本発明による音響モデル生成装置によれば、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声が取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる。
本発明の実施の形態1における音響モデル生成装置1のブロック図 同音響モデル生成装置1の動作について説明するフローチャート 同第一の音声認識処理について説明するフローチャート 同第一のデータ取得処理について説明するフローチャート 同第一の学習処理について説明するフローチャート 同第二の音声認識処理について説明するフローチャート 同第二のデータ取得処理について説明するフローチャート 同第二の学習処理について説明するフローチャート 同音響モデル生成装置1の動作の概念を示す図 同音響モデル生成装置1の動作の概念を示す図 同教師ラベル生成実験の結果を示す図 同音声認識実験の結果を示す図 同コンピュータシステムの概観図 同コンピュータシステムのブロック図 従来技術の動作の概念を示す図
以下、音響モデル生成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、音声認識の対象言語の音響モデルを生成する音響モデル生成装置について説明する。
また、本実施の形態において、主として、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声の属性または対象言語音声が取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる音響モデル生成装置について説明する。
図1は、本実施の形態における音響モデル生成装置1のブロック図である。
音響モデル生成装置1は、第一格納部11、第二格納部12、受付部13、音声認識部14、データ取得部15、第一音響モデル学習部16、適応処理部17、第二音響モデル学習部18、制御部19、蓄積部20を備える。
第一格納部11は、属性が異なるN(N個と言っても良い)の旧音響モデルを格納し得る。なお、Nは2以上の自然数である。また、旧音響モデルは、それぞれ属性が異なる旧音響モデルである。旧音響モデルは、例えば、対象言語とは異なる言語である他言語の音響モデルである。Nの旧音響モデルは、例えば、それぞれ異なる言語である他言語の音響モデルである。また、旧音響モデルは、例えば、元になる音声の取得環境が異なる音響モデルである。取得環境とは、雑音の有無や程度、読み上げ音声か会話の音声か等である。また、対象言語とは、音声認識を行う対象の言語である。対象言語は、例えば、音響モデルが存在しない言語であることは好適である。また、他言語は、音響モデルが存在する言語である。また、対象言語は、例えば、ネパール語である。さらに、他言語は、例えば、日本語、中国語、英語、韓国語、フランス語、インドネシア語等である。
なお、音響モデルとは、音声認識を行う音声の音響的特徴をモデル化したものであり、例えば、隠れマルコフモデル(HMM)を用い、HMMの各状態の出力確率分布をガウス混合分布(GMM)で表現する。音響モデルの持つ情報(パラメータ)には、例えば、音素等のシンボル毎のHMMの状態間の状態遷移確率、各状態のGMMにおけるガウス分布の平均、分散がある。通常、音声認識では音声認識を行う特徴ベクトルとして、音声を周波数解析し得られる数十〜数百次元の特徴ベクトルを用いることが一般的であるので、ガウス分布の平均、分散は数十〜数百次元のベクトルとなる。
第二格納部12は、対象言語の学習結果である対象言語の音響モデルが格納される。
受付部13は、対象言語の1以上の音声データを受け付ける。ここで、受け付けとは、マイクからの受け付け、記録媒体からの読み出し、ウェブサーバ等の外部装置からの受信等を含む概念である。音声データの入力手段は、マイクとそのデバイスドライバーや、受信手段等で実現され得る。
音声認識部14は、第一の音声認識処理を行う。第一の音声認識処理とは、受付部13が受け付けた1以上の各音声データに対して、Nの各旧音響モデルを適用し、Nの属性ごとに、1以上の各音声データに教師ラベルを付与する処理である。なお、Nの各旧音響モデルは、第一格納部11に格納されている。また、音響モデルを適用し、音声データに教師ラベルを付与する音声認識処理は公知技術であるので詳細な説明を省略する。なお、教師ラベルとは、通常、音素である。また、「Nの属性ごとに」とは、「Nの旧音響モデルごとに」と同様の意味である。なお、第一の音声認識処理は、受付部13が受け付けた1以上の各音声データに対して、N以下の任意の数の各旧音響モデルを適用し、N以下の属性ごとに、1以上の各音声データに教師ラベルを付与する処理でも良い。
また、この音声認識部14は、第二の音声認識処理も行う。第二の音声認識処理とは、受付部13が受け付けた1以上の各音声データに対して、第一音響モデル学習部16が取得したNの各新音響モデルを適用し、Nの属性ごとに、1以上の各音声データに教師ラベルを付与する。なお、「Nの属性ごとに」とは、「Nの新音響モデルごとに」と同様の意味である。また、第二の音声認識処理は、受付部13が受け付けた1以上の各音声データに対して、第一音響モデル学習部16が取得したN以下の任意の数の各他言語新音響モデルを適用し、N以下の他言語ごとに、1以上の各音声データに教師ラベルを付与する処理でも良い。
データ取得部15は、第一のデータ取得処理を行う。第一のデータ取得処理とは、Nの属性のうち、M以上の属性に対して、同一の教師ラベルを音声認識部14が付与した場合、当該同一の教師ラベルを付与された音声データを取得する処理である。なお、Mは2以上の自然数である。ここで、「M以上の属性に対して」とは、「M以上の旧音響モデルに対して」と同じ意味である。また、Mは、Nと一致する数値でも良い。また、第一のデータ取得処理とは、N以下の属性のうち、M以上の属性に対して、同一の教師ラベルを音声認識部14が付与した場合、当該同一の教師ラベルを付与された音声データを取得する処理でも良い。
「N=2」の場合、データ取得部15は、2つの旧音響モデルを用いて、音声認識された結果である、2つの教師ラベル付きの音声データのうち、同一の教師ラベルを付与された音声データのみを取得する。
「N=3」の場合、データ取得部15は、3つの旧音響モデルを用いて、音声認識された結果である、3つの教師ラベル付きの音声データのうち、例えば、2つの音声データに付与された教師ラベルが同じである教師ラベル付きの音声データのみを取得する。
また、この「N=3」の場合、データ取得部15は、3つの旧音響モデルを用いて、音声認識された結果である、3つの教師ラベル付きの音声データのうち、例えば、すべての音声データに付与された教師ラベルが同じである教師ラベル付きの音声データのみを取得しても良い。
また、「N=5」の場合、データ取得部15は、5つの旧音響モデルを用いて、音声認識された結果である、5つの教師ラベル付きの音声データのうち、例えば、3つの音声データに付与された教師ラベルが同じである教師ラベル付きの音声データを、対応する3つの属性の教師ラベル付きの音声データとして取得する。また、データ取得部15は、5つの教師ラベル付きの音声データのうち、例えば、残る2つの音声データに付与された教師ラベルが同じである教師ラベル付きの音声データを、対応する2つの属性の教師ラベル付きの音声データとして取得しても良い。
また、データ取得部15は、第二のデータ取得処理も行う。第二のデータ取得処理とは、第二の音声認識処理の結果、Nの属性のうち、M(Mは2以上の自然数)以上の属性に対して、同一の教師ラベルを音声認識部14が付与した場合、当該同一の教師ラベルを付与された音声データを取得する処理である。ここで、「M以上の属性に対して」とは、「M以上の新音響モデルに対して」と同じ意味である。
は、Mと同じでも良いし、異なっていても良い。また、2回以上繰り返される第一のデータ取得処理におけるMが異なる数値であっても良い。つまり、繰り返しの処理において、データ取得部15が教師ラベル付き音声データを取得する条件が変化しても良い。
第一音響モデル学習部16は、第一の学習処理を行う。第一の学習処理とは、データ取得部15が取得した音声データであって、教師ラベルを付与された音声データを用いて、Nの属性ごとに、音響モデルの学習を行い、Nの各属性の新しい音響モデルであるNの新音響モデルを取得する処理である。ここで、「Nの属性ごと」とは、「Nの旧音響モデルごと」または「Nの新音響モデルごと」と同じ意味である。なお、第一音響モデル学習部16は、例えば、取得したNの新音響モデルを第一格納部11、または図示しないバッファに一時蓄積する。また、教師ラベルを付与された音声データを用いて音響モデルの学習を行う処理は公知技術であるので、詳細な説明を省略する。また、第一の学習処理は、データ取得部15が取得した音声データであって、教師ラベルを付与された音声データを用いて、N以下の任意の数の属性ごとに、音響モデルの学習を行い、N以下の各属性の新しい音響モデルであるN以下の新音響モデルを取得する処理でも良い。
適応処理部17は、データ取得部15が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと旧音響モデルとを用いて、Nの属性ごとに、適応処理を行う。そして、適応処理部17は、Nの属性ごとに、更新された旧音響モデルを取得する。なお、更新された旧音響モデルは、通常、元の旧音響モデルのパラメータが、取得された同一の教師ラベルを付与された音声データによって、変更されている音響モデルである。また、適応処理の技術は公知技術であるので、詳細な説明を省略する。また、適応処理部17は、データ取得部15が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと旧音響モデルとを用いて、N以下の任意の数の属性ごとに、適応処理を行っても良い。
第二音響モデル学習部18は、第二の学習処理を行う。第二の学習処理とは、同一の教師ラベルを付与された音声データを用いて、Nの属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する処理である。また、第二の学習処理は、同一の教師ラベルを付与された音声データを用いて、N以下の任意の数の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する処理でも良い。
また、第二の学習処理とは、データ取得部15が最後に取得した同一の教師ラベルを付与された音声データを用いて、Nの属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する処理である。また、第二の学習処理は、データ取得部15が最後に取得した同一の教師ラベルを付与された音声データを用いて、N以下の任意の数の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する処理でも良い。
制御部19は、以下の(1)から(6)からなる処理である一連処理を、1回、または2回以上繰り返して行うことを、対応する構成要素に指示する。なお、対応する構成要素とは、適応処理部17、音声認識部14、データ取得部15、第一音響モデル学習部16である。
(1)適応処理部17が行う適応処理
(2)音声認識部14が行う第一の音声認識処理であり、適応処理の結果、更新された旧音響モデルを使用した第一の音声認識処理
(3)データ取得部15が行う第一のデータ取得処理
(4)第一音響モデル学習部16が行う第一の学習処理
(5)音声認識部14が行う第二の音声認識処理
(6)データ取得部15が行う第二のデータ取得処理
制御部19は、データ取得部15が取得した音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さくなるまで、一連処理を繰り返すように、対応する構成要素に指示する。なお、予め決められた条件は、種々あり得る。予め決められた条件は、一連処理の1回のループにおける教師ラベルの増加量だけをパラメータとする条件でも良いし、一連処理の2回以上のループにおける教師ラベルの増加量をパラメータとする条件等でも良い。制御部19は、例えば、一連処理を停止する閾値(X)を格納している。そして、制御部19は、例えば、データ取得部15が取得した、当該音声データに付されている教師ラベルの量がX以下、またはX未満であると判断した場合、一連処理を停止させる。
蓄積部20は、第二音響モデル学習部18が取得した対象言語の音響モデルを、第二格納部12に蓄積する。
また、蓄積部20は、第二音響モデル学習部18が最後に取得した音響モデルを、第二格納部12に蓄積する。
第一格納部11、第二格納部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
第一格納部11等に音響モデル等が記憶される過程は問わない。例えば、記録媒体を介して音響モデル等が第一格納部11で記憶されるようになってもよく、通信回線等を介して送信された音響モデル等が第一格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された音響モデル等が第一格納部11等で記憶されるようになってもよい。
音声認識部14、データ取得部15、第一音響モデル学習部16、第二音響モデル学習部18、制御部19、蓄積部20は、通常、MPUやメモリ等から実現され得る。音声認識部14の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、音響モデル生成装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS201)受付部13は、対象言語の音声データを取得する。
(ステップS202)音声認識部14は、ステップS201で取得された音声データに対して、第一の音声認識処理を行う。なお、第一の音声認識処理について、図3のフローチャートを用いて説明する。
(ステップS203)データ取得部15は、ステップS202における第一の音声認識処理の結果を用いて、第一のデータ取得処理を行う。なお、第一のデータ取得処理について、図4のフローチャートを用いて説明する。
(ステップS204)第一音響モデル学習部16は、ステップS203で取得されたデータであり、教師ラベル付きの音声データを用いて、第一の学習処理を行う。なお、第一の学習処理について、図5のフローチャートを用いて説明する。
(ステップS205)受付部13は、対象言語の音声データを取得する。
(ステップS206)音声認識部14は、ステップS205で取得された音声データに対して、第二の音声認識処理を行う。なお、第二の音声認識処理について、図6のフローチャートを用いて説明する。
(ステップS207)データ取得部15は、ステップS206における第二の音声認識処理の結果を用いて、第二のデータ取得処理を行う。なお、第二のデータ取得処理について、図7のフローチャートを用いて説明する。
(ステップS208)制御部19は、最終的な対象言語の音響モデルの学習処理に移行するか否かを判断する。移行する場合はステップS209に行き、移行しない場合はステップS210に行く。なお、学習処理に移行するか否かの判断とは、一連処理を終了するか否かの判断でも良い。制御部19は、例えば、ステップS207でデータ取得部15が取得し音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さいと判断した場合、最終的な対象言語の音響モデルの学習処理に移行する、と判断する。
(ステップS209)第一音響モデル学習部16は、ステップS207で取得された教師ラベル付きの音声データを用いて、第二の学習処理を行い、処理を終了する。なお、第二の学習処理について、図8のフローチャートを用いて説明する。
(ステップS210)学習処理に移行しない場合、適応処理部17は、データ取得部15が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと旧音響モデルとを用いて、Nの他言語ごとに、適応処理を行う。そして、適応処理部17は、Nの他言語ごとに、音響モデルを取得する。これらの音響モデルは、更新された旧音響モデルである。この処理が完了すると、ステップS201に戻る。
なお、図2のフローチャートにおいて、ステップS208、ステップS210が無く、ステップS207の次に、ステップS209を実行しても良い。
次に、ステップS202の第一の音声認識処理について、図3のフローチャートを用いて説明する。
(ステップS301)音声認識部14は、カウンタiに1を代入する。
(ステップS302)音声認識部14は、「i<=N」を満たすか否かを判断する。「i<=N」を満たす場合はステップS303に行き、「i<=N」を満たさない場合は上位処理にリターンする。なお、Nは、属性(例えば、他言語)の数であり、旧音響モデルの数である。
(ステップS303)音声認識部14は、i番目の属性の音響モデルを用いて、対象言語の音声データに対して、音声認識処理を行う。ここで、音響モデルは、第一格納部11に格納されているi番目の旧音響モデル、または適応処理の結果得られたi番目の音響モデルである。
(ステップS304)カウンタiを1、インクリメントし、ステップS302に戻る。
なお、図3のフローチャートにおいて、iがNに到達する前に上位処理にリターンするようにしても良い。
次に、ステップS203の第一のデータ取得処理について、図4のフローチャートを用いて説明する。
(ステップS401)データ取得部15は、カウンタjに1を代入する。
(ステップS402)データ取得部15は、処理対象の音声データの中に、j番目の処理単位が存在するか否かを判断する。j番目の処理単位が存在すればステップS403に行き、j番目の処理単位が存在しなければ上位処理にリターンする。なお、処理単位とは、同一の教師ラベルが付与されているか否かを判断する音声認識結果であり、単語が好適であるが、一音素、文等の他のデータの単位でも良い。
(ステップS403)データ取得部15は、j番目の処理単位において、同一の教師ラベルが付与されている音声データの数を取得する。なお、同一の教師ラベルが付与されている音声データの数は、2以上、取得される場合もある。例えば、「N=5」で、3つの属性の旧音響モデルを適用して取得された教師ラベル付きの音声データの教師ラベルが同じで、他の2つの属性の旧音響モデルを適用して取得された教師ラベル付きの音声データの教師ラベルが同じである場合、同一の教師ラベルが付与されているデータの数は「3」と「2」である。また、同一の教師ラベルが付与されているデータが存在しない場合、同一の教師ラベルが付与されている音声データの数は、例えば、「0」または「1」である、とする。また、例えば、処理単位が単語であり、単語に複数の教師ラベルが付与されている場合、データ取得部15は、通常、すべての教師ラベルが一致する場合に、同一の教師ラベルが付与されていると判断する。
(ステップS404)データ取得部15は、ステップS403で取得した1以上のそれぞれの数が、予め決められた条件に合致するか否かを判断する。予め決められた条件に合致する場合はステップS405に行き、合致しない場合はステップS406にジャンプする。
(ステップS405)データ取得部15は、予め決められた条件に合致する数に対応する、同一の教師ラベルが付与されている音声データを取得する。そして、データ取得部15は、同一の教師ラベルが付与されている各音声データを、各属性に対応付けて、一時蓄積する。なお、属性に対応付けることは、例えば、旧音響モデル等に対応付けることと同じ意義である、とする。また、データ取得部15は、2種類以上の、同一の教師ラベルが付与されている音声データを取得する場合もある。2種類以上とは、上記の「N=5」の場合であれば、同一の教師ラベルが「3」に対応するものと、「2」に対応するものである。
(ステップS406)データ取得部15は、カウンタjを1、インクリメントし、ステップS402に戻る。
なお、図4のフローチャートのステップS405において、例えば、「N=5」で、3つの属性の旧音響モデルを適用して取得された教師ラベル付きの音声データの教師ラベルが同じで、かつ他の2つの属性の旧音響モデルを適用して取得された教師ラベル付きの音声データの教師ラベルが同じである場合、データ取得部15は、同一の教師ラベルが付与されている3つの教師ラベル付き音声データを、当該3つの各属性に対応付けて取得し、同一の教師ラベルが付与されている2つの教師ラベル付き音声データを、当該2つの各属性に対応付けて取得しても良い。
次に、ステップS204の第一の学習処理について、図5のフローチャートを用いて説明する。
(ステップS501)第一音響モデル学習部16は、カウンタiに1を代入する。
(ステップS502)第一音響モデル学習部16は、「i<=N」であるか否かを判断する。「i<=N」であればステップS503に行き、「i<=N」でなければ上位処理にリターンする。
(ステップS503)第一音響モデル学習部16は、i番目の属性について、データ取得部15が取得した教師ラベル付きの音声データを用いて、音響モデルの学習を行い、i番目の新音響モデルを取得する。そして、第一音響モデル学習部16は、i番目の新音響モデルを図示しないバッファ、或いは第一格納部11、または第二格納部12に一時蓄積する。
(ステップS504)第一音響モデル学習部16は、カウンタiを1、インクリメントし、ステップS502に戻る。
なお、図5のフローチャートにおいて、iがNに到達する前に上位処理にリターンするようにしても良い。
次に、ステップS206の第二の音声認識処理について、図6のフローチャートを用いて説明する。
(ステップS601)音声認識部14は、カウンタiに1を代入する。
(ステップS602)音声認識部14は、「i<=N」を満たすか否かを判断する。「i<=N」を満たす場合はステップS603に行き、「i<=N」を満たさない場合は上位処理にリターンする。
(ステップS603)音声認識部14は、i番目の属性の新音響モデルを用いて、対象言語の音声データに対して、音声認識処理を行う。
(ステップS604)カウンタiを1、インクリメントし、ステップS602に戻る。
なお、図6のフローチャートにおいて、iがNに到達する前に上位処理にリターンするようにしても良い。
次に、ステップS207の第二のデータ取得処理について、図7のフローチャートを用いて説明する。
(ステップS701)データ取得部15は、カウンタjに1を代入する。
(ステップS702)データ取得部15は、処理対象の音声データの中に、j番目の処理単位が存在するか否かを判断する。j番目の処理単位が存在すればステップS703に行き、j番目の処理単位が存在しなければ上位処理にリターンする。
(ステップS703)データ取得部15は、j番目の処理単位において、同一の教師ラベルが付与されている音声データの数を取得する。
(ステップS704)データ取得部15は、ステップS703で取得した数が閾値以上であるか否かを判断する。閾値以上であればステップS705に行き、閾値以上でなければステップS706にジャンプする。
(ステップS705)データ取得部15は、閾値以上の数の、同一の教師ラベルが付与されている音声データを取得する。そして、データ取得部15は、同一の教師ラベルが付与されている各音声データを、各属性に対応付けて、一時蓄積する。なお、属性に対応付けることは、例えば、新音響モデルに対応付けることと同じ意義である、とする。
(ステップS706)データ取得部15は、カウンタjを1、インクリメントし、ステップS702に戻る。
次に、ステップS209の第二の学習処理について、図8のフローチャートを用いて説明する。
(ステップS801)第一音響モデル学習部16は、カウンタiに1を代入する。
(ステップS802)第一音響モデル学習部16は、「i<=N」であるか否かを判断する。「i<=N」であればステップS803に行き、「i<=N」でなければ上位処理にリターンする。
(ステップS803)第一音響モデル学習部16は、i番目の属性について、データ取得部15が取得した教師ラベル付きの音声データを用いて、音響モデルの学習を行い、i番目の新音響モデルを取得する。そして、第一音響モデル学習部16は、i番目の新音響モデルを第二格納部12に一時蓄積する。
(ステップS804)第一音響モデル学習部16は、カウンタiを1、インクリメントし、ステップS802に戻る。
なお、図8のフローチャートにおいて、iがNに到達する前に上位処理にリターンするようにしても良い。
以下、本実施の形態における音響モデル生成装置1の2つの具体的な動作について説明する。
(具体例1)
音響モデル生成装置1の動作の概念を示す図は、図9である。なお、図9において、AMとは音響モデルのことである。
今、属性は、言語(他言語と言っても良い。)である。つまり、旧音響モデルは、対象言語とは異なる他言語の音響モデルである。また、対象言語は、ネパール語である。また、ネパール語の音響モデルは、例えば、世の中には存在しない、とする。また、音響モデルが存在する他言語は、日本語、中国語、インドネシア語である、とする。つまり、ここでは、変数「N=3」である。
第一格納部11は、図9の11であり、日本語の音響モデル111、中国語の音響モデル112、インドネシア語の音響モデル113が格納されている。なお、音響モデル111、音響モデル112、音響モデル113は、上述の旧音響モデルである。
そして、図1を参照して音響モデル生成装置1の受付部13は、ネパール語の音声データ301を受け付ける。ネパール語の音声データ301は、例えば、図示しないウェブサーバから取得された音声データである。
音声認識部14は、音声データ301に対して、日本語の音響モデル111を用いて、音声認識処理を行い、教師ラベル付きの音声データ(図9の3031)を取得する。また、音声認識部14は、音声データ301に対して、中国語の音響モデル112を用いて、音声認識処理を行い、教師ラベル付きの音声データ(図9の3032)を取得する。さらに、音声認識部14は、音声データ301に対して、インドネシア語の音響モデル113を用いて、音声認識処理を行い、教師ラベル付きの音声データ(図9の3033)を取得する。
次に、データ取得部15は、教師ラベル付きの音声データの中の各処理単位について、2以上が同じ処理単位を、各言語に対応付けて取得する。以上の処理が、図9の302である。
次に、第一音響モデル学習部16は、日本語に対応付いている教師ラベル付きの音声データを用いて、音響モデルの学習を行う(図9の3041)。そして、第一音響モデル学習部16は、日本語の新音響モデル(図9の3051)を取得する。また、第一音響モデル学習部16は、中国語に対応付いている教師ラベル付きの音声データを用いて、音響モデルの学習を行い(図9の3042)、中国語の新音響モデル(図9の3052)を取得する。さらに、第一音響モデル学習部16は、インドネシア語に対応付いている教師ラベル付きの音声データを用いて、音響モデルの学習を行い(図9の3043)、インドネシア語の新音響モデル(図9の3053)を取得する。
次に、音声認識部14は、さらに、音声データ301に対して、日本語の新音響モデル3051を用いて、音声認識処理を行い、教師ラベル付きの音声データ(図9の3071)を取得する。また、音声認識部14は、音声データ301に対して、中国語の新音響モデル3052を用いて、音声認識処理を行い、教師ラベル付きの音声データ(図9の3072)を取得する。さらに、音声認識部14は、音声データ301に対して、インドネシア語の新音響モデル3053を用いて、音声認識処理を行い、教師ラベル付きの音声データ(図9の3073)を取得する。
次に、データ取得部15は、教師ラベル付きの音声データの中の各処理単位について、2以上が同じ処理単位を、各言語に対応付けて取得する。
次に、適応処理部17は、日本語に対応する教師ラベル付きの音声データ(図9の3071)と日本語の旧音響モデル111とを用いて、適応処理を行い、更新された日本語の旧音響モデルを取得する。また、適応処理部17は、中国語に対応する教師ラベル付きの音声データ(図9の3072)と中国語の旧音響モデル112とを用いて、適応処理を行い、更新された中国語の旧音響モデルを取得する。さらに、適応処理部17は、インドネシア語に対応する教師ラベル付きの音声データ(図9の3073)とインドネシア語の旧音響モデル113とを用いて、適応処理を行い、更新されたインドネシア語の旧音響モデルを取得する。
そして、音声認識部14は、更新された各言語の旧音響モデルを用いて、再度、対象言語の音声データに対して、音声認識処理を行う。そして、音声認識部14は、他言語ごとに、教師ラベル付きの音声データを得る。
次に、データ取得部15は、教師ラベル付きの音声データの中の各処理単位について、2以上が同じ処理単位を、各言語に対応付けて取得する。
次に、第一音響モデル学習部16は、他言語ごとに、データ取得部15が取得した教師ラベル付きの音声データを用いて、音響モデルの学習を行う。そして、第一音響モデル学習部16は、他言語ごとに、新音響モデルを取得する。
次に、音声認識部14は、他言語ごとに、新音響モデルを用いて、対象言語の音声データに対して、音声認識処理を行い、他言語ごとに、教師ラベル付きの音声データを取得する。
次に、データ取得部15は、教師ラベル付きの音声データの中の各処理単位について、2以上が同じ処理単位を、各言語に対応付けて取得する。
次に、制御部19は、最終的な対象言語の音響モデルの学習処理に移行するか否かを判断する。つまり、制御部19は、データ取得部15が取得した音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さいか否かを判断する。
そして、制御部19が小さいと判断した場合は、第一音響モデル学習部16は、他言語ごとに、最後に得られた教師ラベル付きの音声データを用いて、第二の学習処理(3081,3082,3083)を行う。そして、第一音響モデル学習部16は、対象言語の音響モデル309を得る。なお、対象言語の音響モデル309は、通常、第一音響モデル学習部16が他言語ごとに得た音響モデルの集合(3091,3092,3093)である。
また、制御部19が教師ラベルの量が予め決められた条件を満たすほど小さくないと判断した場合は、上述した一連処理を、制御部19が小さいと判断するまで繰り返す。
(具体例2)
具体例2における、音響モデル生成装置1の動作の概念を示す図は図10である。本具体例における、音響モデル生成装置1の音響モデル生成方法を含む本発明法は、大きく4つのステップで構成される。なお、4つのステップのうち、本発明法はSTEP0を含まなくても良い。
まず、音響モデルを構築する言語(「対象言語」と呼ぶ)とは異なる他言語の音声データに基づく音響モデルを準備する(STEP0)。発明法では、他言語の音響モデルを学習するための学習データを対象言語の音素へマッピングし、対象言語の音素セットで再学習した音響モデルを用いる。具体的には、対象言語の音素へマッピングした複数の他言語の音声データを用いて、対象言語の音素セットを持つ初期音響モデル(MIX0)を学習する。
さらに、この対象言語初期音響モデル(MIX0)を各他言語の特性を持つ音響モデルとするため、この音響モデル(MIX0)を、対象言語の音素へマッピングした他言語の各データを用いてMAP適応し、対象言語の音素セットを持つ他言語初期音響モデルを生成する(initial AM)。なお、他言語初期音響モデルは、上述した旧音響モデルと同じである。そして、このように作成した他言語初期音響モデルは、各他言語の音響的特徴を持つと同時に、各他言語だけでは包含困難な対象言語の音響的特徴を各他言語間で補完しているため、各他言語と対象言語において言語が異なることによる音素セットの違いや、同一の国際音声記号(IPA)(インターネットURL:「http://www.langsci.ucl.ac.uk/ipa/」参照)を持つ音素における言語毎の音響的特徴の違いについても柔軟にモデル化されている。これにより、従来法と比べ、精度良い教師ラベルを生成することが可能となる。
次に、STEP0で構築した各他言語初期音響モデルを用いて、対象言語Web音声を認識し、それら認識結果から教師ラベルを生成する(STEP1)。音響モデルを学習するための教師ラベルは、従来法(非特許文献1等参照)と同様、対象言語とは異なる複数の他言語初期音響モデルを用いて、対象言語Web音声を認識し、それら複数の認識結果から抽出する。なお、対象言語Web音声は、対象言語の音声データの例である。
具体的には、"Multi-lingual A-stabil"(「N. T. Vu et al., "Multilingual A-STABIL:A new confidence score for multilingual unsupervised training.", SLT, 2010.」参照)と呼ばれる信頼度に基づき、ある他言語の音響モデルを用いて対象言語Web音声を認識し得られる第一位認識結果を教師ラベル候補とし、その教師ラベル候補の中から、ある他言語とは異なる他言語の認識結果においても同じ認識結果となる単語を教師ラベルとする。
従来法は、このSTEP1で得られる教師ラベルを用いて、他言語初期音響モデルをMAP適応する(STEP1_x AM)。そして、その適応した他言語音響モデルを用いて、生成される教師ラベルのデータ量の増加が一定以下になるまで、適応、認識および教師ラベル生成を繰り返す。これにより,各他言語初期音響モデルは対象言語音響モデルへと徐々に適応される。
次に,このSTEP1で最終的に得られる教師ラベルを用いて、対象言語音響モデル(STEP2_x AM)を学習する。そして、その音響モデルを用いて、対象言語Web音声を認識し、再度教師ラベルを生成する(STEP2)。
一方、発明法ではSTEP1で生成される教師ラベルでMAP適応は行わず、対象言語音響モデル(STEP2_x AM)を学習する。そして、その音響モデルを用いて対象言語Web音声を認識し生成した教師ラベルを用いて、他言語初期音響モデルをMAP適応する(STEP1_xAM)。
発明法も従来法と同様、発明法のSTEP2にて生成される教師ラベルのデータ量の増加が一定以下になるまで、この操作を繰り返す。従来法と発明法の違いは、従来法で生成される教師ラベルを用いて、対象言語音響モデルを学習し、その音響モデルを用いて教師ラベルを再生成する点である。これにより、対象言語Web音声と、他言語初期音響モデルが大きく異なる場合においても、頑健に教師ラベルを生成することが可能となる。最後に、従来法、発明法のSTEP2で生成された教師ラベルを用いて対象言語音響モデル(Final AM)を学習する(STEP3)。
(実験)
以下、音響モデル生成装置1の実験結果について説明する。
まず、実験条件について説明する。本実験において、TED(インターネットURL:「http://www.ted.com/」参照)の英語講演音声をWeb音声として用い、音響モデル生成装置1の方法である、多言語教師なし音響モデル学習法を評価した。具体的には、IWSLTの評価キャンペーンの学習セットの一部(40時間)と、開発(dev2010) およびテストセット(tst2011)を用いた(インターネットURL:「http://hltc.cs.ust.hk/iwslt/index.php/evaluation-campaign/ted-task.html#ASRtrack」参照)。また、対象言語とは異なる言語の音声データとして、出願人らが収集した日本語、中国語、インドネシア語の読上げ音声を用いた(「S. Sakti et al, "Indonesian Speech Recognition for Hearing and Speaking Impaired People.", ICSLP, 2004.」「磯谷他,信学論, Vol J96-D, No.1,pp.209-220, 2013.」参照)。また、各音響モデルはHTK(インターネットURL:「http://htk.eng.cam.ac.uk/」参照)およびKALDI(「D. Povey, et al, "The Kaldi Speech Recognition Toolkit,"in Proc. ASRU, 2011.」参照)を用いて作成した。また、特徴量は、MFCC12次元とパワー、およびそのΔ、ΔΔの39次元を採用した。また、音響モデルは、生成される教師ラベルのデータ量に応じて、500〜10000状態、4〜16混合の内で、開発セットに対し最適な状態、混合数で学習した性別非依存トライフォンHMMを用いた。学習方式はML学習であり、MPE等の識別学習は行わなかった。言語間の音素マッピングはIPAに基づいて行った。言語モデルと発音辞書は、IWSLTの評価キャンペーンで提供されているTEDのWebページから収集可能なテキストとEnglish Gigaword コーパス等を用いて構築した(「H. Yamamoto, et al, "The NICT ASR System for IWSLT2012," IWSLT, 2012.」参照)。本実験では、他言語初期音響モデルを適応する教師ラベルとして、非特許文献1の従来法と、音響モデル生成装置1の発明法を比較した。なお、各ステップで生成される音響モデルは、各他言語毎に生成するが、生成される教師ラベルのデータ量や音素誤り率、学習される音響モデルの精度に言語間で大きな違いは見られないため、日本語の結果のみを示す。
次に、教師ラベル生成実験について説明する。多言語教師なし音響モデル学習により生成される各ステップの教師ラベルのデータ量と音素誤り率を図11に示す。従来法は、繰り返し適応されることで、教師ラベルのデータ量が増加するものの、教師ラベルに含まれる音素誤り率は改善しないことがわかる。これは、他言語音響モデルを繰り返し適応することで音素誤り率も改善した、読み上げ音声による評価(「西光他, 音講論(春),205-208,2013.」参照)と傾向が異なる。一方で、発明法は、教師ラベルのデータ量の増加と共に教師ラベルに含まれる音素誤り率も改善することがわかることから、Webの講演音声と読み上げ音声で学習した他言語音響モデルを用いる場合、従来法で生成される教師ラベルではなく、発明法で生成される教師ラベルを用いて、他言語初期音響モデルを適応する効果が確認できた。
次に、音声認識実験について説明する。多言語教師なし音響モデル学習により生成される教師ラベルを用いて学習した各ステップの音響モデルの認識精度を図12に示す。従来法、発明法ともに,ステップが進むにつれて学習された音響モデルの精度が改善し、最終的な音響モデル(Final)の単語誤り率はそれぞれ80.95%と42.2%であった。また、教師あり学習音響モデルの単語誤り率は32.9%であった。教師ラベル生成実験にて確認したように、従来法は教師ラベルのデータ量は増加するものの、教師ラベルに含まれる音素誤り率は改善しないため、学習される音響モデルの認識精度の改善も僅かである。一方、発明法は、教師ラベルのデータ量の増加と音素誤り率の改善により、学習される音響モデルの認識精度も改善する。最終的な音響モデルは、教師あり学習音響モデルと比べ、約10%精度が低いものの、教師ラベルを自動生成しているため、書き起こし作業が不要であり、その構築コストは格段に低い。また、発明法により構築された対象言語音響モデルを初期モデルとして、従来の教師なし学習を適用することにより、さらなる認識精度の改善も期待される。
以上、本実施の形態によれば、音声認識の対象言語の高品質な音響モデルを生成できる。
また、本実施の形態によれば、旧音響モデルの属性または旧音響モデルの学習音声が取得された属性と、対象言語音声の属性または対象言語音声が取得された属性とが大きく異なる場合でも、適切な音響モデルを学習できる。
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、属性が異なるN(Nは2以上の自然数)の音響モデルであるNの旧音響モデルを格納し得る第一格納部を具備し、コンピュータを前記対象言語の1以上の音声データを受け付ける受付部と、前記1以上の各音声データに対して、前記Nの各旧音響モデルを用いて、前記Nの属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、前記Nの属性のうち、M(Mは2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、前記データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、N以下の各属性の新しい音響モデルであるN以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部とを具備し、前記音声認識部は、前記受付部が受け付けた1以上の各音声データに対して、前記第一音響モデル学習部が取得したN以下の各新音響モデルを用いて、N以下の属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、前記データ取得部は、前記第二の音声認識処理の結果、Nの属性のうち、M(Mは2以上の自然数)以上の他言語に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部として機能させるためのプログラムである。
上記プログラムにおいて、コンピュータを、前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記N以下の属性ごとに音響モデルの適応処理を行い、前記N以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部としてさらに機能させ、前記適応処理部が行う適応処理、前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、前記データ取得部が行う前記第一のデータ取得処理、前記第一音響モデル学習部が行う前記第一の学習処理、前記音声認識部が行う、前記第二の音声認識処理、および前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、1または2回以上繰り返して行い、前記第二音響モデル学習部は、前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、前記第二の学習処理を行うものとして、コンピュータを機能させるためのプログラムであることは好適である。
上記プログラムにおいて、前記データ取得部が取得した音声データに付された教師ラベルの量が、予め決められた条件を満たすほど小さくなるまで、前記一連処理を繰り返すものとして、コンピュータを機能させるためのプログラムであることは好適である。
上記プログラムにおいて、前記第一のデータ取得処理におけるMと前記第二のデータ取得処理におけるMとが異なる数値である、または2回以上繰り返される第一のデータ取得処理におけるMが異なる数値であるものとして、コンピュータを機能させるためのプログラムであることは好適である。
また、図13は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音響モデル生成装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図13は、このコンピュータシステム1300の概観図であり、図14は、システム1300のブロック図である。
図13において、コンピュータシステム1300は、CD−ROMドライブを含むコンピュータ1301と、キーボード1302と、マウス1303と、モニタ1304と、マイク1305とを含む。
図14において、コンピュータ1301は、CD−ROMドライブ13012に加えて、MPU13013と、バス13014と、ROM13015と、RAM13016と、ハードディスク13017とを含む。なお、バス13014は、MPU13013やCD−ROMドライブ13012に接続されている。また、ROM13015には、ブートアッププログラム等のプログラムが記憶されている。また、RAM13016は、MPU13013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのものである。また、ハードディスク13017は、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのものである。ここでは、図示しないが、コンピュータ1301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム1300に、上述した実施の形態の音響モデル生成装置の機能を実行させるプログラムは、CD−ROM13101に記憶されて、CD−ROMドライブ13012に挿入され、さらにハードディスク13017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ1301に送信され、ハードディスク13017に記憶されても良い。プログラムは実行の際にRAM13016にロードされる。プログラムは、CD−ROM13101またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ1301に、上述した実施の形態の音響モデル生成装置の機能を実行させるオペレーティングシステム、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム1300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる音響モデル生成装置は、適切な音響モデルを学習できるという効果を有し、音響モデル生成装置等として有用である。
1 音響モデル生成装置
11 第一格納部
12 第二格納部
13 受付部
14 音声認識部
15 データ取得部
16 第一音響モデル学習部
17 適応処理部
18 第二音響モデル学習部
19 制御部
20 蓄積部

Claims (6)

  1. 属性が異なるN(Nは2以上の自然数)の音響モデルであるNの旧音響モデルを格納し得る第一格納部と、
    対象言語の1以上の音声データを受け付ける受付部と、
    前記1以上の各音声データに対して、前記Nの各旧音響モデルを用いて、前記Nの属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、
    前記Nの属性のうち、M(Mは2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、
    前記データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、新しい音響モデルであるN以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部とを具備し、
    前記音声認識部は、
    前記受付部が受け付けた1以上の各音声データに対して、前記第一音響モデル学習部が取得したN以下の各新音響モデルを用いて、N以下の属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、
    前記データ取得部は、
    前記第二の音声認識処理の結果、N以下の属性のうち、M(Mは2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、
    前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部と
    前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記N以下の属性ごとに音響モデルの適応処理を行い、前記N以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部とを具備し、
    前記適応処理部が行う適応処理、
    前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、
    前記データ取得部が行う前記第一のデータ取得処理、
    前記第一音響モデル学習部が行う前記第一の学習処理、
    前記音声認識部が行う、前記第二の音声認識処理、および
    前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、1または2回以上繰り返して行い、
    前記第二音響モデル学習部は、
    前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、前記第二の学習処理を行う音響モデル生成装置。
  2. 前記一連処理を、教師ラベルの増加量が閾値以内、または閾値より小さくなるまで繰り返す請求項記載の音響モデル生成装置。
  3. 前記第一のデータ取得処理におけるMと前記第二のデータ取得処理におけるMとが異なる数値である、または2回以上繰り返される第一のデータ取得処理におけるMが異なる数値である請求項1または請求項記載の音響モデル生成装置。
  4. 前記属性は、言語、発話スタイル、雑音の有無、雑音の程度、環境の違いのうちのいずれか1以上である請求項1から請求項いずれか一項に記載の音響モデル生成装置。
  5. 記録媒体は、
    属性が異なるN(Nは2以上の自然数)の音響モデルであるNの旧音響モデルを格納し得る第一格納部を具備し、
    受付部、音声認識部、データ取得部、第一音響モデル学習部、第二音響モデル学習部、および適応処理部により実現され得る音響モデル生成方法であって、
    前記受付部が、対象言語の1以上の音声データを受け付ける受付ステップと、
    前記音声認識部が、前記1以上の各音声データに対して、前記Nの各旧音響モデルを用いて、前記Nの属性ごとに、前記1以上の各音声データに教師ラベルを付与する第一の音声認識ステップと、
    前記データ取得部が、前記Nの属性のうち、M(Mは2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識ステップで付与された場合、当該同一の教師ラベルを付与された音声データを取得する第一のデータ取得ステップと、
    前記第一音響モデル学習部が、前記第一のデータ取得ステップで取得された音声データであって、教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、新しい音響モデルであるN以下の新音響モデルを取得する第一の学習ステップと、
    前記音声認識部が、前記1以上の各音声データに対して、前記第一の学習ステップで取得されたNの各新音響モデルを用いて、N以下の属性ごとに、前記1以上の各音声データに教師ラベルを付与する第二の音声認識ステップと、
    前記データ取得部が、前記第二の音声認識ステップにおける処理の結果、N以下の属性のうち、M2(M2は2以上の自然数)以上の属性に対して、同一の教師ラベルを前記第二の音声認識ステップで付与された場合、当該同一の教師ラベルを付与された音声データを取得する第二のデータ取得ステップと、
    前記第二音響モデル学習部が、前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する第二の学習ステップと
    前記適応処理部が、前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記N以下の属性ごとに音響モデルの適応処理を行い、前記N以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理ステップとを具備し、
    前記適応処理部が行う適応処理、
    前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、
    前記データ取得部が行う前記第一のデータ取得処理、
    前記第一音響モデル学習部が行う前記第一の学習処理、
    前記音声認識部が行う、前記第二の音声認識処理、および
    前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、1または2回以上繰り返して行い、
    前記第二の学習ステップにおいて、
    前記第二音響モデル学習部は、前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う音響モデルの生産方法。
  6. コンピュータがアクセス可能な記録媒体は、
    属性が異なるN(Nは2以上の自然数)の音響モデルであるNの旧音響モデルを格納し得る第一格納部を具備し、
    コンピュータを
    対象言語の1以上の音声データを受け付ける受付部と、
    前記1以上の各音声データに対して、前記Nの各旧音響モデルを用いて、前記Nの属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第一の音声認識処理を行う音声認識部と、
    前記Nの属性のうち、M(Mは2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第一のデータ取得処理を行うデータ取得部と、
    前記データ取得部が取得した音声データであって、教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、新しい音響モデルであるN以下の新音響モデルを取得する、第一の学習処理を行う第一音響モデル学習部として機能させるためのプログラムであって、
    前記音声認識部は、
    前記受付部が受け付けた1以上の各音声データに対して、前記第一音響モデル学習部が取得したN以下の各新音響モデルを用いて、N以下の属性ごとに、前記1以上の各音声データに教師ラベルを付与する、第二の音声認識処理を行い、
    前記データ取得部は、
    前記第二の音声認識処理の結果、N以下の属性のうち、M2(M2は2以上の自然数)以上の属性に対して、同一の教師ラベルを前記音声認識部が付与した場合、当該同一の教師ラベルを付与された音声データを取得する、第二のデータ取得処理を行い、
    コンピュータを、
    前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、第二の学習処理を行う第二音響モデル学習部と
    前記データ取得部が行った第二のデータ取得処理の結果、取得された同一の教師ラベルを付与された音声データと前記旧音響モデルとを用いて、前記N以下の属性ごとに音響モデルの適応処理を行い、前記N以下の属性ごとに、更新された旧音響モデルを取得する、適応処理を行う適応処理部としてさらに機能させるためのプログラムであって、
    前記適応処理部が行う適応処理、
    前記音声認識部が行う、前記更新された旧音響モデルを使用した前記第一の音声認識処理、
    前記データ取得部が行う前記第一のデータ取得処理、
    前記第一音響モデル学習部が行う前記第一の学習処理、
    前記音声認識部が行う、前記第二の音声認識処理、および
    前記データ取得部が行う、前記第二のデータ取得処理からなる一連処理を、1または2回以上繰り返して行い、
    前記第二音響モデル学習部は、
    前記データ取得部が最後に取得した前記同一の教師ラベルを付与された音声データを用いて、N以下の属性ごとに、音響モデルの学習を行い、対象言語の音響モデルを取得する、前記第二の学習処理を行うものとして、コンピュータを機能させるためのプログラム。
JP2014039028A 2014-02-28 2014-02-28 音響モデル生成装置、音響モデルの生産方法、およびプログラム Active JP6350935B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014039028A JP6350935B2 (ja) 2014-02-28 2014-02-28 音響モデル生成装置、音響モデルの生産方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014039028A JP6350935B2 (ja) 2014-02-28 2014-02-28 音響モデル生成装置、音響モデルの生産方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015161927A JP2015161927A (ja) 2015-09-07
JP6350935B2 true JP6350935B2 (ja) 2018-07-04

Family

ID=54185019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014039028A Active JP6350935B2 (ja) 2014-02-28 2014-02-28 音響モデル生成装置、音響モデルの生産方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6350935B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7021437B2 (ja) * 2018-08-15 2022-02-17 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
KR102418887B1 (ko) * 2018-11-20 2022-07-11 한국전자통신연구원 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법
CN109616105A (zh) * 2018-11-30 2019-04-12 江苏网进科技股份有限公司 一种基于迁移学习的带噪语音识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006098994A (ja) * 2004-09-30 2006-04-13 Advanced Telecommunication Research Institute International 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム
JP5688761B2 (ja) * 2011-02-28 2015-03-25 独立行政法人情報通信研究機構 音響モデル学習装置、および音響モデル学習方法
JP2013064951A (ja) * 2011-09-20 2013-04-11 Toyota Motor Corp 音響モデル適応装置、その適応方法及びプログラム

Also Published As

Publication number Publication date
JP2015161927A (ja) 2015-09-07

Similar Documents

Publication Publication Date Title
US10249294B2 (en) Speech recognition system and method
JP6550068B2 (ja) 音声認識における発音予測
JP5326892B2 (ja) 情報処理装置、プログラム、および音響モデルを生成する方法
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
KR20230003056A (ko) 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식
Lal et al. Cross-lingual automatic speech recognition using tandem features
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
US11295733B2 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
US20020040296A1 (en) Phoneme assigning method
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
JP7314079B2 (ja) データ生成装置、データ生成方法およびプログラム
Pietquin et al. Comparing ASR modeling methods for spoken dialogue simulation and optimal strategy learning.
Li et al. Cantonese automatic speech recognition using transfer learning from mandarin
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
CN111933121A (zh) 一种声学模型训练方法及装置
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180525

R150 Certificate of patent or registration of utility model

Ref document number: 6350935

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350