JP4779239B2

JP4779239B2 - 音響モデル学習装置、音響モデル学習方法、およびそのプログラム

Info

Publication number: JP4779239B2
Application number: JP2001179125A
Authority: JP
Inventors: 優高野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-06-13
Filing date: 2001-06-13
Publication date: 2011-09-28
Anticipated expiration: 2021-06-13
Also published as: JP2002372987A

Description

【０００１】
【発明の属する技術分野】
本発明は、音響モデル学習装置、音響モデル学習方法、およびそのプログラムに関し、特に、音声サンプルの特性に応じて音声サンプルに重み付けを行い、信頼性の高い音響モデルを作成する音響モデル学習装置、音響モデル学習方法、およびそのプログラムに関する。
【０００２】
【従来の技術】
音響モデル学習装置は、実際の音声を用いて、音声認識に使用される音響モデルを学習することが多い。一般に、学習される音響モデルとして、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（隠れマルコフモデル、以下、ＨＭＭとする）が用いられる。また、ＨＭＭにおける状態を表す確率分布としては、連続混合分布が用いられる場合が多い。また、多くの場合、ＨＭＭの学習には、フォワード・バックワード法が用いられる。上記のようなＨＭＭによる音響モデルのパラメータの推定について記載されている文献としては、ＬａｗｒａｎｃｅＬａｂｉｎｅｒ，Ｂｉｉｎｇ−ＨｗａｎｇＪｕａｎｇ「ＦｕｎｄａｍｅｎｔａｌｓｏｆＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ１９９３ｐ．３３３〜ｐ．３８９」（以下、従来例１）があった。
【０００３】
従来例１では、ＨＭＭに用いられる連続混合確率分布を構成する複数の確率分布それぞれに、連続混合確率分布における混合比を示す混合重みを付加していた。
【０００４】
以下、フォワード・バックワード法を用いたＨＭＭにおけるパラメータの計算方法について説明する。
【０００５】
時刻（フレーム）ｔごとの特徴量をＯ_t（ｔは１以上Ｔ以下の整数）とすると、フォワード・バックワード法におけるフォワード確率αは、以下に示す（式１．１）および（式１．２）により示される。
【０００６】
【数１】

【０００７】
なお、フォワード確率α（ｔ，ｉ）は、特徴量Ｏ_tを観測し、状態Ｓ_iにある確率を示す。同様に、フォワード確率α（１，ｉ）は、特徴量Ｏ₁を観測し、状態Ｓ_iにある確率、フォワード確率α（ｔ＋１，ｊ）は、特徴量Ｏ_t+1を観測し、状態Ｓ_jにある確率を示す。
【０００８】
また、状態遷移確率ａ_ijは、状態Ｓ_iから状態Ｓ_jへ遷移する確率を表す。観測確率ｂ（ｉ，Ｏ₁）は、状態Ｓ_iに遷移する際に、フレームｔにおける特徴量Ｏ_tが観測される確率を示す。
【０００９】
また、フォワード・バックワード法におけるバックワード確率βは、以下に示す（式２．１）および（式２．２）により示される。
【００１０】
【数２】

【００１１】
なお、バックワード確率β（ｔ，ｉ）は、フレームｔにおいて状態Ｓ_iにあり、以後フレーム（ｔ＋１）において特徴量Ｏ_t+1を観測する確率を示す。フレームＴは、最終状態におけるフレームを表す。
【００１２】
また、フォワード・バックワード法における対応確率γは、フォワード確率αとバックワード確率βとに基づいて、計算される。対応確率γは、以下に示す（式３．１）により示される。
【００１３】
【数３】

【００１４】
なお、対応確率γ（ｔ，ｊ，ｋ）は、フレームｔに状態Ｓ_jに遷移した際、状態Ｓ_jにおけるｋ番目の混合分布要素において特徴量Ｏ_tを観測する確率である。また、Ｎ（Ｏ_t，μ_jk，Ｕ_jk）は、状態Ｓ_jのｋ番目の混合分布要素で、モデル化される特徴量がＯ_t、平均ベクトルがμ_jk、共分散行列がＵ_jkの確率分布である。また、ｃ_jkは、Ｎ（Ｏ_t，μ_jk，Ｕ_jk）に対する混合重み係数である。
【００１５】
また、ＨＭＭにおける状態Ｓ_jのｋ番目の混合分布要素のパラメータである混合重みｃ_jk、平均ベクトルμ（ｔ，ｊ，ｋ）、および共分散行列Ｕ（ｊ，ｋ）の各平均は、以下に示す（式４．１）、（式４．２）、および（式４．３）により計算される。
【００１６】
【数４】

【００１７】
なお、混合重みｃ_jkは、ＨＭＭにおける状態Ｓ_jのｋ番目の混合分布要素に対する混合重みである。また、平均ベクトルμ（ｔ，ｊ，ｋ）は、ＨＭＭにおける状態Ｓ_jのｋ番目の混合分布要素の平均ベクトルである。また、共分散行列Ｕ（ｊ，ｋ）は、ＨＭＭにおける状態Ｓ_jのｋ番目の混合分布要素の共分散行列である。また、Ｖ_kは、文字列Ｖにおける所定の文字を示す。また、（Ｏ_t−μ_jk）’は、ベクトル（Ｏ_t−μ_jk）の対置ベクトルを表す。
【００１８】
また、特開平５−２３２９８９号公報が開示するところの音響モデルの話者適応化法（以下、従来例２）では、ＨＭＭに用いられる連続混合確率分布を構成する複数の確率分布それぞれの混合比を決める重み係数だけを再推定していた。
【００１９】
また、特開平１０−１１０８６号公報が開示するところの隠れマルコフモデルの計算方式（以下、従来例３）には、フォワードバックワード法を用いたＨＭＭの計算方式が記載されていた。
【００２０】
【発明が解決しようとする課題】
一般に、信頼性の高い確率モデルの学習には、大量の音声データが必要となる。特に、不特定話者用の音響モデルには、話者の個人差による音声の変動を吸収する必要がある。従って、不特定話者用の音響モデルには、話者の発声による音声データが多数必要となる。しかしながら、大量の音声サンプルを収集する際には、話者の誤発声あるいは低品質の音声が混入する可能性がある。
【００２１】
さらに、確率モデル（音響モデル）の推定を行う場合に、以下に示すような問題が生じてしまう。通常、音声データを収集する際、話者の自然な発声による音声データを得る必要がある。従って、音声データとして収集される話者の発声内容は、実際に存在する単語が用いられる。また、実際に存在する単語を構成する音素（文字）の分布には必然的に偏りが生じる。例えば、日本語の場合は、母音、特に「あ」の出現頻度が非常に高い。確率モデルを推定する場合、確率分布を推定するサンプル数によって確率分布の信頼性に格差が生じてしまう。従って、単語を構成する音素を音響モデルを構築する音声データとして用いる場合、音素の出現頻度の偏りを修正する必要がある。
【００２２】
本発明は、上記問題点に鑑みてなされたものであり、従来例１、従来例２、および従来例２と従来例３とを組み合わせたものにおいてＨＭＭの各混合分布要素に付加されている重みに加え、収集した音声サンプルの特性に応じて設定された重み係数を、音声サンプルの各フレームにさらに付加することによって、特定の音声サンプルあるいは音声サンプルの特定部分を音響モデルの学習の際に増幅あるいは除去し、音声サンプルを構成する音素の出現頻度の偏りを修正し、信頼性の高い音響モデルを提供する音響モデル学習装置を提供することを目的とする。
【００２３】
【課題を解決するための手段】
かかる目的を達成するために、本発明は、以下の特徴を有する。本発明にかかる音響モデル学習装置は、
入力される学習用音声からフレームごとに特徴量を抽出する音声分析手段と、
所定の音声からフレームごとに抽出された特徴量を示す確率分布を用いて、前記所定の音声のフレームごとに分割された前記所定の音声の断片を状態として表現し、該状態を構成単位とする入力音響モデルと、前記学習用音声の内容を示す文字列情報である正解列と、に基づいて、前記入力音響モデルにおける前記状態に前記正解列を割り当てた状態列の情報である学習用辞書を生成する辞書生成手段と、
該辞書生成手段により生成された学習用辞書を参照し、前記学習用音声の特徴量と前記入力音響モデルにおける状態との対応確率を前記学習用音声のフレームごとに算出する対応確率算出手段と、
前記学習用辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第１の最尤状態列を生成する第１の最尤状態列生成手段と、
任意の文字を表す辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第２の最尤状態列を生成する第２の最尤状態列生成手段と、
前記第１の最尤状態列と前記第２の最尤状態列とを比較し、該比較結果に基づいて、前記対応確率に重み付けする際に付加する係数である重み係数を、前記学習用音声のフレームごとに算出する重み計算手段と、
前記対応確率算出手段により算出された対応確率と、前記重み計算手段により算出された重み係数と、前記音声分析手段により算出された特徴量と、に基づいて統計量を算出し、該算出した統計量に基づいて、前記入力音響モデルのパラメータを再推定し、出力音響モデルを作成する再評価手段と、
を有する
ことを特徴とする。
【００２４】
本発明にかかる音響モデル学習方法は、
入力される学習用音声からフレームごとに特徴量を抽出する音声分析工程と、
所定の音声からフレームごとに抽出された特徴量を示す確率分布を用いて、前記所定の音声のフレームごとに分割された前記所定の音声の断片を状態として表現し、該状態を構成単位とする入力音響モデルと、前記学習用音声の内容を示す文字列情報である正解列と、に基づいて、前記入力音響モデルにおける前記状態に前記正解列を割り当てた状態列の情報である学習用辞書を生成する辞書生成工程と、
該辞書生成工程により生成された学習用辞書を参照し、前記学習用音声の特徴量と前記入力音響モデルにおける状態との対応確率を前記学習用音声のフレームごとに算出する対応確率算出工程と、
前記学習用辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第１の最尤状態列を生成する第１の最尤状態列生成工程と、
任意の文字を表す辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第２の最尤状態列を生成する第２の最尤状態列生成工程と、
前記第１の最尤状態列と前記第２の最尤状態列とを比較し、該比較結果に基づいて、前記対応確率に重み付けする際に付加する係数である重み係数を、前記学習用音声のフレームごとに算出する重み計算工程と、
前記対応確率算出工程により算出された対応確率と、前記重み計算工程により算出された重み係数と、前記音声分析工程により算出された特徴量と、に基づいて統計量を算出し、該算出した統計量に基づいて、前記入力音響モデルのパラメータを再推定し、出力音響モデルを作成する再評価工程と、
を有する
ことを特徴とする。
【００２５】
本発明にかかるプログラムは、
入力される学習用音声からフレームごとに特徴量を抽出する音声分析処理と、
所定の音声からフレームごとに抽出された特徴量を示す確率分布を用いて、前記所定の音声のフレームごとに分割された前記所定の音声の断片を状態として表現し、該状態を構成単位とする入力音響モデルと、前記学習用音声の内容を示す文字列情報である正解列と、に基づいて、前記入力音響モデルにおける前記状態に前記正解列を割り当てた状態列の情報である学習用辞書を生成する辞書生成処理と、
該辞書生成処理により生成された学習用辞書を参照し、前記学習用音声の特徴量と前記入力音響モデルにおける状態との対応確率を前記学習用音声のフレームごとに算出する対応確率算出処理と、
前記学習用辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第１の最尤状態列を生成する第１の最尤状態列生成処理と、
任意の文字を表す辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第２の最尤状態列を生成する第２の最尤状態列生成処理と、
前記第１の最尤状態列と前記第２の最尤状態列とを比較し、該比較結果に基づいて、前記対応確率に重み付けする際に付加する係数である重み係数を、前記学習用音声のフレームごとに算出する重み計算処理と、
前記対応確率算出処理により算出された対応確率と、前記重み計算処理により算出された重み係数と、前記音声分析処理により算出された特徴量と、に基づいて統計量を算出し、該算出した統計量に基づいて、前記入力音響モデルのパラメータを再推定し、出力音響モデルを作成する再評価処理と、
を、コンピュータに実行させることを特徴とする。
【００４１】
【発明の実施の形態】
（第１の実施形態）
図１は、本発明の第１の実施形態における音響モデル学習装置の構成を示す図である。以下、図１を用いて、本実施形態における音響モデル学習装置の構成について説明する。なお、本実施形態では、音響モデルとして連続混合確率分布によるＨＭＭを用いる。上記の音響モデルでは、所定の音声からフレームごとに抽出された特徴量を示す確率分布を用いることによって、上記のフレームごとに分割された音声の断片が状態として表現され、その状態が構成単位となる。
【００４２】
音響モデル学習装置は、音声分析部１０１と、辞書部１０２と、フォワード・バックワード計算部１０３と、再評価部１０４と、ビタビ計算部１０５と、重み計算部１０６と、を有する。以下、図１を用いて音響モデル学習装置の各部位について説明する。
【００４３】
音声分析部１０１には、音響モデルの学習に用いられる音声情報である学習用音声が入力される。なお、上記の学習用音声は、ビタビ計算部１０５にも入力される。
【００４４】
音声分析部１０１は、入力された学習用音声を所定周期ごとに区切り、その区間を「フレーム」として、フレームごとに学習用音声の周波数分析を行う。上記の分析の結果抽出されたフレームごとの学習用音声の（音響的）特徴量は、フォワード・バックワード計算部１０３および再評価部１０４に入力される。なお、特徴量としては、音声のパワーを用いてもよいし、パワーの変化量、ケプストラム、あるいはケプストラム変化量等を用いてもよい。
【００４５】
辞書部１０２には、音響モデルおよび正解列が入力される。上記の正解列は、所定の入力手段（図示せず）により入力される文字列の情報としてもよい。所定の入力手段は、音声分析部１０１およびビタビ計算部１０５に入力された学習用音声の内容を示す文字情報を正解列として辞書部１０２に入力する。
【００４６】
また、辞書部１０２は、入力された音響モデル（以下、入力音響モデル）と入力された正解列とに基づいて、サブワードモデルによる学習用辞書を作成し、格納する。なお、サブワードモデルによる学習用辞書とは、入力された正解列（例えば、実際に存在する単語等）を、音素あるいは音節単位（サブワード単位）等に分割した状態列の情報である。また、辞書部１０２は、学習用辞書とは別に、任意の文字列の情報である「任意の文字列を表す辞書」を予め格納している。
【００４７】
フォワード・バックワード計算部１０３は、辞書部１０２に格納されている学習用辞書を参照し、音声分析部１０１により抽出された学習用音声の特徴量と、入力された入力音響モデルと、に基づいて、フォワード・バックワード法によるフォワード確率とバックワード確率とを算出する。さらに、フォワード・バックワード計算部１０３は、算出したフォワード確率とバックワード確率とに基づいて、学習用音声の特徴量と入力音響モデルの状態との間の対応確率を算出する。フォワード・バックワード計算部１０３は、算出した対応確率を再評価部１０４へ出力する。
【００４８】
フォワード・バックワード計算部１０３は、入力された学習用音声から変換されたフレームｔごとの特徴量をＯ_t（ｔは１以上Ｔ以下の整数）として、フォワード確率αを、以下に示す（式１．１）および（式１．２）に基づいて算出する。また、フォワード・バックワード計算部１０３は、バックワード確率βを、（式２．１）および（式２．２）により示されている式に基づいて算出する。
【００４９】
また、フォワード・バックワード計算部１０３は、算出したフォワード確率αとバックワード確率βとを用いて、対応確率γを、（式３．１）により示される式に基づいて算出する。
【００５０】
ビタビ計算部１０５には、音声分析部１０１と同様の学習用音声が入力される。また、ビタビ計算部１０５には、辞書部１０２を介して入力音響モデルが入力される。
【００５１】
ビタビ計算部１０５は、入力された学習用音声を所定時間（フレーム）ごとに分割する。次に、ビタビ計算部１０５は、所定の文字情報を参照して、上記の各フレームに入力音響モデルに基づく状態あるいは複数の状態からなる状態列を最尤に割り当て、ビタビマッチング（ＶｉｔｅｒｂｉＭａｔｃｈｉｎｇ）を行い、所定の最尤状態列を作成する。
【００５２】
重み計算部１０６は、ビタビ計算部１０５により複数種類の所定の文字情報を参照して作成された複数種類の最尤状態列に基づいて重み係数Ｒ_tを算出する。
【００５３】
再評価部１０４は、重み計算部１０６により算出された重み係数Ｒ_tと、フォワード・バックワード計算部１０３により算出された対応確率と、音声分析部１０１により抽出された特徴量と、フォワード・バックワード計算部１０３を介して入力された入力音響モデルと、に基づいて、音響モデルの各状態の統計量（混合重み、平均ベクトル、および共分散行列の各平均）を計算する。再評価部１０４は、抽出された統計量に基づいて、入力音響モデルの各パラメータ（混合重み、平均ベクトル、および共分散行列の各平均）を再評価する。再評価部１０４は、入力音響モデルの各パラメータの再評価に基づいて、音響モデルを作成する。再評価部１０４は、作成した音響モデルを、出力音響モデルとして出力する。
【００５４】
再評価部１０４は、対応確率γに重み係数Ｒ_tを積算して重み付けを行う。再評価部１０４は、重み付けされた対応確率γ・Ｒ_tを用いて、混合重みｃ_jk、平均ベクトルμ（ｔ，ｊ，ｋ）、および共分散行列Ｕ（ｊ，ｋ）の各平均を統計量として算出する。上記の統計量は、以下に示す（式５．１）、（式５．２）、および（式５．３）により与えられる。
【００５５】
【数５】

【００５６】
なお、混合重みｃ_jkは、ＨＭＭにおける状態Ｓ_jのｋ番目の混合分布要素に対する混合重みである。また、平均ベクトルμ（ｔ，ｊ，ｋ）は、ＨＭＭにおける状態Ｓ_jのｋ番目の混合分布要素の平均ベクトルである。また、共分散行列Ｕ（ｊ，ｋ）は、ＨＭＭにおける状態Ｓ_jのｋ番目の混合分布要素の共分散行列である。また、Ｖ_kは、文字列Ｖにおける所定の文字を示す。また、（Ｏ_t−μ_jk）’は、ベクトル（Ｏ_t−μ_jk）の対置ベクトルを表す。
【００５７】
図２は、本発明の第１の実施形態における入力音響モデルが表現可能な音素セットを示す図である。また、図３は、本発明の第１の実施形態における音響モデル学習装置が作成する学習用辞書を示す図である。また、図４は、本発明の第１の実施形態における重み係数Ｒ_tを示す図である。また、図９は、本発明の第１の実施形態における音響モデル学習装置の動作の流れを示すフローチャートである。以下、図１〜４を用い、図９に沿って本実施形態における音響モデル学習装置の動作について説明する。
【００５８】
本実施形態では、学習用音声の一例として、所定の話者による「加藤今太郎（かとうこんたろう）」の発声を用いる。また、本実施形態では、入力音響モデル（初期モデル）として、上記の所定の話者による「かとうこんたろう」の発声を、「さとうこんたろう」と認識する音響モデルが与えられたとする。
【００５９】
なお、ＨＭＭでは、１状態に対応する音声の長さは可変であり、ビタビマッチング等を用いることにより、ＨＭＭにおける最尤な状態系列が得られる。しかしながら、本実施形態では、簡単のために、入力音声は１４フレームの音声であり、１フレームにつき１状態が割り当てられているものとする。
【００６０】
まず、所定の制御手段（図示せず）は、学習用音声が音声分析部１０１に入力されたか否かを判断する（ステップＳ９０１）。学習用音声が音声分析部１０１に入力されていないと判断された場合（ステップＳ９０１／Ｎｏ）、ステップＳ９０１の工程が繰り返される。
【００６１】
学習用音声が音声分析部１０１に入力されたと判断された場合（ステップＳ９０１／Ｙｅｓ）、音声分析部１０１は、フレームごとに学習用音声の周波数を分析し、その分析した学習用音声の周波数に基づいて学習用音声の特徴量を抽出する（ステップＳ９０２）。抽出した学習用音声の特徴量は、フォワード・バックワード計算部１０３および再評価部１０４へ出力される。
【００６２】
次に、所定の制御手段は、正解列および入力音響モデルが辞書部１０２に入力されたか否かを判断する（ステップＳ９０３）。正解列および入力音響モデルが入力されていないと判断された場合（ステップＳ９０３／Ｎｏ）、ステップＳ９０３の工程が繰り返される。
【００６３】
正解列および入力音響モデルが辞書部１０２に入力されたと判断された場合（ステップＳ９０３／Ｙｅｓ）、辞書部１０２は、入力された正解列と入力音響モデルとに基づいて学習用辞書を作成し、作成した学習用辞書を格納する（ステップＳ９０４）。
【００６４】
ここで、図２および図３を用いて、辞書部１０２が学習用辞書を作成する工程について説明する。図２には、本実施形態における入力音響モデルが表現できる音素の列（音素セット）が示されている。上記の音素セットは、入力音響モデルに含まれている。辞書部１０２は、上記の音素セットを用いて、学習用音声「かとうこんたろう」を「ｋ−ａ−ｔ−ｏ−ｕ−ｋ−ｏ−ｎｇ−ｔ−ａ−ｒ−ｏ−ｕ」と音素単位に分割する。分割した音素を、状態Ｓ_i（ｉは１以上１３以下の整数）にそれぞれ割り当て、図３に示されるような状態列、すなわち学習用音声に対応する学習用辞書を作成する。辞書部１０２は、作成した学習用辞書を格納する。
【００６５】
辞書部１０２による学習用辞書作成後、フォワード・バックワード計算部１０３は、辞書部１０２により作成された学習用辞書を参照し、音声分析部１０１により抽出された特徴量に基づいて、フォワード確率およびバックワード確率を算出する（ステップＳ９０５）。
【００６６】
次に、フォワード・バックワード計算部１０３は、算出したフォワード確率とバックワード確率とに基づいて対応確率を算出する（ステップＳ９０６）。
【００６７】
所定の制御手段は、音声分析部１０１に入力された学習用音声と同様の学習用音声がビタビ計算部１０５に入力されたか否かを判断する。また、所定の制御手段は、入力音響モデルが辞書部１０２を介してビタビ計算部１０５に入力されたか否かを判断する（ステップＳ９０７）。学習用音声および入力音響モデルがビタビ計算部１０５に入力されていないと判断された場合（ステップＳ９０７／Ｎｏ）、ステップＳ９０７の工程が繰り返される。
【００６８】
学習用音声および入力音響モデルがビタビ計算部１０５に入力されたと判断された場合（ステップＳ９０７／Ｙｅｓ）、ビタビ計算部１０５は、入力された学習用音声および入力音響モデルを用い、辞書部１０２により作成された学習用辞書を参照して、ビタビマッチングにより最尤状態列を生成する（ステップＳ９０８）。なお、学習用辞書を参照して生成された上記の最尤状態列を第１の最尤状態列とする。
【００６９】
さらに、ビタビ計算部１０５は、入力された学習用音声および入力音響モデルを用い、辞書部１０２に格納されている任意の文字列を表す辞書を参照して、ビタビマッチングにより最尤状態列を生成する（ステップＳ９０９）。なお、任意の文字を表す辞書を参照して生成された上記の最尤状態列を第２の最尤状態列とする。
【００７０】
次に、重み計算部１０６は、ビタビ計算部１０５により生成された第１の最尤状態列の各状態と第２の最尤状態列の各状態を比較し、以下に示す（式６．１）および（式６．２）により与えられる重み係数Ｒ_tを算出する（ステップＳ９１０）。なお、重み係数Ｒ_tは、学習用音声の各フレームにそれぞれ対応するように算出される。
【００７１】
【数６】

【００７２】
話者による誤発声あるいは品質の低い音声を学習用音声として用いた場合、入力された正解列と入力音響モデルにより認識される学習用音声との間で差異が発生する可能性、つまり、入力された学習用音声による所定の言語単位（例えば、音素単位、音節単位等）の音声サンプルが音響モデルにより誤認識される可能性が高い。上記の誤認識された音声サンプルが出力音響モデルに大きく反映しないようすることによって、信頼性の高い出力音響モデルを得ることが可能となる。
【００７３】
重み計算部１０６は、第１の最尤状態列における各状態と、第２の最尤状態列における各状態と、をフレームごとに比較し、上記の（式６．１）および（式６．２）に基づいて重み係数Ｒ_tを算出する。
【００７４】
（式６．１）は、所定のフレームにおいて、第１の最尤状態列と第２の最尤状態列との間に差異が発生した場合の重み係数Ｒ_tを与える式であり、上記の場合、重み係数Ｒ_tは「０」として算出される。
【００７５】
（式６．２）は、全てのフレームにおいて、第１の最尤状態列と第２の最尤状態列とが一致した場合の重み係数Ｒ_tを与える式であり、上記の場合、重み係数Ｒ_tは「１」として算出される。
【００７６】
話者の誤発声等により学習用音声の品質が低下した場合、その品質低下が生じた部分に対応するフレームに割り当てられている第１の最尤状態列の状態と、第２の最尤状態列の状態との間に差異が発生する。従って、信頼性の高い出力音響モデルを得るためには、上記の差異が生じた部分が出力音響モデルに反映されないようにする必要がある。
【００７７】
本実施形態では、学習用音声における高品質部分（所定のフレームにおいて第１の最尤状態列の状態と第２の最尤状態列とが一致した状態）の重み係数Ｒ_tを「１」とし、低品質部分の重み係数Ｒ_tを高品質部分の重み係数Ｒ_tよりも低い値である「０」とすることによって、学習用音声の低品質部分、すなわち学習用音声が入力音響モデルにより誤認識されている部分が出力音響モデルに反映されないようにしている。
【００７８】
本実施形態における入力音響モデルでは、学習用音声「かとうこんたろう」は、「さとうこんたろう」と認識される。上記のような場合、「か」の部分が実際にどのような発声であったか不明であるが、「か」の部分における音素「ｋ」が入力音響モデルにより誤認識されている。音素「ｋ」のモデルが正しく認識される出力音響モデルを作成するためには、「か」の部分の音素「ｋ」が出力音響モデルに反映しないように設定される必要がある。
【００７９】
図１４は、（式６．１）および（式６．２）により図３の学習用辞書に与えられる重み係数Ｒ_tを示す図である。Ｒ_t（ｔ＝１〜１３）は、それぞれＳ_i（ｉ＝１〜１３）における重み係数である。図１４に示されているように、「か」の部分の音素「ｋ」（＝Ｓ₁）における重み係数Ｒ₁を「０」とし、他の音素（Ｓ₂〜Ｓ₁₃）における重み係数Ｒ₂〜Ｒ₁₃を「１」とすることによって、「か」の部分の音素「ｋ」が出力音響モデルに反映しないようにすることが可能となり、信頼性の高い音響モデルを作成することが可能となる。
【００８０】
なお、本実施形態では、重み係数Ｒ₁を「０」とすることにより、「か」の部分の音素「ｋ」が出力音響モデルに反映しないようにしたが、重み係数Ｒ₁を「０以上１未満の任意の値」に設定することによって、「か」の部分の音素「ｋ」が出力音響モデルに与える影響を調整することが可能となる。
【００８１】
以下、再び図９のフローチャートに沿って音響モデル学習装置の動作について説明を進める。再評価部１０４は、重み計算部１０６により算出された重み係数Ｒ_tと、音声分析部１０１により抽出された特徴量と、フォワード・バックワード計算部１０３により算出された対応確率と、に基づいて、音響モデルの各統計量（混合重み、平均ベクトル、および共分散行列の各平均）を算出する（ステップＳ９１１）。
【００８２】
再評価部１０４は、音響モデルの各統計量算出後、算出した統計量に基づいて、フォワード・バックワード計算部１０３を介して入力された入力音響モデルの各パラメータ（混合重み分布、平均ベクトル、および共分散行列の各平均）を再評価し、出力音響モデルを作成する（ステップＳ９１２）。作成された出力音響モデルは、再評価部１０４から出力される（ステップＳ９１３）。出力音響モデル出力後、音響モデル学習装置は、動作を終了する。
【００８３】
（第２の実施形態）
以下、特記しない限り、本発明の第２の実施形態における音響モデル学習装置の構成および動作は、本発明の第１の実施形態における音響モデル学習装置の構成および動作と同様であるとする。
【００８４】
一般に、騒音環境が学習用音声の品質を低下させる場合、学習用音声の誤認識は、単一の音素にとどまらず、その音素の周辺音素にも影響を与える。第１の実施形態では、重み係数Ｒ_tを音素ごとに設定していたが、環境騒音などの理由により複数の音素にわたって誤認識される場合、音節単位で重み付けを行うことによって、より信頼性の高い出力音響モデルを作成することが可能となる。
【００８５】
図５は、本発明の第２の実施形態における重み係数Ｒ_tを示す図である。第１の実施形態と同様に重み係数Ｒ_t（ｔ＝１〜１３）は、それぞれ図３における状態Ｓ_i（ｉ＝１〜１３）に対応する。
【００８６】
第１の実施形態では、「か」の音素「ｋ」（＝Ｓ₁）の重み係数Ｒ₁を「０」に設定していた。本実施形態では、学習用音声「かとうこんたろう」における音節「か（ｋ−ａ）」において、品質が低下し、第１の最尤状態列と第２の最尤状態列との間に差異が生じている。上記のように音節単位で学習用音声の品質低下が生じている場合、「か」の音素「ｋ」（＝Ｓ₁）の重み係数Ｒ₁と、音素「ａ」（＝Ｓ₂）の重み係数Ｒ₂と、をそれぞれ「０」に設定することによって、音素「ｋ」（＝Ｓ₁）の重み係数Ｒ₁のみを「０」とする場合と比較して、より信頼性の高い出力音響モデルを作成することが可能となる。
【００８７】
なお、本実施形態では、重み係数Ｒ₁およびＲ₂を「０」とすることにより、「か」の部分の音素「ｋ」および音素「ａ」が出力音響モデルに反映しないようにしたが、重み係数Ｒ₁およびＲ₂を「０以上１未満の任意の値」に設定することによって、「か」の部分の音素「ｋ」および音素「ａ」が出力音響モデルに与える影響を調整することが可能となる。
【００８８】
（第３の実施形態）
以下、特記しない限り、本発明の第３の実施形態における音響モデル学習装置の構成および動作は、本発明の第１の実施形態における音響モデル学習装置の構成および動作と同様であるとする。
【００８９】
第２の実施形態では、騒音環境による学習用音声の誤認識は、単一の音素にとどまらず、その音素の周辺音素にも影響を与える場合について説明した。第２の実施形態では、重み係数Ｒ_tを音節ごとに設定していたが、環境騒音などの理由により誤認識される音素の範囲が音節単位よりもさらに広い範囲にわたって存在する場合、重み付けする音素の範囲を音節単位よりもさらに拡大し、単語単位とすることによって、より信頼性の高い出力音響モデルを作成することが可能となる。
【００９０】
図６は、本発明の第３の実施形態における重み係数Ｒ_tを示す図である。第１の実施形態と同様に重み係数Ｒ_t（ｔ＝１〜１３）は、それぞれ図３における状態Ｓ_i（ｉ＝１〜１３）に対応する。
【００９１】
第１の実施形態では、「か」の音素「ｋ」（＝Ｓ₁）の重み係数Ｒ₁を「０」に設定していた。また、第２の実施形態では、「か」の音素「ｋ」（＝Ｓ₁）の重み係数Ｒ₁と、音素「ａ」（＝Ｓ₂）の重み係数Ｒ₂と、をそれぞれ「０」に設定していた。本実施形態では、学習用音声「かとうこんたろう」における単語「かとう（ｋ−ａ−ｔ−ｏ−ｕ）」において、品質が低下し、第１の最尤状態列と第２の最尤状態列との間に差異が生じている。上記のように単語単位で学習用音声の品質低下が生じている場合、単語「かとう（ｋ−ａ−ｔ−ｏ−ｕ）」における音素「ｋ」（＝Ｓ₁）、音素「ａ」（＝Ｓ₂）、音素「ｔ」（＝Ｓ₃）、音素「ｏ」（＝Ｓ₄）、および音素「ｕ」（＝Ｓ₅）それぞれに対応する重み係数Ｒ₁〜Ｒ₅を「０」とすることによって、音素単位あるいは音節単位で重み係数Ｒ_tを「０」とする場合と比較して、より信頼性の高い出力音響モデルを作成することが可能となる。
【００９２】
なお、本実施形態では、重み係数Ｒ₁〜Ｒ₅を「０」とすることにより、「かとう」の部分の音素「ｋ−ａ−ｔ−ｏ−ｕ」が出力音響モデルに反映しないようにしたが、重み係数Ｒ₁〜Ｒ₅を０以上１未満の任意の値に設定することによって、「かとう」の部分の音素「ｋ−ａ−ｔ−ｏ−ｕ」が出力音響モデルに与える影響を調整することが可能となる。
【００９３】
（第４の実施形態）
以下、特記しない限り、本発明の第４の実施形態における音響モデル学習装置の構成および動作は、本発明の第１の実施形態における音響モデル学習装置の構成および動作と同様であるとする。
【００９４】
上記の第１から第３の実施形態では、第１の最尤状態列と第２の最尤状態列との間で差異が生じた部分（学習用音声の品質が低下した部分）の重み係数Ｒ_tを「０」に設定し、出力音響モデルに反映されないようにしていた。本実施形態における音響モデル学習装置は、学習用音声における誤発声あるいは品質の低い音声が生じた部分を発声の一変化として積極的に取り入れ、学習用音声の高品質部分よりも高い重み係数Ｒ_tを設定することによって、低品質の学習用音声のサンプル数を増加させ、低品質の学習用音声に対する認識性能を向上させる。
【００９５】
図７は、本発明の第４の実施形態における重み係数Ｒ_tを示す図である。図７に示される重み係数Ｒ_tは、以下に示す（式７．１）および（式７．２）により与えられる。
【００９６】
【数７】

【００９７】
本実施形態では、第１の実施形態と同様に、所定の話者により入力された「かとうこんたろう」という学習用音声を、「さとうこんたろう」と認識する音響モデルが入力される。第１の実施形態では、「か」の音素「ｋ」（＝Ｓ₁）に対応する重み係数Ｒ₁を「０」に設定し、出力音響モデルに反映しないようにすることによって、信頼性の高い出力音響モデルを作成していた。本実施形態では、第１の最尤状態列と第２の最尤状態列との間で差異が発生した「か」の音素「ｋ」（＝Ｓ₁）に、第１の最尤状態列と第２の最尤状態列との間で一致した他の音素に設定された「重み係数Ｒ_t＝１（ｔ＝２〜１３）」よりも高い「重み係数Ｒ₁＝１０」を設定する。
【００９８】
上記のように、「重み係数Ｒ₁＝１０」と設定することによって、十分に学習されていない稀な特徴と考えられる「か」の音素「ｋ」（＝Ｓ₁）を、他の音素よりも出力音響モデルに大きく反映させることが可能となる。
【００９９】
なお、本実施形態では、重み係数Ｒ_tによる重み付けを音素単位で行ったが、第２の実施形態のように音節単位で行ってもよいし、第３の実施形態のように単語単位で行ってもよい。
【０１００】
また、本実施形態では、正解列と入力音響モデルにより認識された学習用音声との間で差異が生じた音素に対応する重み係数Ｒ_tを「１０」としたが、正解列と学習用音声との間で一致した音素と比較して大きな数値であれば、差異が生じた音素に対応する重み係数Ｒ_tは、他の値であってもよい。
【０１０１】
（第５の実施形態）
以下、特記しない限り、本発明の第５の実施形態における音響モデル学習装置の構成および動作は、本発明の第１の実施形態における音響モデル学習装置の構成および動作と同様であるとする。
【０１０２】
統計モデルの信頼性は、統計モデルのパラメータ学習に用いられた音声サンプル（音素、音節、あるいは単語）の量により大きく影響される。従って、各音響モデルにおける信頼性を均一化するためには、入力される各音声サンプルの量に著しい偏りが生じないようにする必要がある。
【０１０３】
本実施形態では、第１の最尤状態列における各状態ごとの重み係数Ｒ_tの和を一定にし、入力される所定の言語単位（音素、音節、あるいは単語等）の各音声サンプルにおけるサンプル数を均一化する。
【０１０４】
図１０は、本発明の第５の実施形態における音響モデル学習装置の動作の流れを示すフローチャートである。以下、図１を用い、図１０に沿って、本実施形態における音響モデル学習装置の動作について説明する。
【０１０５】
本実施形態では、第１の実施形態と同様に、学習用音声の一例として、所定の話者による「加藤今太郎（かとうこんたろう）」の発声を用いる。
【０１０６】
まず、所定の制御手段（図示せず）は、学習用音声が音声分析部１０１に入力されたか否かを判断する（ステップＳ１００１）。学習用音声が音声分析部１０１に入力されていないと判断された場合（ステップＳ１００１／Ｎｏ）、ステップＳ１００１の工程が繰り返される。
【０１０７】
学習用音声が音声分析部１０１に入力されたと判断された場合（ステップＳ１００１／Ｙｅｓ）、音声分析部１０１は、フレームごとに学習用音声の周波数を分析し、その分析した学習用音声の周波数に基づいて学習用音声の特徴量を抽出する（ステップＳ１００２）。抽出した学習用音声の特徴量は、フォワード・バックワード計算部１０３および再評価部１０４へ出力される。
【０１０８】
次に、所定の制御手段は、正解列および入力音響モデルが辞書部１０２に入力されたか否かを判断する（ステップＳ１００３）。正解列および入力音響モデルが入力されていないと判断された場合（ステップＳ１００３／Ｎｏ）、ステップＳ１００３の工程が繰り返される。
【０１０９】
正解列および入力音響モデルが辞書部１０２に入力されたと判断された場合（ステップＳ１００３／Ｙｅｓ）、辞書部１０２は、入力された正解列と入力音響モデルとに基づいて学習用辞書を作成し、作成した学習用辞書を格納する（ステップＳ１００４）。
【０１１０】
辞書部１０２による学習用辞書作成後、フォワード・バックワード計算部１０３は、辞書部１０２により作成された学習用辞書を参照し、音声分析部１０１により抽出された特徴量に基づいて、フォワード確率およびバックワード確率を算出する（ステップＳ１００５）。
【０１１１】
次に、フォワード・バックワード計算部１０３は、算出したフォワード確率とバックワード確率とに基づいて対応確率を算出する（ステップＳ１００６）。
【０１１２】
所定の制御手段は、音声分析部１０１に入力された学習用音声と同様の学習用音声がビタビ計算部１０５に入力されたか否かを判断する。また、所定の制御手段は、入力音響モデルが辞書部１０２を介してビタビ計算部１０５に入力されたか否かを判断する（ステップＳ１００７）。学習用音声および入力音響モデルがビタビ計算部１０５に入力されていないと判断された場合（ステップＳ１００７／Ｎｏ）、ステップＳ１００７の工程が繰り返される。
【０１１３】
学習用音声および入力音響モデルがビタビ計算部１０５に入力されたと判断された場合（ステップＳ１００７／Ｙｅｓ）、ビタビ計算部１０５は、入力された学習用音声および入力音響モデルを用い、辞書部１０２により作成された学習用辞書を参照して、ビタビマッチングにより最尤状態列を生成する（ステップＳ１００８）。なお、学習用辞書を参照して生成された上記の最尤状態列を第１の最尤状態列とする。
【０１１４】
次に、重み計算部１０６は、ビタビ計算部１０５により生成された第１の最尤状態列の各状態を参照し、以下に示す（式８．１）、（式９．１）、（式９．２）、および（式９．３）に基づいて、重み係数Ｒ_tを算出する（ステップＳ１００９）。
【０１１５】
【数８】

【０１１６】
【数９】

【０１１７】
本実施形態では、上記の（式８．１）で与えられる条件により、学習用音声を構成する同一の音声サンプル（音素、音節、あるいは単語単位）が割り当てられている状態ごとに重み係数Ｒ_tの和をとり、重み係数Ｒ_tの和が等しくなるように、重み係数Ｒ_tを算出することによって、各音声サンプルがそれぞれ出力音響モデルに与える影響が均一になる。
【０１１８】
本実施形態では、本発明の第１の実施形態と同様に図３に示される学習用辞書が生成されるとする。図８は、本発明の第５の実施形態における重み係数Ｒ_tを示す図である。図８に示される重み係数Ｒ_tは、上記の（式９．１）、（式９．２）および（式９．３）に基づいて設定されている。なお、図８における重み係数Ｒ_t（ｔ＝１〜１３）は、図３に示されている状態Ｓ_i（ｉ＝１〜１３）にそれぞれ対応している。
【０１１９】
本実施形態では、割り当てられたフレームの値が小さなものから順に、学習用音声を構成する音素を観測した場合、初めて観測された種類の音素に対応する重み係数Ｒ_tを「１」とし、以前観測された種類の音素に対応する重み係数Ｒ_tを「０」としている。
【０１２０】
以下、図３および図８を用いて説明すると、例えば、Ｓ₆の音素「ｋ」は、すでにＳ₁において観測されているので重み係数Ｒ₆は「０」に設定されている。一方、Ｓ₁₁の音素「ｒ」は、Ｓ₁〜Ｓ₁₀において観測されていないので重み係数Ｒ₁₁は「１」に設定されている。
【０１２１】
上記のように重み係数Ｒ_tが算出されることによって、同一種類の音素に付加されている重み係数Ｒ_tの和は、それぞれ「１」となり、各音素が音声サンプルとして収集される回数が均等となる。
【０１２２】
以下、再び図１０のフローチャートに沿って音響モデル学習装置の動作について説明を進める。再評価部１０４は、重み計算部１０６により算出された重み係数Ｒ_tと、音声分析部１０１により抽出された特徴量と、フォワード・バックワード計算部１０３により算出された対応確率と、に基づいて、音響モデルの各統計量（混合重み、平均ベクトル、および共分散行列の各平均）を算出する（ステップＳ１０１０）。
【０１２３】
再評価部１０４は、音響モデルの各統計量算出後、算出した統計量に基づいて、フォワード・バックワード計算部１０３を介して入力された入力音響モデルの各パラメータ（混合重み分布、平均ベクトル、および共分散行列の各平均）を再評価し、出力音響モデルを作成する（ステップＳ１０１１）。作成された出力音響モデルは、再評価部１０４から出力される（ステップＳ１０１２）。出力音響モデル出力後、音響モデル学習装置は、動作を終了する。
【０１２４】
本実施形態では、以上説明したように、同一の音声サンプル（音素、音節、あるいは単語）が割り当てられた状態ごとの重み係数Ｒ_tの和を一定とすることによって、各音声サンプル（音素、音節、あるいは単語単位）のサンプル量および出力音響モデルに与える影響を均一化し、信頼性の高い出力音響モデルを作成することを可能としている。
【０１２５】
また、音響モデル学習装置は、入力される学習用音声からフレームごとに特徴量を抽出する音声分析処理と、所定の音声からフレームごとに抽出された特徴量を示す確率分布を用いて、所定の音声におけるフレームごとの特徴量を状態として表現し、状態を構成単位とする入力音響モデルと、学習用音声の内容を示す文字列情報である正解列と、に基づいて、入力音響モデルにおける状態に正解列を割り当てた状態列の情報である学習用辞書を生成する辞書生成処理と、辞書生成処理により生成された学習用辞書を参照し、学習用音声の特徴量と入力音響モデルにおける状態との対応確率を学習用音声のフレームごとに算出する対応確率算出処理と、所定の文字列を用いて、入力音響モデルにより表現される状態あるいは複数の状態からなる状態列を、学習用音声のフレームごとに最尤に割り当て、所定の最尤状態列を生成する最尤状態列生成処理と、最尤状態列生成処理により生成された所定の最尤状態列に基づいて、対応確率に重み付けする際に付加する係数である重み係数を、学習用音声のフレームごとに算出する重み計算処理と、対応確率算出処理により算出された対応確率と、重み計算処理により算出された重み係数と、音声分析処理により算出された特徴量と、に基づいて統計量を算出し、算出した統計量に基づいて、入力音響モデルのパラメータを再推定し、出力音響モデルを作成する再評価処理と、を行う。上記の処理は、音響モデル学習装置が有するコンピュータプログラムにより実行されるが、上記のプログラムは、光ディスクあるいは磁気ディスク等の記録媒体に記録され、上記の記録媒体からロードされるようにしてもよい。
【０１２６】
なお、上記の実施形態は本発明の好適な実施の一例であり、本発明の実施形態は、これに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形して実施することが可能となる。
【０１２７】
【発明の効果】
以上説明したように、本発明は、学習用音声のフレームごとに重み係数を算出し、上記の重み係数による重み付けを出力音響モデルに反映させることによって、観測された音声サンプルのうち音響モデルの作成に有用なものだけを抽出し、信頼性の高い音響モデルを作成することが可能となる。
【０１２８】
また、本発明は、品質の高い所定の言語単位（音素、音節、あるいは単語等）の音声サンプルの重み付け係数を「１」とし、品質の低い音声サンプルの重み付け係数を「０」とすることによって、品質の低い音声サンプルが出力音響モデルに反映しないようにすることが可能となる。
【０１２９】
また、本発明は、品質の高い所定の言語単位の音声サンプルの重み付け係数を「１」とし、品質の低い音声サンプルの重み付け係数を「１より大きな任意の値」とすることによって、品質の低い音声サンプルに対する音声認識の精度が高い出力音響モデルを作成することが可能となる。
【０１３０】
また、本発明は、同一の音声サンプル（音素、音節、あるいは単語）が割り当てられた状態ごとの重み係数の和を一定とすることによって、各音声サンプル（音素、音節、あるいは単語単位）のサンプル量および出力音響モデルに与える影響を均一化し、信頼性の高い出力音響モデルを作成することが可能となる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態における音響モデル学習装置の構成を示す図である。
【図２】本発明の第１の実施形態における入力音響モデルが表現可能な音素セットを示す図である。
【図３】本発明の第１の実施形態における音響モデル学習装置が作成する学習用辞書を示す図である。
【図４】本発明の第１の実施形態における重み係数Ｒ_tを示す図である。
【図５】本発明の第２の実施形態における重み係数Ｒ_tを示す図である。
【図６】本発明の第３の実施形態における重み係数Ｒ_tを示す図である。
【図７】本発明の第４の実施形態における重み係数Ｒ_tを示す図である。
【図８】本発明の第５の実施形態における重み係数Ｒ_tを示す図である。
【図９】本発明の第１の実施形態における音響モデル学習装置の動作の流れを示すフローチャートである。
【図１０】本発明の第５の実施形態における音響モデル学習装置の動作の流れを示すフローチャートである。
【符号の説明】
１０１音声分析部
１０２辞書部
１０３フォワード・バックワード計算部
１０４再評価部
１０５ビタビ計算部
１０６重み計算部

Claims

入力される学習用音声からフレームごとに特徴量を抽出する音声分析手段と、
所定の音声からフレームごとに抽出された特徴量を示す確率分布を用いて、前記所定の音声のフレームごとに分割された前記所定の音声の断片を状態として表現し、該状態を構成単位とする入力音響モデルと、前記学習用音声の内容を示す文字列情報である正解列と、に基づいて、前記入力音響モデルにおける前記状態に前記正解列を割り当てた状態列の情報である学習用辞書を生成する辞書生成手段と、
該辞書生成手段により生成された学習用辞書を参照し、前記学習用音声の特徴量と前記入力音響モデルにおける状態との対応確率を前記学習用音声のフレームごとに算出する対応確率算出手段と、
前記学習用辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第１の最尤状態列を生成する第１の最尤状態列生成手段と、
任意の文字を表す辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第２の最尤状態列を生成する第２の最尤状態列生成手段と、
前記第１の最尤状態列と前記第２の最尤状態列とを比較し、該比較結果に基づいて、前記対応確率に重み付けする際に付加する係数である重み係数を、前記学習用音声のフレームごとに算出する重み計算手段と、
前記対応確率算出手段により算出された対応確率と、前記重み計算手段により算出された重み係数と、前記音声分析手段により算出された特徴量と、に基づいて統計量を算出し、該算出した統計量に基づいて、前記入力音響モデルのパラメータを再推定し、出力音響モデルを作成する再評価手段と、
を有する
ことを特徴とする音響モデル学習装置。
前記再評価手段は、
前記学習用音声のフレームごとの前記対応確率に、前記重み係数を乗算し、前記学習用音声のフレームごとの対応確率に重み付けを行い、該重み付けされた対応確率を用いて前記統計量を算出し、該算出した統計量に基づいて、前記入力音響モデルのパラメータを再推定し、前記出力音響モデルを作成する
ことを特徴とする請求項１記載の音響モデル学習装置。
前記重み計算手段は、
前記学習用音声のフレームごとに、前記第１の最尤状態列と前記第２の最尤状態列とを比較し、前記割り当てられた状態あるいは複数の状態からなる状態列が一致したフレームでは前記重み係数を１とし、互いに異なるフレームでは前記重み係数を１より小さな値として算出する
ことを特徴とする請求項１または２記載の音響モデル学習装置。
前記重み計算手段は、
前記学習用音声のフレームごとに、前記第１の最尤状態列と前記第２の最尤状態列とを比較し、前記割り当てられた状態あるいは複数の状態からなる状態列が一致したフレームでは前記重み係数を１とし、互いに異なるフレームでは前記重み係数を１より大きな値として算出する
ことを特徴とする請求項１または２記載の音響モデル学習装置。
入力される学習用音声からフレームごとに特徴量を抽出する音声分析工程と、
所定の音声からフレームごとに抽出された特徴量を示す確率分布を用いて、前記所定の音声のフレームごとに分割された前記所定の音声の断片を状態として表現し、該状態を構成単位とする入力音響モデルと、前記学習用音声の内容を示す文字列情報である正解列と、に基づいて、前記入力音響モデルにおける前記状態に前記正解列を割り当てた状態列の情報である学習用辞書を生成する辞書生成工程と、
該辞書生成工程により生成された学習用辞書を参照し、前記学習用音声の特徴量と前記入力音響モデルにおける状態との対応確率を前記学習用音声のフレームごとに算出する対応確率算出工程と、
前記学習用辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第１の最尤状態列を生成する第１の最尤状態列生成工程と、
任意の文字を表す辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第２の最尤状態列を生成する第２の最尤状態列生成工程と、
前記第１の最尤状態列と前記第２の最尤状態列とを比較し、該比較結果に基づいて、前記対応確率に重み付けする際に付加する係数である重み係数を、前記学習用音声のフレームごとに算出する重み計算工程と、
前記対応確率算出工程により算出された対応確率と、前記重み計算工程により算出された重み係数と、前記音声分析工程により算出された特徴量と、に基づいて統計量を算出し、該算出した統計量に基づいて、前記入力音響モデルのパラメータを再推定し、出力音響モデルを作成する再評価工程と、
を有する
ことを特徴とする音響モデル学習方法。
入力される学習用音声からフレームごとに特徴量を抽出する音声分析処理と、
所定の音声からフレームごとに抽出された特徴量を示す確率分布を用いて、前記所定の音声のフレームごとに分割された前記所定の音声の断片を状態として表現し、該状態を構成単位とする入力音響モデルと、前記学習用音声の内容を示す文字列情報である正解列と、に基づいて、前記入力音響モデルにおける前記状態に前記正解列を割り当てた状態列の情報である学習用辞書を生成する辞書生成処理と、
該辞書生成処理により生成された学習用辞書を参照し、前記学習用音声の特徴量と前記入力音響モデルにおける状態との対応確率を前記学習用音声のフレームごとに算出する対応確率算出処理と、
前記学習用辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第１の最尤状態列を生成する第１の最尤状態列生成処理と、
任意の文字を表す辞書を参照し、前記入力音響モデルにより表現される前記状態あるいは複数の前記状態からなる状態列を、前記学習用音声のフレームごとに最尤に割り当て、第２の最尤状態列を生成する第２の最尤状態列生成処理と、
前記第１の最尤状態列と前記第２の最尤状態列とを比較し、該比較結果に基づいて、前記対応確率に重み付けする際に付加する係数である重み係数を、前記学習用音声のフレームごとに算出する重み計算処理と、
前記対応確率算出処理により算出された対応確率と、前記重み計算処理により算出された重み係数と、前記音声分析処理により算出された特徴量と、に基づいて統計量を算出し、該算出した統計量に基づいて、前記入力音響モデルのパラメータを再推定し、出力音響モデルを作成する再評価処理と、
を、コンピュータに実行させる
ことを特徴とするプログラム。