JP2004279454A

JP2004279454A - 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体

Info

Publication number: JP2004279454A
Application number: JP2003066847A
Authority: JP
Inventors: Sadao Hiroya; 定男廣谷; Masaaki Yoda; 雅彰誉田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-03-12
Filing date: 2003-03-12
Publication date: 2004-10-07
Anticipated expiration: 2023-03-12
Also published as: JP4230254B2

Abstract

【課題】調音運動の動的モデルとして構成された隠れマルコフモデル（以下、ＨＭＭ）、およびＨＭＭの状態毎に音声生成モデルにおける調音・音響マッピングとして、調音パラメータから音声スペクトルを決定する線形関数により構成される統計的音声生成モデルを与えられた音声に適応化する。
【解決手段】与えられた音声の出力確率が最大となるようにモデルにより生成される音声を適応化、その適応化音声を用いて与えられた音声から事後確率が最大となる調音運動を推定し、調音運動の出力確率が最大、および推定された調音運動から生成される音声に対する与えられた音声の出力確率が最大となる適応化を行う。これにより与えられた音声の出力確率が最大となるように音声生成モデルが適応化される。
【選択図】図６

Description

【０００１】
【発明の属する技術分野】
この発明は、調音運動を表現する確率的な動的モデル（以下調音モデルと書く）と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数を含む音声生成モデルを、入力された話者の音声信号を用いて適応化する音声生成モデル適応化方法、その装置、プログラム及びその記録媒体に関する。
【０００２】
【従来の技術】
音声信号からその音声の調音運動の逆推定手法として、調音運動の動的な振舞いを記述した隠れマルコフモデル（以下ＨＭＭと書く）と、調音運動の調音パラメータベクトルと音声スペクトル（音声パラメータベクトル）との関係を関数近似するための調音・音響マッピング係数とにより構成される音声生成モデルに基づき、音声信号からその音声の調音運動（調音パラメータベクトル系列）を逆推定する方法を提案した（非特許文献１）。
【０００３】
しかし、調音運動の逆推定に関する研究は特定話者を対象としたものが多い。これまでに不特定話者の音声入力を対象とした研究は、ニューラルネットワークを用いた逆推定法に基づく話者適応化法が考えられているが、入力音声とモデル音声との声道長正規化に基づくものであった（Ｓ．ＤｕｓａｎａｎｄＬ．Ｄｅｎｇ，“Ｖｏｃａｌ−ＴｒａｃｔＬｅｎｇｔｈＮｏｒｍａｌｉｚａｔｉｏｎｆｏｒＡｃｏｕｓｔｉｃ−ｔｏ−ＡｒｔｉｃｕｌａｔｏｒｙＭａｐｐｉｎｇＵｓｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋｓ，”ｉｎＴｈｅ１３８^ｔｈＭｅｅｔｉｎｇｏｆｔｈｅＡｃｏｕｓｔｉｃＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ，１９９９．）。
また、ある音声パラメータを持つモデルに対して、入力音声パラメータの出力確率（尤度）を最大にするようにそのモデルのパラメータを適応化する手法がある（非特許文献２）。
【０００４】
【非特許文献１】
ＳａｄａｏＨｉｒｏｙａａｎｄＭａｓａａｋｉＨｏｎｄａ，“Ａｃｏｕｓｔｉｃ−ｔｏ−ａｒｔｉｃｕｌａｔｏｒｙｉｎｖｅｒｓｅｍａｐｐｉｎｇｕｓｉｎｇａｎＨＭＭ−ｂａｓｅｄｓｐｅｅｃｈｐｒｏｄｕｃｔｉｏｎｍｏｄｅｌ，”ｉｎＩＣＳＬＰ，２００２，ｐｐ．２３０５−２３０８．
【非特許文献２】
Ｃ．Ｊ．ＬｅｇｇｅｔｔｅｒａｎｄＰ．Ｃ．Ｗｏｏｄｌａｎｄ，“Ｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎｆｏｒｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎｏｆｃｏｎｔｉｎｕｏｕｓｄｅｎｓｉｔｙｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌｓ，”ｉｎＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，ｖｏｌ．９，ｐｐ．１７１−１８５，１９９５．
【０００５】
【発明が解決しようとする課題】
従来の声道長正規化に基づく不特定話者の音声入力を対象とした調音運動の逆推定の研究は、入力音声の音響空間を、特定話者のモデルの音響空間に適応させるものである。しかしながら、音声スペクトルと調音運動の間の冗長性から、音響空間の適応が調音運動の適応に直接結びつかず、したがって、音響空間の適応だけでは、発話者の調音運動に基づく発話スタイルを適応することができない。また、従来の適応化法の研究では、あるモデルのパラメータに対して、入力パラメータ系列の尤度を上げるようにパラメータを適応化していくため、高い尤度ではあるが、パラメータに関する動的な制約などは利用していないため、十分な精度が得られない。この発明の目的は発話者の調音運動に基づく発話スタイルを適応することができ、かつ十分な精度が得られる音声生成モデル適応化方法、その装置、プログラム及びその記録媒体を提供することにある。つまりこの発明が解決しようとする課題は、音響空間の適応だけではなく、音声生成モデル自体を、音声から動的な特徴を考慮して推定した調音運動に基づいて適応化することであるとも云える。
【０００６】
【課題を解決するための手段】
この発明によれば、入力話者の音声信号から、（１）既存の音声生成モデルにより生成される音声スペクトルを、入力された音声スペクトルに適応化することにより、音声生成モデルを入力話者に適応する、あるいは（２）入力話者の音声信号から既存の音声生成モデルに基づきその入力音声の調音運動を決定し、この決定された調音運動を用いて、その既存の音声生成モデル中の調音運動軌道の確率的な動的モデル（調音モデルと書く）、更に必要に応じて調音パラメータベクトルに対する音声スペクトルベクトルを関連させるマッピング係数を入力話者に適応化する。
【０００７】
前記（１）の方法は、既存の音声生成モデルにより生成される音声スペクトル（パラメータ）ベクトルを、入力話者の入力音声の音声スペクトル（パラメータ）ベクトル系列の出力確率が最大となる適応化を行う。その適応化を関連付ける関係係数を用いて音声生成モデル中の調音・音響マッピング係数を適応化する。
前記（２）の方法は、入力話者の入力音声スペクトル（パラメータ）ベクトル系列に対する事後確率が最大となる調音運動（調音パラメータベクトル系列）を、既存の音声生成モデルを用いて決定し、この決定された調音運動（調音パラメータベクトル系列）の出力確率が最大となるように調音モデルを適応化する。また、必要に応じて上記の決定された調音運動から生成される音声スペクトル（パラメータ）ベクトルに対する、入力話者の入力音声スペクトル（パラメータ）ベクトル系列の出力確率が最大となるように調音・音響マッピング係数を適応化する。
【０００８】
また、前記（２）の方法は、前記（１）の方法を組み合わせ、初めに既存の音声生成モデルにより生成される音声スペクトル（パラメータ）ベクトルを、入力話者の入力音声の音声スペクトル（パラメータ）ベクトル系列に適応化した後、この適応化された音声スペクトル（パラメータ）ベクトルを用いて、入力された音声スペクトル（パラメータ）ベクトル系列から調音運動（調音パラメータベクトル）を決定し、決定された調音運動を用いて、少なくとも調音モデルを適応化し、更に必要に応じて調音・音響マッピング係数を適応化する。
【０００９】
【発明の実施の形態】
まずこの発明における適応化の対象である音声生成モデルの作成方法を説明する。
モデル作成
文章を連続発声した音声信号と、磁気センサシステムにより同時観測された調音データを用いて、調音・音響対コードブックを作成する。音声信号はフレームごとに、例えば毎秒２５０回のレートで、窓長３２ｍｓのブラックマン窓で切り出され、スペクトル分析され、例えば０次項を除いた１６次のメルケプストラム係数が音声パラメータとして求められる。必要に応じてその音声パラメータから微分（差分）により、時間的変化として速度、加速度のパラメータが検出され、これら音声パラメータと速度、加速度パラメータを要素とするベクトルが音声パラメータベクトルｙとして生成される。
【００１０】
同時に観測された調音器官の複数の各位置、例えば下顎と、上・下唇と、舌上の４箇所と軟口蓋の計８点のそれぞれについての水平方向および垂直方向における各位置情報信号が毎秒２５０回のレートで取り込まれ、その各位置パラメータから必要に応じて、微分（差分）により時間的変化としての速度パラメータが求められ、更に必要に応じて各速度パラメータの微分（差分）により時間的変化としての加速度パラメータが求められる。これら各１６個の位置パラメータ、速度パラメータ、加速度パラメータを要素とする調音パラメータベクトルｘが生成される。
【００１１】
つまりこの例では音声パラメータベクトルｙ、調音パラメータベクトルｘはそれぞれ下記のように４８個の要素からなるベクトルである。
ｙ＝［ｋ_１，……，ｋ_１６，ｋ_１′，……，ｋ_１６′，ｋ_１″，……，ｋ_１６″］
ｘ＝［ｐ_ａ，……，ｐ_ｎ，ｐ_ａ′，……，ｐ_ｎ′，ｐ_ａ″，……，ｐ_ｎ″］
このようにして同一の時点において求まった音声パラメータベクトルｙと調音パラメータベクトルｘを対とするデータを複数個、例えば２０万セット保持して調音・音響対コードブックを構成する。
【００１２】
このようにして求めた調音パラメータベクトルｘおよび音声パラメータベクトルｙを用いて調音運動を表現する確率的な動的モデル（以下調音モデルと書く）、この例では隠れマルコフモデル（以下ＨＭＭと記す）λを作成する。このＨＭＭのモデルλの作成は、前記文章の連続発声により得られた全体の音声パラメータベクトル系列ｙの出力確率Ｐ（ｙ，ｑ｜λ）が最大となるようにする。ここでｑは全体の音声パラメータベクトル系列ｙに対する状態系列を表す。この例ではＨＭＭのモデルλの構造は、２音素組の３状態１混合ガウス分布で、スキップなしのｌｅｆｔ−ｔｏ−ｒｉｇｈｔモデルとする。例えば図１に示すように３つの状態ｑ_１，ｑ_２，ｑ_３があり、各状態での調音パラメータベクトル、音声パラメータベクトルの各出力確率をそれぞれ１つのガウス分布とし、状態過程は同一状態から同一状態への遷移（ループ）と、ｑ_１からｑ_２又はｑ_２からｑ_３への遷移の計５つのみである。各音素について次に続く異なる音素ごとにモデルが作られる。
【００１３】
調音パラメータベクトル系列ｘを含むモデルにおいては、状態系列ｑを構成する各１つの状態をｑ_ｊとする時、状態ｑ_ｊの音声パラメータベクトルｙの出力確率は、その状態ｑ_ｊへの遷移確率Ｐ_ｔ＝Ｐ（ｑ_ｊ｜λ）と、その状態ｑ_ｊに対する調音パラメータベクトルｘの出力確率Ｐ_ｘ＝Ｐ（ｘ｜ｑ_ｊ，λ）と、その状態ｑ_ｊに対する調音パラメータベクトルｘに対する音声パラメータベクトルｙの出力確率Ｐ_ｙ＝Ｐ（ｙ｜ｘ，ｑ_ｊ，λ）との積である。従ってＰ（ｙ，ｑ_ｊ｜λ）＝∫Ｐ（ｙ｜ｘ，ｑ_ｊ，λ）Ｐ（ｘ｜ｑ_ｊ，λ）Ｐ（ｑ_ｊ｜λ）ｄｘが最大となるように各モデルを作成すればよい。ここで与えられた調音パラメータベクトルに対する音声パラメータの出力確率Ｐ（ｙ｜ｘ，ｑ_ｊ，λ）と、調音パラメータベクトルの出力確率Ｐ（ｘ｜ｑ_ｊ，λ）は共にガウス分布を仮定する。
【００１４】
図２にモデル作成処理手順例を示す。この学習法は「ビタビ学習法」と呼ばれるものである。まず入力音声パラメータベクトル系列ｙ及び入力調音パラメータベクトル系列ｘと発声文章との対応付けにより各同一音素の両パラメータベクトル対を集め、その各音素ごとに、その複数の各パラメータベクトル対ごとに前記３状態ｑ_１，ｑ_２，ｑ_３をそれぞれ同一時間長として対応付け、各状態ごとにモデルパラメータＡ，ｂ，ｘ_ｍ，σ_ｘ，ｗ_ｍ，σ_ｗを演算し、つまり初期モデルλを作って記憶する（Ｓ１）。
【００１５】
つまり調音パラメータベクトルｘから音声パラメータベクトルｙを決定する関数ｙ＝ｆ（ｘ）として、ｙ＝Ａｘ＋ｂを用い、調音パラメータベクトルｘを用いて計算した音声パラメータベクトルｙ′＝Ａｘ＋ｂと、その調音パラメータベクトルｘと対をなす音声パラメータベクトルｙとの二乗誤差が最小となるＡとｂを求め、かつｙ′のｙに対する誤差ｗを求め、その誤差ｗの平均ｗ_ｍを計算し、更に誤差ｗの共分散σ_ｗを計算し、調音パラメータベクトルｘの平均ｘ_ｍを計算し、調音パラメータベクトルｘの共分散σ_ｘを計算し、状態遷移確率γを計算する。初期状態遷移確率γは自己遷移確率を０．８、ある状態から他の状態に遷移する確率を０．２など適当な値に設定し、その後はある状態ｑ_ｊに注目した場合、その状態に対応するフレームすべてに対して、同じ状態に遷移するフレームの数をその状態に対応するフレームの総数で割った値を自己遷移確率とし、ある状態から他の状態に遷移する確率を（１−自己遷移確率）として計算する。
【００１６】
これらモデルパラメータＡ，ｂ，ｗ_ｍ，σ_ｗ，ｘ_ｍ，σ_ｍ，Ｐ_ｔを各音素の各状態ごとに計算して音素対応に記憶する。なお、変換関数はこの例では左辺のベクトルｙは要素数が４８であり、右辺中のベクトルｘも要素数が４８であり、係数Ａは４８×４８の行列となり、定数ｂも要素数が４８のベクトルとなる。
従ってＡ，ｂを決定するにはｙとｘの対を最低４８個必要とする。
次にこの初期モデルλに対して入力音声パラメータベクトルｙの出力確率
Ｐ（ｙ，ｑ｜λ）＝∫Ｐ（ｙ｜ｘ，ｑ，λ）Ｐ（ｘ｜ｑ，λ）Ｐ（ｑ｜λ）ｄｘ（１）
が最大になるように音声パラメータベクトルｙおよび調音パラメータベクトルｘに状態ｑ_ｊを対応付けることをビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムを用いて決定する（Ｓ２）。つまり前記文章の最初の音素を初期値としてその各状態における調音パラメータベクトルｘに対する音声パラメータベクトルｙの出力確率Ｐ（ｙ｜ｘ，ｑ，λ）と調音パラメータベクトルｘの出力確率Ｐ（ｘ｜ｑ，λ）とを、先に記憶したモデルを参照して、確率がガウス分布していることに基づき、それぞれ下記式（２）、式（３）により求める。
【００１７】
Ｐ（ｙ｜ｘ，ｑ，λ）＝［１／（（２π）^Ｎ／２）｜σ_ｗ｜^１／２］×ｅｘｐ［−（１／２）（ｙ−Ａｘ−ｂ−ｗ_ｍ）^Ｔσ_ｗ ^−１（ｙ−Ａｘ−ｂ−ｗ_ｍ）］（２）
Ｐ（ｘ｜ｑ，λ）＝［１／（（２π）^Ｍ／２）｜σ_ｘ｜^１／２）］×ｅｘｐ［−（１／２）（ｘ−ｘ_ｍ）^Ｔσ_ｘ ^−１（ｘ−ｘ_ｍ）］（３）
Ｎはベクトルｙの次数、Ｍはベクトルｘの次数であり、前記例では共に４２であり、（）^Ｔは行列の転置を表わす。
【００１８】
また遷移確率Ｐ（ｑ｜λ）を求め、Ｐ（ｙ｜ｘ，ｑ，λ）とＰ（ｘ｜ｑ，λ）とＰ（ｑ｜λ）の積をブランチメトリックとし、各状態について求めたブランチメトリックの最大のものを生き残りパスとし、そのブランチメトリックをそれまでのパスメトリックに加算することを順次行う。最終的に得られたパスメトリックの最大の状態系列ｑが式（１）を最大とするものである。
次にこの状態系列ｑの決定の際に求まった入力音声パラメータベクトルｙの出力確率の最大値、つまり最大パスメトリックの値が収束したかを調べ（Ｓ３）、収束していなければステップＳ２で決定された状態系列ｑと入力音声パラメータベクトル系列ｙ及び入力調音パラメータベクトル系列ｘとを対応付け、その
状態系列ｑにおけるモデルからモデルへの変化点を検出して、音素区間の入力音声パラメータベクトル系列ｙ及び入力調音パラメータベクトル系列ｘに対す
る対応付けを再設定する（Ｓ４）。
【００１９】
この再設定された各音素についての音声パラメータベクトル及び調音パラメータベクトルの集合について、各モデルパラメータＡ，ｂ，ｗ_ｍ，σ_ｗ，ｘ_ｍ，σ_ｘ，Ｐ_ｔをそれぞれ演算し、つまり音素モデルを作成し、記憶していた対応モデルパラメータを更新記憶してステップＳ２に戻る（Ｓ５）。
以下ステップＳ２〜Ｓ５を繰返すことにより、得られる音声パラメータベクトルの出力確率の最大値はほぼ一定値となり、つまりステップＳ３で収束したことが検出されて終了とする。
【００２０】
このようにして得られたＨＭＭの各モデルは、例えば図３に示すように各音素対応のモデルλ１〜λＪの格納部２５−１〜２５−Ｊごとに状態遷移確率γ（これは前述したように各ループと隣りへとの計５つの確率よりなる）が遷移確率格納部２７に格納され、各状態ごとのＡ，ｂが係数格納部２８に格納され、ｘ_ｍ，ｗ_ｍが平均格納部２９に、σ_ｍ，σ_ｗが共分散格納部３１に格納される。係数Ａ，ｂは調音パラメータベクトルＸと対応した音声パラメータベクトルｙの近似値を対応ずけるためのパラメータであるから調音・音響マッピング係数と呼ぶ。その他のパラメータｘ_ｍ，ｗ_ｍ，σ_ｍ，σ_ｗは調音モデルと呼ぶ。またＰ（ｙ｜ｘ，ｑ，λ）は式（２）で計算され、Ｐ（ｘ｜ｑ，λ）は式（３）で計算されるから、調音パラメータベクトルｘに対する音声パラメータベクトルｙの出力確率、また調音パラメータベクトルｘの出力確率もモデル記憶部２５に格納されていると云える。モデル作成方法として「ビタビ学習法」を示したが、より精度の良い学習法「ＥＭ学習法」（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）を用いてもよい。
【００２１】
第１実施形態
この発明の第１実施形態においては既存の音声生成モデルにより生成される音声パラメータ（スペクトル）ベクトルを、入力話者の入力音声パラメータ（スペクトル）ベクトル系列の出力確率が最大となるように適応化し、この生成音声パラメータベクトルと入力音声パラメータベクトル系列とを関係付ける係数を用いて、音声生成モデル中の調音・音響マッピング係数を適応化する。
以下この第１実施形態を、図４及び図５を参照して説明する。話者の入力音声信号は入力端子１１からディジタル信号として入力され信号記憶部４２に一旦格納される（Ｓ１）。この話者入力音声信号は音声パラメータベクトル生成部４３において、フレームごとに入力音声パラメータ（スペクトル）ベクトルｙが生成され、入力音声パラメータベクトル系列Ｙが生成される（Ｓ２）。例えば入力音声信号はフレームごとにスペクトル分析され、音声パラメータが検出され（Ｓ２−１）、更にそのスペクトルの時間的変化としての速度、加速度パラメータが検出され（Ｓ２−２）、これら両パラメータにより音声パラメータベクトルとされ、各フレームの音声パラメータベクトルの時系列が音声パラメータベクトル系列Ｙとされる。これらパラメータとしては、適応化の対象であるモデル記憶部４８に記憶されている音声生成モデルの作成時に用いた音声パラメータと同一のもの、前記例では０次項を除いた１６次のメルケプストラム係数とその速度パラメータが検出される。この入力音声パラメータベクトル系列Ｙは記憶部４２に一旦格納される（Ｓ３）。なお話者入力音声信号と対応した文章の音素列が音素列記憶部４５に格納される。
【００２２】
音声生成モデルより生成された音声パラメータベクトルの平均ベクトルｙ_ｍｊに対して、入力音声パラメータベクトル系列Ｙ＝（Ｙ_１，…，Ｙ_２）の出力確率Ｐ（Ｙ｜ｑ，λ）が最大となるように、音声生成モデルの平均ベクトルを適応化する。出力確率Ｐ（Ｙ｜ｑ，λ）を最大化する平均ベクトルｙ_ｍｊは前記非特許文献２の１７４頁を参考にすると、対数尤度ｌｏｇＰ（Ｙ｜ｑ，λ）を最大にするように求めればよい。従って
ｌｏｇＰ（Ｙ｜ｑ，λ）＝Ｋ−（１／２）Σ_ｔΣ_ｊγ_ｔ（ｊ）（Ｙ_ｔ−Ｈ_ｓｙ_ｍｊ）^Ｔσ_ｙｊ ^−１（Ｙ_ｔ−Ｈ_ｓｙ_ｍｊ）
を最大にするＨ_ｓを
Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｙｊ ^−１Ｙ_ｔｙ_ｍｊ ^Ｔ＝Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｙｊ ^−１Ｈ_ｓｙ_ｍｊｙ_ｍｊ ^Ｔ（４）
を計算することで求めることができる。ここでｔはベクトル系列の離散的時刻を、ｊは各音素における状態番号をそれぞれ表わし、Ｋは定数、Ｈ_ｓは回帰係数であり、γ_ｔ（ｊ）は音声パラメータベクトルが時刻ｔで状態ｊに存在する確率であってγ_ｔ（ｊ）＝Ｐ（ｑ_ｔ＝ｊ｜ｙ，λ）であり、音声パラメータベクトルｙ_ｊの平均ベクトルはｙ_ｍｊ＝Ａ_ｊｘ_ｍｊ＋ｂ_ｊにより、ベクトルｙ_ｊの共分散行列はσ_ｙｊ＝Ａ_ｊσ_ｘｊＡ_ｊ ^Ｔ＋σ_ｗにより求める。（）^Ｔは転置行列を表わし、ｓは音響空間を分割するクラスタを表わす。つまり音声生成モデルλの全てを１つのクラスタとするか、あるいは母音と子音とを別のクラスタとして求めるなど、全音素モデルをいくつかのクラスタに分けて求める。
【００２３】
つまり図４、図５に示すように入力音声パラメータベクトル系列Ｙと、音声
生成モデルとを用いて、音声関係係数算出部４６で、音声関係係数Ｈ_ｓを計算する（Ｓ４）。モデル記憶部４４中の各モデルの調音・音響マッピング係数Ａ_ｊ，ｂ_ｊと調音平均ベクトルｘ_ｍｊを取出し、音声パラメータの平均ベクトルｙ_ｍｊを平均ベクトル生成部４７でｙ_ｍｊ＝Ａ_ｊｘ_ｍｊ＋ｂ_ｊの計算によりそれぞれ生成する（Ｓ４−１）。またモデル記憶部４４中の各モデルの調音パラメータベクトルｘ_ｊの共分散σ_ｘｊと調音平均ベクトルｘ_ｍｊの誤差ｗ_ｊの共分散σ_ｗｊを取り出し、音声パラメータベクトルｙ_ｊの共分散行列σ_ｙｊを共分散計算部４８でσ_ｙｊ＝Ａ_ｊσ_ｘｊＡ_ｊ ^Ｔ＋σ_ｗｊの計算によりそれぞれ生成する（Ｓ４−２）。更に音声関係係数算出部４６において、記憶部４５内の音素系列に従って各音素についてモデル記憶部４４内の対応音素モデルλの遷移確率γ_ｊを取出し、これと、入力音声パラメータベクトル系列Ｙと、平均ベクトル生成部４７よりの平均ベクトルｙ_ｍｊと、共分散計算部４８よりの共分散行列σ_ｙｊとを用いて、Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｙｊ ^−１Ｙ_ｔｙ_ｍｊ ^Ｔ，Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｙｊ ^−１ｙ_ｍｊｙ_ｍｊ ^Ｔを計算し、式（４）を満す回帰係数（音声関係係数）Ｈ_ｓを求める（Ｓ４−３）。
【００２４】
この音声関係係数Ｈ_ｓを用いて、音声生成モデルの調音・音響マッピング係数Ａ_ｊ，ｂ_ｊを、それぞれＨ_ｓＡ_ｊ，Ｈ_ｓｂ_ｊと係数適応化部４９で入力話者音声に適応化する（Ｓ５）。
更に必要に応じて、先に求めた音声パラメータベクトルの平均ベクトルｙ_ｍｊを音声適応化部５１でＹ_ｍｊ＝Ｈ_ｓｙ_ｍｊの計算により変更する（Ｓ６）。
この適応化された音声生成モデルを用いれば、調音パラメータベクトル系列を入力して、これと対応した前記入力話者の音声に近い音声信号を合成することができる。
なお図５において制御部５２は各部を順次動作させ、また各記憶部に対する読み書きを行う。
【００２５】
第２実施形態
次にこの発明の第２実施形態を図６及び図７を参照して説明する。第２実施形態は入力音声の調音運動を、適応対象音声生成モデルを用いて決定し、この調音運動の出力確率が最大となるように音声生成モデルを適応化する。
入力端子４１からの入力話者の入力音声信号から入力音声パラメータ（スペクトル）ベクトル系列Ｙを音声パラメータベクトル生成部４３で生成し（Ｓ２）、これを一旦記憶部４３に記憶する（Ｓ３）ことは第１実施形態と同様である。
【００２６】
この第２実施形態においては、入力音声パラメータベクトル系列Ｙの出力確率Ｐ（Ｙ｜ｑ，λ）を最大にする状態系列ｑを、記憶部４５の音素系列に基づき、例えばビタビアルゴリズムにより状態系列生成部６１で生成する（Ｓ４）。この生成の手法は先に述べたモデル作成法とほぼ同様に行えばよい。
次にこの状態系列ｑに対して事後確率Ｐ（ｘ｜ｙ，ｑ，λ）を最大にする調音運動、つまり調音パラメータベクトル系列を調音パラメータベクトル生成部６２で生成する（Ｓ５）。Ｐ（ｘ｜ｙ，ｑ，λ）を最大にする調音パラメータベクトル系列ｘは前記非特許文献１の２３０６頁左欄の記載から明らかなように次式（５）を最小化する系列ｘ _ｅを求めればよい。
【００２７】
Ｊ＝（Ｙ−Ａｘ _ｅ−ｂ）^Ｔσ_ｗ ^−１（Ｙ−Ａｘ _ｅ−ｂ）（５）
つまり非特許文献１中の式（４）（下記の式）により求める。
ｘ _ｅ＝（σ_ｘ ^−１＋Ａ^Ｔσ_ｗ ^−１Ａ）^−１（σ_ｘ ^−１ｘ_ｍ＋Ａ^Ｔσ_ｗ ^−１（ｙ−ｂ））
このようにして生成された調音パラメータベクトル系列ｘ _ｅと、出力確率Ｐ（ｘ _ｅ｜ｑ，λ）が最大となる調音パラメータベクトルｘ_ｅの平均ベクトルｘ_ｅｍとを関係付ける次式（６）を平均関係係数計算部６３で計算して、平均関係係数Ｃ_ｓを求める（Ｓ６）。
【００２８】
Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｘｊ ^−１ｘ_ｅｔｘ_ｍｊ ^Ｔ＝Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｘｊ ^−１Ｃ_ｓｘ_ｍｊｘ_ｍｊ ^Ｔ（６）
つまり生成された調音パラメータベクトル系列ｘ _ｅの各ベクトルｘ_ｅｔについて、記憶部４４中の音声生成モデルの対応音素モデルλの遷移確率γ_ｊ、共分散σ_ｘｊ、平均ｘ_ｍｊを取出し、Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｘｊ ^−１ｘ_ｅｔｘ_ｍｊ，Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｘｊ ^−１ｘ_ｍｊｘ_ｍｊ ^Ｔを計算して式（６）を計算して回帰係数Ｃ_ｓを求める。このようにして求めた平均関係係数Ｃ_ｓを用いて、記憶部４４中の調音平均ベクトルｘ_ｍｊを平均適応化部６４でＸ_ｍｊ＝Ｃ_ｓｘ_ｍｊとして調音平均ベクトルを適応化する（Ｓ７）。
【００２９】
この適応化された音声生成モデルを用いて入力話者の音声信号の調音運動（調音パラメータベクトル系列）を求めることにより、適応化前のモデルを用いる場合よりも高い精度で調音運動を求めることができる。
更に調音・音響マッピング係数Ａ_ｊ，ｂ_ｊも適応化する場合は次のようにする。
ステップＳ１５で生成された調音パラメータベクトル系列ｘ _ｅの各調音スペクトルベクトルｘ_ｅｔと対応する音声スペクトルベクトルを音素系列を参照しながら、音声生成モデルの調音・音響マッピング係数Ａ_ｊ，ｂ_ｊを用いて、音声ベクトル生成部６５で音声スペクトルベクトルｙ_ｊ＝Ａ_ｊｘ_ｅｔ＋ｂ_ｊを生成する（Ｓ８）。
【００３０】
この音声生成モデルを用いた音声スペクトルベクトルｙに対して、入力音声パラメータベクトル系列Ｙの出力確率Ｐ（Ｙ｜ｑ，λ）を最大にする調音・音響マッピング係数は、第１実施形態の場合と同様に、
Ｐ（Ｙ｜ｑ，λ）＝∫Ｐ（Ｙ｜ｘ，ｑ，λ）Ｐ（ｘ｜ｑ，λ）ｄｘの対数尤度ｌｏｇＰ（Ｙ｜ｑ，λ）を最大にすることにより与えられる。従って、式（４）の導出と同様に次式（７）を満す回帰係数（マッピング関係係数）Ｄ_ｓをマッピング関係係数算出部６６で算出する（Ｓ９）。
【００３１】
Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｗｊ ^−１Ｙ_ｔ（Ａ_ｊｘ_ｅｔ＋ｂ_ｊ）^Ｔ＝Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｗｊ ^−１Ｄ_ｓ（Ａ_ｊｘ_ｅｔ＋ｂ）（Ａ_ｊｘ_ｅｔ＋ｂ_ｊ）^Ｔ（７）
つまりマッピング関係係数計算部６６で、入力音声パラメータベクトル系列Ｙと、音声ベクトル生成部６５よりの音声ベクトルｙ_ｊと、モデル記憶部４４中の誤差の共分散σ_ｗｊ、遷移確率γ_ｊとを用いて、
Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｗｊ ^−１Ｙ_ｔｙ_ｊ ^Ｔ＝Σ_ｔΣ_ｊγ_ｔ（ｊ）σ_ｗｊ ^−１Ｄ_ｓｙ_ｊｙ_ｊ ^Ｔ
を満すＤ_ｓを計算する。
【００３２】
このマッピング関係係数Ｄ_ｓを用いてモデル記憶部４４中の各音声生成モデルの各調音・音響マッピング係数Ａ_ｊ，ｂ_ｊを係数適応化部６７でＤ_ｓＡ_ｊ，Ｄ_ｓｂ_ｊとして適応化する（Ｓ１０）。
ステップＳ４における状態系列の生成は、第１実施形態において音声適応化部５１で生成した適応化音声平均ベクトルＹ_ｍｊ（＝Ｈ_ｓｙ_ｍｊ）を用いて行ってもよい。この場合、回帰係数Ｃ_ｓとＤ_ｓで共通のクラスタを用いた場合、回帰係数の冗長性のため第１実施形態と同じ尤度になるが、適応化された音声生成モデルは第１実施形態と異なるものとなる。
【００３３】
以上のような各種の適応化法により音声生成モデルを話者音声に適応化し、その適応化音声生成モデルを用いて、その話者の音声信号に対する調音運動を例えば非特許文献１に示すように推定する。
実験
日本人男性３名によって発声された３５６文章の音声信号と調音データを用い、モデル作成の項で述べた条件でパラメータベクトルを生成し、３者ごとにモデルを作成し、各入力話者から、入力話者以外の話者２名のそれぞれのモデルに対して適応を行い、評価は計６つのテストの平均で行った。今回用いた調音データは、調音観測点上に小さな受信コイルを接着する磁気センサシステムを用いて観測された。しかし、話者毎に受信コイルを接着する位置が異なり、また、話者毎に調音器官の大きさが異なるため、入力話者の観測した調音運動と別の特定話者のモデルを用いて推定した調音運動は、そのままでは比較することができない。したがって、あらかじめ求めた入力話者の観測調音運動と別の話者の観測調音運動の位置とサイズの線形変換を用いて正規化し、評価を行った。適応の際には、教師ありの学習を用い、適応文章数は４０とした。調音運動の逆推定の際には、音素ありの条件を用いた（非特許文献１）。適応化法は、（Ａ）第１実施形態、（Ｂ）第２実施形態、（Ｃ）第１実施形態と第２実施形態との併用の３つで実験を行った。クラスタ数ｓは全適応化法において共通とした。
【００３４】
図８に、クラスタ数の値を１，３，５，１０としたときの、学習データに対する音響パラメータベクトルの対数尤度を示す。適応化法を用いることで、話者独立モデルよりも尤度が上昇することが分かる。また、（Ａ）法と（Ｃ）法の尤度はほぼ同じであり、（Ｂ）法の尤度はそれらに比べて低い。
なお、話者の音声と調音運動を用いて作ったモデル（話者モデル）を用いた場合と、話者と無関係の音声とその対応調音運動を用いて作ったモデル（話者独立モデル）を用いた場合についての実験結果も示した。
【００３５】
図９に、クラスタ数における、適応化法による調音運動の二乗誤差を示す。適応化法を用いることで、すべてのクラスタ数において話者独立モデルよりも誤差が減少している。（Ａ）法を用いた場合、調音運動に関する適応は行われないため、クラスタの数によらず、誤差はほぼ一定である。一方、（Ｂ）法の場合、クラスタ数の増加につれて誤差が減少していく。（Ｃ）法は、クラスタ数が５までは（Ｂ）法よりも誤差が小さいが、クラスタ数が１０では尤度が高いにも関わらず、誤差が大きくなっている。
【００３６】
図１０に各種音素毎の二乗誤差を示す。評価はクラスタ数１０を用いて行った。‘Ｔｏｔａｌ’は発声全体の二乗誤差であり、‘Ｖｏｗｅｌ’から‘Ｎａｓａｌ’まではそれぞれ、その発声の際に重要な調音器官における二乗誤差である。適応化法を用いることで、すべての音素クラスに対して話者独立モデルよりも向上が見られた。最大約４４．４％の改善が見られた。また、適応化法による音素クラスに対する誤差の違いは見られなかった。
入力男性話者が「やるべきことはやっており何ら落ち度はない」という文章を発声した音声信号から、話者独立モデルを利用して推定された調音運動軌道（太線）と観測された調音運動軌道（細線）の垂直信号の例を図１１に示し、（Ｃ）法により適応化したモデルを利用して推定された調音運動軌道（太線）と観測された調音運動軌道（細線）の垂直信号の例を図１２に示す。これら両図を比較すれば図１２の方が太線が細線に近いものとなっており、モデル適応化の効果が得られていることが理解できる。
【００３７】
また推定された調音運動は発声した音素の特徴を良く再現している。推定された調音運動から生成した音声スペクトルと入力音声スペクトルとのスペクトル歪みも約６９．０％の改善が見られた。
図５、図７に示した適応化装置をコンピュータに機能させてもよい。この場合は図４又は図７に示した適応化方法の各手順をコンピュータに実行させるためのプログラムをＣＤ−ＲＯＭ、磁気ディスクなどの記録媒体からコンピュータにインストールし、又は通信回線を介してダウンロードし、そのプログラムをコンピュータに実行させればよい。上述においては調音パラメータベクトルを変数として音声パラメータベクトルを近似する関数に線形関数を用いたが他の関数でもよい。音声パラメータベクトル、及び調音パラメータベクトルとしては加速度成分や速度成分を用いなくてもよい。
【００３８】
【発明の効果】
この発明によれば、調音運動を表現する確率的な動的モデルと調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを話者適応化することができ、この適応化した音声生成モデルを使用することにより、入力話者音声の調音運動を、適応化しないモデルを用いる場合より、精度よく推定することができる。更に、調音パラメータベクトルから音声合成する場合に、所望の話者の音声を合成することができる。また、同様にこのモデルを用いて音声認識する場合も高認識精度を得ることができるようになる。更にこの発明によれば小量の音声データからでも音声生成モデルを適応化することができる。
【図面の簡単な説明】
【図１】１つの音素モデルの状態遷移の例を示す図。
【図２】モデル作成手順の例を示す流れ図。
【図３】音声生成モデルが記憶されている記憶装置の記憶内容例を示す図。
【図４】この発明の第１実施形態の処理手順の例を示す流れ図。
【図５】この発明の第１実施形態の機能構成例を示すブロック図。
【図６】この発明の第２実施形態の処理手順の例を示す流れ図。
【図７】この発明の第２実施形態の機能構成例を示すブロック図。
【図８】学習音声パラメータベクトルに対する合成音声パラメータベクトルの対数尤度の実験結果を示すグラフ。
【図９】入力音声信号に対して推定した調音パラメータベクトルの２乗誤差の実験結果を示すグラフ。
【図１０】入力音声信号に対して推定した調音パラメータベクトルの各種音素ごとの２乗誤差の実験結果を示す図。
【図１１】実測した調音運動と、話者独立モデルを利用して推定した調音運動の例を示す図。
【図１２】実測した調音運動と、話者適応化したモデルを利用して推定した調音運動の例を示す図。

Claims

記憶装置に記憶された調音運動を表現する確率的な動的モデル（以下調音モデルと書く）と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号に適応化する方法であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する手順と、
上記各音声生成モデルについてその各調音・音響マッピング係数を用いて調音パラメータベクトル系列、音声パラメータベクトルの各平均ベクトルをそれぞれ生成する手順と、
上記入力音声パラメータベクトル系列の平均ベクトル系列（以下入力音声平均ベクトル）と上記平均ベクトルの系列とを、上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける手順と、
その関係づけを上記各音声生成モデルの各調音・音響マッピング係数に与えて、上記音声生成モデルを適応化する手順と
を有することを特徴とする音声生成モデル話者適応化方法。
記憶装置に記憶された調音モデルと、調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号から適応化する方法であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する手順と、
上記音声生成モデルを用いて、上記入力音声パラメータベクトル系列に対する事後確率が最大となる調音パラメータベクトル系列を生成する手順と、
上記調音パラメータベクトル系列の出力確率が最大となるように上記調音パラメータベクトル系列の平均ベクトル系列と上記音声生成モデルの平均ベクトル系列とを関係づける手順と、
上記関係づけを上記音声生成モデルの平均ベクトルに与えて適応化する手順とを有することを特徴とする音声生成モデル話者適応化方法。
上記各音声生成モデルの各調音・音響マッピング係数を用いて上記調音パラメータベクトル系列と対応する音声パラメータベクトル系列を生成する手順と、
その生成した音声パラメータベクトル系列と上記入力音声パラメータベクトル系列とを、その入力音声パラメータベクトル系列の出力確率を最大化するように関係づける手順と、
その関係づけを上記音声生成モデルの調音・音響マッピング係数に与えて適応化する手順と
を有することを特徴とする請求項２記載の音声生成モデル話者適応化方法。
上記調音パラメータベクトル系列を生成する手順は、
上記各音声生成モデルについて、その各調音・音響マッピング係数を用いて、上記調音パラメータベクトル系列と対応する音声パラメータベクトルの各平均ベクトルを生成する手順と、
上記入力音声パラメータベクトル系列の出力確率を最大化するように上記平均ベクトルを適応化する手順と、
上記入力音声パラメータベクトルの出力確率を最大化する上記平均ベクトルの系列を生成する手順と、
上記平均ベクトルの系列に対して入力音声パラメータベクトル系列に対する事後確率が最大となる上記調音パラメータベクトル系列を生成する手順とを有することを特徴とする請求項２又は３記載の音声生成モデル話者適応化方法。
記憶装置に記憶された調音運動を表現する確率的な動的モデル（以下調音モデルと書く）と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号に適応化する装置であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する音声パラメータベクトル生成部と、
上記各音声生成モデルの各調音・音響マッピング係数を入力して音声パラメータベクトルの各平均ベクトルをそれぞれ生成する平均ベクトル生成部と、
上記入力音声パラメータベクトル系列の平均ベクトル系列（以下入力音声平均ベクトル）と上記各平均ベクトルとを入力して、これらを、上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける音声関係係数を計算する音声関係係数計算部と、
上記音声関係係数と各音声生成モデルの各調音・音響マッピング係数とをそれぞれ乗算して適応化された調音・音響マッピング係数を出力する適応化部と
を具備することを特徴とする音声生成モデル話者適応化装置。
記憶装置に記憶された調音モデルと、調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号から適応化する装置であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する音声パラメータベクトル生成部と、
上記音声生成モデルと、上記入力音声パラメータベクトル系列を入力して、その入力音声パラメータベクトル系列に対する事後確率が最大となる調音パラメータベクトル系列を生成する調音パラメータベクトル生成部と、
上記調音パラメータベクトル系列と各音声生成ベクトルの各調音平均ベクトルを入力してこれらを、上記調音パラメータベクトル系列の出力確率が最大となるように上記関係づける平均関係係数を計算する平均関係係数計算部と、
上記平均関係係数と上記各音声生成モデルの各調音平均ベクトルとをそれぞれ乗算して適応化された調音平均ベクトルを生成する平均ベクトル適応化部と
を具備することを特徴とする音声生成モデル話者適応化装置。
上記各音声生成モデルの各調音・音響マッピング係数と上記調音パラメータベクトル系列を入力して対応する音声パラメータベクトル系列を生成する音声ベクトル生成部と、
上記生成した音声パラメータベクトル系列と上記入力音声パラメータベクトル系列とを入力して、これらを、その入力音声パラメータベクトル系列の出力確率を最大化するように関係づけるマッピング関係係数を計算するマッピング関係係数計算部と、
上記マッピング関係係数と上記各音声生成モデルの各調音・音響マッピング係数をそれぞれ乗算して適応化された調音・音響マッピング係数を生成するマッピング適応化部と
を具備することを特徴とする請求項６記載の音声生成モデル話者適応化装置。
上記調音パラメータベクトル生成部は、
上記各音声生成モデルの各調音・音響マッピング係数と各調音平均ベクトルとを入力して、音声パラメータベクトルの各平均ベクトルをそれぞれ生成する音声平均ベクトル生成部と、
上記入力音声パラメータベクトル系列と上記各音声平均ベクトルを入力して、これらを上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける音声関係係数を計算する音声関係係数計算部と、
上記音声関係係数と上記各音声平均ベクトルとを乗算して適応化音声平均ベクトルを生成する音声適応化部と、
上記入力音声パラメータベクトル系列の出力確率を最大化する上記適応化音声平均ベクトルの系列を生成する音声平均ベクトル系列生成部と、
上記適応化音声平均ベクトル系列に対して上記入力音声パラメータベクトル系列に対する事後確率が最大となる上記調音パラメータベクトル系列を生成するパラメータ系列生成部とを有する
ことを特徴とする請求項６又は７記載の音声生成モデル話者適応化装置。
請求項１〜４の何れかに記載した音声生成モデル話者適応化方法の各手順をコンピュータに実行させるためのプログラム。
請求項９に記載したプログラムを記録したコンピュータ読み取り可能な記録媒体。