JP2004279454A - 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 - Google Patents

音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 Download PDF

Info

Publication number
JP2004279454A
JP2004279454A JP2003066847A JP2003066847A JP2004279454A JP 2004279454 A JP2004279454 A JP 2004279454A JP 2003066847 A JP2003066847 A JP 2003066847A JP 2003066847 A JP2003066847 A JP 2003066847A JP 2004279454 A JP2004279454 A JP 2004279454A
Authority
JP
Japan
Prior art keywords
speech
articulation
parameter vector
input
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003066847A
Other languages
English (en)
Other versions
JP4230254B2 (ja
Inventor
Sadao Hiroya
定男 廣谷
Masaaki Yoda
雅彰 誉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003066847A priority Critical patent/JP4230254B2/ja
Publication of JP2004279454A publication Critical patent/JP2004279454A/ja
Application granted granted Critical
Publication of JP4230254B2 publication Critical patent/JP4230254B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】調音運動の動的モデルとして構成された隠れマルコフモデル(以下、HMM)、およびHMMの状態毎に音声生成モデルにおける調音・音響マッピングとして、調音パラメータから音声スペクトルを決定する線形関数により構成される統計的音声生成モデルを与えられた音声に適応化する。
【解決手段】与えられた音声の出力確率が最大となるようにモデルにより生成される音声を適応化、その適応化音声を用いて与えられた音声から事後確率が最大となる調音運動を推定し、調音運動の出力確率が最大、および推定された調音運動から生成される音声に対する与えられた音声の出力確率が最大となる適応化を行う。これにより与えられた音声の出力確率が最大となるように音声生成モデルが適応化される。
【選択図】 図6

Description

【0001】
【発明の属する技術分野】
この発明は、調音運動を表現する確率的な動的モデル(以下調音モデルと書く)と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数を含む音声生成モデルを、入力された話者の音声信号を用いて適応化する音声生成モデル適応化方法、その装置、プログラム及びその記録媒体に関する。
【0002】
【従来の技術】
音声信号からその音声の調音運動の逆推定手法として、調音運動の動的な振舞いを記述した隠れマルコフモデル(以下HMMと書く)と、調音運動の調音パラメータベクトルと音声スペクトル(音声パラメータベクトル)との関係を関数近似するための調音・音響マッピング係数とにより構成される音声生成モデルに基づき、音声信号からその音声の調音運動(調音パラメータベクトル系列)を逆推定する方法を提案した(非特許文献1)。
【0003】
しかし、調音運動の逆推定に関する研究は特定話者を対象としたものが多い。これまでに不特定話者の音声入力を対象とした研究は、ニューラルネットワークを用いた逆推定法に基づく話者適応化法が考えられているが、入力音声とモデル音声との声道長正規化に基づくものであった(S.Dusan and L.Deng,“Vocal−Tract Length Normalization for Acoustic−to−Articulatory Mapping Using Neural Networks,”in The 138th Meeting of the Acoustic Society of America,1999.)。
また、ある音声パラメータを持つモデルに対して、入力音声パラメータの出力確率(尤度)を最大にするようにそのモデルのパラメータを適応化する手法がある(非特許文献2)。
【0004】
【非特許文献1】
Sadao Hiroya and Masaaki Honda,“Acoustic−to−articulatory inverse mapping using an HMM−based speech production model,”in ICSLP,2002,pp.2305−2308.
【非特許文献2】
C.J.Leggetter and P.C.Woodland,“Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models,”in Computer Speech and Language,vol.9,pp.171−185,1995.
【0005】
【発明が解決しようとする課題】
従来の声道長正規化に基づく不特定話者の音声入力を対象とした調音運動の逆推定の研究は、入力音声の音響空間を、特定話者のモデルの音響空間に適応させるものである。しかしながら、音声スペクトルと調音運動の間の冗長性から、音響空間の適応が調音運動の適応に直接結びつかず、したがって、音響空間の適応だけでは、発話者の調音運動に基づく発話スタイルを適応することができない。また、従来の適応化法の研究では、あるモデルのパラメータに対して、入力パラメータ系列の尤度を上げるようにパラメータを適応化していくため、高い尤度ではあるが、パラメータに関する動的な制約などは利用していないため、十分な精度が得られない。この発明の目的は発話者の調音運動に基づく発話スタイルを適応することができ、かつ十分な精度が得られる音声生成モデル適応化方法、その装置、プログラム及びその記録媒体を提供することにある。つまりこの発明が解決しようとする課題は、音響空間の適応だけではなく、音声生成モデル自体を、音声から動的な特徴を考慮して推定した調音運動に基づいて適応化することであるとも云える。
【0006】
【課題を解決するための手段】
この発明によれば、入力話者の音声信号から、(1)既存の音声生成モデルにより生成される音声スペクトルを、入力された音声スペクトルに適応化することにより、音声生成モデルを入力話者に適応する、あるいは(2)入力話者の音声信号から既存の音声生成モデルに基づきその入力音声の調音運動を決定し、この決定された調音運動を用いて、その既存の音声生成モデル中の調音運動軌道の確率的な動的モデル(調音モデルと書く)、更に必要に応じて調音パラメータベクトルに対する音声スペクトルベクトルを関連させるマッピング係数を入力話者に適応化する。
【0007】
前記(1)の方法は、既存の音声生成モデルにより生成される音声スペクトル(パラメータ)ベクトルを、入力話者の入力音声の音声スペクトル(パラメータ)ベクトル系列の出力確率が最大となる適応化を行う。その適応化を関連付ける関係係数を用いて音声生成モデル中の調音・音響マッピング係数を適応化する。
前記(2)の方法は、入力話者の入力音声スペクトル(パラメータ)ベクトル系列に対する事後確率が最大となる調音運動(調音パラメータベクトル系列)を、既存の音声生成モデルを用いて決定し、この決定された調音運動(調音パラメータベクトル系列)の出力確率が最大となるように調音モデルを適応化する。また、必要に応じて上記の決定された調音運動から生成される音声スペクトル(パラメータ)ベクトルに対する、入力話者の入力音声スペクトル(パラメータ)ベクトル系列の出力確率が最大となるように調音・音響マッピング係数を適応化する。
【0008】
また、前記(2)の方法は、前記(1)の方法を組み合わせ、初めに既存の音声生成モデルにより生成される音声スペクトル(パラメータ)ベクトルを、入力話者の入力音声の音声スペクトル(パラメータ)ベクトル系列に適応化した後、この適応化された音声スペクトル(パラメータ)ベクトルを用いて、入力された音声スペクトル(パラメータ)ベクトル系列から調音運動(調音パラメータベクトル)を決定し、決定された調音運動を用いて、少なくとも調音モデルを適応化し、更に必要に応じて調音・音響マッピング係数を適応化する。
【0009】
【発明の実施の形態】
まずこの発明における適応化の対象である音声生成モデルの作成方法を説明する。
モデル作成
文章を連続発声した音声信号と、磁気センサシステムにより同時観測された調音データを用いて、調音・音響対コードブックを作成する。音声信号はフレームごとに、例えば毎秒250回のレートで、窓長32msのブラックマン窓で切り出され、スペクトル分析され、例えば0次項を除いた16次のメルケプストラム係数が音声パラメータとして求められる。必要に応じてその音声パラメータから微分(差分)により、時間的変化として速度、加速度のパラメータが検出され、これら音声パラメータと速度、加速度パラメータを要素とするベクトルが音声パラメータベクトルyとして生成される。
【0010】
同時に観測された調音器官の複数の各位置、例えば下顎と、上・下唇と、舌上の4箇所と軟口蓋の計8点のそれぞれについての水平方向および垂直方向における各位置情報信号が毎秒250回のレートで取り込まれ、その各位置パラメータから必要に応じて、微分(差分)により時間的変化としての速度パラメータが求められ、更に必要に応じて各速度パラメータの微分(差分)により時間的変化としての加速度パラメータが求められる。これら各16個の位置パラメータ、速度パラメータ、加速度パラメータを要素とする調音パラメータベクトルxが生成される。
【0011】
つまりこの例では音声パラメータベクトルy、調音パラメータベクトルxはそれぞれ下記のように48個の要素からなるベクトルである。
y=[k,……,k16,k′,……,k16′,k″,……,k16″]
x=[p ,……,p ,p′,……,p′,p″,……,p″]
このようにして同一の時点において求まった音声パラメータベクトルyと調音パラメータベクトルxを対とするデータを複数個、例えば20万セット保持して調音・音響対コードブックを構成する。
【0012】
このようにして求めた調音パラメータベクトルxおよび音声パラメータベクトルyを用いて調音運動を表現する確率的な動的モデル(以下調音モデルと書く)、この例では隠れマルコフモデル(以下HMMと記す)λを作成する。このHMMのモデルλの作成は、前記文章の連続発声により得られた全体の音声パラメータベクトル系列の出力確率P(,q|λ)が最大となるようにする。ここでqは全体の音声パラメータベクトル系列に対する状態系列を表す。この例ではHMMのモデルλの構造は、2音素組の3状態1混合ガウス分布で、スキップなしのleft−to−rightモデルとする。例えば図1に示すように3つの状態q,q ,q があり、各状態での調音パラメータベクトル、音声パラメータベクトルの各出力確率をそれぞれ1つのガウス分布とし、状態過程は同一状態から同一状態への遷移(ループ)と、q からq 又はq からq への遷移の計5つのみである。各音素について次に続く異なる音素ごとにモデルが作られる。
【0013】
調音パラメータベクトル系列を含むモデルにおいては、状態系列qを構成する各1つの状態をq とする時、状態q の音声パラメータベクトルyの出力確率は、その状態q への遷移確率P =P(q|λ)と、その状態qに対する調音パラメータベクトルxの出力確率P =P(x|q ,λ)と、その状態qに対する調音パラメータベクトルxに対する音声パラメータベクトルyの出力確率P=P(y|x,q,λ)との積である。従ってP(y,q|λ)=∫P(y|x,q,λ)P(x|q,λ)P(q|λ)dxが最大となるように各モデルを作成すればよい。ここで与えられた調音パラメータベクトルに対する音声パラメータの出力確率P(y|x,q,λ)と、調音パラメータベクトルの出力確率P(x|q,λ)は共にガウス分布を仮定する。
【0014】
図2にモデル作成処理手順例を示す。この学習法は「ビタビ学習法」と呼ばれるものである。まず入力音声パラメータベクトル系列及び入力調音パラメータベクトル系列と発声文章との対応付けにより各同一音素の両パラメータベクトル対を集め、その各音素ごとに、その複数の各パラメータベクトル対ごとに前記3状態q,q,qをそれぞれ同一時間長として対応付け、各状態ごとにモデルパラメータA,b,x,σ,w,σを演算し、つまり初期モデルλを作って記憶する(S1)。
【0015】
つまり調音パラメータベクトルxから音声パラメータベクトルyを決定する関数y=f(x)として、y=Ax+bを用い、調音パラメータベクトルxを用いて計算した音声パラメータベクトルy′=Ax+bと、その調音パラメータベクトルxと対をなす音声パラメータベクトルyとの二乗誤差が最小となるAとbを求め、かつy′のyに対する誤差wを求め、その誤差wの平均wを計算し、更に誤差wの共分散σを計算し、調音パラメータベクトルxの平均xを計算し、調音パラメータベクトルxの共分散σを計算し、状態遷移確率γを計算する。初期状態遷移確率γは自己遷移確率を0.8、ある状態から他の状態に遷移する確率を0.2など適当な値に設定し、その後はある状態qに注目した場合、その状態に対応するフレームすべてに対して、同じ状態に遷移するフレームの数をその状態に対応するフレームの総数で割った値を自己遷移確率とし、ある状態から他の状態に遷移する確率を(1−自己遷移確率)として計算する。
【0016】
これらモデルパラメータA,b,w,σ,x,σ,Pを各音素の各状態ごとに計算して音素対応に記憶する。なお、変換関数はこの例では左辺のベクトルyは要素数が48であり、右辺中のベクトルxも要素数が48であり、係数Aは48×48の行列となり、定数bも要素数が48のベクトルとなる。
従ってA,bを決定するにはyとxの対を最低48個必要とする。
次にこの初期モデルλに対して入力音声パラメータベクトルyの出力確率
P(y,q|λ)=∫P(y|x,q,λ)P(x|q,λ)P(q|λ)dx(1)
が最大になるように音声パラメータベクトルyおよび調音パラメータベクトルxに状態qを対応付けることをビタビ(Viterbi)アルゴリズムを用いて決定する(S2)。つまり前記文章の最初の音素を初期値としてその各状態における調音パラメータベクトルxに対する音声パラメータベクトルyの出力確率P(y|x,q,λ)と調音パラメータベクトルxの出力確率P(x|q,λ)とを、先に記憶したモデルを参照して、確率がガウス分布していることに基づき、それぞれ下記式(2)、式(3)により求める。
【0017】
P(y|x,q,λ)=[1/((2π)N/2 )|σ1/2 ]×exp[−(1/2)(y−Ax−b−wσ −1(y−Ax−b−w)] (2)
P(x|q,λ)=[1/((2π)M/2 )|σ1/2 )]×exp[−(1/2)(x−xσ −1(x−x)] (3)
Nはベクトルyの次数、Mはベクトルxの次数であり、前記例では共に42であり、( )は行列の転置を表わす。
【0018】
また遷移確率P(q|λ)を求め、P(y|x,q,λ)とP(x|q,λ)とP(q|λ)の積をブランチメトリックとし、各状態について求めたブランチメトリックの最大のものを生き残りパスとし、そのブランチメトリックをそれまでのパスメトリックに加算することを順次行う。最終的に得られたパスメトリックの最大の状態系列qが式(1)を最大とするものである。
次にこの状態系列qの決定の際に求まった入力音声パラメータベクトルyの出力確率の最大値、つまり最大パスメトリックの値が収束したかを調べ(S3)、収束していなければステップS2で決定された状態系列qと入力音声パラメータベクトル系列及び入力調音パラメータベクトル系列とを対応付け、その
状態系列qにおけるモデルからモデルへの変化点を検出して、音素区間の入力音声パラメータベクトル系列及び入力調音パラメータベクトル系列に対す
る対応付けを再設定する(S4)。
【0019】
この再設定された各音素についての音声パラメータベクトル及び調音パラメータベクトルの集合について、各モデルパラメータA,b,w,σ,x,σ,Pをそれぞれ演算し、つまり音素モデルを作成し、記憶していた対応モデルパラメータを更新記憶してステップS2に戻る(S5)。
以下ステップS2〜S5を繰返すことにより、得られる音声パラメータベクトルの出力確率の最大値はほぼ一定値となり、つまりステップS3で収束したことが検出されて終了とする。
【0020】
このようにして得られたHMMの各モデルは、例えば図3に示すように各音素対応のモデルλ1 〜λJの格納部25−1〜25−Jごとに状態遷移確率γ(これは前述したように各ループと隣りへとの計5つの確率よりなる)が遷移確率格納部27に格納され、各状態ごとのA,bが係数格納部28に格納され、x,wが平均格納部29に、σ,σが共分散格納部31に格納される。係数A,bは調音パラメータベクトルXと対応した音声パラメータベクトルyの近似値を対応ずけるためのパラメータであるから調音・音響マッピング係数と呼ぶ。その他のパラメータx,w,σ,σは調音モデルと呼ぶ。またP(y|x,q,λ)は式(2)で計算され、P(x|q,λ)は式(3)で計算されるから、調音パラメータベクトルxに対する音声パラメータベクトルyの出力確率、また調音パラメータベクトルxの出力確率もモデル記憶部25に格納されていると云える。モデル作成方法として「ビタビ学習法」を示したが、より精度の良い学習法「EM学習法」(Expectation−Maximization)を用いてもよい。
【0021】
第1実施形態
この発明の第1実施形態においては既存の音声生成モデルにより生成される音声パラメータ(スペクトル)ベクトルを、入力話者の入力音声パラメータ(スペクトル)ベクトル系列の出力確率が最大となるように適応化し、この生成音声パラメータベクトルと入力音声パラメータベクトル系列とを関係付ける係数を用いて、音声生成モデル中の調音・音響マッピング係数を適応化する。
以下この第1実施形態を、図4及び図5を参照して説明する。話者の入力音声信号は入力端子11からディジタル信号として入力され信号記憶部42に一旦格納される(S1)。この話者入力音声信号は音声パラメータベクトル生成部43において、フレームごとに入力音声パラメータ(スペクトル)ベクトルyが生成され、入力音声パラメータベクトル系列が生成される(S2)。例えば入力音声信号はフレームごとにスペクトル分析され、音声パラメータが検出され(S2−1)、更にそのスペクトルの時間的変化としての速度、加速度パラメータが検出され(S2−2)、これら両パラメータにより音声パラメータベクトルとされ、各フレームの音声パラメータベクトルの時系列が音声パラメータベクトル系列とされる。これらパラメータとしては、適応化の対象であるモデル記憶部48に記憶されている音声生成モデルの作成時に用いた音声パラメータと同一のもの、前記例では0次項を除いた16次のメルケプストラム係数とその速度パラメータが検出される。この入力音声パラメータベクトル系列は記憶部42に一旦格納される(S3)。なお話者入力音声信号と対応した文章の音素列が音素列記憶部45に格納される。
【0022】
音声生成モデルより生成された音声パラメータベクトルの平均ベクトルymjに対して、入力音声パラメータベクトル系列=(Y,…,Y)の出力確率P(|q,λ)が最大となるように、音声生成モデルの平均ベクトルを適応化する。出力確率P(|q,λ)を最大化する平均ベクトルymjは前記非特許文献2の174頁を参考にすると、対数尤度log P(|q,λ)を最大にするように求めればよい。従って
log P(|q,λ)=K−(1/2)ΣΣγ(j)(Y−Hmjσyj −1(Y−Hmj
を最大にするH
ΣΣγ(j)σyj −1mj =ΣΣγ(j)σyj −1mjmj (4)
を計算することで求めることができる。ここでtはベクトル系列の離散的時刻を、jは各音素における状態番号をそれぞれ表わし、Kは定数、Hは回帰係数であり、γ(j)は音声パラメータベクトルが時刻tで状態jに存在する確率であってγ(j)=P(q=j|y,λ)であり、音声パラメータベクトルyの平均ベクトルはymj=Amj+bにより、ベクトルyの共分散行列はσyj=Aσxj +σにより求める。( )は転置行列を表わし、sは音響空間を分割するクラスタを表わす。つまり音声生成モデルλの全てを1つのクラスタとするか、あるいは母音と子音とを別のクラスタとして求めるなど、全音素モデルをいくつかのクラスタに分けて求める。
【0023】
つまり図4、図5に示すように入力音声パラメータベクトル系列と、音声
生成モデルとを用いて、音声関係係数算出部46で、音声関係係数Hを計算する(S4)。モデル記憶部44中の各モデルの調音・音響マッピング係数A,bと調音平均ベクトルxmjを取出し、音声パラメータの平均ベクトルymjを平均ベクトル生成部47でymj=Amj+bの計算によりそれぞれ生成する(S4−1)。またモデル記憶部44中の各モデルの調音パラメータベクトルxの共分散σxjと調音平均ベクトルxmjの誤差wの共分散σwjを取り出し、音声パラメータベクトルyの共分散行列σyjを共分散計算部48でσyj=Aσxj +σwjの計算によりそれぞれ生成する(S4−2)。更に音声関係係数算出部46において、記憶部45内の音素系列に従って各音素についてモデル記憶部44内の対応音素モデルλの遷移確率γを取出し、これと、入力音声パラメータベクトル系列と、平均ベクトル生成部47よりの平均ベクトルymjと、共分散計算部48よりの共分散行列σyjとを用いて、ΣΣγ(j)σyj −1mj ,ΣΣγ(j)σyj −1mjmj を計算し、式(4)を満す回帰係数(音声関係係数)Hを求める(S4−3)。
【0024】
この音声関係係数Hを用いて、音声生成モデルの調音・音響マッピング係数A,bを、それぞれH,Hと係数適応化部49で入力話者音声に適応化する(S5)。
更に必要に応じて、先に求めた音声パラメータベクトルの平均ベクトルymjを音声適応化部51でYmj=Hmjの計算により変更する(S6)。
この適応化された音声生成モデルを用いれば、調音パラメータベクトル系列を入力して、これと対応した前記入力話者の音声に近い音声信号を合成することができる。
なお図5において制御部52は各部を順次動作させ、また各記憶部に対する読み書きを行う。
【0025】
第2実施形態
次にこの発明の第2実施形態を図6及び図7を参照して説明する。第2実施形態は入力音声の調音運動を、適応対象音声生成モデルを用いて決定し、この調音運動の出力確率が最大となるように音声生成モデルを適応化する。
入力端子41からの入力話者の入力音声信号から入力音声パラメータ(スペクトル)ベクトル系列を音声パラメータベクトル生成部43で生成し(S2)、これを一旦記憶部43に記憶する(S3)ことは第1実施形態と同様である。
【0026】
この第2実施形態においては、入力音声パラメータベクトル系列の出力確率P(|q,λ)を最大にする状態系列qを、記憶部45の音素系列に基づき、例えばビタビアルゴリズムにより状態系列生成部61で生成する(S4)。この生成の手法は先に述べたモデル作成法とほぼ同様に行えばよい。
次にこの状態系列qに対して事後確率P(x|y,q,λ)を最大にする調音運動、つまり調音パラメータベクトル系列を調音パラメータベクトル生成部62で生成する(S5)。P(x|y,q,λ)を最大にする調音パラメータベクトル系列は前記非特許文献1の2306頁左欄の記載から明らかなように次式(5)を最小化する系列 を求めればよい。
【0027】
J=(−A −b)σ −1−A −b) (5)
つまり非特許文献1中の式(4)(下記の式)により求める。
=(σ −1+Aσ −1A)−1(σ −1+Aσ −1(y−b))
このようにして生成された調音パラメータベクトル系列 と、出力確率P( |q,λ)が最大となる調音パラメータベクトルxの平均ベクトルxemとを関係付ける次式(6)を平均関係係数計算部63で計算して、平均関係係数Cを求める(S6)。
【0028】
ΣΣγ(j)σxj −1etmj =ΣΣγ(j)σxj −1mjmj (6)
つまり生成された調音パラメータベクトル系列 の各ベクトルxetについて、記憶部44中の音声生成モデルの対応音素モデルλの遷移確率γ、共分散σxj、平均xmjを取出し、ΣΣγ(j)σxj −1etmj,ΣΣγ(j)σxj −1mjmj を計算して式(6)を計算して回帰係数Cを求める。このようにして求めた平均関係係数Cを用いて、記憶部44中の調音平均ベクトルxmjを平均適応化部64でXmj=Cmjとして調音平均ベクトルを適応化する(S7)。
【0029】
この適応化された音声生成モデルを用いて入力話者の音声信号の調音運動(調音パラメータベクトル系列)を求めることにより、適応化前のモデルを用いる場合よりも高い精度で調音運動を求めることができる。
更に調音・音響マッピング係数A,bも適応化する場合は次のようにする。
ステップS15で生成された調音パラメータベクトル系列 の各調音スペクトルベクトルxetと対応する音声スペクトルベクトルを音素系列を参照しながら、音声生成モデルの調音・音響マッピング係数A,bを用いて、音声ベクトル生成部65で音声スペクトルベクトルy=Aet+bを生成する(S8)。
【0030】
この音声生成モデルを用いた音声スペクトルベクトルyに対して、入力音声パラメータベクトル系列の出力確率P(|q,λ)を最大にする調音・音響マッピング係数は、第1実施形態の場合と同様に、
P(|q,λ)=∫P(Y|x,q,λ)P(x|q,λ)dxの対数尤度log P(|q,λ)を最大にすることにより与えられる。従って、式(4)の導出と同様に次式(7)を満す回帰係数(マッピング関係係数)Dをマッピング関係係数算出部66で算出する(S9)。
【0031】
ΣΣγ(j)σwj −1(Aet+b=ΣΣγ(j)σwj −1(Aet+b)(Aet+b (7)
つまりマッピング関係係数計算部66で、入力音声パラメータベクトル系列と、音声ベクトル生成部65よりの音声ベクトルyと、モデル記憶部44中の誤差の共分散σwj、遷移確率γとを用いて、
ΣΣγ(j)σwj −1 =ΣΣγ(j)σwj −1
を満すDを計算する。
【0032】
このマッピング関係係数Dを用いてモデル記憶部44中の各音声生成モデルの各調音・音響マッピング係数A,bを係数適応化部67でD,Dとして適応化する(S10)。
ステップS4における状態系列の生成は、第1実施形態において音声適応化部51で生成した適応化音声平均ベクトルYmj(=Hmj)を用いて行ってもよい。この場合、回帰係数CとDで共通のクラスタを用いた場合、回帰係数の冗長性のため第1実施形態と同じ尤度になるが、適応化された音声生成モデルは第1実施形態と異なるものとなる。
【0033】
以上のような各種の適応化法により音声生成モデルを話者音声に適応化し、その適応化音声生成モデルを用いて、その話者の音声信号に対する調音運動を例えば非特許文献1に示すように推定する。
実験
日本人男性3名によって発声された356文章の音声信号と調音データを用い、モデル作成の項で述べた条件でパラメータベクトルを生成し、3者ごとにモデルを作成し、各入力話者から、入力話者以外の話者2名のそれぞれのモデルに対して適応を行い、評価は計6つのテストの平均で行った。今回用いた調音データは、調音観測点上に小さな受信コイルを接着する磁気センサシステムを用いて観測された。しかし、話者毎に受信コイルを接着する位置が異なり、また、話者毎に調音器官の大きさが異なるため、入力話者の観測した調音運動と別の特定話者のモデルを用いて推定した調音運動は、そのままでは比較することができない。したがって、あらかじめ求めた入力話者の観測調音運動と別の話者の観測調音運動の位置とサイズの線形変換を用いて正規化し、評価を行った。適応の際には、教師ありの学習を用い、適応文章数は40とした。調音運動の逆推定の際には、音素ありの条件を用いた(非特許文献1)。適応化法は、(A)第1実施形態、(B)第2実施形態、(C)第1実施形態と第2実施形態との併用の3つで実験を行った。クラスタ数sは全適応化法において共通とした。
【0034】
図8に、クラスタ数の値を1,3,5,10としたときの、学習データに対する音響パラメータベクトルの対数尤度を示す。適応化法を用いることで、話者独立モデルよりも尤度が上昇することが分かる。また、(A)法と(C)法の尤度はほぼ同じであり、(B)法の尤度はそれらに比べて低い。
なお、話者の音声と調音運動を用いて作ったモデル(話者モデル)を用いた場合と、話者と無関係の音声とその対応調音運動を用いて作ったモデル(話者独立モデル)を用いた場合についての実験結果も示した。
【0035】
図9に、クラスタ数における、適応化法による調音運動の二乗誤差を示す。適応化法を用いることで、すべてのクラスタ数において話者独立モデルよりも誤差が減少している。(A)法を用いた場合、調音運動に関する適応は行われないため、クラスタの数によらず、誤差はほぼ一定である。一方、(B)法の場合、クラスタ数の増加につれて誤差が減少していく。(C)法は、クラスタ数が5までは(B)法よりも誤差が小さいが、クラスタ数が10では尤度が高いにも関わらず、誤差が大きくなっている。
【0036】
図10に各種音素毎の二乗誤差を示す。評価はクラスタ数10を用いて行った。‘Total’は発声全体の二乗誤差であり、‘Vowel’から‘Nasal’まではそれぞれ、その発声の際に重要な調音器官における二乗誤差である。適応化法を用いることで、すべての音素クラスに対して話者独立モデルよりも向上が見られた。最大約44.4%の改善が見られた。また、適応化法による音素クラスに対する誤差の違いは見られなかった。
入力男性話者が「やるべきことはやっており何ら落ち度はない」という文章を発声した音声信号から、話者独立モデルを利用して推定された調音運動軌道(太線)と観測された調音運動軌道(細線)の垂直信号の例を図11に示し、(C)法により適応化したモデルを利用して推定された調音運動軌道(太線)と観測された調音運動軌道(細線)の垂直信号の例を図12に示す。これら両図を比較すれば図12の方が太線が細線に近いものとなっており、モデル適応化の効果が得られていることが理解できる。
【0037】
また推定された調音運動は発声した音素の特徴を良く再現している。推定された調音運動から生成した音声スペクトルと入力音声スペクトルとのスペクトル歪みも約69.0%の改善が見られた。
図5、図7に示した適応化装置をコンピュータに機能させてもよい。この場合は図4又は図7に示した適応化方法の各手順をコンピュータに実行させるためのプログラムをCD−ROM、磁気ディスクなどの記録媒体からコンピュータにインストールし、又は通信回線を介してダウンロードし、そのプログラムをコンピュータに実行させればよい。上述においては調音パラメータベクトルを変数として音声パラメータベクトルを近似する関数に線形関数を用いたが他の関数でもよい。音声パラメータベクトル、及び調音パラメータベクトルとしては加速度成分や速度成分を用いなくてもよい。
【0038】
【発明の効果】
この発明によれば、調音運動を表現する確率的な動的モデルと調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを話者適応化することができ、この適応化した音声生成モデルを使用することにより、入力話者音声の調音運動を、適応化しないモデルを用いる場合より、精度よく推定することができる。更に、調音パラメータベクトルから音声合成する場合に、所望の話者の音声を合成することができる。また、同様にこのモデルを用いて音声認識する場合も高認識精度を得ることができるようになる。更にこの発明によれば小量の音声データからでも音声生成モデルを適応化することができる。
【図面の簡単な説明】
【図1】1つの音素モデルの状態遷移の例を示す図。
【図2】モデル作成手順の例を示す流れ図。
【図3】音声生成モデルが記憶されている記憶装置の記憶内容例を示す図。
【図4】この発明の第1実施形態の処理手順の例を示す流れ図。
【図5】この発明の第1実施形態の機能構成例を示すブロック図。
【図6】この発明の第2実施形態の処理手順の例を示す流れ図。
【図7】この発明の第2実施形態の機能構成例を示すブロック図。
【図8】学習音声パラメータベクトルに対する合成音声パラメータベクトルの対数尤度の実験結果を示すグラフ。
【図9】入力音声信号に対して推定した調音パラメータベクトルの2乗誤差の実験結果を示すグラフ。
【図10】入力音声信号に対して推定した調音パラメータベクトルの各種音素ごとの2乗誤差の実験結果を示す図。
【図11】実測した調音運動と、話者独立モデルを利用して推定した調音運動の例を示す図。
【図12】実測した調音運動と、話者適応化したモデルを利用して推定した調音運動の例を示す図。

Claims (10)

  1. 記憶装置に記憶された調音運動を表現する確率的な動的モデル(以下調音モデルと書く)と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号に適応化する方法であって、
    入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する手順と、
    上記各音声生成モデルについてその各調音・音響マッピング係数を用いて調音パラメータベクトル系列、音声パラメータベクトルの各平均ベクトルをそれぞれ生成する手順と、
    上記入力音声パラメータベクトル系列の平均ベクトル系列(以下入力音声平均ベクトル)と上記平均ベクトルの系列とを、上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける手順と、
    その関係づけを上記各音声生成モデルの各調音・音響マッピング係数に与えて、上記音声生成モデルを適応化する手順と
    を有することを特徴とする音声生成モデル話者適応化方法。
  2. 記憶装置に記憶された調音モデルと、調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号から適応化する方法であって、
    入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する手順と、
    上記音声生成モデルを用いて、上記入力音声パラメータベクトル系列に対する事後確率が最大となる調音パラメータベクトル系列を生成する手順と、
    上記調音パラメータベクトル系列の出力確率が最大となるように上記調音パラメータベクトル系列の平均ベクトル系列と上記音声生成モデルの平均ベクトル系列とを関係づける手順と、
    上記関係づけを上記音声生成モデルの平均ベクトルに与えて適応化する手順とを有することを特徴とする音声生成モデル話者適応化方法。
  3. 上記各音声生成モデルの各調音・音響マッピング係数を用いて上記調音パラメータベクトル系列と対応する音声パラメータベクトル系列を生成する手順と、
    その生成した音声パラメータベクトル系列と上記入力音声パラメータベクトル系列とを、その入力音声パラメータベクトル系列の出力確率を最大化するように関係づける手順と、
    その関係づけを上記音声生成モデルの調音・音響マッピング係数に与えて適応化する手順と
    を有することを特徴とする請求項2記載の音声生成モデル話者適応化方法。
  4. 上記調音パラメータベクトル系列を生成する手順は、
    上記各音声生成モデルについて、その各調音・音響マッピング係数を用いて、上記調音パラメータベクトル系列と対応する音声パラメータベクトルの各平均ベクトルを生成する手順と、
    上記入力音声パラメータベクトル系列の出力確率を最大化するように上記平均ベクトルを適応化する手順と、
    上記入力音声パラメータベクトルの出力確率を最大化する上記平均ベクトルの系列を生成する手順と、
    上記平均ベクトルの系列に対して入力音声パラメータベクトル系列に対する事後確率が最大となる上記調音パラメータベクトル系列を生成する手順とを有することを特徴とする請求項2又は3記載の音声生成モデル話者適応化方法。
  5. 記憶装置に記憶された調音運動を表現する確率的な動的モデル(以下調音モデルと書く)と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号に適応化する装置であって、
    入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する音声パラメータベクトル生成部と、
    上記各音声生成モデルの各調音・音響マッピング係数を入力して音声パラメータベクトルの各平均ベクトルをそれぞれ生成する平均ベクトル生成部と、
    上記入力音声パラメータベクトル系列の平均ベクトル系列(以下入力音声平均ベクトル)と上記各平均ベクトルとを入力して、これらを、上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける音声関係係数を計算する音声関係係数計算部と、
    上記音声関係係数と各音声生成モデルの各調音・音響マッピング係数とをそれぞれ乗算して適応化された調音・音響マッピング係数を出力する適応化部と
    を具備することを特徴とする音声生成モデル話者適応化装置。
  6. 記憶装置に記憶された調音モデルと、調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号から適応化する装置であって、
    入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する音声パラメータベクトル生成部と、
    上記音声生成モデルと、上記入力音声パラメータベクトル系列を入力して、その入力音声パラメータベクトル系列に対する事後確率が最大となる調音パラメータベクトル系列を生成する調音パラメータベクトル生成部と、
    上記調音パラメータベクトル系列と各音声生成ベクトルの各調音平均ベクトルを入力してこれらを、上記調音パラメータベクトル系列の出力確率が最大となるように上記関係づける平均関係係数を計算する平均関係係数計算部と、
    上記平均関係係数と上記各音声生成モデルの各調音平均ベクトルとをそれぞれ乗算して適応化された調音平均ベクトルを生成する平均ベクトル適応化部と
    を具備することを特徴とする音声生成モデル話者適応化装置。
  7. 上記各音声生成モデルの各調音・音響マッピング係数と上記調音パラメータベクトル系列を入力して対応する音声パラメータベクトル系列を生成する音声ベクトル生成部と、
    上記生成した音声パラメータベクトル系列と上記入力音声パラメータベクトル系列とを入力して、これらを、その入力音声パラメータベクトル系列の出力確率を最大化するように関係づけるマッピング関係係数を計算するマッピング関係係数計算部と、
    上記マッピング関係係数と上記各音声生成モデルの各調音・音響マッピング係数をそれぞれ乗算して適応化された調音・音響マッピング係数を生成するマッピング適応化部と
    を具備することを特徴とする請求項6記載の音声生成モデル話者適応化装置。
  8. 上記調音パラメータベクトル生成部は、
    上記各音声生成モデルの各調音・音響マッピング係数と各調音平均ベクトルとを入力して、音声パラメータベクトルの各平均ベクトルをそれぞれ生成する音声平均ベクトル生成部と、
    上記入力音声パラメータベクトル系列と上記各音声平均ベクトルを入力して、これらを上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける音声関係係数を計算する音声関係係数計算部と、
    上記音声関係係数と上記各音声平均ベクトルとを乗算して適応化音声平均ベクトルを生成する音声適応化部と、
    上記入力音声パラメータベクトル系列の出力確率を最大化する上記適応化音声平均ベクトルの系列を生成する音声平均ベクトル系列生成部と、
    上記適応化音声平均ベクトル系列に対して上記入力音声パラメータベクトル系列に対する事後確率が最大となる上記調音パラメータベクトル系列を生成するパラメータ系列生成部とを有する
    ことを特徴とする請求項6又は7記載の音声生成モデル話者適応化装置。
  9. 請求項1〜4の何れかに記載した音声生成モデル話者適応化方法の各手順をコンピュータに実行させるためのプログラム。
  10. 請求項9に記載したプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003066847A 2003-03-12 2003-03-12 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 Expired - Fee Related JP4230254B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003066847A JP4230254B2 (ja) 2003-03-12 2003-03-12 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003066847A JP4230254B2 (ja) 2003-03-12 2003-03-12 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2004279454A true JP2004279454A (ja) 2004-10-07
JP4230254B2 JP4230254B2 (ja) 2009-02-25

Family

ID=33284630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003066847A Expired - Fee Related JP4230254B2 (ja) 2003-03-12 2003-03-12 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP4230254B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
CN111402922A (zh) * 2020-03-06 2020-07-10 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN111883117A (zh) * 2020-07-03 2020-11-03 北京声智科技有限公司 语音唤醒方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009075692A2 (en) 2007-05-14 2009-06-18 Invista Technologies S.A.R.L. High efficiency reactor and process

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
CN108701452B (zh) * 2016-02-02 2023-09-26 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质
CN111402922A (zh) * 2020-03-06 2020-07-10 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN111883117A (zh) * 2020-07-03 2020-11-03 北京声智科技有限公司 语音唤醒方法及装置
CN111883117B (zh) * 2020-07-03 2024-04-16 北京声智科技有限公司 语音唤醒方法及装置

Also Published As

Publication number Publication date
JP4230254B2 (ja) 2009-02-25

Similar Documents

Publication Publication Date Title
Zen et al. Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
Sun et al. Voice conversion using deep bidirectional long short-term memory based recurrent neural networks
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
JP2543148B2 (ja) 音声認識装置を学習させる装置
US9099082B2 (en) Apparatus for correcting error in speech recognition
CN107615376B (zh) 声音识别装置及计算机程序记录介质
US6006186A (en) Method and apparatus for a parameter sharing speech recognition system
JPH11327592A (ja) 話者正規化処理装置及び音声認識装置
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
Henter et al. Gaussian process dynamical models for nonparametric speech representation and synthesis
US20220223066A1 (en) Method, device, and computer program product for english pronunciation assessment
Stuttle A Gaussian mixture model spectral representation for speech recognition
CN113744755A (zh) 一种从音频信号生成语音动画的装置及方法
Mitra et al. Articulatory trajectories for large-vocabulary speech recognition
Hueber et al. Speaker adaptation of an acoustic-to-articulatory inversion model using cascaded Gaussian mixture regressions
Ong et al. Malay language speech recogniser with hybrid hidden markov model and artificial neural network (HMM/ANN)
JP5474713B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
JP4230254B2 (ja) 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体
Liu et al. Temporally varying weight regression: A semi-parametric trajectory model for automatic speech recognition
JP4779239B2 (ja) 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
Wei et al. Predicting articulatory movement from text using deep architecture with stacked bottleneck features
JP4226831B2 (ja) 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050303

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees