JP4225128B2

JP4225128B2 - 規則音声合成装置及び規則音声合成方法

Info

Publication number: JP4225128B2
Application number: JP2003169989A
Authority: JP
Inventors: 信英山崎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-06-13
Filing date: 2003-06-13
Publication date: 2009-02-18
Anticipated expiration: 2023-06-13
Also published as: JP2005004104A; US20050119889A1; US7765103B2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声データから抽出した音声単位を接続して音声を合成する規則音声合成装置及び規則音声合成方法に関する。
【０００２】
【従来の技術】
従来、テキストデータや、コード情報から音声単位を接続して音声を合成する規則音声合成装置が知られている。この規則音声合成装置では、音声波形を生成後に韻律を付与し、合成音を出力している。この場合、音声波形を生成するために音声を合成する合成単位が合成された後の音声の品質に大きな影響を与えることが知られている。
【０００３】
特に合成単位の接続部での不整合による接続歪みによる音質の劣化が問題となっている。この接続歪みの影響を防ぐ方法として、従来から合成単位を最適化する方法がいくつか提案されている。例えば、音素環境クラスタリング（ＣＯＣ）と呼ばれる技術が特開昭６４−７８３００「音声合成方法」や、使用環境でも音素連鎖に応じて適切な候補の絞り込みにより、音素を最小単位とする適切な音声単位を選択する方法が特開平８−２４８９７２「規則音声合成装置」に開示されている。
【０００４】
【特許文献１】
特開昭６４−７８３００号公報
【特許文献２】
特開平８−２４８９７２号公報
【０００５】
【発明が解決しようとする課題】
ところで、前記特許文献１、特許文献２に記載の従来の方法は、比較的大量の合成単位を含んだ音声データベースのなかから、統計的に接続歪みが少なくなるような比較的少ない数の音声素片のセットを選択する方法である。この方法によって得られた音声素片セットを使用して規則音声合成を行った場合、合成音声の品質は発声の内容によってばらつくという問題がある。つまり、ある文の発声を合成したときには接続歪みが少なくて非常に滑らかに聞こえても、別の文の発声を合成したときには、接続歪みの多い素片の組み合わせが使用され、素片の接続部で異音を持つ合成音声になってしまう問題点があった。
【０００６】
本発明の目的は以上の問題点を解決し、どのような発声であっても接続歪みを一定以下にすることができる規則音声合成装置及び規則音声合成方法を提供することにある。
【００１１】
【課題を解決するための手段】
本発明に係る規則音声合成装置は、前記課題を解決するために、母音の音素を境界に持つ複数の音素列を素片とし、各素片の特徴パラメータと共に単位素片のセットとして記憶する単位素片セット記憶手段と、入力される音素列に基づいて、前記単位素片セット記憶手段から対応する単位素片の音響特徴パラメータを読み出して出力する単位素片選択手段と、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶手段と、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータから前記単位素片選択手段の出力の音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正するパラメータ補正手段と、前記パラメータ補正手段から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する時系列データ生成手段と、前記時系列データ生成手段によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データに基づいて、前記入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成手段とを備え、さらに、前記パラメータ補正手段は、前記単位素片選択手段の出力である単位素片の終端パラメータと前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差が最も小さいものを特定の音響特徴パラメータとして選択し、及び／又は前記単位素片選択手段の出力である単位素片の終端パラメータ及び始端パラメータと、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差に基づいて特定の音響特徴パラメータを選択し、前記音素列である単位素片の始端または終端の時間的な境界を固定長として決定する。
【００１２】
この規則音声合成装置は、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶の複数の音響特徴パラメータから音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正し、この補正した音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する。
【００１３】
本発明に係る規則音声合成方法は、入力される音素列に基づいて対応する単位素片の音響特徴パラメータを、母音の音素を境界に持つ複数の音素列を素片として特徴パラメータと共に単位素片のセットとして記憶する単位素片セット記憶手段から読み出して出力する単位素片選択工程と、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶手段の複数の音響特徴パラメータから前記単位素片選択工程が出力した単位素片の音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正するパラメータ補正工程と、前記パラメータ補正工程から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する時系列データ生成工程と、前記時系列データ生成工程によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データにしたがって前記入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成工程とを備え、さらに前記パラメータ補正工程は、前記単位素片選択工程の出力である単位素片の終端パラメータと前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差が最も小さいものを特定の音響特徴パラメータとして選択し、及び／又は前記単位素片選択工程の出力である単位素片の終端パラメータ及び始端パラメータと、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差に基づいて特定の音響特徴パラメータを選択し、前記音素列である単位素片の始端または終端の時間的な境界を固定長として決定する。
【００１４】
この規則音声合成方法は、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶の複数の音響特徴パラメータから音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正し、この補正した音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する。
【００２３】
【発明の実施の形態】
以下、図面を参照して本発明のいくつかの実施の形態について説明する。図１は本発明に係る第１の実施の形態の規則音声合成装置１０のブロック図である。この規則音声合成装置１０は、定常的な特徴を示す音素、つまり音質が安定した音素であり、ダイナミックに変化することのない母音の音素を境界とした音素列（素片）を繋いで音声を合成する。例えば、母音をＶ（vowel）とし、子音をＣ（consonant）としたとき、ＶＣＶと表記される音素列、すなわち素片を対象としている。
【００２４】
図１に示すように、第１の実施の形態の規則音声合成装置１０は、単位素片セットを記憶している単位素片セット記憶部１１と、入力される音素列に基づいて単位素片セット記憶部１１から音響特徴パラメータを選択して出力する単位素片選択部１２と、母音毎に代表となる音響特徴パラメータを記憶したターゲットパラメータ記憶部１３と、単位素片の音響特徴パラメータを補正するパラメータ補正部１４と、音響特徴パラメータの時系列データを生成する時系列データ生成部１５と、入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成部１６とを備える。
【００２５】
単位素片セット記憶部１１が記憶している単位素片セットは音素系列と音響特徴パラメータの対になったデータである。これは先に示した従来手法を用いて構築することができる。すなわち、複数の文章データについて例えば一人の話者によって発音された音声信号に基づいてＡ／Ｄ変換とスペクトル分析を行って得られた特徴パラメータを単位素片とセットにして記憶して構築する。特徴パラメータを得るためのスペクトル分析としは、ケプストラム分析、短時間スペクトル分析、短時間自己相関分析、帯域フィルタバンク分析、零交差数分析等や、ホルマント分析、線スペクトル対（ＬＳＰ）分析、線形予測（ＬＰＣ）分析、偏自己相関法（ＰＡＲＣＯＲ分析）等を用いることができる。例えば、ケプストラム分析は、短時間スペクトルの対数をとり、それを逆フーリエ変換したものである。音声のスペクトル包絡をケプストラムで表現することで、スペクトルの極と零特性も近似的に表現できる。ただし、素片境界が定常的な特性を示す母音の音素境界となるように制限を加えて作成したものである。
【００２６】
単位素片選択部１２の入力としての音素列は、例えばテキスト音声合成の形態素解析及び発音記号列生成処理を経て得られた発声を行う音素系列を示したデータである。
【００２７】
単位素片選択部１２は前記入力される音素列に基づいて前記単位素片セット記憶部１１を参照して、前記入力される音素列に含まれる音素列（素片）を選択して、選択した音素列（単位素片）に対応する音響特徴パラメータ（例えばケプストラム係数や、ホルマント係数など）を単位素片セット記憶部１１から読み出す。
【００２８】
母音ターゲットパラメータ記憶部１３は、代表となる母音のパラメータを母音毎に保存している。このパラメータは時間的に変化するパラメータではなくある一点でのパラメータである。なお、これらのパラメータは、あらかじめ前記単位素片セットのなかから適当に選択することができる。
【００２９】
パラメータ補正部１４は、前記単位素片選択部１２から出力される音響特徴パラメータと単位素片の始端、終端の音素に応じて前記ターゲットパラメータ記憶部１３から母音のターゲットパラメータを読み出してそれに応じて単位素片の音響特徴パラメータを補正する。詳細は後述するが、パラメータの時系列を入力とし、素片の前後のパラメータが、対応する音素の母音ターゲットパラメータに等しくなるように、パラメータを補正し出力する。
【００３０】
パラメータ時系列生成部１５は、パラメータ補正部１４によって補正されたパラメータを連結して前記入力された音素列に対応する音響特徴パラメータの系列であるパラメータ時系列を生成して出力する。つまり、パラメータ補正部１４から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成して出力する。
【００３１】
音声合成部１６は、波形生成部１７とスピーカ１８からなる。波形生成部１７は、パラメータ時系列生成部１５によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データに基づいて、前記入力された音素列に対応する合成音声信号を生成する。特にこの音声合成部１６は、前述した特徴パラメータを用いて音声を合成することになり、偏自己相関（partial autocorrelation：ＰＡＲＣＯＲ）方式、線スペクトル対（line spectrum pair：ＬＳＰ）方式、ケプストラム方式などを用いることになる。この合成音声信号はスピーカ１８により発声して出力される。つまり、音声合成部１６は、パラメータ時系列生成部１５から出力される音響特徴パラメータの系列に基づいて、ＰＡＲＣＯＲ方式、ＬＳＰ方式、ケプストラム方式などにより波形生成部１７にて音声信号を合成し、スピーカ１８から出力する。
【００３２】
次に本発明の特徴をなすパラメータ補正部１４の処理について具体的に説明する。図２Ａは、１つの単位素片を補正する方法を示したものである。この図では概念的に１次元のパラメータで示しているが、実際は複数次元のベクトル量となる。横軸は時間を示す。
【００３３】
この例では先頭の音素は/i/であるので、母音ターゲットパラメータ記憶部１３から/i/のパラメータを取得する。先頭から特定の区間離れたところから手前側に徐々にパラメータの値がターゲットＱの値になるように補正を行う。ここでいう先頭から特定の区間離れたところというのは、/i/であるＶ（vowel）の中間部である。時間的に最も/i/らしい特徴パラメータが得られるところである。この処理を式で示すと式（１）のようになる。
Ｐ'(t)＝(Ｑ−Ｐ(t1))(t2-t)/(t2-t1)＋Ｐ(t) ・・・（１）
ここで、Ｐ(t)は時刻tにおける元のパラメータ、Ｐ'(t)は補正後のパラメータ、Ｑはターゲットパラメータ、t1は素片の先頭の時刻、t2は補正を終了する時刻である。
【００３４】
同様に、単位素片の終端のパラメータも特定の区間手前から徐々に/a/のターゲットパラメータの値に等しくなるように補正を行う。ここでいう特定の区間というのも、/a/であるＶ（vowel）の中間部である。時間的に最も/a/らしい特徴パラメータが得られるところである。この処理を式で示すと式２のようになる。
Ｐ'(t)＝(Ｒ−Ｐ(t4))(t-t3)/(t4-t3)＋Ｐ(t) ・・・（２）
ここで、Ｐ(t)は時刻tにおける元のパラメータ、Ｐ'(t)は補正後のパラメータ、Ｒはターゲットパラメータ、t4は素片の終端の時刻、t3は補正を開始する時刻である。
【００３５】
なお、補正を終了する時刻t2及び補正を開始する時刻t3は、それぞれ、t1，t4から固定の時間間隔に設定することができる。また、Ｖ（vowel）とＣ（consonant）との境界としてもよい。さらに、Ｖの長さの中間（５０％）、７０％のようにしてもよい。また、t2-t1の長さ、t4-t3の長さを、単位素片の先頭・終端の長さに比例するように定めることもできる。
【００３６】
次に、パラメータ補正部１４における単位素片を補正する別の補正方法の具体例を図２Ｂに示す。この例では、補正を行う区間を単位素片全体に拡張している。つまり、素片全体にわたって補正をしているので、t2、t3という区間の切れ目はない。式で示すと式（３）になる。
Ｐ'(t)＝(Ｑ−Ｐ(t1))(t4-t)/(t4-t1)＋(Ｒ−Ｐ(t4))(t-t1)/(t4-t1)＋Ｐ(t) ・・・（３）
ここで、Ｐ(t)は時刻tにおける元のパラメータ、Ｐ'(t)は補正後のパラメータ、Ｑは先頭のターゲットパラメータ、Ｒは終端のターゲットパラメータ、t1は素片の先頭の時刻、t4は素片の終端の時刻である。
【００３７】
以上説明したように、第１の実施の形態の規則音声合成装置１０によれば、定常的な特徴を示す母音を素片単位の境界とし、母音毎にターゲットとするパラメータを用意し、合成時に選択された素片単位をターゲットのパラメータに等しくなるように、かつ連続的に補正を行うことにより、接続歪みのない高品質な合成音声を生成することができる。
【００３８】
また、ターゲットとなる母音の特徴パラメータを適切に選ぶことにより、パラメータの母音部がそのターゲットに合わせて補正されるため、はっきりした母音の特性を持つ明瞭度の高い合成音声を生成することができる。
【００３９】
次に、本発明に係る第２の実施の形態の規則音声合成装置について図３、図４を参照して説明する。図３において、第２の実施の形態の規則音声合成装置２０は、前記第１の実施の形態（規則音声合成装置１０）のように母音ターゲットパラメータを母音毎に１つづつ用意するのではなく、複数用意している。つまり、規則音声合成装置２０は、単位素片セットを記憶している単位素片セット記憶部１１と、入力される音素列に基づいて前記単位素片セット記憶部１１から音響特徴パラメータを選択して出力する単位素片選択部１２と、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶部２３と、ターゲットパラメータ記憶部２３に記憶された複数の音響特徴パラメータから特定の音響特徴パラメータを選択し、この特定の音響特徴パラメータに基づいて単位素片の音響特徴パラメータを補正するパラメータ補正部２４と、音響特徴パラメータの時系列データを生成する時系列データ生成部１５と、入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成部１６とを備える。
【００４０】
特にパラメータ補正部２４は、機能的に前記複数の音響特徴パラメータから特定の音響特徴パラメータを選択するターゲットパラメータ選択部２５と、特定の音響特徴パラメータに基づいて単位素片の音響特徴パラメータに補正を実行するパラメータ補正実行部２６とを備える。
【００４１】
単位素片セット記憶部１１、端子素片選択部１２、パラメータ時系列生成部１５及び音声合成部１６については、前記第１の実施の形態に用いたものと同様であるのでここでは説明を省略する。
【００４２】
ターゲットパラメータ記憶部２３は、母音/a/，/i/，/u/，/e/,/o/について、それぞれ数種類のパラメータを用意する。例えば、/a/でも大きく口を開けて発音される/a1/もあれば、ぼそぼそと発音される/a2/もある。また、前の子音の影響を受けて異なって発音される/a3/もある。もちろん、音量の大きさによっても同じパラメータは異なる。さらに、話者の声の高さによってもパラメータは異なる。
【００４３】
音素毎に複数のターゲットパラメータを求めるには、単位素片の前後の境界位置でのパラメータを集めた後に、既存のベクトル量子化手法を用いて数個の代表パラメータを求め、これをターゲットパラメータとすればよい。また、他の方法により、それぞれの母音の多数のパラメータをクラスタリングして大きなまとまりとして数種類、例えば３種類くらいにクラス分けすることも考えられる。
【００４４】
次に、パラメータ補正部２４内のターゲット選択部２５について図４を参照して説明する。図４では素片接続部の母音が/a/である場合の例を示す。この例では/a/のターゲットパラメータとして３種類のパラメータa1、a2、a3が用意されている。
【００４５】
パラメータ補正部２４のターゲット選択部２５では、単位素片の終端のパラメータaと、この例では３つの母音ターゲットパラメータa1、a2、a3の誤差を求める。そして、誤差が最も小さい母音ターゲットパラメータ、すなわち終端のパラメータaに特性が最も近いものを選択する。例えば、単位素片の終端のパラメータaと母音ターゲットパラメータa1との距離が0.6、母音ターゲットパラメータa2との距離が0.5、母音ターゲットパラメータa3との距離が0.3であった。母音ターゲットパラメータa3までの距離が一番短いのでこの母音ターゲットパラメータa3を選択する。その後、次の単位素片の先頭のターゲットパラメータは、前の単位素片の終端で選択した母音ターゲットパラメータと同じものを選択する。パラメータ補正実行部２６における単位素片の補正の方法は前述の通りである。
【００４６】
また、単位素片の終端によって選択するのではなく、単位素片の前後をみて二つの誤差が小さくなるように母音ターゲットパラメータを選択することも可能である。
【００４７】
この場合の実現方法としては、ターゲットパラメータiに対して、前の単位素片の終端のパラメータの誤差をd1i、後ろの単位素片の先端のパラメータの誤差をd2iとした場合、d1i＋αｘd2iの値が最小のターゲットを選択すればよい。なお、αは前側と後ろ側の重み係数であり、通常前側の誤差に対する重みを大きくした方が品質の高い剛性音声が得られるためにはαは１以下に設定する。また、別の実現方法として、d1i，d2iの大きい方を誤差とし、この誤差が最小となるターゲットパラメータiを選択する方法もある。式で示すと、MINi(MAX(d1i，d2i))となるiを求める。
【００４８】
以上に説明した第２の実施の形態の規則音声合成装置２０によれば、ターゲットとなる母音の特徴パラメータを複数用意することにより、選択された単位素片に応じて補正の量が少なくなるようなターゲットが選択され、このターゲットで補正が行われるために、音韻環境等によって母音の特徴が一意に定められない場合にも対応することができる品質の高い合成音声を生成することができる。
【００４９】
次に、本発明に係る第３の実施の形態の規則音声合成装置について図５を参照して説明する。この規則音声合成装置３０は、単位素片補正系３１と音声合成系３２にわかれている。
【００５０】
単位素片補正系３１は、補正済み単位素片セット３３と、パラメータ補正部３４と、単位素片セット記憶部３５と、ターゲットパラメータ記憶部３６とを備えてなり、あらかじめパラメータ補正部３４により、音素列と音響特徴パラメータのデータを持つ単位素片セットを補正し、補正済み単位素片セット記憶部３３に記憶しておく。パラメータ補正部３４は、母音毎に代表となる音響特徴パラメータを記憶したターゲットパラメータ記憶部３６からターゲットパラメータを読み出す。また、パラメータ補正部３４は、単位素片セット記憶部３５から音響特徴パラメータを読み出す。
【００５１】
特に、パラメータ補正部３４は、単位素片セット記憶部３５から読み出した音響特徴パラメータと単位素片の始端、終端の音素に応じてターゲットパラメータ記憶部３６から母音のターゲットパラメータを読み出してそれに応じて単位素片の音響特徴パラメータを補正し、前述したように、補正済み単位素片セット記憶部３３に、前記補正した音響特徴パラメータを、単位素片とセットにして記憶しておく。
【００５２】
音声合成系３２は、補正済み単位素片セット３３と、入力される音素列に基づいて補正済み単位素片セット記憶部３３から補正済みの音響特徴パラメータを選択して出力する単位素片選択部１２と、単位素片選択部１２によって選択された音響特徴パラメータの時系列データを生成する時系列データ生成部１５と、入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成部１６とを備える。
【００５３】
補正済み単位素片セット記憶部３３が記憶している単位素片セットは、既に単位素片補正部３１によって補正されたデータである。
【００５４】
単位素片選択部１２は前記入力される音素列に基づいて前記補正済み単位素片セット記憶部３３を参照して、前記入力される音素列に含まれる音素列（素片）を選択して、選択した音素列（単位素片）に対応する音響特徴パラメータ（例えばケプストラム係数や、ホルマント係数など）を補正済み単位素片セット記憶部３３から読み出す。
【００５５】
パラメータ時系列生成部１５は、端子素片選択部１２によって選択されたパラメータを連結して前記入力された音素列に対応する音響特徴パラメータの系列であるパラメータ時系列を生成して出力する。
【００５６】
音声合成部１６は、波形生成部１７とスピーカ１８からなる。波形生成部１７は、パラメータ時系列生成部１５によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データに基づいて、前記入力された音素列に対応する合成音声信号を生成する。
【００５７】
この第３の実施の形態の規則音声合成装置３０では、補正済み単位素片セット記憶部３３内の補正済み単位補正セットを用いることにより、合成時にパラメータの補正を行う必要がない。
【００５８】
なお、ターゲットパラメータ記憶部３６は、母音毎に代表となる音響特徴パラメータを記憶するだけでなく、母音毎に複数の音響特徴パラメータを記憶していてもよい。この場合、パラメータ補正部３４は、全てのターゲットパラメータに応じて単位素片セット３５から読み出した音響特徴パラメータを補正し、補正済み単位素片セット３３に全ての補正音響特徴パラメータを記憶させておく。
【００５９】
以上に説明したように、この第３の実施の形態の規則音声合成装置３０によれば、単位素片セットをあらかじめ補正した補正済み単位素片セットを用意することによって、合成時の処理量を軽減することができる。
【００６０】
なお、前記第１の実施の形態〜第３の実施の形態では、単位素片の境界の音素として母音で有るものを用いたが、単位素片の境界の音素としては、母音（と無音）だけでなく、そのほかの比較的に音響特性の動的な変化を特徴としない傾向の子音、例えば鼻音なども含めることもできる。
【００６１】
図１を準用して説明すると、単位素片選択部１２が出力した単位素片の音響特徴パラメータに応じてターゲットパラメータ記憶部１３から子音のターゲットパラメータを読み出し、このターゲットパラメータに基づいて単位素片の音響特徴パラメータをパラメータ補正部１４が補正するので、接続歪みを一定以下にすることができる。また、接続歪みのない高品質な合成音声を生成することができる。また、ターゲットとなる子音の特徴パラメータを適切に選ぶことにより、パラメータの子音部がそのターゲットに合わせて補正されるため、はっきりした子音の特性を持つ明瞭度の高い合成音声を生成することができる。
【００６２】
したがって、本発明の規則音声合成装置によれば、前記ＶＣＶの他、ＶＣＶＣＶや、さらにはＣＶＣも対象とすることができる。
【００６３】
【発明の効果】
本発明に係る規則音声合成装置によれば、単位素片選択手段が出力した単位素片の音響特徴パラメータに応じてターゲットパラメータ記憶手段から母音のターゲットパラメータを読み出し、このターゲットパラメータに基づいて単位素片の音響特徴パラメータを補正するので、接続歪みを一定以下にすることができる。また、接続歪みのない高品質な合成音声を生成することができる。また、ターゲットとなる母音の特徴パラメータを適切に選ぶことにより、パラメータの母音部がそのターゲットに合わせて補正されるため、はっきりした母音の特性を持つ明瞭度の高い合成音声を生成することができる。
【００６４】
本発明に係る規則音声合成方法によれば、母音毎に代表となる音響特徴パラメータを記憶したターゲットパラメータ記憶手段から単位素片選択工程が出力した単位素片の音響特徴パラメータに応じて母音のターゲットパラメータを読み出し、このターゲットパラメータに基づいて単位素片の音響特徴パラメータを補正し、この補正したパラメータを結合して音響特徴パラメータの時系列データを生成するので、接続歪みを一定以下にすることができる。また、接続歪みのない高品質な合成音声を生成することができる。また、ターゲットとなる母音の特徴パラメータを適切に選ぶことにより、パラメータの母音部がそのターゲットに合わせて補正されるため、はっきりした母音の特性を持つ明瞭度の高い合成音声を生成することができる。
【００６５】
本発明に係る規則音声合成装置によれば、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶の複数の音響特徴パラメータから音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正し、この補正した音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成するので、選択された単位素片に応じて補正の量が少なくなるようなターゲットが選択され、このターゲットで補正が行われるために、音韻環境等によって母音の特徴が一意に定められない場合にも対応することができる品質の高い合成音声を生成することができる。
【００６６】
本発明に係る規則音声合成方法によれば、この規則音声合成方法は、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶の複数の音響特徴パラメータから音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正し、この補正した音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成するので、選択された単位素片に応じて補正の量が少なくなるようなターゲットが選択され、このターゲットで補正が行われるために、音韻環境等によって母音の特徴が一意に定められない場合にも対応することができる品質の高い合成音声を生成することができる。
【図面の簡単な説明】
【図１】第１の実施の形態の規則音声合成装置のブロック図である。
【図２】前記第１の実施の形態の規則音声合成装置の要部であるパラメータ補正部の補正動作の二つの具体例を説明するための図である。
【図３】第２の実施の形態の規則音声合成装置のブロック図である。
【図４】前記第２の実施の形態の規則音声合成装置の要部であるパラメータ補正部のターゲット選択部の動作の具体例を説明するための図である。
【図５】第３の実施の形態の規則音声合成装置のブロック図である。
【符号の説明】
１０，２０，３０規則音声合成装置、１１単位素片セット記憶部、１２単位素片選択部、１４，２４パラメータ補正部、１５パラメータ時系列生成部、１６音声合成部、２５ターゲットパラメータ選択部、２６パラメータ補正実行部、３１単位素片補正系、３２音声合成系、３３補正済み単位素片セット記憶部、３４パラメータ補正部、３５単位素片セット記憶部、３６ターゲットパラメータ記憶部

Claims

母音の音素を境界に持つ複数の音素列を素片とし、各素片の特徴パラメータと共に単位素片のセットとして記憶する単位素片セット記憶手段と、
入力される音素列に基づいて、前記単位素片セット記憶手段から対応する単位素片の音響特徴パラメータを読み出して出力する単位素片選択手段と、
母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶手段と、
前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータから前記単位素片選択手段の出力の音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正するパラメータ補正手段と、
前記パラメータ補正手段から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する時系列データ生成手段と、
前記時系列データ生成手段によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データに基づいて、前記入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成手段とを備え、
さらに、前記パラメータ補正手段は、前記単位素片選択手段の出力である単位素片の終端パラメータと前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差が最も小さいものを特定の音響特徴パラメータとして選択し、及び／又は前記単位素片選択手段の出力である単位素片の終端パラメータ及び始端パラメータと、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差に基づいて特定の音響特徴パラメータを選択し、前記音素列である単位素片の始端または終端の時間的な境界を固定長として決定することを特徴とする規則音声合成装置。
前記パラメータ補正手段は、前記単位素片の終端のパラメータと前記複数の音響特徴パラメータの誤差と、前記始端のパラメータと前記複数の音響特徴パラメータの誤差との和が最小となるものを特定の音響特徴パラメータとして選択することを特徴とする請求項１記載の規則音声合成装置。
前記パラメータ補正手段は、前記単位素片の終端のパラメータと前記複数の内の各音響特徴パラメータの誤差と、前記始端のパラメータと前記複数の内の各音響特徴パラメータの誤差とのそれぞれ大きいものを代表とした誤差のうち最小のものを特定の音響特徴パラメータとして選択することを特徴とする請求項１記載の規則音声合成装置。
前記パラメータ補正手段は、前記単位素片の終端のパラメータと前記複数の音響特徴パラメータの誤差と、前記始端のパラメータと前記複数の音響特徴パラメータの誤差に対して、少なくとも一方に重みをつけた前記誤差の和が最小となるものを特定の音響特徴パラメータとして選択することを特徴とする請求項１記載の規則音声合成装置。
入力される音素列に基づいて対応する単位素片の音響特徴パラメータを、母音の音素を境界に持つ複数の音素列を素片として特徴パラメータと共に単位素片のセットとして記憶する単位素片セット記憶手段から読み出して出力する単位素片選択工程と、
母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶手段の複数の音響特徴パラメータから前記単位素片選択工程が出力した単位素片の音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正するパラメータ補正工程と、
前記パラメータ補正工程から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する時系列データ生成工程と、
前記時系列データ生成工程によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データにしたがって前記入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成工程とを備え、
さらに前記パラメータ補正工程は、前記単位素片選択工程の出力である単位素片の終端パラメータと前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差が最も小さいものを特定の音響特徴パラメータとして選択し、及び／又は前記単位素片選択工程の出力である単位素片の終端パラメータ及び始端パラメータと、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差に基づいて特定の音響特徴パラメータを選択し、前記音素列である単位素片の始端または終端の時間的な境界を固定長として決定することを特徴とする規則音声合成方法。