JP4225128B2 - 規則音声合成装置及び規則音声合成方法 - Google Patents
規則音声合成装置及び規則音声合成方法 Download PDFInfo
- Publication number
- JP4225128B2 JP4225128B2 JP2003169989A JP2003169989A JP4225128B2 JP 4225128 B2 JP4225128 B2 JP 4225128B2 JP 2003169989 A JP2003169989 A JP 2003169989A JP 2003169989 A JP2003169989 A JP 2003169989A JP 4225128 B2 JP4225128 B2 JP 4225128B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- acoustic feature
- unit
- feature parameters
- unit segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 21
- 238000003786 synthesis reaction Methods 0.000 title claims description 21
- 238000001308 synthesis method Methods 0.000 title description 8
- 238000000034 method Methods 0.000 claims description 25
- 230000002123 temporal effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 6
- 230000002194 synthesizing effect Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明は、音声データから抽出した音声単位を接続して音声を合成する規則音声合成装置及び規則音声合成方法に関する。
【0002】
【従来の技術】
従来、テキストデータや、コード情報から音声単位を接続して音声を合成する規則音声合成装置が知られている。この規則音声合成装置では、音声波形を生成後に韻律を付与し、合成音を出力している。この場合、音声波形を生成するために音声を合成する合成単位が合成された後の音声の品質に大きな影響を与えることが知られている。
【0003】
特に合成単位の接続部での不整合による接続歪みによる音質の劣化が問題となっている。この接続歪みの影響を防ぐ方法として、従来から合成単位を最適化する方法がいくつか提案されている。例えば、音素環境クラスタリング(COC)と呼ばれる技術が特開昭64−78300「音声合成方法」や、使用環境でも音素連鎖に応じて適切な候補の絞り込みにより、音素を最小単位とする適切な音声単位を選択する方法が特開平8−248972「規則音声合成装置」に開示されている。
【0004】
【特許文献1】
特開昭64−78300号公報
【特許文献2】
特開平8−248972号公報
【0005】
【発明が解決しようとする課題】
ところで、前記特許文献1、特許文献2に記載の従来の方法は、比較的大量の合成単位を含んだ音声データベースのなかから、統計的に接続歪みが少なくなるような比較的少ない数の音声素片のセットを選択する方法である。この方法によって得られた音声素片セットを使用して規則音声合成を行った場合、合成音声の品質は発声の内容によってばらつくという問題がある。つまり、ある文の発声を合成したときには接続歪みが少なくて非常に滑らかに聞こえても、別の文の発声を合成したときには、接続歪みの多い素片の組み合わせが使用され、素片の接続部で異音を持つ合成音声になってしまう問題点があった。
【0006】
本発明の目的は以上の問題点を解決し、どのような発声であっても接続歪みを一定以下にすることができる規則音声合成装置及び規則音声合成方法を提供することにある。
【0011】
【課題を解決するための手段】
本発明に係る規則音声合成装置は、前記課題を解決するために、母音の音素を境界に持つ複数の音素列を素片とし、各素片の特徴パラメータと共に単位素片のセットとして記憶する単位素片セット記憶手段と、入力される音素列に基づいて、前記単位素片セット記憶手段から対応する単位素片の音響特徴パラメータを読み出して出力する単位素片選択手段と、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶手段と、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータから前記単位素片選択手段の出力の音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正するパラメータ補正手段と、前記パラメータ補正手段から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する時系列データ生成手段と、前記時系列データ生成手段によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データに基づいて、前記入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成手段とを備え、さらに、前記パラメータ補正手段は、前記単位素片選択手段の出力である単位素片の終端パラメータと前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差が最も小さいものを特定の音響特徴パラメータとして選択し、及び/又は前記単位素片選択手段の出力である単位素片の終端パラメータ及び始端パラメータと、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差に基づいて特定の音響特徴パラメータを選択し、前記音素列である単位素片の始端または終端の時間的な境界を固定長として決定する。
【0012】
この規則音声合成装置は、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶の複数の音響特徴パラメータから音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正し、この補正した音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する。
【0013】
本発明に係る規則音声合成方法は、入力される音素列に基づいて対応する単位素片の音響特徴パラメータを、母音の音素を境界に持つ複数の音素列を素片として特徴パラメータと共に単位素片のセットとして記憶する単位素片セット記憶手段から読み出して出力する単位素片選択工程と、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶手段の複数の音響特徴パラメータから前記単位素片選択工程が出力した単位素片の音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正するパラメータ補正工程と、前記パラメータ補正工程から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する時系列データ生成工程と、前記時系列データ生成工程によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データにしたがって前記入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成工程とを備え、さらに前記パラメータ補正工程は、前記単位素片選択工程の出力である単位素片の終端パラメータと前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差が最も小さいものを特定の音響特徴パラメータとして選択し、及び/又は前記単位素片選択工程の出力である単位素片の終端パラメータ及び始端パラメータと、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差に基づいて特定の音響特徴パラメータを選択し、前記音素列である単位素片の始端または終端の時間的な境界を固定長として決定する。
【0014】
この規則音声合成方法は、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶の複数の音響特徴パラメータから音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正し、この補正した音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する。
【0023】
【発明の実施の形態】
以下、図面を参照して本発明のいくつかの実施の形態について説明する。図1は本発明に係る第1の実施の形態の規則音声合成装置10のブロック図である。この規則音声合成装置10は、定常的な特徴を示す音素、つまり音質が安定した音素であり、ダイナミックに変化することのない母音の音素を境界とした音素列(素片)を繋いで音声を合成する。例えば、母音をV(vowel)とし、子音をC(consonant)としたとき、VCVと表記される音素列、すなわち素片を対象としている。
【0024】
図1に示すように、第1の実施の形態の規則音声合成装置10は、単位素片セットを記憶している単位素片セット記憶部11と、入力される音素列に基づいて単位素片セット記憶部11から音響特徴パラメータを選択して出力する単位素片選択部12と、母音毎に代表となる音響特徴パラメータを記憶したターゲットパラメータ記憶部13と、単位素片の音響特徴パラメータを補正するパラメータ補正部14と、音響特徴パラメータの時系列データを生成する時系列データ生成部15と、入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成部16とを備える。
【0025】
単位素片セット記憶部11が記憶している単位素片セットは音素系列と音響特徴パラメータの対になったデータである。これは先に示した従来手法を用いて構築することができる。すなわち、複数の文章データについて例えば一人の話者によって発音された音声信号に基づいてA/D変換とスペクトル分析を行って得られた特徴パラメータを単位素片とセットにして記憶して構築する。特徴パラメータを得るためのスペクトル分析としは、ケプストラム分析、短時間スペクトル分析、短時間自己相関分析、帯域フィルタバンク分析、零交差数分析等や、ホルマント分析、線スペクトル対(LSP)分析、線形予測(LPC)分析、偏自己相関法(PARCOR分析)等を用いることができる。例えば、ケプストラム分析は、短時間スペクトルの対数をとり、それを逆フーリエ変換したものである。音声のスペクトル包絡をケプストラムで表現することで、スペクトルの極と零特性も近似的に表現できる。ただし、素片境界が定常的な特性を示す母音の音素境界となるように制限を加えて作成したものである。
【0026】
単位素片選択部12の入力としての音素列は、例えばテキスト音声合成の形態素解析及び発音記号列生成処理を経て得られた発声を行う音素系列を示したデータである。
【0027】
単位素片選択部12は前記入力される音素列に基づいて前記単位素片セット記憶部11を参照して、前記入力される音素列に含まれる音素列(素片)を選択して、選択した音素列(単位素片)に対応する音響特徴パラメータ(例えばケプストラム係数や、ホルマント係数など)を単位素片セット記憶部11から読み出す。
【0028】
母音ターゲットパラメータ記憶部13は、代表となる母音のパラメータを母音毎に保存している。このパラメータは時間的に変化するパラメータではなくある一点でのパラメータである。なお、これらのパラメータは、あらかじめ前記単位素片セットのなかから適当に選択することができる。
【0029】
パラメータ補正部14は、前記単位素片選択部12から出力される音響特徴パラメータと単位素片の始端、終端の音素に応じて前記ターゲットパラメータ記憶部13から母音のターゲットパラメータを読み出してそれに応じて単位素片の音響特徴パラメータを補正する。詳細は後述するが、パラメータの時系列を入力とし、素片の前後のパラメータが、対応する音素の母音ターゲットパラメータに等しくなるように、パラメータを補正し出力する。
【0030】
パラメータ時系列生成部15は、パラメータ補正部14によって補正されたパラメータを連結して前記入力された音素列に対応する音響特徴パラメータの系列であるパラメータ時系列を生成して出力する。つまり、パラメータ補正部14から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成して出力する。
【0031】
音声合成部16は、波形生成部17とスピーカ18からなる。波形生成部17は、パラメータ時系列生成部15によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データに基づいて、前記入力された音素列に対応する合成音声信号を生成する。特にこの音声合成部16は、前述した特徴パラメータを用いて音声を合成することになり、偏自己相関(partial autocorrelation:PARCOR)方式、線スペクトル対(line spectrum pair:LSP)方式、ケプストラム方式などを用いることになる。この合成音声信号はスピーカ18により発声して出力される。つまり、音声合成部16は、パラメータ時系列生成部15から出力される音響特徴パラメータの系列に基づいて、PARCOR方式、LSP方式、ケプストラム方式などにより波形生成部17にて音声信号を合成し、スピーカ18から出力する。
【0032】
次に本発明の特徴をなすパラメータ補正部14の処理について具体的に説明する。図2Aは、1つの単位素片を補正する方法を示したものである。この図では概念的に1次元のパラメータで示しているが、実際は複数次元のベクトル量となる。横軸は時間を示す。
【0033】
この例では先頭の音素は/i/であるので、母音ターゲットパラメータ記憶部13から/i/のパラメータを取得する。先頭から特定の区間離れたところから手前側に徐々にパラメータの値がターゲットQの値になるように補正を行う。ここでいう先頭から特定の区間離れたところというのは、/i/であるV(vowel)の中間部である。時間的に最も/i/らしい特徴パラメータが得られるところである。この処理を式で示すと式(1)のようになる。
P'(t)=(Q−P(t1))(t2-t)/(t2-t1)+P(t) ・・・(1)
ここで、P(t)は時刻tにおける元のパラメータ、P'(t)は補正後のパラメータ、Qはターゲットパラメータ、t1は素片の先頭の時刻、t2は補正を終了する時刻である。
【0034】
同様に、単位素片の終端のパラメータも特定の区間手前から徐々に/a/のターゲットパラメータの値に等しくなるように補正を行う。ここでいう特定の区間というのも、/a/であるV(vowel)の中間部である。時間的に最も/a/らしい特徴パラメータが得られるところである。この処理を式で示すと式2のようになる。
P'(t)=(R−P(t4))(t-t3)/(t4-t3)+P(t) ・・・(2)
ここで、P(t)は時刻tにおける元のパラメータ、P'(t)は補正後のパラメータ、Rはターゲットパラメータ、t4は素片の終端の時刻、t3は補正を開始する時刻である。
【0035】
なお、補正を終了する時刻t2及び補正を開始する時刻t3は、それぞれ、t1,t4から固定の時間間隔に設定することができる。また、V(vowel)とC(consonant)との境界としてもよい。さらに、Vの長さの中間(50%)、70%のようにしてもよい。また、t2-t1の長さ、t4-t3の長さを、単位素片の先頭・終端の長さに比例するように定めることもできる。
【0036】
次に、パラメータ補正部14における単位素片を補正する別の補正方法の具体例を図2Bに示す。この例では、補正を行う区間を単位素片全体に拡張している。つまり、素片全体にわたって補正をしているので、t2、t3という区間の切れ目はない。式で示すと式(3)になる。
P'(t)=(Q−P(t1))(t4-t)/(t4-t1)+(R−P(t4))(t-t1)/(t4-t1)+P(t) ・・・(3)
ここで、P(t)は時刻tにおける元のパラメータ、P'(t)は補正後のパラメータ、Qは先頭のターゲットパラメータ、Rは終端のターゲットパラメータ、t1は素片の先頭の時刻、t4は素片の終端の時刻である。
【0037】
以上説明したように、第1の実施の形態の規則音声合成装置10によれば、定常的な特徴を示す母音を素片単位の境界とし、母音毎にターゲットとするパラメータを用意し、合成時に選択された素片単位をターゲットのパラメータに等しくなるように、かつ連続的に補正を行うことにより、接続歪みのない高品質な合成音声を生成することができる。
【0038】
また、ターゲットとなる母音の特徴パラメータを適切に選ぶことにより、パラメータの母音部がそのターゲットに合わせて補正されるため、はっきりした母音の特性を持つ明瞭度の高い合成音声を生成することができる。
【0039】
次に、本発明に係る第2の実施の形態の規則音声合成装置について図3、図4を参照して説明する。図3において、第2の実施の形態の規則音声合成装置20は、前記第1の実施の形態(規則音声合成装置10)のように母音ターゲットパラメータを母音毎に1つづつ用意するのではなく、複数用意している。つまり、規則音声合成装置20は、単位素片セットを記憶している単位素片セット記憶部11と、入力される音素列に基づいて前記単位素片セット記憶部11から音響特徴パラメータを選択して出力する単位素片選択部12と、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶部23と、ターゲットパラメータ記憶部23に記憶された複数の音響特徴パラメータから特定の音響特徴パラメータを選択し、この特定の音響特徴パラメータに基づいて単位素片の音響特徴パラメータを補正するパラメータ補正部24と、音響特徴パラメータの時系列データを生成する時系列データ生成部15と、入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成部16とを備える。
【0040】
特にパラメータ補正部24は、機能的に前記複数の音響特徴パラメータから特定の音響特徴パラメータを選択するターゲットパラメータ選択部25と、特定の音響特徴パラメータに基づいて単位素片の音響特徴パラメータに補正を実行するパラメータ補正実行部26とを備える。
【0041】
単位素片セット記憶部11、端子素片選択部12、パラメータ時系列生成部15及び音声合成部16については、前記第1の実施の形態に用いたものと同様であるのでここでは説明を省略する。
【0042】
ターゲットパラメータ記憶部23は、母音/a/,/i/,/u/,/e/,/o/について、それぞれ数種類のパラメータを用意する。例えば、/a/でも大きく口を開けて発音される/a1/もあれば、ぼそぼそと発音される/a2/もある。また、前の子音の影響を受けて異なって発音される/a3/もある。もちろん、音量の大きさによっても同じパラメータは異なる。さらに、話者の声の高さによってもパラメータは異なる。
【0043】
音素毎に複数のターゲットパラメータを求めるには、単位素片の前後の境界位置でのパラメータを集めた後に、既存のベクトル量子化手法を用いて数個の代表パラメータを求め、これをターゲットパラメータとすればよい。また、他の方法により、それぞれの母音の多数のパラメータをクラスタリングして大きなまとまりとして数種類、例えば3種類くらいにクラス分けすることも考えられる。
【0044】
次に、パラメータ補正部24内のターゲット選択部25について図4を参照して説明する。図4では素片接続部の母音が/a/である場合の例を示す。この例では/a/のターゲットパラメータとして3種類のパラメータa1、a2、a3が用意されている。
【0045】
パラメータ補正部24のターゲット選択部25では、単位素片の終端のパラメータaと、この例では3つの母音ターゲットパラメータa1、a2、a3の誤差を求める。そして、誤差が最も小さい母音ターゲットパラメータ、すなわち終端のパラメータaに特性が最も近いものを選択する。例えば、単位素片の終端のパラメータaと母音ターゲットパラメータa1との距離が0.6、母音ターゲットパラメータa2との距離が0.5、母音ターゲットパラメータa3との距離が0.3であった。母音ターゲットパラメータa3までの距離が一番短いのでこの母音ターゲットパラメータa3を選択する。その後、次の単位素片の先頭のターゲットパラメータは、前の単位素片の終端で選択した母音ターゲットパラメータと同じものを選択する。パラメータ補正実行部26における単位素片の補正の方法は前述の通りである。
【0046】
また、単位素片の終端によって選択するのではなく、単位素片の前後をみて二つの誤差が小さくなるように母音ターゲットパラメータを選択することも可能である。
【0047】
この場合の実現方法としては、ターゲットパラメータiに対して、前の単位素片の終端のパラメータの誤差をd1i、後ろの単位素片の先端のパラメータの誤差をd2iとした場合、d1i+αxd2iの値が最小のターゲットを選択すればよい。なお、αは前側と後ろ側の重み係数であり、通常前側の誤差に対する重みを大きくした方が品質の高い剛性音声が得られるためにはαは1以下に設定する。また、別の実現方法として、d1i,d2iの大きい方を誤差とし、この誤差が最小となるターゲットパラメータiを選択する方法もある。式で示すと、MINi(MAX(d1i,d2i))となるiを求める。
【0048】
以上に説明した第2の実施の形態の規則音声合成装置20によれば、ターゲットとなる母音の特徴パラメータを複数用意することにより、選択された単位素片に応じて補正の量が少なくなるようなターゲットが選択され、このターゲットで補正が行われるために、音韻環境等によって母音の特徴が一意に定められない場合にも対応することができる品質の高い合成音声を生成することができる。
【0049】
次に、本発明に係る第3の実施の形態の規則音声合成装置について図5を参照して説明する。この規則音声合成装置30は、単位素片補正系31と音声合成系32にわかれている。
【0050】
単位素片補正系31は、補正済み単位素片セット33と、パラメータ補正部34と、単位素片セット記憶部35と、ターゲットパラメータ記憶部36とを備えてなり、あらかじめパラメータ補正部34により、音素列と音響特徴パラメータのデータを持つ単位素片セットを補正し、補正済み単位素片セット記憶部33に記憶しておく。パラメータ補正部34は、母音毎に代表となる音響特徴パラメータを記憶したターゲットパラメータ記憶部36からターゲットパラメータを読み出す。また、パラメータ補正部34は、単位素片セット記憶部35から音響特徴パラメータを読み出す。
【0051】
特に、パラメータ補正部34は、単位素片セット記憶部35から読み出した音響特徴パラメータと単位素片の始端、終端の音素に応じてターゲットパラメータ記憶部36から母音のターゲットパラメータを読み出してそれに応じて単位素片の音響特徴パラメータを補正し、前述したように、補正済み単位素片セット記憶部33に、前記補正した音響特徴パラメータを、単位素片とセットにして記憶しておく。
【0052】
音声合成系32は、補正済み単位素片セット33と、入力される音素列に基づいて補正済み単位素片セット記憶部33から補正済みの音響特徴パラメータを選択して出力する単位素片選択部12と、単位素片選択部12によって選択された音響特徴パラメータの時系列データを生成する時系列データ生成部15と、入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成部16とを備える。
【0053】
補正済み単位素片セット記憶部33が記憶している単位素片セットは、既に単位素片補正部31によって補正されたデータである。
【0054】
単位素片選択部12は前記入力される音素列に基づいて前記補正済み単位素片セット記憶部33を参照して、前記入力される音素列に含まれる音素列(素片)を選択して、選択した音素列(単位素片)に対応する音響特徴パラメータ(例えばケプストラム係数や、ホルマント係数など)を補正済み単位素片セット記憶部33から読み出す。
【0055】
パラメータ時系列生成部15は、端子素片選択部12によって選択されたパラメータを連結して前記入力された音素列に対応する音響特徴パラメータの系列であるパラメータ時系列を生成して出力する。
【0056】
音声合成部16は、波形生成部17とスピーカ18からなる。波形生成部17は、パラメータ時系列生成部15によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データに基づいて、前記入力された音素列に対応する合成音声信号を生成する。
【0057】
この第3の実施の形態の規則音声合成装置30では、補正済み単位素片セット記憶部33内の補正済み単位補正セットを用いることにより、合成時にパラメータの補正を行う必要がない。
【0058】
なお、ターゲットパラメータ記憶部36は、母音毎に代表となる音響特徴パラメータを記憶するだけでなく、母音毎に複数の音響特徴パラメータを記憶していてもよい。この場合、パラメータ補正部34は、全てのターゲットパラメータに応じて単位素片セット35から読み出した音響特徴パラメータを補正し、補正済み単位素片セット33に全ての補正音響特徴パラメータを記憶させておく。
【0059】
以上に説明したように、この第3の実施の形態の規則音声合成装置30によれば、単位素片セットをあらかじめ補正した補正済み単位素片セットを用意することによって、合成時の処理量を軽減することができる。
【0060】
なお、前記第1の実施の形態〜第3の実施の形態では、単位素片の境界の音素として母音で有るものを用いたが、単位素片の境界の音素としては、母音(と無音)だけでなく、そのほかの比較的に音響特性の動的な変化を特徴としない傾向の子音、例えば鼻音なども含めることもできる。
【0061】
図1を準用して説明すると、単位素片選択部12が出力した単位素片の音響特徴パラメータに応じてターゲットパラメータ記憶部13から子音のターゲットパラメータを読み出し、このターゲットパラメータに基づいて単位素片の音響特徴パラメータをパラメータ補正部14が補正するので、接続歪みを一定以下にすることができる。また、接続歪みのない高品質な合成音声を生成することができる。また、ターゲットとなる子音の特徴パラメータを適切に選ぶことにより、パラメータの子音部がそのターゲットに合わせて補正されるため、はっきりした子音の特性を持つ明瞭度の高い合成音声を生成することができる。
【0062】
したがって、本発明の規則音声合成装置によれば、前記VCVの他、VCVCVや、さらにはCVCも対象とすることができる。
【0063】
【発明の効果】
本発明に係る規則音声合成装置によれば、単位素片選択手段が出力した単位素片の音響特徴パラメータに応じてターゲットパラメータ記憶手段から母音のターゲットパラメータを読み出し、このターゲットパラメータに基づいて単位素片の音響特徴パラメータを補正するので、接続歪みを一定以下にすることができる。また、接続歪みのない高品質な合成音声を生成することができる。また、ターゲットとなる母音の特徴パラメータを適切に選ぶことにより、パラメータの母音部がそのターゲットに合わせて補正されるため、はっきりした母音の特性を持つ明瞭度の高い合成音声を生成することができる。
【0064】
本発明に係る規則音声合成方法によれば、母音毎に代表となる音響特徴パラメータを記憶したターゲットパラメータ記憶手段から単位素片選択工程が出力した単位素片の音響特徴パラメータに応じて母音のターゲットパラメータを読み出し、このターゲットパラメータに基づいて単位素片の音響特徴パラメータを補正し、この補正したパラメータを結合して音響特徴パラメータの時系列データを生成するので、接続歪みを一定以下にすることができる。また、接続歪みのない高品質な合成音声を生成することができる。また、ターゲットとなる母音の特徴パラメータを適切に選ぶことにより、パラメータの母音部がそのターゲットに合わせて補正されるため、はっきりした母音の特性を持つ明瞭度の高い合成音声を生成することができる。
【0065】
本発明に係る規則音声合成装置によれば、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶の複数の音響特徴パラメータから音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正し、この補正した音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成するので、選択された単位素片に応じて補正の量が少なくなるようなターゲットが選択され、このターゲットで補正が行われるために、音韻環境等によって母音の特徴が一意に定められない場合にも対応することができる品質の高い合成音声を生成することができる。
【0066】
本発明に係る規則音声合成方法によれば、この規則音声合成方法は、母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶の複数の音響特徴パラメータから音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正し、この補正した音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成するので、選択された単位素片に応じて補正の量が少なくなるようなターゲットが選択され、このターゲットで補正が行われるために、音韻環境等によって母音の特徴が一意に定められない場合にも対応することができる品質の高い合成音声を生成することができる。
【図面の簡単な説明】
【図1】第1の実施の形態の規則音声合成装置のブロック図である。
【図2】前記第1の実施の形態の規則音声合成装置の要部であるパラメータ補正部の補正動作の二つの具体例を説明するための図である。
【図3】第2の実施の形態の規則音声合成装置のブロック図である。
【図4】前記第2の実施の形態の規則音声合成装置の要部であるパラメータ補正部のターゲット選択部の動作の具体例を説明するための図である。
【図5】第3の実施の形態の規則音声合成装置のブロック図である。
【符号の説明】
10,20,30 規則音声合成装置、11 単位素片セット記憶部、12 単位素片選択部、14,24 パラメータ補正部、15 パラメータ時系列生成部、16 音声合成部、25 ターゲットパラメータ選択部、26 パラメータ補正実行部、31 単位素片補正系、32 音声合成系、33 補正済み単位素片セット記憶部、34 パラメータ補正部、35 単位素片セット記憶部、36ターゲットパラメータ記憶部
Claims (5)
- 母音の音素を境界に持つ複数の音素列を素片とし、各素片の特徴パラメータと共に単位素片のセットとして記憶する単位素片セット記憶手段と、
入力される音素列に基づいて、前記単位素片セット記憶手段から対応する単位素片の音響特徴パラメータを読み出して出力する単位素片選択手段と、
母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶手段と、
前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータから前記単位素片選択手段の出力の音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正するパラメータ補正手段と、
前記パラメータ補正手段から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する時系列データ生成手段と、
前記時系列データ生成手段によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データに基づいて、前記入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成手段とを備え、
さらに、前記パラメータ補正手段は、前記単位素片選択手段の出力である単位素片の終端パラメータと前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差が最も小さいものを特定の音響特徴パラメータとして選択し、及び/又は前記単位素片選択手段の出力である単位素片の終端パラメータ及び始端パラメータと、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差に基づいて特定の音響特徴パラメータを選択し、前記音素列である単位素片の始端または終端の時間的な境界を固定長として決定することを特徴とする規則音声合成装置。 - 前記パラメータ補正手段は、前記単位素片の終端のパラメータと前記複数の音響特徴パラメータの誤差と、前記始端のパラメータと前記複数の音響特徴パラメータの誤差との和が最小となるものを特定の音響特徴パラメータとして選択することを特徴とする請求項1記載の規則音声合成装置。
- 前記パラメータ補正手段は、前記単位素片の終端のパラメータと前記複数の内の各音響特徴パラメータの誤差と、前記始端のパラメータと前記複数の内の各音響特徴パラメータの誤差とのそれぞれ大きいものを代表とした誤差のうち最小のものを特定の音響特徴パラメータとして選択することを特徴とする請求項1記載の規則音声合成装置。
- 前記パラメータ補正手段は、前記単位素片の終端のパラメータと前記複数の音響特徴パラメータの誤差と、前記始端のパラメータと前記複数の音響特徴パラメータの誤差に対して、少なくとも一方に重みをつけた前記誤差の和が最小となるものを特定の音響特徴パラメータとして選択することを特徴とする請求項1記載の規則音声合成装置。
- 入力される音素列に基づいて対応する単位素片の音響特徴パラメータを、母音の音素を境界に持つ複数の音素列を素片として特徴パラメータと共に単位素片のセットとして記憶する単位素片セット記憶手段から読み出して出力する単位素片選択工程と、
母音毎に複数の音響特徴パラメータを記憶したターゲットパラメータ記憶手段の複数の音響特徴パラメータから前記単位素片選択工程が出力した単位素片の音響特徴パラメータに応じて特定の音響特徴パラメータを選択し、選択した特定の音響特徴パラメータに応じて単位素片の音響特徴パラメータを補正するパラメータ補正工程と、
前記パラメータ補正工程から出力される音響特徴パラメータを結合して音響特徴パラメータの時系列データを生成する時系列データ生成工程と、
前記時系列データ生成工程によって生成された前記入力された音素列に対応する音響特徴パラメータの時系列データにしたがって前記入力された音素列に対応する合成音声の音声信号を発声して出力する音声合成工程とを備え、
さらに前記パラメータ補正工程は、前記単位素片選択工程の出力である単位素片の終端パラメータと前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差が最も小さいものを特定の音響特徴パラメータとして選択し、及び/又は前記単位素片選択工程の出力である単位素片の終端パラメータ及び始端パラメータと、前記ターゲットパラメータ記憶手段に記憶された複数の音響特徴パラメータとの間の誤差に基づいて特定の音響特徴パラメータを選択し、前記音素列である単位素片の始端または終端の時間的な境界を固定長として決定することを特徴とする規則音声合成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003169989A JP4225128B2 (ja) | 2003-06-13 | 2003-06-13 | 規則音声合成装置及び規則音声合成方法 |
US10/864,130 US7765103B2 (en) | 2003-06-13 | 2004-06-09 | Rule based speech synthesis method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003169989A JP4225128B2 (ja) | 2003-06-13 | 2003-06-13 | 規則音声合成装置及び規則音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005004104A JP2005004104A (ja) | 2005-01-06 |
JP4225128B2 true JP4225128B2 (ja) | 2009-02-18 |
Family
ID=34094957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003169989A Expired - Fee Related JP4225128B2 (ja) | 2003-06-13 | 2003-06-13 | 規則音声合成装置及び規則音声合成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7765103B2 (ja) |
JP (1) | JP4225128B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219880A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
JP4744338B2 (ja) * | 2006-03-31 | 2011-08-10 | 富士通株式会社 | 合成音声生成装置 |
JP4878538B2 (ja) * | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | 音声合成装置 |
JP5119700B2 (ja) * | 2007-03-20 | 2013-01-16 | 富士通株式会社 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
JP2009237015A (ja) * | 2008-03-26 | 2009-10-15 | Nippon Hoso Kyokai <Nhk> | 音声素片接続装置及びプログラム |
JP5716595B2 (ja) * | 2011-01-28 | 2015-05-13 | 富士通株式会社 | 音声補正装置、音声補正方法及び音声補正プログラム |
US9489864B2 (en) * | 2013-01-07 | 2016-11-08 | Educational Testing Service | Systems and methods for an automated pronunciation assessment system for similar vowel pairs |
US9761247B2 (en) * | 2013-01-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Prosodic and lexical addressee detection |
EP3474275A4 (en) * | 2016-06-21 | 2019-11-06 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
US10319364B2 (en) * | 2017-05-18 | 2019-06-11 | Telepathy Labs, Inc. | Artificial intelligence-based text-to-speech system and method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2583074B2 (ja) | 1987-09-18 | 1997-02-19 | 日本電信電話株式会社 | 音声合成方法 |
JP3109778B2 (ja) | 1993-05-07 | 2000-11-20 | シャープ株式会社 | 音声規則合成装置 |
JP3614874B2 (ja) | 1993-08-19 | 2005-01-26 | ソニー株式会社 | 音声合成装置及び方法 |
JP2886474B2 (ja) | 1995-03-10 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 規則音声合成装置 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
ATE298453T1 (de) * | 1998-11-13 | 2005-07-15 | Lernout & Hauspie Speechprod | Sprachsynthese durch verkettung von sprachwellenformen |
JP2002082686A (ja) | 2000-09-08 | 2002-03-22 | Hitachi Ltd | 音声合成方法と音声合成装置 |
-
2003
- 2003-06-13 JP JP2003169989A patent/JP4225128B2/ja not_active Expired - Fee Related
-
2004
- 2004-06-09 US US10/864,130 patent/US7765103B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005004104A (ja) | 2005-01-06 |
US20050119889A1 (en) | 2005-06-02 |
US7765103B2 (en) | 2010-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2140447B1 (en) | System and method for hybrid speech synthesis | |
EP1704558B1 (en) | Corpus-based speech synthesis based on segment recombination | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US10529314B2 (en) | Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
JP4225128B2 (ja) | 規則音声合成装置及び規則音声合成方法 | |
US20110046957A1 (en) | System and method for speech synthesis using frequency splicing | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5075865B2 (ja) | 音声処理装置、方法、及びプログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP3281281B2 (ja) | 音声合成方法及び装置 | |
JP3109778B2 (ja) | 音声規則合成装置 | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
JP5054632B2 (ja) | 音声合成装置及び音声合成プログラム | |
JP2011197542A (ja) | 韻律パターン生成装置 | |
JP3059751B2 (ja) | 残差駆動型音声合成装置 | |
WO2017028003A1 (zh) | 基于隐马尔科夫模型的语音单元拼接方法 | |
JPH1097268A (ja) | 音声合成装置 | |
JP4603290B2 (ja) | 音声合成装置および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050311 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |