JP4034751B2 - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents
音声合成装置、音声合成方法および音声合成プログラム Download PDFInfo
- Publication number
- JP4034751B2 JP4034751B2 JP2004106711A JP2004106711A JP4034751B2 JP 4034751 B2 JP4034751 B2 JP 4034751B2 JP 2004106711 A JP2004106711 A JP 2004106711A JP 2004106711 A JP2004106711 A JP 2004106711A JP 4034751 B2 JP4034751 B2 JP 4034751B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- fused
- speech unit
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 107
- 238000003786 synthesis reaction Methods 0.000 title claims description 97
- 238000001308 synthesis method Methods 0.000 title claims description 12
- 230000004927 fusion Effects 0.000 claims description 261
- 238000000034 method Methods 0.000 claims description 75
- 238000012545 processing Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 40
- 230000000717 retained effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 abstract description 5
- 238000003860 storage Methods 0.000 description 173
- 239000011295 pitch Substances 0.000 description 80
- 230000006870 function Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 20
- 238000001228 spectrum Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000357297 Atypichthys strigatus Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- QIQXTHQIDYTFRH-UHFFFAOYSA-N octadecanoic acid Chemical compound CCCCCCCCCCCCCCCCCC(O)=O QIQXTHQIDYTFRH-UHFFFAOYSA-N 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
Images
Description
前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップとを有することを特徴とする。
図1は、本発明の第1の実施形態に係るテキスト音声合成装置の全体構成を示すブロック図である。テキスト音声合成装置10は、テキスト取得部11と、言語処理部12と、韻律処理部13と、音声合成部14と、音声波形出力部15とを備えている。
次に、実施の形態2にかかるテキスト音声合成装置10について説明する。図19は、実施の形態2にかかるテキスト音声合成装置10の音声合成部14の詳細な機能構成を示すブロック図である。
次に、第3の実施形態にかかるテキスト音声合成装置10について説明する。図24は、実施の形態3にかかるテキスト音声合成装置10の音声合成部14の詳細な機能構成を示すブロック図である。実施の形態3にかかる音声合成部14においては、融合音声素片選択部140は、歪み推定部130が推定した歪みの度合いに基づいて、融合音声素片記憶部160に格納されている融合音声素片を選択するか否かを判断する。
次に、実施の形態4にかかるテキスト音声合成装置10について説明する。実施の形態4にかかるテキスト音声合成装置10は、融合音声素片記憶部160および融合音声素片音素環境記憶部170の内容を更新する。
このように、閉ループ学習を素片の融合に用いることによって、ピッチ周期変更による合成音声の劣化が小さい音声素片を生成することが可能である。
11テキスト取得部
12 言語処理部
13 言語処理部
14 音声合成部
15 音声波形出力部
110 音韻系列・韻律情報取得部
120 分割部
130 歪み推定部
140 融合音声素片選択部
150 融合音声素片編集・接続部
160 融合音声素片記憶部
170 融合音声素片音素環境記憶部
180 融合音声素片作成部
181 音声素片記憶部
182 融合音声素片音素環境記憶部
183 音声素片組み合わせ作成部
184 融合音声素片作成部
185 融合音声素片音素環境作成部
200 融合音声素片組み合せ記憶部
210 更新部
1831 音韻系列・韻律情報取得部
1832 複数音声素片選択部
1833 音声素片組み合わせ頻度情報作成部
1834 複数音声素片組み合わせ決定部
1835 音声素片組み合わせ頻度情報頻度情報記憶部
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
Claims (17)
- 同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と、当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段と、
予め設定されている教師音声の韻律を示す教師音声韻律情報と前記音声素片保持手段に保持されている前記音声素片韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択手段と、
前記音声素片選択手段によって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組合せ決定手段と、
決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成手段と、
決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成手段と、
前記融合音声素片作成手段によって作成された前記融合音声素片と、前記融合音声素片韻律情報作成手段によって作成された前記融合音声素片韻律情報とを対応付けて保持する融合音声素片保持手段と、
音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得手段と、
前記取得手段によって得られた前記セグメントの韻律を示すセグメント韻律情報と前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報との間の歪みの度合いを推定する保持音声歪み推定手段と、
前記保持音声歪み推定手段によって推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択手段と、
前記融合音声素片選択手段が各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成手段と
を備えたことを特徴とする音声合成装置。 - 前記音声合成手段は、前記保持音声歪み推定手段によって推定された前記歪みの度合いが予め定められた保持音声歪み基準値よりも小さい場合に、前記融合音声素片選択手段によって選択された前記融合音声素片を利用して前記音声合成を行うことを特徴とする請求項1に記載の音声合成装置。
- 前記音声合成手段は、前記保持音声歪み推定手段が前記融合音声素片保持手段に保持されている各融合音声素片に対して推定した各歪みの度合いが前記保持音声歪み基準値以上である場合に、前記融合音声素片作成手段によって作成された前記融合音声素片を利用して音声合成を行うことを特徴とする請求項2に記載の音声合成装置。
- 前記融合音声素片選択手段は、前記保持音声歪み推定手段によって推定された前記歪みの度合いのうち最小値に対応する前記融合音声素片を選択することを特徴とする請求項1から3のいずれか一項に記載の音声合成装置。
- 前記融合音声素片保持手段に保持されている前記融合音声素片に含まれている複数の前記音声素片の組み合わせを示す組み合わせ情報を保持する組み合わせ情報保持手段をさらに備え、
前記保持音声歪み推定手段は、前記セグメントの音声における組み合わせと前記組み合わせ情報保持手段が保持している前記組み合わせとの一致度を前記歪みの度合いとして推定することを特徴とする請求項1から4のいずれか一項に記載の音声合成装置。 - 前記融合音声素片選択手段は、前記保持音声歪み推定手段が前記セグメントの音声の前記音声素片の組み合わせと前記融合音声素片保持手段に保持されている前記融合音声素片の組み合わせが一致すると判断した場合に当該組み合わせに対応する融合音声素片を選択することを特徴とする請求項5に記載の音声合成装置。
- 前記融合音声素片選択手段は、前記保持音声歪み推定手段が前記セグメントの音声の前記音声素片の組み合わせの一部と前記融合音声素片保持手段に保持されている前記融合音声素片の組み合わせの一部が一致する場合に組み合わせが一致すると判断することを特徴とする請求項6に記載の音声合成装置。
- 前記組み合わせ情報保持手段は、前記組み合わせに対する優先順位を各組み合わせに対応付けて保持し、
前記融合音声素片選択手段は、前記保持音声歪み推定手段が前記セグメントの音声の前記音声素片の組み合わせと前記融合素片保持手段に保持されている前記融合音声素片の組み合わせとが一致し、かつ当該融合音声素片の優先順位が予め定められた優先順位基準値以上である場合に、当該融合音声素片を選択することを特徴とする請求項6または7に記載の音声合成装置。 - 前記音声合成手段は、当該音声合成処理の演算量と合成すべき合成音声の音質のうち少なくともいずれか一方に基づいて決定された保持音声歪み基準値を利用して前記音声合成を行うことを特徴とする請求項2に記載の音声合成装置。
- 前記組み合わせの使用頻度をカウントする頻度情報作成手段をさらに備え、
前記組合せ決定手段は、前記使用頻度が予め定められた閾値以上である前記組み合わせを決定すること、
を特徴とする請求項1から9のいずれか一項に記載の音声合成装置。 - 前記融合音声素片作成手段によって作成された前記融合音声素片を前記融合音声素片保持手段に格納する更新手段をさらに備えたことを特徴とする請求項1から10のいずれか一項に記載の音声合成装置。
- 前記更新手段は、前記融合音声素片作成手段によって作成された前記融合音声素片の使用頻度をカウントする使用頻度カウント手段をさらに備え、
前記更新手段は、前記使用頻度カウント手段が予め定められた使用頻度基準値以上の値をカウントした場合に、対応する融合音声素片を前記融合音声素片保持手段に格納することを特徴とする請求項11に記載の音声合成装置。 - 前記融合音声素片作成手段によって作成された前記融合音声素片と前記融合音声素片保持手段に保持されている前記融合音声素片との類似度を算出する類似度算出手段と、
前記類似度算出手段によって算出された前記類似度が予め定められた値よりも小さい場合に、前記融合音声素片作成手段によって作成された前記融合音声素片を前記融合音声素片保持手段に格納する更新手段と
をさらに備えたことを特徴とする請求項1から10のいずれか一項に記載の音声合成装置。 - 前記類似度算出手段は、2つの音声素片の間の時間伸縮したスペクトル距離、韻律変形した場合の波形の自乗誤差、音声素片に対応するピッチパターンの距離、および韻律継続長の距離のうち少なくとも1つを利用して類似度を算出することを特徴とする請求項13に記載の音声合成装置。
- 前記融合音声素片韻律情報作成手段は、前記複数の前記音声素片それぞれに対する前記韻律情報のセントロイドを前記融合音声素片韻律情報として作成することを特徴とする請求項1に記載の音声合成装置。
- 同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段に保持されている前記音声素片韻律情報と、予め設定されている教師音声の韻律を示す教師音声韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択ステップと、
前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、
前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、
音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、
前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、
前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、
前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップと
を有することを特徴とする音声合成方法。 - 音声合成処理をコンピュータに実行させる音声合成プログラムであって、
同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段に保持されている前記音声素片韻律情報と、予め設定されている教師音声の韻律を示す教師音声韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択ステップと、
前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、
前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、
音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、
前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、
前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、
前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップと
を有することを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004106711A JP4034751B2 (ja) | 2004-03-31 | 2004-03-31 | 音声合成装置、音声合成方法および音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004106711A JP4034751B2 (ja) | 2004-03-31 | 2004-03-31 | 音声合成装置、音声合成方法および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005292433A JP2005292433A (ja) | 2005-10-20 |
JP4034751B2 true JP4034751B2 (ja) | 2008-01-16 |
Family
ID=35325425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004106711A Expired - Lifetime JP4034751B2 (ja) | 2004-03-31 | 2004-03-31 | 音声合成装置、音声合成方法および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4034751B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630857B2 (en) | 2007-02-20 | 2014-01-14 | Nec Corporation | Speech synthesizing apparatus, method, and program |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
JP5747471B2 (ja) * | 2010-10-20 | 2015-07-15 | 三菱電機株式会社 | 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体 |
CN108877765A (zh) | 2018-05-31 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音拼接合成的处理方法及装置、计算机设备及可读介质 |
-
2004
- 2004-03-31 JP JP2004106711A patent/JP4034751B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005292433A (ja) | 2005-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP5038995B2 (ja) | 声質変換装置及び方法、音声合成装置及び方法 | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JP6499305B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム | |
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
US7603278B2 (en) | Segment set creating method and apparatus | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
JP3667950B2 (ja) | ピッチパターン生成方法 | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
KR20070077042A (ko) | 음성처리장치 및 방법 | |
CN1787072B (zh) | 基于韵律模型和参数选音的语音合成方法 | |
Akamine et al. | Analytic generation of synthesis units by closed loop training for totally speaker driven text to speech system (TOS drive TTS) | |
JP4034751B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP4945465B2 (ja) | 音声情報処理装置及びその方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5062178B2 (ja) | 音声収録システム、音声収録方法、および収録処理プログラム | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP4170819B2 (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP3281281B2 (ja) | 音声合成方法及び装置 | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5275470B2 (ja) | 音声合成装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071025 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4034751 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 6 |
|
EXPY | Cancellation because of completion of term |