JP6142401B2 - 音声合成モデル学習装置、方法、及びプログラム - Google Patents
音声合成モデル学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6142401B2 JP6142401B2 JP2013177166A JP2013177166A JP6142401B2 JP 6142401 B2 JP6142401 B2 JP 6142401B2 JP 2013177166 A JP2013177166 A JP 2013177166A JP 2013177166 A JP2013177166 A JP 2013177166A JP 6142401 B2 JP6142401 B2 JP 6142401B2
- Authority
- JP
- Japan
- Prior art keywords
- cwm
- parameter
- hmm
- parameters
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 52
- 230000015572 biosynthetic process Effects 0.000 title claims description 45
- 238000003786 synthesis reaction Methods 0.000 title claims description 45
- 238000001228 spectrum Methods 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 45
- 230000003595 spectral effect Effects 0.000 claims description 32
- 230000005236 sound signal Effects 0.000 claims description 13
- 239000002131 composite material Substances 0.000 claims description 8
- 238000009826 distribution Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 27
- 238000000605 extraction Methods 0.000 description 13
- 238000001308 synthesis method Methods 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Description
スペクトル包絡全体を混合ガウス関数モデル(Gaussian Mixture Model、GMM)によって表現した複合ウェーブレットモデル(Composite Wavelet Model、CWM)における各ガウス関数のインデックスが同一状態において整合するよう保証されたCWMパラメータと隠れマルコフモデル(Hidden Markov Model、HMM)との一体化モデルを構築したこと、及び学習データが与えられた下で当該モデルのパラメータを学習するための収束性が保証された反復アルゴリズムを実現したことが、本実施の形態のポイントである。具体的には以下により実現する。
2.上記1において、同一の規準を、CWMパラメータが決まった場合に、スペクトル包絡が出力される確率と、HMMの状態系列の確率と、HMMの状態系列が決まった場合に、CWMパラメータが出力される確率との積(またはその対数)とする
3.上記2において、HMMパラメータとCWMパラメータと補助変数λとによって表され、CWMパラメータが決まった場合にスペクトル包絡が出力される確率の対数を上回らず、かつ、これに接する関数を、同一の規準とし、この規準を大きくするようにHMMパラメータとCWMパラメータと補助変数とを交互に更新する
4.上記3において、同一の規準は、負の対数関数の凸性を利用してジェンセン(Jensen)の不等式を用いて作られる下限関数である
まず、スペクトル包絡系列の生成モデルについて述べる。
パラメータの学習(推定)は、観測スペクトル包絡系列Y={yw,l}w,lが与えられたときに、スペクトル包絡系列生成モデルのパラメータΘの事後確率P(Θ|Y)を最大化する問題として定式化される。推定すべきパラメータΘは、HMMの状態系列^s={sl}l、HMMの各状態iの状態出力分布^θ={mk,i,ηk,i,ak,i (σ),bk,i (σ),ak,i (w),bk,i (w)}、並びにCWMパラメータ系列^μ、^ρ、及び^wである。
本実施の形態に係る音声合成装置は、CPUと、RAMと、後述する学習処理及び合成処理を含む音声合成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成されている。
次に、本実施の形態に係る音声合成装置10の作用について説明する。まず、学習部20に、データベースから、音声信号の時系列データ及び各時刻の状態slの情報を含むラベルが入力され、学習部20が、図4に示す学習処理を実行することにより、HMM30が学習される。そして、合成部40に、テキストデータが入力され、合成部40が、図6に示す合成処理を実行することにより、音声波形が出力される。以下、各処理について詳述する。
本実施の形態に係る音声合成装置10を用いた音声合成手法に関し、適切にCWMパラメータの推定及び音声合成が実行可能であることの検証結果について説明する。
20 学習部
22 基本周波数系列抽出部
24 観測スペクトル包絡系列抽出部
26 CWMパラメータ推定部
28 HMM学習部
30 HMM
40 合成部
42 テキスト解析部
44 パラメータ合成部
46 音声波形合成部
260 初期更新部
262 補助変数更新部
264 CWMパラメータ更新部
266 第1収束判定部
268 状態出力分布更新部
270 状態系列更新部
272 観測スペクトル包絡系列事後確率更新部
274 第2収束判定部
Claims (5)
- 音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルCWMのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記CWMのパラメータの系列を出力する隠れマルコフモデルHMMのパラメータとを、同一の規準を最大化するように交互に更新して、前記CWMのパラメータを推定する推定部と、
前記推定部により推定されたCWMのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記HMMを学習する学習部と、を含み、
前記同一の規準を、前記CWMのパラメータが決まった場合に、前記スペクトル包絡が出力される確率と、前記HMMの状態系列の確率と、前記状態系列が決まった場合に、前記CWMのパラメータが出力される確率との積とする
音声合成モデル学習装置。 - 前記推定部は、前記同一の規準を、前記HMMのパラメータ、前記CWMのパラメータ、及び補助変数によって表され、前記CWMのパラメータが決まった場合に、前記スペクトル包絡が出力される確率の対数を上回らず、かつ前記対数に接する関数とし、前記HMMのパラメータ、前記CWMのパラメータ、及び前記補助変数を交互に更新する請求項1記載の音声合成モデル学習装置。
- 前記推定部は、前記同一の規準を、負の対数関数の凸性を利用して、ジェンセンの不等式により得られる下限関数とした請求項2記載の音声合成モデル学習装置。
- 推定部が、音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルCWMのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記CWMのパラメータの系列を出力する隠れマルコフモデルHMMのパラメータとを、同一の規準を最大化するように交互に更新して、前記CWMのパラメータを推定するステップと、
学習部が、前記推定部により推定されたCWMのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記HMMを学習するステップと、を含み、
前記同一の規準を、前記CWMのパラメータが決まった場合に、前記スペクトル包絡が出力される確率と、前記HMMの状態系列の確率と、前記状態系列が決まった場合に、前記CWMのパラメータが出力される確率との積とする
音声合成モデル学習方法。 - コンピュータを、請求項1〜請求項3のいずれか1項記載の音声合成モデル学習装置を構成する各部として機能させるための音声合成モデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013177166A JP6142401B2 (ja) | 2013-08-28 | 2013-08-28 | 音声合成モデル学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013177166A JP6142401B2 (ja) | 2013-08-28 | 2013-08-28 | 音声合成モデル学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015045755A JP2015045755A (ja) | 2015-03-12 |
JP6142401B2 true JP6142401B2 (ja) | 2017-06-07 |
Family
ID=52671310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013177166A Active JP6142401B2 (ja) | 2013-08-28 | 2013-08-28 | 音声合成モデル学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6142401B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112022002065T5 (de) | 2021-06-24 | 2024-01-25 | Daido Kogyo Co., Ltd. | Kettenmessvorrichtung, kettenmesssystem und verfahren zum berechnen eines durchhangausmasses einer kette |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053356B (zh) * | 2019-12-27 | 2024-05-31 | 科大讯飞股份有限公司 | 语音波形生成方法、装置、服务器及存储介质 |
CN115376485B (zh) * | 2022-08-19 | 2024-04-30 | 广东技术师范大学 | 一种基于小波包分解特征参数的语音转换方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007114355A (ja) * | 2005-10-19 | 2007-05-10 | Univ Of Tokyo | 音声合成方法及び装置 |
-
2013
- 2013-08-28 JP JP2013177166A patent/JP6142401B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112022002065T5 (de) | 2021-06-24 | 2024-01-25 | Daido Kogyo Co., Ltd. | Kettenmessvorrichtung, kettenmesssystem und verfahren zum berechnen eines durchhangausmasses einer kette |
Also Published As
Publication number | Publication date |
---|---|
JP2015045755A (ja) | 2015-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10529314B2 (en) | Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection | |
US8321208B2 (en) | Speech processing and speech synthesis using a linear combination of bases at peak frequencies for spectral envelope information | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP6496030B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
WO2017046887A1 (ja) | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム | |
US9972300B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
WO2010119534A1 (ja) | 音声合成装置、方法およびプログラム | |
US20150348535A1 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6142401B2 (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
WO2017061985A1 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
AU2014395554B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
Lee et al. | A comparative study of spectral transformation techniques for singing voice synthesis. | |
Yu et al. | Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis | |
JP2014134730A (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
Kanagawa et al. | Speaker-independent style conversion for HMM-based expressive speech synthesis | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
KR102051235B1 (ko) | 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 | |
JP6137479B2 (ja) | 音声信号解析装置、方法、及びプログラム | |
WO2010109725A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
Li et al. | Graphical model approach to pitch tracking. | |
JP2017134321A (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP5660437B2 (ja) | 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20150709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6142401 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |