CN107103900A - 一种跨语言情感语音合成方法及*** - Google Patents
一种跨语言情感语音合成方法及*** Download PDFInfo
- Publication number
- CN107103900A CN107103900A CN201710415814.5A CN201710415814A CN107103900A CN 107103900 A CN107103900 A CN 107103900A CN 201710415814 A CN201710415814 A CN 201710415814A CN 107103900 A CN107103900 A CN 107103900A
- Authority
- CN
- China
- Prior art keywords
- language
- mark
- file
- acoustic
- mrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002996 emotional effect Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 19
- 230000008451 emotion Effects 0.000 claims abstract description 132
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 52
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 43
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims description 140
- 230000007935 neutral effect Effects 0.000 claims description 97
- 238000000605 extraction Methods 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000033764 rhythmic process Effects 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 230000006978 adaptation Effects 0.000 claims description 13
- 238000012417 linear regression Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000013499 data model Methods 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000004744 fabric Substances 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims 1
- 238000002372 labelling Methods 0.000 claims 1
- 150000001875 compounds Chemical class 0.000 description 6
- 238000005311 autocorrelation function Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种跨语言情感语音合成方法及***,首先,建立上下文相关标注格式和上下文相关聚类问题集;其次,确定第一语言标注文件、第二语言标注文件、目标情感普通话标注文件、待合成标注文件、第一语言声学参数、第二语言声学参数、目标情感声学参数;然后根据所述第一语言标注文件、所述第二语言标注文件、所述目标情感普通话标注文件、所述第一语言声学参数、所述第二语言声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型;最后,将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得第一语言或/和第二语言目标情感语音合成文件,以实现合成同一说话人或不同说话人跨语言的情感语音。
Description
技术领域
本发明涉及多语种情感语音合成技术领域,特别是涉及一种跨语言情感语音合成方法及***。
背景技术
目前的语音合成技术,已经能够合成出较自然的中性语音,但当遇到机器人、虚拟助手等这些需要模仿人类行为的人机交互任务时,简单的中性语音合成则不能满足人们的需求。能够模拟表现出人类情感和说话风格的情感语音合成已经成为未来语音合成的发展趋势。
对于使用人数众多的大语种汉语、英语等的情感语音合成来说,其研究投入较多,发展水平较高;但对于使用人数较少的小语种如藏语、俄语、西班牙语等情感语音合成来说,其发展却较缓慢,目前还没有一个公认的面向语音合成的高标准、高质量的小语种情感语料库,从而使得小语种情感语音的合成成为了语音合成领域的空白。
目前,国内外对情感语音合成的研究技术包括波形拼接方法、韵律单元选择方法和统计参数方法。波形拼接方法需要给情感语音合成***建立一个庞大的包含每一种情感的情感语料库库,之后对输入的文本进行文本和韵律分析,获得合成语音基本的单元信息,最后根据此单元信息在先前标注好的语料库库中选取合适的语音基元,并进行修改和调整拼接获得目标情感的合成语音,其合成的语音具有较好的情感相似度,但需要提前建立好一个大的、包含各种情感的语音基元语料库库,这在***的实现中是非常困难的,而且也难以扩展到合成不同说话人、不同语言的情感语音上;韵律特征单元选择方法把韵律或语音体系的策略融入单位选择,用这种规则建立小的或混合的情感语料库库,用于修改目标f0和时长的轮廓,从而获得情感语音。韵律修改方法要对语音信号进行修改,合成语音的音质较差,也不能合成不同人、不同语言的情感语音。以上两种方法由于其局限性,不是现在的主流方法。统计参数语音合成方法虽然成为了主流的语音合成方法,但该方法只能合成出一种语言的情感语音,若需要合成不同语言的情感语音,就需要训练多个情感语音合成***,每个情感语音合成***都需要该种语言的情感语音训练语料库。
针对上述情感语音合成方法的不足,如何克服上述问题,是目前多语种情感语音合成技术领域急需解决的技术问题。
发明内容
本发明的目的是提供一种跨语言情感语音合成方法及***,以实现用一种多说话人的目标情感普通话训练语料库训练一个普通话说话人目标情感平均声学模型,只需改变待合成文件就能合成同一说话人或不同说话人跨语言的情感语音。
为实现上述目的,本发明提供了一种跨语言情感语音合成方法,包括以下步骤:
建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;分别对所述中性第一语言训练语料库和所述中性第二语言训练语料库进行声学参数提取,获得所述中性第一语言训练语料库对应的第一语言声学参数、所述中性第二语言训练语料库对应的第二语言声学参数;
根据所述上下文相关标注格式和所述上下文相关聚类问题集对多说话人的目标情感普通话训练语料库进行上下文相关文本标注,获得目标情感普通话标注文件;对所述目标情感普通话训练语料库进行声学参数提取,获得目标情感声学参数;
根据所述第一语言标注文件、所述第二语言标注文件、所述目标情感普通话标注文件、所述第一语言声学参数、所述第二语言声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型;
对第一语言或/和第二语言的待合成文件进行上下文相关文本标注获得待合成标注文件;
将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得第一语言或/和第二语言目标情感语音合成文件。
可选的,所述建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件,具体步骤包括:
建立第一语言标注规则和第二语言标注规则;
根据第一语言标注规则和第二语言标注规则确定上下文相关标注格式,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;
根据第一语言和第二语言的相似性,建立上下文相关聚类问题集。
可选的,所述建立第一语言标注规则和第二语言标注规则,具体步骤包括:
所述建立第一语言标注规则,具体步骤包括:
将SAMPA-SC普通话机读音标作为所述第一语言标注规则;
所述建立第二语言标注规则,具体步骤包括:
以国际音标为参考,基于SAMPA-SC普通话机读音标,获得输入第二语言拼音的国际音标;
判断所述第二语言拼音的国际音标与第一语言拼音的国际音标是否一致;若一致,则直接采用SAMPA-SC普通话机读音标来标记第二语言拼音;否,则按照简单化原则,利用自定义的未使用的键盘符号标记。
可选的,所述根据第一语言标注规则和第二语言标注规则确定上下文相关标注格式,具体步骤包括:
根据第一语言和第二语言的语法规则知识库和语法词典,对输入的第一语言和第二语言不规范的文本进行文本规范化、语法分析和韵律结构分析获得规范文本,韵律词、短语的长度信息,韵律边界信息,词语相关信息,声调信息;
将所述规范文本带入所述第一语言标注规则获得第一语言的单音素标注文件;或将所述规范文本带入所述第二语言标注规则获得第二语言的单音素标注文件;
根据韵律词、短语的长度信息,韵律边界信息,词语相关信息,声调信息和单音素标注文件确定上下文相关标注格式。
可选的,所述根据第一语言标注文件、第二语言标注文件、目标情感普通话标注文件、第一语言声学参数、第二语言声学参数和目标情感声学参数确定多说话人目标情感平均声学模型,具体步骤包括:
将第一语言标注文件、第二语言标注文件、第一语言声学参数、第二语言声学参数作为训练集,基于自适应模型,通过说话人自适应训练,获得混合语言的中性平均声学模型;
根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感平均声学模型。
可选的,所述根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感普通话说话人目标情感平均声学模型的具体步骤为:
采用约束最大似然线性回归算法,计算说话人的状态时长概率分布和状态输出概率分布的协方差矩阵和均值向量,用一组状态时长分布和状态输出分布的变换矩阵将中性平均声学模型的协方差矩阵和均值向量变换为目标说话人模型,具体公式为:
pi(d)=N(d;αmi-β,ασi 2α)=|α-1|N(αψ;mi,σi 2) (7);
bi(o)=N(o;Aui-b,AΣiAT)=|A-1|N(Wξ;ui,Σi) (8);
其中,i为状态,d为状态时长,N为常数,pi(d)为状态时长的变换方程,mi为时长分布均值,σi 2为方差,ψ=[d,1]T,o为特征征向量,ξ=[oT,1],ui为状态输出分布均值,∑i为对角协方差矩阵,X=[α-1,β-1]为状态时长概率密度分布的变换矩阵,W=[A-1,b-1]为目标说话人状态输出概率密度分布的线性变换矩阵;
通过基于MSD-HSMM的自适应变换算法,可对语音数据的基频、频谱和时长参数进行变换和归一化;对于长度为T的自适应数据O,可变换Λ=(W,X)进行最大似然估计:
其中,λ为MSD-HSMM的参数集,O为长度为T的自适应数据,为最大似然估计;
对转化和归一化后的时长、频谱和基频参数进行最大似然估计,采用最大后验概率算法对说话人相关模型进行更新和修正,具体公式为:
MAP估计:
其中,t为时间,λ为给定的MSD-HSMM参数集,T为长度,o为长度为T时自适应数据i为状态,d为状态时长,N为常数,s为训练语音数据模型,kt d(i)为状态i下连续观测序列ot-d+1...ot的概率,αt(i)为向前概率,βt(i)为向后概率,和为线性回归变换后的均值向量,ω为状态输出的MAP估计参数,τ为时长分布MAP估计参数,和分别为自适应向量和的加权平均MAP估计值。
本发明还提供了一种跨语言情感语音合成***,所述***包括:
语言语料库文本标注、参数提取模块,用于建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;分别对中性第一语言训练语料库和中性第二语言训练语料库进行声学参数提取,获得所述中性第一语言训练语料库对应的第一语言声学参数、所述中性第二语言训练语料库对应的第二语言声学参数;
目标情感语料库文本标注、参数提取模块,用于根据上下文相关标注格式和上下文相关聚类问题集对多说话人的目标情感普通话训练语料库进行上下文相关文本标注,获得目标情感普通话标注文件;对所述目标情感普通话训练语料库进行声学参数提取,获得目标情感声学参数;
目标情感平均声学模型确定模块,用于根据所述第一语言标注文件、所述第二语言标注文件、所述目标情感普通话标注文件、所述第一语言声学参数、所述第二语言声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型;
待合成标注文件确定模块,用于对第一语言或/和第二语言的待合成文件进行上下文相关文本标注获得待合成标注文件;
语音合成文件确定模块,用于将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得第一语言或/和第二语言目标情感语音合成文件。
可选的,所述语言语料库文本标注模块,具体包括:
标注规则建立子模块,用于建立第一语言标注规则和第二语言标注规则;
语言语料库文本标注子模块,用于根据第一语言标注规则和第二语言标注规则确定上下文相关标注格式,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;
标音***、问题集建立子模块,用于根据第一语言和第二语言的相似性,建立上下文相关聚类问题集。
可选的,所述目标情感平均声学模型确定模块,具体包括:
混合语言的中性平均声学模型确定子模块,用于将藏语标注文件、汉语标注文件、第一语言声学参数、第二语言声学参数作为训练集,基于自适应模型,通过说话人自适应训练,获得混合语言的中性平均声学模型;
目标情感平均声学模型确定子模块,用于根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感平均声学模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
1)、本发明利用一种多说话人的目标情感普通话训练语料库就能训练出一种多说话人目标情感平均声学模型,只需改变待合成文件就能合成出另一种语言或多种语言的情感语音合成,从而拓宽了语音合成范围。
2)、本发明利用一种多说话人的目标情感普通话训练语料库就能训练出一种多说话人目标情感平均声学模型,既能合成出同一个说话人不同语言的情感语音,还能合成出不同说话人说不同语言的情感语音。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术规则,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例跨语言情感语音合成方法流程图;
图2为本发明实施例藏语标注规则的具体流程图;
图3为本发明实施例建立上下文相关标注格式的具体流程图;
图4为本发明实施例声学参数提取的具体流程图;
图5为本发明实施例跨语言情感语音合成***结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术规则进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种跨语言情感语音合成方法及***,以实现用一种多说话人的目标情感普通话训练语料库训练一个普通话说话人目标情感平均声学模型,只需改变待合成文件就能合成同一说话人或不同说话人跨语言的情感语音。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明公开了第一语言和第二语言,所述第一语言为汉语、英语、德语、法语中任意一种;所述第二语言为藏语、西班牙语、日语、***语、韩语、葡萄牙语中任意一种。本发明具体实施例将汉语作为第一语言,将藏语作为第二语言为例进行论述,图1为本发明实施例跨语言情感语音合成方法流程图,具体详见图1。
本发明具体提供了一种跨语言情感语音合成方法,具体步骤包括:
步骤100:建立汉语和藏语通用的上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性汉语训练语料库、单说话人的中性藏语训练语料库进行上下文相关文本标注,获得所述中性汉语训练语料库对应的汉语标注文件、所述中性藏语训练语料库对应的藏语标注文件;分别对所述中性汉语训练语料库和所述中性藏语训练语料库进行声学参数提取,获得所述中性汉语训练语料库对应的汉语声学参数、所述中性藏语训练语料库对应的藏语声学参数。
步骤200:根据所述上下文相关标注格式和所述上下文相关聚类问题集对多说话人的目标情感普通话训练语料库进行上下文相关文本标注,获得目标情感普通话标注文件;对所述目标情感普通话训练语料库进行声学参数提取,获得目标情感声学参数。
步骤300:根据所述汉语标注文件、所述藏语标注文件、所述目标情感普通话标注文件、所述汉语声学参数、所述藏语声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型。
步骤400:对汉语或/和藏语的待合成文件进行上下文相关文本标注获得待合成标注文件。
步骤500:将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得汉语或/和藏语目标情感语音合成文件。
下面对各个步骤进行详细的介绍:
步骤100:建立汉语和藏语通用的上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性汉语训练语料库、单说话人的中性藏语训练语料库进行上下文相关文本标注,获得所述中性汉语训练语料库对应的汉语标注文件、所述中性藏语训练语料库对应的藏语标注文件;分别对所述中性汉语训练语料库和所述中性藏语训练语料库进行声学参数提取,获得所述中性汉语训练语料库对应的汉语声学参数、所述中性藏语训练语料库对应的藏语声学参数。
步骤101:建立汉语标注规则和藏语标注规则。
步骤1011:将SAMPA-SC普通话机读音标作为所述汉语标注规则。
步骤1012:所述建立藏语标注规则,具体步骤包括:
目前汉语普通话机读音标SAMPA-SC已趋于成熟并广泛应用,而藏语和汉语在发音上有很多相似之处,例如,汉藏语系中,汉语与藏语在发音上既有共性又有差异,藏语拉萨方言和汉语普通话都是由音节组成,每个音节都包含1个韵母和1个声母,藏语拉萨方言有45个韵母和36个声母,普通话有39个韵母和22个声母,它们共享13个韵母和20个声母,且都有4个声调只是调值不同。因此本发明以SAMPA-SC为基础,根据藏语的发音特点,设计出一套藏语计算机可读音标SAMPA-T,即藏语标注规则。具体详见图2。
以国际音标为参考,基于SAMPA-SC普通话机读音标,获得输入藏语拼音的国际音标。
判断所述藏语拼音的国际音标与汉语拼音的国际音标是否一致,若一致,则直接采用SAMPA-SC普通话机读音标来标记藏语拼音,否,则按照简单化原则,利用自定义的未使用的键盘符号标记。
步骤102:根据汉语标注规则和藏语标注规则确定汉语和藏语通用的上下文相关标注格式,根据上下文相关标注格式分别对多说话人的中性汉语训练语料库、单说话人的中性藏语训练语料库进行上下文相关文本标注,分别获得所述中性汉语训练语料库对应的汉语标注文件、所述中性藏语训练语料库对应的藏语标注文件,具体详见图3。
步骤1021:根据汉语和藏语的语法规则知识库和语法词典,对输入的汉语和藏语不规范的文本进行文本规范化、语法分析和韵律结构分析获得规范文本,韵律词、短语的长度信息,韵律边界信息,词语相关信息,声调信息。
步骤1022:将所述规范文本带入所述汉语标注规则获得汉语的单音素标注文件;或将所述规范文本带入所述藏语标注规则获得藏语的单音素标注文件。
步骤1023:根据韵律词、短语的长度信息,韵律边界信息,词语相关信息,声调信息和单音素标注文件确定汉语和藏语通用的上下文相关标注格式。
上下文相关标注格式用来标注发音基元(声韵母)的上下文信息。上下文相关标注格式包括声韵母音、音节、词、韵律词、韵律短语和语句6层,用来表示发音基元(声韵母)及其在不同语境下的上下文相关信息。
步骤1024:根据上下文相关标注格式分别对多说话人的中性汉语训练语料库、单说话人的中性藏语训练语料库进行上下文相关文本标注,分别获得所述中性汉语训练语料库对应的汉语标注文件、所述中性藏语训练语料库对应的藏语标注文件。
步骤103:根据汉语和藏语的相似性,建立汉语和藏语通用的上下文相关聚类问题集。
步骤104:分别对中性汉语训练语料库和中性藏语训练语料库进行声学参数提取,获得所述中性汉语训练语料库对应的汉语声学参数、所述中性藏语训练语料库对应的藏语声学参数,具体详见图4。
声学参数提取时,通过对语音信号进行分析,提取语音信号的基频和谱特征等声学特征。本发明中用广义梅尔倒谱系数(Mel-generalized cepstral,mgc)作为谱特征,用来表示频谱包络,即:源滤波器模型中的滤波器部;用对数基频logF0作为基频特征。因为语音信号不是纯粹的、稳定的周期信号,基频的错误直接影响对频谱包络的提取,因此,提取频谱包络(广义梅尔倒谱系数mgc)同时也要提取基频特征(对数基频logF0)。
所述声学参数提取包括:广义梅尔倒谱系数mgc提取,对数基频logF0提取,非周期分量bap提取。
广义梅尔倒谱系数mgc提取公式具体为:
其中,(|α|<1)为m阶全通函数,γ为***函数的属性,cα,γ(m)为系数,M为滤波器系数总个数,z为离散信号的z变换,m为滤波器系数阶数。
如果γ=0,cα,γ(m)为mgc模型;γ等于-1,则该模型为自回归模型;如果γ等于0,则为指数模型。
对数基频logF0提取:
采用归一化自相关函数法提取基频特征,其具体步骤为:
对于语音信号s(n),n≤N,n∈N+,其自相关函数为:
其中,k为延时时间,应设置为基音周期的整数倍,s(n+k)为s(n)相邻的语音信号,N整数,K为延时时间的最大数。
对自相关函数acf(k)进行归一化处理,便得到归一化自相关函数:
其中,e0为0时刻的ek。
当自相关函数的最大值时,函数的延迟值k即为基音周期。基音周期取倒数就是基频,基频对数就是需要提取的对数基频logF0。
非周期分量bap提取:
语音信号的非周期成分在频域被定义为非周期成分的相对能量水平,并通过非谐波成分的能量与固定基频值结构规整后的谱的总能量的比值计算线性域的非周期成分值ap,也就是说用上下谱包络相减就能确定线性域的非周期成分值ap,具体公式为:
PAP(ω′)为lg域非周期成分值;S(λ′)代表谱能量,SL(λ′)表示谱下包络的谱能量,SU(λ′)为谱上包络的谱能量;wERB(λ′;ω′)为平滑声学滤波器,λ′为基频,ω′为频率。
在每帧的每个频带内对ap求取平均值就能确定非周期分量bap,具体公式为:
其中,bap(ω′)为非周期分量bap。
步骤200:根据上下文相关标注格式和上下文相关聚类问题集对多说话人的目标情感普通话训练语料库进行上下文相关文本标注,获得目标情感普通话标注文件;对所述目标情感普通话训练语料库进行声学参数提取,获得目标情感声学参数。
对所述目标情感普通话训练语料库进行声学参数提取与对中性汉语训练语料库和中性藏语训练语料库进行声学参数提取的声学参数提取方式相同。具体详见公式(1)-(4)。
步骤300:根据所述汉语标注文件、所述藏语标注文件、所述目标情感普通话标注文件、所述汉语声学参数、所述藏语声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型。
步骤301:将汉语标注文件、藏语标注文件、汉语声学参数、藏语声学参数作为训练集,基于自适应模型,通过说话人自适应训练,获得混合语言的中性平均声学模型。所述自适应模型为深度学习模型、长短时记忆模型、隐马尔科夫模型中的任意一种。本发明采用半隐马尔科夫模型进行分析。
本发明采用约束最大似然线性回归算法,将平均声学模型和训练中说话人的语音数据之间的差异用线性回归函数表示,用一组状态时长分布和状态输出分布的线性回归公式归一化训练说话人之间的差异,训练得到上下文相关的半隐马尔科夫模型(Multi-SpaceHidden semi-Markov models,MSD-HSMM)。采用基于半隐马尔科夫模型MSD-HSMM的说话人自适应训练算法来提高合成语音的音质,减少各说话人之间的差异对合成语音质量的影响。状态时常分布和状态输出分布的线性回归公式具体为:
其中,公式(5)所示为状态时长分布变换方程,i为状态,右下角的i表示在状态i下,s为训练语音数据模型,s标记在右上角表示属于语音数据模型s的,表示训练语音数据模型s的状态时长的均值向量。X=[α,β]为训练语音数据模型s的状态时长分布与平均音模型之间差异的变换矩阵,di为其平均时长,其中,ξ=[οT,1]。公式(6)所示为状态输出分布变换方程,表示训练语音数据模型s的状态输出的均值向量,W=[A,b]为训练语音数据模型s的状态输出分布与平均音模型之间差异的变换矩阵,oi为其平均观测向量。
步骤302:根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感平均声学模型;其具体步骤为:
步骤3021:采用约束最大似然线性回归算法,计算说话人的状态时长概率分布和状态输出概率分布的协方差矩阵和均值向量,用一组状态时长分布和状态输出分布的变换矩阵将中性平均声学模型的协方差矩阵和均值向量变换为目标说话人模型,具体公式为:
pi(d)=N(d;αmi-β,ασi 2α)=|α-1|N(αψ;mi,σi 2) (7)
bi(o)=N(o;Aui-b,AΣiAT)=|A-1|N(Wξ;ui,Σi) (8)
其中,i为状态,d为状态时长,N为常数,pi(d)为状态时长的变换方程,mi为时长分布均值,σi 2为方差,ψ=[d,1]T,o为特征征向量,ξ=[oT,1],ui为状态输出分布均值,∑i为对角协方差矩阵,X=[α-1,β-1]为状态时长概率密度分布的变换矩阵,W=[A-1,b-1]为目标说话人状态输出概率密度分布的线性变换矩阵;
步骤3022:通过基于MSD-HSMM的自适应变换算法,可对语音数据的基频、频谱和时长参数进行变换和归一化;对于长度为T的自适应数据O,可变换Λ=(W,X)进行最大似然估计:
其中,λ为MSD-HSMM的参数集,O为长度为T的自适应数据,为最大似然估计。
步骤3023:对转化和归一化后的时长、频谱和基频参数进行最大似然估计,采用最大后验概率算法对说话人相关模型进行更新和修正,具体公式为:
MAP估计:
其中,t为时间,λ为给定的MSD-HSMM参数集,T为长度,o为长度为T时自适应数据i为状态,d为状态时长,N为常数,s为训练语音数据模型,kt d(i)为状态i下连续观测序列ot-d+1...ot的概率,αt(i)为向前概率,βt(i)为向后概率,和为线性回归变换后的均值向量,ω为状态输出的最大后验概率(Maximum aposteriori,MAP)估计参数,τ为时长分布MAP估计参数,和分别为自适应向量和的加权平均MAP估计值。
步骤400:对汉语或/和藏语的待合成文件进行上下文相关文本标注获得待合成标注文件。
所述待合成文件包括汉语和/藏语待合成文件,待合成文件为字、词、短语、句子任意一种,将所述汉语和/藏语待合成文件根据所述上下文相关文本标注格式进行上下文相关文本标注获得待合成标注文件。
也就是说,当待合成文本为藏语待合成文本时,根据所述上下文相关文本标注格式进行上下文相关文本标注获得藏语待合成标注文件;当待合成文本为汉语待合成文本时,根据所述上下文相关文本标注格式进行上下文相关文本标注获得汉语待合成标注文件;当待合成文本为藏语和汉语待合成文本时,根据所述上下文相关文本标注格式进行上下文相关文本标注获得藏语和汉语待合成标注文件。
步骤500:将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得目标情感语音合成文件。
对于待合成文本的待合成标注文件,利用问题集,根据每个发音基元(声韵母)的上下文相关信息获得每个发音基元的说话人相关的目标情感平均声学模型,再通过聚类确定整个待合成句子的说话人相关的目标情感平均声学模型,然后根据此说话人相关的目标情感平均声学模型获得普通话和/或藏语的目标情感的声学参数文件,最后利用声学参数文件通过语音波形生成器来合成出藏语和/或汉语目标情感语音合成文件。
也就是说,将所述藏语待合成标注文件输入所述多说话人目标情感平均声学模型获得藏语目标情感语音合成文件;将所述汉语待合成标注文件输入所述多说话人目标情感平均声学模型获得汉语目标情感语音合成文件;将所述汉语和藏语待合成标注文件输入所述多说话人目标情感平均声学模型获得汉语和藏语混合目标情感语音合成文件。
为实现上述目的,本发明还提供了一种跨语言情感语音合成***。
图5为本发明实施例跨语言情感语音合成***结构框图,如图5所示,所述***包括:语言语料库文本标注、参数提取模块1,目标情感语料库文本标注、参数提取模块2,目标情感平均声学模型确定模块3,待合成标注文件确定模块4,语音合成文件确定模块5。
语言语料库文本标注、参数提取模块1,用于建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性汉语训练语料库、单说话人的中性藏语训练语料库进行上下文相关文本标注,获得所述中性汉语训练语料库对应的汉语标注文件、所述中性藏语训练语料库对应的藏语标注文件;用于分别对中性汉语训练语料库和中性藏语训练语料库进行声学参数提取,获得所述中性汉语训练语料库对应的汉语声学参数、所述中性藏语训练语料库对应的藏语声学参数。
所述语言语料库文本标注、参数提取模块1具体包括:所述语言语料库文本标注模块和所述语言语料库参数提取模块。
所述语言语料库文本标注模块,具体包括:标注规则建立子模块,语言语料库文本标注子模块,标音***、问题集建立子模块。
所述标注规则建立子模块,用于建立汉语标注规则和藏语标注规则;
所述语言语料库文本标注子模块,用于根据汉语标注规则和藏语标注规则确定上下文相关标注格式,分别对多说话人的中性汉语训练语料库、单说话人的中性藏语训练语料库进行上下文相关文本标注,获得所述中性汉语训练语料库对应的汉语标注文件、所述中性藏语训练语料库对应的藏语标注文件;
所述标音***、问题集建立子模块,用于根据汉语和藏语的相似性,建立汉语和藏语通用的上下文相关聚类问题集。
所述语言语料库参数提取模块,用于分别对中性汉语训练语料库和中性藏语训练语料库进行声学参数提取,获得所述中性汉语训练语料库对应的汉语声学参数、所述中性藏语训练语料库对应的藏语声学参数。
目标情感语料库文本标注、参数提取模块2,用于对多说话人的目标情感普通话训练语料库进行上下文相关文本标注,获得目标情感普通话标注文件;对所述目标情感普通话训练语料库进行声学参数提取,获得目标情感声学参数;
目标情感平均声学模型确定模块3,用于根据所述汉语标注文件、所述藏语标注文件、所述目标情感普通话标注文件、所述汉语声学参数、所述藏语声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型;
所述目标情感平均声学模型确定模块3,具体包括:混合语言的中性平均声学模型确定子模块、目标情感平均声学模型确定子模块。
所述混合语言的中性平均声学模型确定子模块,用于将藏语标注文件、汉语标注文件、汉语声学参数、藏语声学参数作为训练集,基于自适应模型,通过说话人自适应训练,获得混合语言的中性平均声学模型;
所述目标情感平均声学模型确定子模块,用于根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感平均声学模型。
待合成标注文件确定模块4,用于对汉语或/和藏语的待合成文件进行上下文相关文本标注获得待合成标注文件。
语音合成文件确定模块5,用于将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得汉语或/和藏语目标情感语音合成文件。
具体举例:
本发明录制一个女性藏语说话人的800句作为单说话人的中性藏语训练语料库,将汉英双语语音数据库作为多说话人的中性汉语训练语料库,录制了一个9个女性说话人11种情感共9900句作为多说话人的目标情感普通话训练语料库,即11中情感包括悲伤、放松、愤怒、焦虑、惊奇、恐惧、轻蔑、温顺、喜悦、厌恶、中性。实验证明,随着普通话目标情感训练语料的增加,合成的目标情感的藏语或汉语语音的情感相似度评测得分(EmotionalMeanOpinionScore,EMOS)逐渐提高。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种跨语言情感语音合成方法,其特征在于,包括以下步骤:
建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;分别对所述中性第一语言训练语料库和所述中性第二语言训练语料库进行声学参数提取,获得所述中性第一语言训练语料库对应的第一语言声学参数、所述中性第二语言训练语料库对应的第二语言声学参数;
根据所述上下文相关标注格式和所述上下文相关聚类问题集对多说话人的目标情感普通话训练语料库进行上下文相关文本标注,获得目标情感普通话标注文件;对所述目标情感普通话训练语料库进行声学参数提取,获得目标情感声学参数;
根据所述第一语言标注文件、所述第二语言标注文件、所述目标情感普通话标注文件、所述第一语言声学参数、所述第二语言声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型;
对第一语言或/和第二语言的待合成文件进行上下文相关文本标注获得待合成标注文件;
将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得第一语言或/和第二语言目标情感语音合成文件。
2.根据权利要求1所述的跨语言情感语音合成方法,其特征在于,所述建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件,具体步骤包括:
建立第一语言标注规则和第二语言标注规则;
根据第一语言标注规则和第二语言标注规则确定上下文相关标注格式,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;
根据第一语言和第二语言的相似性,建立上下文相关聚类问题集。
3.根据权利要求2所述的跨语言情感语音合成方法,其特征在于,所述建立第一语言标注规则和第二语言标注规则,具体步骤包括:
所述建立第一语言标注规则,具体步骤包括:
将SAMPA-SC普通话机读音标作为所述第一语言标注规则;
所述建立第二语言标注规则,具体步骤包括:
以国际音标为参考,基于SAMPA-SC普通话机读音标,获得输入第二语言拼音的国际音标;
判断所述第二语言拼音的国际音标与第一语言拼音的国际音标是否一致;若一致,则直接采用SAMPA-SC普通话机读音标来标记第二语言拼音;否,则按照简单化原则,利用自定义的未使用的键盘符号标记。
4.根据权利要求3所述的跨语言情感语音合成方法,其特征在于,所述根据第一语言标注规则和第二语言标注规则确定上下文相关标注格式,具体步骤包括:
根据第一语言和第二语言的语法规则知识库和语法词典,对输入的第一语言和第二语言不规范的文本进行文本规范化、语法分析和韵律结构分析获得规范文本,韵律词、短语的长度信息,韵律边界信息,词语相关信息,声调信息;
将所述规范文本带入所述第一语言标注规则获得第一语言的单音素标注文件;或将所述规范文本带入所述第二语言标注规则获得第二语言的单音素标注文件;
根据韵律词、短语的长度信息,韵律边界信息,词语相关信息,声调信息和单音素标注文件确定上下文相关标注格式。
5.根据权利要求1所述的跨语言情感语音合成方法,其特征在于,所述根据第一语言标注文件、第二语言标注文件、目标情感普通话标注文件、第一语言声学参数、第二语言声学参数和目标情感声学参数确定多说话人目标情感平均声学模型,具体步骤包括:
将第一语言标注文件、第二语言标注文件、第一语言声学参数、第二语言声学参数作为训练集,基于自适应模型,通过说话人自适应训练,获得混合语言的中性平均声学模型;
根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感平均声学模型。
6.根据权利要求5所述的跨语言情感语音合成方法,其特征在于,所述根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感普通话说话人目标情感平均声学模型的具体步骤为:
采用约束最大似然线性回归算法,计算说话人的状态时长概率分布和状态输出概率分布的协方差矩阵和均值向量,用一组状态时长分布和状态输出分布的变换矩阵将中性平均声学模型的协方差矩阵和均值向量变换为目标说话人模型,具体公式为:
pi(d)=N(d;αmi-β,ασi 2α)=|α-1|N(αψ;mi,σi 2) (7)
bi(o)=N(o;Aui-b,AΣiAT)=|A-1|N(Wξ;ui,Σi) (8)
其中,i为状态,d为状态时长,N为常数,pi(d)为状态时长的变换方程,mi为时长分布均值,σi 2为方差,ψ=[d,1]T,o为特征征向量,ξ=[oT,1],ui为状态输出分布均值,∑i为对角协方差矩阵,X=[α-1,β-1]为状态时长概率密度分布的变换矩阵,W=[A-1,b-1]为目标说话人状态输出概率密度分布的线性变换矩阵;
通过基于MSD-HSMM的自适应变换算法,可对语音数据的基频、频谱和时长参数进行变换和归一化;对于长度为T的自适应数据O,可变换Λ=(W,X)进行最大似然估计:
<mrow>
<mover>
<mi>&Lambda;</mi>
<mo>~</mo>
</mover>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mover>
<mi>W</mi>
<mo>~</mo>
</mover>
<mo>,</mo>
<mover>
<mi>X</mi>
<mo>~</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mrow>
<mi>arg</mi>
<mi>max</mi>
</mrow>
<mi>&Lambda;</mi>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>O</mi>
<mo>|</mo>
<mi>&lambda;</mi>
<mo>,</mo>
<mi>&Lambda;</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,λ为MSD-HSMM的参数集,O为长度为T的自适应数据,为最大似然估计;
对转化和归一化后的时长、频谱和基频参数进行最大似然估计,采用最大后验概率算法对说话人相关模型进行更新和修正,具体公式为:
<mrow>
<msubsup>
<mi>k</mi>
<mi>t</mi>
<mi>d</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>O</mi>
<mo>|</mo>
<mi>&lambda;</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<munderover>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
</munder>
<mrow>
<mi>j</mi>
<mo>&NotEqual;</mo>
<mi>i</mi>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<munderover>
<mi>&Pi;</mi>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mi>t</mi>
<mo>-</mo>
<mi>d</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mi>t</mi>
</munderover>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>o</mi>
<mi>s</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>&beta;</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
2
MAP估计:
其中,t为时间,λ为给定的MSD-HSMM参数集,T为长度,o为长度为T时自适应数据i为状态,d为状态时长,N为常数,s为训练语音数据模型,kt d(i)为状态i下连续观测序列ot-d+ 1...ot的概率,αt(i)为向前概率,βt(i)为向后概率,和为线性回归变换后的均值向量,ω为状态输出的MAP估计参数,τ为时长分布MAP估计参数,和分别为自适应向量和的加权平均MAP估计值。
7.一种跨语言情感语音合成***,其特征在于,包括:
语言语料库文本标注、参数提取模块,用于建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;用于分别对所述中性第一语言训练语料库和所述中性第二语言训练语料库进行声学参数提取,获得所述中性第一语言训练语料库对应的第一语言声学参数、所述中性第二语言训练语料库对应的第二语言声学参数;
目标情感语料库文本标注、参数提取模块,用于根据所述上下文相关标注格式和所述上下文相关聚类问题集对多说话人的目标情感普通话训练语料库进行上下文相关文本标注,获得目标情感普通话标注文件;对所述目标情感普通话训练语料库进行声学参数提取,获得目标情感声学参数;
目标情感平均声学模型确定模块,用于根据所述第一语言标注文件、所述第二语言标注文件、所述目标情感普通话标注文件、所述第一语言声学参数、所述第二语言声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型;
待合成标注文件确定模块,用于对第一语言或/和第二语言的待合成文件进行上下文相关文本标注获得待合成标注文件;
语音合成文件确定模块,用于将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得第一语言或/和第二语言目标情感语音合成文件。
8.根据权利要求7所述的跨语言情感语音合成***,其特征在于,所述语言语料库文本标注模块,具体包括:
标注规则建立子模块,用于建立第一语言标注规则和第二语言标注规则;
语言语料库文本标注子模块,用于根据第一语言标注规则和第二语言标注规则确定上下文相关标注格式,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;
标音***、问题集建立子模块,用于根据第一语言和第二语言的相似性,建立上下文相关聚类问题集。
9.根据权利要求7所述的跨语言情感语音合成***,其特征在于,所述目标情感平均声学模型确定模块,具体包括:
混合语言的中性平均声学模型确定子模块,用于将藏语标注文件、汉语标注文件、第一语言声学参数、第二语言声学参数作为训练集,基于自适应模型,通过说话人自适应训练,获得混合语言的中性平均声学模型;
目标情感平均声学模型确定子模块,用于根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感平均声学模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710415814.5A CN107103900B (zh) | 2017-06-06 | 2017-06-06 | 一种跨语言情感语音合成方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710415814.5A CN107103900B (zh) | 2017-06-06 | 2017-06-06 | 一种跨语言情感语音合成方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107103900A true CN107103900A (zh) | 2017-08-29 |
CN107103900B CN107103900B (zh) | 2020-03-31 |
Family
ID=59660516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710415814.5A Active CN107103900B (zh) | 2017-06-06 | 2017-06-06 | 一种跨语言情感语音合成方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107103900B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831435A (zh) * | 2018-06-06 | 2018-11-16 | 安徽继远软件有限公司 | 一种基于多情感说话人自适应的情感语音合成方法 |
CN109036370A (zh) * | 2018-06-06 | 2018-12-18 | 安徽继远软件有限公司 | 一种说话人语音自适应训练方法 |
CN109192225A (zh) * | 2018-09-28 | 2019-01-11 | 清华大学 | 语音情感识别和标注的方法及装置 |
CN109949791A (zh) * | 2019-03-22 | 2019-06-28 | 平安科技(深圳)有限公司 | 基于hmm的情感语音合成方法、装置及存储介质 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN110853616A (zh) * | 2019-10-22 | 2020-02-28 | 武汉水象电子科技有限公司 | 一种基于神经网络的语音合成方法、***与存储介质 |
CN111145719A (zh) * | 2019-12-31 | 2020-05-12 | 北京太极华保科技股份有限公司 | 将中英混合及语气标签化的数据标注方法及装置 |
CN111192568A (zh) * | 2018-11-15 | 2020-05-22 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
CN111954903A (zh) * | 2018-12-11 | 2020-11-17 | 微软技术许可有限责任公司 | 多说话者神经文本到语音合成 |
CN112151008A (zh) * | 2020-09-22 | 2020-12-29 | 中用科技有限公司 | 一种语音合成方法、***及计算机设备 |
CN112233648A (zh) * | 2019-12-09 | 2021-01-15 | 北京来也网络科技有限公司 | 结合rpa及ai的数据的处理方法、装置、设备及存储介质 |
CN112270168A (zh) * | 2020-10-14 | 2021-01-26 | 北京百度网讯科技有限公司 | 对白情感风格预测方法、装置、电子设备及存储介质 |
CN112634858A (zh) * | 2020-12-16 | 2021-04-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN113345431A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 跨语言语音转换方法、装置、设备及介质 |
CN113539268A (zh) * | 2021-01-29 | 2021-10-22 | 南京迪港科技有限责任公司 | 一种端到端语音转文本罕见词优化方法 |
CN113611286A (zh) * | 2021-10-08 | 2021-11-05 | 之江实验室 | 一种基于共性特征提取的跨语种语音情感识别方法和*** |
CN117496944A (zh) * | 2024-01-03 | 2024-02-02 | 广东技术师范大学 | 一种多情感多说话人语音合成方法和*** |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178063A (ja) * | 2004-12-21 | 2006-07-06 | Toyota Central Res & Dev Lab Inc | 対話処理装置 |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN102005205A (zh) * | 2009-09-03 | 2011-04-06 | 株式会社东芝 | 情感语音合成方法和装置 |
CN102184731A (zh) * | 2011-05-12 | 2011-09-14 | 北京航空航天大学 | 一种韵律类和音质类参数相结合的情感语音转换方法 |
CN102385858A (zh) * | 2010-08-31 | 2012-03-21 | 国际商业机器公司 | 情感语音合成方法和*** |
KR20120117041A (ko) * | 2011-04-14 | 2012-10-24 | 한국과학기술원 | 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체 |
US20140114663A1 (en) * | 2012-10-19 | 2014-04-24 | Industrial Technology Research Institute | Guided speaker adaptive speech synthesis system and method and computer program product |
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN104538025A (zh) * | 2014-12-23 | 2015-04-22 | 西北师范大学 | 手势到汉藏双语语音转换方法及装置 |
US20150127349A1 (en) * | 2013-11-01 | 2015-05-07 | Google Inc. | Method and System for Cross-Lingual Voice Conversion |
CN105654942A (zh) * | 2016-01-04 | 2016-06-08 | 北京时代瑞朗科技有限公司 | 一种基于统计参数的疑问句、感叹句的语音合成方法 |
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其*** |
CN106531150A (zh) * | 2016-12-23 | 2017-03-22 | 上海语知义信息技术有限公司 | 一种基于深度神经网络模型的情感合成方法 |
US20170083506A1 (en) * | 2015-09-21 | 2017-03-23 | International Business Machines Corporation | Suggesting emoji characters based on current contextual emotional state of user |
-
2017
- 2017-06-06 CN CN201710415814.5A patent/CN107103900B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178063A (ja) * | 2004-12-21 | 2006-07-06 | Toyota Central Res & Dev Lab Inc | 対話処理装置 |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN102005205A (zh) * | 2009-09-03 | 2011-04-06 | 株式会社东芝 | 情感语音合成方法和装置 |
CN102385858A (zh) * | 2010-08-31 | 2012-03-21 | 国际商业机器公司 | 情感语音合成方法和*** |
KR20120117041A (ko) * | 2011-04-14 | 2012-10-24 | 한국과학기술원 | 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체 |
CN102184731A (zh) * | 2011-05-12 | 2011-09-14 | 北京航空航天大学 | 一种韵律类和音质类参数相结合的情感语音转换方法 |
US20140114663A1 (en) * | 2012-10-19 | 2014-04-24 | Industrial Technology Research Institute | Guided speaker adaptive speech synthesis system and method and computer program product |
US20150127349A1 (en) * | 2013-11-01 | 2015-05-07 | Google Inc. | Method and System for Cross-Lingual Voice Conversion |
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN104538025A (zh) * | 2014-12-23 | 2015-04-22 | 西北师范大学 | 手势到汉藏双语语音转换方法及装置 |
US20170083506A1 (en) * | 2015-09-21 | 2017-03-23 | International Business Machines Corporation | Suggesting emoji characters based on current contextual emotional state of user |
CN105654942A (zh) * | 2016-01-04 | 2016-06-08 | 北京时代瑞朗科技有限公司 | 一种基于统计参数的疑问句、感叹句的语音合成方法 |
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其*** |
CN106531150A (zh) * | 2016-12-23 | 2017-03-22 | 上海语知义信息技术有限公司 | 一种基于深度神经网络模型的情感合成方法 |
Non-Patent Citations (7)
Title |
---|
GAN ZHEN-YE ET AL.: "Generation method of Lanzhou dialect speech based on Gaussian Mixture Model", 《2011 INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS, COMMUNICATIONS AND NETWORKS (CECNET)》 * |
HONG-WU YANG ET AL.: "Realizing Tibetan speech synthesis by speaker adaptive training", 《 2013 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE》 * |
HONGWU YANG ET AL.: "Using speaker adaptive training to realize Mandarin-Tibetan cross-lingual speech synthesis", 《MULTIMEDIA TOOLS AND APPLICATIONS》 * |
JUNICHI YAMAGISHI ET AL.: "Analysis of Speaker Adaptation Algorithms for HMM-Based Speech Synthesis and a Constrained SMAPLR Adaptation Algorithm", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
XIAOYONG LU ET AL.: "Applying PAD three dimensional emotion model to convert prosody of emotional speech", 《2014 INTERNATIONAL CONFERENCE ON ORANGE TECHNOLOGIES》 * |
ZHENYE GAN ET AL.: "Realizing Tibetan Lhasa speech concatenation synthesis system based on a large corpus", 《2014 INTERNATIONAL CONFERENCE ON ORANGE TECHNOLOGIES》 * |
周雁 等: "基于HMM模型的藏语语音合成研究", 《计算机应用与软件》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831435A (zh) * | 2018-06-06 | 2018-11-16 | 安徽继远软件有限公司 | 一种基于多情感说话人自适应的情感语音合成方法 |
CN109036370A (zh) * | 2018-06-06 | 2018-12-18 | 安徽继远软件有限公司 | 一种说话人语音自适应训练方法 |
CN109036370B (zh) * | 2018-06-06 | 2021-07-20 | 安徽继远软件有限公司 | 一种说话人语音自适应训练方法 |
CN108831435B (zh) * | 2018-06-06 | 2020-10-16 | 安徽继远软件有限公司 | 一种基于多情感说话人自适应的情感语音合成方法 |
CN109192225A (zh) * | 2018-09-28 | 2019-01-11 | 清华大学 | 语音情感识别和标注的方法及装置 |
CN111192568A (zh) * | 2018-11-15 | 2020-05-22 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
CN111192568B (zh) * | 2018-11-15 | 2022-12-13 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
CN111954903A (zh) * | 2018-12-11 | 2020-11-17 | 微软技术许可有限责任公司 | 多说话者神经文本到语音合成 |
CN111954903B (zh) * | 2018-12-11 | 2024-03-15 | 微软技术许可有限责任公司 | 多说话者神经文本到语音合成 |
CN109949791A (zh) * | 2019-03-22 | 2019-06-28 | 平安科技(深圳)有限公司 | 基于hmm的情感语音合成方法、装置及存储介质 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN110853616A (zh) * | 2019-10-22 | 2020-02-28 | 武汉水象电子科技有限公司 | 一种基于神经网络的语音合成方法、***与存储介质 |
CN112233648A (zh) * | 2019-12-09 | 2021-01-15 | 北京来也网络科技有限公司 | 结合rpa及ai的数据的处理方法、装置、设备及存储介质 |
CN112233648B (zh) * | 2019-12-09 | 2024-06-11 | 北京来也网络科技有限公司 | 结合rpa及ai的数据的处理方法、装置、设备及存储介质 |
CN111145719B (zh) * | 2019-12-31 | 2022-04-05 | 北京太极华保科技股份有限公司 | 将中英混合及语气标签化的数据标注方法及装置 |
CN111145719A (zh) * | 2019-12-31 | 2020-05-12 | 北京太极华保科技股份有限公司 | 将中英混合及语气标签化的数据标注方法及装置 |
CN112151008A (zh) * | 2020-09-22 | 2020-12-29 | 中用科技有限公司 | 一种语音合成方法、***及计算机设备 |
CN112151008B (zh) * | 2020-09-22 | 2022-07-15 | 中用科技有限公司 | 一种语音合成方法、***及计算机设备 |
CN112270168B (zh) * | 2020-10-14 | 2023-11-24 | 北京百度网讯科技有限公司 | 对白情感风格预测方法、装置、电子设备及存储介质 |
CN112270168A (zh) * | 2020-10-14 | 2021-01-26 | 北京百度网讯科技有限公司 | 对白情感风格预测方法、装置、电子设备及存储介质 |
CN112634858B (zh) * | 2020-12-16 | 2024-01-23 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN112634858A (zh) * | 2020-12-16 | 2021-04-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN113539268A (zh) * | 2021-01-29 | 2021-10-22 | 南京迪港科技有限责任公司 | 一种端到端语音转文本罕见词优化方法 |
CN113345431A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 跨语言语音转换方法、装置、设备及介质 |
CN113345431B (zh) * | 2021-05-31 | 2024-06-07 | 平安科技(深圳)有限公司 | 跨语言语音转换方法、装置、设备及介质 |
CN113611286A (zh) * | 2021-10-08 | 2021-11-05 | 之江实验室 | 一种基于共性特征提取的跨语种语音情感识别方法和*** |
CN117496944A (zh) * | 2024-01-03 | 2024-02-02 | 广东技术师范大学 | 一种多情感多说话人语音合成方法和*** |
CN117496944B (zh) * | 2024-01-03 | 2024-03-22 | 广东技术师范大学 | 一种多情感多说话人语音合成方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN107103900B (zh) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107103900A (zh) | 一种跨语言情感语音合成方法及*** | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN103928023B (zh) | 一种语音评分方法及*** | |
CN102354495B (zh) | 半开放式口语试题的测试方法及*** | |
CN104217713A (zh) | 汉藏双语语音合成方法及装置 | |
CN106057192A (zh) | 一种实时语音转换方法和装置 | |
CN109961777A (zh) | 一种基于智能机器人的语音交互方法 | |
Li et al. | Analysis and modeling of F0 contours for Cantonese text-to-speech | |
Jalin et al. | Text to speech synthesis system for tamil using HMM | |
Maia et al. | Towards the development of a brazilian portuguese text-to-speech system based on HMM. | |
TW201411602A (zh) | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 | |
HIROSE et al. | A system for the synthesis of high-quality speech from texts on general weather conditions | |
Toman et al. | Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis | |
Peabody et al. | Towards automatic tone correction in non-native mandarin | |
Krug et al. | Articulatory synthesis for data augmentation in phoneme recognition | |
Maia et al. | An HMM-based Brazilian Portuguese speech synthesizer and its characteristics | |
Sakti et al. | Development of HMM-based Indonesian speech synthesis | |
Chunwijitra et al. | A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis | |
Bonafonte et al. | The UPC TTS system description for the 2008 blizzard challenge | |
Chen et al. | A Bilingual Speech Synthesis System of Standard Malay and Indonesian Based on HMM-DNN | |
Pitrelli et al. | Expressive speech synthesis using American English ToBI: questions and contrastive emphasis | |
Bahaadini et al. | Implementation and evaluation of statistical parametric speech synthesis methods for the Persian language | |
Sulír et al. | Development of the Slovak HMM-based tts system and evaluation of voices in respect to the used vocoding techniques | |
Bruce et al. | On the analysis of prosody in interaction | |
Chen et al. | Research on Dungan speech synthesis based on Deep Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |