CN106157948A - 一种基频建模方法及*** - Google Patents

一种基频建模方法及*** Download PDF

Info

Publication number
CN106157948A
CN106157948A CN201510195120.6A CN201510195120A CN106157948A CN 106157948 A CN106157948 A CN 106157948A CN 201510195120 A CN201510195120 A CN 201510195120A CN 106157948 A CN106157948 A CN 106157948A
Authority
CN
China
Prior art keywords
fundamental frequency
layer
natural
unit
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510195120.6A
Other languages
English (en)
Other versions
CN106157948B (zh
Inventor
殷翔
江源
王影
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510195120.6A priority Critical patent/CN106157948B/zh
Publication of CN106157948A publication Critical patent/CN106157948A/zh
Application granted granted Critical
Publication of CN106157948B publication Critical patent/CN106157948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基频建模方法及***,该方法包括:将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;确定所述音节层包含的声调信息对较高韵律层基频建模的影响;根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。利用本发明,能有效消除声调信息对较高韵律层建模的影响,进而能更自然地预测出基频特征。

Description

一种基频建模方法及***
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种基频建模方法及***。
背景技术
基频特征作为语音合成技术的重要特征之一,既包括了短时语音段的韵律信息,也包括了长时语音段的韵律信息(超音段的韵律信息),如声调信息。如何能够更自然地预测出基频特征是语音合成效果的重要目标之一。
目前普遍采取的基频建模方法为分层基频建模方法,即从韵律的产生机理以及log域基频特征产生的可加性出发进行建模,如式(1)和图1所示:
F0all=F0state+F0phone+F0syllable+F0word (1)
对韵律层进行层次划分,从高到低依次划分为:单词层、音节层、音素层、状态层,如图1所示,其中每一层的基频特征都对应着不同的韵律变化。现有方案从韵律的产生机理出发,对受不同层次上下文属性影响的韵律变化进行有针对性的建模。
然而,现有的分层基频建模方法并没有考虑更高层韵律单元的韵律变化,如短语层的韵律变化,导致合成语音的整个句子起伏感不强,听起来没有什么情感。此外,现有分层基频建模方法的建模顺序为自高向低逐层建模,并没有考虑声调语言的声调信息对较高韵律层建模效果的影响,导致传统的隐马尔可夫模型(Hidden Markov Model,HMM)建模方法不能很好地捕捉较高韵律层的基频特征,如单词层信息、短语层信息,使得较高韵律层基频特征建模效果大大下降。以上原因导致现有基频建模方法不能更自然地预测出基频特征。
发明内容
本发明实施例提供一种基频建模方法及***,以解决现有的基频建模方法不能更自然地预测出基频特征的问题。
为此,本发明实施例提供如下技术方案:
一种基频建模方法,包括:
将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;
确定所述音节层包含的声调信息对较高韵律层基频建模的影响;
根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。
优选地,所述确定所述音节层包含的声调信息对较高韵律层基频建模的影响包括:
将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值;
对所述自然基频值进行参数化,得到各音节单元对应的自然基频特征;
根据所述自然基频特征获得各音节单元的预测基频值。
优选地,所述对所述自然基频值进行参数化包括:
使用优化后的DCT变换对所述自然基频值进行参数化,所述优化后的DCT变换是指以生成基频特征与自然基频特征差的平方和作为目标函数的,对DCT变换系数进行估计;
所述根据所述自然基频特征获得各音节单元预测基频值包括:
根据各音节单元对应的上下文属性信息和所述自然基频特征,对各音节单元对应的自然基频特征进行基频建模;
根据所述基频模型,将各音节单元所属模型均值作为所述音节单元的预测基频特征;
对所述预测基频特征进行DCT反变换,得到各音节单元的预测基频值。
优选地,构建短语层基频模型包括:
将所述音节单元对应的自然基频值减去所述音节单元的预测基频值,得到用于去除音节层影响后的短语层建模的自然残差基频值;
将所述自然残差基频值以短语为单位进行划分,得到各短语单元对应的自然基频值;
对所述自然基频值进行参数化,得到各短语单元对应的自然基频特征;
利用所述各短语单元对应的自然基频特征构建短语层基频模型,得到各短语单元的预测基频特征。
优选地,构建单词层基频模型包括:
将所述短语单元对应的自然基频值减去所述短语单元的预测基频值,得到用于单词层建模的自然残差基频值;
将所述自然残差基频值以单词为单位进行划分,得到各单词单元对应的自然基频值;
对所述自然基频值进行参数化,得到各单词单元对应的自然基频特征;
利用所述各单词单元对应的自然基频特征构建单词层基频模型,得到各单词单元的预测基频特征。
优选地,所述方法还包括:
使用DCT参数表征短语单元和单词单元对应的自然基频特征。
优选地,所述方法还包括:基于DNN的方法对各韵律层的基频模型参数进行优化。
一种基频建模***,包括:
韵律层划分模块,用于将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;
影响确定模块,用于确定所述音节层包含的声调信息对较高韵律层基频建模的影响;
建模模块,用于根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响,所述建模模块包括:短语层建模模块,单词层建模模块,低层建模模块。
优选地,所述影响确定模块包括:
自然基频划分单元,用于将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值;
参数化单元,用于对所述自然基频值进行参数化,得到各音节单元对应的自然基频特征;
预测基频值获取单元,用于根据所述自然基频特征获得各音节单元的预测基频值。
优选地,所述参数化单元,具体用于使用优化后的DCT变换对所述自然基频值进行参数化,所述优化后的DCT变换是指以生成基频特征与自然基频特征差的平方和作为目标函数的,对DCT变换系数进行估计;
所述预测基频值获取单元包括:
基频建模子单元,用于根据各音节单元对应的上下文属性信息和所述自然基频特征,对各音节单元对应的自然基频特征进行基频建模;
预测子单元,用于根据所述基频模型,将各音节单元所属模型均值作为所述音节单元的预测基频特征;
DCT反变换子单元,用于对所述预测基频特征进行DCT反变换,得到各音节单元的预测基频值。
优选地,所述短语层建模模块包括:
短语层获取单元,用于将所述音节单元对应的自然基频值减去所述音节单元的预测基频值,得到用于去除音节层影响后的短语层建模的自然残差基频值;
短语层划分单元,用于将所述自然残差基频值以短语为单位进行划分,得到各短语单元对应的自然基频值;
短语层参数化单元,用于对所述自然基频值进行参数化,得到各短语单元对应的自然基频特征;
短语层预测单元,用于利用所述各短语单元对应的自然基频特征构建短语层基频模型,得到各短语单元的预测基频特征。
优选地,所述单词层建模模块包括:
单词层获取单元,用于将所述短语单元对应的自然基频值减去所述短语单元的预测基频值,得到用于单词层建模的自然残差基频值;
单词层划分单元,用于将所述自然残差基频值以单词为单位进行划分,得到各单词单元对应的自然基频值;
单词层参数化单元,用于对所述自然基频值进行参数化,得到各单词单元对应的自然基频特征;
单词层预测单元,用于利用所述各单词单元对应的自然基频特征构建单词层基频模型,得到各单词单元的预测基频特征。
优选地,所述***还包括:
模型参数优化模块,用于基于DNN的方法对各韵律层的基频模型参数进行优化。
本发明实施例提供的基频建模方法及***,通过将韵律层从高到低划分为包括短语层的各韵律层,增加对短语层基频特征的建模,从而可以增强合成语句的起伏感,并在对较高韵律层(短语层、单词层)的基频特征进行建模之前,去除了声调信息对较高韵律层基频建模的影响,提高了较高韵律层基频特征建模的效果。
进一步地,对较高韵律层的基频特征采用优化后的DCT变换系数表征,可以更好地体现整个韵律单元基频特征的变化,有效保证了建模后预测的基频特征更接近自然基频特征。
进一步地,基于深度神经网络(Deep Neural Networks,DNN)对韵律层初始化后的基频模型参数进行优化,由于DNN的非线性层级结构可以更好地表征文本属性组合,不容易出现过拟合,同时DNN在训练时不会对数据进行划分,可以更好地体现出整个数据空间的制约关系,有效防止数据稀疏问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是现有的分层基频建模原理示意图;
图2是本发明实施例基频建模方法的流程图;
图3是本发明实施例基频建模方法中基频值参数化的流程图;
图4是本发明实施例中确定音节层包含的声调信息对较高韵律层基频建模的影响的流程图;
图5是本发明实施例中采用迭代方式构建基频模型的流程图;
图6是本发明实施例基频建模***的一种结构示意图;
图7是本发明实施例基频建模***中影响确定模块的一种具体结构示意图;
图8是本发明实施例基频建模***的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明实施例的基频建模方法将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,使得短语层的长时韵律变化能被很好的描述,进而增强合成语音整个句子的起伏感;并且在基频建模前,通过去除声调信息对较高韵律层基频建模的影响,有效防止了声调信息对较高韵律层建模的影响,提高了合成语音的自然度。
如图2所示,是本发明实施例基频建模方法的一种流程图,包括以下步骤:
步骤201,将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层。
在本实施例中,将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并设计各层韵律单元的上下文属性及其对应的上下文属性问题。
然后,对所述上下文属性及其对应的上下文属性问题,通过采用传统的HMM的方法对训练数据进行音素时长的建模,得到每个音素的时长信息。
接着,利用每个音素的时长信息及上下文属性进行每层韵律单元的上下文属性分析,进而得到各层韵律单元的时长信息。
比如,对于汉语的音节单元,如果当前上下文属性为“当前音素在音节中的相对位置”为1或0时,则可以认为所述音素第一状态对应的初始时间点为所述音节单元的起始;当遇到上下文属性为“当前音素在音节中的相对位置”为3(设计上下文属性时,规定汉语一个音节中最多含有三个音素)或0时,则所述音素最终状态对应的末端时间点为音节的结尾,上下文属性分析结束后得到音节单元对应的起始、结尾位置。其他韵律层单元的划分与之类似。
步骤202,确定所述音节层包含的声调信息对较高韵律层基频建模的影响。
为了去除声调信息对较高韵律层的韵律变化的影响,首先对音节层进行预处理。例如,可以将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值;然后对所述自然基频值进行参数化,得到各音节单元对应的自然基频特征;接着,根据所述自然基频特征获得各音节单元的预测基频值。
在本发明实施例中,可以利用离散余弦变换(Discrete Cosine Transform,DCT)对所述自然基频值进行参数化,得到各音节单元对应的自然基频特征。然后,根据各音节单元对应的上下文属性信息和所述自然基频特征,对各音节单元对应的自然基频特征进行基频建模;根据所述基频模型,将各音节单元所属模型均值作为所述音节单元的预测基频特征;然后对所述预测基频特征进行DCT反变换,得到各音节单元的预测基频值。
进一步地,还可以对现有的DCT变换参数化方法进行优化,利用优化后的DCT变换参数化方法对所述自然基频值进行参数化。所述优化后的DCT变换参数化方法是以生成基频特征与自然基频特征差的平方和作为目标函数,对DCT变换系数进行估计,进一步保证建模后预测得到的基频特征更接近自然基频特征。下面对本发明实施例提出的优化后的DCT变换参数化方法进行详细说明。
如图3所示,是本发明实施例中利用优化后的DCT变换对自然基频值参数化的流程,包括以下步骤:
步骤301,设定目标函数。
本实施例为了使建模后的预测基频特征更接近于自然基频特征,将目标函数L设为自然基频特征与生成基频特征差的平方和,如式(1)所示:
L = arg min C Σ t ∈ V ( s t - s ‾ t ) 2 - - - ( 1 )
其中,st为在第t帧的自然基频值,为在第t帧的预测基频值,V表示自然基频特征与生成基频特征同时为浊音的帧序数,C表示DCT变换系数矢量序列。
步骤302,将目标函数进行传统DCT变换。
根据传统的DCT变换,可以将式(1)中的表示为常值矢量D(t)和DCT系数矢量C的乘积,则式(1)可转换为式(2):
L = arg min C Σ t ∈ V ( D ( t ) C - s t ) T ( D ( t ) C - s t ) - - - ( 2 )
其中, D ( t ) = [ 1 2 , cos [ π T ( t + 1 2 ) ] , . . . , cos [ π T ( N - 1 ) ( t + 1 2 ) ] ] - - - ( 3 )
N表示DCT变换的维数。
步骤303,最小化变换后的目标函数。
估计式(2)中的DCT系数C,具体如式(4)所示:
∂ Σ t ∈ V ( D ( t ) C - s t ) T ( D ( t ) C - s t ) ∂ C = 0 - - - ( 4 )
步骤304,根据最小化后的目标函数计算得到估计后的DCT系数C*,具体如式(5)所示:
C*=R-1q (5)
其中,
R = ( Σ t ∈ V D ( t ) T D ( t ) ) - - - ( 6 )
q = Σ t ∈ V D ( t ) T s t - - - ( 7 )
优化后的DCT变换参数化方法估计出的DCT系数为闭合解,从数学上看,此闭合解对基频特征的拟合效果可以达到最优,因此,可以保证建模后的DCT变换系数建模后预测得到的基频特征相比于传统方法更接近自然基频特征。
基于上述优化后的DCT变换参数化方法,本发明实施例中确定音节层包含的声调信息对较高韵律层基频建模的影响的流程如图4所示,包括以下步骤:
步骤401,将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值。
步骤402,使用优化后的DCT变换对各音节单元对应的自然基频值进行参数化,得到DCT变换后的自然基频特征。
步骤403,根据各音节单元对应的上下文属性信息和DCT变换后的自然基频特征,对各音节单元对应的自然基频特征进行决策树聚类,得到聚类后的模型均值。
在实际应用中,可以采用单高斯模型描述各个聚类中基频特征的分布。
步骤404,将各音节单元所属聚类模型均值作为所述音节单元预测基频特征,通过DCT反变换对所述预测基频特征进行反变换后得到各音节单元预测基频值。
步骤203,根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。
在实际应用中,对于较高韵律层,可以采用帧级基频值进行建模,也可以采用DCT参数表征的基频值进行建模;而对于较低韵律层,可以直接采用帧级基频值进行建模。
如图5所示,是本发明实施例中采用迭代方式构建基频模型的流程图,包括以下步骤:
(1)短语层建模
首先,将音节层每个音节单元对应的自然基频值减去所述音节单元的预测基频值,得到用于去除音节层影响后的短语层建模的自然残差基频值,然后执行以下步骤:
步a)将用于短语层建模的自然残差基频值以短语为单位进行划分,得到对应各短语单元的自然基频值;
步b)利用DCT变换对短语单元的自然基频值进行参数化,得到变换后的各短语单元对应的自然基频特征DCT_F0phrase,优选地,可以利用前面描述的优化后的DCT变换对短语单元的自然基频值进行参数化;
步c)依据各短语单元对应的上下文属性信息和其对应的自然基频特征DCT_F0phrase,采用预先设定的所述短语单元对应上下文属性问题集对各短语单元基频特征进行决策树聚类,可以采用单高斯模型描述各个聚类中基频特征的分布,得到聚类后的模型均值;
步d)根据决策树聚类结果,将各短语单元所属聚类模型均值作为所述短语单元预测基频特征(此处为DCT变换系数),通过DCT反变换对所述预测基频特征进行反变换后得到各短语单元预测基频值。
(2)单词层建模
首先,将短语层每个短语单元对应的自然基频值减去所述短语单元的预测基频值,得到用于单词层建模的自然残差基频值,然后执行以下步骤:
步a)将用于单词层建模的自然残差基频值以单词为单位进行划分,得到对应各单词单元的自然基频值;
步b)使用DCT变换对单词单元的自然基频值进行参数化,得到变换后的各单词单元对应的自然基频特征DCT_F0word,优选地,可以利用前面描述的优化后的DCT变换对单词单元的自然基频值进行参数化;
步c)依据各单词单元对应的上下文属性信息和其对应的自然基频特征DCT_F0word,采用预先设定的单词单元对应上下文属性问题集对各单词单元基频特征进行决策树聚类,可以采用单高斯模型描述各个聚类中基频特征的分布,得到聚类后的模型均值;
步d)依据决策树聚类结果,将各单词单元所属聚类模型均值作为所述单词单元预测基频特征(此处为DCT变换系数),通过DCT反变换对所述预测基频特征进行反变换后得到各单词单元预测基频值;
(3)较低韵律层建模
首先,用自然基频值减去短语层和单词层预测基频值,从而得到用于较低韵律层(音节层、音素层、状态层)建模的自然残差基频值。
较低韵律层包含音节层、音素层、状态层,不同于较高韵律层的参数化,较低韵律层可以直接采用帧级基频值进行建模,具体建模步骤如下:
步a)将用于较低韵律层建模的自然残差基频值,对较低韵律层韵律单元进行HMM建模,得到聚类后的模型;
步b)根据聚类后的模型,使用最大似然参数生成算法对基频特征进行预测,从而得到较低韵律层的预测基频值。
(4)用自然基频值减去低层的预测基频值,作为下一次迭代时短语层的建模对象,迭代进行短语层、单词层及低层的建模,从而可以优化各层基频参数,最小均方误差最小时,迭代结束。根据经验一般迭代2次,最小均方误差即可达到最小。
在上述建模过程中,各韵律层基频建模是基于假设各韵律层基频模型之间是独立的,然而研究人员证明各韵律层模型参数是有联系的,这就造成了基于此假设而构建的基频模型和实际情况有偏差。因此,本发明还可进一步对上述构建的各韵律层基频模型参数进行优化。
具体地,可以采用现有的基于决策树的方法对各韵律层基频模型参数进行优化。另外,本发明实施例还提供一种采用基于基频特征的最小生成误差准则训练方法,对各韵律层的基频特征使用DNN模型进行全局参数优化,以解决上述偏差问题。
本实施例使用三个DNN网络来分别优化短语层、单词层、较低韵律层的基频模型参数,具体过程如下:
首先,进行数据准备,包括:确定输入/输出数据形式、训练数据以及测试数据等,具体可以为:
确定输入数据形式:分别将短语层、单词层以及较低韵律层(音节层、音素层、状态层)建模时对应的上下文相关属性问题的回答作为输入特征,所述输入特征共两种形式:数字文本特征和二值文本特征。数字文本特征的特征值为多种数字形式,如7、5、4等,二值文本特征的特征值只有0或1两种形式。
确定输出数据形式:各韵律层单元初始化后的基频特征作为DNN网络的输出特征,其中短语层及单词层的基频特征使用优化后的DCT变换系数表示,低层基频特征使用帧级基频值表示。
然后,确定网络拓扑结构,具体可以为:
短语层DNN网络输入节点个数为14维(5维的数字文本特征和9维的二值文本特征)。数字文本特征如对“当前短语包含多少个单词”问题的回答。二值文本特征如对“当前短语在句子中的相对位置是否为1”问题的回答。输出节点为5维DCT系数,短语层DNN网络共使用2个隐层,每个隐层节点为512个。
单词层DNN网络输入节点个数为241维(21维的数字文本特征和220维的二值文本特征),数字文本特征如对“当前单词包含多少个音节”问题的回答。二值文本特征如对“当前单词在短语中的相对位置是否为1”问题的回答。输出节点为3维DCT系数,单词层DNN网络共使用2个隐层,隐层节点为1024个。
较低韵律层DNN网络输入节点个数为570个(29维的数字文本特征和541维的二值文本特征),数字文本特征如对“当前音节在单词中的前向位置为多少”问题的回答,二值文本特征如对“当前音素是否为‘g’”问题的回答。输出为3维帧级基频值(当前帧的静态、一阶和二阶动态特征),较低韵律层DNN网络共使用了3个隐层,隐层节点为1024。
接着,进行模型训练。使用自然基频特征减去当前层外的其余各韵律层预测基频特征,并基于最小生成误差准则进行当前层模型参数更新,以使各分层基频特征叠加后预测的基频特征更接近自然基频特征。
例如,对于短语层模型训练时,在DNN反向传播的第i个周期内,首先使用自然基频值减去反向传播第i-1个周期内,单词单元预测基频特征DCT反变换后得到的基频值以及较低韵律层DNN网络预测得到的帧级基频值,得到短语层自然残差基频值特征;接着,将所述短语层自然残差基频值进行优化后的DCT变换,得到变换后的DCT系数,将所述DCT系数作为短语层DNN模型训练新的输出特征;然后使用传统DNN参数更新方法对短语层DNN模型参数进行更新;接着,根据参数更新后的基频模型,预测短语层基频特征,并将其用于后续单词层DNN模型参数更新及较低韵律层DNN模型参数更新。
经过数次上述循环,在基于最小生成误差准则的思想下,就可以对所有层DNN模型参数进行统一更新,从而使各分层基频特征叠加后预测的基频特征更接近自然基频特征。
本发明实施例提供的基频建模方法,通过将韵律层从高到低划分为包括短语层的各韵律层,增加对短语层基频特征的建模,从而可以增强合成语句的起伏感,并在对较高韵律层(短语层、单词层)的基频特征进行建模之前,去除了声调信息对较高韵律层基频建模的影响,提高了较高韵律层基频特征建模的效果。
进一步地,对较高韵律层的基频特征采用优化后的DCT变换系数表征,可以更好地体现整个韵律单元基频特征的变化,有效保证了建模后预测的基频特征更接近自然基频特征。
进一步地,基于DNN对韵律层初始化后的基频模型参数进行优化,由于DNN的非线性层级结构可以更好地表征文本属性组合,不容易出现过拟合,同时DNN在训练时不会对数据进行划分,可以更好地体现出整个数据空间的制约关系,有效防止数据稀疏问题。
相应地,本发明实施例还提供一种基频建模***,如图6所示,是本发明实施例基频建模***的结构示意图。
该***包括:
韵律层划分模块601,用于将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;
影响确定模块602,用于确定所述音节层包含的声调信息对较高韵律层基频建模的影响;
建模模块603,用于根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响,所述建模模块包括:短语层建模模块631,单词层建模模块632,低层建模模块633。
上述韵律层划分模块601具体可以根据各层韵律单元的上下文属性及其对应的上下文属性问题,通过采用传统的HMM的方法对训练数据进行音素时长的建模,得到每个音素的时长信息,然后利用每个音素的时长信息及上下文属性进行每层韵律单元的上下文属性分析,进而得到各层韵律单元的时长信息,从而确定各层的韵律单元。
上述影响确定模块602在确定所述音节层包含的声调信息对较高韵律层基频建模的影响时,主要是需要计算音节层各音节单元的预测基频值。影响确定模块602的一种具体结构如图7所示,包括以下各单元:
自然基频划分单元701,用于将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值;
参数化单元702,用于对所述自然基频值进行参数化,得到各音节单元对应的自然基频特征;
预测基频值获取单元703,用于根据所述自然基频特征获得各音节单元的预测基频值。
在实际应用中,上述参数化单元702可以采用现有的DCT变换对所述自然基频值进行参数化,也可以采用前面提到的优化后的DCT变换对所述自然基频值进行参数化,即以生成基频特征与自然基频特征差的平方和作为目标函数的,对DCT变换系数进行估计,具体过程可参见前面本发明方法实施例中的描述,在此不再赘述。
上述预测基频值获取单元703可以包括以下各子单元:
基频建模子单元,用于根据各音节单元对应的上下文属性信息和所述自然基频特征,对各音节单元对应的自然基频特征进行基频建模;
预测子单元,用于根据所述基频模型,将各音节单元所属模型均值作为所述音节单元的预测基频特征;
DCT反变换子单元,用于对所述预测基频特征进行DCT反变换,得到各音节单元的预测基频值。
本发明实施例提供的基频建模***,通过将韵律层从高到低划分为包括短语层的各韵律层,增加对短语层基频特征的建模,从而可以增强合成语句的起伏感,并在对较高韵律层(短语层、单词层)的基频特征进行建模之前,去除了声调信息对较高韵律层基频建模的影响,提高了较高韵律层基频特征建模的效果。
上述短语层建模模块631的一种具体结构可以包括以下各单元:
短语层获取单元,用于将所述音节单元对应的自然基频值减去所述音节单元的预测基频值,得到用于去除音节层影响后的短语层建模的自然残差基频值;
短语层划分单元,用于将所述自然残差基频值以短语为单位进行划分,得到各短语单元对应的自然基频值;
短语层参数化单元,用于对所述自然基频值进行参数化,得到各短语单元对应的自然基频特征;
短语层预测单元,用于利用所述各短语单元对应的自然基频特征构建短语层基频模型,得到各短语单元的预测基频特征。
利用上述各单元构建短语层基频模型的具体过程可参照前面本发明方法实施例中的描述,在此不再赘述。
上述单词层建模模块632的一种具体结构可以包括以下各单元:
单词层获取单元,用于将所述短语单元对应的自然基频值减去所述短语单元的预测基频值,得到用于单词层建模的自然残差基频值;
单词层划分单元,用于将所述自然残差基频值以单词为单位进行划分,得到各单词单元对应的自然基频值;
单词层参数化单元,用于对所述自然基频值进行参数化,得到各单词单元对应的自然基频特征;
单词层预测单元,用于利用所述各单词单元对应的自然基频特征构建单词层基频模型,得到各单词单元的预测基频特征。
利用上述各单元构建单词层基频模型的具体过程可参照前面本发明方法实施例中的描述,在此不再赘述。
需要说明的是,在实际应用中,上述短语层建模模块631和单词层建模模块632,可以采用帧级基频值进行建模,也可以采用DCT参数表征的基频值进行建模。
而对于较低韵律层,低层建模模块633可以直接采用帧级基频值进行建模.具体地,用自然基频值减去短语层和单词层预测基频值,得到用于较低韵律层(音节层、音素层、状态层)建模的自然残差基频值,然后利用该较低韵律层建模的自然残差基频值构建较低韵律层的基频模型。
本发明实施例的基频建模***,对较高韵律层的基频特征采用优化后的DCT变换系数表征,可以更好地体现整个韵律单元基频特征的变化,有效保证了建模后预测的基频特征更接近自然基频特征。
在建模过程中,各韵律层基频建模是基于假设各韵律层基频模型之间是独立的,然而研究人员证明各韵律层模型参数是有联系的,这就造成了基于此假设而构建的基频模型和实际情况有偏差。因此,如图8所示,在本发明基频建模***的另一实施例中,所述***还可进一步包括:
模型参数优化模块604,用于基于DNN的方法对各韵律层的基频模型参数进行优化,具体优化过程可参照前面本发明方法实施例中的描述,在此不再赘述。
本发明实施例的基频建模***,进一步基于DNN对韵律层初始化后的基频模型参数进行优化,由于DNN的非线性层级结构可以更好地表征文本属性组合,不容易出现过拟合,同时DNN在训练时不会对数据进行划分,可以更好地体现出整个数据空间的制约关系,有效防止数据稀疏问题。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及***;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种基频建模方法,其特征在于,包括:
将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;
确定所述音节层包含的声调信息对较高韵律层基频建模的影响;
根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。
2.根据权利要求1所述的方法,其特征在于,所述确定所述音节层包含的声调信息对较高韵律层基频建模的影响包括:
将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值;
对所述自然基频值进行参数化,得到各音节单元对应的自然基频特征;
根据所述自然基频特征获得各音节单元的预测基频值。
3.根据权利要求2所述的方法,其特征在于,
所述对所述自然基频值进行参数化包括:
使用优化后的DCT变换对所述自然基频值进行参数化,所述优化后的DCT变换是指以生成基频特征与自然基频特征差的平方和作为目标函数的,对DCT变换系数进行估计;
所述根据所述自然基频特征获得各音节单元预测基频值包括:
根据各音节单元对应的上下文属性信息和所述自然基频特征,对各音节单元对应的自然基频特征进行基频建模;
根据所述基频模型,将各音节单元所属模型均值作为所述音节单元的预测基频特征;
对所述预测基频特征进行DCT反变换,得到各音节单元的预测基频值。
4.根据权利要求1所述的方法,其特征在于,构建短语层基频模型包括:
将所述音节单元对应的自然基频值减去所述音节单元的预测基频值,得到用于去除音节层影响后的短语层建模的自然残差基频值;
将所述自然残差基频值以短语为单位进行划分,得到各短语单元对应的自然基频值;
对所述自然基频值进行参数化,得到各短语单元对应的自然基频特征;
利用所述各短语单元对应的自然基频特征构建短语层基频模型,得到各短语单元的预测基频特征。
5.根据权利要求1所述的方法,其特征在于,构建单词层基频模型包括:
将所述短语单元对应的自然基频值减去所述短语单元的预测基频值,得到用于单词层建模的自然残差基频值;
将所述自然残差基频值以单词为单位进行划分,得到各单词单元对应的自然基频值;
对所述自然基频值进行参数化,得到各单词单元对应的自然基频特征;
利用所述各单词单元对应的自然基频特征构建单词层基频模型,得到各单词单元的预测基频特征。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
使用DCT参数表征短语单元和单词单元对应的自然基频特征。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
基于DNN的方法对各韵律层的基频模型参数进行优化。
8.一种基频建模***,其特征在于,包括:
韵律层划分模块,用于将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;
影响确定模块,用于确定所述音节层包含的声调信息对较高韵律层基频建模的影响;
建模模块,用于根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响,所述建模模块包括:短语层建模模块,单词层建模模块,低层建模模块。
9.根据权利要求8所述的***,其特征在于,所述影响确定模块包括:
自然基频划分单元,用于将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值;
参数化单元,用于对所述自然基频值进行参数化,得到各音节单元对应的自然基频特征;
预测基频值获取单元,用于根据所述自然基频特征获得各音节单元的预测基频值。
10.根据权利要求9所述的***,其特征在于,
所述参数化单元,具体用于使用优化后的DCT变换对所述自然基频值进行参数化,所述优化后的DCT变换是指以生成基频特征与自然基频特征差的平方和作为目标函数的,对DCT变换系数进行估计;
所述预测基频值获取单元包括:
基频建模子单元,用于根据各音节单元对应的上下文属性信息和所述自然基频特征,对各音节单元对应的自然基频特征进行基频建模;
预测子单元,用于根据所述基频模型,将各音节单元所属模型均值作为所述音节单元的预测基频特征;
DCT反变换子单元,用于对所述预测基频特征进行DCT反变换,得到各音节单元的预测基频值。
11.根据权利要求8所述的***,其特征在于,所述短语层建模模块包括:
短语层获取单元,用于将所述音节单元对应的自然基频值减去所述音节单元的预测基频值,得到用于去除音节层影响后的短语层建模的自然残差基频值;
短语层划分单元,用于将所述自然残差基频值以短语为单位进行划分,得到各短语单元对应的自然基频值;
短语层参数化单元,用于对所述自然基频值进行参数化,得到各短语单元对应的自然基频特征;
短语层预测单元,用于利用所述各短语单元对应的自然基频特征构建短语层基频模型,得到各短语单元的预测基频特征。
12.根据权利要求8所述的***,其特征在于,所述单词层建模模块包括:
单词层获取单元,用于将所述短语单元对应的自然基频值减去所述短语单元的预测基频值,得到用于单词层建模的自然残差基频值;
单词层划分单元,用于将所述自然残差基频值以单词为单位进行划分,得到各单词单元对应的自然基频值;
单词层参数化单元,用于对所述自然基频值进行参数化,得到各单词单元对应的自然基频特征;
单词层预测单元,用于利用所述各单词单元对应的自然基频特征构建单词层基频模型,得到各单词单元的预测基频特征。
13.根据权利要求8至12任一项所述的***,其特征在于,所述***还包括:
模型参数优化模块,用于基于DNN的方法对各韵律层的基频模型参数进行优化。
CN201510195120.6A 2015-04-22 2015-04-22 一种基频建模方法及*** Active CN106157948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510195120.6A CN106157948B (zh) 2015-04-22 2015-04-22 一种基频建模方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510195120.6A CN106157948B (zh) 2015-04-22 2015-04-22 一种基频建模方法及***

Publications (2)

Publication Number Publication Date
CN106157948A true CN106157948A (zh) 2016-11-23
CN106157948B CN106157948B (zh) 2019-10-18

Family

ID=57346807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510195120.6A Active CN106157948B (zh) 2015-04-22 2015-04-22 一种基频建模方法及***

Country Status (1)

Country Link
CN (1) CN106157948B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020019885A1 (zh) * 2018-07-25 2020-01-30 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN111754976A (zh) * 2020-07-21 2020-10-09 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置
CN113129864A (zh) * 2019-12-31 2021-07-16 科大讯飞股份有限公司 语音特征预测方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04238396A (ja) * 1991-01-23 1992-08-26 Matsushita Electric Ind Co Ltd 音声合成用音声持続期間処理装置
CN1122936A (zh) * 1994-12-06 1996-05-22 西安电子科技大学 汉语识别合成型声码器
CN1604182A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 语音合成方法
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04238396A (ja) * 1991-01-23 1992-08-26 Matsushita Electric Ind Co Ltd 音声合成用音声持続期間処理装置
CN1122936A (zh) * 1994-12-06 1996-05-22 西安电子科技大学 汉语识别合成型声码器
CN1604182A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 语音合成方法
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张璐 等: ""焦点、词重音与边界调对语调短语末词基频模式的影响"", 《声学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020019885A1 (zh) * 2018-07-25 2020-01-30 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
US12014720B2 (en) 2018-07-25 2024-06-18 Tencent Technology (Shenzhen) Company Limited Voice synthesis method, model training method, device and computer device
CN113129864A (zh) * 2019-12-31 2021-07-16 科大讯飞股份有限公司 语音特征预测方法、装置、设备及可读存储介质
CN113129864B (zh) * 2019-12-31 2024-05-31 科大讯飞股份有限公司 语音特征预测方法、装置、设备及可读存储介质
CN111754976A (zh) * 2020-07-21 2020-10-09 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置
CN111754976B (zh) * 2020-07-21 2023-03-07 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置

Also Published As

Publication number Publication date
CN106157948B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN105244020B (zh) 韵律层级模型训练方法、语音合成方法及装置
Sun et al. Voice conversion using deep bidirectional long short-term memory based recurrent neural networks
KR102139387B1 (ko) 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치
Zen et al. Statistical parametric speech synthesis using deep neural networks
CN103310784B (zh) 文本到语音的方法和***
Ling et al. Modeling spectral envelopes using restricted Boltzmann machines for statistical parametric speech synthesis
Yu et al. Context adaptive training with factorized decision trees for HMM-based statistical parametric speech synthesis
Wang et al. An RNN-based quantized F0 model with multi-tier feedback links for text-to-speech synthesis
CN104538024A (zh) 语音合成方法、装置及设备
CN1835075B (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN104538028A (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
KR20070077042A (ko) 음성처리장치 및 방법
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
CN104916284A (zh) 用于语音合成***的韵律与声学联合建模的方法及装置
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
CN105654939A (zh) 一种基于音向量文本特征的语音合成方法
US9324316B2 (en) Prosody generator, speech synthesizer, prosody generating method and prosody generating program
CN106157948A (zh) 一种基频建模方法及***
CN109326278B (zh) 一种声学模型构建方法及装置、电子设备
Zweig Bayesian network structures and inference techniques for automatic speech recognition
CN103680491A (zh) 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
Prabhavalkar et al. A factored conditional random field model for articulatory feature forced transcription
US20220172703A1 (en) Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program
Koriyama et al. A comparison of speech synthesis systems based on GPR, HMM, and DNN with a small amount of training data.
KR20170128070A (ko) 순환형 신경망에 기반한 작곡 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant