CN116312476A - 语音合成方法和装置、存储介质、电子设备 - Google Patents
语音合成方法和装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN116312476A CN116312476A CN202310189613.3A CN202310189613A CN116312476A CN 116312476 A CN116312476 A CN 116312476A CN 202310189613 A CN202310189613 A CN 202310189613A CN 116312476 A CN116312476 A CN 116312476A
- Authority
- CN
- China
- Prior art keywords
- model
- prosody
- prediction
- vector
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 84
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 66
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 66
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 50
- 230000006978 adaptation Effects 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 42
- 230000009466 transformation Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 2
- 230000033764 rhythmic process Effects 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 22
- 238000010606 normalization Methods 0.000 description 21
- 238000001994 activation Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 208000021663 Female sexual arousal disease Diseases 0.000 description 1
- 208000006262 Psychological Sexual Dysfunctions Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本公开提供一种语音合成方法和装置、存储介质、电子设备;涉及信息处理技术领域。该方法包括:获取待合成语句的符号序列,利用预先训练的声学预测模型,对所述符号序列进行声学特征预测,得到待合成语句对应的声学特征;声学预测模型包括韵律预测模型,韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强所述待合成语句的韵律特征;对声学特征进行特征转换和合成,得到待合成语句对应的语音。本公开可以解决相关技术中语音合成***无法满足特定业务场景对韵律自然度和表现力的需求及语音合成效果不佳的问题。
Description
技术领域
本公开涉及信息处理技术领域,具体而言,涉及一种语音合成方法和装置、存储介质、电子设备。
背景技术
语音合成技术在各种人机交互和智能语音设备中已经广泛应用,语音合成***能够实现文字转语音(Text to speech,TTS)的功能。线上TTS服务基本满足合成音频在韵律停顿、音色相似度、发音准确度、音质方面的稳定水平。
但是,随着业务场景的多样化,在一些特定场景(如需要口语化、节奏感强或直播等场景)下,现有TTS***的合成结果趋向于平均化,无法满足这些业务场景对韵律自然度和表现力的需求,语音合成质量欠佳。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例的目的在于提供一种语音合成方法和装置、存储介质、电子设备,进而在一定程度上解决了相关技术中TTS***无法满足特定业务场景对韵律自然度和表现力的需求及语音合成效果不佳的问题。
根据本公开的第一方面,提供了一种语音合成方法,所述方法包括:获取待合成语句的符号序列,所述待合成语句包括待合成文本和针对目标对象的查询结果语句;利用预先训练的声学预测模型,对所述符号序列进行声学特征预测,得到所述待合成语句对应的声学特征;所述声学预测模型包括韵律预测模型,所述韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强所述待合成语句的韵律特征;对所述声学特征进行特征转换和合成,得到所述待合成语句对应的语音。
可选地,所述声学预测模型还包括编码模型和解码模型,所述利用预先训练的声学预测模型,对所述符号序列进行声学特征预测,包括:利用预先训练的编码模型,对所述符号序列进行一次编码处理,得到第一编码向量;利用预先训练的韵律预测模型,对所述第一编码向量进行韵律特征预测,得到韵律特征向量;根据预先训练的解码模型、所述第一编码向量和所述韵律特征向量,对所述待合成语句的声学特征进行预测,得到所述待合成语句对应的声学特征。
可选地,所述根据预先训练的解码模型、所述第一编码向量和所述韵律特征向量,对所述待合成语句的声学特征进行预测,包括:利用预先训练的变量适配模型,对所述第一编码向量和所述韵律特征向量的叠加结果进行变量预测,获得第一变量预测结果;利用预先训练的解码模型,对所述第一变量预测结果进行基于注意力机制的解码处理,获得所述待合成语句对应的声学特征。
可选地,所述根据预先训练的解码模型、所述第一编码向量和所述韵律特征向量,对所述待合成语句的声学特征进行预测,包括:将所述第一编码向量和所述韵律特征向量分别输入预先训练的变量适配模型,进行变量预测,获得第二变量预测结果;利用预先训练的解码模型,对所述第二变量预测结果进行基于注意力机制的解码处理,获得所述待合成语句对应的声学特征。
可选地,所述韵律预测模型包括第一韵律预测模型和第二韵律预测模型,所述利用预先训练的韵律预测模型,对所述第一编码向量进行韵律特征预测,包括:利用所述第一韵律预测模型,对所述第一编码向量进行句子级别的韵律特征预测,获得第一韵律特征向量;利用所述第二韵律预测模型,对所述第一编码向量和所述第一韵律特征向量的叠加特征进行音素级别的韵律特征预测,获得第二韵律特征向量;所述对所述第一编码向量和所述韵律特征向量的叠加结果进行变量预测,包括:对所述第二韵律特征向量和所述叠加特征的叠加结果,进行变量预测。
可选地,所述韵律预测模型包括第一韵律预测模型和第二韵律预测模型,所述利用预先训练的韵律预测模型,对所述第一编码向量进行韵律特征预测,包括:利用所述第一韵律预测模型,对所述第一编码向量进行句子级别的韵律特征预测,获得第三韵律特征向量;利用所述第二韵律预测模型,对所述第一编码向量进行音素级别的韵律特征预测,获得第四韵律特征向量;所述将所述第一编码向量和所述韵律特征向量分别输入预先训练的变量适配模型,进行变量预测,包括:将所述第一编码向量、所述第三韵律特征向量和所述第四韵律特征向量分别输入预先训练的变量适配模型,进行变量预测。
可选地,所述句子级别的韵律特征预测,包括:对所述第一韵律预测模型的输入数据进行时序特征处理和线性变换。
可选地,所述音素级别的韵律特征预测,包括:对所述第二韵律预测模型的输入数据进行卷积处理和线性变换。
可选地,所述待合成语句还包括所述目标对象的录音语句,所述方法还包括:采用预先训练的第一参考编码模型,对所述录音语句进行二次编码处理,获得第二编码向量。
所述变量预测包括:所述变量预测包括:利用预先训练的变量适配模型,对所述第二韵律特征向量和所述叠加特征的叠加结果,与所述第二编码向量进行变量预测;或者,利用预先训练的变量适配模型,对所述第一编码向量、所述韵律特征向量和所述第二编码向量进行变量预测。
可选地,所述方法还包括对所述声学预测模型进行训练,所述训练的过程包括:获取训练样本,所述训练样本包括录音样本及对应的声学特征样本和符号序列样本;采用所述训练样本对初始声学预测模型进行一次训练,以获得中间模型;所述初始声学预测模型包括第一参考编码模型和第二参考编码模型;固定所述中间模型的所述第一参考编码模型和第二参考编码模型的模型参数,利用所述训练样本、所述第一参考编码模型和第二参考编码模型,对所述声学预测模型进行二次训练。
可选地,所述初始声学预测模型还包括编码模型和解码模型,所述采用所述训练样本对初始声学预测模型进行一次训练,包括:采用编码模型对符号序列样本进行编码处理,获得第一样本编码向量;采用所述第一参考编码模型对录音样本进行编码处理,获得第二样本编码向量;采用第二参考编码模型对声学特征样本进行编码处理,获得第三样本编码向量;对所述第一样本编码向量和所述第二样本编码向量进行特征叠加后,与所述第三样本编码向量进行特征拼接,获得拼接特征;采用解码模型对所述拼接特征进行解码处理并输出,根据输出结果与所述声学特征样本,计算第一损失函数值;根据所述第一损失函数值,调整所述编码模型、所述第一参考编码模型、所述第二参考编码模型和所述解码模型的模型参数。
可选地,所述声学预测模型包括第一韵律预测模型和第二韵律预测模型,所述对所述声学预测模型进行二次训练,包括:采用一次训练后的编码模型对符号序列样本进行编码处理,获得第四样本编码向量;采用一次训练后的第一参考编码模型对录音样本进行编码处理,获得第五样本编码向量;采用一次训练后的第二参考编码模型对声学特征样本进行编码处理,获得第六样本编码向量;将所述第四样本编码向量和所述第五样本编码向量叠加后分别输入所述第一韵律预测模型和所述第二韵律预测模型;根据所述第五样本编码向量和所述第一韵律预测模型的输出结果,计算第二损失函数值;基于所述第二损失函数值,调整所述第一韵律预测模型的模型参数;根据所述第六样本编码向量和所述第二韵律预测模型的输出结果,计算第三损失函数值;基于所述第三损失函数值,调整所述第二韵律预测模型的模型参数。
根据本公开的第二方面,提供一种语音合成装置,所述装置包括:获取模块、预测模块和语音合成模块;获取模块,用于获取待合成语句的符号序列,所述待合成语句包括待合成文本和针对目标对象的查询结果语句;预测模块,用于利用预先训练的声学预测模型,对所述符号序列进行声学特征预测,得到所述待合成语句对应的声学特征;所述声学预测模型包括韵律预测模型,所述韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强所述待合成语句的韵律特征;语音合成模块,用于对所述声学特征进行特征转换和合成,得到所述待合成语句对应的语音。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法。
根据本公开的第四方面,提供一种电子设备,包括:一个或多个处理器;以及存储装置,用于一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述任一实施例所述的方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开示例实施方式所提供的语音合成方法中,一方面,可以通过在声学预测模型添加韵律预测模型,通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强所述待合成语句的韵律特征,使得经韵律增强的声学特征在经过声学特征转换和合成之后,得到韵律增强的语音,满足了特定业务场景(韵律表现度要求高的场景)对韵律表现力度的要求,提高合成语音的准确度和真实度。另一方面,通过待合成文本和针对目标对象的查询结果语句,保证了通过预先训练的声学预测模型能够合成特定目标对象的待合成语句的语音,实现目标对象在特定业务场景下的语音定制。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开的一个实施例的语音合成方法和装置的示例性应用场景架构图。
图2示意性示出了根据本公开的一个实施例中语音合成方法的流程图之一。
图3示意性示出了根据本公开的一个实施例中声学特征预测过程的流程图之一。
图4示意性示出了根据本公开的一个实施例中声学特征预测过程的流程图之二。
图5示意性示出了根据本公开的一个实施例中变量适配模型的变量预测的示意图之一。
图6示意性示出了根据本公开的一个实施例的变量适配模型中音高预测器的变量预测的示意图之一。
图7示意性示出了根据本公开的一个实施例中声学特征预测过程的流程图之三。
图8示意性示出了根据本公开的一个实施例中声学特征预测过程的流程图之四。
图9示意性示出了根据本公开的一个实施例中变量适配模型的变量预测的示意图之二。
图10示意性示出了根据本公开的一个实施例的变量适配模型中音高预测器的变量预测的示意图之二。
图11示意性示出了根据本公开的一个实施例的声学预测模型的训练过程流程图。
图12示意性示出了根据本公开的一个实施例的声学预测模型的第一部分训练过程流程图。
图13示意性示出了根据本公开的一个实施例的声学预测模型的第二部分训练过程流程图。
图14示意性示出了根据本公开的一个实施例中语音合成装置的结构框图。
图15示出了适于用来实现本公开实施例的电子设备框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,提供了一种语音合成方法和装置的应用场景示例性***图100,该***100可以包括终端110和服务器120。本实施例以该方法应用于服务器120进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。其中,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,也可以是区块链中的节点。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载设备等,但并不局限于此。例如,在人机交互过程中,终端可以是智能设备,用户通过智能设备进行语音合成。当本实施例提供的语音合成方法通过终端和服务器的交互实现时,终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
在本示例中,用户可以在终端110输入待合成文本,或者用户可以对终端进行特定的操作来生成待合成文本(如点击客户端页面的点读按钮或者点击朗诵按钮等),终端110将该待合成文本发送给服务器120,以使服务器根据该待合成文本获取对应说话者的查询结果语句,并对待合成文本和查询结果语句进行符号序列化,形成符号序列,利用预先训练的声学预测模型,对符号序列进行声学特征预测,得到待合成语句对应的声学特征;声学预测模型包括韵律预测模型,韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强待合成语句的韵律特征。对声学特征进行特征转换和合成,得到待合成语句对应的语音。将该合成语音发送给终端进行播放。
本公开实施例所提供的语音合成方法可以在服务器120执行,相应地,语音合成装置一般设置于服务器120中。本公开实施例所提供的语音合成方法也可以在终端110执行,相应地,语音合成装置一般设置于终端110中。
下面,结合具体的实施例,对本说明书实施例披露的语音合成方法进行介绍。
参考图2所示,本公开提供的一种示例实施方式的语音合成方法,可以包括以下步骤S210-S230。
步骤S210,获取待合成语句的符号序列。
在本示例实施方式中,符号序列可以包括因素序列或者拼音字母序列。待合成语句可以包括待合成文本和针对目标对象的查询结果语句。目标对象可以是指定的说话者,可以根据确定的说话者从语料库中搜索该说话者的语句。例如,可以为每个说话者添加标识信息,通过该标识信息查询获取对应的语句。可以将待合成文本或查询结果语句转换成拼音,再将拼音转换成音素,按照文本顺序形成符号序列。
在本示例实施方式中,待合成文本可以是用户输入的,也可以是根据用户的操作形成的,还可以是对用户的输入进行一定处理之后得到的,例如将用户输入的语音搜索待合成文本,本示例对此不做限定。
步骤S220,利用预先训练的声学预测模型,对符号序列进行声学特征预测,得到待合成语句对应的声学特征;声学预测模型包括韵律预测模型,韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强待合成语句的韵律特征。
在本示例实施方式中,声学预测模型可以包括基于transformer的声学模型和韵律预测模型。其中,基于transformer的声学模型可以对待合成语句进行基本韵律、韵律停顿、音色、发音、音质进行预测。声学预测模型的主干网络是一个基于编码器-解码器的网络结构的端到端的网络架构,例如Fastspeech2。韵律预测模型是在该主干网络的编码特征中添加韵律增强特征,以增强韵律表现力。
在本示例实施方式中,声学特征可以是声谱图,例如梅尔谱(Mel-Spectrogram)、MFCC(Mel-Frequency Cepstral Coefficient,梅尔频率的倒谱系数)、线性声谱图,如STFT(Short-Time Fourier Transform,短时傅里叶变换)声谱图等,本示例对此不做限定。
在本示例实施方式中,参考录音音频可以是顿挫感强、韵律风格鲜明的录音句子,该录音音频可以来源于不同说话者,且可以是不同性别、不同年龄的说话人的录音音频,本示例对此不做限定。通过在训练阶段对各种韵律风格的学习,使得韵律预测模型可以在语音合成过程中较好的预测待合成语句的韵律风格。
步骤S230,对声学特征进行特征转换和合成,得到待合成语句对应的语音。
在本示例实施方式中,可以采用声码器对声学频谱进行声学编码,合成待合成语句对应的语音,该语音具有韵律特征。
在本示例实施方式所提供的语音合成方法中,一方面,可以通过在声学预测模型添加韵律预测模型,通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强待合成语句的韵律特征,使得经韵律增强的声学特征在经过声学特征转换和合成之后,得到韵律增强的语音,满足了特定业务场景(韵律表现度要求高的场景)对韵律表现力度的要求,提高合成语音的准确度和真实度。另一方面,通过待合成文本和针对目标对象的查询结果语句,保证了通过预先训练的声学预测模型能够合成特定目标对象的待合成语句的语音,实现目标对象在特定业务场景下的语音定制。
以下对本公开的各个步骤进行更加详细的描述。
在一些实施例中,参考图3,声学预测模型可以包括编码模型310、韵律预测模型320和解码模型330,利用预先训练的声学预测模型,对符号序列进行声学特征预测,可以包括以下步骤。
第一步,利用预先训练的编码模型,对符号序列进行一次编码处理,得到第一编码向量。
在本示例实施方式中,编码模型310可以包括音素嵌入模块(phonemeembedding)、多头注意力编码器、说话者嵌入模块(speaker embedding)等。可以将待合成文本转化成音素符号,按文本顺序形成第一符号序列。将第一符号序列输入音素嵌入模块进行维度映射,获得第一嵌入向量。第一嵌入向量通过多头注意力编码器进行基于多头注意力机制的编码处理,以提取上下文语义特征。在本示例中,还可以对第一嵌入向量进行位置编码后输入多头注意力编码器,以记录每个符号在序列中的位置。
在本示例实施方式中,将针对目标对象的查询结果语句对应的文本转化成音素符号,形成对应的第二符号序列。将该第二符号序列输入说话者嵌入模块进行维度映射,获得第二嵌入向量。
在本示例实施方式中,一次编码处理可以包括针对待合成文本的embedding、基于多头注意力机制的编码处理和针对目标对象的查询结果语句的embedding过程,还可以包括特征叠加、位置编码等过程,本示例对此不做限定。
第二步,利用预先训练的韵律预测模型,对第一编码向量进行韵律特征预测,得到韵律特征向量。
在本示例实施方式中,韵律预测模型320可以包括第一韵律预测模型和第二韵律预测模型,第一韵律预测模型可以是句子级别韵律预测(utterance-level prosodypredictor),第二韵律预测模型可以是音素级别韵律预测(phoneme-level prosodypredictor)。
示例性地,可以利用第一韵律预测模型,对第一编码向量进行句子级别的韵律特征预测,获得第一韵律特征向量;再利用第二韵律预测模型,对第一编码向量和第一韵律特征向量的叠加特征进行音素级别的韵律特征预测,获得第二韵律特征向量。
在本示例实施方式中,可以将编码模型输出结果输入第一韵律预测模型进行每个句子的韵律增强,再将第一韵律预测模型与编码模型输出结果进行特征叠加后输入第二韵律预测模型,进行句子内部每个音素的韵律增强,再将第二韵律预测模型的输出结果与其输入数据进行拼接,实现各类特征合并入主干网络。还可以将拼接后的特征输入全连接层进行特征整合。
在本示例实施方式中,第一韵律预测模型可以包括循环神经网络(如门控gatedrecurrent neural network,GRU)和线性层。第二韵律预测模型可以包括基于一维卷积的神经网络,示例性地,第二韵律预测模型可以包括多个卷积单元和线性单元(线性层),每个卷积单元可以包括一维卷积层和归一化层。一维卷积层之后可以添加线性激活函数(ReLU),归一化层之后可以添加丢弃处理(dropout)。
第三步,根据预先训练的解码模型、第一编码向量和韵律特征向量,对待合成语句的声学特征进行预测,得到待合成语句对应的声学特征。
在本示例实施方式中,解码模型330可以是基于多头注意力的解码模型,与编码模型中的多头注意力编码器向对应。在特征进入解码模型之前可以对其进行一次位置编码,以标记序列位置。
在本示例实施方式中,在韵律增强后的特征(拼接后特征)进入解码模型之前,对其进行变量预测,使得对韵律增强后的特征进行韵律风格和音色的优化调整。在本示例中,声学变量可以包括音素时长(duration)、音高(pitch)、振幅能量(energy)等,还可以包括其他声学变量,本示例对此不做限定。对每一种声学变量分别进行变量预测。
示例性地,可以利用预先训练的变量适配模型,对第一编码向量和韵律特征向量的叠加结果进行变量预测,获得第一变量预测结果。再利用预先训练的解码模型,对第一变量预测结果进行基于注意力机制的解码处理,获得待合成语句对应的声学特征。
在本示例实施方式中,变量适配模型可以包括音素时长预测器、音高预测器、振幅能量预测器等,时长是每个音素在对数域上的长度,可以提高分割的准确性并减少输入输出之间的信息差距。对于音高预测器,输出序列是帧级F0序列;对于能量预测器,输出是每个梅尔谱帧的能量序列。所有的预测器共享相同的模型结构但是不同的模型参数。每个声学变量对应的预测器可以包括全连接层、多个卷积单元和线性单元(线性层),每个卷积单元可以包括一维卷积层和归一化层。一维卷积层之后可以添加线性激活函数(ReLU),归一化层之后可以添加丢弃处理(dropout)。例如每个声学变量对应的预测器可以由依次连接的全连接层、两个卷积单元(一维卷积层+ReLU激活函数)和线性层组成。
在本示例实施方式中,变量适配模型中每个变量预测器具有相似的模型结构。可以把隐藏的序列作为输入并且预测每个音素(时长)的变化,或每一帧(音高和能量)通过均方误差损失。
在本示例实施方式中,还可以包括长度规则化单元,用于使得输入的因素序列长度与输出的梅尔谱的序列长度相匹配,为输出做准备;同时,还可以通过长度规则化单元控制声学预测模型的发音速度等。变量适配模型还可以包括叠加处理等,本示例对此不做限定。
在以上实施例中(如图3所示),本公开通过在声学预测模型的主干网络中添加韵律特征预测模型(如第一韵律特征预测模型和第二韵律特征预测模型),将韵律特征预测模型预测的韵律特征叠加在主干网络的特征中,以增强句子级别和音素级别的韵律,提升顿挫感,使合成音频语气更为丰富。
考虑到加入的韵律参考信息可能会对主干网络的音色带来不利影响,即在增加韵律的同时会引起原音色发生改变的问题,本公开通过以下方案来解决。
在一些实施例中,如图4所示,将韵律预测模型与主干网络进行解耦,将韵律预测模型的输出结果直接输入变量适配模型,不将韵律预测模型的预测结果与主干网络的特征叠加,从而避免韵律预测模型对主干网络音色合成效果的影响。由于该方案与图3方案的主干网络相同,故本示例就韵律预测模型的不同添加方式进行详细说明,韵律预测模型包括第一韵律预测模型和第二韵律预测模型,利用预先训练的韵律预测模型,对第一编码向量进行韵律特征预测,可以包括以下步骤。
第一步,利用第一韵律预测模型,对第一编码向量进行句子级别的韵律特征预测,获得第三韵律特征向量。
在本示例实施方式中,句子级别的韵律特征预测可以包括对第一韵律预测模型的输入数据进行时序特征处理和线性变换。示例性地,可以采用循环神经网络(例如GRU)对该输入数据进行时序特征处理,再对处理结果进行线性变换。对于GRU来讲,其输入数据为:当前时刻的输入数据和上一时刻的隐藏层状态,这个隐藏层状态包含了之前节点的相关信息。其输出数据为:当前时刻隐藏节点的输出数据和传递给下一个节点的隐状态。GRU通过上一个节点传输下来的状态和当前节点的输入数据来获取两个门控状态。
在本示例实施方式中,可以对编码模型的输出结果(第一编码向量)直接进行句子级别的韵律特征预测。
第二步,利用第二韵律预测模型,对第一编码向量进行音素级别的韵律特征预测,获得第四韵律特征向量。
在本示例实施方式中,音素级别的韵律特征预测可以包括对第二韵律预测模型的输入数据进行卷积处理和线性变换。示例性地,可以采用一维卷积神经网络对该输入数据进行卷积处理,再对处理结果进行线性变换。卷积处理可以包括多个一维卷积和归一化处理,一维卷积之后可以添加激活函数,归一化处理之后可以设置dropout。
在本示例实施方式中,可以对编码模型的输出结果(第一编码向量)直接进行音素级别的韵律特征预测。两个级别的韵律特征预测互不干扰,属于并列关系。
第三步,将第一编码向量和韵律特征向量分别输入预先训练的变量适配模型,进行变量预测。
在本示例实施方式中,可以将第一编码向量、第三韵律特征向量和第四韵律特征向量分别输入预先训练的变量适配模型,进行变量预测。
示例性地,参考图5,变量适配模型包括多个声学变量对应的预测器,例如时长预测器、音高预测器、振幅能量预测器,可以将编码模型的输出结果(第一编码向量)、第一韵律特征预测模型的输出结果(第三韵律特征向量)和第二韵律特征预测模型的输出结果(第四韵律特征向量)分别输入每个声学变量对应的预测器进行音色、韵律等的优化调整。在另一些实施例中,还可以在音高预测器、振幅能量预测器之后添加特征叠加处理,实现音高、振幅能量的特征叠加,以调整还原原音色。变量适配模型还包括长度规则化,调整该模块的输出长度。
在本示例实施方式中,第一编码向量、第三韵律特征向量和第四韵律特征向量在每个声学变量对应的预测器内的处理过程如图6所示,每个声学变量对应的预测器的结构可以相同。如图6所示,音高预测器可以包括全连接层、两个一维卷积单元和线性层,一维卷积单元由一维卷积模块和归一化模块组成,一维卷积模块由一维卷积层加ReLU激活函数组成,归一化模块由归一化层加随机丢弃(dropout)组成。
举例而言,如图6所示,可以将编码模型的输出结果(第一编码向量)和第一韵律特征预测模型的输出结果(第三韵律特征向量)进行特征叠加,再将叠加后特征与第二韵律特征预测模型的输出结果(第四韵律特征向量)进行向量拼接,拼接结果依次经全连接层、两个一维卷积单元和线性层处理,完成音高、韵律的优化调整。
在本示例实施方式中,将韵律预测模型(第一韵律预测模型和第二韵律预测模型)从主干网络移至变量适配模型(Variance adaptor)的各声学变量预测器中,使得韵律预测与音色预测完全分离,实现韵律增强与音色合成的解耦,在保证不改变原音色质量的基础,实现韵律增强和控制效果。
在一些实施例中,在语音合成之前,具有目标对象录音语句,则待合成语句还包括目标对象的录音语句,可以将该目标对象的录音语句作为参考信息加入变量适配模型,使得韵律增强和音色预测更准确。参考图7或图8,方法还包括以下步骤。
采用预先训练的第一参考编码模型,对录音语句进行二次编码处理,获得第二编码向量。
在本示例实施方式中,第一参考编码模型可以包括多层二维卷积单元、循环神经网络单元(如GRU)、样式符号的多头注意力单元、线性层,多层二维卷积单元可以包括二维卷积层、批归一化层和激活函数(ReLU)。则对应的二次编码处理可以包括多轮的二维卷积处理、批归一化处理、激活处理,样式符号的多头注意力处理、线性处理。
将第二编码向量输入预先训练的变量适配模型,进行变量预测。
对于第一韵律特征向量和第二韵律特征向量加入主干网络的情况,对第二韵律特征向量和叠加特征的叠加结果,与第二编码向量进行变量预测。
在本示例实施方式中,第二编码向量的变量预测过程与韵律特征向量的变量预测过程类似,即第二编码向量和第二韵律特征向量和叠加特征的叠加结果分别输入变量适配模型中进行相应处理。
对于第一韵律特征向量和第二韵律特征向量分别加入变量适配模型的情况,利用预先训练的变量适配模型,对第一编码向量、韵律特征向量和第二编码向量进行变量预测。
在本示例实施方式中,第一编码向量、韵律特征向量和第二编码向量在变量适配模型中的处理过程如图9所示。可以将第一参考编码模型的输出结果(第二编码向量)、第一编码向量、韵律特征向量分别输入每个声学变量对应的预测器进行音色、韵律等的优化调整。变量适配模型还包括长度规则化,调整该模块的输出长度。
举例而言,每个声学变量对应的预测器内的处理过程如图10所示,每个声学变量对应的预测器的结构可以相同。如图10所示,音高预测器可以包括全连接层、两个一维卷积单元和线性层,一维卷积单元由一维卷积模块和归一化模块组成,一维卷积模块由一维卷积层加ReLU激活函数组成,归一化模块由归一化层加随机丢弃(dropout)组成。
在本示例中,可以将第一参考编码模型的输出结果(第二编码向量)和第一韵律特征预测模型的输出结果(第三韵律特征向量)、第一编码向量进行特征叠加,再将叠加后特征与第二韵律特征预测模型的输出结果(第四韵律特征向量)进行向量拼接,拼接结果依次经全连接层、两个一维卷积单元和线性层处理,完成音高、韵律的优化调整。
在一些实施例中,参考图11,方法还包括对声学预测模型进行训练,训练的过程可以包括两部分,一部分为对第一参考编码模型和第二参考编码模型的训练;另一部分为对第一韵律预测模型和第二韵律预测模型的训练,可以包括以下步骤S1110-S1130。
步骤S1110,获取训练样本,训练样本包括录音样本及对应的声学特征样本和符号序列样本。
在本示例实施方式中,录音样本是指真实的录音音频,声学特征样本是指从该录音音频提取到的声学图谱(如梅尔谱)。录音音频具有对应的训练文本,根据该训练文本确定对应的音素序列样本;真实的录音音频一般会具有说话者信息(如说话者ID),据此可以查询语料库获取对应查询结果语句样本。由音素序列样本和查询结果语句样本对应的符号序列共同组成符号序列样本。一个训练样本可以包括一段真实录音音频、对应声学图谱、对应音素序列样本和查询结果语句对应符号序列样本。
在本示例实施方式中,在针对一个说话者进行模型训练时,可以获取该说话者的历史录音音频,根据该录音音频获取其他类别样本(音素序列、梅尔谱等等)共同形成训练集。对于一个普适性模型,可以获取较多说话者的历史录音音频,例如,男性、女性、老人、儿童等等群体的录音样本。
步骤S1120,采用训练样本对初始声学预测模型进行一次训练,以获得中间模型;初始声学预测模型包括第一参考编码模型和第二参考编码模型。
在本示例实施方式中,第一参考编码模型可以是全局风格标记参考编码器(Global style tokens reference encoder,GST参考编码器),第二参考编码模型为声学特征参考编码器,如梅尔谱参考编码器,将录音音频输入第一参考编码模型、将对应梅尔谱输入第二参考编码模型,将该两个输入数据作为语音合成的参考信息。一次训练用于训练第一参考编码模型、第二参考编码模型和主干网络。
步骤S1130,固定中间模型的第一参考编码模型和第二参考编码模型的模型参数,利用训练样本、第一参考编码模型和第二参考编码模型,对声学预测模型进行二次训练。
在本示例实施方式中,固定一次训练后的第一参考编码模型和第二参考编码模型的模型参数,进行二次训练,二次训练利用第一参考编码模型和第二参考编码模型训练两个韵律预测模型,即第一韵律预测模型(对应梅尔谱编码器)和第二韵律预测模型(对应GST编码器)。二次训练用于训练第一韵律预测模型、第二韵律预测模型和主干网络。
在一些实施例中,如图12所示,声学预测模型的第一部分训练过程中添加两个参考编码模型,即第一参考编码模型和第二参考编码模型,形成初始声学预测模型,采用训练样本对初始声学预测模型进行一次训练,可以包括以下步骤:
第一步,采用编码模型对符号序列样本进行编码处理,获得第一样本编码向量。
在本示例实施方式中,可以初始化初始声学预测模型的模型参数,采用初始化后的编码模型处理符号序列样本。可以包括采用文本样本对应的音素序列输入音素嵌入模块进行维度映射(embedding),获得嵌入向量。采用说话者查询结果语句样本输入说话者嵌入模块进行维度映射(embedding),将两个映射结果进行叠加作为第一样本编码向量。
第二步,采用第一参考编码模型对录音样本进行编码处理,获得第二样本编码向量。
在本示例实施方式中,第一参考编码模型对录音样本进行以下处理:多轮的二维卷积处理、批归一化处理、激活处理,样式符号的多头注意力处理、线性处理。
第三步,采用第二参考编码模型对声学特征样本进行编码处理,获得第三样本编码向量。
在本示例实施方式中,第二参考编码模型可以包括多层二维卷积单元、线性层+线性归一化、多头注意力层和线性层+线性归一化,一个二维卷积单元可以包括二维卷积层、批归一化层和激活函数(ReLU)。示例性地,声学特征样本经过多层二维卷积的多次卷积处理、线性变换+归一化处理、多头注意力层提取上下文信息,再对特征进行线性变换和归一化处理,得到第三样本编码向量。
第四步,对第一样本编码向量和第二样本编码向量进行特征叠加后,与第三样本编码向量进行特征拼接,获得拼接特征。
第五步,采用解码模型对拼接特征进行解码处理并输出,根据输出结果与声学特征样本,计算第一损失函数值。
在本示例实施方式中,第一损失函数可以通过输出结果与声学特征样本均方误差MSE来确定。解码处理与待合成语句的语音合成过程中的对应部分类似。
第六步,根据第一损失函数值,调整编码模型、第一参考编码模型、第二参考编码模型和解码模型的模型参数。
在本示例实施方式中,编码模型和编码模型属于主干网络。还可以对变量适配模型的模型参数进行调整。
在一次训练过程中,可以获得录音音频对应梅尔谱,将二者分别作为语音合成的参考信息,使GST参考编码器输出句子级别的GST编码结果,梅尔谱参考编码器输出音素级别的编码结果,加上音素序列经主干网络的编码模型的编码结果和代表说话人音色信息的编码结果,输入并影响变量适配模型中对于每个音素时长、音高、振幅能量的预测学习,待该影响扩展到帧级别之后,经过主干网络的解码模型,输出梅尔谱,并与真实梅尔谱比较,计算第一损失函数值并反馈给网络模型,不断更新模型的参数,直到第一损失函数值逐渐收敛,得到使GST参考编码器和梅尔谱参考编码器达到较好的参考编码的效果。该过程同时也训练了主干网络的其他模块,为接下来的第二部分训练做好准备。
在一些实施例中,如图13所示,在第二部分训练过程中,向模型中添加两个韵律预测模型,即第一韵律预测模型和第二韵律预测模型,通过第一部分训练的第一参考编码模型和第二参考编码模型来训练两个韵律预测模型。本示例中,对声学预测模型进行二次训练,可以包括以下步骤:
第一步,采用一次训练后的编码模型对符号序列样本进行编码处理,获得第四样本编码向量。
在本示例实施方式中,可以将训练样本再次输入经过一次训练之后的模型。
第二步,采用一次训练后的第一参考编码模型对录音样本进行编码处理,获得第五样本编码向量。
在以上两步中的编码处理,与待合成语句的语音合成过程中的对应部分相同,此处不再赘述。
第三步,采用一次训练后的第二参考编码模型对声学特征样本进行编码处理,获得第六样本编码向量。
在本示例实施方式中,第二参考编码模型可以是梅尔谱参考编码器,采用一次训练好的梅尔谱参考编码器对梅尔谱样本进行编码处理。示例性地,声学特征样本经过一次训练后的多层二维卷积的多次卷积处理、线性变换+归一化处理、多头注意力层提取上下文信息,再对特征进行线性变换和归一化处理,得到第六样本编码向量。
第四步,将第四样本编码向量和第五样本编码向量叠加后分别输入第一韵律预测模型和第二韵律预测模型。
第五步,根据第五样本编码向量和第一韵律预测模型的输出结果,计算第二损失函数值;基于第二损失函数值,调整第一韵律预测模型的模型参数。
第六步,根据第六样本编码向量和第二韵律预测模型的输出结果,计算第三损失函数值;基于第三损失函数值,调整第二韵律预测模型的模型参数。
在本示例中还可以包括步骤:第六样本编码向量与主干网络进行特征拼接后进入变量适配模型和解码模型进行处理后,输出结果与真实声学特征(声学特征样本)计算损失函数反馈调节主干网络的模型参数。
在以上实施例中,第二损失函数值和第三损失函数值也可以分别采用均方误差MSE来确定。如图13所示,二次训练过程中,固定GST参考编码器和梅尔谱参考编码器的模型参数,使其在本部分的训练中不再更新。在第一部分训练的初始声学模型中加入第一韵律预测模型(句子级别韵律预测器)和第二韵律预测模型(音素级别韵律预测器)。二次训练时,采用对应文本的句子和梅尔谱作为参考信息,使GST参考编码器和梅尔谱参考编码器分别输出对应的编码结果,同时使句子级别韵律预测器和音素级别韵律预测器分别输出预测结果,通过比较GST编码结果与句子级别韵律预测器的预测结果,调整句子级别韵律预测器的模型参数;通过比较梅尔谱参考编码器与音素级别韵律预测器的预测结果,调整音素级别韵律预测器的模型参数。同时,还可以将梅尔谱参考编码器的编码结果输入主干网络进行特征拼接,再进行全连接处理后输入变量适配模型和解码模型进行处理,输出预测声学特征。可以通过预测的声学特征与声学特征样本计算第一损失函数值,通过第一损失函数值反向调节主干网络和变量适配模型的模型参数。重复以上过程,不断更新声学预测模型的参数,直到所有损失函数值收敛,训练结束。
可以理解的是,本公开的声学预测模型,可以先进行模型训练,再采用训练好的模型进行待合成语句的语音合成过程。
本公开针对特定场景下对韵律的特殊要求进行研究。韵律,通常用于体现发音人说话时声音的高低、大小、语速节奏、停顿等特点。由于韵律的不同,即使是相同的话,听众也能感受到说话人的不同情绪。比如“您好”这句话,如果发音洪亮饱满、后半部分的声调较高,会给听众带来热情开朗的感受。相反,如果发音快速且后半部分的声调较低,则给听众带来冷淡的感受。因此,韵律对于语音所传达的信息具有至关重要的作用。
现有语音合成***虽然能输出高清晰、高音色相似度的音频,但在特定上下文或者特定业务场景中,模型在训练过程收敛后,合成结果相对固定,合成音频在业务场景需求的特定风格或者韵律上表现力不足,使得最终语音合成质量较低,无法达到真实说话者在该场景下的说话效果。该特定业务场景可以包括希望保持上扬的语调或者句尾尾音上扬的情况,希望读得更有节奏感的情况,亦或是添加部分口语化或者直播带货等其他场景风格的特点。由于现有模型使用大量不同说话人的音色数据进行模型训练,且同一录音人的音频录制不能保证一致性,导致输出结果的韵律感偏向平均化。
为了提升模型在韵律和风格上的效果,本公开通过引入韵律特征预测模型,指导模型进行音频合成,更好地实现韵律控制,提升韵律效果。具体地,本公开通过引入句子级别的韵律预测器和因素级别的韵律预测器,对句子级别和音素级别的韵律特征进行指导学习,能够更好地还原说话人的韵律特征,提升合成音频的抑扬顿挫和自然度。在面对例如激情澎拜、发音情感起伏等演说风格类发音人的复杂韵律建模场景时,实现韵律增强的效果,提高合成语音的质量。
因为韵律风格是体现发音人说话时声音的高低、大小、语速节奏、停顿等特点,而与说话人音色完全无关的,即每个人都可以用自己的音色去学习任意一个说话人的腔调风格。而将预测的韵律特征混入主干网络中可能会出现部分合成音频说话人音色发生改变的现象。同时,考虑到韵律风格特征与变量适配模型对每个音素的时长、音高、振幅能量的预测学习是紧密关联的,故本公开将韵律特征预测模型的预测结果输入变量适配模型,而不与主干网络的音色特征混合,避免了韵律风格特征对说话者音色的影响,将音色与韵律风格进行解耦,使合成音频只学习的参考信息的韵律风格特征并完全消除对原说话人音色的影响。
本公开在变量适配模型的内部,GST参考编码器的编码结果与主干网络上的中间结果无关,只对韵律风格相关的时长、音高、振幅能量的预测产生影响,从而使模型从参考信息中只学习到其韵律风格,完成音色与韵律风格的解耦,更好地通过参考信息实现韵律控制。
本公开将韵律预测模型的预测结果输入变量适配模型,避免该预测结果对主干网络的影响,使得该韵律预测模型的韵律增强过程与音色预测完全分离,同时实现了韵律增强和控制的效果。
本公开在模型训练阶段,通过两个参考编码器,对句子级别和音素级别的韵律特征进行指导学习,在语音合成阶段,可以不使用参考编码器和参考录音信息(考虑到TTS语音合成过程中,通常只有文本信息没有录音音频),独立完成语音合成,同时实现韵律增强和控制,增加实用性。
本公开设计了GST参考编码器(第一参考编码模型)的添加位置,将其添加至变量适配模型中,使其只作为对韵律风格的优化调整,并完全不对合成音色产生影响,实现音色与韵律风格的解耦。
本公开可以适用于人机交互、小说阅读等不同业务场景下对韵律风格有较高要求的演说类业务场景。
进一步的,本示例实施方式中,还提供了一种语音合成装置1400。该语音合成装置1400可以应用于智能语音设备。参考图14所示,该语音合成装置1400可以包括:获取模块1410、预测模块1420、语音合成模块1430,获取模块1410,用于获取待合成语句的符号序列,待合成语句包括待合成文本和针对目标对象的查询结果语句;预测模块1420,用于利用预先训练的声学预测模型,对符号序列进行声学特征预测,得到待合成语句对应的声学特征;声学预测模型包括韵律预测模型,韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强待合成语句的韵律特征;语音合成模块1430,用于对声学特征进行特征转换和合成,得到待合成语句对应的语音。
在本公开的一种示例性实施例中,声学预测模型还包括编码模型和解码模型,预测模块1420还可以用于:利用预先训练的编码模型,对符号序列进行一次编码处理,得到第一编码向量;利用预先训练的韵律预测模型,对第一编码向量进行韵律特征预测,得到韵律特征向量;根据预先训练的解码模型、第一编码向量和韵律特征向量,对待合成语句的声学特征进行预测,得到待合成语句对应的声学特征。
在本公开的一种示例性实施例中,预测模块1420还可以用于:利用预先训练的变量适配模型,对第一编码向量和韵律特征向量的叠加结果进行变量预测,获得第一变量预测结果;利用预先训练的解码模型,对第一变量预测结果进行基于注意力机制的解码处理,获得待合成语句对应的声学特征。
在本公开的一种示例性实施例中,预测模块1420还可以用于:将第一编码向量和韵律特征向量分别输入预先训练的变量适配模型,进行变量预测,获得第二变量预测结果;利用预先训练的解码模型,对第二变量预测结果进行基于注意力机制的解码处理,获得待合成语句对应的声学特征。
在本公开的一种示例性实施例中,韵律预测模型包括第一韵律预测模型和第二韵律预测模型,预测模块1420还可以用于:利用第一韵律预测模型,对第一编码向量进行句子级别的韵律特征预测,获得第一韵律特征向量;利用第二韵律预测模型,对第一编码向量和第一韵律特征向量的叠加特征进行音素级别的韵律特征预测,获得第二韵律特征向量;对第二韵律特征向量和叠加特征的叠加结果,进行变量预测。
在本公开的一种示例性实施例中,韵律预测模型包括第一韵律预测模型和第二韵律预测模型,预测模块1420还可以用于:利用第一韵律预测模型,对第一编码向量进行句子级别的韵律特征预测,获得第三韵律特征向量;利用第二韵律预测模型,对第一编码向量进行音素级别的韵律特征预测,获得第四韵律特征向量;将第一编码向量、第三韵律特征向量和第四韵律特征向量分别输入预先训练的变量适配模型,进行变量预测。
在本公开的一种示例性实施例中,预测模块1420还可以用于:对第一韵律预测模型的输入数据进行时序特征处理和线性变换。
在本公开的一种示例性实施例中,预测模块1420还可以用于:对第二韵律预测模型的输入数据进行卷积处理和线性变换。
在本公开的一种示例性实施例中,待合成语句还包括目标对象的录音语句,装置1400还包括参考模块,参考模块用于采用预先训练的第一参考编码模型,对录音语句进行二次编码处理,获得第二编码向量;预测模块1420还可以用于:利用预先训练的变量适配模型,对第二韵律特征向量和叠加特征的叠加结果,与第二编码向量进行变量预测;或者,利用预先训练的变量适配模型,对第一编码向量、韵律特征向量和第二编码向量进行变量预测。
在本公开的一种示例性实施例中,装置1400还包括训练模块,训练模块可以用于对声学预测模型进行训练,包括:获取子模块、第一训练子模块和第二训练子模块,获取子模块可以用于获取训练样本,训练样本包括录音样本及对应的声学特征样本和符号序列样本;第一训练子模块可以用于采用训练样本对初始声学预测模型进行一次训练,以获得中间模型;初始声学预测模型包括第一参考编码模型和第二参考编码模型;第二训练子模块可以用于固定中间模型的第一参考编码模型和第二参考编码模型的模型参数,利用训练样本、第一参考编码模型和第二参考编码模型,对声学预测模型进行二次训练。
在本公开的一种示例性实施例中,初始声学预测模型还包括编码模型和解码模型,第一训练子模块还可以用于采用编码模型对符号序列样本进行编码处理,获得第一样本编码向量;采用第一参考编码模型对录音样本进行编码处理,获得第二样本编码向量;采用第二参考编码模型对声学特征样本进行编码处理,获得第三样本编码向量;对第一样本编码向量和第二样本编码向量进行特征叠加后,与第三样本编码向量进行特征拼接,获得拼接特征;采用解码模型对拼接特征进行解码处理并输出,根据输出结果与声学特征样本,计算第一损失函数值;根据第一损失函数值,调整编码模型、第一参考编码模型、第二参考编码模型和解码模型的模型参数。
在本公开的一种示例性实施例中,声学预测模型包括第一韵律预测模型和第二韵律预测模型,第二训练子模块可以用于:采用一次训练后的编码模型对符号序列样本进行编码处理,获得第四样本编码向量;采用一次训练后的第一参考编码模型对录音样本进行编码处理,获得第五样本编码向量;将第四样本编码向量和第五样本编码向量叠加后分别输入第一韵律预测模型和第二韵律预测模型;根据第五样本编码向量和第一韵律预测模型的输出结果,计算第二损失函数值;基于第二损失函数值,调整第一韵律预测模型的模型参数;根据第五样本编码向量和第二韵律预测模型的输出结果,计算第三损失函数值;基于第三损失函数值,调整第二韵律预测模型的模型参数。
上述语音合成装置中各模块或单元的具体细节已经在对应的语音合成方法中进行了详细的描述,因此此处不再赘述。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中的方法。例如,电子设备可以实现如图2~图13所示的各个步骤等。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
下面参照图15来描述根据本公开的这种实施例的电子设备1500。图15显示的电子设备1500仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图15所示,电子设备1500以通用计算设备的形式表现。电子设备1500的组件可以包括但不限于:上述至少一个处理单元1510、上述至少一个存储单元1520、连接不同***组件(包括存储单元1520和处理单元1510)的总线1530、显示单元1540。
其中,存储单元存储有程序代码,程序代码可以被处理单元1510执行,使得处理单元1510执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
示例性地,处理单元1510可以执行以下步骤:获取待合成语句的符号序列,待合成语句包括待合成文本和针对目标对象的查询结果语句;利用预先训练的声学预测模型,对符号序列进行声学特征预测,得到待合成语句对应的声学特征;声学预测模型包括韵律预测模型,韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强待合成语句的韵律特征;对声学特征进行特征转换和合成,得到待合成语句对应的语音。
存储单元1520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)15201和/或高速缓存存储单元15202,还可以进一步包括只读存储单元(ROM)15203。
存储单元1520还可以包括具有一组(至少一个)程序模块15205的程序/实用工具15204,这样的程序模块15205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1500也可以与一个或多个外部设备1570(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1500交互的设备通信,和/或与使得该电子设备1500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1550进行。并且,电子设备1500还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1560通过总线1530与电子设备1500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RA标识***、磁带驱动器以及数据备份存储***等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等,均应视为本公开的一部分。
应可理解的是,本说明书公开和限定的本公开延伸到文中和/或附图中提到或明显的两个或两个以上单独特征的所有可替代组合。所有这些不同的组合构成本公开的多个可替代方面。本说明书的实施方式说明了已知用于实现本公开的最佳方式,并且将使本领域技术人员能够利用本公开。
Claims (15)
1.一种语音合成方法,其特征在于,所述方法包括:
获取待合成语句的符号序列,所述待合成语句包括待合成文本和针对目标对象的查询结果语句;
利用预先训练的声学预测模型,对所述符号序列进行声学特征预测,得到所述待合成语句对应的声学特征;所述声学预测模型包括韵律预测模型,所述韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强所述待合成语句的韵律特征;
对所述声学特征进行特征转换和合成,得到所述待合成语句对应的语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述声学预测模型还包括编码模型和解码模型,所述利用预先训练的声学预测模型,对所述符号序列进行声学特征预测,包括:
利用预先训练的编码模型,对所述符号序列进行一次编码处理,得到第一编码向量;
利用预先训练的韵律预测模型,对所述第一编码向量进行韵律特征预测,得到韵律特征向量;
根据预先训练的解码模型、所述第一编码向量和所述韵律特征向量,对所述待合成语句的声学特征进行预测,得到所述待合成语句对应的声学特征。
3.根据权利要求2所述的语音合成方法,其特征在于,所述根据预先训练的解码模型、所述第一编码向量和所述韵律特征向量,对所述待合成语句的声学特征进行预测,包括:
利用预先训练的变量适配模型,对所述第一编码向量和所述韵律特征向量的叠加结果进行变量预测,获得第一变量预测结果;
利用预先训练的解码模型,对所述第一变量预测结果进行基于注意力机制的解码处理,获得所述待合成语句对应的声学特征。
4.根据权利要求2所述的语音合成方法,其特征在于,所述根据预先训练的解码模型、所述第一编码向量和所述韵律特征向量,对所述待合成语句的声学特征进行预测,包括:
将所述第一编码向量和所述韵律特征向量分别输入预先训练的变量适配模型,进行变量预测,获得第二变量预测结果;
利用预先训练的解码模型,对所述第二变量预测结果进行基于注意力机制的解码处理,获得所述待合成语句对应的声学特征。
5.根据权利要求3所述的语音合成方法,其特征在于,所述韵律预测模型包括第一韵律预测模型和第二韵律预测模型,所述利用预先训练的韵律预测模型,对所述第一编码向量进行韵律特征预测,包括:
利用所述第一韵律预测模型,对所述第一编码向量进行句子级别的韵律特征预测,获得第一韵律特征向量;
利用所述第二韵律预测模型,对所述第一编码向量和所述第一韵律特征向量的叠加特征进行音素级别的韵律特征预测,获得第二韵律特征向量;
所述对所述第一编码向量和所述韵律特征向量的叠加结果进行变量预测,包括:
对所述第二韵律特征向量和所述叠加特征的叠加结果,进行变量预测。
6.根据权利要求4所述的语音合成方法,其特征在于,所述韵律预测模型包括第一韵律预测模型和第二韵律预测模型,所述利用预先训练的韵律预测模型,对所述第一编码向量进行韵律特征预测,包括:
利用所述第一韵律预测模型,对所述第一编码向量进行句子级别的韵律特征预测,获得第三韵律特征向量;
利用所述第二韵律预测模型,对所述第一编码向量进行音素级别的韵律特征预测,获得第四韵律特征向量;
所述将所述第一编码向量和所述韵律特征向量分别输入预先训练的变量适配模型,进行变量预测,包括:
将所述第一编码向量、所述第三韵律特征向量和所述第四韵律特征向量分别输入预先训练的变量适配模型,进行变量预测。
7.根据权利要求5或6所述的语音合成方法,其特征在于,所述句子级别的韵律特征预测,包括:
对所述第一韵律预测模型的输入数据进行时序特征处理和线性变换。
8.根据权利要求5或6所述的语音合成方法,其特征在于,所述音素级别的韵律特征预测,包括:
对所述第二韵律预测模型的输入数据进行卷积处理和线性变换。
9.根据权利要求5所述的语音合成方法,其特征在于,所述待合成语句还包括所述目标对象的录音语句,所述方法还包括:
采用预先训练的第一参考编码模型,对所述录音语句进行二次编码处理,获得第二编码向量;
所述变量预测包括:
利用预先训练的变量适配模型,对所述第二韵律特征向量和所述叠加特征的叠加结果,与所述第二编码向量进行变量预测;
或者,
利用预先训练的变量适配模型,对所述第一编码向量、所述韵律特征向量和所述第二编码向量进行变量预测。
10.根据权利要求1所述的语音合成方法,其特征在于,所述方法还包括对所述声学预测模型进行训练,所述训练的过程包括:
获取训练样本,所述训练样本包括录音样本及对应的声学特征样本和符号序列样本;
采用所述训练样本对初始声学预测模型进行一次训练,以获得中间模型;所述初始声学预测模型包括第一参考编码模型和第二参考编码模型;
固定所述中间模型的所述第一参考编码模型和第二参考编码模型的模型参数,利用所述训练样本、所述第一参考编码模型和第二参考编码模型,对所述声学预测模型进行二次训练。
11.根据权利要求10所述的语音合成方法,其特征在于,所述初始声学预测模型还包括编码模型和解码模型,所述采用所述训练样本对初始声学预测模型进行一次训练,包括:
采用编码模型对符号序列样本进行编码处理,获得第一样本编码向量;
采用所述第一参考编码模型对录音样本进行编码处理,获得第二样本编码向量;
采用第二参考编码模型对声学特征样本进行编码处理,获得第三样本编码向量;
对所述第一样本编码向量和所述第二样本编码向量进行特征叠加后,与所述第三样本编码向量进行特征拼接,获得拼接特征;
采用解码模型对所述拼接特征进行解码处理并输出,根据输出结果与所述声学特征样本,计算第一损失函数值;
根据所述第一损失函数值,调整所述编码模型、所述第一参考编码模型、所述第二参考编码模型和所述解码模型的模型参数。
12.根据权利要求11所述的语音合成方法,其特征在于,所述声学预测模型包括第一韵律预测模型和第二韵律预测模型,所述对所述声学预测模型进行二次训练,包括:
采用一次训练后的编码模型对符号序列样本进行编码处理,获得第四样本编码向量;
采用一次训练后的第一参考编码模型对录音样本进行编码处理,获得第五样本编码向量;
采用一次训练后的第二参考编码模型对声学特征样本进行编码处理,获得第六样本编码向量;
将所述第四样本编码向量和所述第五样本编码向量叠加后分别输入所述第一韵律预测模型和所述第二韵律预测模型;
根据所述第五样本编码向量和所述第一韵律预测模型的输出结果,计算第二损失函数值;基于所述第二损失函数值,调整所述第一韵律预测模型的模型参数;
根据所述第六样本编码向量和所述第二韵律预测模型的输出结果,计算第三损失函数值;基于所述第三损失函数值,调整所述第二韵律预测模型的模型参数。
13.一种语音合成装置,其特征在于,所述装置包括:
获取模块,用于获取待合成语句的符号序列,所述待合成语句包括待合成文本和针对目标对象的查询结果语句;
预测模块,用于利用预先训练的声学预测模型,对所述符号序列进行声学特征预测,得到所述待合成语句对应的声学特征;所述声学预测模型包括韵律预测模型,所述韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征,以在语音合成阶段增强所述待合成语句的韵律特征;
语音合成模块,用于对所述声学特征进行特征转换和合成,得到所述待合成语句对应的语音。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-12中任一项所述的方法。
15.一种电子设备,其特征在于,包括:一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310189613.3A CN116312476A (zh) | 2023-02-27 | 2023-02-27 | 语音合成方法和装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310189613.3A CN116312476A (zh) | 2023-02-27 | 2023-02-27 | 语音合成方法和装置、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116312476A true CN116312476A (zh) | 2023-06-23 |
Family
ID=86828122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310189613.3A Pending CN116312476A (zh) | 2023-02-27 | 2023-02-27 | 语音合成方法和装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312476A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711374A (zh) * | 2024-02-01 | 2024-03-15 | 广东省连听科技有限公司 | 一种视听一致个性化语音合成***、合成方法及训练方法 |
-
2023
- 2023-02-27 CN CN202310189613.3A patent/CN116312476A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711374A (zh) * | 2024-02-01 | 2024-03-15 | 广东省连听科技有限公司 | 一种视听一致个性化语音合成***、合成方法及训练方法 |
CN117711374B (zh) * | 2024-02-01 | 2024-05-10 | 广东省连听科技有限公司 | 一种视听一致个性化语音合成***、合成方法及训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11929059B2 (en) | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature | |
JP7355306B2 (ja) | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
JP7445267B2 (ja) | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム | |
Robinson et al. | Sequence-to-sequence modelling of f0 for speech emotion conversion | |
WO2021225829A1 (en) | Speech recognition using unspoken text and speech synthesis | |
CN111667812A (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
US11475874B2 (en) | Generating diverse and natural text-to-speech samples | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
EP4191586A1 (en) | Method and system for applying synthetic speech to speaker image | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
CN117373431A (zh) | 音频合成方法、训练方法、装置、设备及存储介质 | |
CN116312476A (zh) | 语音合成方法和装置、存储介质、电子设备 | |
JP5574344B2 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
CN113314097B (zh) | 语音合成方法、语音合成模型处理方法、装置和电子设备 | |
CN117882131A (zh) | 多个唤醒词检测 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN115376533A (zh) | 一种用于个性化语音生成的语音转换方法 | |
CN113628609A (zh) | 自动音频内容生成 | |
Hasanabadi | An overview of text-to-speech systems and media applications | |
CN117636842B (zh) | 基于韵律情感迁移的语音合成***及方法 | |
Hirose | Modeling of fundamental frequency contours for HMM-based speech synthesis: Representation of fundamental frequency contours for statistical speech synthesis | |
CN117012182A (zh) | 语音数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |