CN111128118A - 语音合成方法、相关设备及可读存储介质 - Google Patents
语音合成方法、相关设备及可读存储介质 Download PDFInfo
- Publication number
- CN111128118A CN111128118A CN201911393613.5A CN201911393613A CN111128118A CN 111128118 A CN111128118 A CN 111128118A CN 201911393613 A CN201911393613 A CN 201911393613A CN 111128118 A CN111128118 A CN 111128118A
- Authority
- CN
- China
- Prior art keywords
- emotion
- text
- codes
- voice
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 18
- 230000008451 emotion Effects 0.000 claims abstract description 345
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 132
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 72
- 230000004927 fusion Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 44
- 230000004913 activation Effects 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 14
- 230000008909 emotion recognition Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 description 16
- 238000000605 extraction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 230000007935 neutral effect Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000013213 extrapolation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 235000019640 taste Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音合成方法、相关设备及可读存储介质,获取待进行语音合成的文本后,确定该文本对应的情感编码,利用该文本对应的情感编码,得到该文本的语音合成参数,对该文本的语音合成参数进行语音合成处理,得到该文本对应的语音。上述方案中,由于该文本对应的情感编码能够指示该文本进行语音合成时的情感强度,而用户可以根据自身对语音合成的情感强度需求控制该文本对应的情感编码,使得利用该文本对应的情感编码得到的该文本对应的语音,是满足用户对语音合成时的情感强度需求的语音。
Description
技术领域
本申请涉及语音合成技术领域,更具体的说,是涉及一种语音合成方法、相关设备及可读存储介质。
背景技术
随着语音合成技术的发展,语音合成的评价标准不仅仅是自然度等评分,对合成音频的情感表现力的要求越来越高。但是,现有的语音合成方法一般机械地直接将文本合成语音,或者只能合成单一的语音,无法对合成语音的情感强度进行控制。
因此,需要一种能够对合成语音的情感强度进行控制的语音合成方法。
发明内容
鉴于上述问题,本申请提供了一种语音合成方法、相关设备及可读存储介质。具体方案如下:
一种语音合成方法,包括:
获取待进行语音合成的文本;
确定所述文本对应的情感编码,所述情感编码用于指示语音合成的情感强度;
基于所述情感编码,确定所述文本的语音合成参数;
对所述文本的语音合成参数进行语音合成处理,得到所述文本对应的语音。
可选地,所述确定所述文本对应的情感编码,包括:
将所述文本输入文本情感编码识别模型,得到所述文本对应的情感编码,所述文本情感编码识别模型为利用标注有情感编码的情感识别训练文本预训练得到。
可选地,确定所述文本对应的情感编码,包括:
获取所述文本对应的预设定的初始情感编码;
基于所述初始情感编码,确定所述文本对应的情感编码。
可选地,所述基于所述初始情感编码,确定所述文本对应的情感编码,包括:
将所述初始情感编码作为所述文本对应的情感编码;
或,
获取情感强度信息,所述情感强度信息用于指示用户对待合成语音的情感强度需求;
基于所述情感强度信息,利用插值方法对所述初始情感编码进行调整,调整后的情感编码作为所述文本对应的情感编码。
可选地,所述获取所述文本对应的预设定的初始情感编码,包括:
获取所述文本对应的情感标签;
基于预设定的情感标签与情感编码的对应关系,确定与所述情感标签对应的情感编码,作为所述文本对应的初始情感编码。
可选地,所述基于所述情感编码,确定所述文本的语音合成参数,包括:
获取所述文本的文本单元序列;
将所述情感编码和所述文本单元序列输入融合模型,得到融合模型输出的所述文本的语音合成参数,其中,融合模型以训练语音的情感编码,和训练语音对应文本的文本单元序列为训练样本,以训练语音对应文本的标注语音合成参数为样本标签训练得到。
可选地,所述将所述情感编码和所述文本单元序列输入融合模型,得到融合模型输出的所述文本的语音合成参数,包括:
将所述情感编码和所述文本单元序列输入融合模型的时长模型,基于情感编码对所述时长模型的激活函数的调整权重,得到所述文本的语音合成参数中的时长参数;
将所述情感编码和所述文本单元序列输入融合模型的声学模型,基于情感编码对所述声学模型的激活函数的调整权重,得到所述文本的语音合成参数中的声学参数;
其中,所述情感编码对所述时长模型的激活函数的调整权重以及情感编码对所述声学模型的激活函数的调整权重,是以所述时长模型输出的时长参数趋近于训练语音对应文本的标注时长参数,且所述声学模型输出的声学参数趋近于训练语音对应文本的标注声学参数为训练目标,训练得到的。
一种语音合成装置,包括:
获取单元,用于获取待进行语音合成的文本;
情感编码确定单元,用于确定所述文本对应的情感编码,所述情感编码用于指示语音合成的情感强度;
语音合成参数确定单元,用于基于所述情感编码,确定所述文本的语音合成参数;
语音合成处理单元,用于对所述文本的语音合成参数进行语音合成处理,得到所述文本对应的语音。
可选地,所述情感编码确定单元,包括:
第一确定单元,用于将所述文本输入文本情感编码识别模型,得到所述文本对应的情感编码,所述文本情感编码识别模型为利用标注有情感编码的情感识别训练文本预训练得到。
可选地,情感编码确定单元,包括:
初始情感编码获取单元,用于获取所述文本对应的预设定的初始情感编码;
第二确定单元,用于基于所述初始情感编码,确定所述文本对应的情感编码。
可选地,所述第二确定单元,包括:
第一确定子单元,用于将所述初始情感编码作为所述文本对应的情感编码;
或,
情感强度信息获取单元,用于获取情感强度信息,所述情感强度信息用于指示用户对待合成语音的情感强度需求;
第二确定子单元,用于基于所述情感强度信息,利用插值方法对所述初始情感编码进行调整,调整后的情感编码作为所述文本对应的情感编码。
可选地,所述初始情感编码获取单元,包括:
情感标签获取单元,用于获取所述文本对应的情感标签;
初始情感编码获取子单元,用于基于预设定的情感标签与情感编码的对应关系,确定与所述情感标签对应的情感编码,作为所述文本对应的初始情感编码。
可选地,所述语音合成参数确定单元,包括:
文本单元序列获取单元,用于获取所述文本的文本单元序列;
融合模型处理单元,用于将所述情感编码和所述文本单元序列输入融合模型,得到融合模型输出的所述文本的语音合成参数,其中,融合模型以训练语音的情感编码,和训练语音对应文本的文本单元序列为训练样本,以训练语音对应文本的标注语音合成参数为样本标签训练得到。
可选地,所述融合模型处理单元,包括:
时长模型处理单元,用于将所述情感编码和所述文本单元序列输入融合模型的时长模型,基于情感编码对所述时长模型的激活函数的调整权重,得到所述文本的语音合成参数中的时长参数;
声学模型处理单元,用于将所述情感编码和所述文本单元序列输入融合模型的声学模型,基于情感编码对所述声学模型的激活函数的调整权重,得到所述文本的语音合成参数中的声学参数;
其中,所述情感编码对所述时长模型的激活函数的调整权重以及情感编码对所述声学模型的激活函数的调整权重,是以所述时长模型输出的时长参数趋近于训练语音对应文本的标注时长参数,且所述声学模型输出的声学参数趋近于训练语音对应文本的标注声学参数为训练目标,训练得到的。
一种语音合成设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的语音合成方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上所述的语音合成方法的各个步骤。
借由上述技术方案,本申请公开了一种语音合成方法、相关设备及可读存储介质,获取待进行语音合成的文本后,确定该文本对应的情感编码,利用该文本对应的情感编码,得到该文本的语音合成参数,对该文本的语音合成参数进行语音合成处理,得到该文本对应的语音。上述方案中,由于该文本对应的情感编码能够指示该文本进行语音合成时的情感强度,而用户可以根据自身对语音合成的情感强度需求控制该文本对应的情感编码,使得利用该文本对应的情感编码得到的该文本对应的语音,是满足用户对语音合成时的情感强度需求的语音。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的语音合成方法的流程示意图;
图2为本申请实施例公开的一种利用情感识别模型确定文本对应的情感标签的示意图;
图3为本申请实施例公开的一种3维情感编码的插值方法示意图;
图4为本申请实施例公开的一种2维情感编码的插值方法示意图;
图5为本申请实施例公开的一种融合模型的具体结构示意图;
图6为本申请实施例公开的一种语音合成装置结构示意图;
图7为本申请实施例公开的语音合成设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的语音合成方法进行介绍。
请参阅图1,图1为本申请实施例提供的语音合成方法的流程示意图,该方法可以包括:
S101:获取待进行语音合成的文本。
语音合成技术(Text To Speech,TTS)一般实现将文本转化为语音,在故事机、智能儿童玩具和人机交互***等应用中,都需要将文本转化为语音,在本申请中,待进行语音合成的文本可以为在合成语音时需要情感控制的文本,比如,故事文本、对话文本等。
在本申请中,可以基于用户上传的方式获取待进行语音合成的文本,也可以基于与其他***进行通信连接的方式获取待进行语音合成的文本,比如,可以与人机交互***进行连接,获取人机交互***中用户输入的文本。
S102:确定所述文本对应的情感编码,所述情感编码用于指示语音合成的情感强度。
现有的语音合成方法,一般机械地直接将故事文本或者对话文本合成语音,合成的语音一般比较机械,没有情感,用户在听故事或与机器交互时,体验较差。另外,有些语音合成方法,只能将故事文本或者对话文本合成单一的情感语音,无法对合成语音的情感强度进行控制,导致合成的语音会出现情感过强或过弱的情况,表现力不够。
为解决上述问题,在本申请中,在对待进行语音合成的文本进行语音合成之前,先确定该文本对应的情感编码,由于该情感编码能够指示语音合成的情感强度,因此,基于该情感编码对该文本进行语音合成后生成的语音更富有感情,更加拟人化,提升了用户在听语音时的体验。
在本申请中,文本对应的情感编码是对该文本进行语音合成时所需的情感强度对应的编码,语音合成时所需的情感强度可以有多种,编码可以为预设维度的向量,比如2维、3维或更高维度的向量,不同的向量值对应不同的情感强度。
为便于理解,假设情感编码为3维向量,其中第一维表示高兴,第二维表示愤怒,第三维表示悲伤,维度的值表示该维度对应的情感的强度,则利用3维向量对不同的情感强度进行编码得到的情感编码具体如下:[0 0 0]表示情感强度为中性,[1 0 0]表示情感强度为高兴,[0 1 0]表示情感强度为愤怒,[0 0 1]表示情感强度为悲伤,[0 0 0.5]表示情感强度为较弱的悲伤,[0 0.5 0.5]可以表示情感强度为接近悲伤和愤怒。
在本申请中,可以通过不同的方式确定所述文本对应的情感强度,具体将通过后面的实施例详细说明,本实施例不再展开说明。
S103:基于所述情感编码,确定所述文本的语音合成参数。
基于语音合成技术实现将文本转化成语音时,需要确定该文本的语音合成参数,在本申请中,除了考虑现有技术中确定语音合成参数的方式之外,还进一步考虑了文本的情感编码对文本的语音合成参数的影响。
作为一种可实施方式,文本的语音合成参数可以包括时长参数和声学参数,其中时长参数可以包括每个文本单元的时长特征,声学参数可以包括每个文本单元的声学特征,声学特征可以包括谱特征和基频特征。文本单元可以为音素、音节、字、词等。
S104:对所述文本的语音合成参数进行语音合成处理,得到所述文本对应的语音。
在本申请中,可以利用声码器对文本的语音合成参数进行语音合成处理,得到文本对应的语音。由于文本的语音合成参数在确定时,考虑了文本的情感编码对文本的语音合成参数的影响,而情感编码表征了语音合成的情感强度,因此,确定出的文本的语音合成参数具有情感强度的表现力。
在本申请中,提供了几种确定文本对应的情感编码的实施方式,具体如下:
作为一种可实施方式,在本申请中可以将所述文本输入文本情感编码识别模型,得到所述文本对应的情感编码,所述文本情感编码识别模型为利用标注有情感编码的情感识别训练文本预训练得到,其中,文本情感编码识别模型的具体结构可以为各种神经网络模型,比如LSTM(long short-term memory,长短期记忆网络模型)。
需要说明的是,这种方式下,获得的情感编码,能够表征用户的情感强度,比如“一点点高兴”、“非常高兴”、“五味杂陈”等。具体的,在训练时,采用不同的向量作为各种情感强度的标注即可。比如,[0 0 0.5]可以表示较弱的悲伤情感,[0 0.5 0.5]可以接近悲伤和愤怒的情感。
作为另一种可实施方式,在本申请中可以基于如下步骤确定文本对应的情感编码,具体如下:
S201:获取所述文本对应的预设定的初始情感编码。
在本申请中,可以先获取所述文本对应的情感标签,再基于预设定的情感标签与情感编码的对应关系,确定与所述情感标签对应的情感编码,作为所述文本对应的初始情感编码。
一般情况下,常用的情感类型有四种,即中性、高兴、悲伤、愤怒,因此,本申请中,可以预设情感标签有中性、高兴、悲伤和愤怒四种,假设预设定的情感标签与情感编码的对应关系具体如下:
中性 | [0 0 0] |
高兴 | [1 0 0] |
愤怒 | [0 1 0] |
悲伤 | [0 0 1] |
如果获取文本对应的情感标签为高兴,则与高兴对应的情感编码[1 0 0]即为文本对应的初始情感编码。
作为一种实现方式,在获取文本对应的情感标签时,可以将所述文本输入文本情感识别模型,得到所述文本对应的情感标签,所述文本情感识别模型为利用标注有情感标签信息的情感识别训练文本预训练得到。
需要说明的是,文本情感识别模型的具体结构可以为各种神经网络模型,比如,LSTM(long short-termmemory,长短期记忆网络模型)。
为便于理解,请参阅附图2,图2为本申请实施例公开的一种利用情感识别模型确定文本对应的情感标签的示意图。由图中可以看出,可以对句子中每个字(图2所示的W1,W2,…Wn)进行编码,得到每个字的编码(图2所示的E1,E2,…En),然后再得到每个字的隐层状态(图2所示的h1,h2,…hn),最后,将最后一个字的隐层状态hn映射到情感标签。
具体实现是,可以先利用Word2Vec对文本中每个字进行编码,再利用LSTM模型得到每个字的隐层状态,再在最后一个的隐层状态后接一层DNN(Deep Neural Networks,深度神经网络)映射到情感标签。
S202:基于所述初始情感编码,确定所述文本对应的情感编码。
在本申请中,基于所述情感编码,确定所述文本对应的情感编码的实现方式可以有多种,具体如下:
方式一:将所述初始情感编码作为所述文本对应的情感编码。
该方式中,由于初始的情感编码已经能够在一定程度上指示情感强度,因此,可以直接将初始情感编码作为文本对应的情感编码。
但是,预设的情感标签的数量有限,一般只有中性、高兴、悲伤和愤怒四种,相应的,情感编码的数量也有限,而实际上人的情感并不能严格按照中性、高兴、悲伤和愤怒进行划分,还存在诸如“一点点高兴”、“非常高兴”、“五味杂陈”等情感,因此,基于初始情感编码合成的语音并不能够表征用户的实际情感强度。为解决该问题,本申请中又提出了如下方式:
方式二:获取情感强度信息,所述情感强度信息用于指示用户对待合成语音的情感强度需求;基于所述情感强度信息,利用插值方法对所述初始情感编码进行调整,调整后的情感编码作为所述文本对应的情感编码。
在本申请中,情感强度信息可以由用户输入,比如,用户可以输入情感强度信息为“一点点高兴”、“非常高兴”、“五味杂陈”等。或者,可以增设用户选项,不同的选项对应不同的强度,如“弱情感”、“加强情感”等。
在本申请中,可以基于所述情感强度信息,利用插值方法对所述初始情感编码进行调整,调整后的情感编码作为所述文本对应的情感编码,其中差值方法有内插方法和外插方法。利用插值方法对初始情感编码进行调整,即调整初始情感编码的范围,使得调整后的情感编码能够表征情感强度信息。
为便于理解,本申请中对内插和外插方式进行了如下介绍。
假设情感编码为3维向量,其中第一维表示高兴,第二维表示愤怒,第三维表示悲伤,初始情感编码如下:
中性 | [0 0 0] |
高兴 | [1 0 0] |
愤怒 | [0 1 0] |
悲伤 | [0 0 1] |
其中,维度的值表示相应维度的情感的强度,负数表示与该维度的情感相反的情感。
如图3所示,图3为本申请实施例公开的一种3维情感编码的插值方法示意图。
由该图可以看出,内插的方式,即基于不超过初始情感编码各维度的值的原则,对初始情感编码维度的值进行调整,在本申请中,即调整后的情感编码各维度的值不超过1,比如,[0 0 0.5]可以表示较弱的悲伤情感,[0 0.5 0.5]可以接近悲伤和愤怒的情感。外插的方式,即基于超过初始情感编码各维度的值的原则,对初始情感编码维度的值进行调整,在本申请中,即调整后的情感编码各维度的值超过1,比如,[2 0 0]可以表示非常高兴的情感,[0 2 2]可以表示很悲伤又很愤怒的情感。
需要说明的是,在本申请中,对于采用其他维度数的向量表示的情感编码,也可以采用内插和外插的方式进行调整。如4维的情感编码,[1 0 0 0],[0 1 0 0],[0 0 1 0],[00 0 1]分别表示中性,高兴,悲伤和愤怒。[0.3 0.5 0 0]表示的高兴较弱,[0 0 0 1.5]表示非常愤怒。
如图4所示,图4为本申请实施例公开的一种2维情感编码的插值方法示意图。由图4可以看出,2维的情感编码,[0 0],[1 0],[-1 0],[0 1]分别表示中性,高兴,悲伤和愤怒,[0.5 0]表示弱一点的高兴情感,[-0.5 0.5]表示悲伤和愤怒的综合情感,[0 2]表示非常愤怒的情感等。
在本申请中,公开了一种基于所述情感编码,确定所述文本的语音合成参数的具体实现方式,该方式可以包括:
S301:获取所述文本的文本单元序列。
在本申请中,可以基于文本单元模型和韵律模型确定文本的文本单元序列,由于文本单元模型和韵律模型为目前成熟的模型,因此,本申请中不再详细描述。
S302:将所述情感编码和所述文本单元序列输入融合模型,得到融合模型输出的所述文本的语音合成参数,其中,融合模型以训练语音的情感编码,和训练语音对应文本的文本单元序列为训练样本,以训练语音对应文本的标注语音合成参数为样本标签训练得到。
在本申请中,训练语音的情感编码可以采用上述确定情感编码的方式确定,具体请参见上述实施例中的相关描述。训练语音对应的文本可以基于现有的语音识别技术得到,训练语音对应文本的标注语音合成参数,可以基于对训练语音进行解码得到,具体实现均为目前成熟技术,本申请中不再详述。
需要说明的是,融合模型在训练时,相对于现有技术中获取语音合成参数的模型的训练过程,增加了训练语音的情感编码这一训练样本,使得融合模型学习到了情感编码对于语音合成参数的调节方式。
作为一种可实施方式,本申请实施例公开了一种融合模型的具体结构,具体如下:
请参阅附图5,图5为本申请实施例公开的一种融合模型的具体结构示意图,由图5可以看出,该融合模型可以由时长模型和声学模型组成,其中时长模型和声学模型的模型结构与现有的时长模型和声学模型的结构相同,都包括输入层、全连接层、特征提取层和输出层。其中,全连接层和特征提取层之间具有激活函数,特征提取层和输出层之间具有激活函数。
需要说明的是,与现有的时长模型和声学模型不同的是,本申请中,时长模型的输入中除了文本单元序列之外,还输入了情感编码,声学模型的输入中除了文本单元序列之外,还输入了情感编码,而且,还考虑了所述情感编码对所述时长模型的激活函数的调整权重以及情感编码对所述声学模型的激活函数的调整权重,即时长模型的全连接层和特征提取层之间的激活函数增加了情感编码和第一调整权重组成的参数,特征提取层和输出层之间的激活函数增加了情感编码和第二调整权重组成的参数,声学模型的全连接层和特征提取层之间的激活函数增加了情感编码和第三调整权重组成的参数,特征提取层和输出层之间的激活函数增加了情感编码和第四调整权重组成的参数。
为便于理解,假设时长模型和声学模型的全连接层和特征提取层之间的初始激活函数都为为tanh(Wx+b),则本申请中,时长模型的全连接层和特征提取层之间的激活函数为tanh(Wx+b+V11EC),声学模型的全连接层和特征提取层之间的激活函数为tanh(Wx+b+V21EC),假设时长模型和声学模型的特征提取层和输出层之间的初始激活函数tanh(Wx+Whh+b),则本申请中,时长模型的特征提取层和输出层之间的激活函数为tanh(Wx+Whh+b+V12EC),声学模型的特征提取层和输出层之间的激活函数为tanh(Wx+Whh+b+V22EC),其中EC表示情感编码,V11为情感编码对时长模型的激活函数的第一调整权重,V12为情感编码对时长模型的激活函数的第二调整权重,V21为情感编码对声学模型的激活函数的第三调整权重,V22为情感编码对声学模型的激活函数的第四调整权重。Wx、Whh、b是时长模型和声学模型可学习的参数。
在训练时,保持训练语音的情感编码不变,将训练语音的情感编码,和训练语音对应文本的文本单元序列为训练样本,以训练语音对应文本的标注时长参数和标注声学参数为样本标签,时长模型输出的时长参数趋近于训练语音对应文本的标注时长参数,且所述声学模型输出的声学参数趋近于训练语音对应文本的标注声学参数为训练目标,即可训练得到整合模型的参数,即上述第一调整权重、第二调整权重、第三调整权重、第四调整权重、时长模型的参数(Wx、Whh、b)、声学模型的参数(Wx、Whh、b)。
需要说明的是,由于情感编码对语音情感的控制,对大部分人是相似的,因此,可以利用既有的较大数据量、质量较好的音频作为训练语音实现对上述第一调整权重、第二调整权重、第三调整权重和第四调整权重的训练。当需要快速定制特定人物的情感语音时,可以将第一调整权重、第二调整权重、第三调整权重和第四调整权重不变,利用特定人物的情感语音语料训练得到融合模型中声学模型和时长模型的参数,使得融合模型输出的语音合成参数与特定人物的语音合成参数的输出,提高了训练效率。
基于以上融合模型,本申请提供了一种将所述情感编码和所述文本单元序列输入融合模型,得到融合模型输出的所述文本的语音合成参数的具体实现方式,该方式可以包括:
S401:将所述情感编码和所述文本单元序列输入融合模型的时长模型,基于情感编码对所述时长模型的激活函数的调整权重,得到所述文本的语音合成参数中的时长参数。
在本申请中,经过上述训练,已经训练得到情感编码对时长模型的激活函数的调整权重,以及时长模型的参数,因此,本申请中,将所述情感编码和所述文本单元序列输入融合模型的时长模型之后,即可基于情感编码对所述时长模型的激活函数的调整权重,以及时长模型的参数,对情感编码和所述文本单元序列进行处理,得到文本的语音合成参数中的时长参数。
S402:将所述情感编码和所述文本单元序列输入融合模型的声学模型,基于情感编码对所述声学模型的激活函数的调整权重,得到所述文本的语音合成参数中的声学参数。
在本申请中,经过上述训练,已经训练得到情感编码对声学模型的激活函数的调整权重,以及声学模型的参数,因此,本申请中,将所述情感编码和所述文本单元序列输入融合模型的声学模型之后,即可基于情感编码对所述声学模型的激活函数的调整权重,以及声学模型的参数,对情感编码和所述文本单元序列进行处理,得到文本的语音合成参数中的声学参数。
下面对本申请实施例公开的语音合成装置进行描述,下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。
参照图6,图6为本申请实施例公开的一种语音合成装置结构示意图。如图6所示,该语音合成装置可以包括:
获取单元11,用于获取待进行语音合成的文本;
情感编码确定单元12,用于确定所述文本对应的情感编码,所述情感编码用于指示语音合成的情感强度;
语音合成参数确定单元13,用于基于所述情感编码,确定所述文本的语音合成参数;
语音合成处理单元14,用于对所述文本的语音合成参数进行语音合成处理,得到所述文本对应的语音。
可选地,所述情感编码确定单元,包括:
第一确定单元,用于将所述文本输入文本情感编码识别模型,得到所述文本对应的情感编码,所述文本情感编码识别模型为利用标注有情感编码的情感识别训练文本预训练得到。
可选地,情感编码确定单元,包括:
初始情感编码获取单元,用于获取所述文本对应的预设定的初始情感编码;
第二确定单元,用于基于所述初始情感编码,确定所述文本对应的情感编码。
可选地,所述第二确定单元,包括:
第一确定子单元,用于将所述初始情感编码作为所述文本对应的情感编码;
或,
情感强度信息获取单元,用于获取情感强度信息,所述情感强度信息用于指示用户对待合成语音的情感强度需求;
第二确定子单元,用于基于所述情感强度信息,利用插值方法对所述初始情感编码进行调整,调整后的情感编码作为所述文本对应的情感编码。
可选地,所述初始情感编码获取单元,包括:
情感标签获取单元,用于获取所述文本对应的情感标签;
初始情感编码获取子单元,用于基于预设定的情感标签与情感编码的对应关系,确定与所述情感标签对应的情感编码,作为所述文本对应的初始情感编码。
可选地,所述语音合成参数确定单元,包括:
文本单元序列获取单元,用于获取所述文本的文本单元序列;
融合模型处理单元,用于将所述情感编码和所述文本单元序列输入融合模型,得到融合模型输出的所述文本的语音合成参数,其中,融合模型以训练语音的情感编码,和训练语音对应文本的文本单元序列为训练样本,以训练语音对应文本的标注语音合成参数为样本标签训练得到。
可选地,所述融合模型处理单元,包括:
时长模型处理单元,用于将所述情感编码和所述文本单元序列输入融合模型的时长模型,基于情感编码对所述时长模型的激活函数的调整权重,得到所述文本的语音合成参数中的时长参数;
声学模型处理单元,用于将所述情感编码和所述文本单元序列输入融合模型的声学模型,基于情感编码对所述声学模型的激活函数的调整权重,得到所述文本的语音合成参数中的声学参数;
其中,所述情感编码对所述时长模型的激活函数的调整权重以及情感编码对所述声学模型的激活函数的调整权重,是以所述时长模型输出的时长参数趋近于训练语音对应文本的标注时长参数,且所述声学模型输出的声学参数趋近于训练语音对应文本的标注声学参数为训练目标,训练得到的。
需要说明的是,上述各个单元的具体功能实现已在方法实施例中详细说明,本实施例不再赘述。
图7为本申请实施例公开的语音合成设备的硬件结构框图,参照图7,语音合成设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC
(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待进行语音合成的文本;
确定所述文本对应的情感编码,所述情感编码用于指示语音合成的情感强度;
基于所述情感编码,确定所述文本的语音合成参数;
对所述文本的语音合成参数进行语音合成处理,得到所述文本对应的语音。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待进行语音合成的文本;
确定所述文本对应的情感编码,所述情感编码用于指示语音合成的情感强度;
基于所述情感编码,确定所述文本的语音合成参数;
对所述文本的语音合成参数进行语音合成处理,得到所述文本对应的语音。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
获取待进行语音合成的文本;
确定所述文本对应的情感编码,所述情感编码用于指示语音合成的情感强度;
基于所述情感编码,确定所述文本的语音合成参数;
对所述文本的语音合成参数进行语音合成处理,得到所述文本对应的语音。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本对应的情感编码,包括:
将所述文本输入文本情感编码识别模型,得到所述文本对应的情感编码,所述文本情感编码识别模型为利用标注有情感编码的情感识别训练文本预训练得到。
3.根据权利要求1所述的方法,其特征在于,确定所述文本对应的情感编码,包括:
获取所述文本对应的预设定的初始情感编码;
基于所述初始情感编码,确定所述文本对应的情感编码。
4.根据权利要求3所的方法,其特征在于,所述基于所述初始情感编码,确定所述文本对应的情感编码,包括:
将所述初始情感编码作为所述文本对应的情感编码;
或,
获取情感强度信息,所述情感强度信息用于指示用户对待合成语音的情感强度需求;
基于所述情感强度信息,利用插值方法对所述初始情感编码进行调整,调整后的情感编码作为所述文本对应的情感编码。
5.根据权利要求3或4所述的方法,其特征在于,所述获取所述文本对应的预设定的初始情感编码,包括:
获取所述文本对应的情感标签;
基于预设定的情感标签与情感编码的对应关系,确定与所述情感标签对应的情感编码,作为所述文本对应的初始情感编码。
6.根据权利要求1所述的方法,其特征在于,所述基于所述情感编码,确定所述文本的语音合成参数,包括:
获取所述文本的文本单元序列;
将所述情感编码和所述文本单元序列输入融合模型,得到融合模型输出的所述文本的语音合成参数,其中,融合模型以训练语音的情感编码,和训练语音对应文本的文本单元序列为训练样本,以训练语音对应文本的标注语音合成参数为样本标签训练得到。
7.根据权利要求6所述的方法,其特征在于,所述将所述情感编码和所述文本单元序列输入融合模型,得到融合模型输出的所述文本的语音合成参数,包括:
将所述情感编码和所述文本单元序列输入融合模型的时长模型,基于情感编码对所述时长模型的激活函数的调整权重,得到所述文本的语音合成参数中的时长参数;
将所述情感编码和所述文本单元序列输入融合模型的声学模型,基于情感编码对所述声学模型的激活函数的调整权重,得到所述文本的语音合成参数中的声学参数;
其中,所述情感编码对所述时长模型的激活函数的调整权重以及情感编码对所述声学模型的激活函数的调整权重,是以所述时长模型输出的时长参数趋近于训练语音对应文本的标注时长参数,且所述声学模型输出的声学参数趋近于训练语音对应文本的标注声学参数为训练目标,训练得到的。
8.一种语音合成装置,其特征在于,包括:
获取单元,用于获取待进行语音合成的文本;
情感编码确定单元,用于确定所述文本对应的情感编码,所述情感编码用于指示语音合成的情感强度;
语音合成参数确定单元,用于基于所述情感编码,确定所述文本的语音合成参数;
语音合成处理单元,用于对所述文本的语音合成参数进行语音合成处理,得到所述文本对应的语音。
9.一种语音合成设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至7中任一项所述的语音合成方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的语音合成方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911393613.5A CN111128118B (zh) | 2019-12-30 | 2019-12-30 | 语音合成方法、相关设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911393613.5A CN111128118B (zh) | 2019-12-30 | 2019-12-30 | 语音合成方法、相关设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111128118A true CN111128118A (zh) | 2020-05-08 |
CN111128118B CN111128118B (zh) | 2024-02-13 |
Family
ID=70504839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911393613.5A Active CN111128118B (zh) | 2019-12-30 | 2019-12-30 | 语音合成方法、相关设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128118B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270920A (zh) * | 2020-10-28 | 2021-01-26 | 北京百度网讯科技有限公司 | 一种语音合成方法、装置、电子设备和可读存储介质 |
CN112786004A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音合成方法以及电子设备、存储装置 |
CN112786005A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 信息合成方法、装置、电子设备和计算机可读存储介质 |
CN113096640A (zh) * | 2021-03-08 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
CN113112987A (zh) * | 2021-04-14 | 2021-07-13 | 北京地平线信息技术有限公司 | 语音合成方法、语音合成模型的训练方法及装置 |
WO2022105553A1 (zh) * | 2020-11-20 | 2022-05-27 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
WO2022121181A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 新闻智能播报方法、装置、设备及存储介质 |
WO2023221345A1 (zh) * | 2022-05-16 | 2023-11-23 | 网易(杭州)网络有限公司 | 一种情感语音的合成方法及合成装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1461463A (zh) * | 2001-03-09 | 2003-12-10 | 索尼公司 | 语音合成设备 |
CN101176146A (zh) * | 2005-05-18 | 2008-05-07 | 松下电器产业株式会社 | 声音合成装置 |
CN102385858A (zh) * | 2010-08-31 | 2012-03-21 | 国际商业机器公司 | 情感语音合成方法和*** |
CN107958433A (zh) * | 2017-12-11 | 2018-04-24 | 吉林大学 | 一种基于人工智能的在线教育人机交互方法与*** |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、***及终端设备 |
CN109754779A (zh) * | 2019-01-14 | 2019-05-14 | 出门问问信息科技有限公司 | 可控情感语音合成方法、装置、电子设备及可读存储介质 |
CN109949791A (zh) * | 2019-03-22 | 2019-06-28 | 平安科技(深圳)有限公司 | 基于hmm的情感语音合成方法、装置及存储介质 |
CN110379409A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 语音合成方法、***、终端设备和可读存储介质 |
-
2019
- 2019-12-30 CN CN201911393613.5A patent/CN111128118B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1461463A (zh) * | 2001-03-09 | 2003-12-10 | 索尼公司 | 语音合成设备 |
CN101176146A (zh) * | 2005-05-18 | 2008-05-07 | 松下电器产业株式会社 | 声音合成装置 |
CN102385858A (zh) * | 2010-08-31 | 2012-03-21 | 国际商业机器公司 | 情感语音合成方法和*** |
CN107958433A (zh) * | 2017-12-11 | 2018-04-24 | 吉林大学 | 一种基于人工智能的在线教育人机交互方法与*** |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、***及终端设备 |
CN109754779A (zh) * | 2019-01-14 | 2019-05-14 | 出门问问信息科技有限公司 | 可控情感语音合成方法、装置、电子设备及可读存储介质 |
CN109949791A (zh) * | 2019-03-22 | 2019-06-28 | 平安科技(深圳)有限公司 | 基于hmm的情感语音合成方法、装置及存储介质 |
CN110379409A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 语音合成方法、***、终端设备和可读存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270920A (zh) * | 2020-10-28 | 2021-01-26 | 北京百度网讯科技有限公司 | 一种语音合成方法、装置、电子设备和可读存储介质 |
WO2022105553A1 (zh) * | 2020-11-20 | 2022-05-27 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
WO2022121181A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 新闻智能播报方法、装置、设备及存储介质 |
CN112786004A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音合成方法以及电子设备、存储装置 |
CN112786005A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 信息合成方法、装置、电子设备和计算机可读存储介质 |
WO2022141714A1 (zh) * | 2020-12-30 | 2022-07-07 | 科大讯飞股份有限公司 | 信息合成方法、装置、电子设备和计算机可读存储介质 |
CN112786005B (zh) * | 2020-12-30 | 2023-12-01 | 科大讯飞股份有限公司 | 信息合成方法、装置、电子设备和计算机可读存储介质 |
CN112786004B (zh) * | 2020-12-30 | 2024-05-31 | 中国科学技术大学 | 语音合成方法以及电子设备、存储装置 |
CN113096640A (zh) * | 2021-03-08 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
CN113112987A (zh) * | 2021-04-14 | 2021-07-13 | 北京地平线信息技术有限公司 | 语音合成方法、语音合成模型的训练方法及装置 |
CN113112987B (zh) * | 2021-04-14 | 2024-05-03 | 北京地平线信息技术有限公司 | 语音合成方法、语音合成模型的训练方法及装置 |
WO2023221345A1 (zh) * | 2022-05-16 | 2023-11-23 | 网易(杭州)网络有限公司 | 一种情感语音的合成方法及合成装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111128118B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128118B (zh) | 语音合成方法、相关设备及可读存储介质 | |
CN110211563B (zh) | 面向情景及情感的中文语音合成方法、装置及存储介质 | |
CN106773923B (zh) | 面向机器人的多模态情感数据交互方法及装置 | |
CN111489734B (zh) | 基于多说话人的模型训练方法以及装置 | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
JP2022107032A (ja) | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
CN111667812A (zh) | 一种语音合成方法、装置、设备及存储介质 | |
KR101160193B1 (ko) | 감성적 음성합성 장치 및 그 방법 | |
CN112786004B (zh) | 语音合成方法以及电子设备、存储装置 | |
CN112185363B (zh) | 音频处理方法及装置 | |
WO2021212954A1 (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
JP2020034883A (ja) | 音声合成装置及びプログラム | |
CN116129863A (zh) | 语音合成模型的训练方法、语音合成方法及相关装置 | |
CN112599113A (zh) | 方言语音合成方法、装置、电子设备和可读存储介质 | |
US11404045B2 (en) | Speech synthesis method and apparatus | |
CN116597858A (zh) | 语音口型匹配方法、装置、存储介质及电子设备 | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
CN115359780A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN116129852A (zh) | 语音合成模型的训练方法、语音合成方法及相关设备 | |
CN114627851A (zh) | 一种语音合成方法及*** | |
CN114708876A (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN113870838A (zh) | 一种语音合成方法、装置、设备及介质 | |
CN113555027A (zh) | 语音情感转换方法、装置、计算机设备及存储介质 | |
Matsumoto et al. | Speech-like emotional sound generation using wavenet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |