CN112599113B - 方言语音合成方法、装置、电子设备和可读存储介质 - Google Patents
方言语音合成方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN112599113B CN112599113B CN202011611428.1A CN202011611428A CN112599113B CN 112599113 B CN112599113 B CN 112599113B CN 202011611428 A CN202011611428 A CN 202011611428A CN 112599113 B CN112599113 B CN 112599113B
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- dialect
- vector
- determining
- input text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 8
- 239000013598 vector Substances 0.000 claims description 123
- 230000015572 biosynthetic process Effects 0.000 claims description 40
- 238000003786 synthesis reaction Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 35
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 26
- 241000282414 Homo sapiens Species 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000013507 mapping Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 235000012054 meals Nutrition 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 230000002035 prolonged effect Effects 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
- G10L2013/105—Duration
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例提供了一种方言语音合成方法、装置、电子设备和可读存储介质,涉及计算机技术领域,通过本发明实施例,可以基于发音向量中的韵律信息以及发音向量对应的发音时长,使得合成语音可以具有停顿、延长音等人类常用的说话形式,然后,还可以基于方言音调为合成语音附加方言独有的音高(也即方言独有的发音方式),使得合成语音更加贴近人类的说话方式,最终,基于发音向量、发音时长以及方言音调确定的合成语音可以与人声具有较高的相似度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种方言语音合成方法、装置、电子设备和可读存储介质。
背景技术
目前,机器合成语音可以应用在各种场景,例如在线教育、视频配音以及解说等等,由于机器合成语音的存在,即节省了人力成本,也提升了趣味性。
然而,目前的机器合成语音过于生硬,导致机器合成语音相对于人声的相似度很低。
发明内容
有鉴于此,本发明实施例提供一种方言语音合成方法、装置、电子设备和可读存储介质,可以合成与人声具有较高的相似度的合成语音。
第一方面,提供了一种方言语音合成方法,所述方法应用于电子设备,所述方法包括:
获取输入文本;
确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;
确定各所述发音向量对应的发音时长以及方言音调,所述发音时长用于表征发音的持续时长,所述方言音调用于表征发音的音高;以及
基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音。
可选的,所述确定所述输入文本中至少一个字的发音向量,包括:
对所述输入文本中至少一个字进行向量化处理,确定所述输入文本中至少一个字的发音向量。
可选的,所述确定所述输入文本中至少一个字的发音向量,包括:
基于预先设置的文字和拼音的对应关系,确定所述输入文本中至少一个字的拼音信息;以及
对所述拼音信息进行向量化处理,确定所述拼音信息的发音向量。
可选的,所述确定各所述发音向量对应的发音时长,包括:
基于预先训练的发音时长预测模型,将各所述发音向量作为输入,获取所述发音时长预测模型输出的各所述发音向量的发音时长。
可选的,所述确定各所述发音向量对应的方言音调,包括:
基于预先训练的方言语调预测模型,将各所述发音向量作为输入,获取所述方言音调预测模型输出的各所述发音向量的方言音调,所述方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。
可选的,所述基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音,包括:
基于预先训练的语音合成模型,将所述发音向量、所述发音时长以及所述方言音调作为输入,获取所述语音合成模型输出的合成频谱;以及
通过声码器以及所述合成频谱,确定所述输入文本对应的合成语音。
第二方面,提供了一种方言语音合成装置,所述装置应用于电子设备,所述装置包括:
获取模块,用于获取输入文本;
第一确定模块,用于确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;
第二确定模块,用于确定各所述发音向量对应的发音时长以及方言音调,所述发音时长用于表征发音的持续时长,所述方言音调用于表征发音的音高;以及
合成模块,用于基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音。
可选的,所述第一确定模块,具体用于:
对所述输入文本中至少一个字进行向量化处理,确定所述输入文本中至少一个字的发音向量。
可选的,所述第一确定模块,具体用于:
基于预先设置的文字和拼音的对应关系,确定所述输入文本中至少一个字的拼音信息;以及
对所述拼音信息进行向量化处理,确定所述拼音信息的发音向量。
可选的,所述第二确定模块,具体用于:
基于预先训练的发音时长预测模型,将各所述发音向量作为输入,获取所述发音时长预测模型输出的各所述发音向量的发音时长。
可选的,所述第二确定模块,具体用于:
基于预先训练的方言语调预测模型,将各所述发音向量作为输入,获取所述方言音调预测模型输出的各所述发音向量的方言音调,所述方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。
可选的,所述合成模块,具体用于:
基于预先训练的语音合成模型,将所述发音向量、所述发音时长以及所述方言音调作为输入,获取所述语音合成模型输出的合成频谱;以及
通过声码器以及所述合成频谱,确定所述输入文本对应的合成语音。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
通过本发明实施例,可以基于发音向量中的韵律信息以及发音向量对应的发音时长,使得合成语音可以具有停顿、延长音等人类常用的说话形式,然后,还可以基于方言音调为合成语音附加方言独有的音高(也即方言独有的发音方式),使得合成语音更加贴近人类的说话方式,最终,基于发音向量、发音时长以及方言音调确定的合成语音可以与人声具有较高的相似度。
附图说明
通过以下参照附图对本发明实施例的描述,本发明实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例提供的一种方言语音合成方法的流程图;
图2为本发明实施例提供的一种确定合成语音过程的示意图;
图3为本发明实施例提供的另一种确定合成语音过程的示意图;
图4为本发明实施例提供的一种发音时长预测模型的示意图;
图5为本发明实施例提供的一种前馈网络模块的示意图;
图6为本发明实施例提供的一种长度调节器的示意图;
图7为本发明实施例提供的一种音素持续时间预测器的示意图;
图8为本发明实施例提供的一种方言音调预测过程的示意图;
图9为本发明实施例提供的一种音高预测器的示意图;
图10为本发明实施例提供的一种方言语音合成装置的结构示意图;
图11为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
目前,机器合成语音可以应用在各种场景,例如在线教育、视频配音以及解说等等,具体的,在线教育的场景中,在线教育平台可以构建虚拟人物,并为该虚拟人物配置机器合成语音,然后在线教育平台可以将配有机器合成语音的虚拟人物展示在学生端的显示界面,以实现机器点名等功能,即节省了人力成本,也提升了趣味性。
同样的,机器合成语音也可以应用于视频配音以及解说等功能,本发明实施例在此不做过多赘述。
但是,相关技术中,机器合成语音的发音过于生硬,导致机器合成语音听起来与真人说出的语音差别较大,进而还可能会降低使用者的用户体验。
为了使机器合成语音与真人的语音更加相近,本发明实施例提供一种方言语音合成方法,该方法可以应用于电子设备,其中,电子设备可以是智能手机、平板电脑或者个人计算机(Personal Computer,PC)等,电子设备也可以是单个服务器,也可以是以分布式方式配置的服务器集群,还可以是云服务器。
具体的,如图1所示,该方法可以包括以下步骤:
在步骤100,获取输入文本。
在步骤200,确定输入文本中至少一个字的发音向量。
其中,发音向量至少包括对应字的韵律信息,具体的,韵律信息可以用于表征发音的节奏。可选的,在本发明实施例中,可以通过在每个字之后添加停顿,以实现合成带有韵律的语音。
在步骤300,确定各发音向量对应的发音时长以及方言音调。
其中,发音时长用于表征发音的持续时长,方言音调用于表征发音的音高。
在步骤400,基于发音向量、发音时长以及方言音调,合成输入文本对应的合成语音。
通过本发明实施例,可以基于发音向量中的韵律信息以及发音向量对应的发音时长,使得合成语音可以具有停顿、延长音等人类常用的说话形式,然后,还可以基于方言音调为合成语音附加方言独有的音高(也即方言独有的发音方式),使得合成语音更加贴近人类的说话方式,最终,基于发音向量、发音时长以及方言音调确定的合成语音可以与人声具有较高的相似度。
在本发明实施例中,电子设备可以获取一段输入文本,然后确定该输入文本对应的合成语音,其中,该输入文本可以是人工输入的文字,也可以是通过预先设置的语音识别算法,针对一段语音识别的文字。
例如,在一个在线教育的场景中,电子设备可以是在线教育平台,该平台的数据库中可以预先存储工作人员录入的学生名单,当某一节在线教育课堂开始时,该平台可以从数据库中获取部分学生名单(即该节在线教育课堂对应的学生名单),并将这部分学生名单作为输入文本,进而确定合成语音。
当电子设备获取输入文本后,可以确定输入文本中至少一个字的发音向量。
在一种可实施方式中,步骤200可以执行为:对输入文本中至少一个字进行向量化处理,确定输入文本中至少一个字的发音向量。
在实际应用中,可以先对输入文本中至少一个字进行嵌入(Embedding)处理,然后将Embedding之后的向量作为发音向量。
Embedding是深度学习中常用的特征提取手段,具体的,特征提取就是把高维原始数据(图像、文字等)映射到低维流形(Manifold),使得高维原始数据被映射到低维流形之后变得可分离,这个映射的过程可以叫做Embedding,例如Word Embedding,就是把单词组成的句子映射到一个表征向量,而在本发明实施例中,Embedding的对象是输入文本中的字。
另外,在发音向量中包括对应字的韵律信息,在本发明实施例中,可以通过在发音向量对应字之后添加预定时长的空白音(即停顿),以实现合成带有韵律的语音,也即合成更加贴合人类说话的语音。
例如,输入文本是“你今天吃过饭了吗”,如果该输入文本对应的合成语音中的每个字之间没有停顿,则该合成语音的听感会十分生硬。
进而,如图2所示,图2为本发明实施例提供的一种确定合成语音过程的示意图,该示意图包括:输入文本a和合成语音b。
在针对输入文本a“你今天吃过饭了吗”进行语音合成的过程中,本发明实施例可以先确定该输入文本a中每个字对应的带有韵律信息的发音向量,然后基于该发音向量确定该发音向量对应的发音时长和方言音调,然后,基于发音向量、发音时长和方言音调进行语音合成,确定合成语音b。
在合成语音b中,文字“你”、“天”、“饭”和“吗”之后带有预定时长的空白音,文字“今”、“吃”、“过”和“了”之后没有空白音,因此,通过在合成语音b中添加带有预定时长的空白音后,可以使得合成语音b中包括多个连续发音的短文本(如图2中下划线所标注的文本),并且每个短文本之间带有停顿。
也就是说,在合成语音b中,短文本包括:“你”、“今天”、“吃过饭”和“了吗”,而且,上述4个短文本之间以及最后一个短文本(“了吗”)之后,均被添加了带有预定时长的空白音,使得合成语音b的读音带有韵律,进而更加贴合人类说话的语音。
在另一种可实施方式中,步骤200也可以执行为:基于预先设置的文字和拼音的对应关系,确定输入文本中至少一个字的拼音信息;对拼音信息进行向量化处理,确定拼音信息的发音向量。
具体的,在本发明实施例中,可以基于字典等工具预先设置文字和拼音的对应关系,当接收到输入文本后,可以针对输入文本中的每个字,确定每个字对应的拼音,然后针对每个字的拼音分别进行Embedding处理,确定每个拼音的特征向量,然后将该特征向量作为对应字的发音向量。
例如,如图3所示,图3为本发明实施例提供的另一种确定合成语音过程的示意图,该示意图包括:输入文本a、合成语音b和拼音文本c。
在针对输入文本a“你今天吃过饭了吗”进行语音合成的过程中,本发明实施例可以先基于预先设定的对应关系,确定该输入文本a中每个字对应的拼音,得到拼音文本c,拼音文本c中的每个拼音对应为输入文本a中每个字的读音。
然后,本发明实施例可以针对拼音文本c中的每个拼音,确定每个拼音对应的带有韵律信息的发音向量,然后基于该发音向量确定该发音向量对应的发音时长和方言音调,然后,基于发音向量、发音时长和方言音调进行语音合成,确定合成语音b。
通过本发明实施例,由于文字和拼音的对应关系是基于字典等工具进行建立的,所以,通过拼音确定的发音向量可以更准确的表征文字的读音,进而使得合成语音的发音更准确。
在合成语音b中,文字“你”、“天”、“饭”和“吗”之后带有预定时长的空白音,文字“今”、“吃”、“过”和“了”之后没有空白音,因此,通过在合成语音b中添加带有预定时长的空白音后,可以使得合成语音b中包括多个连续发音的短文本(如图2中下划线所标注的文本),并且每个短文本之间带有停顿。
也就是说,在合成语音b中,短文本包括:“你”、“今天”、“吃过饭”和“了吗”,而且,上述4个短文本之间以及最后一个短文本(“了吗”)之后,均被添加了带有预定时长的空白音,使得合成语音b的读音带有韵律,进而更加贴合人类说话的语音。
需要进一步说明的,当电子设备确定发音向量后,可以基于各发音向量,确定每个发音向量对应的发音时长以及方言音调。
具体的,确定发音时长的过程具体可以执行为:基于预先训练的发音时长预测模型,将各发音向量作为输入,获取发音时长预测模型输出的各发音向量的发音时长。
在一种可实施方式中,如图4所示,图4为本发明实施例提供的一种发音时长预测模型的示意图,该示意图包括:发音时长预测模型41、发音时长预测模型41的输入(发音向量)、发音时长预测模型41的输出(发音时长)和位置编码。
其中,发音向量为通过上述步骤200确定的输入文本中至少一个字的发音向量,位置编码用于表征发音向量对应字在输入文本中的位置信息,发音时长预测模型41包括:N层的前馈网络模块(Feed-Forward Transformer Block)411、长度调节器(LengthRegulator)412、N层的前馈网络模块413和线性层(Linear Layer)414。
在本发明实施例中,发音向量作为发音时长预测模型41的输入,首先与位置编码进行求和,然后输入至N层的前馈网络模块411。
前馈网络模块可以基于注意力机制对输入的数据进行处理,具体的,如图5所示,图5为本发明实施例提供的一种前馈网络模块51的示意图,具体的,前馈网络模块51包括:多头注意力模块(multi-head attention)511、求和&规范化模块(Add&Norm)512、一维卷积网络(Conv 1D)513和求和&规范化模块514,其中,multi-head attention的机制具体由查询、键值的映射以及输出组成,其中查询、键、值和输出都是向量,输出被计算为值的加权和,分配给每个值的权重由查询与相应密钥的兼容性函数计算得到;Add&Norm可以将前一层的输入和输出相加并输入Norm模块进行规范化处理;Conv 1D用于一维的卷积运算。
长度调节器412用于解决前馈网络模块411中音素和频谱图序列之间的长度不匹配问题,具体的,如图6所示,图6为本发明实施例提供的一种长度调节器61的示意图,该示意图具体包括:音素a、音素b、音素c、音素d、音素持续时间预测器611以及梅尔频谱序列长度调节单元(Length Regulator,LR)。
其中,长度调节器61的输入为音素(即音素a、音素b、音素c和音素d),每个音素具有固定的初始发音时长,也就是说,输入长度调节器61的各音素的发音时长相同。
然后,长度调节器61可以将各音素输入至音素持续时间预测器611,音素持续时间预测器611可以预测出各音素的持续时长,即图6中的D(duration),如图6所示,D=[2,2,3,1],其中,D中的数值依次对应音素a、音素b、音素c和音素d,每个数值分别表征对应音素的持续时间,更进一步的,每个数值分别表征对应音素将要被扩展的倍数。
具体的,针对音素持续时间预测器611,如图7所示,图7为本发明实施例提供的一种音素持续时间预测器71的示意图,其中,该示意图包括音素持续时间预测器71的工作流程以及音素持续时间预测器71的训练流程。
其中,音素持续时间预测器71包括一维卷积+规范化层(Conv1D+Norm)711、一维卷积+规范化层712和一个线性输出层(Linear Layer)713,当音素持续时间预测器71接收到输入的音素后,可以基于一维卷积运算以及线性运算,确定该音素对应的持续时间。
在一种可实施的训练过程中,可以将一个预先训练的自回归模型(autoregressive transformer text-to-speech,autoregressive transformer TTS)714作为教师模型,在训练的过程中,可以将音素输入至教师模型,以确定教师模型输出的语音,然后通过时长提取器715,获取该音素对应的持续时间A,当待训练的音素持续时间预测器输出一个持续时间B后,可以将持续时间A作为持续时间B的标注,通过损失函数716反向传播音素持续时间预测器71,以使得音素持续时间预测器71的参数稳定。其中,损失函数716可以是均方根误差函数,也可以是其它适用的损失函数,本发明实施例对此不作限定。
在图6中,当音素持续时间预测器611输出D后,长度调节器61可以基于梅尔频谱序列长度调节单元,结合D、超参数(α)、音素a、音素b、音素c和音素d,确定梅尔频谱序列,其中α用于控制梅尔频谱序列的总体长度,进而实现控制语音的速度,例如,α=1表征正常语速,α=1.3表征较慢的语速,α=0.5表征较快的语速。
综上,在图6中,通过长度调节器61,可以基于输入的音素确定各个音素长度不一的梅尔频谱序列。
更进一步的,如图4所示,当长度调节器412输出各个音素长度不一的梅尔频谱序列后,经过位置编码、N层的前馈网络模块413以及线性层414的计算,最终发音时长预测模型41可以输出每个发音向量对应的发音时长。
另一方面,电子设备还可以基于发音向量确定方言音调,具体的,确定方言音调的过程具体可以执行为:基于预先训练的方言语调预测模型,将各发音向量作为输入,获取方言音调预测模型输出的各发音向量的方言音调。
其中,方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。
如图8所示,图8为本发明实施例提供的一种方言音调预测过程的示意图,该示意图包括:方言音调预测模型81、发音向量和方言音调。
其中,方言音调预测模型81包括:N层的前馈网络模块811、音高预测器(pitchpredictor)812、重复层(repeat)813、N层的前馈网络模块814和全连接层(Fullyconnected layer,FC layer)815。
音高预测器812可以用于预测发音向量对应的音高,在本发明实施例中,可以使用方言音调标注的训练样本对方言音调预测模型81进行预训练,使得音高预测器812可以准确预测发音向量对应的音高。
在实际应用中,方言的发音方式与普通话的发音方式其中一个不同之处在于音高的不同,也就是说,通过改变每个字的音高可以使得普通话的语音具有方言韵味。
如图9所示,图9为本发明实施例提供的一种音高预测器的示意图,该示意图包括:一维卷积网络911、一维卷积网络912、全连接层913、一维卷积网络914和损失函数915。
其中,音高预测器可以接收前馈网络模块的输出,并将前馈网络模块的输出作为音高预测器的输入,然后,将该输入依次通过一维卷积网络911、一维卷积网络912、全连接层913以及一维卷积网络914,然后将一维卷积网络914的输出与音高预测器的输入进行求和,确定发音向量对应的音高。
另外需要说明的是,在训练的过程中(如图9中虚线所指的方向),可以基于全连接层913的输出、预先设定的标注以及预先设置的损失函数915,对音高预测器各层的模型参数进行调整,直至音高预测器各层的模型参数收敛。
进一步的,当音高预测器输出音高后,方言音调预测模型可以基于重复层、前馈网络模块以及全连接层,进一步的对音高预测器输出的音高进行计算,从而确定方言音调(即发音向量对应方言的音高)。
结合图8和图9所示的内容,方言音调预测模型实质上是预测发音向量对应字的方言发音,该方言发音通过方言独有的音高表征,也就是说,本发明实施例可以通过方言音调预测模型确定输入文本中每个字对应的方言版本发音,使得最终得到的合成语音更加符合人类常用的说话方式。
当电子设备确定发音向量、发音时长以及方言音调后,可以基于发音向量、发音时长以及方言音调确定合成语音,具体可以执行为:基于预先训练的语音合成模型,将发音向量、发音时长以及方言音调作为输入,获取语音合成模型输出的合成频谱;通过声码器以及合成频谱,确定输入文本对应的合成语音。
其中,语音合成模型可以是声谱预测网络(Tacotron2),Tacotron2是一种基于深度学习的端到端语音合成模型,其具有良好的语音合成能力,可以用于合成频谱。
在本发明实施例中,通过发音向量、发音时长以及方言音调三者的结合,可以合成具有高仿真性质的方言合成语音,也即可以合成与真人说出的语音差别较小的合成语音,进而可以提高听觉体验。
基于相同的技术构思,本发明实施例还提供了一种方言语音合成装置,如图10所示,该装置包括:获取模块101、第一确定模块102、第二确定模块103和合成模块104。
获取模块101,用于获取输入文本。
第一确定模块102,用于确定输入文本中至少一个字的发音向量,发音向量至少包括对应字的韵律信息。
第二确定模块103,用于确定各发音向量对应的发音时长以及方言音调,发音时长用于表征发音的持续时长,方言音调用于表征发音的音高。
合成模块104,用于基于发音向量、发音时长以及方言音调,合成输入文本对应的合成语音。
可选的,第一确定模块102,具体用于:对输入文本中至少一个字进行向量化处理,确定输入文本中至少一个字的发音向量。
可选的,第一确定模块102,具体用于:基于预先设置的文字和拼音的对应关系,确定输入文本中至少一个字的拼音信息,对拼音信息进行向量化处理,确定拼音信息的发音向量。
可选的,第二确定模块103,具体用于:基于预先训练的发音时长预测模型,将各发音向量作为输入,获取发音时长预测模型输出的各发音向量的发音时长。
可选的,第二确定模块103,具体用于:基于预先训练的方言语调预测模型,将各发音向量作为输入,获取方言音调预测模型输出的各发音向量的方言音调,方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。
可选的,合成模块104,具体用于:基于预先训练的语音合成模型,将发音向量、发音时长以及方言音调作为输入,获取语音合成模型输出的合成频谱,通过声码器以及合成频谱,确定输入文本对应的合成语音。
通过本发明实施例,可以基于发音向量中的韵律信息以及发音向量对应的发音时长,使得合成语音可以具有停顿、延长音等人类常用的说话形式,然后,还可以基于方言音调为合成语音附加方言独有的音高(也即方言独有的发音方式),使得合成语音更加贴近人类的说话方式,最终,基于发音向量、发音时长以及方言音调确定的合成语音可以与人声具有较高的相似度。
图11是本发明实施例的电子设备的示意图。如图11所示,图11所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器111和存储器112。处理器111和存储器112通过总线113连接。存储器112适于存储处理器111可执行的指令或程序。处理器111可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器111通过执行存储器112所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线113将上述多个组件连接在一起,同时将上述组件连接到显示控制器114和显示装置以及输入/输出(I/O)装置115。输入/输出(I/O)装置115可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置115通过输入/输出(I/O)控制器116与***相连。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种方言语音合成方法,其特征在于,所述方法包括:
获取输入文本;
确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;
确定各所述发音向量对应的发音时长以及方言音调,所述发音时长用于表征发音的持续时长,所述方言音调用于表征发音的音高;以及
基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音;
其中,所述确定各所述发音向量对应的发音时长,包括:
基于预先训练的发音时长预测模型,将各所述发音向量作为输入,获取所述发音时长预测模型输出的各所述发音向量的发音时长。
2.根据权利要求1所述的方法,其特征在于,所述确定所述输入文本中至少一个字的发音向量,包括:
对所述输入文本中至少一个字进行向量化处理,确定所述输入文本中至少一个字的发音向量。
3.根据权利要求1所述的方法,其特征在于,所述确定所述输入文本中至少一个字的发音向量,包括:
基于预先设置的文字和拼音的对应关系,确定所述输入文本中至少一个字的拼音信息;以及
对所述拼音信息进行向量化处理,确定所述拼音信息的发音向量。
4.根据权利要求1所述的方法,其特征在于,所述确定各所述发音向量对应的方言音调,包括:
基于预先训练的方言语调预测模型,将各所述发音向量作为输入,获取所述方言音调预测模型输出的各所述发音向量的方言音调,所述方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音,包括:
基于预先训练的语音合成模型,将所述发音向量、所述发音时长以及所述方言音调作为输入,获取所述语音合成模型输出的合成频谱;以及
通过声码器以及所述合成频谱,确定所述输入文本对应的合成语音。
6.一种方言语音合成装置,其特征在于,所述装置包括:
获取模块,用于获取输入文本;
第一确定模块,用于确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;
第二确定模块,用于确定各所述发音向量对应的发音时长以及方言音调,所述发音时长用于表征发音的持续时长,所述方言音调用于表征发音的音高;以及
合成模块,用于基于所述发音向量、所述发音时长以及所述方言音调,合成所述输入文本对应的合成语音;
其中,所述第二确定模块,具体用于:
基于预先训练的发音时长预测模型,将各所述发音向量作为输入,获取所述发音时长预测模型输出的各所述发音向量的发音时长。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块,具体用于:
对所述输入文本中至少一个字进行向量化处理,确定所述输入文本中至少一个字的发音向量。
8.根据权利要求6所述的装置,其特征在于,所述第一确定模块,具体用于:
基于预先设置的文字和拼音的对应关系,确定所述输入文本中至少一个字的拼音信息;以及
对所述拼音信息进行向量化处理,确定所述拼音信息的发音向量。
9.根据权利要求6所述的装置,其特征在于,所述第二确定模块,具体用于:
基于预先训练的方言语调预测模型,将各所述发音向量作为输入,获取所述方言音调预测模型输出的各所述发音向量的方言音调,所述方言音调预测模型至少基于带有方言音调标注的训练样本进行预训练。
10.根据权利要求6-9中任一项所述的装置,其特征在于,所述合成模块,具体用于:
基于预先训练的语音合成模型,将所述发音向量、所述发音时长以及所述方言音调作为输入,获取所述语音合成模型输出的合成频谱;以及
通过声码器以及所述合成频谱,确定所述输入文本对应的合成语音。
11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-5中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011611428.1A CN112599113B (zh) | 2020-12-30 | 2020-12-30 | 方言语音合成方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011611428.1A CN112599113B (zh) | 2020-12-30 | 2020-12-30 | 方言语音合成方法、装置、电子设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112599113A CN112599113A (zh) | 2021-04-02 |
CN112599113B true CN112599113B (zh) | 2024-01-30 |
Family
ID=75206504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011611428.1A Active CN112599113B (zh) | 2020-12-30 | 2020-12-30 | 方言语音合成方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112599113B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178186B (zh) * | 2021-04-27 | 2022-10-18 | 湖南师范大学 | 一种方言语音合成方法、装置、电子设备和存储介质 |
CN113314092A (zh) * | 2021-05-11 | 2021-08-27 | 北京三快在线科技有限公司 | 一种模型训练和语音交互的方法及装置 |
CN114783406B (zh) * | 2022-06-16 | 2022-10-21 | 深圳比特微电子科技有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN116415582B (zh) * | 2023-05-24 | 2023-08-25 | 中国医学科学院阜外医院 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013156472A (ja) * | 2012-01-31 | 2013-08-15 | Mitsubishi Electric Corp | 音声合成装置及び音声合成方法 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111899719A (zh) * | 2020-07-30 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112086086A (zh) * | 2020-10-22 | 2020-12-15 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160365087A1 (en) * | 2015-06-12 | 2016-12-15 | Geulah Holdings Llc | High end speech synthesis |
-
2020
- 2020-12-30 CN CN202011611428.1A patent/CN112599113B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013156472A (ja) * | 2012-01-31 | 2013-08-15 | Mitsubishi Electric Corp | 音声合成装置及び音声合成方法 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111899719A (zh) * | 2020-07-30 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112086086A (zh) * | 2020-10-22 | 2020-12-15 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112599113A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11769483B2 (en) | Multilingual text-to-speech synthesis | |
CN112599113B (zh) | 方言语音合成方法、装置、电子设备和可读存储介质 | |
US11990118B2 (en) | Text-to-speech (TTS) processing | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
US11443733B2 (en) | Contextual text-to-speech processing | |
JP2022107032A (ja) | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
EP2958105B1 (en) | Method and apparatus for speech synthesis based on large corpus | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
KR20220000391A (ko) | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
US20090157408A1 (en) | Speech synthesizing method and apparatus | |
US9798653B1 (en) | Methods, apparatus and data structure for cross-language speech adaptation | |
CN109949791A (zh) | 基于hmm的情感语音合成方法、装置及存储介质 | |
JP2023505670A (ja) | アテンションベースのクロックワーク階層型変分エンコーダ | |
KR102528019B1 (ko) | 인공지능 기술에 기반한 음성 합성 시스템 | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
CN116453502A (zh) | 基于双说话人嵌入的跨语言语音合成方法及*** | |
CN112735379B (zh) | 语音合成方法、装置、电子设备和可读存储介质 | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
CN114492382A (zh) | 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质 | |
KR102532253B1 (ko) | 스펙트로그램에 대응하는 어텐션 얼라인먼트의 디코더 스코어를 연산하는 방법 및 음성 합성 시스템 | |
KR102503066B1 (ko) | 어텐션 얼라인먼트의 스코어를 이용하여 스펙트로그램의 품질을 평가하는 방법 및 음성 합성 시스템 | |
KR102418465B1 (ko) | 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램 | |
US20240153486A1 (en) | Operation method of speech synthesis system | |
Georgila | 19 Speech Synthesis: State of the Art and Challenges for the Future | |
KR20240014250A (ko) | 스펙트로그램에 대응하는 어텐션 얼라인먼트의 인코더 스코어를 연산하는 방법 및 음성 합성 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |