CN113488021A - 一种提高语音合成自然度的方法 - Google Patents

一种提高语音合成自然度的方法 Download PDF

Info

Publication number
CN113488021A
CN113488021A CN202110906779.3A CN202110906779A CN113488021A CN 113488021 A CN113488021 A CN 113488021A CN 202110906779 A CN202110906779 A CN 202110906779A CN 113488021 A CN113488021 A CN 113488021A
Authority
CN
China
Prior art keywords
duration
phonemes
phoneme
text
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110906779.3A
Other languages
English (en)
Inventor
盛乐园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xiaoying Innovation Technology Co ltd
Original Assignee
Hangzhou Xiaoying Innovation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xiaoying Innovation Technology Co ltd filed Critical Hangzhou Xiaoying Innovation Technology Co ltd
Priority to CN202110906779.3A priority Critical patent/CN113488021A/zh
Publication of CN113488021A publication Critical patent/CN113488021A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种提高语音合成自然度的方法。它包括如下步骤:将文本通过字形到音素的工具得到与文本对应的音素,所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,由CBHG模块对表征的特征进行编码;将文本编码的结果作为输入,对每个音素的持续时间进行预测,预测结果与真实的标签作比对,对时长模型进行优化;将经过时长模型扩充后的特征进行解码,解码出的结果组合成一个复数的特征,解码出的复数特征经原始音频中短时傅里叶逆变换,还原为语音波形。本发明的有益效果是:可以降低模型的复杂度,减少计算量,节约计算及部署成本;提高合成语音的自然度,发音更加像真人。

Description

一种提高语音合成自然度的方法
技术领域
本发明涉及语音合成相关技术领域,尤其是指一种提高语音合成自然度的方法。
背景技术
由于深度学习的发展及在各领域的应用,语音合成也得到了很多的受益。语音合成大致也可以分为两个阶段:1.拼接法和参数法。拼接法是指在比较大的语料中寻找语音片段,然后根据要合成的文字,去搜索相应的语音片段组合起来。这样合成出的语音虽然是真人的声音,但是在一些全局的特征上表现会受到限制,比如说话的语气,韵律等。同时拼接法还需要比较大的语料,对数据集要求比较高。参数法是指根据统计模型建立文本参数与声学参数之间的映射模型。缺点是合成的语音有机械感不自然,参数调节很麻烦。2.基于深度学习的研究。基于深度学习的语音合成在往端到端方向上发展。合成的质量也越来越好,但是目前真正端到端的模型很少,基本都是通过梅尔频谱在文本与语音之间建立桥梁。这造成了合成语音自然度的损失。
现有的语音合成技术,首先文本会由一个正则化模块将文本处理成音素作为输入,然后经过一个嵌入层网络,对文本或音素进行表征,再将表征的特征通过一些特征提取网络进行编码。编码后特征的长度还是和输入的音素长度一致,只是维度由一维升到高维。根据文本编码的结果去预测文本或音素的发音时长。对预测的发音时长进行取整,这些时长的个数也是和音素的长度一致的。然后根据取整的时长对编码后的特征进行调节,最后可以得到与从真实语音中提取的梅尔频谱的长度一致的文本编码结果。将时长模型调节的结果通过深度学习网络进行特征的解码,与从真实语音中提取的梅尔频谱计算损失。将从真实语音中提取的梅尔频谱作为输入,利用神经网络模型比如:WaveNet,ParallelWaveNet,HifiGan等去预测真实的语音波形。在合成阶段的输入是解码出的梅尔频谱,并不是真实的梅尔频谱作为输入。现有的技术线路是由文本去预测梅尔频谱,然后由声码器根据预测的梅尔频谱去预测语音波形。并且这两个过程所计算的目标函数也不是一致的。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种能够减少计算量的提高语音合成自然度的方法。
为了实现上述目的,本发明采用以下技术方案:
一种提高语音合成自然度的方法,具体包括如下步骤:
(1)文本编码:将文本通过字形到音素的工具得到与文本对应的音素,然后所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,即通过深度学习中的Embedding将音素映射到一个特征向量;
(2)由CBHG模块对表征的特征进行编码,表征的特征指深度学习中的特征向量,编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量;
(3)时长模型:将文本编码的结果作为输入,经过3层的卷积神经网络和1层全连接层对每个音素的持续时间进行预测,持续时间指的是网络预测的一个时长;
(4)预测结果与真实的标签作比对,对时长模型进行优化;预测结果就是网络对时长的预测,真实标签就是每个音素真实的时长,网络预测的时长和训练集中音素的真实时长去计算误差,然后不断减少这个误差即对时长模型进行优化;
(5)语音解码:将经过时长模型扩充后的特征经过一个2层的双向长短期记忆网络进行解码,解码出的结果组合成一个复数的特征,和从原始音频中短时傅里叶变换提取的复数特征是对应的;
(6)解码出的复数特征经短时傅里叶逆变换,还原为语音波形。
由于本发明的目标优化函数是针对合成的语音波形和预测的音素发音时长,可以直接从原始的音频中学习到发音人的说话特征,包括:语气,停顿,说话方式等特性。所以相较于其他的语音合成***合成出的语音更加自然。本发明避开了现有技术的缺点,由文本直接预测波形,减少了中间过程,合成出更加自然的语音。本发明的优势是提出了一种端到端的语音合成***,这个***相较于其他的语音合成***:可以降低模型的复杂度,减少计算量,节约计算及部署成本;提高合成语音的自然度,发音更加像真人。
作为优选,在步骤(2)中,所述CBHG模块由一个一维卷积滤波器组、一个高速公路网络和一个双向门控循环单元的循环神经网络组成。
作为优选,在步骤(4)中,具体为:在获取音素的发音时长后,针对编码后的音素根据时长的数值进行扩充。
本发明的有益效果是:可以降低模型的复杂度,减少计算量,节约计算及部署成本;提高合成语音的自然度,发音更加像真人。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所述的实施例中,一种提高语音合成自然度的方法,具体包括如下步骤:
(1)文本编码:将文本通过字形到音素的工具得到与文本对应的音素,然后所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,即通过深度学习中的Embedding将音素映射到一个特征向量;
(2)由CBHG模块对表征的特征进行编码,表征的特征指深度学习中的特征向量,编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量;CBHG模块由一个一维卷积滤波器组、一个高速公路网络和一个双向门控循环单元的循环神经网络组成。
(3)时长模型:将文本编码的结果作为输入,经过3层的卷积神经网络和1层全连接层对每个音素的持续时间进行预测,持续时间指的是网络预测的一个时长;
(4)预测结果与真实的标签作比对,对时长模型进行优化;预测结果就是网络对时长的预测,真实标签就是每个音素真实的时长,网络预测的时长和训练集中音素的真实时长去计算误差,然后不断减少这个误差即对时长模型进行优化;具体为:在获取音素的发音时长后,针对编码后的音素根据时长的数值进行扩充。观察如图1中的长度调节器前后的输入和输出,具体来说就是假如有三个音素a,b,c,预测的时长分别是2,3,4,那么扩充之后就是aabbbcccc。
(5)语音解码:将经过时长模型扩充后的特征经过一个2层的双向长短期记忆网络进行解码,解码出的结果组合成一个复数的特征,和从原始音频中短时傅里叶变换提取的复数特征是对应的;2层的双向长短期记忆网络一般指的是双向的lstm,复数特征是区别于一般的特征,一般的都是实数域下的特征,复数域比实数域多了一部分,也就是特征由两部分组成,实部和虚部;短时傅里叶变换是一种数学上的一般运算,stft,也可以是用神经网络实现的短时傅里叶变换;
(6)解码出的复数特征经短时傅里叶逆变换,还原为语音波形。
由于本发明的目标优化函数是针对合成的语音波形和预测的音素发音时长,可以直接从原始的音频中学习到发音人的说话特征,包括:语气,停顿,说话方式等特性。所以相较于其他的语音合成***合成出的语音更加自然。本发明避开了现有技术的缺点,由文本直接预测波形,减少了中间过程,合成出更加自然的语音。本发明的优势是提出了一种端到端的语音合成***,这个***相较于其他的语音合成***:可以降低模型的复杂度,减少计算量,节约计算及部署成本;提高合成语音的自然度,发音更加像真人。

Claims (3)

1.一种提高语音合成自然度的方法,其特征是,具体包括如下步骤:
(1)文本编码:将文本通过字形到音素的工具得到与文本对应的音素,然后所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,即通过深度学习中的Embedding将音素映射到一个特征向量;
(2)由CBHG模块对表征的特征进行编码,表征的特征指深度学习中的特征向量,编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量;
(3)时长模型:将文本编码的结果作为输入,经过3层的卷积神经网络和1层全连接层对每个音素的持续时间进行预测,持续时间指的是网络预测的一个时长;
(4)预测结果与真实的标签作比对,对时长模型进行优化;预测结果就是网络对时长的预测,真实标签就是每个音素真实的时长,网络预测的时长和训练集中音素的真实时长去计算误差,然后不断减少这个误差即对时长模型进行优化;
(5)语音解码:将经过时长模型扩充后的特征经过一个2层的双向长短期记忆网络进行解码,解码出的结果组合成一个复数的特征,和从原始音频中短时傅里叶变换提取的复数特征是对应的;
(6)解码出的复数特征经短时傅里叶逆变换,还原为语音波形。
2.根据权利要求1所述的一种提高语音合成自然度的方法,其特征是,在步骤(2)中,所述CBHG模块由一个一维卷积滤波器组、一个高速公路网络和一个双向门控循环单元的循环神经网络组成。
3.根据权利要求1所述的一种提高语音合成自然度的方法,其特征是,在步骤(4)中,具体为:在获取音素的发音时长后,针对编码后的音素根据时长的数值进行扩充。
CN202110906779.3A 2021-08-09 2021-08-09 一种提高语音合成自然度的方法 Pending CN113488021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110906779.3A CN113488021A (zh) 2021-08-09 2021-08-09 一种提高语音合成自然度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110906779.3A CN113488021A (zh) 2021-08-09 2021-08-09 一种提高语音合成自然度的方法

Publications (1)

Publication Number Publication Date
CN113488021A true CN113488021A (zh) 2021-10-08

Family

ID=77946052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110906779.3A Pending CN113488021A (zh) 2021-08-09 2021-08-09 一种提高语音合成自然度的方法

Country Status (1)

Country Link
CN (1) CN113488021A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739508A (zh) * 2020-08-07 2020-10-02 浙江大学 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及***
CN112802448A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种新音色生成的语音合成方法和***
CN112802450A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种韵律可控的中英文混合的语音合成方法及其***
CN112863483A (zh) * 2021-01-05 2021-05-28 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置
WO2021127821A1 (zh) * 2019-12-23 2021-07-01 深圳市优必选科技股份有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021127821A1 (zh) * 2019-12-23 2021-07-01 深圳市优必选科技股份有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN111739508A (zh) * 2020-08-07 2020-10-02 浙江大学 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及***
CN112802448A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种新音色生成的语音合成方法和***
CN112802450A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种韵律可控的中英文混合的语音合成方法及其***
CN112863483A (zh) * 2021-01-05 2021-05-28 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置

Similar Documents

Publication Publication Date Title
Yu et al. DurIAN: Duration Informed Attention Network for Speech Synthesis.
Kleijn et al. Wavenet based low rate speech coding
CN108899009B (zh) 一种基于音素的中文语音合成***
CN113470662A (zh) 生成和使用用于关键词检出***的文本到语音数据和语音识别***中的说话者适配
CN111179905A (zh) 一种快速配音生成方法及装置
CN110767210A (zh) 一种生成个性化语音的方法及装置
CN113112995B (zh) 词声学特征***、词声学特征***的训练方法及***
CN114464162B (zh) 语音合成方法、神经网络模型训练方法、和语音合成模型
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
KR102272554B1 (ko) 텍스트- 다중 음성 변환 방법 및 시스템
US20240127832A1 (en) Decoder
CN114678032B (zh) 一种训练方法、语音转换方法及装置和电子设备
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
KR20230075340A (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
CN113436607B (zh) 一种快速语音克隆方法
Oura et al. Deep neural network based real-time speech vocoder with periodic and aperiodic inputs
CN113782042A (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN116092475B (zh) 一种基于上下文感知扩散模型的口吃语音编辑方法和***
Zhao et al. Research on voice cloning with a few samples
US11915714B2 (en) Neural pitch-shifting and time-stretching
CN116312476A (zh) 语音合成方法和装置、存储介质、电子设备
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
CN114203151A (zh) 语音合成模型的训练的相关方法以及相关装置、设备
CN113488021A (zh) 一种提高语音合成自然度的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination