CN114023300A - 一种基于扩散概率模型的中文语音合成方法 - Google Patents

一种基于扩散概率模型的中文语音合成方法 Download PDF

Info

Publication number
CN114023300A
CN114023300A CN202111295924.5A CN202111295924A CN114023300A CN 114023300 A CN114023300 A CN 114023300A CN 202111295924 A CN202111295924 A CN 202111295924A CN 114023300 A CN114023300 A CN 114023300A
Authority
CN
China
Prior art keywords
diffusion
model
attention
probability
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111295924.5A
Other languages
English (en)
Inventor
王海舟
范润琦
吴英奡
许晋荣
张新悦
吴心宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111295924.5A priority Critical patent/CN114023300A/zh
Publication of CN114023300A publication Critical patent/CN114023300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于扩散概率模型的中文语音合成方法,该方法首先构建中文文本前端处理模块,然后构建基于前向注意力机制的端到端频谱生成网络,最后使用基于扩散概率模型的Diffwave声码器进行中文语音合成。本发明采用前向注意力机制解决中文长句子合成中出现的语音帧对齐效果差等问题;并且在声码器部分使用基于扩散概率模型的非自回归型Diffwave声码器,显著提高模型合成语音的质量与效率。

Description

一种基于扩散概率模型的中文语音合成方法
技术领域
本发明涉及人工智能语音合成技术领域,具体涉及一种基于扩散概率模型的中文语音合成方法。
背景技术
语音合成技术通常指文本到语音的转换。随着互联网技术,信息技术和人工智能等领域的不断发展成熟,智能终端的普及和换代,以合成人工语音技术为代表的新兴人机交互方式悄然开始流行。现如今语音合成已经开始广泛的应用于地图导航,语音助手,有声书阅读,短视频配音等场景。
随着深度学***衡。WaveNet堆叠多层一维扩展卷积,卷积核的跨度为2,通过这种结构,感受野随着层数的增多而指数级增大,导致合成速度慢。而传统的非自回归语音合成的主要问题是语音合成质量较低,如FastSpeech模型可以通过并行的梅尔谱图生成,加快了合成过程,FastSpeech基于Transformer结构进行训练,但提取的对齐效果不够准确,且得到的目标梅尔频谱存在一些信息损失,因此音质效果较差。
发明内容
针对上述问题,本发明的目的在于提供一种基于扩散概率模型的中文语音合成方法,通过在解码器中使用前向注意力机制,并利用基于扩散概率模型的Diffwave声码器实现更高效,更高质量的中文语音合成。技术方案如下:
一种基于扩散概率模型的中文语音合成方法,包括以下步骤:
S1:文本前端处理:
获取文本数据集,构建中文文本前端处理模块,对文本数据集进行普通话文本转音素处理、文本正则化处理,以及标点符号的删除或转化处理,得到音素序列;
S2:构建基于前向注意力机制的端到端频谱生成网络对处理后的文本进行编码和解码:
编码:编码器模块将输入的所述音素序列处理得到隐层序列,每个解码时刻,注意力机制对输入序列进行一个软选择,得到一个注意力的上下文向量,作为解码器的输入;
解码:解码器模块通过预处理网络进行时间步长的预测,预处理网络的输出和注意力的上下文向量通过两个单向LSTM层堆栈连接和传递;通过线性变换投影LSTM层输出与注意力的上下文向量的连接预测目标频谱图框架;将预测的梅尔谱图通过一个5层卷积后处理网络,将预测残差添加到预测中,以改善整体重构;
S3:使用基于扩散概率模型的Diffwave声码器进行中文语音合成:
所述扩散概率模型将噪声和目标波形的映射关系分成了T个步骤,形成了一条马尔可夫链,针对该链的扩散过程,即从目标音频到噪声进行训练,然后通过反向过程,即从噪声到目标音频进行解码。
进一步的,所述普通话文本转音素处理具体为:对于文本数据集每个句子中汉字从左到右的顺序,优先从词拼音库中查找是否存在以该汉字开头的词,并检查文本中该汉字后面的汉字是否与该词中匹配,若匹配,直接从词拼音库中获取该词的拼音;若不匹配,则从字拼音库中获取该汉字的拼音。
更进一步的,所述编码器模块包括:一个字符嵌入层,一个3层卷积,一个双向LSTM层;输入字符被编码成128维的字符向量;然后穿过一个3层卷积,每层卷积包含256个5×1的卷积核,即每个卷积核横跨5个字符,卷积层对输入的字符序列进行大跨度上下文建模,卷积层后接批归一化,使用ReLU激活函数进行激活;最后一个卷积层的输出被传送到双向LSTM层生成编码特征;
Figure BDA0003336592710000021
H=EncoderRecurrency(fe) (2)
其中,fe为编码特征,F1、F2、F3为3个卷积核,relu(·)表示各卷积层上的非线性激活;
Figure BDA0003336592710000022
表示对字符序列X做嵌入,EncoderRecurrency(·)表示编码器中的循环神经网络双向LSTM,H为输出的编码器隐状态。
更进一步的,设输入编码器的音素序列为x=[x1,x2,…,xN],N表示音素序列的长度,经过编码器的处理得到隐层序列h=[h1,h2,…,hN],在每个解码时刻k,注意力机制对输入序列进行一个软选择,得到一个上下文向量ck,作为解码器的输入;
设注意力机制的查询向量为sk,注意力机制选择一个编码器1到N之间的位置输出作为输入,该位置用一个随机变量πk∈{1,…,N}来表示,则注意力机制的建模目标为该位置变量的概率分布:p(πk|h,sk);上下文向量计算由下式得到:
Figure BDA0003336592710000031
其中,yk(n)=p(πk=n|h,sk)表示注意力在解码时刻k,停留在编码器的输出位置n的概率大小;
基于内容的注意力机制的计算方式为:
Figure BDA0003336592710000032
其中,W,V,b和v是模型的参数;ek,n用于评价sk和hn的匹配程度;
假设不同时刻的注意力位置随机变量πk在给定编码器的输出h和查询向量sk以后是条件独立的,则得到一个对齐路径π1:k={π12,…,πk}的概率为:
Figure BDA0003336592710000033
其中,s1:k为查询向量集合{s1,s2,…,sk};yk'k')表示注意力在当前解码时刻k前的任意时刻k',停留在编码器的输出位置πk'的概率大小;
确定一个注意力的合法路径集合P内的每条路径都满足单调性和连续性,则给定单调路径的约束下,注意力分布的条件概率为:
p(πk|h,s1:k0:k∈P) (6)
则定义前向变量ak(n)为:
Figure BDA0003336592710000041
采用动态规划算法,通过前一个时刻得到的前向变量,递推得到当前时刻的前向变量:
ak(n)=(ak-1(n)+ak-1(n-1))yk(n) (8)
从前向变量中得到新的注意力概率:
Figure BDA0003336592710000042
在式(3)中用ak(n)来替代yk(n)计算上下文向量ck
Figure BDA0003336592710000043
更进一步的,所述S3具体包括:
S31:定义qdata(x0)为
Figure BDA0003336592710000046
上的数据分布,其中L是数据维度;定义
Figure BDA0003336592710000047
t=0,1,…,T为有着相同维度的变量序列,t为扩散步数的索引,T为扩散总步数;所述扩散概率模型包括扩散过程和反向过程;
扩散过程的目的是通过一条马尔可夫链将x0逐渐映射到多维正态分布,即:
Figure BDA0003336592710000044
其中,q(xt|xt-1)被定义为和常数βt有关的高斯分布
Figure BDA0003336592710000045
I为单位矩阵;反向过程则是基于正态分布的采样进行生成:
platent(xT)=N(0,I) (12)
Figure BDA0003336592710000051
其中,platent(xT)为各向同性高斯分布,转移概率pθ(xt-1|xt)参数化为高斯分布N(xt-1;μθ(xt,t),σθ(xt,t)2I);
模型μθ和模型σθ各有两个输入:扩散步数
Figure BDA0003336592710000056
和变量
Figure BDA0003336592710000057
其中L是数据维度;模型μθ输出一个L维向量作为均值,模型σθ输出一个实数作为标准差;pθ(xt-1|xt)的目的是在扩散过程中逐渐消除高斯噪声,最终生成符合目标分布的数据;
S32:抽样
对于反向过程,生成过程首先对xT:N(0,I)抽样,之后对xt-1:pθ(xt-1|xt),t=T,T-1,...,1抽样;输出的x0是一个抽样数据;
S33:训练
在训练前,首先剖析模型的训练目标,即最大似然度pθ(x0);通过最大化变分下界来训练模型,公式为:
Figure BDA0003336592710000052
其中,
Figure BDA0003336592710000053
表示x对于分布qdata(x0)的期望,
Figure BDA0003336592710000058
表示x对于分布q(x1,...,xT)的期望;ELBO为证据下界;
定义基于扩散过程中调度方差的常数:
Figure BDA0003336592710000054
且对于t>1,有
Figure BDA0003336592710000055
其中,βt为前向过程方差;为便于表示,使用替代符号αt表示αt=1-βt
然后,μθ和σθ的参数化定义:
Figure BDA0003336592710000061
其中,
Figure BDA0003336592710000062
是一个同样以xt和扩散步数t为输入的神经网络;σθ(xt,t)固定为常数
Figure BDA0003336592710000063
对于该参数化下的每一步,给出如下ELBO的闭型表达式:
假设给定一系列固定调度
Figure BDA0003336592710000064
让∈~N(0,I)和x0~qdata;则在期望Eq的参数化下,得到:
Figure BDA0003336592710000065
对于常数c和κt,其中
Figure BDA0003336592710000066
且对于t>1,有
Figure BDA0003336592710000067
最小化以下未加权的ELBO变量以提高生成质量:
Figure BDA0003336592710000068
其中,t均匀取值于1,...,T;
S34:扩散步嵌入:
将不同的扩散步t作为输入,模型对应不同的t会输出不同的∈θ(·,t);对每个t使用128维的编码向量;
Figure BDA0003336592710000069
在编码上应用三个全连接层,其中前两个FC共享各残差层之间的参数;最后一个FC将第二个FC的输出映射为C维嵌入向量;之后广播这个向量并将其加到每个残差层的输入中。
本发明的有益效果是:本发明采用前向注意力机制解决中文长句子合成中出现的语音帧对齐效果差等问题;并且在声码器部分使用基于扩散概率模型的非自回归型Diffwave声码器,显著提高模型合成语音的质量与效率。
附图说明
图1为本发明基于深度学习的中文语音合成模型图。
图2为梅尔频谱图比较;(a)真实语音;(b)本发明模型;(c)Tacotron2+Griffin-Lim;(d)Tacotron2+WaveRNN;(e)Tacotron2+MB-MelGAN;(f)FastSpeech2+MB-MelGAN。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。如图1所示,本发明基于深度学习的中文语音合成模型整个框架主要包含三个部分:文本前端处理、频谱生成网络(编码器和解码器)和声码器。
1、文本前端处理
(1)普通话文本转音素(grapheme-to-phoneme,G2P)
对于每个句子中汉字从左到右的顺序,优先从词拼音库(下载地址:https://github.com/mozillazg/phrase-pinyin-data)中查找是否存在以该汉字开头的词并检查该汉字后面的汉字是否与该词匹配,若满足条件,直接从词库中获取拼音;若不满足条件,从字拼音库(下载地址:https://github.com/mozillazg/pinyin-data)中获取该汉字的拼音。
(2)文本正则化(text normalization,TN)
中文文本正则化是把非汉字字符串转化为汉字串以确定其读音的过程。本实施例运用正则表达式对文本进行处理,实现NSW(Non-Standard-Word,非标准字)规范化,规则见表1。
表1文本规范化规则表
Figure BDA0003336592710000071
Figure BDA0003336592710000081
(3)标点符号
对于中文标点符号,只保留',。?!'四种符号,其余符号按照下列规则转换到这四个符号之一,详见表2。
表2符号转换规则表
替换前 替换后
括号、引号、规定范围外的特殊符号 忽略
冒号、破折号、顿号、英文逗号 ’,’
英文感叹号 '!'
英文问号 '?'
英文句号、分号、省略号 ’。’
连续出现相同的',。?!' 只保留一个
2、编码器
编码器的目的是从输入的文本序列中提取健壮的序列表达。编码器模块包含一个字符嵌入层(Character Embedding),一个3层卷积,一个双向LSTM(Long Short-TermMemory,长短期记忆)层。输入字符被编码成128维的字符向量;然后穿过一个3层卷积,每层卷积包含256个5×1的卷积核,即每个卷积核横跨5个字符,卷积层会对输入的字符序列进行大跨度上下文建模(类似于N-grams),这里使用卷积层获取上下文主要是由于实践中循环神经网络很难捕获长时依赖;卷积层后接批归一化(batch normalization),使用ReLU(Rectified Linear Unit,修正线性单元)激活函数
Figure BDA0003336592710000082
进行激活;最后一个卷积层的输出被传送到一个双向的LSTM层用以生成编码特征,这个LSTM包含512个单元(每个方向256个单元)。
Figure BDA0003336592710000083
H=EncoderRecurrency(fe) (2)
其中,F1、F2、F3为3个卷积核,ReLU为每一个卷积层上的非线性激活,E表示对字符序列X做embedding,EncoderRecurrency表示编码器中的循环神经网络双向LSTM,H为输出的编码器隐状态。编码器隐状态生成后,就会被送入注意力机制,以生成编码向量。编码器部分参数见表3。
表3编码器部分参数列表
模型参数 参数值
embedding_dim 128
conv_layers_num 3
conv_kernel_size 5
conv_filters 256
lstm_units 256
3、解码器
本发明中的解码器采用自回归递归结构,可以从编码的输入序列中预测出一帧一帧的梅尔谱图。解码器首先将之前的时间步长的预测通过一个包含2个完全连接层256个隐藏ReLU单元的小型预处理网络。作为信息瓶颈的预处理网络中的Dropout对学习注意力至关重要,有利于提升模型的泛化性。预处理网络的输出和注意力的上下文向量通过两个单向LSTM层堆栈连接和传递。通过线性变换投影LSTM输出与注意力的上下文向量的连接预测目标频谱图框架。最后,将预测的梅尔谱图通过一个5层卷积后处理网络,该后处理网络将预测残差添加到预测中,以改善整体重构。解码器部分参数见表4。
表4解码器部分参数列表
模型参数 参数值
prenet_layers [256,256]
decoder_layers 2
decoder_lstm_units 256
dropout_rate 0.5
(1)前向注意力机制
在解码器中,采用了前向注意力机制来提高模型对长文本的处理能力。
假设有音素作为输入序列x=[x1,x2,…,xN],其中N表示音素序列的长度。输入经过序列到序列模型编码器的处理得到隐层序列h=[h1,h2,…,hN]。在每个解码时刻k,注意力机制对输入序列进行一个软选择,得到一个上下文向量ck,作为解码器的输入。假设注意力机制的查询向量(query vector)为sk,—般使用的是解码器RNN在当前时刻的状态向量。注意力机制选择一个编码器的一个1到N之间的位置输出作为输入,这个位置可以用一个随机变量πk∈{1,…,N}来表示,那么注意力机制的建模目标为该位置变量的概率分布:p(πk|h,sk)。上下文向量计算由下式得到:
Figure BDA0003336592710000101
其中,yk(n)=p(πk=n|h,sk)表示注意力在解码时刻k,停留在编码器的输出位置n的概率大小;
基于内容的注意力机制的计算方式为:
Figure BDA0003336592710000102
其中,W,V,b和v是模型的参数,ek,n用于评价sk和hn的匹配程度。
假设不同时刻的注意力位置随机变量πk在给定编码器的输出h和查询向量sk以后是条件独立的。所以可以得到一个对齐路径π1:k={π12,…,πk}的概率为:
Figure BDA0003336592710000103
在初始化状态,本方法规定π0=1。
考虑一个注意力的路径集合,该集合记为P。该集合是一个合法路径的集合,即集合内的每条路径都满足两个特性。第一是单调性:即注意力停留的位置只会单调增长,
Figure BDA0003336592710000104
第二是连续性:即时间连续的两个注意力位置之间不会发生跳跃,
Figure BDA0003336592710000105
本发明考虑给定单调路径的约束下,注意力分布的条件概率:
p(πk|h,s1:k0:k∈P)(6)
使用这个条件概率作为注意力分布的系数是为了在概率公式中引入一个条件项。条件项排除了在语音生成任务中的非法路径,即所有违反单调性规则的路径,可以使得概率空间大大减小,对于语音合成任务更加合理。因为在这个任务中,注意力对齐的路径显然是单调递增,而且不会发生跳跃的。为了描述该算法的计算过程,首先定义前向变量:
Figure BDA0003336592710000111
该算法中的前向变量和CTC(Connectionist Temporal Classification)算法中前向变量的相似和不同之处。相似之处在于该前向变量都是一个“合法”路径概率的集合,而且不同时刻之间的概率分布满足条件独立性。但是CTC的每个时刻输出描述的是一个输出标签概率,注意力机制描述的是一个注意力位置的随机变量的概率分布。而且对于什么是“合法”路径的规定也不一样。对于CTC算法,合法路径的含义是满足能够对应到正确标签序列的所有路径的集合;而对于前向注意力机制,合法路径的含义是能够满足单调性和连续性的所有路径的集合。类似于CTC算法,前向变量的计算不需要通过穷举所有的合法路径再求和,这样的算法复杂度会达到指数级别,导致运算无法进行。前向变量可以通过巧妙的前向算法来实现,核心思想是动态规划算法,通过前一个时刻得到的前向变量,递推得到当前时刻的前向变量:
ak(n)=(ak-1(n)+ak-1(n-1))yk(n) (8)
因此,可以从前向变量中得到新的注意力概率:
Figure BDA0003336592710000112
得到新的注意力概率后,我们就可以在式(3)中用
Figure BDA0003336592710000113
来替代yk(n)计算上下文向量ck。修改后的递推算式如下:
Figure BDA0003336592710000114
注意力机制部分参数见表5。
表5注意力机制部分参数列表
模型参数 参数值
smoothing False
attention_dim 128
attention_filters 32
attention_kernel 31
cumulative_weights True
(2)后处理网络
后处理网络的目标是将序列到序列的目标输出转换成为可以被合成为波形的目标表达,要学习的是如何预测在线性频率标度上采样的频谱幅值。后处理网络构建的另一个目的是它还能够看到所有解码序列,和总是从左到右顺序运行的普通的序列到序列结构不一样,这样构建可以同时获得前向和后向的双向信息,用以纠正单帧的预测错误。本发明中后处理网络为5层卷积神经网络,每层由256个5×1卷积核和一个批标准化处理组成,除了最后一层卷积,每层的批标准化处理都后接一个tanh激活函数。后处理网络部分参数见表6。
表6后处理网络部分参数列表
模型参数 参数值
postnet_layers_num 5
postnet_kernel_size 5
postnet_filters 256
4.声码器
本发明选择基于扩散概率模型(Diffusion Probabilistic Model)的音频生成模型来进行语音波的生成。
扩散概率模型是一种基于马尔可夫链的概率模型,它将噪声和目标波形的映射关系分成了T个步骤,形成了一条马尔可夫链。针对该链的扩散过程(从目标音频到噪声)进行训练,然后通过反向过程(从噪声到目标音频)进行解码。
首先定义qdata(x0)为
Figure BDA0003336592710000121
上的数据分布,其中L是数据维度;定义
Figure BDA0003336592710000122
t=0,1,…,T为有着相同维度的变量序列,t为扩散步数的索引,T为扩散总步数。一个扩散模型有两个过程组成,扩散过程和反向过程。
(1)扩散过程(diffusion process):
扩散过程的目的是通过一条马尔可夫链将x0逐渐映射到多维正态分布(高斯噪声),即:
Figure BDA0003336592710000131
其中q(xt|xt-1)被定义为和常数βt有关的高斯分布
Figure BDA0003336592710000132
该过程相当于迭代的添加少量的高斯噪声,最终将目标转换为不同维度间相互独立的多维正态分布。
(2)反向过程(reserve process):
反向过程则是基于正态分布的采样进行生成:
platent(xT)=N(0,I) (12)
Figure BDA0003336592710000133
式中,platent(xT)为各向同性高斯分布,转移概率pθ(xt-1|xt)参数化为N(xt-1;μθ(xt,t),σθ(xt,t)2I)。其中,模型μθ和σθ各有两个输入:扩散步数
Figure BDA0003336592710000137
和变量
Figure BDA0003336592710000138
μθ输出一个L维向量作为均值,σθ输出一个实数作为标准差。pθ(xt-1|xt)的目的是在扩散过程中逐渐消除高斯噪声,最终生成符合目标分布的数据。
(3)抽样:
对于反向过程,生成过程首先对xT:N(0,I)抽样,之后对xt-1:pθ(xt-1|xt),t=T,T-1,...,1抽样。输出的x0是一个抽样数据。
(4)训练:
在训练前,首先要剖析模型的训练目标,即最大似然度pθ(x0),公式为:
Figure BDA0003336592710000134
其中,
Figure BDA0003336592710000135
表示x对于分布qdata(x0)的期望,
Figure BDA0003336592710000136
表示x对于分布q(x1,...,xT)的期望;ELBO为证据下界。
在一定参数化条件下,扩散模型的ELBO(Evidence Lower Bound,证据下界)可以通过闭型计算出来。这不仅加快了计算速度,也避免了方差过大的Monte Carlo估计。该参数化被它与Langevin动力学去噪分数匹配之间的联系所驱动。为了引入这个参数化,定义基于扩散过程中调度方差的常数:
Figure BDA0003336592710000141
且对于t>1,有
Figure BDA0003336592710000142
其中,βt为前向过程方差;为便于表示,使用符号αt=1-βt
然后,μθ和σθ的参数化定义:
Figure BDA0003336592710000143
其中,
Figure BDA0003336592710000144
是一个同样以xt和扩散步数t为输入的神经网络;σθ(xt,t)固定为常数
Figure BDA0003336592710000145
对于该参数化下的每一步,给出如下ELBO的闭型表达式:
假设给定一系列固定调度
Figure BDA0003336592710000146
和x0~qdata;则在期望Eq的参数化下,得到:
Figure BDA0003336592710000147
对于常数c和κt,其中
Figure BDA0003336592710000148
且对于t>1,有
Figure BDA0003336592710000149
其中c与优化目的无关。证明的关键思想是将ELBO展开成具有闭型表达式的可控高斯分布之间的KL发散的和。
最小化以下未加权的ELBO变量可以提高生成质量:
Figure BDA00033365927100001410
其中,t均匀取值于1,...,T。因此,在本发明模型中也使用了这个训练目标。
(5)扩散步嵌入:
将不同的扩散步t作为输入,模型对应不同的t会输出不同的εθ(·,t)。对每个t使用128维的编码向量。
Figure BDA0003336592710000151
然后在编码上应用三个全连接(fully connected,FC)层,其中前两个FC共享各残差层之间的参数。最后一个FC将第二个FC的输出映射为C维(残差通道数)嵌入向量。之后广播这个向量并将其加到每个残差层的输入中。
该模型有一个调节器(Conditioner)来编码条件信息,比如梅尔谱、说话人标记等。在训练和解码的时候,提前设置好扩散总轮数T和βt。比如效果最好的T=200,βt=[1×10-4,0.02],即初始1×10-4,每次迭代增加0.02。T越大,迭代的次数也就越多,生成效果也就更好。
(6)调节器:使用原始音频的80波段梅尔谱图作为调节器来测试这些神经声码器。将FFT的大小设置为1024,跳转大小设置为256,窗口大小设置为1024。对梅尔谱图进行了256次采样,通过带漏泄的ReLU(α=0.4)函数,进行了两层转置的二维卷积(在时间和频率上)交错。对于每一层,上采样跨步在时间上为16,二维滤波器大小为[32,3]。上采样后,使用特定层的Conv1×1将80个梅尔波段映射为2个残差通道,然后在每个残差层的gate-tanh非线性函数之前添加调节因子作为扩展卷积的偏置项。声码器部分参数见表7。
表7声码器部分参数列表
Figure BDA0003336592710000152
Figure BDA0003336592710000161
5、数据集和训练
训练在搭载Nvidia GTX 1080Ti的服务器环境下进行,数据集来自2018年11月9日语音合成技术方案提供商标贝科技免费开放的中文女声合成数据库(BZNSYN)(下载地址:https://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwYinPinKu/BZNSYP.rar),其中包含了10000句中文女声(总时长约12小时)和所有音频文件对应的文本标注文档。实验中划分数据集的95%作为训练集,5%作为测试集。
音频文件会先被处理成梅尔频谱特征矩阵,用作语音的声学特征提取,并在train.txt文件里面将拼音标注同声谱对应起来。
对于文本,将其转化为拼音序列,符号只保留',。?!'四种,其余符号按照文本前端中提及的规则转换到这四个符号之一。模型中使用词嵌入层,通过训练不断地学习到语料库中的每个字的词向量。
在训练频谱生成网络的过程中,将Batch Size设置为32,同时使用了学习率指数衰减,初始学习率设置为0.001,当迭代步数达到50k的时候开始指数衰减,最小衰减到0.00001(大约在310k步)。
在声码器的训练中,为保证数据一致性,使用模型生成的的梅尔谱图作为输入,并使用了Adam优化器,批量大小为16,学习率为2×10-4,训练步骤为1M。
6、特征提取:
(1)词嵌入
语音合成技术就是要让机器学会将每一个包括空格和标点在内的字符,对应到梅尔声谱的某几帧。
因为纯文本数据是无法作为深度学习输入的,所以对于中文而言,首先要把汉字序列对于转化成拼音序列(符号只保留',。?!'四种),再将拼音序列转化为一个个对应的向量。使用标准差为steddev的截断正态分布的词嵌入层,通过训练不断地学习到语料库中的每个字的词向量。
(2)音频特征提取
对于音频,主要是提取出它的梅尔频谱特征。梅尔倒频谱参数(Mel-FrequencyCepstral Coefficients,MFCC)是一种比较常用的音频特征,对于声音来说,它其实是一个一维的时域信号,直观上很难看出频域的变化规律,我们知道,可以使用傅里叶变化,得到它的频域信息,但是又丢失了时域信息,无法看到频域随时域的变化,这样就没法很好地描述声音,为了解决这个问题,使用短时傅里叶时频分析方法,运用第三方库librosa(下载地址:https://pypi.org/project/librosa/#history)提取MFCC特征。
7、实验:
(1)评测方法介绍
通过主观评价和客观评价方法来对本发明模型进行评估。
1)主观评价方式:
本发明模型使用的主观评价方法为平均意见得分(Mean Opinion Score,MOS),主要关注合成语音的自然度和可懂度,MOS值的评分标准分为5级,为1~5分,分数越高则表示语音质量越好。平均意见得分的评估标准见表8。
表8平均意见得分的评估标准
级别 分数 评价标准
5.0 发音清晰;延迟小,交流流畅,总体听感很好;非常相似
4.0 发音清晰、可懂;延迟小,交流欠流畅,有点杂音;较为相似
3.0 基本可以听懂;有一定延迟,可以交流,整体感觉不流畅;中度相似
2.0 勉强可以听懂,听不太清;延迟较大,交流需要重复多遍;略微相似
1.0 发音不清晰,很难听懂;延迟大,交流不通畅;完全不相似
MOS值计算:
选取M个句子评估K个语音合成***,共生成MK个样本,由N个被试评分,希望求得***的平均得分μ。为提高度量结果的随机显著性,使用95%置信区间内的评分作为***的平均得分,公式如下:
μmn=μ+xm+yn+zmn (20)
Figure BDA0003336592710000181
Figure BDA0003336592710000182
Figure BDA0003336592710000183
其中,
Figure BDA0003336592710000184
用于建模句子质量、被试偏好和主观不确定性,
Figure BDA0003336592710000185
取决于具体的被测试***和测试环境。之后计算
Figure BDA0003336592710000186
公式如下:
Figure BDA0003336592710000187
Figure BDA0003336592710000188
可由最小二乘估计获得,公式如下:
Figure BDA0003336592710000189
得到的平均得分方差的估计值为:
Figure BDA00033365927100001810
结合上式并根据t分布求得平均得分的置信区间为:
Figure BDA00033365927100001811
其中,t分布的自由度为min(N,M)-1,置信度选择95%,可查表获得t的值。
2)客观评价方式:
在客观评测方法中,使用梅尔倒谱失真(Mel Cepstral Distortion,MCD)度量合成语音和真实语音之间的差异,MCD表示转换后语音的MFCC特征与标准输出语音的MFCC特征的差距,失真值越小,合成语音音质越好。
MCD计算公式:
Figure BDA00033365927100001812
其中,α是缩放因子,其值一般为
Figure BDA00033365927100001813
l和m分别为梅尔倒谱索引和帧索引,M为语音帧数,L为梅尔倒谱维数,s(l,m)和
Figure BDA00033365927100001814
分别为真实语音和合成语音的梅尔倒谱。
(2)语音合成模型比较实验
为了证明本发明提出的语音合成模型在语音合成质量和自然度中有明显的优势,挑选了目前主流的基于深度学习的语音合成模型进行了实验。包括自回归模型Tacotron2(Jonathan Shen,Ruoming Pang,Ron J.Weiss,Mike Schuster,Navdeep Jaitly,ZonghengYang,Zhifeng Chen,Yu Zhang,Yuxuan Wang,RJ Skerry-Ryan,Rif A.Saurous,YannisAgiomyrgiannakis,and Yonghui Wu.Natural TTS Synthesis by Conditioning WaveNeton Mel Spectrogram Predictions[C].Proceeding of 43th IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP 2018),Calgary,Alberta,Canada,April 15-20,2018,pp.4779-4783.)和非自回归模型FastSpeech2(YiRen,Chenxu Hu,Xu Tan,Tao Qin,Sheng Zhao,Zhou Zhao,Tie-Yan Liu.FastSpeech 2:Fast and High-Quality End-to-End Text to Speech[J].arXiv preprint arXiv:2006.04558,2020.),通过主观评价和客观评价的方法对不同模型进行了实验。
根据以上模型的特点,搭配了三种流行的的声码器用于比较实验:Griffin-Lim(Perraudin N,Balazs P,
Figure BDA0003336592710000191
P L.A Fast Griffin-Lim Algorithm[C].Proceeding of 14th IEEE Workshop on Applications of Signal Processing toAudio and Acoustics(WASPAA 2013),New Paltz,New York,U.S.A,October 2013,pp.1-4.),MB-MelGAN(Geng Yang,Shan Yang,Kai Liu,Peng Fang,Wei Chen,Lei Xie.Multi-Band Melgan:Faster Waveform Generation For High-Quality Text-To-Speech[C].Proceeding of the 8th IEEE Spoken Language Technology Workshop(SLT 2021),Shenzhen,China,January 2021,pp.492-498.)和WaveRNN(Nal Kalchbrenner,ErichElsen,Karen Simonyan,Seb Noury,Norman Casagrande,Edward Lockhart,FlorianStimberg,A¨aron van den Oord,Sander Dieleman,Koray Kavukcuoglu.EfficientNeural Audio Synthesis[C].Proceeding of 35th International Conference onMachine Learning(ICML 2018),Stockholm,Sweden,July 2018,pp.2410-2419.)。
Griffin-Lim:该模型在已知幅度谱、不知道相位谱的条件下生成语音。Griffin-Lim获取整个频谱图,通过在频率域和时域之间反复转换,迭代地估计缺失的相位信息。在本实验中,使用了从频率到时间域的60次迭代。
MB-MelGAN:即Multi-Band MelGAN。该模型在MelGAN的基础上,增加了生成器的感受野,同时用多分辨率短时傅里叶变换损失代替特征匹配损失,以带来更好的训练质量和更好的训练稳定性。
WaveRNN:该模型是一种基于神经网络的高速音频合成声码器,它具有一个单层的RNN网络架构,使用了两个softmax层。WavRNN的一个优点是使用了矩阵稀疏化,这将使合成速度提高10倍。
在主观评测方法中,使用平均意见得分(MOS)评估合成语音质量与自然度。首先从测试集中随机选取20条文本,合成语音与真实语音混合在一起并随机打乱组成待测语音集,15个测试人员在噪声小于30分贝的同一实验室环境中对每条语音进行打分,回收所有测试人员的打分结果,排除误差较大的评分数据,然后按照95%的置信度计算平均得分作为最终得分。
在客观评测方法中,本实施例使用梅尔倒谱失真(MCD)度量合成语音和真实语音之间的差异。并选择了20条文本用于语音合成,并且每个文本存在对应的真实录音音频。首先分别计算不同模型对于这20条文本的MCD,对于每个模型再各自求平均值作为最终得分。
表9语音合成模型实验结果对比表
声学模型 MOS MCD
Tacotron2+Griffin-Lim 4.04±0.19 6.80
Tacotron2+MB-MelGAN 4.17±0.25 7.14
Tacotron2+WaveRNN 4.19±0.10 6.69
FastSpeech2+MB-MelGAN 3.96±0.15 6.97
本发明模型 4.22±0.30 6.22
真实语音 4.50±0.24
MOS与MCD实验结果如表9所示。从表9中可以看到,本发明模型MOS评分为4.22,高于其他模型,证明本发明模型语音合成质量与自然度更优。此外,本发明模型MCD评分为6.22,低于其他模型,说明本发明模型合成语音和真实语音之间的差异最小。
除了进行MCD的定量比较实验,本实施例还通过梅尔频谱图,用图形化的方式呈现出合成语音和真实语音之间的差异。图2为模型生成的梅尔频谱与真实梅尔频谱的对比,其中,图(a)为真实梅尔频谱,其他频谱图为各模型生成的梅尔频谱。从图2中可以看到,本发明模型生成的梅尔频谱图与其他语音合成模型相比更接近真实梅尔频谱。

Claims (5)

1.一种基于扩散概率模型的中文语音合成方法,其特征在于,包括以下步骤:
S1:文本前端处理:
获取文本数据集,构建中文文本前端处理模块,对文本数据集进行普通话文本转音素处理、文本正则化处理,以及标点符号的删除或转化处理,得到音素序列;
S2:构建基于前向注意力机制的端到端频谱生成网络对处理后的文本进行编码和解码:编码:编码器模块将输入的所述音素序列处理得到隐层序列,每个解码时刻,注意力机制对输入序列进行一个软选择,得到一个注意力的上下文向量,作为解码器的输入;
解码:解码器模块通过预处理网络进行时间步长的预测,预处理网络的输出和注意力的上下文向量通过两个单向LSTM层堆栈连接和传递;通过线性变换投影LSTM层输出与注意力的上下文向量的连接预测目标频谱图框架;将预测的梅尔谱图通过一个5层卷积后处理网络,将预测残差添加到预测中,以改善整体重构;
S3:使用基于扩散概率模型的Diffwave声码器进行中文语音合成:
所述扩散概率模型将噪声和目标波形的映射关系分成了T个步骤,形成了一条马尔可夫链,针对该链的扩散过程,即从目标音频到噪声进行训练,然后通过反向过程,即从噪声到目标音频进行解码。
2.根据权利要求1所述的基于扩散概率模型的中文语音合成方法,其特征在于,所述普通话文本转音素处理具体为:对于文本数据集每个句子中汉字从左到右的顺序,优先从词拼音库中查找是否存在以该汉字开头的词,并检查文本中该汉字后面的汉字是否与该词中匹配,若匹配,直接从词拼音库中获取该词的拼音;若不匹配,则从字拼音库中获取该汉字的拼音。
3.根据权利要求1所述的基于扩散概率模型的中文语音合成方法,其特征在于,所述编码器模块包括:一个字符嵌入层,一个3层卷积,一个双向LSTM层;输入字符被编码成128维的字符向量;然后穿过一个3层卷积,每层卷积包含256个5×1的卷积核,即每个卷积核横跨5个字符,卷积层对输入的字符序列进行大跨度上下文建模,卷积层后接批归一化,使用ReLU激活函数进行激活;最后一个卷积层的输出被传送到双向LSTM层生成编码特征;
Figure FDA0003336592700000011
H=EncoderRecurrency(fe) (2)
其中,fe为编码特征,F1、F2、F3为3个卷积核,relu(·)表示各卷积层上的非线性激活;
Figure FDA0003336592700000021
表示对字符序列X做嵌入,EncoderRecurrency(·)表示编码器中的循环神经网络双向LSTM,H为输出的编码器隐状态。
4.根据权利要求1所述的基于扩散概率模型的中文语音合成方法,其特征在于,所述前向注意力机制具体包括:
设输入编码器的音素序列为x=[x1,x2,…,xN],N表示音素序列的长度,经过编码器的处理得到隐层序列h=[h1,h2,…,hN],在每个解码时刻k,注意力机制对输入序列进行一个软选择,得到一个上下文向量ck,作为解码器的输入;
设注意力机制的查询向量为sk,注意力机制选择一个编码器1到N之间的位置输出作为输入,该位置用一个随机变量πk∈{1,…,N}来表示,则注意力机制的建模目标为该位置变量的概率分布:p(πk|h,sk);上下文向量计算由下式得到:
Figure FDA0003336592700000022
其中,yk(n)=p(πk=n|h,sk)表示注意力在解码时刻k,停留在编码器的输出位置n的概率大小;
基于内容的注意力机制的计算方式为:
Figure FDA0003336592700000023
其中,W,V,b和v是模型的参数;ek,n用于评价sk和hn的匹配程度;
假设不同时刻的注意力位置随机变量πk在给定编码器的输出h和查询向量sk以后是条件独立的,则得到一个对齐路径π1:k={π12,…,πk}的概率为:
Figure FDA0003336592700000031
其中,s1:k为查询向量集合{s1,s2,…,sk};yk'k')表示注意力在当前解码时刻k前的任意时刻k',停留在编码器的输出位置πk'的概率大小;
确定一个注意力的合法路径集合P内的每条路径都满足单调性和连续性,则给定单调路径的约束下,注意力分布的条件概率为:
p(πk|h,s1:k0:k∈P) (6)
则定义前向变量ak(n)为:
Figure FDA0003336592700000032
采用动态规划算法,通过前一个时刻得到的前向变量,递推得到当前时刻的前向变量:
ak(n)=(ak-1(n)+ak-1(n-1))yk(n) (8)
从前向变量中得到新的注意力概率:
Figure FDA0003336592700000033
在式(3)中用
Figure FDA0003336592700000034
来替代yk(n)计算上下文向量ck
Figure FDA0003336592700000035
5.根据权利要求1所述的基于扩散概率模型的中文语音合成方法,其特征在于,所述S3具体包括:
S31:定义qdata(x0)为
Figure FDA0003336592700000041
上的数据分布,其中L是数据维度;定义
Figure FDA0003336592700000042
T为有着相同维度的变量序列,t为扩散步数的索引,T为扩散总步数;所述扩散概率模型包括扩散过程和反向过程;
扩散过程的目的是通过一条马尔可夫链将x0逐渐映射到多维正态分布,即:
Figure FDA0003336592700000043
其中,q(xt|xt-1)被定义为和常数βt有关的高斯分布
Figure FDA0003336592700000044
I为单位矩阵;反向过程则是基于正态分布的采样进行生成:
platent(xT)=N(0,I) (12)
Figure FDA0003336592700000045
其中,platent(xT)为各向同性高斯分布,转移概率pθ(xt-1|xt)参数化为高斯分布N(xt-1;μθ(xt,t),σθ(xt,t)2I);
其中,模型μθ和模型σθ各有两个输入:扩散步数
Figure FDA0003336592700000046
和变量
Figure FDA0003336592700000047
其中L是数据维度;模型μθ输出一个L维向量作为均值,模型σθ输出一个实数作为标准差;pθ(xt-1|xt)的目的是在扩散过程中逐渐消除高斯噪声,最终生成符合目标分布的数据;
S32:抽样
对于反向过程,生成过程首先对xT:N(0,I)抽样,之后对xt-1:pθ(xt-1|xt),t=T,T-1,...,1抽样;输出的x0是一个抽样数据;
S33:训练
在训练前,首先剖析模型的训练目标,即最大似然度pθ(x0);通过最大化变分下界来训练模型,公式为:
Figure FDA0003336592700000051
其中,
Figure FDA0003336592700000052
表示x对于分布qdata(x0)的期望,
Figure FDA0003336592700000053
表示x对于分布q(x1,...,xT)的期望;ELBO为证据下界;
定义基于扩散过程中调度方差的常数:
Figure FDA0003336592700000054
其中,βt为前向过程方差;为便于表示,使用替代符号αt表示αt=1-βt
然后,μθ和σθ的参数化定义:
Figure FDA0003336592700000055
其中,∈θ:
Figure FDA0003336592700000056
是一个同样以xt和扩散步数t为输入的神经网络;σθ(xt,t)固定为常数
Figure FDA0003336592700000057
对于该参数化下的每一步,给出如下ELBO的闭型表达式:
假设给定一系列固定调度
Figure FDA0003336592700000058
让∈~N(0,I)和x0~qdata;则在期望Eq的参数化下,得到:
Figure FDA0003336592700000059
对于常数c和κt,其中
Figure FDA00033365927000000510
且对于t>1,有
Figure FDA00033365927000000511
最小化以下未加权的ELBO变量以提高生成质量:
Figure FDA0003336592700000061
其中,t均匀取值于1,...,T;
S34:扩散步嵌入:
将不同的扩散步t作为输入,模型对应不同的t会输出不同的∈θ(·,t);对每个t使用128维的编码向量;
Figure FDA0003336592700000062
在编码上应用三个全连接层,其中前两个FC共享各残差层之间的参数;最后一个FC将第二个FC的输出映射为C维嵌入向量;之后广播这个向量并将其加到每个残差层的输入中。
CN202111295924.5A 2021-11-03 2021-11-03 一种基于扩散概率模型的中文语音合成方法 Pending CN114023300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111295924.5A CN114023300A (zh) 2021-11-03 2021-11-03 一种基于扩散概率模型的中文语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111295924.5A CN114023300A (zh) 2021-11-03 2021-11-03 一种基于扩散概率模型的中文语音合成方法

Publications (1)

Publication Number Publication Date
CN114023300A true CN114023300A (zh) 2022-02-08

Family

ID=80060249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111295924.5A Pending CN114023300A (zh) 2021-11-03 2021-11-03 一种基于扩散概率模型的中文语音合成方法

Country Status (1)

Country Link
CN (1) CN114023300A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884391A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置
CN116884495A (zh) * 2023-08-07 2023-10-13 成都信息工程大学 一种基于扩散模型的长尾染色质状态预测方法
CN116977652A (zh) * 2023-09-22 2023-10-31 之江实验室 基于多模态图像生成的工件表面形貌生成方法和装置
CN117423329A (zh) * 2023-12-19 2024-01-19 北京中科汇联科技股份有限公司 模型训练及语音生成方法、装置、设备及存储介质
CN117809621A (zh) * 2024-02-29 2024-04-02 暗物智能科技(广州)有限公司 一种语音合成方法、装置、电子设备及存储介质
CN117934657A (zh) * 2024-03-21 2024-04-26 华南理工大学 一种基于文图生成模型的语言跟踪图像编辑方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951778A (zh) * 2020-07-15 2020-11-17 天津大学 一种低资源下利用迁移学习进行情感语音合成的方法
CN112652291A (zh) * 2020-12-15 2021-04-13 携程旅游网络技术(上海)有限公司 基于神经网络的语音合成方法、***、设备及存储介质
CN113345415A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN113678200A (zh) * 2019-02-21 2021-11-19 谷歌有限责任公司 端到端语音转换

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113678200A (zh) * 2019-02-21 2021-11-19 谷歌有限责任公司 端到端语音转换
CN111951778A (zh) * 2020-07-15 2020-11-17 天津大学 一种低资源下利用迁移学习进行情感语音合成的方法
CN112652291A (zh) * 2020-12-15 2021-04-13 携程旅游网络技术(上海)有限公司 基于神经网络的语音合成方法、***、设备及存储介质
CN113345415A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JING-XUAN ZHANG 等: "FORWARD ATTENTION IN SEQUENCE-TO-SEQUENCE ACOUSTIC MODELING FOR SPEECH SYNTHESIS", 《ARXIV:1807.06736V1》 *
JONATHAN SHEN 等: "NATURAL TTS SYNTHESIS BY CONDITIONINGWAVENET ON MEL SPECTROGRAM PREDICTIONS", 《ICASSP 2018》 *
ZHIFENG KONG 等: "DIFFWAVE: A VERSATILE DIFFUSION MODEL FOR AUDIO SYNTHESIS", 《ARXIV:2009.09761V3》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884495A (zh) * 2023-08-07 2023-10-13 成都信息工程大学 一种基于扩散模型的长尾染色质状态预测方法
CN116884495B (zh) * 2023-08-07 2024-03-08 成都信息工程大学 一种基于扩散模型的长尾染色质状态预测方法
CN116884391A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置
CN116884391B (zh) * 2023-09-06 2023-12-01 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置
CN116977652A (zh) * 2023-09-22 2023-10-31 之江实验室 基于多模态图像生成的工件表面形貌生成方法和装置
CN116977652B (zh) * 2023-09-22 2023-12-22 之江实验室 基于多模态图像生成的工件表面形貌生成方法和装置
CN117423329A (zh) * 2023-12-19 2024-01-19 北京中科汇联科技股份有限公司 模型训练及语音生成方法、装置、设备及存储介质
CN117423329B (zh) * 2023-12-19 2024-02-23 北京中科汇联科技股份有限公司 模型训练及语音生成方法、装置、设备及存储介质
CN117809621A (zh) * 2024-02-29 2024-04-02 暗物智能科技(广州)有限公司 一种语音合成方法、装置、电子设备及存储介质
CN117809621B (zh) * 2024-02-29 2024-06-11 暗物智能科技(广州)有限公司 一种语音合成方法、装置、电子设备及存储介质
CN117934657A (zh) * 2024-03-21 2024-04-26 华南理工大学 一种基于文图生成模型的语言跟踪图像编辑方法
CN117934657B (zh) * 2024-03-21 2024-06-04 华南理工大学 一种基于文图生成模型的语言跟踪图像编辑方法

Similar Documents

Publication Publication Date Title
Van Den Oord et al. Wavenet: A generative model for raw audio
Oord et al. Wavenet: A generative model for raw audio
Le et al. Voicebox: Text-guided multilingual universal speech generation at scale
Huang et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation
US20200026760A1 (en) Enhanced attention mechanisms
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN113439301A (zh) 使用序列到序列映射在模拟数据与语音识别输出之间进行协调
Liu et al. Towards unsupervised speech recognition and synthesis with quantized speech representation learning
Jemine Real-time voice cloning
CN112435654B (zh) 通过帧***对语音数据进行数据增强
Kaur et al. Conventional and contemporary approaches used in text to speech synthesis: A review
Luo et al. Emotional voice conversion using neural networks with arbitrary scales F0 based on wavelet transform
WO2021123792A1 (en) A Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
KR102272554B1 (ko) 텍스트- 다중 음성 변환 방법 및 시스템
CN114495969A (zh) 一种融合语音增强的语音识别方法
Khanam et al. Text to speech synthesis: a systematic review, deep learning based architecture and future research direction
Tan Neural text-to-speech synthesis
Mei et al. A particular character speech synthesis system based on deep learning
Zhao et al. Research on voice cloning with a few samples
Schnell et al. Investigating a neural all pass warp in modern TTS applications
US20230178069A1 (en) Methods and systems for synthesising speech from text
Qiu et al. A Voice Cloning Method Based on the Improved HiFi‐GAN Model
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
Wen et al. Improving deep neural network based speech synthesis through contextual feature parametrization and multi-task learning
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220208