CN110473515A - 一种基于WaveRNN的端到端语音合成方法 - Google Patents

一种基于WaveRNN的端到端语音合成方法 Download PDF

Info

Publication number
CN110473515A
CN110473515A CN201910805134.3A CN201910805134A CN110473515A CN 110473515 A CN110473515 A CN 110473515A CN 201910805134 A CN201910805134 A CN 201910805134A CN 110473515 A CN110473515 A CN 110473515A
Authority
CN
China
Prior art keywords
wavernn
method based
synthetic method
network
coarse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910805134.3A
Other languages
English (en)
Inventor
郝洁
魏江
侯永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910805134.3A priority Critical patent/CN110473515A/zh
Publication of CN110473515A publication Critical patent/CN110473515A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于WaveRNN的端到端语音合成方法,包括如下具体步骤:S1、前端处理,标注语言形成神经网络深度学习的音频特征向量,音频特征向量与文本字符对应;S2、文本字符输入;本发明提供一种基于WaveRNN的端到端语音合成方法,采用WaveRNN架构作为语音生成器,重构损失的相位信息,梅尔频谱特征逆变换为时域波形样本,进而生成语音提升合成语音的质量,合成的语音保真度较高,本发明中WaveRNN由称为双softmax层组成组成;WaveRNN其具有与最先进的WaveNet模型的质量匹配的双softmax层;网络的紧凑形式可以在GPU上生成比实时快4倍的24kHz16位音频;本发明创造性地把2*16的分类器,拆成了两个2*8的分类器,网络的架构和需求确实变小了,提高语音生成效。

Description

一种基于WaveRNN的端到端语音合成方法
技术领域
本发明属于语音合成技术领域,具体为一种基于WaveRNN的端到端语音合成方法。
背景技术
语音合成(Speech Synthesis),又称文语转换技术是指计算机通过分析将任意文本转化为流畅语音的技术。语音合成作为实现人机语音交互***的核心技术之一;是语音处理技术中一个重要的方向,其应用价值越来越受到重视。语音合成领域的主导技术随着时代的发展不断更迭。基于波形拼接的语音合成方法,是一项把预先录制的语音波形片段拼接在一起的技术,是目前语音合成领域常用方法之一,受到语料库内容的限制,这种方法对拼接算法的优化、存储配置的调整等方面有较大的要求,对于语料库之外的其他说话人、其他文本内容起不到任何作用。
随着基于统计参数的语音合成方法日益成熟,这种方法被逐渐应用到语音合成中。基于统计参数的语音合成方法的基本思想是,通过对输入的训练语音进行参数分解,然后对声学参数建模,并构建参数化训练模型,生成训练模型库,最后在模型库的指导下,预测待合成文本的语音参数,将参数输入声码器合成目标语音,这种方法解决了拼接式合成方法中边界人工痕迹很多的问题。然而由这些方法构造的***需要大量的专业领域知识,因而设计困难,并且所需模块通常是单独训练,产生自每个模块的错误会有叠加效应,生成的语音与人类语音相比,经常模糊不清并且不自然。
随着人工智能技术的快速发展,语音合成领域有了新的技术支持。深度学习可以将内部模块统一到一个模型中,并直接连接输入和输出,减少了基于特定领域知识的密集工程参数模型,这种技术被称为“端到端”学习,为此发明人提出了一种应用深度学习的基于WaveRNN的端到端语音合成方法。
发明内容
本发明的目的在于:为了解决背景技术涉及的技术问题,提供一种基于WaveRNN的端到端语音合成方法。
本发明采用的技术方案如下:
一种基于WaveRNN的端到端语音合成方法,包括如下具体步骤:
S1、前端处理,标注语言形成神经网络深度学习的音频特征向量,音频特征向量与文本字符对应;
S2、文本字符输入;
S3、文本字符预处理,双向提取音频特征序列,并形成梅尔频率声谱图;
S4、WaveRNN语音生成,重构损失的相位信息,梅尔频谱特征逆变换为时域波形样本,进而生成语音。
其中,所述S1中,预先构建语料库,语料库中的所有音频特征都被标注与文本字符对应。
其中,所述S3包括如下具体步骤:
S301、将文本字符转换为one-hot向量,并被嵌入一个连续向量中,
S302、通过带dropout瓶颈层的预处理pre-net网络对每个字符向量施加一组非线性变换后的序列输出输入到CBHG模块;
S303、CBHG模块将pre-net的输出变换成编码器的最终表达。
其中,所述所述S303中CBHG模块包含一维卷积滤波器组,其变换包括如下具体步骤:
S3031、利用一维卷积滤波器组对局部上下文信息进行建模;
S3032、然后接一个多层高速公路网络,用来提取高层特征;
S3033、最后通过一个双向门控循环单元循环神经网络,用来前后双向提取特征序列。
其中,所述S303中CBHG模块使用非因果卷积、批标准化、残差连接以及步长为1的最大池化处理。
其中,所述S4中WaveRNN由称为双softmax层组成;网络的紧凑形式可以在GPU上生成比实时快4倍的24kHz 16位音频;语音生成速度:
T(u)就是生成某句子u发音需要的时间;一共有|u|个sample,这里的sample和digital audio里的sample是一个意思;|u|会非常大,对于高品质声音。比如高保真声音就是24K个sample,每个sample对应16bit;上面公式里还有求和表达式中的N,这个用来代表神经网络的层数,number of layers;这个可能很大,如果神经网络的层数很多。c(op)代表每一层的计算时间,如果网络很宽,或者网络的kernel很多,计算时间也会很长。而d(op)代表硬件执行程序的overhead时间,包含了调用程序,提取对应参数之类的时间;要想语音生成的快,上面的每个参数都要尽量的小;所述WaveRNN含有两层softmax layer,用于生成coarse 8 bits和fine 8 bits,R层为GRU层,首先配合生成coarse 8 bits,coarse 8 bits生成后当做输入去生成fine 8 bits。
其中GRU variantcell的计算包含了masking其具体公式如下:
xt=[ct-1,ft-1,ct]
yc,yf=split(ht)
全连接层包含了两层softmax
P(ct)=softmax(O2relu(O1,yc))
P(ft)=softmax(O4relu(O3,yf))
ct-1,ft-1分别代表t-1时刻coarse 8 bit和fine 8 bit的输出;网络的输出就是ct和ft.其中计算ut的时候有一个*,用来表示masked matrix.masked matrix在计算coarse 8bit的时候使用,因为xt的输入中有个ct,这个还没有生成,所以需要用masked matrx,使这部分变成0来计算;其中coarse and fine parts都在[0,255]之间,对应了softmax的256个分类;Coarse parts和fine parts合起来就是对应声音的16bit。
所述WaveRNN的稀疏化采用裁剪法,在训练中将网络里较小的值,裁剪成小于1的数值。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明提供一种基于WaveRNN的端到端语音合成方法,本发明采用WaveRNN架构作为语音生成器,重构损失的相位信息,梅尔频谱特征逆变换为时域波形样本,进而生成语音提升合成语音的质量,合成的语音保真度较高,所提出的方法不涉及传统声码器中通过激励信号来驱动关节式过滤器,并且不需要对诸如高斯性的数据进行任何数学假设。
2、本发明中提出了一种前端处理方法,标注语言形成神经网络深度学习的音频特征向量,音频特征向量与文本字符对应;通过调整字符的表征方式,使***实现多语言合成成为可能。
3、本发明中提出了文本字符预处理方法,双向提取音频特征序列,并形成梅尔频率声谱图;本发明利用一维卷积滤波器组对局部上下文信息进行建模;然后接一个多层高速公路网络,用来提取高层特征;最后通过一个双向门控循环单元循环神经网络,用来前后双向提取特征序列;
4、本发明中WaveRNN由称为双softmax层组成;网络的紧凑形式可以在GPU上生成比实时快4倍的24kHz16位音频;本发明把2*16的分类器,拆成了两个2*8的分类器,网络的架构和需求确实变小了,提高语音生成效。
附图说明
图1为本发明的***架构图;
图2为本发明中WaveRNN网络架构图;
图3为本发明中WaveRNN的coarse 8 bits的生成示意图;
图4为本发明中特征预测网络对齐图;
图5为本发明中梅尔声谱图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参阅图1~5;一种基于WaveRNN的端到端语音合成方法,包括如下具体步骤:
S1、前端处理,标注语言形成神经网络深度学习的音频特征向量,音频特征向量与文本字符对应;
S2、文本字符输入;
S3、文本字符预处理,双向提取音频特征序列,并形成梅尔频率声谱图;
S4、WaveRNN语音生成,重构损失的相位信息,梅尔频谱特征逆变换为时域波形样本,进而生成语音。
其中,所述S1中,预先构建语料库,语料库中的所有音频特征都被标注与文本字符对应。
其中,所述S3包括如下具体步骤:
S301、将文本字符转换为one-hot向量,并被嵌入一个连续向量中,
S302、通过带dropout瓶颈层的预处理pre-net网络对每个字符向量施加一组非线性变换后的序列输出输入到CBHG模块;
S303、CBHG模块将pre-net的输出变换成编码器的最终表达。
其中,所述所述S303中CBHG模块包含一维卷积滤波器组,其变换包括如下具体步骤:
S3031、利用一维卷积滤波器组对局部上下文信息进行建模;
S3032、然后接一个多层高速公路网络,用来提取高层特征;
S3033、最后通过一个双向门控循环单元循环神经网络,用来前后双向提取特征序列。
其中,所述S303中CBHG模块使用非因果卷积、批标准化、残差连接以及步长为1的最大池化处理。
其中,所述S4中WaveRNN由称为双softmax层组成;网络的紧凑形式可以在GPU上生成比实时快4倍的24kHz,16位音频;
语音生成速度:
T(u)就是生成某句子u发音需要的时间;一共有|u|个sample,这里的sample和digital audio里的sample是一个意思;|u|会非常大,对于高品质声音。比如高保真声音就是24K个sample,每个sample对应16bit;上面公式里还有求和表达式中的N,这个用来代表神经网络的层数,number of layers;这个可能很大,如果神经网络的层数很多。c(op)代表每一层的计算时间,如果网络很宽,或者网络的kernel很多,计算时间也会很长。而d(op)代表硬件执行程序的overhead时间,包含了调用程序,提取对应参数之类的时间;要想语音生成的快,上面的每个参数都要尽量的小;
所述WaveRNN含有两层softmax layer,用于生成coarse 8 bits和fine 8bits,R层为GRU层,首先配合生成coarse 8 bits,coarse 8 bits生成后当做输入去生成fine 8bits。
其中GRU variantcell的计算包含了masking其具体公式如下:
xt=[ct-1,ft-1,ct]
yc,yf=split(ht)
全连接层包含了两层softmax
P(ct)=softmax(O2relu(O1,yc))
P(ft)=softmax(O4relu(O3,yf))
ct-1,ft-1分别代表t-1时刻coarse 8 bit和fine 8 bit的输出;网络的输出就是ct和ft.其中计算ut的时候有一个*,用来表示masked matrix.masked matrix在计算coarse 8bit的时候使用,因为xt的输入中有个ct,这个还没有生成,所以需要用masked matrx,使这部分变成0来计算;其中coarse and fine parts都在[0,255]之间,对应了softmax的256个分类;Coarse parts和fine parts合起来就是对应声音的16bit。
本发明中计算对应语音生成效率的分析,减少了N的大小,理论上N=1,因为只有一个RNN layer,所以生成速度可能会比WaveNet快一些,本发明把2*16的分类器,拆成了两个2*8的分类器,网络的架构和需求确实变小了,提高语音生成效率;
其次,我们应用减重技术来减少WaveRNN中的权重数量;我们发现,对于固定数量的参数,大型稀疏网络比小型密集型网络表现更好,并且这种关系适用于超过96%的稀疏水平;稀疏WaveRNN中的少量权重使得可以实时在移动CPU上采样高清音频;最后,我们提出了一种基于子尺度的新一代方案,将长序列折成一批较短的序列,并允许一次产生多个样本;子量程WaveRNN每步产生16个采样点而不损失质量。具体是WaveRNN使用的是裁剪法,在训练中将网络里较小的值,裁剪成0.具体说来就是首先随机生成一个正常的矩阵然后每训练500步,就将weight matrix里k个最小的值变成0.这个k是根据稀疏程度的要求确定的。逐渐会越来越大,直到满足的稀疏度的要求。这里WaveRNN进一步提出了用block sparse的方式来表达这个稀疏矩阵,据说可以相应的减少神经网络的精度损失;
为了测试模型音频建模的性能,本发明在两个不同语种的语料库上对其进行评估。实验语种类别分别为英语、汉语,采用LJSpeech1.0英语语料库和THchs-30汉语语料库训练所有的模型:LJSpeech1.0英语语料库时长约24h,共13 100句话,每句平均17个单词,平均时长6.6s,由一名专业女性播讲;THchs-30汉语语料库时长约33.5h,共13 388句话,每句平均20个字,平均时长9s,由30个会讲流利普通话的大学生录制;
特征提取和预处理:语音信号采样频率是22050Hz,采样位是16bit使用Hamming窗处理,帧长50ms,帧移12.5s ms,预加重系数0.97。语料库中的所有音频都被与文本对应,英语直接用26个字母加上标点符号作为字符标注,比如“6”标注为“six”;汉字则用拼音作为字符标注“春天”标注为“chun1tian1"(1代表第一声),即所有的模型都是在经过预标准化处理过的数据上训练的。实验训练过程包括:首先训练特征预测Seq2Seq网络,用于从输入的字符序列预测梅尔频谱的帧序列。嵌入字符为256维,普通的Seq2Seq模型对字符输入效果不好,本文在嵌入层后添加一个pre-net模块,它有两个隐藏层,层与层之间的连接均是全连接。第一层的隐藏单元数目与输入单元数目一致,第二层的隐藏单元数目为第一层的一半。两个隐藏层采用的均为ReLu激活函数,并使用0.5的dropout进行正则化处理,编码器和解码器均采用2层残差RNN,每层包含256个GRU单元,来提高模型的泛化能力。批次规模(batch size)为32,使用Adam优化器并指定参数。一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999,初始学***滑的对齐,如图4所示,并预测出梅尔声谱图,如图5所示;然后基于特征预测网络的输出梅尔声谱图,在利用WaveRNN网络架构,学习生时域波形样本。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于WaveRNN的端到端语音合成方法,其特征在于:
包括如下具体步骤:
S1、前端处理,标注语言形成神经网络深度学习的音频特征向量,音频特征向量与文本字符对应;
S2、文本字符输入;
S3、文本字符预处理,双向提取音频特征序列,并形成梅尔频率声谱图;
S4、WaveRNN语音生成,重构损失的相位信息,梅尔频谱特征逆变换为时域波形样本,进而生成语音。
2.如权利要求1所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述S1中,预先构建语料库,语料库中的所有音频特征都被标注与文本字符对应。
3.如权利要求1所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:S3包括如下具体步骤:
S301、将文本字符转换为one-hot向量,并被嵌入一个连续向量中,
S302、通过带dropout瓶颈层的预处理pre-net网络对每个字符向量施加一组非线性变换后的序列输出输入到CBHG模块;
S303、CBHG模块将pre-net的输出变换成编码器的最终表达。
4.如权利要求3所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述S303中CBHG模块包含一维卷积滤波器组,其变换包括如下具体步骤:
S3031、一维卷积滤波器组对局部上下文信息进行建模;
S3032、然后接一个多层高速公路网络,用来提取高层特征;
S3033、最后通过一个双向门控循环单元循环神经网络,用来前后双向提取特征序列。
5.如权利要求3所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述S303中CBHG模块使用非因果卷积、批标准化、残差连接以及步长为1的最大池化处理。
6.如权利要求1-5任一所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述S4中WaveRNN由称为双softmax层组成;所述紧凑形式网络结构能够在GPU上生成比实时快4倍的24kHz 16位音频;语音生成速度:其中,T(u)就是生成某句子u发音需要的时间;一共有|u|个sample,这里的sample和digital audio里的sample是一个意思;N,代表神经网络的层数,number of layers;c(op)代表每一层的计算时间,而d(op)代表硬件执行程序的overhead时间,包含了调用程序,提取对应参数的时间。
7.如权利要求6所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述WaveRNN含有两层softmax layer,用于生成coarse 8bits和fine 8bits,R层为GRU层,首先配合生成coarse 8bits,coarse 8bits生成后当做输入去生成fine 8bits。
8.如权利要求6所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:其中GRUvariantcell的计算包含了masking其具体公式如下:
xt=[ct-1,ft-1,ct]
yc,yf=split(ht)
全连接层包含了两层softmax
P(ct)=softmax(O2relu(O1,yc))
P(ft)=softmax(O4relu(O3,yf))
ct-1,ft-1分别代表t-1时刻coarse 8bit和fine 8bit的输出;网络的输出就是ct和ft.其中计算ut的时候有一个*,用来表示masked matrix.masked matrix在计算coarse 8bit的时候使用,因为xt的输入中有个ct,这个还没有生成,所以需要用masked matrx,使这部分变成0来计算;其中coarse and fine parts都在[0,255]之间,对应了softmax的256个分类;Coarse parts和fine parts合起来就是对应声音的16bit。
9.如权利要求6所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述WaveRNN的稀疏化采用裁剪法,在训练中将网络里较小的值,裁剪成小于1的数值。
CN201910805134.3A 2019-08-29 2019-08-29 一种基于WaveRNN的端到端语音合成方法 Pending CN110473515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910805134.3A CN110473515A (zh) 2019-08-29 2019-08-29 一种基于WaveRNN的端到端语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910805134.3A CN110473515A (zh) 2019-08-29 2019-08-29 一种基于WaveRNN的端到端语音合成方法

Publications (1)

Publication Number Publication Date
CN110473515A true CN110473515A (zh) 2019-11-19

Family

ID=68513921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910805134.3A Pending CN110473515A (zh) 2019-08-29 2019-08-29 一种基于WaveRNN的端到端语音合成方法

Country Status (1)

Country Link
CN (1) CN110473515A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797002A (zh) * 2020-01-03 2020-02-14 同盾控股有限公司 语音合成方法、装置、电子设备及存储介质
CN111128117A (zh) * 2019-12-30 2020-05-08 苏州思必驰信息科技有限公司 声码器模型、语音合成方法及装置
CN111179905A (zh) * 2020-01-10 2020-05-19 北京中科深智科技有限公司 一种快速配音生成方法及装置
CN111210803A (zh) * 2020-04-21 2020-05-29 南京硅基智能科技有限公司 一种基于Bottleneck特征训练克隆音色及韵律的***及方法
CN111292719A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111444967A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN111489734A (zh) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置
CN112365875A (zh) * 2020-11-18 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、声码器和电子设备
CN112802450A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种韵律可控的中英文混合的语音合成方法及其***
CN112802448A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种新音色生成的语音合成方法和***
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113763924A (zh) * 2021-11-08 2021-12-07 北京优幕科技有限责任公司 声学深度学习模型训练方法、语音生成方法及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NAL KALCHBRENNER, ERICH ELSEN, KAREN SIMONYAN, SEB NOURY, NORMAN: "Efficient neural audio synthesis", 《ARXIV》 *
涛涛江水向坡流,:HTTPS://WWW.JIANSHU.COM/P/B3019F2773ED: "语音合成 text-to-speech WaveRNN", 《简书》 *
邱泽宇等: "基于WaveNet的端到端语音合成方法", 《计算机应用》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113066476B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN111128117A (zh) * 2019-12-30 2020-05-08 苏州思必驰信息科技有限公司 声码器模型、语音合成方法及装置
CN111128117B (zh) * 2019-12-30 2022-03-29 思必驰科技股份有限公司 声码器模型、语音合成方法及装置
CN110797002A (zh) * 2020-01-03 2020-02-14 同盾控股有限公司 语音合成方法、装置、电子设备及存储介质
CN111179905A (zh) * 2020-01-10 2020-05-19 北京中科深智科技有限公司 一种快速配音生成方法及装置
CN111292719A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111444967A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN111444967B (zh) * 2020-03-30 2023-10-31 腾讯科技(深圳)有限公司 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN111489734A (zh) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置
CN111489734B (zh) * 2020-04-03 2023-08-22 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置
CN111210803A (zh) * 2020-04-21 2020-05-29 南京硅基智能科技有限公司 一种基于Bottleneck特征训练克隆音色及韵律的***及方法
CN112365875A (zh) * 2020-11-18 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、声码器和电子设备
CN112365875B (zh) * 2020-11-18 2021-09-10 北京百度网讯科技有限公司 语音合成方法、装置、声码器和电子设备
CN112802450A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种韵律可控的中英文混合的语音合成方法及其***
CN112802448A (zh) * 2021-01-05 2021-05-14 杭州一知智能科技有限公司 一种新音色生成的语音合成方法和***
CN112802448B (zh) * 2021-01-05 2022-10-11 杭州一知智能科技有限公司 一种新音色生成的语音合成方法和***
CN112802450B (zh) * 2021-01-05 2022-11-18 杭州一知智能科技有限公司 一种韵律可控的中英文混合的语音合成方法及其***
CN113763924A (zh) * 2021-11-08 2021-12-07 北京优幕科技有限责任公司 声学深度学习模型训练方法、语音生成方法及设备
CN113763924B (zh) * 2021-11-08 2022-02-15 北京优幕科技有限责任公司 声学深度学习模型训练方法、语音生成方法及设备

Similar Documents

Publication Publication Date Title
CN110473515A (zh) 一种基于WaveRNN的端到端语音合成方法
Yu et al. Durian: Duration informed attention network for multimodal synthesis
CN112017644B (zh) 一种声音变换***、方法及应用
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
CN105529023B (zh) 语音合成方法和装置
Zhu et al. Phone-to-audio alignment without text: A semi-supervised approach
CN107408384A (zh) 部署的端对端语音识别
Siuzdak et al. WavThruVec: Latent speech representation as intermediate features for neural speech synthesis
Tihelka et al. Current state of text-to-speech system ARTIC: a decade of research on the field of speech technologies
US11295725B2 (en) Self-training WaveNet for text-to-speech
JP2021012351A (ja) 音声合成処理装置、音声合成処理方法、および、プログラム
WO2021006117A1 (ja) 音声合成処理装置、音声合成処理方法、および、プログラム
Prom-on et al. Training an articulatory synthesizer with continuous acoustic data.
CN101887719A (zh) 语音合成方法、***及具有语音合成功能的移动终端设备
CN116092471A (zh) 一种面向低资源条件下的多风格个性化藏语语音合成模型
Mandeel et al. Investigations on speaker adaptation using a continuous vocoder within recurrent neural network based text-to-speech synthesis
Liu et al. A novel method for Mandarin speech synthesis by inserting prosodic structure prediction into Tacotron2
Zhao et al. Lhasa-Tibetan speech synthesis using end-to-end model
CN115206284B (zh) 一种模型训练方法、装置、服务器和介质
Anumanchipalli et al. A statistical phrase/accent model for intonation modeling
He et al. DOP-tacotron: A fast chinese TTS system with local-based attention
Yang et al. A DNN-based emotional speech synthesis by speaker adaptation
CN113257225B (zh) 一种融合词汇及音素发音特征的情感语音合成方法及***
Krug et al. Articulatory synthesis for data augmentation in phoneme recognition
EP4020464A1 (en) Acoustic model learning device, voice synthesis device, method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191119

WD01 Invention patent application deemed withdrawn after publication