CN110189766A - 一种基于神经网络的语音风格转移方法 - Google Patents
一种基于神经网络的语音风格转移方法 Download PDFInfo
- Publication number
- CN110189766A CN110189766A CN201910513258.4A CN201910513258A CN110189766A CN 110189766 A CN110189766 A CN 110189766A CN 201910513258 A CN201910513258 A CN 201910513258A CN 110189766 A CN110189766 A CN 110189766A
- Authority
- CN
- China
- Prior art keywords
- style
- sonograph
- voice signal
- voice
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012546 transfer Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims description 71
- 230000006870 function Effects 0.000 claims description 54
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 20
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000003475 lamination Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 206010027476 Metastases Diseases 0.000 abstract description 15
- 230000009401 metastasis Effects 0.000 abstract description 15
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 230000001537 neural effect Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于神经网络的语音风格转移方法,类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、初始生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型,并通过该模型提取对应的特征生成了具有内容语音内容和风格语音风格的目标生成语音,实现过程简单且风格转移效果好。
Description
技术领域
本发明属于语音信号处理技术领域,具体涉及一种基于神经网络的语音风格转移方法。
背景技术
语音转换是语音信号处理领域的重要分支之一,语音转换(Voice Conversion,VC)是指改变源说话人(Source Speaker)的语音风格特征,使其转换为带有目标说话人(Target Speaker)风格特征的语音,而保持源说话人的语义信息不变。语音风格转移可以实际应用到通信、医疗、娱乐等领域中。
在现有的相关语音风格转移方法中,Abe等人提出基于矢量量化(VectorQuantization,VQ)和码本映射的语音风格转移方法。将原始、风格语音的谱包络特性参数通过矢量量化划分为一系列码本,通过建立其两者的映射关系,从而实现语音的风格转移。该方法简单易行,但转换后的语音音质较差,存在不连续、停断等现象。Savic等人基于Abe的研究方法提出将码本映射改进成神经网络,使得转换后的语音质量有了较大提高。这是首次把人工神经网络模型应用在语音风格转移研究上并且取得了一定突破。随后,基于神经网络的语音风格转移研究成为主流研究方向。Kim等人基于隐马尔可夫模型(HiddenMarkov Model,HMM)实现了对说话人语音信号的动态特性转换。但是该隐马尔可夫模型中的混合激励模型中的参数利用了经验值估测的方法,会使生成的参数不够精确,最终导致语音信号的相似度以及自然度降低。Stylianou首次提出基于高斯混合模型(GMM,GaussianMixture Model)实现语音信号频谱包络特性参数的转换模型,该方法虽然可以有效避免传统矢量量化法带来的语音信号不连续、停断等现象,但是由于其凭借平均统计原理,从而会使转换后语音信号的共振峰产生过度平滑的疑难。
由以上参考文献可知,基于神经网络的语音风格转移研究在性能和稳定性方面都有较大提高,但是在神经网络的训练阶段,训练数据制作与获取的较大难度给语音风格转移研究带来了一定的阻碍。因此,本发明将借鉴图像相对完善的风格转移研究,从而对语音的风格转移研究进行相应的探索与研究。
发明内容
针对现有技术中的上述不足,本发明提供的基于神经网络的语音风格转移方法解决了现有的语音风格转移方法中涉及的语音风格转移模型需要大量的训练数据,训练数据不容易获取,且语音风格转移效果不理想的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于神经网络的语音风格转移方法,包括以下步骤:
S1、构建语音风格转移神经网络模型;
S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;
S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;
S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;
根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;
S5、根据内容损失函数和风格损失函数确定总损失函数;
S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;
S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移。
进一步地,所述步骤S1中的语音风格转移神经网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;
所述第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;
所述第一池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;
所述第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;
所述第二池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;
所述第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的卷积运算后得到大小为13×13×256的特征映射;
所述第三池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;
所述第一全连接层将9216个神经元与4096个神经元相连;
所述第二全连接层将4096个神经元与4096个神经元相连;
所述第三全连接层将4096个神经元与损失函数softmax相连。
进一步地,所述步骤S3中,对语音信号生成对应的声谱图的方法具体为:
A1、对语音信号进行分帧操作;
A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲线;
A3、将频谱曲线旋转90度后,并将曲线中的振幅幅度映射到范围为0~255的灰度级上,得到对应的声谱图。
进一步地,所述步骤S4中,确定内容损失函数的方法具体为:
B1、通过语音风格转移神经网络模型提取内容语音信号声谱图在高层特征映射的特征,并将其作为初始生成语音信号声谱图的内容特征,对初始生成语音信号的声谱图的内容特征进行调整;
B2、将内容语音信号声谱图和初始生成语音信号声谱图在高层l层对应激活值的平方误差和作为内容损失函数
其中,内容损失函数为:
式中,为内容语音信号声谱图在高层l层特征映射中的激活值;
为生成语音信号声谱图在高层l层特征映射中的激活值;
||·||为求解向量范数的运算符;
nH为声谱图特征映射的高度;
nW为声谱图特征映射的宽度;
nC为声谱图特征映射的通道数;
为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
其中,i=1,2,...,nH,j=1,2,...,nW,k=1,2,...,nC。
进一步地,所述步骤S4中确定风格损失函数的方法具体为:
C1、通过语音风格转移神经网络模型提取风格语音信号声谱图在多层低层特征映射的特征,并将其作为初始生成语音信号声谱图的风格特征,对初始生成语音信号的声谱图的风格特征进行调整;
C2、分别确定风格语音信号声谱图的风格矩阵和目标生成语音信号声谱图的风格矩阵
其中,风格语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,为声谱图中l层特征映射的高度;
为声谱图中l层特征映射的宽度;
和分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
目标生成语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,和分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为:
式中,为l层特征映射的通道数;
C4、根据第l层特征映射的风格损失函数El,确定所有低层特征映射风格损失函数的加权和,即为风格损失函数;
其中,风格损失函数为
式中,l为低层特征映射的层数。
进一步地,所述步骤S5中的总损失函数为:
式中,α为内容损失函数的权重;
β为风格损失函数的权重。
进一步地,所述步骤S3中,所述内容语音信号包括至少三个不同说话人的相同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;
风格语音信号包括至少一个说话人的不同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中。
本发明的有益效果为:
(1)类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型。
(2)为了强化内容语音中的内容信息、风格语音中的风格信息,采取“利用至少3个不同说话人、相同内容的语音信号的2维声谱图构成语音风格转移模型中内容语音的输入;与此同时,利用同一个说话人说不同内容的语音信号的2维声谱图构成语音风格转移模型中风格语音的输入”的技巧,从而抹去内容语音中3个不同说话人的风格特性,保留内容信息;抹去风格语音中同一个说话人语音中的内容信息,保留该说话人的风格特性;使通过语音风格转移模型生成的目标生成语音信号的2维声谱图更加准确。
附图说明
图1为本发明中基于神经网络的语音风格转移方法实现流程图。
图2为本发明中语音风格转移神经网络模型结构图。
图3为本发明中语音信号转换成对应声谱图的过程示意图。
图4为本发明中声谱图第l层特征映射示意图。
图5为本发明中声谱图风格矩阵计算过程示意图。
图6为本发明提供的实施例子中3段内容语音与3段风格语音的匹配示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于神经网络的语音风格转移方法,其特征在于,包括以下步骤:
S1、构建语音风格转移神经网络模型;
S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;
S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;
S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;
根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;
S5、根据内容损失函数和风格损失函数确定总损失函数;
S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;
S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移。
上述步骤S1中的语音风格转移神经网络模型结构如图2所示,包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;
第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;
第一池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;
第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;为了得到与上一层宽、高相同的特征映射而加入padding,这样的卷积称为Same Convolution;
第二池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;
第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的Same Convolution卷积运算后得到大小为13×13×384的特征映射;
第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的Same Convolution卷积运算后得到大小为13×13×384的特征映射;
第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的Same Convolution卷积运算后得到大小为13×13×256的特征映射
第三池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;
第一全连接层将9216个神经元与4096个神经元相连;
第二全连接层将4096个神经元与4096个神经元相连;
第三全连接层将4096个神经元与损失函数softmax相连。
上述卷积神经网络模型的本质是对图像特征进行逐层提取,当经过卷积层、池化层、全连接层等网络层的一层层提取之后,图像的特征信息变得越来越抽象和高级,即卷积神经网络中低层的滤波器倾向于提取图片的边缘、边角、颜色或纹理等低级语义特征信息,高层的滤波器则倾向于提取图片的内容、物体类别以及布局等高级语义特征信息。
上述步骤S3中,对语音信号生成对应的声谱图的方法具体为:
A1、对语音信号进行分帧操作;
A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲线;
A3、将频谱曲线旋转90度后,并将曲线中的振幅幅度映射到范围为0~255的灰度级上,得到对应的声谱图。
如图3所示展示了由语音信号到声谱图的转换过程。
上述步骤S4中,确定内容损失函数的方法具体为:
B1、通过语音风格转移神经网络模型提取内容语音信号声谱图在高层特征映射的特征,并将其作为初始生成语音信号声谱图的内容特征,对初始生成语音信号的声谱图的内容特征进行调整;
如图4所示展示了声谱图第l层的特征映射示意图。
B2、将内容语音信号声谱图和初始生成语音信号声谱图在高层l层对应激活值的平方误差和作为内容损失函数
其中,内容损失函数为:
式中,为内容语音信号声谱图在高层l层特征映射中的激活值;
为生成语音信号声谱图在高层l层特征映射中的激活值;
||·||为求解向量范数的运算符;
nH为声谱图特征映射的高度;
nW为声谱图特征映射的宽度;
nC为声谱图特征映射的通道数;
为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
其中,i=1,2,...,nH,j=1,2,...,nW,k=1,2,...,nC。
内容损失函数衡量了内容语音信号声谱图和生成语音信号声谱图在估计、布局等内容特征上的相似程度。
上述步骤S4中确定风格损失函数的方法具体为:
C1、通过语音风格转移神经网络模型提取风格语音信号声谱图中在多层低层特征映射的特征,并将其作为初始生成语音信号声谱图的风格特征,对初始生成语音信号的声谱图的风格特征进行调整;
C2、分别确定风格语音信号声谱图的风格矩阵和目标生成语音信号声谱图的风格矩阵
其中,风格语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,为声谱图中l层特征映射的高度;
为声谱图中l层特征映射的宽度;
和分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
目标生成语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,和分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
如图5展示了声谱图的风格矩阵计算过程示意。
C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为:
式中,为l层特征映射的通道数;
C4、根据第l层特征映射的风格损失函数El,确定所有低层特征映射风格损失函数的加权和,即为风格损失函数;
其中,风格损失函数为
式中,l为特征层的层数。
上述步骤S5中的总损失函数为:
式中,α为内容损失函数的权重;
β为风格损失函数的权重。
上述步骤S3中,为了强化目标生成语音信号有关内容的特征信息和有关风格的特征信息,内容语音信号包括至少三个不同说话人的相同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;从而抹去说话人的风格特性,保留内容特征信息;
风格语音信号包括至少一个说话人的不同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;从而抹去说话人语音的内容特征信息,保留该说话人的风格特性。
在本发明的一个实施例中,提供了通过本发明方法实现语音风格转移的实例:
将若干内容语音(其语音内容相同、语音风格不同)与不同的风格语音(其语音风格相同、语音内容不同)进行不同的组合配对作为模型的输入,从而对实验结果进行对比分析。因此,本实施例对三段原始内容语音材料与三段原始风格语音材料进行两两匹配,可以得到9种组合方式,具体组合方式可见图6所示:
然后,将上述9种组合方式依次输入到本发明中的语音风格转移模型中,可以得到9种组合方式中内容语音、风格语音的声谱图,以及由模型运行得到的生成语音的.wav音频文件和其声谱图。
在同一内容语音的条件下,将其与不同的风格语音进行配对,作为模型的输入,可以探索内容语音与哪一个风格语音作为模型的输入,得到的生成语音更具有优势性。
上述实验的9种组合方式,在经过基于卷积神经网络的语音风格转移模型实验之后,得到了9段生成语音以及相应的2维声谱图。从生成语音的音频文件进行分析,可以主观地听出:9段生成语音中的语音内容均与对应的内容语音输入相同,也就是:“Einstein'stheory of relativity is E equals M C squared”;在内容语音输入相同,风格语音输入不同的条件下,得到的生成语音具有细微差别,比如,语音时长不一样,音色有细微更改;在风格语音输入相同,内容语音输入不同的条件下,得到的生成语音,其语音内容与内容语音输入相同,其语音风格模仿了风格语音一定的风格。从生成语音的2维声谱图进行分析,可以客观地观察出:每张生成语音的2维声谱图在结构上与对应内容语音的2维声谱图是基本一致的,但是在图像纹理上,或者说在沿频率轴的间隙大小上,生成语音的2维声谱图更接近于对应风格语音的2维声谱图。
本发明的有益效果为:
(1)类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型。
(2)为了强化内容语音中的内容信息、风格语音中的风格信息,采取“利用至少3个不同说话人、相同内容的语音信号的2维声谱图构成语音风格转移模型中内容语音的输入;与此同时,利用同一个说话人说不同内容的语音信号的2维声谱图构成语音风格转移模型中风格语音的输入”的技巧,从而抹去内容语音中3个不同说话人的风格特性,保留内容信息;抹去风格语音中同一个说话人语音的内容信息,保留该说话人的风格特性;使通过语音风格转移模型生成的目标生成语音信号的2维声谱图更加准确。
Claims (7)
1.一种基于神经网络的语音风格转移方法,其特征在于,包括以下步骤:
S1、构建语音风格转移神经网络模型;
S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;
S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;
S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;
根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;
S5、根据内容损失函数和风格损失函数确定总损失函数;
S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;
S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移。
2.根据权利要求1所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S1中的语音风格转移神经网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;
所述第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;
所述第一池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;
所述第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;
所述第二池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;
所述第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的卷积运算后得到大小为13×13×256的特征映射;
所述第三池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;
所述第一全连接层将9216个神经元与4096个神经元相连;
所述第二全连接层将4096个神经元与4096个神经元相连;
所述第三全连接层将4096个神经元与损失函数softmax相连。
3.根据权利要求1所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S3中,对语音信号生成对应的声谱图的方法具体为:
A1、对语音信号进行分帧操作;
A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲线;
A3、将频谱曲线旋转90度后,并将曲线中的振幅幅度映射到范围为0~255的灰度级上,得到对应的声谱图。
4.根据权利要求2所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S4中,确定内容损失函数的方法具体为:
B1、通过语音风格转移神经网络模型提取内容语音信号声谱图在高层特征映射的特征,并将其作为初始生成语音信号声谱图的内容特征,对初始生成语音信号的声谱图的内容特征进行调整;
B2、将内容语音信号声谱图和初始生成语音信号声谱图在高层l层对应激活值的平方误差和作为内容损失函数
其中,内容损失函数为:
式中,为内容语音信号声谱图在高层l层特征映射中的激活值;
为生成语音信号声谱图在高层l层特征映射中的激活值;
||·||为求解向量范数的运算符;
nH为声谱图特征映射的高度;
nW为声谱图特征映射的宽度;
nC为声谱图特征映射的通道数;
为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
其中,i=1,2,...,nH,j=1,2,...,nW,k=1,2,...,nC。
5.根据权利要求4所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S4中确定风格损失函数的方法具体为:
C1、通过语音风格转移神经网络模型提取风格语音信号声谱图在多层低层特征映射的特征,并将其作为初始生成语音信号声谱图的风格特征,对初始生成语音信号的声谱图的风格特征进行调整;
C2、分别确定风格语音信号声谱图的风格矩阵和目标生成语音信号声谱图的风格矩阵
其中,风格语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,为声谱图中l层特征映射的高度;
为声谱图中l层特征映射的宽度;
和分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
目标生成语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,和分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为:
式中,为l层特征映射的通道数;
C4、根据第l层特征映射的风格损失函数El,确定所有低层特征映射风格损失函数的加权和,即为风格损失函数;
其中,风格损失函数为
式中,l为低层特征映射的层数。
6.根据权利要求5所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S5中的总损失函数为:
式中,α为内容损失函数的权重;
β为风格损失函数的权重。
7.根据权利要求6所述基于神经网络的语音风格转移方法,其特征在于,所述步骤S3中,所述内容语音信号包括至少三个不同说话人的相同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;
风格语音信号包括至少一个说话人的不同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910513258.4A CN110189766B (zh) | 2019-06-14 | 2019-06-14 | 一种基于神经网络的语音风格转移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910513258.4A CN110189766B (zh) | 2019-06-14 | 2019-06-14 | 一种基于神经网络的语音风格转移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110189766A true CN110189766A (zh) | 2019-08-30 |
CN110189766B CN110189766B (zh) | 2021-04-06 |
Family
ID=67721746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910513258.4A Expired - Fee Related CN110189766B (zh) | 2019-06-14 | 2019-06-14 | 一种基于神经网络的语音风格转移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110189766B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111276119A (zh) * | 2020-01-17 | 2020-06-12 | 平安科技(深圳)有限公司 | 语音生成方法、***和计算机设备 |
CN111312267A (zh) * | 2020-02-20 | 2020-06-19 | 广州市百果园信息技术有限公司 | 一种语音风格的转换方法、装置、设备和存储介质 |
CN111341294A (zh) * | 2020-02-28 | 2020-06-26 | 电子科技大学 | 将文本转换为指定风格语音的方法 |
CN112037766A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音音色转换方法及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
US20170148433A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | Deployed end-to-end speech recognition |
CN106847294A (zh) * | 2017-01-17 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 基于人工智能的音频处理方法和装置 |
CN107680580A (zh) * | 2017-09-28 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
CN109766895A (zh) * | 2019-01-03 | 2019-05-17 | 京东方科技集团股份有限公司 | 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法 |
-
2019
- 2019-06-14 CN CN201910513258.4A patent/CN110189766B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
US20170148433A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | Deployed end-to-end speech recognition |
CN106847294A (zh) * | 2017-01-17 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 基于人工智能的音频处理方法和装置 |
CN107680580A (zh) * | 2017-09-28 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
CN109766895A (zh) * | 2019-01-03 | 2019-05-17 | 京东方科技集团股份有限公司 | 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法 |
Non-Patent Citations (1)
Title |
---|
杨曼: "基于GMM和BP网络的语音转换***设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111276119A (zh) * | 2020-01-17 | 2020-06-12 | 平安科技(深圳)有限公司 | 语音生成方法、***和计算机设备 |
CN111276119B (zh) * | 2020-01-17 | 2023-08-22 | 平安科技(深圳)有限公司 | 语音生成方法、***和计算机设备 |
CN111312267A (zh) * | 2020-02-20 | 2020-06-19 | 广州市百果园信息技术有限公司 | 一种语音风格的转换方法、装置、设备和存储介质 |
CN111312267B (zh) * | 2020-02-20 | 2023-08-11 | 广州市百果园信息技术有限公司 | 一种语音风格的转换方法、装置、设备和存储介质 |
CN111341294A (zh) * | 2020-02-28 | 2020-06-26 | 电子科技大学 | 将文本转换为指定风格语音的方法 |
CN111341294B (zh) * | 2020-02-28 | 2023-04-18 | 电子科技大学 | 将文本转换为指定风格语音的方法 |
CN112037766A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音音色转换方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110189766B (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110189766A (zh) | 一种基于神经网络的语音风格转移方法 | |
CN104157290B (zh) | 一种基于深度学习的说话人识别方法 | |
CN107146601A (zh) | 一种用于说话人识别***的后端i‑vector增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN109524020A (zh) | 一种语音增强处理方法 | |
CN109065072A (zh) | 一种基于深度神经网络的语音质量客观评价方法 | |
CN106971740A (zh) | 基于语音存在概率和相位估计的语音增强方法 | |
CN111785285A (zh) | 面向家居多特征参数融合的声纹识别方法 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN106205623A (zh) | 一种声音转换方法及装置 | |
CN107967920A (zh) | 一种改进的自编码神经网络语音增强算法 | |
CN110648684B (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
CN110047501B (zh) | 基于beta-VAE的多对多语音转换方法 | |
CN110085254A (zh) | 基于beta-VAE和i-vector的多对多语音转换方法 | |
CN110047504A (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN109767760A (zh) | 基于振幅和相位信息的多目标学习的远场语音识别方法 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN108198566A (zh) | 信息处理方法及装置、电子设备及存储介质 | |
Zöhrer et al. | Representation learning for single-channel source separation and bandwidth extension | |
CN103413548A (zh) | 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法 | |
Naing et al. | Filterbank analysis of MFCC feature extraction in robust children speech recognition | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN103886859B (zh) | 基于一对多码书映射的语音转换方法 | |
CN110176243A (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
CN107871498A (zh) | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210406 |