CN113380264A - 一种用于非对称语料的语音转换方法 - Google Patents

一种用于非对称语料的语音转换方法 Download PDF

Info

Publication number
CN113380264A
CN113380264A CN202110558455.5A CN202110558455A CN113380264A CN 113380264 A CN113380264 A CN 113380264A CN 202110558455 A CN202110558455 A CN 202110558455A CN 113380264 A CN113380264 A CN 113380264A
Authority
CN
China
Prior art keywords
speech
voice
encoder
content information
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110558455.5A
Other languages
English (en)
Inventor
简志华
朱雅楠
于佳祺
韦凤瑜
徐嘉
游林
汪云路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110558455.5A priority Critical patent/CN113380264A/zh
Publication of CN113380264A publication Critical patent/CN113380264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明用于非对称语料的语音转换方法:从训练数据集中所有语音段的集合中采样得到声学矢量序列,编码器生成潜矢量序列;得到潜矢量序列后,通过IN算法得到语音的内容信息;将语音内容信息从潜矢量中减去,得说话人的个性特征;解码器对分离后的内容信息表示与说话人个性特征表示进行合成,生成语音;参数更新;判别器用对抗损失表示;将待转换的源语音与目标语音分别作为已经训练好的编码器的输入,编码器提取源语音的内容信息和目标语音的个性特征,再将两者通过已经训练好的解码器进行合成,生成保留源语音的内容信息并具有目标说话人个性特征的语音。

Description

一种用于非对称语料的语音转换方法
技术领域
本发明属于语音处理技术领域,具体涉及一种用于非对称语料的语音转换方法。
背景技术
语音转换技术是指将源说话人的身份信息转换为目标说话人的身份信息,同时保持语音内容不变,在医疗服务、保密通信及生活娱乐的方面有着非常重要的应用。目前,语音转换大致可以分为两类,一类是受监督的,另一类是无监督的。受监督的语音转换已经取得了较好的成果,但是需要源与目标之间帧级对齐,也即需要对称的语料进行训练。如果源语音与目标语音不对称,也即语义内容不同,它们两者之间就有较大的差异,就无法达到较好的转换效果,这就限制了语音转换的应用范围。
中国专利号201310146293.X公开了一种基于自适应算法的非对称语料库条件下的语音转换方法,首先通过预先准备的参考说话人语句训练得到背景说话人模型;然后通过MAP自适应技术,将源说话人和目标说话人的语句分别训练得到源说话人和目标说话人模型;接着通过自适应源说话人和目标说话人模型中的均值和方差训练得到语音转换函数,分别提出了高斯归一化和均值转换的方法,为了进一步提高转换效果,进而提出了高斯归一化和均值转换融合的方法。该专利技术方案虽有其优点,但其语音转换性能有待提高。
发明内容
针对上述现状,本发明提出了一种采用表示分离生成对抗网络(RepresentationSeparation Generative Adversarial Network,RS-GAN)的语音转换方法,在RS-GAN网络中使用编码器将语音的内容信息与说话人信息分离。在训练阶段,通过编码器对语音进行特征提取,并在编码器之后使用实例归一化(Instance Normalization,IN)将语音中包含的说话人个性特征去除,从而只保留语音中的内容信息。在转换阶段,将源语音与目标语音输入编码器,分别提取到源语音的内容信息与目标语音的个性特征,通过解码器将其合成便可得到转换后的语音。
本发明采取如下技术方案:
一种用于非对称语料的语音转换方法,其按如下步骤:
一、训练阶段:
1.1令X为从训练数据集χ中所有语音段的集合中采样得到的声学矢量序列,enc为编码器,dec为解码器,则编码器生成的潜矢量序列Z为
Z=enc(X) (1)
得到潜矢量序列Z后,通过IN算法将潜矢量中包含的说话人个性特征归一化,从而去除说话人的个性特征,得到语音的内容信息Zcont
Zcont=IN(Z) (2)
假设p(Zcont|X)是具有单位方差且条件独立的高斯分布,即
p(Zcont|X)=N(Zcont;0,I) (3)
其中,N表示高斯分布,I表示单位方差;
将语音内容信息Zcont从潜矢量Z中减去,可得说话人的个性特征Zsty表示为
Zsty=Et[Z-Zcont] (4)
其中,Et代表语音序列X的全局信息在潜在表示Z上所占长度的期望;
1.2解码器对分离后的内容信息表示与说话人个性特征表示进行合成,生成的语音X'为
X'=dec(Zcont+Zsty) (5)
并通过反向传播计算损失函数梯度,从而最小化重建损失并进行参数更新
Figure BDA0003078044190000021
其中,θenc是编码器更新参数,θdec是解码器更新参数;
1.3判别器D用于判别解码器生成的语音是否为真实语音X,并用对抗损失来表示,定义为
LadvencdecD)=Ex∈χ[log(D(x))]+Ex∈χ[log(1-X']+Ex∈χ[log(1-D(dec(Z)))] (7)
其中,θenc是编码器更新的参数,θdec是解码器更新的参数,θD是判别器更新的参数;
二、转换阶段
将待转换的源语音X与目标语音Y分别作为已经训练好的编码器的输入,编码器提取源语音的内容信息Zcont和目标语音的个性特征Zsty,再将两者通过已经训练好的解码器进行合成,生成保留源语音的内容信息并具有目标说话人个性特征的语音Y'。
优选的,IN算法表示为:
Figure BDA0003078044190000022
式中,Zch[w]是第ch个通道中的第w个元素;因为应用的是1维卷积而不是2维卷积,所以每个通道是一个数组,而不是矩阵;μch和σch是第ch个通道的均值与标准差,表示为
Figure BDA0003078044190000023
Figure BDA0003078044190000024
式中,W是潜矢量Zch的维度,ε是一个很小的值,避免数值的不稳定;经过归一化处理的潜矢量Z'ch中仅保留了语音的内容信息,说话人的个性特征已被去除。
优选的,在编码器中,使用Conv1d卷积层和ReLu激活层的结构来同时处理所有频率信息,并在两个Conv1d层之后使用两个Resblock残差块,以避免梯度弥散;内容表示是通过IN层生成的,说话人个性特征表示是每个时间步长上潜矢量和内容矢量之间差的平均值。
优选的,在解码器中,使用Norm-1层对输入矢量进行L2范数归一化,最后通过Upsample层进行上采样,输出合成语音。
优选的,判别器D最大化该对抗损失,区分合成语音与真实语音;编码器、解码器最小化对抗损失,从而使合成的语音与真实语音无法区分。
本发明具有如下技术效果:
(1)本发明采用表示分离生成对抗网络进行语音转换,有效地提升了非对称语料情况下的语音转换性能。
(2)本发明利用编码器以及IN算法对语音的内容信息与说话人个性特征进行解离,再通过解码器将源语音的内容信息与目标语音的个性特征进行合成,使得生成语音的个性特征更加接近特定目标说话人的个性特征。
(3)本发明提出的语音转换方法有效地克服了转换后语音中不能较好保留输入语音成分的问题。
附图说明
图1是一种优选实施例用于非对称语料的语音转换方法的流程框图。
图2是编码器的结构图。
图3是解码器的结构图。
图4是判别器的结构图。
具体实施方式
下面结合附图对本发明的优选实施例做详细说明。
在本实施例一种用于非对称语料的语音转换方法的整个过程中,无论是训练阶段还是转换阶段,都不需要对称的语料,完整的语音转换过程如图1所示:
步骤一,训练阶段
编码器:
1.1本发明使用编码器-解码器结构,并且仅使用一个编码器提取语音的内容信息与说话人个性特征。令X为从训练数据集χ中所有语音段的集合中采样得到的声学矢量序列,enc为编码器,dec为解码器,则编码器生成的潜矢量序列Z为
Z=enc(X) (1)
得到潜矢量序列Z后,通过IN算法将潜矢量中包含的说话人个性特征归一化,从而去除说话人的个性特征,得到语音的内容信息Zcont
Zcont=IN(Z) (2)
假设p(Zcont|X)是具有单位方差且条件独立的高斯分布,即
p(Zcont|X)=N(Zcont;0,I) (3)
其中,N表示高斯分布,I表示单位方差。
将语音内容信息Zcont从潜矢量Z中减去,可得说话人的个性特征Zsty表示为
Zsty=Et[Z-Zcont] (4)
其中,Et代表语音序列X的全局信息在潜在表示Z上所占长度的期望。
在编码器中,使用Conv1d卷积层和ReLu激活层的结构来同时处理所有频率信息,并在两个Conv1d层之后使用两个Resblock残差块,来避免梯度弥散。内容表示是通过IN层生成的,说话人个性特征表示是每个时间步长上潜矢量和内容矢量之间差的平均值。编码器结构如图2所示。图2中,Conv1d是卷积层,Relu是激活层,Resblock是残差块。
1.2在训练阶段,解码器对分离后的内容信息表示与说话人个性特征表示进行合成,生成的语音X'为
X'=dec(Zcont+Zsty) (5)
并通过反向传播计算损失函数梯度,从而最小化重建损失并进行参数更新
Figure BDA0003078044190000041
其中,θenc是编码器更新参数,θdec是解码器更新参数。
在解码器网络中使用Norm-1层对输入矢量进行L2范数归一化,最后通过Upsample层进行上采样,输出合成语音,其结构如图3所示。图3中,Norm为归一化层,Upsample为上采样层,Conv1d与ResBlock与编码器一致。
1.3判别器D:其作用是用于判别解码器生成的语音是否为真实语音X,并用对抗损失来表示,定义为
LadvencdecD)=Ex∈χ[log(D(x))]+Ex∈χ[log(1-X']+Ex∈χ[log(1-D(dec(Z)))] (7)
其中,θenc是编码器更新的参数,θdec是解码器更新的参数,θD是判别器更新的参数。
判别器D试图最大化该对抗损失,尽可能区分合成语音与真实语音。编码器、解码器尽可能最小化对抗损失,从而使合成的语音与真实语音无法区分。判别器结构如图4所示。图4中,GLU为线性门控单元,FC为全连接层,GSP为全局池化层。
实例归一化:
将编码器的输出潜矢量Z通过IN算法进行归一化处理后可以有效地保留内容信息,同时去除说话人的个性特征。IN算法可以表示为:
Figure BDA0003078044190000051
式中,Zch[w]是第ch个通道中的第w个元素。因为应用的是1维卷积而不是2维卷积,所以每个通道是一个数组,而不是矩阵。μch和σch是第ch个通道的均值与标准差,表示为
Figure BDA0003078044190000052
Figure BDA0003078044190000053
式中,W是潜矢量Zch的维度,ε是一个很小的值,来避免数值的不稳定。经过归一化处理的潜矢量Z'ch中仅保留了语音的内容信息,说话人的个性特征已被去除。
二、转换阶段
将待转换的源语音X与目标语音Y分别作为已经训练好的编码器的输入,编码器提取源语音的内容信息Zcont和目标语音的个性特征Zsty,再将两者通过解码器进行合成,就可以生成保留源语音的内容信息并具有目标说话人个性特征的语音Y'。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (5)

1.一种用于非对称语料的语音转换方法,其特征是按如下步骤:
一、训练阶段:
1.1令X为从训练数据集χ中所有语音段的集合中采样得到的声学矢量序列,enc为编码器,dec为解码器,则编码器生成的潜矢量序列Z为
Z=enc(X) (1)
得到潜矢量序列Z后,通过IN算法将潜矢量中包含的说话人个性特征归一化,从而去除说话人的个性特征,得到语音的内容信息Zcont
Zcont=IN(Z) (2)
假设p(Zcont|X)是具有单位方差且条件独立的高斯分布,即
p(Zcont|X)=N(Zcont;0,I) (3)
其中,N表示高斯分布,I表示单位方差;
将语音内容信息Zcont从潜矢量Z中减去,可得说话人的个性特征Zsty表示为
Zsty=Et[Z-Zcont] (4)
其中,Et代表语音序列X的全局信息在潜在表示Z上所占长度的期望;
1.2解码器对分离后的内容信息表示与说话人个性特征表示进行合成,生成的语音X'为
X'=dec(Zcont+Zsty) (5)
并通过反向传播计算损失函数梯度,从而最小化重建损失并进行参数更新
Figure FDA0003078044180000011
其中,θenc是编码器更新参数,θdec是解码器更新参数;
1.3判别器D用于判别解码器生成的语音是否为真实语音X,并用对抗损失来表示,定义为
LadvencdecD)=Ex∈χ[log(D(x))]+Ex∈χ[log(1-X']+Ex∈χ[log(1-D(dec(Z)))] (7)
其中,θenc是编码器更新的参数,θdec是解码器更新的参数,θD是判别器更新的参数;
二、转换阶段
将待转换的源语音X与目标语音Y分别作为已经训练好的编码器的输入,编码器提取源语音的内容信息Zcont和目标语音的个性特征Zsty,再将两者通过已经训练好的解码器进行合成,生成保留源语音的内容信息并具有目标说话人个性特征的语音Y'。
2.如权利要求1所述用于非对称语料的语音转换方法,其特征是,所述IN算法表示为:
Figure FDA0003078044180000021
式中,Zch[w]是第ch个通道中的第w个元素;因为应用的是1维卷积而不是2维卷积,所以每个通道是一个数组,而不是矩阵;μch和σch是第ch个通道的均值与标准差,表示为
Figure FDA0003078044180000022
Figure FDA0003078044180000023
式中,W是潜矢量Zch的维度,ε是一个很小的值,避免数值的不稳定;经过归一化处理的潜矢量Z'ch中仅保留了语音的内容信息,说话人的个性特征已被去除。
3.如权利要求1所述用于非对称语料的语音转换方法,其特征是,在编码器中,使用Conv1d卷积层和ReLu激活层的结构来同时处理所有频率信息,并在两个Conv1d层之后使用两个Resblock残差块,以避免梯度弥散;内容表示是通过IN层生成的,说话人个性特征表示是每个时间步长上潜矢量和内容矢量之间差的平均值。
4.如权利要求1所述用于非对称语料的语音转换方法,其特征是,在解码器中,使用Norm-1层对输入矢量进行L2范数归一化,最后通过Upsample层进行上采样,输出合成语音。
5.如权利要求1-4任一项所述用于非对称语料的语音转换方法,其特征是,判别器D最大化该对抗损失,区分合成语音与真实语音;编码器、解码器最小化对抗损失,使合成的语音与真实语音无法区分。
CN202110558455.5A 2021-05-21 2021-05-21 一种用于非对称语料的语音转换方法 Pending CN113380264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110558455.5A CN113380264A (zh) 2021-05-21 2021-05-21 一种用于非对称语料的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110558455.5A CN113380264A (zh) 2021-05-21 2021-05-21 一种用于非对称语料的语音转换方法

Publications (1)

Publication Number Publication Date
CN113380264A true CN113380264A (zh) 2021-09-10

Family

ID=77571641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110558455.5A Pending CN113380264A (zh) 2021-05-21 2021-05-21 一种用于非对称语料的语音转换方法

Country Status (1)

Country Link
CN (1) CN113380264A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及***
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及***
CN112466314A (zh) * 2020-11-27 2021-03-09 平安科技(深圳)有限公司 情感语音数据转换方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及***
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及***
CN112466314A (zh) * 2020-11-27 2021-03-09 平安科技(深圳)有限公司 情感语音数据转换方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
Vasquez et al. Melnet: A generative model for audio in the frequency domain
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
Zhou et al. Modality attention for end-to-end audio-visual speech recognition
CN111312245B (zh) 一种语音应答方法、装置和存储介质
Lee On stochastic feature and model compensation approaches to robust speech recognition
CN110600047A (zh) 基于Perceptual STARGAN的多对多说话人转换方法
Wang et al. End-to-end voice conversion via cross-modal knowledge distillation for dysarthric speech reconstruction
JP2017040919A (ja) 音声認識装置、音声認識方法及び音声認識システム
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN113707125B (zh) 一种多语言语音合成模型的训练方法及装置
CN110060691B (zh) 基于i向量和VARSGAN的多对多语音转换方法
CN111429894A (zh) 基于SE-ResNet STARGAN的多对多说话人转换方法
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Shao et al. Bayesian separation with sparsity promotion in perceptual wavelet domain for speech enhancement and hybrid speech recognition
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
Chen et al. Distilled binary neural network for monaural speech separation
Peguda et al. Speech to sign language translation for Indian languages
Yeh et al. Speech Representation Learning for Emotion Recognition Using End-to-End ASR with Factorized Adaptation.
CN114550702A (zh) 一种语音识别方法和装置
Choi et al. Diff-HierVC: Diffusion-based hierarchical voice conversion with robust pitch generation and masked prior for zero-shot speaker adaptation
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210910