CN112863529B - 基于对抗学习的说话人语音转换方法及相关设备 - Google Patents

基于对抗学习的说话人语音转换方法及相关设备 Download PDF

Info

Publication number
CN112863529B
CN112863529B CN202011632876.XA CN202011632876A CN112863529B CN 112863529 B CN112863529 B CN 112863529B CN 202011632876 A CN202011632876 A CN 202011632876A CN 112863529 B CN112863529 B CN 112863529B
Authority
CN
China
Prior art keywords
target
content
loss function
attribute
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011632876.XA
Other languages
English (en)
Other versions
CN112863529A (zh
Inventor
梁爽
缪陈峰
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011632876.XA priority Critical patent/CN112863529B/zh
Priority to PCT/CN2021/096887 priority patent/WO2022142115A1/zh
Publication of CN112863529A publication Critical patent/CN112863529A/zh
Application granted granted Critical
Publication of CN112863529B publication Critical patent/CN112863529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及数据处理技术领域,提供一种基于对抗学习的说话人语音转换方法、装置、计算机设备及存储介质,包括:预处理训练数据,得到MFCC特征与基频特征;输入MFCC特征与基频特征至初始说话人语音转换模型进行训练;调用对抗算法训练内容编码器与内容判别器,直至达到纳什均衡状态;获取域判别器的总损失函数,并检测总损失函数是否收敛;当检测结果为总损失函数收敛时,确定目标说话人语音转换模型;获取待转换音频与目标音频,并调用内容编码器处理待转换音频,得到目标内容编码,调用属性编码器处理目标音频,得到目标属性编码;输入目标内容编码与目标属性编码至生成器,得到转换后的说话人语音。本发明能够提高说话人语音转换的效率与质量。

Description

基于对抗学习的说话人语音转换方法及相关设备
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于对抗学习的说话人语音转换方法、装置、计算机设备及存储介质。
背景技术
随着语音技术的发展,人们希望将语音用自己所喜欢的音色表达出来,说话人语音转换技术得到越来越多人的青睐。说话人语音转换技术可以保留原始音频中的文本相关信息,而将原始音频中的音色替换为另一个指定说话人的音色。
针对说话人的语音转换过程,在实现本发明的过程中,发明人发现现有技术至少存在如下问题:现有的说话人语音转换技术有多种不同的方法,例如,使用高斯混合模型,深度神经网络等模型进行说话人语音转换,但是这些模型大多数都需要平行语料,即训练数据集中不同的说话人需要说同一句话,并且发音的韵律等尽可能一致,搜集数据的难度极大,导致说话人转换的效率低下,且无法保证说话人转换的质量。
因此,有必要提供一种说话人语音转换方法,能够提高说话人语音转换的效率与质量。
发明内容
鉴于以上内容,有必要提出一种基于对抗学习的说话人语音转换方法、装置、计算机设备及存储介质,能够提高说话人语音转换的效率与质量。
本发明的第一方面提供一种基于对抗学习的说话人语音转换方法,所述方法包括:
采集并预处理训练数据,得到MFCC特征与基频特征,所述训练数据包括若干说话人的音频语料;
输入所述MFCC特征与所述基频特征至初始说话人语音转换模型进行训练,所述初始说话人语音转换模型包括内容编码器、属性编码器、内容判别器、生成器与域判别器;
调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态;
获取所述域判别器的总损失函数,并检测所述总损失函数是否收敛;
当检测结果为所述总损失函数收敛时,确定目标说话人语音转换模型;
获取待转换音频与目标音频,并调用所述内容编码器处理所述待转换音频,得到目标内容编码,调用所述属性编码器处理所述目标音频,得到目标属性编码;
输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音。
进一步地,在本发明实施例提供的上述基于对抗学习的说话人语音转换方法中,所述预处理训练数据,得到MFCC特征与基频特征包括:
调用world声码器提取所述训练数据的初始MFCC特征与初始基频特征;
确定目标固定长度;
根据所述目标固定长度截取所述初始MFCC特征与所述初始基频特征,得到目标MFCC特征与目标基频特征。
进一步地,在本发明实施例提供的上述基于对抗学习的说话人语音转换方法中,所述调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态包括:
获取对应所述内容编码器与所述内容判别器的初始交叉熵损失函数;
调用随机梯度下降和反向传播算法对所述交叉熵损失函数进行优化处理,得到目标交叉熵损失函数;
检测所述目标交叉熵损失函数是否收敛;
当检测结果为所述目标交叉熵损失函数收敛时,所述内容编码器与所述内容判别器达到纳什均衡状态;
当检测结果为所述目标交叉熵损失函数未收敛时,所述内容编码器与所述内容判别器未达到纳什均衡状态。
进一步地,在本发明实施例提供的上述基于对抗学习的说话人语音转换方法中,所述获取域判别器的总损失函数包括:
获取所述域判别器的目标子损失函数,所述目标子损失函数包括目标交叉熵损失函数、目标一致性损失函数、目标域判别器损失函数、目标重构损失函数、目标KL损失函数以及目标属性损失函数;
确定每一所述目标子损失函数的预设权重值;
加权和处理所述预设权重值与所述目标子损失函数,得到所述域判别器的总损失函数。
进一步地,在本发明实施例提供的上述基于对抗学习的说话人语音转换方法中,在所述确定目标说话人语音转换模型之后,所述方法还包括:
调用所述属性编码器提取所述训练数据中音色信息得到的属性编码集;
规范化处理所述属性编码集,得到对应所述属性编码集的正态分布。
进一步地,在本发明实施例提供的上述基于对抗学习的说话人语音转换方法中,在所述调用所述内容编码器处理所述待转换音频,得到目标内容编码,调用所述属性编码器处理所述目标音频,得到目标属性编码之前,所述方法还包括:
获取所述目标内容编码的第一源语音;
获取所述目标属性编码的第二源语音;
检测所述第一源语音与所述第二源语音是否相同;
当检测结果为所述第一源语音与所述第二源语音不相同时,输入所述目标内容编码与所述目标属性编码至所述生成器。
进一步地,在本发明实施例提供的上述基于对抗学习的说话人语音转换方法中,所述输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音包括:
卷积处理所述目标内容编码,得到第一卷积编码;
卷积处理所述目标属性编码,得到第二卷积编码;
拼接处理所述第一卷积编码与所述第二卷积编码,得到目标卷积编码;
将所述目标卷积编码输入至所述生成器中,得到转换后的说话人语音。
本发明实施例第二方面还提供一种基于对抗学习的说话人语音转换装置,所述装置包括:
预处理模块,用于采集并预处理训练数据,得到MFCC特征与基频特征,所述训练数据包括若干说话人的音频语料;
模型训练模块,用于输入所述MFCC特征与所述基频特征至初始说话人语音转换模型进行训练,所述初始说话人语音转换模型包括内容编码器、属性编码器、内容判别器、生成器与域判别器;
对抗调用模块,用于调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态;
收敛检测模块,用于获取所述域判别器的总损失函数,并检测所述总损失函数是否收敛;
模型确定模块,用于当检测结果为所述总损失函数收敛时,确定目标说话人语音转换模型;
编码处理模块,用于获取待转换音频与目标音频,并调用所述内容编码器处理所述待转换音频,得到目标内容编码,调用所述属性编码器处理所述目标音频,得到目标属性编码;
语音转化模块,用于输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音。
本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于对抗学习的说话人语音转换方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于对抗学习的说话人语音转换方法。
综上所述,本发明所述的基于对抗学***行语料下说话人语音转换,本发明不需要平行预料作为训练数据,可以大大降低数据获取的难度;此外,本发明引入了一个内容编码器和一个属性编码器,利用内容编码器和内容判别器将训练数据的非音色信息和音色信息分解开来,可以合成更高质量的音频。
附图说明
图1是本发明实施例一提供的基于对抗学习的说话人语音转换方法的流程图。
图2是本发明实施例二提供的基于对抗学习的说话人语音转换装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供的基于对抗学习的说话人语音转换方法由计算机设备执行,相应地,基于对抗学习的说话人语音转换装置运行于计算机设备中。
图1是本发明实施例一提供的基于对抗学习的说话人语音转换方法的流程图。所述基于对抗学习的说话人语音转换方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,采集并预处理训练数据,得到MFCC特征与基频特征,所述训练数据包括若干说话人的音频语料。
在本申请的至少一实施例中,所述训练数据可以为非平行文本的数据,包括若干名说话人的音频语料,若干名说话人的音频语料不需要具有相同的文本。示例性地,选取30名说话人,每个说话人分别录取400句不同文本的音频语料,将这30名说话人录取的音频语料作为训练数据。
可选地,所述预处理训练数据,得到MFCC特征与基频特征包括:
调用world声码器提取所述训练数据的初始MFCC特征与初始基频特征;
确定目标固定长度;
根据所述目标固定长度截取所述初始MFCC特征与所述初始基频特征,得到目标MFCC特征与目标基频特征。
其中,MFCC的中文名为梅尔频率倒谱系数,MFCC是一种经典的音频特征,经常应用到语音识别和音频数据分类等领域。MFCC特征向量包括12至16维的基本特征,一维的能量特征,以及上述基本特征和能量特征的一阶差分和二阶差分特征,所以MFCC特征向量的维数可以为39维、42维、45维、48维和51维。通常在对音频数据进行MFCC特征向量提取时,优先选用39维的MFCC特征向量。所述预处理训练数据,得到MFCC特征与基频特征的数据处理过程为现有技术,在此不再赘述。所述目标固定长度为预先设置的,用于确保输入至初始说话人转换模型的训练数据为固定维度的长度,所述目标固定长度可根据实际需求设置,在此不做限制。
在一实施例中,在不同领域中收集的音频数据本身就可能存在噪音,因此,在所述调用world声码器提取所述训练数据的初始MFCC特征之前,所述方法还包括:对所述训练数据进行清洗、降噪处理以及统一音频的采样率。
本发明只需要音频语料作为训练数据即可,无需对音频语料进行标注文本处理,提高说话人语音转换处理的效率。
S12,输入所述MFCC特征与所述基频特征至初始说话人语音转换模型进行训练,所述初始说话人语音转换模型包括内容编码器、属性编码器、内容判别器、生成器与域判别器。
在本发明的至少一实施例中,输入所述MFCC特征与所述基频特征至初始说话人语音转换模型进行训练,所述初始说话人语音转换模型包括内容编码器、属性编码器、内容判别器、生成器与域判别器。
其中,所述内容编码器用于提取训练数据中的非音色信息得到内容编码,也即所述内容编码器用于接收所述MFCC特征与所述基频特征;在一实施例中,所述内容编码器包括若干个CNN层,每个CNN层后包含有批正则化层、ReLU激活层和Dropout层。示例性地,所述CNN层的数量为7个,当所述CNN层的数量为7个时,所述内容编码器提取所述内容编码的效果最好。当所述CNN层的数量少于7个时,所述内容编码器的损失值会变高;当所述CNN层的数量大于7个时,所述内容编码器会变大,每运行一步需要的时间会变长。
所述属性编码器用于提取训练数据中的音色信息得到属性编码,所述属性编码器的输入为所述MFCC特征与所述基频特征;在一实施例中,所述属性编码器包括若干个CNN层,激活函数为ReLU函数,每个CNN层后含有批正则化层、ReLU激活层和Dropout层。示例性地,所述CNN层的数量为7个,当所述CNN层的数量为7个时,所述属性编码器提取所述属性编码的效果最好。当所述CNN层的数量少于7个时,所述属性编码器的损失值会变高;当所述CNN层的数量大于7个时,所述属性编码器会变大,每运行一步需要的时间会变长。
所述内容判别器用于接收内容编码,并预测对应所述内容编码的说话人概率,说话人概率越高,说明所述内容编码是由此说话人输出的可能性越大;说话人概率越低,说明所述内容编码是由此说话人输出的可能性越小;在一实施例中,所述内容判别器包括若干个CNN层,激活函数为LeakyReLU函数,每个CNN层后面跟着批正则化层、ReLU激活层和Dropout层。示例性地,所述CNN层的数量为5个,当所述CNN层的数量为5个时,所述内容判别器预测对应所述内容编码的说话人概率的效果最好。当所述CNN层的数量少于5个时,所述内容判别器的损失值会变高;当所述CNN层的数量大于5个时,所述内容判别器会变大,每运行一步需要的时间会变长。
所述生成器用于接收任意的内容编码与属性编码,并基于所述内容编码与所述属性编码进行说话人语音转换;在一实施例中,所述生成器包括若干个CNN层与若干个反卷积层。示例性地,所述CNN层的数量为5个,所述反卷积层的数量为5个,当所述CNN层的数量为5个时,所述生成器进行说话人语音转换的效果最好。当所述CNN层的数量少于5个时,所述生成器的损失值会变高;当所述CNN层的数量大于5个时,所述生成器会变大,每运行一步需要的时间会变长。
所述域判别器用于获取模型的总损失函数。在一实施例中,所述域判别器包括若干个CNN层与若干个平均池化层。示例性地,所述CNN层的数量为6个,所述平均池化层的数量为6个,当所述CNN层的数量为6个时,所述域判别器获取模型的总损失函数的效果最好。当所述CNN层的数量少于6个时,所述域判别器的损失值会变高;当所述CNN层的数量大于6个时,所述域判别器会变大,每运行一步需要的时间会变长。
S13,调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态。
在本发明的至少一实施例中,在所述初始说话人语音转换模型的训练过程中,为了将训练数据中的非音色信息从原始音频中分解开来,我们用对抗学习的方式训练所述内容编码器和所述内容判别器,通过所述内容判别器努力区分出接收到的内容编码属于哪个说话人,而所述内容编码器希望所述内容判别器无法区分出它的输出到底属于哪个说话人,最终所述内容编码器与所述内容判别器达到纳什均衡状态。在达到纳什均衡状态时,所述内容判别器无法判断内容编码属于哪个说话人,此时意味着内容编码中完全不含音色信息。
可选地,所述调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态包括:
获取对应所述内容编码器与所述内容判别器的初始交叉熵损失函数;
调用随机梯度下降和反向传播算法对所述交叉熵损失函数进行优化处理,得到目标交叉熵损失函数;
检测所述目标交叉熵损失函数是否收敛;
当检测结果为所述目标交叉熵损失函数收敛时,所述内容编码器与所述内容判别器达到纳什均衡状态;
当检测结果为所述目标交叉熵损失函数未收敛时,所述内容编码器与所述内容判别器未达到纳什均衡状态。
其中,所述初始交叉熵损失函数如下式所示:
其中,Ec为内容编码器,Dc为内容判别器,xi为采样音频。
对于上述初始交叉熵损失函数,所述内容编码器希望最大化上述函数,所述内容判别器希望最小化上述函数。通过随机梯度下降和反向传播算法对所述交叉熵损失函数进行优化处理,使得上述损失函数收敛,从而使得所述内容编码器与所述内容判别器达到纳什均衡状态;否则,所述内容编码器与所述内容判别器未达到纳什均衡状态。
本发明通过模型训练使得所述内容编码器与所述内容判别器达到纳什均衡状态,此时,所述内容编码器的输出不包含任何说话人信息,所述内容判别器从而无法判断内容信息来自哪个说话人,从而实现内容与属性的解耦,避免在实现说话人转换过程中受到其他多余信息的干扰,能够减少模型噪声,提高说话人语音转换的质量。
S14,获取所述域判别器的总损失函数,并检测所述总损失函数是否收敛,当检测结果为所述总损失函数收敛时,执行步骤S15。
在本发明的至少一实施例中,所述域判别器的总损失函数包含多个部分,通过对各个部分的子损失函数进行加权和处理,能够得到总的损失函数。通过检测所述总损失函数是否收敛以确定模型是否训练完成,可以理解的是,当检测结果为所述总损失函数收敛时,确定模型训练完成;当检测结果为所述总损失函数未收敛时,确定模型未训练完成,需继续迭代训练,直至所述总损失函数收敛。
可选地,所述获取域判别器的总损失函数包括:
获取所述域判别器的目标子损失函数,所述目标子损失函数包括目标交叉熵损失函数、目标一致性损失函数、目标域判别器损失函数、目标重构损失函数、目标KL损失函数以及目标属性损失函数;
确定每一所述目标子损失函数的预设权重值;
加权和处理所述预设权重值与所述目标子损失函数,得到所述域判别器的总损失函数。
其中,所述目标交叉熵损失函数如上述公式1所述,在此不再赘述。
在一实施例中,首先定义(x,y)为任意两个样本,即两个MFCC特征与两个基频特征。定义相应的说话人为经过所述内容编码器与所述属性编码器之后可以分别得到它们的内容编码/>和属性编码/>将内容编码和属性编码交叉送入所述生成器,可以得到/>再将u和v交叉送入所述生成器,可以得到/>不难看出/>的内容编码来自v,属性编码来自u,而v的内容编码来自x,u的属性编码来自x,因此/>的内容编码和属性编码都来自x,因此/>应当和x完全一致。同理/>和y也应当完全一致。基于上述一致性原理,得到目标一致性损失函数,如下式所示:
其中,G为生成器,Ec为内容编码器,Ea为属性编码器,xi与yi为采样音频。
在一实施例中,所述目标域判别器的损失函数如下式所示:
其中,Ddomain为域判别器,G为生成器。
在一实施例中,所述目标重构损失函数如下式所示:
其中,G为生成器,Ec为内容编码器,Ea为属性编码器,xi为采样音频。
在一实施例中,为了限定属性编码为N(0,1)的正态分布,因此所述目标KL损失函数为属性编码分布函数和N(0,1)分布函数的KL散度。
在一实施例中,从N(0,1)正态分布中随机采样一个z作为属性编码,选择任意一个样本x的内容编码作为内容编码,连同x的说话人编码一起送入生成器,则可以得到再将/>送入属性编码器中,得到的仍应该是z,因此所述目标属性损失函数应为:
其中,G为生成器,Ec为内容编码器,Ea为属性编码器,zi为采样音频。
在确定上述所有目标子损失函数之后,确定每一所述目标子损失函数的预设权重值,加权和处理所述预设权重值与所述目标子损失函数,得到所述域判别器的总损失函数。其中,所述预设权重值为根据实验结果调节得到的值,在此不做限制。
S15,确定目标说话人语音转换模型。
在本发明的至少一实施例中,当检测结果为所述总损失函数收敛时,确定当前说话人语音转换模型的各个模型参数值,并基于各个模型参数值确定目标说话人语音转换模型,后续可调用所述目标说话人语音转换模型进行说话人语音转换。
可选地,在所述确定目标说话人语音转换模型之后,在调用所述属性编码器用于提取训练数据中的音色信息得到属性编码时,为了合成多模态的输出,增加音色信息的数量,所述方法还包括:
调用所述属性编码器提取所述训练数据中音色信息得到的属性编码集;
规范化处理所述属性编码集,得到对应所述属性编码集的正态分布。
其中,规范化处理所述属性编码器得到对应所述属性编码器的正态分布N(0,1)的数据处理过程为现有技术,在此不再赘述。通过将所述属性编码集进行正态分布处理,能够得到若干个模拟音色信息,增加音色信息的数量,为说话人语音转换提供更多选择,提高说话人语音转换处理的灵活性。
S16,获取待转换音频与目标音频,并调用所述内容编码器处理所述待转换音频,得到目标内容编码,调用所述属性编码器处理所述目标音频,得到目标属性编码。
在本发明的至少一实施例中,所述待转换音频是指需要进行说话人语音转换处理的音频,所述目标音频是指包含目标说话人的音色信息的音频,所述目标音频可以是所述训练数据中的音频语料,也可以是从正态分布中采样得到的任意属性编码,还可以是未可见说话人的音色信息,所述未可见说话人可以是用户选中的,既不是训练数据,也不是正态分布数据的音频信息。通过将所述目标音频中的音色信息与所述待转换音频中的内容编码结合,能够得到需要的说话人语音。
可选地,在所述调用所述内容编码器处理所述待转换音频,得到目标内容编码,调用所述属性编码器处理所述目标音频,得到目标属性编码之前,所述方法还包括:
获取所述目标内容编码的第一源语音;
获取所述目标属性编码的第二源语音;
检测所述第一源语音与所述第二源语音是否相同;
当检测结果为所述第一源语音与所述第二源语音不相同时,输入所述目标内容编码与所述目标属性编码至所述生成器。
其中,所述第一源语音是指对应所述目标内容编码的说话人信息,所述第二源语音是指对应所述目标属性编码的说话人信息。通过检测所述第一源语音与所述第二源语音是否相同;当检测结果为所述第一源语音与所述第二源语音相同时,无需执行说话人语音转换处理;当检测结果为所述第一源语音与所述第二源语音不相同时,可以执行说话人语音转换处理,输入所述目标内容编码与所述目标属性编码至所述生成器。
在本发明的至少一实施例中,调用所述属性编码器处理所述目标音频,得到目标属性编码,通过直接利用所述属性编码器来提取说话人信息,可以对未可见说话人的语音转换,实现零次学习,能够提高说话人语音转换场景的灵活性。
S17,输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音。
在本发明的至少一实施例中,输入所述目标内容编码与所述目标属性编码至所述生成器进行转换处理后,得到说话人语音。
可选地,所述输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音包括:
卷积处理所述目标内容编码,得到第一卷积编码;
卷积处理所述目标属性编码,得到第二卷积编码;
拼接处理所述第一卷积编码与所述第二卷积编码,得到目标卷积编码;
将所述目标卷积编码输入至所述生成器中,得到转换后的说话人语音。
其中,将所述目标内容编码进行1*1卷积操作,得到第一卷积编码,将所述目标属性编码进行1*1卷积操作,得到第二卷积编码。
采用本发明所述的方法,利用对抗学***行语料下说话人声音转换,本发明不需要平行预料作为训练数据,可以大大降低数据获取的难度;此外,本发明引入了一个内容编码器和一个属性编码器,利用内容编码器和内容判别器将训练数据的非音色信息和音色信息分解开来,可以合成更高质量的音频。
需要强调的是,为进一步保证上述训练数据的私密性和安全性,上述训练数据可存储于区块链的节点中。
图2是本发明实施例二提供的基于对抗学习的说话人语音转换装置的结构图。
在一些实施例中,所述基于对抗学习的说话人语音转换装置20可以包括多个由计算机程序段所组成的功能模块。所述基于对抗学习的说话人语音转换装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)适用于基于对抗学习的说话人语音转换的功能。
本实施例中,所述基于对抗学习的说话人语音转换装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:预处理模块201、模型训练模块202、对抗调用模块203、收敛检测模块204、模型确定模块205、编码处理模块206及语音转化模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述预处理模块201,用于采集并预处理训练数据,得到MFCC特征与基频特征,所述训练数据包括若干说话人的音频语料。
在本申请的至少一实施例中,所述训练数据可以为非平行文本的数据,包括若干名说话人的音频语料,若干名说话人的音频语料不需要具有相同的文本。示例性地,选取30名说话人,每个说话人分别录取400句不同文本的音频语料,将这30名说话人录取的音频语料作为训练数据。
可选地,所述预处理训练数据,得到MFCC特征与基频特征包括:
调用world声码器提取所述训练数据的初始MFCC特征与初始基频特征;
确定目标固定长度;
根据所述目标固定长度截取所述初始MFCC特征与所述初始基频特征,得到目标MFCC特征与目标基频特征。
其中,MFCC的中文名为梅尔频率倒谱系数,MFCC是一种经典的音频特征,经常应用到语音识别和音频数据分类等领域。MFCC特征向量包括12至16维的基本特征,一维的能量特征,以及上述基本特征和能量特征的一阶差分和二阶差分特征,所以MFCC特征向量的维数可以为39维、42维、45维、48维和51维。通常在对音频数据进行MFCC特征向量提取时,优先选用39维的MFCC特征向量。所述预处理训练数据,得到MFCC特征与基频特征的数据处理过程为现有技术,在此不再赘述。所述目标固定长度为预先设置的,用于确保输入至初始说话人语音转换模型的训练数据为固定维度的长度,所述目标固定长度可根据实际需求设置,在此不做限制。
在一实施例中,在不同领域中收集的音频数据本身就可能存在噪音,因此,在所述调用world声码器提取所述训练数据的初始MFCC特征之前,所述预处理模块201还包括:对所述训练数据进行清洗、降噪处理以及统一音频的采样率。
本发明只需要音频语料作为训练数据即可,无需对音频语料进行标注文本处理,提高说话人语音转换处理的效率。
所述模型训练模块202,用于输入所述MFCC特征与所述基频特征至初始说话人语音转换模型进行训练,所述初始说话人语音转换模型包括内容编码器、属性编码器、内容判别器、生成器与域判别器。
在本发明的至少一实施例中,输入所述MFCC特征与所述基频特征至初始说话人语音转换模型进行训练,所述初始说话人语音转换模型包括内容编码器、属性编码器、内容判别器、生成器与域判别器。
其中,所述内容编码器用于提取训练数据中的非音色信息得到内容编码,也即所述内容编码器用于接收所述MFCC特征与所述基频特征;在一实施例中,所述内容编码器包括若干个CNN层,每个CNN层后包含有批正则化层、ReLU激活层和Dropout层。示例性地,所述CNN层的数量为7个,当所述CNN层的数量为7个时,所述内容编码器提取所述内容编码的效果最好。当所述CNN层的数量少于7个时,所述内容编码器的损失值会变高;当所述CNN层的数量大于7个时,所述内容编码器会变大,每运行一步需要的时间会变长。
所述属性编码器用于提取训练数据中的音色信息得到属性编码,所述属性编码器的输入为所述MFCC特征与所述基频特征;在一实施例中,所述属性编码器包括若干个CNN层,激活函数为ReLU函数,每个CNN层后含有批正则化层、ReLU激活层和Dropout层。示例性地,所述CNN层的数量为7个,当所述CNN层的数量为7个时,所述属性编码器提取所述属性编码的效果最好。当所述CNN层的数量少于7个时,所述属性编码器的损失值会变高;当所述CNN层的数量大于7个时,所述属性编码器会变大,每运行一步需要的时间会变长。
所述内容判别器用于接收内容编码,并预测对应所述内容编码的说话人概率,说话人概率越高,说明所述内容编码是由此说话人输出的可能性越大;说话人概率越低,说明所述内容编码是由此说话人输出的可能性越小;在一实施例中,所述内容判别器包括若干个CNN层,激活函数为LeakyReLU函数,每个CNN层后面跟着批正则化层、ReLU激活层和Dropout层。示例性地,所述CNN层的数量为5个,当所述CNN层的数量为5个时,所述内容判别器预测对应所述内容编码的说话人概率的效果最好。当所述CNN层的数量少于5个时,所述内容判别器的损失值会变高;当所述CNN层的数量大于5个时,所述内容判别器会变大,每运行一步需要的时间会变长。
所述生成器用于接收任意的内容编码与属性编码,并基于所述内容编码与所述属性编码进行说话人语音转换;在一实施例中,所述生成器包括若干个CNN层与若干个反卷积层。示例性地,所述CNN层的数量为5个,所述反卷积层的数量为5个,当所述CNN层的数量为5个时,所述生成器进行说话人语音转换的效果最好。当所述CNN层的数量少于5个时,所述生成器的损失值会变高;当所述CNN层的数量大于5个时,所述生成器会变大,每运行一步需要的时间会变长。
所述域判别器用于获取模型的总损失函数。在一实施例中,所述域判别器包括若干个CNN层与若干个平均池化层。示例性地,所述CNN层的数量为6个,所述平均池化层的数量为6个,当所述CNN层的数量为6个时,所述域判别器获取模型的总损失函数的效果最好。当所述CNN层的数量少于6个时,所述域判别器的损失值会变高;当所述CNN层的数量大于6个时,所述域判别器会变大,每运行一步需要的时间会变长。
所述对抗调用模块203,用于调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态。
在本发明的至少一实施例中,在所述初始说话人语音转换模型的训练过程中,为了将训练数据中的非音色信息从原始音频中分解开来,我们用对抗学习的方式训练所述内容编码器和所述内容判别器,通过所述内容判别器努力区分出接收到的内容编码属于哪个说话人,而所述内容编码器希望所述内容判别器无法区分出它的输出到底属于哪个说话人,最终所述内容编码器与所述内容判别器达到纳什均衡状态。在达到纳什均衡状态时,所述内容判别器无法判断内容编码属于哪个说话人,此时意味着内容编码中完全不含音色信息。
可选地,所述调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态包括:
获取对应所述内容编码器与所述内容判别器的初始交叉熵损失函数;
调用随机梯度下降和反向传播算法对所述交叉熵损失函数进行优化处理,得到目标交叉熵损失函数;
检测所述目标交叉熵损失函数是否收敛;
当检测结果为所述目标交叉熵损失函数收敛时,所述内容编码器与所述内容判别器达到纳什均衡状态;
当检测结果为所述目标交叉熵损失函数未收敛时,所述内容编码器与所述内容判别器未达到纳什均衡状态。
其中,所述初始交叉熵损失函数如下式所示:
其中,Ec为内容编码器,Dc为内容判别器,xi为采样音频。
对于上述初始交叉熵损失函数,所述内容编码器希望最大化上述函数,所述内容判别器希望最小化上述函数。通过随机梯度下降和反向传播算法对所述交叉熵损失函数进行优化处理,使得上述损失函数收敛,从而使得所述内容编码器与所述内容判别器达到纳什均衡状态;否则,所述内容编码器与所述内容判别器未达到纳什均衡状态。
本发明通过模型训练使得所述内容编码器与所述内容判别器达到纳什均衡状态,此时,所述内容编码器的输出不包含任何说话人信息,所述内容判别器从而无法判断内容信息来自哪个说话人,从而实现内容与属性的解耦,避免在实现说话人转换过程中受到其他多余信息的干扰,能够减少模型噪声,提高说话人语音转换的质量。
所述收敛检测模块204,用于获取所述域判别器的总损失函数,并检测所述总损失函数是否收敛。
在本发明的至少一实施例中,所述域判别器的总损失函数包含多个部分,通过对各个部分的子损失函数进行加权和处理,能够得到总的损失函数。通过检测所述总损失函数是否收敛以确定模型是否训练完成,可以理解的是,当检测结果为所述总损失函数收敛时,确定模型训练完成;当检测结果为所述总损失函数未收敛时,确定模型未训练完成,需继续迭代训练,直至所述总损失函数收敛。
可选地,所述获取域判别器的总损失函数包括:
获取所述域判别器的目标子损失函数,所述目标子损失函数包括目标交叉熵损失函数、目标一致性损失函数、目标域判别器损失函数、目标重构损失函数、目标KL损失函数以及目标属性损失函数;
确定每一所述目标子损失函数的预设权重值;
加权和处理所述预设权重值与所述目标子损失函数,得到所述域判别器的总损失函数。
其中,所述目标交叉熵损失函数如上述公式1所述,在此不再赘述。
在一实施例中,首先定义(x,y)为任意两个样本,即两个MFCC特征与两个基频特征。定义相应的说话人为经过所述内容编码器与所述属性编码器之后可以分别得到它们的内容编码/>和属性编码/>将内容编码和属性编码交叉送入所述生成器,可以得到/>再将u和v交叉送入所述生成器,可以得到/>不难看出/>的内容编码来自v,属性编码来自u,而v的内容编码来自x,u的属性编码来自x,因此/>的内容编码和属性编码都来自x,因此/>应当和x完全一致。同理/>和y也应当完全一致。基于上述一致性原理,得到目标一致性损失函数,如下式所示:
其中,G为生成器,Ec为内容编码器,Ea为属性编码器,xi与yi为采样音频。
在一实施例中,所述目标域判别器的损失函数如下式所示:
其中,Ddomain为域判别器,G为生成器。
在一实施例中,所述目标重构损失函数如下式所示:
其中,G为生成器,Ec为内容编码器,Ea为属性编码器,xi为采样音频。
在一实施例中,为了限定属性编码为N(0,1)的正态分布,因此所述目标KL损失函数为属性编码分布函数和N(0,1)分布函数的KL散度。
在一实施例中,从N(0,1)正态分布中随机采样一个z作为属性编码,选择任意一个样本x的内容编码作为内容编码,连同x的说话人编码一起送入生成器,则可以得到再将/>送入属性编码器中,得到的仍应该是z,因此所述目标属性损失函数应为:
其中,G为生成器,Ec为内容编码器,Ea为属性编码器,zi为采样音频。
在确定上述所有目标子损失函数之后,确定每一所述目标子损失函数的预设权重值,加权和处理所述预设权重值与所述目标子损失函数,得到所述域判别器的总损失函数。其中,所述预设权重值为根据实验结果调节得到的值,在此不做限制。
所述模型确定模块205,用于当检测结果为所述总损失函数收敛时,确定目标说话人语音转换模型。
在本发明的至少一实施例中,当检测结果为所述总损失函数收敛时,确定当前说话人语音转换模型的各个模型参数值,并基于各个模型参数值确定目标说话人语音转换模型,后续可调用所述目标说话人语音转换模型进行说话人语音转换。
可选地,在所述确定目标说话人语音转换模型之后,在调用所述属性编码器用于提取训练数据中的音色信息得到属性编码时,为了合成多模态的输出,增加音色信息的数量,所述模型确定模块205还包括:
调用所述属性编码器提取所述训练数据中音色信息得到的属性编码集;
规范化处理所述属性编码集,得到对应所述属性编码集的正态分布。
其中,规范化处理所述属性编码器得到对应所述属性编码器的正态分布N(0,1)的数据处理过程为现有技术,在此不再赘述。通过将所述属性编码集进行正态分布处理,能够得到若干个模拟音色信息,增加音色信息的数量,为说话人语音转换提供更多选择,提高说话人语音转换处理的灵活性。
所述编码处理模块206,用于获取待转换音频与目标音频,并调用所述内容编码器处理所述待转换音频,得到目标内容编码,调用所述属性编码器处理所述目标音频,得到目标属性编码。
在本发明的至少一实施例中,所述待转换音频是指需要进行说话人语音转换处理的音频,所述目标音频是指包含目标说话人的音色信息的音频,所述目标音频可以是所述训练数据中的音频语料,也可以是从正态分布中采样得到的任意属性编码,还可以是未可见说话人的音色信息,所述未可见说话人可以是用户选中的,既不是训练数据,也不是正态分布数据的音频信息。通过将所述目标音频中的音色信息与所述待转换音频中的内容编码结合,能够得到需要的说话人语音。
可选地,在所述调用所述内容编码器处理所述待转换音频,得到目标内容编码,调用所述属性编码器处理所述目标音频,得到目标属性编码之前,所述编码处理模块206还包括:
获取所述目标内容编码的第一源语音;
获取所述目标属性编码的第二源语音;
检测所述第一源语音与所述第二源语音是否相同;
当检测结果为所述第一源语音与所述第二源语音不相同时,输入所述目标内容编码与所述目标属性编码至所述生成器。
其中,所述第一源语音是指对应所述目标内容编码的说话人信息,所述第二源语音是指对应所述目标属性编码的说话人信息。通过检测所述第一源语音与所述第二源语音是否相同;当检测结果为所述第一源语音与所述第二源语音相同时,无需执行说话人语音转换处理;当检测结果为所述第一源语音与所述第二源语音不相同时,可以执行说话人语音转换处理,输入所述目标内容编码与所述目标属性编码至所述生成器。
在本发明的至少一实施例中,调用所述属性编码器处理所述目标音频,得到目标属性编码,通过直接利用所述属性编码器来提取说话人信息,可以对未可见说话人的语音转换,实现零次学习,能够提高说话人语音转换场景的灵活性。
所述语音转化模块207,用于输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音。
在本发明的至少一实施例中,输入所述目标内容编码与所述目标属性编码至所述生成器进行转换处理后,得到说话人语音。
可选地,所述输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音包括:
卷积处理所述目标内容编码,得到第一卷积编码;
卷积处理所述目标属性编码,得到第二卷积编码;
拼接处理所述第一卷积编码与所述第二卷积编码,得到目标卷积编码;
将所述目标卷积编码输入至所述生成器中,得到转换后的说话人语音。
其中,将所述目标内容编码进行1*1卷积操作,得到第一卷积编码,将所述目标属性编码进行1*1卷积操作,得到第二卷积编码。
采用本发明所述的方法,利用对抗学***行语料下说话人声音转换,本发明不需要平行预料作为训练数据,可以大大降低数据获取的难度;此外,本发明引入了一个内容编码器和一个属性编码器,利用内容编码器和内容判别器将训练数据的非音色信息和音色信息分解开来,可以合成更高质量的音频。
需要强调的是,为进一步保证上述训练数据的私密性和安全性,上述训练数据可存储于区块链的节点中。
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于对抗学习的说话人语音转换方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于对抗学习的说话人语音转换方法的全部或者部分步骤;或者实现基于对抗学习的说话人语音转换装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (9)

1.一种基于对抗学习的说话人语音转换方法,其特征在于,所述方法包括:
采集并预处理训练数据,得到MFCC特征与基频特征,所述训练数据包括若干说话人的音频语料;
输入所述MFCC特征与所述基频特征至初始说话人语音转换模型进行训练,所述初始说话人语音转换模型包括内容编码器、属性编码器、内容判别器、生成器与域判别器;
调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态;
获取所述域判别器的总损失函数,并检测所述总损失函数是否收敛;
当检测结果为所述总损失函数收敛时,确定目标说话人语音转换模型;
获取待转换音频与目标音频,并调用所述内容编码器处理所述待转换音频,得到目标内容编码,调用所述属性编码器处理所述目标音频,得到目标属性编码;
获取所述目标内容编码的第一源语音;
获取所述目标属性编码的第二源语音;
检测所述第一源语音与所述第二源语音是否相同;
当检测结果为所述第一源语音与所述第二源语音不相同时,输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音。
2.如权利要求1所述的基于对抗学习的说话人语音转换方法,其特征在于,所述预处理训练数据,得到MFCC特征与基频特征包括:
调用world声码器提取所述训练数据的初始MFCC特征与初始基频特征;
确定目标固定长度;
根据所述目标固定长度截取所述初始MFCC特征与所述初始基频特征,得到目标MFCC特征与目标基频特征。
3.如权利要求1所述的基于对抗学习的说话人语音转换方法,其特征在于,所述调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态包括:
获取对应所述内容编码器与所述内容判别器的初始交叉熵损失函数;
调用随机梯度下降和反向传播算法对所述初始交叉熵损失函数进行优化处理,得到目标交叉熵损失函数;
检测所述目标交叉熵损失函数是否收敛;
当检测结果为所述目标交叉熵损失函数收敛时,所述内容编码器与所述内容判别器达到纳什均衡状态;
当检测结果为所述目标交叉熵损失函数未收敛时,所述内容编码器与所述内容判别器未达到纳什均衡状态。
4.如权利要求1所述的基于对抗学习的说话人语音转换方法,其特征在于,所述获取所述域判别器的总损失函数包括:
获取所述域判别器的目标子损失函数,所述目标子损失函数包括目标交叉熵损失函数、目标一致性损失函数、目标域判别器损失函数、目标重构损失函数、目标KL损失函数以及目标属性损失函数;
确定每一所述目标子损失函数的预设权重值;
加权和处理所述预设权重值与所述目标子损失函数,得到所述域判别器的总损失函数。
5.如权利要求1中所述的基于对抗学习的说话人语音转换方法,其特征在于,在所述确定目标说话人语音转换模型之后,所述方法还包括:
调用所述属性编码器提取所述训练数据中音色信息得到的属性编码集;
规范化处理所述属性编码集,得到对应所述属性编码集的正态分布。
6.如权利要求1所述的基于对抗学习的说话人语音转换方法,其特征在于,所述输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音包括:
卷积处理所述目标内容编码,得到第一卷积编码;
卷积处理所述目标属性编码,得到第二卷积编码;
拼接处理所述第一卷积编码与所述第二卷积编码,得到目标卷积编码;
将所述目标卷积编码输入至所述生成器中,得到转换后的说话人语音。
7.一种基于对抗学习的说话人语音转换装置,其特征在于,所述装置包括:
预处理模块,用于采集并预处理训练数据,得到MFCC特征与基频特征,所述训练数据包括若干说话人的音频语料;
模型训练模块,用于输入所述MFCC特征与所述基频特征至初始说话人语音转换模型进行训练,所述初始说话人语音转换模型包括内容编码器、属性编码器、内容判别器、生成器与域判别器;
对抗调用模块,用于调用对抗算法训练所述内容编码器与所述内容判别器,直至达到纳什均衡状态;
收敛检测模块,用于获取所述域判别器的总损失函数,并检测所述总损失函数是否收敛;
模型确定模块,用于当检测结果为所述总损失函数收敛时,确定目标说话人语音转换模型;
编码处理模块,用于获取待转换音频与目标音频,并调用所述内容编码器处理所述待转换音频,得到目标内容编码,调用所述属性编码器处理所述目标音频,得到目标属性编码;
语音转化模块,用于获取所述目标内容编码的第一源语音;获取所述目标属性编码的第二源语音;检测所述第一源语音与所述第二源语音是否相同;当检测结果为所述第一源语音与所述第二源语音不相同时,输入所述目标内容编码与所述目标属性编码至所述生成器,得到转换后的说话人语音。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述基于对抗学习的说话人语音转换方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述基于对抗学习的说话人语音转换方法。
CN202011632876.XA 2020-12-31 2020-12-31 基于对抗学习的说话人语音转换方法及相关设备 Active CN112863529B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011632876.XA CN112863529B (zh) 2020-12-31 2020-12-31 基于对抗学习的说话人语音转换方法及相关设备
PCT/CN2021/096887 WO2022142115A1 (zh) 2020-12-31 2021-05-28 基于对抗学习的说话人语音转换方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011632876.XA CN112863529B (zh) 2020-12-31 2020-12-31 基于对抗学习的说话人语音转换方法及相关设备

Publications (2)

Publication Number Publication Date
CN112863529A CN112863529A (zh) 2021-05-28
CN112863529B true CN112863529B (zh) 2023-09-22

Family

ID=75999980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011632876.XA Active CN112863529B (zh) 2020-12-31 2020-12-31 基于对抗学习的说话人语音转换方法及相关设备

Country Status (2)

Country Link
CN (1) CN112863529B (zh)
WO (1) WO2022142115A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345453B (zh) * 2021-06-01 2023-06-16 平安科技(深圳)有限公司 歌声转换方法、装置、设备及存储介质
CN113870876B (zh) * 2021-09-27 2024-06-25 平安科技(深圳)有限公司 基于自监督模型的歌声转换方法、设备及可读存储介质
CN115064177A (zh) * 2022-06-14 2022-09-16 中国第一汽车股份有限公司 基于声纹编码器的语音转换方法、装置、设备及介质
CN115222752B (zh) * 2022-09-19 2023-01-24 之江实验室 基于特征解耦的病理图像特征提取器训练方法及装置
CN115620748B (zh) * 2022-12-06 2023-03-28 北京远鉴信息技术有限公司 一种语音合成与鉴伪评价的综合训练方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN110060657A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于sn的多对多说话人转换方法
CN110600046A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于改进的STARGAN和x向量的多对多说话人转换方法
CN111247585A (zh) * 2019-12-27 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
KR20200063331A (ko) * 2018-11-21 2020-06-05 고려대학교 산학협력단 조건 순환 gan을 이용한 다중화자 음성변환 방법
CN111243569A (zh) * 2020-02-24 2020-06-05 浙江工业大学 基于生成式对抗网络的情感语音自动生成方法及装置
CN111429893A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于Transitive STARGAN的多对多说话人转换方法
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及***
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及***
CN112037760A (zh) * 2020-08-24 2020-12-04 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
US10347241B1 (en) * 2018-03-23 2019-07-09 Microsoft Technology Licensing, Llc Speaker-invariant training via adversarial learning
CN110060691B (zh) * 2019-04-16 2023-02-28 南京邮电大学 基于i向量和VARSGAN的多对多语音转换方法
CN111161744B (zh) * 2019-12-06 2023-04-28 华南理工大学 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN111564160B (zh) * 2020-04-21 2022-10-18 重庆邮电大学 一种基于aewgan的语音降噪的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
KR20200063331A (ko) * 2018-11-21 2020-06-05 고려대학교 산학협력단 조건 순환 gan을 이용한 다중화자 음성변환 방법
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN110060657A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于sn的多对多说话人转换方法
CN110600046A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于改进的STARGAN和x向量的多对多说话人转换方法
CN111247585A (zh) * 2019-12-27 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
CN111243569A (zh) * 2020-02-24 2020-06-05 浙江工业大学 基于生成式对抗网络的情感语音自动生成方法及装置
CN111429893A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于Transitive STARGAN的多对多说话人转换方法
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及***
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及***
CN112037760A (zh) * 2020-08-24 2020-12-04 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备

Also Published As

Publication number Publication date
WO2022142115A1 (zh) 2022-07-07
CN112863529A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112863529B (zh) 基于对抗学习的说话人语音转换方法及相关设备
CN110826466B (zh) 基于lstm音像融合的情感识别方法、装置及存储介质
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
CN110910283A (zh) 生成法律文书的方法、装置、设备和存储介质
CN113436634B (zh) 基于声纹识别的语音分类方法、装置及相关设备
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN113436612B (zh) 基于语音数据的意图识别方法、装置、设备及存储介质
CN113420556A (zh) 基于多模态信号的情感识别方法、装置、设备及存储介质
CN110136726A (zh) 一种语音性别的估计方法、装置、***及存储介质
CN113435208A (zh) 学生模型的训练方法、装置及电子设备
CN115688937A (zh) 一种模型训练方法及其装置
CN113450765A (zh) 语音合成方法、装置、设备及存储介质
Aloufi et al. Paralinguistic privacy protection at the edge
Akinpelu et al. Lightweight deep learning framework for speech emotion recognition
CN113870826A (zh) 基于时长预测模型的发音时长预测方法及相关设备
CN116469375A (zh) 端到端语音合成方法、装置、设备以及介质
CN116450943A (zh) 基于人工智能的话术推荐方法、装置、设备及存储介质
Rituerto-González et al. End-to-end recurrent denoising autoencoder embeddings for speaker identification
CN113436617B (zh) 语音断句方法、装置、计算机设备及存储介质
CN116959418A (zh) 一种音频处理方法及装置
CN113221990B (zh) 信息录入方法、装置及相关设备
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
CN115312040A (zh) 语音唤醒方法、装置、电子设备和计算机可读存储介质
CN113808577A (zh) 语音摘要的智能提取方法、装置、电子设备及存储介质
Anguraj et al. Analysis of influencing features with spectral feature extraction and multi-class classification using deep neural network for speech recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant