CN110246488B - 半优化CycleGAN模型的语音转换方法及装置 - Google Patents

半优化CycleGAN模型的语音转换方法及装置 Download PDF

Info

Publication number
CN110246488B
CN110246488B CN201910515510.5A CN201910515510A CN110246488B CN 110246488 B CN110246488 B CN 110246488B CN 201910515510 A CN201910515510 A CN 201910515510A CN 110246488 B CN110246488 B CN 110246488B
Authority
CN
China
Prior art keywords
semi
optimized
cyclegan
frequency spectrum
mel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910515510.5A
Other languages
English (en)
Other versions
CN110246488A (zh
Inventor
俞凯
吴松泽
陈博
陈宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910515510.5A priority Critical patent/CN110246488B/zh
Publication of CN110246488A publication Critical patent/CN110246488A/zh
Application granted granted Critical
Publication of CN110246488B publication Critical patent/CN110246488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开半优化CycleGAN模型的语音转换方法和装置,其中,半优化CycleGAN模型的语音转换方法,包括:从待转换音频中提取梅尔频谱和基频;将基频作为辅助特征与梅尔频谱进行拼接;将拼接后的特征同时作为输入和输出对半优化CycleGAN模型进行训练,其中,半优化CycleGAN模型,包括两个生成器、cycle‑consistenty损失函数,其中:在cycle‑consistenty损失函数的每一个周期的梯度回传阶段,保持前一个生成器不变,仅对后一个生成器进行梯度计算和更新;提取训练后的半优化CycleGAN模型输出中的梅尔频谱;基于输出中的梅尔频谱生成待转换音频的波形。

Description

半优化CycleGAN模型的语音转换方法及装置
技术领域
本发明属于语音转换技术领域,尤其涉及半优化CycleGAN模型的语 音转换方法及装置。
背景技术
相关技术中,非平行语料指原始说话人和目标说话人训练数据中的语 义内容是非平行的,不相同的。现有技术提供的一种语音转换***的构造 如下:
首先,使用声码器从音频中提取梅尔倒谱系数、基频作为声学特征。
然后,使用标准CycleGAN网络来作为语音转换模型,对梅尔倒谱系 数以片段为单位进行转换。
其次,对基频使用线性方法进行转换。
最后,将转换后的梅尔倒谱系数和基频放入声码器合成转换后的声 音。
其中,CycleGAN(Cycle Consistent Adversarial Networks)是一种可以 用于在非平行训练数据下进行无监督训练的生成模型,最初用于图像风格 转换。WaveNet是一种自回归生成神经网络模型,可用于波形生成和声码 器。
发明人在实现本申请的过程中发现,现有技术中的上述方案的主要缺 陷是无法合成具有较高相似度和自然度的转换语音,并且基频的转换方法 导致了其基频转换效果和真实目标有较大差距。
发明内容
本发明实施例提供一种半优化CycleGAN模型的语音转换方法及装 置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种半优化CycleGAN模型,包括两个 生成器、两个判别器、判别损失函数、身份损失函数和循环一致性损失函 数,其中:在循环一致性损失函数的每一个周期的梯度回传阶段,对级联 的两个生成器,保持前一个生成器不变,仅对后一个生成器进行计算和更 新。
第二方面,本发明实施例提供一种半优化CycleGAN模型的语音转换 方法,包括:从待转换音频中提取梅尔频谱和基频;将所述基频作为辅助 特征与所述梅尔频谱进行拼接;将拼接后的特征同时作为输入和输出对根 据第一方面所述的半优化CycleGAN模型进行训练;提取训练后的半优化 CycleGAN模型输出中的梅尔频谱;基于所述输出中的梅尔频谱生成待转 换音频的波形。
第三方面,本发明实施例提供一种半优化CycleGAN模型的语音转换 装置,包括:第一提取模块,配置为从待转换音频中提取梅尔频谱和基频; 拼接模块,配置为将所述基频作为辅助特征与所述梅尔频谱进行拼接;训 练模块,配置为将拼接后的特征同时作为输入和输出对根据第一方面所述 的半优化CycleGAN模型进行训练;第二提取模块,配置为提取训练后的 半优化CycleGAN模型输出中的梅尔频谱;以及生成模块,配置为基于所 述输出中的梅尔频谱生成待转换音频的波形。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所 述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述 至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使 所述至少一个处理器能够执行本发明任一实施例的半优化CycleGAN模型 的语音转换方法的步骤。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程 序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计 算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机 执行本发明任一实施例的半优化CycleGAN模型的语音转换方法的步骤。
本申请的方法和装置提供的方案通过对非平行语料下的语音转换,有 效地提高了转换语音的自然度和相似度。本方案亦可用于平行语料的训 练,在对齐不精准的情况下,亦能达到较好的转换效果。同时,本方案对 于传统CycleGAN模型进行了改进,可以显著降低噪音并提高语音相似度 和自然度,该改进亦可扩展到其他使用CycleGAN模型的任务中。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中 所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动 的前提下,还可以根据这些附图获得其他的附图。
图1a为传统CycleGAN中生成器GX→Y的数据流;
图1b为传统CycleGAN和本申请一实施例提供的半优化CycleGAN 之间的周期一致性损失比较;
图2为本发明一实施例提供的一种半优化CycleGAN模型的语音转换 方法的流程图;
图3为本发明一实施例提供的具体示例的整个***的架构图;
图4a和图4b为本发明一实施例提供的具体示例中的训练期间传统 CycleGAN和半优化CycleGAN之间Msp距离的比较;
图5为本发明一实施例提供的具体示例中的转换语音中F0的分布;
图6为本发明一实施例提供的具体示例中的F0轨迹的比较(女性与 男性);
图7a和图7b为本发明一实施例提供的具体示例中的转换语音自然度 打分对比;
图8a、图8b、图8c和图8d为本发明一实施例提供的具体示例中的 四个说话人对中与目标说话人的相似性的比较;
图9为本发明一实施例提供的一种定制化产品语言模型的识别装置的 框图;
图10是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
首先,请参考图1a和图1b,其中,图1a示出了传统CycleGAN中生 成器GX→Y的数据流,图1b示出了传统CycleGAN和本申请一实施例提 供的半优化CycleGAN之间的周期一致性损失比较。
如图1a所示,传统的CycleGAN中,同时学习两个映射GX→Y和 GY→X。X和Y分别是源域和目标域。使用两个损失来学习每个映射,即 对抗性损失和循环一致性(cycle-consistenty)损失。对于循环一致性丢失, 来自域X的每个x可以通过循环恢复到x。
如图1b所示,在传统的CycleGAN的基础上,我们提出了一种半优 化CycleGAN模型,包括两个生成器、两个判别生成器、identity损失函数、 Adversarial损失函数和cycle-consistenty(循环一致性)损失函数,其中: 在循环一致性损失函数的每一个周期的梯度回传阶段,对级联的两个生成 器,保持前一个生成器不变,仅对后一个生成器进行计算和更新。
通过后续的实验表明,半优化CycleGAN可以显著降低噪音并提高语 音相似度和自然度。
请参考图2,其示出了本申请的半优化CycleGAN模型的语音转换方 法一实施例的流程图,本实施例的半优化CycleGAN模型的语音转换方法 可以适用于具备智能语音转换功能的终端、如智能语音电视、智能音箱、 智能对话玩具以及其他现有的支持语音转换的智能终端等。
如图2所示,在步骤201中,从待转换音频中提取梅尔频谱和基频;
在步骤202中,将基频作为辅助特征与梅尔频谱进行拼接;
在步骤203中,将拼接后的特征同时作为输入和输出标签对根据权利 要求1的半优化CycleGAN模型进行训练;
在步骤204中,提取训练后的半优化CycleGAN模型输出中的梅尔频 谱;
在步骤205中,基于输出中的梅尔频谱生成待转换音频的波形。
在本实施例中,对于步骤101,半优化CycleGAN模型的语音转换装 置首先从待转换音频中提取梅尔频谱和基频,然后,对于步骤202,将基 频与梅尔频谱特征进行拼接,其中基频作为辅助特征。之后,对于步骤203, 将拼接后的特征同时作为输入以及输出标签对半优化CycleGAN模型进行 训练,之后,对于步骤204,半优化CycleGAN模型的语音转换装置单独 提取训练后的半优化CycleGAN模型输出中的梅尔频谱,最后对于步骤 205,基于该输出中的梅尔频谱生成待转换音频的波形。
本实施例的方案通过将基频和梅尔频谱拼接,引入半优化CycleGAN, 在自然性和相似性方面均优于传统的CycleGAN和传统声码器。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对 最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地 理解本申请的方案。
发明人在实现本申请的过程中发现了,现有技术中该***的缺陷主要 是由于标准CycleGAN网络中,cycle-consistent损失函数的训练机制会为 模型训练带来噪声,影响训练。该***的缺陷也与特征选取以及声码器的 选择有关。
发明人对现有技术进行仔细研究后发现,本领域技术人员为了解决上 述缺陷,可能会采用以下方案:
针对音质和自然度不够高的问题,除了增大训练数据量或者使用平行 语料训练平行语音转换***外,之前的研究往往着重于如何使用转换能力 更强的模型作为转换模型,而没有对当前***的设计进行深入考虑。
本申请的方案提出了一种半优化CycleGAN模型的语音转换装置,发 明实现本申请的过程如下:发明人对标准CycleGAN网络进行深入研究, 对其进行修改,提出了半优化CycleGAN。除此之外,我们使用了基频作 为辅助特征,来帮助模型更好地学习音调表示及其转换。
请参考图3,其示出了本申请一实施例提供的具体示例的***架构流 程图。其中,Adversarial loss是判别损失,Cycle Consistency loss是循环 一致性损失,Identityloss是身份损失,mel-spectrogram是梅尔频谱, WaveNet Vocoder是WaveNet声码器。
如图3所示,整个***主要分为两个模块:
其一,半优化CycleGAN网络,相对于传统的CycleGAN网络,我们 对其cycle-consistenty损失函数进行了改进,在每一个周期的梯度回传阶 段,只对第二个生成器进行计算和更新,而保持第一个生成器不变。我们 使用基频作为辅助特征,和梅尔频谱进行拼接,同时作为输入和输出对转 换模型进行训练。在测试阶段,只有输出中的梅尔频谱被用来生成波形。
其二,基于梅尔频谱的WaveNet网络被用来作为波形生成器。
本方案主要是针对非平行语料下的语音转换,有效地提高了转换语音 的自然度和相似度。本方案亦可用于平行语料的训练,在对齐不精准的情 况下,亦能达到较好的转换效果。同时,本方案对于传统CycleGAN模型 的改进,亦可扩展到其他使用CycleGAN模型的任务中。
下面对发明人在实现本发明的过程中遇到的一些问题和对最终确定 的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申 请的方案。
近年来,语音转换(VC)引起了越来越多研究的关注。已经提出了 许多成功的方法来改善VC性能。VC可以根据数据条件分为两个任务, 平行VC和非平行VC。
平行VC技术专注于使用平行数据开发映射函数。在传统的VC方法 中,使用动态时间规整(DTW)算法对源话语和目标话语进行对齐。使用 不同的声学模型学习源和目标话语之间的映射关系,如高斯混合模型 (GMM),人工神经网络(ANNs),深度神经网络(DNNs),递归神 经网络(RNNs),DMDN和序列到序列(Seq2Seq)。最近还提出了没有 DTW对齐的方法。
由于这种平行数据并不总是在实际应用中可用,因此已经开发了一些 方法来实现非平行VC,例如循环一致性对抗网络(CycleGAN),变分自 动编码器(VAE),基于音素后验概率(PPG)的方法,基于参考说话人 的方法和Sequence-to-Sequence(Seq2Seq)。其中,CycleGAN-VC同时学 ***行VC任务的自然性和相 似性。
尽管有上述进步,但现有的无监督非平行语音转换方法的转换语音质 量还不够令人满意。最近的研究表明,Mel-spectrogram(Msp,梅尔频谱) 声学特征和基于Mel-spectrogram的WaveNet声码器可以在文本到语音 (TTS)和平行VC中生成高质量的语音,这表明了Msp在声学表示中相 比Mel广义倒谱(Mgc)的优越性。然而,作为包含比Mgc更多信息的频 谱特征,Msp的抗噪声性还尚未研究。特别是在无监督学习中,并没有 对应的标签来准确描述目标特征,有噪声的Msp可能对WaveNet性能产 生不利影响,这对特征建模提出了更高的要求。
在本文中,我们提出基于Msp的半优化循环一致性对抗网络(半优化 CycleGAN)用于非平行VC的无监督学习。在半优化的CycleGAN中,两 个生成器没有一致优化,每个周期只更新一个模型。该方法通过去除部分 优化过程来提高转换性能,我们发现该过程对于带有噪声标签的模型学习 是有害的。由于最近的研究,我们使用Msp而不是Mgc作为声学特征。 基于Msp的Wavenet用作声码器。为了提高模型对音高建模和转换的能力, 我们在输入和标签中使用基频(F0)作为Msp的辅助特征。客观和主观实 验表明,我们提出的方法不仅能够用Msp和WaveNet声码器生成高质量 的转换语音,而且能够转换比线性变换更精确的音高曲线。
CycleGAN和WaveNet声码器
周期一致的对抗网络(CycleGAN)
周期一致的对抗网络(CycleGAN)适用于许多任务,如图像到图像 转换,图像生成和语音转换。这些任务通常具有主要任务和相应的对偶任 务。
在CycleGAN中,同时学习两个映射GX→Y和GY→X。X和Y分别 是源域和目标域。使用两个损失来学习每个映射,即对抗性损失和循环一 致性损失。对于循环一致性丢失,来自域X的每个x可以通过循环恢复到 x。这种损失函数可表示为:
Figure BDA0002094911480000071
循环一致性损失显著减少了可能的映射函数的空间,并使模型更容易 训练。在训练阶段,在前几次迭代中使用身份映射损失来缩小映射函数的 空间。当将Mgc特征转换为声学特征时,它还有助于保留语言信息。
WaveNet声码器
WaveNet是一种直接在原始波形上运行的自回归和概率生成模型。该 模型预测了以前所有音频样本为条件的每个音频样本的分布。应用因果扩 张卷积层和门控激活单元以实现长期依赖性。给定一个额外的输入, WaveNet可以为给定此输入的音频的条件分布建模。WaveNet声码器来源 于带有局部条件的WaveNet模型,其中每层的计算是:
Figure BDA0002094911480000081
其中y,z是输入和输出向量,k表示层索引,f和g分别代表滤波器 和门,Wf,k,Wg,k
Figure BDA0002094911480000082
Figure BDA0002094911480000083
是可训练的权重矩阵,*表示卷积 运算符,⊙是元素乘法运算符,σ()表示sigmoid函数,h表示局部条 件特征向量。在WaveNet声码器中,局部条件h是声学特征,例如Mgc, F0,Aperiodic和Msp。Msp是语音波形的低级声学表示。最近,基于Msp 的WaveNet声码器在平行VC任务和TTS中获得了令人满意的性能。
传统CycleGAN中最不可或缺的部分是循环一致性损失,这使得两个 生成器模型更容易训练。在训练阶段,循环一致性沿两个生成器先后传递, 这两个生成器的参数同时更新。在这种设置中,我们发现转换后的波形通 常包含噪声和低说话人相似性,从而导致低语音质量。我们解决这个问题 如下。
继续参考图1a和图1b,图1a示出了传统CycleGAN中生成器GX→Y 的数据流。图1b示出了传统CycleGAN和半优化CycleGAN之间的周期 一致性损失比较。
在图1a中,我们可以看到传统CycleGAN中每个生成器有四个数据 流。在四个数据流中,(a)和(b)都来自循环一致性损失。(c)和(d) 分别来自对抗性损失和身份损失。这里我们考虑一个单一的生成器(例如 GX→Y)。从这个角度来看,我们可以注意到,在(b)和(d)中,生成 器的输出都有一个真实标签来计算损失;然而,在(a)和(c)中,没有用 于生成器输出的真实标签,并且输出损失是沿着数据流从下一个模型间接 计算的。对于数据流(c),鉴别器以对抗方式进行训练,其中鉴别器计 算梯度以将y转换为接近真实样本。因此,y的真实标签由鉴别器近似生 成。然而,与(c)不同,在数据流(a)中难以通过GY→X获得y的真实标签。一方面,GY→X是一种生成模型,无法计算梯度来更新接近真 实样本的假输入。另一方面,身份损失训练(d)可能误导GY→X使y接 近x,这对GX→Y训练有害。与其益处相比,数据流(a)将给生成器带 来更多负面影响。因此,我们修改周期一致性损失以消除数据流(a)的 影响,如图1b所示。这里,两个生成器都沿着每个周期前进,而只有第 二个生成器是计算梯度和优化的,我们称之为半优化。在我们的实验中, 我们发现这可以显著降低噪音并提高语音相似度和自然度。
Mel谱图和辅助特征
与传统的VC中常用的Mgc不同,Msp不仅包含语言特征和说话人身 份信息,还包含音调信息。音高与语音的可懂度密切相关。因此,模型不 容易隐式地转换音高。在我们之前的实验中,转换后的Msp语音通常会出 现音调错误问题,特别是对于男性对男性的说话人。为了解决这个问题, 我们使用辅助特征作为第二个任务来帮助模型学习音高关系。Msp和连 续对数基频(lf0)都是从源波形和目标波形中提取的。我们将两个声学特 征连接在一起,然后将它们提供给生成器以同时转换这两个特征。在转换 阶段,从源语音分析这两个特征,然后一起转换。但是,只有转换的Msp 用作WaveNet的条件才能生成波形。在我们的实验中,F0辅助特征显著 缓解了音调错误问题。
实验
实验设置
这些实验是在四位专业普通话人的普通话语音数据集上进行的。其中 两个是男性,另外两个是女性。每个发言者的语音数据分为训练集,开发 集和测试集,每个都有2000个句子。每两个发言者的训练集是不平行的。 波形以16kHz采样。对数F0由WORLD声码器提取。80维度Mel频谱特 征用5ms帧移提取。注意,在分析Msp时,Tacotron2和平行VC使用12.5ms 帧移。我们发现此设置会导致我们的实验中出现发音丢失问题。转换语音 中的一些短语或音素发音不完整。在我们的实验中,我们将Msp帧移设置 为5ms,这显著改善了这个问题。
在我们的实验中,首先根据每个说话人的训练数据训练与说话人相关 的WaveNet声码器。该模型有24层,分为4层。残差连接和门控层的隐 藏单元为512,输出层的跳过连接为256。对于半优化的CycleGAN,我们 构建了基于网络架构的模型。由于Msp相比Mgc更高的维度,我们将生 成器中残差块的数量和所有卷积层的通道加倍。为了平衡生成器和鉴别器之间的对抗训练,我们修改了四个降采样卷积层的通道,从 128,256,512,1024到64,64,64,64,我们发现它们具有更好的性能。为了提 高模型的鲁棒性,我们使用了从训练数据中随机裁剪128帧的策略。使用 批量大小为4的Adam优化器训练网络。生成器和鉴别器的初始学习率分 别为0.01和0.005,并且不使用学习速率调度器。我们以350k的迭代次数 训练了我们的模型。身份丢失仅在前10k次迭代中使用。在转换阶段,我 们重叠采样128帧片段并进行转换,每个转换段的中间用于最终拼接。
客观评价
在这些实验中,我们首先关注半优化CycleGAN的Mel谱图。为了估 计半优化机制对模型训练阶段的影响,我们在CycleGAN训练期间记录了 转换特征与相应平行目标特征之间的Mel谱图距离(msd)。在计算msd 之前,应用DTW来对齐20个平行的话语。我们将半优化的CycleGAN与 传统的CycleGAN进行了对比。实验结果如图4a和图4b所示。图4a和 图4b示出了训练期间传统CycleGAN和半优化CycleGAN之间Msp距离 的比较。我们可以看到由所提出的模型转换的Mel谱图最接近目标特征, 这证实了所提出方法的有效性。
图5示出了转换语音中F0的分布。
对于F0评估,我们将我们提出的方法与传统的线性变换进行了比较。 在我们的实验中,原始的F0轨迹和我们提出的方法都由WORLD提取。 对于线性变换,根据训练数据计算平均值和标准方差。我们在图5中显示 了F0轨迹样本。图4显示了源,目标,提出的方法和线性变换方法之间 的F0分布的比较。表1显示了均方误差(MSE),目标F0和转换F0之 间的平均值和标准差的比较。这些结果表明,与线性变换方法相比,通过 我们的方法获得的基频轮廓最接近目标。我们期望这是因为(1)Msp通 过学习源Msp和目标Msp之间的内部映射来实现F0隐式转换,这可以提 供比线性变换更精确和复杂的F0转换,以及(2)辅助特征可以帮助学习 隐式表示F0,进一步提高了音高转换能力。
图6示出了F0轨迹的比较(女性与男性)。
表1:MSE,目标和转换的F0之间的平均值和标准偏差的比较。M, S,T,L和P分别表示方法,源F0,目标F0,线性变换转换F0和所提出 ***转换F0。
Figure BDA0002094911480000111
主观评价
我们进行了听音测试以评估转换语音的性能。所有听音测试均在同性 别和跨性别进行。测试集中的10个句子用于听力测试。在每次测试中, 每个句子都会呈现给至少6名听众。听众都是普通话母语人士。我们将我 们提出的方法与不同的***进行了比较。实验集列表如下:
·N:自然语言
·Re:自然Mel-spectrogram+WaveNet
·B:Mel-cepstrum+传统的CycleGAN+World
(基线)
·P:Mel-spectrumogram+F0辅助特征+半优化CycleGAN+WaveNet
·P w/o SoCycleGAN:Mel-spectrumogram+F0辅助特征+传统的 CycleGAN+WaveNet
·P w/o F0:Mel-spectrumogram+半优化Cycle-GAN+WaveNet
为了测量自然度,我们进行了平均主观得分(MOS)测试。N和Re 分别用作我们***的参考和上界。此外,我们还使用相同的实验配置,使 用所提出的模型测量了500,200,100个句子的小训练数据集的性能。为了 衡量说话人的相似性,我们进行了相同/不同的测试。不同***的转换语音 以随机顺序与来自目标说话人的自然语音一起提供给听众。
图7a和图7b显示了MOS测试的结果。将P与P w/o SeCycleGAN 进行比较,可以确定半优化CycleGAN的自然度改善;我们还可以看到比 较P的F0辅助特征的自然性改善。
图8a、图8b、图8c和图8d示出了四个说话人对中与目标说话人的 相似性的比较。
和P w/o F0,特别是在男性对男性的说话人中,它具有最严重的音 调误差问题。图7a和图7b显示了在不同的训练数据量限制下所提出的方 法的性能。我们可以看到,所提出的方法可以在至少500个句子非平行数 据集上获得转换语音的高自然性。相似性测试的结果如图8a、图8b、图 8c和图8d所示。我们可以看到,在四个说话人对中,所提出的方法与基 线***相比具有更好的相似性。
结论
本文介绍了半优化的CycleGAN,它允许在非平行VC任务中使用基 于Mel谱图的WaveNet生成高质量的语音。辅助特征F0用作转换模型的 第二个任务。实验表明,所提出的方法在自然性和相似性方面均优于传统 的CycleGAN和传统声码器。在未来的工作中,我们计划将此架构应用于 更复杂的VC任务,例如富有表现力的VC和跨语言VC。
音频示例网站:
“https://softrime.github.io/High-quality-Non-parallel-Voice-Conversion -Using-Mel-spectrogram-based-Semi-optimized-CycleGAN/index.html”
请参考图9,其示出了本发明一实施例提供的半优化CycleGAN模型 的语音转换装置的框图。
如图9所示,半优化CycleGAN模型的语音转换装置900,包括第一 提取模块910、拼接模块920、训练模块930、第二提取模块940和生成模 块950。
其中,第一提取模块910,配置为从待转换音频中提取梅尔频谱和基 频;拼接模块920,配置为将所述基频作为辅助特征与所述梅尔频谱进行 拼接;训练模块930,配置为将拼接后的特征同时作为输入和输出对根据 权利要求1所述的半优化CycleGAN模型进行训练;第二提取模块940, 配置为提取训练后的半优化CycleGAN模型输出中的梅尔频谱;以及生成 模块950,配置为基于所述输出中的梅尔频谱生成待转换音频的波形。
应当理解,图9中记载的诸模块与参考图中描述的方法中的各个步骤 相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样 适用于图9中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方 案,例如模板生成模块可以描述为对每个字对应的语音段分别提取高斯后 验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板 的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如苏模板 生成模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储 介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可 执行上述任意方法实施例中的半优化CycleGAN模型的语音转换方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机 可执行指令,计算机可执行指令设置为:
从待转换音频中提取梅尔频谱和基频;
将所述基频作为辅助特征与所述梅尔频谱进行拼接;
将拼接后的特征同时作为输入和输出标签对根据权利要求1所述的半 优化CycleGAN模型进行训练;
提取训练后的半优化CycleGAN模型输出中的梅尔频谱;
基于所述输出中的梅尔频谱生成待转换音频的波形。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其 中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储 数据区可存储根据半优化CycleGAN模型的语音转换装置的使用所创建的 数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储 器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、 或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通 过网络连接至半优化CycleGAN模型的语音转换装置。上述网络的实例包 括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储 在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指 令,当程序指令被计算机执行时,使计算机执行上述任一项半优化 CycleGAN模型的语音转换方法。
图10是本发明实施例提供的电子设备的结构示意图,如图10所示, 该设备包括:一个或多个处理器1010以及存储器1020,图10中以一个处 理器1010为例。半优化CycleGAN模型的语音转换方法的设备还可以包 括:输入装置1030和输出装置1040。处理器1010、存储器1020、输入装 置1030和输出装置1040可以通过总线或者其他方式连接,图10中以通过总线连接为例。存储器1020为上述的非易失性计算机可读存储介质。 处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以 及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法 实施例半优化CycleGAN模型的语音转换方法。输入装置1030可接收输 入的数字或字符信息,以及产生与半优化CycleGAN模型的语音转换装置的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示 屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功 能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明 实施例所提供的方法。
作为一种实施方式,上述电子设备应用于半优化CycleGAN模型的语 音转换装置中,包括:至少一个处理器;以及,与至少一个处理器通信连 接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令 被至少一个处理器执行,以使至少一个处理器能够:
从待转换音频中提取梅尔频谱和基频;
将所述基频作为辅助特征与所述梅尔频谱进行拼接;
将拼接后的特征同时作为输入和输出标签对根据权利要求1所述的半 优化CycleGAN模型进行训练;
提取训练后的半优化CycleGAN模型输出中的梅尔频谱;
基于所述输出中的梅尔频谱生成待转换音频的波形。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供 话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒 体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算 和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和 UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备 包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具 和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、 内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供 高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、 可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单 元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也 可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案 的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解 并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实 施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部 分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可 读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台 计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施 例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种半优化CycleGAN模型,包括两个生成器、两个判别器、判别损失函数、身份损失函数和循环一致性损失函数,每个生成器均沿着四个周期前进,所述四个周期中有两个周期来自所述循环一致性函数、一个周期来自所述判别损失函数以及一个周期来自身份损失函数,其中:
在循环一致性损失函数的每一个周期的梯度回传阶段,对级联的两个生成器,保持前一个生成器不变,仅对后一个生成器计算梯度和优化。
2.一种半优化CycleGAN模型的语音转换方法,包括:
从待转换音频中提取梅尔频谱和基频;
将所述基频作为辅助特征与所述梅尔频谱进行拼接;
将拼接后的特征同时作为输入和输出标签对根据权利要求1所述的半优化CycleGAN模型进行训练;
提取训练后的半优化CycleGAN模型输出中的梅尔频谱;
使用梅尔频谱训练WaveNet波形生成器;
仅提取所述训练后的半优化CycleGAN模型的输出中的梅尔频谱输入至训练后的WaveNet波形生成器生成波形。
3.根据权利要求2所述的方法,其中,所述WaveNet波形生成器每层的计算公式如下:
Figure FDA0003074110000000011
其中,x,z是输入和输出向量,k表示层索引,f和g分别代表滤波器和门,Wf,k,Wg,k
Figure FDA0003074110000000012
Figure FDA0003074110000000013
是可训练的权重矩阵,*表示卷积运算符,⊙是元素乘法运算符,σ()表示sigmoid函数,h表示局部条件特征向量。
4.根据权利要求3所述的方法,其中,h是声学特征,包括Mgc,F0,Aperiodic和Msp其中任一。
5.一种半优化CycleGAN模型的语音转换装置,包括:
第一提取模块,配置为从待转换音频中提取梅尔频谱和基频;
拼接模块,配置为将所述基频作为辅助特征与所述梅尔频谱进行拼接;
训练模块,配置为将拼接后的特征同时作为输入和输出对根据权利要求1所述的半优化CycleGAN模型进行训练;
第二提取模块,配置为提取训练后的半优化CycleGAN模型输出中的梅尔频谱;
生成模块,配置为使用梅尔频谱训练WaveNet波形生成器;仅提取所述训练后的半优化CycleGAN模型的输出中的梅尔频谱输入至训练后的WaveNet波形生成器生成波形。
6.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求2至4任一项所述方法的步骤。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求2至4任一项所述方法的步骤。
CN201910515510.5A 2019-06-14 2019-06-14 半优化CycleGAN模型的语音转换方法及装置 Active CN110246488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910515510.5A CN110246488B (zh) 2019-06-14 2019-06-14 半优化CycleGAN模型的语音转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910515510.5A CN110246488B (zh) 2019-06-14 2019-06-14 半优化CycleGAN模型的语音转换方法及装置

Publications (2)

Publication Number Publication Date
CN110246488A CN110246488A (zh) 2019-09-17
CN110246488B true CN110246488B (zh) 2021-06-25

Family

ID=67887254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910515510.5A Active CN110246488B (zh) 2019-06-14 2019-06-14 半优化CycleGAN模型的语音转换方法及装置

Country Status (1)

Country Link
CN (1) CN110246488B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110838139B (zh) * 2019-11-04 2022-10-25 上海联影智能医疗科技有限公司 图像配准模型的训练方法、图像配准方法和计算机设备
CN112951253A (zh) * 2019-11-24 2021-06-11 华南理工大学 一种基于Cycle-GAN的音频风格转换方法及***
ES2964322T3 (es) * 2019-12-30 2024-04-05 Tmrw Found Ip Sarl Sistema y método de conversión de voz multilingüe
WO2021199446A1 (ja) * 2020-04-03 2021-10-07 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN112216293A (zh) * 2020-08-28 2021-01-12 北京捷通华声科技股份有限公司 一种音色转换方法和装置
CN112712812B (zh) * 2020-12-24 2024-04-26 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN113327573A (zh) * 2021-05-28 2021-08-31 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
TWI836255B (zh) * 2021-08-17 2024-03-21 國立清華大學 透過歌聲轉換設計個人化虛擬歌手的方法及裝置
CN115294970B (zh) * 2022-10-09 2023-03-24 苏州大学 针对病理嗓音的语音转换方法、装置和存储介质
CN117830340A (zh) * 2024-01-04 2024-04-05 中南大学 一种探地雷达目标特征分割方法、***、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
US20190147320A1 (en) * 2017-11-15 2019-05-16 Uber Technologies, Inc. "Matching Adversarial Networks"
CN109767778A (zh) * 2018-12-27 2019-05-17 中国人民解放军陆军工程大学 一种融合Bi-LSTM和WaveNet的语音转换方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147320A1 (en) * 2017-11-15 2019-05-16 Uber Technologies, Inc. "Matching Adversarial Networks"
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN109767778A (zh) * 2018-12-27 2019-05-17 中国人民解放军陆军工程大学 一种融合Bi-LSTM和WaveNet的语音转换方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《CycleGAN-VC2:Improved cyclegan-based non-parallel voice conversion》;Takuhiro Kaneke et al.;《arXiv:1904.04631v1》;20190409;第1-5页 *
《High-quality Voice Conversion Using Spectrogram-Based WaveNet Vocoder》;Kuan Chen et al.;《Interspeech 2018》;20180906;第1993-1997页 *
《WavecycleGAN:Synthetic-to-natural speech waveform conversion using cycle-consistent adversarial nerworks》;Kou Tanaka et al.;《arXiv:1809.10228v2》;20180928;第1-8页 *
《基于CycleGAN网络实现非平行语料库条件下的语音转换》;李涛;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190215(第02期);第20-38页 *
《基于改进的CycleGAN模型非配对的图像到图像转换》;何剑华等;《玉林师范学院学报(自然科学版)》;20180430;第39卷(第2期);第122-126页 *

Also Published As

Publication number Publication date
CN110246488A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN110648658B (zh) 一种语音识别模型的生成方法、装置及电子设备
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
US20200402497A1 (en) Systems and Methods for Speech Generation
CN107195296B (zh) 一种语音识别方法、装置、终端及***
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN112634856B (zh) 语音合成模型训练方法和语音合成方法
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN110600013B (zh) 非平行语料声音转换数据增强模型训练方法及装置
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
CN106935239A (zh) 一种发音词典的构建方法及装置
JP2023542685A (ja) 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム
CN113707125B (zh) 一种多语言语音合成模型的训练方法及装置
CN109697978B (zh) 用于生成模型的方法和装置
CN112397056B (zh) 语音评测方法及计算机存储介质
CN112802446B (zh) 音频合成方法及装置、电子设备和计算机可读存储介质
KR102272554B1 (ko) 텍스트- 다중 음성 변환 방법 및 시스템
Qu et al. LipSound: Neural Mel-Spectrogram Reconstruction for Lip Reading.
CN112735404A (zh) 一种语音反讽检测方法、***、终端设备和存储介质
Qu et al. Lipsound2: Self-supervised pre-training for lip-to-speech reconstruction and lip reading
CN113963679A (zh) 一种语音风格迁移方法、装置、电子设备及存储介质
Chen et al. Unsupervised multi-scale expressive speaking style modeling with hierarchical context information for audiobook speech synthesis
Radha et al. Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
CN116564330A (zh) 弱监督语音预训练方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200616

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: SHANGHAI JIAO TONG University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201028

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant