CN108597496A

CN108597496A - 一种基于生成式对抗网络的语音生成方法及装置

Info

Publication number: CN108597496A
Application number: CN201810428470.6A
Authority: CN
Inventors: 高永裕
Original assignee: Speakin Technologies Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-09-28
Anticipated expiration: 2038-05-07
Also published as: CN108597496B

Abstract

本发明公开了一种基于生成式对抗网络的语音生成方法，该方法将随机生成的符合高斯分布的噪音数据通过生成模型转换为模拟样本，由于该模拟样本不具备语言内容，故当生成模型和判别模型在循环更新时，生成模型需要学习的生成能力和判别模型需要学习的判别能力均相应增多，由此提高了生成模型的生成能力和判别模型判别能力，当训练样本和模拟样本的对比值不大于预设的阈值时，即认为生成模型已具备生成真实数据的能力，那么通过该生成模型生成的语音数据库则具有足够的真实性，应用其进行身份识别可以提高识别率。相应地，本发明公开的一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质，也同样具有上述技术效果。

Description

一种基于生成式对抗网络的语音生成方法及装置

技术领域

本发明涉及音频技术领域，更具体地说，涉及一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的不断发展，音频处理技术也已经相当成熟，其中的声纹识别技术是用于识别用户身份的常用技术。声纹识别技术的关键在于语音特征的提取和语音数据库的构建。

目前现有技术基于生成式对抗网络构建语音数据库的方法为：采集不同人物所说的同一语句的语音，用其中一个人物的语音作为训练样本，其余人物的语音作为模拟样本；基于生成式对抗网络循环更新生成模型和判别模型，直至生成模型可以生成最接近于训练样本的模拟样本，此时则认为生成模型生成的模拟样本的分布与训练样本的分布一致，即认为该生成模型可以生成真实语音数据，那么可以通过该生成模型构建语音数据库。其中，生成式对抗网络(GAN，Generative Adversarial Networks)是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模型：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生较为理想的输出。

由于现有技术采用的训练样本和模拟样本的语音内容相同，其在频谱上具有类似的语音特征，故判别模型的作用仅是简单的区分训练样本和模拟样本的音质与音色，从而导致判别模型在循环更新过程中需要学习的判别能力较少，进而使得判别效果不理想，也限制了生成模型的模拟生成能力，从而降低了生成模型生成的语音数据的真实性和用于识别用户身份时的识别能力。

因此，如何基于生成式对抗网络生成理想且真实的语音数据库，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质，以实现基于生成式对抗网络生成理想且真实的语音数据库。

为实现上述目的，本发明实施例提供了如下技术方案：

一种基于生成式对抗网络的语音生成方法，包括：

获取目标语音数据包含的MFCC特征数据，并将所述MFCC特征数据转换为训练样本；

按照预设的生成规则随机生成符合高斯分布的噪音数据，并通过生成模型将所述噪音数据转换为模拟样本；

通过判别模型对比所述训练样本和所述模拟样本，得到所述训练样本和所述模拟样本的对比值，将所述对比值反馈至所述生成模型，以使所述生成模型和所述判别模型基于互相对抗过程循环更新；

当所述对比值不大于预设的阈值时，通过所述生成模型生成目标人物对应的语音数据库。

其中，所述获取目标语音数据包含的MFCC特征数据之前，还包括：

获取所述目标人物的语音数据，并对所述语音数据进行预处理，得到所述目标语音数据，所述预处理包括：预加重、分帧、加窗、傅里叶变换、梅尔刻度滤波器、对数转换、离散余弦变换。

其中，所述将所述MFCC特征数据转换为训练样本之前，还包括：

对所述MFCC特征数据进行VAD语音检测。

其中，所述按照预设的生成规则随机生成符合高斯分布的噪音数据，包括：

按照随机函数生成符合高斯分布的噪音数据。

其中，循环更新所述生成模型包括：

采用第一目标函数和随机梯度下降法循环更新所述生成模型，所述第一目标函数为：其中，θ表示所述生成模型的参数，D表示所述判别模型，Z表示所述模拟样本，m表示采样容量，i表示采样点。

其中，循环更新所述判别模型包括：

采用第二目标函数和随机梯度上升法循环更新所述判别模型，所述第二目标函数为：其中，θ表示所述生成模型的参数，D表示所述判别模型，Z表示所述模拟样本，m表示采样容量，i表示采样点。

其中，还包括：

通过所述语音数据库识别所述目标人物的身份，所述语音数据库符合高斯混合模型。

一种基于生成式对抗网络的语音生成装置，包括：

获取模块，用于获取目标语音数据包含的MFCC特征数据，并将所述MFCC特征数据转换为训练样本；

转换模块，用于按照预设的生成规则随机生成符合高斯分布的噪音数据，并通过生成模型将所述噪音数据转换为模拟样本；

对比模块，用于通过判别模型对比所述训练样本和所述模拟样本，得到所述训练样本和所述模拟样本的对比值，将所述对比值反馈至所述生成模型，以使所述生成模型和所述判别模型基于互相对抗过程循环更新；

生成模块，用于当所述对比值不大于预设的阈值时，通过所述生成模型生成目标人物对应的语音数据库。

一种基于生成式对抗网络的语音生成设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任意一项所述的基于生成式对抗网络的语音生成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述的基于生成式对抗网络的语音生成方法的步骤。

通过以上方案可知，本发明实施例提供的一种基于生成式对抗网络的语音生成方法，包括：获取目标语音数据包含的MFCC特征数据，并将所述MFCC特征数据转换为训练样本；按照预设的生成规则随机生成符合高斯分布的噪音数据，并通过生成模型将所述噪音数据转换为模拟样本；通过判别模型对比所述训练样本和所述模拟样本，得到所述训练样本和所述模拟样本的对比值，将所述对比值反馈至所述生成模型，以使所述生成模型和所述判别模型基于互相对抗过程循环更新；当所述对比值不大于预设的阈值时，通过所述生成模型生成目标人物对应的语音数据库。

可见，所述方法将随机生成的符合高斯分布的噪音数据通过生成模型转换为模拟样本，由于该模拟样本不具有任何语言内容，故在生成模型和判别模型的循环更新过程中，生成模型需要学习的生成能力和判别模型需要学习的判别能力均相应增多，由此提高了生成模型的生成能力和判别模型判别能力，因而当训练样本和模拟样本的对比值不大于预设的阈值时，即认为此时的生成模型已具备生成真实数据的能力，那么通过该生成模型生成的目标人物对应的语音数据库具有足够的真实性，应用其进行身份识别可以提高识别率。

相应地，本发明实施例提供的一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种基于生成式对抗网络的语音生成方法流程图；

图2为本发明实施例公开的另一种基于生成式对抗网络的语音生成方法流程图；

图3为本发明实施例公开的一种基于生成式对抗网络的语音生成装置示意图；

图4为本发明实施例公开的一种基于生成式对抗网络的语音生成设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于生成式对抗网络的语音生成方法、装置、设备及计算机可读存储介质，以实现基于生成式对抗网络生成理想且真实的语音数据库。

参见图1，本发明实施例提供的一种基于生成式对抗网络的语音生成方法，包括：

S101、获取目标语音数据包含的MFCC特征数据，并将MFCC特征数据转换为训练样本，并执行S102；

具体的，本实施例提供的训练样本为某个人物的、具有特定内容的语音，获取该语音的MFCC特征数据，并转换MCFF特征数据，可以使语音转换为计算机能够识别的训练样本，该训练样本一般为维度为39维的向量。

S102、按照预设的生成规则随机生成符合高斯分布的噪音数据，并通过生成模型将噪音数据转换为模拟样本，并执行S103；

在本实施例中，噪音数据为计算机随机产生的、不携带任何语言内容的、无意义的噪音数据，将该噪音数据输入至预设的生成模型，可将该噪音数据转换为模拟样本，该模拟样本一般为维度大于39维的向量。其中，生成模型为可迭代更新的深度神经网络模型，其生成能力随着一次次的迭代更新逐渐增强。

S103、通过判别模型对比训练样本和模拟样本，得到训练样本和模拟样本的对比值，将对比值反馈至生成模型并更新判别模型，并执行S104；

需要说明的是，训练样本和模拟样本的对比值为：训练样本的数据分布与训练样本的数据分布和模拟样本的数据分布的和的比值，该比值可以代表训练样本的数据分布和模拟样本的数据分布的差别。

具体的，判别模型为可迭代更新的深度神经网络模型，其判别能力随着一次次的迭代更新逐渐增强。将训练样本和模拟样本输入至该判别模型，可计算出训练样本的数据分布和模拟样本的数据分布的差别，即得到训练样本和模拟样本的对比值。

S104、判断训练样本和模拟样本的对比值是否不大于预设的阈值；若是，则执行S105；若否，则执行S106；

S105、根据训练样本和模拟样本的对比值更新生成模型，并通过更新后的生成模型生成模拟样本，并执行S103；

需要说明的是，当得到训练样本和模拟样本的对比值时，该对比值会反馈至生成模型，使生成模型根据该对比值进行更新，更新后的生成模型可重新生成新的模拟样本；同时判别模型也会及时更新，提高其判别能力。更新后的判别模型会对比训练样本与新的模拟样本之间的差别，得到新的对比值，进而将新的对比值反馈至生成模型。生成模型和判别模型依照上述过程循环更新，直至训练样本与模拟样本之间的差别不大于预设的阈值时，便认为此时的生成模型已具备生成真实数据的能力，那么通过该生成模型生成的目标人物对应的语音数据库具有足够的真实性，应用其进行身份识别可以提高识别率。

S106、通过生成模型生成目标人物对应的语音数据库。

具体的，当训练样本和模拟样本的对比值不大于预设的阈值时，即认为生成模型生成的模拟样本与原有的训练样本毫无差别，那么通过生成模型便可以生成真实的语音数据。故通过生成模型生成的语音数据库中包含了目标人物的众多真实语音数据，一定程度上解决了语音数据难以采集的问题。

可见，本实施例提供的一种基于生成式对抗网络的语音生成方法，该方法将随机生成的符合高斯分布的噪音数据通过生成模型转换为模拟样本，由于该模拟样本不具有任何语言内容，故在生成模型和判别模型的循环更新过程中，生成模型需要学习的生成能力和判别模型需要学习的判别能力均相应增多，由此提高了生成模型的生成能力和判别模型判别能力，因而当训练样本和模拟样本的对比值不大于预设的阈值时，即认为此时的生成模型已具备生成真实数据的能力，那么通过该生成模型生成的目标人物对应的语音数据库具有足够的真实性，应用其进行身份识别可以提高识别率。

本发明实施例公开了另一种基于生成式对抗网络的语音生成方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。

参见图2，本发明实施例提供的另一种基于生成式对抗网络的语音生成方法，包括：

S201、获取目标人物的语音数据，并对语音数据进行预处理，得到目标语音数据，预处理包括：预加重、分帧、加窗、傅里叶变换、梅尔刻度滤波器、对数转换、离散余弦变换，并执行S202；

具体的，将目标人物的语音数据作为训练样本，训练完成的生成模型的生成能力更接近于目标人物的特征，故生成的语音数据库更具真实性。相应地，可以采集多个人物的语音，将每个人物的语音作为训练样本，可生成每个人物对应的语音数据库。

在本实施例中，按照预处理的处理顺序，其具体处理过程为：

(1)预加重：为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音***所压抑的高频部分，并且能突显高频的共振峰。即在频域上都乘以一个系数，这个系数跟频率成正相关，所以高频的幅值会有所提升。实际上就是将语音数据输入高通滤波器H(Z)＝1-kz-1，实现的公式为S′_n-S_n-k*S_n-1。

(2)分帧：因为语音信号是快速变化的，而傅里叶变换适用于分析平稳的信号，利用语音的短时平稳性(在每一时刻所有阶差分都是一样的)，在语音识别中一般取帧长为20ms～50ms(一般取25ms)，这样一帧内既有足够多的周期，又不会变化很剧烈，一般帧移取10ms，也就是说帧与帧之间有15ms是重复的，即(S-15)/10等于帧数，其中，S为一段语音的毫秒数。

(3)加窗：用于平滑信号，使用汉明窗加以平滑，可以减弱FFT以后旁瓣大小以及频谱泄露，实现的公式为：其中，S_n为加窗前的信号，S'_n为经过加窗后的信号。

(4)快速傅里叶变换：将时域信号转化为频域信号，以便于进行频率分析，其中幅度谱为：其中，1≤k≤K，N为时间序列长度，k为信号的周期数。

(5)梅尔滤波器过滤：因为频域信号存在较多冗余，滤波器组可以对频域的幅值进行精简，每一个频段用一个值来表示。对于FFT得到的幅度谱，分别跟每一个滤波器进行频率相乘累加，得到的值即为该帧数据在在该滤波器对应频段的能量值。如果滤波器的个数为22，那么此时应该得到22个能量值。

(6)对数转换：由于人耳对声音的感知并不是线性的，对数可更精确的描述语音信号的非线性关系，也便于对语音信号进行倒谱分析。

(7)离散余弦变换：倒谱分析仍然使用傅里叶变换。计算MFCC时使用的离散余弦变换(discrete cosine transform，DCT)，其为傅里叶变换的一种，结果为实数，没有虚部。 DCT还有一个特点是，对于一般的语音信号，其结果的前几个系数较大，后面的系数较小，可以忽略。若DCT的结果为40个点，可以仅保留前13～20个，使数据进一步压缩，得到梅尔倒谱。具体转换公式为：

其中，C_i为第i个梅尔倒谱的值，N为梅尔倒谱长度。

需要说明的是，由于语音信号是时域连续的，分帧提取的特征信息只反应了本帧语音数据的特征，为了使语音特征更能体现时域连续性，可以在特征维度增加前后帧信息的维度。常用的计算方式为一阶差分和二阶差分，计算公式如下：

其中，d_t表示第t个一阶差分，θ表示一阶倒谱的时间差，可取1或2，c_t+θ表示第c_t+θ个倒谱系数，c_t-θ表示第c_t-θ个倒谱系数。

S202、获取目标语音数据包含的MFCC特征数据，并将MFCC特征数据转换为训练样本，并执行S203；

S203按照预设的生成规则随机生成符合高斯分布的噪音数据，并通过生成模型将噪音数据转换为模拟样本，并执行S204；

S204、通过判别模型对比训练样本和模拟样本，得到训练样本和模拟样本的对比值，将对比值反馈至生成模型并更新判别模型，并执行S205；

S205、判断训练样本和模拟样本的对比值是否不大于预设的阈值；若是，则执行S206；若否，则执行S207；

S206、根据训练样本和模拟样本的对比值更新生成模型，并通过更新后的生成模型生成模拟样本，并执行S204；

S207、通过生成模型生成目标人物对应的语音数据库。

可见，本实施例提供的另一种基于生成式对抗网络的语音生成方法，该方法将随机生成的符合高斯分布的噪音数据通过生成模型转换为模拟样本，由于该模拟样本不具有任何语言内容，故在生成模型和判别模型的循环更新过程中，生成模型需要学习的生成能力和判别模型需要学习的判别能力均相应增多，由此提高了生成模型的生成能力和判别模型判别能力，因而当训练样本和模拟样本的对比值不大于预设的阈值时，即认为此时的生成模型已具备生成真实数据的能力，那么通过该生成模型生成的目标人物对应的语音数据库具有足够的真实性，应用其进行身份识别可以提高识别率。

基于上述任意实施例，需要说明的是，所述将所述MFCC特征数据转换为训练样本之前，还包括：对所述MFCC特征数据进行VAD语音检测。

具体的，VAD语音检测(Voice Activity Detection，VAD)又称语音端点检测、语音边界检测，是指在噪声环境中检测语音的存在与否，通常用于语音编码、语音增强等语音处理***中，能够降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率。其主要作用为：可以区别出噪音数据和语音数据，例如：预设区别值点，大于该区别值的为语音数据，小于则为噪音数据，对MFCC特征数据可以起到降低噪音以及去除噪音的作用。

基于上述任意实施例，需要说明的是，所述按照预设的生成规则随机生成符合高斯分布的噪音数据，包括：按照随机函数生成符合高斯分布的噪音数据。该噪音数据可以在Python中用numpy模块中的np.random.normal()生成，或者从一组符合高斯分布的向量中随机选取多个向量作为噪音数据。

基于上述任意实施例，需要说明的是，循环更新所述生成模型包括：采用第一目标函数和随机梯度下降法循环更新所述生成模型，所述第一目标函数为：其中，θ表示所述生成模型的参数，D表示所述判别模型，Z表示所述模拟样本，m表示采样容量，i表示采样点。其中，可以采用第一目标函数和小批量随机梯度下降法循环更新所述生成模型。

基于上述任意实施例，需要说明的是，循环更新所述判别模型包括：采用第二目标函数和随机梯度上升法循环更新所述判别模型，所述第二目标函数为：其中，θ表示所述生成模型的参数，D表示所述判别模型，Z表示所述模拟样本，m表示采样容量，i表示采样点。其中，可以采用第二目标函数和小批量随机梯度上升法循环更新所述判别模型。

基于上述任意实施例，需要说明的是，还包括：通过所述语音数据库识别所述目标人物的身份，所述语音数据库符合高斯混合模型。

具体的，传统的声纹识别数据库为UBM，其本质为高斯混合模型，但是其中的数据是通过非特定注册人的大量语音数据训练而得，用来表征普遍人类的发音特征，概括性较强，故识别率有待提高。而本说明书提供的符合高斯混合模型的语音数据库，其与不同人物一一对应，所以识别率比传统的声纹识别数据库更高。在进行声纹识别时，可首先将语音数据库通过高斯混合模型进行拟合，并提取低纬度向量。

基于上述任意实施例，需要说明的是，当训练样本和模拟样本的对比值不大于预设的阈值时，判别模型停止更新，但生成模型依然保持循环更新状态。当然，也可以为生成模型设置停止更新的阈值，使其在满足预设条件时停止更新。

具体的，训练样本和模拟样本的对比值为：训练样本数据分布P_data(x)与训练样本数据分布P_data(x)和模拟样本数据分布P_g(x)的和的比值，可用下述公式进行表示：

其中，为训练样本和模拟样本的对比值，当等于预设的阈值时，即判别模型已判别不出训练样本数据分布P_data(x)和模拟样本数据分布P_g(x)的区别，即认为训练样本数据分布P_data(x)和模拟样本数据分布P_g(x)一致，即生成模型可生成真实数据。其中，一般将该阈值设置为0.5，故当不大于0.5时，即认为训练样本数据分布P_data(x)和模拟样本数据分布P_g(x)一致，当大于0.5时，即认为训练样本数据分布P_data(x)和模拟样本数据分布P_g(x)还存在区别，那么需要继续循环更新，直至不大于0.5时

下面对本发明实施例提供的一种基于生成式对抗网络的语音生成装置进行介绍，下文描述的一种基于生成式对抗网络的语音生成装置与上文描述的一种基于生成式对抗网络的语音生成方法可以相互参照。

参见图3，本发明实施例提供的一种基于生成式对抗网络的语音生成装置，包括：

获取模块301，用于获取目标语音数据包含的MFCC特征数据，并将所述MFCC特征数据转换为训练样本；

转换模块302，用于按照预设的生成规则随机生成符合高斯分布的噪音数据，并通过生成模型将所述噪音数据转换为模拟样本；

对比模块303，用于通过判别模型对比所述训练样本和所述模拟样本，得到所述训练样本和所述模拟样本的对比值，将所述对比值反馈至所述生成模型，以使所述生成模型和所述判别模型基于互相对抗过程循环更新；

生成模块304，用于当所述对比值不大于预设的阈值时，通过所述生成模型生成目标人物对应的语音数据库。

其中，还包括：

预处理模块，用于获取所述目标人物的语音数据，并对所述语音数据进行预处理，得到所述目标语音数据，所述预处理包括：预加重、分帧、加窗、傅里叶变换、梅尔刻度滤波器、对数转换、离散余弦变换。

其中，还包括：

检测模块，用于对所述MFCC特征数据进行VAD语音检测。

所述转换模块包括：

生成单元，用于按照随机函数生成符合高斯分布的噪音数据。

其中，还包括：

生成模型循环更新模块，用于采用第一目标函数和随机梯度下降法循环更新所述生成模型，所述第一目标函数为：其中，θ表示所述生成模型的参数，D表示所述判别模型，Z表示所述模拟样本，m表示采样容量，i表示采样点。

其中，还包括：

生成模型循环更新模块，用于采用第二目标函数和随机梯度上升法循环更新所述判别模型，所述第二目标函数为：其中，θ表示所述生成模型的参数，D表示所述判别模型，Z表示所述模拟样本，m表示采样容量，i表示采样点。

其中，还包括：

识别模块，用于通过所述语音数据库识别所述目标人物的身份，所述语音数据库符合高斯混合模型。

下面对本发明实施例提供的一种基于生成式对抗网络的语音生成设备进行介绍，下文描述的一种基于生成式对抗网络的语音生成设备与上文描述的一种基于生成式对抗网络的语音生成方法及装置可以相互参照。

参见图4，本发明实施例提供的一种基于生成式对抗网络的语音生成设备，包括：

存储器401，用于存储计算机程序；

处理器402，用于执行所述计算机程序时实现上述任意实施例所述的基于生成式对抗网络的语音生成方法的步骤。

下面对本发明实施例提供的一种计算机可读存储介质进行介绍，下文描述的一种计算机可读存储介质与上文描述的一种基于生成式对抗网络的语音生成方法、装置及设备可以相互参照。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意实施例所述的基于生成式对抗网络的语音生成方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于生成式对抗网络的语音生成方法，其特征在于，包括：

2.根据权利要求1所述的基于生成式对抗网络的语音生成方法，其特征在于，所述获取目标语音数据包含的MFCC特征数据之前，还包括：

3.根据权利要求1所述的基于生成式对抗网络的语音生成方法，其特征在于，所述将所述MFCC特征数据转换为训练样本之前，还包括：

对所述MFCC特征数据进行VAD语音检测。

4.根据权利要求1所述的基于生成式对抗网络的语音生成方法，其特征在于，所述按照预设的生成规则随机生成符合高斯分布的噪音数据，包括：

按照随机函数生成符合高斯分布的噪音数据。

5.根据权利要求1所述的基于生成式对抗网络的语音生成方法，其特征在于，循环更新所述生成模型包括：

6.根据权利要求1所述的基于生成式对抗网络的语音生成方法，其特征在于，循环更新所述判别模型包括：

7.根据权利要求1-6任意一项所述的基于生成式对抗网络的语音生成方法，其特征在于，还包括：

8.一种基于生成式对抗网络的语音生成装置，其特征在于，包括：

9.一种基于生成式对抗网络的语音生成设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-7任意一项所述的基于生成式对抗网络的语音生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的基于生成式对抗网络的语音生成方法的步骤。