CN113808579B

CN113808579B - 生成语音的检测方法、装置、电子设备及存储介质

Info

Publication number: CN113808579B
Application number: CN202111383856.8A
Authority: CN
Inventors: 易江燕; 陶建华; 傅睿博; 聂帅; 梁山
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-08
Anticipated expiration: 2041-11-22
Also published as: CN113808579A

Abstract

本公开涉及一种生成语音的检测方法、装置、电子设备及存储介质，上述方法包括：获取待检测语音，并提取所述待检测语音的第一声学特征和第二声学特征；将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列；分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量；对所述词向量和所述音向量进行拼接处理，得到第一融合特征，并将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征；对所述第二声学特征和所述韵律节奏特征进行所述拼接处理，得到第二融合特征，并将所述第二融合特征输入语音检测模型，输出语音检测结果。

Description

生成语音的检测方法、装置、电子设备及存储介质

技术领域

本公开涉及语音识别领域，尤其涉及一种生成语音的检测方法、装置、电子设备及存储介质。

背景技术

随着深度学习的快速发展，语音合成技术也日趋成熟，已能生成与真人相媲美的语音，在人机交互、智能家居、娱乐、教育等领域有广泛的应用。但是不良用途的语音合成技术也给人民和社会带来危害，因此，对生成语音的检测技术成为了当今社会的迫切需求。现有技术往往使用声学特征检测生成语音或者音素时长特征检测生成语音，但是声学特征检测和音素时长特征检测生成语音的方法准确率不够高、检测过程中使用到的检测模型的泛化性不足。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下技术问题：检测生成语音的准确率不够高，以及检测过程中使用到的检测模型的泛化性不足等问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种生成语音的检测方法、装置、电子设备及存储介质，以至少解决现有技术中，检测生成语音的准确率不够高，以及检测过程中使用到的检测模型的泛化性不足等问题。

本公开的目的是通过以下技术方案实现的：

第一方面，本公开的实施例提供了一种生成语音的检测方法，包括：获取待检测语音，并提取所述待检测语音的第一声学特征和第二声学特征；将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列；分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量；对所述词向量和所述音向量进行拼接处理，得到第一融合特征，并将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征；对所述第二声学特征和所述韵律节奏特征进行所述拼接处理，得到第二融合特征，并将所述第二融合特征输入语音检测模型，输出语音检测结果，其中，所述语音检测结果，包括：所述待检测语音是真实语音和所述待检测语音是生成语音。

在一个示例性实施例中，所述将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征之前，包括：获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量；对所述训练语音词向量和所述训练语音音向量进行所述拼接处理，得到第三融合特征，并对所述第三融合特征进行第一标注处理；使用随机梯度下降算法，根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。

在一个示例性实施例中，所述韵律节奏预测模型包括：多层自注意力网络，其中，每层所述自注意力网络包括：多个自注意力头函数。

在一个示例性实施例中，所述将所述第二融合特征输入语音检测模型，输出语音检测结果之前，所述方法还包括：获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征和第四声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量；对所述训练语音词向量和所述训练语音音向量进行所述拼接处理，得到第三融合特征，并将所述第三融合特征输入所述韵律节奏预测模型，输出训练语音韵律节奏特征；对所述训练语音韵律节奏特征和第四声学特征进行所述拼接处理，得到第四融合特征，并对所述第四融合特征进行第二标注处理；使用随机梯度下降算法，根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型。

在一个示例性实施例中，所述语音检测模型，包括：多个时延神经网络层、多个残差网络层和全连接层。

在一个示例性实施例中，所述分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量之前，包括：获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别对所述训练语音文本序列进行第三标注处理和第四标注处理，并通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型，通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型。

在一个示例性实施例中，所述将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列之前，包括：获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；对所述第三声学特征进行第五标注处理，并通过经过所述第五标注处理的第三声学特征训练所述语音识别模型。

第二方面，本公开的实施例提供了一种生成语音的检测装置，包括：第一提取模块，用于获取待检测语音，并提取所述待检测语音的第一声学特征和第二声学特征；第一模型模块，用于将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列；第二提取模块，用于分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量；第二模型模块，用于对所述词向量和所述音向量进行拼接处理，得到第一融合特征，并将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征；第三模型模块，用于对所述第二声学特征和所述韵律节奏特征进行所述拼接处理，得到第二融合特征，并将所述第二融合特征输入语音检测模型，输出语音检测结果，其中，所述语音检测结果，包括：所述待检测语音是真实语音和所述待检测语音是生成语音。

第三方面，本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如上所述的生成语音的检测方法或图像处理的方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的生成语音的检测方法或图像处理的方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：获取待检测语音，并提取所述待检测语音的第一声学特征和第二声学特征；将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列；分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量；对所述词向量和所述音向量进行拼接处理，得到第一融合特征，并将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征；对所述第二声学特征和所述韵律节奏特征进行所述拼接处理，得到第二融合特征，并将所述第二融合特征输入语音检测模型，输出语音检测结果，其中，所述语音检测结果，包括：所述待检测语音是真实语音和所述待检测语音是生成语音。因为语音检测模型检测的第二融合特征包括了所述韵律节奏特征，真实语音和生成语音存在韵律节奏分布的差异，同时，使用融合了第二声学特征和所述韵律节奏特征的第二融合特征训练的语音检测模型，对其他变量域也有良好的预测能力，因此，采用上述技术手段，可以解决现有技术中，检测生成语音的准确率不够高，以及检测过程中使用到的检测模型的泛化性不足等问题，进而提高检测生成语音的准确率以及检测过程中使用到的检测模型的泛化性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了本公开实施例一种生成语音的检测方法的计算机终端的硬件结构框图；

图2示意性示出了本公开实施例的一种生成语音的检测方法的流程图；

图3示意性示出了本公开实施例的一种生成语音的检测装置的结构框图；

图4示意性示出了本公开实施例提供的一种电子设备的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本公开。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本公开实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1示意性示出了本公开实施例的一种生成语音的检测方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器（Microprocessor Unit，简称是MPU）或可编程逻辑器件（Programmable logic device，简称是PLD）等处理装置和用于存储数据的存储器104，可选地，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本公开实施例中的生成语音的检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本公开实施例中提供了一种生成语音的检测方法，图2示意性示出了本公开实施例的一种生成语音的检测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取待检测语音，并提取所述待检测语音的第一声学特征和第二声学特征；

步骤S204，将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列；

步骤S206，分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量；

步骤S208，对所述词向量和所述音向量进行拼接处理，得到第一融合特征，并将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征；

步骤S210，对所述第二声学特征和所述韵律节奏特征进行所述拼接处理，得到第二融合特征，并将所述第二融合特征输入语音检测模型，输出语音检测结果，其中，所述语音检测结果，包括：所述待检测语音是真实语音和所述待检测语音是生成语音。

本公开中的第一声学特征可以是梅尔频谱系数MFCC或FBank特征，第二声学特征可以是线性预测谱系数LFCC和线性功率谱系数LPC。

在步骤S208中，将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征之前，包括：获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量；对所述训练语音词向量和所述训练语音音向量进行所述拼接处理，得到第三融合特征，并对所述第三融合特征进行第一标注处理；使用随机梯度下降算法，根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。

需要说明的是，第三声学特征同于第一声学特征，第四声学特征同于第二声学特征，这里只是为了区分提取的是待检测语音的声学特征，还是练语音数据集中训练语音的声学特征。将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列，也可以直接通过语音识别技术将所述第三声学特征转换为训练语音文本序列。同理，在上一个实施例中，将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列，也可以是直接通过语音识别技术将所述第一声学特征转换为文本序列。对所述第三融合特征进行第一标注处理，也就是对所述第三融合特征标注对应的韵律节奏标签，其中，韵律节奏标签也就是训练语音的韵律节奏特征。使用随机梯度下降算法，根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型，使得，所述韵律节奏预测模型经过训练，学习并保存有第三融合特征和训练语音的韵律节奏特征之间的对应关系。

训练语音词向量是所述词嵌入模型提取的训练语音的词向量，训练语音音向量是所述词嵌入模型提取的训练语音的音向量。

所述韵律节奏预测模型包括：多层自注意力网络，其中，每层所述自注意力网络包括：多个自注意力头函数。

可选地，所述韵律节奏预测模型包括：3层自注意力网络，其中，每层所述自注意力网络包括：8个自注意力函数。所述韵律节奏预测模型是自注意力编码模型。

在步骤S210中，将所述第二融合特征输入语音检测模型，输出语音检测结果之前，所述方法还包括：获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征和第四声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量；对所述训练语音词向量和所述训练语音音向量进行所述拼接处理，得到第三融合特征，并将所述第三融合特征输入所述韵律节奏预测模型，输出训练语音韵律节奏特征；对所述训练语音韵律节奏特征和第四声学特征进行所述拼接处理，得到第四融合特征，并对所述第四融合特征进行第二标注处理；使用随机梯度下降算法，根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型。

对所述第四融合特征进行第二标注处理，也就是给第四融合特征标注所述训练语音是真实语音的标签，还是所述训练语音是生成语音的标签。使用随机梯度下降算法，根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型，使得，所述语音检测模型经过训练，学习并保存有所述训练语音和训练语音检测结果之间的对应关系，所述训练语音检测结果，包括：所述训练语音是真实语音和所述训练语音是生成语音。

所述语音检测模型，包括：多个时延神经网络层、多个残差网络层和全连接层。

可选地，所述语音检测模型，包括：2个时延神经网络层、6个残差网络层和1个全连接层。因此语音检测模型可以看做残差网络和时延神经网络的组合。语音检测模型的激活函数为Relu。

在步骤S206中，分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量之前，包括：获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别对所述训练语音文本序列进行第三标注处理和第四标注处理，并通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型，通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型。

分别对所述训练语音文本序列进行第三标注处理和第四标注处理，也就是分别对所述训练语音文本序列标注所述训练语音文本序列对应的训练语音词向量的标签，和对所述训练语音文本序列标注所述训练语音文本序列对应的训练语音音向量的标签。通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型，使得，所述词嵌入模型经过训练，学习并保存有所述训练语音文本序列和训练语音词向量之间的对应关系。通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型，使得所述词嵌入模型经过训练，学习并保存有所述训练语音文本序列和训练语音音向量之间的对应关系。

在步骤S204中，将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列之前，包括：获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；对所述第三声学特征进行第五标注处理，并通过经过所述第五标注处理的第三声学特征训练所述语音识别模型。

对所述第三声学特征进行第五标注处理，也就是对所述第三声学特征标注训练语音文本序列，通过经过所述第五标注处理的第三声学特征训练所述语音识别模型，使得所述语音识别模型经过训练，学习并保存有所述第三声学特征标和训练语音文本序列之间的对应关系。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（RandomAccessMemory，简称为RAM）、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，组件服务端，或者网络设备等）执行本公开各个实施例的方法。

在本实施例中还提供了一种生成语音的检测装置，该生成语音的检测装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3示意性示出了本公开可选实施例的一种生成语音的检测装置的结构框图，如图3所示，该装置包括：

第一提取模块302，用于获取待检测语音，并提取所述待检测语音的第一声学特征和第二声学特征；

第一模型模块304，用于将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列；

第二提取模块306，用于分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量；

第二模型模块308，用于对所述词向量和所述音向量进行拼接处理，得到第一融合特征，并将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征；

第三模型模块310，用于对所述第二声学特征和所述韵律节奏特征进行所述拼接处理，得到第二融合特征，并将所述第二融合特征输入语音检测模型，输出语音检测结果，其中，所述语音检测结果，包括：所述待检测语音是真实语音和所述待检测语音是生成语音。

第一声学特征可以是梅尔频谱系数MFCC或FBank特征，第二声学特征可以是线性预测谱系数LFCC和线性功率谱系数LPC。可选地，第二模型模块308还用于获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量；对所述训练语音词向量和所述训练语音音向量进行所述拼接处理，得到第三融合特征，并对所述第三融合特征进行第一标注处理；使用随机梯度下降算法，根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。

可选地，第三模型模块310还用于获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征和第四声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量；对所述训练语音词向量和所述训练语音音向量进行所述拼接处理，得到第三融合特征，并将所述第三融合特征输入所述韵律节奏预测模型，输出训练语音韵律节奏特征；对所述训练语音韵律节奏特征和第四声学特征进行所述拼接处理，得到第四融合特征，并对所述第四融合特征进行第二标注处理；使用随机梯度下降算法，根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型。

可选地，第二提取模块还用于获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别对所述训练语音文本序列进行第三标注处理和第四标注处理，并通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型，通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型。

可选地，第一模型模块304还用于获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；对所述第三声学特征进行第五标注处理，并通过经过所述第五标注处理的第三声学特征训练所述语音识别模型。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本公开的实施例提供了一种电子设备。

参照图4所示，本公开实施例提供的电子设备400包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401、通信接口402和存储器403通过通信总线404完成相互间的通信；存储器403，用于存放计算机程序；处理器401，用于执行存储器上所存放的程序时，实现上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该输入输出设备与上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待检测语音，并提取所述待检测语音的第一声学特征和第二声学特征；

S2，将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列；

S3，分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量；

S4，对所述词向量和所述音向量进行拼接处理，得到第一融合特征，并将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征；

S5，对所述第二声学特征和所述韵律节奏特征进行所述拼接处理，得到第二融合特征，并将所述第二融合特征输入语音检测模型，输出语音检测结果，其中，所述语音检测结果，包括：所述待检测语音是真实语音和所述待检测语音是生成语音。

本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本公开的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本公开不限制于任何特定的硬件和软件结合。

以上所述仅为本公开的优选实施例而已，并不用于限制于本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种生成语音的检测方法，其特征在于，包括：

获取待检测语音，并提取所述待检测语音的第一声学特征和第二声学特征；

将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列；

分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量；

对所述词向量和所述音向量进行拼接处理，得到第一融合特征，并将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征；

对所述第二声学特征和所述韵律节奏特征进行所述拼接处理，得到第二融合特征，并将所述第二融合特征输入语音检测模型，输出语音检测结果，其中，所述语音检测结果，包括：所述待检测语音是真实语音和所述待检测语音是生成语音；

其中，所述将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征之前，包括：

获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；

提取所述训练语音数据集中每条训练语音的第三声学特征；

将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；

分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量；

对所述训练语音词向量和所述训练语音音向量进行所述拼接处理，得到第三融合特征，并对所述第三融合特征进行第一标注处理；

使用随机梯度下降算法，根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。

2.根据权利要求1所述的方法，其特征在于，所述韵律节奏预测模型包括：多层自注意力网络，其中，每层所述自注意力网络包括：多个自注意力头函数。

3.根据权利要求1所述的方法，其特征在于，所述将所述第二融合特征输入语音检测模型，输出语音检测结果之前，所述方法还包括：

提取所述训练语音数据集中每条训练语音的第三声学特征和第四声学特征；

对所述训练语音词向量和所述训练语音音向量进行所述拼接处理，得到第三融合特征，并将所述第三融合特征输入所述韵律节奏预测模型，输出训练语音韵律节奏特征；

对所述训练语音韵律节奏特征和第四声学特征进行所述拼接处理，得到第四融合特征，并对所述第四融合特征进行第二标注处理；

使用随机梯度下降算法，根据经过所述第二标注处理之后的第四融合特征训练所述语音检测模型。

4.根据权利要求1或3所述的方法，其特征在于，所述语音检测模型，包括：多个时延神经网络层、多个残差网络层和全连接层。

5.根据权利要求1所述的方法，其特征在于，所述分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量之前，包括：

提取所述训练语音数据集中每条训练语音的第三声学特征；

分别对所述训练语音文本序列进行第三标注处理和第四标注处理，并通过经过所述第三标注处理的训练语音文本序列训练所述词嵌入模型，通过经过所述第四标注处理的训练语音文本序列训练所述语音嵌入模型。

6.根据权利要求1所述的方法，其特征在于，所述将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列之前，包括：

提取所述训练语音数据集中每条训练语音的第三声学特征；

对所述第三声学特征进行第五标注处理，并通过经过所述第五标注处理的第三声学特征训练所述语音识别模型。

7.一种生成语音的检测装置，其特征在于，包括：

第一提取模块，用于获取待检测语音，并提取所述待检测语音的第一声学特征和第二声学特征；

第一模型模块，用于将所述第一声学特征输入语音识别模型，输出所述第一声学特征对应的文本序列；

第二提取模块，用于分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量；

第二模型模块，用于对所述词向量和所述音向量进行拼接处理，得到第一融合特征，并将所述第一融合特征输入韵律节奏预测模型，输出韵律节奏特征；

第三模型模块，用于对所述第二声学特征和所述韵律节奏特征进行所述拼接处理，得到第二融合特征，并将所述第二融合特征输入语音检测模型，输出语音检测结果，其中，所述语音检测结果，包括：所述待检测语音是真实语音和所述待检测语音是生成语音；

第二模型模块还用于获取训练语音数据集，其中，所述训练语音数据集包括多条训练语音，所述训练语音为真实语音或生成语音；提取所述训练语音数据集中每条训练语音的第三声学特征；将所述第三声学特征输入所述语音识别模型，输出所述第三声学特征对应的训练语音文本序列；分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量；对所述训练语音词向量和所述训练语音音向量进行所述拼接处理，得到第三融合特征，并对所述第三融合特征进行第一标注处理；使用随机梯度下降算法，根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。

8.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。