CN114267363B

CN114267363B - 语音对抗样本生成方法及装置、电子设备及存储介质

Info

Publication number: CN114267363B
Application number: CN202210201797.6A
Authority: CN
Inventors: 傅睿博; 陶建华; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-05-24
Anticipated expiration: 2042-03-03
Also published as: CN114267363A

Abstract

本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质，所述方法包括：接收目标文本，并从所述目标文本中提取文本特征序列；将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列；将所述多维声学参数序列输入预先训练好的声码器模型，生成语音的时域采样序列，作为目标文本对应的对抗样本，声学模型的输出为多维声学参数序列，使得生成的语音内容在多种声学特征维度描述下保证高相似度（匹配度），因而，在语音对抗样本的生成过程中利用多维声学参数重构方法，能够提升语音对抗样本的抗检测能力，更加有效对语音生成检测模型进行欺骗。

Description

语音对抗样本生成方法及装置、电子设备及存储介质

技术领域

本公开涉及语音技术领域，尤其涉及一种语音对抗样本生成方法及装置、电子设备及存储介质。

背景技术

目前，语音生成检测模型为了捕获更有区分度的信息，使用多种用于语音信号处理的声学特征，用于语音生成检测的声学特征直接送入模型或作为判别依据。在生成语音对抗样本时，语音合成模型通常只选取一种语音声学特征进行声学模型建模，并用声码器将该参数重构成语音波形，这就导致若语音合成模型采用的声学参数与语音生成检测模型所用的声学参数不一致情况下，由于生成语音所用的检测特征的参数与真实语音差异较大，极易被语音生成检测模型所检测，无法对语音生成检测***进行欺骗。

另外，现有技术主要通过对误差阈值增加随机扰动，对误差进行钳位等操作来生成语音对抗样本，属于被动加入对抗样本，虽然在一定程度可以欺骗语音生成检测模型，但加入的噪声易造成生成语音听感下降，从人类主观角度易被识别检测，且该方法未从语音生成检测机理出发，对抗样本生成过于局限性，只能有效欺骗部分给定的语音生成检测模型。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种语音对抗样本生成方法及装置、电子设备及存储介质。

第一方面，本公开的实施例提供了一种语音对抗样本生成方法，包括以下步骤：

接收目标文本，并从所述目标文本中提取文本特征序列；

将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列；

将所述多维声学参数序列输入预先训练好的声码器模型，生成语音的时域采样序列，作为目标文本对应的对抗样本。

在一种可能的实施方式中，所述声学模型包括骨干网络、自注意力机制层和全连接层，所述将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列，包括：

将所述文本特征序列输入骨干网络中，得到中间多维声学参数序列；

将中间多维声学参数序列输入自注意力机制层，得到向量相关性矩阵和中间多维声学参数矩阵；

将向量相关性矩阵和中间多维声学参数矩阵输入全连接层，得到多维声学参数序列。

在一种可能的实施方式中，所述将中间多维声学参数序列输入自注意力机制层，得到向量相关性矩阵和中间多维声学参数矩阵，包括：

对于中间多维声学参数序列

中的向量

，分别乘以三个权重系数

得到三个向量：

根据中间多维声学参数序列中向量

对应的

形成矩阵Q；

根据中间多维声学参数序列中向量

对应的

形成矩阵K；

根据中间多维声学参数序列中向量

对应的

形成矩阵V，作为中间多维声学参数矩阵；

根据矩阵Q和矩阵K计算中间多维声学参数序列中每两个向量之间的相关性：

其中，

为中间多维声学参数序列中第i个向量与第j个向量之间的相关性；

为中间多维声学参数序列中第i个向量

乘以

得到的向量，

为中间多维声学参数序列中第j个向量

乘以

得到的向量；

对

形成的矩阵A进行归一化操作，得到矩阵

，作为向量相关性矩阵。

在一种可能的实施方式中，所述将向量相关性矩阵和中间多维声学参数矩阵输入全连接层，得到多维声学参数序列，包括：

其中，Y为多维声学参数序列，矩阵V为中间多维声学参数矩阵，矩阵

为向量相关性矩阵，FCN为全连接层。

在一种可能的实施方式中，所述声码器模型通过以下步骤训练得到：

以多维声学参数序列Y作为输入，以时域采样序列作为输出训练神经网络模型，得到声码器模型。

在一种可能的实施方式中，通过以下表达式训练所述声学模型：

其中，

为声学模型训练损失函数，

为权重系数，

为第k帧第q类声学参数的真实向量，

为第k帧第q类声学参数的模型实际预测向量。

在一种可能的实施方式中，所述第k帧第q类声学参数的真实向量通过以下步骤得到：

对目标文本对应的真实语音提取声学参数，其中，所述声学参数包括梅尔频率倒谱系数、线性频率倒谱系数、线性预测系数和常数Q变换倒谱系数中的至少两种；

将不同种类的声学参数按帧为单位进行拼接操作，得到第j帧真实多维声学参数序列；

从第k帧真实多维声学参数序列中获取第q类声学参数的真实向量。

第二方面，本公开的实施例提供了一种语音对抗样本生成装置，包括：

提取模块，其用于接收目标文本，并从所述目标文本中提取文本特征序列；

输入模块，其用于将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列；

生成模块，其用于将所述多维声学参数序列输入预先训练好的声码器模型，生成语音的时域采样序列，作为目标文本对应的对抗样本。

第三方面，本公开的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的语音对抗样本生成方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的语音对抗样本生成方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

本公开实施例所述的语音对抗样本生成方法，接收目标文本，并从所述目标文本中提取文本特征序列；将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列；将所述多维声学参数序列输入预先训练好的声码器模型，生成语音的时域采样序列，作为目标文本对应的对抗样本，声学模型的输出为多维声学参数序列，使得生成的语音内容在多种声学特征维度描述下保证高相似度（匹配度），因而，在语音对抗样本的生成过程中利用多维声学参数重构方法，能够提升语音对抗样本的抗检测能力，更加有效对语音生成检测模型进行欺骗。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开实施例的语音对抗样本生成方法的流程示意图；

图2示意性示出了根据本公开另一实施例的语音对抗样本生成方法的流程示意图；

图3示意性示出了根据本公开实施例的语音对抗样本生成装置的结构框图；以及

图4示意性示出了根据本公开实施例的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

参见图1，本公开的实施例提供了一种语音对抗样本生成方法，包括以下步骤：

S1，接收目标文本，并从所述目标文本中提取文本特征序列；

在实际应用中，针对待生成对抗样本的目标文本，经过文本正则化，文本转音素，多音字预测，韵律停顿等预测得到常规语音合成中的文本特征，对于每一个音素f，文本特征

包含音素信息，音调信息，词性信息，韵律停顿信息等一系列能有助于声学建模的特征。假定训练语料的一个样本文本中含有N个音素单元，将经过处理量化后的文本特征序列定义为

。

S2，将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列；

S3，将所述多维声学参数序列输入预先训练好的声码器模型，生成语音的时域采样序列（时域语音波形），作为目标文本对应的对抗样本，其中，声码器模型的结构可以采用深度神经网络，与WaveRNN结构类似。

参见图2，步骤S2中，所述声学模型包括骨干网络、自注意力机制层和全连接层，所述将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列，包括：

S21，将所述文本特征序列输入骨干网络中，得到中间多维声学参数序列；

在实际应用中，骨干网络可以采用编码器-解码器的神经网络网络结构，其中，编码器-解码器的结构可以应用LSTM、CNN等多种形式的深度神经网络。

S22，将中间多维声学参数序列输入自注意力机制层，得到向量相关性矩阵和中间多维声学参数矩阵；

S23，将向量相关性矩阵和中间多维声学参数矩阵输入全连接层，得到多维声学参数序列。

在本实施例中，步骤S22中，所述将中间多维声学参数序列输入自注意力机制层，得到向量相关性矩阵和中间多维声学参数矩阵，包括：

对于中间多维声学参数序列

中的向量

，分别乘以三个权重系数

得到三个向量：

根据中间多维声学参数序列中向量

对应的

形成矩阵Q；

根据中间多维声学参数序列中向量

对应的

形成矩阵K；

根据中间多维声学参数序列中向量

对应的

形成矩阵V，作为中间多维声学参数矩阵；

其中，

为中间多维声学参数序列中第i个向量

乘以

得到的向量，

为中间多维声学参数序列中第j个向量

乘以

得到的向量；

对

形成的矩阵A进行归一化操作，得到矩阵

，作为向量相关性矩阵。

在本实施例中，步骤S23中，所述将向量相关性矩阵和中间多维声学参数矩阵输入全连接层，得到多维声学参数序列，包括：

为向量相关性矩阵，FCN为全连接层。

在本实施例中，步骤S3中，所述声码器模型通过以下步骤训练得到：

以多维声学参数序列Y作为输入，以时域采样序列作为输出训练神经网络模型，得到声码器模型，其中，通过以下表达式训练所述声学模型：

其中，

为声学模型训练损失函数，

为权重系数，其用于根据语音生成检测模型调整对各维声学参数生成的侧重程度，

为第k帧第q类声学参数的真实向量，

为第k帧第q类声学参数的模型实际预测向量，

代表1阶范数计算公式，其中，所述第k帧第q类声学参数的真实向量通过以下步骤得到：

本公开的语音对抗样本生成方法不同于常规对生成整句语音加入全局相对统一的对抗样本，根据生成的不同音素在生成语音过程中加入音素相关的对抗样本，更加有针对性地进行语音对抗样本生成，并在对抗样本生成过程中，将语音生成检测***常用的声学参数，如梅尔倒谱系数（Mel Frequency Cepstral Coefficient , MFCC），线性频率倒谱系数（Linear Frequency Cepstral Coefficient, LFCC），线性预测系数（LinearPredictive Coefficient，LPC），常数Q变换倒谱系数（CQCC）进行综合重构，使生成语音在参数分布上与真实语音更加接近，即为一种主动攻击手段，这种多维参数重构方法能够骗过多种语音生成检测模型，使生成的对抗样本无法正确被语音生成检测***所识别，被错误识别为真实语音，相比传统对抗样本生成方法，基于语音生成与检测机理出发，通过生成语音内容不同，采用音素细粒度手段生成音素相关的语音对抗样本，利用多维参数重构方法提升语音对抗样本的抗检测能力

本公开的语音对抗样本生成方法基于语音生成检测机理，可解释地提升了语音对抗样本生成效果，更加有效对语音生成检测模型进行欺骗，并且易于操作和实现。

参见图3，本公开的实施例提供了一种语音对抗样本生成装置，包括：

提取模块11，其用于接收目标文本，并从所述目标文本中提取文本特征序列；

输入模块12，其用于将所述文本特征序列输入预先训练好的声学模型，得到多维声学参数序列；

生成模块13，其用于将所述多维声学参数序列输入预先训练好的声码器模型，生成语音的时域采样序列，作为目标文本对应的对抗样本。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本实施例中，提取模块11、输入模块12和生成模块13中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。提取模块11、输入模块12和生成模块13中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上***、基板上的***、封装上的***、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，提取模块11、输入模块12和生成模块13中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

参照图4所示，本公开的实施例提供的电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示语音对抗样本生成方法：

接收目标文本，并从所述目标文本中提取文本特征序列；

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的语音对抗样本生成方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的语音对抗样本生成方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。