CN116580694A

CN116580694A - 音频对抗样本生成方法、装置、设备及存储介质

Info

Publication number: CN116580694A
Application number: CN202310386808.7A
Authority: CN
Inventors: 温正棋; 戚鑫
Original assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-08-11

Abstract

本发明公开了一种音频对抗样本生成方法、装置、设备及存储介质，方法包括：获取文本信息及噪声；将文本信息输入至随机时长预测器得到每一个文本的时长信息，根据时长信息与噪声进行对齐，得到对齐结果；将文本信息和对齐结果输入至先验编码器中，以编码得到中间特征；将中间特征及噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，获得在噪声条件下，多个关于中间特征的帧级别分布；将分布经过flow层转换为与音频帧后验分布的近似分布，并采样出隐变量；对隐变量进行解码得到音频对抗样本。本发明利用分布采样原理条件的将噪声添加到人耳听不到的领域，使得生成的音频对抗样本更好的达到欺骗人耳的效果。

Description

音频对抗样本生成方法、装置、设备及存储介质

技术领域

本发明属于语音技术领域，具体涉及一种音频对抗样本生成方法、装置、设备及存储介质。

背景技术

随着人工智能技术的不断发展，越来越多的基于人工智能技术的应用被广泛使用在了生活中，例如语音识别已经被广泛的应用于人们生活和工作当中，为人们的生活工作带来极大的便利。

然而语音识别也存在风险，例如，容易遭受音频对抗样本的攻击。音频对抗样本是一种在原始音频上叠加一个扰动，造成人工智能模型识别的结果出错的一种攻击方式，音频对抗样本甚至可以改变现代自动语音识别***(ASR)的识别结果,可对语音识别***造成安全威胁。因此，如何检测各种各样的音频对抗样本是一个紧迫的研究课题。

在通过人工智能模型识别检测各种各样的音频对抗样本之前，生成自然度高的音频对抗样本至关重要度。VITS(Variational Inference with adversarial learning forend-to-endText-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型。VITS通过隐变量而非频谱串联起来语音合成中的声学模型和声码器，在隐变量上进行随机建模并利用随机时长预测器，提高了合成语音的多样性，输入同样的文本，能够合成不同声调和韵律的语音。

然而，VITS在将文本转换为音频时，是将噪声直接添加到音频当中，虽然能容易生成音频对抗样本，但显而易见的降低人耳听感。

发明内容

有鉴于此，本发明的目的在于提供一种音频对抗样本生成方法、装置、设备及存储介质，以改善上述问题。

为了达到上述目的，本发明提供以下技术方案：

一种音频对抗样本生成方法，其包括：

获取待处理的文本信息以及噪声；

将所述文本信息输入至随机时长预测器得到每一个文本的时长信息，并根据每一个文本的时长信息与噪声进行对齐，得到对齐结果；

将所述文本信息和对齐结果输入至先验编码器中，以根据所述文本信息以及所述对齐结果进行编码得到中间特征；

将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息进行建模，获得在噪声条件下，多个关于中间特征的帧级分布；

将所述分布经过flow层转换为音频后验分布的近似分布，并从所述近似分布中采样出隐变量；

对所述隐变量进行解码得到音频对抗样本。

优选地，所述噪声为低频扰动信号，且以帧级别，在帧非重叠区域添加所述噪声；其中，在通过滑动窗口进行语音帧的切分时，每滑动一次窗口都与上一帧有部分重叠，这一部分为该帧的重叠区域，剩余部分即为非重叠区域。

优选地，在条件分布生成器，所述条件提取设定，且通过获取噪声先验分布的表征，优化分布采样的变分条件下界；所述表征包括均值与方差。

优选地，将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息进行建模，获得在噪声条件下，多个关于中间特征的帧级分布；具体为：

将所述中间特征以及所述噪声输入至条件分布生成器，将噪声作为条件，对中间特征的N个子特征，即N个帧级别信息分开求解其分布，每一个帧级别信息对应一个将要生成的语音帧；

分别将噪声的每一个帧级扰动作为label与对应的一个帧级别信息相加输入一个长短期记忆网络，每个长短期记忆网络后接一个全连接层，最终得到N个并行的结构，输出N个帧级别信息的均值与方差，最终获得在噪声条件下，多个关于中间特征的帧级别分布。

优选地，还包括：

将所述文本信息输入至特征预测器，以从所述文本信息的上下文中提取不同层级的语义信息；

以残差连接的方式依次预测各个层级的说话风格表征；

将所述说话风格表征添加至所述隐变量中，以更新所述隐变量。

优选地，所述特征预测器通过知识蒸馏训练获得。

优选地，还包括：

将所述音频对抗样本的多级特征传递到判别器进行判别。

本发明实施例还提供了一种音频对抗样本生成装置，其包括：

信息获取单元，用于获取待处理的文本信息以及噪声；

对齐单元，用于将所述文本信息输入至随机时长预测器得到每一个文本的时长信息，并根据每一个文本的时长信息与噪声进行对齐，得到对齐结果；

编码单元，用于将所述文本信息和对齐结果输入至先验编码器中，以根据所述文本信息以及所述对齐结果进行编码得到中间特征；

条件分布单元，用于将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级信息分开建模，获得在噪声条件下，多个关于中间特征的帧级别分布；

分布转换单元，用于将所述的帧级别分布经过flow层转换为与音频后验分布的近似分布，并从所述近似分布中采样出隐变量；

解码单元，用于对所述隐变量进行解码得到音频对抗样本。

本发明实施例还提供了一种音频对抗样本生成设备，其包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的音频对抗样本生成方法。

本发明实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的音频对抗样本生成方法。

综上所述，本实施例中，利用分布采样原理条件的将噪声添加到人耳听不到的领域，使得生成了音频对抗样本能够更好的达到欺骗人耳的效果，从而提高了音频对抗样本的自然度和隐蔽性。

附图说明

图1是本发明第一实施例提供的音频对抗样本生成方法的流程示意图。

图2是本发明第一实施例的音频对抗样本生成方法的工作原理图。

图3是本发明第二实施例提供的音频对抗样本生成装置的结构示意图。

具体实施方式

下面结合具体实施例和附图对本发明方案作进一步的阐述。

请参阅图1，本发明第一实施例提供了一种音频对抗样本生成方法，其可由音频对抗样本生成设备(以下简称生成设备)来执行，特别的，由所述生成设备内的一个或者多个处理器来执行，以实现如下步骤：

S101，获取待处理的文本信息以及噪声。

在本实施例中，所述生成设备可以为个人计算机、工作站或者服务器等具有运算处理能力的终端设备，本发明不做具体限定。

在本实施例中，所述文本信息的文本长度可以根据实际的需要进行设定。

所述噪声为对人耳来说相对低频的音频扰动信号。

S102，将所述文本信息输入至随机时长预测器得到每一个文本的时长信息，并根据每一个文本的时长信息与噪声进行对齐，得到对齐结果。

在本实施例中，所述随机时长预测器是一个基于流的生成模型，其引入了与时长序列相同时间分辨率和维度的随机变量和，利用近似后验分布采样这两个变量，训练目标为音素时长对数似然的变分下界。其中，在训练时需断开随机时长预测器的梯度反传，防止该部分梯度影响到其它模块。音素时长通过随机时长预测器的可逆变换从随机噪音中采样得到，之后转换为整型值。

在本实施例中，由于在训练时没有对齐真实标签，因此在训练阶段的每一次迭代时都需要估计文本和音频(即噪声)之间的对齐。

为了估计文本和音频之间的对齐，本实施例与VITS一样，采用了类似于Glow-TTS中的单调对齐搜索(MonotonicAlignment Search，MAS)方法，该方法试图寻找一个最优的对齐路径以最大化利用标准化流参数化数据的对数似然。

MAS约束获得的最优对齐必须是单调且无跳过的，但是无法直接将MAS直接应用到VITS，因为VITS优化目标是ELBO而非确定的隐变量的对数似然，因此稍微改变了一下MAS，寻找最优的对齐路径以最大化ELBO。

在具体工作时，随机时长预测器输入的是文本编码器的结果而非文本编码器之后标准化流的输出隐变量，输出的是音素时长的对数。文本编码张量首先通过前处理一维卷积，之后进入带洞深度可分离卷积(Dialted and Depth-Separable Convolution，DDSConv)，然后通过后处理一维卷积之后，最后进入神经样条流(Neural spline flows)输出音素时长的对数。

带洞深度可分离卷积(Dialted and Depth-Separable Convolution，DDSConv)在保持较大感受野的同时，提高参数利用效率，在DDSConv中，每一个卷积层之后都跟着层规范化和GELU激活函数。具体来说，输入首先进入分组一维卷积，该分组卷积的组数和通道数相同，膨胀系数随着层数的递增而指数级增大，之后进入一维卷积和Dropout；多个分组卷积和一维卷积组成的模块构成了DDSConv，每个模块的输出均作为残差元素加到输入上。

S103，将所述文本信息和对齐结果输入至先验编码器中，以根据所述文本信息以及所述对齐结果进行编码得到中间特征。

在本实施例中，先验编码器包括文本编码器和标准化流。其中文本编码器由TransformerBlocks组成。文本编码器根据文本信息返回x、m和logs，x用于计算音素时长，m和logs经注意力权重加权求和之后，以残差形式求得先验隐变量z_p。

TransformerBlocks由多头注意力MA和前馈网络FFN组成。在Transformer Blocks的具体实现上，为了适应语音合成任务，利用相对注意力(Relative attetion)鼓励自注意力关注临近的位置(指定window_size为4)。文本编码器的前馈网络由两层卷积组成，也就是conv1->relu->dropout->conv2，文本编码器中前馈网络采用的卷积为等长卷积。

先验编码器中的标准化流，是4个仿射耦合层组成的模块，每个耦合层包含4个WaveNet残差结构，用于增强先验编码器的表达能力。由于VITS限制了耦合层为保持大小的变换(volume-preserving transformations)，因此耦合层不会产生缩放参数，上述的具体实现上，耦合层由残差耦合层和翻转层组成，残差耦合层实际是WaveNet的残差结构。具体来说，WaveNet的残差模块通过不断提高一维扩张卷积(带洞卷积)的膨胀系数，不断增大感受野，卷积后的结果一部分元素加到下一层的输入，另一部分元素加到最终的输出。

在具体实现上，标准化流加入说话人嵌入向量时使用了门控特征融合方法，将输入in_act的一半经过sigmoid之后元素乘in_act另一半经过tanh激活后的结果，即获得中间特征。

S104，将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息分别建模，获得在噪声条件下，多个关于中间特征的帧级别分布。

其中，在条件分布生成器中，将添加到人耳听不到的领域的噪声作为条件，这个条件可以设置为符合标准正太分布也可以设置为普通的分布，但是必须提前设定。

其中，在添加所述噪声时，以帧级别，在帧非重叠区域添加所述噪声。其中，在通过滑动窗口进行语音帧的切分时，每滑动一次窗口都与上一帧有部分重叠，这一部分为该帧的重叠区域，剩余部分即为非重叠区域。

特别的，考虑到在重叠区域，两个帧相互影响，耦合作用更大，因此在非重叠添加多的噪声，在重叠区域添加少部分噪声，如此可以获得更好的效果。

其中，具体地：

S105，将所述帧级别分布经过flow层转换为与音频后验分布的近似分布，并从所述近似分布中采样出隐变量。

在本实施例中，flow层包含多个(如16个)WaveNet残差结构，输入帧级别分布后，flow层转换为与音频后验分布的近似分布，并从所述近似分布中采样出隐变量，例如可以输出192维的后验隐变量。

S106，对所述隐变量进行解码得到音频对抗样本。

在本实施例中，解码器可以为HiFiGAN V1的生成器，主要是多组转置卷积，每组转置卷积后跟多感受野融合(Multi-Receptive Field Fusion，MRF)模块，所谓的多感受野融合模块主要是等大一维卷积组成的残差模块。

综上所述，本实施例中，利用分布采样原理条件的将噪声添加到人耳听不到的领域，从而使得生成了音频对抗样本能够更好的达到欺骗人耳的效果，从而提高了音频对抗样本的自然度和隐蔽性。

优选地，还包括：

将所述文本信息输入至特征预测器，以从所述文本信息的上下文中提取不同层级的语义信息，然后以残差连接的方式依次预测各个层级的说话风格表征；

在本实施例中，为了进一步提高模型表现力，在模型中增加一个特征提取器和一特征预测器。

特征提取器被用于从全局、句子和每个字对应的语音片段中提取三个不同层级的说话风格表征。

在特征提取器的基础上，特征预测器从上下文中提取不同层级的语义信息，然后以残差连接的方式依次预测这各个层级的说话风格表征。

为了避免训练时多尺度风格的学习相互干扰，段落级别、句子级别和字级别的参考编码器和风格标记层将依次训练，当训练其中一个层级的模块时，其余层级的模块被冻结。当特征提取器训练完毕后，将特征提取器冻结，以提取器提取的风格表征作为特征预测器的训练目标，使得预测器能更好的建立不同层级语音风格和文本语义之间的联系。

优选地，还包括：

将所述音频对抗样本的多级特征传递到判别器进行判别。

在本实施例中，增加一个多尺度判别器，判断变分推断解码器的输出是真实音频还是伪造音频，用于对抗变分推断解码器的训练，提高音频对抗样本的生成质量。

多尺度判别器的核心是先进行平均池化，缩短序列长度，每次序列长度池化至原来的一半，然后进行卷积。具体来说，多尺度判别器首先对原样本点进行一次“原尺寸判别”，使用一维卷积的参数规范化方法为谱归一化(spectral_norm)；接着对样本点序列进行平均池化，依次将序列长度减半，然后对“下采样”的样本点序列进行判别，使用一维卷积的参数规范化方法为权重归一化(weight_norm)。在每一个特定尺度的子判别器中，首先进行若干层卷积，均采用分组卷积，并利用对应方法对参数进行规范化；接着利用leaky_relu激活；在经过多个卷积层之后，最后利用输出通道为1的卷积层进行后处理，展平后作为输出。

请参阅图3，本发明第二实施例还提供了一种音频对抗样本生成装置，其包括：

信息获取单元210，用于获取待处理的文本信息以及噪声；

对齐单元220，用于将所述文本信息输入至随机时长预测器得到每一个文本的时长信息，并根据每一个文本的时长信息与噪声进行对齐，得到对齐结果；

编码单元230，用于将所述文本信息和对齐结果输入至先验编码器中，以根据所述文本信息以及所述对齐结果进行编码得到中间特征；

条件分布单元240，用于将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息分开建模，获得在噪声条件下，多个关于中间特征的帧级别分布；

分布转换单元250，用于将所述帧级别分布经过flow层转换为音频后验分布的近似分布，并从所述近似分布中采样出隐变量；

解码单元260，用于对所述隐变量进行解码得到音频对抗样本。

本发明第三实施例还提供了一种音频对抗样本生成设备，其包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的音频对抗样本生成方法。

本发明第四实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的音频对抗样本生成方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频对抗样本生成方法，其特征在于，包括：

获取待处理的文本信息以及噪声；

将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息进行建模，获得在噪声条件下，多个关于中间特征的帧级别分布；

将所述帧级别分布经过flow层转换为与音频后验分布的近似分布，并从所述近似分布中采样出隐变量；

对所述隐变量进行解码得到音频对抗样本。

2.根据权利要求1所述的音频对抗样本生成方法，其特征在于，所述噪声为低频扰动信号，且以帧级别，在帧非重叠区域添加所述噪声；其中，在通过滑动窗口进行语音帧的切分时，每滑动一次窗口都与上一帧有部分重叠，这一部分为该帧的重叠区域，剩余部分即为非重叠区域。

3.根据权利要求1所述的音频对抗样本生成方法，其特征在于，在条件分布生成器，所述条件提前设定，且通过获取噪声先验分布的表征，优化分布采样的变分条件下界；所述表征包括均值与方差。

4.根据权利要求1所述的音频对抗样本生成方法，其特征在于，

将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息进行建模，获得在噪声条件下，多个关于中间特征的帧级分布；具体为：

5.根据权利要求1所述的音频对抗样本生成方法，其特征在于，还包括：

以残差连接的方式依次预测各个层级的说话风格表征；

6.根据权利要求5所述的音频对抗样本生成方法，其特征在于，所述特征预测器通过知识蒸馏训练获得。

7.根据权利要求1所述的音频对抗样本生成方法，其特征在于，还包括：

将所述音频对抗样本的多级特征传递到判别器进行判别。

8.一种音频对抗样本生成装置，其特征在于，包括：

信息获取单元，用于获取待处理的文本信息以及噪声；

条件分布单元，用于将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息进行建模，获得在噪声条件下，多个关于中间特征的帧级别分布；

分布转换单元，用于将所述帧级别分布经过flow层转换为音频后验分布的近似分布，并从所述近似分布中采样出隐变量；

解码单元，用于对所述隐变量进行解码得到音频对抗样本。

9.一种音频对抗样本生成设备，其特征在于，包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如权利要求1至7任意一项所述的音频对抗样本生成方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如权利要求1至7任意一项所述的音频对抗样本生成方法。