CN114023312A

CN114023312A - 基于元学习的语音声纹识别通用对抗扰动构建方法及***

Info

Publication number: CN114023312A
Application number: CN202111420677.7A
Authority: CN
Inventors: 陈艳姣; 徐文渊; 邓江毅
Original assignee: Hangzhou Zhuoxi Brain And Intelligence Research Institute
Current assignee: Hangzhou Zhuoxi Brain And Intelligence Research Institute
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-08
Anticipated expiration: 2041-11-26
Also published as: CN114023312B

Abstract

本发明公开了一种基于元学习的语音声纹识别通用对抗扰动构建方法及***，所述方法包括：将训练集和测试集与不同结构的声纹识别模型划分成多个训练任务；基于元学习的方法在所述训练任务上完成初始输入的学习，构建初始输入样本；将所述初始输入样本输入黑盒模型，通过梯度上升优化更新得到通用对抗扰动。利用元学习的思想解决查询成本高的问题，针对黑盒模型高效构建通用对抗扰动，能够辅助声纹识别模型的安全隐患分析与修补。

Description

基于元学习的语音声纹识别通用对抗扰动构建方法及***

技术领域

本发明涉及人工智能与计算机安全技术交叉领域，尤其是涉及一种基于元学习的语音声纹识别通用对抗扰动构建方法及***。

背景技术

当今，人工智能的研究与应用越来越普遍。由于人工智能具有学习、推理、预测、决策等强大能力，人工智能在智能家居、自动驾驶、智能制造、智能交通、智慧城市等各种场景下得到大量应用。

然而，人工智能存在巨大的安全风险，原因是人工智能算法在设计之初并未将安全纳入其考虑的范围。因此算法的脆弱性容易被攻击者利用，判断结果容易被影响，致使***判断出错。这样的安全隐患亟待分析与研究。

针对以上面对的问题，针对声纹识别模型构建通用对抗扰动，则有助于安全研究者和相关企业对模型存在的安全隐患进行分析。再者，构建的通用对抗扰动可用于后续对抗训练，修补模型中的安全隐患。因此，通用对抗扰动的构建方法显得尤为重要。

发明内容

本发明的目的在于提供一种基于元学习的语音声纹识别通用对抗扰动构建方法及***，旨在解决上述问题。

本发明提供一种基于元学习的语音声纹识别通用对抗扰动构建方法，包括：

S1.将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务，并加入训练任务集合；

S2.基于元学习的方法在所述训练任务上完成初始输入的学习，完成学习后的初始输入构成初始输入样本；

S3.将所述初始输入样本输入黑盒模型，通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。

本发明提供一种基于元学习的语音声纹识别通用对抗扰动构建***，包括：

训练任务划分模块：用于将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务，并加入训练任务集合；

初始输入学习模块：用于基于元学习的方法在所述训练任务上完成初始输入的学习，完成学习后的初始输入构成初始输入样本；

对抗样本构建模块：用于将所述初始输入样本输入黑盒模型，通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。

本发明实施例还提供一种基于元学习的语音声纹识别通用对抗扰动构建装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述通用对抗扰动构建方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现上述通用对抗扰动构建方法的步骤。

采用本发明实施例，利用元学习的思想解决查询成本高的问题，针对黑盒模型高效构建通用对抗扰动，能够辅助声纹识别模型的安全隐患分析与修补。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建方法的流程图；

图2是本发明实施例的基于元学习构建语音声纹识别对抗样本的方法流程图；

图3是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建***示意图；

图4是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建装置示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。此外，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

方法实施例

根据本发明实施例，提供了一种基于元学习的语音声纹识别通用对抗扰动构建方法，图1是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建方法的流程图，如图1所示，根据本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建方法具体包括：

S1.将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务，并加入训练任务集合。

S2.基于元学习的方法在所述训练任务上完成初始输入的学习，完成学习后的初始输入构成初始输入样本。

图2是本发明实施例的基于元学习构建语音声纹识别对抗样本的方法流程图，以构造DeepSpeaker算法的通用对抗扰动为例，如图2所示，根据基于元学习构建语音声纹识别对抗样本的方法具体包括：

首先进行训练任务划分，将训练集和测试集与不同结构的声纹识别模型划分成多个训练任务，具体包括：

实现不同结构的声纹识别模型：通过改变未训练模型的超参数得到N个不同结构的声纹识别模型组成模型集合M，M＝{m_i|i∈[0,N-1]}，m_i为声纹模型；其中，通常使用的声纹识别模型包括ivector、xvector、GMM、DeepSpeaker等，超参数用来定义模型结构或者优化策略；

进行数据集采样：通过公式(102)所示序列函数从开源数据集D中分别随机采取预订数量的语料信息的作为训练集TrainSet和测试集TestSet：

(TrainSet,TestSet)＝SAMPLE(D,P,Q) 公式(102)；

其中，P为从开源人声数据集D中随机采样出作为训练集TrainSet的说话人语料的数量，Q为从开源人声数据集D中随机采样出作为测试集TestSet的说话人语料的数量；可采用的开源数据集包括VoxCeleb1、VoxCeleb2、LibriSpeech等；

构建训练任务集：对所述模型集合M中的每个模型，从所述训练集TrainSet和测试集TestSet中分别取R组数据构成训练任务，加入训练任务集合T，T＝{(m_i,TS_1ij,TS_2ij)|i∈[0,N-1],j∈[0,R-1]}；其中，(TS_1ij,TS_2ij)＝SAMPLE(D,P,Q)；R取值范围为10～100，避免因为取值太大增加计算负担或因为取值太小无法获得对不同训练集的泛化能力。

然后进行初始输入的学习，基于元学习的方法在所述训练任务上完成初始输入的学习，构建初始输入样本，具体包括：

执行训练任务，采用训练集TS_1ij对集合M中的每个模型m_i进行E轮训练，得到训练后的模型集合M_Train，训练后的模型集合

为训练后的模型；

随机初始化对抗扰动δ；

计算单模型损失函数，并通过1轮梯度下降更新所述对抗扰动δ：将目标人物语音样本设为x_target，模型

的损失函数如公式(203)所示：

其中，MSE()为均方误差函数；

计算loss _ij对δ的梯度

并更新δ得到δ_ij，其中，更新δ使用的更新规则如公式(2032)所示：

其中，η为学习率；

通过公式(204)计算元学习损失函数：

其中，x_target为目标人物语音样本；

通过公式(205)反向传播计算梯度Δδ：

经过多轮优化更新δ后得到初始输入样本δ_optim；其中，可选择的优化方法包括随机梯度下降(SGD)、AdaGrad、RMSProp、Adam等，通常选用Adam进行优化，选择EarlyStopping算法判断是否停止优化。

最后完成对抗样本的构建，将所述初始输入样本输入黑盒模型，通过梯度上升优化更新得到通用对抗扰动，具体包括：

初始化初始输入δ＝δ_optim；

将目标人物语音x输入黑盒模型查询，获得目标说话人的匹配分数m_target(δ)；

通过反向传播计算m_target(δ)对初始输入样本δ的梯度，通过梯度上升对δ进行多轮优化更新，得到通用对抗扰动δ_adv，将通用对抗扰动δ_adv添加到目标人物语音样本中完成对抗样本的构建；其中，梯度上升可选择的优化算法与梯度下降类似，同样选择EarlyStopping算法判断是否停止优化。

本发明实施例具有以下有益效果：1)通过元学习优化初始值，使对抗扰动生成效率更高，需要查询黑盒模型的次数更少，解决查询成本高的问题；2)生成的对抗扰动具有通用性(或称输入无关性)，不需要针对特定输入生成特定的对抗扰动；3)生成的特征扰动对不同的分类模型具有可迁移性。

***实施例

根据本发明实施例，提供了一种基于元学习的语音声纹识别通用对抗扰动构建***，图3是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建***的示意图，如图3所示，根据本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建***具体包括：

训练任务划分模块30：用于将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务，并加入训练任务集合。

训练任务划分模块30具体用于：

通过改变未训练模型的超参数得到N个不同结构的声纹识别模型，构成模型集合M，M＝{m_i|i∈[0,N-1]}，m_i为声纹模型；

通过序列函数SAMPLE()从开源数据集D中分别随机采取预订数量的语料信息的作为训练集TrainSet和测试集TestSet；

对模型集合M中的每个模型从所述训练集TrainSet和测试集TestSet中分别取R组数据构成训练任务，构成训练任务集合T，T＝{(m_i,TS_1ij,TS_2ij)|i∈[0,N-1],j∈[0,R-1]}。

初始输入学习模块32：用于基于元学习的方法在所述训练任务上完成初始输入的学习，完成学习后的初始输入构成初始输入样本。

初始输入学习模块32具体用于：

执行训练任务，采用训练集对集合M中的模型进行E轮训练，得到训练后的模型集合M_Train，

为训练后的模型；

随机初始化对抗扰动δ；

计算单模型损失函数，并通过1轮梯度下降更新对抗扰动δ；

通过公式(204)计算元学习损失函数：

其中，x_target为目标人物语音样本；

通过反向传播计算梯度Δδ，经过多轮优化更新δ后得到初始输入样本δ_optim。

对抗样本构建模块34：用于将所述初始输入样本输入黑盒模型，通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。

对抗样本构建模块34具体用于：

初始化输入为δ＝δ_optim；

将目标人物语音x输入黑盒模型查询，获得匹配分数m_target(δ)；

通过反向传播计算m_target(δ)对初始输入样本δ的梯度，通过梯度上升对对抗扰动进行多轮优化更新得到通用对抗扰动δ_adv。

本发明实施例是与上述方法实施例对应的***实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

装置实施例一

本发明实施例提供一种基于元学习的语音声纹识别通用对抗扰动构建装置，如图4所示，包括：存储器40、处理器42及存储在所述存储器40上并可在所述处理器42上运行的计算机程序，所述计算机程序被所述处理器42执行时实现如下方法步骤：

具体的：

S101.通过改变未训练模型的超参数得到N个不同结构的声纹识别模型组成模型集合M，M＝{m_i|i∈[0,N-1]}；其中，通常使用的声纹识别模型包括ivector、xvector、GMM、DeepSpeaker等，超参数用来定义模型结构或者优化策略；

S102.通过公式(102)所示序列函数从开源数据集D中分别随机采取预订数量的语料信息的作为训练集TrainSet和测试集TestSet：

(TrainSet,TestSet)＝SAMPLE(D,P,Q)公式(102)；

S103.对所述模型集合M中的每个模型，从所述训练集TrainSet和测试集TestSet中分别取R组数据构成训练任务，加入训练任务集合T，T＝{(m_i,TS_1ij,TS_2ij)|i∈[0,N-1],j∈[0,R-1]}；其中，(TS_1ij,TS_2ij)＝SAMPLE(D,P,Q)；R取值范围为10～100，避免因为取值太大增加计算负担或因为取值太小无法获得对不同训练集的泛化能力。

具体的：

S201.执行训练任务，采用训练集TS_1ij对集合M中的每个模型m_i进行E轮训练，得到训练后的模型集合M_Train，训练后的模型集合

S202.随机初始化对抗扰动δ；

S203.计算单模型损失函数并通过1轮梯度下降更新所述对抗扰动δ：将目标任务语音样本设为x_target，模型

的损失函数如公式(203)所示：

其中，MSE()为均方误差函数；

计算loss _ij对δ的梯度

其中，η为学习率；

S204.通过公式(204)计算元学习损失函数：

其中，x_target为目标人物语音样本；

S205.通过公式(205)反向传播计算梯度Δδ：

具体的：

S301.初始化输入为δ＝δ_optim；

S302.将目标人物语音x输入黑盒模型查询，获得目标说话人的匹配分数m_target(δ)；

S303.通过反向传播计算m_target(δ)对初始输入样本δ的梯度，通过梯度上升对δ进行多轮优化更新，得到通用对抗扰动δ_adv，梯度上升可选择的优化算法与梯度下降类似，同样选择EarlyStopping算法判断是否停止优化。

装置实施例二

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传输的实现程序，所述程序被处理器42执行时实现如下方法步骤：

具体的：

(TrainSet,TestSet)＝SAMPLE(D,P,Q) 公式(102)；

具体的：

S202.随机初始化对抗扰动δ；

的损失函数如公式(203)所示：

其中，MSE()为均方误差函数；

计算loss _ij对δ的梯度

其中，η为学习率；

S204.通过公式(204)计算元学习损失函数：

其中，x_target为目标人物语音样本；

S205.通过公式(205)反向传播计算梯度Δδ：

具体的：

S301.初始化输入为δ＝δ_optim；

本实施例所述计算机可读存储介质包括但不限于为：ROM、RAM、磁盘或光盘等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。