CN114023312A - 基于元学习的语音声纹识别通用对抗扰动构建方法及*** - Google Patents

基于元学习的语音声纹识别通用对抗扰动构建方法及*** Download PDF

Info

Publication number
CN114023312A
CN114023312A CN202111420677.7A CN202111420677A CN114023312A CN 114023312 A CN114023312 A CN 114023312A CN 202111420677 A CN202111420677 A CN 202111420677A CN 114023312 A CN114023312 A CN 114023312A
Authority
CN
China
Prior art keywords
training
learning
delta
model
initial input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111420677.7A
Other languages
English (en)
Other versions
CN114023312B (zh
Inventor
陈艳姣
徐文渊
邓江毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhuoxi Brain And Intelligence Research Institute
Original Assignee
Hangzhou Zhuoxi Brain And Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhuoxi Brain And Intelligence Research Institute filed Critical Hangzhou Zhuoxi Brain And Intelligence Research Institute
Priority to CN202111420677.7A priority Critical patent/CN114023312B/zh
Publication of CN114023312A publication Critical patent/CN114023312A/zh
Application granted granted Critical
Publication of CN114023312B publication Critical patent/CN114023312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于元学习的语音声纹识别通用对抗扰动构建方法及***,所述方法包括:将训练集和测试集与不同结构的声纹识别模型划分成多个训练任务;基于元学习的方法在所述训练任务上完成初始输入的学习,构建初始输入样本;将所述初始输入样本输入黑盒模型,通过梯度上升优化更新得到通用对抗扰动。利用元学习的思想解决查询成本高的问题,针对黑盒模型高效构建通用对抗扰动,能够辅助声纹识别模型的安全隐患分析与修补。

Description

基于元学习的语音声纹识别通用对抗扰动构建方法及***
技术领域
本发明涉及人工智能与计算机安全技术交叉领域,尤其是涉及一种基于元学习的语音声纹识别通用对抗扰动构建方法及***。
背景技术
当今,人工智能的研究与应用越来越普遍。由于人工智能具有学习、推理、预测、决策等强大能力,人工智能在智能家居、自动驾驶、智能制造、智能交通、智慧城市等各种场景下得到大量应用。
然而,人工智能存在巨大的安全风险,原因是人工智能算法在设计之初并未将安全纳入其考虑的范围。因此算法的脆弱性容易被攻击者利用,判断结果容易被影响,致使***判断出错。这样的安全隐患亟待分析与研究。
针对以上面对的问题,针对声纹识别模型构建通用对抗扰动,则有助于安全研究者和相关企业对模型存在的安全隐患进行分析。再者,构建的通用对抗扰动可用于后续对抗训练,修补模型中的安全隐患。因此,通用对抗扰动的构建方法显得尤为重要。
发明内容
本发明的目的在于提供一种基于元学习的语音声纹识别通用对抗扰动构建方法及***,旨在解决上述问题。
本发明提供一种基于元学习的语音声纹识别通用对抗扰动构建方法,包括:
S1.将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务,并加入训练任务集合;
S2.基于元学习的方法在所述训练任务上完成初始输入的学习,完成学习后的初始输入构成初始输入样本;
S3.将所述初始输入样本输入黑盒模型,通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。
本发明提供一种基于元学习的语音声纹识别通用对抗扰动构建***,包括:
训练任务划分模块:用于将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务,并加入训练任务集合;
初始输入学习模块:用于基于元学习的方法在所述训练任务上完成初始输入的学习,完成学习后的初始输入构成初始输入样本;
对抗样本构建模块:用于将所述初始输入样本输入黑盒模型,通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。
本发明实施例还提供一种基于元学习的语音声纹识别通用对抗扰动构建装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述通用对抗扰动构建方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述通用对抗扰动构建方法的步骤。
采用本发明实施例,利用元学习的思想解决查询成本高的问题,针对黑盒模型高效构建通用对抗扰动,能够辅助声纹识别模型的安全隐患分析与修补。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建方法的流程图;
图2是本发明实施例的基于元学习构建语音声纹识别对抗样本的方法流程图;
图3是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建***示意图;
图4是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建装置示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
方法实施例
根据本发明实施例,提供了一种基于元学习的语音声纹识别通用对抗扰动构建方法,图1是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建方法的流程图,如图1所示,根据本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建方法具体包括:
S1.将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务,并加入训练任务集合。
S2.基于元学习的方法在所述训练任务上完成初始输入的学习,完成学习后的初始输入构成初始输入样本。
S3.将所述初始输入样本输入黑盒模型,通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。
图2是本发明实施例的基于元学习构建语音声纹识别对抗样本的方法流程图,以构造DeepSpeaker算法的通用对抗扰动为例,如图2所示,根据基于元学习构建语音声纹识别对抗样本的方法具体包括:
首先进行训练任务划分,将训练集和测试集与不同结构的声纹识别模型划分成多个训练任务,具体包括:
实现不同结构的声纹识别模型:通过改变未训练模型的超参数得到N个不同结构的声纹识别模型组成模型集合M,M={mi|i∈[0,N-1]},mi为声纹模型;其中,通常使用的声纹识别模型包括ivector、xvector、GMM、DeepSpeaker等,超参数用来定义模型结构或者优化策略;
进行数据集采样:通过公式(102)所示序列函数从开源数据集D中分别随机采取预订数量的语料信息的作为训练集TrainSet和测试集TestSet:
(TrainSet,TestSet)=SAMPLE(D,P,Q) 公式(102);
其中,P为从开源人声数据集D中随机采样出作为训练集TrainSet的说话人语料的数量,Q为从开源人声数据集D中随机采样出作为测试集TestSet的说话人语料的数量;可采用的开源数据集包括VoxCeleb1、VoxCeleb2、LibriSpeech等;
构建训练任务集:对所述模型集合M中的每个模型,从所述训练集TrainSet和测试集TestSet中分别取R组数据构成训练任务,加入训练任务集合T,T={(mi,TS1ij,TS2ij)|i∈[0,N-1],j∈[0,R-1]};其中,(TS1ij,TS2ij)=SAMPLE(D,P,Q);R取值范围为10~100,避免因为取值太大增加计算负担或因为取值太小无法获得对不同训练集的泛化能力。
然后进行初始输入的学习,基于元学习的方法在所述训练任务上完成初始输入的学习,构建初始输入样本,具体包括:
执行训练任务,采用训练集TS1ij对集合M中的每个模型mi进行E轮训练,得到训练后的模型集合MTrain,训练后的模型集合
Figure BDA0003377265310000061
Figure BDA0003377265310000062
为训练后的模型;
随机初始化对抗扰动δ;
计算单模型损失函数,并通过1轮梯度下降更新所述对抗扰动δ:将目标人物语音样本设为xtarget,模型
Figure BDA0003377265310000063
的损失函数如公式(203)所示:
Figure BDA0003377265310000064
其中,MSE()为均方误差函数;
计算loss ij对δ的梯度
Figure BDA0003377265310000065
并更新δ得到δij,其中,更新δ使用的更新规则如公式(2032)所示:
Figure BDA0003377265310000066
其中,η为学习率;
通过公式(204)计算元学习损失函数:
Figure BDA0003377265310000067
其中,xtarget为目标人物语音样本;
通过公式(205)反向传播计算梯度Δδ:
Figure BDA0003377265310000068
经过多轮优化更新δ后得到初始输入样本δoptim;其中,可选择的优化方法包括随机梯度下降(SGD)、AdaGrad、RMSProp、Adam等,通常选用Adam进行优化,选择EarlyStopping算法判断是否停止优化。
最后完成对抗样本的构建,将所述初始输入样本输入黑盒模型,通过梯度上升优化更新得到通用对抗扰动,具体包括:
初始化初始输入δ=δoptim
将目标人物语音x输入黑盒模型查询,获得目标说话人的匹配分数mtarget(δ);
通过反向传播计算mtarget(δ)对初始输入样本δ的梯度,通过梯度上升对δ进行多轮优化更新,得到通用对抗扰动δadv,将通用对抗扰动δadv添加到目标人物语音样本中完成对抗样本的构建;其中,梯度上升可选择的优化算法与梯度下降类似,同样选择EarlyStopping算法判断是否停止优化。
本发明实施例具有以下有益效果:1)通过元学习优化初始值,使对抗扰动生成效率更高,需要查询黑盒模型的次数更少,解决查询成本高的问题;2)生成的对抗扰动具有通用性(或称输入无关性),不需要针对特定输入生成特定的对抗扰动;3)生成的特征扰动对不同的分类模型具有可迁移性。
***实施例
根据本发明实施例,提供了一种基于元学习的语音声纹识别通用对抗扰动构建***,图3是本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建***的示意图,如图3所示,根据本发明实施例的基于元学习的语音声纹识别通用对抗扰动构建***具体包括:
训练任务划分模块30:用于将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务,并加入训练任务集合。
训练任务划分模块30具体用于:
通过改变未训练模型的超参数得到N个不同结构的声纹识别模型,构成模型集合M,M={mi|i∈[0,N-1]},mi为声纹模型;
通过序列函数SAMPLE()从开源数据集D中分别随机采取预订数量的语料信息的作为训练集TrainSet和测试集TestSet;
对模型集合M中的每个模型从所述训练集TrainSet和测试集TestSet中分别取R组数据构成训练任务,构成训练任务集合T,T={(mi,TS1ij,TS2ij)|i∈[0,N-1],j∈[0,R-1]}。
初始输入学习模块32:用于基于元学习的方法在所述训练任务上完成初始输入的学习,完成学习后的初始输入构成初始输入样本。
初始输入学习模块32具体用于:
执行训练任务,采用训练集对集合M中的模型进行E轮训练,得到训练后的模型集合MTrain
Figure BDA0003377265310000081
Figure BDA0003377265310000082
为训练后的模型;
随机初始化对抗扰动δ;
计算单模型损失函数,并通过1轮梯度下降更新对抗扰动δ;
通过公式(204)计算元学习损失函数:
Figure BDA0003377265310000083
其中,xtarget为目标人物语音样本;
通过反向传播计算梯度Δδ,经过多轮优化更新δ后得到初始输入样本δoptim
对抗样本构建模块34:用于将所述初始输入样本输入黑盒模型,通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。
对抗样本构建模块34具体用于:
初始化输入为δ=δoptim
将目标人物语音x输入黑盒模型查询,获得匹配分数mtarget(δ);
通过反向传播计算mtarget(δ)对初始输入样本δ的梯度,通过梯度上升对对抗扰动进行多轮优化更新得到通用对抗扰动δadv
本发明实施例是与上述方法实施例对应的***实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例一
本发明实施例提供一种基于元学习的语音声纹识别通用对抗扰动构建装置,如图4所示,包括:存储器40、处理器42及存储在所述存储器40上并可在所述处理器42上运行的计算机程序,所述计算机程序被所述处理器42执行时实现如下方法步骤:
S1.将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务,并加入训练任务集合。
具体的:
S101.通过改变未训练模型的超参数得到N个不同结构的声纹识别模型组成模型集合M,M={mi|i∈[0,N-1]};其中,通常使用的声纹识别模型包括ivector、xvector、GMM、DeepSpeaker等,超参数用来定义模型结构或者优化策略;
S102.通过公式(102)所示序列函数从开源数据集D中分别随机采取预订数量的语料信息的作为训练集TrainSet和测试集TestSet:
(TrainSet,TestSet)=SAMPLE(D,P,Q)公式(102);
其中,P为从开源人声数据集D中随机采样出作为训练集TrainSet的说话人语料的数量,Q为从开源人声数据集D中随机采样出作为测试集TestSet的说话人语料的数量;可采用的开源数据集包括VoxCeleb1、VoxCeleb2、LibriSpeech等;
S103.对所述模型集合M中的每个模型,从所述训练集TrainSet和测试集TestSet中分别取R组数据构成训练任务,加入训练任务集合T,T={(mi,TS1ij,TS2ij)|i∈[0,N-1],j∈[0,R-1]};其中,(TS1ij,TS2ij)=SAMPLE(D,P,Q);R取值范围为10~100,避免因为取值太大增加计算负担或因为取值太小无法获得对不同训练集的泛化能力。
S2.基于元学习的方法在所述训练任务上完成初始输入的学习,完成学习后的初始输入构成初始输入样本。
具体的:
S201.执行训练任务,采用训练集TS1ij对集合M中的每个模型mi进行E轮训练,得到训练后的模型集合MTrain,训练后的模型集合
Figure BDA0003377265310000101
S202.随机初始化对抗扰动δ;
S203.计算单模型损失函数并通过1轮梯度下降更新所述对抗扰动δ:将目标任务语音样本设为xtarget,模型
Figure BDA0003377265310000102
的损失函数如公式(203)所示:
Figure BDA0003377265310000103
其中,MSE()为均方误差函数;
计算loss ij对δ的梯度
Figure BDA0003377265310000104
并更新δ得到δij,其中,更新δ使用的更新规则如公式(2032)所示:
Figure BDA0003377265310000105
其中,η为学习率;
S204.通过公式(204)计算元学习损失函数:
Figure BDA0003377265310000106
其中,xtarget为目标人物语音样本;
S205.通过公式(205)反向传播计算梯度Δδ:
Figure BDA0003377265310000107
经过多轮优化更新δ后得到初始输入样本δoptim;其中,可选择的优化方法包括随机梯度下降(SGD)、AdaGrad、RMSProp、Adam等,通常选用Adam进行优化,选择EarlyStopping算法判断是否停止优化。
S3.将所述初始输入样本输入黑盒模型,通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。
具体的:
S301.初始化输入为δ=δoptim
S302.将目标人物语音x输入黑盒模型查询,获得目标说话人的匹配分数mtarget(δ);
S303.通过反向传播计算mtarget(δ)对初始输入样本δ的梯度,通过梯度上升对δ进行多轮优化更新,得到通用对抗扰动δadv,梯度上升可选择的优化算法与梯度下降类似,同样选择EarlyStopping算法判断是否停止优化。
装置实施例二
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器42执行时实现如下方法步骤:
S1.将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务,并加入训练任务集合。
具体的:
S101.通过改变未训练模型的超参数得到N个不同结构的声纹识别模型组成模型集合M,M={mi|i∈[0,N-1]};其中,通常使用的声纹识别模型包括ivector、xvector、GMM、DeepSpeaker等,超参数用来定义模型结构或者优化策略;
S102.通过公式(102)所示序列函数从开源数据集D中分别随机采取预订数量的语料信息的作为训练集TrainSet和测试集TestSet:
(TrainSet,TestSet)=SAMPLE(D,P,Q) 公式(102);
其中,P为从开源人声数据集D中随机采样出作为训练集TrainSet的说话人语料的数量,Q为从开源人声数据集D中随机采样出作为测试集TestSet的说话人语料的数量;可采用的开源数据集包括VoxCeleb1、VoxCeleb2、LibriSpeech等;
S103.对所述模型集合M中的每个模型,从所述训练集TrainSet和测试集TestSet中分别取R组数据构成训练任务,加入训练任务集合T,T={(mi,TS1ij,TS2ij)|i∈[0,N-1],j∈[0,R-1]};其中,(TS1ij,TS2ij)=SAMPLE(D,P,Q);R取值范围为10~100,避免因为取值太大增加计算负担或因为取值太小无法获得对不同训练集的泛化能力。
S2.基于元学习的方法在所述训练任务上完成初始输入的学习,完成学习后的初始输入构成初始输入样本。
具体的:
S201.执行训练任务,采用训练集TS1ij对集合M中的每个模型mi进行E轮训练,得到训练后的模型集合MTrain,训练后的模型集合
Figure BDA0003377265310000121
S202.随机初始化对抗扰动δ;
S203.计算单模型损失函数并通过1轮梯度下降更新所述对抗扰动δ:将目标任务语音样本设为xtarget,模型
Figure BDA0003377265310000122
的损失函数如公式(203)所示:
Figure BDA0003377265310000123
其中,MSE()为均方误差函数;
计算loss ij对δ的梯度
Figure BDA0003377265310000124
并更新δ得到δij,其中,更新δ使用的更新规则如公式(2032)所示:
Figure BDA0003377265310000125
其中,η为学习率;
S204.通过公式(204)计算元学习损失函数:
Figure BDA0003377265310000126
其中,xtarget为目标人物语音样本;
S205.通过公式(205)反向传播计算梯度Δδ:
Figure BDA0003377265310000127
经过多轮优化更新δ后得到初始输入样本δoptim;其中,可选择的优化方法包括随机梯度下降(SGD)、AdaGrad、RMSProp、Adam等,通常选用Adam进行优化,选择EarlyStopping算法判断是否停止优化。
S3.将所述初始输入样本输入黑盒模型,通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。
具体的:
S301.初始化输入为δ=δoptim
S302.将目标人物语音x输入黑盒模型查询,获得目标说话人的匹配分数mtarget(δ);
S303.通过反向传播计算mtarget(δ)对初始输入样本δ的梯度,通过梯度上升对δ进行多轮优化更新,得到通用对抗扰动δadv,梯度上升可选择的优化算法与梯度下降类似,同样选择EarlyStopping算法判断是否停止优化。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于元学习的语音声纹识别通用对抗扰动构建方法,其特征在于,包括:
S1.将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务,并加入训练任务集合;
S2.基于元学习的方法在所述训练任务上完成初始输入的学习,完成学习后的初始输入构成初始输入样本;
S3.将所述初始输入样本输入黑盒模型,通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。
2.根据权利要求1所述的方法,其特征在于,所述S1具体包括:
S101.通过改变未训练模型的超参数得到N个不同结构的声纹识别模型组成模型集合M,M={mi|i∈[0,N-1]},mi为声纹模型;
S102.通过序列函数SAMPLE()从开源数据集D中分别随机采取预订数量的语料信息的作为训练集TrainSet和测试集TestSet;
S103.对所述模型集合M中的每个模型从所述训练集TrainSet和测试集TestSet中分别取R组数据构成训练任务,加入训练任务集合T,T={(mi,TS1ij,TS2ij)|i∈[0,N-1],j∈[0,R-1]}。
3.根据权利要求1所述的方法,其特征在于,所述S2具体包括:
S201.执行训练任务,采用所述训练集对集合M中的模型进行E轮训练,得到训练后的模型集合MTrain
Figure FDA0003377265300000011
Figure FDA0003377265300000012
为训练后的模型;
S202.随机初始化对抗扰动δ;
S203.计算单模型损失函数并通过1轮梯度下降更新所述对抗扰动δ;
S204.通过公式(204)计算元学习损失函数:
Figure FDA0003377265300000021
其中,xtarget为目标人物语音样本;
S205.通过反向传播计算梯度Δδ,经过多轮优化更新δ后得到初始输入样本δoptim
4.根据权利要求3所述的方法,其特征在于,所述S3具体包括:
S301.初始化输入为δ=δoptim
S302.将目标人物语音x输入黑盒模型查询,获得匹配分数mtarget(δ);
S303.通过反向传播计算mtarget(δ)对初始输入样本δ的梯度,通过梯度上升对对抗扰动进行多轮优化更新得到通用对抗扰动δadv
5.一种基于元学习的语音声纹识别通用对抗扰动构建***,其特征在于,包括:
训练任务划分模块:用于将不同结构的声纹识别模型和其分别从训练集和测试集中选取的等量的数据组成训练任务,并加入训练任务集合;
初始输入学习模块:用于基于元学习的方法在所述训练任务上完成初始输入的学习,完成学习后的初始输入构成初始输入样本;
对抗样本构建模块:用于将所述初始输入样本输入黑盒模型,通过多次对黑盒模型的查询及反向传播计算梯度完成通用对抗扰动的构建。
6.根据权利要求5所述的***,其特征在于,所述训练任务划分模块具体用于:
通过改变未训练模型的超参数得到N个不同结构的声纹识别模型,构成模型集合M,M={mi|i∈[0,N-1]},mi为声纹模型;
通过序列函数SAMPLE()从开源数据集D中分别随机采取预订数量的语料信息的作为训练集TrainSet和测试集TestSet;
对所述模型集合M中的每个模型从所述训练集TrainSet和测试集TestSet中分别取R组数据构成训练任务,构成训练任务集合T,T={(mi,TS1ij,TS2ij)|i∈[0,N-1],j∈[0,R-1]}。
7.根据权利要求5所述的***,其特征在于,所述初始输入学习模块具体用于:
执行训练任务,采用所述训练集对集合M中的模型进行E轮训练,得到训练后的模型集合MTrain
Figure FDA0003377265300000031
Figure FDA0003377265300000032
为训练后的模型;
随机初始化对抗扰动δ;
计算单模型损失函数,并通过1轮梯度下降更新所述对抗扰动δ;
通过公式(204)计算元学习损失函数:
Figure FDA0003377265300000033
其中,xtarget为目标人物语音样本;
通过反向传播计算梯度Δδ,经过多轮优化更新δ后得到初始输入样本δoptim
8.根据权利要求7所述的***,其特征在于,所述对抗样本构建模块具体用于:
初始化输入为δ=δoptim
将目标人物语音x输入黑盒模型查询,获得匹配分数mtarget(δ);
通过反向传播计算mtarget(δ)对初始输入样本δ的梯度,通过梯度上升对对抗扰动进行多轮优化更新得到通用对抗扰动δadv
9.一种基于元学习的语音声纹识别通用对抗扰动构建装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的通用对抗扰动构建方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至4中任一项所述的通用对抗扰动构建方法的步骤。
CN202111420677.7A 2021-11-26 2021-11-26 基于元学习的语音声纹识别通用对抗扰动构建方法及*** Active CN114023312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111420677.7A CN114023312B (zh) 2021-11-26 2021-11-26 基于元学习的语音声纹识别通用对抗扰动构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111420677.7A CN114023312B (zh) 2021-11-26 2021-11-26 基于元学习的语音声纹识别通用对抗扰动构建方法及***

Publications (2)

Publication Number Publication Date
CN114023312A true CN114023312A (zh) 2022-02-08
CN114023312B CN114023312B (zh) 2022-08-23

Family

ID=80066644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111420677.7A Active CN114023312B (zh) 2021-11-26 2021-11-26 基于元学习的语音声纹识别通用对抗扰动构建方法及***

Country Status (1)

Country Link
CN (1) CN114023312B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190108448A1 (en) * 2017-10-09 2019-04-11 VAIX Limited Artificial intelligence framework
US20200234110A1 (en) * 2019-01-22 2020-07-23 Adobe Inc. Generating trained neural networks with increased robustness against adversarial attacks
CN111461307A (zh) * 2020-04-02 2020-07-28 武汉大学 一种基于生成对抗网络的通用扰动生成方法
CN112397074A (zh) * 2020-11-05 2021-02-23 桂林电子科技大学 基于mfcc和向量元学习的声纹识别方法
CN112668723A (zh) * 2020-12-29 2021-04-16 杭州海康威视数字技术股份有限公司 一种机器学习方法及***
CN112801265A (zh) * 2020-11-30 2021-05-14 华为技术有限公司 一种机器学习方法以及装置
CN113345415A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190108448A1 (en) * 2017-10-09 2019-04-11 VAIX Limited Artificial intelligence framework
US20200234110A1 (en) * 2019-01-22 2020-07-23 Adobe Inc. Generating trained neural networks with increased robustness against adversarial attacks
CN111461307A (zh) * 2020-04-02 2020-07-28 武汉大学 一种基于生成对抗网络的通用扰动生成方法
CN112397074A (zh) * 2020-11-05 2021-02-23 桂林电子科技大学 基于mfcc和向量元学习的声纹识别方法
CN112801265A (zh) * 2020-11-30 2021-05-14 华为技术有限公司 一种机器学习方法以及装置
CN112668723A (zh) * 2020-12-29 2021-04-16 杭州海康威视数字技术股份有限公司 一种机器学习方法及***
CN113345415A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUANGKE CHEN ET AL.: "Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems", 《2021 IEEE SYMPOSIUM ON SECURITY AND PRIVACY (SP)》 *
YI XIE ET AL.: "REAL-TIME, UNIVERSAL, AND ROBUST ADVERSARIAL ATTACKS AGAINST SPEAKER RECOGNITION SYSTEMS", 《ICASSP 2020》 *
陈晋音等: "面向语音识别***的黑盒对抗攻击方法", 《小型微型计算机***》 *

Also Published As

Publication number Publication date
CN114023312B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
KR102492318B1 (ko) 모델 학습 방법 및 장치, 및 데이터 인식 방법
CN103049792B (zh) 深层神经网络的辨别预训练
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
EP3933713A1 (en) Distributional reinforcement learning
CN110472779A (zh) 一种基于时间卷积网络的电力***短期负荷预测方法
CN105260356A (zh) 基于多任务学习的中文交互文本情感与话题识别方法
CN113609965B (zh) 文字识别模型的训练方法及装置、存储介质、电子设备
CN111127246A (zh) 一种输电线路工程造价的智能预测方法
US20210312288A1 (en) Method for training classification model, classification method, apparatus and device
CN113591988B (zh) 知识认知结构分析方法、***、计算机设备、介质、终端
CN111159863A (zh) 基于神经网络算法的材料变形及失效预测方法及***
CN108647772B (zh) 一种用于边坡监测数据粗差剔除的方法
Zheng et al. Understanding the property of long term memory for the LSTM with attention mechanism
CN115510814A (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN104732067A (zh) 一种面向流程对象的工业过程建模预测方法
CN113283488B (zh) 一种基于学习行为的认知诊断方法及***
CN114023312B (zh) 基于元学习的语音声纹识别通用对抗扰动构建方法及***
CN109858031A (zh) 神经网络模型训练、上下文预测方法及装置
CN117632098A (zh) 一种基于aigc的建筑智能设计***
CN110570339B (zh) 一种在线教育教学干预方法
CN111143533B (zh) 一种基于用户行为数据的客服方法及***
CN117332693A (zh) 一种基于ddpg-pso-bp算法的边坡稳定性评价方法
CN111860942A (zh) 融合自注意力机制和深度矩阵分解的学生成绩预测方法
Zhuang et al. Ensemble learning with siamese networks for visual tracking
CN114120367A (zh) 元学习框架下基于圆损失度量的行人重识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant