CN111488898B - 对抗数据获取方法、装置、设备及存储介质 - Google Patents
对抗数据获取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111488898B CN111488898B CN201910081343.8A CN201910081343A CN111488898B CN 111488898 B CN111488898 B CN 111488898B CN 201910081343 A CN201910081343 A CN 201910081343A CN 111488898 B CN111488898 B CN 111488898B
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- target
- target data
- countermeasure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本公开是关于一种对抗数据获取方法、装置、设备及存储介质,属于计算机技术领域。方法包括:获取第一目标数据和第二目标数据,第一目标数据的类别与第二目标数据的类别不同;基于特征提取模型,获取第一目标数据的第一特征和第二目标数据的第二特征;根据第一特征和第二特征,获取干扰数据,干扰数据用于描述第二特征与第一特征之间的差异;根据第一目标数据与干扰数据,获取第一目标数据对应的第一对抗数据,第一对抗数据与第二目标数据被划分为相同类别。由于对抗数据的获取过程与分类模型无关,因此采用本公开实施例提供的方法获取的对抗数据可以应用于多个分类模型的训练过程,提高多个分类模型的准确率,提高了适用性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种对抗数据获取方法、装置、设备及存储介质。
背景技术
基于机器学习算法的分类模型凭借其良好的学习性能和分类准确率,得到了广泛应用。然而由于多种因素的影响导致数据受到干扰,形成对抗数据,影响分类准确率。因此,需要获取对抗数据,基于对抗数据对分类模型进行训练,以得到准确率更高的分类模型。
相关技术中,通常在获取到原始数据后,采用预设算法对原始数据进行修改,得到第一数据。基于已训练的分类模型分别对原始数据和第一数据进行分类处理,得到原始数据的类别和第一数据的类别。若第一数据的类别与原始数据的类别不同,则将该第一数据确定为该原始数据对应的对抗数据。若该第一数据的类别与原始数据的类别相同,则继续采用预设算法对第一数据进行修改,直到本次修改后的数据的类别与原始数据的类别不同为止。
上述方案中获取的对抗数据基于特定的分类模型确定,因此仅适用于该特定的分类模型,不适用于其他分类模型,针对性较强,迁移性较差。
发明内容
本公开提供了一种对抗数据获取方法、装置、设备及计算机可读存储介质,能够克服相关技术中获取到的对抗数据仅适用于特定的分类模型而不适用于其他分类模型的问题。
根据本公开实施例的第一方面,提供一种对抗数据获取方法,所述方法包括:
获取第一目标数据和第二目标数据,所述第一目标数据的类别与所述第二目标数据的类别不同;
基于特征提取模型,获取所述第一目标数据的第一特征和所述第二目标数据的第二特征,所述第一特征用于描述所述第一目标数据,所述第二特征用于描述所述第二目标数据;
根据所述第一特征和所述第二特征,获取干扰数据,所述干扰数据用于描述所述第二特征与所述第一特征之间的差异;
根据所述第一目标数据与所述干扰数据,获取所述第一目标数据对应的第一对抗数据,所述第一对抗数据与所述第二目标数据被划分为相同类别。
在一种可能实现的方式中,所述根据所述第一特征和所述第二特征,获取干扰数据,包括:
根据所述第一特征和所述第二特征,获取所述第二特征与所述第一特征之间的距离;
根据所述距离和所述第一目标数据,采用以下函数获取所述干扰数据:
其中,J(θ,x,xtarget为所述干扰数据,θ为所述函数的参数,x为所述第一目标数据,xtarget为所述第二目标数据,distance(Ftarget-Forigin)为所述第二特征与所述第一特征之间的距离,为对所述第一目标数据求偏导后得到的梯度。
在另一种可能实现的方式中,所述根据所述第一目标数据与所述干扰数据,获取所述第一目标数据对应的第一对抗数据,包括:
根据所述第一目标数据和所述干扰数据,采用以下函数进行计算,获取所述第一对抗数据:
xadv=x+∈·sign·J(θ,x,xtarget)
其中,xadv为所述第一对抗数据,x为所述第一目标数据,J(θ,x,xtarget)为所述干扰数据,∈为叠加系数,sign为符号函数。
在另一种可能实现的方式中,所述方法还包括:
获取第一原始数据;
基于所述特征提取模型,获取所述第一原始数据的第三特征,所述第三特征用于描述所述第一原始数据;
基于解码模型,对所述第三特征进行解码处理,得到第一数据;
根据所述第一数据对所述特征提取模型和所述解码模型进行训练,以使基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。
在另一种可能实现的方式中,所述根据所述第一数据对所述特征提取模型和所述解码模型进行训练,以使基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小,包括:
根据所述第一数据和预设损失函数,对所述特征提取模型和所述解码模型进行训练,以使所述预设损失函数的输出值趋向于最小;
所述基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异,与所述预设损失函数的输出值正相关。
在另一种可能实现的方式中,所述预设损失函数为:
其中,loss,x,xrec)为所述预设损失函数,θ为所述预设损失函数的参数,xrec为所述第二数据,W为所述第一原始数据中像素的宽度,H为所述第一原始数据中像素的高度,xw,h为位于所述第一原始数据中宽度为w、高度为h的像素点,为位于所述第二数据中宽度为w、高度为h的像素点。
根据本公开实施例的第二方面,提供一种对抗数据获取装置,所述装置包括:
数据获取单元,被配置为获取第一目标数据和第二目标数据,所述第一目标数据的类别与所述第二目标数据的类别不同;
第一特征获取单元,被配置为基于特征提取模型,获取所述第一目标数据的第一特征和所述第二目标数据的第二特征,所述第一特征用于描述所述第一目标数据,所述第二特征用于描述所述第二目标数据;
干扰获取单元,被配置为根据所述第一特征和所述第二特征,获取干扰数据,所述干扰数据用于描述所述第二特征与所述第一特征之间的差异;
对抗获取单元,被配置为根据所述第一目标数据与所述干扰数据,获取所述第一目标数据对应的第一对抗数据,所述第一对抗数据与所述第二目标数据被划分为相同类别。
在一种可能实现的方式中,所述干扰获取单元,包括:
距离获取子单元,被配置为根据所述第一特征和所述第二特征,获取所述第一特征与所述第二特征之间的距离;
干扰获取子单元,被配置为根据所述距离和所述第一目标数据,采用以下函数获取所述干扰数据:
其中,J(θ,x,xtarget)为所述干扰数据,θ为所述函数的参数,x为所述第一目标数据,xtarget为所述第二目标数据,distance(Ftarget-Forigin)为所述第二特征与所述第一特征之间的距离,为对所述第一目标数据求偏导后得到的梯度。
在另一种可能实现的方式中,所述对抗获取单元,包括:
对抗获取子单元,被配置为根据所述第一目标数据和所述干扰数据,采用以下函数进行计算,获取所述第一对抗数据:
xadv=x+∈·sing·J(θ,x,xtarget)
其中,xadv为所述第一对抗数据,x为所述第一目标数据,J(θ,x,xtarget)为所述干扰数据,∈为叠加系数,sign为符号函数。
在另一种可能实现的方式中,所述装置还包括:
原始获取单元,被配置为获取第一原始数据;
第二特征获取单元,被配置为基于所述特征提取模型,获取所述第一原始数据的第三特征,所述第三特征用于描述所述第一原始数据;
解码单元,被配置为基于解码模型,对所述第三特征进行解码处理,得到第一数据;
训练单元,被配置为根据所述第一数据对所述特征提取模型和所述解码模型进行训练,以使基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。
在另一种可能实现的方式中,所述训练单元,包括:
训练子单元,被配置为根据所述第一数据和预设损失函数,对所述特征提取模型和所述解码模型进行训练,以使所述预设损失函数的输出值趋向于最小;
所述基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异,与所述预设损失函数的输出值正相关。
在另一种可能实现的方式中,所述预设损失函数为:
其中,loss(θ,x,xrec)为所述预设损失函数,θ为所述预设损失函数的参数,xrec为所述第二数据,W为所述第一原始数据中像素的宽度,H为所述第一原始数据中像素的高度,xw,h为位于所述第一原始数据中宽度为w、高度为h的像素点,为位于所述第二数据中宽度为w、高度为h的像素点。
根据本公开实施例的第三方面,提供了一种获取对抗数据的处理设备,所述处理设备包括:
一个或多个处理器;
用于所述一个或多个存储处理器可执行命令的易失性或非易失性存储器;
其中,所述一个或多个处理器被配置为执行如第一方面所述的对抗数据获取方法。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理设备的处理器执行时,使得处理设备能够执行如第一方面所述的对抗数据获取方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,当所述计算机程序产品中的指令由处理设备的处理器执行时,使得处理设备能够执行如第一方面所述的对抗数据获取方法。
本公开实施例提供的方法、装置、设备及存储介质,通过已训练的特征提取模型,分别对类别不同的第一目标数据和第二目标数据进行特征提取,根据提取到的第一目标数据的特征与第二目标数据的特征之间的差异,获取干扰数据,根据该干扰数据与第一目标数据,获取第一目标数据对应的第一对抗数据,该第一对抗数据与第一目标数据被划分为不同的类别。由于本公开实施例中对抗数据的获取过程与分类模型无关,因此采用本公开实施例提供的方法获取的对抗数据,可以适用于多个分类模型的训练过程,提高多个分类模型的准确率,提高了适用性。
并且,基于特征提取模型对第一原始数据进行特征提取,得到第三特征,基于解码模型对第三特征进行解码处理,得到第一数据,根据第一数据配合训练特征提取模型和解码模型,以使特征提取模型和解码模型处理后的数据与对应的原始数据之间的差异趋向于最小。根据原始数据对特征提取模型和解码模型进行训练,可以提高特征提取模型的准确率,并且基于该特征提取模型处理后得到的特征,能够对数据进行准确描述。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种对抗数据获取方法的流程图。
图2是根据一示例性实施例示出的一种对抗数据获取方法的流程图。
图3是根据一示例性实施例示出的一种特征提取模型和解码模型的训练流程示意图。
图4是根据一示例性实施例示出的一种获取第一对抗数据的流程示意图。
图5是根据一示例性实施例示出的一种对抗数据获取装置的框图。
图6是根据一示例性实施例示出的一种用于获取对抗数据的终端的框图。
图7是根据一示例性实施例示出的一种服务器的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种对抗数据获取方法的流程图,如图1所示,该对抗数据获取方法用于处理设备中,处理设备可以为手机、计算机、平板电脑、智能电视等终端,或者处理设备还可以为服务器,包括以下步骤:
在步骤101中,处理设备获取第一目标数据和第二目标数据,第一目标数据的类别与第二目标数据的类别不同。
在步骤102中,处理设备基于特征提取模型,获取第一目标数据的第一特征和第二目标数据的第二特征,第一特征用于描述第一目标数据,第二特征用于描述第二目标数据。
在步骤103中,处理设备根据第一特征和第二特征,获取干扰数据,干扰数据用于描述第二特征与第一特征之间的差异。
在步骤104中,处理设备根据第一目标数据与干扰数据,获取第一目标数据对应的第一对抗数据,第一对抗数据与第二目标数据被划分为相同类别。
本公开实施例提供的方法,通过已训练的特征提取模型,分别对类别不同的第一目标数据和第二目标数据进行特征提取,根据提取到的第一目标数据的特征与第二目标数据的特征之间的差异,获取干扰数据,根据该干扰数据与第一目标数据,获取第一目标数据对应的第一对抗数据,该第一对抗数据与第一目标数据被划分为不同的类别。由于本公开实施例中对抗数据的获取过程与分类模型无关,因此采用本公开实施例提供的方法获取的对抗数据,可以适用于多个分类模型的训练过程,提高多个分类模型的准确率,提高了适用性。
在一种可能实现的方式中,根据第一特征和第二特征,获取干扰数据,包括:
根据第一特征和第二特征,获取第二特征与第一特征之间的距离;
根据距离和第一目标数据,采用以下函数获取干扰数据:
其中,J(θ,x,xtarget)为干扰数据,θ为函数的参数,x为第一目标数据,xtarget为第二目标数据,distance(Ftarget-Forigin)为第二特征与第一特征之间的距离,为对第一目标数据求偏导后得到的梯度。
在另一种可能实现的方式中,根据第一目标数据与干扰数据,获取第一目标数据对应的第一对抗数据,包括:
根据第一目标数据和干扰数据,采用以下函数进行计算,获取第一对抗数据:
xadv=x+∈·sign·J(θ,x,xtarget)
其中,xadv为第一对抗数据,x为第一目标数据,J(θ,x,xtarget)为干扰数据,∈为叠加系数,sign为符号函数。
在另一种可能实现的方式中,方法还包括:
获取第一原始数据;
基于特征提取模型,获取第一原始数据的第三特征,第三特征用于描述第一原始数据;
基于解码模型,对第一数据进行解码处理,得到第一数据;
根据第一数据对特征提取模型和解码模型进行训练,以使基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。
在另一种可能实现的方式中,根据第一数据对特征提取模型和解码模型进行训练,以使基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小,包括:
根据第一数据和预设损失函数,对特征提取模型和解码模型进行训练,以使预设损失函数的输出值趋向于最小;
基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异,与预设损失函数的输出值正相关。
在另一种可能实现的方式中,预设损失函数为:
其中,loss(θ,x,xrec)为预设损失函数,θ为预设损失函数的参数,xrec为第二数据,W为第一原始数据中像素的宽度,H为第一原始数据中像素的高度,xw,h为位于第一原始数据中宽度为w、高度为h的像素点,为位于第二数据中宽度为w、高度为h的像素点。
图2是根据一示例性实施例示出的一种对抗数据获取方法的流程图,如图2所示,该对抗数据获取方法用于图1所示实施例中的处理设备中,该方法包括以下步骤:
在步骤201中,处理设备获取第一原始数据。
当获取到待分类的数据时,可以基于分类模型对该数据进行分类,得到该数据的类别。然而,由于多种因素的影响,会导致原始数据受到干扰形成对抗数据后,而基于分类模型对对抗数据进行分类时,分类模型容易以高置信度错误分类,误将对抗数据划分为与原始数据类别不同的另一类别。
为了避免上述问题,可以获取至少一个原始数据及其对应的对抗数据,作为样本数据,其中,原始数据可以为图像、音频或视频等,对抗数据为原始数据添加干扰后的数据,且对抗数据能够误导分类模型的分类,导致分类模型将原始数据与对抗数据划分为不同类别。根据获取的样本数据进行训练,得到分类模型,使得无论待分类的数据为原始数据还是对抗数据,均可以基于该分类模型对待分类的数据正确分类。
为此,本公开实施例先根据至少一个原始数据训练特征提取模型,基于特征提取模型、目标数据以及与目标数据类别不同的另一目标数据,获取与目标数据内容相似且类别不同的对抗数据。
处理设备可以为终端或服务器,若处理设备为终端,该原始数据可以由终端拍摄得到,也可以由终端录制得到,或者由终端从互联网中下载,或者由其他设备发送至终端。若该处理设备为服务器,则该原始数据可以由终端上传至服务器,或者由其他设备上传至服务器。
本公开实施例仅以第一原始数据作为样本数据,对训练特征提取模型的过程进行说明,因此,处理设备先获取第一原始数据。根据其他样本数据训练特征提取模型的过程与根据第一原始数据训练特征提取模型的过程类似,在此不再赘述。
在步骤202中,处理设备基于特征提取模型,获取第一原始数据的第三特征。
其中,该特征提取模型用于对原始数据进行特征提取,获取原始数据的特征。
在一种可能实现的方式中,基于特征提取模型对数据进行特征提取时,获取到的特征可以为高维表达特征,高维表达特征包括数据的多个维度的特征,通过提取多个维度的特征,可以从多个维度对数据进行描述,从而能够尽可能准确地描述数据。
处理设备先获取当前的特征提取模型,该特征提取模型可以为初始化的特征提取模型,也可以为经过一次或多次训练后得到的特征提取模型,基于该特征提取模型对第一原始数据进行特征提取,得到该第一原始数据的特征,作为第三特征,其中,该第三特征用于描述第一原始数据。
在一种可能实现的方式中,该第三特征可以为高维表达特征,通过按照多个维度对第一原始数据进行特征提取得到,能够从多个维度对第一原始数据进行描述,从而准确地描述该第一原始数据。
例如,第一原始数据为图像,按照颜色和形状两个维度对第一原始数据进行特征提取,得到第一原始数据的二维表达特征,其中颜色维度上的特征是基于像素点得到的特征,根据每个像素点的像素值确定,形状维度上的特征可以包括轮廓特征或区域特征,轮廓特征用于描述图像中物体的轮廓,区域特征用于描述该物体的形状。该二维表达特征能够较为准确地描述图像中包含的物体的颜色和形状,即较为准确地描述该第一原始数据。
在步骤203中,处理设备基于解码模型,对第三特征进行解码处理,得到第一数据。
处理设备获取当前的解码模型,该解码模型可以为初始化的解码模型,也可以为经过一次或多次训练后得到的解码模型,基于该解码模型对上述第三特征进行解码处理,得到第一数据。
上述步骤202中基于特征提取模型进行特征提取时会改变数据形式,导致第一原始数据与第三特征的数据形式不同,而步骤203中基于解码模型进行解码处理时,能够进行形式转换,将第三特征转换为第一数据,以使第一数据的数据形式与第一原始数据的数据形式相同,以便将第一数据与第一原始数据进行对比,衡量两者之间的差异。
例如,第一原始数据为m×n的矩阵,基于特征提取模型进行特征提取后,得到第三特征,第三特征为m1×1的一维向量,基于解码模型对该第三特征进行解码处理,得到第一数据,第一数据为另一个m×n的矩阵,第一数据与第一原始数据形式相同,内容上可能存在差异。
在步骤204中,处理设备根据第一数据对特征提取模型和解码模型进行训练,以使基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。
对特征提取模型和解码模型进行训练时,训练目标为:基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。由于处理后的数据与原始数据之间的差异越小,表明处理后的数据与原始数据内容上越相似,当处理后的数据与原始数据之间的差异趋向于最小时,表明处理后的数据与原始数据内容上趋向于最相似,即基于当前的特征提取模型得到的特征能够准确描述原始数据。
因此,处理设备获取到第一数据后,按照上述训练目标,根据第一数据对特征提取模型和解码模型进行训练,后续采用类似的方式进行一次或多次训练之后,以使基于特征提取模型和解码模型处理后的数据及与对应的原始数据之间的差异趋向于最小。
在一种可能实现的方式中,处理设备为该特征提取模型和该解码模型设置预设损失函数,基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异,与预设损失函数的输出值正相关,因此,根据第一数据和预设损失函数,对特征提取模型和解码模型进行训练时,训练目标为使预设损失函数的输出值趋向于最小,以保证基于特征提取模型和解码模型处理后的数据与原始数据之间的差异趋向于最小,即两者的内容较为相似。
因此,处理设备获取第一数据和预设损失函数,根据该第一数据和预设损失函数进行计算,得到该预设损失函数的输出值,按照上述训练目标,根据该预设损失函数的输出值,对特征提取模型和解码模型进行训练,后续采用类似的方式进行一次或多次训练之后,以使预设损失函数的输出值趋向于最小。
在一种可能实现的方式中,该预设损失函数为:
其中,loss(θ,x,xrec)为预设损失函数,θ为预设损失函数的参数,xrec为第二数据,W为第一原始数据中像素的宽度,H为第一原始数据中像素的高度,xw,h为位于第一原始数据中宽度为w、高度为h的像素点,为位于第二数据中宽度为w、高度为h的像素点。
采用上述训练方式,并按照上述训练目标进行一次或多次训练,以使训练后的特征提取模型和解码模型再次根据另一原始数据得到处理后的数据时,通过计算得到的预设损失函数的输出值比上次计算得到的预设损失函数的输出值小,则进行一次或多次训练之后,可以使计算得到的预设损失函数的输出值趋向于最小,也即是基于特征提取模型和解码模型处理后的数据与对应的原始数据之间的差异最小,内容最相似。
以上步骤201-204仅是以配合训练特征提取模型与解码模型,以训练出能够准确描述原始数据的特征提取模型为例进行说明,在另一实施例中,还可以采取其他方式训练特征提取模型,只需满足特征提取模型能够准确描述原始数据的条件即可,具体的训练过程在此不再赘述。
在步骤205中,处理设备获取第一目标数据和第二目标数据。
本公开实施例以第一目标数据为例,对获取对抗数据的过程进行说明,处理设备可以获取第一目标数据和第二目标数据,该第一目标数据的类别与该第二目标数据的类别不同,从而能够以第一目标数据作为基础,以第二目标数据的类别为导向,根据第一目标数据与第二目标数据之间的差异,获取到与第一目标数据内容相似但类别不同的第一对抗数据。
例如,第一目标数据的类别为沙发,第二目标数据的类别为电扇。或者,第一目标数据的类别为猫,第二目标数据的类别为狗。
该第一目标数据和该第二目标数据可以通过处理设备拍摄或录制得到,也可以从互联网中下载得到,或者由其他设备发送至处理设备得到。该第一目标数据和该第二目标数据可以为图片、音频或视频等多种格式的数据,且二者的格式相同。
在一种可能实现方式中,可以获取多个目标数据,每个目标数据标记有所属的类别,从多个目标数据中随机选取与第一目标数据类别不同的目标数据,作为第二目标数据。或者,获取任两个类别之间的相似度,从多个目标数据中随机选取与第一目标数据类别不同、且所属类别与第一目标数据的类别之间的相似度满足要求的目标数据,作为第二目标数据。其中,相似度满足要求包括:相似度大于预设阈值,即要求第二目标数据与第一目标数据类别差异较小。或者,相似度满足要求包括:相似度小于预设阈值,即要求第二目标数据与第一目标数据类别差异较大。
在步骤206中,处理设备基于特征提取模型,获取第一目标数据的第一特征和第二目标数据的第二特征。
处理设备基于特征提取模型对第一目标数据进行特征提取,得到第一目标数据的特征,作为第一特征,基于特征提取模型对第二目标数据进行特征提取,得到第二目标数据的特征,作为第二特征。其中,该第一特征用于描述第一目标数据,该第二特征用于描述第二目标数据。
在一种可能实现的方式中,该第一特征和第二特征可以为高维表达特征。该第一特征通过按照多个维度对第一目标数据进行特征提取得到,能够从多个维度对第一目标数据进行描述,从而准确地描述该第一目标数据。该第二特征通过按照多个维度对第二目标数据进行特征提取得到,能够从多个维度对第二目标数据进行描述,从而能够尽可能准确地描述该第二目标数据。
例如,目标数据为图像,按照颜色和形状两个维度对目标数据进行特征提取,得到目标数据的二维表达特征,其中颜色维度上的特征是基于像素点得到的特征,根据每个像素点的像素值确定,形状维度上的特征可以包括轮廓特征或区域特征,轮廓特征用于描述图像中物体的轮廓,区域特征用于描述该物体的形状。该二维表达特征能够较为准确地描述图像中包含的物体的颜色和形状,即较为准确地描述该目标数据。
在步骤207中,处理设备根据第一特征和第二特征,获取干扰数据。
干扰数据用于描述第二特征与第一特征之间的差异,从而描述第二目标数据与第一目标数据之间的差异。处理设备可以计算第一特征与第二特征之间的差异特征,对该差异特征进行形式转换,得到差异特征对应的干扰数据,且该干扰数据的数据形式与第一目标数据的数据形式相同,后续能够根据该干扰数据对第一目标数据进行处理。
在一种可能实现的方式中,该第二特征与第一特征之间的差异可以与干扰数据正相关,表示干扰数据越大,第二特征与第一特征之间的差异越大,第二目标数据与第一目标数据之间的差异越大。或者,该第二特征与第一特征之间的差异可以与干扰数据负相关,表示干扰数据越大,第二特征与第一特征之间的差异越小,第二目标数据与第一目标数据之间的差异越小。
在一种可能实现的方式中,处理设备可以根据第一特征和第二特征,获取第二特征与第一特征之间的距离,并根据该距离和第一目标数据,采用以下函数获取干扰数据:
其中,J(θ,x,xtarget)为干扰数据,θ为函数的参数,x为第一目标数据,xtarget为第二目标数据,distance(Ftarget-Forigin)为第二特征与第一特征之间的距离,为对第一目标数据求偏导后得到的梯度。
在另一种可能实现的方式中,处理设备可以根据第一特征和第二特征进行统计处理,得到统计值,根据该统计值和第一目标数据,获取干扰数据。其中,统计处理方式可以为求取均差的方式,也可以为求取均方差的方式,还可以为其他统计处理方式。
在步骤208中,处理设备根据第一目标数据与干扰数据,获取第一目标数据对应的第一对抗数据。
由于干扰数据用于描述第二特征与第一特征之间的差异,因此获取到该干扰数据后,即可根据第一目标数据与干扰数据,获取第一目标数据对应的第一对抗数据,该第一对抗数据与第二目标数据被划分为相同类别。
由于分类模型对数据的分类过程基于数据的特征实现,基于分类模型进行分类时,会先提取数据的特征,对数据的特征进行分类。而本公开实施例中,针对同一个数据,分类模型提取的特征虽然具备侧重点,但是该特征与特征提取模型提取的特征具有调和性,两个特征可能会存在差异,但是两者较为相似。那么,通过将第一目标数据与干扰数据叠加,能够使第一对抗数据与第一目标数据的内容相似,但第一对抗数据的特征与第二目标数据的特征更为接近,则该第一对抗数据会误导分类模型的分类,使分类模型根据第一对抗数据的特征误将第一对抗数据划分为与第二目标数据相同的类别,即第一对抗数据和第二目标数据被划分为相同类别,而第一对抗数据和第一目标数据被划分为不同类别,使分类模型分类错误。那么,根据第一目标数据与第一对抗数据对分类模型进行训练,可以使分类模型学习到对对抗数据进行分类的能力,即得到可以正确分类的分类模型。
在一种可能实现的方式中,将第一目标数据与干扰数据叠加,获取第一目标数据对应的第一对抗数据,以使第一对抗数据中包含干扰数据。例如,根据第一目标数据和干扰数据,采用以下函数进行计算,获取第一对抗数据:
xadv=x+∈·sign·J(θ,x,xtarget)
其中,xadv为第一对抗数据,x为第一目标数据,J(θ,x,xtarget)为干扰数据,∈为叠加系数,用于确定叠加在第一目标数据上的数据的幅值,sign为符号函数,用于确定叠加在第一目标数据上的干扰数据的符号。
以a为自变量,符号函数为以下函数为例进行说明:
通过采用符号函数对干扰数据进行处理,以使处理后的数据的数值为0、1或-1,再通过叠加系数控制数据的幅值,从而确定叠加在第一目标数据上的数据,可以简化数据形式,减小计算量,还能通过设置叠加系数将叠加在第一目标数据上的数据控制在一定的范围。
由于一般情况下,第二特征与第一特征之间的距离属于(-1,1),采用符号函数进行处理后,能够将处理后的数据的数值控制在{0,1,-1}的范围内,且处理后的数值与原始的距离差距不大,不会对干扰结果造成较大的影响。
在一种可能实现方式中,叠加系数可以为小于1的值,通过叠加系数可以将叠加在第一目标数据上的数据控制在[0,1)的范围内。例如,叠加系数为0.1,则第一对抗数据采用以下公式获取:
xadv=x+0.1×sign·J(θ,x,xtarget)。
需要说明的一点是,针对第一目标数据,可以获取一个或多个第二目标数据,根据一个或多个第二目标数据生成一个或多个第一对抗数据,将该第一目标数据及其对应的第一对抗数据均应用于分类模型的训练过程中。
需要说明的另一点是,本公开实施例仅是以获取第一目标数据对应的第一对抗数据为例。在另一实施例中,还可以在已获取第一目标数据和第二目标数据的基础上,采用类似的方式,获取第二目标数据对应的第二对抗数据。
与仅根据第一目标数据和第二目标数据获取第一对抗数据相比,根据第一目标数据和第二目标数据获取第一对抗数据和第二对抗数据,能够避免浪费第二目标数据,增加了对抗数据的数量,提高了数据利用率,从而以较少的目标数据获取到更多的对抗数据,应用于分类模型的训练过程中。在分类模型要求一定数量的对抗数据的情况下能够减小所需目标数据的数量,减小计算量,提高训练效率。
图3是根据一示例性实施例示出的一种特征提取模型和解码模型的训练流程示意图,如图3所示,上述步骤201-204中配合解码模型对特征提取模型进行训练时,将第一原始数据基于特征提取模型进行特征提取,得到第三特征,将该第三特征基于解码模型进行解码处理,得到第一数据,根据该第一数据和预设损失函数,对特征提取模型和解码模型进行训练,以使该预设损失函数的输出值趋向于最小。
图4是根据一示例性实施例示出的一种获取第一对抗数据的流程示意图,如图4所示,获取类别不同的第一目标数据和第二目标数据,基于已训练的特征提取模型分别对第一目标数据和第二目标数据进行特征提取,得到第一特征和第二特征,根据第二特征和第一特征计算距离,得到干扰数据,将第一目标数据与干扰数据叠加后,得到第一目标数据对应的第一对抗数据。
本公开实施例提供的方法,基于特征提取模型对第一原始数据进行特征提取,得到第三特征,基于解码模型对第三特征进行解码处理,得到第一数据,根据第一数据配合训练特征提取模型和解码模型,以使特征提取模型和解码模型处理后的数据与对应的原始数据之间的差异趋向于最小。本公开实施例根据原始数据对特征提取模型和解码模型进行训练,可以提高特征提取模型的准确率,并且基于该特征提取模型处理后得到的特征,能够对数据进行准确描述。
并且,当获取到类别不同的第一目标数据和第二目标数据时,基于已训练的特征提取模型分别对类别不同的第一目标数据和第二目标数据进行特征提取,根据提取到的第一目标数据的特征与第二目标数据的特征之间的差异,得到干扰数据,根据该干扰数据与第一目标数据,获取第一目标数据对应的第一对抗数据,该第一对抗数据与第一目标数据被划分为不同的类别。由于本公开实施例中对抗数据的获取过程与分类模型无关,因此采用本公开实施例提供的方法获取的对抗数据可以适用于多个分类模型的训练过程,提高多个分类模型的准确率,提高了适用性。
本公开实施例可以应用于根据原始数据获取对应的对抗数据的场景中,该原始数据可以为图片、音频或视频等多种格式的数据。例如,用户拍摄第一照片和第二照片,其中第一照片的类别为猫,第二照片的类别为狗,对第一照片和第二照片进行特征提取,获取干扰数据,并将该干扰数据和第一照片叠加,获取第三照片,将该第三照片作为第一照片的对抗照片,该第三照片与第一照片内容较为相似,却被划分为与第二照片相同的类别。后续可以根据第一照片和第三照片对分类模型进行训练,提升分类模型的分类准确率。
图5是根据一示例性实施例示出的一种对抗数据获取装置的框图。参见图5,该装置包括数据获取单元501、第一特征获取单元502、干扰获取单元503以及对抗获取单元504。
数据获取单元501,被配置为获取第一目标数据和第二目标数据,第一目标数据的类别与第二目标数据的类别不同;
第一特征获取单元502,被配置为基于特征提取模型,获取第一目标数据的第一特征和第二目标数据的第二特征,第一特征用于描述第一目标数据,第二特征用于描述第二目标数据;
干扰获取单元503,被配置为根据第一特征和第二特征,获取干扰数据,干扰数据用于描述第二特征与第一特征之间的差异;
对抗获取单元504,被配置为根据第一目标数据与干扰数据,获取第一目标数据对应的第一对抗数据,第一对抗数据与第二目标数据被划分为相同类别。
在一种可能实现的方式中,干扰获取单元503,包括:
距离获取子单元,被配置为根据第一特征和第二特征,获取第二特征与第一特征之间的距离;
干扰获取子单元,被配置为根据距离和第一目标数据,采用以下函数获取干扰数据:
其中,J(θ,x,xtarget)为干扰数据,θ为函数的参数,x为第一目标数据,xtarget为第二目标数据,distance(Ftarget-Forigin)为第二特征与第一特征之间的距离,为对第一目标数据求偏导后得到的梯度。
在另一种可能实现的方式中,对抗获取单元504,包括:
对抗获取子单元,被配置为根据第一目标数据和干扰数据,采用以下函数进行计算,获取第一对抗数据:
xadv=x+∈·sign·J(θ,x,xtarget)
其中,xadv为第一对抗数据,x为第一目标数据,J(θ,x,xtarget)为干扰数据,∈为叠加系数,sign为符号函数。
在另一种可能实现的方式中,装置还包括:
原始获取单元,被配置为获取第一原始数据;
第二特征获取单元,被配置为基于特征提取模型,获取第一原始数据的第三特征,第三特征用于描述第一原始数据;
解码单元,被配置为基于解码模型,对第一数据进行解码处理,得到第一数据;
训练单元,被配置为根据第一数据对特征提取模型和解码模型进行训练,以使基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。
在另一种可能实现的方式中,训练单元,包括:
训练子单元,被配置为根据第一数据和预设损失函数,对特征提取模型和解码模型进行训练,以使预设损失函数的输出值趋向于最小;
基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异与预设损失函数的输出值正相关。
在另一种可能实现的方式中,预设损失函数为:
其中,loss(θ,x,xrec)为预设损失函数,θ为预设损失函数的参数,xrec为第二数据,W为第一原始数据中像素的宽度,H为第一原始数据中像素的高度,xw,h为位于第一原始数据中宽度为w、高度为h的像素点,为位于第二数据中宽度为w、高度为h的像素点。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种用于获取对抗数据的终端600的框图。该终端600用于执行上述对抗数据获取方法中处理设备所执行的步骤,可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:一个或多个处理器601和一个或多个存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括易失性存储器或非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所具有以实现本申请中方法实施例提供的对抗数据获取方法。
在一些实施例中,终端600还可选包括有:***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地,***设备包括:射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。
***设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及13G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位终端600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时,由处理器601根据用户对触摸显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户具有相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商标志集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制触摸显示屏605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏605的显示亮度;当环境光强度较低时,调低触摸显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7是根据一示例性实施例示出的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)701和一个或一个以上的存储器702,其中,所述存储器702中存储有至少一条指令,所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器700可以用于执行上述对抗数据获取方法中处理设备所执行的步骤。
在示例性实施例中,还提供了一种非临时性计算机可读存储介质,当存储介质中的指令由处理设备的处理器执行时,使得处理设备能够执行一种对抗数据获取方法,方法包括:
获取第一目标数据和第二目标数据,第一目标数据的类别与第二目标数据的类别不同;
基于特征提取模型,获取第一目标数据的第一特征和第二目标数据的第二特征;
根据第一特征和第二特征,获取干扰数据,干扰数据用于描述第二特征与第一特征之间的差异;
将第一目标数据与干扰数据叠加,获取第一目标数据对应的第一对抗数据,第一对抗数据与第二目标数据被划分为相同类别。
在一种可能实现的方式中,根据第一特征和第二特征,获取干扰数据,包括:
根据第一特征和第二特征,获取第二特征与第一特征之间的距离;
根据距离和第一目标数据,采用以下函数获取干扰数据:
其中,J(θ,x,xtarget)为干扰数据,θ为函数的参数,x为第一目标数据,xtarget为第二目标数据,distance(Ftarget-Forigin)为第二特征与第一特征之间的距离,为对第一目标数据求偏导后得到的梯度。
在另一种可能实现的方式中,根据第一目标数据与干扰数据,获取第一目标数据对应的第一对抗数据,包括:
根据第一目标数据和干扰数据,采用以下函数进行计算,获取第一对抗数据:
xadv=x+∈·sign·J(θ,x,xtarget)
其中,xadv为第一对抗数据,x为第一目标数据,J(θ,x,xtarget)为干扰数据,∈为叠加系数,sign为符号函数。
在另一种可能实现的方式中,方法还包括:
获取第一原始数据;
基于特征提取模型,获取第一原始数据的第三特征,第三特征用于描述第一原始数据;
基于解码模型,对第三特征进行解码处理,得到第一数据;
根据第一数据对特征提取模型和解码模型进行训练,以使基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。
在另一种可能实现的方式中,根据第一数据对特征提取模型和解码模型进行训练,以使基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小,包括:
根据第一数据和预设损失函数,对特征提取模型和解码模型进行训练,以使预设损失函数的输出值趋向于最小;
基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异,与预设损失函数的输出值正相关。
在另一种可能实现的方式中,预设损失函数为:
其中,loss(θ,x,xrec为预设损失函数,θ为预设损失函数的参数,xrec为第二数据,W为第一原始数据中像素的宽度,H为第一原始数据中像素的高度,xw,h为位于第一原始数据中宽度为w、高度为h的像素点,为位于第二数据中宽度为w、高度为h的像素点。
在示例性实施例中,还提供了一种计算机程序产品,当计算机程序产品中的指令由处理设备的处理器执行时,使得处理设备能够执行一种对抗数据获取方法,方法包括:
获取第一目标数据和第二目标数据,第一目标数据的类别与第二目标数据的类别不同;
基于特征提取模型,获取第一目标数据的第一特征和第二目标数据的第二特征;
根据第一特征和第二特征,获取干扰数据,干扰数据用于描述第二特征与第一特征之间的差异;
将第一目标数据与干扰数据叠加,获取第一目标数据对应的第一对抗数据,第一对抗数据与第二目标数据被划分为相同类别。
在一种可能实现的方式中,根据第一特征和第二特征,获取干扰数据,包括:
根据第一特征和第二特征,获取第二特征与第一特征之间的距离;
根据距离和第一目标数据,采用以下函数获取干扰数据:
/>
其中,J(θ,x,xtarget)为干扰数据,θ为函数的参数,x为第一目标数据,xtarget为第二目标数据,distance(Ftarget-Forigin)为第二特征与第一特征之间的距离,为对第一目标数据求偏导后得到的梯度。
在另一种可能实现的方式中,根据第一目标数据与干扰数据,获取第一目标数据对应的第一对抗数据,包括:
根据第一目标数据和干扰数据,采用以下函数进行计算,获取第一对抗数据:
xadv=x+∈·sign·J(θ,x,xtarget)
其中,xadv为第一对抗数据,x为第一目标数据,J(θ,x,xtarget)为干扰数据,∈为叠加系数,sign为符号函数。
在另一种可能实现的方式中,方法还包括:
获取第一原始数据;
基于特征提取模型,获取第一原始数据的第三特征,第三特征用于描述第一原始数据;
基于解码模型,对第三特征进行解码处理,得到第一数据;
根据第一数据对特征提取模型和解码模型进行训练,以使基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。
在另一种可能实现的方式中,根据第一数据对特征提取模型和解码模型进行训练,以使基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小,包括:
根据第一数据和预设损失函数,对特征提取模型和解码模型进行训练,以使预设损失函数的输出值趋向于最小;
基于特征提取模型和解码模型处理后的数据与其对应的原始数据之间的差异,与预设损失函数的输出值正相关。
在另一种可能实现的方式中,预设损失函数为:
其中,loss(θ,x,xrec)为预设损失函数,θ为预设损失函数的参数,xrec为第二数据,W为第一原始数据中像素的宽度,H为第一原始数据中像素的高度,xw,h为位于第一原始数据中宽度为w、高度为h的像素点,为位于第二数据中宽度为w、高度为h的像素点。
本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种对抗数据获取方法,其特征在于,所述方法包括:
获取第一目标数据和第二目标数据,所述第一目标数据的类别与所述第二目标数据的类别不同,所述第一目标数据和所述第二目标数据为图片、音频或者视频格式的数据;
基于特征提取模型,获取所述第一目标数据的第一特征和所述第二目标数据的第二特征,所述第一特征用于描述所述第一目标数据,所述第二特征用于描述所述第二目标数据;
根据所述第一特征和所述第二特征,获取干扰数据,所述干扰数据用于描述所述第二特征与所述第一特征之间的差异;
根据所述第一目标数据与所述干扰数据,获取所述第一目标数据对应的第一对抗数据,所述第一对抗数据与所述第二目标数据被划分为相同类别,所述第一目标数据与所述第一对抗数据用于对分类模型进行训练,所述分类模型具备对对抗数据进行分类的能力,所述分类模型用于对获取到的待分类的数据进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征和所述第二特征,获取干扰数据,包括:
根据所述第一特征和所述第二特征,获取所述第二特征与所述第一特征之间的距离;
根据所述距离和所述第一目标数据,采用以下函数获取所述干扰数据:
其中,J(θ,x,xtarget)为所述干扰数据,θ为所述函数的参数,x为所述第一目标数据,xtarget为所述第二目标数据,distance(Ftarget-Forigin)为所述第二特征与所述第一特征之间的距离,为对所述第一目标数据求偏导后得到的梯度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一目标数据与所述干扰数据,获取所述第一目标数据对应的第一对抗数据,包括:
根据所述第一目标数据和所述干扰数据,采用以下函数进行计算,获取所述第一对抗数据:
xadv=x+∈·sign·J(θ,x,xtarget)
其中,xadv为所述第一对抗数据,x为所述第一目标数据,J(θ,x,xtarget)为所述干扰数据,∈为叠加系数,sign为符号函数。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一原始数据;
基于所述特征提取模型,获取所述第一原始数据的第三特征,所述第三特征用于描述所述第一原始数据;
基于解码模型,对所述第三特征进行解码处理,得到第一数据;
根据所述第一数据对所述特征提取模型和所述解码模型进行训练,以使基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一数据对所述特征提取模型和所述解码模型进行训练,以使基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小,包括:
根据所述第一数据和预设损失函数,对所述特征提取模型和所述解码模型进行训练,以使所述预设损失函数的输出值趋向于最小;
所述基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异,与所述预设损失函数的输出值正相关。
6.根据权利要求5所述的方法,其特征在于,所述预设损失函数为:
其中,loss(θ,x,xrec)为所述预设损失函数,θ为所述预设损失函数的参数,xrec为第二数据,W为所述第一原始数据中像素的宽度,H为所述第一原始数据中像素的高度,xw,h为位于所述第一原始数据中宽度为w、高度为h的像素点,为位于所述第二数据中宽度为w、高度为h的像素点。
7.一种对抗数据获取装置,其特征在于,所述装置包括:
数据获取单元,被配置为获取第一目标数据和第二目标数据,所述第一目标数据的类别与所述第二目标数据的类别不同,所述第一目标数据和所述第二目标数据为图片、音频或者视频格式的数据;
第一特征获取单元,被配置为基于特征提取模型,获取所述第一目标数据的第一特征和所述第二目标数据的第二特征,所述第一特征用于描述所述第一目标数据,所述第二特征用于描述所述第二目标数据;
干扰获取单元,被配置为根据所述第一特征和所述第二特征,获取干扰数据,所述干扰数据用于描述所述第二特征与所述第一特征之间的差异;
对抗获取单元,被配置为根据所述第一目标数据与所述干扰数据,获取所述第一目标数据对应的第一对抗数据,所述第一对抗数据与所述第二目标数据被划分为相同类别,所述第一目标数据与所述第一对抗数据用于对分类模型进行训练,所述分类模型具备对对抗数据进行分类的能力,所述分类模型用于对获取到的待分类的数据进行分类。
8.根据权利要求7所述的装置,其特征在于,所述干扰获取单元,包括:
距离获取子单元,被配置为根据所述第一特征和所述第二特征,获取所述第一特征与所述第二特征之间的距离;
干扰获取子单元,被配置为根据所述距离和所述第一目标数据,采用以下函数获取所述干扰数据:
其中,J(θ,x,xtarget)为所述干扰数据,θ为所述函数的参数,x为所述第一目标数据,xtarget为所述第二目标数据,distance(Ftarget-Forigin)为所述第二特征与所述第一特征之间的距离,为对所述第一目标数据求偏导后得到的梯度。
9.根据权利要求8所述的装置,其特征在于,所述对抗获取单元,包括:
对抗获取子单元,被配置为根据所述第一目标数据和所述干扰数据,采用以下函数进行计算,获取所述第一对抗数据:
xadv=x+∈·sign·J(θ,x,xtarget)
其中,xadv为所述第一对抗数据,x为所述第一目标数据,J(θ,x,xtarget)为所述干扰数据,∈为叠加系数,sign为符号函数。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
原始获取单元,被配置为获取第一原始数据;
第二特征获取单元,被配置为基于所述特征提取模型,获取所述第一原始数据的第三特征,所述第三特征用于描述所述第一原始数据;
解码单元,被配置为基于解码模型,对所述第三特征进行解码处理,得到第一数据;
训练单元,被配置为根据所述第一数据对所述特征提取模型和所述解码模型进行训练,以使基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异趋向于最小。
11.根据权利要求10所述的装置,其特征在于,所述训练单元,包括:
训练子单元,被配置为根据所述第一数据和预设损失函数,对所述特征提取模型和所述解码模型进行训练,以使所述预设损失函数的输出值趋向于最小;
所述基于所述特征提取模型和所述解码模型处理后的数据与其对应的原始数据之间的差异,与所述预设损失函数的输出值正相关。
12.根据权利要求11所述的装置,其特征在于,所述预设损失函数为:
其中,loss(θ,x,xrec)为所述预设损失函数,θ为所述预设损失函数的参数,xrec为第二数据,W为所述第一原始数据中像素的宽度,H为所述第一原始数据中像素的高度,xw,h为位于所述第一原始数据中宽度为w、高度为h的像素点,为位于所述第二数据中宽度为w、高度为h的像素点。
13.一种用于获取对抗数据的处理设备,其特征在于,所述处理设备包括:
一个或多个处理器;
用于所述一个或多个存储处理器可执行命令的易失性或非易失性存储器;
其中,所述一个或多个处理器被配置为执行权利要求1至权利要求6任一项所述的对抗数据获取方法。
14.一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理设备的处理器执行时,使得所述处理设备能够执行权利要求1至权利要求6任一项所述的对抗数据获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910081343.8A CN111488898B (zh) | 2019-01-28 | 2019-01-28 | 对抗数据获取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910081343.8A CN111488898B (zh) | 2019-01-28 | 2019-01-28 | 对抗数据获取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488898A CN111488898A (zh) | 2020-08-04 |
CN111488898B true CN111488898B (zh) | 2023-09-19 |
Family
ID=71794316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910081343.8A Active CN111488898B (zh) | 2019-01-28 | 2019-01-28 | 对抗数据获取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488898B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036389A (zh) * | 2018-08-28 | 2018-12-18 | 出门问问信息科技有限公司 | 一种对抗样本的生成方法及装置 |
CN109086884A (zh) * | 2018-07-17 | 2018-12-25 | 上海交通大学 | 基于梯度逆向对抗样本复原的神经网络优化训练方法 |
CN109272031A (zh) * | 2018-09-05 | 2019-01-25 | 宽凳(北京)科技有限公司 | 一种训练样本生成方法及装置、设备、介质 |
-
2019
- 2019-01-28 CN CN201910081343.8A patent/CN111488898B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086884A (zh) * | 2018-07-17 | 2018-12-25 | 上海交通大学 | 基于梯度逆向对抗样本复原的神经网络优化训练方法 |
CN109036389A (zh) * | 2018-08-28 | 2018-12-18 | 出门问问信息科技有限公司 | 一种对抗样本的生成方法及装置 |
CN109272031A (zh) * | 2018-09-05 | 2019-01-25 | 宽凳(北京)科技有限公司 | 一种训练样本生成方法及装置、设备、介质 |
Non-Patent Citations (1)
Title |
---|
Generating Adversarial Examples With Conditional Generative Adversarial Net;Ping Yu 等;2018 24th International Conference on Pattern Recognition (ICPR);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111488898A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059685B (zh) | 文字区域检测方法、装置及存储介质 | |
CN110059652B (zh) | 人脸图像处理方法、装置及存储介质 | |
CN112907725B (zh) | 图像生成、图像处理模型的训练、图像处理方法和装置 | |
CN109558837B (zh) | 人脸关键点检测方法、装置及存储介质 | |
CN111127509B (zh) | 目标跟踪方法、装置和计算机可读存储介质 | |
CN109522863B (zh) | 耳部关键点检测方法、装置及存储介质 | |
CN111027490B (zh) | 人脸属性识别方法及装置、存储介质 | |
CN110933468A (zh) | 播放方法、装置、电子设备及介质 | |
CN110991457B (zh) | 二维码处理方法、装置、电子设备及存储介质 | |
CN112581358B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN110827195B (zh) | 虚拟物品添加方法、装置、电子设备及存储介质 | |
CN110070143B (zh) | 获取训练数据的方法、装置、设备及存储介质 | |
CN110705614A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN110503159B (zh) | 文字识别方法、装置、设备及介质 | |
CN111857793B (zh) | 网络模型的训练方法、装置、设备及存储介质 | |
CN111586279B (zh) | 确定拍摄状态的方法、装置、设备及存储介质 | |
CN111192072A (zh) | 用户分群方法及装置、存储介质 | |
CN111753606A (zh) | 一种智能模型的升级方法及装置 | |
CN111179628B (zh) | 自动驾驶车辆的定位方法、装置、电子设备及存储介质 | |
CN110163192B (zh) | 字符识别方法、装置及可读介质 | |
CN111488895B (zh) | 对抗数据生成方法、装置、设备及存储介质 | |
CN112990424B (zh) | 神经网络模型训练的方法和装置 | |
CN113592874B (zh) | 图像显示方法、装置和计算机设备 | |
CN111488898B (zh) | 对抗数据获取方法、装置、设备及存储介质 | |
CN111757146B (zh) | 视频拼接的方法、***及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |