CN113642029B - 一种度量数据样本与模型决策边界相关性的方法及*** - Google Patents

一种度量数据样本与模型决策边界相关性的方法及*** Download PDF

Info

Publication number
CN113642029B
CN113642029B CN202111188034.4A CN202111188034A CN113642029B CN 113642029 B CN113642029 B CN 113642029B CN 202111188034 A CN202111188034 A CN 202111188034A CN 113642029 B CN113642029 B CN 113642029B
Authority
CN
China
Prior art keywords
sample
model
decision boundary
distance
confrontation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111188034.4A
Other languages
English (en)
Other versions
CN113642029A (zh
Inventor
王琛
刘高扬
田泽豪
彭凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202111188034.4A priority Critical patent/CN113642029B/zh
Publication of CN113642029A publication Critical patent/CN113642029A/zh
Application granted granted Critical
Publication of CN113642029B publication Critical patent/CN113642029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种度量数据样本与模型决策边界相关性的方法及***,属于物联网数据保护领域,方法包括:从物联网中获取待评估模型的输入样本后,首先在模型决策边界处生成初始对抗样本,并进行梯度估计,得到垂直与决策边界的法向量,并求出输入样本到初始对抗样本的差异向量与法向量的相关性,进行决策边界上样本的更新,最后通过计算最终样本与输入样本的距离,得到各个样本到深度学习训练过程中各个模型决策边界的距离矩阵,以此来度量各个数据样本与模型决策边界的相关性。如此,本发明在无需深度学习模型内部信息及对模型训练流程进行修改的条件下,能够实现数据的隐私保护,具有极高的实用性和通用性。

Description

一种度量数据样本与模型决策边界相关性的方法及***
技术领域
本发明属于物联网数据保护领域,更具体地,涉及一种度量数据样本与模型决策边界相关性的方法及***。
背景技术
随着物联网数据量的增加以及计算设备算力的提升,深度学习技术得到了广泛的应用。然而,目前的深度学习技术需要大量的数据进行训练,使得当前的深度学习模型面临着严重的数据安全与隐私保护问题的困扰。例如,目前大部分公司都是采用集中式学习的方式训练模型,需要大规模的收集用户的数据信息,但对用户的隐私保护没有统一的标准,攻击者通过修改、删除或注入不良数据,能够使得模型决策边界偏移,产生错误的预测。随着《通用数据保护条例》的出台,用户的数据隐私保护和安全得到了一定程度上的改善,但深度学习模型中的数据样本的隐私保护仍然面临很大的挑战。准确地表征与度量数据样本和模型决策边界之间的相关性,可为评估深度学习模型的安全性、数据的隐私性提供技术与理论支撑。
目前,国内外研究人员对对深度学习中数据与模型之间相关性进行了***而深入的研究,但现有的研究工作均存在一定的缺陷和问题:1、现有大多数研究工作均是在了解深度学习模型内部参数和训练设置的前提下,对模型与数据相关性进行评估。然而在实际场景中,为了保护模型及训练数据安全,模型所有者通常仅公开模型的预测接口供评估者使用。因此,现有的大多数工作均无法在实际场景中使用;2、部分度量工作需使用不同的训练数据组合,对深度学习模型进行重新训练,随后根据所获得的多个评估模型与数据之间的相关性。此类方法的训练开销随着数据量的增大而显著增加,极大地降低了该类方法在实际场景中的应用;3、部分研究工作利用对抗样本对模型与数据之间的关系进行评估。然而,现有大多数对抗样本生成技术仅关注对抗样本的扰动大小控制,而忽略了样本与决策边界之间的几何关联。所得到的对抗样本无法准确的表征决策边界,从而导致相关性分析的结果产生偏差。4、现有的研究工作均为静态分析工作,即对训练结束后的模型决策边界进行分析,忽略了整个训练过程中决策边界与数据之间关系的变化。
综上所述,如何在仅有深度学习模型黑盒预测接口的条件下,动态评估数据样本与模型决策边界的相关性,对深度学习的隐私性与安全性是一个亟需解决的问题。
发明内容
针对上述问题,本发明的目的在于提供一种度量数据样本与模型决策边界相关性的方法及***,以评估数据样本与训练过程中模型的相关性,从而实现数据的隐私保护,具有极高的实用性和通用性。
为实现上述目的,本发明提供了一种度量数据样本与模型决策边界相关性的方法,包括以下步骤:S1,从物联网中获取待评估模型的输入样本,通过向所述输入样本添加高斯噪声,在模型决策边界处生成初始对抗样本;S2,计算所述初始对抗样本在所述模型决策边界上的法向量以及所述输入样本到初始对抗样本的差异向量,并计算得到所述差异向量的单位向量与法向量的单位向量之间的角度差异损失;S3,以所述角度差异损失作为更新所述初始对抗样本的损失函数,计算更新后的对抗样本;S4,将所述更新后的对抗样本投影至所述模型决策边界上,并将投影后的样本作为下一轮迭代的初始对抗样本;S5,重复步骤S2至S4,直至所述损失函数收敛或迭代轮次达到设定次数,并得到最终对抗样本;计算所述输入样本与最终对抗样本的距离,作为输入样本到模型决策边界的距离;S6,以所述最终对抗样本作为初始对抗样本,并重复步骤S5开始下一轮模型训练,依次计算所述输入样本到各轮模型训练过程中模型决策边界的距离,得到距离矩阵,并根据所述距离矩阵度量输入样本与模型决策边界的相关性。
进一步地,所述S1中,通过向所述输入样本添加高斯噪声,在模型决策边界处生成初始对抗样本,包括:通过向所述输入样本添加多组随机高斯噪声,直至得到使所述模型进行错误分类的第一噪声;利用二分法将扰动后的样本投影到模型决策边界上,得到初始对抗样本;所述扰动后的样本为所述输入样本与第一噪声的叠加。
进一步地,所述S2中,计算所述初始对抗样本在所述模型决策边界上的法向量,包括:S21,对所述初始对抗样本
Figure 799948DEST_PATH_IMAGE001
进行B个方向的高斯扰动
Figure 752861DEST_PATH_IMAGE002
,得到B个扰动样本
Figure 284336DEST_PATH_IMAGE003
Figure 204757DEST_PATH_IMAGE004
Figure 174987DEST_PATH_IMAGE005
为扰动常量;S22,计算扰动样本
Figure 795455DEST_PATH_IMAGE006
判定值
Figure 560149DEST_PATH_IMAGE007
Figure 390702DEST_PATH_IMAGE008
;其中,
Figure 694118DEST_PATH_IMAGE009
为扰动样本
Figure 621623DEST_PATH_IMAGE006
的对抗性,且
Figure 229321DEST_PATH_IMAGE010
Figure 422536DEST_PATH_IMAGE011
为样本
Figure 468990DEST_PATH_IMAGE006
的真实标签,
Figure 923105DEST_PATH_IMAGE012
为样本
Figure 341186DEST_PATH_IMAGE006
的预测标签,
Figure 208648DEST_PATH_IMAGE013
表示模型预测为真实标签的概率,
Figure 730896DEST_PATH_IMAGE014
表示模型预测为非真实标签中的最大概率值;S23,所述初始对抗样本
Figure 180463DEST_PATH_IMAGE015
在所述模型决策边界上的法向量
Figure 129964DEST_PATH_IMAGE016
表示为:
Figure 219143DEST_PATH_IMAGE017
进一步地,所述S2中,所述角度差异损失表示为:
Figure 187492DEST_PATH_IMAGE018
其中,
Figure 350620DEST_PATH_IMAGE019
表示所述输入样本,
Figure 798919DEST_PATH_IMAGE020
表示内积,
Figure 922864DEST_PATH_IMAGE021
表示二范数。
进一步地,所述S3包括:S31,以所述角度差异损失的相反数作为所述损失函数;S32,使用蒙特卡洛梯度估计方法得到所述初始对抗样本的更新方向,并采用一阶梯度优化的方式计算更新后的对抗样本。
进一步地,所述S4包括:在所述更新后的对抗样本
Figure 957554DEST_PATH_IMAGE022
与输入样本
Figure 240768DEST_PATH_IMAGE023
的连线上,通过搜索
Figure 922285DEST_PATH_IMAGE024
,将满足
Figure 658160DEST_PATH_IMAGE025
的样本
Figure 138951DEST_PATH_IMAGE026
作为下一轮迭代的初始对抗样本;其中,
Figure 666884DEST_PATH_IMAGE027
Figure 394669DEST_PATH_IMAGE028
进一步地,所述S5中,计算所述输入样本与最终对抗样本的距离,作为输入样本到模型决策边界的距离,包括:计算所述输入样本与最终对抗样本的范数值,作为输入样本到模型决策边界的距离。
进一步地,所述S6中,若模型共进行K轮训练,则K轮训练过程中所述输入样本到模型决策边界的距离表示为D T = [d 1 , d 2 , …, d K ];其中,d k 表示第k轮训练过程中输入样本与最终对抗样本的距离,k=1,2,…,K;取第k轮训练过程中,在得到最终对抗样本前的U次迭代内生成的所有对抗样本,并计算各生成的对抗样本与输入样本的距离,表示为D k = [d T-U ,d T-U+1 , …, d T ];其中,d u 表示第k轮训练过程中输入样本与第u次迭代生成的对抗样本的距离,u=T-U,T-U+1,…,TT为第k轮训练过程中得到最终对抗样本的总迭代次;K轮训练结束后,输入样本与模型决策边界的距离矩阵D表示为:D=
Figure 932354DEST_PATH_IMAGE029
;其中,
Figure 793999DEST_PATH_IMAGE030
表示在第k轮训练过程中第u次迭代生成的对抗样本与输入样本的距离。
为实现上述目的,本发明还提供了一种度量数据样本与模型决策边界相关性的***,包括:数据初始模块,用于从物联网中获取待评估模型的输入样本,通过向所述输入样本添加高斯噪声,在模型决策边界处生成初始对抗样本;差异计算模块,用于计算所述初始对抗样本在所述模型决策边界上的法向量以及所述输入样本到初始对抗样本的差异向量,并计算得到所述差异向量的单位向量与法向量的单位向量之间的角度差异损失;数据更新模块,用于以所述角度差异损失作为更新所述初始对抗样本的损失函数,计算更新后的对抗样本;以及将所述更新后的对抗样本投影至所述模型决策边界上,并将投影后的样本作为下一轮迭代的初始对抗样本;距离计算模块,用于重复执行所述差异计算模块和数据更新模块的操作,直至所述损失函数收敛或迭代轮次达到设定次数,并得到最终对抗样本;计算所述输入样本与最终对抗样本的距离,作为输入样本到模型决策边界的距离;相关性度量模块,用于以所述最终对抗样本作为初始对抗样本,并重复执行所述距离计算模块的操作开始下一轮模型训练,依次计算所述输入样本到各轮模型训练过程中模型决策边界的距离,得到距离矩阵,并根据所述距离矩阵度量输入样本与模型决策边界的相关性。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明从物联网中获取待评估模型的输入样本后,首先在模型决策边界处生成初始对抗样本,并进行梯度估计,得到垂直与决策边界的法向量,并求出输入样本到初始对抗样本的差异向量与法向量的相关性,进行决策边界上样本的更新,最后通过计算最终样本与输入样本的距离,得到各个样本到深度学习训练过程中各个模型决策边界的距离矩阵,以此来度量各个数据样本与模型决策边界的相关性。如此,本发明在无需深度学习模型内部信息及对模型训练流程进行修改的条件下,能够实现数据的隐私保护,具有极高的实用性和通用性。
(2)本发明能够得到距离原始样本最近的对抗样本,并计算原始样本到模型决策边界的最小距离,从而评估模型的鲁捧性和稳定性。
(3)本发明将数据样本与模型决策边界的相关性作为损失函数,来进行对抗样本的更新,具有更好的准确性和较少的查询次数。
(4)本发明能够获取满足对抗条件一定范围内的所有数据,从而更好地判断模型的稳定性,实现模型的隐私保护,具有泛化能力。
(5)本发明能够捕捉到模型整个训练过程中决策边界的变化,并实时计算数据样本与决策边界的距离,从而更有效的对模型安全进行评估。
附图说明
图1为本发明实施例提供的度量数据样本与模型决策边界相关性的方法的流程图。
图2为本发明实施例提供的度量数据样本与模型决策边界相关性的***的结构框图之一。
图3为本发明实施例提供的度量数据样本与模型决策边界相关性的***的结构框图之二。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在本实施例中,本发明可以分为2个阶段:数据处理阶段和相关性度量阶段。用户需要上传以黑盒机制运作的待评估模型的查询API和一定量的训练样本,即用于训练模型的数据。在数据处理阶段,取深度学习各个时刻的模型,并选择需要进行评估的数据样本;在相关性度量阶段,对各个样本进行逐一操作,首先在决策边界处生成初始样本,并进行梯度估计,得到垂直与决策边界的向量值,并求出该向量与样本之间向量的相关性,进行决策边界上样本的更新,最后通过计算最终样本与原始样本的距离,得到各个样本到深度学习训练过程中各个模型决策边界的距离矩阵,来度量各个数据样本与模型决策边界的相关性。
图1为本发明实施例提供的度量数据样本与模型决策边界相关性的方法的流程图。该方法包括操作S1-操作S6。
操作S1,从物联网中获取待评估模型的输入样本,通过向所述输入样本添加高斯噪声,在模型决策边界处生成初始对抗样本。
需要说明的是,本实施例中,待评估模型和输入样本由终端用户输入,且输入样本来自物联网数据集;物联网数据集是指在物联网中通过传感器等设备收集到的众多数据整合成的数据集。例如,待评估模型为图像识别模型,相应地,在物联网数据集中提取表示图像的数据为特征,提取表示图像名称的数据为标签,作为输入样本。
具体的,在S1中,通过向所述输入样本添加高斯噪声,在模型决策边界处生成初始对抗样本,包括:
通过向所述输入样本添加多组随机高斯噪声,直至得到使所述模型进行错误分类的第一噪声;利用二分法将扰动后的样本投影到模型决策边界上,得到初始对抗样本;所述扰动后的样本为所述输入样本与第一噪声的叠加。
在本实施例中,给定初始输入样本
Figure 864855DEST_PATH_IMAGE031
,其中
Figure 763541DEST_PATH_IMAGE032
代表输入特征,
Figure 598641DEST_PATH_IMAGE033
为类别标签,对该样本添加多组随机高斯噪声
Figure 185349DEST_PATH_IMAGE034
,其中i为组数,直至得到满足使得模型进行错误分类的噪声
Figure 297662DEST_PATH_IMAGE035
,即
Figure 491883DEST_PATH_IMAGE036
,其中
Figure 502695DEST_PATH_IMAGE037
为模型的预测标签,即
Figure 581510DEST_PATH_IMAGE038
x为模型输入,
Figure 876225DEST_PATH_IMAGE039
表示模型预测为第k类的概率;利用二分法将扰动后的样本
Figure 493544DEST_PATH_IMAGE040
投影到决策边界上,得到初始对抗样本
Figure 506500DEST_PATH_IMAGE041
操作S2,计算所述初始对抗样本在所述模型决策边界上的法向量以及所述输入样本到初始对抗样本的差异向量,并计算得到所述差异向量的单位向量与法向量的单位向量之间的角度差异损失。
本实施例中,操作S2包括子操作S21至S25。
在子操作S21中,通过多轮步骤S2至步骤S4的迭代,在模型决策边界处对样本进行更新,将第t轮在模型决策边界处生成的样本记作
Figure 123426DEST_PATH_IMAGE042
,其中
Figure 820118DEST_PATH_IMAGE043
T为总迭代次数,
Figure 293824DEST_PATH_IMAGE044
时的样本为步骤S1中生成的初始对抗样本
Figure 466180DEST_PATH_IMAGE045
;对得到的对抗样本
Figure 198381DEST_PATH_IMAGE046
进行多个方向的高斯扰动
Figure 998847DEST_PATH_IMAGE047
,其中
Figure 846717DEST_PATH_IMAGE048
为协方差矩阵,得到B组扰动样本
Figure 319418DEST_PATH_IMAGE049
Figure 402781DEST_PATH_IMAGE050
Figure 198698DEST_PATH_IMAGE051
为扰动常量,例如取
Figure 520265DEST_PATH_IMAGE051
=1.01或1.001。
在子操作S22中,计算扰动样本
Figure 526267DEST_PATH_IMAGE052
判定值
Figure 101736DEST_PATH_IMAGE053
Figure 17740DEST_PATH_IMAGE054
;其中,
Figure 269729DEST_PATH_IMAGE055
为扰动样本
Figure 277875DEST_PATH_IMAGE056
的对抗性,且
Figure 312827DEST_PATH_IMAGE057
Figure 411233DEST_PATH_IMAGE058
为样本
Figure 381594DEST_PATH_IMAGE059
的真实标签,
Figure 565450DEST_PATH_IMAGE060
为样本
Figure 984187DEST_PATH_IMAGE059
的预测标签,
Figure 874783DEST_PATH_IMAGE061
表示模型预测为真实标签的概率,
Figure 265313DEST_PATH_IMAGE062
表示模型预测为非真实标签中的最大概率值;
若模型输出的预测结果与原始样本不一致,则
Figure 421619DEST_PATH_IMAGE063
,否则
Figure 391849DEST_PATH_IMAGE064
在子操作S23中,将判定值作为该扰动方向向量的方向,对各扰动向量方向进行平均,得到的结果即为该样本
Figure 136951DEST_PATH_IMAGE065
的梯度值,也即对抗样本
Figure 150912DEST_PATH_IMAGE065
在模型决策边界上的法向量
Figure 840519DEST_PATH_IMAGE066
,表示为:
Figure 365173DEST_PATH_IMAGE067
在子操作S24中,计算第t轮在模型边界处生成对抗样本
Figure 230360DEST_PATH_IMAGE068
与原始输入样本
Figure 431535DEST_PATH_IMAGE069
之间的向量
Figure 798318DEST_PATH_IMAGE070
在子操作S25中,计算向量
Figure 907089DEST_PATH_IMAGE070
与法向量
Figure 626783DEST_PATH_IMAGE071
之间的余弦相似度,表示为:
Figure 484012DEST_PATH_IMAGE072
其中,分子为两个向量的内积,分母为两个向量的长度之积,分别用二范数距离表示。
本发明期望得到原始输入样本
Figure 148211DEST_PATH_IMAGE073
到模型决策边界的距离,需要在决策边界处生成与原始输入样本距离最近的样本
Figure 247623DEST_PATH_IMAGE074
,当样本
Figure 556245DEST_PATH_IMAGE074
与原始输入样本
Figure 895959DEST_PATH_IMAGE073
越近时,向量
Figure 1450DEST_PATH_IMAGE075
Figure 327389DEST_PATH_IMAGE074
的梯度方向越近,
Figure 880730DEST_PATH_IMAGE076
越大。因此,将相似度的相反数作为对抗样本更新过程的损失函数,能够更好的实现数据样本的更新,即
Figure 581226DEST_PATH_IMAGE077
。本发明的优化目标为函数可以表示为:
Figure 95384DEST_PATH_IMAGE078
Subjectto:
Figure 287331DEST_PATH_IMAGE079
操作S3,以所述角度差异损失作为更新所述初始对抗样本的损失函数,计算更新后的对抗样本。
本实施例中,操作S3包括子操作S31至S33。
在子操作S31中,利用绝对差分的方法,估计出样本
Figure 445911DEST_PATH_IMAGE080
的梯度值为:
Figure 330690DEST_PATH_IMAGE081
其中,
Figure 332144DEST_PATH_IMAGE082
为目标函数,
Figure 373787DEST_PATH_IMAGE083
为标准基向量,其中第t个分量为1,
Figure 839404DEST_PATH_IMAGE084
在子操作S32中,使用一阶梯度优化的方式来优化目标函数,得到最佳坐标更新
Figure 645817DEST_PATH_IMAGE085
。以Adam算法为例,更新移动均值
Figure 868988DEST_PATH_IMAGE086
、平方梯度
Figure 730633DEST_PATH_IMAGE087
,并计算
Figure 722860DEST_PATH_IMAGE088
Figure 947779DEST_PATH_IMAGE089
,得到最佳坐标更新
Figure 48459DEST_PATH_IMAGE090
。此外,还可以用SGD、RMSprop等方法优化。
在子操作S33中,根据步骤S32得到的更新方向,进行对抗样本的更新
Figure 58003DEST_PATH_IMAGE091
,在优化过程中,需要使得更新后的样本
Figure 983365DEST_PATH_IMAGE092
满足对抗条件
Figure 443165DEST_PATH_IMAGE093
操作S4,将所述更新后的对抗样本投影至所述模型决策边界上,并将投影后的样本作为下一轮迭代的初始对抗样本。
具体地,在更新后的对抗样本
Figure 952513DEST_PATH_IMAGE094
与输入样本
Figure 31327DEST_PATH_IMAGE095
的连线上,通过搜索
Figure 60463DEST_PATH_IMAGE096
,将满足
Figure 441897DEST_PATH_IMAGE097
的样本
Figure 189273DEST_PATH_IMAGE098
作为下一轮迭代的初始对抗样本;其中,
Figure 540620DEST_PATH_IMAGE099
Figure 4356DEST_PATH_IMAGE100
操作S5,重复步骤S2至S4,直至所述损失函数收敛或迭代轮次达到设定次数,并得到最终对抗样本;计算所述输入样本与最终对抗样本的距离,作为输入样本到模型决策边界的距离。
具体地,将样本
Figure 743642DEST_PATH_IMAGE101
作为下一轮迭代的初始对抗样本,重复步骤S2至S4,直至所述损失函数收敛或迭代轮次达到设定次数,并得到最终对抗样本
Figure 915997DEST_PATH_IMAGE102
;计算原始输入样本
Figure 149664DEST_PATH_IMAGE103
与最终对抗样本
Figure 215709DEST_PATH_IMAGE102
之间的p范数值,作为最终输入样本到模型决策边界的距离
Figure 375163DEST_PATH_IMAGE104
操作S6,以所述最终对抗样本作为初始对抗样本,并重复步骤S5开始下一轮模型训练,依次计算所述输入样本到各轮模型训练过程中模型决策边界的距离,得到距离矩阵,并根据所述距离矩阵度量输入样本与模型决策边界的相关性。
具体地,若模型共进行K轮训练,则K轮训练过程中所述输入样本到模型决策边界的距离表示为D T = [d 1 , d 2 , …, d K ];其中,d k 表示第k轮训练过程中输入样本与最终对抗样本的距离,k=1,2,…,K
取第k轮训练过程中,在得到最终对抗样本前的U次迭代内生成的所有对抗样本,并计算各生成的对抗样本与输入样本的距离,表示为D k = [d T-U , d T-U+1 , …, d T ];其中,d u 表示第k轮训练过程中输入样本与第u次迭代生成的对抗样本的距离,u=T-U,T-U+1,…,TT为第k轮训练过程中得到最终对抗样本的总迭代次;
K轮训练结束后,输入样本与模型决策边界的距离矩阵D表示为:D=
Figure 769236DEST_PATH_IMAGE105
;其中,
Figure 852598DEST_PATH_IMAGE106
表示在第k轮训练过程中第u次迭代生成的对抗样本与输入样本的距离。
需要说明的是,此距离矩阵仅表示数据样本与一条决策边界的相关性度量,对于多分类的模型,本发明可为每个类别的决策边界生成一个对应的距离矩阵,表示数据样本与模型所有决策边界的相关性度量。
图2为本发明实施例提供的度量数据样本与模型决策边界相关性的***的结构框图之一。参阅图2,该***200包括数据初始模块210、差异计算模块220、数据更新模块230、距离计算模块240、相关性度量模块250。
数据初始模块210例如执行操作S1,用于从物联网中获取待评估模型的输入样本,通过向所述输入样本添加高斯噪声,在模型决策边界处生成初始对抗样本;
差异计算模块220例如执行操作S2,用于计算所述初始对抗样本在所述模型决策边界上的法向量以及所述输入样本到初始对抗样本的差异向量,并计算得到所述差异向量的单位向量与法向量的单位向量之间的角度差异损失;
数据更新模块230例如执行操作S3和S4,用于以所述角度差异损失作为更新所述初始对抗样本的损失函数,计算更新后的对抗样本;以及将所述更新后的对抗样本投影至所述模型决策边界上,并将投影后的样本作为下一轮迭代的初始对抗样本;
距离计算模块240例如执行操作S5,用于重复执行所述差异计算模块和数据更新模块的操作,直至所述损失函数收敛或迭代轮次达到设定次数,并得到最终对抗样本;计算所述输入样本与最终对抗样本的距离,作为输入样本到模型决策边界的距离;
相关性度量模块250例如执行操作S6,用于以所述最终对抗样本作为初始对抗样本,并重复执行所述距离计算模块的操作开始下一轮模型训练,依次计算所述输入样本到各轮模型训练过程中模型决策边界的距离,得到距离矩阵,并根据所述距离矩阵度量输入样本与模型决策边界的相关性。
***200用于执行上述图1所示实施例中的度量数据样本与模型决策边界相关性的方法。本实施例未尽之细节,请参阅前述图1所示实施例中的度量数据样本与模型决策边界相关性的方法,此处不再赘述。
图3为本发明实施例提供的度量数据样本与模型决策边界相关性的***的结构框图之二,该***包括初始数据生成模块、梯度估计模块、相关性计算模块、数据更新模块和距离计算模块。将用户提供的数据样本集合和模型输入到***,初始数据生成模块在模型决策边界上生成距离原始样本距离较近的对抗样本;梯度估计模块用于估计决策边界上数据点的梯度值,来表示模型决策边界的法向量方向和大小;相关性计算模块采用余弦相似的方法,计算对抗样本与原始输入样本之间的向量与梯度向量之间的相关性;数据更新模块包括最优梯度更新和样本投影两个部分,计算出这一时刻的最优数据更新方向,并将更新后的数据投影到模型决策边界上,进行下一时刻的更新,经过多次迭代的更新,得到使得损失函数最小的对抗样本,并将该样本与原始样本的距离作为原始数据到模型决策边界的最短距离;距离计算模块计算原始样本与对抗样本的二范数距离,作为原始样本到模型决策边界的距离,并通过对训练过程中的各个模型进行求解,生成最终数据样本的距离矩阵,表示该数据样本与模型决策边界的相关性度量。
下面通过实验结果进一步说明本发明的效果:将本发明应用到深度学习下的成员推断攻击中,选取了训练过程中各个时刻的模型,并采用Adult、MNIST和Purchase(10)数据集进行测试。采用本发明提出的度量数据样本与模型决策边界相关性的方法,在决策边界处生成相应的对抗样本,计算出了数据样本到各个模型决策边界的距离变化矩阵。随着深度学习模型的训练,模型决策边界不断发生变化,由于训练数据参与到了模型的训练,而测试数据没有参与,因此训练数据和测试数据到模型决策边界的距离变化是不同的;分别选取训练数据和测试数据,能够得到对应的距离变化矩阵。将数据的距离特征作为输入,是否为训练数据作为输出标签,进行成员推断攻击模型的训练。通过仿真测试,得到本发明方法在三种数据集下的对抗样本成功率以及成员推断攻击的准确率如表1所示。
Figure 727144DEST_PATH_IMAGE107
可以看出,本发明提出的度量数据样本与模型决策边界相关性的方法在各数据集上均有较高的对抗样本成功率,且超过基线水平;完成的成员推断攻击的准确率也均超过目前的大部分实验。这说明本发明能够准确进行深度学习模型中数据样本与模型决策边界相关性的度量,从而实现数据的隐私保护,具有极高的实用性和通用性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种度量数据样本与模型决策边界相关性的方法,用于物联网数据保护,其特征在于,包括以下步骤:
S1,从物联网中获取待评估模型的输入样本,通过向所述输入样本添加高斯噪声,在模型决策边界处生成初始对抗样本;所述待评估模型为深度学习模型;
S2,计算所述初始对抗样本在所述模型决策边界上的法向量以及所述输入样本到初始对抗样本的差异向量,并计算得到所述差异向量的单位向量与法向量的单位向量之间的角度差异损失;
S3,以所述角度差异损失作为更新所述初始对抗样本的损失函数,计算更新后的对抗样本;
S4,将所述更新后的对抗样本投影至所述模型决策边界上,并将投影后的样本作为下一轮迭代的初始对抗样本;
S5,重复步骤S2至S4,直至所述损失函数收敛或迭代轮次达到设定次数,并得到最终对抗样本;计算所述输入样本与最终对抗样本的距离,作为输入样本到模型决策边界的距离;
S6,以所述最终对抗样本作为初始对抗样本,并重复步骤S5开始下一轮模型训练,依次计算所述输入样本到各轮模型训练过程中模型决策边界的距离,得到距离矩阵,并根据所述距离矩阵度量输入样本与模型决策边界的相关性,所述相关性用于评估所述输入样本的隐私性。
2.根据权利要求1所述的度量数据样本与模型决策边界相关性的方法,其特征在于,所述S1中,通过向所述输入样本添加高斯噪声,在模型决策边界处生成初始对抗样本,包括:
通过向所述输入样本添加多组随机高斯噪声,直至得到使所述模型进行错误分类的第一噪声;
利用二分法将扰动后的样本投影到模型决策边界上,得到初始对抗样本;所述扰动后的样本为所述输入样本与第一噪声的叠加。
3.根据权利要求1或2所述的度量数据样本与模型决策边界相关性的方法,其特征在于,所述S2中,计算所述初始对抗样本在所述模型决策边界上的法向量,包括:
S21,对所述初始对抗样本
Figure DEST_PATH_IMAGE001
进行B个方向的高斯扰动
Figure 156323DEST_PATH_IMAGE002
,得到B个扰动样本
Figure DEST_PATH_IMAGE003
Figure 546501DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
为扰动常量;
S22,计算扰动样本
Figure 44347DEST_PATH_IMAGE006
判定值
Figure DEST_PATH_IMAGE007
Figure 846081DEST_PATH_IMAGE008
;其中,
Figure DEST_PATH_IMAGE009
为扰动样本
Figure 99601DEST_PATH_IMAGE010
的对抗性,且
Figure DEST_PATH_IMAGE011
Figure 843435DEST_PATH_IMAGE012
为样本
Figure DEST_PATH_IMAGE013
的真实标签,
Figure 782572DEST_PATH_IMAGE014
为样本
Figure DEST_PATH_IMAGE015
的预测标签,
Figure 227810DEST_PATH_IMAGE016
表示模型预测为真实标签的概率,
Figure DEST_PATH_IMAGE017
表示模型预测为非真实标签中的最大概率值;
S23,所述初始对抗样本
Figure 801749DEST_PATH_IMAGE018
在所述模型决策边界上的法向量
Figure DEST_PATH_IMAGE019
表示为:
Figure 47310DEST_PATH_IMAGE020
4.根据权利要求3所述的度量数据样本与模型决策边界相关性的方法,其特征在于,所述S2中,所述角度差异损失表示为:
Figure DEST_PATH_IMAGE021
其中,
Figure 723011DEST_PATH_IMAGE022
表示所述输入样本,
Figure DEST_PATH_IMAGE023
表示内积,
Figure 440781DEST_PATH_IMAGE024
表示二范数。
5.根据权利要求4所述的度量数据样本与模型决策边界相关性的方法,其特征在于,所述S3包括:
S31,以所述角度差异损失的相反数作为所述损失函数;
S32,使用蒙特卡洛梯度估计方法得到所述初始对抗样本的更新方向,并采用一阶梯度优化的方式计算更新后的对抗样本。
6.根据权利要求5所述的度量数据样本与模型决策边界相关性的方法,其特征在于,所述S4包括:
在所述更新后的对抗样本
Figure DEST_PATH_IMAGE025
与输入样本
Figure 636270DEST_PATH_IMAGE026
的连线上,通过搜索
Figure DEST_PATH_IMAGE027
,将满足
Figure 784224DEST_PATH_IMAGE028
的样本
Figure DEST_PATH_IMAGE029
作为下一轮迭代的初始对抗样本;其中,
Figure 199418DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
7.根据权利要求1或6所述的度量数据样本与模型决策边界相关性的方法,其特征在于,所述S5中,计算所述输入样本与最终对抗样本的距离,作为输入样本到模型决策边界的距离,包括:计算所述输入样本与最终对抗样本的范数值,作为输入样本到模型决策边界的距离。
8.根据权利要求7所述的度量数据样本与模型决策边界相关性的方法,其特征在于,所述S6中,若模型共进行K轮训练,则K轮训练过程中所述输入样本到模型决策边界的距离表示为D T = [d 1 , d 2 , …, d K ];其中,d k 表示第k轮训练过程中输入样本与最终对抗样本的距离,k=1,2,…,K
取第k轮训练过程中,在得到最终对抗样本前的U次迭代内生成的所有对抗样本,并计算各生成的对抗样本与输入样本的距离,表示为D k = [d T-U , d T-U+1 , …, d T ];其中,d u 表示第k轮训练过程中输入样本与第u次迭代生成的对抗样本的距离,u=T-U,T-U+1,…,TT为第k轮训练过程中得到最终对抗样本的总迭代次;
K轮训练结束后,输入样本与模型决策边界的距离矩阵D表示为:D=
Figure 192651DEST_PATH_IMAGE032
;其中,
Figure DEST_PATH_IMAGE033
表示在第k轮训练过程中第u次迭代生成的对抗样本与输入样本的距离。
9.一种度量数据样本与模型决策边界相关性的***,用于物联网数据保护,其特征在于,包括:
数据初始模块,用于从物联网中获取待评估模型的输入样本,通过向所述输入样本添加高斯噪声,在模型决策边界处生成初始对抗样本;所述待评估模型为深度学习模型;
差异计算模块,用于计算所述初始对抗样本在所述模型决策边界上的法向量以及所述输入样本到初始对抗样本的差异向量,并计算得到所述差异向量的单位向量与法向量的单位向量之间的角度差异损失;
数据更新模块,用于以所述角度差异损失作为更新所述初始对抗样本的损失函数,计算更新后的对抗样本;以及将所述更新后的对抗样本投影至所述模型决策边界上,并将投影后的样本作为下一轮迭代的初始对抗样本;
距离计算模块,用于重复执行所述差异计算模块和数据更新模块的操作,直至所述损失函数收敛或迭代轮次达到设定次数,并得到最终对抗样本;计算所述输入样本与最终对抗样本的距离,作为输入样本到模型决策边界的距离;
相关性度量模块,用于以所述最终对抗样本作为初始对抗样本,并重复执行所述距离计算模块的操作开始下一轮模型训练,依次计算所述输入样本到各轮模型训练过程中模型决策边界的距离,得到距离矩阵,并根据所述距离矩阵度量输入样本与模型决策边界的相关性,所述相关性用于评估所述输入样本的隐私性。
CN202111188034.4A 2021-10-12 2021-10-12 一种度量数据样本与模型决策边界相关性的方法及*** Active CN113642029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111188034.4A CN113642029B (zh) 2021-10-12 2021-10-12 一种度量数据样本与模型决策边界相关性的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111188034.4A CN113642029B (zh) 2021-10-12 2021-10-12 一种度量数据样本与模型决策边界相关性的方法及***

Publications (2)

Publication Number Publication Date
CN113642029A CN113642029A (zh) 2021-11-12
CN113642029B true CN113642029B (zh) 2021-12-24

Family

ID=78426406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111188034.4A Active CN113642029B (zh) 2021-10-12 2021-10-12 一种度量数据样本与模型决策边界相关性的方法及***

Country Status (1)

Country Link
CN (1) CN113642029B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349344B (zh) * 2023-10-23 2024-03-05 广州欧派创意家居设计有限公司 一种基于大数据的产品销售数据智能采集方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961145A (zh) * 2018-12-21 2019-07-02 北京理工大学 一种针对图像识别模型分类边界敏感的对抗样本生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837637B (zh) * 2019-10-16 2022-02-15 华中科技大学 一种脑机接口***黑盒攻击方法
CN113204782A (zh) * 2021-04-15 2021-08-03 西安邮电大学 一种用于决策模型发布的集中式隐私保护方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961145A (zh) * 2018-12-21 2019-07-02 北京理工大学 一种针对图像识别模型分类边界敏感的对抗样本生成方法

Also Published As

Publication number Publication date
CN113642029A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
Yang et al. Ridge and lasso regression models for cross-version defect prediction
CN106951695B (zh) 多工况下的机械设备剩余使用寿命计算方法及***
US11914937B2 (en) Computational framework for modeling of physical process
Marzat et al. Worst-case global optimization of black-box functions through Kriging and relaxation
Mai et al. Surrogate modeling for stochastic dynamical systems by combining nonlinear autoregressive with exogenous input models and polynomial chaos expansions
CN112187554B (zh) 一种基于蒙特卡洛树搜索的运维***故障定位方法和***
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN112861066B (zh) 基于机器学习和fft的盲源分离信源数目并行估计方法
CN109685104B (zh) 一种识别模型的确定方法和装置
Lu et al. Representation-learning-based CNN for intelligent attack localization and recovery of cyber-physical power systems
CN113642029B (zh) 一种度量数据样本与模型决策边界相关性的方法及***
Mao et al. Physics-informed neural networks with residual/gradient-based adaptive sampling methods for solving partial differential equations with sharp solutions
Mai et al. Surrogate modelling for stochastic dynamical systems by combining NARX models and polynomial chaos expansions
Xiang et al. Fault classification for high‐dimensional data streams: A directional diagnostic framework based on multiple hypothesis testing
Li et al. Symbolization‐based differential evolution strategy for identification of structural parameters
CN116151485B (zh) 反事实预测和效果评估方法、***
Li et al. Nonlinear model identification from multiple data sets using an orthogonal forward search algorithm
Mao et al. Physics-informed neural networks with residual/gradient-based adaptive sampling methods for solving PDEs with sharp solutions
CN116680639A (zh) 一种基于深度学习的深海潜水器传感器数据的异常检测方法
Mansouri et al. Modeling of nonlinear biological phenomena modeled by s-systems using bayesian method
CN106709598B (zh) 一种基于单类样本的电压稳定性预测判断方法
Hori et al. A state-space realization approach to set identification of biochemical kinetic parameters
CN114139601A (zh) 一种对电力巡检场景人工智能算法模型的评估方法及***
CN111786935B (zh) 一种面向光缆纤芯远程智能调度交换的业务流异常侦测方法
Malmström et al. Asymptotic prediction error variance for feedforward neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant