CN110941855A

CN110941855A - 一种AIoT场景下的神经网络模型窃取防御方法

Info

Publication number: CN110941855A
Application number: CN201911173524.XA
Authority: CN
Inventors: 江维; 詹瑾瑜; 龚子成; 何致远; 潘唯迦; 吴俊廷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-03-31
Anticipated expiration: 2039-11-26
Also published as: CN110941855B

Abstract

本发明公开一种AIoT场景下的神经网络模型窃取防御方法，应用于网络安全领域，针对AIoT场景下，边缘端设备向云端服务器传输数据时可能发生数据泄露而导致模型窃取的问题，本发明通过加密推断数据图像及标签实现对模型窃取的防御，加密图像部分基于神经网络类激活映射技术，加密标签部分基于欠完备自编码器技术；本发明主要包括训练阶段及部署阶段，训练阶段在服务器上进行，部署阶段在训练阶段完成之后进行，将训练阶段的数据部署到边缘端设备及云端服务器上，本发明方案能有效防御AIoT场景下的神经网络模型的窃取。

Description

一种AIoT场景下的神经网络模型窃取防御方法

技术领域

本发明属于网络防御领域，特别涉及一种神经网络模型窃取防御技术。

背景技术

模型窃取是对基于神经网络(NN)的人工智能(AI)应用程序的严重威胁。如图1所示，模型窃取的原理是向例如Amazon AWS，Microsoft Azure，Google Cloud，BigML等公开机器学习API发送大量推断的请求。并且API的输出和输入可以构成窃取模型的训练数据集，然后使用各种常见的机器学习模型进行训练和找到最佳结果。窃取模型的目的是为了商业利益，绕过原始模型，使用替代模型来获得将来的预测。和/或窃取模型知识并生成可转移的对抗性样本，并可用于干扰原始模型以做出错误的预测。模型窃取技术是指通过黑盒探测来窃取模型或者恢复训练数据成员，比如窃取股票市场预测模型和垃圾邮件过滤模型，攻击者利用该技术可以针对性地有效地优化攻击模型。

模型窃取攻击时指尝试恢复模型或训练中使用的数据的信息。这样的攻击是一个很重要的顾虑，因为模型是一种非常有价值的知识产权资产，是用公司中最有价值的数据去训练的，比如金融交易、医疗信息、用户交易信息等等。确保使用用户隐私数据进行训练的模型的安全性是非常重要的，因为这些模型可能会被滥用造成用户敏感信息的泄漏。

模型窃取攻击主要有两种形式：模型重建和成员泄漏。

模型创建。模型重建的关键是攻击者能够通过探测公有API和限制自己的模型来重建一个模型。论文Stealing Machine Learning Models via Prediction APIs中证明了此类攻击对包含SVM、随机森林、深度神经网络在内的大多数AI算法都是有效的。

成员泄漏。黑客可以通过建立影子模型的方式来决定用哪些记录来训练模型。这样的攻击虽然不需要恢复模型，但会泄漏敏感信息。

在模型窃取检测方面，M.Juuti等人提出了一种基于攻击者的查询分布与正常客户查询分布差异的模型窃取检测方法；在模型窃取检测防御方面，N.Papernot等人提出一种基于差分隐私的学生-教师网络架构，并通过这种网络架构，隔离了训练集与最终部署模型之间的直接联系，使得攻击者无法直接通过公开API获取原始训练集中的隐私信息。

但是在AIoT场景下，边缘端设备向云端服务器传输数据时可能发生数据泄露而导致模型窃取。

发明内容

为解决上述技术问题，本发明提出一种AIoT场景下的神经网络模型窃取防御方法，基于对采集图像及输出预测结果加密的方式防御模型窃取。

本发明采用的技术方案为：一种AIoT场景下的神经网络模型窃取防御方法，基于的防御***包括：云端服务器、边缘端设备，在所述云端服务器完成欠完备自编码器的训练，训练完成的自编码器的编码器部分部署到边缘端设备，训练完成的自编码器的解码部分部署到云端服务器；所述边缘端设备包括：用于执行边缘端设备AI任务的神经网络模型推断模块、基于神经网络的激活映射并定位最小加密区域的图像加密区域定位模块、以及用于图像加密及神经网络模型输出推断数据加密的加密模块；远端服务器至少包括解密模块，用于将边缘端设备传回的加密数据进行解密。

进一步地，所述云端服务器完成欠完备自编码器的训练，具体包括以下步骤：

A、确定加解密密钥并生成加解密规则；所述训练集是根据具体的识别场景而预先采集的图像数据及对应的标签数据。

B、根据训练集训练得到神经网络模型，并根据神经网络模型计算图像加密最小区域系数，并将计算的到的图像加密最小区域系数存储至边缘端设备；

C、训练欠完备自编码器。

进一步地，步骤A包括以下分步骤：

A1、获取训练集中的全部训练数据，并计算训练集中每个识别类的图像均值。所述识别类包括：汽车、建筑物等识别目标。

A2、计算每个识别类的平均置信度向量；

A3、将所有识别类平均置信度向量按序依次进行聚类操作；

A4、根据聚类结果确定加解密密钥，并生成加解密规则，在同一个组中的识别类在A1中计算得到的平均图像即为对称加解密密钥。

所述加解密规则为：将同一组中的识别类进行排序，并将各识别类对应的图像均值组成闭环，将前一识别类的图像均值作为下一识别类的图像加密密钥。

进一步地，步骤B包括以下分步骤：

B1、根据预先采集的训练集数据训练得到的神经网络模型(如VGG16，ResNet50等)，根据神经网络模型的推断获取加密密钥矩阵，生成一个由密钥组成的和输入同维度的mask矩阵；

该矩阵用于对图像进行加密，其初始值为加密密钥矩阵本身，之后通过不断修改mask中的值用来控制对图像加密的效果。

B2、拷贝一个和激活映射矩阵f相同的矩阵f′，并将该矩阵中的所有元素值按降序排序；

B3、选取f′排序后的前θ％的元素，并找到它们对应于f以及mask矩阵中的相应位置；并保留mask矩阵中相应位置元素值，然后将其余位置设置为0；得到更新后的密钥矩阵；θ初始值为100；

步骤B4、采用步骤B3更新后的密钥矩阵加密图像矩阵Image；

Encrypted Image＝Image+α*mask

其中，Encrypted Image为加密后的图像矩阵，Image为原始图像矩阵，α为超参数，用于控制密钥的加密强度，如α＝1.0；mask为步骤B3中生成的密钥矩阵。

B5、将经步骤B4加密后的图像矩阵Encrypted Image重新让神经网络模型进行推断，获取神经网络模型输出的置信度向量，计算图形加密后神经网络模型输出q(x)与原始输出p(x)之间的JS散度。

B6、根据JS散度的值更新步骤B3中的θ，更新的θ记为θ‘，更新表达式如下：

θ‘＝θ-λ·JS(p(x),q(x))

B7、迭代执行步骤B3至B6，直至神经网络模型对加密后的图像能够正确识别，即加密后的图像数据的准确率低于设定的阈值，该阈值为***设计者自行设置，一般阈值都较小，例精确度阈值为0.1，即加密后的图像被识别出的精度低于10％即表示正确识别；

B8、回退到上一次迭代，得到θ值，将θ值保存在边缘端设备里。

进一步地，步骤C包括以下分步骤：

C1、使用步骤B1中相同的神经网络模型，将训练集中的所有数据输入神经网络模型，得到神经网络模型的推断向量；

C2、将C1获得的神经网络模型推断向量作为单层欠完备自编码器的输入，通过自编码器的输出与输入的均方误差更新自编码器中的权重参数；

C3、将经步骤C2训练好的自编码器的编码器部分部署到边缘端设备，解码器部分部署到云端服务器。

进一步地，基于神经网络的激活映射并定位最小加密区域，包括以下步骤：

S1、生成神经网络激活映射矩阵；

S2、根据神经网络激活映射定位图像最小加密区域；

S3、训练欠完备自编码器的编码器加密模型输出推断数据；

S4、云端服务器解密数据。

更进一步地，步骤S1包括以下分步骤：

S11、获取网络对该图像的推断结果inference，根据推断结果获取最后一层卷积层上对应该推断结果inference的权重向量W；

S12、将最后一个卷积层的特征输出F上采样到图像原始大小，并和权重W进行加权求和运算，获得相应的特征激活映射。

进一步地，步骤S2包括以下分步骤：

S21、根据模型的推断获取加密密钥矩阵，生成一个由密钥组成的和输入同维度的mask矩阵；

S22、拷贝一个和激活映射矩阵f相同的矩阵f′，并将该矩阵中的所有元素值按降序排序；

S23、选取f′排序后的前θ％的元素，并找到它们对应于f以及mask矩阵中的相应位置。保留mask矩阵对应位置元素值，其余位置均设置为0；

S24，使用下式加密图像矩阵Image；

Encrypted Image＝Image+α*mask

其中Encrypted Image为加密后的图像矩阵，Image为原始图像矩阵，α为超参数，用于控制密钥的加密强度，如α＝1.0。mask为步骤B3中生成的密钥矩阵。

进一步地，步骤S4包括以下分步骤：

S41、使用步骤C4中部署的解码器解密边缘端设备传回的模型推断数据；

S42、根据S41解密的模型推断数据，获取每个图像对应的识别类，通过之前部署在服务器上的解密密钥及加密规则，计算出每个图像对应的解密密钥；

S43、根据边缘端设备传回的加密位置信息及S42中的密钥。

本发明的有益效果：本发明的方法能有效防御AIoT场景下的神经网络模型的窃取，避免了用户隐私数据的泄露，保证了用户隐私数据的安全，本发明的方法具备以下优点：

1、图像加密密钥为对称密钥，但不易被破解，由于密钥的确定需要同时获取原始输入图像的推断、加解密规则、多项式加解密超参数，而这三者泄密都必须在云端服务器中完成，攻击者仅仅通过监听边缘端与云端的数据通信是无法破解密钥的，如果云服务器的安全性能较高，则可保证AIoT的防御模型窃取方法的效果；

2、加解密的开销小。由于大量的训练都在部署之前完成，边缘端设备只需在推断完成后利用自身模型及推断结果，配合训练好的参数即可完成对图像及模型输出的加密，解密图像的开销比加密图像还要小，因为解密的过程不需要依赖于模型，只需要执行查找密钥及多项式计算即可完成解密过程；

3、适用于低功耗AIoT场景下的模型窃取防御。

附图说明

图1为本发明实施例提供的自编码器的网络结构图。

图2是本发明的加密及解密密钥及加解密规则生成方法流程图。

图3是本发明的图像加密最小区域系数生成方法流程图。

图4是本发明部署阶段模块组成图。

图5是本发明图像加密区域定位方法流程图。

图6是本发明云端服务器解密数据方法流程图。

具体实施方式

与现有的模型窃取检测与防御方法场景不同，本发明考虑在AIoT场景下，边缘端设备向云端服务器传输数据时可能发生数据泄露而导致模型窃取，提出了一种全新的模型窃取防御方法。本发明从神经网络自身特性出发，提出一种基于神经网络的模型窃取防御方法；通过加密推断数据图像及标签实现对模型窃取的防御，加密图像部分基于神经网络类激活映射技术，加密标签部分基于欠完备自编码器技术。

为便于本领域技术人员理解本发明的内容，现对以下现有技术进行说明：

1、神经网络类激活映射技术

神经网络类激活映射技术最早由Bolei Zhou等人提出，类激活映射是不同视觉模式在不同空间位置处的加权线性总和。通过简单地将类激活映射上采样到输入图像的大小，可以识别与特定类别最相关的图像区域。类激活映射技术可以帮助理解目标的哪些区域对最终的识别结果起到关键作用，本发明基于这一现象和原理对图像的相关区域进行加密，防止攻击者通过图像窃取模型。

2、自编码器

自编码器是神经网络的一种，经过训练后能够尝试将输入复制到输出。如图1所示，自编码器内部有一个隐藏层h，可以产生编码表示输入。该网络可以看作由两部分组成：一个由函数h＝f(x)表示的编码器和一个生成重构的解码器r＝g(h)。欠完备自编码器限制了h的维度比x小。学习欠完备的表示将强制自编码器捕捉训练数据中最显著的特征。

下面结合附图2-6对本发明内容进一步阐释。

本发明分为训练阶段及部署阶段，训练阶段在服务器上进行，部署阶段在训练阶段完成之后进行，将训练阶段的数据部署到边缘端设备及云端服务器上。所述训练阶段的服务器可以是本地服务器或云端服务器。

训练阶段主要包括加解密密钥及加解密规则生成、最小区域系数θ生成、欠完备自编码器训练，具体实现过程为：

步骤A加密及解密密钥及加解密规则的生成，如图2所示，步骤A包括以下分步骤：

步骤A1：从训练集中获取全部的训练数据，并计算训练集中每个识别类的平均图像，训练集中的图像是一个批数据，其数据量大小可自行设置，例如32，128等，类似于训练网络的batch size，其大小可根据实际情况设置。本步骤所述训练集是根据具体的识别场景而预先采集的图像数据及对应的标签数据，所述识别类例如汽车、建筑物等识别目标。

步骤A2：计算每个识别类的平均置信度向量；

步骤A3：将所有识别类平均置信度向量按序依次进行聚类操作。如果组不存在，则新建一个组，并把第一条数据对应的识别类放入该组中，之后每次进入一个新的数据，依次遍历已经存在组中的每条数据对应的平均置信度向量，计算二者的余弦相似度。若余弦相似度大于阈值(例如在CIFAR-10数据集中的阈值取值为0.01)，则将该数据对应的识别类加入到该组中，如果遍历完所有的组都无法加入，则新建一个组，并将该数据对应的识别类加入到新建的组中。

本领域技术人员应知CIFAR-10数据集为带有标签的数据集，该数据集共有60000张彩色图像，这些图像是32*32，分为10个类，每类6000张图。这里面有50000张用于训练，构成了5个训练批，每一批10000张图；另外10000用于测试，单独构成一批。测试批的数据里，取自10类中的每一类，每一类随机取1000张。抽剩下的就随机排列组成了训练批。注意一个训练批中的各类图像并不一定数量相同，总的来看训练批，每一类都有5000张图。

步骤A3中的阈值的设置和计算的余弦相似度的数据分布实际情况有关，

步骤A4：根据聚类结果确定加解密密钥及规则。在同一个组中的识别类在A1中计算得到的平均图像即为对称加解密密钥。之后按照特定的规则生成加解密规则：假设一个组中有三个识别类A,B,C。那么，B识别类中的图像均值就是所有被识别成A的图像加密密钥，C识别类中的图像均值就是所有被识别成B的图像加密密钥,A识别类中的图像均值为所有被识别成C的图像的加密密钥。通过这种方式，解密密钥及解密规则也同时被确定下来。生成加密密钥与加密规则后，云端服务器与边缘设备上均保留对称密钥及加解密规则，分别用于对图像的加密与解密。

步骤B图像加密最小区域系数生成，如图3所示，步骤B包括以下分步骤：

步骤B1，根据预先采集的训练集数据训练而成神经网络模型，获取其推断，根据推断获取加密密钥矩阵，生成一个由密钥组成的和输入同维度的mask矩阵。该矩阵用于对图像进行加密，其初始值为加密密钥矩阵本身，之后通过不断修改mask中的值用来控制对图像加密的效果。

步骤B2，拷贝一个和激活映射矩阵f相同的矩阵f′，并将该矩阵中的所有元素值按降序排序，此步骤用于后续步骤选取矩阵中符合条件的元素。

步骤B3，选取f′排序后的前θ％的元素(θ初始值为100)，并找到它们对应于f以及mask矩阵中的相应位置。保留mask矩阵对应位置元素值，其余位置均设置为0。

步骤B4，使用以下多项式加密图像矩阵Image。

Encrypted Image＝Image+α*mask

其中，Encrypted Image为加密后的图像矩阵，Image为原始图像矩阵，α为超参数，用于控制密钥的加密强度，如α＝1.0。mask为步骤B3中生成的密钥矩阵。

步骤B5，将经步骤B4加密后的图像Encrypted Image重新让神经网络模型进行推断，获取模型输出的置信度向量，计算图形加密后神经网络模型输出q(x)与原始输出p(x)之间的JS散度。

步骤B6，根据JS散度的值更新步骤B3中的θ。

θ‘＝θ-λ·JS(p(x),q(x))

其中，θ‘为更新后的θ；λ为学习率，控制θ值随JS散度的变化剧烈程度；JS(p(x),q(x))为加密后图像与原始图像对应的模型输出结果的JS散度，用于控制更新θ的方向及大小。

步骤B7，迭代执行B1至B6步骤，直至神经网络模型对加密后的图像能够正确识别。

步骤B8，回退到上一次迭代，得到θ值，通过θ值，如B3步骤可以获取任意一张图像需要加密的最小区域大小及位置。将θ值保存在边缘端设备里。

步骤C：训练欠完备自编码器，用于加密模型的推断数据；步骤C包括以下分步骤：

步骤C1，使用经步骤B训练完成的神经网络模型，将训练数据集中的所有数据输入神经网络模型，得到神经网络模型的推断向量。

步骤C2，将C1获得的模型推断向量作为单层欠完备自编码器的输入，通过自编码器的输出与输入的均方误差更新自编码器中的权重参数。

步骤C3，将训练好的自编码器的编码器部分部署到边缘端设备，解码器部分部署到云端服务器。

部署阶段如图4所示，整个模型防御体系边缘端有如下几个模块，一个是模型推断模块，用于执行正常的边缘端设备AI任务，第二个是图像加密区域定位模块，基于神经网络的激活映射并定位最小加密区域，第三个区域是加密模块，用于图像加密及模型输出推断数据加密。服务器端只有一个解密模块，将边缘端设备传回的加密数据进行解密即可。

如图5所示，图像加密区域定位方法包括如下步骤：

S1：生成神经网络激活映射矩阵，步骤S1的详细步骤包括：

步骤S11获取网络对该图像的推断结果inference，根据推断结果获取最后一层卷积层上对应该推断结果inference的权重向量W。

步骤S12，将最后一个卷积层的特征输出F上采样到图像原始大小，并和权重W进行加权求和运算，获得相应的特征激活映射。

S2：根据神经网络激活映射定位图像最小加密区域，步骤S2的详细步骤包括：

步骤S21，根据模型的推断获取加密密钥矩阵，生成一个由密钥组成的和输入同维度的mask矩阵。该矩阵用于对图像进行加密，其初始值为加密密钥矩阵本身，之后通过不断修改mask中的值用来控制对图像加密的效果。

步骤S22，拷贝一个和激活映射矩阵f相同的矩阵f′，并将该矩阵中的所有元素值按降序排序，此步骤用于后续步骤选取矩阵中符合条件的元素。

步骤S23，选取f′排序后的前θ％的元素(θ已保存在边缘端设备中)，并找到它们对应于f以及mask矩阵中的相应位置。保留mask矩阵对应位置元素值，其余位置均设置为0。

步骤S24，使用多项式加密图像矩阵Image。

Encrypted Image＝Image+α*mask

S3：使用欠完备自编码器的编码器加密模型输出推断数据，

S4：云端服务器解密数据。云端服务器接收边缘端设备传回的加密数据，使用之前约定好的解密方法逐步解密数据；如图6所示，步骤S4的详细步骤包括：

步骤S41：使用步骤C4中部署的解码器解密边缘端设备传回的模型推断数据。

步骤S42：根据S41解密的模型推断数据，获取每个图像对应的识别类，通过之前部署在服务器上的解密密钥及加密规则，计算出每个图像对应的解密密钥。

步骤S43：根据边缘端设备传回的加密位置信息及S42中的密钥。类似步骤S23，保留密钥矩阵对应加密位置元素值，其余位置均设置为0，重新生成解密密钥，并使用步骤S24中和边缘端设备中相同的加密多项式的互补式进行解密。

Decrypted Image＝Encrypted Image-α*mask

Decrypted Image是解密后的图像，Encrypted Image是边缘端设备加密后的图像，α与边缘端中设置相同，mask是步骤S43中重新计算生成的解密密钥。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，基于的防御***包括：云端服务器、边缘端设备，在所述云端服务器完成欠完备自编码器的训练，训练完成的自编码器的编码器部分部署到边缘端设备，训练完成的自编码器的解码部分部署到云端服务器；所述边缘端设备包括：用于执行边缘端设备AI任务的神经网络模型推断模块、基于神经网络的激活映射并定位最小加密区域的图像加密区域定位模块、以及用于图像加密及神经网络模型输出推断数据加密的加密模块；远端服务器至少包括解密模块，用于将边缘端设备传回的加密数据进行解密。

2.根据权利要求1所述的一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，所述云端服务器完成欠完备自编码器的训练，具体包括以下步骤：

A、确定加解密密钥并生成加解密规则；所述训练集是根据具体的识别场景而预先采集的图像数据及对应的标签数据；

B、根据训练集训练的到神经网络模型，并根据神经网络模型计算图像加密最小区域系数，并将计算的到的图像加密最小区域系数存储至边缘端设备；

C、训练欠完备自编码器。

3.根据权利要求2所述的一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，步骤A包括以下分步骤：

A1、获取训练集中的全部训练数据，并计算训练集中每个识别类的图像均值；

A2、计算每个识别类的平均置信度向量；

A3、将所有识别类平均置信度向量按序依次进行聚类操作；

4.根据权利要求2所述的一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，步骤B包括以下分步骤：

B1、根据预先采集的训练集数据训练得到的神经网络模型，根据神经网络模型的推断获取加密密钥矩阵，生成一个由密钥组成的和输入同维度的mask矩阵；

B3、选取f′排序后的前θ％的元素，并找到它们对应于f以及mask矩阵中的相应位置；并保留mask矩阵中相应位置元素值，然后将其余位置设置为0；得到更新后的密钥矩阵；

B4、采用步骤B3更新后的密钥矩阵加密图像矩阵Image；

Encrypted Image＝Image+α*mask

其中，Encrypted Image为加密后的图像矩阵，Image为原始图像矩阵，α为超参数；

B5、将经步骤B4加密后的图像矩阵Encrypted Image重新让模型进行推断，获取神经网络模型输出的置信度向量，计算图形加密后神经网络模型输出q(x)与原始输出p(x)之间的JS散度；

B6、根据JS散度的值更新步骤B3中的θ；

B7、迭代执行步骤B3至B6，直至神经网络模型对加密后的图像能够正确识别；

5.根据权利要求4所述的一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，θ初始值为100。

6.根据权利要求2所述的一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，步骤C包括以下分步骤：

C1、使用步骤B1训练完成的神经网络模型，将训练集中的所有数据输入神经网络模型，得到神经网络模型的推断向量；

7.根据权利要求1所述的一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，基于神经网络的激活映射并定位最小加密区域，包括以下步骤：

S1、生成神经网络激活映射矩阵；

S2、根据神经网络激活映射定位图像最小加密区域；

S3、训练欠完备自编码器的编码器加密模型输出推断数据；

S4、云端服务器解密数据。

8.根据权利要求7所述的一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，步骤S1包括以下分步骤：

9.根据权利要求7所述的一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，步骤S2包括以下分步骤：

S23、选取f′排序后的前θ％的元素，并找到它们对应于f以及mask矩阵中的相应位置，保留mask矩阵对应位置元素值，其余位置均设置为0；

S24，使用下式加密图像矩阵Image；

Encrypted Image＝Image+α*mask

其中，Encrypted Image为加密后的图像矩阵，Image为原始图像矩阵，α为超参数，用于控制密钥的加密强度，mask为步骤B3中生成的密钥矩阵。

10.根据权利要求7所述的一种AIoT场景下的神经网络模型窃取防御方法，其特征在于，步骤S4包括以下分步骤：

S43、根据边缘端设备传回的加密位置信息及S42中的密钥。