CN113360917A

CN113360917A - 基于差分隐私的深度强化学习模型安全加固方法及装置

Info

Publication number: CN113360917A
Application number: CN202110766183.8A
Authority: CN
Inventors: 陈晋音; 王雪柯; 胡书隆; 章燕
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-09-07

Abstract

本发明公开了一种基于差分隐私的深度强化学习模型安全加固方法及装置，其中包括一种基于差分隐私的深度强化学习模型安全加固方法，包括如下步骤：从环境中采样数据作为待训练样本集，利用深度强化学习算法构建目标模型，将待训练样本集输入到目标模型中对目标模型进行训练；对训练好的目标模型进行测试，并采样状态动作作为窃取数据集；利用深度强化学习算法构建窃取模型；将窃取数据集作为训练样本输入到窃取模型中并利用模仿学习算法训练窃取模型；将差分隐私保护机制添加到训练好的目标模型中，将目标模型在差分隐私机制的作用下输出的数据输入到窃取模型中；窃取模型在有差分隐私机制作用的数据的影响下作出错误的攻击动作。

Description

基于差分隐私的深度强化学习模型安全加固方法及装置

技术领域

本发明涉及数据安全领域，特别涉及一种基于差分隐私的深度强化学习模型安全加固方法及装置。

背景技术

随着人工智能的飞速发展，将深度学习的感知能力和强化学习的决策能力相结合的深度强化学习算法被广泛应用在自动驾驶、自动翻译、游戏AI等领域中。

但是近期研究表明，深度强化学习模型容易受到不同类型的恶意攻击，深度强化学习算法存在的安全漏洞是的深度强化学习***的完整性、可用性和机密性受到极大的威胁，随着人工智能与生产生活的联系日益紧密，人们对解决人工智能应用安全问题的需求日渐迫切。

现有的提高深度学习模型安全性的方法如公开号为CN110968866A的中国专利申请公开的一种面向深度强化学习模型对抗攻击的防御方法；所述防御方法包括以下步骤：利用基于生成式对抗网络构建的视觉预测模型对输入的前一时刻环境状态进行预测输出预测当前环境状态，并获得预测当前环境状态在深度强化学习策略下的下一帧预测环境状态值；获取深度强化学习模型输出的实际当前环境状态，并获得实际当前环境状态在深度强化学习策略下添加扰动的环境状态值；利用基于生成式对抗网络构建的判别模型对预测环境状态值和添加扰动的环境状态值进行判别，根据判别结果获得深度强化学习模型是否被攻击；在深度强化学习模型被攻击时，提取实际当前环境状态，利用基于SqueezeNet的第一防御模型对实际当前环境状态进行第一层防御，利用基于DenseNet的第二防御模型对第一层防御结果进行第二层防御，获得防御后的实际当前环境状态；深度强化学习模型利用防御后的实际当前环境状态进行学习预测输出。

上述专利申请提供的面向深度强化学习模型对抗攻击的防御方法利用视觉预测模型和判别器及外加防御模型对强化学习模型进行防御，此种方法是利用强化学习进行防御而不是对深度强化学习模型进行安全加固。

发明内容

为解决现有技术中存在的问题，本发明提供一种于差分隐私的深度强化学***，从而防止攻击者利用动作空间分布窃取原模型的目的。

一种基于差分隐私的深度强化学习模型安全加固方法，所述方法包括如下步骤：

从环境中采样数据作为待训练样本集，利用深度强化学习算法构建目标模型，将待训练样本集输入到目标模型中对目标模型进行训练；

对训练好的目标模型进行测试，并采样状态动作作为窃取数据集；

利用深度强化学习算法构建窃取模型，所述窃取模型用于模拟攻击目标模型的攻击动作；

将窃取数据集作为训练样本输入到窃取模型中并利用模仿学习算法训练窃取模型；

将差分隐私保护机制添加到训练好的目标模型中，将目标模型在差分隐私机制的作用下输出的数据输入到窃取模型中；

窃取模型在有差分隐私机制作用的数据的影响下作出错误的攻击动作。

对目标模型的训练包括如下步骤：

使用经验回放机制，在线收集并处理得到在线样本集；

将在线样本集和待训练样本集储存到回放记忆单元中形成转移样本；

每次训练时，从转移样本中随机抽取转移样本输入到当前值网络得到当前Q值，并在训练过程中使用随机梯度下降算法更新参数；

将当前值网络的参数复制给目标值网络得到当前Q值的优化目标，即目标Q值；

通过最小化当前Q值和目标Q值之间的均方误差对网络参数进行更新；引入目标值网络后，在一段时间内目标Q值是保持不变的，一定程度上降低了当前Q值和目标Q值之间的相关性，提升了算法的稳定性；

深度强化学习算法将奖赏值和误差项缩小到有限区间内，保证了Q值和梯度值都处于合理的范围内，提高了算法的稳定性，通过梯度下降优化得到最优策略。

深度强化学习问题通常可以被建模为马尔科夫决策过程，即可以由一个四元组表示MDP＝(S,A,R,P)，其中S表示决策过程中所能得到的状态集合，A表示决策过程中的动作集合，R表示用于对状态转移做出的实时奖励，P则为状态转移概率。在任意时间步长t的开始，智能体观察环境得到当前状态s_t，并且根据当前的最优策略π^*做出动作a_t，在t的最后，智能体得到其奖励r_t及下一个观测状态s_t+1；深度强化学习算法采用的是一种被称为'hard'模式的目标值网络参数更新，即每隔一定的步数就将当前值网络中的网络参数赋值给目标值网络；

在训练深度强化网络时，通常要求样本之间是相互独立的，随机采样的方式，大大降低了样本之间的关联性，从而提升了算法的稳定性；

通常，表示当前值网络的输出，用来评估当前状态动作对的值函数；表示目标值网络的输出，一般采用似表示值函数的优化目标。

当前Q值与误差Q值间的误差函数如下：

对参数θ求偏导，得到以下梯度：

其中，s是当前状态，a是对应动作，r是奖励值，s′是下一状态，θ_i是模型参数，E表示期望，Y_i表示期望Q值，Q(s,a|θ_i)表示状态s和动作a的奖励值。

所述最优策略如下：

其中，s是当前状态，a是对应动作，A动作集合，Q^*是最优值函数，π^*是最优策略。

对窃取模型的训练包括如下步骤：

利用Actor网络代替生成器G，将其输出的动作与状态成对输入到判别器中与专家数据进行对比，并将判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习，判别器损失函数表示为：

其中，π_IL表示模仿学习得到的策略，π_t表示采样的专家策略，第一项中的logD(s,a)表示判别器对真实数据的判断，第二项log(1-D(s,a))则表示对生成数据的判断；

具体的，通过这样一个最大最小博弈过程，循环交替优化G和D来训练所需要的Actor网络和判别式网络；

训练过程中，通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数，其损失函数如下：

其中，

是模仿策略π_IL的熵，由常数λ(λ≥0)控制，作为损失函数中的策略正则项；

利用训练好的窃取模型生成对抗样本攻击目标模型。

所述差分隐私机制表示如下：

其中，

是均值为0，方差为

高斯分布，一个单一应用的高斯机制敏感度函数f_dy满足

表示输入序列d_se的敏感度；

将差分隐私机制加入到目标模型中间层。

用差分隐私机制逼近实值函数

的一个常见范例是通过添加噪声校准

的灵敏度

它被定义为两个相邻输入序列d_se和d′_se之间绝对距离的最大值。

在深度强化学习中，动态差分隐私(DDP)为策略执行前向DRL模型中间层添加动态差分隐私，为了保证给定的噪声分布满足(ε,δ)-DDP，本发明选择噪声尺度σ≥cΔs/ε和常量

对ε∈(0,1)；在这个结果中，数据集中数据加噪声样本的值，Δs是由

给出的函数s的灵敏度，s是一个实值函数。模型动态添加安全加固机制保证策略动作分布与原动作空间分布不同，攻击者拿到的动作空间分布很难预测出原模型算法。

具体的，将模型窃取攻击的衡量指标定义为：

这个公式衡量的是模型窃取目标模型的效果和程度，

其中：R_stl是模型窃取后奖励值，R_test是原模型测试奖励值。

则添加了差分隐私保护机制的模型窃取防御的衡量指标为：

这个公式衡量了本发明的防御效果，直观来讲，衡量的是在本发明的防御下，模型窃取攻击的下降程度；

其中：R_defnse是模型窃取防御后奖励值，R_stl是模型窃取后奖励值，R_test是原模型测试奖励值。

一种基于差分隐私的深度强化学习模型安全加固装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述任一项所述的基于差分隐私的深度强化学习模型安全加固方法。

与现有技术相比，本发明的有益之处在于：

(1)通过在模型输中间层引入差分隐私的指数机制，降低模型窃取攻击者能够从模型输出中获得的信息量，在不改变模型输出动作的前提下，最大程度模糊深度模型的输出分布，大大降低模型窃取攻击的水平，从而防止攻击者利用动作空间分布窃取原模型。

附图说明

图1为本发明提供的基于差分隐私的深度强化学习模型安全加固方法的总流程图；

图2为本发明提供的基于差分隐私的深度强化学习模型安全加固方法的深度强化学习模型原理图。

具体实施方式

下面结合附图和具体实施例，对本发明做进一步说明。

本实施例提供了一种基于差分隐私的深度强化学***，从而防止攻击者利用动作空间分布窃取原模型。

图1为本实施例提供的基于差分隐私的深度强化学习模型安全加固方法的总流程图，实施例提供的基于差分隐私的深度强化学习模型安全加固方法可用于游戏AI领域，用于训练游戏AI自动玩游戏。

如图1-2所示，基于差分隐私的深度强化学习模型安全加固方法包括如下步骤：

(1)从环境中采样数据作为待训练样本集，利用深度强化学习算法构建目标模型，将待训练样本集输入到目标模型中对目标模型进行训练；具体训练过程包括

(1.1)使用经验回放机制，在线收集并处理得到在线样本集；

(1.2)将在线样本集和待训练样本集储存到回放记忆单元中形成转移样本；

(1.3)每次训练时，从转移样本中随机抽取转移样本输入到当前值网络得到当前Q值，并在训练过程中使用随机梯度下降算法更新参数，；

(1.4)将当前值网络的参数复制给目标值网络得到当前Q值的优化目标，即目标Q值；

(1.5)通过最小化当前Q值和目标Q值之间的均方误差对网络参数进行更新；当前Q值与误差Q值间的误差函数如下：

对参数θ求偏导，得到以下梯度：

其中，s是当前状态，a是对应动作，s′是下一状态，θ_i是模型参数；E表示期望，Y_i表示期望Q值，Q(s,a|θ_i)表示状态s和动作a的奖励值。

(1.6)深度强化学习算法将奖赏值和误差项缩小到有限区间内，通过梯度下降优化得到最优策略，最优策略如下：

(2)对训练好的目标模型进行测试，并采样状态动作作为窃取数据集；

(3)利用深度强化学习算法构建窃取模型，所述窃取模型用于模拟攻击目标模型的攻击动作；

(4)将窃取数据集作为训练样本输入到窃取模型中并利用模仿学习算法训练窃取模型；训练步骤如下：

(4.1)利用Actor网络代替生成器G，将其输出的动作与状态成对输入到判别器中与专家数据进行对比，并将判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习，判别器损失函数表示为：

(4.2)训练过程中，通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数，其损失函数如下：

其中，

(4.3)利用训练好的窃取模型生成对抗样本攻击目标模型。

(5)将差分隐私保护机制添加到训练好的目标模型的中间层，将目标模型在差分隐私机制的作用下输出的数据输入到窃取模型中；所述差分隐私机制表示如下：

其中，

是均值为0，方差为

高斯分布，一个单一应用的高斯机制敏感度函数f_dy满足

ε＜1，f(d_se)表示输入序列d_se的敏感度。

(6)窃取模型在有差分隐私机制作用的数据的影响下作出错误的攻击动作；

将模型窃取攻击的衡量指标定义为：

这个公式衡量的是模型窃取目标模型的效果和程度，

则添加了差分隐私保护机制的模型窃取防御的衡量指标为：

Claims

1.一种基于差分隐私的深度强化学习模型安全加固方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于差分隐私的深度强化学习模型安全加固方法，其特征在于，对目标模型的训练包括如下步骤：

使用经验回放机制，在线收集并处理得到在线样本集；

通过最小化当前Q值和目标Q值之间的均方误差对网络参数进行更新；

深度强化学习算法将奖赏值和误差项缩小到有限区间内，通过梯度下降优化得到最优策略。

3.根据权利要求2所述的基于差分隐私的深度强化学习模型安全加固方法，其特征在于，当前Q值与误差Q值间的误差函数如下：

对参数θ求偏导，得到以下梯度：

其中，s是当前状态，a是对应动作，s′是下一状态，θ_i是模型参数，E表示期望，Y_i表示期望Q值，Q(s,a|θ_i)表示状态s和动作a的奖励值。

4.根据权利要求2所述的基于差分隐私的深度强化学习模型安全加固方法，其特征在于，所述最优策略如下：

5.根据权利要求1所述的基于差分隐私的深度强化学习模型安全加固方法，对窃取模型的训练包括如下步骤：

其中，

利用训练好的窃取模型生成对抗样本攻击目标模型。

6.根据权利要求1所述的基于差分隐私的深度强化学习模型安全加固方法，其特征在于：所述差分隐私机制表示如下：

其中，

是均值为0，方差为

高斯分布，一个单一应用的高斯机制敏感度函数f_dy满足

ε＜1，f(d_se)表示输入序列d_se的敏感度；

将差分隐私机制加入到目标模型中间层。

7.一种基于差分隐私的深度强化学习模型安全加固装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于：所述计算机处理器执行所述计算机程序时实现权利要求1-6任一项所述的基于差分隐私的深度强化学习模型安全加固方法。