CN113360917A - 基于差分隐私的深度强化学习模型安全加固方法及装置 - Google Patents
基于差分隐私的深度强化学习模型安全加固方法及装置 Download PDFInfo
- Publication number
- CN113360917A CN113360917A CN202110766183.8A CN202110766183A CN113360917A CN 113360917 A CN113360917 A CN 113360917A CN 202110766183 A CN202110766183 A CN 202110766183A CN 113360917 A CN113360917 A CN 113360917A
- Authority
- CN
- China
- Prior art keywords
- model
- stealing
- value
- differential privacy
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000009471 action Effects 0.000 claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000004088 simulation Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 7
- 230000035945 sensitivity Effects 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000003014 reinforcing effect Effects 0.000 abstract description 5
- 230000007123 defense Effects 0.000 description 18
- 230000007613 environmental effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/575—Secure boot
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于差分隐私的深度强化学习模型安全加固方法及装置,其中包括一种基于差分隐私的深度强化学习模型安全加固方法,包括如下步骤:从环境中采样数据作为待训练样本集,利用深度强化学习算法构建目标模型,将待训练样本集输入到目标模型中对目标模型进行训练;对训练好的目标模型进行测试,并采样状态动作作为窃取数据集;利用深度强化学习算法构建窃取模型;将窃取数据集作为训练样本输入到窃取模型中并利用模仿学习算法训练窃取模型;将差分隐私保护机制添加到训练好的目标模型中,将目标模型在差分隐私机制的作用下输出的数据输入到窃取模型中;窃取模型在有差分隐私机制作用的数据的影响下作出错误的攻击动作。
Description
技术领域
本发明涉及数据安全领域,特别涉及一种基于差分隐私的深度强化学习模型安全加固方法及装置。
背景技术
随着人工智能的飞速发展,将深度学习的感知能力和强化学习的决策能力相结合的深度强化学习算法被广泛应用在自动驾驶、自动翻译、游戏AI等领域中。
但是近期研究表明,深度强化学习模型容易受到不同类型的恶意攻击,深度强化学习算法存在的安全漏洞是的深度强化学习***的完整性、可用性和机密性受到极大的威胁,随着人工智能与生产生活的联系日益紧密,人们对解决人工智能应用安全问题的需求日渐迫切。
现有的提高深度学习模型安全性的方法如公开号为CN110968866A的中国专利申请公开的一种面向深度强化学习模型对抗攻击的防御方法;所述防御方法包括以下步骤:利用基于生成式对抗网络构建的视觉预测模型对输入的前一时刻环境状态进行预测输出预测当前环境状态,并获得预测当前环境状态在深度强化学习策略下的下一帧预测环境状态值;获取深度强化学习模型输出的实际当前环境状态,并获得实际当前环境状态在深度强化学习策略下添加扰动的环境状态值;利用基于生成式对抗网络构建的判别模型对预测环境状态值和添加扰动的环境状态值进行判别,根据判别结果获得深度强化学习模型是否被攻击;在深度强化学习模型被攻击时,提取实际当前环境状态,利用基于SqueezeNet的第一防御模型对实际当前环境状态进行第一层防御,利用基于DenseNet的第二防御模型对第一层防御结果进行第二层防御,获得防御后的实际当前环境状态;深度强化学习模型利用防御后的实际当前环境状态进行学习预测输出。
上述专利申请提供的面向深度强化学习模型对抗攻击的防御方法利用视觉预测模型和判别器及外加防御模型对强化学习模型进行防御,此种方法是利用强化学习进行防御而不是对深度强化学习模型进行安全加固。
发明内容
为解决现有技术中存在的问题,本发明提供一种于差分隐私的深度强化学***,从而防止攻击者利用动作空间分布窃取原模型的目的。
一种基于差分隐私的深度强化学习模型安全加固方法,所述方法包括如下步骤:
从环境中采样数据作为待训练样本集,利用深度强化学习算法构建目标模型,将待训练样本集输入到目标模型中对目标模型进行训练;
对训练好的目标模型进行测试,并采样状态动作作为窃取数据集;
利用深度强化学习算法构建窃取模型,所述窃取模型用于模拟攻击目标模型的攻击动作;
将窃取数据集作为训练样本输入到窃取模型中并利用模仿学习算法训练窃取模型;
将差分隐私保护机制添加到训练好的目标模型中,将目标模型在差分隐私机制的作用下输出的数据输入到窃取模型中;
窃取模型在有差分隐私机制作用的数据的影响下作出错误的攻击动作。
对目标模型的训练包括如下步骤:
使用经验回放机制,在线收集并处理得到在线样本集;
将在线样本集和待训练样本集储存到回放记忆单元中形成转移样本;
每次训练时,从转移样本中随机抽取转移样本输入到当前值网络得到当前Q值,并在训练过程中使用随机梯度下降算法更新参数;
将当前值网络的参数复制给目标值网络得到当前Q值的优化目标,即目标Q值;
通过最小化当前Q值和目标Q值之间的均方误差对网络参数进行更新;引入目标值网络后,在一段时间内目标Q值是保持不变的,一定程度上降低了当前Q值和目标Q值之间的相关性,提升了算法的稳定性;
深度强化学习算法将奖赏值和误差项缩小到有限区间内,保证了Q值和梯度值都处于合理的范围内,提高了算法的稳定性,通过梯度下降优化得到最优策略。
深度强化学习问题通常可以被建模为马尔科夫决策过程,即可以由一个四元组表示MDP=(S,A,R,P),其中S表示决策过程中所能得到的状态集合,A表示决策过程中的动作集合,R表示用于对状态转移做出的实时奖励,P则为状态转移概率。在任意时间步长t的开始,智能体观察环境得到当前状态st,并且根据当前的最优策略π*做出动作at,在t的最后,智能体得到其奖励rt及下一个观测状态st+1;深度强化学习算法采用的是一种被称为'hard'模式的目标值网络参数更新,即每隔一定的步数就将当前值网络中的网络参数赋值给目标值网络;
在训练深度强化网络时,通常要求样本之间是相互独立的,随机采样的方式,大大降低了样本之间的关联性,从而提升了算法的稳定性;
通常,表示当前值网络的输出,用来评估当前状态动作对的值函数;表示目标值网络的输出,一般采用似表示值函数的优化目标。
当前Q值与误差Q值间的误差函数如下:
对参数θ求偏导,得到以下梯度:
其中,s是当前状态,a是对应动作,r是奖励值,s′是下一状态,θi是模型参数,E表示期望,Yi表示期望Q值,Q(s,a|θi)表示状态s和动作a的奖励值。
所述最优策略如下:
其中,s是当前状态,a是对应动作,A动作集合,Q*是最优值函数,π*是最优策略。
对窃取模型的训练包括如下步骤:
利用Actor网络代替生成器G,将其输出的动作与状态成对输入到判别器中与专家数据进行对比,并将判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习,判别器损失函数表示为:
其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略,第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1-D(s,a))则表示对生成数据的判断;
具体的,通过这样一个最大最小博弈过程,循环交替优化G和D来训练所需要的Actor网络和判别式网络;
训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
利用训练好的窃取模型生成对抗样本攻击目标模型。
所述差分隐私机制表示如下:
将差分隐私机制加入到目标模型中间层。
在深度强化学习中,动态差分隐私(DDP)为策略执行前向DRL模型中间层添加动态差分隐私,为了保证给定的噪声分布满足(ε,δ)-DDP,本发明选择噪声尺度σ≥cΔs/ε和常量对ε∈(0,1);在这个结果中,数据集中数据加噪声样本的值,Δs是由给出的函数s的灵敏度,s是一个实值函数。模型动态添加安全加固机制保证策略动作分布与原动作空间分布不同,攻击者拿到的动作空间分布很难预测出原模型算法。
具体的,将模型窃取攻击的衡量指标定义为:
这个公式衡量的是模型窃取目标模型的效果和程度,
其中:Rstl是模型窃取后奖励值,Rtest是原模型测试奖励值。
则添加了差分隐私保护机制的模型窃取防御的衡量指标为:
这个公式衡量了本发明的防御效果,直观来讲,衡量的是在本发明的防御下,模型窃取攻击的下降程度;
其中:Rdefnse是模型窃取防御后奖励值,Rstl是模型窃取后奖励值,Rtest是原模型测试奖励值。
一种基于差分隐私的深度强化学习模型安全加固装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述任一项所述的基于差分隐私的深度强化学习模型安全加固方法。
与现有技术相比,本发明的有益之处在于:
(1)通过在模型输中间层引入差分隐私的指数机制,降低模型窃取攻击者能够从模型输出中获得的信息量,在不改变模型输出动作的前提下,最大程度模糊深度模型的输出分布,大大降低模型窃取攻击的水平,从而防止攻击者利用动作空间分布窃取原模型。
附图说明
图1为本发明提供的基于差分隐私的深度强化学习模型安全加固方法的总流程图;
图2为本发明提供的基于差分隐私的深度强化学习模型安全加固方法的深度强化学习模型原理图。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步说明。
本实施例提供了一种基于差分隐私的深度强化学***,从而防止攻击者利用动作空间分布窃取原模型。
图1为本实施例提供的基于差分隐私的深度强化学习模型安全加固方法的总流程图,实施例提供的基于差分隐私的深度强化学习模型安全加固方法可用于游戏AI领域,用于训练游戏AI自动玩游戏。
如图1-2所示,基于差分隐私的深度强化学习模型安全加固方法包括如下步骤:
(1)从环境中采样数据作为待训练样本集,利用深度强化学习算法构建目标模型,将待训练样本集输入到目标模型中对目标模型进行训练;具体训练过程包括
(1.1)使用经验回放机制,在线收集并处理得到在线样本集;
(1.2)将在线样本集和待训练样本集储存到回放记忆单元中形成转移样本;
(1.3)每次训练时,从转移样本中随机抽取转移样本输入到当前值网络得到当前Q值,并在训练过程中使用随机梯度下降算法更新参数,;
(1.4)将当前值网络的参数复制给目标值网络得到当前Q值的优化目标,即目标Q值;
(1.5)通过最小化当前Q值和目标Q值之间的均方误差对网络参数进行更新;当前Q值与误差Q值间的误差函数如下:
对参数θ求偏导,得到以下梯度:
其中,s是当前状态,a是对应动作,s′是下一状态,θi是模型参数;E表示期望,Yi表示期望Q值,Q(s,a|θi)表示状态s和动作a的奖励值。
(1.6)深度强化学习算法将奖赏值和误差项缩小到有限区间内,通过梯度下降优化得到最优策略,最优策略如下:
其中,s是当前状态,a是对应动作,A动作集合,Q*是最优值函数,π*是最优策略。
(2)对训练好的目标模型进行测试,并采样状态动作作为窃取数据集;
(3)利用深度强化学习算法构建窃取模型,所述窃取模型用于模拟攻击目标模型的攻击动作;
(4)将窃取数据集作为训练样本输入到窃取模型中并利用模仿学习算法训练窃取模型;训练步骤如下:
(4.1)利用Actor网络代替生成器G,将其输出的动作与状态成对输入到判别器中与专家数据进行对比,并将判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习,判别器损失函数表示为:
其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略,第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1-D(s,a))则表示对生成数据的判断;
(4.2)训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
(4.3)利用训练好的窃取模型生成对抗样本攻击目标模型。
(5)将差分隐私保护机制添加到训练好的目标模型的中间层,将目标模型在差分隐私机制的作用下输出的数据输入到窃取模型中;所述差分隐私机制表示如下:
(6)窃取模型在有差分隐私机制作用的数据的影响下作出错误的攻击动作;
将模型窃取攻击的衡量指标定义为:
这个公式衡量的是模型窃取目标模型的效果和程度,
其中:Rstl是模型窃取后奖励值,Rtest是原模型测试奖励值。
则添加了差分隐私保护机制的模型窃取防御的衡量指标为:
这个公式衡量了本发明的防御效果,直观来讲,衡量的是在本发明的防御下,模型窃取攻击的下降程度;
其中:Rdefnse是模型窃取防御后奖励值,Rstl是模型窃取后奖励值,Rtest是原模型测试奖励值。
Claims (7)
1.一种基于差分隐私的深度强化学习模型安全加固方法,其特征在于,所述方法包括如下步骤:
从环境中采样数据作为待训练样本集,利用深度强化学习算法构建目标模型,将待训练样本集输入到目标模型中对目标模型进行训练;
对训练好的目标模型进行测试,并采样状态动作作为窃取数据集;
利用深度强化学习算法构建窃取模型,所述窃取模型用于模拟攻击目标模型的攻击动作;
将窃取数据集作为训练样本输入到窃取模型中并利用模仿学习算法训练窃取模型;
将差分隐私保护机制添加到训练好的目标模型中,将目标模型在差分隐私机制的作用下输出的数据输入到窃取模型中;
窃取模型在有差分隐私机制作用的数据的影响下作出错误的攻击动作。
2.根据权利要求1所述的基于差分隐私的深度强化学习模型安全加固方法,其特征在于,对目标模型的训练包括如下步骤:
使用经验回放机制,在线收集并处理得到在线样本集;
将在线样本集和待训练样本集储存到回放记忆单元中形成转移样本;
每次训练时,从转移样本中随机抽取转移样本输入到当前值网络得到当前Q值,并在训练过程中使用随机梯度下降算法更新参数;
将当前值网络的参数复制给目标值网络得到当前Q值的优化目标,即目标Q值;
通过最小化当前Q值和目标Q值之间的均方误差对网络参数进行更新;
深度强化学习算法将奖赏值和误差项缩小到有限区间内,通过梯度下降优化得到最优策略。
5.根据权利要求1所述的基于差分隐私的深度强化学习模型安全加固方法,对窃取模型的训练包括如下步骤:
利用Actor网络代替生成器G,将其输出的动作与状态成对输入到判别器中与专家数据进行对比,并将判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习,判别器损失函数表示为:
其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略,第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1-D(s,a))则表示对生成数据的判断;
训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
利用训练好的窃取模型生成对抗样本攻击目标模型。
7.一种基于差分隐私的深度强化学习模型安全加固装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于:所述计算机处理器执行所述计算机程序时实现权利要求1-6任一项所述的基于差分隐私的深度强化学习模型安全加固方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110766183.8A CN113360917A (zh) | 2021-07-07 | 2021-07-07 | 基于差分隐私的深度强化学习模型安全加固方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110766183.8A CN113360917A (zh) | 2021-07-07 | 2021-07-07 | 基于差分隐私的深度强化学习模型安全加固方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113360917A true CN113360917A (zh) | 2021-09-07 |
Family
ID=77538674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110766183.8A Pending CN113360917A (zh) | 2021-07-07 | 2021-07-07 | 基于差分隐私的深度强化学习模型安全加固方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360917A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254274A (zh) * | 2021-11-16 | 2022-03-29 | 浙江大学 | 一种基于神经元输出的白盒深度学习模型版权保护方法 |
CN114547687A (zh) * | 2022-02-22 | 2022-05-27 | 浙江星汉信息技术股份有限公司 | 基于差分隐私技术的问答***模型训练方法和装置 |
WO2023206777A1 (zh) * | 2022-04-29 | 2023-11-02 | 浪潮(北京)电子信息产业有限公司 | 模型生成方法、运行控制方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311540A1 (en) * | 2019-03-28 | 2020-10-01 | International Business Machines Corporation | Layer-Wise Distillation for Protecting Pre-Trained Neural Network Models |
CN112052456A (zh) * | 2020-08-31 | 2020-12-08 | 浙江工业大学 | 基于多智能体的深度强化学习策略优化防御方法 |
CN112241554A (zh) * | 2020-10-30 | 2021-01-19 | 浙江工业大学 | 基于差分隐私指数机制的模型窃取防御方法和装置 |
CN112884131A (zh) * | 2021-03-16 | 2021-06-01 | 浙江工业大学 | 一种基于模仿学习的深度强化学习策略优化防御方法和装置 |
-
2021
- 2021-07-07 CN CN202110766183.8A patent/CN113360917A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311540A1 (en) * | 2019-03-28 | 2020-10-01 | International Business Machines Corporation | Layer-Wise Distillation for Protecting Pre-Trained Neural Network Models |
CN112052456A (zh) * | 2020-08-31 | 2020-12-08 | 浙江工业大学 | 基于多智能体的深度强化学习策略优化防御方法 |
CN112241554A (zh) * | 2020-10-30 | 2021-01-19 | 浙江工业大学 | 基于差分隐私指数机制的模型窃取防御方法和装置 |
CN112884131A (zh) * | 2021-03-16 | 2021-06-01 | 浙江工业大学 | 一种基于模仿学习的深度强化学习策略优化防御方法和装置 |
Non-Patent Citations (2)
Title |
---|
刘全 等: "深度强化学习综述", 《计算机学报》 * |
赵静雯: "基于差分隐私的深度学习隐私保护研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254274A (zh) * | 2021-11-16 | 2022-03-29 | 浙江大学 | 一种基于神经元输出的白盒深度学习模型版权保护方法 |
CN114254274B (zh) * | 2021-11-16 | 2024-05-31 | 浙江大学 | 一种基于神经元输出的白盒深度学习模型版权保护方法 |
CN114547687A (zh) * | 2022-02-22 | 2022-05-27 | 浙江星汉信息技术股份有限公司 | 基于差分隐私技术的问答***模型训练方法和装置 |
WO2023206777A1 (zh) * | 2022-04-29 | 2023-11-02 | 浪潮(北京)电子信息产业有限公司 | 模型生成方法、运行控制方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113360917A (zh) | 基于差分隐私的深度强化学习模型安全加固方法及装置 | |
Lazaridis et al. | Deep reinforcement learning: A state-of-the-art walkthrough | |
CN107483486B (zh) | 基于随机演化博弈模型的网络防御策略选取方法 | |
CN112052456A (zh) | 基于多智能体的深度强化学习策略优化防御方法 | |
CN112884131A (zh) | 一种基于模仿学习的深度强化学习策略优化防御方法和装置 | |
CN105637540A (zh) | 用于强化学习的方法和设备 | |
CN113179263A (zh) | 一种网络入侵检测方法、装置及设备 | |
CN111282267A (zh) | 信息处理方法、装置、介质及电子设备 | |
CN113392396A (zh) | 面向深度强化学习的策略保护防御方法 | |
CN113420326A (zh) | 面向深度强化学习的模型隐私保护方法和*** | |
CN113704098B (zh) | 一种基于蒙特卡洛搜索树种子调度的深度学习模糊测试方法 | |
Mo et al. | MCTSteg: A Monte Carlo tree search-based reinforcement learning framework for universal non-additive steganography | |
CN111488904A (zh) | 基于对抗分布训练的图像分类方法及*** | |
CN115033878A (zh) | 快速自博弈强化学习方法、装置、计算机设备和存储介质 | |
CN114358278A (zh) | 神经网络模型的训练方法及装置 | |
CN113255526A (zh) | 基于动量的对人群计数模型的对抗样本生成方法及*** | |
CN111144243B (zh) | 基于对抗学习的户型图识别方法和装置 | |
Lin et al. | An uncertainty-incorporated approach to predict the winner in StarCraft II using neural processes | |
CN116306268A (zh) | 基于联邦强化学习的盾构掘进仿真模型参数辨识方法*** | |
CN113344071B (zh) | 一种基于深度策略梯度的入侵检测算法 | |
CN113378985A (zh) | 一种基于逐层相关性传播的对抗样本检测方法和装置 | |
Cranford et al. | Accounting for uncertainty in deceptive signaling for cybersecurity | |
CN114036503B (zh) | 一种迁移攻击方法、装置、电子设备及存储介质 | |
CN113313236B (zh) | 基于时序神经通路的深度强化学习模型中毒检测方法及其装置 | |
Ma et al. | Intelligent cybersecurity situational awareness model based on deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210907 |
|
RJ01 | Rejection of invention patent application after publication |