CN114666107B - 移动雾计算中一种高级持续性威胁防御方法 - Google Patents
移动雾计算中一种高级持续性威胁防御方法 Download PDFInfo
- Publication number
- CN114666107B CN114666107B CN202210232071.9A CN202210232071A CN114666107B CN 114666107 B CN114666107 B CN 114666107B CN 202210232071 A CN202210232071 A CN 202210232071A CN 114666107 B CN114666107 B CN 114666107B
- Authority
- CN
- China
- Prior art keywords
- apt
- attack
- attacker
- probability
- fog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004364 calculation method Methods 0.000 title claims abstract description 32
- 230000007123 defense Effects 0.000 title claims abstract description 25
- 230000002085 persistent effect Effects 0.000 title claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 73
- 238000001514 detection method Methods 0.000 claims description 69
- 230000003068 static effect Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 23
- 230000008901 benefit Effects 0.000 claims description 14
- 239000003595 mist Substances 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 6
- 230000008450 motivation Effects 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
移动雾计算中一种高级持续性威胁防御方法涉及了计算机网络和无线通信领域,又属于信息安全领域。本发明利用前景理论(Prospect Theory,PT)和DQL(Double Q‑learning)算法,实现了移动雾计算中APT攻击防御。雾计算是半虚拟化的服务计算架构模型,其虚拟化的环境容易遭受高级持续性威胁攻击,影响雾计算网络中雾节点和终端用户的安全通信。本发明可以克服Q‑learning算法的过拟合问题,既能够有效抑制APT攻击者的攻击动机,提高合法用户的效用,又可以提高动态APT防御博弈的性能,而且能有效地保护移动雾计算环境的完整性和安全性。
Description
技术领域
本发明既涉及了计算机网络和无线通信领域,又属于信息安全领域。本发明提出了移动雾计算中一种高级持续性威胁(Advanced Persistent Threats,APT)防御方法,利用前景理论(Prospect Theory,PT)和DQL(Double Q-learning)算法,实现了移动雾计算中APT攻击防御。雾计算是半虚拟化的服务计算架构模型,其虚拟化的环境容易遭受高级持续性威胁攻击,影响雾计算网络中雾节点和终端用户的安全通信。一种基于DQL算法的高级持续性攻击防御方法,可以克服Q-learning算法的过拟合问题,既能够有效抑制APT攻击者的攻击动机,提高合法用户的效用,又可以提高动态APT防御博弈的性能,而且能有效地保护移动雾计算环境的完整性和安全性。使用博弈论和强化学习算法防御APT攻击,
背景技术
随着互联网的快速发展,数据呈现***式增长的趋势,人们对计算和存储资源的需求不断提升。传统的云计算需要将数据发往云中心进行计算,不能够提供很好的移动性支持;此外,数据长距离的传输引起的高时延使传统的云计算不适用于时延敏感的应用,同时也增加了被攻击的可能性,从而影响数据的安全性。雾计算通过在移动设备和云之间引入一个中间雾层来扩展云计算,将计算从中心扩展到了网络边缘,它将少量的计算、存储和通信资源分配给靠近用户的移动设备上,通过短距离无线连接,能够在本地处理数据,从而为用户提供便捷的服务。基于位置分布的雾服务器,雾计算解决了云计算无法感知位置和高时延的问题。
然而,由于雾计算是一个高度虚拟化的平台,其容易遭受高级持续性威胁攻击。APT攻击具有极强的隐蔽能力、攻击手段丰富、防范难度高等特点,APT攻击者通常会实施多个攻击阶段,并提前研究防御策略,使用多种复杂的手段连续不断地对雾计算网络发起攻击,导致雾节点和终端用户之间传输的信息被窃取。面临这样的威胁,为了确保雾计算网络的安全以及防御APT攻击,博弈论是一个研究此问题的强大工具。目前,研究学者们的研究大多基于传统的期望效用理论(Expected Utility Theory,EUT),因为他们认为每个参与者都是理性的,以此理论来最大化期望收益。但是实际上,在移动雾计算网络中,雾节点和终端设备的移动性使得其环境是动态的,参与者不了解雾计算网络的状态和攻击者能否被成功检测到,所以并不会表现得很理性,在选择检测APT攻击的间隔时往往会带有一些主观性因素,这样会偏离EUT的结果。前景理论是一种解释人的风险决策行为的理论,该理论表明,人们在决策中面对收益时表现为风险规避,面对损失时是风险偏好的,并且对于损失的敏感程度要远大于等量的获得,它使用主观概率来计算参与者的效用,以反映决策者的主观性。
因此,本发明基于前景理论,提出了一种移动雾计算中基于DQL的APT防御方法。该方法通过构建APT攻击者和合法用户之间的静态博弈模型,推导出了博弈的纳什平衡条件,同时利用DQL算法,使合法用户选择出最优的检测APT攻击的策略。该方法可以增加合法用户的效用,降低攻击率,与基于Q-learning算法,Sarsa算法和Greedy算法的方法相比,可以更好地保护雾节点免受APT攻击,保证移动雾计算网络的安全性。
发明内容
本发明获得了一种移动雾计算中基于DQL算法的APT攻击防御方法,设计了雾计算网络中APT攻防***模型,基于PT构建了APT攻击者和合法用户之间的静态博弈模型,并利用DQL算法设计了动态防御方案。通过该方法抵御APT攻击,解决了Q-learning算法的过拟合问题,降低了雾节点遭到攻击的可能性,提高了合法用户的效用,同时增强了移动雾计算环境的安全性和可靠性。
本发明采用了如下的技术方案及实现步骤:
1.移动雾计算中的APT攻防安全模型
本发明建立的***安全模型如图1所示,从上往下依次是云层、雾层和终端用户层,此模型由以下实体组成:云服务器、雾节点、APT攻击者以及合法用户。仅考虑雾层和终端用户层,两层之间通过无线网络进行通信。此模型中任意一个APT攻击者是具有主观性的终端用户,都可能随时对雾节点发起APT攻击,雾节点的取值集合为N={1,2,…,N},n∈N,它们会受到APT攻击者(用A表示)的攻击,同时也会受到合法用户(用B表示)的保护。合法用户选择一定的时间间隔对雾节点n执行第t次检测,这一时间间隔用表示,1≤n≤N。由于合法用户对雾节点进行APT攻击的检测需要花费一些时间,所以/>假设合法用户一旦检测到了雾节点上先前的APT攻击并立即对其进行重新恢复,攻击者将等待时间间隔/>对该雾节点再次发起攻击,进行攻击所需的时间用/>表示,这一时间取决于***模型,通常是未知的随机变量。假设初期所有的N个雾节点都处于安全状态,不会受到APT攻击者的攻击。
2.一种基于DQL算法的APT攻击防御方法
该方法包括以下步骤:
(1)根据PT,构造APT攻击者与合法用户之间的静态主观博弈。在静态零和博弈中,对于雾节点n,合法用户检测雾节点的时间间隔表示为αn,APT攻击者攻击雾节点的时间间隔表示为βn,攻击持续时间表示为为了方便分析,本发明将检测间隔和攻击间隔进行归一化处理,即αn∈(0,1],βn∈[0,1]。在PT中,概率权重函数以数学化的形式被用来对游戏双方的决策制定进行建模,它衡量的是从决策者看来某一结果的发生对预期价值的影响程度。APT攻击者和合法用户在面临低概率事件时,会高估相应的客观概率;在面临高概率事件时,会低估相应的客观概率。本发明利用Prelec权重函数计算两者的主观概率,计算公式如下:
其中p表示客观概率,p∈(0,1],Wplayer(p)表示APT攻击者和合法用户做决策的主观概率;σplayer表示游戏双方做决策的客观概率权重,σplayer∈(0,1];player代表游戏双方,在本发明中,player=A或player=B。
如图2所示,雾节点n处于安全的时间占合法用户检测时间间隔的比例为攻击率表示N个雾节点受到攻击的时间与合法用户检测时间间隔的比率,用Rn表示,其计算公式如下式所示:
根据APT静态博弈模型,合法用户和APT攻击者的效用值分别如下式所示:
其中,Gn表示合法用户在单位检测间隔内获得的收益,Ln表示攻击者对雾节点n进行APT攻击所需的成本。I(·)是指示函数,它表示的含义是如果βn<αn,即攻击者正在攻击雾节点n,则I(βn<αn)=1,否则其值为0。
由于APT攻击者完成攻击雾节点n所需的时间很难计算,因此被量化为Z个非零等级,对应概率分布为/>其中/>是/>的概率,/>根据定义,有/>且所有量化概率的和/>
根据公式(3)和(4),如果博弈双方基于EUT计算各自的效用,计算公式分别为:
其中,表示合法用户基于EUT计算的效用值,/>表示APT攻击者基于EUT计算的效用值。合法用户和攻击者对雾节点进行攻防时,会受到主观因素的影响。如果双方用PT计算各自的收益,将基于主观概率做决策,而不是公式(5)和(6)中的客观概率/>所以,根据公式(1)(5)(6),两者基于PT的效用如下式所示:
其中,分别表示合法用户和APT攻击者的主观概率。
在APT攻击者和合法用户之间的APT静态博弈过程中,双方通过不断地调整各自的客观概率权重来改变做决策的主观概率,目的是最大化各自的期望效用,从而达到纳什平衡。当攻击雾节点的成本较高时,APT攻击者会选择停止攻击雾节点;当攻击所需的成本较低时,攻击者会立即对雾节点发起APT攻击,同时,合法用户会选择最大的检测间隔。本发明中,APT攻击者和合法用户的纳什平衡策略组合表示为表示使两者效用达到最大值时合法用户选择的检测间隔,/>表示使两者效用达到最大值时APT攻击者选择的攻击间隔,该策略组合是使博弈双方获得最大效用的组合方式,它应该满足以下条件:
在基于PT的静态APT博弈中,合法用户根据之前的检测经验来估计攻击者的客观概率权重σA,同时,APT攻击者根据先前的攻击经验预测合法用户的客观概率权重σB。在双方知道***参数的情况下,本步骤总结了以下几个特定场景下的纳什平衡条件,给出了纳什平衡解,并分别解释了形成NE的原因。
①在***模型中雾节点个数N=1,攻击持续时间的非零等级Z=2的情况下,假设攻击持续时间的分布服从[P0,P1,1-P0-P1],其中P0,P1,1-P0-P1分别为/> 的概率。此时,合法用户检测该雾节点获得的收益为G,攻击者攻击该雾节点的成本为L。
A.当满足公式(11)时,纳什平衡策略组合为(1,0)。
B.当满足公式(12)时,纳什平衡策略组合为
C.当满足公式(13)时,纳什平衡策略组合为(1,1)。
其中,σA,σB分别为APT攻击者和合法用户的客观概率权重,σA,σB∈(0,1]。
②在***模型中雾节点个数N=1,攻击持续时间的非零等级Z=3的情况下,假设攻击持续时间的分布服从[P0,P1,P2,1-P0-P1-P2],其中P0,P1,P2,1-P0-P1-P2分别为的概率。此时,合法用户检测该雾节点获得的收益为G,攻击者攻击该雾节点的成本为L。
A.当满足公式(14)时,纳什平衡策略组合为
B.当满足公式(15)时,纳什平衡策略组合为
C.当满足公式(16)时,纳什平衡策略组合为(1,0)。
D.当满足公式(17)时,纳什平衡策略组合为(1,1)。
③在***模型中雾节点个数N=2,攻击持续时间的非零等级Z=2的情况下,合法用户检测2个雾节点的时间间隔分别为α1,α2,获得的收益分别为G1,G2,假设G1=G2=G。攻击者攻击这2个雾节点的时间间隔分别为β1,β2,所需成本分别为L1,L2。假设这2个雾节点的攻击持续时间服从的分布也是相同的,即/>其服从的分布为[P0,P1,1-P0-P1],其中P0,P1,1-P0-P1分别为/>的概率。
A.当满足公式(18)时,纳什平衡策略组合为
B.当满足公式(19)时,纳什平衡策略组合为((1,1),(1,0))。
C.当满足公式(20)时,纳什平衡策略组合为(1/2,0)。
D.当满足公式(21)时,纳什平衡策略组合为(1,0)。
E.当满足公式(22)时,纳什平衡策略组合为(1,1)。
(2)基于DQL算法,设计一种防御APT攻击的动态博弈方法,以得到合法用户最优的检测间隔。在实际的雾计算网络中,合法用户和APT攻击者之间的博弈环境通常是动态的,双方对网络模型和一些***参数是未知的,比如攻击成本和检测增益,他们反复地进行博弈,以习得一些环境知识,积累先前情况下做出的策略信息。Q-learning作为一种强化学习算法,能够被用来在不确定的动态环境中得到最优策略,它用来评价一个智能体在特定状态下采取某个动作的优劣。由于在计算目标Q值时,Q-learning算法使用的是最大值函数,这会导致Q值过估计,产生最大化偏差,从而使算法无法收敛到适当的解。因此,针对APT攻击者不确定的攻击时间和主观策略,在单个雾节点的场景下,本步骤使用DQL算法构建APT攻击者与合法用户之间的动态主观博弈。
DQL算法使用两个Q表来互相交替更新Q值。该发明将合法用户观测的某一时刻前一时隙内的总攻击时长作为当前时刻t***的状态,即其中,βt-1表示前一时隙APT攻击者的检测间隔,/>表示前一时隙的攻击持续时间,将在时刻t合法用户选取的检测间隔αt表示为动作。静态APT博弈中基于PT计算的合法用户的效用作为动态博弈中的即时效用,并获取攻击时长/>βt和/>分别表示第t次攻防交互中APT攻击者的攻击间隔和攻击持续时间。t时刻的Q函数表示为Q(st,αt),则更新两个Q值函数的公式为:
其中,st表示时刻t***的状态,μ为学习率,μ∈[0,1],其值越大,学习速率越快,保留原来的学习经验越少;γ为奖励性衰变系数,γ∈[0,1],其值越大,对未来奖励的重视程度越高;Q1(st,αt),Q2(st,αt)分别表示Q表1和Q表2在时刻t状态下合法用户选择检测间隔αt的收益值;UB(st,αt)表示合法用户在状态st下选取检测间隔αt获得的立即效用。和/>分别是合法用户在状态st+1下选取的使Q1和Q2表的Q值最大的检测间隔,其计算公式为:
其中,Q1(st+1,αt+1),Q2(st+1,αt+1)分别表示Q表1和Q表2在时刻t+1状态下合法用户选择检测间隔αt+1的收益值。状态值函数V(st)是当前状态下合法用户选取的检测间隔Q1+Q2的最大平均值,即在状态st下合法用户的最大未来回报的期望,计算公式如下:
因此,合法用户的最优检测间隔λ*由下列公式给出:
其中,函数arg max表示当取最大值时αt的值,并将该值赋值给λ*。
在每个状态下,合法用户采用ε-greedy策略来选择检测间隔αt和更新Q值,以概率ε随机选择检测间隔,以概率1-ε选择最大化当前Q值的检测间隔,其中,ε∈(0,1)。
根据基于DQL算法的抵御APT攻击方法的步骤总结如下:
①初始化:μ,γ,ε,***初始状态s0,Q1(st,αt)=Q2(st,αt)=0,V(st)=0;
②t=1,2,3,...,观察***的当前状态
③利用ε-greedy策略选择检测间隔αt;
④间隔αt时间后对雾节点进行检测;
⑤计算UB(st,αt);
⑥观察攻击时长进入下一个状态st+1;
⑦以0.5的概率通过公式(23)和(25)更新Q1(st,αt),以0.5的概率根据公式(24)和(26)更新Q2(st,αt);
⑧通过公式(27)更新V(st);
⑨返回②继续执行直至算法收敛,即攻击率变化范围在-0.002~0.002之内,合法用户效用的变化范围在-0.005~0.005之内,最大Q值变化范围在-0.002~0.002之内,当满足这三个条件中任意一个时,根据两个Q表和公式(28)得到合法用户的最优检测间隔λ*。
本发明的创造性主要体现在:
(1)本发明针对移动雾计算环境容易遭受APT攻击的问题,利用博弈论中的前景理论对博弈玩家的主观性进行研究,构建了移动雾计算中的APT攻防安全模型以及APT攻击者与合法用户之间的静态主观博弈模型;鉴于雾计算环境的动态性以及强化学习算法可以在动态环境下获得最优策略,设计了一种基于DQL算法防御APT攻击的方案,保障了雾计算环境的安全性。
(2)本发明通过实验证明了较低的客观概率权重可以抑制APT攻击者的攻击动机,并将提出的方法与基于Q-learning算法、Sarsa算法以及Greedy算法抵御APT攻击的方法进行比较,结果表明本发明提出的方法能够解决Q值过度估计的问题,降低攻击率,提高合法用户的效用,增强移动雾计算网络的安全性。
附图说明
图1是本发明移动雾计算环境下的APT攻防安全模型示意图。
图2是本发明APT静态博弈模型示意图。
图3是在初始参数条件下静态主观博弈中客观权重对合法用户与APT攻击者效用的影响对比图。
图4是在初始参数条件下1-20000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的攻击率对比图。
图5是在初始参数条件下1-40000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的合法用户效用对比图。
图6是在初始参数条件下1-20000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的最大Q值对比图。
具体实施方式
本发明获得了一种移动雾计算中基于DQL算法的APT攻击防御方法,设计了移动雾计算网络中APT攻防***模型,基于PT构建了APT攻击者和合法用户之间的静态博弈模型,并利用DQL算法设计了动态防御方案。通过该方法抵御APT攻击,解决了Q-learning算法的过拟合问题,降低了雾节点遭到攻击的可能性,提高了合法用户的效用,同时增强了移动雾计算环境的安全性和可靠性。
本发明采用了如下的技术方案及实现步骤:
1.移动雾计算中的APT攻防安全模型
本发明考虑雾层和终端用户层,两层之间通过无线网络进行通信。此模型中任意一个APT攻击者是具有主观性的终端用户,都可能随时对雾节点发起APT攻击,雾节点的取值集合为N={1,2,...,N},n∈N,它们会受到APT攻击者(用A表示)的攻击,同时也会受到合法用户(用B表示)的保护。合法用户选择一定的时间间隔对雾节点n执行第t次检测,这一时间间隔用表示,1≤n≤N。由于合法用户对雾节点进行APT攻击的检测需要花费一些时间,所以/>假设合法用户一旦检测到了雾节点上先前的APT攻击并对其进行重新恢复,攻击者将等待时间间隔/>对该雾节点再次发起攻击,进行攻击所需的时间用/>表示,这一时间取决于***模型,通常是未知的随机变量。假设初期所有的N个雾节点都处于安全状态,不会受到APT攻击者的攻击。
2.一种基于DQL算法的APT攻击防御方法
该方法包括以下步骤:
(1)根据PT,构造APT攻击者与合法用户之间的静态主观博弈。在静态零和博弈中,对于雾节点n,合法用户检测雾节点的时间间隔表示为αn,APT攻击者攻击雾节点的时间间隔表示为βn,攻击持续时间表示为为了方便分析,本发明将检测间隔和攻击间隔进行归一化处理,即αn∈(0,1],βn∈[0,1]。在PT中,概率权重函数以数学化的形式被用来对游戏双方的决策制定进行建模,它衡量的是从决策者看来某一结果的发生对预期价值的影响程度。APT攻击者和合法用户在面临低概率事件时,会高估相应的客观概率;在面临高概率事件时,会低估相应的客观概率。本发明利用Prelec权重函数计算两者的主观概率,计算公式如下:
其中p表示客观概率,p∈(0,1],Wplayer(p)表示APT攻击者和合法用户做决策的主观概率;σplayer表示游戏双方做决策的客观概率权重,σplayer∈(0,1];player代表游戏双方,在本发明中,player=A或player=B。
攻击率被定义为N个雾节点受到攻击的时间与合法用户检测时间间隔的比率,用Rn表示,其计算公式如下式所示:
根据APT静态博弈模型,合法用户和APT攻击者的效用值分别如下式所示:
其中,Gn表示合法用户在单位检测间隔内获得的收益,Ln表示攻击者对雾节点n进行APT攻击所需的成本。I(.)是指示函数,它表示的含义是如果βn<αn,即攻击者正在攻击雾节点n,则I(βn<αn)=1,否则其值为0。
由于APT攻击者完成攻击雾节点n所需的时间很难计算,因此被量化为Z个非零等级,对应概率分布为/>其中/>的概率,/>根据定义,有/>且所有量化概率的和/>
根据公式(31)和(32),如果博弈双方基于EUT计算各自的效用,计算公式分别为:
其中,表示合法用户基于EUT计算的效用值,/>表示APT攻击者基于EUT计算的效用值。合法用户和攻击者在对雾节点进行攻防时,会受到主观因素的影响。如果双方用PT计算各自的收益,将基于主观概率做决策,而不是公式(33)和(34)中的客观概率/>所以,根据公式(29)(33)(34),两者基于PT的效用如下式所示:
其中,分别表示合法用户和APT攻击者的主观概率。
在APT攻击者和合法用户之间的APT博弈过程中,双方通过不断地调整各自的客观概率权重来改变做决策的主观概率,目的是最大化各自的期望效用,从而达到纳什平衡。当攻击雾节点的成本较高时,APT攻击者会选择停止攻击雾节点;当攻击所需的成本较低时,攻击者会立即对雾节点发起APT攻击,同时,合法用户会选择最大的检测间隔。本发明中,APT攻击者和合法用户的纳什平衡策略组合被表示为表示使两者效用达到最大值时合法用户选择的检测间隔,/>表示使两者效用达到最大值时APT攻击者选择的攻击间隔,该策略组合是使博弈双方获得最大效用的组合方式,它应该满足以下条件:
在基于PT的静态APT博弈中,合法用户根据之前的检测经验来估计攻击者的客观概率权重σA,同时,APT攻击者根据先前的攻击经验预测合法用户的客观概率权重σB。在双方知道***参数的情况下,本步骤总结了以下几个特定场景下的纳什平衡条件,给出了纳什平衡解,并分别解释了形成NE的原因。
①在***模型中雾节点个数N=1,攻击持续时间的非零等级Z=2的情况下,假设攻击持续时间的分布服从[P0,P1,1-P0-P1],其中P0,P1,1-P0-P1分别为/> 的概率。此时,合法用户检测该雾节点获得的收益为G,攻击者攻击该雾节点的成本为L。
A.当满足公式(39)时,纳什平衡策略组合为(1,0)。
B.当满足公式(40)时,纳什平衡策略组合为
C.当满足公式(41)时,纳什平衡策略组合为(1,1)。
其中,σA,σB分别为APT攻击者和合法用户的客观概率权重,σA,σB∈(0,1]。
②在***模型中雾节点个数N=1,攻击持续时间的非零等级Z=3的情况下,假设攻击持续时间的分布服从[P0,P1,P2,1-P0-P1-P2],其中P0,P1,P2,1-P0-P1-P2分别为的概率。此时,合法用户检测该雾节点获得的收益为G,攻击者攻击该雾节点的成本为L。
A.当满足公式(42)时,纳什平衡策略组合为
B.当满足公式(43)时,纳什平衡策略组合为
C.当满足公式(44)时,纳什平衡策略组合为(1,0)。
D.当满足公式(45)时,纳什平衡策略组合为(1,1)。
③在***模型中雾节点个数N=2,攻击持续时间的非零等级Z=2的情况下,合法用户检测2个雾节点的时间间隔分别为α1,α2,获得的收益分别为G1,G2,假设G1=G2=G。攻击者攻击这2个雾节点的时间间隔分别为β1,β2,所需成本分别为L1,L2。假设这2个雾节点的攻击持续时间服从的分布也是相同的,即/>其服从的分布为[P0,P1,1-P0-P1],其中P0,P1,1-P0-P1分别为/>的概率。
A.当满足公式(46)时,纳什平衡策略组合为
B.当满足公式(47)时,纳什平衡策略组合为((1,1),(1,0))。
C.当满足公式(48)时,纳什平衡策略组合为(1/2,0)。
D.当满足公式(49)时,纳什平衡策略组合为(1,0)。
E.当满足公式(50)时,纳什平衡策略组合为(1,1)。
(2)基于DQL算法,设计一种防御APT攻击的动态博弈方法,以得到合法用户最优的检测间隔。在实际的雾计算网络中,合法用户和APT攻击者之间的博弈环境通常是动态的,双方对网络模型和一些***参数是未知的,比如攻击成本和检测增益,他们反复地进行博弈,以习得一些环境知识,积累先前情况下做出的策略信息。Q-learning作为一种强化学习算法,能够被用来在不确定的动态环境中得到最优策略,它用来评价一个智能体在特定状态下采取某个动作的优劣。由于在计算目标Q值时,Q-learning算法使用的是最大值函数,这会导致Q值过估计,产生最大化偏差,从而使算法无法收敛到适当的解。因此,针对APT攻击者不确定的攻击时间和主观策略,在单个雾节点的场景下,本步骤使用DQL算法构建APT攻击者与合法用户之间的动态主观博弈。
DQL算法使用两个Q表来互相交替更新Q值。该发明将合法用户观测的某一时刻前一时隙内的总攻击时长作为当前时刻t***的状态,即其中,βt-1表示前一时隙APT攻击者的检测间隔,/>表示前一时隙的攻击持续时间,将在时刻t合法用户选取的检测间隔αt表示为动作。静态APT博弈中基于PT计算的合法用户的效用作为动态博弈中的即时效用,并获取攻击时长/>βt和/>分别表示第t次攻防交互中APT攻击者的攻击间隔和攻击持续时间。t时刻的Q函数表示为Q(st,αt),则更新两个Q值函数的公式为:
/>
其中,st表示在时刻t***的状态,μ为学习率,μ∈[0,1],其值越大,学习速率越快,保留原来的学习经验越少;γ为奖励性衰变系数,γ∈[0,1],其值越大,对未来奖励的重视程度越高;Q1(st,αt),Q2(st,αt)分别表示Q表1和Q表2在时刻t状态下合法用户选择检测间隔αt的收益值;UB(st,αt)表示合法用户在状态st下选取检测间隔αt获得的立即效用。和分别是合法用户在状态st+1下选取的使Q1和Q2表的Q值最大的检测间隔,其计算公式为:
其中,Q1(st+1,αt+1),Q2(st+1,αt+1)分别表示Q表1和Q表2在时刻t+1状态下合法用户选择检测间隔αt+1的收益值。状态值函数V(st)是当前状态下合法用户选取的检测间隔Q1+Q2的最大平均值,即在状态st下合法用户的最大未来回报的期望,计算公式如下:
因此,合法用户的最优检测间隔λ*由下列公式给出:
其中,函数arg max表示当取最大值时αt的值,并将该值赋值给λ*。
在每个状态下,合法用户采用ε-greedy策略来选择检测间隔αt和更新Q值,以概率ε随机选择检测间隔,以概率1-ε选择最大化当前Q值的检测间隔,其中,ε∈(0,1)。
根据基于DQL算法的抵御APT攻击方法的步骤总结如下:
①初始化:μ,γ,ε,***初始状态s0,Q1(st,αt)=Q2(st,αt)=0,V(st)=0;
②t=1,2,3,...,观察***的当前状态
③利用ε-greedy策略选择检测间隔αt;
④间隔αt时间后对雾节点进行检测;
⑤计算UB(st,αt);
⑥观察攻击时长进入下一个状态st+1;
⑦以0.5的概率通过公式(51)和(53)更新Q1(st,αt),以0.5的概率根据公式(52)和(54)更新Q2(st,αt);
⑧通过公式(55)更新V(st);
⑨返回②继续执行直至算法收敛,即攻击率变化范围在-0.002~0.002之内,合法用户效用的变化范围在-0.005~0.005之内,最大Q值变化范围在-0.002~0.002之内,当满足这三个条件中任意一个时,根据两个Q表和公式(56)得到合法用户的最优检测间隔λ*。
本发明考虑一个攻击者,一个合法用户,单个雾节点以及攻击持续时间的非零等级Z=2的场景,使用Windows操作***下的matlab软件进行仿真实验。在动态防御APT攻击的方案中,评估四种方法的三个指标的详细解释如下:
(1)攻击率:即雾计算网络中的雾节点受到APT攻击的时间与合法用户检测时间间隔的比率;
(2)合法用户的效用:即每个时隙中基于前景理论的合法用户的平均效用值。
(3)最大Q值:即每个时隙内Q表更新过程中得到的最大Q值。
本发明具体实施中用到的有关符号的含义和初始值如下表所示。
图3显示在初始参数条件下静态博弈中客观权重对APT攻击者和合法用户效用的影响对比,X轴:APT攻击者的客观概率权重,单位是“1”,左边的Y轴:合法用户的效用,单位是“1”,右边的Y轴:APT攻击者的效用,单位是“1”,虚线为合法用户的效用,实线为APT攻击者的效用。在初始参数条件下1-20000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的平均攻击率对比如图4,X轴:时隙,单位是“1”,Y轴:平均攻击率,单位是“1”,粗实线为基于DQL算法防御APT攻击的平均攻击率,粗虚线为基于Q-learning算法防御APT攻击的平均攻击率,细实线为基于Sarsa算法防御APT攻击的平均攻击率,细虚线为基于Greedy算法防御APT攻击的平均攻击率。在初始参数条件下1-40000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的合法用户效用对比如图5,X轴:时隙,单位是“1”,Y轴:合法用户的效用,单位是“1”,粗实线为基于DQL算法防御APT攻击的合法用户效用,粗虚线为基于Q-learning算法防御APT攻击的合法用户效用,细实线为基于Sarsa算法防御APT攻击的合法用户效用,细虚线为基于Greedy算法防御APT攻击的合法用户效用。在初始参数条件下1-40000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法防御APT攻击的最大Q值对比如图6,X轴:时隙,单位是“1”,Y轴:最大Q值,单位是“1”,粗实线为基于DQL算法防御APT攻击的最大Q值,粗虚线为基于Q-learning算法防御APT攻击的最大Q值,细实线为基于Sarsa算法防御APT攻击的最大Q值。
Claims (1)
1.移动雾计算中一种高级持续性威胁APT防御方法,其特征在于,移动雾计算中的APT攻防安全模型具体如下:
包括雾层和终端用户层,两层之间通过无线网络进行通信;此模型中任意一个APT攻击者是具有主观性的终端用户,能够对雾节点发起APT攻击;雾节点的取值集合为N={1,2,...,N},n∈N,它们会受到APT攻击者A的攻击,同时也会受到合法用户B的保护;合法用户选择一定的时间间隔对雾节点n执行第t次检测,这一时间间隔用表示,1≤n≤N;由于合法用户对雾节点进行APT攻击的检测需要花费一些时间,所以/>假设合法用户一旦检测到了雾节点上先前的APT攻击并对其进行重新恢复,攻击者将等待时间间隔/>对该雾节点再次发起攻击,进行攻击所需的时间用/>表示,这一时间是未知的随机变量;假设初期所有的N个雾节点都处于安全状态,不会受到APT攻击者的攻击;
包括以下步骤:
(1)根据前景理论PT,构造APT攻击者与合法用户之间的静态主观博弈;在静态零和博弈中,对于雾节点n,合法用户检测雾节点的时间间隔表示为αn,APT攻击者攻击雾节点的时间间隔表示为βn,攻击持续时间表示为为了方便分析,将检测间隔和攻击间隔进行归一化处理,即αn∈(0,1],βn∈[0,1];在PT中,概率权重函数以数学化的形式被用来对游戏双方的决策制定进行建模,它衡量的是从决策者看来某一结果的发生对预期价值的影响程度;APT攻击者和合法用户在面临低概率事件时,会高估相应的客观概率;在面临高概率事件时,会低估相应的客观概率;利用Prelec权重函数计算两者的主观概率,计算公式如下:
其中p表示客观概率,p∈(0,1],Wplayer(p)表示APT攻击者和合法用户做决策的主观概率;σplayer表示游戏双方做决策的客观概率权重,σplayer∈(0,1];player代表游戏双方,其中,player=A或player=B;
攻击率被定义为N个雾节点受到攻击的时间与合法用户检测时间间隔的比率,用Rn表示,其计算公式如下式所示:
根据APT静态博弈模型,合法用户和APT攻击者的效用值分别如下式所示:
其中,Gn表示合法用户在单位检测间隔内获得的收益,Ln表示攻击者对雾节点n进行APT攻击所需的成本;I(·)是指示函数,它表示的含义是如果βn<αn,即攻击者正在攻击雾节点n,则I(βn<αn)=1,否则其值为0;
由于APT攻击者完成攻击雾节点n所需的时间很难计算,因此被量化为Z个非零等级,对应概率分布为/>其中/>是/>的概率,/>根据定义,有/>且所有量化概率的和/>
根据公式(3)和(4),如果博弈双方基于EUT计算各自的效用,计算公式分别为:
其中,表示合法用户基于EUT计算的效用值,/>表示APT攻击者基于EUT计算的效用值;合法用户和攻击者对雾节点进行攻防时,会受到主观因素的影响;如果双方用PT计算各自的收益,将基于主观概率做决策,而不是公式(5)和(6)中的客观概率/>所以,根据公式(1)(5)(6),两者基于PT的效用如下式所示:
其中,分别表示合法用户和APT攻击者的主观概率;
在APT攻击者和合法用户之间的APT静态博弈过程中,双方通过不断地调整各自的客观概率权重来改变做决策的主观概率,目的是最大化各自的期望效用,从而达到纳什平衡;当攻击雾节点的成本较高时,APT攻击者会选择停止攻击雾节点;当攻击所需的成本较低时,攻击者会立即对雾节点发起APT攻击,同时,合法用户会选择最大的检测间隔;中,APT攻击者和合法用户的纳什平衡策略组合被表示为 表示使两者效用达到最大值时合法用户选择的检测间隔,/>表示使两者效用达到最大值时APT攻击者选择的攻击间隔,该策略组合是使博弈双方获得最大效用的组合方式,它应该满足以下条件:
在基于PT的静态APT博弈中,合法用户根据之前的检测经验来估计攻击者的客观概率权重σA,同时,APT攻击者根据先前的攻击经验预测合法用户的客观概率权重σB;在双方知道***参数的情况下,本步骤总结了以下几个特定场景下的纳什平衡条件,给出了纳什平衡解,并分别解释了形成纳什平衡NE的原因;
①在***模型中雾节点个数N=1,攻击持续时间的非零等级z=2的情况下,假设攻击持续时间的分布服从[P0,P1,1-P0-P1],其中P0,P1,1-P0-P1分别为/> 的概率;此时,合法用户检测该雾节点获得的收益为G,攻击者攻击该雾节点的成本为L;
A.当满足公式(11)时,纳什平衡策略组合为(1,0);
B.当满足公式(12)时,纳什平衡策略组合为
C.当满足公式(13)时,纳什平衡策略组合为(1,1);
其中,σA,σB分别为APT攻击者和合法用户的客观概率权重,σA,σB∈(0,1];
②在***模型中雾节点个数N=1,攻击持续时间的非零等级Z=3的情况下,假设攻击持续时间的分布服从[P0,P1,P2,1-P0-P1-P2],其中P0,P1,P2,1-P0-P1-P2分别为的概率;此时,合法用户检测该雾节点获得的收益为G,攻击者攻击该雾节点的成本为L;
A.当满足公式(14)时,纳什平衡策略组合为
B.当满足公式(15)时,纳什平衡策略组合为
C.当满足公式(16)时,纳什平衡策略组合为(1,0);
D.当满足公式(17)时,纳什平衡策略组合为(1,1);
③在***模型中雾节点个数N=2,攻击持续时间的非零等级Z=2的情况下,合法用户检测2个雾节点的时间间隔分别为α1,α2,获得的收益分别为G1,G2,假设G1=G2=G;攻击者攻击这2个雾节点的时间间隔分别为β1,β2,所需成本分别为L1,L2;假设这2个雾节点的攻击持续时间服从的分布也是相同的,即/>其服从的分布为[P0,P1,1-P0-P1],其中P0,P1,1-P0-P1分别为/>的概率;
A.当满足公式(18)时,纳什平衡策略组合为
B.当满足公式(19)时,纳什平衡策略组合为((1,1),(1,0));
C.当满足公式(20)时,纳什平衡策略组合为(1/2,0);
D.当满足公式(21)时,纳什平衡策略组合为(1,0);
E.当满足公式(22)时,纳什平衡策略组合为(1,1);
(2)构建APT攻击者与合法用户之间的动态主观博弈方法,基于强化学习中Q-learning算法即DQL算法获得抵御APT攻击的最优防御策略;
(3)针对APT攻击者不确定的攻击时间和主观策略,在单个雾节点的场景下,使用DQL算法,设计防御APT攻击的方案,以得到合法用户最优的检测间隔;
DQL算法使用两个Q表来互相交替更新Q值;将合法用户观测的某一时刻前一时隙内的总攻击时长作为当前时刻t***的状态,即其中,βt-1表示前一时隙APT攻击者的检测间隔,/>表示前一时隙的攻击持续时间,将在时刻t合法用户选取的检测间隔αt表示为动作;静态APT博弈中基于PT计算的合法用户的效用作为动态博弈中的即时效用,并获取攻击时长/>βt和/>分别表示第t次攻防交互中APT攻击者的攻击间隔和攻击持续时间;t时刻的Q函数表示为Q(st,αt),则更新两个Q值函数的公式为:
其中,st表示在时刻t***的状态,μ为学习率,μ∈[0,1],其值越大,学习速率越快,保留原来的学习经验越少;γ为奖励性衰变系数,γ∈[0,1],其值越大,对未来奖励的重视程度越高;Q1(st,αt),Q2(st,αt)分别表示Q1表和Q2表在时刻t状态下合法用户选择检测间隔αt的收益值;UB(st,αt)表示合法用户在状态st下选取检测间隔αt获得的立即效用;和/>分别是合法用户在状态st+1下选取的使Q1和Q2表的Q值最大的检测间隔,其计算公式为:
其中,Q1(st+1,αt+1),Q2(st+1,αt+1)分别表示Q1表和Q2表在时刻t+1状态下合法用户选择检测间隔αt+1的收益值;状态值函数V(st)是当前状态下合法用户选取的检测间隔Q1+Q2的最大平均值,即在状态st下合法用户的最大未来回报的期望,计算公式如下:
因此,合法用户的最优检测间隔λ*由下列公式给出:
其中,函数arg max表示当取最大值时αt的值,并将该值赋值给λ*;
在每个状态下,合法用户采用ε-greedy策略来选择检测间隔αt和更新Q值,以概率ε随机选择检测间隔,以概率1-ε选择最大化当前Q值的检测间隔,其中,ε∈(0,1);
根据基于DQL算法的抵御APT攻击方法的步骤总结如下:
①初始化:μ,γ,ε,***初始状态s0,Q1(st,αt)=Q2(st,αt)=0,V(st)=0;
②t=1,2,3,...,观察***的当前状态
③利用ε-greedy策略选择检测间隔αt;
④间隔αt时间后对雾节点进行检测;
⑤计算UB(st,αt);
⑥观察攻击时长进入下一个状态st+1;
⑦以0.5的概率通过公式(23)和(25)更新Q1(st,αt),以0.5的概率根据公式(24)和(26)更新Q2(st,αt);
⑧通过公式(27)更新V(st);
⑨返回②继续执行直至算法收敛,即攻击率变化范围在-0.002~0.002之内,合法用户效用的变化范围在-0.005~0.005之内,最大Q值变化范围在-0.002~0.002之内,当满足这三个条件中任意一个时,根据两个Q表和公式(28)得到合法用户的最优检测间隔λ*。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210232071.9A CN114666107B (zh) | 2022-03-04 | 2022-03-04 | 移动雾计算中一种高级持续性威胁防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210232071.9A CN114666107B (zh) | 2022-03-04 | 2022-03-04 | 移动雾计算中一种高级持续性威胁防御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114666107A CN114666107A (zh) | 2022-06-24 |
CN114666107B true CN114666107B (zh) | 2024-06-04 |
Family
ID=82030076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210232071.9A Active CN114666107B (zh) | 2022-03-04 | 2022-03-04 | 移动雾计算中一种高级持续性威胁防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114666107B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117319095B (zh) * | 2023-11-29 | 2024-02-13 | 杭州海康威视数字技术股份有限公司 | 基于模糊逻辑的物联网威胁轻量协同探测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107070956A (zh) * | 2017-06-16 | 2017-08-18 | 福建中信网安信息科技有限公司 | 基于动态贝叶斯博弈的apt攻击预测方法 |
CN109787996A (zh) * | 2019-02-21 | 2019-05-21 | 北京工业大学 | 雾计算中一种基于dql算法的伪装攻击检测方法 |
CN110049497A (zh) * | 2019-04-11 | 2019-07-23 | 北京工业大学 | 移动雾计算中一种面向用户的智能攻击防御方法 |
CN110191083A (zh) * | 2019-03-20 | 2019-08-30 | 中国科学院信息工程研究所 | 面向高级持续性威胁的安全防御方法、装置与电子设备 |
KR20190139642A (ko) * | 2018-06-08 | 2019-12-18 | 아주대학교산학협력단 | 게임 이론을 이용한 보안 취약점 정량화 방법 및 장치 |
-
2022
- 2022-03-04 CN CN202210232071.9A patent/CN114666107B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107070956A (zh) * | 2017-06-16 | 2017-08-18 | 福建中信网安信息科技有限公司 | 基于动态贝叶斯博弈的apt攻击预测方法 |
KR20190139642A (ko) * | 2018-06-08 | 2019-12-18 | 아주대학교산학협력단 | 게임 이론을 이용한 보안 취약점 정량화 방법 및 장치 |
CN109787996A (zh) * | 2019-02-21 | 2019-05-21 | 北京工业大学 | 雾计算中一种基于dql算法的伪装攻击检测方法 |
CN110191083A (zh) * | 2019-03-20 | 2019-08-30 | 中国科学院信息工程研究所 | 面向高级持续性威胁的安全防御方法、装置与电子设备 |
CN110049497A (zh) * | 2019-04-11 | 2019-07-23 | 北京工业大学 | 移动雾计算中一种面向用户的智能攻击防御方法 |
Non-Patent Citations (1)
Title |
---|
Social Phenomena and Fog Computing Networks: A Novel Perspective for Future Networks;Shanshan Tu;IEEE TRANSACTIONS ON COMPUTATIONAL SOCIAL SYSTEMS;第9卷(第1期);32-44 * |
Also Published As
Publication number | Publication date |
---|---|
CN114666107A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110460572B (zh) | 基于Markov信号博弈的移动目标防御策略选取方法及设备 | |
CN108512837A (zh) | 一种基于攻防演化博弈的网络安全态势评估的方法及*** | |
CN110191083A (zh) | 面向高级持续性威胁的安全防御方法、装置与电子设备 | |
US20170257396A1 (en) | Methods and systems providing cyber security | |
CN109327427A (zh) | 一种面对未知威胁的动态网络变化决策方法及其*** | |
CN108701260B (zh) | 用于辅助决策的***和方法 | |
CN110099045B (zh) | 基于定性微分博弈和演化博弈的网络安全威胁预警方法及装置 | |
CN109714364A (zh) | 一种基于贝叶斯改进模型的网络安全防御方法 | |
CN111064702B (zh) | 基于双向信号博弈的主动防御策略选取方法及装置 | |
CN110049497B (zh) | 移动雾计算中一种面向用户的智能攻击防御方法 | |
Abdalzaher et al. | Using Stackelberg game to enhance node protection in WSNs | |
CN111385288A (zh) | 基于隐蔽对抗的移动目标防御时机选取方法及装置 | |
CN112003854B (zh) | 基于时空博弈的网络安全动态防御决策方法 | |
CN114666107B (zh) | 移动雾计算中一种高级持续性威胁防御方法 | |
CN109379322A (zh) | 一种完全信息条件下网络动态变换的决策方法及其*** | |
Zhang et al. | A game-theoretic method for defending against advanced persistent threats in cyber systems | |
CN113132398B (zh) | 一种基于q学习的阵列蜜罐***防御策略预测方法 | |
Haopu | Method for behavior-prediction of APT attack based on dynamic Bayesian game | |
Guan et al. | A Bayesian Improved Defense Model for Deceptive Attack in Honeypot-Enabled Networks | |
Luo et al. | A fictitious play‐based response strategy for multistage intrusion defense systems | |
CN116248335A (zh) | 基于智能演化博弈的网络攻防策略选取方法及*** | |
Wang et al. | Optimal network defense strategy selection based on Bayesian game | |
Yang et al. | Attack-defense utility quantification and security risk assessment | |
CN114038198B (zh) | 一种考虑用户疏散行为的交通风险防控决策方法及*** | |
Zhang et al. | Cyberspace attack and defense game based on reward randomization reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |