CN117441168A

CN117441168A - 用于深度强化学习中的对抗性攻击的方法和装置

Info

Publication number: CN117441168A
Application number: CN202180098787.8A
Authority: CN
Inventors: 桥本优; 苏航; 朱军; 张钹; 程泽; 王韵佳
Original assignee: Tsinghua University; Robert Bosch GmbH
Current assignee: Tsinghua University; Robert Bosch GmbH
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2024-01-23
Also published as: WO2022252039A1

Abstract

本发明公开了一种用于深度强化学***的对抗性攻击的函数空间；基于攻击目标来确定用于欺骗深度强化学习中的智能体的欺骗策略；通过使经攻击策略与欺骗策略之间的差异最小化来从函数空间中获得对抗函数；以及基于所获得的对抗函数来扰动由深度强化学习中的智能体观察到的环境的状态。

Description

用于深度强化学习中的对抗性攻击的方法和装置

技术领域

本公开总体上涉及机器学习，并且更具体地，涉及用于提高深度强化学习(DRL)中的安全性的对抗性攻击技术。

背景技术

强化学习(RL)作为机器学习领域的一个研究热点，已经广泛应用于工业制造、仿真、机器人控制、优化和调度、游戏等领域。RL的基本思想是通过使智能体从环境中获得的累积奖励值最大化来学习用于做出动作决策的最优策略。因此，RL方法更多地关注于学习问题解决策略，并且被认为是实现人工通用智能(AGI)的重要方式。

虽然深度强化学习(DRL)模型与其他机器学习方法具有一些相似性，但是它们由于固有的差异而提出了新的挑战和特定的安全问题。最近的研究已经揭示了新漏洞的可能性，其中对抗可能访问RL***的输入并实施恶意攻击以欺骗深度策略，使得DRL智能体可能采取次优或甚至有害的动作，这可能会降低经训练的DRL智能体的性能。随着基于RL的框架被广泛地部署在真实世界场景中，理解针对DRL策略的对抗性攻击成为不可或缺的先决条件，特别是对于诸如工业机器人和自动驾驶车辆的安全或生命关键应用。

因此，有必要提供深度强化学习***中的改进的对抗性攻击技术。

发明内容

以下给出了根据本公开的一个或多个方面的简要概述，以便提供对这些方面的基本理解。该概述不是对所有预期方面的广泛概括，并且既不旨在标识所有方面的关键或重要元素，也不旨在描绘任何或所有方面的范围。其唯一目的是以简化形式给出一个或多个方面的一些概念，作为稍后给出的更详细描述的序言。

在本公开的一个方面，公开了一种用于深度强化学***的对抗性攻击的函数空间；基于攻击目标来确定用于欺骗深度强化学习中的智能体的欺骗策略；通过使经攻击策略与所述欺骗策略之间的差异最小化来从所述函数空间中获得对抗函数；以及基于所获得的对抗函数来扰动由所述深度强化学习中的所述智能体观察到的环境的状态。

在本公开的另一方面，公开了一种用于深度强化学***的对抗性攻击的函数空间；基于攻击目标来确定用于欺骗深度强化学习中的智能体的欺骗策略；通过使经攻击策略与所述欺骗策略之间的差异最小化来从所述函数空间中获得对抗函数；以及基于所获得的对抗函数来扰动由所述深度强化学习中的所述智能体观察到的环境的状态。

在本公开的另一方面，公开了一种存储用于深度强化学***的对抗性攻击的函数空间；基于攻击目标来确定用于欺骗深度强化学习中的智能体的欺骗策略；通过使经攻击策略与所述欺骗策略之间的差异最小化来从所述函数空间中获得对抗函数；以及基于所获得的对抗函数来扰动由所述深度强化学习中的所述智能体观察到的环境的状态。

通过考虑以下详细描述和附图，本公开的其他方面或变型将变得显而易见。

附图说明

下面的附图仅为了说明的目的描绘了本公开的各种实施例。本领域技术人员将从以下描述中容易地认识到，在不脱离本文描述的本公开的精神和原理的情况下，可以实现本文公开的方法和结构的替代实施例。

图1示出了根据本公开的一个方面的示例性强化学习***的框图。

图2示出了根据本公开的一个方面的基于强化学习的网格世界中的高风险高奖励状态的示例。

图3示出了根据本公开的一个方面的示例性受攻击强化学习***的框图。

图4示出了根据本公开的一个方面的不同函数空间的经攻击策略集之间的示例性关系。

图5示出了根据本公开的一个方面的用于强化学习中的对抗性攻击的方法的流程图。

图6示出了根据本公开的一个方面的用于强化学习中的对抗性攻击的装置的框图。

具体实施方式

在详细解释本公开的任何实施例之前，应当理解，本公开不将其应用局限于以下描述中阐述的解释细节和特征布置。本公开能够具有其他实施例并且能够以各种方式实践或执行。

强化学习是涉及智能体应该如何在环境中采取行动以便最大化累积奖励的机器学习领域。在强化学习中，智能体被放置在环境中。以国际象棋游戏为例，智能体可以是玩家并且环境可以是棋盘。在任何时间，环境总是处于来自一组可能状态之一的特定状态。在这个例子中，状态是指棋子在棋盘上的布局状态。智能体可以根据策略做出一组可能的动作(棋子的合法移动)。策略可以将环境的状态映射到特定动作，并且从而确定在特定状态下的智能体行为。一旦智能体选择并执行特定动作，环境的状态可以相应地改变，并且环境可以给予智能体奖励。奖励可以仅在特定状态下给予即时奖励，而长期奖励可以由价值函数表示。价值函数可以表示当前奖励和后续奖励的总和。

智能体的目标可以是最大化长期总奖励，诸如赢得国际象棋游戏。奖励的量反映动作的质量。奖励信号可以是用于改变策略的主要基础。如果由智能体的策略选择的动作是低奖励的，则在未来，可以改变策略以选择其他动作。环境的行为可以由模型模拟。该模型可以预测下一状态和下一奖励。在现实中，模型可以或可以不存在。在强化学习中，当存在模型时，其被称为基于模型的强化学习，而当不存在模型时，其被称为无模型强化学习。

图1示出了根据本公开的一个方面的示例性强化学习***的框图。图1所示的强化学习***100可以包括环境110和智能体120。例如，智能体120可以是工业机器人或自动驾驶车辆，并且环境110可以是工业机器人或自动驾驶车辆在其中工作的特定环境。智能体120可以与环境110交互。例如，在环境110的状态s_t处，智能体120可以获得针对先前执行的动作的奖励r_t，并且可以基于策略π执行动作a_t。响应于来自智能体120的动作a_t，环境110可以改变为新的状态s_t+1并给予智能体120奖励r_t+1。然后，智能体120可以以这种方式继续与环境110交互，试图至少在一段时间内最大化总奖励。

智能体采取动作来改变其状态以获得奖励并与环境交互的循环过程可以由马尔可夫决策过程(MDP)表示。马尔可夫决策过程可以包括有限数量的状态和动作。在每次，智能体观察状态并执行动作，这导致中间奖励被最大化(或者，在相反的场景中，成本被最小化)。奖励和后继状态可以仅取决于当前状态和所选择的动作。

尽管深度强化学习的日益增长的复杂性和普遍性已经使得在许多不同的任务(诸如AlphaGo)中实现令人印象深刻的性能成为可能，但是DRL策略也容易受到对抗性攻击。最近的研究已经揭示了攻击者可能访问RL***的输入并实现恶意攻击以欺骗深度策略的脆弱性的可能性。DRL智能体可能采取次优动作，使得经过训练的智能体的性能可能降低。

然而，与对当前监督学习的对抗性攻击相比，欺骗DRL模型更具挑战性。大多数早期方案遵循监督方式进行对抗性攻击，该监督方式期望直接改变智能体的行为，并且可能不会降低智能体的总奖励，这是RL智能体的实际目的。新的挑战和特定的安全问题可能是由DRL模型与其他机器学习模型之间的固有差异引起的。一个这样的差异是DRL智能体的顺序做出决策问题的性质，即，延迟的奖励机制。其需要对抗预测对抗扰动的顺序以便操纵DRL智能体。此外，将对抗性攻击与从随机策略导出的良性动作区分开并非是微不足道的。这意味着即使输出动作改变，也不能保证智能体被攻击者恶意诱惑。因此，需要根据累积奖励的减少来评估恶意策略，而不是简单地观察动作的变化。因此，DRL模型不仅继承了其他机器学习技术中的基本安全问题，而且还具有其独特的问题。

在一个方面，对抗可以通过扰乱由DRL中的智能体接收的观测结果来攻击DRL***。观测结果可以是指智能体对DRL***中的环境状态的观测结果，并且可以包括与环境状态相关的信息。有时可能无法直接获得环境状态。在MDP中，当前状态(即，马尔可夫状态)包括所有历史信息，即，未来状态可以仅取决于当前状态。由于环境的状态可能是非常复杂的，所以环境的信息可以是通过观察环境来获得的。在大多数情况下，环境的状态可以由观察结果(即，观察的状态)来表示。然而，由于观察的状态可能偏离真实的状态，因此存在一些改善DRL在该设置下的鲁棒性的方法。例如，已经提供了状态对抗马尔可夫决策过程(SA-MDP)来研究该问题的基本特性。

在SA-MDP中，对抗仅扰动智能体的状态的观察结果。在攻击者集合G中，任何攻击者：S→F(S)都可以将状态及其配置扰动为s到其中F(S)是S上所有分布的集合，并且g(.|s)是被扰动状态的分布。形式上，SA-MDP是六元组M＝(S，A，B，P_a，R，γ)，其中S是状态集合，A是动作集合，B是从状态s到状态集合B(s)的映射。映射B对应于对抗的能力：其中B(s)通常是状态s周围的小集合。P_a:S×A→F(S)是转移函数，是奖励函数，γ是折扣因子。智能体根据策略π:S→F(A)来行动，π∈Π，其中F(A)是A上的所有分布的集合，并且Π是策略集合。

给定预先训练的策略π，其也可以被称为SA-MDP中要被攻击的受害者策略，对抗旨在通过应用扰动来最小化π的预期总奖励。在SA-MDP中，智能体按照采取行动。利用π_g符号，SA-MDP的目标可以是最小化预期总奖励为：

为了表示简单，我们标记了a～π_g来替代a_t～π_g(.∣s_t)，并且在下文中省略了转换s_t+1～P_a(s_t,a_t)。

SA-MDP通过误导智能体采取次优动作来显示DRL中的对抗性攻击的有效性。然而，在不考虑噪声水平的情况下，根据SA-MDP的对抗性攻击将智能体误导到可能无法最小化经攻击策略的预期奖励的次优动作，特别是在具有高风险高奖励状态的环境中。尽管一些其他工作提供了利用值函数或Q值函数引导的对时间步骤子集的试探式对抗性攻击，或者通过利用Q值函数将智能体误导到预定义状态，在经攻击策略和目标策略之间仍然存在差距。

图2示出了根据本公开的一个方面的基于强化学***，对抗将选择不同的动作，该动作将保护受害者免于获得最小奖励，即，到达状态210。

本公开遵循状态对抗马尔可夫决策过程框架的设置，并且将SA-MDP重新用公式表示在函数空间中，以便在统一框架中更好地研究对抗性攻击。

图3示出了根据本公开的一个方面的示例性受攻击强化学习***的框图。如图3所示，包括环境310和智能体320的RL***300被具有对抗函数h的攻击者330攻击。RL***300中的环境310和智能体320可以等同于如上参考图1描述的RL***100中的环境110和智能体120。

攻击者330可以扰动要由智能体320接收的观察结果。例如，在环境310的状态s_t处，攻击者330可以将对抗函数h应用于观察状态s_t。然后，由智能体320(其也可以被称为受害者)接收的观察状态可以被扰动到在这种情况下，给定预先训练的策略π，其可以与图1中的策略相同，受害者智能体320可以基于输入的观察结果h(s_t)和策略π执行动作a_t～π(a∣h(s_t))，从而产生次优动作。因此，经攻击智能体340可以被识别为具有对抗性策略π_h的智能体。例如，如具有虚线的框340所示，观察状态s_t被输入到经攻击智能体340，并且经攻击智能体340可以因此表现为a_t～π_h(a∣s_t)。响应于动作a_t，环境310可以改变到新状态s_t+1并给予奖励r_t+1。可以认识到，由于图3中的动作a_t可以不同于图1中的动作a_t，因此图3中的后续状态s_t+1和奖励r_t+1也可以不同于图1中的状态s_t+1和奖励r_t+1。

如图3所示，本公开的对抗旨在通过对状态s应用来自对抗函数空间的对抗函数h来最小化受害者策略π的预期总奖励，其中常数∈是测量对抗能力的对抗噪声的水平，p是指L_P范数并且可以是从1到无穷大(包括无穷大)的任何实数。利用对函数空间H的定义，可以将问题(1)重新公式化为找到最优函数H*∈H。具有对抗函数h的经攻击策略可以被表示为π_h:π_h(a∣s)≡π(a∣h(s))，即，当观察到的状态s被扰动到h(s)时，具有经攻击策略π_h(a∣s)的经攻击智能体可以表现为与具有受害者策略π(a∣s)的受害者智能体基本相同。因此，找到最优函数h^*的问题可以写为：

其中，r_t是在时间步骤t处的奖励，γ^t是对应的折扣因子，并且R(π_h)是预期的总奖励。

本公开提供了三个其他函数空间来表示不同类型的对抗：第一类型的对抗将智能体误导到次优动作，第二类型的对抗替代地将智能体误导到次优动作或保持原始动作，以及第三类型的对抗将智能体引诱到目标轨迹或给定的恶意策略。如下面将详细描述的，第三种对抗通常在适当的噪声水平下强得多。应当注意，本公开不限于这些函数空间，并且还可以在不脱离本公开的精神的情况下应用于其他类型的替代函数空间。

在一个方面，本公开提供了函数空间H₀来表示对抗函数h₀∈H，其通过算法φ生成每个状态s处的扰动状态该算法φ旨在找到具有对抗噪声水平/>的对抗示例，以如下使受害者策略π和经攻击策略π_h之间的距离最大化：

该算法是在监督学***的情况下，H₀中的对抗函数不能总是最小化经攻击策略的预期奖励，特别是在具有高风险高奖励状态的环境中，例如图2中的状态230。

通常，不需要在每个时间步骤中攻击受害者。因此，取代在每个状态进行扰动，对抗可以交替地扰动状态或保持原始状态。

因此，在另一方面，本公开提供了函数空间H₁以表示对抗函数h₁∈H，其生成扰动状态或保持原始动作，其中/>遵循函数空间H₀中的算法φ，即：

换句话说，在函数空间H₁中，只有一部分状态会被扰动到状态而其他状态可以保持为原始状态而不被扰动。状态是否被攻击可以取决于受害者策略在该状态下的性能。类似于函数空间H₀，当对抗算法|Φ|不够强时，可能不存在对抗函数h₁∈H以最小化经攻击策略的预期奖励。

在另一方面，本公开还提供了函数空间H₂以表示对抗函数h₂∈H，其通过算法φ生成每个状态s处的扰动状态该算法φ旨在找到具有对抗噪声水平/>的对抗示例，以如下将目标策略π’和经攻击策略π_h之间的距离最小化：

其中，Π_adv是对抗可访问的策略集。Π_adv表示对抗的知识，例如，当对抗可访问环境时的最优策略π*∈Π_adv。对抗可以在不同的实现方式中提供目标策略π’的不同设置。在没有噪声水平限制的情况下，总是存在对抗h₂∈H₂以通过利用具有最小奖励的轨迹来最小化经攻击策略的预期奖励。

对应于对抗性函数空间H的经攻击策略集可以表示为π_H＝{π_h|h∈H}。类似地，对应于如上所述的函数空间H₀、H₁和H₂的经攻击策略集可以分别表示为和/>由于我们有/> 并且在噪声水平/>和策略集Π_adv没有限制的情况下，/>等于Π_adv＝Π＝π_H，则我们可以得到/>因此，策略集/>和之间的关系总是满足：/>在噪声水平/>和策略集Π_adv没有限制的情况下，策略集/>π_H满足：/>图4示出了根据本公开的一个方面的不同函数空间的经攻击策略集之间的示例性关系。如示意图410所示，对于/>和并且如示意图420所示，对于/>和Π_adv＝Π，/>

在本公开的一个方面，利用函数空间H₂的定义，可以通过如下估计经攻击策略的预期奖励来选择处于状态s的目标策略π′：

经攻击策略的预期奖励可以用试探方式来估计。在通过独立于对抗h的Q值函数Q(s，a)来估计/>的情况下，则目标策略π′满足：

这是因为当将的估计代入问题(2)时，则我们可以得到：

在每个状态s处，最优h使经攻击策略π_h采取动作arg min_a∈AQ(s，a)。在适当的噪声水平下，具有目标策略π′的对抗优化问题(3)。尽管对抗可以持有这种估计，但是更合理的是是经攻击策略π_h的预期奖励。因此，下面提供了两阶段优化方法来解决该问题。

在对抗可以操纵观察结果使得受害者因此被误导向不利奖励(例如，与环境奖励相反)的情况下，本公开提供了一种通过两阶段优化来在函数空间中得到次优策略的对抗性攻击。原始问题(2)可能难以解决，因为攻击者需要推断环境动态，并且DRL中的探索机制不可避免地导致状态分布的偏移。为了解决这个问题，在第一阶段，我们可以通过重新设计对抗智能体获得的奖励来获得欺骗策略，以探索环境的动态并发现“坏情况”。在第二阶段，我们可以操纵受害者的观察结果，使得其行为将模仿由欺骗策略引起的行为，这可能导致受害者偏离正确的轨迹。

由于如图4所示，对应于函数空间H₂的经攻击策略集等于或大于对应于函数空间H₀和H₁的经攻击策略集/>和/>因此函数空间H₂通常更强，并且总是存在对抗h₂∈H₂以最小化DRL中的预期奖励。因此，在一个方面，本公开可以尝试在函数空间H₂中找到解。

在本公开中，用于欺骗DRL模型的欺骗策略集由Π_d来表示。在一方面，欺骗策略集可以如下最小化MDP上的总奖励：

对抗可以与环境交互并且学习欺骗策略，即，如果对抗具有可以帮助对抗最小化受害者的奖励的一些专家知识，则也可以指定欺骗策略。由于欺骗策略集Π_d是Π的子集，因此可以通过仅考虑可以翻转受害者的奖励信号的策略来减小搜索空间，从而实现更有效的优化。

假设对抗是强的，这意味着π_h∈Π_d。注意通常可以直接估计经攻击策略的预期奖励。替代地，可以使用另一个欺骗策略π^-∈Π_d∩Π_adv的Q值/>来估计经攻击策略的预期奖励/>当策略π^-∈Π_d时，使得最优解是π_h＝π^-。因此，问题(2)可以重新公式化为在由策略π^-收集的轨迹上最小化π_h和π^-之间的距离：

其中，D_TV(.||.)是两个策略分布之间的总方差(TV)距离，π_h(s)和π^-(s)是π_h(a|s)和π^-(a|s)的简化符号，其是在策略π_h和π^-下给定状态s的动作a的分布。具体地，d^π是如下在该策略下未来状态的分布

在本公开的另一方面，考虑到TV距离不允许统计混合分布的封闭形式表达，通常需要进行蒙特卡洛近似或数值积分。然而，这些操作可能不能保证确定性的下界和上界。因此，KL散度可以用于TV距离的上界。特别地，问题(4)可以由具有KL散度的新目标重新公式化为

其中

由于状态分布是由可能在复变函数空间中的π_h来生成的，可能难以解决这些问题。因此，问题(5)可以例如重新公式化为

其中

显然，当是问题(6)的最优解时，它也是问题(5)的最优解，因为/>使S中的每个状态最小化，其使得目标函数为0。此外，问题(6)的解可以属于函数空间H₂并且目标策略是π^-。

当给出欺骗策略π^-时，对抗可以单独地在每个状态s上添加扰动并且按照目标函数来处理π^-(s)。在一个示例中，可以使用用于目标攻击的投影梯度下降(PGD)方法，并且对抗可以如下迭代地更新观察结果

s_k+1＝s_k-η

其中，k是迭代次数，例如10，s₀＝s是原始观察结果，并且η是扰动。扰动基于范数的类型。对于常用的l₂范数，扰动可以如下利用PGD在等式(6)的负损失上计算

其中，∈′是控制结果和原始观察结果之间的距离的步长。

图5示出了根据本公开的一个方面的用于强化学习中的对抗性攻击的方法500的流程图。方法500可以用于通过执行改进的对抗性攻击来测试或评估强化学习中的智能体的策略的安全性。可以通过各种强化学习算法来训练策略。深度强化学习中的智能体可以包括工业机器人或自动驾驶车辆。

在方框510，方法500可以确定至少具有对抗噪声水平的对抗性攻击的函数空间。该函数空间可以被确定为包括所有可能的对抗函数，其可以在原始状态上生成具有对抗噪声水平的扰动状态，例如函数空间H。基于不同的应用要求和/或性能要求，对抗噪声水平可以被配置为不同的值，例如0.005或0.0005。

为了有助于并且提高找到最优对抗函数的效率，可以确定较小的函数空间。在一个示例中，函数空间可以包括对抗函数集，该对抗函数集通过算法在环境的每个状态下生成扰动状态，该算法旨在找到具有所述对抗噪声水平的对抗示例，以最大化经攻击策略和受害者策略之间的差异，例如函数空间H₀。在另一个示例中，函数空间可以包括对抗函数集，该对抗函数集在环境的一个或多个状态下保持原始状态，并且通过算法在环境的每个其他状态下生成扰动状态，该算法旨在找到具有所述对抗噪声水平的对抗示例，以最大化经攻击策略和受害者策略之间的差异，例如函数空间H₁。在另一个示例中，函数空间可以包括对抗函数集，该对抗函数集通过算法在环境的每个状态处生成扰动状态，该算法旨在找到具有所述对抗噪声水平的对抗示例，以最小化经攻击策略和目标策略之间的差异，诸如函数空间H₂。经攻击策略和受害者策略或目标策略之间的差异可以包括这些策略的分布之间的总方差距离或Kullback-Leibler散度。可以至少部分地基于攻击目标来确定函数空间。

在方框520处，方法500可以基于攻击目标来确定用于欺骗深度强化学习中的智能体的欺骗策略。欺骗策略可以是对抗意图误导受害者智能体模仿的策略。换句话说，受害者智能体的行为将模仿在被攻击之后由欺骗策略诱发的行为。在一个示例中，攻击目标可以包括最小化深度强化学习中的总奖励。在其它示例中，攻击目标可以包括将总奖励降低到某个程度，比如，相比受害者策略下的总奖励的10％、25％、50％等等。攻击目标还可以包括将总奖励降低到某个阈值以下。

一种类型的欺骗策略可以通过与环境交互来训练。该欺骗策略可以由对抗利用现有的强化学习算法(例如，近端策略优化(PPO)和深度Q网络(DQN))来训练。另一种类型的欺骗策略可以由具有帮助减少奖励的领域知识的专家的策略来规定。专家的策略是确定性的策略并且可以减小对一阶段攻击的对抗性攻击。在一个示例中，欺骗策略可以属于对抗可访问的策略集和使深度强化学习中的总奖励最小化的策略集的交集。

在方框530，方法500可以通过最小化经攻击策略和欺骗策略之间的差异来从函数空间中获得对抗函数。经攻击策略和欺骗策略之间的差异包括经攻击策略和欺骗策略的分布之间的总方差(TV)距离或Kullback-Leibler(KL)散度。期望TV距离可以由KL散度限制。对抗函数可以通过优化上述公式(4)-(6)之一来获得。

在方框540，方法500可以基于获得的对抗函数来扰动由深度强化学习中的智能体观察的环境的状态。环境的扰动的状态可以是利用投影梯度下降优化方法或快速梯度符号方法基于所获得的对抗函数来生成的。在一个示例中，对于使深度强化学习中的总奖励最小化的攻击目标，方法500与现有攻击方法相比可以显著减少奖励，并且可以提供对深度强化学习的脆弱性的更好理解。

图6示出了根据本公开的一个方面的用于强化学习中的对抗性攻击的装置600的框图。装置600可以包括存储器610和至少一个处理器620。处理器620可以耦合到存储器610并且被配置为执行上面参考图5描述的方法500。处理器620可以是通用处理器，或者还可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或者任何其它这种配置。存储器610可以存储输入数据、输出数据、由处理器620生成的数据、和/或由处理器620执行的指令。

结合本文的公开描述的各种操作、模型和网络可以用硬件、由处理器执行的软件、固件或其任何组合来实现。根据本公开的一个实施例，一种用于强化学习中的对抗性攻击的计算机程序产品可以包括用于执行上面参考图5描述的方法500的处理器可执行计算机代码。根据本公开的另一实施例，一种计算机可读介质可以存储用于强化学习中的对抗性攻击的计算机代码，该计算机代码在由处理器执行时可使处理器执行上文参考图5所描述的方法500。计算机可读介质包括非暂时性计算机存储介质和通信介质两者，通信介质包括有助于将计算机程序从一处传送到另一处的任何介质。任何连接可以适当地被称为计算机可读介质。其它实施例和实施方案在本发明的范围内。

提供对所公开的实施例的前述描述是为了使本领域任何技术人员能够制造或使用各种实施例。对这些实施例的各种修改对于本领域技术人员将是显而易见的，并且在不脱离各种实施例的范围的情况下，本文定义的一般原理可以应用于其他实施例。因此，权利要求不旨在局限于本文示出的实施例，而是符合与所附权利要求和本文公开的原理和新颖特征相一致的最宽范围。

Claims

1.一种用于深度强化学习中的对抗性攻击的方法，包括：

确定至少具有对抗噪声水平的对抗性攻击的函数空间；

基于攻击目标来确定用于欺骗所述深度强化学习中的智能体的欺骗策略；

通过使经攻击策略与所述欺骗策略之间的差异最小化来从所述函数空间中获得对抗函数；以及

基于所获得的对抗函数来扰动由所述深度强化学习中的所述智能体观察到的环境的状态。

2.根据权利要求1所述的方法，其中，所述函数空间包括对抗函数集，所述对抗函数集通过算法在所述环境的每个状态下生成扰动状态，所述算法旨在找到具有所述对抗噪声水平的对抗示例以使经攻击策略和受害者策略之间的差异最大化。

3.根据权利要求1所述的方法，其中，所述函数空间包括对抗函数集，所述对抗函数集在所述环境的一个或多个状态下保持原始状态并且通过算法在所述环境的每个其他状态下生成扰动状态，所述算法旨在找到具有所述对抗噪声水平的对抗性示例以使经攻击策略和受害者策略之间的差异最大化。

4.根据权利要求1所述的方法，其中，所述函数空间包括对抗函数集，所述对抗函数集通过算法在所述环境的每个状态下生成扰动状态，所述算法旨在找到具有所述对抗噪声水平的对抗示例以使经攻击策略和目标策略之间的差异最小化。

5.根据权利要求1所述的方法，其中，所述经攻击策略和所述欺骗策略之间的差异包括所述经攻击策略和所述欺骗策略的分布之间的总方差距离或Kullback-Leibler散度。

6.根据权利要求1所述的方法，其中，所述攻击目标包括使所述深度强化学习中的总奖励最小化。

7.根据权利要求1所述的方法，其中，所述确定所述欺骗策略包括：

通过与所述环境交互来训练所述欺骗策略；或

基于帮助减小总奖励的专家知识来规定所述欺骗策略。

8.根据权利要求1所述的方法，其中，所述欺骗策略属于对抗可访问的策略集和使所述深度强化学习中的奖励最小化的策略集的交集。

9.根据权利要求1所述的方法，其中，所述环境的状态是通过投影梯度下降法或快速梯度符号法基于所获得的对抗函数来扰动的。

10.根据权利要求1所述的方法，其中，所述深度强化学习中的所述智能体包括工业机器人或自动驾驶车辆。

11.一种用于深度强化学习中的对抗性攻击的装置，包括：

存储器；以及

至少一个处理器，其耦合到所述存储器并且被配置为执行根据权利要求1-10中的一项所述的方法。

12.一种计算机可读介质，存储用于深度强化学习中的对抗性攻击的计算机代码，所述计算机代码在由处理器执行时使所述处理器执行根据权利要求1-10中的一项所述的方法。

13.一种用于深度强化学习中的对抗性攻击的计算机程序产品，包括：用于执行根据权利要求1-10中的一项所述的方法的处理器可执行计算机代码。