CN108701251B

CN108701251B - 使用优势估计强化学习

Info

Publication number: CN108701251B
Application number: CN201780015574.8A
Authority: CN
Inventors: 顾世翔; 蒂莫西·保罗·利利克拉普; 伊利亚·苏特思科韦尔; 谢尔盖·弗拉迪米尔·莱文
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-02-09
Filing date: 2017-02-09
Publication date: 2022-08-12
Anticipated expiration: 2037-02-09
Also published as: JP6669897B2; US20220284266A1; US11288568B2; WO2017139507A1; JP2019508830A; US20170228662A1; EP3400558A1; CN108701251A

Abstract

方法、***和装置，包括在计算机存储介质上编码的计算机程序，用于计算来自动作的连续动作空间的待由与环境交互的代理执行的动作的Q值。在一个方面，***包括值子网络，所述值子网络被配置为接收表征环境的当前状态的观察并且处理该观察以生成值估计；策略子网络，所述策略子网络被配置为接收观察并处理观察以在连续动作空间中生成理想点；和子***，所述子***被配置为接收连续动作空间中表示特定动作的特定点；生成对特定动作的优势估计；并且为特定动作生成Q值，该Q值是当环境处于当前状态时在代理执行特定动作的情况下所得到的预期回报的估计。

Description

使用优势估计强化学习

背景

本说明书涉及强化学习。

在强化学习***中，代理通过执行由强化学习***响应于接收表征环境的当前状态的观察而选择的动作来与环境交互。

一些强化学习***响应于接收给定观察，根据神经网络的输出选择待由代理执行的动作。

神经网络是机器学习模型，其采用一层或多层非线性单元来预测针对所接收输入的输出。一些神经网络是深度神经网络，除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层的输入，即下一个隐藏层或输出层。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。

发明内容

通常，本说明书中描述的主题的一个创新方面可以体现在用于选择来自动作的连续动作空间的待由与环境交互的代理执行的动作的***，该***包括：值子网络，所述值子网络被配置为接收表征环境的当前状态的观察；并且处理观察以生成值估计，值估计是在环境处于当前状态的情况下所得到的预期回报的估计；策略子网络，所述策略子网络被配置为接收观察，并处理观察以在连续动作空间中生成理想点；子***，所述子***被配置为接收连续动作空间中表示特定动作的特定点；根据理想点和特定点之间的距离生成对特定动作的优势估计；并且通过组合优势估计和值估计，生成特定动作的Q值，该Q值是当环境处于当前状态时在代理执行特定动作的情况下所得到的预期回报的估计。

该方面的其他实施例包括相应的方法，包括由***执行的操作和记录在一个或多个计算机存储设备上的计算机程序，每个计算机程序配置成执行方法的动作。一个或多个计算机的***可以被配置为借助于安装在***上的软件、固件、硬件或其任何组合来执行特定操作或动作，其在操作中可以使***执行动作。一个或多个计算机程序可以被配置为通过包括当由数据处理装置执行时使装置执行动作的指令来执行特定操作或动作。

实现可以包括以下可选特征中的一个或多个，单独或组合。代理可以是与现实世界环境交互的机械代理。机械代理可以是被配置为基于动作在环境中执行任务的机器人。生成优势估计可以包括：将具有状态依赖性参数的函数应用于距离。该***还可以包括：函数参数子网络，所述函数参数子网络被配置为：接收观察；并处理观察以生成定义状态依赖性参数的值的输出。优势估计可满足：

其中第一项是距离的转置，P是具有由状态依赖性参数值定义的条目的状态依赖性参数矩阵，第三项是距离。P可以是正定矩阵，并且其中P(x|θ^P)＝LL^T，L是具有从所述函数参数子网络的输出导出的条目的下三角矩阵。***还包括：存储经验元组的重放存储器，所述经验元组用于训练策略子网络和值子网络。子***可进一步被配置为在策略子网络和值子网络的训练期间：生成想象推出，其中每个想象推出是合成的经验元组；和将所生成的想象推出添加到重放存储器中。生成想象推出可包括：识别表征由环境响应于代理执行的动作转变成的状态的特定观察；选择与由代理响应于特定观察所执行的动作不同的动作；使用状态转变模型处理特定观察和所选择的动作，以确定表征下一状态的下一观察，如果代理响应于特定观察已经执行了所选择的动作，则环境将转变成下一状态；和生成合成经验元组，所述合成经验元组包括特定观察、所选择的动作和下一观察。

本说明书中描述的主题的另一个创新方面可以体现在训练强化学习***的策略子网的方法中，该强化学习***被配置为计算由与来自动作的连续动作空间的环境交互的代理执行的动作的Q值，包括：获得经验元组，所述经验元组识别表征环境的训练状态的训练观察、由代理响应于训练观察而执行的动作、作为所述代理响应于训练观察而执行动作的结果而接收的奖励、以及表征环境的后续状态的后续观察；使用值子网络来处理训练观察以生成第一值估计，第一值估计是在环境处于训练状态的情况下所得到的预期回报的估计；使用策略子网络并根据策略子网络的参数的当前值，处理训练观察以在连续动作空间中生成用于训练观察的理想点；从理想点和表示训练动作的特定点之间的距离生成对训练动作的优势估计；通过组合优势估计和价值估计生成特定动作的Q值；使用值子网络来处理后续观察以生成后续状态的新值估计，新值估计是在环境处于后续状态的情况下所得到的预期回报的估计；将奖励和新值估计组合以生成特定动作的目标Q值；和使用特定动作的Q值与目标Q值之间的误差来确定对策略子网络的参数的当前值的更新。

该方面的其他实施例包括记录在一个或多个计算机存储设备上的一个或多个计算机和计算机程序的***，每个计算机和计算机程序被配置为执行方法的动作。一个或多个计算机的***可以被配置为借助于安装在***上的软件、固件、硬件或其任何组合来执行特定操作或动作，其在操作中可以使***执行动作。一个或多个计算机程序可以被配置为通过包括当由数据处理装置执行时使装置执行动作的指令来执行特定操作或动作。

本说明书中描述的主题可以在特定实施例中实现，以便实现以下优点中的一个或多个。可以使用通用的无模型方法在连续的动作空间的场境下执行强化学习。这减少了在连续动作空间的场境下有效训练强化学习***所需的任务特定细节和域知识的数量。可以使用合成的经验元组生成用于训练无模型强化学习***的经验数据。可以在无需花费资源来监视代理与环境的交互的情况下增加可用于训练强化学习***的训练数据量。通过为强化学习***提供允许当前训练的***选择除最佳动作之外的动作的子***，可以提高训练的强化学习***的准确性和效率。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图的简要说明

图1示出了示例强化学习***。

图2是用于生成动作的Q值的示例过程的流程图。

图3是用于生成想象推出的示例过程的流程图。

图4是用于训练策略子网络的示例过程的流程图。

各附图中相同的附图标记和名称表示相同的元件。

具体实施方式

本说明书大体描述了一种强化学习***，其选择要由与环境交互的强化学习代理执行的动作。为了使代理与环境交互，***接收表征环境的当前状态的数据，并响应于接收的数据从代理执行的预定动作集中选择动作。表征环境状态的数据在本说明书中将被称为观察。

在一些实现中，环境是模拟环境，并且代理被实现为与模拟环境交互的一个或多个计算机程序。例如，模拟环境可以是视频游戏，并且代理可以是玩视频游戏的模拟用户。作为另一示例，模拟环境可以是运动模拟环境，例如驾驶模拟或飞行模拟，并且代理是通过运动模拟导航的模拟车辆。在这些实现中，动作可以是控制输入以控制模拟用户或模拟车辆的动作。

在一些其他实现中，环境是真实世界环境，并且代理是与现实世界环境交互的机械代理。例如，代理可以是与环境交互以完成特定任务的机器人。作为另一个例子，代理可以是在环境中导航的自主或半自动车辆。在这些实施方式中，动作可以是控制输入以控制机器人或自主车辆的动作。

图1示出了示例强化学习***100。强化学习***100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的***的示例，其中可以实现下面描述的***、组件和技术。

强化学习***100选择要由与环境104交互的强化学习代理102来执行的动作。即，强化学习***100接收观察，其中每个观察表征环境104的当前状态，并且，响应于每个观察，从强化学习代理102响应于观察要执行的所有可能动作集中选择动作。响应于代理102执行的一些或所有动作，强化学习***100接收奖励。每个奖励是作为代理执行动作的结果从环境104接收的数值，即，作为代理102执行动作的结果，奖励将根据环境104转变成的状态不同而不同。

强化学习***100从连续动作空间中选择要由代理102执行的动作。连续动作空间包括位于连续(即，无数无限)域上的所有可能动作集。例如，当代理102是机器人代理时，强化学习***100可以选择动作(例如，由具有多个控制输入的向量表示的)，所述动作包括将代理102的手臂的关节角度设置为特定值，其中关节角度的特定值属于连续域[0°,360°]。因为所有可能动作集位于连续域上，所以***100正在从连续的动作空间中选择要由代理102执行的动作。

强化学习***100包括值子网络111、策略子网络112和动作值子***130。强化学习***100还可以任选地包括函数参数子网络110和重放存储器140。

值子网络111是神经网络，其被配置为接收观察105并处理观察105以生成针对环境的当前状态的值估计121。值估计121是在环境104处于当前状态的情况下所得到的预期回报的估计。换句话说，值估计152测量处于当前状态的重要性，而与环境104处于当前状态时所选择的动作无关。预期回报是在环境处于由观察表征的状态的情况下所得到的时间折扣的总未来奖励，例如，在环境处于该状态之后接收的未来奖励的时间折扣总和。

策略子网络112是神经网络，其被配置为接收观察105并处理观察105以在连续的动作空间中生成理想点122。理想点122表示动作，如果响应于观察而执行该动作，期望生成连续空间中的所有动作的最大Q值。也就是说，理想点包括当前训练的神经网络的输出，其指示给定神经网络的当前内部状态的最佳动作。动作的Q值是在代理响应于观察而执行动作的情况下所得到的预期回报。预期回报是在代理响应于观察而执行动作的情况下所得到的时间折扣的总未来奖励，例如，在代理执行动作之后接收的未来奖励的时间折扣总和。

函数参数子网络110是神经网络，其被配置为接收观察105并处理观察105以生成定义当前状态的状态依赖性参数120的值的输出。在一些实现中，状态依赖性参数120解释当前状态的一个或一个以上非线性特征。动作值子***130接收连续动作空间中表示特定动作的特定点、从理想点122和状态依赖性参数120生成对特定动作的优势估计、并且从值估计121和优势估计生成特定动作的Q值。下面参照图2更详细地描述为特定动作生成Q值。

如上所述，动作值子***130以这样的方式确定优势估计：具有最高Q值的动作总是由理想点表示的动作。因此，在训练子网络之后，强化学习***100可以选择由理想点表示的动作作为由演员执行的动作。在子网络的训练期间，***有时可以选择除理想点所代表的动作之外的动作以鼓励环境探索。例如，强化学习***100可以以概率1-ε选择由理想点表示的动作作为由代理执行的动作，并且以概率ε选择随机动作。作为另一示例，***可以从噪声分布中采样点，然后选择由等于(采样点+理想点)的点表示的动作。

在一些实现中，重放存储器140存储用于训练函数参数子网络110、值子网络111和策略子网络112的经验元组。在那些实现中，强化学习***100从重放存储器140中选择经验元组，并使用经验元组来训练函数参数子网络110，值子网络111和策略子网络112。

通过将Q学习应用于具有连续动作空间的问题，强化学习***100使用无模型方法在这些问题的场境下实现强化学习。强化学习***100在学习环境104时在不使用与环境104相关联的状态转变概率值和预期奖励值的模型的情况下进行无模型强化学习。这种强化学习的无模型方法使用原始状态表示直接作为神经网络***的输入，使得具有最小特征和策略工程的复杂任务的训练策略成为可能。

通常，在对使用深度Q学习生成Q值的神经网络的训练期间，对于响应于给定的观察进行的给定的动作，有必要确定目标输出，即应该由神经网络生成的目标Q值。传统上，确定目标输出包括从代理可以执行的动作集中的所有动作中识别动作，该动作当结合表征在代理执行给定动作(识别动作的“argmax”)的情况下所得到的后续状态的观察处理时，神经网络生成最大Q值。在连续的动作空间中，后续状态中的所有可能动作集是不可数的。这通常导致识别argmax在计算上是不可行的，或者至少是非常计算密集的。为了解决该问题，强化学习***100可以响应于基于特定状态的值估计的特定观察来计算动作的Q值。特别是，从图2的描述中可以明显看出，由于确定了优势估计的方式，argmax动作的优势估计总是为零，并且强化学习***可以仅使用值估计来确定目标输出，这仅取决于观察并且不需要处理多个来自连续动作空间的动作。因此，即使动作空间是连续的，强化学习***也可以使用深度Q学习技术有效地训练函数参数子网络110，值子网络111和策略子网络112。

一些无模型方法具有需要大量训练示例以进行有效训练的缺点。这种无模型方法的训练复杂性，特别是当使用高维功能逼近器，即接收高维数据作为输入的深度神经网络时，倾向于限制它们对物理***的适用性。在一些实现中，强化学习***100可以通过合成地生成训练数据来解决该训练复杂性。

在重放存储器140存储用于训练值子网络111和策略子网络112的经验元组的一些实现中，动作值子***130生成想象推出141并将所生成的想象推出141添加到重放存储器140。想象推出141是强化学习***100基于环境104的状态转变模型合成地生成的经验元组。

想象推出141可以为重放存储器140提供附加的经验元组以训练值子网络111和策略子网络112，而不需要代理102的直接探索动作。这样，强化学习***100可以在不需要现实世界的实验的情况下增加重放存储器104中的训练数据。这反过来可以减少生成训练数据的时间以及在现实世界实验测量期间对代理102造成损害的风险。

在一些实现中，强化学习***100可以通过从想象推出141生成的合成经验元组和代理102根据采样策略从现实世界探索生成的实际经验元组中采样来训练值子网络111，策略子网络112，动作值子***130和函数参数子网络110中的一个或多个。采样策略定义合成和实际经验元组各自包括在来自重放存储器104的经验元组样本中的频率。

下面参照图3更详细地描述生成想象推出141。

图2是用于生成动作的Q值的示例过程200的流程图。为方便起见，过程200将被描述为由位于一个或多个位置的一个或多个计算机的***执行。例如，强化学习***，例如图1的强化学习***100，根据本说明书适当编程，可以执行过程200。

***获得连续动作空间中表示特定动作的特定点(210)。

***生成对特定动作的优势估计(220)。在一些实现中，当前状态中的对特定动作的优势估计是对当前状态中的特定动作的Q值与当前状态的值估计之间的差异的度量。

***根据连续动作空间中的理想点与连续动作空间中表示特定动作的特定点之间的距离来生成优势估计。

在一些实现中，***将具有状态依赖性参数的函数应用于距离以生成优势估计。在这些实现中的一些中，状态依赖性参数由***的函数参数子网络的输出(例如，图1的强化学习***100的函数参数子网络110)定义。

在这些实现中的一些中，优势估计满足以下关系：

其中函数A(x，u|θ^A)生成优势估计作为其输出，u-μ(x|θ^μ))是连续动作空间中的理想点与连续动作空间中表示特定动作的特定点之间的距离，(u-μ(x|θ^μ))^T是距离的转置，以及P(x|θ^P)是状态依赖性参数矩阵，其具有由状态依赖性参数值定义的条目。

在一些实现中，P是正定矩阵，并且，P(x|θ^P)＝LL^T，其中L是具有从函数参数子网络的输出导出的条目的下三角矩阵。也就是说，状态依赖性参数是在L的主对角线处或之下的L的每个相应条目的值。

***通过组合对特定动作的优势估计和当前状态的值估计来生成特定动作的Q值(230)。在一些实现中，***加入对特定动作的优势估计和特定状态的值估计，以生成特定状态中的特定动作的Q值。

图3是用于生成想象推出的示例过程300的流程图。为方便起见，过程300将被描述为由位于一个或多个位置的一个或多个计算机的***执行。例如，强化学习***，例如图1的强化学习***100，根据本说明书适当编程，可以执行过程300。

***识别特定观察(310)。特定观察表征由环境响应于代理执行的动作而转变的状态。

在一些实现中，***从重放存储器(例如，图1的强化学习***100的重放存储器140)获得特定观察。

***选择与响应于特定观察而由代理执行的动作不同的动作(320)。

在一些实现中，***随机选择与响应于特定观察而由代理执行的动作不同的动作。

在一些实现中，***使用预定策略来选择与由代理响应于特定观察而执行的动作不同的动作。例如，***选择在特定观察所表征的状态下具有最低Q值的动作。

在一些实现中，***基于代理的一个或多个计划动作轨迹选择动作。例如，***可以基于轨迹规划算法选择动作，例如迭代线性二次高斯(iLGQ)算法。

***使用状态转变模型处理特定观察和所选择的动作(330)，以确定表征下一状态的下一观察，如果代理已经响应于特定观察而执行了选择动作，则环境将转变到该状态。换句话说，***使用状态转变模型为代理创建虚构的轨迹。

在一些实现中，***使用模型学习算法来获得状态转变模型。例如，***使用模型学习算法获得状态转变模型，该算法生成迭代重构的时变线性模型。在一些算法中，取代用于所有状态和动作学习良好的全局状态转换模型，***仅针对为最新的样本集获得良好的局部模型。***使用的其他模型学习算法可以生成建议的状态转变模型作为神经网络、高斯过程和局部加权回归模型中的一个或多个。

示例性模型学习算法可见于Heess,Nicolas,Wayne,Gregory,Silver,David,Lillicrap,Tim,Erez,Tom,and Tassa,Yuval."Learning continuous control policiesby stochastic value gradients",in Advances in Neural Information ProcessingSystems(NIPS),pp.2926-2934,2015；Deisenroth,Marc and Rasmussen,Carl E."Pilco:Amodel-based and data-efficient approach to policy search,"InternationalConference on Machine Learning(ICML),pp.465-472,2011；Atkeson,Christopher G,Moore,Andrew W,and Schaal,Stefan."Locally weighted learning for control,"LazyLearning,pp.75-113.Springer,1997；以及Levine,Sergey and Abbeel,Pieter."Learning neural network policies with guided policy search under unknowndynamics,"Advances in Neural Information Processing Systems(NIPS),pp.1071-1079,2014。

该***生成合成经验元组(340)，其包括特定观察、所选择的动作和下一观察。合成经验元组是***可以添加到重放存储器的想象推出。

在一些实现中，***多次迭代地执行步骤320和330，以从单个采样观察生成多个合成经验元组。例如，在一次执行步骤320以响应于特定观察确定替代动作并且执行步骤330以确定下一观察之后，***执行步骤320以响应于新观察确定替代动作并且执行步骤330以确定新的下一观察。这样，***可以迭代地执行步骤320和330以生成合成经验元组，直到代理的环境达到指定的终端状态。

例如，***可以通过改变响应于观察所采取的替代动作，从采样观察中生成多个合成经验元组。

图4是用于训练强化学习***的子网络的示例过程200的流程图。为方便起见，过程400将被描述为由位于一个或多个位置的一个或多个计算机的***执行。例如，强化学习***，例如图1的强化学习***100，根据本说明书适当编程，可以执行过程400。

***获得经验元组(410)。经验元组包括(1)表征环境训练状态的训练观察，(2)由代理响应于训练观察而执行的动作，(3)作为代理响应于训练观察而执行动作的结果而接收的奖励，以及(4)表征环境的后续状态的后续观察。

***使用值子网络来处理训练观察，以根据值子网络的参数的当前值生成第一值估计(420)。第一价值估计是在环境处于训练状态的情况下所得到的预期回报的估计。

***处理训练观察以使用策略子网络并且根据策略子网络的参数的当前值在用于训练观察的连续动作空间中生成理想点(430)。换句话说，***使用策略子网络来在训练观察期间为环境的训练状态生成理想点。

***从理想点与表示训练动作的特定点之间的距离生成对训练动作的优势估计(440)，并通过组合优势估计和值估计来生成特定动作的Q值(450)。以上关于图2更详细地描述了为动作生成优势估计和Q值。

***使用值子网络来处理后续观察以生成后续状态的新值估计(460)。新后续状态的新值估计是在环境处于后续状态的情况下所得到的预期回报的估计。

***组合奖励和新值估计以生成特定动作的目标Q值(470)。当结合表征在代理执行给定动作的情况下所得到的后续状态的观察处理时，***生成目标Q值而不确定神经网络生成最大Q值的动作。

***使用特定动作的Q值与目标Q值之间的误差来确定对强化学习***的子网络的参数的当前值的更新(480)。在一些实现中，***使用训练算法确定更新，该训练算法依赖于基于误差函数的梯度的反向传播。

本说明书的实施例、主题以及功能操作，包括本说明书中所公开的结构及其结构化等同物，能够被实现在：数字电子电路、有形地体现的计算机软件或固件、计算机硬件、或者它们中的一个或多个的组合中。本说明书中所描述的主题的实施例能够被实现为一个或多个计算机程序，即计算机程序指令的一个或多个模块，所述计算机程序指令编码在用于由数字处理设备执行或控制其操作的有形非暂时性程序载体上。替选地或另外地，程序指令能够被编码在人工生成的传播信号上，例如编码在机器生成的电、光、或电磁信号上，所述传播信号被生成以编码信息，所述信息用于传输到合适的接收器设备以供数据处理设备执行。计算机存储介质能够是机器可读的存储装置、机器可读的存储基质、随机或串行存取存储器装置、或者它们中的一个或多个的组合。然而，计算机存储介质不是传播信号。

术语"数据处理设备"涵盖用于处理数据的所有类型的设备、装置、和机器，包括例如可编程处理器、计算机、或者多个处理器或计算机。该设备可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件以外，该设备还可以包括为目的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理***、操作***、或者它们中的一个或多个的组合的代码。

计算机程序也可以被称作或被描述为程序、软件、软件应用、模块、软件模块、脚本、或代码，能够以任何形式的编程语言来编写计算机程序，所述编程语言包括编译或解释语言、或者说明性或过程语言，并且能够以任何形式来部署所述计算机程序，包括作为独立的程序或者作为模块、组件、子程序、或者适于在计算环境中使用的其他单元。计算机程序可以但不必与文件***中的文件对应。程序能够被存储在保持其他程序或数据(例如存储在标记语言文档中的一个或多个脚本)的文件的一部分中、专用于所讨论的程序的单个文件中、或者多个协同文件(例如存储一个或多个模块、子程序、或代码的一部分的文件)中。计算机程序能够被部署为在一个计算机上或者在位于一个地点或者跨多个地点分布并通过通信网络互连的多个计算机上执行。

如在本说明书中所使用的，“引擎”或“软件引擎”是指软件实现的输入/输出***，其提供与输入不同的输出。引擎可以是编码的功能块，例如库、平台、软件开发工具包(“SDK”)或对象。每个引擎可以在任何适当类型的计算设备上实现，例如，服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其他固定的或便携式设备，包括一个或多个处理器和计算机可读介质。另外，两个或更多个引擎可以在同一计算设备上或在不同的计算设备上实现。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行，并且装置也可以实现为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适于执行计算机程序的数字计算机作为示例，包括能够基于通用微处理器或专用微处理器或这两者，或者任何其他种类的中央处理单元。通常，中央处理单元将接收来自只读存储器或随机存取存储器或者这两者的指令和数据。计算机的基本元件是：用于实施或执行指令的中央处理单元，以及用于存储指令和数据的一个或多个存储器装置。通常，计算机还将包括用于存储数据的一个或多个大容量存储装置，例如磁盘、磁光盘、或光盘，或者计算机被可操作地耦合以接收来自所述一个或多个大容量存储装置的数据或向其传送数据，或者以上两者。然而，计算机不必具有这样的装置。此外，计算机可以嵌入在另一个装置中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位***(GPS)接收器或便携式存储设备。例如，通用串行总线(USB)闪存驱动器，仅举几例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质、和存储器装置，包括例如：半导体存储器装置，例如EPROM、EEPR0M、和闪速存储器装置；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有显示设备的计算机上实现，例如CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户和键盘以及指针设备(例如，鼠标或轨迹球)显示信息，用户可通过该设备向计算机提供输入。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求将网页发送到用户的客户端设备上的web浏览器。

本说明书中描述的主题的实施例可以在包括后端组件，该后端组件例如作为数据服务器，或者包括中间件组件，例如应用服务器，或者包括前端组件，例如，具有图形用户界面或Web浏览器的客户端计算机，用户可通过该浏览器与本说明书中描述的主题的实现进行交互，或者一个或多个这样的后端，中间件或前端组件的组合的计算***中实现。***的组件可以通过任何形式或介质的数字数据通信互连，例如通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如因特网。

计算***可包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系由于在各自的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而生成。

虽然本说明书包含许多具体实施方式细节，但是这些细节不应当被解释为对任何发明或可能要求保护的范围的限制，而应当被解释为对具体到特定发明的特定实施例的特征的描述。还够将在本说明书中在分离的实施例的场境中描述的某些特征组合在单个实施例中实现。相反地，也能够将在单个实施例的场境中描述的各种特征分离地在多个实施例中实现或在任何合适的子组合中实现。此外，尽管可能在上面将特征描述为在某些组合中起作用，甚至最初如此要求保护，但是可以在一些情况下将来自所要求保护的组合的一个或多个特征从组合中删去，并且可以将所要求保护的组合指向子组合或者子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是不应当将这理解为需要以所示的特定顺序或者以序列顺序来执行这样的操作、或者需要执行所有图示的操作才能达到期望的结果。在某些情况下，多任务以及并行处理可以是有利的。此外，不应当将在上述实施例中的各种***组件的分离理解为在所有实施例中均需要这样的分离，而应当理解的是，通常能够将所描述的程序组件和***一起集成在单个软件产品中或封装为多个软件产品。

已经描述了本主题的特定实施例。其他实施例落入所附的权利要求书的范围内。例如，能够以不同的顺序来执行权利要求中记载的动作并且仍然达到期望的结果。作为一个示例，在附图中描绘的过程不一定要求所示的特定顺序或序列顺序来达到期望的结果。在某些情况下，多任务以及并行处理可以是有利的。

Claims

1.一种***，所述***包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在被所述一个或多个计算机执行时能够操作，所述***被配置来使得所述一个或多个计算机执行用于训练强化学习***的策略神经网络的方法，其中，所述策略神经网络被配置来选择来自动作的连续动作空间的待由与环境交互的代理执行的动作，所述连续动作空间包括位于连续域上的所有可能动作集，所述方法包括：

获得经验元组，所述经验元组识别i)表征所述环境的训练状态的训练观察、ii)由所述代理响应于所述训练观察而执行的训练动作、iii)作为所述代理响应于所述训练观察而执行所述训练动作的结果而接收的奖励以及iv)表征所述环境的后续状态的后续观察；

在包括所述经验元组的训练数据上训练所述策略神经网络，所述训练包括：

使用值神经网络并根据所述值神经网络的参数的当前值来处理所述训练观察以生成第一值估计，所述第一值估计是在所述环境处于由所述训练观察表征的所述训练状态的情况下所得到的预期回报的估计，与响应于所述训练观察而执行哪一动作无关；

将所述训练观察作为输入提供给所述策略神经网络；

针对所述训练观察，获得位于所述连续域上的所述所有可能动作集中的输出动作，作为来自所述策略神经网络并且是根据所述策略神经网络的参数的当前值而生成的输出；

确定在所述连续域中以下二者之间的距离：i)位于所述连续域上的所述所有可能动作集中的所述输出动作，所述输出动作是通过处理所述训练观察而作为来自所述策略神经网络的输出来获得的，以及ii)由所述代理响应于所述训练观察而执行过的所述训练动作；

根据在所述连续域中以下二者之间的所确定的距离生成对响应于所述训练观察而执行的所述训练动作的优势估计：i)位于所述连续域上的所述所有可能动作集中的所述输出动作，所述输出动作是通过处理所述训练观察而作为来自所述策略神经网络的输出所获得的，以及ii)由所述代理响应于所述训练观察而执行过的所述训练动作；以及

通过组合对响应于所述训练观察而执行的所述训练动作的所述优势估计和所述第一值估计来生成响应于所述训练观察而执行的所述训练动作的Q值，所述第一值估计是在所述环境处于由所述训练观察表征的所述训练状态的情况下所得到的预期回报的估计，与响应于所述训练观察而执行哪一动作无关；

使用所述值神经网络来处理所述后续观察以生成所述后续状态的新值估计，所述新值估计是在所述环境处于所述后续状态的情况下所得到的预期回报的估计；

将所述奖励和所述新值估计组合以生成所述训练动作的目标Q值；

使用以下二者之间的误差来确定对所述策略神经网络的参数的当前值和所述值神经网络的参数的当前值的更新：i)使用所述输出动作与所述训练动作之间的距离来生成的所述训练动作的Q值，以及ii)所述目标Q值；以及

在所述训练之后，提供所训练的策略神经网络以用于控制与现实世界环境交互的机械代理。

2.如权利要求1所述的***，其中根据位于所述连续域上的所述所有可能动作集中的、能够作为来自所述策略神经网络的输出所获得的所述输出动作与由所述代理响应于所述训练观察而执行过的所述训练动作之间的所确定的距离生成对响应于所述训练观察而由所述代理执行过的所述训练动作的所述优势估计包括：

将具有状态依赖性参数的函数应用于位于所述连续域上的所述所有可能动作集中的、能够作为来自所述策略神经网络的输出所获得的所述输出动作与由所述代理响应于所述训练观察而执行过的所述训练动作之间的所述距离。

3.如权利要求2所述的***，其中所述方法还包括：

由所述强化学习***的函数参数神经网络处理所述训练观察以生成定义所述状态依赖性参数的值的输出。

4.如权利要求3所述的***，其中所述优势估计满足：

其中，A表示所述优势估计，x表示所述训练观察，u表示所述训练动作，θ表示参数，

第一项是位于所述连续域上的所述所有可能动作集中的所述输出动作与响应于所述训练观察而执行过的所述训练动作之间的所述距离的转置，μ表示所述策略神经网络，

P是具有由所述状态依赖性参数值定义的条目的状态依赖性参数矩阵，并且

第三项是位于所述连续域上的所述所有可能动作集中的所述输出动作与由所述代理响应于所述训练观察而执行过的所述训练动作之间的所述距离。

5.如权利要求4所述的***，其中P是正定矩阵，并且其中P(x|θ^P)＝LL^T，L是具有从所述函数参数神经网络的所述输出导出的条目的下三角矩阵。

6.如权利要求1所述的***，其中所述方法还包括：

生成想象推出，其中每个想象推出是合成的经验元组；以及

将所生成的想象推出添加到所述强化学习***的重放存储器中，所述重放存储器存储用于训练所述策略神经网络和所述值神经网络的经验元组。

7.一种计算机实现的方法，包括由权利要求1-6中任一项所述的***执行的操作。

8.编码有指令的一种或多种计算机存储介质，所述指令当由一个或多个计算机执行时，使得所述一个或多个计算机实现权利要求1-6中任一项所述的***。

9.一种训练强化学习***的策略神经网络的方法，所述强化学习***被配置为选择来自动作的连续动作空间的待由与环境交互的代理执行的动作，所述连续动作空间包括位于连续域上的所有可能动作集，所述方法是在被配置来接收表示所述环境的训练观察的计算***上执行的，所述方法包括：

获得经验元组，所述经验元组识别i)表征所述环境的训练状态的训练观察、ii)由所述代理响应于所述训练观察而执行的训练动作、iii)作为所述代理响应于所述训练观察而执行所述训练动作的结果而接收的奖励、以及iv)表征所述环境的后续状态的后续观察；以及

将所述训练观察作为输入提供给所述策略神经网络；

根据在所述连续域中以下二者之间的所确定的距离生成对由所述代理响应于所述训练观察而执行过的所述训练动作的优势估计：i)位于所述连续域上的所述所有可能动作集中的所述输出动作，所述输出动作是通过处理所述训练观察而作为来自所述策略神经网络的输出所获得的，以及ii)由所述代理响应于所述训练观察而执行过的所述训练动作；

10.如权利要求9所述的方法，其中所述代理是所述机械代理，并且所述环境是所述现实世界环境。

11.如权利要求9所述的方法，其中根据位于所述连续域上的所述所有可能动作集中的所述输出动作与由所述代理响应于所述训练观察而执行过的所述训练动作之间的所确定的距离生成对响应于所述训练观察而由所述代理执行过的所述训练动作的所述优势估计包括：

将具有状态依赖性参数的函数应用于位于所述连续域上的所述所有可能动作集中的所述输出动作与响应于所述训练观察而执行过的所述训练动作之间的所述距离。

12.如权利要求11所述的方法，还包括：

13.如权利要求12所述的方法，其中所述优势估计满足：

第三项是位于所述连续域上的所述所有可能动作集中的所述输出动作与响应于所述训练观察而执行过的所述训练动作之间的所述距离。

14.如权利要求13所述的方法，其中P是正定矩阵，

并且其中P(x|θ^P)＝LL^T，其中L是具有从所述函数参数神经网络的所述输出导出的条目的下三角矩阵。

15.如权利要求9所述的方法，还包括：

生成想象推出，其中每个想象推出是合成的经验元组；以及

16.如权利要求15所述的方法，其中生成想象推出包括：

识别特定观察，所述特定观察表征由所述环境响应于所述代理执行的动作而转变成的状态；

选择与由所述代理响应于所述特定观察所执行的所述动作不同的动作；

使用状态转变模型处理所述特定观察和所选择的动作，以确定表征下一状态的下一观察，如果所述代理响应于所述特定观察已经执行了所选择的动作，则所述环境将会转变成所述下一状态；以及

生成合成经验元组，所述合成经验元组包括所述特定观察、所选择的动作和所述下一观察。

17.如权利要求9所述的方法，其中响应于所述训练观察而由所述代理执行过的所述训练动作的所述优势估计是相对于所述第一值估计的、在所述训练状态中执行所述训练动作的预期回报的估计。

18.如权利要求9所述的方法，其中在接收到新观察时，所述方法还包括：

使用所述策略神经网络处理所述新观察来生成位于所述连续域上的新的输出动作；

使用该输出动作来选择要由所述代理执行的新动作；

接收新奖励以及新观察，所述新观察表征所述环境的新的后续状态，作为所述代理执行所述新动作的结果所述环境转变成所述环境的所述新的后续状态；

生成新经验元组，所述新经验元组包括所述新观察、所述新动作、所述新奖励和新的后续观察。

19.一种包括一个或多个计算机和存储指令的一个或多个存储设备的***，所述指令在由所述一个或多个计算机执行时,使所述一个或多个计算机执行如权利要求9-18所述的方法中的任一项。

20.一种编码有指令的计算机存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机执行如权利要求9-18所述的方法中的任一项。