CN112052936A

CN112052936A - 基于生成对抗机制的强化学习探索方法及装置

Info

Publication number: CN112052936A
Application number: CN202010720742.7A
Authority: CN
Inventors: 杨君; 袁凯钊; 马骁腾; 芦维宁; 陈章; 梁斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-12-08
Anticipated expiration: 2040-07-24
Also published as: CN112052936B

Abstract

本发明公开了一种基于生成对抗机制的强化学习探索方法及装置，其中，该方法包括：构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络；基于生成对抗机制和离线强化学习算法的学习过程，对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。

Description

基于生成对抗机制的强化学习探索方法及装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于生成对抗机制的强化学习探索方法及装置。

背景技术

近年来，计算机的计算和储存性能都有了巨大飞跃，引发了深度学习的快速兴起。深度学习不仅在图像分类、语音识别和自然语言处理等领域取得巨大进展，还为强化学习中价值函数的近似、智能体行为策略的表达提供了便利条件。结合了神经网络的强化学习有了处理大规模模拟数据，经过一次次的梯度更新完成迭代学习的能力，使得战胜世界围棋高手的AlphaGo成为现实。

然而，强化学习仍然面临着诸多问题，其中一个重要的问题是稀疏奖励问题。在许多现实场景中，外部环境给予智能体的奖励十分稀疏甚至完全没有，只有智能体在达成阶段性目标甚至只有它完成最终目标任务之后，奖励才由环境给出。如果起始状态到目标状态之间需要经历诸多动作进行驱动，而中间这些动作无法获得相应的激励，将导致智能体需要经过巨量的学习次数才能达成目标，甚至可能仅仅徘徊在最初的几种状态，使学习过程变得十分困难。

尽管基于随机动作的探索方法可能使智能体探索更多的状态和动作，但在面对稍微复杂一点的环境时这种朴素的探索方法几乎没有什么效果。更复杂的探索可以在动作空间、策略参数空间、目标或状态空间等不同的探索空间进行，从而获得更好的探索结果。对动作空间或策略参数空间进行探索的方法往往采用了随机或添加噪声的思路。常见的在动作空间进行探索的策略有∈-greedy、动作空间噪声、标准最大熵强化学习算法等。向策略参数空间添加噪声也可以得到较好的探索。关于在状态空间或目标空间进行探索的方法，一般由探索方法提供额外的内在激励来鼓励智能体进行探索。一类方法直接鼓励智能体访问新的状态，这类方法对智能体访问次数较少的状态提供更高的内在奖励。另一类方法是建立预测模型并以预测误差作为探索的内在奖励，为预测模型表现不好的状态提供更高的内在奖励。此外还有一种状态边际匹配算法，将基于最大化熵的思想使用在状态空间的探索中。

以上探索方法仍然存在一些不足：基于随机思想的探索方法无法为智能体提供充足的探索性；设计内在激励函数的探索方法则因内在激励的衰减性质，导致智能体的价值估计出现波动，影响了训练稳定性。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于生成对抗机制的强化学习探索方法，该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。

本发明的另一个目的在于提出一种基于生成对抗机制的强化学习探索方装置。

为达到上述目的，本发明一方面实施例提出了一种基于生成对抗机制的强化学习探索方法，包括：

S1，构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络；

S2，基于生成对抗机制和离线强化学习算法的学习过程，对所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络、所述策略网络、所述密度模型网络和所述鉴别网络进行更新；

S3，根据更新的多个网络生成更新后的策略模型，对所述策略模型进行测试。

为达到上述目的，本发明另一方面实施例提出了一种基于生成对抗机制的强化学习探索装置，包括：

构建模块，用于构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络；

更新模块，用于基于生成对抗机制和离线强化学习算法的学习过程，对所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络、所述策略网络、所述密度模型网络和所述鉴别网络进行更新；

测试模块，用于根据更新的多个网络生成更新后的策略模型，对所述策略模型进行测试。

本发明实施例的基于生成对抗机制的强化学习探索方法及装置的优势如下：通过从工业应用与算法研究实际需要出发，研究基于生成对抗机制的强化学习探索，并结合离线强化学习算法SAC和基于状态边际匹配的探索算法SMM，设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于生成对抗机制的强化学习探索方法流程图；

图2为根据本发明一个实施例的基于生成对抗机制的强化学习探索方法流程框图；

图3为根据本发明一个实施例的环境的具体场景图；

图4为根据本发明一个实施例的训练过程图像；

图5为根据本发明一个实施例的基于生成对抗机制的强化学习探索装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于生成对抗机制的强化学习探索方法及装置。

首先将参照附图描述根据本发明实施例提出的基于生成对抗机制的强化学习探索方法。

图1为根据本发明一个实施例的基于生成对抗机制的强化学习探索方法流程图。

图2为根据本发明一个实施例的基于生成对抗机制的强化学习探索方法流程框图。

如图1和图2所示，该基于生成对抗机制的强化学习探索方法包括以下步骤：

步骤S1，构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络。

具体地，构建参数为

的第一动作价值网络Q₁、参数为

的第二动作价值网络Q₂、参数为θ_v的状态价值网络V、参数为θ_v′的目标状态价值网络V′、参数为θ的策略网络π、参数为w的密度模型网络qq和参数为θ_d的鉴别网络DD。

步骤S2，基于生成对抗机制和离线强化学习算法的学习过程，对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新。

基于生成对抗机制和离线强化学习算法的学习过程。使用策略网络π与仿真环境进行交互，将四元组(s_t,a_t,r_t,s_t+1)存入到缓存器B_π中。其中奖励值来自仿真环境反馈的真实值。通过对抗学习的方式，步骤S1中的网络的参数持续更新，不断缩小生成决策和正确决策之间的分布差异。当训练进程收敛时，即使鉴别网络已经具备了较强的分辨能力，但此时学习策略已经很接近最优策略，鉴别网络很难区分此时的生成决策和正确决策。

进一步地，步骤S2的学习过程具体包括：

S21，初始化仿真环境env、第一动作价值网络Q₁、第二动作价值网络Q₂、状态价值网络V、目标状态价值网络V′、策略网络π、密度模型网络qq和鉴别网络D。

S22，在当前状态s_t依据策略选取动作a_t，并转移到下一状态s_t+1，获得当前时刻的环境奖励r_t，根据当前状态s_t、当前动作a_t、当前时刻的奖励值r_t和下一状态s_t+1组成四元组(s_t,a_t,r_t,s_t+1)，并将四元组存储进决策缓存器B_π。

S23，在仿真结束时，判断环境任务是否完成，若任务完成，则将该轮仿真的所有决策

存入正确决策缓存器B_good；反之，则将该轮仿真的所有决策{x_t＝st,att＝1T存入错误决策缓存器Bbad。

S24，在正确决策缓存器B_good和错误决策缓存器B_bad中的数据量均达到数据量阈值后，在正确决策缓存器B_good和错误决策缓存器B_bad中分别采样得到正确决策和错误决策，并通过损失函数对鉴别网络的梯度进行下降以优化鉴别网络的参数，重复采样和参数更新过程，直至鉴别网络对生成决策的平均鉴别结果小于预设阈值。

在这一步骤中，重复采样和更新过程，在鉴别网络对生成决策的平均鉴别结果小于0.5时结束更新过程。

进一步地，鉴别网络需要优化的损失函数的公式为：

L_d(x^T,x^F)＝E[log D(x^T)]+E[log(1-D(x^F))]

其中，L_d(x^T,x^F)为利用正确决策和错误决策计算的损失函数值，x^T和x^F分别代表从正确决策缓存器B_good和错误决策缓存器B_bad中采样得到的决策。

进一步地，优化鉴别网络的参数θ_d包括：

其中，θ_d为鉴别网络的参数，α_d为鉴别网络的学习率，L_d为鉴别网络的损失函数。

S25，对密度模型、第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络和策略网络进行更新。

对状态价值网络、第一动作价值网络和第二动作价值网络、策略网络进行更新的损失函数为包括：

其中，r(s_t,a_t)为用于训练的奖励值，γ为衰减系数。

进一步地，对各个网络更新的具体过程为：

S251，利用梯度下降方法更新密度模型网络qq：

q←argmax_qE[log q(s_t)]

其中，s_t为从决策缓存器B_π中采样得到的状态；

S252，计算奖励值：

r(s_t,a_t)＝r_t-logq(s_t)+logD(G(s_t))

其中，G(s_t)为基于s_t的生成决策，由s_t自身与策略网络π在s_t输入下输出的动作a_t共同构成，即：

G(s_t)＝(s_t,π(s_t))

S253，利用梯度下降法更新状态价值网络的参数θ_v、第一动作价值网络的参数

第二动作价值网络的参数

和策略网络的参数θ：

其中，α_v、α_q和α分别为状态价值网络、第一动作价值网络及第二动作价值网络和策略网络的学习率；

S253，对目标状态价值网络的参数进行软更新：

θ′_v←τθ_v+(1-τ)θ′_v

其中，τ是超参数。

步骤S3，根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。

具体地，在与环境的交互次数达到预设次数时，结束训练过程生成更新后的策略模型。

下面通过具体的实施例对发明的基于生成对抗机制的强化学习探索方法进行详细说明。

对于一个连续控制任务，该任务的目的是控制二维的圆点在地图中移动，使其能够经过尽可能少的时间步之后抵达终点(目标点)，图3是该环境的具体场景。对于该仿真环境中要控制的智能体而言，输入是12维状态量，输出动作是连续的2维变量。在所提出的基于生成对抗机制的强化学习探索算法中，策略网络包含两层隐藏层，结点数均为300，激活函数为ReLU；两个值网络的结构相同，同样包含两层隐藏层，结点数均为300，激活函数为ReLU；鉴别器网络包含两层隐藏层，结点数均为300，隐含层使用的激活函数是LeakyReLU，输出层使用的激活函数是Sigmoid。以上各个网络的参数都通过Adam优化器进行优化。

模仿学习过程中使用到的其他超参数如下表所示：

超参数	值
		单次方向传播的样本量(batch_size)	64
奖励值的衰减系数(gamma)	0.99
		每轮游戏的最大步数(num_steps)	500
仿真次数(num_episodes)	1000
		学习率(lr)	0.0003
缓存器容量(memory_size)	1000000
		副网络柔性更新系数(soft_tau)	0.001

如图4所示，在ContinuousMaze_v0环境中，采用SAC与SMM结合的算法在训练过程中不够稳定，而添加了生成对抗机制的SAC与SMM结合的算法则在第200episode后稳定收敛。

根据本发明实施例提出的基于生成对抗机制的强化学习探索方法，通过从工业应用与算法研究实际需要出发，研究基于生成对抗机制的强化学习探索，并结合离线策略学习算法SAC和基于状态边际匹配的探索算法SMM，设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法

其次参照附图描述根据本发明实施例提出的基于生成对抗机制的强化学习探索装置。

如图5所示，该基于生成对抗机制的强化学习探索装置包括：构建模块100、更新模块200和测试模块300。

构建模块100，用于构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络。

更新模块200，用于基于生成对抗机制和离线强化学习算法的学习过程，对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新。

测试模块300，用于根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。

进一步地，在本发明的一个实施例中，更新模块，具体用于，

初始化仿真环境env、第一动作价值网络Q₁、第二动作价值网络Q₂、状态价值网络V、目标状态价值网络V′、策略网络π、密度模型网络qq和鉴别网络D；

在当前状态s_t依据策略选取动作a_t，并转移到下一状态s_t+1，获得当前时刻的环境奖励r_t，根据当前状态s_t、当前动作a_t、当前时刻的奖励值r_t和下一状态s_t+1组成四元组(s_t,a_t,r_t,s_t+1)，并将四元组存储进决策缓存器B_π；

在仿真结束时，判断环境任务是否完成，若任务完成，则将该轮仿真的所有决策

存入正确决策缓存器B_good；反之，则将该轮仿真的所有决策{x_t＝st,att＝1T存入错误决策缓存器Bbad；

在正确决策缓存器B_good和错误决策缓存器B_bad中的数据量均达到数据量阈值后，在正确决策缓存器B_good和错误决策缓存器B_bad中分别采样得到正确决策和错误决策，并通过损失函数对鉴别网络的梯度进行下降以优化鉴别网络的参数，重复采样和参数更新过程，直至鉴别网络对生成决策的平均鉴别结果小于预设阈值；

对密度模型、第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络和策略网络进行更新。

进一步地，在本发明的一个实施例中，鉴别网络的损失函数为：

L_d(x^T,x^F)＝E[log D(x^T)]+E[log(1-D(x^F))]

进一步地，在本发明的一个实施例中，优化鉴别网络的参数θ_d包括：

其中，θ_d为鉴别网络的参数，α_d为鉴别网络的学习率，L_d(x^T,x^F)为利用正确决策和错误决策计算的损失函数值，x^T和x^F分别代表从正确决策缓存器B_good和错误决策缓存器B_bad中采样得到的决策。

需要说明的是，前述对基于生成对抗机制的强化学习探索方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于生成对抗机制的强化学习探索方装置，通过从工业应用与算法研究实际需要出发，研究基于生成对抗机制的强化学习探索，并结合离线策略学习算法SAC和基于状态边际匹配的探索算法SMM，设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于生成对抗机制的强化学习探索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于生成对抗机制的强化学习探索方法，其特征在于，所述S2进一步包括：

S21，初始化仿真环境env、所述第一动作价值网络Q₁、所述第二动作价值网络Q₂、所述状态价值网络V、所述目标状态价值网络V′、所述策略网络π、所述密度模型网络qq和所述鉴别网络D；

S22，在当前状态s_t依据策略选取动作a_t，并转移到下一状态s_t+1，获得当前时刻的环境奖励r_t，根据当前状态s_t、当前动作a_t、当前时刻的奖励值r_t和下一状态s_t+1组成四元组(s_t，a_t，r_t，s_t+1)，并将所述四元组存储进决策缓存器B_π；

S24，在所述正确决策缓存器B_good和所述错误决策缓存器B_bad中的数据量均达到数据量阈值后，在所述正确决策缓存器B_good和所述错误决策缓存器B_bad中分别采样得到正确决策和错误决策，并通过损失函数对所述鉴别网络的梯度进行下降以优化所述鉴别网络的参数，重复采样和参数更新过程，直至所述鉴别网络对生成决策的平均鉴别结果小于预设阈值；

S25，对所述密度模型、所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络和所述策略网络进行更新。

3.根据权利要求2所述的基于生成对抗机制的强化学习探索方法，其特征在于，所述鉴别网络的损失函数为：

L_d(x^T，x^F)＝E[log D(x^T)]+E[log(1-D(x^F))]

4.根据权利要求2所述的基于生成对抗机制的强化学习探索方法，其特征在于，优化所述鉴别网络的参数θ_d包括：

5.根据权利要求2所述的基于生成对抗机制的强化学习探索方法，其特征在于，对所述状态价值网络、所述第一动作价值网络和所述第二动作价值网络、所述策略网络进行更新的损失函数为：

其中，r(s_t,a_t)为用于训练的奖励值，γ为衰减系数。

6.根据权利要求5所述的基于生成对抗机制的强化学习探索方法，其特征在于，所述S25进一步包括：

S251，利用梯度下降方法更新所述密度模型网络qq：

q←argmax_qE[log q(s_t)]

其中，s_t为从决策缓存器B_π中采样得到的状态；

S252，计算奖励值：

r(s_t,a_t)＝r_t-log q(s_t)+log D(G(s_t))

其中，G(s_t)为基于s_t的生成决策，由s_t自身与所述策略网络π在s_t输入下输出的动作a_t共同构成，即：

G(s_t)＝(s_t,π(s_t))

S253，利用梯度下降法更新所述状态价值网络的参数θ_v、所述第一动作价值网络的参数θ_q1、所述第二动作价值网络的参数θ_q2和所述策略网络的参数θ：

其中，α_v、α_q和α分别为所述状态价值网络、所述第一动作价值网络及所述第二动作价值网络和所述策略网络的学习率；

S253，对所述目标状态价值网络的参数进行软更新：

θ′_v←τθ_v+(1-τ)θ′_v

其中，τ是超参数。

7.一种基于生成对抗机制的强化学习探索装置，其特征在于，包括：

8.根据权利要求7所述的基于生成对抗机制的强化学习探索装置，其特征在于，所述更新模块，具体用于，

初始化仿真环境env、所述第一动作价值网络Q₁、所述第二动作价值网络Q₂、所述状态价值网络V、所述目标状态价值网络V′、所述策略网络π、所述密度模型网络qq和所述鉴别网络D；

在当前状态s_t依据策略选取动作a_t，并转移到下一状态s_t+1，获得当前时刻的环境奖励r_t，根据当前状态s_t、当前动作a_t、当前时刻的奖励值r_t和下一状态s_t+1组成四元组(s_t,a_t,r_t,s_t+1)，并将所述四元组存储进决策缓存器B_π；

在所述正确决策缓存器B_good和所述错误决策缓存器B_bad中的数据量均达到数据量阈值后，在所述正确决策缓存器B_good和所述错误决策缓存器B_bad中分别采样得到正确决策和错误决策，并通过损失函数对所述鉴别网络的梯度进行下降以优化所述鉴别网络的参数，重复采样和参数更新过程，直至所述鉴别网络对生成决策的平均鉴别结果小于预设阈值；

对所述密度模型、所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络和所述策略网络进行更新。

9.根据权利要求8所述的基于生成对抗机制的强化学习探索装置，其特征在于，所述鉴别网络的损失函数为：

L_d(x^T,x^F)＝E[log D(x^T)]+E[log(1-D(x^F))]

10.根据权利要求8所述的基于生成对抗机制的强化学习探索装置，其特征在于，优化所述鉴别网络的参数θ_d包括：