CN112183762A

CN112183762A - 一种基于混合行为空间的强化学习方法

Info

Publication number: CN112183762A
Application number: CN202010965008.7A
Authority: CN
Inventors: 粟锐; 张伟楠; 俞勇
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2021-01-05

Abstract

本发明公开了一种基于混合行为空间的强化学习方法，涉及强化学习领域，由多个共同作用输出结构化的行为的并行Actor网络和一个指导Actor网络训练的Critic网络组成。Actor网络包括状态编码网络、离散Actor网络、连续参数Actor网络，状态编码网络对状态进行编码，输入到离散Actor网络和连续参数Actor网络，离散Actor网络用于产生离散动作，连续参数Actor网络用于产生离散动作对应的连续化参数。本发明可以处理既有连续化动作也有离散动作的混合行为空间，并且可以拓展到所有有层次化结构的行为空间中。本发明能取得比之前对于混合行为空间处理方法更优的强化学习结果，既不损失行为的精确度，也通过mask操作避免了过参数化的问题。

Description

一种基于混合行为空间的强化学习方法

技术领域

本发明涉及强化学习领域，尤其涉及一种基于混合行为空间的强化学习方法。

背景技术

强化学习中复杂策略的表示及学习，是指在强化学习中，当策略比较复杂时，如何对策略进行表示并端对端进行学习的问题。本发明主要针对混合行为空间的问题，即行为即有离散选择的部分，也有连续化参数的部分，比如在自动驾驶任务中，涉及到这一步应该打方向盘还是刹车，这是离散的动作选择，如果打方向盘，对应的角度是多少，这是连续值的动作选择。现在的强化学习算法大多针对于纯离散的行为空间或者纯连续的行为空间，对于混合行为空间的算法研究很少。

分析近期基于混合行为空间的强化学习的研究：

Sherstov and Stone等在2005年的International Symposium on Abstraction，Reformulation，and Approximation的194-205页发表的论文Function approximationvia tile coding：Automating parameter choice中提出把混合行为中的连续空间离散化，进而平层化为离散行为空间的，并使用离散行为空间对应的强化学习算法的方式。这样的做法会损失一定的精确度，并且最后可能会得到一个很大的离散行为空间，不利于学习。

Hausknecht and Stone在2016年International Conference on LearningRepresentations会议上发表的Deep reinforcement learning in parameterizedaction space提出将混合行为空间松弛为连续空间的方式，使用Deep DeterministicPolicy Gradient的算法，在Actor网络的输出的实数向量的前几维做Softmax操作选择一个离散动作，后面的维度作为连续化参数。这样的方式增加了行为空间的复杂性，并且增加的Softmax操作会导致DDPG算法梯度往回传导的时候不可导的问题。

Masson等人在2016年的AAAI会议上发表的Reinforcement learning withparameterized actions一文中首次提出了参数化行为空间的概念，本发明就是在此基础上拓展的强化学习算法。

Jiechao Xiong等人2018年在arXiv上发布的文章Parametrized deep q-networks learning：Reinforcement learning with discrete-continuous hybridaction space提出了参数化深度Q网络(Parameterized Deep Q-Network)，可以看作是DQN和DDPG算法的结合，一个网络用于选择所有离散动作对应的连续化参数，另一个网络用于输出所有离散动作的Q值。但是在更新过程中，目标是最大化所有Q值而不是最大的Q值，会导致过参数化，引起一些不必要的训练。

对国内外的相关研究分析可以得出以下结论：目前在混合行为空间的强化学习算法上，已有的方法都存在一些漏洞，比如损失精确度，缺少理论支持，过参数化等等，目前还没有提出一种相对完善和通用的针对混合行为空间的强化学习算法。

因此，本领域的技术人员致力于开发一种针对混合行为空间的较为稳定的强化学习算法，在混合行为空间强化学习问题的场景中普遍适用，并且可以拓展到普遍的分层复杂策略中。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是当强化学习的行为空间为混合行为空间时，设计一种较为完善和通用的算法能够端对端的进行训练，得到一个较好的策略。

为实现上述目的，本发明提供了一种基于混合行为空间的强化学习方法，包括Actor网络和Critic的网络，Critic网络用于计算所述Actor网络的参数梯度，指导Actor网络进行训练。

进一步地，Actor网络包括状态编码网络、离散Actor网络、连续参数Actor网络，状态编码网络对状态进行编码，输入到离散Actor网络和连续参数Actor网络，离散Actor网络用于产生离散动作，连续参数Actor网络用于产生离散动作对应的连续化参数。

进一步地，包括如下步骤：

步骤1、定义状态空间；

步骤2、定义通用的行为空间；

步骤3、将状态输入状态编码网络，采样得到随机动作和连续化参数；

步骤4、将随机动作和连续化参数作为行为给到环境，环境给出奖励和下一个状态；

步骤5、更新Actor网络和Critic网络。

进一步地，步骤1具体为：每一步的输入为s_t，状态编码网络的输入维度是s_t的维度。

进一步地，步骤2具体为：离散行为从A_d＝{a₁，a₂，...，a_k}中选出，对于每一个离散行为有一个可以用m_a维实数向量表示的连续化参数

最终给到环境的行为用一个元组(a，x)来表示，其中a∈A_d是选择的离散动作，x∈χ_a是选择的和动作a对应的连续化参数，整个行为空间定义为：

进一步地，步骤3具体为：每一步，将状态s_t输入到Actor网络，离散动作根据状态编码网络和离散Actor网络对应的随机离散策略

采样得到，连续化参数根据状态编码网络和连续参数Actor网络对应的随机连续策略

采样得到。

进一步地，步骤4具体为：根据采样得到的随机动作a_t，得到对应的连续化参数的mask，进而得到离散动作a_t对应的连续参数

把

作为行为给到环境，环境给出奖励和下一个状态。

进一步地，步骤5具体为：每个episode结束后，根据整个episode的历史记录，更新Actor网络和Critic网络，Critic网络用于评价Actor网络执行动作的优劣。

进一步地，Critic网络采用V值网络，输入为状态s，输出为状态对应的价值V(s)，使用时间差分方法进行更新。

进一步地，Actor网络使用随机策略优化方法，借用Critic网络给出的V值，计算优势函数A_t＝-V(s_t)+r_t+γr_t+1+…+γ^T-t-1r_T-1+γ^T-1V(s_T)，优化策略，从而端对端的进行更新。

进一步地，将该方法拓展到任何层次化的行为空间中，层次化行为空间中每一层行为的选择，都可以当作一个离散行为选择的子问题，每个离散行为就是在下一层应该选择的根结点，而对应的叶子结点，既可以是连续行为，也可以是离散行为。如此一来，对于所有的行为空间问题，都能得到一种通用的解决方案。

随着训练的进行，Actor网络给出的策略变好，Critic给出的状态价值函数会越来越准确，得到的优势函数就会更准确，从而可以使得Actor网络训练出来的策略更优，相辅相成。对Actor网络更新时，更新离散策略所对应的参数时，会更新到离散Actor网络和状态编码网络，更新连续参数策略对应的网络参数时，会更新到连续参数Actor对应的网络和状态编码网络，使得三个子网络都能得到优化。

本发明具有如下技术效果：

1、本发明中，对于策略更新的方式可以进行灵活选择，可以使用策略梯度的方式或者近端策略优化，即PPO这种更前沿的策略优化算法。

2、本发明可以拓展到各种形式的层次化策略表示中，适用于复杂行为的强化学习场景，通用型比较强。

3、实践证明，本发明能取得比之前对于混合行为空间处理方法更优的强化学习结果，既不损失行为的精确度，也通过mask操作避免了过参数化的问题。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的方法示意图；

图2是本发明的基于通用层次化行为空间的强化学习方法示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，本发明实施例提供一种基于混合行为空间的强化学习方法，应用于带混合行为空间的半场足球游戏中，使用改进的专门用于混合行为空间的PPO算法作为策略的优化方法，并和之前的算法进行了比较得到较为明显的提升。该游戏的目标是单人把球踢进球门里，具体步骤如下：

1、定义半场足球的状态空间，即状态编码网络的输入空间，这里定义为我们提取出来的一些特征，比如球门位置，球员位置，球的位置，球员朝向等等，是一个实数向量。

2、定义智能体，也就是球员的动作空间，这里我们的离散动作包括三个，分别是：冲，转向和踢。冲所带的连续化参数包括力度和方向，转向所带的连续化参数包括方向，踢所带的连续化参数包括力度和方向。其中，力度为0到100之间的实数，而方向为[-180，180]之间的实数。由此，离散网络对应的输出为三个离散行为分别对应的概率，而连续参数网络会输出总共对应的5个参数，再通过mask来获得最终行为。

3、对于每段新的经历(episode)，每一个步骤t：

(1)由于Actor网络输出的是一个随机策略，我们可以直接用这个随机策略来选取一个混合行为进行探索。

(2)对得到的行为进行处理，通过离散动作和对应的mask，把输出的连续参数选出。

(3)把处理后的行为输入到环境，把处理后的行为，返回的状态和奖励都保存到历史记录中供后续使用。

4、每当一个episode结束，使用历史数据对网络进行更新。先使用时间差分的方法更新Critic网络。然后使用混合近端策略优化算法来更新整个Actor网络，该方法如下所述：

(1)计算历史中每个状态对应的优势函数

(2)定义近端策略优化中的概率比值裁剪值∈的值为0.2(可调整)

(3)定义策略的概率比值为

根据离散策略的损失函数

优化离散动作网络和状态编码网络的参数。再根据连续参数策略的损失函数

优化连续参数动作网络和状态编码网络的参数。其中概率比值只分别考虑离散动作和连续参数对应的概率比值，但是因为在输入连续参数时考虑到了离散动作对应的mask，所以连续化参数优化的时候也会考虑到选择的离散动作。

根据上述方式进行数百个episode之后，能得到一个相对较好的策略，进球率达到95.39％，并且在case study中可以发现，智能体能相对合理的选择动作，在智能体朝向与球相差太大时会选择转向，朝向球时选择冲，临近球时选择朝球门的方向踢球。与之前的方法进行对比，效果也明显更优。采用离散化混合行为空间空间并使用经典DQN算法进行训练时，由于参数太多，行为空间太大，探索空间太大，训练缓慢，5000个episode之后还是无法进球。采用P-DQN方式进行训练，在3000episode后开始收敛，最后进球率稳定在76.31％±16.81％。而使用本发明具体实施案例的算法，约500episode之后收敛，进球率高达95.39％±4.81％。相对之前的算法更为稳定，由于没有过参数化，收敛速度也相对更快。由此可见在混合行为空间问题中，本发明相比之前的方法能在结果上得到明显提升。

进一步的，我们可以把这个方法拓展到任何层次化的行为空间中，如附图2所示，层次化行为空间中每一层行为的选择，都可以当作一个离散行为选择的子问题，每个离散行为就是在下一层应该选择的根结点，而对应的叶子结点，既可以是连续行为，也可以是离散行为。如此一来，对于所有的行为空间问题，我们都能得到一种通用的解决方案。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于混合行为空间的强化学习方法，其特征在于，包括Actor网络和Critic的网络，所述Critic网络用于计算所述Actor网络的参数梯度，指导所述Actor网络进行训练。

2.如权利要求1所述的基于混合行为空间的强化学习方法，其特征在于，所述Actor网络包括状态编码网络、离散Actor网络、连续参数Actor网络，所述状态编码网络对状态进行编码，输入到所述离散Actor网络和所述连续参数Actor网络，所述离散Actor网络用于产生离散动作，所述连续参数Actor网络用于产生所述离散动作对应的连续化参数。

3.如权利要求2所述的基于混合行为空间的强化学习方法，其特征在于，包括如下步骤：

步骤1、定义状态空间；

步骤2、定义通用的行为空间；

步骤3、将状态输入所述状态编码网络，采样得到随机动作和连续化参数；

步骤4、将所述随机动作和所述连续化参数作为行为给到环境，环境给出奖励和下一个状态；

步骤5、更新所述Actor网络和所述Critic网络。

4.如权利要求3所述的基于混合行为空间的强化学习方法，其特征在于，所述步骤1具体为：每一步的输入为s_t，所述状态编码网络的输入维度是所述s_t的维度。

5.如权利要求4所述的基于混合行为空间的强化学习方法，其特征在于，所述步骤2具体为：离散行为从A_d＝{a₁，a₂，...，a_k}中选出，对于每一个所述离散行为有一个可以用m_a维实数向量表示的连续化参数

最终给到环境的行为用一个元组(a，x)来表示，其中a∈A_d是选择的离散动作，x∈χa是选择的和动作a对应的连续化参数，整个行为空间定义为：

6.如权利要求5所述的基于混合行为空间的强化学习方法，其特征在于，所述步骤3具体为：每一步，将所述状态s_t输入到所述Actor网络，所述离散动作根据所述状态编码网络和所述离散Actor网络对应的随机离散策略

采样得到，所述连续化参数根据所述状态编码网络和所述连续参数Actor网络对应的随机连续策略

采样得到。

7.如权利要求6所述的基于混合行为空间的强化学习方法，其特征在于，所述步骤4具体为：根据采样得到的随机动作a_t，得到对应的连续化参数的mask，进而得到离散动作a_t对应的连续参数

把

作为行为给到环境，环境给出奖励和下一个状态。

8.如权利要求7所述的基于混合行为空间的强化学习方法，其特征在于，所述步骤5具体为：每个episode结束后，根据整个episode的历史记录，更新所述Actor网络和所述Critic网络，所述Critic网络用于评价所述Actor网络执行动作的优劣。

9.如权利要求8所述的基于混合行为空间的强化学习方法，其特征在于，所述Critic网络采用V值网络，输入为状态s，输出为状态对应的价值V(s)，使用时间差分法进行更新。

10.如权利要求9所述的基于混合行为空间的强化学习方法，其特征在于，所述Actor网络使用随机策略优化方法，使用所述Critic网络给出的V值，计算优势函数A_t＝-V(s_t)+r_t+γr_t+1+…+γ^T-t-1r_T-1+γ^T-1V(s_T)，优化策略，从而端对端的进行更新。