CN105955930A

CN105955930A - 引导型策略搜索强化学习算法

Info

Publication number: CN105955930A
Application number: CN201610299987.0A
Authority: CN
Inventors: 赵婷婷; 杨巨成; 赵希; 陈亚瑞; 房珊珊
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2016-09-21

Abstract

本发明涉及一种引导型策略搜索强化学习算法，首先选择引导型学习样本，然后利用所选样本对目标函数进行梯度估计，根据策略更新原则更新参数，直到收敛为止。本发明通过重构目标函数，大大降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。本发明定义了对于强化学习而言的引导型高质量学习样本，通过该引导型学习样本的使用，能够更准确的进行策略搜索，从而避免情况较坏的局部最优。

Description

引导型策略搜索强化学习算法

技术领域

本发明属于机器学习领域，主要涉及到强化学习算法，尤其是一种面向连续状态动作空间的策略搜索强化学习算法。

背景技术

机器学习是人工智能的核心研究领域之一，其研究动机就是为了让计算机***具有人的学习能力以便实现人工智能。强化学习作为机器学习领域的重要学习方法，在游戏、机器人、调度***、智能对话***、存储***、智能发电量控制、智能交通***、无人驾驶车及航空航天***等领域已得到广泛的应用。强化学习是一个连续做出决策的过程，它不需要有先验知识，而是智能体通过不断与环境交互来获得知识，自主的进行动作选择，从而找到一个最优的动作选择策略，使智能体在决策过程中整体的回报期望最优。

在国内外已有的研究中，强化学习主要包括策略迭代与策略搜索两大主要算法。策略迭代算法首先要对状态动作的价值函数进行估计，策略是建立在估计的价值函数基础上。此类策略迭代算法能够有效地解决离散的状态动作空间问题，但是由于价值函数的极度非凸性，难以在每一个时间步骤都通过最大化价值函数来选择动作，因此，此类方法不适用于解决大规模连续动作空间问题。策略搜索方法是强化学习方法的另一类算法，此类算法非常适用于大规模具有连续状态及动作空间的智能***。

然而，传统的策略搜索算法的一大问题便在于策略更新时策略梯度方差过大，使得算法不稳定且收敛慢。为了解决梯度估计方差过大的实质性问题，基于参数探索的策略梯度方法被提出来了，被称为PGPE算法。在申请人的前期工作中已经实践性并理论性地验证了PGPE算法的稳定性。然而，策略搜索算法需要大量的学习样本才能得到准确稳定的策略，即使是PGPE算法也不例外。而收集大量的学习样本则恰恰是强化学习在实际应用中的一个瓶颈问题，因为收集样本往往非常耗时耗力耗材。为了解决这个实际存在的瓶颈问题，有效利用学习样本的重要性便凸显出来。重要采样技术是能够重复利用已有样本的一种有效方法，该技术允许我们利用来自不同于当前策略分布的采样样本进行梯度估计，从而能重复利用已收集过的样本且能够保证估计子的一致性。但是，盲目地使用重要采样技术使得梯度估计的方差变大，从而降低算法稳定性及收敛率。

通过进一步地对重复利用学习样本的策略搜索方法深入研究发现，样本的选择对算法的性能有直接影响。此外，通常强化学习解决的问题是极其复杂的非凸问题，因此，局部最优解是强化学习领域不可避免的一个潜在问题，而高质量引导型样本的使用能够有效地避免情况极差的局部最优解。本专利将利用积极学习的基本想法，寻找有助于找到更好最优解的引导型学习样本，从而得到能够避免不好的局部最优解的引导型策略搜索算法。

通过检索，尚未发现有与本申请相关的专利、文献报道。

发明内容

本发明的目的在于克服现有技术的不足之处，提供一种引导型策略搜索强化学习算法，该算法能够有效地重复使用学习样本，且能够选择高质量样本引导策略搜索，从而避免情况较差的局部最优。

本发明解决技术问题所采用的技术方案是：

一种引导型策略搜索强化学习算法，首先选择引导型学习样本，然后利用所选样本对目标函数进行梯度估计，根据策略更新原则更新参数，直到收敛为止，所述的目标函数为：

Φ (ρ) = J^{I W} (ρ) + λ_{1} {logΣ}_{i = 1}^{N^{'}} w ({θ^{'}}_{i}) + λ_{2} Σ_{i = 1}^{N^{'}} \frac{1}{1 + V a r (w ({θ^{'}}_{i}))}

J^IW(ρ)为重要采样技术下的原始目标函数，即寻找最优超参数ρ使得期望回报最大化。除此之外，该目标函数还包括两个正则项，第一个正则项为其中使用log函数是为了防止重要权值出现极值情况，w(θ)为重要权重，w(θ)＝p(θ|ρ)/p(θ|ρ′)，ρ′为样本采样超参数，ρ为当前学习超参数，p(θ|ρ)为策略参数的概率分布函数；第二个正则项为其中N′表示样本个数，Var(w(θ_i))表示重要权重的方差；λ₁，λ₂表示正则项参数，在算法中可以通过调整其大小来控制参数搜索范围。

所述的引导型学习样本评价函数为：

其中η表示采样样本分布，E表示期望，表示该分布的熵，R(h)表示路径样本的累积回报。

而且，所述的引导型学习样本的选择步骤为：

①在已收集样本中，准备K组采样样本分布：

②在每个采样样本分布下，利用已收集的路径样本计算评价指标值

③选择引导型学习样本：η^*：＝argmax_kT(η_k)。

而且，每个路径样本h的采集过程为：在马尔科夫决策过程的框架下，智能体在当前状态s，根据当前策略函数π(a|s，θ)选择动作a，然后转移到状态s′，并接收到一个立即回报r(s，a，s′)。智能体通过与环境的反复交互收集状态、动作和回报样本，得到路径h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中T表示该路径的长度，该路径的累积回报表示为R(h)。

发明的优点和积极效果是：

1、本发明在目标函数中添加了重要权重方差的正则项通过对重要权重的方差进行控制，从而解决当重要权重较大时，算法稳定性及收敛性降低的问题。

2、本发明在目标函数中添加另一个关于重要权限之和的正则项使其能够保证至少有一些样本在当前的策略下具有较大的概率密度，并且log函数的使用是为了防止重要权值出现极值情况。从而满足所期望的最优解是能够给回报大的样本分配较大的概率密度，并避免所有重要权重都很小，最优解将所有样本都分配很小的概率密度的情况。

3、本发明引入引导型学习样本的全新概念，在该类样本的协助下，能够更准确的进行策略搜索，且有助于避免不好的局部最优。

4、本发明采用强化学习算法中较灵活的离策略学习算法，降低了智能体在策略学习过程中收集的样本数目，通过重复使用样本降低收集样本数，有效解决了样本需求量大的瓶颈问题。

附图说明

图1为本发明的算法流程图。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

一种引导型策略搜索强化学习算法，首先根据引导型学习样本的定义选择高质量的学习样本，然后利用选择样本对本发明中构建的目标函数进行梯度估计，根据策略更新原则更新参数，直到收敛为止。具体步骤如下：

⑴样本收集：在马尔科夫决策过程的框架下，智能体在当前状态s，根据当前策略函数π(a|s，θ)选择动作a，然后转移到状态s′，并接收到一个立即回报r(s，a，s′)。智能体通过与环境的反复交互收集状态、动作和回报样本，得到路径h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中T表示该路径的长度，该路径的累积回报表示为R(h)；

⑵引导型样本标准：引导型采样样本的衡量标准定义为其中η表示采样样本分布，E表示期望，表示该分布的熵，R(h)表示路径样本的累积回报。

⑶选择引导型样本：

①在已收集样本中，准备K组采样样本分布：

③选择引导型采样样本：η^*：＝argmax_kT(η_k)。

⑷目标函数的建立：在PGPE算法的基础上，假设有2个超参数，一个是用于样本采样超参数ρ′，另一个是当前学习超参数ρ，策略参数采样于其概率分布函数p(θ|ρ)，其中w(θ)＝p(θ|ρ)/p(θ|ρ′)被称为重要权重。在原目标函数J^IW(ρ)中加入第一个正则项其中N′表示样本个数。另一项正则项设定为其中使用log函数是为了防止重要权值出现极值情况。最终，所得正则化目标函数为：

Φ (ρ) = J^{I W} (ρ) + λ_{1} {logΣ}_{i = 1}^{N^{'}} w ({θ^{'}}_{i}) + λ_{2} Σ_{i = 1}^{N^{'}} \frac{1}{1 + V a r (w ({θ^{'}}_{i}))},

其中λ₁，λ₂表示正则项参数，在算法中可以通过调整其大小来控制参数搜索范围。

⑸策略更新：按照梯度上升的方向更新参数，直到收敛为止。

本发明采用强化学习算法中较灵活的离策略学习算法，降低了智能体在策略学习过程中收集的样本数目。收集大量的样本对于现实问题来说耗时耗力又耗材，尤其是复杂的物理***需要通过与环境的多次交互来完成数据的收集，这对于该***是致命的。本发明通过重复使用样本降低收集样本数，有效解决了样本需求量大的瓶颈问题；

本发明通过重构目标函数，大大降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。在寻找最优策略的过程中，策略搜索算法的一大难题便在于策略更新时策略梯度方差过大，使得算法不稳定且收敛慢，样本的重复使用则有可能是该问题更加严重。本发明通过在目标函数中直接对重要采样率的方差及大小的控制，有效地缓解了因重要采样技术的使用降低算法稳定性的问题；

本发明定义了对于强化学习而言的引导型高质量学习样本，通过该引导型学习样本的使用，能够更准确的进行策略搜索；此外，强化学习中的目标函数是极其复杂的非凸函数，情况较坏的局部最优是该领域中的一大难题。本发明拟借助积极学习的帮助寻找高质量引导型样本来改善该问题，从而避免情况较坏的局部最优。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种引导型策略搜索强化学习算法，其特征在于：首先选择引导型学习样本，然后利用所选样本对目标函数进行梯度估计，根据策略更新原则更新参数，直到收敛为止，所述的目标函数为：

Φ (ρ) = J^{I W} (ρ) + λ_{1} {logΣ}_{i = 1}^{N^{'}} w ({θ^{'}}_{i}) + λ_{2} Σ_{i = 1}^{N^{'}} \frac{1}{1 + V a r (w ({θ^{'}}_{i}))}

J^IW(ρ)为重要采样技术下的原始目标函数，即寻找最优超参数ρ使得期望回报最大化，该目标函数还包括两个正则项，第一个正则项为w(θ)为重要权重，w(θ)＝p(θ|ρ)/p(θ|ρ′)，ρ′为样本采样超参数，ρ为当前学习超参数，P(θ|ρ)为策略参数的概率分布函数；第二个正则项为其中N′表示样本个数，Var(w(θ_i))表示重要权重的方差；λ₁，λ₂表示正则项参数，在算法中通过调整其大小来控制参数搜索范围。

所述的引导型学习样本评价指标为：

2.根据权利要求1所述的引导型策略搜索强化学习算法，其特征在于：引导型学习样本的选择步骤为：

①在已收集样本中，准备K组采样样本分布：

③选择引导型学习样本：η^*：＝argmax_kT(η_k)。

3.根据权利要求1所述的引导型策略搜索强化学习算法，其特征在于：每个路径样本h的采集过程为：收集样本是在马尔科夫决策过程的框架下，智能体在当前状态s，根据当前策略函数π(a|s，θ)选择动作a，然后转移到状态s′，并接收到一个立即回报r(s，a，s′)，智能体通过与环境的反复交互收集状态、动作和回报样本，得到路径h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中T表示该路径的长度，该路径的累积回报表示为R(h)。