CN105955930A - 引导型策略搜索强化学习算法 - Google Patents
引导型策略搜索强化学习算法 Download PDFInfo
- Publication number
- CN105955930A CN105955930A CN201610299987.0A CN201610299987A CN105955930A CN 105955930 A CN105955930 A CN 105955930A CN 201610299987 A CN201610299987 A CN 201610299987A CN 105955930 A CN105955930 A CN 105955930A
- Authority
- CN
- China
- Prior art keywords
- sample
- leading type
- learning
- path
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种引导型策略搜索强化学习算法,首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止。本发明通过重构目标函数,大大降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。本发明定义了对于强化学习而言的引导型高质量学习样本,通过该引导型学习样本的使用,能够更准确的进行策略搜索,从而避免情况较坏的局部最优。
Description
技术领域
本发明属于机器学习领域,主要涉及到强化学习算法,尤其是一种面向连续状态动作空间的策略搜索强化学习算法。
背景技术
机器学习是人工智能的核心研究领域之一,其研究动机就是为了让计算机***具有人的学习能力以便实现人工智能。强化学习作为机器学习领域的重要学习方法,在游戏、机器人、调度***、智能对话***、存储***、智能发电量控制、智能交通***、无人驾驶车及航空航天***等领域已得到广泛的应用。强化学习是一个连续做出决策的过程,它不需要有先验知识,而是智能体通过不断与环境交互来获得知识,自主的进行动作选择,从而找到一个最优的动作选择策略,使智能体在决策过程中整体的回报期望最优。
在国内外已有的研究中,强化学习主要包括策略迭代与策略搜索两大主要算法。策略迭代算法首先要对状态动作的价值函数进行估计,策略是建立在估计的价值函数基础上。此类策略迭代算法能够有效地解决离散的状态动作空间问题,但是由于价值函数的极度非凸性,难以在每一个时间步骤都通过最大化价值函数来选择动作,因此,此类方法不适用于解决大规模连续动作空间问题。策略搜索方法是强化学习方法的另一类算法,此类算法非常适用于大规模具有连续状态及动作空间的智能***。
然而,传统的策略搜索算法的一大问题便在于策略更新时策略梯度方差过大,使得算法不稳定且收敛慢。为了解决梯度估计方差过大的实质性问题,基于参数探索的策略梯度方法被提出来了,被称为PGPE算法。在申请人的前期工作中已经实践性并理论性地验证了PGPE算法的稳定性。然而,策略搜索算法需要大量的学习样本才能得到准确稳定的策略,即使是PGPE算法也不例外。而收集大量的学习样本则恰恰是强化学习在实际应用中的一个瓶颈问题,因为收集样本往往非常耗时耗力耗材。为了解决这个实际存在的瓶颈问题,有效利用学习样本的重要性便凸显出来。重要采样技术是能够重复利用已有样本的一种有效方法,该技术允许我们利用来自不同于当前策略分布的采样样本进行梯度估计,从而能重复利用已收集过的样本且能够保证估计子的一致性。但是,盲目地使用重要采样技术使得梯度估计的方差变大,从而降低算法稳定性及收敛率。
通过进一步地对重复利用学习样本的策略搜索方法深入研究发现,样本的选择对算法的性能有直接影响。此外,通常强化学习解决的问题是极其复杂的非凸问题,因此,局部最优解是强化学习领域不可避免的一个潜在问题,而高质量引导型样本的使用能够有效地避免情况极差的局部最优解。本专利将利用积极学习的基本想法,寻找有助于找到更好最优解的引导型学习样本,从而得到能够避免不好的局部最优解的引导型策略搜索算法。
通过检索,尚未发现有与本申请相关的专利、文献报道。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种引导型策略搜索强化学习算法,该算法能够有效地重复使用学习样本,且能够选择高质量样本引导策略搜索,从而避免情况较差的局部最优。
本发明解决技术问题所采用的技术方案是:
一种引导型策略搜索强化学习算法,首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止,所述的目标函数为:
JIW(ρ)为重要采样技术下的原始目标函数,即寻找最优超参数ρ使得期望回报最大化。除此之外,该目标函数还包括两个正则项,第一个正则项为其中使用log函数是为了防止重要权值出现极值情况,w(θ)为重要权重,w(θ)=p(θ|ρ)/p(θ|ρ′),ρ′为样本采样超参数,ρ为当前学习超参数,p(θ|ρ)为策略参数的概率分布函数;第二个正则项为其中N′表示样本个数,Var(w(θi))表示重要权重的方差;λ1,λ2表示正则项参数,在算法中可以通过调整其大小来控制参数搜索范围。
所述的引导型学习样本评价函数为:
其中η表示采样样本分布,E表示期望,表示该分布的熵,R(h)表示路径样本的累积回报。
而且,所述的引导型学习样本的选择步骤为:
①在已收集样本中,准备K组采样样本分布:
②在每个采样样本分布下,利用已收集的路径样本计算评价指标值
③选择引导型学习样本:η*:=argmaxkT(ηk)。
而且,每个路径样本h的采集过程为:在马尔科夫决策过程的框架下,智能体在当前状态s,根据当前策略函数π(a|s,θ)选择动作a,然后转移到状态s′,并接收到一个立即回报r(s,a,s′)。智能体通过与环境的反复交互收集状态、动作和回报样本,得到路径h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT),其中T表示该路径的长度,该路径的累积回报表示为R(h)。
发明的优点和积极效果是:
1、本发明在目标函数中添加了重要权重方差的正则项通过对重要权重的方差进行控制,从而解决当重要权重较大时,算法稳定性及收敛性降低的问题。
2、本发明在目标函数中添加另一个关于重要权限之和的正则项使其能够保证至少有一些样本在当前的策略下具有较大的概率密度,并且log函数的使用是为了防止重要权值出现极值情况。从而满足所期望的最优解是能够给回报大的样本分配较大的概率密度,并避免所有重要权重都很小,最优解将所有样本都分配很小的概率密度的情况。
3、本发明引入引导型学习样本的全新概念,在该类样本的协助下,能够更准确的进行策略搜索,且有助于避免不好的局部最优。
4、本发明采用强化学习算法中较灵活的离策略学习算法,降低了智能体在策略学习过程中收集的样本数目,通过重复使用样本降低收集样本数,有效解决了样本需求量大的瓶颈问题。
附图说明
图1为本发明的算法流程图。
具体实施方式
下面结合附图并通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
一种引导型策略搜索强化学习算法,首先根据引导型学习样本的定义选择高质量的学习样本,然后利用选择样本对本发明中构建的目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止。具体步骤如下:
⑴样本收集:在马尔科夫决策过程的框架下,智能体在当前状态s,根据当前策略函数π(a|s,θ)选择动作a,然后转移到状态s′,并接收到一个立即回报r(s,a,s′)。智能体通过与环境的反复交互收集状态、动作和回报样本,得到路径h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT),其中T表示该路径的长度,该路径的累积回报表示为R(h);
⑵引导型样本标准:引导型采样样本的衡量标准定义为其中η表示采样样本分布,E表示期望,表示该分布的熵,R(h)表示路径样本的累积回报。
⑶选择引导型样本:
①在已收集样本中,准备K组采样样本分布:
②在每个采样样本分布下,利用已收集的路径样本计算评价指标值
③选择引导型采样样本:η*:=argmaxkT(ηk)。
⑷目标函数的建立:在PGPE算法的基础上,假设有2个超参数,一个是用于样本采样超参数ρ′,另一个是当前学习超参数ρ,策略参数采样于其概率分布函数p(θ|ρ),其中w(θ)=p(θ|ρ)/p(θ|ρ′)被称为重要权重。在原目标函数JIW(ρ)中加入第一个正则项其中N′表示样本个数。另一项正则项设定为其中使用log函数是为了防止重要权值出现极值情况。最终,所得正则化目标函数为:
其中λ1,λ2表示正则项参数,在算法中可以通过调整其大小来控制参数搜索范围。
⑸策略更新:按照梯度上升的方向更新参数,直到收敛为止。
本发明采用强化学习算法中较灵活的离策略学习算法,降低了智能体在策略学习过程中收集的样本数目。收集大量的样本对于现实问题来说耗时耗力又耗材,尤其是复杂的物理***需要通过与环境的多次交互来完成数据的收集,这对于该***是致命的。本发明通过重复使用样本降低收集样本数,有效解决了样本需求量大的瓶颈问题;
本发明通过重构目标函数,大大降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。在寻找最优策略的过程中,策略搜索算法的一大难题便在于策略更新时策略梯度方差过大,使得算法不稳定且收敛慢,样本的重复使用则有可能是该问题更加严重。本发明通过在目标函数中直接对重要采样率的方差及大小的控制,有效地缓解了因重要采样技术的使用降低算法稳定性的问题;
本发明定义了对于强化学习而言的引导型高质量学习样本,通过该引导型学习样本的使用,能够更准确的进行策略搜索;此外,强化学习中的目标函数是极其复杂的非凸函数,情况较坏的局部最优是该领域中的一大难题。本发明拟借助积极学习的帮助寻找高质量引导型样本来改善该问题,从而避免情况较坏的局部最优。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (3)
1.一种引导型策略搜索强化学习算法,其特征在于:首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止,所述的目标函数为:
JIW(ρ)为重要采样技术下的原始目标函数,即寻找最优超参数ρ使得期望回报最大化,该目标函数还包括两个正则项,第一个正则项为w(θ)为重要权重,w(θ)=p(θ|ρ)/p(θ|ρ′),ρ′为样本采样超参数,ρ为当前学习超参数,P(θ|ρ)为策略参数的概率分布函数;第二个正则项为其中N′表示样本个数,Var(w(θi))表示重要权重的方差;λ1,λ2表示正则项参数,在算法中通过调整其大小来控制参数搜索范围。
所述的引导型学习样本评价指标为:
其中η表示采样样本分布,E表示期望,表示该分布的熵,R(h)表示路径样本的累积回报。
2.根据权利要求1所述的引导型策略搜索强化学习算法,其特征在于:引导型学习样本的选择步骤为:
①在已收集样本中,准备K组采样样本分布:
②在每个采样样本分布下,利用已收集的路径样本计算评价指标值
③选择引导型学习样本:η*:=argmaxkT(ηk)。
3.根据权利要求1所述的引导型策略搜索强化学习算法,其特征在于:每个路径样本h的采集过程为:收集样本是在马尔科夫决策过程的框架下,智能体在当前状态s,根据当前策略函数π(a|s,θ)选择动作a,然后转移到状态s′,并接收到一个立即回报r(s,a,s′),智能体通过与环境的反复交互收集状态、动作和回报样本,得到路径h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT),其中T表示该路径的长度,该路径的累积回报表示为R(h)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610299987.0A CN105955930A (zh) | 2016-05-06 | 2016-05-06 | 引导型策略搜索强化学习算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610299987.0A CN105955930A (zh) | 2016-05-06 | 2016-05-06 | 引导型策略搜索强化学习算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105955930A true CN105955930A (zh) | 2016-09-21 |
Family
ID=56914085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610299987.0A Pending CN105955930A (zh) | 2016-05-06 | 2016-05-06 | 引导型策略搜索强化学习算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105955930A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909153A (zh) * | 2017-11-24 | 2018-04-13 | 天津科技大学 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
CN108446619A (zh) * | 2018-03-12 | 2018-08-24 | 清华大学 | 基于深度强化学习的人脸关键点检测方法及装置 |
CN108791302A (zh) * | 2018-06-25 | 2018-11-13 | 大连大学 | 驾驶员行为建模*** |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN109636432A (zh) * | 2018-09-28 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 计算机执行的项目选择方法和装置 |
CN110046643A (zh) * | 2019-02-11 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 业务参数调优方法以及装置 |
CN110174118A (zh) * | 2019-05-29 | 2019-08-27 | 北京洛必德科技有限公司 | 基于强化学习的机器人多目标搜索路径规划方法和装置 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
CN110244077A (zh) * | 2019-06-04 | 2019-09-17 | 哈尔滨工程大学 | 一种热式风速传感器恒功率调节与精度补偿方法 |
CN110568760A (zh) * | 2019-10-08 | 2019-12-13 | 吉林大学 | 适用于换道及车道保持的参数化学习决策控制***及方法 |
WO2020029095A1 (zh) * | 2018-08-07 | 2020-02-13 | 中国科学院深圳先进技术研究院 | 强化学习网络的训练方法、装置、训练设备及存储介质 |
CN111222630A (zh) * | 2020-01-17 | 2020-06-02 | 北京工业大学 | 一种基于深度强化学习的自主驾驶规则学习方法 |
CN111552237A (zh) * | 2019-02-12 | 2020-08-18 | 发那科株式会社 | 机器学习装置、控制装置、以及机器学习的搜索范围的设定方法 |
CN111895865A (zh) * | 2020-08-06 | 2020-11-06 | 西安睿高测控技术有限公司 | 一种降低装定诸元需求的卫星制导弹药制导方法 |
CN112292693A (zh) * | 2018-05-18 | 2021-01-29 | 渊慧科技有限公司 | 强化学习***训练返回函数的元梯度更新 |
WO2022121510A1 (zh) * | 2020-12-11 | 2022-06-16 | 多伦科技股份有限公司 | 基于随机策略梯度的交通信号控制方法、***及电子设备 |
-
2016
- 2016-05-06 CN CN201610299987.0A patent/CN105955930A/zh active Pending
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909153A (zh) * | 2017-11-24 | 2018-04-13 | 天津科技大学 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
CN108446619A (zh) * | 2018-03-12 | 2018-08-24 | 清华大学 | 基于深度强化学习的人脸关键点检测方法及装置 |
CN108446619B (zh) * | 2018-03-12 | 2020-08-28 | 清华大学 | 基于深度强化学习的人脸关键点检测方法及装置 |
CN112292693A (zh) * | 2018-05-18 | 2021-01-29 | 渊慧科技有限公司 | 强化学习***训练返回函数的元梯度更新 |
CN108791302A (zh) * | 2018-06-25 | 2018-11-13 | 大连大学 | 驾驶员行为建模*** |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN108791302B (zh) * | 2018-06-25 | 2020-05-19 | 大连大学 | 驾驶员行为建模*** |
WO2020029095A1 (zh) * | 2018-08-07 | 2020-02-13 | 中国科学院深圳先进技术研究院 | 强化学习网络的训练方法、装置、训练设备及存储介质 |
CN109636432A (zh) * | 2018-09-28 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 计算机执行的项目选择方法和装置 |
CN109636432B (zh) * | 2018-09-28 | 2023-05-30 | 创新先进技术有限公司 | 计算机执行的项目选择方法和装置 |
CN110046643A (zh) * | 2019-02-11 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 业务参数调优方法以及装置 |
CN110046643B (zh) * | 2019-02-11 | 2023-06-16 | 创新先进技术有限公司 | 业务参数调优方法以及装置 |
CN111552237A (zh) * | 2019-02-12 | 2020-08-18 | 发那科株式会社 | 机器学习装置、控制装置、以及机器学习的搜索范围的设定方法 |
CN111552237B (zh) * | 2019-02-12 | 2023-12-01 | 发那科株式会社 | 机器学习装置、控制装置、以及机器学习的搜索范围的设定方法 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
CN110174118A (zh) * | 2019-05-29 | 2019-08-27 | 北京洛必德科技有限公司 | 基于强化学习的机器人多目标搜索路径规划方法和装置 |
CN110244077A (zh) * | 2019-06-04 | 2019-09-17 | 哈尔滨工程大学 | 一种热式风速传感器恒功率调节与精度补偿方法 |
CN110568760A (zh) * | 2019-10-08 | 2019-12-13 | 吉林大学 | 适用于换道及车道保持的参数化学习决策控制***及方法 |
CN111222630A (zh) * | 2020-01-17 | 2020-06-02 | 北京工业大学 | 一种基于深度强化学习的自主驾驶规则学习方法 |
CN111895865A (zh) * | 2020-08-06 | 2020-11-06 | 西安睿高测控技术有限公司 | 一种降低装定诸元需求的卫星制导弹药制导方法 |
WO2022121510A1 (zh) * | 2020-12-11 | 2022-06-16 | 多伦科技股份有限公司 | 基于随机策略梯度的交通信号控制方法、***及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105955930A (zh) | 引导型策略搜索强化学习算法 | |
Zhong et al. | MOMPA: Multi-objective marine predator algorithm | |
CN110991757B (zh) | 一种混合动力电动汽车综合预测能量管理方法 | |
Yu et al. | Improved roulette wheel selection-based genetic algorithm for TSP | |
CN109017809A (zh) | 一种基于越野工况预测的能量分配方法 | |
Montoya et al. | Toward autonomous materials research: Recent progress and future challenges | |
CN110007235A (zh) | 一种电动汽车蓄电池soc在线预测方法 | |
Zhi et al. | A state of health estimation method for electric vehicle Li-ion batteries using GA-PSO-SVR | |
Ermon et al. | Learning policies for battery usage optimization in electric vehicles | |
Liang et al. | Accelerating perovskite materials discovery and correlated energy applications through artificial intelligence | |
US20210397949A1 (en) | Materials artificial intelligence robotics-driven methods and systems | |
Wang et al. | Research on health state estimation methods of lithium-ion battery for small sample data | |
CN117949832B (zh) | 一种基于优化神经网络的电池soh分析方法 | |
Li et al. | Heuristic smoothing ant colony optimization with differential information for the traveling salesman problem | |
CN117634693A (zh) | 一种基于能源数据的碳排放预测方法 | |
CN107818328A (zh) | 结合局部信息的不完整数据相似性刻画方法 | |
Xia et al. | Historical data-independent remaining useful life prediction method based on dual-input deep learning neural network | |
CN106227965A (zh) | 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法 | |
CN106326188A (zh) | 基于反向学习半径粒子群优化的任务划分***及其方法 | |
WO2022104695A1 (zh) | 一种基于量子谐振子模型的交通流特征表达方法 | |
CN111191941A (zh) | 一种基于人工蜂群算法解决sevm模型问题的方法 | |
DE102022208057A1 (de) | Betriebsverfahren eines intelligenten fahrzeug-fahrsteuersystems | |
CN109447231A (zh) | 蚁群算法求解共享经济背景下多属性双边匹配问题的方法 | |
Boin et al. | AVDDPG: Federated reinforcement learning applied to autonomous platoon control | |
Chang et al. | A quantum-PSO algorithm for no-wait flow shop scheduling problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160921 |
|
RJ01 | Rejection of invention patent application after publication |