CN113268854A - 一种双评价器单执行器的强化学习方法及*** - Google Patents

一种双评价器单执行器的强化学习方法及*** Download PDF

Info

Publication number
CN113268854A
CN113268854A CN202110415953.4A CN202110415953A CN113268854A CN 113268854 A CN113268854 A CN 113268854A CN 202110415953 A CN202110415953 A CN 202110415953A CN 113268854 A CN113268854 A CN 113268854A
Authority
CN
China
Prior art keywords
state
action
network
function
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110415953.4A
Other languages
English (en)
Inventor
任维雅
周仕扬
任小广
王彦臻
易晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202110415953.4A priority Critical patent/CN113268854A/zh
Publication of CN113268854A publication Critical patent/CN113268854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种双评价器单执行器的强化学习方法及***,包括:S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;S2根据初始化噪声函数在初始化环境中得到一个状态;S3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;根据设定的迭代条件重复上述步骤训练双评价器单执行器的强化学习;其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。本发明解决了无模型强化学习中,样本利用率不高、训练收敛速度慢等问题。

Description

一种双评价器单执行器的强化学习方法及***
技术领域
本发明涉及智能体路径规划领域,具体涉及一种双评价器单执行器的强化学习方法及***。
背景技术
目前大多数无模型强化学习算法都采用了在策略评估和策略改进之间迭代的广义策略迭代,策略评估方法是对行为价值函数进行估计,而策略改进方法则是根据行为价值函数对策略进行更新。基于广义策略迭代和策略梯度定理,Actor-Critic(AC,强化学习)已经成为一种广泛使用的架构。
确定性策略梯度算法(Deterministic policy gradient,DPG)在AC框架的基础上进一步考虑了确定性策略梯度算法用于连续动作,与随机策略相比,DPG在策略评估时降低了方差。深度确定策略梯度(Deep Deterministic Policy Gradient,DDPG)进一步将Deepneural networks与DPG结合,提高建模能力。然而,无模型AC算法和DDPG算法都是通过直接与环境交互产生样本,存在采样效率低、收敛速度慢等的问题。
基于模型的规划方法,通过使用学习得到的模型进行模拟推演来加速学习或者获得更好的动作状态的价值估计。虽然计算效率更高,收敛速度也更快,但是规划的准确性与环境的动力学模型的精度是息息相关的。现实情况中,环境受空气温度、摩擦阻力、通信时延、材料特性等各种随机因素影响大。规划所需要的环境的动力学模型现实中往往无法得到。此外,规划方法对环境模型的依赖性太强,对新环境的泛化能力较弱,环境一旦发生变化,就需要重新规划。然而环境往往随时间的变化而变化,想要获得完全模拟现实环境的精确模型是不现实的。
因此,如何将强化学习与规划方法相结合以解决彼此的问题亟需解决。
发明内容
为了解决现有技术中所存在的上述不足,本发明提供了一种双评价器单执行器的强化学习方法,包括:
S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;
S2根据初始化噪声函数在初始化环境中得到一个状态;
S3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;
S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;
S5判断训练步数是否达到一幕的最大步数,若是,则更新幕数并执行S6,否则更新步数并执行S3;
S6判断所述幕数是否达到设定的最大幕数,若是,则训练结束,否则初始化步数执行S2;
其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。
优选的,所述S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数,包括:
S101随机初始化基于奖励的评价器的值函数网络和执行器的策略网络;
S102初始化目标网络的权重;
S103初始化经验回放缓存区;
S104设置策略网络的损失函数中各评价器的比例系数。
优选的,所述策略网络的损失函数,如下式所示:
Figure BDA0003024332670000021
式中:J(μθ)为策略网络的损失函数;θ为执行器的策略网络参数;
Figure BDA0003024332670000022
为状态空间;ρμ(s,γ1)为在折扣γ1下的状态分布;s为当前状态;γ1为奖励折扣系数;μθ(s)为策略函数;r(s,μθ(s))为在状态s时采取策略μθ能获得的奖励;β为双评价器的比例系数;ρμ(s,γ2)为在折扣γ2下的状态分布;γ2为势场值的折扣系数;qPF(s,μθ(s))为在状态s执行策略μθ时基于势场的状态-动作函数。
优选的,根据当前状态、当前策略和噪声函数按下式计算动作:
at=μ(s|θ)+Nt
式中:at为t时刻的动作;μ(s|θ)为当前状态s在当前策略下的结果;s为当前状态;θ为执行器的策略网络参数;Nt为根据噪声函数得到t时刻的噪声。
优选的,所述S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数,包括:
S401根据从所述缓冲区中采集的N个样本,以及值函数网络更新公式更新基于奖励的评价器的值函数网络;
S402根据从所述缓冲区中采集的N个样本和预设的人工势场的状态-动作值函数,计算基于人工势场的评价器的状态-动作值函数的值;
S403根据从所述缓冲区中采集的N个样本和所述损失函数,以及策略网络参数更新公式更新执行器的策略网络;
S404根据策略网络参数θ和策略网络μ更新目标网络。
优选的,所述人工势场的状态-动作值函数,如下式所示:
Figure BDA0003024332670000031
式中:QPF(s,a)为人工势场的状态-动作值函数;s是当前状态;a为动作;U(s)为状态s下的势场值;γ2为势场值的折扣系数;s′a为状态s下执行动作a后的状态;U(s′a)为状态s下执行动作a后的状态的势场值;E为求均值;k为进行计算的中间变量,表示当前步数;qPF(sk,ak)为在状态sk执行策略μθ时基于势场的状态-动作函数;
其中,所述qPF(sk,ak)按下式计算:
Figure BDA0003024332670000032
式中:U(s)为;χ是执行动作a后的方向和f(s)的夹角。
优选的,所述策略网络参数更新公式,如下式所示:
Figure BDA0003024332670000033
式中:θt+1为t+1时刻策略网络的参数;θt为t时刻策略网络的参数;αθ为策略网络的学习率;
Figure BDA0003024332670000034
为求θ的梯度;μθ为权重参数为θ的策略网络;st为t时刻的状态;at为t时刻执行的动作;β为双评价器的比例因子;
Figure BDA0003024332670000035
为求动作a的梯度;
Figure BDA0003024332670000036
为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作at的值;
Figure BDA0003024332670000037
为t时刻基于势场的状态动作值函数的梯度。
优选的,所述值函数网络更新公式,如下式所示:
Figure BDA0003024332670000038
Figure BDA0003024332670000041
式中:δt为t时刻的TD误差;Rt为t时刻的即时奖励;γ1为奖励折扣因子;
Figure BDA0003024332670000042
为基于奖励的状态动作值函数在值函数和策略权重参数分别为w′和θ′下t+1时刻状态的值;st+1为t+1时刻的状态;μθ,(st+1)为策略在权重参数θ′下t+1时刻的状态应执行的动作;
Figure BDA0003024332670000043
为基于奖励的状态动作值函数在值函数权重参数为w下状态st时执行动作at时的值;st为t时刻的状态;at为t时刻的动作;wt+1为t+1时刻的网络权重;wt为t时刻的网络权重;αw为值函数网络的学习率;
Figure BDA0003024332670000044
为对权重w求梯度;
Figure BDA0003024332670000045
为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作at的值。
优选的,所述目标网络按下式更新:
θ′←τθ+(1-τ)θ′
w′←τw+(1-τ)w′
式中:θ′为目标策略网络权重;τ为目标网络软更新时的温度系数;θ为策略网络权重;w′为目标值函数网络权重;w为值函数网络权重。
基于同一发明构思,本发明还提供了一种双评价器单执行器的强化学习***,其特征在于,用于实现上述技术方案中任意一项所述的双评价器单执行器的强化学习方法,包括:
初始化模块,用于初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;
初始状态模块,用于根据初始化噪声函数在初始化环境中得到一个状态;
生成样本模块,用于根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;
更新参数模块,用于根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;
判断步数模块,用于判断训练步数是否达到一幕的最大步数,若是,则更新幕数并执行判断幕数模块,否则更新步数并执行所述生成样本模块;
所述判断幕数模块,用于判断所述幕数是否达到设定的最大幕数,若是,则训练结束,否则初始化步数执行所述初始状态模块;
其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。
与现有技术相比,本发明的有益效果为:
本发明提供的技术方案,S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;S2根据初始化噪声函数在初始化环境中得到一个状态;S3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;S5判断训练步数是否达到一幕的最大步数,若是,则更新幕数并执行S6,否则更新步数并执行S3;S6判断所述幕数是否达到设定的最大幕数,若是,则训练结束,否则初始化步数执行S2;其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。本发明解决了无模型强化学习中,样本利用率不高、训练收敛速度慢等问题,将通过强化学习的方式不断与环境交互的结果与规划方法相结合,两者共同作用既可以加快算法的收敛速度,又可以弥补由于环境模型不准确带来的偏差从而得到问题的最优解。
附图说明
图1为本实施例中提供的一种双评价器单执行器的强化学习方法流程图;
图2为本实施例中双评价器单行动器的结构示意图;
图3为本实施例中执行动作a后的方向和f(s)的夹角示意图;
图4为本实施例中提供的当前状态执行不同动作后的下一状态示意图;
图5为本实施例中提供的3v1捕食者-被捕食者博弈的情形示意图;
图6为本实施例中提供的1v1捕食者-被捕食者博弈的情形示意图;
图7为本实施例中提供的1v1每500幕奖励的均值示意图;
图8为本实施例中提供的3v1每500幕奖励的均值示意图;
图9为本实施例中提供的1v1最近200步的捕获成功率示意图;
图10为本实施例中提供的3v1最近200步的捕获成功率示意图;
图11为本实施例中提供的当捕食者和被捕食者一起进行训练时3v1每500幕奖励的均值示意图;
图12为本实施例中提供的当捕食者和被捕食者一起进行训练时3v1最近200步的捕获成功率示意图。
具体实施方式
为了更好地理解本发明,下面结合说明书附图和实例对本发明的内容做进一步的说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
目前由于无模型AC算法和DDPG算法由于直接与环境交互产生样本,存在采样效率低、收敛速度慢的问题,而有模型的规划方法对环境模型的依赖性太强,对新环境的泛化能力较弱需改进,因此,通过强化学习的方式不断与环境交互的结果与规划方法相结合,两者共同作用既可以加快算法的收敛速度,又可以弥补由于环境模型不准确带来的偏差从而得到问题的最优解。
如图1所示,本实施例提供的一种双评价器单执行器的强化学习方法,包括:
S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;
S2根据初始化噪声函数在初始化环境中得到一个状态;
S3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;
S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;
S5判断训练步数是否达到一幕的最大步数,若是,则更新幕数并执行S6,否则更新步数并执行S3;
S6判断所述幕数是否达到设定的最大幕数,若是,则训练结束,否则初始化步数执行S2;
其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。
本实施例提供的技术方案解决了无模型强化学习中,样本利用率不高、训练收敛速度慢等问题,将通过强化学习的方式不断与环境交互的结果与规划方法相结合,两者共同作用既可以加快算法的收敛速度,又可以弥补由于环境模型不准确带来的偏差从而得到问题的最优解。
现有的Actor-Critic结构,是一个行动器一个评价器;或者有用于并行方案Asynchronous Advantage Actor-critic(A3C)是多个行动器一个评价器,而本实施例中提出了双评价器单行动器的方式。对于每个智能体来说,可以同时有多个评价器来共同指导统一个行动器,这样就可以通过设计不同的评价器来结合有模型和无模型的两种梯度更新。
在本实施例中,所述S1的具体实现步骤包括:
S101随机初始化基于奖励的评价器的值函数网络和执行器的策略网络;
S102初始化目标网络的权重;
S103初始化经验回放缓存区;
S104设置策略网络的损失函数中各评价器的比例系数。
在本实施例中,所述S4的具体实现步骤包括:
S401根据从所述缓冲区中采集的N个样本,以及值函数网络更新公式更新基于奖励的评价器的值函数网络;
S402根据从所述缓冲区中采集的N个样本和预设的人工势场的状态-动作值函数,计算基于人工势场的评价器的状态-动作值函数的值;
S403根据从所述缓冲区中采集的N个样本和所述损失函数,以及策略网络参数更新公式更新执行器的策略网络;
S404根据策略网络参数θ和策略网络μ更新目标网络。
如图2所示,在本实施例中双评价器(Actor-Critic-2)单执行器的框架介绍多智能体的强化学习方法,首先提出以人工势场引导的深度确定性策略梯度PGDDPG方法,它以Actor-Critic-2框架为基础,将基于人工势场的评价器Critic2和传统的基于奖励的Critic1相结合。
在本实施例中,基于人工势场的评价器Critic2的构建过程包括:
首先基于传统的人工势场的计算方法,介绍基于人工势场的评价器Critic2的设计方式。
传统的人工势场采用:
U(s)=Uatt(S)+Urep(S). (1)
其中引力:
Figure BDA0003024332670000081
其中ξ为引力因子,d(s,sgoal)为状态s时所在位置到目标状态sgoal的距离。
斥力:
Figure BDA0003024332670000082
其中,η为斥力因子,d0为受斥力影响的最大范围。
物体在状态s受到的力就是在该状态势场的负梯度,即就是
Figure BDA0003024332670000083
基于传统人工势场法设计基于人工势场的评价器critic2,也就是设计一个基于人工势场的状态-动作值函数QPF(s,a),如下式所示:
Figure BDA0003024332670000084
其中,χ是执行动作a后的方向和f(s)的夹角,如图3所示,s是当前状态。
Figure BDA0003024332670000085
其中,如图4所示,s′a是在s时执行动作a(后)的状态,0<γ2≤1是折扣系数。本实施例中,基于Actor-Critic-2的人工势场引导的深度确定性策略梯度:
Critic 1是基于环境奖励r(sk,ak)的,可由下式所示DDPG中原始的状态-动作值函数计算得到:
Figure BDA0003024332670000086
式中,γ1为奖励折扣系数,γ1的取值范围为0γ1≤1。
DDPG是一种无模型的强化学习方法,基于环境反馈的奖励进行学习,不需要环境模型,但是样本利用率较低,收敛速度较慢。
Critic 2是基于人工势场的,由下式中本实施例设计人工势场的状态-动作值函数计算得到:
Figure BDA0003024332670000091
式中:γ2为势场值的折扣系数,γ2的取值范围为0<γ2≤1。
人工势场是一种基于模型的规划方法,计算效率高,但环境模型的精度影响算法的效果。
在一个具体方式中根据Actor-Critic-2的框架,结合Critic 1和Critic 2共同引导Actor策略网络的更新,可以结合基于模型的规划方法和无模型强化学习方法的两者的优势,使算法更快更稳定的收敛,本实施例使用Adam优化器进行优化。
根据公式(6)(7)结合强化学习中随机策略梯度损失函数的定义,双评价器单执行器方法的策略网络的损失函数可以表示为:
Figure BDA0003024332670000092
其中β为调节critic 1和critic 2的比例系数,β越大基于奖励的Critic 1占比就越大,强化学习对actor的引导作用就更强;β越小Critic 2占比就越大,人工势场规划的引导作用就更强。
在一个具体实施方式中比例系数β的设置方式包括:
1).β为固定值时,越接近目标过程人工势场的影响逐渐减小,由学习进行局部探索;
2).β随着训练轮次动态调整,促使总的动作值函数接近真实状态动作值函数。
由公式(8)可得策略网络梯度为:
Figure BDA0003024332670000093
Actor的策略网络参数可以表示为θ,Critic 1的值函数网络参数可以表示为w,Critic 2直接使用公式(4)(5)计算得到。策略网络和值函数网络相互迭代更新。
计算方式如下:
按下式进行策略网络参数更新:
Figure BDA0003024332670000101
式中:θt+1为t+1时刻策略网络的参数;θt为t时刻策略网络的参数;αθ为策略网络的学习率;
Figure BDA0003024332670000102
为求θ的梯度;μθ为权重参数为θ的策略网络;st为t时刻的状态;αt为t时刻执行的动作;β为双评价器的比例因子;
Figure BDA0003024332670000103
为求动作a的梯度;
Figure BDA0003024332670000104
为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作at的值;
Figure BDA0003024332670000105
为t时刻基于势场的状态动作值函数的梯度。
按下式进行值函数网络更新:
Figure BDA0003024332670000106
Figure BDA0003024332670000107
式中:δt为t时刻的TD误差;Rt为t时刻的即时奖励;γ1为奖励折扣因子;
Figure BDA0003024332670000108
为基于奖励的状态动作值函数在值函数和策略权重参数分别为w′和θ′下t+1时刻状态的值;st+1为t+1时刻的状态;μθ′(st+1)为策略在权重参数θ′下t+1时刻的状态应执行的动作;
Figure BDA0003024332670000109
为基于奖励的状态动作值函数在值函数权重参数为w下状态st时执行动作at时的值;st为t时刻的状态;at为t时刻的动作;wt+1为t+1时刻的网络权重;wt为t时刻的网络权重;αw为值函数网络的学习率;
Figure BDA00030243326700001010
为对权重w求梯度;
Figure BDA00030243326700001011
为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作at的值。
为了使算法收敛更快更稳定,本实施例选择使用和DDPG一样的双网络延迟更新方式,分别设置目标值函数网络和目标策略网络为Q’和μ’通过软更新的方式更新目标网络参数:
θ′←τθ+(1-τ)θ′ (13)
w′←τw+(1-τ)w′ (14)
式中:θ′为目标策略网络权重;τ为目标网络软更新时的“温度系数”;θ为策略网络权重;w′为目标值函数网络权重;w为值函数网络权重。
基于上述提供的实施方式,本实施例对双评价器单执行器的强化学习方法进行具体的解释,包括:
步骤1、随机初始化critic1的值函数网络Q(s,a|w)和Actor的策略网络μ(s|θ),权重表示为w和θ,设置双评价器的比例系数β;
步骤2、初始化目标网络Q’和μ’的权重为w′=w和θ′=θ;
步骤3、初始化经验回放缓存区R;
步骤4、初始化一个用于探索动作的噪声函数N();
步骤5、初始化环境并得到一个初始状态s1
步骤6、根据当前状态St当前策略μt和探索噪声Nt计算动作:
at=μ(s|θ)+Nt
步骤7、执行动作at观察奖励rt和下一个状态st+1
步骤8、储存经验(St,at,rt,st+1)到缓冲区R;
步骤9、随机从缓冲区R中采样N个样本(Si,ai,ri,si+1);
步骤10、使用采样得到的N个样本,通过公式(11)(12)更新critic1的值函数网络Q(s,a|w);
步骤11、使用采样得到的N个样本,通过公式(4)(5)计算critic2的人工势场值函数的值;
步骤12、使用采样得到的N个样本,通过公式(10)更新Actor的策略网络μ(s|θ);
步骤13、通过公式(13)(14)更新目标网络;
步骤14、一幕结束或者达到一幕的最大步数数则执行步骤15,否则返回执行步骤6;
步骤15、达到最大幕数则训练结束,否则执行步骤4。
本实施例提出的双评价器单行动器的强化学习方法,解决了无模型强化学习中,存在的样本利用率不高、训练收敛速度慢的问题。使用双评价器的方式,不仅可以将有模型的规划(如:人工势场)和无模型的强化学习方法相结合,也可以直接结合多种强化学习方法。将有模型的规划和无模型的强化学习方法相结合,在加快算法收敛的同时提高了算法对新环境的泛化能力,对加快强化学习方法在实际中的应用有重要推动作用。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
基于上述方案,本发明提供了本发明的技术方案涉及的一个实施例的应用场景,基于multiagent-particle-environments(MPE)环境的实验验证本技术方案的有效性,使用MPE中的“捕食者-猎物”模型,捕食者的坐标限定在[-1,1],猎物的坐标限定在[-0.8,0.8]之间,捕食者和被捕食者有相同的速度。如图5和图6所示有两种情形,3v1和1v1,3v1的捕食者-被捕食者博弈的情形即如图5所示,地图中有3个捕食者追逐一个猎物,1v1的捕食者-被捕食者博弈的情形即如图6所示,地图中只有一个捕食者追逐一个猎物,其中,图中的三角形表示捕食者,圆形表示猎物。
首先考虑1v1的捕食者-被捕食者博弈的情形,环境奖励是稀疏的(如果成功奖励+10),并且只取决于每一幕的终结状态;然后,考虑N个捕食者在一个随机生成的环境中追逐一个猎物,每一次如果所有捕食者同时捕获一个猎物,每个捕食者将获得10的奖励。只要任何捕食者没有抓住猎物,就不会给任何捕食者奖励。上述过程导致了一个学习困难的问题,需要良好的默契合作。
实验的目标是学习在不知道对手策略和行动的情况下独立捕获猎物。针对连续动作的控制问题,使用确定性策略梯度算法DDPG为基础(包含一个评价器Critic1),增加自定义的人工势场评价器(Critic2),使用Critic1和Critic2的梯度组合共同对Actor进行更新。在本实施例中把这个方法称为PGDDPG。
本实施例中的采用两种方式验证该技术方案的有效性,具体包括:
第一种方式,使用预训练的DDPG模型作为被捕食者策略
对于1v1和3v1的捕食者-被捕食者博弈,分别绘制了如图7、图8、图9和图10所示PGDDPG与DDPG的捕获成功率和捕食者奖励曲线。
为了展示更流畅的学习过程,如图7和图8所示计算了每500集的奖励值的均值。
显然,通过图7、图8、图9和图10可以看出PGDDPG在收敛速度方面优于DDPG。
第二种方式,捕食者和被捕食者一起进行训练
同时训练增加了学习的难度,因为它变成了零和游戏,同时环境得动态性增强。
如图11和图12所示,对于PGDDPG,在大约1000次时成功率从0.2下降到0(猎物的逃脱能力超过捕食者的捕获能力);然而,很快捕获能力赶上了逃跑能力并占据了领先地位。
从图11和图12还可以观察到DDPG在3vs 1的捕食者-被捕食者零和博弈中失败。
其中图7-12中的横坐标episode表示训练集数,图7、图8和图11的纵坐标reward表示奖励,图9、图10和图12的纵坐标ration of success表示限定成功的量。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
进一步,本发明还提供了一种存储装置。在根据本发明的一个存储装置实施例中,存储装置可以被配置成存储执行上述方法实施例的双评价器单执行器的强化学习方法的程序,该程序可以由处理器加载并运行以实现上述双评价器单执行器的强化学习方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该存储装置可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中存储是非暂时性的计算机可读存储介质。
进一步,本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的双评价器单执行器的强化学习方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的双评价器单执行器的强化学习方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种双评价器单执行器的强化学习方法,其特征在于,包括:
S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;
S2根据初始化噪声函数在初始化环境中得到一个状态;
S3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;
S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;
S5判断训练步数是否达到一幕的最大步数,若是,则更新幕数并执行S6,否则更新步数并执行S3;
S6判断所述幕数是否达到设定的最大幕数,若是,则训练结束,否则初始化步数执行S2;
其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。
2.如权利要求1所述的强化学习方法,其特征在于,所述S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数,包括:
S101随机初始化基于奖励的评价器的值函数网络和执行器的策略网络;
S102初始化目标网络的权重;
S103初始化经验回放缓存区;
S104设置策略网络的损失函数中各评价器的比例系数。
3.如权利要求1所述的强化学习方法,其特征在于,所述策略网络的损失函数,如下式所示:
Figure FDA0003024332660000011
式中:J(μθ)为策略网络的损失函数;θ为执行器的策略网络参数;
Figure FDA0003024332660000012
为状态空间;ρμ(s,γ1)为在折扣γ1下的状态分布;s为当前状态;γ1为奖励折扣系数;μθ(s)为策略函数;r(s,μθ(s))为在状态s时采取策略μθ能获得的奖励;β为双评价器的比例系数;ρμ(s,γ2)为在折扣γ2下的状态分布;γ2为势场值的折扣系数;qPF(s,μθ(s))为在状态s执行策略μθ时基于势场的状态-动作函数。
4.如权利要求1所述的强化学习方法,其特征在于,根据当前状态、当前策略和噪声函数按下式计算动作:
at=μ(s|θ)+Nt
式中:at为t时刻的动作;μ(s|θ)为当前状态s在当前策略下的结果;s为当前状态;θ为执行器的策略网络参数;Nt为根据噪声函数得到t时刻的噪声。
5.如权利要求1所述的强化学习方法,其特征在于,所述S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数,包括:
S401根据从所述缓冲区中采集的N个样本,以及值函数网络更新公式更新基于奖励的评价器的值函数网络;
S402根据从所述缓冲区中采集的N个样本和预设的人工势场的状态-动作值函数,计算基于人工势场的评价器的状态-动作值函数的值;
S403根据从所述缓冲区中采集的N个样本和所述损失函数,以及策略网络参数更新公式更新执行器的策略网络;
S404根据策略网络参数θ和策略网络μ更新目标网络。
6.如权利要求5所述的强化学习方法,其特征在于,所述人工势场的状态-动作值函数,如下式所示:
Figure FDA0003024332660000021
式中:QPF(s,a)为人工势场的状态-动作值函数;s是当前状态;a为动作;U(s)为状态s下的势场值;γ2为势场值的折扣系数;s′a为状态s下执行动作a后的状态;U(s′a)为状态s下执行动作a后的状态的势场值;E为求均值;k为当前步数;qPF(sk,ak)为在状态sk执行策略μθ时基于势场的状态-动作函数;
其中,所述qPF(sk,ak),按下式计算:
Figure FDA0003024332660000022
式中:U(s)为;χ是执行动作a后的方向和f(s)的夹角。
7.如权利要求5所述的强化学习方法,其特征在于,所述策略网络参数更新公式,如下式所示:
Figure FDA0003024332660000023
式中:θt+1为t+1时刻策略网络的参数;θt为t时刻策略网络的参数;αθ为策略网络的学习率;
Figure FDA0003024332660000024
为求θ的梯度;μθ为权重参数为θ的策略网络;st为t时刻的状态;at为t时刻执行的动作;β为双评价器的比例因子;
Figure FDA0003024332660000031
为求动作a的梯度;
Figure FDA0003024332660000032
为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作at的值;
Figure FDA0003024332660000033
为t时刻基于势场的状态动作值函数的梯度。
8.如权利要求4所述的强化学习方法,其特征在于,所述值函数网络更新公式,如下式所示:
Figure FDA0003024332660000034
Figure FDA0003024332660000035
式中:δt为t时刻的TD误差;Rt为t时刻的即时奖励;γ1为奖励折扣因子;
Figure FDA0003024332660000036
为基于奖励的状态动作值函数在值函数和策略权重参数分别为w′和θ′下t+1时刻状态的值;st+1为t+1时刻的状态;μθ′(st+1)为策略在权重参数θ′下t+1时刻的状态应执行的动作;
Figure FDA0003024332660000037
为基于奖励的状态动作值函数在值函数权重参数为w下状态st时执行动作at时的值;st为t时刻的状态;at为t时刻的动作;wt+1为t+1时刻的网络权重;wt为t时刻的网络权重;αw为值函数网络的学习率;
Figure FDA0003024332660000038
为对权重w求梯度;
Figure FDA0003024332660000039
为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作at的值。
9.如权利要求4所述的强化学习方法,其特征在于,所述目标网络按下式更新:
θ′←τθ+(1-τ)θ′
w′←τw+(1-τ)w′
式中:θ′为目标策略网络权重;τ为目标网络软更新时的温度系数;θ为策略网络权重;w′为目标值函数网络权重;w为值函数网络权重。
10.一种双评价器单执行器的强化学习***,其特征在于,用于实现权利要求1-9任意一项所述的双评价器单执行器的强化学习方法,包括:
初始化模块,用于初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;
初始状态模块,用于根据初始化噪声函数在初始化环境中得到一个状态;
生成样本模块,用于根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;
更新参数模块,用于根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;
判断步数模块,用于判断训练步数是否达到一幕的最大步数,若是,则更新幕数并执行判断幕数模块,否则更新步数并执行所述生成样本模块;
所述判断幕数模块,用于判断所述幕数是否达到设定的最大幕数,若是,则训练结束,否则初始化步数执行所述初始状态模块;
其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。
CN202110415953.4A 2021-04-16 2021-04-16 一种双评价器单执行器的强化学习方法及*** Pending CN113268854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110415953.4A CN113268854A (zh) 2021-04-16 2021-04-16 一种双评价器单执行器的强化学习方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110415953.4A CN113268854A (zh) 2021-04-16 2021-04-16 一种双评价器单执行器的强化学习方法及***

Publications (1)

Publication Number Publication Date
CN113268854A true CN113268854A (zh) 2021-08-17

Family

ID=77228844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110415953.4A Pending CN113268854A (zh) 2021-04-16 2021-04-16 一种双评价器单执行器的强化学习方法及***

Country Status (1)

Country Link
CN (1) CN113268854A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139472A (zh) * 2021-11-04 2022-03-04 江阴市智行工控科技有限公司 基于强化学习双模型结构的集成电路直流分析方法及***
CN114518751A (zh) * 2021-12-31 2022-05-20 中国人民解放军国防科技大学 基于最小二乘截断时域差分学习的路径规划决策优化方法
CN115392144A (zh) * 2022-10-31 2022-11-25 深圳飞骧科技股份有限公司 声表滤波器的自动设计方法、相关***和存储介质
CN115493597A (zh) * 2022-11-15 2022-12-20 山东大学 一种基于sac算法的auv路径规划控制方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139472A (zh) * 2021-11-04 2022-03-04 江阴市智行工控科技有限公司 基于强化学习双模型结构的集成电路直流分析方法及***
CN114518751A (zh) * 2021-12-31 2022-05-20 中国人民解放军国防科技大学 基于最小二乘截断时域差分学习的路径规划决策优化方法
CN115392144A (zh) * 2022-10-31 2022-11-25 深圳飞骧科技股份有限公司 声表滤波器的自动设计方法、相关***和存储介质
CN115392144B (zh) * 2022-10-31 2023-02-03 深圳飞骧科技股份有限公司 声表滤波器的自动设计方法、相关***和存储介质
CN115493597A (zh) * 2022-11-15 2022-12-20 山东大学 一种基于sac算法的auv路径规划控制方法

Similar Documents

Publication Publication Date Title
CN113268854A (zh) 一种双评价器单执行器的强化学习方法及***
Lee et al. Sample-efficient deep reinforcement learning via episodic backward update
EP4231197B1 (en) Training machine learning models on multiple machine learning tasks
CN107209872B (zh) 用于训练强化学习***的***、方法和存储介质
CN108051999B (zh) 基于深度强化学习的加速器束流轨道控制方法及***
CN111008449A (zh) 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
CN109284812B (zh) 一种基于改进dqn的视频游戏模拟方法
CN111026272B (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN105637540A (zh) 用于强化学习的方法和设备
Cui et al. Using social emotional optimization algorithm to direct orbits of chaotic systems
CN113449458A (zh) 一种基于课程学习的多智能体深度确定性策略梯度方法
CN112488826A (zh) 基于深度强化学习对银行风险定价的优化方法和装置
Mousavi et al. Applying q (λ)-learning in deep reinforcement learning to play atari games
CN113962390A (zh) 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN113419424A (zh) 减少过估计的模型化强化学习机器人控制方法及***
CN114404975B (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
CN114290339B (zh) 基于强化学习和残差建模的机器人现实迁移方法
CN107798384B (zh) 一种基于可进化脉冲神经网络的鸢尾花卉分类方法和装置
CN110450164A (zh) 机器人控制方法、装置、机器人及存储介质
CN113919475B (zh) 机器人技能学习的方法、装置、电子设备及存储介质
CN115542912A (zh) 一种基于改进Q-learning算法的移动机器人路径规划方法
Nichols et al. Application of Newton's Method to action selection in continuous state-and action-space reinforcement learning
Lee et al. Convergent reinforcement learning control with neural networks and continuous action search
CN105279978B (zh) 交叉***通信号控制方法和设备
CN113554166A (zh) 认知行为模型加速的深度q网络强化学习方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination