CN112668235B - 基于离线模型预训练学习的ddpg算法的机器人控制方法 - Google Patents

基于离线模型预训练学习的ddpg算法的机器人控制方法 Download PDF

Info

Publication number
CN112668235B
CN112668235B CN202011429368.1A CN202011429368A CN112668235B CN 112668235 B CN112668235 B CN 112668235B CN 202011429368 A CN202011429368 A CN 202011429368A CN 112668235 B CN112668235 B CN 112668235B
Authority
CN
China
Prior art keywords
network
state
action
training
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011429368.1A
Other languages
English (en)
Other versions
CN112668235A (zh
Inventor
张茜
王洪格
姚中原
戚续博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyuan University of Technology
Original Assignee
Zhongyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongyuan University of Technology filed Critical Zhongyuan University of Technology
Priority to CN202011429368.1A priority Critical patent/CN112668235B/zh
Publication of CN112668235A publication Critical patent/CN112668235A/zh
Application granted granted Critical
Publication of CN112668235B publication Critical patent/CN112668235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明提出了一种基于离线模型预训练学***均奖励值更高,学***,使机器人快速地到达目的地。

Description

基于离线模型预训练学习的DDPG算法的机器人控制方法
技术领域
本发明涉及机器人控制的技术领域,尤其涉及一种基于离线模型预训练学习的DDPG算法的机器人控制方法。
背景技术
强化学习是机器学习的一个重要分支,智能体通过执行某些操作并观察从这些操作中获得的奖励或结果来学习在环境中的行为。主要包含四个元素:智能体、环境状态、行动和奖励。强化学习的目标就是智能体根据环境的正反馈尽可能向正方向执行动作以此学习好的策略,获得最多的累计奖励。
目前,深度强化学习已经在机器人的仿真控制、运动控制、室内室外导航、同步定位等方向产生重要的影响,促使机器人能够在仿真环境甚至现实世界中通过经验和环境交互进行自动学习,以达成回报最大化或实现特定目标。
DDPG(Deep Deterministic Policy Gradient)能够适用于具有连续动作空间和连续状态空间的任务,DDPG算法作为连续动作控制方面的经典算法,训练比较稳定,但其学习过程比较缓慢而且目标Q值一般都是通过贪婪法直接得到的,因此存在Q值高估偏差,当这种累计误差达到一定程度时,会导致次优策略的更新和发散行为,使最终得到的算法模型有很大的偏差。
另外,在线强化学习需要在线地处理环境中每个时刻的状态数据和反馈奖励,施加动作后必须等待环境的下个反馈奖励,因此会造成时间成本代价过高。并且,强化学习在训练初期时,其中的动作网络和评估网络泛化能力较弱,产生大量冗余的试错动作和无效数据,也一定程度上浪费在线的计算资源。
深度强化学习将深度学习的感知能力与强化学习的决策能力相结合,广泛应用于机器人操作任务上,Dylan P.Losey等人提出了全局最优领先的人工蜂群算法用于更新机器人路径轨迹,L.Tai等人实现无模型的避障行为,让移动机器人在不碰撞其他物体的情况下探索未知环境,但由于离散分类导致存在对于决策的连续状态空间不够精确的局限性问题。
Volodymyr Mnih等人提出了深度Q网络(Deep Q Network,DQN)从高维感官输入中获得对环境的有效表示,并利用它们将过去的经验推广到新的情况中,然而对于具有连续和高维的动作空间的物理控制任务,DQN不能直接应用于连续域,因为它依赖于寻找使作用值最大化的值函数,Timothy P等人提出了深度确定性策略梯度DDPG,解决了DQN无法处理大量的连续动作空间和Actor Critic难于收敛的问题,DDPG算法广泛用于解决避障、路径规划等问题,可以在高维的连续动作空间中学习策略。但与大多数无模型强化方法一样,DDPG 算法需要大量的训练来找到解决方案,而且由于样本数据采集受到实时操作的限制,一般来说,基于模型的算法在样本复杂度方面优于无模型学习者。Pieiffer M等人提出一个模型,能够学习避免碰撞的策略,安全地引导机器人通过障碍物环境到达指定的目标,但是模型可能是从完美的模拟数据中训练出来的,存在导航性能的不足。
发明内容
针对现有利用DDPG算法的控制方法在线训练过程中会陷入局部极小值及在最初训练 DDPG网络时会产生大量试错动作和无效数据的技术问题,本发明提出一种基于离线模型预训练学习的DDPG算法的机器人控制方法,从已有的大量离线数据入手,利用已有数据离线训练对象状态模型和价值奖励模型,提前模仿在线的训练过程对DDPG中的动作网络和评估网络进行预训练学习,减少DDPG在线学习的前期工作量并提升在线学习的品质。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于离线模型预训练学习的 DDPG算法的机器人控制方法,其步骤如下:
步骤一:收集离线环境下2D假人的训练数据,对训练数据进行预处理得到训练数据集;
步骤二:构建并初始化人工神经网络的评估网络、动作网络、对象状态模型网络和价值奖励网络,并初始化各自的参数;利用步骤一得到的训练数据集离线预训练评估网络和动作网络;
步骤三:利用步骤二中预训练后的评估网络初始化目标评估网络、动作网络初始化目标动作网络,初始化存储缓冲器R和当前的第一状态,智能体将状态转换数据存入存储缓冲器 R作为训练在线网络的在线数据集;
步骤四:利用步骤三得到的在线数据集训练在线策略网络和在线Q网络,利用DDQN结构更新在线策略网络和在线Q网络;
步骤五:软更新:利用在线策略网络和在线Q网络更新目标评估网络和目标动作网络里的参数,利用目标评估网络和目标动作网络输出的状态控制2D假人的状态。
所述训练数据是2D假人从起点走到终点过程中,通过行进并观察行进中获得的奖励或结果来学习在环境中行为,根据环境的反馈向正方向执行动作得到的数据;训练数据在环境状态和动作范围内,随机产生状态数据、动作和其对应的价值奖励及下个状态,即离线环境下从***历史数据表格中收集2D假人的环境样本数据或产生随机动作,得到对应的奖励值和反馈奖励数据,其数据格式为(Si,Ai,Ri,Si+1),其中,Si为环境状态值,Ai为动作,智能体会根据传入的环境状态值Si执行动作Ai,Ri为反馈值或价值奖励值,Si+1为下一个环境的状态值;智能体在随机环境状态Si下,随机地选择一个行为动作Ai,执行该行动,执行动作后返回奖励Ri和新的环境状态Si+1,然后将这一轮数据(Si,Ai,Ri,Si+1)存入数据库。
所述训练数据的预处理的方法为:进行去除空值和异常值的处理,对数据的格式进行归一化转换;将零均值高斯噪声加入到动作中,将处理后的数据存储在训练数据集中。
在原来DDPG的动作网络和价值评估网络结构上新构建了2个结构相似的全连接人工神经网络即对象状态预测网络predictNN和价值奖励网络Value NN,每层网络的人工神经元个数相近;新构建的对象状态预测网络predictNN用于预测下个时刻的状态,输入为当前状态和执行的动作,输出层为线性输出,输出为预测的下个状态,其他各层神经元使用relu作为激活函数;新构建的价值奖励网络Value NN用于计算当前状态执行动作后的反馈奖励,输入为当前状态和动作,最后一层神经网络为线性输出,输出奖励反馈价值。
利用步骤一得到的训练数据集离线预训练评估网络和动作网络的方法为:
步骤1、构建并初始化人工神经网络评估网络Q(s,a|θQ)、动作网络μ(s|θμ)、对象状态模型网络P(s,a|θP)和价值奖励网络r(s,a|θr)并初始化各自参数,从训练数据集中随机选取N个样本训练对象状态模型网络和价值奖励网络;
步骤2、利用训练好的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θQ)和动作网络μ(s|θμ)进行预训练。
所述步骤1中训练对象状态模型网络P(s,a|θP)和价值奖励网络r(s,a|θr)的方法为:
最小化对象状态模型网络的损失函数:
Figure GDA0003933208970000031
其中,L1为对象状态模型网络的损失函数,N为随机从训练数据集中抽取的样本的数量, si+1表示第i+1时刻的智能体得到的环境状态,si表示第i时刻的环境状态,P(si,aip)表示当前时刻状态和行为的对象状态预测网络,由状态预测网络模块中的predictNN神经网络给出; p就是智能体的状态值,θp是调整对象状态网络的参数;
最小化价值奖励网络的损失函数:
Figure GDA0003933208970000032
其中,ri表示从当前状态直到将来某个状态中间所有行为所获得奖励值的之和,r(si,atr) 表示当前状态和行为的环境回报,由价值奖励网络模块中的Value NN神经网络给出;L2为损失值,θr指价值奖励网络的参数。
基于训练好后的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θQ)、动作网络μ(s|θμ) 进行预训练:从训练数据集中选取N个样本(Si,Ai),对价值奖励网络进行训练,通过价值奖励函数预测当前状态执行动作后的反馈奖励Ri
Ri=r(si,atr);
通过对象状态模型网络预测下一步状态Si+1
Si+1=P(si,aip)。
初始化目标动作网络,初始化存储缓冲器R的方法为:随机初始化所有的状态和动作对应的价值Q,随机初始化网络的所有参数θ,清空经验回放的集合R;
所述在线数据集的构建方法为:
步骤31、随机初始化分布N1用作动作探索,初始化Si为当前的第一个状态。
步骤32、智能体根据行为策略选择一个行动,下达给环境执行该行动;
步骤33、智能体执行动作后,环境返回当前状态执行后的奖励和新的状态Si+1
步骤34、智能体将这个状态转换数据(Si,Ai,Ri,Si+1)存入存储缓存器R中,作为训练在线网络的在线数据集。
所述步骤四利用DDQN结构更新在线策略网络和在线Q网络的方法为:
步骤41、从存储缓存器R中随机采样N个状态转换数据,作为在线策略网络和在线Q网络的一个小批量训练数据,(Si,Ai,Ri,Si+1)表示小批量中的单个转换数据;
步骤42、通过目标动作网络预测下一步的动作ai=μ′(s|θμ′);将状态s映射到特定动作a 来维护指定当前策略θμ的参数化,μ′表示参数化的动作网络μ(s|θμ)学习的策略,建立状态与特定动作之间的策略函数;利用DDQN结构比较Q值;
步骤43、计算在线Q网络的策略梯度;
步骤44、更新在线策略网络:采用Adam优化器更新θμ和目标动作网络μ(s|θμ)。
所述步骤42中通过目标评估网络得到下一步的Q值:Qi+1=Q′(Si+1,aiQ);
其中,Qi+1和Q′为下一个Q值,Q′(Si+1,aiQ)表示当前的动作和下一时刻的状态所得到的Q值,Si+1为下一个状态值;
利用DDQN结构Qi=ri+γQi+1比较Q值:
Qi+1′=Q′(Si+1,aiQ′)
Qi+1=min(Qi+1,Qi+1′);
其中,γ∈[0,1]是衰减因子,权衡即时和未来奖励的重要性。
所述Q网络的损失函数为:
Figure GDA0003933208970000051
其中,Q相当于评估者,Q网络中的参数定义为θQ,Q(si,aiQ)表示使用θQ策略在状态si选取动作ai所获取的回报期望值;
采用Adam优化器更新θμ和目标动作网络μ(s|θμ)的方法为:ai=μ(siμ);
最小化目标动作网络的损失函数:
Figure GDA0003933208970000052
得到优化的权重θμ和θQ
所述软更新就更新目标评估网络和目标动作网络里面的参数μ'和Q':
θμ′←τθμ+(1-τ)θμ′
θQ′←τθQ+(1-τ)θQ′
其中,θμ、θμ′、θQ和θQ′分别表示Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络对应的参数,τ为更新系数。
与现有技术相比,本发明的有益效果:本发明利用离线真实训练数据对动作网络和评估网络预处理并构造了对象预测模型网络和价值奖励网络,加快机器人能更加高效地从已知环境中学***均奖励值更高,学***,可以使机器人更高效快速地到达目的地。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的结构示意图。
图2为假人行进过程的示意图,其中,(a)为假人在起点,(b)为假人在行走,(c) 为假人在终点。
图3为本发明预测模型训练的loss曲线。
图4为本发明奖励函数训练的loss曲线。
图5为传统DDPG算法的训练奖励曲线。
图6为本发明模型预训练后的改进训练奖励曲线。
图7为本发明与传统DDPG算法在无噪声环境下的评估奖励对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于离线模型预训练学习的DDPG算法的机器人控制方法,其步骤如下:
步骤一:收集离线环境下2D假人的训练数据,对训练数据进行预处理得到训练数据集。
实验环境为windows 10+paddle 1.7+par l1.3.1+cuda10.0。硬件为core i8-8300+显卡 GTX1060,仿真平台为BipedalWalker-v2。利用DDPG算法、基于离线模型改进的DDPG算法分别训练4000回合,分析机器人即2D假人从起点到达终点的反馈奖励值与训练回合数的关系。
BipedalWalker-v2是一个开源模拟器,其环境特点为地形的生成是完全随机的,它的任务是让2D假人从起点走到终点,机器人有四个关节可以控制,分别是左腿和右腿的根部连接,左腿膝部连接和右腿膝部连接,这个技能是在模仿双足动物向前行走的过程。往前走的越远,分数越多,如果机器人摔倒则扣分,训练的模型必须非常稳健才能拿到高平均分。如图2所示,机器人从起点走到终点过程中,机器人通过行进并观察行进中获得的奖励或结果来学习在环境中行为,根据环境的反馈尽可能向正方向执行动作以此学习好的策略。训练数据的获取是在环境状态和动作范围内,随机产生状态数据、动作和其对应的价值奖励及下个状态。
离线环境下从***历史数据表格中收集2D假人的环境样本数据或产生随机动作,得到对应的奖励值和反馈奖励数据,其数据格式为(St,At,Rt,St+1),其中,St为环境状态值,At为动作,智能体会根据传入的环境状态值St执行动作At,Rt为反馈值或价值奖励值,St+1为下一个环境的状态值,执行动作以后获得一个回报值Rt,并且更新新的状态St+1
收集训练数据:本发明通过智能体在随机环境状态St下,随机地选择一个行为动作At,执行该行动,执行动作后返回奖励Rt和新的环境状态St+1。然后将这一轮数据(St,At,Rt,St+1) 存入数据库,此时只是采集数据,数据也可以通过其他方式获取。
数据预处理:许多数据因其不完整性和前后不统一等特点会造成所谓“脏”数据的产生,如果直接使用这些数据进行模型预训练而不考虑数据内在特征,会使得最终结果误差较大,影响整体效果。因此,使用数据之前需要进行相应的去除空值和异常值的处理,对数据的格式进行归一化转换,能降低干扰,从而提高预测精度。另外本发明将零均值高斯噪声加入到动作中,以提高模型的鲁棒性,最后将处理后的数据存储在训练数据集中。
步骤二:构建并初始化人工神经网络的评估网络、动作网络、对象状态模型网络和价值奖励网络,并初始化各自的参数;利用步骤一得到的训练数据集离线预训练评估网络和动作网络。
离线预训练评估网络和动作网络:从预处理后的训练数据集中提取N个样本数据,离线训练对象状态模型网络和价值奖励网络,再利用这两个离线的对象状态模型网络和价值奖励网络提前模仿在线的训练过程对DDPG中的动作网络和评估网络进行预训练学习,减少前期的大量试错工作,提升在线学习的效率和品质。
Deepmind在2016年提出DDPG,是Actor-Critic框架和DQN算法的结合体,针对连续动作空间的off-policy、Model-Free深度强化学习算法。从整体上来说,DDPG网络应用基于Actor-Critic方法,故具备策略Policy的神经网络和基于价值Value的神经网络,包含一个策略网络用来生成动作,一个评估网络用来评判动作的好坏,并吸取DQN的优秀特性,同时使用了样本经验回放池和固定目标网络。DDPG算法在DPG算法上用卷积神经网络来模拟策略函数和Q函数,以深度学习的方法代替线性回归来训练,证明了在强化学习方法中,非线性模拟函数的准确性和高性能、可收敛。
DDPG算法的结构中包含一个参数为θπ的动作网络和一个参数为θQ的价值评估网络来分别计算确定性策略a=π(s|θπ)和动作价值函数Q(s,a|θQ),由于单个网络学习过程并不稳定,因此借鉴了DQN固定目标网络的成功经验,将动作网络和评估网络各自细分为一个现实网络和一个估计网络。现实网络和估计网络结构相同,估计网络参数以一定频率由现实网络参数进行软更新。动作估计网络用于输出实时的动作,供智能体在现实环境中执行动作,而动作现实网络则是用于更新评估网络***。同时价值评估网络也细分为现实网络和估计网络,用于输出每个状态的价值奖励,而输入端却有不同,状态现实网络根据动作现实网络输入的动作及状态的观测值分析,而状态估计网络根据此时智能体施加的动作作为输入。评估动作的价值称为Q值:代表了智能体选择这个动作后,一直到最终状态奖励总和的期望。
DDPG是一种数据驱动的控制方法,可以根据2D假人的输入输出状态数据学习生成模型,并根据给定的奖励实现2D假人达到目的地的最优策略。在现实世界中,样本数据的采集受到实时操作的限制,因此本发明通过离线数据进行预处理,离线情况下训练对象的状态预测模型和价值奖励预测模型,再借助这两个模型去训练强化学习中的动作网络和评估网络,完成离线预学习工作,然后在动作网络和评估网络放于实际对象中进行学习,进行大大减低智能体的工作量,促使智能体更加高效的完成任务。
本发明在原来DDPG的动作网络和价值评估网络结构上新构建了2个结构相似的全连接人工神经网络即对象状态预测网络predictNN和价值奖励网络Value NN,每层网络的人工神经元个数基本相近。新构建的对象状态预测网络predictNN用于预测下个时刻的状态,输入为当前状态和执行的动作,最后一层神经网络即输出层为线性输出,输出为预测的下个状态,其他各层神经元使用relu作为激活函数。新构建的价值奖励网络Value NN用于计算当前状态执行动作后的反馈奖励,输入为当前状态和动作,最后一层神经网络为线性输出,输出奖励反馈价值。
利用步骤一得到的训练数据集离线预训练评估网络和动作网络的方法为:
步骤1、构建并初始化人工神经网络评估网络Q(s,a|θQ)、动作网络μ(s|θμ)、对象状态模型网络P(s,a|θP)和价值奖励网络r(s,a|θr)并初始化各自参数,从训练数据集中随机选取N个样本训练对象状态模型网络和价值奖励网络。
训练对象状态模型网络P(s,a|θP)和价值奖励网络r(s,a|θr)的方法为:对离线数据进行预处理,对权值进行随机初始化,损失函数的函数值最小化验证得到网络的准确率。
新构建的对象状态模型网络和价值奖励网络有着不同的功能和结构,相应的训练方式也不同,使用不同的损失函数进行训练,最小化对象状态模型网络的损失函数:
Figure GDA0003933208970000081
其中,L1为对象状态模型网络的损失函数,N为随机从训练数据集中抽取的样本的数量, si+1表示第i+1时刻的智能体得到的环境状态,si表示第i时刻的环境状态,P(si,aip)表示当前时刻状态和行为的对象状态预测网络,网络训练后得到模型,由状态预测网络模块中的 predictNN神经网络给出。P(s,a|θP)表示在状态Si下执行动作ai后的状态值。ai为智能体执行的动作,p就是智能体的状态值,θp是调整对象状态网络的参数。比如Q网络是评估网络,会在每一步都对智能体输出的动作进行一个评估打分,要根据观众即环境的反馈reward来调整自己的神经网络的θQ参数。
最小化价值奖励网络的损失函数:
Figure GDA0003933208970000091
其中,ri表示从当前状态直到将来某个状态中间所有行为所获得奖励值的之和,r(si,atr)2表示当前状态和行为的环境回报,由价值奖励网络模块中的Value NN神经网络给出。L2=loss 为损失值,用来表现预测与实际数据的差距程度,loss越小说明模型预测的越好,θr指价值奖励网络的参数。
步骤2、利用训练好的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θQ)和动作网络μ(s|θμ)进行预训练。
基于训练好后的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θQ)、动作网络μ(s|θμ) 进行预训练:从训练数据集中选取N个样本(St,At),对价值奖励网络进行训练,通过价值奖励函数预测当前状态执行动作后的反馈奖励Ri
Ri=r(si,atr) (3)
通过对象状态模型网络预测下一步状态Si+1
Si+1=P(si,aip) (4)
通过构建的这两个模型--对象状态模型和价值奖励模型提前模仿在线的训练过程对 DDPG中的动作网络和评估网络进行预训练学习,相当于是这两个模型模仿环境给反馈奖励值和下一个状态值。
步骤三:利用步骤二中预训练后的评估网络初始化目标评估网络、动作网络初始化目标动作网络,初始化存储缓冲器R和当前的第一状态,智能体将状态转换数据存入存储缓冲器 R作为训练在线网络的在线数据集。
初始化评估网络和动作网络对应的目标网络,初始化存储缓冲器R中;随机初始化所有的状态和动作对应的价值Q,随机初始化网络的所有参数θ,清空经验回放的集合R。
步骤31、随机初始化分布N1用作动作探索,初始化Si为当前的第一个状态。
步骤32、智能体根据行为策略选择一个行动,下达给环境执行该行动;
步骤33、智能体执行动作后,环境返回当前状态执行后的奖励和新的状态Si+1
步骤34、智能体将这个状态转换数据(Si,Ai,Ri,Si+1)存入存储缓存器R中,作为训练在线网络的在线数据集。
步骤四:利用步骤三得到的在线数据集训练在线策略网络和在线Q网络,利用DDQN结构更新在线策略网络和在线Q网络。
任何类型的估计误差都会导致向上偏差,不管这些误差是由环境噪声、函数逼近、非平稳性还是任何其他来源引起的,因此,本发明在Q网络的处理上增加了DDQN结构,将动作选择网络与评估网络分离,通过随机分配每个经验来学***地评估该策略的价值,不必引入额外的网络,而使用目标网络来评估其价值对目标网络的更新与DQN保持不变,促使DQN朝着双Q学习的最小可能的改变,尽可能得到更加准确的Q值,产生更好的策略。
步骤41、从存储缓存器R中随机采样N个状态转换数据,作为在线策略网络和在线Q网络的一个小批量训练数据。本发明用(Si,Ai,Ri,Si+1)表示小批量中的单个转换数据。
DDPG有四个网络:分别是动作网络---Actor当前网络(策略网络)和Actor目标网络、评估网络---Critic当前网络(当前Q网络)、Critic目标网络。Actor当前网络:负责策略网络参数θ的迭代更新,负责根据当前状态S选择当前动作A,用于和环境交互生成Si+1;Actor目标网络:负责根据经验回放池中采样的下一状态Si+1,选择最优下一动作Ai+1;Critic当前网络:负责评估网络参数θQ的迭代更新,负责计算当前Q值;Critic目标网络:负责计算目标 Q值中的Q′(与当前Q值区分,表示下一个Q值),网络参数θQ′定期从θQ复制。
步骤42、通过目标动作网络预测下一步的动作ai=μ′(s|θμ′);将状态s映射到特定动作a 来维护指定当前策略θμ的参数化,μ′相当于ui+1,表示不是当前的u相当于最优行为策略,表示参数化的动作网络μ(s|θμ)学习特定的策略,建立状态与特定动作之间的策略函数。
通过目标评估网络得到下一步的Q值:Qi+1=Q′(Si+1,aiQ);
其中,Qi+1和Q′为下一个Q值,Q′(Si+1,aiQ′)表示当前的动作和下一时刻的状态所得到的Q值(评估值),Si+1为下一个状态值。
利用DDQN结构Qi=ri+γQi+1比较Q值:
Qi+1′=Q′(Si+1,aiQ′) (11)
Qi+1=min(Qi+1,Qi+1′) (12)
其中,γ∈[0,1]是衰减因子,权衡即时和未来奖励的重要性。
步骤43、计算在线Q网络的策略梯度,Q网络的损失函数定义:
Figure GDA0003933208970000101
其中,Q相当于评估者,Q网络中的参数定义为θQ,Q(si,aiQ)表示使用θQ策略在状态si选取动作ai所获取的回报期望值。
步骤44、更新在线策略网络:采用Adam优化器更新θμ和目标动作网络μ(s|θμ)。
ai=μ(siμ) (14)
最小化目标动作网络的损失函数:
Figure GDA0003933208970000111
得到优化的策略θμ和θQ
步骤五:软更新:利用在线策略网络和在线Q网络更新目标评估网络和目标动作网络里面的参数。本发明强化学习相当于训练好的大脑,状态值是2D假人的状态包括质心的位置、姿态、速度、加速度、脚关节的角度,动作值为两条腿的两个关节速度,
进行软更新,更新目标评估网络和目标动作网络里面的参数μ'和Q':
θμ′←τθμ+(1-τ)θμ′
θQ′←τθQ+(1-τ)θQ′
其中,θμ、θμ′、θQ、θQ′分别表示-Actor当前网络、Actor目标网络、Critic当前网络(当前Q网络)和Critic目标网络对应的参数,τ为更新系数,为避免参数变化幅度过大,范围取0.01-0.1。使用了软更新,即每次参数只更新一点点,并非直接赋值更新,每个网络对应一个参数。
预测模型训练的loss曲线如图3所示,奖励函数训练的loss曲线如图4所示,从图3和图4上可以直观看出训练损失函数曲线总体呈现下降趋势,相邻之间的损失值有较小的波动,收敛速度较快,数据的变化程度越小,说明预测模型描述实验数据具有更好的精确度,使最终的模型达到收敛状态,减少模型预测值的误差。
图5为传统DDPG训练奖励曲线,图6为本发明的训练奖励曲线,纵坐标为训练的次数,横坐标每次训练的奖励。本发明改进DDPG算法平均每500回合获得的奖赏数大于DDPG算法,说明了基于模型改进的DDPG算法可以有效提升算法的性能.因为通过预测模型网络和反馈奖励网络对评估网络Q(s,a|θQ)、动作网络μ(s|θμ)进行预习训练可以更好地确定每个状态下每个动作需要重复执行的次数,节省智能体在大部分时间里重复执行多次的动作的次数,提升智能体自身的决策能力。
图7为本发明与传统的DDPG算法的每平均100回合中在无噪声环境所取得平均累积奖励曲线对比,累积奖励越高,代表机器人按照期待的目标选出来更优的动作。从图7上看来,两条曲线都呈递增趋势,且当训练回合超过某一定值后,图7中显示本发明改进后的DDPG 算法在2600回合左右平均累积奖励已经趋于整体稳定,数值在300左右,而原始DDP算法 G则是在3600回合左右开始趋于稳定状态,明显看出前者优于后者先趋于稳定,算法收敛速度优于后者。
从图7上可以明显看出前1500回合的累积奖励本发明的改进DDPG算法低于DDPG算法,而后期的学***均累积奖励,数据显示本发明在0-4000回合的平均奖励为82.3,最大奖励为142,最小为-58;原始DDPG算法平均奖励为75.4,最大奖励为118,最小为-66;在测试环境下前者的平均奖励为198.2,最高奖励为302,最低为-198;后者平均奖励为189.6,最高奖励为281,最低为-186.4。
本发明构建网络从离线样本数据学习训练生成对象状态模型和价值奖励模型,通过模型预训练学习动作网络和评估网络(用构建的这两个模型模拟一个环境去提前训练原始DDPG 中的动作网络和价值网络),节省在线学习的成本和提升在线学习质量和效率。另外,本发明加入了DDQN网络结构,将目标中的最大动作分解为动作评估和动作选择来减少Q值的高估,根据在线网络来评估贪婪策略,同时使用目标网络来评估其价值尽可能去达到最优策略,达到更稳定可靠的学习过程。
从BipedalWalker-v2平台的仿真实验结果显示,本发明的改进DDPG算法获得的最大累积奖励可以达到更高的水平,而且能够更快的达到稳定的状态,在操作2D假人过程中可以更高效快速地到达目的地。
本发明首先利用大量的离线数据训练对象状态模型和奖励模型,然后通过基于模型的强化学习方法离线预训练DDPG网络,离线提升网络的决策能力,从而加快之后在线学习效率和性能;同时利用DDQN算法中双Q价值网络的结构,避免Q值在在线训练过程中被过高估计,从而消除过度Q估计的情况。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,其步骤如下:
步骤一:收集离线环境下2D假人的训练数据,对训练数据进行预处理得到训练数据集;
步骤二:构建并初始化人工神经网络的评估网络、动作网络、对象状态模型网络和价值奖励网络,并初始化各自的参数;利用步骤一得到的训练数据集离线预训练评估网络和动作网络;
离线预训练评估网络和动作网络:从预处理后的训练数据集中提取N个样本数据,离线训练对象状态模型网络和价值奖励网络,再利用这两个离线的对象状态模型网络和价值奖励网络提前模仿在线的训练过程对DDPG中的动作网络和评估网络进行预训练学习;
步骤三:利用步骤二中预训练后的评估网络初始化目标评估网络、动作网络初始化目标动作网络,初始化存储缓冲器R和当前的第一状态,智能体将状态转换数据存入存储缓冲器R作为训练在线网络的在线数据集;
步骤四:利用步骤三得到的在线数据集训练在线策略网络和在线Q网络,利用DDQN结构更新在线策略网络和在线Q网络;
步骤五:软更新:利用在线策略网络和在线Q网络更新目标评估网络和目标动作网络里的参数,利用目标评估网络和目标动作网络控制2D假人的状态。
2.根据权利要求1所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,所述训练数据是2D假人从起点走到终点过程中,通过行进并观察行进中获得的奖励或结果来学习在环境中行为,根据环境的反馈向正方向执行动作得到的数据;训练数据在环境状态和动作范围内,随机产生状态数据、动作和其对应的价值奖励及下个状态,即离线环境下从***历史数据表格中收集2D假人的环境样本数据或产生随机动作,得到对应的奖励值和反馈奖励数据,其数据格式为(Si,Ai,Ri,Si+1),其中,Si为环境状态值,Ai为动作,智能体会根据传入的环境状态值Si执行动作Ai,Ri为反馈值或价值奖励值,Si+1为下一个环境的状态值;智能体在随机环境状态Si下,随机地选择一个行为动作Ai,执行该行动,执行动作后返回奖励Ri和新的环境状态Si+1,然后将这一轮数据(Si,Ai,Ri,Si+1)存入数据库。
3.根据权利要求2所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,所述训练数据的预处理的方法为:进行去除空值和异常值的处理,对数据的格式进行归一化转换;将零均值高斯噪声加入到动作中,将处理后的数据存储在训练数据集中。
4.根据权利要求1或2所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,在原来DDPG的动作网络和评估网络结构上新构建了2个结构相似的全连接人工神经网络即对象状态预测网络predictNN和价值奖励网络Value NN,每层网络的人工神经元个数相近;新构建的对象状态预测网络predictNN用于预测下个时刻的状态,输入为当前状态和执行的动作,输出层为线性输出,输出为预测的下个状态,其他各层神经元使用relu作为激活函数;新构建的价值奖励网络Value NN用于计算当前状态执行动作后的反馈奖励,输入为当前状态和动作,最后一层神经网络为线性输出,输出奖励反馈价值。
5.根据权利要求4所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,利用步骤一得到的训练数据集离线预训练评估网络和动作网络的方法为:
步骤1、构建并初始化人工神经网络评估网络Q(s,a|θQ)、动作网络μ(s|θμ)、对象状态模型网络P(s,a|θP)和价值奖励网络r(s,a|θr)并初始化各自参数,从训练数据集中随机选取N个样本训练对象状态模型网络和价值奖励网络;
步骤2、利用训练好的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θQ)和动作网络μ(s|θμ)进行预训练。
6.根据权利要求5所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,所述步骤1中训练对象状态模型网络P(s,a|θP)和价值奖励网络r(s,a|θr)的方法为:
最小化对象状态模型网络的损失函数:
Figure FDA0003933208960000021
其中,L1为对象状态模型网络的损失函数,N为随机从训练数据集中抽取的样本的数量,si+1表示第i+1时刻的智能体得到的环境状态,si表示第i时刻的环境状态,P(si,aip)表示当前时刻状态和行为的对象状态预测网络,由状态预测网络模块中的predictNN神经网络给出;p就是智能体的状态值,θp是调整对象状态网络的参数;
最小化价值奖励网络的损失函数:
Figure FDA0003933208960000022
其中,ri表示从当前状态直到将来某个状态中间所有行为所获得奖励值的之和,r(si,atr)表示当前状态和行为的环境回报,由价值奖励网络模块中的Value NN神经网络给出;L2为损失值,θr指价值奖励网络的参数;
基于训练好后的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θQ)、动作网络μ(s|θμ)进行预训练:从训练数据集中选取N个样本(Si,Ai),对价值奖励网络进行训练,通过价值奖励函数预测当前状态执行动作后的反馈奖励Ri
Ri=r(si,atr);
通过对象状态模型网络预测下一步状态Si+1
Si+1=P(si,aip)。
7.根据权利要求6所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,初始化目标动作网络,初始化存储缓冲器R的方法为:随机初始化所有的状态和动作对应的价值Q,随机初始化网络的所有参数θ,清空经验回放的集合R;
所述在线数据集的构建方法为:
步骤31、随机初始化分布N1用作动作探索,初始化Si为当前的第一个状态;
步骤32、智能体根据行为策略选择一个行动,下达给环境执行该行动;
步骤33、智能体执行动作后,环境返回当前状态执行后的奖励和新的状态Si+1
步骤34、智能体将这个状态转换数据(Si,Ai,Ri,Si+1)存入存储缓存器R中,作为训练在线网络的在线数据集,其中,Ai为动作,Ri为反馈值。
8.根据权利要求7所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,所述步骤四利用DDQN结构更新在线策略网络和在线Q网络的方法为:
步骤41、从存储缓存器R中随机采样N个状态转换数据,作为在线策略网络和在线Q网络的一个小批量训练数据,(Si,Ai,Ri,Si+1)表示小批量中的单个转换数据;
步骤42、通过目标动作网络预测下一步的动作ai=μ′(s|θμ′);将状态s映射到特定动作a来维护指定当前策略θμ的参数化,μ′表示参数化的动作网络μ(s|θμ)学习的策略,建立状态与特定动作之间的策略函数;利用DDQN结构比较Q值;
步骤43、计算在线Q网络的策略梯度;
步骤44、更新在线策略网络:采用Adam优化器更新θμ和目标动作网络μ(s|θμ)。
9.根据权利要求8所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,所述步骤42中通过目标评估网络得到下一步的Q值:Qi+1=Q′(Si+1,aiQ);
其中,Qi+1和Q′为下一个Q值,Q′(Si+1,aiQ)表示当前的动作和下一时刻的状态所得到的Q值,Si+1为下一个状态值;
利用DDQN结构Qi=ri+γQi+1比较Q值:
Qi+1′=Q′(Si+1,aiQ′),
Qi+1=min(Qi+1,Qi+1′);
其中,γ∈[0,1]是衰减因子;
所述Q网络的损失函数为:
Figure FDA0003933208960000041
其中,Q网络中的参数为θQ,Q(si,aiQ)表示使用策略θQ在状态si选取动作ai所获取的回报期望值;
采用Adam优化器更新θμ和目标动作网络μ(s|θμ)的方法为:ai=μ(siμ);
最小化目标动作网络的损失函数:
Figure FDA0003933208960000042
得到优化的策略θμ和θQ
10.根据权利要9所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,所述软更新就更新目标评估网络和目标动作网络里面的参数μ'和Q':
θμ′←τθμ+(1-τ)θμ′
θQ′←τθQ+(1-τ)θQ′
其中,θμ、θμ′、θQ和θQ′分别表示Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络对应的参数,τ为更新系数。
CN202011429368.1A 2020-12-07 2020-12-07 基于离线模型预训练学习的ddpg算法的机器人控制方法 Active CN112668235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011429368.1A CN112668235B (zh) 2020-12-07 2020-12-07 基于离线模型预训练学习的ddpg算法的机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011429368.1A CN112668235B (zh) 2020-12-07 2020-12-07 基于离线模型预训练学习的ddpg算法的机器人控制方法

Publications (2)

Publication Number Publication Date
CN112668235A CN112668235A (zh) 2021-04-16
CN112668235B true CN112668235B (zh) 2022-12-09

Family

ID=75401628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011429368.1A Active CN112668235B (zh) 2020-12-07 2020-12-07 基于离线模型预训练学习的ddpg算法的机器人控制方法

Country Status (1)

Country Link
CN (1) CN112668235B (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128689A (zh) * 2021-04-27 2021-07-16 中国电力科学研究院有限公司 一种调控知识图谱的实体关系路径推理方法及***
CN113112018B (zh) * 2021-04-27 2023-10-31 清华大学深圳国际研究生院 一种批量限制强化学习方法
CN113191487B (zh) * 2021-04-28 2023-04-07 重庆邮电大学 基于分布式ppo算法的自适应连续功率控制方法
CN113408782B (zh) * 2021-05-11 2023-01-31 山东师范大学 基于改进的ddpg算法的机器人路径导航方法及***
CN114969624A (zh) * 2021-05-14 2022-08-30 华东师范大学 一种包裹分离***及方法
CN113240118B (zh) * 2021-05-18 2023-05-09 中国科学院自动化研究所 优势估计方法、装置、电子设备和存储介质
CN113364712B (zh) * 2021-05-19 2022-06-14 电子科技大学 基于ddpg网络的混合辐射源信号分离方法
CN113110516B (zh) * 2021-05-20 2023-12-22 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113290557A (zh) * 2021-05-21 2021-08-24 南京信息工程大学 一种基于数据驱动的蛇形机器人控制方法
CN113282705B (zh) * 2021-05-24 2022-01-28 暨南大学 一种能够自动更新的案件预判智能体训练方法及***
CN113340324B (zh) * 2021-05-27 2022-04-29 东南大学 一种基于深度确定性策略梯度的视觉惯性自校准方法
CN113312874B (zh) * 2021-06-04 2022-12-06 福州大学 基于改进深度强化学习的总体布线方法
CN113532457B (zh) * 2021-06-07 2024-02-02 山东师范大学 机器人路径导航方法、***、设备及存储介质
CN113341972A (zh) * 2021-06-07 2021-09-03 沈阳理工大学 一种基于深度强化学习的机器人路径寻优规划方法
CN113219997B (zh) * 2021-06-08 2022-08-30 河北师范大学 一种基于tpr-ddpg的移动机器人路径规划方法
CN113392396B (zh) * 2021-06-11 2022-10-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113554166A (zh) * 2021-06-16 2021-10-26 中国人民解放军国防科技大学 认知行为模型加速的深度q网络强化学习方法及设备
CN113868113A (zh) * 2021-06-22 2021-12-31 中国矿业大学 一种基于Actor-Critic算法的类集成测试序列生成方法
CN113361132B (zh) * 2021-06-28 2022-03-15 浩鲸云计算科技股份有限公司 一种基于深度q学习对决网络的风冷数据中心节能方法
CN113204061B (zh) * 2021-07-06 2021-10-08 中国气象局公共气象服务中心(国家预警信息发布中心) 一种构建格点风速订正模型的方法及装置
CN113568954B (zh) * 2021-08-02 2024-03-19 湖北工业大学 网络流量预测数据预处理阶段的参数最优化方法及***
CN113821045B (zh) * 2021-08-12 2023-07-07 浙江大学 一种腿足机器人强化学习动作生成***
CN113657583A (zh) * 2021-08-24 2021-11-16 广州市香港科大***研究院 一种基于强化学习的大数据特征提取方法及***
CN113744719A (zh) * 2021-09-03 2021-12-03 清华大学 一种语音提取方法、装置及设备
CN113792846A (zh) * 2021-09-06 2021-12-14 中国科学院自动化研究所 一种强化学习中超高精度探索环境下的状态空间处理方法、***及电子设备
CN113741525B (zh) * 2021-09-10 2024-02-06 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113904948B (zh) * 2021-11-12 2023-11-03 福州大学 基于跨层的多维参数的5g网络带宽预测***及方法
CN114692890B (zh) * 2021-12-24 2024-06-25 中国人民解放军军事科学院战争研究院 基于模型的权值组合规划值扩展的方法
CN114943278B (zh) * 2022-04-27 2023-09-12 浙江大学 基于强化学习的持续在线群体激励方法、装置及存储介质
CN114697394B (zh) * 2022-05-27 2022-08-16 合肥工业大学 基于离散maddpg的边缘缓存决策模型、方法和***
CN114844822A (zh) * 2022-06-02 2022-08-02 广东电网有限责任公司 电力线载波网络的组网方法、装置、设备及存储介质
CN114771783B (zh) * 2022-06-02 2023-08-22 浙江大学 一种海底地层空间机器人的控制方法及***
CN114708568B (zh) * 2022-06-07 2022-10-04 东北大学 基于改进RTFNet的纯视觉自动驾驶控制***、方法、介质
CN115319741B (zh) * 2022-08-05 2023-10-10 美的集团(上海)有限公司 机器人控制模型的训练方法和机器人控制方法
CN115128960B (zh) * 2022-08-30 2022-12-16 齐鲁工业大学 一种基于深度强化学习双足机器人运动控制方法及***
CN115475036A (zh) * 2022-08-31 2022-12-16 上海电机学院 用于智能假肢肩关节的自适应控制方法、设备及存储介质
CN115145592A (zh) * 2022-09-01 2022-10-04 新华三技术有限公司 离线模型部署方法和装置、网络设备、分析器
CN115758705B (zh) * 2022-11-10 2023-05-05 北京航天驭星科技有限公司 卫星南北保持策略模型的建模方法、***、获取方法
CN115837677B (zh) * 2023-02-24 2023-04-28 深圳育智科创科技有限公司 一种机器人智能控制方法
CN116430860A (zh) * 2023-03-28 2023-07-14 兰州大学 一种基于离线强化学习的机甲车自动行驶训练与控制方法
CN117237720B (zh) * 2023-09-18 2024-04-12 大连理工大学 基于强化学习的标签噪声矫正图像分类方法
CN117313826B (zh) * 2023-11-30 2024-02-23 安徽大学 一种基于强化学习的任意角度倒立摆模型训练方法
CN117807410B (zh) * 2024-02-29 2024-05-31 东北大学 转钢辊道设定速度的确定方法及装置、存储介质、终端
CN117850244B (zh) * 2024-03-04 2024-05-07 海克斯康制造智能技术(青岛)有限公司 一种视觉测量控制***及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019040901A1 (en) * 2017-08-25 2019-02-28 Google Llc LOT REINFORCEMENT LEARNING
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110414725A (zh) * 2019-07-11 2019-11-05 山东大学 预测决策一体化的风电场储能***调度方法及装置
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111062491A (zh) * 2019-12-13 2020-04-24 周世海 一种基于强化学习的智能体探索未知环境方法
CN111652371A (zh) * 2020-05-29 2020-09-11 京东城市(北京)数字科技有限公司 一种离线强化学习网络训练方法、装置、***及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11002202B2 (en) * 2018-08-21 2021-05-11 Cummins Inc. Deep reinforcement learning for air handling control

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019040901A1 (en) * 2017-08-25 2019-02-28 Google Llc LOT REINFORCEMENT LEARNING
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN110414725A (zh) * 2019-07-11 2019-11-05 山东大学 预测决策一体化的风电场储能***调度方法及装置
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111062491A (zh) * 2019-12-13 2020-04-24 周世海 一种基于强化学习的智能体探索未知环境方法
CN111652371A (zh) * 2020-05-29 2020-09-11 京东城市(北京)数字科技有限公司 一种离线强化学习网络训练方法、装置、***及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning with Double Q-learning;Hado van Hasselt et al.;《Association for the Advancement of Artificial Intelligence》;20161231;全文 *
The Path Planning of Mobile Robot by Neural Networks and Hierarchical Reinforcement Learning;Jinglun Yu et al.;《Frontiers in Neurorobotics》;20201002;第14卷;全文 *
基于深度强化学习的无人机着陆轨迹跟踪控制;宋欣屿 等;《航空科学技术》;20200125;第31卷(第1期);全文 *
强化学习在移动机器人避障上的应用;唐鹏等;《科学家》;20160515(第05期);全文 *

Also Published As

Publication number Publication date
CN112668235A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN110262511B (zh) 基于深度强化学习的双足机器人自适应性行走控制方法
CN111766782B (zh) 基于深度强化学习中Actor-Critic框架的策略选择方法
Whiteson et al. Critical factors in the empirical performance of temporal difference and evolutionary methods for reinforcement learning
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及***
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
Liu et al. Reinforcement learning-based collision avoidance: Impact of reward function and knowledge transfer
CN113947022B (zh) 一种基于模型的近端策略优化方法
CN115765050A (zh) 一种电力***安全校正控制方法、***、设备及存储介质
CN114861368A (zh) 一种基于近端策略的铁路纵断面设计学习模型的构建方法
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN113743603A (zh) 控制方法、装置、存储介质及电子设备
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN113807005B (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法
Morales Deep Reinforcement Learning
Bar et al. Deep Reinforcement Learning Approach with adaptive reward system for robot navigation in Dynamic Environments
CN115933712A (zh) 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法
Raza et al. Policy reuse in reinforcement learning for modular agents
CN114114911B (zh) 一种基于模型强化学习的自动超参数调节方法
Gao Soft computing methods for control and instrumentation
Li et al. Proximal policy optimization with model-based methods
CN112008734B (zh) 一种基于部件交互程度的机器人控制方法及装置
Liu et al. Improving learning from demonstrations by learning from experience
Jain RAMario: Experimental Approach to Reptile Algorithm--Reinforcement Learning for Mario
Norouzzadeh et al. Efficient Knowledge Transfer in Shaping Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant