CN112668235B

CN112668235B - 基于离线模型预训练学习的ddpg算法的机器人控制方法

Info

Publication number: CN112668235B
Application number: CN202011429368.1A
Authority: CN
Inventors: 张茜; 王洪格; 姚中原; 戚续博
Original assignee: Zhongyuan University of Technology
Current assignee: Zhongyuan University of Technology
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-12-09
Anticipated expiration: 2040-12-07
Also published as: CN112668235A

Abstract

本发明提出了一种基于离线模型预训练学***均奖励值更高，学***，使机器人快速地到达目的地。

Description

基于离线模型预训练学习的DDPG算法的机器人控制方法

技术领域

本发明涉及机器人控制的技术领域，尤其涉及一种基于离线模型预训练学习的DDPG算法的机器人控制方法。

背景技术

强化学习是机器学习的一个重要分支，智能体通过执行某些操作并观察从这些操作中获得的奖励或结果来学习在环境中的行为。主要包含四个元素：智能体、环境状态、行动和奖励。强化学习的目标就是智能体根据环境的正反馈尽可能向正方向执行动作以此学习好的策略，获得最多的累计奖励。

目前，深度强化学习已经在机器人的仿真控制、运动控制、室内室外导航、同步定位等方向产生重要的影响，促使机器人能够在仿真环境甚至现实世界中通过经验和环境交互进行自动学习，以达成回报最大化或实现特定目标。

DDPG(Deep Deterministic Policy Gradient)能够适用于具有连续动作空间和连续状态空间的任务，DDPG算法作为连续动作控制方面的经典算法，训练比较稳定，但其学习过程比较缓慢而且目标Q值一般都是通过贪婪法直接得到的，因此存在Q值高估偏差，当这种累计误差达到一定程度时，会导致次优策略的更新和发散行为，使最终得到的算法模型有很大的偏差。

另外，在线强化学习需要在线地处理环境中每个时刻的状态数据和反馈奖励，施加动作后必须等待环境的下个反馈奖励，因此会造成时间成本代价过高。并且，强化学习在训练初期时，其中的动作网络和评估网络泛化能力较弱，产生大量冗余的试错动作和无效数据，也一定程度上浪费在线的计算资源。

深度强化学习将深度学习的感知能力与强化学习的决策能力相结合，广泛应用于机器人操作任务上，Dylan P.Losey等人提出了全局最优领先的人工蜂群算法用于更新机器人路径轨迹，L.Tai等人实现无模型的避障行为，让移动机器人在不碰撞其他物体的情况下探索未知环境，但由于离散分类导致存在对于决策的连续状态空间不够精确的局限性问题。

Volodymyr Mnih等人提出了深度Q网络(Deep Q Network，DQN)从高维感官输入中获得对环境的有效表示，并利用它们将过去的经验推广到新的情况中，然而对于具有连续和高维的动作空间的物理控制任务，DQN不能直接应用于连续域，因为它依赖于寻找使作用值最大化的值函数，Timothy P等人提出了深度确定性策略梯度DDPG，解决了DQN无法处理大量的连续动作空间和Actor Critic难于收敛的问题，DDPG算法广泛用于解决避障、路径规划等问题，可以在高维的连续动作空间中学习策略。但与大多数无模型强化方法一样，DDPG 算法需要大量的训练来找到解决方案，而且由于样本数据采集受到实时操作的限制，一般来说，基于模型的算法在样本复杂度方面优于无模型学习者。Pieiffer M等人提出一个模型，能够学习避免碰撞的策略，安全地引导机器人通过障碍物环境到达指定的目标，但是模型可能是从完美的模拟数据中训练出来的，存在导航性能的不足。

发明内容

针对现有利用DDPG算法的控制方法在线训练过程中会陷入局部极小值及在最初训练 DDPG网络时会产生大量试错动作和无效数据的技术问题，本发明提出一种基于离线模型预训练学习的DDPG算法的机器人控制方法，从已有的大量离线数据入手，利用已有数据离线训练对象状态模型和价值奖励模型，提前模仿在线的训练过程对DDPG中的动作网络和评估网络进行预训练学习，减少DDPG在线学习的前期工作量并提升在线学习的品质。

为了达到上述目的，本发明的技术方案是这样实现的：一种基于离线模型预训练学习的 DDPG算法的机器人控制方法，其步骤如下：

步骤一：收集离线环境下2D假人的训练数据，对训练数据进行预处理得到训练数据集；

步骤二：构建并初始化人工神经网络的评估网络、动作网络、对象状态模型网络和价值奖励网络，并初始化各自的参数；利用步骤一得到的训练数据集离线预训练评估网络和动作网络；

步骤三：利用步骤二中预训练后的评估网络初始化目标评估网络、动作网络初始化目标动作网络，初始化存储缓冲器R和当前的第一状态，智能体将状态转换数据存入存储缓冲器 R作为训练在线网络的在线数据集；

步骤四：利用步骤三得到的在线数据集训练在线策略网络和在线Q网络，利用DDQN结构更新在线策略网络和在线Q网络；

步骤五：软更新：利用在线策略网络和在线Q网络更新目标评估网络和目标动作网络里的参数，利用目标评估网络和目标动作网络输出的状态控制2D假人的状态。

所述训练数据是2D假人从起点走到终点过程中，通过行进并观察行进中获得的奖励或结果来学习在环境中行为，根据环境的反馈向正方向执行动作得到的数据；训练数据在环境状态和动作范围内，随机产生状态数据、动作和其对应的价值奖励及下个状态，即离线环境下从***历史数据表格中收集2D假人的环境样本数据或产生随机动作，得到对应的奖励值和反馈奖励数据，其数据格式为(S_i,A_i,R_i,S_i+1)，其中，S_i为环境状态值，A_i为动作，智能体会根据传入的环境状态值S_i执行动作A_i，R_i为反馈值或价值奖励值，S_i+1为下一个环境的状态值；智能体在随机环境状态S_i下，随机地选择一个行为动作A_i，执行该行动，执行动作后返回奖励R_i和新的环境状态S_i+1，然后将这一轮数据(S_i,A_i,R_i,S_i+1)存入数据库。

所述训练数据的预处理的方法为：进行去除空值和异常值的处理，对数据的格式进行归一化转换；将零均值高斯噪声加入到动作中，将处理后的数据存储在训练数据集中。

在原来DDPG的动作网络和价值评估网络结构上新构建了2个结构相似的全连接人工神经网络即对象状态预测网络predictNN和价值奖励网络Value NN，每层网络的人工神经元个数相近；新构建的对象状态预测网络predictNN用于预测下个时刻的状态，输入为当前状态和执行的动作，输出层为线性输出，输出为预测的下个状态，其他各层神经元使用relu作为激活函数；新构建的价值奖励网络Value NN用于计算当前状态执行动作后的反馈奖励，输入为当前状态和动作，最后一层神经网络为线性输出，输出奖励反馈价值。

利用步骤一得到的训练数据集离线预训练评估网络和动作网络的方法为：

步骤1、构建并初始化人工神经网络评估网络Q(s,a|θ^Q)、动作网络μ(s|θ^μ)、对象状态模型网络P(s,a|θ^P)和价值奖励网络r(s,a|θ^r)并初始化各自参数，从训练数据集中随机选取N个样本训练对象状态模型网络和价值奖励网络；

步骤2、利用训练好的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θ^Q)和动作网络μ(s|θ^μ)进行预训练。

所述步骤1中训练对象状态模型网络P(s,a|θ^P)和价值奖励网络r(s,a|θ^r)的方法为：

最小化对象状态模型网络的损失函数：

其中，L1为对象状态模型网络的损失函数，N为随机从训练数据集中抽取的样本的数量， s_i+1表示第i+1时刻的智能体得到的环境状态，s_i表示第i时刻的环境状态，P(s_i,a_i|θ^p)表示当前时刻状态和行为的对象状态预测网络，由状态预测网络模块中的predictNN神经网络给出； p就是智能体的状态值，θ^p是调整对象状态网络的参数；

最小化价值奖励网络的损失函数：

其中，r_i表示从当前状态直到将来某个状态中间所有行为所获得奖励值的之和，r(s_i,a_t|θ^r) 表示当前状态和行为的环境回报，由价值奖励网络模块中的Value NN神经网络给出；L2为损失值，θ^r指价值奖励网络的参数。

基于训练好后的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θ^Q)、动作网络μ(s|θ^μ) 进行预训练：从训练数据集中选取N个样本(S_i,A_i)，对价值奖励网络进行训练，通过价值奖励函数预测当前状态执行动作后的反馈奖励R_i：

R_i＝r(s_i,a_t|θ^r)；

通过对象状态模型网络预测下一步状态S_i+1：

S_i+1＝P(s_i,a_i|θ^p)。

初始化目标动作网络，初始化存储缓冲器R的方法为：随机初始化所有的状态和动作对应的价值Q，随机初始化网络的所有参数θ，清空经验回放的集合R；

所述在线数据集的构建方法为：

步骤31、随机初始化分布N1用作动作探索，初始化S_i为当前的第一个状态。

步骤32、智能体根据行为策略选择一个行动，下达给环境执行该行动；

步骤33、智能体执行动作后，环境返回当前状态执行后的奖励和新的状态S_i+1；

步骤34、智能体将这个状态转换数据(S_i,A_i,R_i,S_i+1)存入存储缓存器R中，作为训练在线网络的在线数据集。

所述步骤四利用DDQN结构更新在线策略网络和在线Q网络的方法为：

步骤41、从存储缓存器R中随机采样N个状态转换数据，作为在线策略网络和在线Q网络的一个小批量训练数据，(S_i,A_i,R_i,S_i+1)表示小批量中的单个转换数据；

步骤42、通过目标动作网络预测下一步的动作a_i＝μ′(s|θ^μ′)；将状态s映射到特定动作a 来维护指定当前策略θ^μ的参数化，μ′表示参数化的动作网络μ(s|θ^μ)学习的策略，建立状态与特定动作之间的策略函数；利用DDQN结构比较Q值；

步骤43、计算在线Q网络的策略梯度；

步骤44、更新在线策略网络：采用Adam优化器更新θ^μ和目标动作网络μ(s|θ^μ)。

所述步骤42中通过目标评估网络得到下一步的Q值：Q_i+1＝Q′(S_i+1,a_i|θ^Q)；

其中，Q_i+1和Q′为下一个Q值，Q′(S_i+1,a_i|θ^Q)表示当前的动作和下一时刻的状态所得到的Q值，S_i+1为下一个状态值；

利用DDQN结构Q_i＝r_i+γQ_i+1比较Q值：

Q_i+1′＝Q′(S_i+1,a_i|θ^Q′)

Q_i+1＝min(Q_i+1,Q_i+1′)；

其中，γ∈[0,1]是衰减因子，权衡即时和未来奖励的重要性。

所述Q网络的损失函数为：

其中，Q相当于评估者，Q网络中的参数定义为θ^Q，Q(s_i,a_i|θ^Q)表示使用θ^Q策略在状态s_i选取动作a_i所获取的回报期望值；

采用Adam优化器更新θ^μ和目标动作网络μ(s|θ^μ)的方法为：a_i＝μ(s_i|θ^μ)；

最小化目标动作网络的损失函数：

得到优化的权重θ^μ和θ^Q。

所述软更新就更新目标评估网络和目标动作网络里面的参数μ'和Q'：

θ^μ′←τθ^μ+(1-τ)θ^μ′，

θ^Q′←τθ^Q+(1-τ)θ^Q′；

其中，θ^μ、θ^μ′、θ^Q和θ^Q′分别表示Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络对应的参数，τ为更新系数。

与现有技术相比，本发明的有益效果：本发明利用离线真实训练数据对动作网络和评估网络预处理并构造了对象预测模型网络和价值奖励网络，加快机器人能更加高效地从已知环境中学***均奖励值更高，学***，可以使机器人更高效快速地到达目的地。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的结构示意图。

图2为假人行进过程的示意图，其中，(a)为假人在起点，(b)为假人在行走，(c) 为假人在终点。

图3为本发明预测模型训练的loss曲线。

图4为本发明奖励函数训练的loss曲线。

图5为传统DDPG算法的训练奖励曲线。

图6为本发明模型预训练后的改进训练奖励曲线。

图7为本发明与传统DDPG算法在无噪声环境下的评估奖励对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于离线模型预训练学习的DDPG算法的机器人控制方法，其步骤如下：

步骤一：收集离线环境下2D假人的训练数据，对训练数据进行预处理得到训练数据集。

实验环境为windows 10+paddle 1.7+par l1.3.1+cuda10.0。硬件为core i8-8300+显卡 GTX1060，仿真平台为BipedalWalker-v2。利用DDPG算法、基于离线模型改进的DDPG算法分别训练4000回合，分析机器人即2D假人从起点到达终点的反馈奖励值与训练回合数的关系。

BipedalWalker-v2是一个开源模拟器，其环境特点为地形的生成是完全随机的，它的任务是让2D假人从起点走到终点，机器人有四个关节可以控制，分别是左腿和右腿的根部连接，左腿膝部连接和右腿膝部连接，这个技能是在模仿双足动物向前行走的过程。往前走的越远，分数越多，如果机器人摔倒则扣分，训练的模型必须非常稳健才能拿到高平均分。如图2所示，机器人从起点走到终点过程中，机器人通过行进并观察行进中获得的奖励或结果来学习在环境中行为，根据环境的反馈尽可能向正方向执行动作以此学习好的策略。训练数据的获取是在环境状态和动作范围内，随机产生状态数据、动作和其对应的价值奖励及下个状态。

离线环境下从***历史数据表格中收集2D假人的环境样本数据或产生随机动作，得到对应的奖励值和反馈奖励数据，其数据格式为(S_t,A_t,R_t,S_t+1)，其中，S_t为环境状态值，A_t为动作，智能体会根据传入的环境状态值S_t执行动作A_t，R_t为反馈值或价值奖励值，S_t+1为下一个环境的状态值，执行动作以后获得一个回报值R_t，并且更新新的状态S_t+1。

收集训练数据：本发明通过智能体在随机环境状态S_t下，随机地选择一个行为动作A_t，执行该行动，执行动作后返回奖励R_t和新的环境状态S_t+1。然后将这一轮数据(S_t,A_t,R_t,S_t+1) 存入数据库，此时只是采集数据，数据也可以通过其他方式获取。

数据预处理：许多数据因其不完整性和前后不统一等特点会造成所谓“脏”数据的产生，如果直接使用这些数据进行模型预训练而不考虑数据内在特征，会使得最终结果误差较大，影响整体效果。因此，使用数据之前需要进行相应的去除空值和异常值的处理，对数据的格式进行归一化转换，能降低干扰，从而提高预测精度。另外本发明将零均值高斯噪声加入到动作中，以提高模型的鲁棒性，最后将处理后的数据存储在训练数据集中。

步骤二：构建并初始化人工神经网络的评估网络、动作网络、对象状态模型网络和价值奖励网络，并初始化各自的参数；利用步骤一得到的训练数据集离线预训练评估网络和动作网络。

离线预训练评估网络和动作网络：从预处理后的训练数据集中提取N个样本数据，离线训练对象状态模型网络和价值奖励网络，再利用这两个离线的对象状态模型网络和价值奖励网络提前模仿在线的训练过程对DDPG中的动作网络和评估网络进行预训练学习，减少前期的大量试错工作，提升在线学习的效率和品质。

Deepmind在2016年提出DDPG，是Actor-Critic框架和DQN算法的结合体，针对连续动作空间的off-policy、Model-Free深度强化学习算法。从整体上来说，DDPG网络应用基于Actor-Critic方法，故具备策略Policy的神经网络和基于价值Value的神经网络，包含一个策略网络用来生成动作，一个评估网络用来评判动作的好坏，并吸取DQN的优秀特性，同时使用了样本经验回放池和固定目标网络。DDPG算法在DPG算法上用卷积神经网络来模拟策略函数和Q函数，以深度学习的方法代替线性回归来训练，证明了在强化学习方法中，非线性模拟函数的准确性和高性能、可收敛。

DDPG算法的结构中包含一个参数为θ^π的动作网络和一个参数为θ^Q的价值评估网络来分别计算确定性策略a＝π(s|θ^π)和动作价值函数Q(s,a|θ^Q)，由于单个网络学习过程并不稳定，因此借鉴了DQN固定目标网络的成功经验，将动作网络和评估网络各自细分为一个现实网络和一个估计网络。现实网络和估计网络结构相同，估计网络参数以一定频率由现实网络参数进行软更新。动作估计网络用于输出实时的动作，供智能体在现实环境中执行动作，而动作现实网络则是用于更新评估网络***。同时价值评估网络也细分为现实网络和估计网络，用于输出每个状态的价值奖励，而输入端却有不同，状态现实网络根据动作现实网络输入的动作及状态的观测值分析，而状态估计网络根据此时智能体施加的动作作为输入。评估动作的价值称为Q值：代表了智能体选择这个动作后，一直到最终状态奖励总和的期望。

DDPG是一种数据驱动的控制方法，可以根据2D假人的输入输出状态数据学习生成模型，并根据给定的奖励实现2D假人达到目的地的最优策略。在现实世界中，样本数据的采集受到实时操作的限制，因此本发明通过离线数据进行预处理，离线情况下训练对象的状态预测模型和价值奖励预测模型，再借助这两个模型去训练强化学习中的动作网络和评估网络，完成离线预学习工作，然后在动作网络和评估网络放于实际对象中进行学习，进行大大减低智能体的工作量，促使智能体更加高效的完成任务。

本发明在原来DDPG的动作网络和价值评估网络结构上新构建了2个结构相似的全连接人工神经网络即对象状态预测网络predictNN和价值奖励网络Value NN，每层网络的人工神经元个数基本相近。新构建的对象状态预测网络predictNN用于预测下个时刻的状态，输入为当前状态和执行的动作，最后一层神经网络即输出层为线性输出，输出为预测的下个状态，其他各层神经元使用relu作为激活函数。新构建的价值奖励网络Value NN用于计算当前状态执行动作后的反馈奖励，输入为当前状态和动作，最后一层神经网络为线性输出，输出奖励反馈价值。

步骤1、构建并初始化人工神经网络评估网络Q(s,a|θ^Q)、动作网络μ(s|θ^μ)、对象状态模型网络P(s,a|θ^P)和价值奖励网络r(s,a|θ^r)并初始化各自参数，从训练数据集中随机选取N个样本训练对象状态模型网络和价值奖励网络。

训练对象状态模型网络P(s,a|θ^P)和价值奖励网络r(s,a|θ^r)的方法为：对离线数据进行预处理，对权值进行随机初始化，损失函数的函数值最小化验证得到网络的准确率。

新构建的对象状态模型网络和价值奖励网络有着不同的功能和结构，相应的训练方式也不同，使用不同的损失函数进行训练，最小化对象状态模型网络的损失函数：

其中，L1为对象状态模型网络的损失函数，N为随机从训练数据集中抽取的样本的数量， s_i+1表示第i+1时刻的智能体得到的环境状态，s_i表示第i时刻的环境状态，P(s_i,a_i|θ^p)表示当前时刻状态和行为的对象状态预测网络，网络训练后得到模型，由状态预测网络模块中的 predictNN神经网络给出。P(s,a|θ^P)表示在状态S_i下执行动作a_i后的状态值。a_i为智能体执行的动作，p就是智能体的状态值，θ^p是调整对象状态网络的参数。比如Q网络是评估网络，会在每一步都对智能体输出的动作进行一个评估打分，要根据观众即环境的反馈reward来调整自己的神经网络的θ^Q参数。

最小化价值奖励网络的损失函数：

其中，r_i表示从当前状态直到将来某个状态中间所有行为所获得奖励值的之和，r(s_i,a_t|θ^r)²表示当前状态和行为的环境回报，由价值奖励网络模块中的Value NN神经网络给出。L2＝loss 为损失值，用来表现预测与实际数据的差距程度，loss越小说明模型预测的越好，θ^r指价值奖励网络的参数。

基于训练好后的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θ^Q)、动作网络μ(s|θ^μ) 进行预训练：从训练数据集中选取N个样本(S_t,A_t)，对价值奖励网络进行训练，通过价值奖励函数预测当前状态执行动作后的反馈奖励R_i：

R_i＝r(s_i,a_t|θ^r) (3)

通过对象状态模型网络预测下一步状态S_i+1：

S_i+1＝P(s_i,a_i|θ^p) (4)

通过构建的这两个模型--对象状态模型和价值奖励模型提前模仿在线的训练过程对 DDPG中的动作网络和评估网络进行预训练学习，相当于是这两个模型模仿环境给反馈奖励值和下一个状态值。

步骤三：利用步骤二中预训练后的评估网络初始化目标评估网络、动作网络初始化目标动作网络，初始化存储缓冲器R和当前的第一状态，智能体将状态转换数据存入存储缓冲器 R作为训练在线网络的在线数据集。

初始化评估网络和动作网络对应的目标网络，初始化存储缓冲器R中；随机初始化所有的状态和动作对应的价值Q，随机初始化网络的所有参数θ，清空经验回放的集合R。

步骤四：利用步骤三得到的在线数据集训练在线策略网络和在线Q网络，利用DDQN结构更新在线策略网络和在线Q网络。

任何类型的估计误差都会导致向上偏差，不管这些误差是由环境噪声、函数逼近、非平稳性还是任何其他来源引起的，因此，本发明在Q网络的处理上增加了DDQN结构，将动作选择网络与评估网络分离，通过随机分配每个经验来学***地评估该策略的价值，不必引入额外的网络，而使用目标网络来评估其价值对目标网络的更新与DQN保持不变，促使DQN朝着双Q学习的最小可能的改变，尽可能得到更加准确的Q值，产生更好的策略。

步骤41、从存储缓存器R中随机采样N个状态转换数据，作为在线策略网络和在线Q网络的一个小批量训练数据。本发明用(S_i,A_i,R_i,S_i+1)表示小批量中的单个转换数据。

DDPG有四个网络：分别是动作网络---Actor当前网络(策略网络)和Actor目标网络、评估网络---Critic当前网络(当前Q网络)、Critic目标网络。Actor当前网络：负责策略网络参数θ的迭代更新，负责根据当前状态S选择当前动作A，用于和环境交互生成S_i+1；Actor目标网络：负责根据经验回放池中采样的下一状态S_i+1，选择最优下一动作A_i+1；Critic当前网络：负责评估网络参数θ^Q的迭代更新，负责计算当前Q值；Critic目标网络：负责计算目标 Q值中的Q′(与当前Q值区分，表示下一个Q值)，网络参数θ^Q′定期从θ^Q复制。

步骤42、通过目标动作网络预测下一步的动作a_i＝μ′(s|θ^μ′)；将状态s映射到特定动作a 来维护指定当前策略θ^μ的参数化，μ′相当于u_i+1，表示不是当前的u相当于最优行为策略，表示参数化的动作网络μ(s|θμ)学习特定的策略，建立状态与特定动作之间的策略函数。

通过目标评估网络得到下一步的Q值：Q_i+1＝Q′(S_i+1,a_i|θ^Q)；

其中，Q_i+1和Q′为下一个Q值，Q′(S_i+1,a_i|θ^Q′)表示当前的动作和下一时刻的状态所得到的Q值(评估值)，S_i+1为下一个状态值。

利用DDQN结构Q_i＝r_i+γQ_i+1比较Q值：

Q_i+1′＝Q′(S_i+1,a_i|θ^Q′) (11)

Q_i+1＝min(Q_i+1,Q_i+1′) (12)

其中，γ∈[0,1]是衰减因子，权衡即时和未来奖励的重要性。

步骤43、计算在线Q网络的策略梯度，Q网络的损失函数定义：

其中，Q相当于评估者，Q网络中的参数定义为θ^Q，Q(s_i,a_i|θ^Q)表示使用θ^Q策略在状态s_i选取动作a_i所获取的回报期望值。

a_i＝μ(s_i|θ^μ) (14)

最小化目标动作网络的损失函数：

得到优化的策略θ^μ和θ^Q。

步骤五：软更新：利用在线策略网络和在线Q网络更新目标评估网络和目标动作网络里面的参数。本发明强化学习相当于训练好的大脑，状态值是2D假人的状态包括质心的位置、姿态、速度、加速度、脚关节的角度，动作值为两条腿的两个关节速度，

进行软更新，更新目标评估网络和目标动作网络里面的参数μ'和Q'：

θ^μ′←τθ^μ+(1-τ)θ^μ′，

θ^Q′←τθ^Q+(1-τ)θ^Q′；

其中，θ^μ、θ^μ′、θ^Q、θ^Q′分别表示-Actor当前网络、Actor目标网络、Critic当前网络(当前Q网络)和Critic目标网络对应的参数，τ为更新系数，为避免参数变化幅度过大，范围取0.01-0.1。使用了软更新，即每次参数只更新一点点，并非直接赋值更新，每个网络对应一个参数。

预测模型训练的loss曲线如图3所示，奖励函数训练的loss曲线如图4所示，从图3和图4上可以直观看出训练损失函数曲线总体呈现下降趋势，相邻之间的损失值有较小的波动，收敛速度较快，数据的变化程度越小，说明预测模型描述实验数据具有更好的精确度，使最终的模型达到收敛状态，减少模型预测值的误差。

图5为传统DDPG训练奖励曲线，图6为本发明的训练奖励曲线，纵坐标为训练的次数，横坐标每次训练的奖励。本发明改进DDPG算法平均每500回合获得的奖赏数大于DDPG算法，说明了基于模型改进的DDPG算法可以有效提升算法的性能.因为通过预测模型网络和反馈奖励网络对评估网络Q(s,a|θ^Q)、动作网络μ(s|θ^μ)进行预习训练可以更好地确定每个状态下每个动作需要重复执行的次数，节省智能体在大部分时间里重复执行多次的动作的次数，提升智能体自身的决策能力。

图7为本发明与传统的DDPG算法的每平均100回合中在无噪声环境所取得平均累积奖励曲线对比，累积奖励越高，代表机器人按照期待的目标选出来更优的动作。从图7上看来，两条曲线都呈递增趋势，且当训练回合超过某一定值后，图7中显示本发明改进后的DDPG 算法在2600回合左右平均累积奖励已经趋于整体稳定，数值在300左右，而原始DDP算法 G则是在3600回合左右开始趋于稳定状态，明显看出前者优于后者先趋于稳定，算法收敛速度优于后者。

从图7上可以明显看出前1500回合的累积奖励本发明的改进DDPG算法低于DDPG算法，而后期的学***均累积奖励，数据显示本发明在0-4000回合的平均奖励为82.3，最大奖励为142，最小为-58；原始DDPG算法平均奖励为75.4，最大奖励为118，最小为-66；在测试环境下前者的平均奖励为198.2，最高奖励为302，最低为-198；后者平均奖励为189.6，最高奖励为281，最低为-186.4。

本发明构建网络从离线样本数据学习训练生成对象状态模型和价值奖励模型，通过模型预训练学习动作网络和评估网络(用构建的这两个模型模拟一个环境去提前训练原始DDPG 中的动作网络和价值网络)，节省在线学习的成本和提升在线学习质量和效率。另外，本发明加入了DDQN网络结构，将目标中的最大动作分解为动作评估和动作选择来减少Q值的高估，根据在线网络来评估贪婪策略，同时使用目标网络来评估其价值尽可能去达到最优策略，达到更稳定可靠的学习过程。

从BipedalWalker-v2平台的仿真实验结果显示，本发明的改进DDPG算法获得的最大累积奖励可以达到更高的水平，而且能够更快的达到稳定的状态，在操作2D假人过程中可以更高效快速地到达目的地。

本发明首先利用大量的离线数据训练对象状态模型和奖励模型，然后通过基于模型的强化学习方法离线预训练DDPG网络，离线提升网络的决策能力，从而加快之后在线学习效率和性能；同时利用DDQN算法中双Q价值网络的结构，避免Q值在在线训练过程中被过高估计，从而消除过度Q估计的情况。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，其步骤如下：

离线预训练评估网络和动作网络：从预处理后的训练数据集中提取N个样本数据，离线训练对象状态模型网络和价值奖励网络，再利用这两个离线的对象状态模型网络和价值奖励网络提前模仿在线的训练过程对DDPG中的动作网络和评估网络进行预训练学习；

步骤三：利用步骤二中预训练后的评估网络初始化目标评估网络、动作网络初始化目标动作网络，初始化存储缓冲器R和当前的第一状态，智能体将状态转换数据存入存储缓冲器R作为训练在线网络的在线数据集；

步骤五：软更新：利用在线策略网络和在线Q网络更新目标评估网络和目标动作网络里的参数，利用目标评估网络和目标动作网络控制2D假人的状态。

2.根据权利要求1所述的基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，所述训练数据是2D假人从起点走到终点过程中，通过行进并观察行进中获得的奖励或结果来学习在环境中行为，根据环境的反馈向正方向执行动作得到的数据；训练数据在环境状态和动作范围内，随机产生状态数据、动作和其对应的价值奖励及下个状态，即离线环境下从***历史数据表格中收集2D假人的环境样本数据或产生随机动作，得到对应的奖励值和反馈奖励数据，其数据格式为(S_i,A_i,R_i,S_i+1)，其中，S_i为环境状态值，A_i为动作，智能体会根据传入的环境状态值S_i执行动作A_i，R_i为反馈值或价值奖励值，S_i+1为下一个环境的状态值；智能体在随机环境状态S_i下，随机地选择一个行为动作A_i，执行该行动，执行动作后返回奖励R_i和新的环境状态S_i+1，然后将这一轮数据(S_i,A_i,R_i,S_i+1)存入数据库。

3.根据权利要求2所述的基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，所述训练数据的预处理的方法为：进行去除空值和异常值的处理，对数据的格式进行归一化转换；将零均值高斯噪声加入到动作中，将处理后的数据存储在训练数据集中。

4.根据权利要求1或2所述的基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，在原来DDPG的动作网络和评估网络结构上新构建了2个结构相似的全连接人工神经网络即对象状态预测网络predictNN和价值奖励网络Value NN，每层网络的人工神经元个数相近；新构建的对象状态预测网络predictNN用于预测下个时刻的状态，输入为当前状态和执行的动作，输出层为线性输出，输出为预测的下个状态，其他各层神经元使用relu作为激活函数；新构建的价值奖励网络Value NN用于计算当前状态执行动作后的反馈奖励，输入为当前状态和动作，最后一层神经网络为线性输出，输出奖励反馈价值。

5.根据权利要求4所述的基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，利用步骤一得到的训练数据集离线预训练评估网络和动作网络的方法为：

6.根据权利要求5所述的基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，所述步骤1中训练对象状态模型网络P(s,a|θ^P)和价值奖励网络r(s,a|θ^r)的方法为：

最小化对象状态模型网络的损失函数：

其中，L1为对象状态模型网络的损失函数，N为随机从训练数据集中抽取的样本的数量，s_i+1表示第i+1时刻的智能体得到的环境状态，s_i表示第i时刻的环境状态，P(s_i,a_i|θ^p)表示当前时刻状态和行为的对象状态预测网络，由状态预测网络模块中的predictNN神经网络给出；p就是智能体的状态值，θ^p是调整对象状态网络的参数；

最小化价值奖励网络的损失函数：

其中，r_i表示从当前状态直到将来某个状态中间所有行为所获得奖励值的之和，r(s_i,a_t|θ^r)表示当前状态和行为的环境回报，由价值奖励网络模块中的Value NN神经网络给出；L2为损失值，θ^r指价值奖励网络的参数；

基于训练好后的对象状态模型网络和价值奖励网络对评估网络Q(s,a|θ^Q)、动作网络μ(s|θ^μ)进行预训练：从训练数据集中选取N个样本(S_i,A_i)，对价值奖励网络进行训练，通过价值奖励函数预测当前状态执行动作后的反馈奖励R_i：

R_i＝r(s_i,a_t|θ^r)；

通过对象状态模型网络预测下一步状态S_i+1：

S_i+1＝P(s_i,a_i|θ^p)。

7.根据权利要求6所述的基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，初始化目标动作网络，初始化存储缓冲器R的方法为：随机初始化所有的状态和动作对应的价值Q，随机初始化网络的所有参数θ，清空经验回放的集合R；

所述在线数据集的构建方法为：

步骤31、随机初始化分布N1用作动作探索，初始化S_i为当前的第一个状态；

步骤34、智能体将这个状态转换数据(S_i,A_i,R_i,S_i+1)存入存储缓存器R中，作为训练在线网络的在线数据集，其中，A_i为动作，R_i为反馈值。

8.根据权利要求7所述的基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，所述步骤四利用DDQN结构更新在线策略网络和在线Q网络的方法为：

步骤42、通过目标动作网络预测下一步的动作a_i＝μ′(s|θ^μ′)；将状态s映射到特定动作a来维护指定当前策略θ^μ的参数化，μ′表示参数化的动作网络μ(s|θ^μ)学习的策略，建立状态与特定动作之间的策略函数；利用DDQN结构比较Q值；

步骤43、计算在线Q网络的策略梯度；

9.根据权利要求8所述的基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，所述步骤42中通过目标评估网络得到下一步的Q值：Q_i+1＝Q′(S_i+1,a_i|θ^Q)；

利用DDQN结构Q_i＝r_i+γQ_i+1比较Q值：

Q_i+1′＝Q′(S_i+1,a_i|θ^Q′)，

Q_i+1＝min(Q_i+1,Q_i+1′)；

其中，γ∈[0,1]是衰减因子；

所述Q网络的损失函数为：

其中，Q网络中的参数为θ^Q，Q(s_i,a_i|θ^Q)表示使用策略θ^Q在状态s_i选取动作a_i所获取的回报期望值；

最小化目标动作网络的损失函数：

得到优化的策略θ^μ和θ^Q。

10.根据权利要9所述的基于离线模型预训练学习的DDPG算法的机器人控制方法，其特征在于，所述软更新就更新目标评估网络和目标动作网络里面的参数μ'和Q'：

θ^μ′←τθ^μ+(1-τ)θ^μ′，

θ^Q′←τθ^Q+(1-τ)θ^Q′；