CN114911157A

CN114911157A - 基于部分可观测强化学习的机器人导航控制方法及***

Info

Publication number: CN114911157A
Application number: CN202210366719.1A
Authority: CN
Inventors: 章宗长; 俞扬; 孔祥瀚
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-08-16

Abstract

本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及***，该控制方法及***主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务，本发明采用部分可观测环境下的强化学习算法。***包括滤波单元、规划单元、回放池、学习单元。在本发明中，使用状态粒子表示信念状态以减少信念状态更新的计算复杂度，使用基于学得模型的模拟规划以提高样本利用率，使用重采样方法防止粒子退化问题，使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习，并在实际机器人导航任务中使用学得的策略。

Description

基于部分可观测强化学习的机器人导航控制方法及***

技术领域

本发明涉及一种在部分可观测环境下基于强化学习的机器人导航控制方法及***，属于机器人控制技术领域。

背景技术

随着技术的发展，机器人已被广泛应用于各种生产生活领域，随之而来的各类应用场景也给机器人技术提出了更多新的挑战。机器人导航是机器人控制领域最为重要的任务之一，实际应用场景中有大量的机器人导航控制需求，例如扫地机器人、仓储运输机器人、搜救机器人等。传统的机器人导航算法大多需要获得环境的精确建模，这极大地限制了算法的应用范围。而强化学习可以从与环境交互产生的数据中学习得到控制策略，因此越来越多地被应用于机器人导航任务中。

机器人所处的环境通常是非常复杂的，由于障碍物的遮挡、传感器的探测范围等因素限制，机器人只能通过传感器获得环境的部分信息。不完全信息下的决策任务，相较在完全信息下，难度会大大增加。同时受限于机器人的传感器性能，传感器本身获得的信息是存在噪声的，噪声带来的不确定性也会干扰机器人的决策。因此在不确定性环境下如何进行机器人控制就是机器人导航领域一项亟待解决的问题。

现有的部分可观测强化学习算法往往不能有效地鼓励机器人采取获得环境信息的动作，在环境信息至关重要的任务中难以获得最优策略。此外，机器人执行导航任务时通常只有到达目标点才能获得奖励，因此是一个奖励稀疏的环境。而现有的部分可观测强化学习算法在奖励稀疏的环境中训练速度较慢且算法性能不稳定。

发明内容

发明目的：针对现有机器人导航技术在不确定性环境下的常见问题，本发明提供一种基于部分可观测强化学习的机器人导航控制方法及***。将机器人导航任务建模为一个部分可观测的马尔科夫决策过程(Partially Observable Markov Decision Process，POMDP)，并使用部分可观测环境下的强化学习算法解决这一问题。该方法有效解决了利用强化学习处理机器人导航任务时奖励稀疏的问题，并且隐式地鼓励机器人在部分可观测环境下主动采取获得环境信息的动作，从而获得更好的策略，且提高了导航控制方法的效率和稳定性。

技术方案：一种基于部分可观测强化学习的机器人导航控制方法，具体包括如下步骤：

S1、初始化网络参数，包括：转移模型D_ψ的参数ψ，观测模型Z_θ的参数θ，策略网络π_ρ的参数ρ，双Q值网络Q_ω的参数ω。设置训练时间步计数器t＝0，进入S2；

S2、根据初始状态的先验生成K个带权信念状态粒子

初始权重

都设为1，机器人通过传感器获得初始观测o₁，进入S3；

S3、若训练时间步计数器t小于最大训练步数L，则t←t+1，进入S4；否则进入S27；

S4、机器人根据观测模型Z_θ(s,o)更新权重

进入S5；

S5、计算平均信念状态

进入S6；

S6、采样

中权重最大的M个粒子，记为

进入S7；

S7、归一化M个粒子的权重

进入S8；

S8、将粒子

和平均信念状态

组合后复制N份，并赋予每份复制权重

得到N个新的带权粒子，记为

上标(n)表示第n个复制，进入S9；

S9、设置规划时间步计数器i＝t-1，进入S10；

S10、若到规划时间步计数器小于最大规划步数H，则i←i+1，进入S11；否则进入S19；

S11、对于每份复制，根据策略网络得到动作

进入S12；

S12、对于每份复制中的每个粒子，根据转移模型D_ψ得到下一时刻状态和奖励

进入S13；

S13、对于每份复制，更新平均信念状态

进入S14；

S14、对于每份复制，求信念状态信息熵的估计

表示当前信念状态的估计，进入S15；

S15、更新各复制粒子的权重

A^(m)(n)表示优势函数，进入S16；

S16、若需要重采样，进入S17；否则进入S18；

S17、重采样复制粒子，进入S18；

S18、进入S10；

S19、从1到N中均匀采样得到n，输出第n个复制的机器人规划轨迹中的第一个动作a_t，进入S20；

S20、机器人采取动作a_t，与训练环境交互得到下一时刻状态s_t+1，下一时刻的观测o_t+1和奖励r_t，进入S21；

S21、若需要重采样，进入S22；否则进入S23；

S22、重采样信念状态粒子，进入S23；

S23、根据转移模型更新信念状态粒子

进入S24；

S24、将数据

存入回放池，进入S25；

S25、学习单元从回放池中采样训练数据，更新网络参数，进入S26；

S26、进入S3；

S27、结束训练，输出训练后网络用于机器人导航控制。取消回放池和学习单元，跳过步骤S24和S25即可得到机器人导航控制使用阶段的具体步骤，此时S20中环境只需提供观测和奖励信息，而不需要提供真实状态信息。

上述技术方案中，机器人所处的环境(训练环境)被建模为一个POMDP，POMDP可以用以下六元组表示：

(7)状态空间S，s_t∈S表示机器人在t时刻所处的状态；

(8)动作空间A，a_t∈A表示机器人在t时刻采取的动作；

(9)转移概率函数T:S×A×S→[0,1]，T(s_t,a_t,s_t+1)表示机器人在状态s_t采取动作a_t转移到s_t+1的概率；

(10)奖励函数R:S×A→，R(s_t,a_t)表示机器人在状态s_t采取动作a_t所能获得的立即奖励；

(11)观测空间O，o_t∈O表示机器人在t时刻获得的观测；

(12)观测概率函数Z:S×A×O→[0,1]，Z(s_t,a_t-1,o_t)表示机器人在采取动作a_t-1转移到s_t获得观测o_t的概率。

POMDP的目标为获得基于历史动作观测序列的策略π:H→A以最大化期望累积奖励，累积奖励G_t的定义为：

其中，γ∈(0,1]为折扣因子，用来权衡立即奖励和延迟奖励。r_t表示t时刻机器人获得的奖励。

上述技术方案中，所述信念状态b_t(s)＝p(s_t＝s|h_t)，表示已知历史h_t＝{b₀,a₀,o₁,…,a_t-1,o_t}的情况下隐状态s_t为s的概率分布，b₀表示初始状态概率分布。

上述技术方案中，S1中，所述网络包括：

转移模型D_ψ，ψ为转移模型的参数；

观测模型Z_θ，θ为观测模型的参数；

策略网络π_ρ，ρ为策略网络的参数；

双Q值网络Q_ω，ω为双Q值网络的参数。

其中转移模型D_ψ用于在滤波单元更新状态粒子和在规划单元进行模拟，输入为状态和动作，输出为下一时刻的状态和奖励，转移模型网络结构为全连接网络；观测模型Z_θ用于在滤波单元更新粒子权重，输入为状态和观测，输出为观测的概率，观测模型网络结构为全连接网络；策略网络π_ρ用于在规划模块中为机器人做模拟提供策略，输入为信念状态粒子和平均信念状态，输出为动作和输出该动作的概率的对数，策略网络的网络结构为通过全连接网络输出动作的均值μ和方差σ²，再从高斯分布N(μ,σ²)中采样得到动作，并使用高斯分布计算输出该动作的概率的对数值；双Q值网络Q_ω用于在规划模块中更新粒子权重，输入为状态和动作，输出为两个Q值，双Q值网络为两个全连接网络Q₁和Q₂，同时需要对Q_i(i＝1,2)各维护一个网络结构相同的目标Q值网络TQ_i(i＝1,2)，用于网络参数更新。

上述技术方案中，S2中，将信念状态使用带权粒子表示，是常见的处理信念状态更新计算复杂度过高问题的近似方法，更新粒子的过程称为粒子滤波或时序蒙特卡洛方法。

上述技术方案中，S7-S19为规划单元，机器人使用复制的多个信念状态粒子分别进行模拟规划，从而选取最优动作。

上述技术方案中，S14中，所述求信念状态信息熵的估计中，用信念状态粒子

估计信念状态概率分布

时，使用核密度估计方法(Kernel DensityEstimation，KDE)，采用高斯核密度估计信念状态概率分布。

上述技术方案中，S15中，所述优势函数A的计算公式为：

其中TD表示时序差分误差，Q_ω为双Q值网络两个输出中的较小值。

计算优势函数A时，奖励增加了基于信念状态负信息熵的奖励塑形，这鼓励机器人采取获得信息的动作，提升了算法的效率和稳定性。

上述技术方案中，S17、S22中，所述重采样是粒子滤波中常用的防止粒子退化的技术。具体来说，将N个带权粒子按照权重随机可重复地选取N次粒子，后将新粒子的权重都设置为1。

上述技术方案中，S25中，所述更新网络参数包括：

(4)转移模型和观测模型采用预测值和真实值的最小均方误差作为损失函数，使用规定的优化方法，如随机梯度下降、Adam等，优化损失函数，更新网络参数。

(5)双Q值网络两个网络更新方式相同，都基于与目标Q值网络的时序差分(Temporal-Difference，TD)误差：

其中，α为温度系数，控制对策略熵的重视程度。使用规定的优化方法，如随机梯度下降、Adam等，优化损失函数，更新网络参数。此外，每隔固定更新步将Q值网络参数复制给目标Q值网络。

(6)策略函数更新基于损失函数：

其中，α为温度系数，Q_ω为双Q值网络两个输出中的较小值。使用规定的优化方法，如随机梯度下降、Adam等，优化损失函数，更新网络参数。

为达到上述发明目的，本发明基于部分可观测强化学习的机器人导航控制***，包括：滤波单元、规划单元、回放池、学习单元。

滤波单元，用于更新信念状态粒子及其权重，并使用从规划单元获得的动作与训练环境交互获得状态、观测、奖励信息。另外还用于处理训练数据，存储至回放池。

规划单元，用于接收滤波模块提供的带权粒子，使用学得的转移模型和策略网络模拟规划，并输出动作提供给滤波单元。

回放池，一个支持随机存取的数据库，用于存储处理过的训练数据，给学习单元提供学习所需的训练数据，即采样滤波单元存入回放池中的元组组成的数据集。

学习单元，用于采样回访池中的训练数据，使用给定优化方法训练网络，并将更新后的网络参数提供给滤波单元和规划单元。

上述***中，训练环境即实际应用环境或高仿真虚拟环境，用于该机器人导航控制方法的训练，与滤波单元交互，为滤波提供状态、观测、奖励信息。

基于上述技术方案，可以训练神经网络用于实际使用。取消回放池和学习单元，跳过步骤S24和S25即可得到使用阶段的具体步骤，此时S20中环境只需提供观测和奖励信息，而不需要提供真实状态信息。

有益效果：由于上述技术方案运用，本发明与现有技术相比具有以下优点：

本发明使用强化学习处理机器人导航控制任务，可以从与环境交互产生的数据中学习得到控制策略。避免了传统控制方法需要环境精确建模的问题，拓展了控制方法的应用范围。

本发明将环境建模为POMDP问题，可以定义环境中的不确定性。传统方法难以处理存在遮挡，传感器探测范围有限以及传感器存在噪声的任务，本发明可以有效处理这类环境的导航控制任务。

本发明采用基于模型的部分可观测强化学习算法，可以提高训练样本利用率，提升训练效率。

本发明采用基于势能函数的奖励塑形，可以有效处理现实中机器人导航任务奖励稀疏的问题，同时不改变其最优策略，提升了算法训练效率和稳定性。

本发明采用信念状态负信息熵作为上述奖励塑形方法中的势能函数，可以鼓励机器人采取获得信息的动作，相对传统控制方法更容易获得最优策略。

附图说明

图1为本发明实施例的整体训练框架图；

图2为本发明实施例训练阶段的单元交互图；

图3为本发明实施例使用阶段的单元交互图；

图4为本发明实施例图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

图4为一个机器人导航环境俯视图，机器人在左右2个大小完全相同的其中一个房间中。机器人的状态为其在整个房子中的绝对坐标。机器人可以采取任意方向上速度受限的动作。机器人装有上下左右4个正方向的传感器，传感器可以获得该方向上机器人到最近墙面的距离，且存在高斯噪声。机器人的初始位置是随机的，它的目标是到达左侧房间下方或右侧房间上方的充电处，在机器人到达目标位置后会得到+100的奖励。机器人在使用时只能获得观测，因此机器人无法判断自身处于哪个房间，除非到达图中阴影部分，才能通过墙面距离的变化确定自身所在房间。

机器人在训练阶段的步骤如下：

S2、根据初始状态的先验生成K＝100个带权信念状态粒子

初始权重

都设为1，机器人通过传感器获得初始观测o₁，进入S3；

S3、若训练时间步计数器t小于最大训练步数L＝10,000，则t←t+1，进入S4；否则进入S27；

S4、机器人根据观测模型Z_θ(s,o)更新权重

进入S5；

S5、计算平均信念状态

进入S6；

S6、采样

中权重最大的M＝3个粒子，记为

如图2、3中由滤波单元将带权粒子输入给规划单元进入S7；

S7、归一化M个粒子的权重

进入S8；

S8、将粒子

和平均信念状态

组合后复制N＝30份，并赋予每份权重

得到N个新的带权粒子，记为

上标(n)表示第n个复制，进入S9；

S9、设置规划时间步计数器i＝t-1，进入S10；

S10、若到规划时间步计数器小于最大规划步数H＝10，则i←i+1，进入S11；否则进入S19；

S11、对于每份复制，根据策略网络得到动作

进入S12；

S12、对于每份复制中的每个粒子，根据转移模形D_ψ得到下一时刻状态和奖励

进入S13；

S13、对于每份复制，更新平均信念状态

进入S14；

S14、对于每份复制，求信念状态信息熵的估计

表示当前信念状态的估计，进入S15；

S15、更新各复制粒子的权重

A^(m)(n)表示优势函数，进入S16；

S16、若需要重采样，进入S17；否则进入S18；

S17、重采样复制粒子，进入S18；

S18、进入S10；

S19、从1到N中均匀采样得到n，输出第n个复制机器人的规划轨迹中的第一个动作a_t，如图2、3中由规划单元输入给滤波单元进入S20；

S20、机器人采取动作a_t，与训练环境交互得到下一时刻状态s_t+1，下一时刻的观测o_t+1和奖励r_t，如2中将s_t+1，o_t+1，r_t输入给滤波单元进入S21

S21、若需要重采样，进入S22,；否则进入S23；

S22、重采样信念状态粒子，进入S23；

S23、根据转移模型更新信念状态粒子

进入S24；

S24、将数据

存入图2中的回放池，进入S25；

S25、图2中的学习单元从回放池中采样训练数据，更新网络参数，并将更新后的网络参数传给滤波单元和规划单元，进入S26；

S26、进入S3；

S27、结束训练，输出训练后网络用于机器人导航控制。如图3，取消回放池和学习单元，跳过步骤S24和S25即可得到机器人导航控制使用阶段的具体步骤，此时S20中环境只需提供给滤波模块观测和奖励信息，而不需要提供真实状态信息。

整个训练过程框架图参照图1。

上述实施例中，S1中，所述网络包括转移模型D_ψ，ψ为转移模型的参数；观测模型Z_θ，θ为观测模型的参数；策略网络π_ρ，ρ为策略网络的参数；双Q值网络Q_ω，ω为双Q值网络的参数。其中转移模型D_ψ输入为状态和动作，输出为下一时刻的状态和奖励，转移模型网络结构为4层全连接网络，各层神经元个数分别为256/256/256/3；观测模型Z_θ输入为状态和观测，输出为观测的概率，观测模型网络结构为4层全连接网络，各层神经元个数分别为256/256/256/1；策略网络π_ρ输入为信念状态粒子和平均信念状态，输出为动作和输出该动作的概率的对数，策略网络的网络结构为通过全连接网络输出动作的均值μ和方差σ²，再从高斯分布N(μ,σ²)中采样得到动作，并使用高斯分布计算输出该动作的概率的对数值，其为一个3层全连接网络，各层神经元个数分别为256/256/4；双Q值网络Q_ω输入为状态和动作，输出为两个Q值，双Q值网络为两个全连接网络Q₁和Q₂，都为一个3层全连接网络，各层神经元个数分别为256/256/1，同时需要对Q_i(i＝1,2)各维护一个网络结构相同的目标Q值网络TQ_i(i＝1,2)，用于网络参数更新。参数初始化使用Pytorch默认参数初始化方法。

上述实施例中，S10-S19为规划单元，机器人使用复制的多个信念状态粒子分别进行模拟规划，从而选取最优动作。

上述实施例中，S14中，所述求信念状态信息熵的估计中，用信念状态粒子

估计信念状态概率分布

时，采用Silverman经验窗宽的多元高斯核密度估计方法。此时核密度估计的公式为：

其中D为状态的维度，窗宽矩阵H为对角矩阵，主对角线上的元素的计算公式为：

其中

为状态粒子在维度i上的标准差。

上述实施例中，S15中，所述优势函数A的计算公式为：

其中TD表示时序差分误差，Q_ω为双Q值网络两个输出中的较小值。计算优势函数A时，奖励增加了基于信念状态负信息熵的奖励塑形，这鼓励机器人采取获得信息的动作，提升了算法的效率和稳定性。

上述实施例中，S17、S22中，所述重采样是粒子滤波中常用的防止粒子退化的技术。具体来说，将N个带权粒子按照权重随机可重复地选取N次粒子，后将新粒子的权重都设置为1。

上述实施例中，S25中，所述更新网络参数包括：

(1)转移模型和观测模型采用预测值和真实值的最小均方误差作为损失函数，使用Adam优化方法，优化损失函数，学习率为0.001，更新网络参数。

(2)双Q值网络两个网络更新方式相同，都基于与目标Q值网络的时序差分(Temporal-Difference，TD)误差：

其中，α＝1为温度系数，控制对策略熵的重视程度，γ＝0.95为折扣因子。使用Adam优化方法，优化损失函数，学习率为0.001，更新网络参数。此外，每隔5步将Q值网络参数复制给目标Q值网络。

(3)策略函数更新基于损失函数：

其中，α＝1为温度系数，Q_ω为双Q值网络两个输出中的较小值。使用Adam优化方法，优化损失函数，学习率为0.001，更新网络参数。

下面是本实施例的具体结构，包括：滤波单元、规划单元、回放池、学习单元。

训练阶段结束后，取消回放池和学习单元，跳过步骤S24和S25即可得到使用阶段的具体步骤，此时S20中环境只需提供观测和奖励信息，而不需要提供真实状态信息。

Claims

1.一种基于部分可观测强化学习的机器人导航控制方法，其特征在于，包括如下步骤：

S1、初始化网络参数，包括：转移模型D_ψ的参数ψ，观测模型Z_θ的参数θ，策略网络π_ρ的参数ρ，双Q值网络Q_ω的参数ω；设置训练时间步计数器t＝0，进入S2；

S2、根据初始状态的先验生成K个带权信念状态粒子

初始权重

都设为1，机器人通过传感器获得初始观测o₁，进入S3；

S4、机器人根据观测模型Z_θ(s,o)更新权重

进入S5；

S5、计算平均信念状态

进入S6；

S6、采样

中权重最大的M个粒子，记为

进入S7；

S7、归一化M个粒子的权重

进入S8；

S8、将粒子

和平均信念状态

组合后复制N份，并赋予每份复制权重

得到N个新的带权粒子，记为

上标(n)表示第n个复制，进入S9；

S9、设置规划时间步计数器i＝t-1，进入S10；

S11、对于每份复制，根据策略网络得到动作

进入S12；

进入S13；

S13、对于每份复制，更新平均信念状态

进入S14；

S14、对于每份复制，求信念状态信息熵的估计

表示当前信念状态的估计，进入S15；

S15、更新各复制粒子的权重

A^(m)(n)表示优势函数，进入S16；

S16、若需要重采样，进入S17；否则进入S18；

S17、重采样复制粒子，进入S18；

S18、进入S10；

S21、若需要重采样，进入S22；否则进入S23；

S22、重采样信念状态粒子，进入S23；

S23、根据转移模型更新信念状态粒子

进入S24；

S24、将数据

存入回放池，进入S25；

S26、进入S3；

S27、结束训练，输出训练后网络用于机器人导航控制。

2.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法，其特征在于，训练后网络用于机器人导航控制时，取消回放池和学习单元，跳过步骤S24和S25即可得到机器人导航控制使用阶段的具体步骤，此时S20中环境只需提供观测和奖励信息，而不需要提供真实状态信息。

3.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法，其特征在于，机器人训练环境被建模为一个POMDP，POMDP用以下六元组表示：

(1)状态空间S，s_t∈S表示机器人在t时刻所处的状态；

(2)动作空间A，a_t∈A表示机器人在t时刻采取的动作；

(3)转移概率函数T:S×A×S→[0,1]，T(s_t,a_t,s_t+1)表示机器人在状态s_t采取动作a_t转移到s_t+1的概率；

(4)奖励函数R:S×A→R，R(s_t,a_t)表示机器人在状态s_t采取动作a_t所能获得的立即奖励；

(5)观测空间O，o_t∈O表示机器人在t时刻获得的观测；

(6)观测概率函数Z:S×A×O→[0,1]，Z(s_t,a_t-1,o_t)表示机器人在采取动作a_t-1转移到s_t获得观测o_t的概率；

其中，γ∈(0,1]为折扣因子，用来权衡立即奖励和延迟奖励；r_t表示t时刻机器人获得的奖励。

4.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法，其特征在于，所述信念状态b_t(s)＝p(s_t＝s|h_t)，表示已知历史h_t＝{b₀,a₀,o₁,…,a_t-1,o_t}的情况下隐状态s_t为s的概率分布，b₀表示初始状态概率分布。

5.根据权利要求1所述的基于部分可观测强化学***均信念状态，输出为动作和输出该动作的概率的对数，策略网络的网络结构为通过全连接网络输出动作的均值μ和方差σ²，再从高斯分布N(μ,σ²)中采样得到动作，并使用高斯分布计算输出该动作的概率的对数值；双Q值网络Q_ω输入为状态和动作，输出为两个Q值，双Q值网络为两个全连接网络Q₁和Q₂，同时需要对Q_i(i＝1,2)各维护一个网络结构相同的目标Q值网络TQ_i(i＝1,2)，用于网络参数更新。

6.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法，其特征在于，S14中，所述求信念状态信息熵的估计中，用信念状态粒子