CN114911157A - 基于部分可观测强化学习的机器人导航控制方法及*** - Google Patents

基于部分可观测强化学习的机器人导航控制方法及*** Download PDF

Info

Publication number
CN114911157A
CN114911157A CN202210366719.1A CN202210366719A CN114911157A CN 114911157 A CN114911157 A CN 114911157A CN 202210366719 A CN202210366719 A CN 202210366719A CN 114911157 A CN114911157 A CN 114911157A
Authority
CN
China
Prior art keywords
network
robot
state
action
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210366719.1A
Other languages
English (en)
Inventor
章宗长
俞扬
孔祥瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202210366719.1A priority Critical patent/CN114911157A/zh
Publication of CN114911157A publication Critical patent/CN114911157A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及***,该控制方法及***主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务,本发明采用部分可观测环境下的强化学习算法。***包括滤波单元、规划单元、回放池、学习单元。在本发明中,使用状态粒子表示信念状态以减少信念状态更新的计算复杂度,使用基于学得模型的模拟规划以提高样本利用率,使用重采样方法防止粒子退化问题,使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习,并在实际机器人导航任务中使用学得的策略。

Description

基于部分可观测强化学习的机器人导航控制方法及***
技术领域
本发明涉及一种在部分可观测环境下基于强化学习的机器人导航控制方法及***,属于机器人控制技术领域。
背景技术
随着技术的发展,机器人已被广泛应用于各种生产生活领域,随之而来的各类应用场景也给机器人技术提出了更多新的挑战。机器人导航是机器人控制领域最为重要的任务之一,实际应用场景中有大量的机器人导航控制需求,例如扫地机器人、仓储运输机器人、搜救机器人等。传统的机器人导航算法大多需要获得环境的精确建模,这极大地限制了算法的应用范围。而强化学习可以从与环境交互产生的数据中学习得到控制策略,因此越来越多地被应用于机器人导航任务中。
机器人所处的环境通常是非常复杂的,由于障碍物的遮挡、传感器的探测范围等因素限制,机器人只能通过传感器获得环境的部分信息。不完全信息下的决策任务,相较在完全信息下,难度会大大增加。同时受限于机器人的传感器性能,传感器本身获得的信息是存在噪声的,噪声带来的不确定性也会干扰机器人的决策。因此在不确定性环境下如何进行机器人控制就是机器人导航领域一项亟待解决的问题。
现有的部分可观测强化学习算法往往不能有效地鼓励机器人采取获得环境信息的动作,在环境信息至关重要的任务中难以获得最优策略。此外,机器人执行导航任务时通常只有到达目标点才能获得奖励,因此是一个奖励稀疏的环境。而现有的部分可观测强化学习算法在奖励稀疏的环境中训练速度较慢且算法性能不稳定。
发明内容
发明目的:针对现有机器人导航技术在不确定性环境下的常见问题,本发明提供一种基于部分可观测强化学习的机器人导航控制方法及***。将机器人导航任务建模为一个部分可观测的马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP),并使用部分可观测环境下的强化学习算法解决这一问题。该方法有效解决了利用强化学习处理机器人导航任务时奖励稀疏的问题,并且隐式地鼓励机器人在部分可观测环境下主动采取获得环境信息的动作,从而获得更好的策略,且提高了导航控制方法的效率和稳定性。
技术方案:一种基于部分可观测强化学习的机器人导航控制方法,具体包括如下步骤:
S1、初始化网络参数,包括:转移模型Dψ的参数ψ,观测模型Zθ的参数θ,策略网络πρ的参数ρ,双Q值网络Qω的参数ω。设置训练时间步计数器t=0,进入S2;
S2、根据初始状态的先验生成K个带权信念状态粒子
Figure BDA0003586171650000021
初始权重
Figure BDA0003586171650000022
都设为1,机器人通过传感器获得初始观测o1,进入S3;
S3、若训练时间步计数器t小于最大训练步数L,则t←t+1,进入S4;否则进入S27;
S4、机器人根据观测模型Zθ(s,o)更新权重
Figure BDA0003586171650000023
进入S5;
S5、计算平均信念状态
Figure BDA0003586171650000024
进入S6;
S6、采样
Figure BDA0003586171650000025
中权重最大的M个粒子,记为
Figure BDA0003586171650000026
进入S7;
S7、归一化M个粒子的权重
Figure BDA0003586171650000027
进入S8;
S8、将粒子
Figure BDA0003586171650000028
和平均信念状态
Figure BDA0003586171650000029
组合后复制N份,并赋予每份复制权重
Figure BDA00035861716500000210
得到N个新的带权粒子,记为
Figure BDA00035861716500000211
上标(n)表示第n个复制,进入S9;
S9、设置规划时间步计数器i=t-1,进入S10;
S10、若到规划时间步计数器小于最大规划步数H,则i←i+1,进入S11;否则进入S19;
S11、对于每份复制,根据策略网络得到动作
Figure BDA00035861716500000212
进入S12;
S12、对于每份复制中的每个粒子,根据转移模型Dψ得到下一时刻状态和奖励
Figure BDA00035861716500000213
进入S13;
S13、对于每份复制,更新平均信念状态
Figure BDA00035861716500000214
进入S14;
S14、对于每份复制,求信念状态信息熵的估计
Figure BDA00035861716500000215
Figure BDA00035861716500000216
表示当前信念状态的估计,进入S15;
S15、更新各复制粒子的权重
Figure BDA00035861716500000217
A(m)(n)表示优势函数,进入S16;
S16、若需要重采样,进入S17;否则进入S18;
S17、重采样复制粒子,进入S18;
S18、进入S10;
S19、从1到N中均匀采样得到n,输出第n个复制的机器人规划轨迹中的第一个动作at,进入S20;
S20、机器人采取动作at,与训练环境交互得到下一时刻状态st+1,下一时刻的观测ot+1和奖励rt,进入S21;
S21、若需要重采样,进入S22;否则进入S23;
S22、重采样信念状态粒子,进入S23;
S23、根据转移模型更新信念状态粒子
Figure BDA0003586171650000031
进入S24;
S24、将数据
Figure BDA0003586171650000032
存入回放池,进入S25;
S25、学习单元从回放池中采样训练数据,更新网络参数,进入S26;
S26、进入S3;
S27、结束训练,输出训练后网络用于机器人导航控制。取消回放池和学习单元,跳过步骤S24和S25即可得到机器人导航控制使用阶段的具体步骤,此时S20中环境只需提供观测和奖励信息,而不需要提供真实状态信息。
上述技术方案中,机器人所处的环境(训练环境)被建模为一个POMDP,POMDP可以用以下六元组表示:
(7)状态空间S,st∈S表示机器人在t时刻所处的状态;
(8)动作空间A,at∈A表示机器人在t时刻采取的动作;
(9)转移概率函数T:S×A×S→[0,1],T(st,at,st+1)表示机器人在状态st采取动作at转移到st+1的概率;
(10)奖励函数R:S×A→,R(st,at)表示机器人在状态st采取动作at所能获得的立即奖励;
(11)观测空间O,ot∈O表示机器人在t时刻获得的观测;
(12)观测概率函数Z:S×A×O→[0,1],Z(st,at-1,ot)表示机器人在采取动作at-1转移到st获得观测ot的概率。
POMDP的目标为获得基于历史动作观测序列的策略π:H→A以最大化期望累积奖励,累积奖励Gt的定义为:
Figure BDA0003586171650000033
其中,γ∈(0,1]为折扣因子,用来权衡立即奖励和延迟奖励。rt表示t时刻机器人获得的奖励。
上述技术方案中,所述信念状态bt(s)=p(st=s|ht),表示已知历史ht={b0,a0,o1,…,at-1,ot}的情况下隐状态st为s的概率分布,b0表示初始状态概率分布。
上述技术方案中,S1中,所述网络包括:
转移模型Dψ,ψ为转移模型的参数;
观测模型Zθ,θ为观测模型的参数;
策略网络πρ,ρ为策略网络的参数;
双Q值网络Qω,ω为双Q值网络的参数。
其中转移模型Dψ用于在滤波单元更新状态粒子和在规划单元进行模拟,输入为状态和动作,输出为下一时刻的状态和奖励,转移模型网络结构为全连接网络;观测模型Zθ用于在滤波单元更新粒子权重,输入为状态和观测,输出为观测的概率,观测模型网络结构为全连接网络;策略网络πρ用于在规划模块中为机器人做模拟提供策略,输入为信念状态粒子和平均信念状态,输出为动作和输出该动作的概率的对数,策略网络的网络结构为通过全连接网络输出动作的均值μ和方差σ2,再从高斯分布N(μ,σ2)中采样得到动作,并使用高斯分布计算输出该动作的概率的对数值;双Q值网络Qω用于在规划模块中更新粒子权重,输入为状态和动作,输出为两个Q值,双Q值网络为两个全连接网络Q1和Q2,同时需要对Qi(i=1,2)各维护一个网络结构相同的目标Q值网络TQi(i=1,2),用于网络参数更新。
上述技术方案中,S2中,将信念状态使用带权粒子表示,是常见的处理信念状态更新计算复杂度过高问题的近似方法,更新粒子的过程称为粒子滤波或时序蒙特卡洛方法。
上述技术方案中,S7-S19为规划单元,机器人使用复制的多个信念状态粒子分别进行模拟规划,从而选取最优动作。
上述技术方案中,S14中,所述求信念状态信息熵的估计中,用信念状态粒子
Figure BDA0003586171650000041
估计信念状态概率分布
Figure BDA0003586171650000042
时,使用核密度估计方法(Kernel DensityEstimation,KDE),采用高斯核密度估计信念状态概率分布。
上述技术方案中,S15中,所述优势函数A的计算公式为:
Figure BDA0003586171650000043
Figure BDA0003586171650000044
其中TD表示时序差分误差,Qω为双Q值网络两个输出中的较小值。
计算优势函数A时,奖励增加了基于信念状态负信息熵的奖励塑形,这鼓励机器人采取获得信息的动作,提升了算法的效率和稳定性。
上述技术方案中,S17、S22中,所述重采样是粒子滤波中常用的防止粒子退化的技术。具体来说,将N个带权粒子按照权重随机可重复地选取N次粒子,后将新粒子的权重都设置为1。
上述技术方案中,S25中,所述更新网络参数包括:
(4)转移模型和观测模型采用预测值和真实值的最小均方误差作为损失函数,使用规定的优化方法,如随机梯度下降、Adam等,优化损失函数,更新网络参数。
(5)双Q值网络两个网络更新方式相同,都基于与目标Q值网络的时序差分(Temporal-Difference,TD)误差:
Figure BDA0003586171650000051
其中,α为温度系数,控制对策略熵的重视程度。使用规定的优化方法,如随机梯度下降、Adam等,优化损失函数,更新网络参数。此外,每隔固定更新步将Q值网络参数复制给目标Q值网络。
(6)策略函数更新基于损失函数:
Figure BDA0003586171650000052
其中,α为温度系数,Qω为双Q值网络两个输出中的较小值。使用规定的优化方法,如随机梯度下降、Adam等,优化损失函数,更新网络参数。
为达到上述发明目的,本发明基于部分可观测强化学习的机器人导航控制***,包括:滤波单元、规划单元、回放池、学习单元。
滤波单元,用于更新信念状态粒子及其权重,并使用从规划单元获得的动作与训练环境交互获得状态、观测、奖励信息。另外还用于处理训练数据,存储至回放池。
规划单元,用于接收滤波模块提供的带权粒子,使用学得的转移模型和策略网络模拟规划,并输出动作提供给滤波单元。
回放池,一个支持随机存取的数据库,用于存储处理过的训练数据,给学习单元提供学习所需的训练数据,即采样滤波单元存入回放池中的元组组成的数据集。
学习单元,用于采样回访池中的训练数据,使用给定优化方法训练网络,并将更新后的网络参数提供给滤波单元和规划单元。
上述***中,训练环境即实际应用环境或高仿真虚拟环境,用于该机器人导航控制方法的训练,与滤波单元交互,为滤波提供状态、观测、奖励信息。
基于上述技术方案,可以训练神经网络用于实际使用。取消回放池和学习单元,跳过步骤S24和S25即可得到使用阶段的具体步骤,此时S20中环境只需提供观测和奖励信息,而不需要提供真实状态信息。
有益效果:由于上述技术方案运用,本发明与现有技术相比具有以下优点:
本发明使用强化学习处理机器人导航控制任务,可以从与环境交互产生的数据中学习得到控制策略。避免了传统控制方法需要环境精确建模的问题,拓展了控制方法的应用范围。
本发明将环境建模为POMDP问题,可以定义环境中的不确定性。传统方法难以处理存在遮挡,传感器探测范围有限以及传感器存在噪声的任务,本发明可以有效处理这类环境的导航控制任务。
本发明采用基于模型的部分可观测强化学习算法,可以提高训练样本利用率,提升训练效率。
本发明采用基于势能函数的奖励塑形,可以有效处理现实中机器人导航任务奖励稀疏的问题,同时不改变其最优策略,提升了算法训练效率和稳定性。
本发明采用信念状态负信息熵作为上述奖励塑形方法中的势能函数,可以鼓励机器人采取获得信息的动作,相对传统控制方法更容易获得最优策略。
附图说明
图1为本发明实施例的整体训练框架图;
图2为本发明实施例训练阶段的单元交互图;
图3为本发明实施例使用阶段的单元交互图;
图4为本发明实施例图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
图4为一个机器人导航环境俯视图,机器人在左右2个大小完全相同的其中一个房间中。机器人的状态为其在整个房子中的绝对坐标。机器人可以采取任意方向上速度受限的动作。机器人装有上下左右4个正方向的传感器,传感器可以获得该方向上机器人到最近墙面的距离,且存在高斯噪声。机器人的初始位置是随机的,它的目标是到达左侧房间下方或右侧房间上方的充电处,在机器人到达目标位置后会得到+100的奖励。机器人在使用时只能获得观测,因此机器人无法判断自身处于哪个房间,除非到达图中阴影部分,才能通过墙面距离的变化确定自身所在房间。
机器人在训练阶段的步骤如下:
S1、初始化网络参数,包括:转移模型Dψ的参数ψ,观测模型Zθ的参数θ,策略网络πρ的参数ρ,双Q值网络Qω的参数ω。设置训练时间步计数器t=0,进入S2;
S2、根据初始状态的先验生成K=100个带权信念状态粒子
Figure BDA0003586171650000061
初始权重
Figure BDA0003586171650000062
都设为1,机器人通过传感器获得初始观测o1,进入S3;
S3、若训练时间步计数器t小于最大训练步数L=10,000,则t←t+1,进入S4;否则进入S27;
S4、机器人根据观测模型Zθ(s,o)更新权重
Figure BDA0003586171650000071
进入S5;
S5、计算平均信念状态
Figure BDA0003586171650000072
进入S6;
S6、采样
Figure BDA0003586171650000073
中权重最大的M=3个粒子,记为
Figure BDA0003586171650000074
如图2、3中由滤波单元将带权粒子输入给规划单元进入S7;
S7、归一化M个粒子的权重
Figure BDA0003586171650000075
进入S8;
S8、将粒子
Figure BDA0003586171650000076
和平均信念状态
Figure BDA0003586171650000077
组合后复制N=30份,并赋予每份权重
Figure BDA0003586171650000078
得到N个新的带权粒子,记为
Figure BDA0003586171650000079
上标(n)表示第n个复制,进入S9;
S9、设置规划时间步计数器i=t-1,进入S10;
S10、若到规划时间步计数器小于最大规划步数H=10,则i←i+1,进入S11;否则进入S19;
S11、对于每份复制,根据策略网络得到动作
Figure BDA00035861716500000710
进入S12;
S12、对于每份复制中的每个粒子,根据转移模形Dψ得到下一时刻状态和奖励
Figure BDA00035861716500000711
进入S13;
S13、对于每份复制,更新平均信念状态
Figure BDA00035861716500000712
进入S14;
S14、对于每份复制,求信念状态信息熵的估计
Figure BDA00035861716500000713
Figure BDA00035861716500000714
表示当前信念状态的估计,进入S15;
S15、更新各复制粒子的权重
Figure BDA00035861716500000715
A(m)(n)表示优势函数,进入S16;
S16、若需要重采样,进入S17;否则进入S18;
S17、重采样复制粒子,进入S18;
S18、进入S10;
S19、从1到N中均匀采样得到n,输出第n个复制机器人的规划轨迹中的第一个动作at,如图2、3中由规划单元输入给滤波单元进入S20;
S20、机器人采取动作at,与训练环境交互得到下一时刻状态st+1,下一时刻的观测ot+1和奖励rt,如2中将st+1,ot+1,rt输入给滤波单元进入S21
S21、若需要重采样,进入S22,;否则进入S23;
S22、重采样信念状态粒子,进入S23;
S23、根据转移模型更新信念状态粒子
Figure BDA0003586171650000081
进入S24;
S24、将数据
Figure BDA0003586171650000082
存入图2中的回放池,进入S25;
S25、图2中的学习单元从回放池中采样训练数据,更新网络参数,并将更新后的网络参数传给滤波单元和规划单元,进入S26;
S26、进入S3;
S27、结束训练,输出训练后网络用于机器人导航控制。如图3,取消回放池和学习单元,跳过步骤S24和S25即可得到机器人导航控制使用阶段的具体步骤,此时S20中环境只需提供给滤波模块观测和奖励信息,而不需要提供真实状态信息。
整个训练过程框架图参照图1。
上述实施例中,S1中,所述网络包括转移模型Dψ,ψ为转移模型的参数;观测模型Zθ,θ为观测模型的参数;策略网络πρ,ρ为策略网络的参数;双Q值网络Qω,ω为双Q值网络的参数。其中转移模型Dψ输入为状态和动作,输出为下一时刻的状态和奖励,转移模型网络结构为4层全连接网络,各层神经元个数分别为256/256/256/3;观测模型Zθ输入为状态和观测,输出为观测的概率,观测模型网络结构为4层全连接网络,各层神经元个数分别为256/256/256/1;策略网络πρ输入为信念状态粒子和平均信念状态,输出为动作和输出该动作的概率的对数,策略网络的网络结构为通过全连接网络输出动作的均值μ和方差σ2,再从高斯分布N(μ,σ2)中采样得到动作,并使用高斯分布计算输出该动作的概率的对数值,其为一个3层全连接网络,各层神经元个数分别为256/256/4;双Q值网络Qω输入为状态和动作,输出为两个Q值,双Q值网络为两个全连接网络Q1和Q2,都为一个3层全连接网络,各层神经元个数分别为256/256/1,同时需要对Qi(i=1,2)各维护一个网络结构相同的目标Q值网络TQi(i=1,2),用于网络参数更新。参数初始化使用Pytorch默认参数初始化方法。
上述实施例中,S10-S19为规划单元,机器人使用复制的多个信念状态粒子分别进行模拟规划,从而选取最优动作。
上述实施例中,S14中,所述求信念状态信息熵的估计中,用信念状态粒子
Figure BDA0003586171650000083
估计信念状态概率分布
Figure BDA0003586171650000084
时,采用Silverman经验窗宽的多元高斯核密度估计方法。此时核密度估计的公式为:
Figure BDA0003586171650000085
其中D为状态的维度,窗宽矩阵H为对角矩阵,主对角线上的元素的计算公式为:
Figure BDA0003586171650000091
其中
Figure BDA0003586171650000092
为状态粒子在维度i上的标准差。
上述实施例中,S15中,所述优势函数A的计算公式为:
Figure BDA0003586171650000093
Figure BDA0003586171650000094
其中TD表示时序差分误差,Qω为双Q值网络两个输出中的较小值。计算优势函数A时,奖励增加了基于信念状态负信息熵的奖励塑形,这鼓励机器人采取获得信息的动作,提升了算法的效率和稳定性。
上述实施例中,S17、S22中,所述重采样是粒子滤波中常用的防止粒子退化的技术。具体来说,将N个带权粒子按照权重随机可重复地选取N次粒子,后将新粒子的权重都设置为1。
上述实施例中,S25中,所述更新网络参数包括:
(1)转移模型和观测模型采用预测值和真实值的最小均方误差作为损失函数,使用Adam优化方法,优化损失函数,学习率为0.001,更新网络参数。
(2)双Q值网络两个网络更新方式相同,都基于与目标Q值网络的时序差分(Temporal-Difference,TD)误差:
Figure BDA0003586171650000095
其中,α=1为温度系数,控制对策略熵的重视程度,γ=0.95为折扣因子。使用Adam优化方法,优化损失函数,学习率为0.001,更新网络参数。此外,每隔5步将Q值网络参数复制给目标Q值网络。
(3)策略函数更新基于损失函数:
Figure BDA0003586171650000096
其中,α=1为温度系数,Qω为双Q值网络两个输出中的较小值。使用Adam优化方法,优化损失函数,学习率为0.001,更新网络参数。
下面是本实施例的具体结构,包括:滤波单元、规划单元、回放池、学习单元。
滤波单元,用于更新信念状态粒子及其权重,并使用从规划单元获得的动作与训练环境交互获得状态、观测、奖励信息。另外还用于处理训练数据,存储至回放池。
规划单元,用于接收滤波模块提供的带权粒子,使用学得的转移模型和策略网络模拟规划,并输出动作提供给滤波单元。
回放池,一个支持随机存取的数据库,用于存储处理过的训练数据,给学习单元提供学习所需的训练数据,即采样滤波单元存入回放池中的元组组成的数据集。
学习单元,用于采样回访池中的训练数据,使用给定优化方法训练网络,并将更新后的网络参数提供给滤波单元和规划单元。
训练阶段结束后,取消回放池和学习单元,跳过步骤S24和S25即可得到使用阶段的具体步骤,此时S20中环境只需提供观测和奖励信息,而不需要提供真实状态信息。

Claims (10)

1.一种基于部分可观测强化学习的机器人导航控制方法,其特征在于,包括如下步骤:
S1、初始化网络参数,包括:转移模型Dψ的参数ψ,观测模型Zθ的参数θ,策略网络πρ的参数ρ,双Q值网络Qω的参数ω;设置训练时间步计数器t=0,进入S2;
S2、根据初始状态的先验生成K个带权信念状态粒子
Figure FDA0003586171640000011
初始权重
Figure FDA0003586171640000012
都设为1,机器人通过传感器获得初始观测o1,进入S3;
S3、若训练时间步计数器t小于最大训练步数L,则t←t+1,进入S4;否则进入S27;
S4、机器人根据观测模型Zθ(s,o)更新权重
Figure FDA0003586171640000013
进入S5;
S5、计算平均信念状态
Figure FDA0003586171640000014
进入S6;
S6、采样
Figure FDA0003586171640000015
中权重最大的M个粒子,记为
Figure FDA0003586171640000016
进入S7;
S7、归一化M个粒子的权重
Figure FDA0003586171640000017
进入S8;
S8、将粒子
Figure FDA0003586171640000018
和平均信念状态
Figure FDA0003586171640000019
组合后复制N份,并赋予每份复制权重
Figure FDA00035861716400000110
得到N个新的带权粒子,记为
Figure FDA00035861716400000111
上标(n)表示第n个复制,进入S9;
S9、设置规划时间步计数器i=t-1,进入S10;
S10、若到规划时间步计数器小于最大规划步数H,则i←i+1,进入S11;否则进入S19;
S11、对于每份复制,根据策略网络得到动作
Figure FDA00035861716400000112
进入S12;
S12、对于每份复制中的每个粒子,根据转移模型Dψ得到下一时刻状态和奖励
Figure FDA00035861716400000113
进入S13;
S13、对于每份复制,更新平均信念状态
Figure FDA00035861716400000114
进入S14;
S14、对于每份复制,求信念状态信息熵的估计
Figure FDA00035861716400000115
Figure FDA00035861716400000116
表示当前信念状态的估计,进入S15;
S15、更新各复制粒子的权重
Figure FDA00035861716400000117
A(m)(n)表示优势函数,进入S16;
S16、若需要重采样,进入S17;否则进入S18;
S17、重采样复制粒子,进入S18;
S18、进入S10;
S19、从1到N中均匀采样得到n,输出第n个复制的机器人规划轨迹中的第一个动作at,进入S20;
S20、机器人采取动作at,与训练环境交互得到下一时刻状态st+1,下一时刻的观测ot+1和奖励rt,进入S21;
S21、若需要重采样,进入S22;否则进入S23;
S22、重采样信念状态粒子,进入S23;
S23、根据转移模型更新信念状态粒子
Figure FDA0003586171640000021
进入S24;
S24、将数据
Figure FDA0003586171640000022
存入回放池,进入S25;
S25、学习单元从回放池中采样训练数据,更新网络参数,进入S26;
S26、进入S3;
S27、结束训练,输出训练后网络用于机器人导航控制。
2.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,训练后网络用于机器人导航控制时,取消回放池和学习单元,跳过步骤S24和S25即可得到机器人导航控制使用阶段的具体步骤,此时S20中环境只需提供观测和奖励信息,而不需要提供真实状态信息。
3.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,机器人训练环境被建模为一个POMDP,POMDP用以下六元组表示:
(1)状态空间S,st∈S表示机器人在t时刻所处的状态;
(2)动作空间A,at∈A表示机器人在t时刻采取的动作;
(3)转移概率函数T:S×A×S→[0,1],T(st,at,st+1)表示机器人在状态st采取动作at转移到st+1的概率;
(4)奖励函数R:S×A→R,R(st,at)表示机器人在状态st采取动作at所能获得的立即奖励;
(5)观测空间O,ot∈O表示机器人在t时刻获得的观测;
(6)观测概率函数Z:S×A×O→[0,1],Z(st,at-1,ot)表示机器人在采取动作at-1转移到st获得观测ot的概率;
POMDP的目标为获得基于历史动作观测序列的策略π:H→A以最大化期望累积奖励,累积奖励Gt的定义为:
Figure FDA0003586171640000023
其中,γ∈(0,1]为折扣因子,用来权衡立即奖励和延迟奖励;rt表示t时刻机器人获得的奖励。
4.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,所述信念状态bt(s)=p(st=s|ht),表示已知历史ht={b0,a0,o1,…,at-1,ot}的情况下隐状态st为s的概率分布,b0表示初始状态概率分布。
5.根据权利要求1所述的基于部分可观测强化学***均信念状态,输出为动作和输出该动作的概率的对数,策略网络的网络结构为通过全连接网络输出动作的均值μ和方差σ2,再从高斯分布N(μ,σ2)中采样得到动作,并使用高斯分布计算输出该动作的概率的对数值;双Q值网络Qω输入为状态和动作,输出为两个Q值,双Q值网络为两个全连接网络Q1和Q2,同时需要对Qi(i=1,2)各维护一个网络结构相同的目标Q值网络TQi(i=1,2),用于网络参数更新。
6.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,S14中,所述求信念状态信息熵的估计中,用信念状态粒子
Figure FDA0003586171640000031
估计信念状态概率分布
Figure FDA0003586171640000032
时,使用核密度估计方法,采用高斯核密度估计信念状态概率分布。
7.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,S15中,所述优势函数A的计算公式为:
Figure FDA0003586171640000033
Figure FDA0003586171640000034
其中TD表示时序差分误差,Qω为双Q值网络两个输出中的较小值。
8.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,S17、S22中,所述重采样是,将N个带权粒子按照权重随机可重复地选取N次粒子,后将新粒子的权重都设置为1。
9.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,S25中,所述更新网络参数包括:
(1)转移模型和观测模型采用预测值和真实值的最小均方误差作为损失函数,使用优化方法,优化损失函数,更新网络参数。
(2)双Q值网络两个网络更新方式相同,都基于与目标Q值网络的时序差分误差:
Figure FDA0003586171640000035
其中,α为温度系数,控制对策略熵的重视程度;使用优化方法,优化损失函数,更新网络参数;每隔固定更新步将Q值网络参数复制给目标Q值网络;
(3)策略函数更新基于损失函数:
Figure FDA0003586171640000041
其中,α为温度系数,Qω为双Q值网络两个输出中的较小值;使用优化方法,优化损失函数,更新网络参数。
10.一种基于部分可观测强化学习的机器人导航控制***,其特征在于,包括:滤波单元、规划单元、回放池、学习单元;
滤波单元,用于更新信念状态粒子及其权重,并使用从规划单元获得的动作与训练环境交互获得状态、观测、奖励信息;另外还用于处理训练数据,存储至回放池;
规划单元,用于接收滤波模块提供的带权粒子,使用学得的转移模型和策略网络模拟规划,并输出动作提供给滤波单元;
回放池,一个支持随机存取的数据库,用于存储处理过的训练数据,给学习单元提供学习所需的训练数据;
学习单元,用于采样回访池中的训练数据,使用给定优化方法训练网络,并将更新后的网络参数提供给滤波单元和规划单元;
训练环境即实际应用环境或仿真虚拟环境,用于该机器人导航控制方法的训练,与滤波单元交互,为滤波提供状态、观测、奖励信息。
CN202210366719.1A 2022-04-08 2022-04-08 基于部分可观测强化学习的机器人导航控制方法及*** Pending CN114911157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210366719.1A CN114911157A (zh) 2022-04-08 2022-04-08 基于部分可观测强化学习的机器人导航控制方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210366719.1A CN114911157A (zh) 2022-04-08 2022-04-08 基于部分可观测强化学习的机器人导航控制方法及***

Publications (1)

Publication Number Publication Date
CN114911157A true CN114911157A (zh) 2022-08-16

Family

ID=82762508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210366719.1A Pending CN114911157A (zh) 2022-04-08 2022-04-08 基于部分可观测强化学习的机器人导航控制方法及***

Country Status (1)

Country Link
CN (1) CN114911157A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115826013A (zh) * 2023-02-15 2023-03-21 广东工业大学 基于轻量化强化学习的城市多径环境下北斗卫星定位方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115826013A (zh) * 2023-02-15 2023-03-21 广东工业大学 基于轻量化强化学习的城市多径环境下北斗卫星定位方法
CN115826013B (zh) * 2023-02-15 2023-04-21 广东工业大学 基于轻量化强化学习的城市多径环境下北斗卫星定位方法

Similar Documents

Publication Publication Date Title
CN110928189B (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
Song et al. New chaotic PSO-based neural network predictive control for nonlinear process
CN114220271A (zh) 基于动态时空图卷积循环网络的交通流预测方法、设备及存储介质
CN114839884B (zh) 一种基于深度强化学习的水下航行器底层控制方法及***
CN114967713B (zh) 基于强化学习的水下航行器浮力离散变化下的控制方法
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
CN116052254A (zh) 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及***
Wei et al. Boosting offline reinforcement learning with residual generative modeling
CN106772354B (zh) 基于并行模糊高斯和粒子滤波的目标跟踪方法及装置
CN111798494A (zh) 广义相关熵准则下的机动目标鲁棒跟踪方法
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
CN114626505A (zh) 一种移动机器人深度强化学习控制方法
CN105424043A (zh) 一种基于判断机动的运动状态估计方法
Wang et al. A KNN based Kalman filter Gaussian process regression
Yin et al. Sample efficient deep reinforcement learning via local planning
CN115938104A (zh) 一种动态短时路网交通状态预测模型及预测方法
Du et al. A novel locally regularized automatic construction method for RBF neural models
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及***
CN114995106A (zh) 基于改进小波神经网络的pid自整定方法、装置和设备
WO2021140698A1 (ja) 情報処理装置、方法及びプログラム
CN108960406B (zh) 一种基于bfo小波神经网络的mems陀螺随机误差预测方法
Li et al. Covid-19 Epidemic Trend Prediction Based on CNN-StackBiLSTM
CN116912620B (zh) 一种具有抗视觉干扰的表征强化学习方法
CN114872040B (zh) 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination