CN114911157A - 基于部分可观测强化学习的机器人导航控制方法及*** - Google Patents
基于部分可观测强化学习的机器人导航控制方法及*** Download PDFInfo
- Publication number
- CN114911157A CN114911157A CN202210366719.1A CN202210366719A CN114911157A CN 114911157 A CN114911157 A CN 114911157A CN 202210366719 A CN202210366719 A CN 202210366719A CN 114911157 A CN114911157 A CN 114911157A
- Authority
- CN
- China
- Prior art keywords
- network
- robot
- state
- action
- observation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 239000002245 particle Substances 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000001914 filtration Methods 0.000 claims abstract description 29
- 238000012952 Resampling Methods 0.000 claims abstract description 16
- 238000004088 simulation Methods 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 33
- 238000012546 transfer Methods 0.000 claims description 24
- 238000009826 distribution Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 230000009977 dual effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003111 delayed effect Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 12
- 238000007493 shaping process Methods 0.000 abstract description 5
- 230000015556 catabolic process Effects 0.000 abstract description 3
- 238000006731 degradation reaction Methods 0.000 abstract description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005381 potential energy Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008614 cellular interaction Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及***,该控制方法及***主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务,本发明采用部分可观测环境下的强化学习算法。***包括滤波单元、规划单元、回放池、学习单元。在本发明中,使用状态粒子表示信念状态以减少信念状态更新的计算复杂度,使用基于学得模型的模拟规划以提高样本利用率,使用重采样方法防止粒子退化问题,使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习,并在实际机器人导航任务中使用学得的策略。
Description
技术领域
本发明涉及一种在部分可观测环境下基于强化学习的机器人导航控制方法及***,属于机器人控制技术领域。
背景技术
随着技术的发展,机器人已被广泛应用于各种生产生活领域,随之而来的各类应用场景也给机器人技术提出了更多新的挑战。机器人导航是机器人控制领域最为重要的任务之一,实际应用场景中有大量的机器人导航控制需求,例如扫地机器人、仓储运输机器人、搜救机器人等。传统的机器人导航算法大多需要获得环境的精确建模,这极大地限制了算法的应用范围。而强化学习可以从与环境交互产生的数据中学习得到控制策略,因此越来越多地被应用于机器人导航任务中。
机器人所处的环境通常是非常复杂的,由于障碍物的遮挡、传感器的探测范围等因素限制,机器人只能通过传感器获得环境的部分信息。不完全信息下的决策任务,相较在完全信息下,难度会大大增加。同时受限于机器人的传感器性能,传感器本身获得的信息是存在噪声的,噪声带来的不确定性也会干扰机器人的决策。因此在不确定性环境下如何进行机器人控制就是机器人导航领域一项亟待解决的问题。
现有的部分可观测强化学习算法往往不能有效地鼓励机器人采取获得环境信息的动作,在环境信息至关重要的任务中难以获得最优策略。此外,机器人执行导航任务时通常只有到达目标点才能获得奖励,因此是一个奖励稀疏的环境。而现有的部分可观测强化学习算法在奖励稀疏的环境中训练速度较慢且算法性能不稳定。
发明内容
发明目的:针对现有机器人导航技术在不确定性环境下的常见问题,本发明提供一种基于部分可观测强化学习的机器人导航控制方法及***。将机器人导航任务建模为一个部分可观测的马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP),并使用部分可观测环境下的强化学习算法解决这一问题。该方法有效解决了利用强化学习处理机器人导航任务时奖励稀疏的问题,并且隐式地鼓励机器人在部分可观测环境下主动采取获得环境信息的动作,从而获得更好的策略,且提高了导航控制方法的效率和稳定性。
技术方案:一种基于部分可观测强化学习的机器人导航控制方法,具体包括如下步骤:
S1、初始化网络参数,包括:转移模型Dψ的参数ψ,观测模型Zθ的参数θ,策略网络πρ的参数ρ,双Q值网络Qω的参数ω。设置训练时间步计数器t=0,进入S2;
S3、若训练时间步计数器t小于最大训练步数L,则t←t+1,进入S4;否则进入S27;
S9、设置规划时间步计数器i=t-1,进入S10;
S10、若到规划时间步计数器小于最大规划步数H,则i←i+1,进入S11;否则进入S19;
S16、若需要重采样,进入S17;否则进入S18;
S17、重采样复制粒子,进入S18;
S18、进入S10;
S19、从1到N中均匀采样得到n,输出第n个复制的机器人规划轨迹中的第一个动作at,进入S20;
S20、机器人采取动作at,与训练环境交互得到下一时刻状态st+1,下一时刻的观测ot+1和奖励rt,进入S21;
S21、若需要重采样,进入S22;否则进入S23;
S22、重采样信念状态粒子,进入S23;
S25、学习单元从回放池中采样训练数据,更新网络参数,进入S26;
S26、进入S3;
S27、结束训练,输出训练后网络用于机器人导航控制。取消回放池和学习单元,跳过步骤S24和S25即可得到机器人导航控制使用阶段的具体步骤,此时S20中环境只需提供观测和奖励信息,而不需要提供真实状态信息。
上述技术方案中,机器人所处的环境(训练环境)被建模为一个POMDP,POMDP可以用以下六元组表示:
(7)状态空间S,st∈S表示机器人在t时刻所处的状态;
(8)动作空间A,at∈A表示机器人在t时刻采取的动作;
(9)转移概率函数T:S×A×S→[0,1],T(st,at,st+1)表示机器人在状态st采取动作at转移到st+1的概率;
(10)奖励函数R:S×A→,R(st,at)表示机器人在状态st采取动作at所能获得的立即奖励;
(11)观测空间O,ot∈O表示机器人在t时刻获得的观测;
(12)观测概率函数Z:S×A×O→[0,1],Z(st,at-1,ot)表示机器人在采取动作at-1转移到st获得观测ot的概率。
POMDP的目标为获得基于历史动作观测序列的策略π:H→A以最大化期望累积奖励,累积奖励Gt的定义为:
其中,γ∈(0,1]为折扣因子,用来权衡立即奖励和延迟奖励。rt表示t时刻机器人获得的奖励。
上述技术方案中,所述信念状态bt(s)=p(st=s|ht),表示已知历史ht={b0,a0,o1,…,at-1,ot}的情况下隐状态st为s的概率分布,b0表示初始状态概率分布。
上述技术方案中,S1中,所述网络包括:
转移模型Dψ,ψ为转移模型的参数;
观测模型Zθ,θ为观测模型的参数;
策略网络πρ,ρ为策略网络的参数;
双Q值网络Qω,ω为双Q值网络的参数。
其中转移模型Dψ用于在滤波单元更新状态粒子和在规划单元进行模拟,输入为状态和动作,输出为下一时刻的状态和奖励,转移模型网络结构为全连接网络;观测模型Zθ用于在滤波单元更新粒子权重,输入为状态和观测,输出为观测的概率,观测模型网络结构为全连接网络;策略网络πρ用于在规划模块中为机器人做模拟提供策略,输入为信念状态粒子和平均信念状态,输出为动作和输出该动作的概率的对数,策略网络的网络结构为通过全连接网络输出动作的均值μ和方差σ2,再从高斯分布N(μ,σ2)中采样得到动作,并使用高斯分布计算输出该动作的概率的对数值;双Q值网络Qω用于在规划模块中更新粒子权重,输入为状态和动作,输出为两个Q值,双Q值网络为两个全连接网络Q1和Q2,同时需要对Qi(i=1,2)各维护一个网络结构相同的目标Q值网络TQi(i=1,2),用于网络参数更新。
上述技术方案中,S2中,将信念状态使用带权粒子表示,是常见的处理信念状态更新计算复杂度过高问题的近似方法,更新粒子的过程称为粒子滤波或时序蒙特卡洛方法。
上述技术方案中,S7-S19为规划单元,机器人使用复制的多个信念状态粒子分别进行模拟规划,从而选取最优动作。
上述技术方案中,S14中,所述求信念状态信息熵的估计中,用信念状态粒子估计信念状态概率分布时,使用核密度估计方法(Kernel DensityEstimation,KDE),采用高斯核密度估计信念状态概率分布。
上述技术方案中,S15中,所述优势函数A的计算公式为:
其中TD表示时序差分误差,Qω为双Q值网络两个输出中的较小值。
计算优势函数A时,奖励增加了基于信念状态负信息熵的奖励塑形,这鼓励机器人采取获得信息的动作,提升了算法的效率和稳定性。
上述技术方案中,S17、S22中,所述重采样是粒子滤波中常用的防止粒子退化的技术。具体来说,将N个带权粒子按照权重随机可重复地选取N次粒子,后将新粒子的权重都设置为1。
上述技术方案中,S25中,所述更新网络参数包括:
(4)转移模型和观测模型采用预测值和真实值的最小均方误差作为损失函数,使用规定的优化方法,如随机梯度下降、Adam等,优化损失函数,更新网络参数。
(5)双Q值网络两个网络更新方式相同,都基于与目标Q值网络的时序差分(Temporal-Difference,TD)误差:
其中,α为温度系数,控制对策略熵的重视程度。使用规定的优化方法,如随机梯度下降、Adam等,优化损失函数,更新网络参数。此外,每隔固定更新步将Q值网络参数复制给目标Q值网络。
(6)策略函数更新基于损失函数:
其中,α为温度系数,Qω为双Q值网络两个输出中的较小值。使用规定的优化方法,如随机梯度下降、Adam等,优化损失函数,更新网络参数。
为达到上述发明目的,本发明基于部分可观测强化学习的机器人导航控制***,包括:滤波单元、规划单元、回放池、学习单元。
滤波单元,用于更新信念状态粒子及其权重,并使用从规划单元获得的动作与训练环境交互获得状态、观测、奖励信息。另外还用于处理训练数据,存储至回放池。
规划单元,用于接收滤波模块提供的带权粒子,使用学得的转移模型和策略网络模拟规划,并输出动作提供给滤波单元。
回放池,一个支持随机存取的数据库,用于存储处理过的训练数据,给学习单元提供学习所需的训练数据,即采样滤波单元存入回放池中的元组组成的数据集。
学习单元,用于采样回访池中的训练数据,使用给定优化方法训练网络,并将更新后的网络参数提供给滤波单元和规划单元。
上述***中,训练环境即实际应用环境或高仿真虚拟环境,用于该机器人导航控制方法的训练,与滤波单元交互,为滤波提供状态、观测、奖励信息。
基于上述技术方案,可以训练神经网络用于实际使用。取消回放池和学习单元,跳过步骤S24和S25即可得到使用阶段的具体步骤,此时S20中环境只需提供观测和奖励信息,而不需要提供真实状态信息。
有益效果:由于上述技术方案运用,本发明与现有技术相比具有以下优点:
本发明使用强化学习处理机器人导航控制任务,可以从与环境交互产生的数据中学习得到控制策略。避免了传统控制方法需要环境精确建模的问题,拓展了控制方法的应用范围。
本发明将环境建模为POMDP问题,可以定义环境中的不确定性。传统方法难以处理存在遮挡,传感器探测范围有限以及传感器存在噪声的任务,本发明可以有效处理这类环境的导航控制任务。
本发明采用基于模型的部分可观测强化学习算法,可以提高训练样本利用率,提升训练效率。
本发明采用基于势能函数的奖励塑形,可以有效处理现实中机器人导航任务奖励稀疏的问题,同时不改变其最优策略,提升了算法训练效率和稳定性。
本发明采用信念状态负信息熵作为上述奖励塑形方法中的势能函数,可以鼓励机器人采取获得信息的动作,相对传统控制方法更容易获得最优策略。
附图说明
图1为本发明实施例的整体训练框架图;
图2为本发明实施例训练阶段的单元交互图;
图3为本发明实施例使用阶段的单元交互图;
图4为本发明实施例图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
图4为一个机器人导航环境俯视图,机器人在左右2个大小完全相同的其中一个房间中。机器人的状态为其在整个房子中的绝对坐标。机器人可以采取任意方向上速度受限的动作。机器人装有上下左右4个正方向的传感器,传感器可以获得该方向上机器人到最近墙面的距离,且存在高斯噪声。机器人的初始位置是随机的,它的目标是到达左侧房间下方或右侧房间上方的充电处,在机器人到达目标位置后会得到+100的奖励。机器人在使用时只能获得观测,因此机器人无法判断自身处于哪个房间,除非到达图中阴影部分,才能通过墙面距离的变化确定自身所在房间。
机器人在训练阶段的步骤如下:
S1、初始化网络参数,包括:转移模型Dψ的参数ψ,观测模型Zθ的参数θ,策略网络πρ的参数ρ,双Q值网络Qω的参数ω。设置训练时间步计数器t=0,进入S2;
S3、若训练时间步计数器t小于最大训练步数L=10,000,则t←t+1,进入S4;否则进入S27;
S9、设置规划时间步计数器i=t-1,进入S10;
S10、若到规划时间步计数器小于最大规划步数H=10,则i←i+1,进入S11;否则进入S19;
S16、若需要重采样,进入S17;否则进入S18;
S17、重采样复制粒子,进入S18;
S18、进入S10;
S19、从1到N中均匀采样得到n,输出第n个复制机器人的规划轨迹中的第一个动作at,如图2、3中由规划单元输入给滤波单元进入S20;
S20、机器人采取动作at,与训练环境交互得到下一时刻状态st+1,下一时刻的观测ot+1和奖励rt,如2中将st+1,ot+1,rt输入给滤波单元进入S21
S21、若需要重采样,进入S22,;否则进入S23;
S22、重采样信念状态粒子,进入S23;
S25、图2中的学习单元从回放池中采样训练数据,更新网络参数,并将更新后的网络参数传给滤波单元和规划单元,进入S26;
S26、进入S3;
S27、结束训练,输出训练后网络用于机器人导航控制。如图3,取消回放池和学习单元,跳过步骤S24和S25即可得到机器人导航控制使用阶段的具体步骤,此时S20中环境只需提供给滤波模块观测和奖励信息,而不需要提供真实状态信息。
整个训练过程框架图参照图1。
上述实施例中,S1中,所述网络包括转移模型Dψ,ψ为转移模型的参数;观测模型Zθ,θ为观测模型的参数;策略网络πρ,ρ为策略网络的参数;双Q值网络Qω,ω为双Q值网络的参数。其中转移模型Dψ输入为状态和动作,输出为下一时刻的状态和奖励,转移模型网络结构为4层全连接网络,各层神经元个数分别为256/256/256/3;观测模型Zθ输入为状态和观测,输出为观测的概率,观测模型网络结构为4层全连接网络,各层神经元个数分别为256/256/256/1;策略网络πρ输入为信念状态粒子和平均信念状态,输出为动作和输出该动作的概率的对数,策略网络的网络结构为通过全连接网络输出动作的均值μ和方差σ2,再从高斯分布N(μ,σ2)中采样得到动作,并使用高斯分布计算输出该动作的概率的对数值,其为一个3层全连接网络,各层神经元个数分别为256/256/4;双Q值网络Qω输入为状态和动作,输出为两个Q值,双Q值网络为两个全连接网络Q1和Q2,都为一个3层全连接网络,各层神经元个数分别为256/256/1,同时需要对Qi(i=1,2)各维护一个网络结构相同的目标Q值网络TQi(i=1,2),用于网络参数更新。参数初始化使用Pytorch默认参数初始化方法。
上述实施例中,S10-S19为规划单元,机器人使用复制的多个信念状态粒子分别进行模拟规划,从而选取最优动作。
其中D为状态的维度,窗宽矩阵H为对角矩阵,主对角线上的元素的计算公式为:
上述实施例中,S15中,所述优势函数A的计算公式为:
其中TD表示时序差分误差,Qω为双Q值网络两个输出中的较小值。计算优势函数A时,奖励增加了基于信念状态负信息熵的奖励塑形,这鼓励机器人采取获得信息的动作,提升了算法的效率和稳定性。
上述实施例中,S17、S22中,所述重采样是粒子滤波中常用的防止粒子退化的技术。具体来说,将N个带权粒子按照权重随机可重复地选取N次粒子,后将新粒子的权重都设置为1。
上述实施例中,S25中,所述更新网络参数包括:
(1)转移模型和观测模型采用预测值和真实值的最小均方误差作为损失函数,使用Adam优化方法,优化损失函数,学习率为0.001,更新网络参数。
(2)双Q值网络两个网络更新方式相同,都基于与目标Q值网络的时序差分(Temporal-Difference,TD)误差:
其中,α=1为温度系数,控制对策略熵的重视程度,γ=0.95为折扣因子。使用Adam优化方法,优化损失函数,学习率为0.001,更新网络参数。此外,每隔5步将Q值网络参数复制给目标Q值网络。
(3)策略函数更新基于损失函数:
其中,α=1为温度系数,Qω为双Q值网络两个输出中的较小值。使用Adam优化方法,优化损失函数,学习率为0.001,更新网络参数。
下面是本实施例的具体结构,包括:滤波单元、规划单元、回放池、学习单元。
滤波单元,用于更新信念状态粒子及其权重,并使用从规划单元获得的动作与训练环境交互获得状态、观测、奖励信息。另外还用于处理训练数据,存储至回放池。
规划单元,用于接收滤波模块提供的带权粒子,使用学得的转移模型和策略网络模拟规划,并输出动作提供给滤波单元。
回放池,一个支持随机存取的数据库,用于存储处理过的训练数据,给学习单元提供学习所需的训练数据,即采样滤波单元存入回放池中的元组组成的数据集。
学习单元,用于采样回访池中的训练数据,使用给定优化方法训练网络,并将更新后的网络参数提供给滤波单元和规划单元。
训练阶段结束后,取消回放池和学习单元,跳过步骤S24和S25即可得到使用阶段的具体步骤,此时S20中环境只需提供观测和奖励信息,而不需要提供真实状态信息。
Claims (10)
1.一种基于部分可观测强化学习的机器人导航控制方法,其特征在于,包括如下步骤:
S1、初始化网络参数,包括:转移模型Dψ的参数ψ,观测模型Zθ的参数θ,策略网络πρ的参数ρ,双Q值网络Qω的参数ω;设置训练时间步计数器t=0,进入S2;
S3、若训练时间步计数器t小于最大训练步数L,则t←t+1,进入S4;否则进入S27;
S9、设置规划时间步计数器i=t-1,进入S10;
S10、若到规划时间步计数器小于最大规划步数H,则i←i+1,进入S11;否则进入S19;
S16、若需要重采样,进入S17;否则进入S18;
S17、重采样复制粒子,进入S18;
S18、进入S10;
S19、从1到N中均匀采样得到n,输出第n个复制的机器人规划轨迹中的第一个动作at,进入S20;
S20、机器人采取动作at,与训练环境交互得到下一时刻状态st+1,下一时刻的观测ot+1和奖励rt,进入S21;
S21、若需要重采样,进入S22;否则进入S23;
S22、重采样信念状态粒子,进入S23;
S25、学习单元从回放池中采样训练数据,更新网络参数,进入S26;
S26、进入S3;
S27、结束训练,输出训练后网络用于机器人导航控制。
2.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,训练后网络用于机器人导航控制时,取消回放池和学习单元,跳过步骤S24和S25即可得到机器人导航控制使用阶段的具体步骤,此时S20中环境只需提供观测和奖励信息,而不需要提供真实状态信息。
3.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,机器人训练环境被建模为一个POMDP,POMDP用以下六元组表示:
(1)状态空间S,st∈S表示机器人在t时刻所处的状态;
(2)动作空间A,at∈A表示机器人在t时刻采取的动作;
(3)转移概率函数T:S×A×S→[0,1],T(st,at,st+1)表示机器人在状态st采取动作at转移到st+1的概率;
(4)奖励函数R:S×A→R,R(st,at)表示机器人在状态st采取动作at所能获得的立即奖励;
(5)观测空间O,ot∈O表示机器人在t时刻获得的观测;
(6)观测概率函数Z:S×A×O→[0,1],Z(st,at-1,ot)表示机器人在采取动作at-1转移到st获得观测ot的概率;
POMDP的目标为获得基于历史动作观测序列的策略π:H→A以最大化期望累积奖励,累积奖励Gt的定义为:
其中,γ∈(0,1]为折扣因子,用来权衡立即奖励和延迟奖励;rt表示t时刻机器人获得的奖励。
4.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,所述信念状态bt(s)=p(st=s|ht),表示已知历史ht={b0,a0,o1,…,at-1,ot}的情况下隐状态st为s的概率分布,b0表示初始状态概率分布。
5.根据权利要求1所述的基于部分可观测强化学***均信念状态,输出为动作和输出该动作的概率的对数,策略网络的网络结构为通过全连接网络输出动作的均值μ和方差σ2,再从高斯分布N(μ,σ2)中采样得到动作,并使用高斯分布计算输出该动作的概率的对数值;双Q值网络Qω输入为状态和动作,输出为两个Q值,双Q值网络为两个全连接网络Q1和Q2,同时需要对Qi(i=1,2)各维护一个网络结构相同的目标Q值网络TQi(i=1,2),用于网络参数更新。
8.根据权利要求1所述的基于部分可观测强化学习的机器人导航控制方法,其特征在于,S17、S22中,所述重采样是,将N个带权粒子按照权重随机可重复地选取N次粒子,后将新粒子的权重都设置为1。
10.一种基于部分可观测强化学习的机器人导航控制***,其特征在于,包括:滤波单元、规划单元、回放池、学习单元;
滤波单元,用于更新信念状态粒子及其权重,并使用从规划单元获得的动作与训练环境交互获得状态、观测、奖励信息;另外还用于处理训练数据,存储至回放池;
规划单元,用于接收滤波模块提供的带权粒子,使用学得的转移模型和策略网络模拟规划,并输出动作提供给滤波单元;
回放池,一个支持随机存取的数据库,用于存储处理过的训练数据,给学习单元提供学习所需的训练数据;
学习单元,用于采样回访池中的训练数据,使用给定优化方法训练网络,并将更新后的网络参数提供给滤波单元和规划单元;
训练环境即实际应用环境或仿真虚拟环境,用于该机器人导航控制方法的训练,与滤波单元交互,为滤波提供状态、观测、奖励信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366719.1A CN114911157A (zh) | 2022-04-08 | 2022-04-08 | 基于部分可观测强化学习的机器人导航控制方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366719.1A CN114911157A (zh) | 2022-04-08 | 2022-04-08 | 基于部分可观测强化学习的机器人导航控制方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114911157A true CN114911157A (zh) | 2022-08-16 |
Family
ID=82762508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210366719.1A Pending CN114911157A (zh) | 2022-04-08 | 2022-04-08 | 基于部分可观测强化学习的机器人导航控制方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114911157A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115826013A (zh) * | 2023-02-15 | 2023-03-21 | 广东工业大学 | 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 |
-
2022
- 2022-04-08 CN CN202210366719.1A patent/CN114911157A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115826013A (zh) * | 2023-02-15 | 2023-03-21 | 广东工业大学 | 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 |
CN115826013B (zh) * | 2023-02-15 | 2023-04-21 | 广东工业大学 | 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110928189B (zh) | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 | |
Song et al. | New chaotic PSO-based neural network predictive control for nonlinear process | |
CN114220271A (zh) | 基于动态时空图卷积循环网络的交通流预测方法、设备及存储介质 | |
CN114839884B (zh) | 一种基于深度强化学习的水下航行器底层控制方法及*** | |
CN114967713B (zh) | 基于强化学习的水下航行器浮力离散变化下的控制方法 | |
CN116700327A (zh) | 一种基于连续动作优势函数学习的无人机轨迹规划方法 | |
CN116052254A (zh) | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及*** | |
Wei et al. | Boosting offline reinforcement learning with residual generative modeling | |
CN106772354B (zh) | 基于并行模糊高斯和粒子滤波的目标跟踪方法及装置 | |
CN111798494A (zh) | 广义相关熵准则下的机动目标鲁棒跟踪方法 | |
CN115374933A (zh) | 一种多节点探测器着陆行为智能规划及决策方法 | |
CN114626505A (zh) | 一种移动机器人深度强化学习控制方法 | |
CN105424043A (zh) | 一种基于判断机动的运动状态估计方法 | |
Wang et al. | A KNN based Kalman filter Gaussian process regression | |
Yin et al. | Sample efficient deep reinforcement learning via local planning | |
CN115938104A (zh) | 一种动态短时路网交通状态预测模型及预测方法 | |
Du et al. | A novel locally regularized automatic construction method for RBF neural models | |
CN115009291B (zh) | 基于网络演化重放缓冲区的自动驾驶辅助决策方法及*** | |
CN114995106A (zh) | 基于改进小波神经网络的pid自整定方法、装置和设备 | |
WO2021140698A1 (ja) | 情報処理装置、方法及びプログラム | |
CN108960406B (zh) | 一种基于bfo小波神经网络的mems陀螺随机误差预测方法 | |
Li et al. | Covid-19 Epidemic Trend Prediction Based on CNN-StackBiLSTM | |
CN116912620B (zh) | 一种具有抗视觉干扰的表征强化学习方法 | |
CN114872040B (zh) | 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |