CN114779792B - 基于模仿与强化学习的医药机器人自主避障方法及*** - Google Patents

基于模仿与强化学习的医药机器人自主避障方法及*** Download PDF

Info

Publication number
CN114779792B
CN114779792B CN202210694891.XA CN202210694891A CN114779792B CN 114779792 B CN114779792 B CN 114779792B CN 202210694891 A CN202210694891 A CN 202210694891A CN 114779792 B CN114779792 B CN 114779792B
Authority
CN
China
Prior art keywords
medical robot
medical
control model
movement control
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210694891.XA
Other languages
English (en)
Other versions
CN114779792A (zh
Inventor
张辉
王可
曹意宏
刘立柱
陈煜嵘
袁小芳
毛建旭
王耀南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210694891.XA priority Critical patent/CN114779792B/zh
Publication of CN114779792A publication Critical patent/CN114779792A/zh
Application granted granted Critical
Publication of CN114779792B publication Critical patent/CN114779792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于模仿与强化学习的医药机器人自主避障方法及***,该方法包括:步骤1:设置医药机器人医药搬运场景;步骤2:获取专家演示二元组数据;步骤3:构建基于模仿学习和强化学习的医药机器人移动控制模型;步骤4:模型训练;步骤5:对医药机器人进行自主控制。本发明在医药机器人移动控制模型中将图注意模块引入价值网络中,使能够适应智能体和障碍物数量不确定的不同环境,同时,区分了医药机器人可观测范围内不同智能体和障碍物对移医药机器人的影响,使其能够更好地做出决策。只需一组网络参数就可以适用于处理各种情况,即网络具有较好的泛化性。

Description

基于模仿与强化学习的医药机器人自主避障方法及***
技术领域
本发明属于机器人自主决策领域,尤其涉及一种基于模仿与强化学习的医药机器人自主避障方法及***。
背景技术
在医药生产行业中,为提高医药生产的效率与质量,医药生产渐渐从传统的人为参与生产转变为以智能机器人为基础的自动化、智能化生产。相比传统的利用传送带等方式进行物资搬运,医药机器人行动更加灵活,搬运码垛效率更高。然而,由于医药生产环境复杂多变,需要医药机器人能够适应不同的环境,即具备自主决策避障能力。
在机器人自主决策领域,深度强化学习由于无需精确建模、算法通用性强等优点,得到了广泛的应用。强化学习是一种通过机器人与周围环境不断交互,进而提高机器人自主决策能力的学习方法(参见文献1:梁星星,冯旸赫,马扬,程光权,黄金才,王琦,周玉珍,刘忠.多Agent深度强化学习综述[J].自动化学报,2020,46(12):2537-2557.)。在机器人移动的每一步中,都与环境进行交互,从中获得奖励或者惩罚,从而使机器人做出的动作策略逐步得到优化,通过不断在状态空间进行迭代搜索,获得最优的动作策略(参见文献2:蒲志强,易建强,刘振,丘腾海,孙金林,李非墨.知识和数据协同驱动的群体智能决策方法研究综述[J].自动化学报,2022,48(03):627-643.)。然而,深度强化学习在学习初期存在着探索空间大,算法难以收敛等问题,因此往往会与模仿学习相结合,首先对价值网络进行初始化(参见文献3:李帅龙,张会文,周维佳.模仿学习方法综述及其在机器人领域的应用[J].计算机工程与应用,2019,55(04):17-30.)。但是模仿学习需要提供大量的专家演示数据,这些数据往往难以获得,尤其是在医药场景下。
中国专利申请CN112433525A公开了一种基于模仿学习及深度强化学习的医药机器人导航方法。该方法通过构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用该耦合的导航框架对医药机器人模型进行训练,进而实现导航任务。然而该方法中模仿学习所需的专家演示数据需要提前准备,此外,该方法由于价值网络的结构所决定,只能处理环境中固定机器人数量的问题。然而实际上,医药环境是动态变化的,环境中智能体的数量、障碍物数量等都有可能发生变化,同时,处于移动机器人周围的智能体和障碍物对移动机器人做出的决策的影响是不同的。当环境中的智能体、障碍物数量发生变化时,常见的深度学习方法需要重新更新网络参数,从而使得模型的泛用性降低。
因此,现有技术需要一种能够为模仿学习算法提供大量专家演示数据集的方法,以及需要提供一种能够在智能体和障碍物数量不确定的环境下实现医药机器人快速自主避障的方法,来处理医药环境下智能体和障碍物数量不确定的医药机器人自主避障。
发明内容
本发明提供了一种基于模仿与强化学习的医药机器人自主避障方法及***,在智能体和障碍物数量不确定的环境下,处理医药搬运环境下智能体和障碍物数量不确定的医药机器人自主避障。
本发明提供的技术方案如下:
一方面,一种基于模仿与强化学习的医药机器人自主避障方法,包括:
步骤1:设置医药机器人医药搬运场景;
步骤2:令医药机器人利用最优互补避障策略在步骤1中设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
环境状态指的是设置的医药机器人搬运场景中该时刻其他智能体和障碍物与医药机器人所处的距离,医药机器人根据最优互补避碰策略得到的动作策略(如:速度=2m/s),输入单片机中转换为相应的控制指令,电机通过控制指令对医药机器人的速度进行改变,控制医药机器人的移动;
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制;
本发明技术方案通过使医药机器人在设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;利用通过采用图注意模块,一方面能够处理医药场景中智能体和障碍物数量实时变化的情况,另一方面,更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。
进一步地,所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,具体如下:
令节点i表示当前医药机器人,当前医药机器人的输入特征向量为
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
;节点j为当前医药机器人可测量半径内的某一障碍物或者智能体,其输入特征向量为
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
,则节点i和节点j之间的注意力系数
Figure DEST_PATH_IMAGE005
为:
Figure DEST_PATH_IMAGE007
其中,
Figure DEST_PATH_IMAGE008
为采用的注意力机制网络权重,
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
为每个节点输出的特征数;||为拼接操作,LeakyReLU为激活函数,W为每个节点的权重,
Figure DEST_PATH_IMAGE011
,F为每个节点输入的特征数,
Figure DEST_PATH_IMAGE012
表示空间维度大小
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE015
表示空间维度大小为F维的实数域;
Figure DEST_PATH_IMAGE017
表示空间维度大小为2
Figure 45904DEST_PATH_IMAGE010
维的实数域;
Figure DEST_PATH_IMAGE019
表示空间维度大小为
Figure DEST_PATH_IMAGE021
维的实数域;
对当前医药机器人周围所有的智能体和障碍物计算注意力系数,得到进行归一化后的某一障碍物或者智能体对当前医药机器人的影响系数
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
其中,
Figure DEST_PATH_IMAGE024
为节点i的所有相邻节点;
对当前医药机器人可测量半径内所有智能体和障碍物均计算出影响系数
Figure 992869DEST_PATH_IMAGE022
,并基于多组注意力机制并进行拼接,得到当前医药机器人的输出特征向量
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
其中,||为拼接操作,K为注意力机制的个数,k1表示注意力机制的序号,
Figure DEST_PATH_IMAGE027
为非线性激活函数。
采用多组注意力机制是为了稳定强化学习过程;
输入价值网络模型的前馈部分,使得价值网络模型能够处理环境中智能体或障碍物不定的情况,同时区分出不同的智能体和障碍物对机器人自主避障中的影响。
与常见的通过取最大值或采用LSTM相比,取最大值的方法在大部分时间会无法达到该值,因此浪费了存储空间,同时,对于处于医药机器人周围的智能体和障碍物对医药机器人的影响一视同仁,这显然是不合适的。而基于LSTM的方法,通过将场景中的智能体和障碍物的状态存储在LSTM单元中,实现了根据场景中智能体和障碍物数量来存储,同时,通过对医药场景中除医药机器人以外的智能体和障碍物由远及近进行排序进行存储,利用LSTM对早期输入会遗忘的特性来区分不同的智能体和障碍物对医药机器人的影响,但是,基于LSTM的方法始终需要保证为一个序列,因此利用遗忘特性对不同的智能体和障碍物对医药机器人的影响进行区分不够准确,进而影响后续学习的模型决策。而通过采用图注意模块,一方面能够处理医药场景中智能体和障碍物数量实时变化的情况,另一方面,更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。
进一步地,所述基于模仿学习的医药机器人移动控制模型,以所述专家演示二元组数据进行训练时,是采用行为克隆算法进行模仿学习,具体过程如下:
步骤A1:在给定的专家演示数据集
Figure DEST_PATH_IMAGE028
中进行均匀随机抽样,得到
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
依次表示第一个时刻到第n个时刻的环境状态,
Figure DEST_PATH_IMAGE031
依次表示在环境状态
Figure DEST_PATH_IMAGE032
下的动作策略;
步骤A2:当前基于模仿学习的医药机器人移动控制模型参数为
Figure DEST_PATH_IMAGE033
,初始值为随机取值,将
Figure DEST_PATH_IMAGE034
输入基于模仿学习的医药机器人移动控制模型,进行反向传播计算梯度,然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数;
基于模仿学习的医药机器人移动控制模型的损失函数如下:
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
表示基于模仿学习的医药机器人移动控制模型在参数为
Figure DEST_PATH_IMAGE037
和环境状态为s时做出的动作策略,
Figure DEST_PATH_IMAGE038
为给定的专家演示数据集D中与s对应的动作策略;
梯度更新公式如下:
Figure DEST_PATH_IMAGE039
其中,
Figure DEST_PATH_IMAGE040
为更新后的模型参数,
Figure DEST_PATH_IMAGE041
为当前的模型参数,β为行为克隆学习率;
步骤A3:对上述步骤进行迭代直至所述损失函数收敛,获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。
进一步的,医药机器人与医药搬运场景进行交互获得专家演示二元组时,依据最优互补避碰策略确定动作策略,具体如下:
设D1为以p为圆心,r为半径的圆,q为圆内的一点:
Figure DEST_PATH_IMAGE042
医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为:
Figure DEST_PATH_IMAGE043
其中,
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
分别为医药机器人A和医药机器人B的当前位置,
Figure DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
分别为医药机器人A和医药机器人B所占据的最大圆半径,
Figure DEST_PATH_IMAGE048
表示等比符号,
Figure DEST_PATH_IMAGE049
表示医药机器人A的移动速度,t表示医药机器人的移动时刻,τ为大于0的时间常量,τ决定有碰撞速度集合的大小;
则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为:
Figure DEST_PATH_IMAGE050
其中,
Figure DEST_PATH_IMAGE051
是以
Figure DEST_PATH_IMAGE052
为起点,指向最接近
Figure DEST_PATH_IMAGE053
边界上的点的向量,
Figure DEST_PATH_IMAGE054
为医药机器人A对于医药机器人B的τ时间内有碰撞速度集合
Figure DEST_PATH_IMAGE055
的边界,其计算公式为:
Figure DEST_PATH_IMAGE056
n是以
Figure 287060DEST_PATH_IMAGE055
边界上的点
Figure DEST_PATH_IMAGE057
为起点向外延伸作的法线,其计算公式为:
Figure DEST_PATH_IMAGE058
医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为:
Figure DEST_PATH_IMAGE059
其中,
Figure DEST_PATH_IMAGE060
为医药机器人A的最大速率;
确定的动作策略为医药机器人A的移动策略速度:
Figure DEST_PATH_IMAGE061
进一步的,所述基于强化学习的医药机器人移动控制模型训练时,采用doubleDQN算法,具体如下:
以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化;
医药机器人获得当前医药搬运场景即环境状态
Figure DEST_PATH_IMAGE062
,利用初始化后的采用doubleDQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略
Figure DEST_PATH_IMAGE063
(如:速度=2m/s),当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略
Figure 610680DEST_PATH_IMAGE063
移动一步后,获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励
Figure DEST_PATH_IMAGE064
,医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态
Figure DEST_PATH_IMAGE065
,进而得到探索经验
Figure DEST_PATH_IMAGE066
,并将其存放至经验回放池中;
进入到下一个时刻的环境状态
Figure 62259DEST_PATH_IMAGE065
的医药机器人再根据所述在线价值网络得到相应的动作策略
Figure DEST_PATH_IMAGE067
,进而控制医药机器人移动,再次得到探索经验;当经验回放池中的探索经验足够多时,采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播,对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新,反复从经验回放池中取出经验数组对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大,则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。
经验回放池中的探索经验足够多是指超过8万条四元组数据;当经验回放池满的时候,删除掉最旧的数据更新经验回放池。
在线价值网络和目标价值网络的更新公式分别如下:
Figure DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE069
其中,
Figure DEST_PATH_IMAGE070
为当前在线价值网络的参数,
Figure DEST_PATH_IMAGE071
为更新后的在线价值网络参数,
Figure DEST_PATH_IMAGE072
为当前目标价值网络的参数,
Figure DEST_PATH_IMAGE073
为更新后的目标价值网络参数,
Figure DEST_PATH_IMAGE074
为基于图注意模块的价值网络学习率,
Figure DEST_PATH_IMAGE075
为折扣因子,
Figure DEST_PATH_IMAGE076
为超参数,为每次目标价值网络更新的比例;
进一步的,所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure DEST_PATH_IMAGE077
其中,
Figure DEST_PATH_IMAGE078
为医药机器人A的当前位置,
Figure DEST_PATH_IMAGE079
为医药机器人A要到达的目标位置,
Figure DEST_PATH_IMAGE080
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
另一方面,一种基于模仿与强化学习的医药机器人自主避障***,包括:
场景设置单元:设置医药机器人医药搬运场景,并使医药机器人与设置的环境进行交互学习;
专家数据构建单元:令医药机器人利用最优互补避障策略在设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
模型构建与初始化单元:构建基于模仿学习和强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
训练单元:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
控制单元:以训练单元的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
进一步的,基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景,并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
进一步的,所述基于模仿学习的医药机器人移动控制模型,是采用行为克隆算法进行模仿学习;采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure 671969DEST_PATH_IMAGE077
其中,
Figure 151492DEST_PATH_IMAGE078
为医药机器人A的当前位置,
Figure 588290DEST_PATH_IMAGE079
为医药机器人A要到达的目标位置,
Figure 651799DEST_PATH_IMAGE080
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
再一方面,一种计算机存储介质,包括计算机程序,所述计算机程序指令被处理终端执行时使所述处理终端执行上述一种基于模仿与强化学习的医药机器人自主避障方法。
有益效果
相较于现有技术而言,本方案存在以下几点优点:
1、将图注意模块引入价值网络中,使能够适应智能体和障碍物数量不确定的不同环境,同时,区分了医药机器人可观测范围内不同智能体和障碍物对医药机器人的影响,使其能够更好地做出决策。与针对具有不同数量智能体和障碍物的新环境进行再训练不同,只需一组网络参数就可以适用于处理各种情况,即网络具有较好的泛化性。
2、采用模仿学习和强化学习相结合的方法,解决了强化学习中动作策略探索空间大,奖励稀疏、延迟回报的问题。
3、利用最优互补避碰策略获得大量的演示经验,更好的解决了模仿学习中专家演示数据集难以获取的问题。
附图说明
图1为本发明实例的工作原理整体框架示意图;
图2 为本发明实例中采用的模仿学习模型结构图;
图3 为本发明实例中采用的基于图注意模块的价值网络模型结构图;
图4 为本发明实例中采用的强化学习模型结构图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
实施例1
本发明技术方案提供的实施例一种基于模仿与强化学习的医药机器人自主避障方法,如图1-图4所示,包括:
步骤1:设置医药机器人医药搬运场景;
结合实际医药搬运场景,布置训练环境场地;
步骤2:医药机器人利用最优互补避障策略在步骤1中设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
医药机器人通过激光雷达判断与周围智能体和障碍物的距离,进而判断当前环境状态,智能体指除医药机器人自身以外的其他医药搬运机器人,障碍物包括医药搬运物资、医护工作人员等除医药机器人以外的医药场景中的物体。
环境状态指的是设置的医药机器人搬运场景中该时刻其他智能体和障碍物与医药机器人所处的距离,医药机器人根据最优互补避碰策略得到的动作策略(如:速度=2m/s),输入单片机中转换为相应的控制指令,电机通过控制指令对医药机器人的速度进行改变,控制医药机器人的移动。
医药机器人与医药搬运场景进行交互时,依据最优互补避碰策略确定动作策略,具体如下:
设D1为以p为圆心,r为半径的圆,q为圆内的一点:
Figure 832244DEST_PATH_IMAGE042
医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为:
Figure 431853DEST_PATH_IMAGE043
其中,
Figure 39552DEST_PATH_IMAGE044
Figure 826242DEST_PATH_IMAGE045
分别为医药机器人A和医药机器人B的当前位置,
Figure 810379DEST_PATH_IMAGE046
Figure 264494DEST_PATH_IMAGE047
分别为医药机器人A和医药机器人B所占据的最大圆半径,
Figure 43094DEST_PATH_IMAGE048
表示等比符号,
Figure 815615DEST_PATH_IMAGE049
表示医药机器人A的移动速度,t表示医药机器人的移动时刻,τ为大于0的时间常量,通常取值为2,τ决定有碰撞速度集合的大小;
则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为:
Figure 337864DEST_PATH_IMAGE050
其中,
Figure 646485DEST_PATH_IMAGE051
是以
Figure 595987DEST_PATH_IMAGE052
为起点,指向最接近
Figure 622849DEST_PATH_IMAGE053
边界上的点的向量,
Figure 683208DEST_PATH_IMAGE054
为医药机器人A对于医药机器人B的τ时间内有碰撞速度集合
Figure 111916DEST_PATH_IMAGE055
的边界,其计算公式为:
Figure 232319DEST_PATH_IMAGE056
n是以
Figure 979432DEST_PATH_IMAGE055
边界上的点
Figure 843483DEST_PATH_IMAGE057
为起点向外延伸作的法线,其计算公式为:
Figure 923435DEST_PATH_IMAGE058
医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为:
Figure 214739DEST_PATH_IMAGE059
其中,
Figure 950614DEST_PATH_IMAGE060
为医药机器人A的最大速率;
确定的动作策略为医药机器人A的移动策略速度:
Figure 618355DEST_PATH_IMAGE061
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
由于医药机器人在医药场景中进行搬运时,周围除了其他医药机器人的存在,还有可能会出现医护工作人员等进行走动,因此医药机器人周围的智能体和障碍物数量是不定的,然而后续所采用的前馈神经网络需要固定维度的输入,即需要医药机器人能够自适应场景中智能体和障碍物数量的变化,并将其转换为固定维度输入前馈网络。同时,智能体和障碍物与医药机器人的距离的远近对医药机器人的影响是不同的,将所有智能体和障碍物的影响一视同仁显然是不合适的。因此,在价值网络模型中引入图注意模块,通过图注意模块建立空间特征图来处理智能体和障碍物数目不定的场景。将医药机器人所观察到的医药场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,具体如下:
令节点i表示当前医药机器人,当前医药机器人的输入特征向量为
Figure 756076DEST_PATH_IMAGE001
Figure 218281DEST_PATH_IMAGE002
;节点j为当前医药机器人可测量半径内的某一障碍物或者智能体,其输入特征向量为
Figure 441452DEST_PATH_IMAGE003
Figure 411420DEST_PATH_IMAGE004
,则节点i和节点j之间的注意力系数
Figure 403646DEST_PATH_IMAGE005
为:
Figure 771174DEST_PATH_IMAGE007
其中,
Figure 481641DEST_PATH_IMAGE008
为采用的注意力机制网络权重,
Figure 491185DEST_PATH_IMAGE009
Figure 337918DEST_PATH_IMAGE010
为每个节点输出的特征数;||为拼接操作,LeakyReLU为激活函数,W为每个节点的权重,
Figure 407506DEST_PATH_IMAGE011
,F为每个节点输入的特征数;
Figure 339690DEST_PATH_IMAGE015
表示空间维度大小为F维的实数域;
Figure 663179DEST_PATH_IMAGE017
表示空间维度大小为2
Figure 364418DEST_PATH_IMAGE010
维的实数域;
Figure 401645DEST_PATH_IMAGE019
表示空间维度大小为
Figure 821125DEST_PATH_IMAGE021
维的实数域;
对当前医药机器人周围所有的智能体和障碍物计算注意力系数,得到进行归一化后的某一障碍物或者智能体对当前医药机器人的影响系数
Figure 172472DEST_PATH_IMAGE022
Figure 993797DEST_PATH_IMAGE023
其中,
Figure 405187DEST_PATH_IMAGE024
为节点i的所有相邻节点;
对当前医药机器人可测量半径内所有智能体和障碍物均计算出影响系数
Figure 311963DEST_PATH_IMAGE022
,并基于多组注意力机制并进行拼接,得到当前医药机器人的输出特征向量
Figure 467001DEST_PATH_IMAGE025
Figure 641368DEST_PATH_IMAGE026
其中,||为拼接操作,K为注意力机制的个数,k1表示注意力机制的序号,
Figure 426921DEST_PATH_IMAGE027
为非线性激活函数。
采用多组注意力机制是为了稳定强化学习过程;
输入价值网络模型的前馈部分,使得价值网络模型能够处理环境中智能体或障碍物不定的情况,同时区分出不同的智能体和障碍物对机器人自主避障中的影响。
与常见的通过取最大值或采用LSTM相比,取最大值的方法在大部分时间会无法达到该值,因此浪费了存储空间,同时,对于处于医药机器人周围的智能体和障碍物对医药机器人的影响一视同仁,这显然是不合适的。而基于LSTM的方法,通过将场景中的智能体和障碍物的状态存储在LSTM单元中,实现了根据场景中智能体和障碍物数量来存储,同时,通过对医药场景中除医药机器人以外的智能体和障碍物由远及近进行排序进行存储,利用LSTM对早期输入会遗忘的特性来区分不同的智能体和障碍物对医药机器人的影响,但是,基于LSTM的方法始终需要保证为一个序列,因此利用遗忘特性对不同的智能体和障碍物对医药机器人的影响进行区分不够准确,进而影响后续学习的模型决策。而通过采用图注意模块,一方面能够处理医药场景中智能体和障碍物数量实时变化的情况,另一方面,更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
所述基于模仿学习的医药机器人移动控制模型,以所述专家演示二元组数据进行训练时,是采用行为克隆算法进行模仿学习,具体过程如下:
步骤A1:在给定的专家演示数据集
Figure 617731DEST_PATH_IMAGE028
中进行均匀随机抽样,得到
Figure 310881DEST_PATH_IMAGE029
Figure 106798DEST_PATH_IMAGE030
依次表示第一个时刻到第n个时刻的环境状态,
Figure 594411DEST_PATH_IMAGE031
依次表示在环境状态
Figure 475780DEST_PATH_IMAGE032
下的动作策略;
步骤A2:当前基于模仿学习的医药机器人移动控制模型参数为
Figure 972620DEST_PATH_IMAGE033
,初始值为随机取值,将
Figure 590421DEST_PATH_IMAGE034
输入基于模仿学习的医药机器人移动控制模型,进行反向传播计算梯度,然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数;
基于模仿学习的医药机器人移动控制模型的损失函数如下:
Figure 514515DEST_PATH_IMAGE035
Figure 617600DEST_PATH_IMAGE036
表示基于模仿学习的医药机器人移动控制模型在参数为
Figure 855814DEST_PATH_IMAGE037
和环境状态为s时做出的动作策略,
Figure 626324DEST_PATH_IMAGE038
为给定的专家演示数据集D中与s对应的动作策略;
梯度更新公式如下:
Figure 721319DEST_PATH_IMAGE039
其中,
Figure 810236DEST_PATH_IMAGE040
为更新后的模型参数,
Figure 648879DEST_PATH_IMAGE041
为当前的模型参数,β为行为克隆学习率;
步骤A3:对上述步骤进行迭代直至所述损失函数收敛,获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。
所述基于强化学习的医药机器人移动控制模型训练时,采用double DQN算法,具体如下:
以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化;
医药机器人获得当前医药搬运场景即环境状态
Figure 273895DEST_PATH_IMAGE062
,利用初始化后的采用doubleDQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略
Figure 805371DEST_PATH_IMAGE063
(如:速度=2m/s),当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略
Figure 883048DEST_PATH_IMAGE063
移动一步后,获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励
Figure 259803DEST_PATH_IMAGE064
,医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态
Figure 739326DEST_PATH_IMAGE065
,进而得到探索经验
Figure 877921DEST_PATH_IMAGE066
,并将其存放至经验回放池中;
进入到下一个时刻的环境状态
Figure 442894DEST_PATH_IMAGE065
的医药机器人再根据所述在线价值网络得到相应的动作策略
Figure 623340DEST_PATH_IMAGE067
,进而控制医药机器人移动,再次得到探索经验;当经验回放池中的探索经验足够多时,采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播,对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新,反复从经验回放池中取出经验数组对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大,则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。
其中,基于强化学习的医药机器人移动控制模型的目标价值网络在医药机器人前进n步后进行更新,n根据实际医用场景的大小进行设置,且只有在回放数组中有足够多的四元组时,才开始更新基于强化学习的医药机器人移动控制模型的在线价值网络。当在回放数组中的四元组数量不够时,基于强化学习的医药机器人移动控制模型的在线价值网络只与环境交互,不更新参数。
经验回放池中的探索经验足够多是指超过8万条四元组数据;当经验回放池满的时候,删除掉最旧的数据更新经验回放池。
double DQN网络的输入是状态s,输出是Q值。
在线价值网络和目标价值网络的更新公式分别如下:
Figure 957369DEST_PATH_IMAGE068
Figure 565068DEST_PATH_IMAGE069
其中,
Figure 617338DEST_PATH_IMAGE070
为当前在线价值网络的参数,
Figure 867054DEST_PATH_IMAGE071
为更新后的在线价值网络参数,
Figure 55589DEST_PATH_IMAGE072
为当前目标价值网络的参数,
Figure 332725DEST_PATH_IMAGE073
为更新后的目标价值网络参数,
Figure 872290DEST_PATH_IMAGE074
为基于图注意模块的价值网络学习率,
Figure 394539DEST_PATH_IMAGE075
为折扣因子,
Figure 906423DEST_PATH_IMAGE076
为超参数,为每次目标价值网络更新的比例;
所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure 855924DEST_PATH_IMAGE077
其中,
Figure 148365DEST_PATH_IMAGE078
为医药机器人A的当前位置,
Figure 208725DEST_PATH_IMAGE079
为医药机器人A要到达的目标位置,
Figure 870388DEST_PATH_IMAGE080
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
实施例2
本发明技术方案实施例提供一种基于模仿与强化学习的医药机器人自主避障***,包括:
场景设置单元:设置医药机器人医药搬运场景;
专家数据构建单元:令医药机器人利用最优互补避障策略在设置的医药机器人医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
模型构建与初始化单元:构建基于模仿学习和强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
训练单元:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
控制单元:以训练单元的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景,并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
具体各个模块的实现过程请参照上述方法的内容,在此不再赘述。应该理解到,上述功能模块的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
实施例3
本发明技术方案实施例还提供一种计算机存储介质,包括计算机程序,所述计算机程序指令被处理终端执行时使所述处理终端执行一种基于模仿与强化学习的医药机器人自主避障方法:
步骤1:设置医药机器人医药搬运场景;
步骤2:医药机器人利用最优互补避障策略在步骤1中设置的进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
各个步骤的具体实现过程请参照前述方法实施例1的阐述。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于模仿与强化学习的医药机器人自主避障方法,其特征在于,包括:
步骤1:设置医药机器人医药搬运场景;
步骤2:令医药机器人利用最优互补避障策略在步骤1中设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
2.根据权利要求1所述的方法,其特征在于,所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,具体如下:
令节点i表示当前医药机器人,当前医药机器人的输入特征向量为
Figure 985975DEST_PATH_IMAGE001
Figure 664081DEST_PATH_IMAGE002
;节点j为当前医药机器人可测量半径内的某一障碍物或者智能体,其输入特征向量为
Figure 393877DEST_PATH_IMAGE003
Figure 778722DEST_PATH_IMAGE004
,则节点i和节点j之间的注意力系数
Figure 702816DEST_PATH_IMAGE005
为:
Figure 71480DEST_PATH_IMAGE006
其中,
Figure 106432DEST_PATH_IMAGE007
为采用的注意力机制网络权重,
Figure 611363DEST_PATH_IMAGE008
Figure 503096DEST_PATH_IMAGE009
为每个节点输出的特征数;||为拼接操作,LeakyReLU为激活函数,W为每个节点的权重,
Figure 359056DEST_PATH_IMAGE010
,F为每个节点输入的特征数;
Figure 932120DEST_PATH_IMAGE011
表示空间维度大小为F维的实数域;
Figure 790092DEST_PATH_IMAGE012
表示空间维度大小为2
Figure 852726DEST_PATH_IMAGE009
维的实数域;
Figure 930404DEST_PATH_IMAGE013
表示空间维度大小为
Figure 307158DEST_PATH_IMAGE014
维的实数域;
对当前医药机器人周围所有的智能体和障碍物计算注意力系数,得到进行归一化后的某一障碍物或者智能体对当前医药机器人的影响系数
Figure 583419DEST_PATH_IMAGE015
Figure 20217DEST_PATH_IMAGE016
其中,
Figure 319611DEST_PATH_IMAGE017
为节点i的所有相邻节点;
对当前医药机器人可测量半径内所有智能体和障碍物均计算出影响系数
Figure 31215DEST_PATH_IMAGE015
,并基于多组注意力机制并进行拼接,得到当前医药机器人的输出特征向量
Figure 365244DEST_PATH_IMAGE018
Figure 972943DEST_PATH_IMAGE019
其中,||为拼接操作,K为注意力机制的个数,k1表示注意力机制的序号,
Figure 25213DEST_PATH_IMAGE020
为非线性激活函数。
3.根据权利要求1所述的方法,其特征在于,所述基于模仿学习的医药机器人移动控制模型,以所述专家演示二元组数据进行训练时,是采用行为克隆算法进行模仿学习,具体过程如下:
步骤A1:在给定的专家演示数据集
Figure 540508DEST_PATH_IMAGE021
中进行均匀随机抽样,得到
Figure 227579DEST_PATH_IMAGE022
Figure 6179DEST_PATH_IMAGE023
依次表示第一个时刻到第n个时刻的环境状态,
Figure 342482DEST_PATH_IMAGE024
依次表示在环境状态
Figure 599151DEST_PATH_IMAGE025
下的动作策略;
步骤A2:当前基于模仿学习的医药机器人移动控制模型参数为
Figure 907773DEST_PATH_IMAGE026
,初始值为随机取值,将
Figure 654012DEST_PATH_IMAGE027
输入基于模仿学习的医药机器人移动控制模型,进行反向传播计算梯度,然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数;
基于模仿学习的医药机器人移动控制模型的损失函数如下:
Figure 149715DEST_PATH_IMAGE028
Figure 475655DEST_PATH_IMAGE029
表示基于模仿学习的医药机器人移动控制模型在参数为
Figure 904362DEST_PATH_IMAGE030
和环境状态为s时做出的动作策略,
Figure 24765DEST_PATH_IMAGE031
为给定的专家演示数据集D中与s对应的动作策略;
梯度更新公式如下:
Figure 37458DEST_PATH_IMAGE032
其中,
Figure 635929DEST_PATH_IMAGE033
为更新后的模型参数,
Figure 653564DEST_PATH_IMAGE034
为当前的模型参数,β为行为克隆学习率;
步骤A3:对上述步骤进行迭代直至所述损失函数收敛,获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。
4.根据权利要求1所述的方法,其特征在于,医药机器人在医药搬运场景中移动时,依据最优互补避碰策略确定动作策略,具体如下:
设D1为以p为圆心,r为半径的圆,q为圆内的一点:
Figure 476026DEST_PATH_IMAGE035
医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为:
Figure 211901DEST_PATH_IMAGE036
其中,
Figure 614064DEST_PATH_IMAGE037
Figure 955046DEST_PATH_IMAGE038
分别为医药机器人A和医药机器人B的当前位置,
Figure 181366DEST_PATH_IMAGE039
Figure 138958DEST_PATH_IMAGE040
分别为医药机器人A和医药机器人B所占据的最大圆半径,
Figure 407128DEST_PATH_IMAGE041
表示等比符号,
Figure 399355DEST_PATH_IMAGE042
表示医药机器人A的移动速度,t表示医药机器人的移动时刻,τ为大于0的时间常量;
则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为:
Figure 32462DEST_PATH_IMAGE043
其中,
Figure 742929DEST_PATH_IMAGE044
是以
Figure 752473DEST_PATH_IMAGE045
为起点,指向最接近
Figure 599206DEST_PATH_IMAGE046
边界上的点的向量,
Figure 668793DEST_PATH_IMAGE047
为医药机器人A对于医药机器人B的τ时间内有碰撞速度集合
Figure 302775DEST_PATH_IMAGE048
的边界,其计算公式为:
Figure 912748DEST_PATH_IMAGE049
n是以
Figure 82829DEST_PATH_IMAGE048
边界上的点
Figure 57738DEST_PATH_IMAGE050
为起点向外延伸作的法线,其计算公式为:
Figure 742797DEST_PATH_IMAGE051
医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为:
Figure 94144DEST_PATH_IMAGE052
其中,
Figure 915470DEST_PATH_IMAGE053
为医药机器人A的最大速率;
确定的动作策略为医药机器人A的移动策略速度:
Figure 559816DEST_PATH_IMAGE054
5.根据权利要求1所述的方法,其特征在于,所述基于强化学习的医药机器人移动控制模型训练时,采用double DQN算法,具体如下:
以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化;
医药机器人获得当前医药搬运场景即环境状态
Figure 466592DEST_PATH_IMAGE055
,利用初始化后的采用double DQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略
Figure 621629DEST_PATH_IMAGE056
,当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略
Figure 297461DEST_PATH_IMAGE056
移动一步后,获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励
Figure 879753DEST_PATH_IMAGE057
,医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态
Figure 539404DEST_PATH_IMAGE058
,进而得到探索经验
Figure 232553DEST_PATH_IMAGE059
,并将其存放至经验回放池中;
进入到下一个时刻的环境状态
Figure 28471DEST_PATH_IMAGE058
的医药机器人再根据所述在线价值网络得到相应的动作策略
Figure 291917DEST_PATH_IMAGE060
,进而控制医药机器人移动,再次得到探索经验;当经验回放池中的探索经验足够多时,采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播,对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新,反复从经验回放池中取出经验数组对采用doubleDQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大,则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。
6.根据权利要求5所述的方法,其特征在于,所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure 907707DEST_PATH_IMAGE061
其中,
Figure 607809DEST_PATH_IMAGE062
为医药机器人A的当前位置,
Figure 258233DEST_PATH_IMAGE063
为医药机器人A要到达的目标位置,
Figure 182327DEST_PATH_IMAGE064
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
7.一种基于模仿与强化学习的医药机器人自主避障***,其特征在于,包括:
场景设置单元:设置医药机器人医药搬运场景;
专家数据构建单元:令医药机器人利用最优互补避障策略在设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
模型构建与初始化单元:构建基于模仿学习和强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
训练单元:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
控制单元:以训练单元的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
8.根据权利要求7所述的***,其特征在于,基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景,并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
9.根据权利要求7所述的***,其特征在于,所述基于模仿学习的医药机器人移动控制模型,是采用行为克隆算法进行模仿学习;
所述基于强化学习的医药机器人移动控制模型,是采用double DQN算法进行强化学习;
采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure 816571DEST_PATH_IMAGE061
其中,
Figure 585944DEST_PATH_IMAGE062
为医药机器人A的当前位置,
Figure 854989DEST_PATH_IMAGE063
为医药机器人A要到达的目标位置,
Figure 684404DEST_PATH_IMAGE064
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
10.一种计算机存储介质,包括计算机程序,其特征在于,所述计算机程序指令被处理终端执行时使所述处理终端执行权利要求1至6任一项所述的方法。
CN202210694891.XA 2022-06-20 2022-06-20 基于模仿与强化学习的医药机器人自主避障方法及*** Active CN114779792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210694891.XA CN114779792B (zh) 2022-06-20 2022-06-20 基于模仿与强化学习的医药机器人自主避障方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210694891.XA CN114779792B (zh) 2022-06-20 2022-06-20 基于模仿与强化学习的医药机器人自主避障方法及***

Publications (2)

Publication Number Publication Date
CN114779792A CN114779792A (zh) 2022-07-22
CN114779792B true CN114779792B (zh) 2022-09-09

Family

ID=82421264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210694891.XA Active CN114779792B (zh) 2022-06-20 2022-06-20 基于模仿与强化学习的医药机器人自主避障方法及***

Country Status (1)

Country Link
CN (1) CN114779792B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116449850B (zh) * 2023-06-12 2023-09-15 南京泛美利机器人科技有限公司 一种基于行为克隆和协同性系数的三体协同搬运方法及***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CA3060900A1 (en) * 2018-11-05 2020-05-05 Royal Bank Of Canada System and method for deep reinforcement learning
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN113096161A (zh) * 2021-03-31 2021-07-09 哈尔滨工业大学(深圳) 一种密集行人环境下强化学习移动机器人的导航方法及装置
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN113296502A (zh) * 2021-05-08 2021-08-24 华东师范大学 动态环境下基于层级关系图学习的多机器人协同导航方法
CN113743468A (zh) * 2021-08-03 2021-12-03 武汉理工大学 基于多智能体强化学习的协同驾驶信息传播方法及***
CN113780002A (zh) * 2021-08-13 2021-12-10 北京信息科技大学 基于图表示学习和深度强化学习的知识推理方法及装置
CN114167865A (zh) * 2021-12-02 2022-03-11 深圳市证通电子股份有限公司 一种基于对抗生成网络与蚁群算法的机器人路径规划方法
CN114485673A (zh) * 2022-02-09 2022-05-13 山东大学 基于深度强化学习的服务机器人人群感知导航方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546066B2 (en) * 2016-08-31 2020-01-28 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
US20200241542A1 (en) * 2019-01-25 2020-07-30 Bayerische Motoren Werke Aktiengesellschaft Vehicle Equipped with Accelerated Actor-Critic Reinforcement Learning and Method for Accelerating Actor-Critic Reinforcement Learning

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CA3060900A1 (en) * 2018-11-05 2020-05-05 Royal Bank Of Canada System and method for deep reinforcement learning
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN113096161A (zh) * 2021-03-31 2021-07-09 哈尔滨工业大学(深圳) 一种密集行人环境下强化学习移动机器人的导航方法及装置
CN113296502A (zh) * 2021-05-08 2021-08-24 华东师范大学 动态环境下基于层级关系图学习的多机器人协同导航方法
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN113743468A (zh) * 2021-08-03 2021-12-03 武汉理工大学 基于多智能体强化学习的协同驾驶信息传播方法及***
CN113780002A (zh) * 2021-08-13 2021-12-10 北京信息科技大学 基于图表示学习和深度强化学习的知识推理方法及装置
CN114167865A (zh) * 2021-12-02 2022-03-11 深圳市证通电子股份有限公司 一种基于对抗生成网络与蚁群算法的机器人路径规划方法
CN114485673A (zh) * 2022-02-09 2022-05-13 山东大学 基于深度强化学习的服务机器人人群感知导航方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Collision Avoidance in Pedestrian-Rich Environments With Deep Reinforcement Learning;Michael Everett;《IEEE Access》;20210131;第9卷;第10357-10377页 *
Robot Navigation among External Autonomous Agents through Deep Reinforcement Learning using Graph Attention Network;Tianle Zhang;《IFAC-Papers OnLine》;20201231;第53卷(第2期);第9465-9470页 *
Robot Navigation in Crowds by Graph Convolutional Networks With Attention Learned From Human Gaze;Yuying Chen;《IEEE Robotics and Automation Letters》;20200430;第5卷(第2期);第2754-2761页 *
多移动机器人运动目标环绕与避障控制;易国;《仪器仪表学报》;20180228;第39卷(第2期);第11-20页 *

Also Published As

Publication number Publication date
CN114779792A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
Haarnoja et al. Latent space policies for hierarchical reinforcement learning
WO2021103834A1 (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN114603564B (zh) 机械臂导航避障方法、***、计算机设备及存储介质
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN111983922A (zh) 一种基于元模仿学习的机器人演示示教方法
CN113821041B (zh) 一种多机器人协同导航与避障的方法
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
CN112362066A (zh) 一种基于改进的深度强化学习的路径规划方法
CN114779792B (zh) 基于模仿与强化学习的医药机器人自主避障方法及***
CN116050505A (zh) 一种基于伙伴网络的智能体深度强化学习方法
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
Diallo et al. Multi-agent pattern formation: a distributed model-free deep reinforcement learning approach
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
Liu et al. Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards
CN116817909A (zh) 一种基于深度强化学习的无人机中继式导航方法
CN114779661B (zh) 基于多分类生成对抗模仿学习算法的化学合成机器人***
CN113985870B (zh) 一种基于元强化学习的路径规划方法
CN114967472A (zh) 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法
CN118043824A (zh) 检索增强强化学习
Feng et al. Mobile robot obstacle avoidance based on deep reinforcement learning
Yang et al. Least mean p-power extreme learning machine for obstacle avoidance of a mobile robot
Alrubyli et al. Using q-learning to automatically tune quadcopter pid controller online for fast altitude stabilization
Li et al. Automata guided hierarchical reinforcement learning for zero-shot skill composition
Liu et al. AUV Adaptive PID Control Method Based on Deep Reinforcement Learning
Lin et al. Solving maze problem with reinforcement learning by a mobile robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant