CN114779792B - 基于模仿与强化学习的医药机器人自主避障方法及*** - Google Patents
基于模仿与强化学习的医药机器人自主避障方法及*** Download PDFInfo
- Publication number
- CN114779792B CN114779792B CN202210694891.XA CN202210694891A CN114779792B CN 114779792 B CN114779792 B CN 114779792B CN 202210694891 A CN202210694891 A CN 202210694891A CN 114779792 B CN114779792 B CN 114779792B
- Authority
- CN
- China
- Prior art keywords
- medical robot
- medical
- control model
- movement control
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004088 simulation Methods 0.000 title claims abstract description 54
- 239000003814 drug Substances 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000004888 barrier function Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 39
- 230000009471 action Effects 0.000 claims description 35
- 230000000295 complement effect Effects 0.000 claims description 19
- 230000007613 environmental effect Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 18
- 230000000875 corresponding effect Effects 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 13
- 239000003795 chemical substances by application Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 8
- 230000001276 controlling effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000010367 cloning Methods 0.000 claims description 5
- 230000003278 mimic effect Effects 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241000233948 Typha Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于模仿与强化学习的医药机器人自主避障方法及***,该方法包括:步骤1:设置医药机器人医药搬运场景;步骤2:获取专家演示二元组数据;步骤3:构建基于模仿学习和强化学习的医药机器人移动控制模型;步骤4:模型训练;步骤5:对医药机器人进行自主控制。本发明在医药机器人移动控制模型中将图注意模块引入价值网络中,使能够适应智能体和障碍物数量不确定的不同环境,同时,区分了医药机器人可观测范围内不同智能体和障碍物对移医药机器人的影响,使其能够更好地做出决策。只需一组网络参数就可以适用于处理各种情况,即网络具有较好的泛化性。
Description
技术领域
本发明属于机器人自主决策领域,尤其涉及一种基于模仿与强化学习的医药机器人自主避障方法及***。
背景技术
在医药生产行业中,为提高医药生产的效率与质量,医药生产渐渐从传统的人为参与生产转变为以智能机器人为基础的自动化、智能化生产。相比传统的利用传送带等方式进行物资搬运,医药机器人行动更加灵活,搬运码垛效率更高。然而,由于医药生产环境复杂多变,需要医药机器人能够适应不同的环境,即具备自主决策避障能力。
在机器人自主决策领域,深度强化学习由于无需精确建模、算法通用性强等优点,得到了广泛的应用。强化学习是一种通过机器人与周围环境不断交互,进而提高机器人自主决策能力的学习方法(参见文献1:梁星星,冯旸赫,马扬,程光权,黄金才,王琦,周玉珍,刘忠.多Agent深度强化学习综述[J].自动化学报,2020,46(12):2537-2557.)。在机器人移动的每一步中,都与环境进行交互,从中获得奖励或者惩罚,从而使机器人做出的动作策略逐步得到优化,通过不断在状态空间进行迭代搜索,获得最优的动作策略(参见文献2:蒲志强,易建强,刘振,丘腾海,孙金林,李非墨.知识和数据协同驱动的群体智能决策方法研究综述[J].自动化学报,2022,48(03):627-643.)。然而,深度强化学习在学习初期存在着探索空间大,算法难以收敛等问题,因此往往会与模仿学习相结合,首先对价值网络进行初始化(参见文献3:李帅龙,张会文,周维佳.模仿学习方法综述及其在机器人领域的应用[J].计算机工程与应用,2019,55(04):17-30.)。但是模仿学习需要提供大量的专家演示数据,这些数据往往难以获得,尤其是在医药场景下。
中国专利申请CN112433525A公开了一种基于模仿学习及深度强化学习的医药机器人导航方法。该方法通过构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用该耦合的导航框架对医药机器人模型进行训练,进而实现导航任务。然而该方法中模仿学习所需的专家演示数据需要提前准备,此外,该方法由于价值网络的结构所决定,只能处理环境中固定机器人数量的问题。然而实际上,医药环境是动态变化的,环境中智能体的数量、障碍物数量等都有可能发生变化,同时,处于移动机器人周围的智能体和障碍物对移动机器人做出的决策的影响是不同的。当环境中的智能体、障碍物数量发生变化时,常见的深度学习方法需要重新更新网络参数,从而使得模型的泛用性降低。
因此,现有技术需要一种能够为模仿学习算法提供大量专家演示数据集的方法,以及需要提供一种能够在智能体和障碍物数量不确定的环境下实现医药机器人快速自主避障的方法,来处理医药环境下智能体和障碍物数量不确定的医药机器人自主避障。
发明内容
本发明提供了一种基于模仿与强化学习的医药机器人自主避障方法及***,在智能体和障碍物数量不确定的环境下,处理医药搬运环境下智能体和障碍物数量不确定的医药机器人自主避障。
本发明提供的技术方案如下:
一方面,一种基于模仿与强化学习的医药机器人自主避障方法,包括:
步骤1:设置医药机器人医药搬运场景;
步骤2:令医药机器人利用最优互补避障策略在步骤1中设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
环境状态指的是设置的医药机器人搬运场景中该时刻其他智能体和障碍物与医药机器人所处的距离,医药机器人根据最优互补避碰策略得到的动作策略(如:速度=2m/s),输入单片机中转换为相应的控制指令,电机通过控制指令对医药机器人的速度进行改变,控制医药机器人的移动;
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制;
本发明技术方案通过使医药机器人在设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;利用通过采用图注意模块,一方面能够处理医药场景中智能体和障碍物数量实时变化的情况,另一方面,更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。
进一步地,所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,具体如下:
其中,为采用的注意力机制网络权重,,为每个节点输出的特征数;||为拼接操作,LeakyReLU为激活函数,W为每个节点的权重,,F为每个节点输入的特征数,表示空间维度大小;表示空间维度大小为F维的实数域;表示空间维度大小为2维的实数域;表示空间维度大小为维的实数域;
采用多组注意力机制是为了稳定强化学习过程;
输入价值网络模型的前馈部分,使得价值网络模型能够处理环境中智能体或障碍物不定的情况,同时区分出不同的智能体和障碍物对机器人自主避障中的影响。
与常见的通过取最大值或采用LSTM相比,取最大值的方法在大部分时间会无法达到该值,因此浪费了存储空间,同时,对于处于医药机器人周围的智能体和障碍物对医药机器人的影响一视同仁,这显然是不合适的。而基于LSTM的方法,通过将场景中的智能体和障碍物的状态存储在LSTM单元中,实现了根据场景中智能体和障碍物数量来存储,同时,通过对医药场景中除医药机器人以外的智能体和障碍物由远及近进行排序进行存储,利用LSTM对早期输入会遗忘的特性来区分不同的智能体和障碍物对医药机器人的影响,但是,基于LSTM的方法始终需要保证为一个序列,因此利用遗忘特性对不同的智能体和障碍物对医药机器人的影响进行区分不够准确,进而影响后续学习的模型决策。而通过采用图注意模块,一方面能够处理医药场景中智能体和障碍物数量实时变化的情况,另一方面,更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。
进一步地,所述基于模仿学习的医药机器人移动控制模型,以所述专家演示二元组数据进行训练时,是采用行为克隆算法进行模仿学习,具体过程如下:
步骤A2:当前基于模仿学习的医药机器人移动控制模型参数为,初始值为随机取值,将输入基于模仿学习的医药机器人移动控制模型,进行反向传播计算梯度,然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数;
基于模仿学习的医药机器人移动控制模型的损失函数如下:
梯度更新公式如下:
步骤A3:对上述步骤进行迭代直至所述损失函数收敛,获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。
进一步的,医药机器人与医药搬运场景进行交互获得专家演示二元组时,依据最优互补避碰策略确定动作策略,具体如下:
设D1为以p为圆心,r为半径的圆,q为圆内的一点:
医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为:
其中,和分别为医药机器人A和医药机器人B的当前位置,和分别为医药机器人A和医药机器人B所占据的最大圆半径,表示等比符号,表示医药机器人A的移动速度,t表示医药机器人的移动时刻,τ为大于0的时间常量,τ决定有碰撞速度集合的大小;
则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为:
医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为:
确定的动作策略为医药机器人A的移动策略速度:
进一步的,所述基于强化学习的医药机器人移动控制模型训练时,采用doubleDQN算法,具体如下:
以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化;
医药机器人获得当前医药搬运场景即环境状态,利用初始化后的采用doubleDQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略(如:速度=2m/s),当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略移动一步后,获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励,医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态,进而得到探索经验,并将其存放至经验回放池中;
进入到下一个时刻的环境状态的医药机器人再根据所述在线价值网络得到相应的动作策略,进而控制医药机器人移动,再次得到探索经验;当经验回放池中的探索经验足够多时,采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播,对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新,反复从经验回放池中取出经验数组对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大,则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。
经验回放池中的探索经验足够多是指超过8万条四元组数据;当经验回放池满的时候,删除掉最旧的数据更新经验回放池。
在线价值网络和目标价值网络的更新公式分别如下:
其中,为当前在线价值网络的参数,为更新后的在线价值网络参数,为当前目标价值网络的参数,为更新后的目标价值网络参数,为基于图注意模块的价值网络学习率,为折扣因子,为超参数,为每次目标价值网络更新的比例;
进一步的,所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
另一方面,一种基于模仿与强化学习的医药机器人自主避障***,包括:
场景设置单元:设置医药机器人医药搬运场景,并使医药机器人与设置的环境进行交互学习;
专家数据构建单元:令医药机器人利用最优互补避障策略在设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
模型构建与初始化单元:构建基于模仿学习和强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
训练单元:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
控制单元:以训练单元的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
进一步的,基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景,并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
进一步的,所述基于模仿学习的医药机器人移动控制模型,是采用行为克隆算法进行模仿学习;采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
再一方面,一种计算机存储介质,包括计算机程序,所述计算机程序指令被处理终端执行时使所述处理终端执行上述一种基于模仿与强化学习的医药机器人自主避障方法。
有益效果
相较于现有技术而言,本方案存在以下几点优点:
1、将图注意模块引入价值网络中,使能够适应智能体和障碍物数量不确定的不同环境,同时,区分了医药机器人可观测范围内不同智能体和障碍物对医药机器人的影响,使其能够更好地做出决策。与针对具有不同数量智能体和障碍物的新环境进行再训练不同,只需一组网络参数就可以适用于处理各种情况,即网络具有较好的泛化性。
2、采用模仿学习和强化学习相结合的方法,解决了强化学习中动作策略探索空间大,奖励稀疏、延迟回报的问题。
3、利用最优互补避碰策略获得大量的演示经验,更好的解决了模仿学习中专家演示数据集难以获取的问题。
附图说明
图1为本发明实例的工作原理整体框架示意图;
图2 为本发明实例中采用的模仿学习模型结构图;
图3 为本发明实例中采用的基于图注意模块的价值网络模型结构图;
图4 为本发明实例中采用的强化学习模型结构图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
实施例1
本发明技术方案提供的实施例一种基于模仿与强化学习的医药机器人自主避障方法,如图1-图4所示,包括:
步骤1:设置医药机器人医药搬运场景;
结合实际医药搬运场景,布置训练环境场地;
步骤2:医药机器人利用最优互补避障策略在步骤1中设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
医药机器人通过激光雷达判断与周围智能体和障碍物的距离,进而判断当前环境状态,智能体指除医药机器人自身以外的其他医药搬运机器人,障碍物包括医药搬运物资、医护工作人员等除医药机器人以外的医药场景中的物体。
环境状态指的是设置的医药机器人搬运场景中该时刻其他智能体和障碍物与医药机器人所处的距离,医药机器人根据最优互补避碰策略得到的动作策略(如:速度=2m/s),输入单片机中转换为相应的控制指令,电机通过控制指令对医药机器人的速度进行改变,控制医药机器人的移动。
医药机器人与医药搬运场景进行交互时,依据最优互补避碰策略确定动作策略,具体如下:
设D1为以p为圆心,r为半径的圆,q为圆内的一点:
医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为:
其中,和分别为医药机器人A和医药机器人B的当前位置,和分别为医药机器人A和医药机器人B所占据的最大圆半径,表示等比符号,表示医药机器人A的移动速度,t表示医药机器人的移动时刻,τ为大于0的时间常量,通常取值为2,τ决定有碰撞速度集合的大小;
则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为:
医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为:
确定的动作策略为医药机器人A的移动策略速度:
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
由于医药机器人在医药场景中进行搬运时,周围除了其他医药机器人的存在,还有可能会出现医护工作人员等进行走动,因此医药机器人周围的智能体和障碍物数量是不定的,然而后续所采用的前馈神经网络需要固定维度的输入,即需要医药机器人能够自适应场景中智能体和障碍物数量的变化,并将其转换为固定维度输入前馈网络。同时,智能体和障碍物与医药机器人的距离的远近对医药机器人的影响是不同的,将所有智能体和障碍物的影响一视同仁显然是不合适的。因此,在价值网络模型中引入图注意模块,通过图注意模块建立空间特征图来处理智能体和障碍物数目不定的场景。将医药机器人所观察到的医药场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,具体如下:
其中,为采用的注意力机制网络权重,,为每个节点输出的特征数;||为拼接操作,LeakyReLU为激活函数,W为每个节点的权重,,F为每个节点输入的特征数;表示空间维度大小为F维的实数域;表示空间维度大小为2维的实数域;表示空间维度大小为维的实数域;
采用多组注意力机制是为了稳定强化学习过程;
输入价值网络模型的前馈部分,使得价值网络模型能够处理环境中智能体或障碍物不定的情况,同时区分出不同的智能体和障碍物对机器人自主避障中的影响。
与常见的通过取最大值或采用LSTM相比,取最大值的方法在大部分时间会无法达到该值,因此浪费了存储空间,同时,对于处于医药机器人周围的智能体和障碍物对医药机器人的影响一视同仁,这显然是不合适的。而基于LSTM的方法,通过将场景中的智能体和障碍物的状态存储在LSTM单元中,实现了根据场景中智能体和障碍物数量来存储,同时,通过对医药场景中除医药机器人以外的智能体和障碍物由远及近进行排序进行存储,利用LSTM对早期输入会遗忘的特性来区分不同的智能体和障碍物对医药机器人的影响,但是,基于LSTM的方法始终需要保证为一个序列,因此利用遗忘特性对不同的智能体和障碍物对医药机器人的影响进行区分不够准确,进而影响后续学习的模型决策。而通过采用图注意模块,一方面能够处理医药场景中智能体和障碍物数量实时变化的情况,另一方面,更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
所述基于模仿学习的医药机器人移动控制模型,以所述专家演示二元组数据进行训练时,是采用行为克隆算法进行模仿学习,具体过程如下:
步骤A2:当前基于模仿学习的医药机器人移动控制模型参数为,初始值为随机取值,将输入基于模仿学习的医药机器人移动控制模型,进行反向传播计算梯度,然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数;
基于模仿学习的医药机器人移动控制模型的损失函数如下:
梯度更新公式如下:
步骤A3:对上述步骤进行迭代直至所述损失函数收敛,获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。
所述基于强化学习的医药机器人移动控制模型训练时,采用double DQN算法,具体如下:
以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化;
医药机器人获得当前医药搬运场景即环境状态,利用初始化后的采用doubleDQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略(如:速度=2m/s),当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略移动一步后,获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励,医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态,进而得到探索经验,并将其存放至经验回放池中;
进入到下一个时刻的环境状态的医药机器人再根据所述在线价值网络得到相应的动作策略,进而控制医药机器人移动,再次得到探索经验;当经验回放池中的探索经验足够多时,采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播,对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新,反复从经验回放池中取出经验数组对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大,则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。
其中,基于强化学习的医药机器人移动控制模型的目标价值网络在医药机器人前进n步后进行更新,n根据实际医用场景的大小进行设置,且只有在回放数组中有足够多的四元组时,才开始更新基于强化学习的医药机器人移动控制模型的在线价值网络。当在回放数组中的四元组数量不够时,基于强化学习的医药机器人移动控制模型的在线价值网络只与环境交互,不更新参数。
经验回放池中的探索经验足够多是指超过8万条四元组数据;当经验回放池满的时候,删除掉最旧的数据更新经验回放池。
double DQN网络的输入是状态s,输出是Q值。
在线价值网络和目标价值网络的更新公式分别如下:
其中,为当前在线价值网络的参数,为更新后的在线价值网络参数,为当前目标价值网络的参数,为更新后的目标价值网络参数,为基于图注意模块的价值网络学习率,为折扣因子,为超参数,为每次目标价值网络更新的比例;
所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
实施例2
本发明技术方案实施例提供一种基于模仿与强化学习的医药机器人自主避障***,包括:
场景设置单元:设置医药机器人医药搬运场景;
专家数据构建单元:令医药机器人利用最优互补避障策略在设置的医药机器人医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
模型构建与初始化单元:构建基于模仿学习和强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
训练单元:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
控制单元:以训练单元的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景,并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
具体各个模块的实现过程请参照上述方法的内容,在此不再赘述。应该理解到,上述功能模块的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
实施例3
本发明技术方案实施例还提供一种计算机存储介质,包括计算机程序,所述计算机程序指令被处理终端执行时使所述处理终端执行一种基于模仿与强化学习的医药机器人自主避障方法:
步骤1:设置医药机器人医药搬运场景;
步骤2:医药机器人利用最优互补避障策略在步骤1中设置的进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
各个步骤的具体实现过程请参照前述方法实施例1的阐述。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于模仿与强化学习的医药机器人自主避障方法,其特征在于,包括:
步骤1:设置医药机器人医药搬运场景;
步骤2:令医药机器人利用最优互补避障策略在步骤1中设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
2.根据权利要求1所述的方法,其特征在于,所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,具体如下:
其中,为采用的注意力机制网络权重,,为每个节点输出的特征数;||为拼接操作,LeakyReLU为激活函数,W为每个节点的权重,,F为每个节点输入的特征数;表示空间维度大小为F维的实数域;表示空间维度大小为2维的实数域;表示空间维度大小为维的实数域;
3.根据权利要求1所述的方法,其特征在于,所述基于模仿学习的医药机器人移动控制模型,以所述专家演示二元组数据进行训练时,是采用行为克隆算法进行模仿学习,具体过程如下:
步骤A2:当前基于模仿学习的医药机器人移动控制模型参数为,初始值为随机取值,将输入基于模仿学习的医药机器人移动控制模型,进行反向传播计算梯度,然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数;
基于模仿学习的医药机器人移动控制模型的损失函数如下:
梯度更新公式如下:
步骤A3:对上述步骤进行迭代直至所述损失函数收敛,获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。
4.根据权利要求1所述的方法,其特征在于,医药机器人在医药搬运场景中移动时,依据最优互补避碰策略确定动作策略,具体如下:
设D1为以p为圆心,r为半径的圆,q为圆内的一点:
医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为:
则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为:
医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为:
确定的动作策略为医药机器人A的移动策略速度:
5.根据权利要求1所述的方法,其特征在于,所述基于强化学习的医药机器人移动控制模型训练时,采用double DQN算法,具体如下:
以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化;
医药机器人获得当前医药搬运场景即环境状态,利用初始化后的采用double DQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略,当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略移动一步后,获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励,医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态,进而得到探索经验,并将其存放至经验回放池中;
7.一种基于模仿与强化学习的医药机器人自主避障***,其特征在于,包括:
场景设置单元:设置医药机器人医药搬运场景;
专家数据构建单元:令医药机器人利用最优互补避障策略在设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
模型构建与初始化单元:构建基于模仿学习和强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
训练单元:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
控制单元:以训练单元的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
8.根据权利要求7所述的***,其特征在于,基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景,并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
10.一种计算机存储介质,包括计算机程序,其特征在于,所述计算机程序指令被处理终端执行时使所述处理终端执行权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210694891.XA CN114779792B (zh) | 2022-06-20 | 2022-06-20 | 基于模仿与强化学习的医药机器人自主避障方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210694891.XA CN114779792B (zh) | 2022-06-20 | 2022-06-20 | 基于模仿与强化学习的医药机器人自主避障方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114779792A CN114779792A (zh) | 2022-07-22 |
CN114779792B true CN114779792B (zh) | 2022-09-09 |
Family
ID=82421264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210694891.XA Active CN114779792B (zh) | 2022-06-20 | 2022-06-20 | 基于模仿与强化学习的医药机器人自主避障方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114779792B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116449850B (zh) * | 2023-06-12 | 2023-09-15 | 南京泛美利机器人科技有限公司 | 一种基于行为克隆和协同性系数的三体协同搬运方法及*** |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298239A (zh) * | 2014-09-29 | 2015-01-21 | 湖南大学 | 一种室内移动机器人增强地图学习路径规划方法 |
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CA3060900A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | System and method for deep reinforcement learning |
CN112433525A (zh) * | 2020-11-16 | 2021-03-02 | 南京理工大学 | 基于模仿学习及深度强化学习的移动机器人导航方法 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN113096161A (zh) * | 2021-03-31 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种密集行人环境下强化学习移动机器人的导航方法及装置 |
CN113282093A (zh) * | 2021-07-21 | 2021-08-20 | 中国科学院自动化研究所 | 机器人导航方法、装置、电子设备及存储介质 |
CN113296502A (zh) * | 2021-05-08 | 2021-08-24 | 华东师范大学 | 动态环境下基于层级关系图学习的多机器人协同导航方法 |
CN113743468A (zh) * | 2021-08-03 | 2021-12-03 | 武汉理工大学 | 基于多智能体强化学习的协同驾驶信息传播方法及*** |
CN113780002A (zh) * | 2021-08-13 | 2021-12-10 | 北京信息科技大学 | 基于图表示学习和深度强化学习的知识推理方法及装置 |
CN114167865A (zh) * | 2021-12-02 | 2022-03-11 | 深圳市证通电子股份有限公司 | 一种基于对抗生成网络与蚁群算法的机器人路径规划方法 |
CN114485673A (zh) * | 2022-02-09 | 2022-05-13 | 山东大学 | 基于深度强化学习的服务机器人人群感知导航方法及*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10546066B2 (en) * | 2016-08-31 | 2020-01-28 | Microsoft Technology Licensing, Llc | End-to-end learning of dialogue agents for information access |
US20200241542A1 (en) * | 2019-01-25 | 2020-07-30 | Bayerische Motoren Werke Aktiengesellschaft | Vehicle Equipped with Accelerated Actor-Critic Reinforcement Learning and Method for Accelerating Actor-Critic Reinforcement Learning |
-
2022
- 2022-06-20 CN CN202210694891.XA patent/CN114779792B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298239A (zh) * | 2014-09-29 | 2015-01-21 | 湖南大学 | 一种室内移动机器人增强地图学习路径规划方法 |
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CA3060900A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | System and method for deep reinforcement learning |
CN112433525A (zh) * | 2020-11-16 | 2021-03-02 | 南京理工大学 | 基于模仿学习及深度强化学习的移动机器人导航方法 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN113096161A (zh) * | 2021-03-31 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种密集行人环境下强化学习移动机器人的导航方法及装置 |
CN113296502A (zh) * | 2021-05-08 | 2021-08-24 | 华东师范大学 | 动态环境下基于层级关系图学习的多机器人协同导航方法 |
CN113282093A (zh) * | 2021-07-21 | 2021-08-20 | 中国科学院自动化研究所 | 机器人导航方法、装置、电子设备及存储介质 |
CN113743468A (zh) * | 2021-08-03 | 2021-12-03 | 武汉理工大学 | 基于多智能体强化学习的协同驾驶信息传播方法及*** |
CN113780002A (zh) * | 2021-08-13 | 2021-12-10 | 北京信息科技大学 | 基于图表示学习和深度强化学习的知识推理方法及装置 |
CN114167865A (zh) * | 2021-12-02 | 2022-03-11 | 深圳市证通电子股份有限公司 | 一种基于对抗生成网络与蚁群算法的机器人路径规划方法 |
CN114485673A (zh) * | 2022-02-09 | 2022-05-13 | 山东大学 | 基于深度强化学习的服务机器人人群感知导航方法及*** |
Non-Patent Citations (4)
Title |
---|
Collision Avoidance in Pedestrian-Rich Environments With Deep Reinforcement Learning;Michael Everett;《IEEE Access》;20210131;第9卷;第10357-10377页 * |
Robot Navigation among External Autonomous Agents through Deep Reinforcement Learning using Graph Attention Network;Tianle Zhang;《IFAC-Papers OnLine》;20201231;第53卷(第2期);第9465-9470页 * |
Robot Navigation in Crowds by Graph Convolutional Networks With Attention Learned From Human Gaze;Yuying Chen;《IEEE Robotics and Automation Letters》;20200430;第5卷(第2期);第2754-2761页 * |
多移动机器人运动目标环绕与避障控制;易国;《仪器仪表学报》;20180228;第39卷(第2期);第11-20页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114779792A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Haarnoja et al. | Latent space policies for hierarchical reinforcement learning | |
WO2021103834A1 (zh) | 换道决策模型生成方法和无人车换道决策方法及装置 | |
CN114603564B (zh) | 机械臂导航避障方法、***、计算机设备及存储介质 | |
CN112947562B (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN111983922A (zh) | 一种基于元模仿学习的机器人演示示教方法 | |
CN113821041B (zh) | 一种多机器人协同导航与避障的方法 | |
CN112819253A (zh) | 一种无人机避障和路径规划装置及方法 | |
CN112362066A (zh) | 一种基于改进的深度强化学习的路径规划方法 | |
CN114779792B (zh) | 基于模仿与强化学习的医药机器人自主避障方法及*** | |
CN116050505A (zh) | 一种基于伙伴网络的智能体深度强化学习方法 | |
CN116700327A (zh) | 一种基于连续动作优势函数学习的无人机轨迹规划方法 | |
Diallo et al. | Multi-agent pattern formation: a distributed model-free deep reinforcement learning approach | |
Ejaz et al. | Autonomous visual navigation using deep reinforcement learning: An overview | |
Liu et al. | Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards | |
CN116817909A (zh) | 一种基于深度强化学习的无人机中继式导航方法 | |
CN114779661B (zh) | 基于多分类生成对抗模仿学习算法的化学合成机器人*** | |
CN113985870B (zh) | 一种基于元强化学习的路径规划方法 | |
CN114967472A (zh) | 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法 | |
CN118043824A (zh) | 检索增强强化学习 | |
Feng et al. | Mobile robot obstacle avoidance based on deep reinforcement learning | |
Yang et al. | Least mean p-power extreme learning machine for obstacle avoidance of a mobile robot | |
Alrubyli et al. | Using q-learning to automatically tune quadcopter pid controller online for fast altitude stabilization | |
Li et al. | Automata guided hierarchical reinforcement learning for zero-shot skill composition | |
Liu et al. | AUV Adaptive PID Control Method Based on Deep Reinforcement Learning | |
Lin et al. | Solving maze problem with reinforcement learning by a mobile robot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |