CN114779792B

CN114779792B - 基于模仿与强化学习的医药机器人自主避障方法及***

Info

Publication number: CN114779792B
Application number: CN202210694891.XA
Authority: CN
Inventors: 张辉; 王可; 曹意宏; 刘立柱; 陈煜嵘; 袁小芳; 毛建旭; 王耀南
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-09
Anticipated expiration: 2042-06-20
Also published as: CN114779792A

Abstract

本发明公开了一种基于模仿与强化学习的医药机器人自主避障方法及***，该方法包括：步骤1：设置医药机器人医药搬运场景；步骤2：获取专家演示二元组数据；步骤3：构建基于模仿学习和强化学习的医药机器人移动控制模型；步骤4：模型训练；步骤5：对医药机器人进行自主控制。本发明在医药机器人移动控制模型中将图注意模块引入价值网络中，使能够适应智能体和障碍物数量不确定的不同环境，同时，区分了医药机器人可观测范围内不同智能体和障碍物对移医药机器人的影响，使其能够更好地做出决策。只需一组网络参数就可以适用于处理各种情况，即网络具有较好的泛化性。

Description

基于模仿与强化学习的医药机器人自主避障方法及***

技术领域

本发明属于机器人自主决策领域，尤其涉及一种基于模仿与强化学习的医药机器人自主避障方法及***。

背景技术

在医药生产行业中，为提高医药生产的效率与质量，医药生产渐渐从传统的人为参与生产转变为以智能机器人为基础的自动化、智能化生产。相比传统的利用传送带等方式进行物资搬运，医药机器人行动更加灵活，搬运码垛效率更高。然而，由于医药生产环境复杂多变，需要医药机器人能够适应不同的环境，即具备自主决策避障能力。

在机器人自主决策领域，深度强化学习由于无需精确建模、算法通用性强等优点，得到了广泛的应用。强化学习是一种通过机器人与周围环境不断交互，进而提高机器人自主决策能力的学习方法（参见文献1：梁星星,冯旸赫,马扬,程光权,黄金才,王琦,周玉珍,刘忠.多Agent深度强化学习综述[J].自动化学报,2020,46(12):2537-2557.）。在机器人移动的每一步中，都与环境进行交互，从中获得奖励或者惩罚，从而使机器人做出的动作策略逐步得到优化，通过不断在状态空间进行迭代搜索，获得最优的动作策略（参见文献2：蒲志强,易建强,刘振,丘腾海,孙金林,李非墨.知识和数据协同驱动的群体智能决策方法研究综述[J].自动化学报,2022,48(03):627-643.）。然而，深度强化学习在学习初期存在着探索空间大，算法难以收敛等问题，因此往往会与模仿学习相结合，首先对价值网络进行初始化（参见文献3：李帅龙,张会文,周维佳.模仿学习方法综述及其在机器人领域的应用[J].计算机工程与应用,2019,55(04):17-30.）。但是模仿学习需要提供大量的专家演示数据，这些数据往往难以获得，尤其是在医药场景下。

中国专利申请CN112433525A公开了一种基于模仿学习及深度强化学习的医药机器人导航方法。该方法通过构建基于模仿学习及深度强化学习算法耦合的导航控制框架，利用该耦合的导航框架对医药机器人模型进行训练，进而实现导航任务。然而该方法中模仿学习所需的专家演示数据需要提前准备，此外，该方法由于价值网络的结构所决定，只能处理环境中固定机器人数量的问题。然而实际上，医药环境是动态变化的，环境中智能体的数量、障碍物数量等都有可能发生变化，同时，处于移动机器人周围的智能体和障碍物对移动机器人做出的决策的影响是不同的。当环境中的智能体、障碍物数量发生变化时，常见的深度学习方法需要重新更新网络参数，从而使得模型的泛用性降低。

因此，现有技术需要一种能够为模仿学习算法提供大量专家演示数据集的方法，以及需要提供一种能够在智能体和障碍物数量不确定的环境下实现医药机器人快速自主避障的方法，来处理医药环境下智能体和障碍物数量不确定的医药机器人自主避障。

发明内容

本发明提供了一种基于模仿与强化学习的医药机器人自主避障方法及***，在智能体和障碍物数量不确定的环境下，处理医药搬运环境下智能体和障碍物数量不确定的医药机器人自主避障。

本发明提供的技术方案如下：

一方面，一种基于模仿与强化学习的医药机器人自主避障方法，包括：

步骤1：设置医药机器人医药搬运场景；

步骤2：令医药机器人利用最优互补避障策略在步骤1中设置的医药搬运场景中进行移动，获取环境状态与医药机器人动作策略构成的专家演示二元组数据；

环境状态指的是设置的医药机器人搬运场景中该时刻其他智能体和障碍物与医药机器人所处的距离，医药机器人根据最优互补避碰策略得到的动作策略（如：速度=2m/s），输入单片机中转换为相应的控制指令，电机通过控制指令对医药机器人的速度进行改变，控制医药机器人的移动；

步骤3：采用模仿学习网络和强化学习网络，分别构建基于模仿学习、强化学习的医药机器人移动控制模型；

以所述专家演示二元组数据，对基于模仿学习的医药机器人移动控制模型，进行训练；以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化；

所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构；

步骤4：基于医药搬运场景设置移动步数，令医药机器人与医药搬运场景进行交互训练，训练所述基于强化学习的医药机器人移动控制模型，获得累计奖励最高的基于强化学习的医药机器人移动控制模型；

步骤5：以步骤4得到的所述基于强化学习的医药机器人移动控制模型，对医药机器人进行自主控制；

本发明技术方案通过使医药机器人在设置的医药搬运场景中进行移动，获取环境状态与医药机器人动作策略构成的专家演示二元组数据；利用通过采用图注意模块，一方面能够处理医药场景中智能体和障碍物数量实时变化的情况，另一方面，更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。

进一步地，所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构，具体如下：

令节点i表示当前医药机器人，当前医药机器人的输入特征向量为

，

；节点j为当前医药机器人可测量半径内的某一障碍物或者智能体，其输入特征向量为

，

，则节点i和节点j之间的注意力系数

为：

其中，

为采用的注意力机制网络权重，

，

为每个节点输出的特征数；||为拼接操作，LeakyReLU为激活函数，W为每个节点的权重，

，F为每个节点输入的特征数，

表示空间维度大小

；

表示空间维度大小为F维的实数域；

表示空间维度大小为2

维的实数域；

表示空间维度大小为

维的实数域；

对当前医药机器人周围所有的智能体和障碍物计算注意力系数，得到进行归一化后的某一障碍物或者智能体对当前医药机器人的影响系数

：

其中，

为节点i的所有相邻节点；

对当前医药机器人可测量半径内所有智能体和障碍物均计算出影响系数

，并基于多组注意力机制并进行拼接，得到当前医药机器人的输出特征向量

：

其中，||为拼接操作，K为注意力机制的个数，k1表示注意力机制的序号，

为非线性激活函数。

采用多组注意力机制是为了稳定强化学习过程；

输入价值网络模型的前馈部分，使得价值网络模型能够处理环境中智能体或障碍物不定的情况，同时区分出不同的智能体和障碍物对机器人自主避障中的影响。

与常见的通过取最大值或采用LSTM相比，取最大值的方法在大部分时间会无法达到该值，因此浪费了存储空间，同时，对于处于医药机器人周围的智能体和障碍物对医药机器人的影响一视同仁，这显然是不合适的。而基于LSTM的方法，通过将场景中的智能体和障碍物的状态存储在LSTM单元中，实现了根据场景中智能体和障碍物数量来存储，同时，通过对医药场景中除医药机器人以外的智能体和障碍物由远及近进行排序进行存储，利用LSTM对早期输入会遗忘的特性来区分不同的智能体和障碍物对医药机器人的影响，但是，基于LSTM的方法始终需要保证为一个序列，因此利用遗忘特性对不同的智能体和障碍物对医药机器人的影响进行区分不够准确，进而影响后续学习的模型决策。而通过采用图注意模块，一方面能够处理医药场景中智能体和障碍物数量实时变化的情况，另一方面，更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。

进一步地，所述基于模仿学习的医药机器人移动控制模型，以所述专家演示二元组数据进行训练时，是采用行为克隆算法进行模仿学习，具体过程如下：

步骤A1：在给定的专家演示数据集

中进行均匀随机抽样，得到

，

依次表示第一个时刻到第n个时刻的环境状态，

依次表示在环境状态

下的动作策略；

步骤A2：当前基于模仿学习的医药机器人移动控制模型参数为

，初始值为随机取值，将

输入基于模仿学习的医药机器人移动控制模型，进行反向传播计算梯度，然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数；

基于模仿学习的医药机器人移动控制模型的损失函数如下：

表示基于模仿学习的医药机器人移动控制模型在参数为

和环境状态为s时做出的动作策略，

为给定的专家演示数据集D中与s对应的动作策略；

梯度更新公式如下：

其中，

为更新后的模型参数，

为当前的模型参数，β为行为克隆学习率；

步骤A3：对上述步骤进行迭代直至所述损失函数收敛，获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。

进一步的，医药机器人与医药搬运场景进行交互获得专家演示二元组时，依据最优互补避碰策略确定动作策略，具体如下：

设D1为以p为圆心，r为半径的圆，q为圆内的一点：

医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为：

其中，

和

分别为医药机器人A和医药机器人B的当前位置，

和

分别为医药机器人A和医药机器人B所占据的最大圆半径，

表示等比符号，

表示医药机器人A的移动速度，t表示医药机器人的移动时刻，τ为大于0的时间常量，τ决定有碰撞速度集合的大小；

则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为：

其中，

是以

为起点，指向最接近

边界上的点的向量，

为医药机器人A对于医药机器人B的τ时间内有碰撞速度集合

的边界，其计算公式为：

n是以

边界上的点

为起点向外延伸作的法线，其计算公式为：

医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为：

其中，

为医药机器人A的最大速率；

确定的动作策略为医药机器人A的移动策略速度：

。

进一步的，所述基于强化学习的医药机器人移动控制模型训练时，采用doubleDQN算法，具体如下：

以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化；

医药机器人获得当前医药搬运场景即环境状态

，利用初始化后的采用doubleDQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略

（如：速度=2m/s），当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略

移动一步后，获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励

，医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态

，进而得到探索经验

，并将其存放至经验回放池中；

进入到下一个时刻的环境状态

的医药机器人再根据所述在线价值网络得到相应的动作策略

，进而控制医药机器人移动，再次得到探索经验；当经验回放池中的探索经验足够多时，采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播，对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新，反复从经验回放池中取出经验数组对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大，则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。

经验回放池中的探索经验足够多是指超过8万条四元组数据；当经验回放池满的时候，删除掉最旧的数据更新经验回放池。

在线价值网络和目标价值网络的更新公式分别如下：

其中，

为当前在线价值网络的参数，

为更新后的在线价值网络参数，

为当前目标价值网络的参数，

为更新后的目标价值网络参数，

为基于图注意模块的价值网络学习率，

为折扣因子，

为超参数，为每次目标价值网络更新的比例；

进一步的，所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下：

其中，

为医药机器人A的当前位置，

为医药机器人A要到达的目标位置，

表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度，取值为医药机器人A与离它最近的其他智能体的距离。

另一方面，一种基于模仿与强化学习的医药机器人自主避障***，包括：

场景设置单元：设置医药机器人医药搬运场景，并使医药机器人与设置的环境进行交互学习；

专家数据构建单元：令医药机器人利用最优互补避障策略在设置的医药搬运场景中进行移动，获取环境状态与医药机器人动作策略构成的专家演示二元组数据；

模型构建与初始化单元：构建基于模仿学习和强化学习的医药机器人移动控制模型；

所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构；

训练单元：基于医药搬运场景设置移动步数，令医药机器人与医药搬运场景进行交互训练，训练所述基于强化学习的医药机器人移动控制模型，获得累计奖励最高的基于强化学习的医药机器人移动控制模型；

控制单元：以训练单元的所述基于强化学习的医药机器人移动控制模型，对医药机器人进行自主控制。

进一步的，基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构，是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景，并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中，医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。

进一步的，所述基于模仿学习的医药机器人移动控制模型，是采用行为克隆算法进行模仿学习；采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下：

其中，

为医药机器人A的当前位置，

为医药机器人A要到达的目标位置，

再一方面，一种计算机存储介质，包括计算机程序，所述计算机程序指令被处理终端执行时使所述处理终端执行上述一种基于模仿与强化学习的医药机器人自主避障方法。

有益效果

相较于现有技术而言，本方案存在以下几点优点：

1、将图注意模块引入价值网络中，使能够适应智能体和障碍物数量不确定的不同环境，同时，区分了医药机器人可观测范围内不同智能体和障碍物对医药机器人的影响，使其能够更好地做出决策。与针对具有不同数量智能体和障碍物的新环境进行再训练不同，只需一组网络参数就可以适用于处理各种情况，即网络具有较好的泛化性。

2、采用模仿学习和强化学习相结合的方法，解决了强化学习中动作策略探索空间大，奖励稀疏、延迟回报的问题。

3、利用最优互补避碰策略获得大量的演示经验，更好的解决了模仿学习中专家演示数据集难以获取的问题。

附图说明

图1为本发明实例的工作原理整体框架示意图；

图2 为本发明实例中采用的模仿学习模型结构图；

图3 为本发明实例中采用的基于图注意模块的价值网络模型结构图；

图4 为本发明实例中采用的强化学习模型结构图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

实施例1

本发明技术方案提供的实施例一种基于模仿与强化学习的医药机器人自主避障方法，如图1-图4所示，包括：

步骤1：设置医药机器人医药搬运场景；

结合实际医药搬运场景，布置训练环境场地；

步骤2：医药机器人利用最优互补避障策略在步骤1中设置的医药搬运场景中进行移动，获取环境状态与医药机器人动作策略构成的专家演示二元组数据；

医药机器人通过激光雷达判断与周围智能体和障碍物的距离，进而判断当前环境状态，智能体指除医药机器人自身以外的其他医药搬运机器人，障碍物包括医药搬运物资、医护工作人员等除医药机器人以外的医药场景中的物体。

环境状态指的是设置的医药机器人搬运场景中该时刻其他智能体和障碍物与医药机器人所处的距离，医药机器人根据最优互补避碰策略得到的动作策略（如：速度=2m/s），输入单片机中转换为相应的控制指令，电机通过控制指令对医药机器人的速度进行改变，控制医药机器人的移动。

医药机器人与医药搬运场景进行交互时，依据最优互补避碰策略确定动作策略，具体如下：

设D1为以p为圆心，r为半径的圆，q为圆内的一点：

医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为：

其中，

和

分别为医药机器人A和医药机器人B的当前位置，

和

分别为医药机器人A和医药机器人B所占据的最大圆半径，

表示等比符号，

表示医药机器人A的移动速度，t表示医药机器人的移动时刻，τ为大于0的时间常量，通常取值为2，τ决定有碰撞速度集合的大小；

其中，

是以

为起点，指向最接近

边界上的点的向量，

为医药机器人A对于医药机器人B的τ时间内有碰撞速度集合

的边界，其计算公式为：

n是以

边界上的点

为起点向外延伸作的法线，其计算公式为：

其中，

为医药机器人A的最大速率；

确定的动作策略为医药机器人A的移动策略速度：

。

由于医药机器人在医药场景中进行搬运时，周围除了其他医药机器人的存在，还有可能会出现医护工作人员等进行走动，因此医药机器人周围的智能体和障碍物数量是不定的，然而后续所采用的前馈神经网络需要固定维度的输入，即需要医药机器人能够自适应场景中智能体和障碍物数量的变化，并将其转换为固定维度输入前馈网络。同时，智能体和障碍物与医药机器人的距离的远近对医药机器人的影响是不同的，将所有智能体和障碍物的影响一视同仁显然是不合适的。因此，在价值网络模型中引入图注意模块，通过图注意模块建立空间特征图来处理智能体和障碍物数目不定的场景。将医药机器人所观察到的医药场景中的智能体和障碍物的距离作为特征输入图注意模块中，医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。

所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构，具体如下：

，

，

，则节点i和节点j之间的注意力系数

为：

其中，

为采用的注意力机制网络权重，

，

，F为每个节点输入的特征数；

表示空间维度大小为F维的实数域；

表示空间维度大小为2

维的实数域；

表示空间维度大小为

维的实数域；

：

其中，

为节点i的所有相邻节点；

：

为非线性激活函数。

采用多组注意力机制是为了稳定强化学习过程；

所述基于模仿学习的医药机器人移动控制模型，以所述专家演示二元组数据进行训练时，是采用行为克隆算法进行模仿学习，具体过程如下：

步骤A1：在给定的专家演示数据集

中进行均匀随机抽样，得到

，

依次表示第一个时刻到第n个时刻的环境状态，

依次表示在环境状态

下的动作策略；

，初始值为随机取值，将

基于模仿学习的医药机器人移动控制模型的损失函数如下：

表示基于模仿学习的医药机器人移动控制模型在参数为

和环境状态为s时做出的动作策略，

为给定的专家演示数据集D中与s对应的动作策略；

梯度更新公式如下：

其中，

为更新后的模型参数，

为当前的模型参数，β为行为克隆学习率；

所述基于强化学习的医药机器人移动控制模型训练时，采用double DQN算法，具体如下：

医药机器人获得当前医药搬运场景即环境状态

，进而得到探索经验

，并将其存放至经验回放池中；

进入到下一个时刻的环境状态

的医药机器人再根据所述在线价值网络得到相应的动作策略

其中，基于强化学习的医药机器人移动控制模型的目标价值网络在医药机器人前进n步后进行更新，n根据实际医用场景的大小进行设置，且只有在回放数组中有足够多的四元组时，才开始更新基于强化学习的医药机器人移动控制模型的在线价值网络。当在回放数组中的四元组数量不够时，基于强化学习的医药机器人移动控制模型的在线价值网络只与环境交互，不更新参数。

double DQN网络的输入是状态s，输出是Q值。

在线价值网络和目标价值网络的更新公式分别如下：

其中，

为当前在线价值网络的参数，

为更新后的在线价值网络参数，

为当前目标价值网络的参数，

为更新后的目标价值网络参数，

为基于图注意模块的价值网络学习率，

为折扣因子，

为超参数，为每次目标价值网络更新的比例；

所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下：

其中，

为医药机器人A的当前位置，

为医药机器人A要到达的目标位置，

步骤5：以步骤4得到的所述基于强化学习的医药机器人移动控制模型，对医药机器人进行自主控制。

实施例2

本发明技术方案实施例提供一种基于模仿与强化学习的医药机器人自主避障***，包括：

场景设置单元：设置医药机器人医药搬运场景；

专家数据构建单元：令医药机器人利用最优互补避障策略在设置的医药机器人医药搬运场景中进行移动，获取环境状态与医药机器人动作策略构成的专家演示二元组数据；

基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构，是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景，并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中，医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。

具体各个模块的实现过程请参照上述方法的内容，在此不再赘述。应该理解到，上述功能模块的划分仅仅是一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。同时，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

实施例3

本发明技术方案实施例还提供一种计算机存储介质，包括计算机程序，所述计算机程序指令被处理终端执行时使所述处理终端执行一种基于模仿与强化学习的医药机器人自主避障方法：

步骤1：设置医药机器人医药搬运场景；

步骤2：医药机器人利用最优互补避障策略在步骤1中设置的进行移动，获取环境状态与医药机器人动作策略构成的专家演示二元组数据；

各个步骤的具体实现过程请参照前述方法实施例1的阐述。

所述可读存储介质为计算机可读存储介质，其可以是前述任一实施例所述的控制器的内部存储单元，例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备，例如所述控制器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于模仿与强化学习的医药机器人自主避障方法，其特征在于，包括：

步骤1：设置医药机器人医药搬运场景；

步骤4：基于医药搬运场景设置移动步数，令医药机器人与医药搬运场景进行交互，训练所述基于强化学习的医药机器人移动控制模型，获得累计奖励最高的基于强化学习的医药机器人移动控制模型；

2.根据权利要求1所述的方法，其特征在于，所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构，具体如下：

，

，

，则节点i和节点j之间的注意力系数

为：

其中，

为采用的注意力机制网络权重，

，

，F为每个节点输入的特征数；

表示空间维度大小为F维的实数域；

表示空间维度大小为2

维的实数域；

表示空间维度大小为

维的实数域；

：

其中，

为节点i的所有相邻节点；

：

为非线性激活函数。

3.根据权利要求1所述的方法，其特征在于，所述基于模仿学习的医药机器人移动控制模型，以所述专家演示二元组数据进行训练时，是采用行为克隆算法进行模仿学习，具体过程如下：

步骤A1：在给定的专家演示数据集

中进行均匀随机抽样，得到

，

依次表示第一个时刻到第n个时刻的环境状态，

依次表示在环境状态

下的动作策略；

，初始值为随机取值，将

基于模仿学习的医药机器人移动控制模型的损失函数如下：

表示基于模仿学习的医药机器人移动控制模型在参数为

和环境状态为s时做出的动作策略，

为给定的专家演示数据集D中与s对应的动作策略；

梯度更新公式如下：

其中，

为更新后的模型参数，

为当前的模型参数，β为行为克隆学习率；

4.根据权利要求1所述的方法，其特征在于，医药机器人在医药搬运场景中移动时，依据最优互补避碰策略确定动作策略，具体如下：

设D1为以p为圆心，r为半径的圆，q为圆内的一点：

医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为：

其中，

和

分别为医药机器人A和医药机器人B的当前位置，

和

分别为医药机器人A和医药机器人B所占据的最大圆半径，

表示等比符号，

表示医药机器人A的移动速度，t表示医药机器人的移动时刻，τ为大于0的时间常量；

其中，

是以

为起点，指向最接近

边界上的点的向量，

为医药机器人A对于医药机器人B的τ时间内有碰撞速度集合

的边界，其计算公式为：

n是以

边界上的点

为起点向外延伸作的法线，其计算公式为：

其中，

为医药机器人A的最大速率；

确定的动作策略为医药机器人A的移动策略速度：

。

5.根据权利要求1所述的方法，其特征在于，所述基于强化学习的医药机器人移动控制模型训练时，采用double DQN算法，具体如下：

医药机器人获得当前医药搬运场景即环境状态

，利用初始化后的采用double DQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略

，当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略

，进而得到探索经验

，并将其存放至经验回放池中；

进入到下一个时刻的环境状态

的医药机器人再根据所述在线价值网络得到相应的动作策略

，进而控制医药机器人移动，再次得到探索经验；当经验回放池中的探索经验足够多时，采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播，对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新，反复从经验回放池中取出经验数组对采用doubleDQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大，则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。

6.根据权利要求5所述的方法，其特征在于，所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下：

其中，

为医药机器人A的当前位置，

为医药机器人A要到达的目标位置，

7.一种基于模仿与强化学习的医药机器人自主避障***，其特征在于，包括：

场景设置单元：设置医药机器人医药搬运场景；

8.根据权利要求7所述的***，其特征在于，基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构，是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景，并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中，医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。

9.根据权利要求7所述的***，其特征在于，所述基于模仿学习的医药机器人移动控制模型，是采用行为克隆算法进行模仿学习；

所述基于强化学习的医药机器人移动控制模型，是采用double DQN算法进行强化学习；

采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下：

其中，

为医药机器人A的当前位置，

为医药机器人A要到达的目标位置，

10.一种计算机存储介质，包括计算机程序，其特征在于，所述计算机程序指令被处理终端执行时使所述处理终端执行权利要求1至6任一项所述的方法。