CN114296440A

CN114296440A - 一种融合在线学习的agv实时调度方法

Info

Publication number: CN114296440A
Application number: CN202111158873.1A
Authority: CN
Inventors: 吕玉江; 王延忠; 陈燕燕; 姚依铭; 王姝濛
Original assignee: Beijing Great Wall Aviation Measurement And Control Technology Research Institute Co ltd; Beijing Ruisai Chang Cheng Aeronautical M & C Technology Co ltd; China Aviation Industry Corp of Beijing Institute of Measurement and Control Technology
Current assignee: Beijing Great Wall Aviation Measurement And Control Technology Research Institute Co ltd; Beijing Ruisai Chang Cheng Aeronautical M & C Technology Co ltd; China Aviation Industry Corp of Beijing Institute of Measurement and Control Technology
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-04-08
Anticipated expiration: 2041-09-30
Also published as: CN114296440B

Abstract

本发明属于航空智能制造技术领域，公开了一种融合在线学习的AGV实时调度方法。包括：S1，获取现场AGV小车的位置信息、环境信息和路径规划信息；S2，依据S1中获取的信息，采用遗传算法匹配最合适的小车去完成配送任务；S3，采用S2中匹配的最合适的小车执行运输任务；在执行运输任务的过程中，采用强化学习算法为小车规划最短路径；S4，小车按照S3中规划的最短路径完成运输任务。通过将遗传算法和强化学习***相结合，使用遗传算法解决AGV小车的调度问题，在调度过程中使用强化学习***解决AGV避让及路径规划问题，并且合理地为AGV分配任务。该发明降低了算法的复杂度，提高了AGV小车的工作效率，可以带来更大的经济效益。

Description

一种融合在线学习的AGV实时调度方法

技术领域

本发明属于航空智能制造技术领域，尤其涉及一种融合在线学习的AGV 实时调度方法。

背景技术

目前国内智能物流成为实现智能制造的关键环节，AGV在物流***中承担零件的搬运工作，根据***的要求，及时的将对应的零件送到合适的地方。因此提高AGV小车的工作效率对公司的发展意义重大。与国外相比，国内物流需求量更大，实时调控的研究工作至关重要。

目前国内多AGV在实时调度方面受算法的影响较大，复杂的空间环境影响多AGV的调度效率。若通过提高AGV小车的硬件设施来提高运算速度需要巨大的成本，不容易实现，但对目前的算法进行优化，可以大大提高AGV的工作效率，并在配送过程中实现最优配送安排，是适合推广的方法。

发明内容

针对上述问题，本发明的目的在于提供一种融合在线学习的AGV实时调度方法，通过将遗传算法和强化学习***相结合，使用遗传算法解决AGV 小车的调度问题，在调度过程中使用强化学习***解决AGV避让及路径规划问题，并且合理地为AGV分配任务。该发明降低了算法的复杂度，提高了AGV小车的工作效率，可以带来更大的经济效益。

为解决上述技术问题，本发明所采用的技术方案是：

一种融合在线学习的AGV实时调度方法，所述方法包括：

S1，获取现场AGV小车的位置信息、环境信息和路径规划信息；

S2，依据S1中获取的信息，采用遗传算法匹配最合适的小车去完成配送任务；

S3，采用S2中匹配的最合适的小车执行运输任务；在执行运输任务的过程中，采用强化学习算法为小车规划最短路径；

S4，小车按照S3中规划的最短路径完成运输任务。

本发明技术方案的特点和进一步的改进为：

(1)S4中，小车在完成运输任务的过程中，使用改进的人工势场法实现自主避障。

(2)S1中现场AGV小车的位置信息、环境信息和路径规划信息，具体为： AGV小车的位置信息指为AGV小车设定的随机初始位置；

环境信息指AGV小车可到达的区域内的多个障碍物的随机初始位置，以及所需运输的多个工件的随机初始位置；

路径规划信息指AGV小车的当前位置，需要运输的工件的位置，以及工件要运输到的目的位置所组成的三点初始路径。

(3)S2中，采用遗传算法匹配最合适的小车的过程中，设计目标函数为： f＝min_1≤k≤M{max_1≤i≤N{L_ik}}；

其中，f为目标函数，表示选择每种运输方案中完成某个工件运输所用的最长时间，并在多种运输方案中，选择最长时间的最小值对应的运输方案为最优运输方案；；

L为工件配送时间，L_ik表示工件i在AGV小车k上的完成配送的时间；i 为配送目标点，i＝1，2，…，N；N为代配送的工件总数量；k为第k个AGV小车，k＝1，2，…，M；M为AGV小车的总数量。

(4)S3中，在执行运输任务的过程中，采用强化学习算法为小车规划最短路径的过程，具体为：

S31，搭建预设大小的栅格地图作为二维仿真环境；

S32,设置AGV小车在二维栅格图中所建的环境中所采取的运动；

S33,采用非线性的分段函数表示即时奖励函数，用一个标量R表示，通过奖励函数的设计使AGV小车碰到不同物体时反馈当前状态和奖励值，以此来改变AGV小车行为；

S34,初始化环境状态以及开始探索环境，小车从起始点出发，获取当前状态对应的Q值，通过贪婪决策找出该Q值对应的动作，并记录当前状态的坐标；再通过优势函数判断当前选取的动作是否有利，若该动作得到正的奖励值，执行该动作并转移到下一个状态，得到奖励值，并存储到样本回放缓存区；

S35，以情景数的平均奖励值来评估当前策略是否为最优策略或最优路径。

(5)S32中，设置AGV小车在二维栅格图中所建的环境中所采取的运动，具体为：

定义AGV小车的动作空间模型为上、下、左、右四个离散动作，即 A＝[0,1；0.-1；-1,0；1,0]，将AGV小车作为为一个质点，用圆圈表示，目标点用方框表示。

(6)S34中，

在小车探索状态时，若当前状态坐标上有障碍物，则奖励值为-1；如果当前状态坐标上没有障碍物，则返回奖励值为1，进入下一个状态；如果当前状态是目标点，则返回奖励值为2，规划出最终路径；

(7)S4中，使用人工势场法实现自主避障的过程中，人工势场法具体为：

在AGV小车之间以及AGV小车和周围障碍物中引入虚拟的势场；

当AGV小车之间的距离或是AGV小车和障碍之间的距离小于期望的距离时表现为斥力，使AGV小车远离；

当AGV小车之间的距离大于期望的距离时为表现为引力，使AGV小车相互靠近。

(8)使用人工势场法实现自主避障具体为：

对于每个AGV小车，将其视为质点，通信半径为r，AGV小车之间的期望距离为dα，AGV小车和障碍物之间的期望距离为dβ；则AGV小车所受到的力为通信半径内来自其他AGV小车的力和障碍物的斥力的合力，当合力为0时， AGV小车达到平衡状态；

当所有AGV小车都能处于平衡状态时，就实现了自主避障。

本发明与现有算法相比的优点在于：本发明中采用强化学习作为一种从环境状态到行为映射的学习方法，可以用于不确定性环境，并且可以自动适应环境的变化；本发明中强化学习运用Q-learning算法，能实时更新状态，使智能体能实时根据当前状态进行模型优化；本发明中多AGV调度用的是遗传算法，可以求解复杂结构的优化问题，并且算法的搜索性能不受函数的性能限制；本发明中使用了云边协同技术实现AGV小车得到现场运行的数据及物流运输的最短路径与时间的定量评估。

附图说明

图1为本发明实施例提供的一种融合在线学习的AGV实时调度方法的流程示意图；

图2为本发明中的环境二维地图；

图3为本发明中AGV小车运行轨迹图；

图4为本发明中Q-learning算法流程框图；

图5为车间小车路径规划时间与工件配送次序表。

具体实施方式

下面结合附图和具体实施方式来对本发明的技术方案作进一步的阐述。

本发明实施例提供一种融合在线学习的AGV实时调度方法，如图1所示，所述方法包括：

S4，小车按照S3中规划的最短路径完成运输任务。

S4中，小车在完成运输任务的过程中，使用改进的人工势场法实现自主避障。

S1中现场AGV小车的位置信息、环境信息和路径规划信息，具体为：AGV 小车的位置信息指为AGV小车设定的随机初始位置；

具体的，使用Python语言和TKinter库来搭建二维仿真环境。路径规划算法实验环境是30*30的栅格地图，设置的障碍与调研的某加工车间基本相同，起始点和目标点也是随机设置。搭建的环境二维地图如图2。图中黑色部分为障碍，白色部分为非障碍区域。MATLAB仿真算法的目标是初始化环境状态以及开始探索环境。

动作空间设置：该设置是设置AGV小车在二维栅格图中所建的环境中所采取的运动，本实验是定义机器人的真实动作空间模型为上、下、左、右四个离散动作，即A＝[0,1；0.-1；-1,0；1,0]。将AGV小车近似为一个质点，用圆圈表示，目标点用方框表示。

奖励函数是通过反馈来评价AGV小车从当前状态转移到另一状态所执行的动作的优劣，通常用一个标量R表示。针对本课题验环境的AGV小车采用非线性的分段函数表示即时奖励函数，小车在探索环境时通过可行区域，则获得1 的立即奖赏；小车在碰到障碍物时，则获得-1的奖赏值，小车到达目标位置时，会得到2的奖赏值。最后通过总的奖赏值来判断该策略是否为最优策略。

图3为其中一次的路径仿真结果，通过多次运算获得最优的Q函数后，便能获取最优路径。Q学习算法具体流程如图4所示。

对于多AGV的调度问题则需要使用遗传算法来解决，为了把问题表达的更清楚，下面用数学符号表示小车调度问题：设待配送工工件集J_i＝{j₁，j₂，…， j_N}，配送的AGV小车机器集M_k＝{m₁，m₂，m_i，…，m_M}，每个配送的工件J_i有不同的被配送次数，每个工件的配送次数是V_i＝{V¹ _i，V² _i，…，V^Ji _i}，每个配送的工件V^Ji _i必须在配送在指定目标点m(V^Ji _i)∈M_k，即每个工序V^Ji _i配送的目标点 m(V^Ji _i)固定，其中m(V^Ji _i)表示工件Ji的第V^Ji _i道工序在由小车机器人m_i上进行配送。其中k＝1，2，…，M。实际的车间调度***较为复杂，作为其研究在建模过程中为了满足调度目标使问题简化。

作如下假设：

1)在配送过程中，对加工设备损坏、小车出现故障的情况不予考虑。

2)每台AGV小车每次只能完成一个配送任务。

3)各工件的配送路径及配送时间是实时规划的，其它辅助加工时间不予考虑。

4)所有AGV小车机器在t＝0时刻都可用。

5)所有工件在t＝0时刻都可被配送。

6)除有紧急情况外，各工件的配送一旦开始配送就不能中断。

7)工件各被配送次序之间一定要满足先后约束条件。

由于研究的小车调度问题是以所有工件的配送最终完工时间最短为调度最优目标，故目标函数可以设计为：

f＝min_1≤k≤M{max_1≤i≤N{L_ik}}

式中：f为目标函数，表示选择每种运输方案中完成某个工件运输所用的最长时间，并在多种运输方案中，选择最长时间的最小值对应的运输方案为最优运输方案；L为工件配送时间，L_ik表示工件i在AGV小车k上的完成配送的时间；i为配送目标点，i＝1，2，…，N；N为代配送的工件总数量；k为第k个AGV小车，k＝1，2，…，M；M为AGV小车的总数量。

每种运输方案为当前环境下，采用不同的多个小车将待运输的工件运输到目的地的方案。

该目标函数的约束条件为：

L_ik-T_ik≥L_ih (5)

L_jk-L_ik≥T_jk (6)

公式(5)可以描述为工件配送的优先约束条件：假设AGV小车h先于小车 k对工件i进行配送，L_ik表示工件i在AGV小车k上的完成配送的时间(到达目标点的时刻)，L_ih表示工件i在小车h上进行配送后的送达时间(到达目标点的时刻)，T_ik表示工件i在AGV小车k上的配送时间(配送花费的时间)。

公式(6)可以描述为AGV小车选择优先约束条件：假设工件i和工件j 在某一时刻都要需要小车k进行配送，如果工件i任务先于工件j任务下发，先配送工件i。其中，L_ik表示工件i在小车k上的完工时间，T_ik表示工件i在小车k上的配送时间，L_ih表示工件i在小车h上的完工时间，L_jk表示工件j在小车k上的完工时间，T_jk表示工件j在小车k上的配送时间，M为小车数量，N 为工件数。

进行仿真实验，以6×10调度问题为例，算例相关参数为：工件配送任务 Ji＝{1，2，3，4，5，6}，其中i＝1，2，3，4，5，6；AGV小车数量Mj＝{1，2， 3，4，5，6，7，8，9，10}，其中j＝1，2，3，4，5，6，7，8，9，10；每个工件优对应的最终目标点及目标点过程中设置的配送次序点。从图5可以看出，每个工件的配送次序和各配送中所花费的时间。

经多次仿真，当取种群数目是100、选择概率0.8、交叉概率是0.8、变异概率是0.6、迭代次数50时，适应度最优且最优解为42。

云边协作中，中心云对所处不同位置的机器人下达指令，将其取得目标物，同时送回到指定地点，为了在配送过程中完成自主避障，使用改进的人工势场法，考虑行进过程中的拓扑切换，改进控制协议使AGV小车集群在完成编队任务时能够实现避障算法的优化。

人工势场法是在智能AGV小车之间以及智能AGV小车和周围环境中引入虚拟的势场，当智能AGV小车之间的距离或是智能AGV小车和障碍之间的距离小于期望的距离时表现为斥力，使智能AGV小车远离；当智能AGV小车之间的距离大于期望的距离时为表现为引力，使智能AGV小车相互靠近。对于每个智能 AGV小车，不考虑其复杂的机械模型和气动原理，将其视为质点，通信半径为r，智能AGV小车之间的期望距离为dα，智能AGV小车和障碍物之间的期望距离为dβ。那么，智能AGV小车所受到的力为通信半径内来自其他智能AGV小车的力和障碍物的斥力的合力，当合力为0时，智能AGV小车达到平衡状态。当所有智能AGV小车都能处于平衡状态时，就能实现安全的编队避障行走。

使用云边协同计算后，实现AGV小车物流配送，智能AGV小车配送货物、运动状态情况及环境情况说明如下：

(1)以一架智能AGV小车为中心，它周围的区域是指包括障碍物和其邻域内的智能AGV小车的范围。

(2)环境中的动态障碍物是可以被智能AGV小车检测到的。

(3)所有智能AGV小车都能接收到领域内的智能AGV小车，以及障碍物的信息。包括位置，速度，障碍物半径等。

(4)领队的一台小车带领一队小车在行驶过程中实现自主动态避障，并实时记录小车当前的运动状态，以及周围环境障碍物状态等。

(5)小车完成一次配送货物的任务后，在当前位置继续开始第二次的配送任务。小车在任意起始地，可以完成到目标点的配送任务。

本发明实施例提供了一种融合在线学习的AGV实时调度模型的构建方法，优化了AGV调度的实时性，实现了为多AGV小车合理分配任务的功能。通过将遗传算法和强化学习***相结合，使用遗传算法解决AGV小车的调度问题，在调度过程中使用强化学习***解决AGV避让及路径规划问题，并且合理地为AGV 分配任务。引入了云边协同计算技术，完成航空加工车间的小车调度及路径规划任务，且在调度过程中实现资源与需求的合理匹配，小车的路径规划距离最短的目标。该发明降低了算法的复杂度，提高了AGV小车的工作效率，可以为公司带来更大的经济效益。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合在线学习的AGV实时调度方法，其特征在于，所述方法包括：

S4，小车按照S3中规划的最短路径完成运输任务。

2.根据权利要求1所述的一种融合在线学习的AGV实时调度方法，其特征在于，S4中，小车在完成运输任务的过程中，使用改进的人工势场法实现自主避障。

3.根据权利要求1所述的一种融合在线学习的AGV实时调度方法，其特征在于，S1中现场AGV小车的位置信息、环境信息和路径规划信息，具体为：AGV小车的位置信息指为AGV小车设定的随机初始位置；

4.根据权利要求1所述的一种融合在线学习的AGV实时调度方法，其特征在于，S2中，采用遗传算法匹配最合适的小车的过程中，设计目标函数为：f＝min_1≤k≤M{max_1≤i≤N{L_ik}}；

其中，f为目标函数，表示选择每种运输方案中完成某个工件运输所用的最长时间，并在多种运输方案中，选择最长时间的最小值对应的运输方案为最优运输方案；

L为工件配送时间，L_ik表示工件i在AGV小车k上的完成配送的时间；i为配送目标点，i＝1，2，…，N；N为代配送的工件总数量；k为第k个AGV小车，k＝1，2，…，M；M为AGV小车的总数量。

5.根据权利要求1所述的一种融合在线学习的AGV实时调度方法，其特征在于，S3中，在执行运输任务的过程中，采用强化学习算法为小车规划最短路径的过程，具体为：

S31，搭建预设大小的栅格地图作为二维仿真环境；

S32,设置AGV小车在二维栅格图中所建的环境中所采取的运动；

6.根据权利要求5所述的一种融合在线学习的AGV实时调度方法，其特征在于，S32中，设置AGV小车在二维栅格图中所建的环境中所采取的运动，具体为：

定义AGV小车的动作空间模型为上、下、左、右四个离散动作，即A＝[0,1；0.-1；-1,0；1,0]，将AGV小车作为为一个质点，用圆圈表示，目标点用方框表示。

7.根据权利要求5所述的一种融合在线学习的AGV实时调度方法，其特征在于，S34中，

在小车探索状态时，若当前状态坐标上有障碍物，则奖励值为-1；如果当前状态坐标上没有障碍物，则返回奖励值为1，进入下一个状态；如果当前状态是目标点，则返回奖励值为2，规划出最终路径。

8.根据权利要求2所述的一种融合在线学习的AGV实时调度方法，其特征在于，S4中，使用人工势场法实现自主避障的过程中，人工势场法具体为：

在AGV小车之间以及AGV小车和周围障碍物中引入虚拟的势场；

9.根据权利要求8所述的一种融合在线学习的AGV实时调度方法，其特征在于，使用人工势场法实现自主避障具体为：

对于每个AGV小车，将其视为质点，通信半径为r，AGV小车之间的期望距离为dα，AGV小车和障碍物之间的期望距离为dβ；则AGV小车所受到的力为通信半径内来自其他AGV小车的力和障碍物的斥力的合力，当合力为0时，AGV小车达到平衡状态；

当所有AGV小车都能处于平衡状态时，就实现了自主避障。