CN114018265B

CN114018265B - 一种巡检机器人行驶轨迹生成方法、设备及介质

Info

Publication number: CN114018265B
Application number: CN202111265828.6A
Authority: CN
Inventors: 赵小楠; 高明; 尹青山; 王建华
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2024-02-02
Anticipated expiration: 2041-10-28
Also published as: CN114018265A

Abstract

本申请公开了一种巡检机器人行驶轨迹生成方法、设备及介质，其中方法包括：服务器通过预先设置在巡检机器人上的传感器设备，获取巡检机器人在预设区域内的历史障碍物检测信息；历史障碍物检测信息是指在预设过去时间段内的障碍物检测信息；将历史障碍物检测信息转化为巡检机器人的历史环境交通序列；历史环境交通序列是指在预设过去时间段内的环境交通序列；通过预设的图卷积神经网络，根据历史环境交通序列，预测巡检机器人在预设区域内的预设未来时长的环境交通序列；根据巡检机器人的当前位置及目标位置，确定巡检机器人的行驶轨迹的奖励函数；根据预设未来时长内的环境交通序列及奖励函数，生成巡检机器人在预设未来时长内的行驶轨迹。

Description

一种巡检机器人行驶轨迹生成方法、设备及介质

技术领域

本申请涉及智能驾驶领域，具体涉及一种巡检机器人行驶轨迹生成方法、设备及介质。

背景技术

为提升巡检机器人机器人执行巡检任务时的安全性能，室外安防机器人的研究离不开智能驾驶技术的支持其中，在巡检机器人的周围环境中，预测其他障碍物的行驶轨迹，并进一步的生成自身的行驶轨迹，是实现巡检机器人智能驾驶的重要过程，其目的是通过园区内现有的或是过去的交通交通状况，使得机器人预测周围车辆轨迹,以便做出合理的决策规划,提高行驶的安全性。它在园区机器人的交通调度和管理中起着至关重要的作用。

但是传统的行驶轨迹生成方法准确率不高，且反应较慢，因此，亟需一种巡检机器人行驶轨迹生成方法，以保证巡检机器人生成巡检轨迹的可靠性。

发明内容

为了解决上述问题，本申请提出了一种巡检机器人行驶轨迹生成方法、设备及介质，其中，方法包括：

服务器通过预先设置在巡检机器人上的传感器设备，获取所述巡检机器人在预设区域内的历史障碍物检测信息；所述历史障碍物检测信息是指在预设过去时间段内的障碍物检测信息；将所述历史障碍物检测信息转化为所述巡检机器人的历史环境交通序列；所述历史环境交通序列是指在所述预设过去时间段内的环境交通序列；通过预设的图卷积神经网络，根据所述历史环境交通序列，预测所述巡检机器人在所述预设区域内的预设未来时长的环境交通序列；根据所述巡检机器人的当前位置及目标位置，确定所述巡检机器人的行驶轨迹的奖励函数；根据所述预设未来时长内的环境交通序列及所述奖励函数，生成所述巡检机器人在所述预设未来时长内的行驶轨迹。

在一个示例中，服务器通过预先设置在巡检机器人上的传感器设备，获取所述巡检机器人在预设区域内的历史障碍物检测信息，具体包括：在预设区域内及所述预设过去时间段内，接收来自于图像采集装置的图像信息，所述图像采集装置预先设置在所述巡检机器人上；对所述图像信息进行预处理，并进行视觉目标检测，确定所述障碍物的类别信息及数量信息；通过激光雷达获取所述障碍物的激光点信息；所述激光雷达预先设置在所述巡检机器人上；将所述激光点信息输入至预设的点云聚类算法，确定所述障碍物的运动信息及位置信息；将所述障碍物的类别信息、所述数量信息、所述运动信息及所述位置信息融合，生成所述历史障碍物检测信息。

在一个示例中，将所述历史障碍物检测信息转化为所述巡检机器人的历史环境交通序列，具体包括：根据所述历史障碍物检测信息，确定所述障碍物在所述预设过去时间段内各个时间点的位置参数，所述位置参数与所述障碍物的体积、所述障碍物的位置信息有关；根据所述障碍物在所述预设过去时间段内各个时间点的位置参数，生成所述历史环境交通序列；其中，所述历史环境通序列的表达式为M＝{N_T-x，N_T-x+1，N_T-x+2…N_T-1，N_T}；M为所述历史环境交通序列，N_t表示t时刻所述巡检机器人的预设范围内的所述障碍物的位置参数，即N_t＝{x_1t，x_2t，x_3t…x_nt}；其中x_it表示t时刻，第i个障碍物的所述位置参数。

在一个示例中，所述根据所述巡检机器人的当前位置及目标位置，确定所述巡检机器人的行驶轨迹的奖励函数，具体包括：根据所述巡检机器人的所述当前位置及所述目标位置，确定所述巡检机器人的预估行驶距离；根据所述巡检机器人到达所述目标位置的实际行驶距离及所述预估行驶距离，以及所述巡检机器人的碰撞次数，确定所述巡检机器人的行驶轨迹的奖励函数；其中，所述奖励函数的表达式为R＝k₁×R_l+k₂×R_c+k₃×R_t；R为所述奖励函数，k₁、k₂、k₃为预设参数，R_c为碰撞惩罚，R_t为时间奖励，R_l为距离奖励，且R_l＝l_p-l_a；其中，l_p为预估行驶距离，l_a为实际行驶距离。

在一个示例中，根据所述预设未来时长内的环境交通序列及所述奖励函数，生成所述巡检机器人在所述预设未来时长内的行驶轨迹，具体包括：根据所述预设未来时长内的环境交通序列，生成预设数量个行驶轨迹；根据所述奖励函数，确定所述预设数量个行驶轨迹分别对应的奖励值，并将最大奖励值对应的所述行驶轨迹作为所述巡检机器人的行驶轨迹。

在一个示例中，将最大奖励值对应的所述行驶轨迹作为所述巡检机器人的行驶轨迹之后，所述方法还包括：在巡检过程中，确定所述行驶轨迹对应的奖励值，并对所述行驶轨迹进行调整，且所述调整范围不超过预设比值；确定调整后的行驶轨迹对应的奖励值，比较所述行驶轨迹与所述调整后的行驶轨迹对应的奖励值大小；选择奖励值较大的行驶轨迹作为所述巡检机器人的行驶轨迹。

在一个示例中，所述方法还包括：确定所述巡检机器人的巡检路径为封闭图形；则将所述巡检路径拆分为若干数量段，以使所述巡检机器人按照所述拆分顺序，遍历所述巡检路径。

在一个示例中，通过预设的图卷积神经网络，根据所述历史环境交通序列，预测所述巡检机器人在所述预设区域内的预设未来时长的环境交通序列，具体包括：在通过所述图卷积神经网络预测所述预设未来时长的环境交通序列时，通过矩阵分解将参数矩阵θ分解为θ＝E·W；其中E∈R^N*d为节点嵌入矩阵，d标识节点嵌入维度，W∈R^d*C*F为权重池，C*F为共享参数空间的维数；通过预设的节点自适应参数学习模块，学习所述嵌入矩阵及所述权重池，以使所述图卷积神经网络可用公式表示；其中，Z为所述图卷积神经网络的输出，I_N为单位矩阵，A为邻接矩阵，D为度矩阵，X为所述图卷积神经网络的输入，b为可学习参数。

本申请还提供了一种巡检机器人行驶轨迹生成设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：服务器通过预先设置在巡检机器人上的传感器设备，获取所述巡检机器人在预设区域内的历史障碍物检测信息；所述历史障碍物检测信息是指在预设过去时间段内的障碍物检测信息；将所述历史障碍物检测信息转化为所述巡检机器人的历史环境交通序列；所述历史环境交通序列是指在所述预设过去时间段内的环境交通序列；通过预设的图卷积神经网络，根据所述历史环境交通序列，预测所述巡检机器人在所述预设区域内的预设未来时长的环境交通序列；根据所述巡检机器人的当前位置及目标位置，确定所述巡检机器人的行驶轨迹的奖励函数；根据所述预设未来时长内的环境交通序列及所述奖励函数，生成所述巡检机器人在所述预设未来时长内的行驶轨迹。

本申请还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：服务器通过预先设置在巡检机器人上的传感器设备，获取所述巡检机器人在预设区域内的历史障碍物检测信息；所述历史障碍物检测信息是指在预设过去时间段内的障碍物检测信息；将所述历史障碍物检测信息转化为所述巡检机器人的历史环境交通序列；所述历史环境交通序列是指在所述预设过去时间段内的环境交通序列；通过预设的图卷积神经网络，根据所述历史环境交通序列，预测所述巡检机器人在所述预设区域内的预设未来时长的环境交通序列；根据所述巡检机器人的当前位置及目标位置，确定所述巡检机器人的行驶轨迹的奖励函数；根据所述预设未来时长内的环境交通序列及所述奖励函数，生成所述巡检机器人在所述预设未来时长内的行驶轨迹。

本申请提出的巡检机器人行驶轨迹生成方法，通过实时获取巡检机器人周围的障碍物检测信息，并将障碍物检测信息转化为环境交通序列，并通过过去一段时间内的环境交通序列、奖励函数，生成巡检机器人在未来时间段内的行驶轨迹，极大地提升了生成行驶轨迹的速度，并提高了行驶轨迹的准确性及安全性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种巡检机器人行驶轨迹生成方法流程图；

图2为本申请实施例中一种巡检机器人行驶轨迹生成设备流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及的分析方法的实现可以为终端设备，也可以为服务器，本申请对此不作特殊限制。为了方便理解和描述，以下实施例均以服务器为例进行详细描述。以下结合附图，详细说明本申请各实施例提供的技术方案。

如图1所示，本申请实施例提供一种巡检机器人行驶轨迹生成方法，包括：

S101：服务器通过预先设置在巡检机器人上的传感器设备，获取所述巡检机器人在预设区域内的历史障碍物检测信息；所述历史障碍物检测信息是指在预设过去时间段内的障碍物检测信息。

为生成巡检机器人的行驶轨迹，前提条件是获取巡检机器人周围的障碍物的检测信息，即获取巡检机器人周围有哪些障碍物，以及障碍物的各类信息。因此，需要通过预先设置在巡检机器人上的传感器设备，来获取巡检机器人在预设范围内的历史障碍物检测信息，也就是巡检机器人周围的在过去一段时间内的障碍物检测信息。

S102：将所述历史障碍物检测信息转化为所述巡检机器人的历史环境交通序列；所述历史环境交通序列是指在所述预设过去时间段内的环境交通序列。

服务器得到巡检机器人周围的历史障碍物检测信息之后，为了方便后续过程对于各类历史障碍物检测信息的处理，可以将历史障碍物检测信息转化为巡检机器人的历史环境交通序列，也就是在过去这段时间内的环境交通序列。

S103：通过预设的图卷积神经网络，根据所述历史环境交通序列，预测所述巡检机器人在所述预设区域内的预设未来时长的环境交通序列。

为了使巡检机器人的行驶轨迹安全可靠，需要预测巡检机器人周围环境在未来一段时间内的障碍物信息，以使巡检机器人能够及时避开这些障碍物。服务器通过使用图卷积神经网络，以及巡检机器人的历史环境交通序列，预测巡检机器人周围在未来时长内的环境交通序列。因为不同来源的交通流具有复杂的内部依赖关系(即一个交通序列中的时间相关性)和相互依赖关系(即多个相关交通序列之间的空间相关性)，例如不同的环路检测器/交叉口对交通流进行预测，交通预测属于相关时间序列分析(或多元时间序列分析)，因此通过使用图卷积神经网络对交通序列进行处理。

S104：根据所述巡检机器人的当前位置及目标位置，确定所述巡检机器人的行驶轨迹的奖励函数。

为了能够判别巡检机器人行驶轨迹的优劣，可以通过巡检机器人的当前位置以及目标位置，建立巡检机器人的行驶轨迹奖励函数，并通过奖励函数对巡检机器人生成的行驶轨迹进行评判，以能够对行驶轨迹进行实时改进。

S105：根据所述预设未来时长内的环境交通序列及所述奖励函数，生成所述巡检机器人在所述预设未来时长内的行驶轨迹。

在得到巡检机器人附近未来时长内的环境交通序列之后，根据环境交通序列以及奖励函数，确定巡检机器人在未来时长内的行驶轨迹，并对行驶轨迹进行不断更新，以保证巡检机器人生成行驶轨迹的实时性。

在一个实施例中，通过预先设置在巡检机器人上的传感器设备，获取巡检机器人附近的历史障碍物检测信息时，首先需要通过预先设置在巡检机器人上的图像采集装置获取巡检机器人周围环境的图像信息，并将图像信息发送至服务器进行预处理。并进行视觉目标检测，区分巡检机器人获取的图像信息内障碍物的类型，即获取巡检机器人周围环境内障碍物的类型及数量。然后通过预先设置在巡检机器人上的激光雷达获取障碍物的激光点信息，并通过点云聚类算法，确定不同种类障碍物的结构以及体积等信息。然后将障碍物的数量信息、类型信息、运动信息以及位置信息整合成历史障碍物检测信息。

进一步地，在得到历史障碍物检测信息之后，需要将历史碍物检测信息转化为巡检机器人的历史环境交通序列，此时可以通过历史障碍物检测信息中包含的各个障碍物在过去一段时间内，在各个时间点的位置参数，即这个障碍物在该时间点的三维坐标系中占用了那些空间，再根据各个类型障碍物的位置参数及对应的时间节点，生成该巡检机器人的历史交通序列。交通序列表示为：M＝{N_T-x，N_T-x+1，N_T-x+2…N_T-1，N_T}；其中，N_t表示t时刻所述巡检机器人的预设范围内的所述障碍物的位置参数，即N_t＝{x_1t，x_2t，x_3t…x_nt}；其中x_it表示t时刻，第i个障碍物的所述位置参数。

在一个实施例中，为了评判巡检机器人的行驶轨迹的优劣，可以建立奖励函数。在建立奖励函数时，要充分考虑到巡检机器人的各类要求，例如安全性、实时性等条件，在考虑安全性时，可以通过巡检机器人在该行驶轨迹上的碰撞次数，判断该行驶轨迹的优劣，在考虑实时性时，可以根据巡检机器人到达目标地址的行驶时间，判断行驶轨迹的优劣。同样，可以基于行驶轨迹的距离，判断行驶轨迹的距离。所以在建立奖励函数时，可以根据巡检机器人的当前位置以及目标位置，预估巡检机器人的行驶距离。然后根据预估行驶距离、实际行驶距离、巡检机器人的碰撞次数、巡检机器人到达目标地址花费的时间，建立巡检机器人的奖励函数R＝k₁×R_l+k₂×R_c+k₃×R_t；其中，k₁、k₂、k₃为预设参数，R_c为碰撞惩罚，R_t为时间奖励，R_l为距离奖励，且R_l＝l_p-l_a；其中，l_p为预估行驶距离，l_a为实际行驶距离。

进一步地，建立好巡检机器人的奖励函数之后，可以根据未来时间段内的环境交通序列以及奖励函数，生成巡检机器人在未来时间段内的行驶轨迹。在生成行驶轨迹时，可以通过巡检机器人的当前位置及目标位置，随机生成预设数量个行驶轨迹，再根据奖励函数，计算各个行驶轨迹分别对应的的奖励值，并选择最大奖励值对应的行驶轨迹，作为巡检机器人的行驶轨迹。在生成行驶轨迹时，也可以通过调用数据库中的历史行驶轨迹，并从历史行驶轨迹中选择对应奖励函数值最大的行驶轨迹，作为巡检机器人的行驶轨迹。

更进一步地，确定了巡检机器人的行驶轨迹之后，巡检机器人将会按照当前的行驶轨迹，向目标位置前进。在前进过程中，由于行驶轨迹是根据当前位置以及目标位置随机生成的，可以在巡检机器人向目标位置前进的过程中，对行驶轨迹进行微调，即对整个行驶调整幅度不超过预设比例的随机调整，并计算调整后的行驶轨迹对应的奖励值，将该奖励值与未经调整的行驶轨迹的奖励值进行比较，从而在巡检机器人前往目标位置的路途中，通过对行驶轨迹进行微调，生成最为合适的行驶轨迹。

在一个实施例中，由于巡检机器人可能会被委派在某一固定区域内进行周期性的巡检任务，例如在某一直线道路上往复巡检。这时巡检机器人的目标位置及当前位置可能会出现冲突，从而影响奖励函数的构建。此时可以将巡检机器人设定的巡检路径拆分成若干段小路径，然后通过本申请提供的巡检机器人的行驶轨迹生成方法，按照小路径的顺序进行遍历，从而完成巡检任务。

在一个实施例中，在通过图卷积神经网络预测巡检机器人在未来时长内的交通序列时，我们提出一个节点自适应参数学习模块来增强传统的图卷积神经网络模型，该模块借鉴了矩阵分解的观点，参数矩阵θ分解为θ＝E·W；其中E∈R^N*d为节点嵌入矩阵，d标识节点嵌入维度，W∈R^d*C*F为权重池，C*F为共享参数空间的维数；

节点自适应参数学习模块没有直接学习整体的权重参数，而是学习节点嵌入矩阵及权重池。从一个节点(例如节点i)的角度进行解释，则是根据嵌入的节点，从一个大的共享权重池W中提取关于节点i的参数，可以解释为从所有交通序列中发现的一组候选模式中去学习节点特定的模式。同样的操作也可以用于网络的偏差的学习。以使图卷积神经网络可用公式表示；其中，Z为所述图卷积神经网络的输出，I_N为单位矩阵，A为邻接矩阵，D为度矩阵，X为所述图卷积神经网络的输入，b为可学习参数。通过设置节点自适应参数学习模块，对使用图神经网络模型预测交通序列这一过程进行了优化。

如图2所示，本申请实施例还提供了一种巡检机器人行驶轨迹生成设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种巡检机器人行驶轨迹生成方法，其特征在于，包括：

服务器通过预先设置在巡检机器人上的传感器设备，获取所述巡检机器人在预设区域内的历史障碍物检测信息；所述历史障碍物检测信息是指在预设过去时间段内的障碍物检测信息；

将所述历史障碍物检测信息转化为所述巡检机器人的历史环境交通序列；所述历史环境交通序列是指在所述预设过去时间段内的环境交通序列；

通过预设的图卷积神经网络，根据所述历史环境交通序列，预测所述巡检机器人在所述预设区域内的预设未来时长的环境交通序列；

根据所述巡检机器人的当前位置及目标位置，确定所述巡检机器人的行驶轨迹的奖励函数；

根据所述预设未来时长内的环境交通序列及所述奖励函数，生成所述巡检机器人在所述预设未来时长内的行驶轨迹；

所述根据所述巡检机器人的当前位置及目标位置，确定所述巡检机器人的行驶轨迹的奖励函数，具体包括：

根据所述巡检机器人的所述当前位置及所述目标位置，确定所述巡检机器人的预估行驶距离；

根据所述巡检机器人到达所述目标位置的实际行驶距离及所述预估行驶距离，以及所述巡检机器人的碰撞次数，确定所述巡检机器人的行驶轨迹的奖励函数；

其中，所述奖励函数的表达式为；/>为所述奖励函数，/>、/>、/>为预设参数，/>为碰撞惩罚，/>为时间奖励，/>为距离奖励，且/>；其中，/>为预估行驶距离，/>为实际行驶距离；

根据所述预设未来时长内的环境交通序列及所述奖励函数，生成所述巡检机器人在所述预设未来时长内的行驶轨迹，具体包括：

根据所述预设未来时长内的环境交通序列，生成预设数量个行驶轨迹；

根据所述奖励函数，确定所述预设数量个行驶轨迹分别对应的奖励值，并将最大奖励值对应的所述行驶轨迹作为所述巡检机器人的行驶轨迹；

将最大奖励值对应的所述行驶轨迹作为所述巡检机器人的行驶轨迹之后，所述方法还包括：

在巡检过程中，确定所述行驶轨迹对应的奖励值，并对所述行驶轨迹进行调整，且调整范围不超过预设比值；

确定调整后的行驶轨迹对应的奖励值，比较所述行驶轨迹与所述调整后的行驶轨迹对应的奖励值大小；

选择奖励值较大的行驶轨迹作为所述巡检机器人的行驶轨迹；

所述方法还包括：

确定所述巡检机器人的巡检路径为封闭图形；

则将所述巡检路径拆分为若干数量段，以使所述巡检机器人按照拆分顺序，遍历所述巡检路径。

2.根据权利要求1所述的方法，其特征在于，服务器通过预先设置在巡检机器人上的传感器设备，获取所述巡检机器人在预设区域内的历史障碍物检测信息，具体包括：

在预设区域内及所述预设过去时间段内，接收来自于图像采集装置的图像信息，所述图像采集装置预先设置在所述巡检机器人上；

对所述图像信息进行预处理，并进行视觉目标检测，确定所述障碍物的类别信息及数量信息；

通过激光雷达获取所述障碍物的激光点信息；所述激光雷达预先设置在所述巡检机器人上；

将所述激光点信息输入至预设的点云聚类算法，确定所述障碍物的运动信息及位置信息；

将所述障碍物的类别信息、所述数量信息、所述运动信息及所述位置信息融合，生成所述历史障碍物检测信息。

3.根据权利要求2所述的方法，其特征在于，将所述历史障碍物检测信息转化为所述巡检机器人的历史环境交通序列，具体包括：

根据所述历史障碍物检测信息，确定所述障碍物在所述预设过去时间段内各个时间点的位置参数，所述位置参数与所述障碍物的体积、所述障碍物的位置信息有关；

根据所述障碍物在所述预设过去时间段内各个时间点的位置参数，生成所述历史环境交通序列；

其中，所述历史环境交通序列的表达式为；为所述历史环境交通序列，/>表示/>时刻所述巡检机器人的预设范围内的所述障碍物的位置参数，即/>；其中/>表示/>时刻，第/>个障碍物的所述位置参数。

4.根据权利要求1所述的方法，其特征在于，通过预设的图卷积神经网络，根据所述历史环境交通序列，预测所述巡检机器人在所述预设区域内的预设未来时长的环境交通序列，具体包括：

在通过所述图卷积神经网络预测所述预设未来时长的环境交通序列时，通过矩阵分解将参数矩阵分解为/>；

其中为节点嵌入矩阵，/>为表示节点数量，/>表示节点嵌入维度，/>为权重池，/>为共享参数空间的维数；

通过预设的节点自适应参数学习模块，学习所述嵌入矩阵及所述权重池，以使所述图卷积神经网络可用公式表示；其中，/>为所述图卷积神经网络的输出，/>为单位矩阵，/>为邻接矩阵，/>为度矩阵，/>为所述图卷积神经网络的输入，b为可学习参数。

5.一种巡检机器人行驶轨迹生成设备，其特征在于，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

将最大奖励值对应的所述行驶轨迹作为所述巡检机器人的行驶轨迹之后，在巡检过程中，确定所述行驶轨迹对应的奖励值，并对所述行驶轨迹进行调整，且调整范围不超过预设比值；

确定所述巡检机器人的巡检路径为封闭图形；

6.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：

确定所述巡检机器人的巡检路径为封闭图形；