CN115421494A

CN115421494A - 清洁机器人路径规划方法、***、计算机设备及存储介质

Info

Publication number: CN115421494A
Application number: CN202211147813.4A
Authority: CN
Inventors: 王羽钧; 洪晓鹏; 沈超
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-12-02

Abstract

本发明属于人工智能和机器人路径规划领域，公开了一种清洁机器人路径规划方法、***、计算机设备及存储介质，包括：获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量；根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量，调用预设的用于清洁机器人路径规划的深度强化学习模型，得到各清洁机器人的路径规划结果。可实现多清洁机器人的路径规划，可以求解存在多个机器人、大量待清洁点的清洁机器人路径规划问题，贴合实际应用场景，求得的路径规划方案优于传统优化方法，求解路径规划问题所需的运算时间远低于蚁群算法及动态规划算法等传统方法。

Description

清洁机器人路径规划方法、***、计算机设备及存储介质

技术领域

本发明属于人工智能和机器人路径规划领域，涉及一种清洁机器人路径规划方法、***、计算机设备及存储介质。

背景技术

人工智能和机器人技术的蓬勃发展，为清洁机器人的大规模应用提供了先决条件，人力成本的不断攀升，也为清洁机器人提供了实际落地的市场空间。如今，从机场、医院及学校等大型公共场所，到家庭住宅这样的小空间，都能见到清洁机器人的身影。显然，通过机器人代替人类完成清洁工作，已经成为时代趋势。

机器人开始执行清洁任务前，必须先进行路径规划。路径规划的质量直接影响完成清洁任务的效率，并间接影响各机器人的能量消耗和损耗率。现有的路径规划方法分为两类：第一类是以牛耕法为代表的全覆盖式路径规划方法，这类方法使机器人按照一些预设规则遍历所有清洁区域，实现简单，但在清洁空间较大、垃圾分布稀疏的情况下效率较低。第二类是以蚁群算法、动态规划及Gurobi等为代表的基于传统优化技术的路径规划方法，这类方法的求解时间一般与路径节点及机器人数量呈指数关系，不适用于求解较大规模的多机路径规划问题。

发明内容

本发明的目的在于克服上述现有技术中，清洁机器人的多机路径规划困难的缺点，提供一种清洁机器人路径规划方法、***、计算机设备及存储介质。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，一种清洁机器人路径规划方法，包括：

获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量；

根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量，调用预设的用于清洁机器人路径规划的深度强化学习模型，得到各清洁机器人的路径规划结果。

可选的，所述用于清洁机器人路径规划的深度强化学习模型通过如下方式构建得到：

建立清洁机器人路径规划问题的数学模型；

根据清洁机器人路径规划问题的数学模型，建立清洁机器人路径规划问题的马尔可夫决策过程模型；

根据清洁机器人路径规划问题的马尔可夫决策过程模型，建立用于清洁机器人路径规划的初始深度强化学习模型；

通过预设的训练集，训练用于清洁机器人路径规划的初始深度强化学习模型，得到用于清洁机器人路径规划的深度强化学习模型。

可选的，所述清洁机器人路径规划问题的数学模型包括优化变量、优化目标和约束条件；

其中，优化变量包括第一优化变量Y和第二优化变量Z：

Z＝{z_i,j|i∈P,j∈P}

其中，P为机器人库和待清洁点构成的节点集合

n为待清洁点的数量，p₀表示机器人库节点；R为各清洁机器人构成的集合

k为清洁机器人的数量，

为指示变量，指示清洁机器人r是否从p_i出发并抵达p_j，若机器人r从p_i出发并抵达p_j，则

否则

z_i,j为p_i的坐标从x_i运往p_j的坐标x_j的垃圾总量；

优化目标如下式所示：

其中，c_j是待清洁点p_j的清洁工作量，c₀＝0；v_r是清洁机器人r的运行速度；

约束条件包括优化变量取值范围约束、区域访问次数约束、机器人路径连续性约束、机器人能携带的垃圾总量约束和垃圾运输约束；

其中，优化变量的取值范围约束如下式所示：

z_i,j≥0,i∈P,j∈P

区域访问次数约束如下式所示：

机器人路径连续性约束如下式所示：

机器人能携带的垃圾总量约束如下式所示：

其中，b_r是清洁机器人r的垃圾仓容量；

垃圾运输约束如下式所示：

其中，P′＝P-{p₀}，P′为由n个待清洁点构成的集合，g_j是待清洁点p_j的垃圾量，g₀＝0，M为预设常数。

可选的，所述清洁机器人路径规划问题的马尔可夫决策过程模型包括环境状态、动作、状态转移规则以及代价；

其中，环境状态S_t如下式所示：

S_t＝(D_t,E_t)，

其中，t为步数，

为在第t步清洁机器人r垃圾仓的剩余容量，

为在第t步清洁机器人r所在的节点，

为截至第t步清洁机器人r访问过的节点构成的集合；

为在第t步节点p_i的访问状态，若节点p_i已被访问过，则

否则

动作A_t如下式所示：

A_t＝(d_t,p_t)

其中，d_t为在第t步激活的节点解码器，p_t∈P为在第t步选择的节点；

状态转移规则ST用于根据动作A_t，通过下式将环境状态从S_t转移至S_t+1：

其中，r_t是节点解码器d_t对应的清洁机器人，

表示将p_t拼接在

末端；

代价F如下式所示：

其中，T是总步数，

是清洁机器人r在第t步的代价，

通过下式得到：

其中，

表示

和

的距离，

为p_t的坐标，

为

的坐标。

可选的，所述用于清洁机器人路径规划的深度强化学习模型包括：编码器和解码器；编码器包括节点编码器和机器人编码器，解码器包括解码器选择器和k个节点解码器；节点编码器和机器人编码器的输出端均与解码器选择器的输入端连接，解码器选择器的输出端与k个节点解码器的输入端均连接；

节点编码器包括一个线性映射层和L1个图编码模块；线性映射层的输出端与第一个图编码模块的输入端连接；设l_node为节点编码器的图编码模块的索引，当1≤l_node＜L1时，图编码模块l_node的输出端与第l_node+1个图编码模块的输入端连接，当l_node＝L1时，图编码模块l_node的输出端与解码器选择器的输入端连接；机器人编码器包括线性映射层和L2个图编码模块；线性映射层的输出端与第一个图编码模块的输入端连接；设l_robot为机器人编码器的图编码模块的索引，当1≤l_robot＜L2时，图编码模块l_robot的输出端与第l_robot+1个图编码模块的输入端连接，当l_robot＝L2时，图编码模块l_robot的输出端与解码器选择器的输入端连接；解码器选择器包括多头注意力层和适应度层，多头注意力层的输出端与适应度层的输入端连接；节点解码器包括多头注意力层和适应度层，多头注意力层的输出端与适应度层的输入端连接。

可选的，所述线性映射层如下式所示：

Linear(x)＝Wx+B

其中，

是输入数据，

和

是可学习的参数，d_in是数据输入的维度，d_out是线性映射层的输出维度；

所述适应度层如下式所示：

其中，softmax()为归一化指数函数；

所述多头注意力层如下式所示：

MHA(X)＝Concat(head₁,head₂,…,head_h)W^O

其中，

是多头注意力层的输入，N×d_x是输入数据的维度，Concat是矩阵拼接操作，

是可训练的参数，h是注意力头的数量，d_v是值向量的维度，head_i是第i个注意力头的输出；head_i的计算方法如下式：

其中，Q_i＝XWi_i ^Q,

V_i＝XW_i ^V；

和

是可学习的参数，d_k是键向量的维度；

所述图编码模块如下式所示：

X_l+1＝GraphEncoder(X_l)

其中，

是图编码模块的输入，

是图编码模块的输出，

其中，

是图编码模块计算过程向量，FF是前向传播模块，由若干线性映射层和ReLU函数层级联而成；BN()为批标准化层；

所述ReLU函数层如下式所示：

ReLU(x)＝max(0,x)

所述批标准化层如下式所示：

其中，γ和β是可学习的参数，E[x]为x的期望，Var[x]是x的方差，∈是用于防止分母为零的常数；

所述节点编码器的输入为I_P＝{(x_i,c_i,g_i)|i∈P}，输出为

其中，

是第i个节点的编码；

所述机器人编码器的输入为I_R＝{(v_r,b_r)|r∈R}，输出为

其中，

是第i个清洁机器人的编码；

所述解码器选择器在时间步t的输入为

其中，

是截至时间步t-1清洁机器人r走过的路径，

输出为概率最大的节点解码器d_t；

所述节点解码器的输入为

其中，r′是节点解码器d_t对应的清洁机器人，h_p是清洁机器人所在节点的编码，h_r′是清洁机器人r′的编码；输出为概率最大的节点p_t。

可选的，所述训练用于清洁机器人路径规划的初始深度强化学习模型时，通过下式优化用于清洁机器人路径规划的初始深度强化学习模型的模型参数：

其中，θ是模型参数，s是输出的路径规划方案，F_s是路径规划方案s的代价，b(s)是基准方法对路径规划方案s的评价，π强化学习方法的策略，p_θ(π|s)表示在参数θ和策略π下，输出路径规划方案s的概率。

本发明第二方面，一种清洁机器人路径规划***，包括：

数据获取模块，用于获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量；

模型调用模块，用于根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量，调用预设的用于清洁机器人路径规划的深度强化学习模型，得到各清洁机器人的路径规划结果。

本发明第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述清洁机器人路径规划方法的步骤。

本发明第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述清洁机器人路径规划方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明清洁机器人路径规划方法，基于用于清洁机器人路径规划的深度强化学习模型的调用，仅通过获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量，即可实现多清洁机器人的路径规划，可以求解存在多个机器人、大量待清洁点的清洁机器人路径规划问题，更加贴合实际应用场景，并且充分利用了清洁任务信息和清洁机器人信息，求得的路径规划方案优于传统的优化方法。同时，用于清洁机器人路径规划的深度强化学习模型基于深度强化学习，可以利用图形处理器极大加快运算速度，求解路径规划问题所需的运算时间远低于蚁群算法及动态规划算法等传统方法。

附图说明

图1为本发明实施例的清洁机器人路径规划方法流程图。

图2为本发明实施例的深度强化学习模型架构图。

图3为本发明实施例的深度强化学习模型细节架构示意图。

图4为本发明实施例的清洁机器人路径规划***结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明一实施例中，提供一种清洁机器人路径规划方法，具体为基于深度强化学习的清洁机器人路径规划方法，能够实现多清洁机器人的路径规划，且求解速度快，求解质量高。

具体的，该清洁机器人路径规划方法，包括以下步骤：

S1：获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量。

S2：根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量，调用预设的用于清洁机器人路径规划的深度强化学习模型，得到各清洁机器人的路径规划结果。

其中，各清洁机器人的垃圾仓容量和运行速度，均可以从清洁机器人的说明书或生产厂家处获取，机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量依据实际的工作场景设定。

在一种可能的实施方式中，所述用于清洁机器人路径规划的深度强化学习模型通过如下方式构建得到：建立清洁机器人路径规划问题的数学模型；根据清洁机器人路径规划问题的数学模型，建立清洁机器人路径规划问题的马尔可夫决策过程模型；根据清洁机器人路径规划问题的马尔可夫决策过程模型，建立用于清洁机器人路径规划的初始深度强化学习模型；通过预设的训练集，训练用于清洁机器人路径规划的初始深度强化学习模型，得到用于清洁机器人路径规划的深度强化学习模型。

可选的，所述清洁机器人路径规划问题的数学模型包括优化变量、优化目标和约束条件，优化变量包括第一优化变量Y和第二优化变量Z，约束条件包括优化变量取值范围约束、区域访问次数约束、机器人路径连续性约束、机器人能携带的垃圾总量约束和垃圾运输约束。

设机器人库和待清洁点构成节点集合

其中n是待清洁点的数量，p₀表示机器人库节点，设P′＝P-{p₀}，P′是由n个待清洁点构成的集合；设机器人库和待清洁点的坐标构成集合

其中x_i为p_i的坐标；设所有清洁机器人构成集合

其中k是清洁机器人的数量。

第一优化变量Y如下式所示：

其中，k为清洁机器人的数量，

为指示变量，指示表示机器人r是否从p_i出发并抵达p_j，若机器人r从p_i出发并抵达p_j，则

否则

第二优化变量Z如下式所示：

Z＝{z_i,j|i∈P,j∈P}

其中，z_i,j表示从x_i运往x_j的垃圾总量。

优化目标如下式所示：

其中，c_j是待清洁点p_j的清洁工作量，c₀＝0；v_r是清洁机器人r的运行速度。

其中，优化变量的取值范围约束如下式所示：

z_i,j≥0,i∈P,j∈P

区域访问次数约束如下式所示：

机器人路径连续性约束如下式所示：

机器人能携带的垃圾总量约束如下式所示：

其中，b_r是机器人r的垃圾仓容量；

垃圾运输约束如下式所示：

其中，g_j是待清洁点p_j的垃圾量，设g₀＝0，M是一个较大的预设常数。

可选的，所述清洁机器人路径规划问题的马尔可夫决策过程模型包括环境状态、动作、状态转移规则以及代价。

具体的，环境状态S_t＝(D_t,E_t)，

其中t为步数，

为在第t步清洁机器人r垃圾仓的剩余容量，

为在第t步清洁机器人r所在的节点，

为截至第t步清洁机器人r访问过的节点构成的集合；

为在第t步节点p_i的访问状态，若节点p_i已被访问过，则

否则

动作A_t＝(d_t,p_t)，其中，d_t为在第t步激活的节点解码器，p_t∈P为在第t步选择的节点。

状态转移规则ST根据动作A_t，将环境状态从S_t转移至S_t+1，具体包括：

其中，r_t是节点解码器d_t对应的清洁机器人，

表示将p_t拼接在

末端。

代价

其中T是总步数，

是机器人r在第t步的代价，

的计算方法如下式所示：

其中，

表示点

和点

的距离。

参见图2，可选的，所述用于清洁机器人路径规划的深度强化学习模型包括：编码器和解码器；编码器包括节点编码器和机器人编码器，解码器包括解码器选择器和k个节点解码器；节点编码器和机器人编码器的输出端均与解码器选择器的输入端连接，解码器选择器的输出端与k个节点解码器的输入端均连接。

参见图3，其中，构成节点编码器、机器人编码器、解码器选择器和节点解码器的组件包括线性映射层、ReLU函数层、单头注意力层、多头注意力层、批标准化层以及图编码模块。具体的，节点编码器包括一个线性映射层和L1个图编码模块；线性映射层的输出端与第一个图编码模块的输入端连接；设l_node为节点编码器的图编码模块的索引，当1≤l_node＜L1时，图编码模块l_node的输出端与第l_node+1个图编码模块的输入端连接，当l_node＝L1时，图编码模块l_node的输出端与解码器选择器的输入端连接；机器人编码器包括线性映射层和L2个图编码模块；线性映射层的输出端与第一个图编码模块的输入端连接；设l_rodot为机器人编码器的图编码模块的索引，当1≤l_robot＜L2时，图编码模块l_robot的输出端与第l_robot+1个图编码模块的输入端连接，当l_robot＝L2时，图编码模块l_robot的输出端与解码器选择器的输入端连接；解码器选择器包括多头注意力层和适应度层，多头注意力层的输出端与适应度层的输入端连接；节点解码器包括多头注意力层和适应度层，多头注意力层的输出端与适应度层的输入端连接。

具体的，所述线性映射层如下式所示：

Linear(x)＝Wx+B

其中，

是输入数据，

和

是可学习的参数，d_in是数据输入的维度，d_out是线性映射层的输出维度。

所述适应度层如下式所示：

其中，softmax()为归一化指数函数。

所述多头注意力层如下式所示：

MHA(X)＝COncat(head₁,head₂,…,head_h)W^O

其中，

是可训练的参数，h是注意力头的数量，当h为1时，即为单头注意力层，d_v是值向量的维度，head_i是第i个注意力头的输出；head_j的计算方法如下式：

其中，Q_i＝XW_i ^Q,

V_i＝XW_i ^V；

和

是可学习的参数，d_k是键向量的维度。

所述单头注意力层如下式所示：

其中，Q＝XW^Q,K＝XW^K,V＝XW^V；

和

是可学习的参数。

所述图编码模块如下式所示：

X_l+1＝GraphEncoder(X_l)

其中，

是图编码模块的输入，

是图编码模块的输出，

其中，

是图编码模块计算过程向量，FF是前向传播模块，由若干线性映射层和ReLU函数层级联而成；BN()为批标准化层。

所述ReLU函数层如下式所示：

ReLU(x)＝max(0,x)

所述批标准化层如下式所示：

其中，γ和β是可学习的参数，E[x]为x的期望，Var[x]是x的方差，∈是用于防止分母为零的常数。

本实施方式中，前向传播模块，由一个输入维度为128，输出维度为512的线性映射层、一个ReLU激活函数层和一个输入维度为512，输出维度为128的线性映射层级联而成。

在一种可能的实施方式中，所述节点编码器的输入为节点信息I_P＝{(x_i,c_i,g_i)|i∈P}，输出为

其中，

是第i个节点的编码；所述机器人编码器的输入为机器人信息I_R＝{(v_r,b_r)|r∈R}，输出为

其中，

是第i个清洁机器人的编码；所述解码器选择器在时间步t的输入为

输出为概率最大的节点解码器d_t；节点解码器的输入为

具体的，所述节点编码器的输入为

节点编码器首先通过线性映射层将I_P映射到高维特征空间：

其中，

Linear_P的输入维度为4，输出维度为128。

然后通过m个图编码模块提取特征：

其中，k是图编码模块的序号；节点解码器的输出为

其中

是第i个节点的编码，

所述机器人编码器的输入为

机器人编码器首先通过线性映射层将I_R映射到高维特征空间：

其中，

Linear_R的输入维度为2，输出维度为128。

然后通过m个图编码模块提取特征：

机器人编码器的输出为

其中，

是第i个清洁机器人的编码。

所述解码器选择器在时间步t的输入为

其中

是截至时间步i-1，清洁机器人r走过的路径；

解码器选择器首先通过最大池化提取Tour^t-1中的信息：

然后，通过提取到的信息输入前向传播模块，得到

其中，FF_ST由一个输入维度为5，输出维度为128的线性映射层、一个输入维度为128，输出维度为512的线性映射层、一个ReLU激活函数层、一个输入维度为512，输出维度为128的线性映射层级联而成。

再将V^t-1输入另一个前向传播模块，得到

其中，FF_ST由一个输入维度为640，输出维度为128的线性映射层、一个输入维度为128，输出维度为512的线性映射层、一个ReLU激活函数层、一个输入维度为512，输出维度为128的线性映射层级联而成。

将

与

拼接，并输入线性层，得到对数概率：

其中，Linear_S的输入维度为256，输出维度为5。

将logits_S输入softmax函数，得到选择各解码器的概率prob_S：

prob_S＝softmax(logits_S)

其中，

表示选择解码器i的概率，最终得到概率最大的节点解码器d_t：

解码器选择器的输出即为d_t。

所述节点解码器的输入为

节点解码器首先将C_D输入线性映射层，得到

其中，Linear_D的输入维度为257，输出维度为128。

再将

与

拼接，得到

其中，

将

输入多头注意力层，得到

其中，

再计算选择第i个节点的概率

其中，

d_key是key_i的维度；最终得到概率最大的节点p_t：

节点解码器的输出即为p_t。

在一种可能的实施方式中，通过预设的训练集，训练用于清洁机器人路径规划的初始深度强化学习模型包括：

S11：设定训练数据集大小、批量大小、训练轮数E以及学习率。本实施方式中，设定训练数据集大小为1280000、批量大小为512、训练轮数E＝50、学习率为0.0001。

S12：生成训练样本集；设定当前训练轮数e＝1。

S13：根据设定的批量大小，分批次将训练样本输入网络，计算路径规划方案；并根据网络输出的路径规划方案，根据下式优化模型参数：

S14：训练轮数e＝e+1。

S15：如果e>E，则训练结束；否则，返回S12。

在一种可能的实施方式中，采用包含1280个样本的测试集，对三个基于传统优化技术的基准方法：蚁群算法、遗传算法和Gurobi，两个基于强化学习的基准方法：AM和DRL，及本发明清洁机器人路径规划方法进行测试，结果如表1：

表1

方法	优化目标的值	求解时间(单位：秒)
			蚁群算法	7.07	261097
遗传算法	8.85	175670
			Gurobi	7.38	129039
AM	7.09	0.63
			DRL	6.69	1.21
本发明	6.59	1.27

可见，从优化目标的角度看，本发明清洁机器人路径规划方法优于上述五种基准方法；从求解时间的角度看，本发明清洁机器人路径规划方法显著优于三种基于传统优化技术的方法。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未披露的细节，请参照本发明方法实施例。

参见图4，本发明再一实施例中，提供一种清洁机器人路径规划***，能够用于实现上述的清洁机器人路径规划方法，具体的，该清洁机器人路径规划***包括数据获取模块以及模型调用模块。

其中，数据获取模块用于获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量；模型调用模块用于根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量，调用预设的用于清洁机器人路径规划的深度强化学习模型，得到各清洁机器人的路径规划结果。

在一种可能的实施方式中，所述清洁机器人路径规划问题的数学模型包括优化变量、优化目标和约束条件；其中，优化变量包括第一优化变量Y和第二优化变量Z：

Z＝{z_i,j|i∈P,j∈P}

其中，P为机器人库和待清洁点构成的节点集合

k为清洁机器人的数量，

否则

z_i,j为p_i的坐标从x_i运往p_j的坐标x_j的垃圾总量。

优化目标如下式所示：

约束条件包括优化变量取值范围约束、区域访问次数约束、机器人路径连续性约束、机器人能携带的垃圾总量约束和垃圾运输约束。

其中，优化变量的取值范围约束如下式所示：

z_i,j≥0,i∈P,j∈P

区域访问次数约束如下式所示：

机器人路径连续性约束如下式所示：

机器人能携带的垃圾总量约束如下式所示：

其中，b_r是清洁机器人r的垃圾仓容量；

垃圾运输约束如下式所示：

在一种可能的实施方式中，所述清洁机器人路径规划问题的马尔可夫决策过程模型包括环境状态、动作、状态转移规则以及代价。

其中，环境状态S_t如下式所示：

S_t＝(D_t,E_t)，

其中，t为步数，

为在第t步清洁机器人r垃圾仓的剩余容量，

为在第t步清洁机器人r所在的节点，

为截至第t步清洁机器人r访问过的节点构成的集合；

为在第t步节点p_i的访问状态，若节点p_i已被访问过，则

否则

动作A_t如下式所示：

A_t＝(d_t,p_t)

其中，d_t为在第t步激活的节点解码器，p_t∈P为在第t步选择的节点。

其中，r_t是节点解码器d_t对应的清洁机器人，

表示将p_t拼接在

末端。

代价F如下式所示：

其中，T是总步数，

是清洁机器人r在第t步的代价，

通过下式得到：

其中，

表示

和

的距离，

为p_t的坐标，

为

的坐标。

在一种可能的实施方式中，所述用于清洁机器人路径规划的深度强化学习模型包括：编码器和解码器；编码器包括节点编码器和机器人编码器，解码器包括解码器选择器和k个节点解码器；节点编码器和机器人编码器的输出端均与解码器选择器的输入端连接，解码器选择器的输出端与k个节点解码器的输入端均连接；节点编码器包括一个线性映射层和L1个图编码模块；线性映射层的输出端与第一个图编码模块的输入端连接；设l_node为节点编码器的图编码模块的索引，当1≤l_node＜L1时，图编码模块l_node的输出端与第l_node+1个图编码模块的输入端连接，当l_node＝L1时，图编码模块l_node的输出端与解码器选择器的输入端连接；机器人编码器包括线性映射层和L2个图编码模块；线性映射层的输出端与第一个图编码模块的输入端连接；设l_robot为机器人编码器的图编码模块的索引，当1≤l_robot＜L2时，图编码模块l_robot的输出端与第l_robot+1个图编码模块的输入端连接，当l_robot＝L2时，图编码模块l_robot的输出端与解码器选择器的输入端连接；解码器选择器包括多头注意力层和适应度层，多头注意力层的输出端与适应度层的输入端连接；节点解码器包括多头注意力层和适应度层，多头注意力层的输出端与适应度层的输入端连接。

在一种可能的实施方式中，所述线性映射层如下式所示：

Linear(x)＝Wx+B

其中，

是输入数据，

和

所述适应度层如下式所示：

其中，softmax()为归一化指数函数。

所述多头注意力层如下式所示：

MHA(X)＝Concat(head₁,head₂,…,head_h)W^O

其中，

其中，Q_i＝XW_i ^Q,

V_i＝XW_i ^V；

和

是可学习的参数，d_k是键向量的维度。

所述图编码模块如下式所示：

X_l+1＝GraphEncoder(X_l)

其中，

是图编码模块的输入，

是图编码模块的输出，

其中，

所述ReLU函数层如下式所示：

ReLU(x)＝max(0,x)

所述批标准化层如下式所示：

所述节点编码器的输入为I_P＝{(x_i,c_i,g_i)|i∈P}，输出为

其中，

是第i个节点的编码；所述机器人编码器的输入为I_R＝{(v_r,b_r)|r∈R}，输出为

其中，

其中，

是截至时间步t-1清洁机器人r走过的路径，

输出为概率最大的节点解码器d_t；输出为概率最大的节点解码器d_t；所述节点解码器的输入为

在一种可能的实施方式中，所述训练用于清洁机器人路径规划的初始深度强化学习模型时，通过下式优化用于清洁机器人路径规划的初始深度强化学习模型的模型参数：

前述的清洁机器人路径规划方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明施例中的清洁机器人路径规划***所对应的功能模块的功能描述，在此不再赘述。

本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本发明各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于清洁机器人路径规划方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作***。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关清洁机器人路径规划方法的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种清洁机器人路径规划方法，其特征在于，包括：

2.根据权利要求1所述的清洁机器人路径规划方法，其特征在于，所述用于清洁机器人路径规划的深度强化学习模型通过如下方式构建得到：

建立清洁机器人路径规划问题的数学模型；

3.根据权利要求2所述的清洁机器人路径规划方法，其特征在于，所述清洁机器人路径规划问题的数学模型包括优化变量、优化目标和约束条件；

其中，优化变量包括第一优化变量Y和第二优化变量Z：

Z＝{z_i,j|i∈P,j∈P}

其中，P为机器人库和待清洁点构成的节点集合

k为清洁机器人的数量，

否则

z_i,j为p_i的坐标从x_i运往p_j的坐标x_j的垃圾总量；

优化目标如下式所示：

其中，优化变量的取值范围约束如下式所示：

z_i,j≥0,i∈P,j∈P

区域访问次数约束如下式所示：

机器人路径连续性约束如下式所示：

机器人能携带的垃圾总量约束如下式所示：

其中，b_r是清洁机器人r的垃圾仓容量；

垃圾运输约束如下式所示：

4.根据权利要求3所述的清洁机器人路径规划方法，其特征在于，所述清洁机器人路径规划问题的马尔可夫决策过程模型包括环境状态、动作、状态转移规则以及代价；

其中，环境状态S_t如下式所示：

其中，t为步数，

为在第t步清洁机器人r垃圾仓的剩余容量，

为在第t步清洁机器人r所在的节点，

为截至第t步清洁机器人r访问过的节点构成的集合；

为在第t步节点p_i的访问状态，若节点p_i已被访问过，则

否则

动作A_t如下式所示：

A_t＝(d_t,p_t)

其中，r_t是节点解码器s_t对应的清洁机器人，

表示将p_t拼接在

末端；

代价F如下式所示：

其中，T是总步数，

是清洁机器人r在第t步的代价，

通过下式得到：

其中，

表示

和

的距离，

为p_t的坐标，

为

的坐标。

5.根据权利要求4所述的清洁机器人路径规划方法，其特征在于，所述用于清洁机器人路径规划的深度强化学习模型包括：编码器和解码器；编码器包括节点编码器和机器人编码器，解码器包括解码器选择器和k个节点解码器；节点编码器和机器人编码器的输出端均与解码器选择器的输入端连接，解码器选择器的输出端与k个节点解码器的输入端均连接；

节点编码器包括一个线性映射层和L1个图编码模块；线性映射层的输出端与第一个图编码模块的输入端连接；设