CN115421494A - 清洁机器人路径规划方法、***、计算机设备及存储介质 - Google Patents

清洁机器人路径规划方法、***、计算机设备及存储介质 Download PDF

Info

Publication number
CN115421494A
CN115421494A CN202211147813.4A CN202211147813A CN115421494A CN 115421494 A CN115421494 A CN 115421494A CN 202211147813 A CN202211147813 A CN 202211147813A CN 115421494 A CN115421494 A CN 115421494A
Authority
CN
China
Prior art keywords
cleaning robot
path planning
robot
node
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211147813.4A
Other languages
English (en)
Inventor
王羽钧
洪晓鹏
沈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202211147813.4A priority Critical patent/CN115421494A/zh
Publication of CN115421494A publication Critical patent/CN115421494A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本发明属于人工智能和机器人路径规划领域,公开了一种清洁机器人路径规划方法、***、计算机设备及存储介质,包括:获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量;根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量,调用预设的用于清洁机器人路径规划的深度强化学习模型,得到各清洁机器人的路径规划结果。可实现多清洁机器人的路径规划,可以求解存在多个机器人、大量待清洁点的清洁机器人路径规划问题,贴合实际应用场景,求得的路径规划方案优于传统优化方法,求解路径规划问题所需的运算时间远低于蚁群算法及动态规划算法等传统方法。

Description

清洁机器人路径规划方法、***、计算机设备及存储介质
技术领域
本发明属于人工智能和机器人路径规划领域,涉及一种清洁机器人路径规划方法、***、计算机设备及存储介质。
背景技术
人工智能和机器人技术的蓬勃发展,为清洁机器人的大规模应用提供了先决条件,人力成本的不断攀升,也为清洁机器人提供了实际落地的市场空间。如今,从机场、医院及学校等大型公共场所,到家庭住宅这样的小空间,都能见到清洁机器人的身影。显然,通过机器人代替人类完成清洁工作,已经成为时代趋势。
机器人开始执行清洁任务前,必须先进行路径规划。路径规划的质量直接影响完成清洁任务的效率,并间接影响各机器人的能量消耗和损耗率。现有的路径规划方法分为两类:第一类是以牛耕法为代表的全覆盖式路径规划方法,这类方法使机器人按照一些预设规则遍历所有清洁区域,实现简单,但在清洁空间较大、垃圾分布稀疏的情况下效率较低。第二类是以蚁群算法、动态规划及Gurobi等为代表的基于传统优化技术的路径规划方法,这类方法的求解时间一般与路径节点及机器人数量呈指数关系,不适用于求解较大规模的多机路径规划问题。
发明内容
本发明的目的在于克服上述现有技术中,清洁机器人的多机路径规划困难的缺点,提供一种清洁机器人路径规划方法、***、计算机设备及存储介质。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,一种清洁机器人路径规划方法,包括:
获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量;
根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量,调用预设的用于清洁机器人路径规划的深度强化学习模型,得到各清洁机器人的路径规划结果。
可选的,所述用于清洁机器人路径规划的深度强化学习模型通过如下方式构建得到:
建立清洁机器人路径规划问题的数学模型;
根据清洁机器人路径规划问题的数学模型,建立清洁机器人路径规划问题的马尔可夫决策过程模型;
根据清洁机器人路径规划问题的马尔可夫决策过程模型,建立用于清洁机器人路径规划的初始深度强化学习模型;
通过预设的训练集,训练用于清洁机器人路径规划的初始深度强化学习模型,得到用于清洁机器人路径规划的深度强化学习模型。
可选的,所述清洁机器人路径规划问题的数学模型包括优化变量、优化目标和约束条件;
其中,优化变量包括第一优化变量Y和第二优化变量Z:
Figure BDA0003853000520000021
Z={zi,j|i∈P,j∈P}
其中,P为机器人库和待清洁点构成的节点集合
Figure BDA0003853000520000022
n为待清洁点的数量,p0表示机器人库节点;R为各清洁机器人构成的集合
Figure BDA0003853000520000023
k为清洁机器人的数量,
Figure BDA0003853000520000024
为指示变量,指示清洁机器人r是否从pi出发并抵达pj,若机器人r从pi出发并抵达pj,则
Figure BDA0003853000520000031
否则
Figure BDA0003853000520000032
zi,j为pi的坐标从xi运往pj的坐标xj的垃圾总量;
优化目标如下式所示:
Figure BDA0003853000520000033
其中,cj是待清洁点pj的清洁工作量,c0=0;vr是清洁机器人r的运行速度;
约束条件包括优化变量取值范围约束、区域访问次数约束、机器人路径连续性约束、机器人能携带的垃圾总量约束和垃圾运输约束;
其中,优化变量的取值范围约束如下式所示:
Figure BDA0003853000520000034
zi,j≥0,i∈P,j∈P
区域访问次数约束如下式所示:
Figure BDA0003853000520000035
机器人路径连续性约束如下式所示:
Figure BDA0003853000520000036
机器人能携带的垃圾总量约束如下式所示:
Figure BDA0003853000520000037
其中,br是清洁机器人r的垃圾仓容量;
垃圾运输约束如下式所示:
Figure BDA0003853000520000038
Figure BDA0003853000520000041
其中,P′=P-{p0},P′为由n个待清洁点构成的集合,gj是待清洁点pj的垃圾量,g0=0,M为预设常数。
可选的,所述清洁机器人路径规划问题的马尔可夫决策过程模型包括环境状态、动作、状态转移规则以及代价;
其中,环境状态St如下式所示:
St=(Dt,Et),
Figure BDA0003853000520000042
其中,t为步数,
Figure BDA0003853000520000043
为在第t步清洁机器人r垃圾仓的剩余容量,
Figure BDA0003853000520000044
为在第t步清洁机器人r所在的节点,
Figure BDA0003853000520000045
为截至第t步清洁机器人r访问过的节点构成的集合;
Figure BDA0003853000520000046
为在第t步节点pi的访问状态,若节点pi已被访问过,则
Figure BDA0003853000520000047
否则
Figure BDA0003853000520000048
动作At如下式所示:
At=(dt,pt)
其中,dt为在第t步激活的节点解码器,pt∈P为在第t步选择的节点;
状态转移规则ST用于根据动作At,通过下式将环境状态从St转移至St+1
Figure BDA0003853000520000049
Figure BDA00038530005200000410
Figure BDA00038530005200000411
Figure BDA00038530005200000412
其中,rt是节点解码器dt对应的清洁机器人,
Figure BDA00038530005200000413
表示将pt拼接在
Figure BDA00038530005200000414
末端;
代价F如下式所示:
Figure BDA0003853000520000051
其中,T是总步数,
Figure BDA0003853000520000052
是清洁机器人r在第t步的代价,
Figure BDA0003853000520000053
通过下式得到:
Figure BDA0003853000520000054
其中,
Figure BDA0003853000520000055
表示
Figure BDA0003853000520000056
Figure BDA0003853000520000057
的距离,
Figure BDA0003853000520000058
为pt的坐标,
Figure BDA0003853000520000059
Figure BDA00038530005200000510
的坐标。
可选的,所述用于清洁机器人路径规划的深度强化学习模型包括:编码器和解码器;编码器包括节点编码器和机器人编码器,解码器包括解码器选择器和k个节点解码器;节点编码器和机器人编码器的输出端均与解码器选择器的输入端连接,解码器选择器的输出端与k个节点解码器的输入端均连接;
节点编码器包括一个线性映射层和L1个图编码模块;线性映射层的输出端与第一个图编码模块的输入端连接;设lnode为节点编码器的图编码模块的索引,当1≤lnode<L1时,图编码模块lnode的输出端与第lnode+1个图编码模块的输入端连接,当lnode=L1时,图编码模块lnode的输出端与解码器选择器的输入端连接;机器人编码器包括线性映射层和L2个图编码模块;线性映射层的输出端与第一个图编码模块的输入端连接;设lrobot为机器人编码器的图编码模块的索引,当1≤lrobot<L2时,图编码模块lrobot的输出端与第lrobot+1个图编码模块的输入端连接,当lrobot=L2时,图编码模块lrobot的输出端与解码器选择器的输入端连接;解码器选择器包括多头注意力层和适应度层,多头注意力层的输出端与适应度层的输入端连接;节点解码器包括多头注意力层和适应度层,多头注意力层的输出端与适应度层的输入端连接。
可选的,所述线性映射层如下式所示:
Linear(x)=Wx+B
其中,
Figure BDA0003853000520000061
是输入数据,
Figure BDA0003853000520000062
Figure BDA0003853000520000063
是可学习的参数,din是数据输入的维度,dout是线性映射层的输出维度;
所述适应度层如下式所示:
Figure BDA0003853000520000064
其中,softmax()为归一化指数函数;
所述多头注意力层如下式所示:
MHA(X)=Concat(head1,head2,…,headh)WO
其中,
Figure BDA0003853000520000065
是多头注意力层的输入,N×dx是输入数据的维度,Concat是矩阵拼接操作,
Figure BDA0003853000520000066
是可训练的参数,h是注意力头的数量,dv是值向量的维度,headi是第i个注意力头的输出;headi的计算方法如下式:
Figure BDA0003853000520000067
其中,Qi=XWii Q,
Figure BDA00038530005200000615
Vi=XWi V
Figure BDA0003853000520000068
Figure BDA0003853000520000069
Figure BDA00038530005200000610
是可学习的参数,dk是键向量的维度;
所述图编码模块如下式所示:
Xl+1=GraphEncoder(Xl)
其中,
Figure BDA00038530005200000611
是图编码模块的输入,
Figure BDA00038530005200000612
是图编码模块的输出,
Figure BDA00038530005200000613
其中,
Figure BDA00038530005200000614
是图编码模块计算过程向量,FF是前向传播模块,由若干线性映射层和ReLU函数层级联而成;BN()为批标准化层;
所述ReLU函数层如下式所示:
ReLU(x)=max(0,x)
所述批标准化层如下式所示:
Figure BDA0003853000520000071
其中,γ和β是可学习的参数,E[x]为x的期望,Var[x]是x的方差,∈是用于防止分母为零的常数;
所述节点编码器的输入为IP={(xi,ci,gi)|i∈P},输出为
Figure BDA0003853000520000072
其中,
Figure BDA0003853000520000073
是第i个节点的编码;
所述机器人编码器的输入为IR={(vr,br)|r∈R},输出为
Figure BDA0003853000520000074
其中,
Figure BDA0003853000520000075
是第i个清洁机器人的编码;
所述解码器选择器在时间步t的输入为
Figure BDA0003853000520000076
其中,
Figure BDA0003853000520000077
Figure BDA0003853000520000078
是截至时间步t-1清洁机器人r走过的路径,
Figure BDA0003853000520000079
输出为概率最大的节点解码器dt
所述节点解码器的输入为
Figure BDA00038530005200000710
其中,r′是节点解码器dt对应的清洁机器人,hp是清洁机器人所在节点的编码,hr′是清洁机器人r′的编码;输出为概率最大的节点pt
可选的,所述训练用于清洁机器人路径规划的初始深度强化学习模型时,通过下式优化用于清洁机器人路径规划的初始深度强化学习模型的模型参数:
Figure BDA00038530005200000711
其中,θ是模型参数,s是输出的路径规划方案,Fs是路径规划方案s的代价,b(s)是基准方法对路径规划方案s的评价,π强化学习方法的策略,pθ(π|s)表示在参数θ和策略π下,输出路径规划方案s的概率。
本发明第二方面,一种清洁机器人路径规划***,包括:
数据获取模块,用于获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量;
模型调用模块,用于根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量,调用预设的用于清洁机器人路径规划的深度强化学习模型,得到各清洁机器人的路径规划结果。
本发明第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述清洁机器人路径规划方法的步骤。
本发明第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述清洁机器人路径规划方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明清洁机器人路径规划方法,基于用于清洁机器人路径规划的深度强化学习模型的调用,仅通过获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量,即可实现多清洁机器人的路径规划,可以求解存在多个机器人、大量待清洁点的清洁机器人路径规划问题,更加贴合实际应用场景,并且充分利用了清洁任务信息和清洁机器人信息,求得的路径规划方案优于传统的优化方法。同时,用于清洁机器人路径规划的深度强化学习模型基于深度强化学习,可以利用图形处理器极大加快运算速度,求解路径规划问题所需的运算时间远低于蚁群算法及动态规划算法等传统方法。
附图说明
图1为本发明实施例的清洁机器人路径规划方法流程图。
图2为本发明实施例的深度强化学习模型架构图。
图3为本发明实施例的深度强化学习模型细节架构示意图。
图4为本发明实施例的清洁机器人路径规划***结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明一实施例中,提供一种清洁机器人路径规划方法,具体为基于深度强化学习的清洁机器人路径规划方法,能够实现多清洁机器人的路径规划,且求解速度快,求解质量高。
具体的,该清洁机器人路径规划方法,包括以下步骤:
S1:获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量。
S2:根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量,调用预设的用于清洁机器人路径规划的深度强化学习模型,得到各清洁机器人的路径规划结果。
其中,各清洁机器人的垃圾仓容量和运行速度,均可以从清洁机器人的说明书或生产厂家处获取,机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量依据实际的工作场景设定。
本发明清洁机器人路径规划方法,基于用于清洁机器人路径规划的深度强化学习模型的调用,仅通过获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量,即可实现多清洁机器人的路径规划,可以求解存在多个机器人、大量待清洁点的清洁机器人路径规划问题,更加贴合实际应用场景,并且充分利用了清洁任务信息和清洁机器人信息,求得的路径规划方案优于传统的优化方法。同时,用于清洁机器人路径规划的深度强化学习模型基于深度强化学习,可以利用图形处理器极大加快运算速度,求解路径规划问题所需的运算时间远低于蚁群算法及动态规划算法等传统方法。
在一种可能的实施方式中,所述用于清洁机器人路径规划的深度强化学习模型通过如下方式构建得到:建立清洁机器人路径规划问题的数学模型;根据清洁机器人路径规划问题的数学模型,建立清洁机器人路径规划问题的马尔可夫决策过程模型;根据清洁机器人路径规划问题的马尔可夫决策过程模型,建立用于清洁机器人路径规划的初始深度强化学习模型;通过预设的训练集,训练用于清洁机器人路径规划的初始深度强化学习模型,得到用于清洁机器人路径规划的深度强化学习模型。
可选的,所述清洁机器人路径规划问题的数学模型包括优化变量、优化目标和约束条件,优化变量包括第一优化变量Y和第二优化变量Z,约束条件包括优化变量取值范围约束、区域访问次数约束、机器人路径连续性约束、机器人能携带的垃圾总量约束和垃圾运输约束。
设机器人库和待清洁点构成节点集合
Figure BDA0003853000520000111
其中n是待清洁点的数量,p0表示机器人库节点,设P′=P-{p0},P′是由n个待清洁点构成的集合;设机器人库和待清洁点的坐标构成集合
Figure BDA0003853000520000112
其中xi为pi的坐标;设所有清洁机器人构成集合
Figure BDA0003853000520000113
其中k是清洁机器人的数量。
第一优化变量Y如下式所示:
Figure BDA0003853000520000114
其中,k为清洁机器人的数量,
Figure BDA0003853000520000115
为指示变量,指示表示机器人r是否从pi出发并抵达pj,若机器人r从pi出发并抵达pj,则
Figure BDA0003853000520000116
否则
Figure BDA0003853000520000117
第二优化变量Z如下式所示:
Z={zi,j|i∈P,j∈P}
其中,zi,j表示从xi运往xj的垃圾总量。
优化目标如下式所示:
Figure BDA0003853000520000118
其中,cj是待清洁点pj的清洁工作量,c0=0;vr是清洁机器人r的运行速度。
其中,优化变量的取值范围约束如下式所示:
Figure BDA0003853000520000119
zi,j≥0,i∈P,j∈P
区域访问次数约束如下式所示:
Figure BDA0003853000520000121
机器人路径连续性约束如下式所示:
Figure BDA0003853000520000122
机器人能携带的垃圾总量约束如下式所示:
Figure BDA0003853000520000123
其中,br是机器人r的垃圾仓容量;
垃圾运输约束如下式所示:
Figure BDA0003853000520000124
Figure BDA0003853000520000125
其中,gj是待清洁点pj的垃圾量,设g0=0,M是一个较大的预设常数。
可选的,所述清洁机器人路径规划问题的马尔可夫决策过程模型包括环境状态、动作、状态转移规则以及代价。
具体的,环境状态St=(Dt,Et),
Figure BDA0003853000520000126
其中t为步数,
Figure BDA0003853000520000127
为在第t步清洁机器人r垃圾仓的剩余容量,
Figure BDA0003853000520000128
为在第t步清洁机器人r所在的节点,
Figure BDA0003853000520000129
为截至第t步清洁机器人r访问过的节点构成的集合;
Figure BDA00038530005200001210
为在第t步节点pi的访问状态,若节点pi已被访问过,则
Figure BDA00038530005200001211
否则
Figure BDA00038530005200001212
动作At=(dt,pt),其中,dt为在第t步激活的节点解码器,pt∈P为在第t步选择的节点。
状态转移规则ST根据动作At,将环境状态从St转移至St+1,具体包括:
Figure BDA0003853000520000131
Figure BDA0003853000520000132
Figure BDA0003853000520000133
Figure BDA0003853000520000134
其中,rt是节点解码器dt对应的清洁机器人,
Figure BDA0003853000520000135
表示将pt拼接在
Figure BDA0003853000520000136
末端。
代价
Figure BDA0003853000520000137
其中T是总步数,
Figure BDA0003853000520000138
是机器人r在第t步的代价,
Figure BDA0003853000520000139
的计算方法如下式所示:
Figure BDA00038530005200001310
其中,
Figure BDA00038530005200001311
表示点
Figure BDA00038530005200001312
和点
Figure BDA00038530005200001313
的距离。
参见图2,可选的,所述用于清洁机器人路径规划的深度强化学习模型包括:编码器和解码器;编码器包括节点编码器和机器人编码器,解码器包括解码器选择器和k个节点解码器;节点编码器和机器人编码器的输出端均与解码器选择器的输入端连接,解码器选择器的输出端与k个节点解码器的输入端均连接。
参见图3,其中,构成节点编码器、机器人编码器、解码器选择器和节点解码器的组件包括线性映射层、ReLU函数层、单头注意力层、多头注意力层、批标准化层以及图编码模块。具体的,节点编码器包括一个线性映射层和L1个图编码模块;线性映射层的输出端与第一个图编码模块的输入端连接;设lnode为节点编码器的图编码模块的索引,当1≤lnode<L1时,图编码模块lnode的输出端与第lnode+1个图编码模块的输入端连接,当lnode=L1时,图编码模块lnode的输出端与解码器选择器的输入端连接;机器人编码器包括线性映射层和L2个图编码模块;线性映射层的输出端与第一个图编码模块的输入端连接;设lrodot为机器人编码器的图编码模块的索引,当1≤lrobot<L2时,图编码模块lrobot的输出端与第lrobot+1个图编码模块的输入端连接,当lrobot=L2时,图编码模块lrobot的输出端与解码器选择器的输入端连接;解码器选择器包括多头注意力层和适应度层,多头注意力层的输出端与适应度层的输入端连接;节点解码器包括多头注意力层和适应度层,多头注意力层的输出端与适应度层的输入端连接。
具体的,所述线性映射层如下式所示:
Linear(x)=Wx+B
其中,
Figure BDA0003853000520000141
是输入数据,
Figure BDA0003853000520000142
Figure BDA0003853000520000143
是可学习的参数,din是数据输入的维度,dout是线性映射层的输出维度。
所述适应度层如下式所示:
Figure BDA0003853000520000144
其中,softmax()为归一化指数函数。
所述多头注意力层如下式所示:
MHA(X)=COncat(head1,head2,…,headh)WO
其中,
Figure BDA00038530005200001414
是多头注意力层的输入,N×dx是输入数据的维度,Concat是矩阵拼接操作,
Figure BDA00038530005200001415
是可训练的参数,h是注意力头的数量,当h为1时,即为单头注意力层,dv是值向量的维度,headi是第i个注意力头的输出;headj的计算方法如下式:
Figure BDA0003853000520000151
其中,Qi=XWi Q,
Figure BDA00038530005200001514
Vi=XWi V
Figure BDA0003853000520000152
Figure BDA0003853000520000153
Figure BDA0003853000520000154
是可学习的参数,dk是键向量的维度。
所述单头注意力层如下式所示:
Figure BDA0003853000520000155
其中,Q=XWQ,K=XWK,V=XWV
Figure BDA0003853000520000156
Figure BDA0003853000520000157
Figure BDA0003853000520000158
是可学习的参数。
所述图编码模块如下式所示:
Xl+1=GraphEncoder(Xl)
其中,
Figure BDA0003853000520000159
是图编码模块的输入,
Figure BDA00038530005200001510
是图编码模块的输出,
Figure BDA00038530005200001511
其中,
Figure BDA00038530005200001512
是图编码模块计算过程向量,FF是前向传播模块,由若干线性映射层和ReLU函数层级联而成;BN()为批标准化层。
所述ReLU函数层如下式所示:
ReLU(x)=max(0,x)
所述批标准化层如下式所示:
Figure BDA00038530005200001513
其中,γ和β是可学习的参数,E[x]为x的期望,Var[x]是x的方差,∈是用于防止分母为零的常数。
本实施方式中,前向传播模块,由一个输入维度为128,输出维度为512的线性映射层、一个ReLU激活函数层和一个输入维度为512,输出维度为128的线性映射层级联而成。
在一种可能的实施方式中,所述节点编码器的输入为节点信息IP={(xi,ci,gi)|i∈P},输出为
Figure BDA0003853000520000161
其中,
Figure BDA0003853000520000162
是第i个节点的编码;所述机器人编码器的输入为机器人信息IR={(vr,br)|r∈R},输出为
Figure BDA0003853000520000163
Figure BDA0003853000520000164
其中,
Figure BDA0003853000520000165
是第i个清洁机器人的编码;所述解码器选择器在时间步t的输入为
Figure BDA0003853000520000166
输出为概率最大的节点解码器dt;节点解码器的输入为
Figure BDA0003853000520000167
其中,r′是节点解码器dt对应的清洁机器人,hp是清洁机器人所在节点的编码,hr′是清洁机器人r′的编码;输出为概率最大的节点pt
具体的,所述节点编码器的输入为
Figure BDA0003853000520000168
节点编码器首先通过线性映射层将IP映射到高维特征空间:
Figure BDA0003853000520000169
其中,
Figure BDA00038530005200001610
LinearP的输入维度为4,输出维度为128。
然后通过m个图编码模块提取特征:
Figure BDA00038530005200001611
其中,k是图编码模块的序号;节点解码器的输出为
Figure BDA00038530005200001612
其中
Figure BDA00038530005200001613
是第i个节点的编码,
Figure BDA00038530005200001614
所述机器人编码器的输入为
Figure BDA00038530005200001618
机器人编码器首先通过线性映射层将IR映射到高维特征空间:
Figure BDA00038530005200001615
其中,
Figure BDA00038530005200001616
LinearR的输入维度为2,输出维度为128。
然后通过m个图编码模块提取特征:
Figure BDA00038530005200001617
机器人编码器的输出为
Figure BDA0003853000520000171
其中,
Figure BDA0003853000520000172
是第i个清洁机器人的编码。
所述解码器选择器在时间步t的输入为
Figure BDA0003853000520000173
其中
Figure BDA0003853000520000174
Figure BDA0003853000520000175
是截至时间步i-1,清洁机器人r走过的路径;
Figure BDA0003853000520000176
解码器选择器首先通过最大池化提取Tourt-1中的信息:
Figure BDA0003853000520000177
然后,通过提取到的信息输入前向传播模块,得到
Figure BDA0003853000520000178
Figure BDA0003853000520000179
其中,FFST由一个输入维度为5,输出维度为128的线性映射层、一个输入维度为128,输出维度为512的线性映射层、一个ReLU激活函数层、一个输入维度为512,输出维度为128的线性映射层级联而成。
再将Vt-1输入另一个前向传播模块,得到
Figure BDA00038530005200001711
Figure BDA00038530005200001712
其中,FFST由一个输入维度为640,输出维度为128的线性映射层、一个输入维度为128,输出维度为512的线性映射层、一个ReLU激活函数层、一个输入维度为512,输出维度为128的线性映射层级联而成。
Figure BDA00038530005200001713
Figure BDA00038530005200001714
拼接,并输入线性层,得到对数概率:
Figure BDA00038530005200001710
其中,LinearS的输入维度为256,输出维度为5。
将logitsS输入softmax函数,得到选择各解码器的概率probS
probS=softmax(logitsS)
其中,
Figure BDA00038530005200001818
Figure BDA00038530005200001819
表示选择解码器i的概率,最终得到概率最大的节点解码器dt
Figure BDA0003853000520000181
解码器选择器的输出即为dt
所述节点解码器的输入为
Figure BDA0003853000520000182
其中,r′是节点解码器dt对应的清洁机器人,hp是清洁机器人所在节点的编码,hr′是清洁机器人r′的编码;输出为概率最大的节点pt
节点解码器首先将CD输入线性映射层,得到
Figure BDA0003853000520000183
Figure BDA0003853000520000184
其中,LinearD的输入维度为257,输出维度为128。
再将
Figure BDA0003853000520000185
Figure BDA0003853000520000186
拼接,得到
Figure BDA0003853000520000187
Figure BDA0003853000520000188
其中,
Figure BDA0003853000520000189
Figure BDA00038530005200001810
输入多头注意力层,得到
Figure BDA00038530005200001811
Figure BDA00038530005200001812
其中,
Figure BDA00038530005200001813
再计算选择第i个节点的概率
Figure BDA00038530005200001814
Figure BDA00038530005200001815
其中,
Figure BDA00038530005200001816
dkey是keyi的维度;最终得到概率最大的节点pt
Figure BDA00038530005200001817
节点解码器的输出即为pt
在一种可能的实施方式中,通过预设的训练集,训练用于清洁机器人路径规划的初始深度强化学习模型包括:
S11:设定训练数据集大小、批量大小、训练轮数E以及学习率。本实施方式中,设定训练数据集大小为1280000、批量大小为512、训练轮数E=50、学习率为0.0001。
S12:生成训练样本集;设定当前训练轮数e=1。
S13:根据设定的批量大小,分批次将训练样本输入网络,计算路径规划方案;并根据网络输出的路径规划方案,根据下式优化模型参数:
Figure BDA0003853000520000191
其中,θ是模型参数,s是输出的路径规划方案,Fs是路径规划方案s的代价,b(s)是基准方法对路径规划方案s的评价,π强化学习方法的策略,pθ(π|s)表示在参数θ和策略π下,输出路径规划方案s的概率。
S14:训练轮数e=e+1。
S15:如果e>E,则训练结束;否则,返回S12。
在一种可能的实施方式中,采用包含1280个样本的测试集,对三个基于传统优化技术的基准方法:蚁群算法、遗传算法和Gurobi,两个基于强化学习的基准方法:AM和DRL,及本发明清洁机器人路径规划方法进行测试,结果如表1:
表1
方法 优化目标的值 求解时间(单位:秒)
蚁群算法 7.07 261097
遗传算法 8.85 175670
Gurobi 7.38 129039
AM 7.09 0.63
DRL 6.69 1.21
本发明 6.59 1.27
可见,从优化目标的角度看,本发明清洁机器人路径规划方法优于上述五种基准方法;从求解时间的角度看,本发明清洁机器人路径规划方法显著优于三种基于传统优化技术的方法。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未披露的细节,请参照本发明方法实施例。
参见图4,本发明再一实施例中,提供一种清洁机器人路径规划***,能够用于实现上述的清洁机器人路径规划方法,具体的,该清洁机器人路径规划***包括数据获取模块以及模型调用模块。
其中,数据获取模块用于获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量;模型调用模块用于根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量,调用预设的用于清洁机器人路径规划的深度强化学习模型,得到各清洁机器人的路径规划结果。
在一种可能的实施方式中,所述用于清洁机器人路径规划的深度强化学习模型通过如下方式构建得到:建立清洁机器人路径规划问题的数学模型;根据清洁机器人路径规划问题的数学模型,建立清洁机器人路径规划问题的马尔可夫决策过程模型;根据清洁机器人路径规划问题的马尔可夫决策过程模型,建立用于清洁机器人路径规划的初始深度强化学习模型;通过预设的训练集,训练用于清洁机器人路径规划的初始深度强化学习模型,得到用于清洁机器人路径规划的深度强化学习模型。
在一种可能的实施方式中,所述清洁机器人路径规划问题的数学模型包括优化变量、优化目标和约束条件;其中,优化变量包括第一优化变量Y和第二优化变量Z:
Figure BDA0003853000520000211
Z={zi,j|i∈P,j∈P}
其中,P为机器人库和待清洁点构成的节点集合
Figure BDA0003853000520000216
n为待清洁点的数量,p0表示机器人库节点;R为各清洁机器人构成的集合
Figure BDA0003853000520000217
k为清洁机器人的数量,
Figure BDA0003853000520000218
为指示变量,指示清洁机器人r是否从pi出发并抵达pj,若机器人r从pi出发并抵达pj,则
Figure BDA0003853000520000219
否则
Figure BDA00038530005200002110
zi,j为pi的坐标从xi运往pj的坐标xj的垃圾总量。
优化目标如下式所示:
Figure BDA0003853000520000212
其中,cj是待清洁点pj的清洁工作量,c0=0;vr是清洁机器人r的运行速度。
约束条件包括优化变量取值范围约束、区域访问次数约束、机器人路径连续性约束、机器人能携带的垃圾总量约束和垃圾运输约束。
其中,优化变量的取值范围约束如下式所示:
Figure BDA0003853000520000213
zi,j≥0,i∈P,j∈P
区域访问次数约束如下式所示:
Figure BDA0003853000520000214
机器人路径连续性约束如下式所示:
Figure BDA0003853000520000215
机器人能携带的垃圾总量约束如下式所示:
Figure BDA0003853000520000221
其中,br是清洁机器人r的垃圾仓容量;
垃圾运输约束如下式所示:
Figure BDA0003853000520000222
Figure BDA0003853000520000223
其中,P′=P-{p0},P′为由n个待清洁点构成的集合,gj是待清洁点pj的垃圾量,g0=0,M为预设常数。
在一种可能的实施方式中,所述清洁机器人路径规划问题的马尔可夫决策过程模型包括环境状态、动作、状态转移规则以及代价。
其中,环境状态St如下式所示:
St=(Dt,Et),
Figure BDA0003853000520000224
其中,t为步数,
Figure BDA0003853000520000226
为在第t步清洁机器人r垃圾仓的剩余容量,
Figure BDA0003853000520000227
为在第t步清洁机器人r所在的节点,
Figure BDA0003853000520000228
为截至第t步清洁机器人r访问过的节点构成的集合;
Figure BDA0003853000520000229
为在第t步节点pi的访问状态,若节点pi已被访问过,则
Figure BDA00038530005200002210
否则
Figure BDA00038530005200002211
动作At如下式所示:
At=(dt,pt)
其中,dt为在第t步激活的节点解码器,pt∈P为在第t步选择的节点。
状态转移规则ST用于根据动作At,通过下式将环境状态从St转移至St+1
Figure BDA0003853000520000225
Figure BDA0003853000520000231
Figure BDA0003853000520000232
Figure BDA0003853000520000233
其中,rt是节点解码器dt对应的清洁机器人,
Figure BDA0003853000520000236
表示将pt拼接在
Figure BDA0003853000520000237
末端。
代价F如下式所示:
Figure BDA0003853000520000234
其中,T是总步数,
Figure BDA0003853000520000238
是清洁机器人r在第t步的代价,
Figure BDA0003853000520000239
通过下式得到:
Figure BDA0003853000520000235
其中,
Figure BDA00038530005200002310
表示
Figure BDA00038530005200002311
Figure BDA00038530005200002312
的距离,
Figure BDA00038530005200002313
为pt的坐标,
Figure BDA00038530005200002314
Figure BDA00038530005200002315
的坐标。
在一种可能的实施方式中,所述用于清洁机器人路径规划的深度强化学习模型包括:编码器和解码器;编码器包括节点编码器和机器人编码器,解码器包括解码器选择器和k个节点解码器;节点编码器和机器人编码器的输出端均与解码器选择器的输入端连接,解码器选择器的输出端与k个节点解码器的输入端均连接;节点编码器包括一个线性映射层和L1个图编码模块;线性映射层的输出端与第一个图编码模块的输入端连接;设lnode为节点编码器的图编码模块的索引,当1≤lnode<L1时,图编码模块lnode的输出端与第lnode+1个图编码模块的输入端连接,当lnode=L1时,图编码模块lnode的输出端与解码器选择器的输入端连接;机器人编码器包括线性映射层和L2个图编码模块;线性映射层的输出端与第一个图编码模块的输入端连接;设lrobot为机器人编码器的图编码模块的索引,当1≤lrobot<L2时,图编码模块lrobot的输出端与第lrobot+1个图编码模块的输入端连接,当lrobot=L2时,图编码模块lrobot的输出端与解码器选择器的输入端连接;解码器选择器包括多头注意力层和适应度层,多头注意力层的输出端与适应度层的输入端连接;节点解码器包括多头注意力层和适应度层,多头注意力层的输出端与适应度层的输入端连接。
在一种可能的实施方式中,所述线性映射层如下式所示:
Linear(x)=Wx+B
其中,
Figure BDA00038530005200002412
是输入数据,
Figure BDA00038530005200002413
Figure BDA00038530005200002414
是可学习的参数,din是数据输入的维度,dout是线性映射层的输出维度。
所述适应度层如下式所示:
Figure BDA0003853000520000241
其中,softmax()为归一化指数函数。
所述多头注意力层如下式所示:
MHA(X)=Concat(head1,head2,…,headh)WO
其中,
Figure BDA00038530005200002415
是多头注意力层的输入,N×dx是输入数据的维度,Concat是矩阵拼接操作,
Figure BDA00038530005200002416
是可训练的参数,h是注意力头的数量,dv是值向量的维度,headi是第i个注意力头的输出;headi的计算方法如下式:
Figure BDA0003853000520000242
其中,Qi=XWi Q,
Figure BDA00038530005200002417
Vi=XWi V
Figure BDA0003853000520000243
Figure BDA0003853000520000244
Figure BDA0003853000520000245
是可学习的参数,dk是键向量的维度。
所述图编码模块如下式所示:
Xl+1=GraphEncoder(Xl)
其中,
Figure BDA0003853000520000252
是图编码模块的输入,
Figure BDA0003853000520000253
是图编码模块的输出,
Figure BDA0003853000520000254
其中,
Figure BDA0003853000520000255
是图编码模块计算过程向量,FF是前向传播模块,由若干线性映射层和ReLU函数层级联而成;BN()为批标准化层。
所述ReLU函数层如下式所示:
ReLU(x)=max(0,x)
所述批标准化层如下式所示:
Figure BDA0003853000520000251
其中,γ和β是可学习的参数,E[x]为x的期望,Var[x]是x的方差,∈是用于防止分母为零的常数。
所述节点编码器的输入为IP={(xi,ci,gi)|i∈P},输出为
Figure BDA0003853000520000256
其中,
Figure BDA0003853000520000257
是第i个节点的编码;所述机器人编码器的输入为IR={(vr,br)|r∈R},输出为
Figure BDA0003853000520000258
其中,
Figure BDA0003853000520000259
是第i个清洁机器人的编码;所述解码器选择器在时间步t的输入为
Figure BDA00038530005200002510
其中,
Figure BDA00038530005200002511
Figure BDA00038530005200002512
是截至时间步t-1清洁机器人r走过的路径,
Figure BDA00038530005200002513
输出为概率最大的节点解码器dt;输出为概率最大的节点解码器dt;所述节点解码器的输入为
Figure BDA00038530005200002514
其中,r′是节点解码器dt对应的清洁机器人,hp是清洁机器人所在节点的编码,hr′是清洁机器人r′的编码;输出为概率最大的节点pt
在一种可能的实施方式中,所述训练用于清洁机器人路径规划的初始深度强化学习模型时,通过下式优化用于清洁机器人路径规划的初始深度强化学习模型的模型参数:
Figure BDA0003853000520000261
其中,θ是模型参数,s是输出的路径规划方案,Fs是路径规划方案s的代价,b(s)是基准方法对路径规划方案s的评价,π强化学习方法的策略,pθ(π|s)表示在参数θ和策略π下,输出路径规划方案s的概率。
前述的清洁机器人路径规划方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明施例中的清洁机器人路径规划***所对应的功能模块的功能描述,在此不再赘述。
本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于清洁机器人路径规划方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关清洁机器人路径规划方法的相应步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种清洁机器人路径规划方法,其特征在于,包括:
获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量;
根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量,调用预设的用于清洁机器人路径规划的深度强化学习模型,得到各清洁机器人的路径规划结果。
2.根据权利要求1所述的清洁机器人路径规划方法,其特征在于,所述用于清洁机器人路径规划的深度强化学习模型通过如下方式构建得到:
建立清洁机器人路径规划问题的数学模型;
根据清洁机器人路径规划问题的数学模型,建立清洁机器人路径规划问题的马尔可夫决策过程模型;
根据清洁机器人路径规划问题的马尔可夫决策过程模型,建立用于清洁机器人路径规划的初始深度强化学习模型;
通过预设的训练集,训练用于清洁机器人路径规划的初始深度强化学习模型,得到用于清洁机器人路径规划的深度强化学习模型。
3.根据权利要求2所述的清洁机器人路径规划方法,其特征在于,所述清洁机器人路径规划问题的数学模型包括优化变量、优化目标和约束条件;
其中,优化变量包括第一优化变量Y和第二优化变量Z:
Figure FDA0003853000510000011
Z={zi,j|i∈P,j∈P}
其中,P为机器人库和待清洁点构成的节点集合
Figure FDA0003853000510000012
n为待清洁点的数量,p0表示机器人库节点;R为各清洁机器人构成的集合
Figure FDA0003853000510000013
k为清洁机器人的数量,
Figure FDA0003853000510000021
为指示变量,指示清洁机器人r是否从pi出发并抵达pj,若机器人r从pi出发并抵达pj,则
Figure FDA0003853000510000022
否则
Figure FDA0003853000510000023
zi,j为pi的坐标从xi运往pj的坐标xj的垃圾总量;
优化目标如下式所示:
Figure FDA0003853000510000024
其中,cj是待清洁点pj的清洁工作量,c0=0;vr是清洁机器人r的运行速度;
约束条件包括优化变量取值范围约束、区域访问次数约束、机器人路径连续性约束、机器人能携带的垃圾总量约束和垃圾运输约束;
其中,优化变量的取值范围约束如下式所示:
Figure FDA0003853000510000025
zi,j≥0,i∈P,j∈P
区域访问次数约束如下式所示:
Figure FDA0003853000510000026
机器人路径连续性约束如下式所示:
Figure FDA0003853000510000027
机器人能携带的垃圾总量约束如下式所示:
Figure FDA0003853000510000028
其中,br是清洁机器人r的垃圾仓容量;
垃圾运输约束如下式所示:
Figure FDA0003853000510000031
Figure FDA0003853000510000032
其中,P′=P-{p0},P′为由n个待清洁点构成的集合,gj是待清洁点pj的垃圾量,g0=0,M为预设常数。
4.根据权利要求3所述的清洁机器人路径规划方法,其特征在于,所述清洁机器人路径规划问题的马尔可夫决策过程模型包括环境状态、动作、状态转移规则以及代价;
其中,环境状态St如下式所示:
Figure FDA0003853000510000033
其中,t为步数,
Figure FDA0003853000510000034
为在第t步清洁机器人r垃圾仓的剩余容量,
Figure FDA0003853000510000035
为在第t步清洁机器人r所在的节点,
Figure FDA0003853000510000036
为截至第t步清洁机器人r访问过的节点构成的集合;
Figure FDA0003853000510000037
为在第t步节点pi的访问状态,若节点pi已被访问过,则
Figure FDA0003853000510000038
否则
Figure FDA0003853000510000039
动作At如下式所示:
At=(dt,pt)
其中,dt为在第t步激活的节点解码器,pt∈P为在第t步选择的节点;
状态转移规则ST用于根据动作At,通过下式将环境状态从St转移至St+1
Figure FDA00038530005100000310
Figure FDA00038530005100000311
Figure FDA00038530005100000312
Figure FDA0003853000510000041
其中,rt是节点解码器st对应的清洁机器人,
Figure FDA0003853000510000042
表示将pt拼接在
Figure FDA0003853000510000043
末端;
代价F如下式所示:
Figure FDA0003853000510000044
其中,T是总步数,
Figure FDA0003853000510000045
是清洁机器人r在第t步的代价,
Figure FDA0003853000510000046
通过下式得到:
Figure FDA0003853000510000047
其中,
Figure FDA0003853000510000048
表示
Figure FDA0003853000510000049
Figure FDA00038530005100000410
的距离,
Figure FDA00038530005100000411
为pt的坐标,
Figure FDA00038530005100000412
Figure FDA00038530005100000413
的坐标。
5.根据权利要求4所述的清洁机器人路径规划方法,其特征在于,所述用于清洁机器人路径规划的深度强化学习模型包括:编码器和解码器;编码器包括节点编码器和机器人编码器,解码器包括解码器选择器和k个节点解码器;节点编码器和机器人编码器的输出端均与解码器选择器的输入端连接,解码器选择器的输出端与k个节点解码器的输入端均连接;
节点编码器包括一个线性映射层和L1个图编码模块;线性映射层的输出端与第一个图编码模块的输入端连接;设
Figure FDA00038530005100000414
为节点编码器的图编码模块的索引,当
Figure FDA00038530005100000415
时,图编码模块
Figure FDA00038530005100000416
的输出端与第
Figure FDA00038530005100000422
个图编码模块的输入端连接,当
Figure FDA00038530005100000423
时,图编码模块
Figure FDA00038530005100000417
的输出端与解码器选择器的输入端连接;机器人编码器包括线性映射层和L2个图编码模块;线性映射层的输出端与第一个图编码模块的输入端连接;设
Figure FDA00038530005100000418
为机器人编码器的图编码模块的索引,当
Figure FDA00038530005100000419
时,图编码模块
Figure FDA00038530005100000420
的输出端与第
Figure FDA00038530005100000421
个图编码模块的输入端连接,当
Figure FDA00038530005100000511
时,图编码模块
Figure FDA00038530005100000512
的输出端与解码器选择器的输入端连接;解码器选择器包括多头注意力层和适应度层,多头注意力层的输出端与适应度层的输入端连接;节点解码器包括多头注意力层和适应度层,多头注意力层的输出端与适应度层的输入端连接。
6.根据权利要求5所述的清洁机器人路径规划方法,其特征在于,所述线性映射层如下式所示:
Linear(x)=Wx+B
其中,
Figure FDA0003853000510000051
是输入数据,
Figure FDA0003853000510000052
Figure FDA0003853000510000053
是可学习的参数,din是数据输入的维度,dout是线性映射层的输出维度;
所述适应度层如下式所示:
Figure FDA0003853000510000054
其中,sofmtx()为归一化指数函数;
所述多头注意力层如下式所示:
MHA(X)=Concat(head1,head2,…,headh)WO
其中,
Figure FDA0003853000510000055
是多头注意力层的输入,N×dx是输入数据的维度,Concat是矩阵拼接操作,
Figure FDA0003853000510000056
是可训练的参数,h是注意力头的数量,dv是值向量的维度,headi是第i个注意力头的输出;headi的计算方法如下式:
Figure FDA0003853000510000057
其中,Qi=XWi Q,Ki=XWi K,Vi=XWi V
Figure FDA0003853000510000058
Figure FDA0003853000510000059
Figure FDA00038530005100000510
是可学习的参数,dk是键向量的维度;
所述图编码模块如下式所示:
Xl+1=GraphEncoder(Xl)
其中,
Figure FDA0003853000510000061
是图编码模块的输入,
Figure FDA0003853000510000062
是图编码模块的输出,
Figure FDA0003853000510000063
其中,
Figure FDA0003853000510000064
是图编码模块计算过程向量,FF是前向传播模块,由若干线性映射层和ReLU函数层级联而成;BN()为批标准化层;
所述ReLU函数层如下式所示:
ReLU(x)=max(0,x)
所述批标准化层如下式所示:
Figure FDA0003853000510000065
其中,γ和β是可学习的参数,E[x]为x的期望,Var[x]是x的方差,∈是用于防止分母为零的常数;
所述节点编码器的输入为IP={(xi,ci,gi)|i∈P},输出为
Figure FDA0003853000510000066
其中,
Figure FDA0003853000510000067
是第i个节点的编码;
所述机器人编码器的输入为IR={(vr,br)|r∈R},输出为
Figure FDA0003853000510000068
其中,
Figure FDA0003853000510000069
是第i个清洁机器人的编码;
所述解码器选择器在时间步t的输入为
Figure FDA00038530005100000610
其中,
Figure FDA00038530005100000611
Figure FDA00038530005100000612
是截至时间步t-1清洁机器人r走过的路径,
Figure FDA00038530005100000613
输出为概率最大的节点解码器dt
所述节点解码器的输入为
Figure FDA00038530005100000614
其中,r′是节点解码器dt对应的清洁机器人,hp是清洁机器人所在节点的编码,hr′是清洁机器人r′的编码;输出为概率最大的节点pt
7.根据权利要求2所述的清洁机器人路径规划方法,其特征在于,所述训练用于清洁机器人路径规划的初始深度强化学习模型时,通过下式优化用于清洁机器人路径规划的初始深度强化学习模型的模型参数:
Figure FDA0003853000510000071
其中,θ是模型参数,s是输出的路径规划方案,Fs是路径规划方案s的代价,b(s)是基准方法对路径规划方案s的评价,π强化学习方法的策略,pθ(π|s)表示在参数θ和策略π下,输出路径规划方案s的概率。
8.一种清洁机器人路径规划***,其特征在于,包括:
数据获取模块,用于获取各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量;
模型调用模块,用于根据各清洁机器人的垃圾仓容量和运行速度、机器人库的坐标以及各待清洁点的坐标、垃圾量和清洁工作量,调用预设的用于清洁机器人路径规划的深度强化学习模型,得到各清洁机器人的路径规划结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述清洁机器人路径规划方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述清洁机器人路径规划方法的步骤。
CN202211147813.4A 2022-09-19 2022-09-19 清洁机器人路径规划方法、***、计算机设备及存储介质 Pending CN115421494A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211147813.4A CN115421494A (zh) 2022-09-19 2022-09-19 清洁机器人路径规划方法、***、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211147813.4A CN115421494A (zh) 2022-09-19 2022-09-19 清洁机器人路径规划方法、***、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115421494A true CN115421494A (zh) 2022-12-02

Family

ID=84204837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211147813.4A Pending CN115421494A (zh) 2022-09-19 2022-09-19 清洁机器人路径规划方法、***、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115421494A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115648255A (zh) * 2022-12-15 2023-01-31 深圳市思傲拓科技有限公司 一种泳池清污机器人清洁路径规划管理***及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019076044A1 (zh) * 2017-10-20 2019-04-25 纳恩博(北京)科技有限公司 移动机器人局部运动规划方法、装置及计算机存储介质
CN112269382A (zh) * 2020-10-21 2021-01-26 桂林电子科技大学 一种机器人多目标路径规划方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储***多机器人路径规划方法
CN113269424A (zh) * 2021-05-17 2021-08-17 西安交通大学 机器人集群任务分配方法、***、设备及存储介质
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及***
US20220196414A1 (en) * 2019-12-31 2022-06-23 Goertek Inc. Global path planning method and device for an unmanned vehicle
CN114815810A (zh) * 2022-03-22 2022-07-29 武汉理工大学 无人机协同的水上清洁机器人路径规划方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019076044A1 (zh) * 2017-10-20 2019-04-25 纳恩博(北京)科技有限公司 移动机器人局部运动规划方法、装置及计算机存储介质
US20220196414A1 (en) * 2019-12-31 2022-06-23 Goertek Inc. Global path planning method and device for an unmanned vehicle
CN112269382A (zh) * 2020-10-21 2021-01-26 桂林电子科技大学 一种机器人多目标路径规划方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储***多机器人路径规划方法
CN113269424A (zh) * 2021-05-17 2021-08-17 西安交通大学 机器人集群任务分配方法、***、设备及存储介质
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及***
CN114815810A (zh) * 2022-03-22 2022-07-29 武汉理工大学 无人机协同的水上清洁机器人路径规划方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
成怡: "改进深度强化学习的室内移动机器人路径规划", 《计算机工程与应用》, vol. 57, no. 21, 31 July 2021 (2021-07-31), pages 256 - 263 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115648255A (zh) * 2022-12-15 2023-01-31 深圳市思傲拓科技有限公司 一种泳池清污机器人清洁路径规划管理***及方法

Similar Documents

Publication Publication Date Title
Kumar et al. Genetic algorithm: Review and application
US4697242A (en) Adaptive computing system capable of learning and discovery
Dasgupta et al. Evolutionary algorithms in engineering applications
CN110222164A (zh) 一种问答模型训练方法、问题语句处理方法、装置及存储介质
Rehbach et al. Expected improvement versus predicted value in surrogate-based optimization
CN113792924A (zh) 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
JP2008508581A (ja) 動作選択システム、動作選択方法、予測マシントレーニングシステム、予測マシントレーニング方法及び予測マシン
CN115099606B (zh) 一种电网调度模型的训练方法及终端
Liu et al. Global maximum likelihood estimation procedure for multinomial probit (MNP) model parameters
CN115421494A (zh) 清洁机器人路径规划方法、***、计算机设备及存储介质
CN116690589B (zh) 基于深度强化学***衡方法
Ye et al. Efficient robotic object search via hiem: Hierarchical policy learning with intrinsic-extrinsic modeling
CN111079888B (zh) 一种基于混合qpso-de寻优预测水质溶氧方法及***
Gupta et al. Solving time varying many-objective TSP with dynamic θ-NSGA-III algorithm
Salehi et al. Few-shot quality-diversity optimization
CN115293623A (zh) 一种生产调度模型的训练方法、装置、电子设备及介质
CN105955921B (zh) 基于自动发现抽象动作的机器人分层强化学习初始化方法
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备
CN109492744A (zh) 一种离散二进制粒子群算法与模糊控制耦合的混合运行优化控制方法
Li et al. Evaluation of frameworks that combine evolution and learning to design robots in complex morphological spaces
Remya An adaptive neuro-fuzzy inference system to monitor and manage the soil quality to improve sustainable farming in agriculture
Song et al. Towards efficient exploration in unknown spaces: A novel hierarchical approach based on intrinsic rewards
Huang et al. EDE-NAS: An eclectic differential evolution approach to single-path neural architecture search
Nadimi-Shahraki et al. Multi-trial Vector-based Whale Optimization Algorithm
Sisikoglu et al. A sampled fictitious play based learning algorithm for infinite horizon markov decision processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination