CN114936783B - 一种基于mmddpg算法的rgv小车调度方法及*** - Google Patents

一种基于mmddpg算法的rgv小车调度方法及*** Download PDF

Info

Publication number
CN114936783B
CN114936783B CN202210620696.2A CN202210620696A CN114936783B CN 114936783 B CN114936783 B CN 114936783B CN 202210620696 A CN202210620696 A CN 202210620696A CN 114936783 B CN114936783 B CN 114936783B
Authority
CN
China
Prior art keywords
rgv
algorithm
mmddpg
scheduling
trolley
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210620696.2A
Other languages
English (en)
Other versions
CN114936783A (zh
Inventor
郭洪飞
马向东
曾云辉
贾宇擎
何智慧
李建庆
韩世林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202210620696.2A priority Critical patent/CN114936783B/zh
Publication of CN114936783A publication Critical patent/CN114936783A/zh
Application granted granted Critical
Publication of CN114936783B publication Critical patent/CN114936783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于MMDDPG算法的RGV小车调度方法及***,属于人工智能技术领域。本发明基于银行家算法,并利用结合熵正则化器的MMDDPG算法对生产过程中的多辆RGV小车进行协同调度,其中对每个RGV小车的调度都考虑其他RGV小车的调度策略,同时,引入不可抢占式最低松弛度优先算法,以最大限度缩短任务等待响应的时间。本发明所提出的基于MMDDPG算法的RGV小车调度方法及***考虑了多RGV小车存在时的RGV小车的协作关系,对多个RGV小车进行统一调度,保证了多个RGV小车整体效率的最大化。

Description

一种基于MMDDPG算法的RGV小车调度方法及***
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于MMDDPG算法的RGV小车调度方法及***。
背景技术
随着我国科学技术的发展和WTO的加入,现代物流观念深入人心,广大用户对物流仓储***在推动各行业发展中有共同的认识,继之而来的就是自动化物流***和自动化仓库。随着自动化物流***和自动化仓库在中国乃至世界的发展,一般的自动化***和仓库的很多缺点就暴漏了出来,为了能够弥补这些缺点,RGV(有轨穿梭小车)随之产生了,它可以十分方便地与其他物流***实现自动连接,如出/入库站台、各种缓冲站、输送机、升降机和机器人等,按照计划进行物料的输送。另外,它无需人员操作,运行速度快。因而显著降低了仓库管理人员的工作量,提高了劳动生产率,同时穿梭车的应用可使物流***变得非常简捷。RGV的动态调度问题也成为物流行业的热门问题。
强化学***衡。不同于监督学***衡态、设计推荐***和机器人交互***。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能。
将机器学习算法引入RGV的动态调度问题中解决了诸多效率,分配方面的问题。利用强化学习,凭借定义奖励函数、状态、过程等可有效解决RGV动态调度问题。但是市面上的研究大部分是关于单一智能体的策略,路径规划。而如果可以研究多个智能体的协同工作可以进一部分提高RGC的动态调度绩效。
在中国专利申请文献202110324157.X中,公开了一种环形RGV的调度方法、装置、电子设备及存储介质,该方法确定线边物流***中待排产任务和可用RGV的配对组合,每一配对组合中包括k个可用RGV和待排产任务的配对结果,该任意两个配对结果中的可用RGV和待排产任务互不相同;其中,k为待排产任务数量和可用RGV数量中的最小值;针对每一配对组合,计算该配对组合的每一配对结果中的可用RGV执行该配对结果中的待排产任务的成本,累加每一配对结果中的可用RGV执行该配对结果中的待排产任务的成本,得到该配对组合的总成本;确定总成本最小的配对组合,将该配对组合的每一配对结果中的待排产任务分派给该配对结果中的可用RGV,以使该配对结果中的可用RGV执行该配对结果中的待排产任务。该方案根据总成本最小的配对组合进行环形RGV的任务分派,可以有效降低成本。
现有技术至少存在以下不足:
1.目前RGV小车调度没有考虑到智能体之间的相互协作来保证最终收益最大化;
2.现实环境中多个智能体代表的所在的环境的数据存在差异,直接全部传回buffer将会导致难以训练,且统一的模型参数传回给每一个智能体是不合理的。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于MMDDPG(Multi-moduleDeep Deterministic Policy Gradient 多模块深度确定性策略梯度)算法的RGV小车调度方法及***,基于银行家算法,并利用结合熵正则化器的MMDDPG算法对生产过程中的多辆RGV小车进行协同调度,其中对每个RGV小车的调度都考虑其他RGV小车的调度策略,同时,引入不可抢占式最低松弛度优先算法,以最大限度缩短任务等待响应的时间。调度***根据各台RGV小车的状态,及所利用的强行学习中的MMDDPG算法所输出的结果,得到输出动作,并发出相应的动作指令。基于MMDDPG算法的RGV小车调度***,采用上述RGV小车调度方法。RGV物流分拣***包括RGV小车调度***,根据路网负载表,获取各RGV小车的路径规划及位置信息。本发明适用于多智能体RGV小车调度,实现综合多种奖励策略下多智能体的最优调度。本发明所提出的基于MMDDPG算法的RGV小车调度方法及***考虑了多RGV小车存在时的RGV小车的协作关系,对多个RGV小车进行统一调度,保证了多个RGV小车整体效率的最大化。
本发明提供了一种基于MMDDPG算法的RGV小车调度方法,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法;
将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度;RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
优选地,采用银行家算法对单独的一个RGV小车提供调度参考,同时,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度,具体包括:
利用银行家算法为单独的RGV小车提供调度策略
Figure 36831DEST_PATH_IMAGE001
利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的 调度策略,并为每一个RGV小车提供考虑了其他RGV小车调度的策略
Figure 401954DEST_PATH_IMAGE002
构建每一个RGV小车最终采取的策略
Figure 87013DEST_PATH_IMAGE003
如下式:
Figure 562994DEST_PATH_IMAGE004
其中,a为可调超参数,取值范围在(0,1)。
优选地,在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,具体为:根据每台加工机器的任务松弛程度确定任务的优先级,任务的紧急程度越高,任务的执行优先级越高。
优选地,加工机器在完成一个任务后随即发出新任务的需求,该台加工机器完成任务的时间=该台加工机器发出新任务需求的时间。
优选地,不可抢占式最低松弛度优先算法的评判标准为每台加工机器任务的需求紧急程度,将其量化为:
某台加工机器任务松弛度=该台加工机器完成任务的时间-RGV到达加工机器所在位置的时间;
相当于:某台加工机器任务松弛度=该台加工机器发出新任务需求的时间-RGV到达加工机器所在位置的时间;
使用数学语言描述如下:
Figure 649898DEST_PATH_IMAGE005
其中,
Figure 326867DEST_PATH_IMAGE006
为第n号CNC任务需求的松弛度,
Figure 358277DEST_PATH_IMAGE007
为第n号加工机器发出新任务需求 的时间,
Figure 247736DEST_PATH_IMAGE008
为RGV到达指定加工机器所在位置花费的路程时间;
其中,
Figure 48202DEST_PATH_IMAGE009
包括开始工作之后所接受到的任务执行时间、任务等待响应被搁置的总 时间和上下料时间,数学语言表示如下:
Figure 630493DEST_PATH_IMAGE010
其中,
Figure 414778DEST_PATH_IMAGE011
为第n个任务发出需求信号的时间,
Figure 107927DEST_PATH_IMAGE012
为第n个任务等待响应而 被搁置的时间,
Figure 903845DEST_PATH_IMAGE013
为任务的上料时间,
Figure 47250DEST_PATH_IMAGE014
为任务的下料时间。
Figure 928619DEST_PATH_IMAGE015
包括RGV提前到达指定位置后所需等待的时间、RGV对熟料进行清洗的时 间、为CNC数控机床上下料的时间以及RGV的移动时间,用数学语言表示如下:
Figure 691038DEST_PATH_IMAGE016
其中,
Figure 466096DEST_PATH_IMAGE017
为RGV到达第n个任务的指定CNC所在位置花费的路程时间,
Figure 124611DEST_PATH_IMAGE018
为 执行第n个任务时RGV提前到达指定位置等待的时间,
Figure 614979DEST_PATH_IMAGE019
为任务的上料时间,
Figure 649931DEST_PATH_IMAGE020
为任务 的下料时间,
Figure 545075DEST_PATH_IMAGE021
为RGV对熟料进行清洗的时间。
优选地,训练多个不同的子策略的集合,将策略之间的差异作为目标函数,该多个策略的集成目标函数为:
Figure 640070DEST_PATH_IMAGE022
其中,
Figure 620664DEST_PATH_IMAGE023
为多个策略的集成目标函数;
Figure 724887DEST_PATH_IMAGE024
为奖励函数;
S为智能体的状态输入;
Figure 349903DEST_PATH_IMAGE025
为智能体将采取的动作;
u i 策略集中的第i个策略;
H(u i )是策略分布的熵;
pu为所有状态的集合;
E表示概率论中的期望;
Figure 740433DEST_PATH_IMAGE026
是超参数,用来控制目标函数中熵的目标比例,值越大,说明越希望多个策略之 间的差异性越大。
优选地,MMDDPG算法强化学习中采用如下公式更新计算集成目标函数的梯度:
Figure 83690DEST_PATH_IMAGE027
其中,
D为智能体体验重放缓冲区,包括元组
Figure 585078DEST_PATH_IMAGE028
Figure 64601DEST_PATH_IMAGE029
为第i个策略
Figure 766978DEST_PATH_IMAGE030
的参数;
Figure 722164DEST_PATH_IMAGE031
为第i个策略
Figure 902610DEST_PATH_IMAGE030
的集中式动作值函数,函数的输入为
Figure 502219DEST_PATH_IMAGE032
,为N个智能体的动作,
Figure 500131DEST_PATH_IMAGE033
为第i个智能体所获得的奖励;函数的输出为智能体i的动 作价值;
x为状态信息,
Figure 552400DEST_PATH_IMAGE034
,包括N个智能体的观察值,
Figure 536537DEST_PATH_IMAGE035
为第i个智能体的观 察值。
优选地,强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
本发明提供了一种基于MMDDPG算法的RGV小车调度***,使用上述的任一基于MMDDPG算法的RGV小车调度方法,包括多台RGV小车和控制调度模块;
控制调度模块采用基于MMDDPG算法,根据各台RGV小车的状态,及强化学习的结果,得到输出动作,并发出相应的动作指令;
RGV小车收到控制调度模块发出的动作指令后执行相应的操作,多台RGV协同完成任务。
本发明提供了一种RGV物流分拣***,包括上述的基于MMDDPG算法的RGV小车调度***;
RGV物流分拣***路网模型采用双向随机出入口路网模型;
路网区域划分为
Figure 115286DEST_PATH_IMAGE036
个子区域,RGV小车可以到达任意子区域进行分拣作业, 然后离开路网;
采用随机生成出入口位置的方式,当RGV入口位置生成时,在对面一侧随机生成出口位置;
根据随机生成的出入口位置进行路径规划。
优选地,在每一次RGV的路径规划完成后,更新路网负载表,路网负载表描述了路网中每一个子区域的路网负载,各子区域的路网负载为RGV路径规划经过该区域的路径数。
优选地,根据更新后的路网负载表,获取各RGV小车的路径规划及位置信息。
与现有技术相对比,本发明的有益效果如下:
(1)本发明所提出的基于MMDDPG算法的RGV小车调度方法及***考虑了多RGV小车存在时的RGV小车的协作关系,对多个RGV小车进行统一调度,保证了多个RGV小车整体效率的最大化。
(2)本发明融合了MMDDPG及银行家算法两种策略,在保证多个RGV小车整体效率的最大化的同时,也保证了任意一个单一的RGV小车的调度策略。
(3)本发明在对RGV小车进行调度时利用熵函数考虑了RGV小车之间的差异性,使得RGV小车之间的调度策略不会过于相似,避免了最终的策略陷入局部最优。
(4)本发明采用双向随机出入口的RGV分拣路网模型,根据随机生成的出入口位置进行路径规划,在每一次RGV的路径规划完成后,更新路网负载表,RGV小车调度***根据路网负载表,获取各RGV小车的路径规划及位置信息,实现了高效的多智能体RGV调度。
附图说明
图1是本发明的一个实施例的基于MMDDPG算法的RGV小车调度方法流程图。
具体实施方式
下面结合附图,对本发明的具体实施方式作详细的说明。
本发明提供了一种基于MMDDPG算法的RGV小车调度方法,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;银行家算法在进行资源分配的过程中对事态发展的演进过程进行了动态预测,能够有效地避开死锁问题;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,可以更好地提高加工机器的使用率,最大限度地缩短任务等待响应的时间。
将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度;RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
本发明提出的MMDDPG算法是对MADDPG算法的改进,MADDPG是一种多智能体是算法,相当于多个智能体采集到原始数据后将数据传回buffer统一训练,这样存在两个问题:1、没有考虑到智能体之间的相互协作来保证最终收益最大化;
2、现实环境中多个智能体代表的所在的环境的数据存在差异,直接全部传回buffer将会导致难以训练,且统一的模型参数传回给每一个智能体是不合理的。
基于上述问题,本发明将每一个RGV小车作为一个单独的module,每一个module的内部存在一个银行家算法对RGV小车进行调度,而MMDDPG算法结合熵正则化器来使单独的智能体RGV小车了解到其他智能体RGV小车的策略,从而实现对多智能体的有效协同调度,解决了上述问题。
根据本发明的一个具体实施方案,采用银行家算法对单独的一个RGV小车提供调度参考,同时,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度,具体包括:
利用银行家算法为单独的RGV小车提供调度策略
Figure 159465DEST_PATH_IMAGE001
利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的 调度策略,并为每一个RGV小车提供考虑了其他RGV小车调度的策略
Figure 826594DEST_PATH_IMAGE002
构建每一个RGV小车最终采取的策略
Figure 348842DEST_PATH_IMAGE003
如下式:
Figure 923043DEST_PATH_IMAGE004
其中,a为可调超参数,取值范围在(0,1)。
根据本发明的一个具体实施方案,在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,具体为:根据每台加工机器的任务松弛程度确定任务的优先级,任务的紧急程度越高,任务的执行优先级越高。
根据本发明的一个具体实施方案,在实际的生产过程中,为了达到更高的产量,加工机器在完成一个任务后应随即发出新任务的需求,即该台加工机器完成任务的时间=该台加工机器发出新任务需求的时间,以减少加工机器的闲置时间,使生产资源利用程度达到最大。
根据本发明的一个具体实施方案,在此基础上,不可抢占式最低松弛度优先概念的评判标准即为每台加工机器任务的需求紧急程度,将其量化为:
某台加工机器任务松弛度=该台加工机器完成任务的时间-RGV到达加工机器所在位置的时间
相当于:某台加工机器任务松弛度=该台加工机器发出新任务需求的时间-RGV到达加工机器所在位置的时间
使用数学语言进行描述如下:
Figure 262758DEST_PATH_IMAGE037
其中,
Figure 24040DEST_PATH_IMAGE006
为第n号CNC任务需求的松弛度,
Figure 615559DEST_PATH_IMAGE007
为第n号加工机器发出新任务需求 的时间,
Figure 168900DEST_PATH_IMAGE038
为RGV到达指定加工机器所在位置花费的路程时间。
例如,假设RGV小车任务为给加工机器上下料,以及清洗加工好的熟料。在RGV对一道工序的执行过程中,RGV为某加工机器完成一次上下料作业后,就会转动机械臂,将一只机械手上的熟料移动到清洗槽上方,进行清洗作业,分析该加工执行过程。
某台加工机器完成旧任务的时间,即发出新任务需求的时间,是一个累加的过程,包括开始工作之后所接受到的任务执行时间、任务等待响应被搁置的总时间和上下料时间,数学语言表示如下:
Figure 554882DEST_PATH_IMAGE039
其中,
Figure 69040DEST_PATH_IMAGE011
为第n个任务发出需求信号的时间,
Figure 323303DEST_PATH_IMAGE012
为第n个任务等待响应而 被搁置的时间,
Figure 340938DEST_PATH_IMAGE013
为任务的上料时间,
Figure 756876DEST_PATH_IMAGE040
为任务的下料时间
RGV到达指定加工机器所在位置的时间,也是一个累加的过程,包括RGV提前到达指定位置后所需等待的时间、RGV对熟料进行清洗的时间、为CNC数控机床上下料的时间以及RGV的移动时间,用数学语言表示如下:
Figure 492751DEST_PATH_IMAGE041
其中,
Figure 550705DEST_PATH_IMAGE042
为RGV到达第n个任务的指定CNC所在位置花费的路程时间,
Figure 422846DEST_PATH_IMAGE043
为 执行第n个任务时RGV提前到达指定位置等待的时间,
Figure 416210DEST_PATH_IMAGE019
为任务的上料时间,
Figure 29594DEST_PATH_IMAGE020
为任务 的下料时间,
Figure 501027DEST_PATH_IMAGE044
为RGV对熟料进行清洗的时间。
根据本发明的一个具体实施方案,训练多个不同的子策略的集合,将策略之间的差异作为目标函数,该多个策略的集成目标函数为:
Figure 493254DEST_PATH_IMAGE045
其中,
Figure 782153DEST_PATH_IMAGE023
为多个策略的集成目标函数;
Figure 227040DEST_PATH_IMAGE024
为奖励函数;
S为智能体的状态输入;
Figure 502164DEST_PATH_IMAGE025
为智能体将采取的动作;
u i 策略集中的第i个策略;
H(u i )是策略分布的熵;
pu为所有状态的集合;
E表示概率论中的期望;
Figure 759618DEST_PATH_IMAGE026
是超参数,用来控制目标函数中熵的目标比例,值越大,说明越希望多个策略之 间的差异性越大。
根据本发明的一个具体实施方案,MMDDPG算法强化学习中采用如下公式更新计算集成目标函数的梯度:
Figure 829205DEST_PATH_IMAGE047
其中,
D为智能体体验重放缓冲区,包括元组
Figure 151602DEST_PATH_IMAGE028
Figure 699258DEST_PATH_IMAGE029
为第i个策略
Figure 790711DEST_PATH_IMAGE030
的参数;
Figure 31199DEST_PATH_IMAGE031
为第i个策略
Figure 981838DEST_PATH_IMAGE030
的集中式动作值函数,函数的输入为
Figure 457819DEST_PATH_IMAGE032
,为N个智能体的动作,
Figure 544723DEST_PATH_IMAGE033
为第i个智能体所获得的奖励;函数的输出为智能体i的动 作价值;
x为状态信息,
Figure 956113DEST_PATH_IMAGE034
,包括N个智能体的观察值,
Figure 253102DEST_PATH_IMAGE048
为第i个智能体的观 察值。
根据本发明的一个具体实施方案,强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
本发明提供了一种基于MMDDPG算法的RGV小车调度***,使用上述的任一基于MMDDPG算法的RGV小车调度方法,包括多台RGV小车和控制调度模块;
控制调度模块采用基于MMDDPG算法,根据各台RGV小车的状态,及强化学习的结果,得到输出动作,并发出相应的动作指令;
RGV小车收到控制调度模块发出的动作指令后执行相应的操作,多台RGV协同完成任务。
本发明提供了一种RGV物流分拣***,包括上述的基于MMDDPG算法的RGV小车调度***;
RGV物流分拣***路网模型采用双向随机出入口路网模型;
路网区域划分为
Figure 408140DEST_PATH_IMAGE036
个子区域,RGV小车可以到达任意子区域进行分拣作业, 然后离开路网;
采用随机生成出入口位置的方式,当RGV入口位置生成时,在对面一侧随机生成出口位置;
根据随机生成的出入口位置进行路径规划。
根据本发明的一个具体实施方案,在每一次RGV的路径规划完成后,更新路网负载表,路网负载表描述了路网中每一个子区域的路网负载,各子区域的路网负载为RGV路径规划经过该区域的路径数。
根据本发明的一个具体实施方案,根据更新后的路网负载表,获取各RGV小车的路径规划及位置信息。
实施例1
根据本发明的一个具体实施方案,结合附图,对本发明的基于MMDDPG算法的RGV小车调度方法进行详细说明。
本发明提供了一种基于MMDDPG算法的RGV小车调度方法,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法;
将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度;RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
实施例2
根据本发明的一个具体实施方案,结合附图,对本发明的基于MMDDPG算法的RGV小车调度方法进行详细说明。
本发明提供了一种基于MMDDPG算法的RGV小车调度方法,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,具体为:根据每台加工机器的任务松弛程度确定任务的优先级,任务的紧急程度越高,任务的执行优先级越高;加工机器在完成一个任务后随即发出新任务的需求,该台加工机器完成任务的时间=该台加工机器发出新任务需求的时间;不可抢占式最低松弛度优先算法的评判标准为每台加工机器任务的需求紧急程度,将其量化为:
某台加工机器任务松弛度=该台加工机器完成任务的时间-RGV到达加工机器所在位置的时间;
相当于:某台加工机器任务松弛度=该台加工机器发出新任务需求的时间-RGV到达加工机器所在位置的时间;
使用数学语言描述如下:
Figure 349551DEST_PATH_IMAGE037
其中,
Figure 56476DEST_PATH_IMAGE006
为第n号CNC任务需求的松弛度,
Figure 184969DEST_PATH_IMAGE007
为第n号加工机器发出新任务需求 的时间,
Figure 2752DEST_PATH_IMAGE038
为RGV到达指定加工机器所在位置花费的路程时间;
其中,
Figure 64249DEST_PATH_IMAGE009
包括开始工作之后所接受到的任务执行时间、任务等待响应被搁置的总 时间和上下料时间,数学语言表示如下:
Figure 942075DEST_PATH_IMAGE010
其中,
Figure 89023DEST_PATH_IMAGE011
为第n个任务发出需求信号的时间,
Figure 585863DEST_PATH_IMAGE012
为第n个任务等待响应而 被搁置的时间,
Figure 363851DEST_PATH_IMAGE013
为任务的上料时间,
Figure 553524DEST_PATH_IMAGE014
为任务的下料时间。
Figure 922188DEST_PATH_IMAGE015
包括RGV提前到达指定位置后所需等待的时间、RGV对熟料进行清洗的时 间、为CNC数控机床上下料的时间以及RGV的移动时间,用数学语言表示如下:
Figure 81774DEST_PATH_IMAGE041
其中,
Figure 852284DEST_PATH_IMAGE042
为RGV到达第n个任务的指定CNC所在位置花费的路程时间,
Figure 71913DEST_PATH_IMAGE049
为 执行第n个任务时RGV提前到达指定位置等待的时间,
Figure 193453DEST_PATH_IMAGE019
为任务的上料时间,
Figure 32096DEST_PATH_IMAGE020
为任务 的下料时间,
Figure 781746DEST_PATH_IMAGE044
为RGV对熟料进行清洗的时间;
将每个RGV小车视作一个模块,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度,具体包括:
利用银行家算法为单独的RGV小车提供调度策略
Figure 313221DEST_PATH_IMAGE001
利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的 调度策略,并为每一个RGV小车提供考虑了其他RGV小车调度的策略
Figure 656478DEST_PATH_IMAGE002
构建每一个RGV小车最终采取的策略
Figure 564391DEST_PATH_IMAGE003
如下式:
Figure 168548DEST_PATH_IMAGE004
其中,a为可调超参数,取值范围在(0,1);
RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
训练多个不同的子策略的集合,将策略之间的差异作为目标函数,该多个策略的集成目标函数为:
Figure 870925DEST_PATH_IMAGE045
其中,
Figure 560532DEST_PATH_IMAGE023
为多个策略的集成目标函数;
Figure 475398DEST_PATH_IMAGE024
为奖励函数;
S为智能体的状态输入;
Figure 199641DEST_PATH_IMAGE025
为智能体将采取的动作;
u i 策略集中的第i个策略;
H(u i )是策略分布的熵;
pu为所有状态的集合;
E表示概率论中的期望;
Figure 72919DEST_PATH_IMAGE026
是超参数,用来控制目标函数中熵的目标比例,值越大,说明越希望多个策略之 间的差异性越大。
MMDDPG算法强化学习中采用如下公式更新计算集成目标函数的梯度:
Figure 390768DEST_PATH_IMAGE050
其中,
D为智能体体验重放缓冲区,包括元组
Figure 374904DEST_PATH_IMAGE028
Figure 219232DEST_PATH_IMAGE029
为第i个策略
Figure 997832DEST_PATH_IMAGE030
的参数;
Figure 802977DEST_PATH_IMAGE031
为第i个策略
Figure 712509DEST_PATH_IMAGE030
的集中式动作值函数,函数的输入为
Figure 21131DEST_PATH_IMAGE032
,为N个智能体的动作,
Figure 95266DEST_PATH_IMAGE033
为第i个智能体所获得的奖励;函数的输出为智能体i的动 作价值;
x为状态信息,
Figure 856548DEST_PATH_IMAGE034
,包括N个智能体的观察值,
Figure 307121DEST_PATH_IMAGE048
为第i个智能体的观 察值。
强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
实施例3
根据本发明的一个具体实施方案,结合附图,对本发明的基于MMDDPG算法的RGV小车调度***进行详细说明。
本发明提供了一种基于MMDDPG算法的RGV小车调度***,使用本发明的基于MMDDPG算法的RGV小车调度方法,包括多台RGV小车和控制调度模块;
控制调度模块采用基于MMDDPG算法,根据各台RGV小车的状态,及强化学习的结果,得到输出动作,并发出相应的动作指令;
RGV小车收到控制调度模块发出的动作指令后执行相应的操作,多台RGV协同完成任务。
在本实施例中,强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
实施例4
根据本发明的一个具体实施方案,结合附图,对本发明的RGV物流分拣***进行详细说明。
本发明提供了一种RGV物流分拣***,包括上述的基于MMDDPG算法的RGV小车调度***;
RGV物流分拣***路网模型采用双向随机出入口路网模型;
路网区域划分为
Figure 470249DEST_PATH_IMAGE036
个子区域,RGV小车可以到达任意子区域进行分拣作业, 然后离开路网;
采用随机生成出入口位置的方式,当RGV入口位置生成时,在对面一侧随机生成出口位置;
根据随机生成的出入口位置进行路径规划。
在每一次RGV的路径规划完成后,更新路网负载表,路网负载表描述了路网中每一个子区域的路网负载,各子区域的路网负载为RGV路径规划经过该区域的路径数。
根据更新后的路网负载表,获取各RGV小车的路径规划及位置信息。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。

Claims (8)

1.一种基于MMDDPG算法的RGV小车调度方法,其特征在于,包括:
根据生产车间的特点,建立车间调度模型,具体包括:将RGV小车在生产车间中的调度建模为直线流水调度模型,调度的最终目标是使得每个班次中各台加工机器的总任务搁置时间最短,使得加工机器达到最高的利用率;
利用银行家算法为单独的一个RGV小车提供调度策略,决定加工机器的执行次序;
在直线流水调度模型中,采用不可抢占式最低松弛度优先算法,根据每台加工机器的任务松弛程度确定任务的优先级,任务的紧急程度越高,任务的执行优先级越高;
所述MMDDPG算法具体为:将每个RGV小车视作一个单独的模块,每一个模块的内部存在一个银行家算法对RGV小车进行调度;
利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度;
RGV小车调度基于MMDDPG算法强化学习的结果进行,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行;
采用银行家算法对单独的一个RGV小车提供调度参考,同时,利用MMDDPG算法并结合熵正则化器使该RGV小车了解到其他RGV小车的策略,实现对多RGV小车的有效协同调度,具体包括:
利用银行家算法为单独的RGV小车提供调度策略
Figure 11959DEST_PATH_IMAGE001
利用MMDDPG算法并结合熵正则化器使每一RGV小车了解到其他RGV小车所采取的调度 策略,并为每一个RGV小车提供考虑了其他RGV小车调度的策略
Figure 397941DEST_PATH_IMAGE002
构建每一个RGV小车最终采取的策略
Figure 380941DEST_PATH_IMAGE003
如下式:
Figure 228680DEST_PATH_IMAGE004
其中,a为可调超参数,取值范围在(0,1)。
2.根据权利要求1所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,训练多个不同的子策略的集合,将策略之间的差异作为集成目标函数,多个策略的集成目标函数为:
Figure 511894DEST_PATH_IMAGE005
其中,
Figure 803198DEST_PATH_IMAGE006
为多个策略的集成目标函数;
Figure 35945DEST_PATH_IMAGE007
为奖励函数;
S为智能体的状态输入;
Figure 703686DEST_PATH_IMAGE008
为智能体将采取的动作;
u i 策略集中的第i个策略;
H(u i )是策略分布的熵;
pu为所有状态的集合;
E表示概率论中的期望;
Figure 841407DEST_PATH_IMAGE009
是超参数,用来控制目标函数中熵的目标比例,值越大,说明越希望多个策略之间的 差异性越大。
3.根据权利要求2所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,MMDDPG算法强化学习中采用如下公式更新计算集成目标函数的梯度:
Figure 303612DEST_PATH_IMAGE011
其 中,
D为智能体体验重放缓冲区,包括元组
Figure 510471DEST_PATH_IMAGE012
Figure 716325DEST_PATH_IMAGE013
为第i个策略
Figure 708551DEST_PATH_IMAGE014
的参数;
Figure 92390DEST_PATH_IMAGE015
为第i个策略
Figure 802857DEST_PATH_IMAGE014
的集中式动作值函数,函数的输入为
Figure 281243DEST_PATH_IMAGE016
,为N 个智能体的动作,
Figure 642823DEST_PATH_IMAGE017
为第i个智能体所获得的奖励;函数的输出为智能体i的动作价 值;
x为状态信息,
Figure 446831DEST_PATH_IMAGE018
,包括N个智能体的观察值,
Figure 644594DEST_PATH_IMAGE019
为第i个智能体的观察 值。
4.根据权利要求1所述的基于MMDDPG算法的RGV小车调度方法,其特征在于,强化学习奖励为单位时间的RGV小车运输总量,动作为RGV小车上料、下料以及RGV小车发生位移,状态为各RGV小车的位置。
5.一种基于MMDDPG算法的RGV小车调度***,其特征在于,使用权利要求1-4任一项所述的基于MMDDPG算法的RGV小车调度方法,包括多台RGV小车和控制调度模块;
控制调度模块采用基于MMDDPG算法,根据各台RGV小车的状态,及强化学习的结果,得到输出动作,并发出相应的动作指令;所述MMDDPG算法具体为:将每个RGV小车视作一个单独的模块,每一个模块的内部存在一个银行家算法对RGV小车进行调度;
RGV小车收到控制调度模块发出的动作指令后执行相应的操作,多台RGV协同完成任务;
其中,MMDDPG算法进行强化学习时,对每个RGV小车的强化学习都考虑其他RGV 小车的动作策略,进行中心化训练和非中心化执行;所述中心化训练指所有的RGV小车的数据进行统一训练,所述非中心化执行指每个RGV小车按各自规则执行。
6.一种RGV物流分拣***,其特征在于,包括权利要求5所述的基于MMDDPG算法的RGV小车调度***;
RGV物流分拣***路网模型采用双向随机出入口路网模型;
路网区域划分为
Figure 192250DEST_PATH_IMAGE020
个子区域,RGV小车可以到达任意子区域进行分拣作业,然后离 开路网;
采用随机生成出入口位置的方式,当RGV入口位置生成时,在对面一侧随机生成出口位置;
根据随机生成的出入口位置进行路径规划。
7.根据权利要求6所述的RGV物流分拣***,其特征在于,在每一次RGV的路径规划完成后,更新路网负载表,路网负载表描述了路网中每一个子区域的路网负载,各子区域的路网负载为RGV路径规划经过该区域的路径数。
8.根据权利要求7所述的RGV物流分拣***,其特征在于,根据更新后的路网负载表,获取各RGV小车的路径规划及位置信息。
CN202210620696.2A 2022-06-02 2022-06-02 一种基于mmddpg算法的rgv小车调度方法及*** Active CN114936783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210620696.2A CN114936783B (zh) 2022-06-02 2022-06-02 一种基于mmddpg算法的rgv小车调度方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210620696.2A CN114936783B (zh) 2022-06-02 2022-06-02 一种基于mmddpg算法的rgv小车调度方法及***

Publications (2)

Publication Number Publication Date
CN114936783A CN114936783A (zh) 2022-08-23
CN114936783B true CN114936783B (zh) 2023-01-17

Family

ID=82866665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210620696.2A Active CN114936783B (zh) 2022-06-02 2022-06-02 一种基于mmddpg算法的rgv小车调度方法及***

Country Status (1)

Country Link
CN (1) CN114936783B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116027670B (zh) * 2023-02-14 2023-06-16 东北大学 一种多Agent协作粉体能源物料传输控制***、方法及介质
CN116307646B (zh) * 2023-05-23 2023-09-01 科大智能物联技术股份有限公司 一种基于两阶段动态分区算法的一轨双车调度方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472765A (zh) * 2019-06-25 2019-11-19 浙江工业大学 一种车间布局调度的低熵协同优化方法
CN112486187A (zh) * 2020-12-18 2021-03-12 长沙长泰智能装备有限公司 直线往复式双rgv任务调度***及调度算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626565B2 (en) * 2008-06-30 2014-01-07 Autonomous Solutions, Inc. Vehicle dispatching method and system
EP3602412A1 (en) * 2017-05-19 2020-02-05 Deepmind Technologies Limited Multitask neural network systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472765A (zh) * 2019-06-25 2019-11-19 浙江工业大学 一种车间布局调度的低熵协同优化方法
CN112486187A (zh) * 2020-12-18 2021-03-12 长沙长泰智能装备有限公司 直线往复式双rgv任务调度***及调度算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"\QDPLF6FKHGXOLQJ6WUDWHJ\RI6LQJOH3URFHVV,QWHOOLJHQW5*9;chuanyan liu;《2020 7th International Conference on Information Science and Control Engineering (ICISCE)》;20210930;第1856-1859页 *
基于 DP-FCFS 算法的智能 RGV 动态调度策略;李一 等;《成都工业学院学报》;20200630;第48-53页 *

Also Published As

Publication number Publication date
CN114936783A (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN114936783B (zh) 一种基于mmddpg算法的rgv小车调度方法及***
Yoshitake et al. New automated guided vehicle system using real-time holonic scheduling for warehouse picking
Rahman et al. An integrated approach for line balancing and AGV scheduling towards smart assembly systems
CN105974891B (zh) 一种基于动态看板的模具生产过程自适应控制方法
Cho et al. Intelligent workstation controller for computer-integrated manufacturing: problems and models
CN111882215A (zh) 一种含有agv的个性化定制柔性作业车间调度方法
Blesing et al. Concept of a multi-agent based decentralized production system for the automotive industry
CN111898908A (zh) 一种基于多智体的生产线调度***及方法
Wang et al. A neural network based multi-state scheduling algorithm for multi-AGV system in FMS
Fan et al. Time window based path planning of multi-AGVs in logistics center
CN116400651A (zh) 智慧工厂数字孪生平台的多agv协同调度方法及装置
CN116224926A (zh) 面向单件小批柔性制造车间的动态调度优化方法及装置
Maoudj et al. The capacitated multi-AGV scheduling problem with conflicting products: Model and a decentralized multi-agent approach
Hussain et al. A multi-agent based dynamic scheduling of flexible manufacturing systems
Fazlollahtabar Parallel autonomous guided vehicle assembly line for a semi-continuous manufacturing system
Liu et al. Holonic manufacturing system for distributed control of automated guided vehicles
De Sousa et al. Distributed mas with leaderless consensus to job-shop scheduler in a virtual smart factory with modular conveyors
Xia et al. A multi-AGV optimal scheduling algorithm based on particle swarm optimization
Bitsch et al. Selection of optimal machine learning algorithm for autonomous guided vehicle’s control in a smart manufacturing environment
Monfared et al. Design of integrated manufacturing planning, scheduling and control systems: a new framework for automation
Jungbluth et al. Reinforcement Learning-based Scheduling of a Job-Shop Process with Distributedly Controlled Robotic Manipulators for Transport Operations
Borangiu et al. Open manufacturing control with agile reconfiguring of resource services
CN116468346B (zh) 一种智能物流控制方法及***
Ham Transfer robot task scheduling in semiconductor manufacturing
Kaoud et al. Scheduling of automated guided vehicles and machines in flexible manufacturing systems: a simulation study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant