CN101788787A - 多站点传送带给料生产加工站***的优化控制方法 - Google Patents

多站点传送带给料生产加工站***的优化控制方法 Download PDF

Info

Publication number
CN101788787A
CN101788787A CN200910251703A CN200910251703A CN101788787A CN 101788787 A CN101788787 A CN 101788787A CN 200910251703 A CN200910251703 A CN 200910251703A CN 200910251703 A CN200910251703 A CN 200910251703A CN 101788787 A CN101788787 A CN 101788787A
Authority
CN
China
Prior art keywords
website
workpiece
buffer pool
decision
making
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910251703A
Other languages
English (en)
Other versions
CN101788787B (zh
Inventor
唐昊
周雷
韩江洪
程文娟
张建军
岳峰
陆阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN2009102517030A priority Critical patent/CN101788787B/zh
Publication of CN101788787A publication Critical patent/CN101788787A/zh
Application granted granted Critical
Publication of CN101788787B publication Critical patent/CN101788787B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Control Of Conveyors (AREA)
  • General Factory Administration (AREA)

Abstract

本发明公开了一种多站点传送带给料生产加工站***的优化控制方法。根据站点自身信息和相邻站点之间交互信息,分别构建性能函数反应项和扩散项。反应项看作为站点自身信息的反馈,扩散项则看作是下游站点对上游站点的反馈。通过反应扩散思想的引入和设计新的性能函数,相比仅依赖于站点自身信息的方法,各工作站的负载平衡性得到较好改善,整个***的工件处理率也明显提高,并且该方法能够有效解决大规模多智能体***的“维数灾”和“建模难”问题。同时,通过本发明构建的函数,针对折扣和平均两种性能准则问题,还可以建立统一的连续时间多智能体学习公式和优化算法。

Description

多站点传送带给料生产加工站***的优化控制方法
技术领域
本发明涉及自动控制领域,尤其是一种多站点传送带给料生产加工站***的优化控制方法。
背景技术
在现实世界的一些生产加工企业中,存在一类由生产加工站作为加工主体的生产线,例如先进制造业中的一些机器人装配线,其中,加工站由传送带输送工件进行加工,这样的一类***称为传送带给料生产加工站(Conveyor-ServicedProduction Station,CSPS)。站点包含一个加工主体,可以为一个机器人或机器手臂等,甚至可以认为是一个装配工人。站点配有两个库,一个用于存放从传送带上卸载下来的待加工工件,称之为缓冲库,其容量有限。另一个用于存放成品工件,称之为储藏库,其容量无限。站点还配有一个前视传感器,如红外、雷达或摄像头等,可感知或测定传送带上一定距离内是否有工件以及工件的位置信息。这里,前视距离为***控制变量。在当前决策时刻,站点根据缓冲库空余量做出决策,即确定前视距离的长度(一般假设视距范围有限)。若该前视距离内有工件,则站点等待工件到达并捡取放入缓冲库,然后转入下一个决策时刻;否则,直接从缓冲库中取出一个工件进行加工,加工完毕后放入储藏库中,转入下一个决策时刻。站点在加工工件过程中,传送带上到达的工件将会流失。该单站点***的控制目标就是合理选择站点在不同缓冲库空余量下的前视距离长度,使得***长期运行的工件流失率最低,以提高***工件处理率。由于专业化、规模化和集约化生产的需要,有些生产线往往配有多个CSPS,称为多站点CSPS。在多站点***中,上游站点在加工过程中到达的工件将会传送到下游站点,最后一个站点的工件流失则视为***的工件流失。多站点***的控制目标也是降低工件流失率和提高工件处理率,并有效平衡各站点间的工作负载。因此,如何实现站点之间高效协作成为该类***需要解决的重要问题之一。随着实际***越来越复杂化,其控制存在以下一些问题:
1、若将所有站点看作一个整体,即一个智能体(Agent)进行集中控制,并将每个站点的缓冲库空余量联合组成***的状态,每个站点的前视距离联合组成***行动,必然会造成***状态空间、行动集巨大,导致“维数灾”和“建模难”问题,求解的复杂度关于智能体个数将呈指数增长形式。
2、站点之间的通信能力或感知能力有可能受到客观条件的限制,往往只能观测或感知到其邻近环境的信息。由于站点具有串行分布的结构特点,因此考虑邻近站点的局域信息交互更符合实际情况。
3、由于站点的串行分布特点,前面(上游)站点具有优先捡取工件的机会,其决策对后面(下游)所有站点的运行都将产生影响。在没有信息交互的情况下,下游站点的决策对上游站点却不产生影响。因此,学***衡,进而影响***处理率的提高。
4、在一些文献中,较多考虑的情况都是离散的***模型,即报酬或代价为瞬时的,与时间无关。而实际中,报酬或代价往往是随时间累积的,即具有连续时间特性。同时,对于折扣和平均两种性能准则下性能优化问题的现有研究,大都是分开来的,没有统一的表达式或优化算法。
发明内容
本发明的目的是提供一种多站点传送带给料生产加工站***的优化控制方法,控制方法基于反应扩散思想,与仅依赖自身信息的控制方法相比,能够较好地改善各个加工站点的负载平衡性,并有效提高整个***的工件处理率。
为了达到上述目的,本发明所采用的技术方案为:
多站点传送带给料生产加工站***的优化控制方法,所述***包括有传送带,传送带一侧设置有多个加工站点,每个加工站点包括加工主体,临时存放待加工的工件的缓冲库,存放成品工件的储藏库,以及观察获取从传送带上游向加工主体方向传递的、待加工工件的位置信息的前视传感器;特征在于:将每个加工站点看作为一个智能体,多站点传送带给料生产加工站***看成多智能体***模型;定义每个加工站点中缓冲库的空余量为其自身状态,多智能体***模型状态的演化用各站点的缓冲库空余量的变化情况描述,所述缓冲库空余量的取值范围构成各个站点智能体的状态空间;定义每个智能体中前视传感器的前视距离为其行动,前视传感器的可视范围构成行动集;优化目标为选择***各站点在各个状态下应采取的最优前视距离,即最优控制策略,使得***在该策略控制下长期运行的工件流失率最小或加工率最大;所述控制方法的主要技术是基于性能势理论和反应扩散思想,定义由反应项和扩散项构成的性能函数,并采用强化学习方法实现***优化控制策略的在线求解和运行,所述优化控制方法的步骤为:
(1)***定义及初始化:即定义***的状态、行动等数学模型要素,初始化站点的随机控制策略、各个站点的状态-行动对值函数Qi(si,vi(si))、及相关算法参数,其中Qi(si,vi(si))表示站点i在自身状态si时执行行动vi(si)的代价性能值;
(2)***决策时刻定义:传送带匀速运行,待加工的工件在传送带上按泊松过程随机到达第一个加工站点,定义任意加工站点从传送带上下载一个工件之后的时间、或加工完缓冲库里的一个工件之后的时间为所述加工站点的决策时刻,在每个决策时刻,理论上只存在一个决策站点;
(3)***优化控制过程:决策站点i根据其当前策略,确定站点执行行动,记录样本数据信息,计算反应项、扩散项及性能函数,并更新其状态-行动对值函数Qi(si,vi(si)),具体步骤如下:
(3.1)在***决策时刻,查看当前决策站点i对应的缓冲库状态信息si,按站点i的当前随机控制策略确定执行行动vi(si),并获取样本数据信息;若缓冲库为空,则vi(si)=∞,加工主体一直等待,直到传送带上有工件到达并将到达的工件下载到缓冲库;若缓冲库已满,则vi(si)=0,加工主体从缓冲库中取出一个工件进行加工,加工时间可服从一般的随机分布;否则,通过前视传感器查看传送带上前方一定距离vi(si)内有无工件,若有工件,则加工主体等待第一个工件到达该站,并下载到缓冲库,不然则直接从缓冲库中取出一个工件进行加工,加工完毕后放入储藏库;以上过程需记录样本数据信息,若决策站点i需等待则记录其等待时间w(即两决策时间间隔)、相邻下游站点i+1的缓冲库空余量si+1、自身缓冲库空余量si,否则记录站点i的工件加工时间τ、决策间隔时间w=max{vi(si),τ}、相邻下游站点i+1的缓冲库空余量si+1和自身缓冲库空余量si
(3.2)根据样本数据信息<si,vi(si),τ,w,si+1>,计算多智能体***模型的反应项和扩散项,其中,
反应项:定义反映决策站点等待时间的等待代价为反应项,即决策站点在等待过程所付出的代价。若决策站点等待工件到达,反应项记为f1=K1*Tα(w);若决策站点进行工件加工,记为f1=K1*(Tα(w)-Tα(τ)),其中,K1为站点的每单位时间的等待代价,α>0为常数折扣因子,T为一个算子,且对于任意正常数δ>0,有 T &alpha; ( &delta; ) = &Integral; 0 &delta; e - &alpha;t dt = ( 1 - e - &alpha;&delta; ) / &alpha; , 当α趋向0时,有T0(δ)=δ;
扩散项:定义决策站点i与下游相邻站点i+1之间的缓冲库空余量差值为扩散项,即反馈代价项,其表达式为f2=K2*(si+1-si)*Tα(w),其中K2为该相邻两个站点单位缓冲库空余量差值的单位时间反馈代价;
(3.3)根据反应项和扩散项构造多智能体***模型的性能函数,其表达式为 f &alpha; i = f 1 + f 2 , 再采用对折扣和平均性能准则统一的连续时间强化学***均代价的估计值,等于当前时刻为止***运行累积的无折扣代价总和与总运行时间的商;
(3.4)根据站点i的值函数Qi(si,vi(si)),改进其随机控制策略;
(3.5)判断是否满足给定的算法停止条件,若不满足,则转入下一决策阶段,即返回(3.1)执行新的随机控制策略;
(4)若算法停止,则按最终的优化策略控制***运行,实现***优化目标。
本发明中,多站点传送带给料生产加工站***主要由运送待加工工件的传送带和进行工件加工且配置相同的多个加工站组成,如图1所示。各加工站依次串行分布于传送带一旁,分别包括一个加工主体(加工主体为人、机器人或机器手臂)、一个获取传送带上待加工工件位置信息的前视传感器、一个临时存放待加工工件的缓冲库(假设容量有限)及一个存放成品工件的储藏库(假设容量无限)等。
本发明中,待加工工件在匀速运行的传送带上按泊松过程随机到达第一个加工站。一个站点在从传送带上下载成功一个工件之后或加工完缓冲库里的一个工件之后即为其决策时刻。处于决策时刻的加工站点查看其缓冲库信息,若其缓冲库为空,则将一直等待,直到有工件到达其捡取点,并下载到缓冲库;若缓冲库已满,则直接从缓冲库中取出一个工件进行加工,加工时间可服从一般的随机分布;否则,将根据缓冲库空余量情况,通过前视传感器查看传送带上一定距离L(依赖于库存空余量,可在最大可视距离和最小可视距离之间取值)内的工件信息,若有工件,则等待工件到达捡取点并将其下载到缓冲库,若没有工件,则从缓冲库中取工件进行加工。在各个站点进行工件加工的过程中,传送带上到达的工件将视为该站点的流失工件,最后一个站点的工件流失则视为整个***的工件流失。***的控制目标就是合理地确定各决策站点在不同环境和自身状态下的前视距离L的大小,以降低工件流失率。
本发明对于该类多站点传送带给料生产加工站***,将每个站点(包括机器人或机器手臂、缓冲库、储藏库、前视传感器等)看作为一个智能体,多站点***则可以建立成多智能体***模型。将每个智能体的缓冲库空余量定义为其自身状态(所有智能体的状态组成***状态),即***状态演化用缓冲库空余量的变化情况来描述,缓冲库空余量的取值范围则构成了各个站点智能体的状态空间。将每个智能体的前视距离定义为其行动,可视范围就构成了行动集。在每个决策时刻,智能体根据相关状态信息采取合理的行动(即确定合适的前视距离L),使得***长期运行的工件流失率最低,或工件处理率最大。在如图1所示的多站点***中,站点依次串行分布于传送带的一侧。在该***模型中,各个站点独立决策且决策时刻不同步,为异步决策模式。在每个决策时刻,将智能体分为决策和非决策两组,前者在本次迭代中将进行学习,后者不进行学习。本发明提出利用反应扩散方程的思想来构造多智能体强化学习方法,以求解该类***的在线自适应控制问题。
基于反应扩散思想,设计***的性能函数,其基本原则是通过该函数构造的性能目标与***的控制目基本一致,并能实现***的局域信息交互。该函数由反应项和扩散项两部分组成,具体如下。
反应项:工件按泊松过程随机到达、加工时间服从一般分布,当***处于稳态运行时,在一段较长的时间范围内,工件到达的期望数目一定,每个工件加工的平均时间也趋于期望值。在某一时刻,每个站点智能体只会处于两种情形,加工工件或等待工件到达。因此,每个站点智能体在单位时间内的等待时间越短,加工时间也就越长,***的处理率便越高。基于上述分析,引入反映站点智能体等待时间的等待代价项(反应项),即站点等待工件到达捡取点的时间w内所付出的代价,表达式记为K1*Tα(w)。其中,K1为站点的每单位时间等待代价,α>0为常数折扣因子,T表示一个算子,且对于任意正常数δ>0,有 T &alpha; ( &delta; ) = &Integral; 0 &delta; e - &alpha;t dt = ( 1 - e - &alpha;&delta; ) / &alpha; . 当α趋向0时,有T0(δ)=δ。可见,δ越大,Tα(w)也越大,故该反应项间接反映了站点的等待时间。
扩散项:***中各个站点的缓冲库空余量差值间接反映了站点的工作负荷情况。另外,在该***模型下,下游站点的决策无法影响上游站点运行,因此在没有信息交互的情况下,各个站点的负载平衡性无法控制。若上游站点融合下游站点的缓冲库空余量反馈信息进行决策,则可通过影响站点间缓冲库空余量差异来平衡站点负载。因此,为体现相邻站点之间的这种交互性,通过本站点与下游紧邻站点之间的缓冲库空余量差值构造反馈代价项(扩散项)K2*(sdown-sup)*Tα(τ),其中K2为两站点智能体单位缓冲库空余量差值的单位时间反馈代价,sdown为下游站点缓冲库空余量,sup为本站点缓冲库空余量,τ为状态sup发生转移的耗费时间。若sdown-sup值越大,反馈代价也就越大,即下游站点与本站点缓冲库空余量差异越大,负载差异也就越大。通过该方法可将下游站点的库存信息传递到上游站点,通过逐级信息反馈,最终可提高***中多个站点间的相互协作能力,改善学习优化性能,达到***优化控制的目标。可见,扩散项间接反映了站点间的工作负载差异。
综上,根据反应项和扩散项,可构造站点的性能(代价)函数f=K1*Tα(w)+K2*(sdown-sup)*Tα(τ)。于是,通过一些改进的强化学***衡各站点的负载,提高工件处理率,降低工件流失率。同时,针对平均准则可看作是折扣准则的特例这一性质(例如,当折扣因子α趋向0时,上述反应项和扩散项中的站点等待时间项Tα(w)和状态逗留时间项Tα(τ)就趋向平均准则下的站点等待时间和状态逗留时间),可在折扣准则的值函数学***均代价的差值,使折扣准则和平均准则可以统一考虑。最后,结合该***中代价累积的连续时间特性,设计折扣和平均准则下统一的连续时间多智能体强化学习公式和协同学习控制算法。
本发明方法较为简单,与仅依赖自身信息的控制方法相比,能够较好地改善各个工作站点的负载平衡性,并有效提高整个***的工件处理率,能有效的实现多站点传送带给料生产加工站***的在线协调控制。
附图说明
图1为本发明多站点传送带给料生产加工站***示意图。
图2为本发明方法流程图。
具体实施方式
本发明具体实施过程如下:
1、对于实际生产过程中的一个具体的智能装配***,配置一条传送带用于传送待加工工件并连接若干加工站点,如图1所示。每个加工站点主要包括加工主体(人、机器人或机器手臂)、缓冲库(存放待加工工件)、储藏库(存放成品工件)及前视传感器(观测传送带上工件流信息,如摄像头、雷达等)等装置。站点记为i(i∈{1,2,…,N},N为站点个数),以站点缓冲库空余量为其自身状态变量,记为si,其状态空间S={0,1,2,…,M}(M为缓冲库容量),以视距长度L为控制行动,行动集D表示可能的视距范围。初始化所有站点的随机控制策略(站点i的随机控制策略记为πi=(πi(0),πi(1),…,πi(s),…,πi(M)),πi(si)表示站点i在状态si的混合策略,反映行动空间中各个行动在状态si时被站点i选择的概率分布)、各站点的状态-行动对值函数(站点i在状态si时执行行动vi(si)的状态-行动对值函数记为Qi(si,vi(si))),初始化其它相关算法参数。
2、***中工件按照参数为λ的Poisson流随机到达传送带前端,传送带以匀速将工件向另一端传递,各个站点执行下列3-5步进行工件下载、加工和在线学习。
3、根据各个站点的运行情况,判断***是否转入新的决策阶段并确定唯一决策站点i(该站点需要确定视距长度;其它站点正在进行工件加工或等待,因而无需决策);针对决策站点i,记录***相关运行信息并更新该决策站点状态-行动对的值函数。具体如下:
(3.1)***实际运行中,若站点i的工件下载或加工操作完毕,则***转入新的决策时刻,站点i为唯一决策站点,其它都为非决策站点。
(3.2)对于非决策站点,不进行任何操作。
(3.3)对于决策站点i,若其缓冲库为空,站点加工主体将一直等待,直到传送带上有工件到达并下载至缓冲库,此种情况相当于vi(si)=∞;若缓冲库为满,加工主体不需前视,将直接从库中取出工件进行加工,此种情况相当于vi(si)=0;否则,决策站点i根据混合策略πi(si),确定该次执行的控制行动vi(si)。
(3.4)若传送带前视距离vi(si)内有工件且第一个工件离捡取点距离为w,则等待第一个工件达到捡取点并下载至缓冲库,并记录站点i等待时间w(即两决策时间间隔)、相邻下游站点i+1的缓冲库空余量si+1、自身缓冲库空余量si=s,并分别计算站点i的等待代价f1=K1*Tα(w)(反应项,为站点i处于等待工件到达过程中所付出的与等待时间有关的代价,K1为单位时间等待代价,T表示一个算子,且对于任意正常数δ>0,有 T &alpha; ( &delta; ) = &Integral; 0 &delta; e - &alpha;t dt = ( 1 - e - &alpha;&delta; ) / &alpha; . 当α趋向0时,有T0(δ)=δ,α>0为折扣因子)、反馈代价f2=K2*(si+1-si)*Tα(w)(扩散项,站点i与其下游站点i+1的负载差异代价,即站点i与站点i+1的缓冲库空余量差量随时间进行累积的代价,K2为两站点单位缓冲库空余量差值的单位时间反馈代价);若传送带前视距离vi(si)没有工件,则从缓冲库中取出工件直接进行加工,记录站点i的工件加工时间τ(两决策间隔时间w=max{vi(si),τ})、相邻下游站点i+1的缓冲库空余量si+1和自身缓冲库空余量si,分别计算站点i的等待代价f1=K1*(Tα(w)-Tα(τ))和反馈代价f2=K2*(si+1-si)*Tα(w)。
(3.5)根据3.4中的等待代价和反馈代价计算性能函数 f &alpha; i = f 1 + f 2 , 采用折扣和平均准则统一的连续时间强化学***均准则代价的估计值,等于当前时刻为止***运行累积的无折扣代价总和与总运行时间的商。
4、根据各个站点值函数Qi(si,vi(si))改进混合策略πi,更新公式为
Figure G2009102517030D00094
其中,δi为站点i混合策略的学习增量,|D|表示行动集D中行动的个数。
5、判断是否满足优化控制策略停止条件,若不满足,则转入下一个决策阶段,即返回3执行新的混合策略以进行工件下载和加工工作。
6、若算法停止,则按最终的优化策略控制***运行。
以小尺寸液晶显示器模组组装生产线为例进行介绍。液晶显示器模组组装主要包括贴遮光胶带、背光模组组装、反折柔性线路板和贴胶带四个工序,各个工序紧密衔接共同完成组装任务。其中,背光模组组装生产线可以利用专利中的模型来描述。
在该生产线中,背光模组的组装原料主要包括面板、背光板和部分耗材等,其中耗材采用一次性供给,背光板也能随时满足供给,面板的到达则具有一定的随机性(由生产需求决定)。主要工作流程为:面板在传送带上随机到达,而传送带旁串行安装了多个小型机械(由人工操作实现背光模组组装),并配备临时放置待加工面板的缓冲库,加工人员根据自身及相邻加工点缓冲库水平,由视距控制规则确定其在传送带上的前视观测距离,然后由视距内生产线上的面板到达信息,再确定是等待面板的到达并下载还是从缓冲库中取出面板进行组装操作。加工人员在进行背光模组组装过程中,传送带上到达的面板将流过该加工点,而流向下一站点或流出***。生产线末端配有一种装置,用于检测没有被加工而流失的面板。

Claims (1)

1.多站点传送带给料生产加工站***的优化控制方法,所述***包括有传送带,传送带一侧设置有多个加工站点,每个加工站点包括加工主体,临时存放待加工的工件的缓冲库,存放成品工件的储藏库,以及观察获取从传送带上游向加工主体方向传递的、待加工工件的位置信息的前视传感器;特征在于:将每个加工站点看作为一个智能体,多站点传送带给料生产加工站***看成多智能体***模型;定义每个加工站点中缓冲库的空余量为其自身状态,多智能体***模型状态的演化用各站点的缓冲库空余量的变化情况描述,所述缓冲库空余量的取值范围构成各个站点智能体的状态空间;定义每个智能体中前视传感器的前视距离为其行动,前视传感器的可视范围构成行动集;优化目标为选择***各站点在各个状态下应采取的最优前视距离,即最优控制策略,使得***在该策略控制下长期运行的工件流失率最小或加工率最大;所述控制方法的主要技术是基于性能势理论和反应扩散思想,定义由反应项和扩散项构成的性能函数,并采用强化学习方法实现***优化控制策略的在线求解和运行,所述优化控制方法的步骤为:
(1)***定义及初始化:即定义***的状态、行动等数学模型要素,初始化站点的随机控制策略、各个站点的状态-行动对值函数Qi(si,vi(si))、及相关算法参数,其中Qi(si,vi(si))表示站点i在自身状态si时执行行动vi(si)的代价性能值;
(2)***决策时刻定义:传送带匀速运行,待加工的工件在传送带上按泊松过程随机到达第一个加工站点,定义任意加工站点从传送带上下载一个工件之后的时间、或加工完缓冲库里的一个工件之后的时间为所述加工站点的决策时刻,在每个决策时刻,理论上只存在一个决策站点;
(3)***优化控制过程:决策站点i根据其当前策略,确定站点执行行动,记录样本数据信息,计算反应项、扩散项及性能函数,并更新其状态-行动对值函数Qi(si,vi(si)),具体步骤如下:
(3.1)在***决策时刻,查看当前决策站点i对应的缓冲库状态信息si,按站点i的当前随机控制策略确定执行行动vi(si),并获取样本数据信息;若缓冲库为空,则vi(si)=∞,加工主体一直等待,直到传送带上有工件到达并将到达的工件下载到缓冲库;若缓冲库已满,则vi(si)=0,加工主体从缓冲库中取出一个工件进行加工,加工时间可服从一般的随机分布;否则,通过前视传感器查看传送带上前方一定距离vi(si)内有无工件,若有工件,则加工主体等待第一个工件到达该站,并下载到缓冲库,不然则直接从缓冲库中取出一个工件进行加工,加工完毕后放入储藏库;以上过程需记录样本数据信息,若决策站点i需等待则记录其等待时间w(即两决策时间间隔)、相邻下游站点i+1的缓冲库空余量si+1、自身缓冲库空余量si,否则记录站点i的工件加工时间τ、决策间隔时间w=max{vi(si),τ}、相邻下游站点i+1的缓冲库空余量si+1和自身缓冲库空余量si
(3.2)根据样本数据信息<si,vi(si),τ,w,si+1>,计算多智能体***模型的反应项和扩散项,其中,
反应项:定义反映决策站点等待时间的等待代价为反应项,即决策站点在等待过程所付出的代价,若决策站点等待工件到达,反应项记为f1=K1*Tα(w);若决策站点进行工件加工,记为f1=K1*(Tα(w)-Tα(τ)),其中,K1为站点的每单位时间的等待代价,α>0为常数折扣因子,T为一个算子,且对于任意正常数δ>0,有
Figure F2009102517030C00021
当α趋向0时,有T0(δ)=δ;
扩散项:定义决策站点i与下游相邻站点i+1之间的缓冲库空余量差值为扩散项,即反馈代价项,其表达式为f2=K2*(si+1-si)*Tα(w),其中K2为该相邻两个站点单位缓冲库空余量差值的单位时间反馈代价;
(3.3)根据反应项和扩散项构造多智能体***模型的性能函数,其表达式为
Figure F2009102517030C00022
再采用对折扣和平均性能准则统一的连续时间强化学***均代价的估计值,等于当前时刻为止***运行累积的无折扣代价总和与总运行时间的商;
(3.4)根据站点i的值函数Qi(si,vi(si)),改进其随机控制策略;
(3.5)判断是否满足给定的算法停止条件,若不满足,则转入下一决策阶段,即返回(3.1)执行新的随机控制策略;
(4)若算法停止,则按最终的优化策略控制***运行,实现***优化目标。
CN2009102517030A 2009-12-31 2009-12-31 多站点传送带给料生产加工站***的优化控制方法 Expired - Fee Related CN101788787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102517030A CN101788787B (zh) 2009-12-31 2009-12-31 多站点传送带给料生产加工站***的优化控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102517030A CN101788787B (zh) 2009-12-31 2009-12-31 多站点传送带给料生产加工站***的优化控制方法

Publications (2)

Publication Number Publication Date
CN101788787A true CN101788787A (zh) 2010-07-28
CN101788787B CN101788787B (zh) 2011-09-21

Family

ID=42532030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102517030A Expired - Fee Related CN101788787B (zh) 2009-12-31 2009-12-31 多站点传送带给料生产加工站***的优化控制方法

Country Status (1)

Country Link
CN (1) CN101788787B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629108A (zh) * 2012-04-19 2012-08-08 合肥工业大学 带柔性站点多工序传送带给料加工站***优化控制方法
CN105643625A (zh) * 2016-03-07 2016-06-08 合肥工业大学 一种基于机械臂的单站点给料生产加工***的工作机制
CN107003646A (zh) * 2014-11-13 2017-08-01 西门子公司 用于在产品处执行生产功能的生产模块
CN107024867A (zh) * 2017-06-01 2017-08-08 合肥工业大学 一种考虑前视距离的相容工件族的优化控制方法
CN107977738A (zh) * 2017-11-21 2018-05-01 合肥工业大学 一种用于传送带给料加工站***的多目标优化控制方法
CN108614417A (zh) * 2018-04-28 2018-10-02 合肥工业大学 一种非泊松工件流csps***优化控制及仿真测试方法
CN109870992A (zh) * 2019-03-26 2019-06-11 合肥工业大学 一种不考虑延时等待的csps***控制方法
CN111517112A (zh) * 2020-04-21 2020-08-11 合肥工业大学 一种改进的tp+lcm全贴合***及控制方法
CN111874506A (zh) * 2020-08-03 2020-11-03 浙江瑞晟智能科技股份有限公司 基于立体库的生产方法及***
CN112150088A (zh) * 2020-11-26 2020-12-29 深圳市万邑通信息科技有限公司 一种吞吐柔性智能装配物流路径规划方法及***
CN112809678A (zh) * 2021-01-15 2021-05-18 合肥工业大学 一种多机器人工作站生产线***的协同控制方法
CN114424134A (zh) * 2019-09-26 2022-04-29 西门子股份公司 使自动化过程内的非生产性空闲时间最小化的***和方法
CN116841215A (zh) * 2023-08-29 2023-10-03 天津航毅达科技有限公司 一种基于数控机床加工优化的运动控制方法和***

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629108A (zh) * 2012-04-19 2012-08-08 合肥工业大学 带柔性站点多工序传送带给料加工站***优化控制方法
CN107003646A (zh) * 2014-11-13 2017-08-01 西门子公司 用于在产品处执行生产功能的生产模块
US10365635B2 (en) 2014-11-13 2019-07-30 Siemens Aktiengesellschaft Production module for performing a production function on a product
CN105643625A (zh) * 2016-03-07 2016-06-08 合肥工业大学 一种基于机械臂的单站点给料生产加工***的工作机制
CN107024867A (zh) * 2017-06-01 2017-08-08 合肥工业大学 一种考虑前视距离的相容工件族的优化控制方法
CN107024867B (zh) * 2017-06-01 2019-10-25 合肥工业大学 一种考虑前视距离的相容工件族的优化控制方法
CN107977738A (zh) * 2017-11-21 2018-05-01 合肥工业大学 一种用于传送带给料加工站***的多目标优化控制方法
CN107977738B (zh) * 2017-11-21 2021-04-06 合肥工业大学 一种用于传送带给料加工站***的多目标优化控制方法
CN108614417B (zh) * 2018-04-28 2021-03-26 合肥工业大学 一种非泊松工件流csps***优化控制及仿真测试方法
CN108614417A (zh) * 2018-04-28 2018-10-02 合肥工业大学 一种非泊松工件流csps***优化控制及仿真测试方法
CN109870992A (zh) * 2019-03-26 2019-06-11 合肥工业大学 一种不考虑延时等待的csps***控制方法
CN114424134A (zh) * 2019-09-26 2022-04-29 西门子股份公司 使自动化过程内的非生产性空闲时间最小化的***和方法
CN111517112B (zh) * 2020-04-21 2021-09-24 合肥工业大学 一种改进的tp+lcm全贴合***及控制方法
CN111517112A (zh) * 2020-04-21 2020-08-11 合肥工业大学 一种改进的tp+lcm全贴合***及控制方法
CN111874506A (zh) * 2020-08-03 2020-11-03 浙江瑞晟智能科技股份有限公司 基于立体库的生产方法及***
CN112150088A (zh) * 2020-11-26 2020-12-29 深圳市万邑通信息科技有限公司 一种吞吐柔性智能装配物流路径规划方法及***
CN112809678A (zh) * 2021-01-15 2021-05-18 合肥工业大学 一种多机器人工作站生产线***的协同控制方法
CN112809678B (zh) * 2021-01-15 2023-07-18 合肥工业大学 一种多机器人工作站生产线***的协同控制方法
CN116841215A (zh) * 2023-08-29 2023-10-03 天津航毅达科技有限公司 一种基于数控机床加工优化的运动控制方法和***
CN116841215B (zh) * 2023-08-29 2023-11-28 天津航毅达科技有限公司 一种基于数控机床加工优化的运动控制方法和***

Also Published As

Publication number Publication date
CN101788787B (zh) 2011-09-21

Similar Documents

Publication Publication Date Title
CN101788787B (zh) 多站点传送带给料生产加工站***的优化控制方法
Yao et al. A multi-objective dynamic scheduling approach using multiple attribute decision making in semiconductor manufacturing
CN114595607B (zh) 一种数字孪生纺织条桶输送方法及***
CN102629108B (zh) 带柔性站点多工序传送带给料加工站***优化控制方法
CN101458512A (zh) 一种用于自动化立体仓库管理监控***中的指令调度方法
Witczak et al. Multiple AGV fault-tolerant within an agile manufacturing warehouse
CN108928594A (zh) 一种基于智能体模型的立体库多向穿梭车调度***及方法
Zhang et al. Stochastic models for performance analysis of multistate flexible manufacturing cells
Yuan et al. Multirobot Task Allocation in e‐Commerce Robotic Mobile Fulfillment Systems
Peng et al. A strawberry harvest‐aiding system with crop‐transport collaborative robots: Design, development, and field evaluation
EP1840776A1 (en) Simulation system and simulation method
Khmelnitsky et al. Maximum principle-based methods for production scheduling with partially sequence-dependent setups
Mumtaz et al. Solving line balancing and AGV scheduling problems for intelligent decisions using a Genetic-Artificial bee colony algorithm
Gao et al. A framework of cloud-edge collaborated digital twin for flexible job shop scheduling with conflict-free routing
Xia et al. Collaborative production and predictive maintenance scheduling for flexible flow shop with stochastic interruptions and monitoring data
Zhang et al. Automated guided vehicle dispatching and routing integration via digital twin with deep reinforcement learning
Amirteimoori et al. Concurrent scheduling of jobs and AGVs in a flexible job shop system: a parallel hybrid PSO-GA meta-heuristic
CN112809678B (zh) 一种多机器人工作站生产线***的协同控制方法
Nikoofarid et al. Production planning and worker assignment in a dynamic virtual cellular manufacturing system
Udomkesmalee et al. Impact of parallel processing on job sequences in flexible assembly systems
Wang et al. Model construction of material distribution system based on digital twin
CN116679647A (zh) 一种考虑缓冲区容量的3c智造车间agv调度***与方法
Wu et al. Multi-task allocation framework of coal gangue sorting robot system for the time-varying raw coal flow
JP6991449B2 (ja) 配車管理システム、プログラムおよび方法
CN116703104A (zh) 一种基于决策大模型的料箱机器人订单拣选方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110921

Termination date: 20131231