CN111241952B - 一种离散制造场景中的强化学习奖励自学习方法 - Google Patents

一种离散制造场景中的强化学习奖励自学习方法 Download PDF

Info

Publication number
CN111241952B
CN111241952B CN202010005909.1A CN202010005909A CN111241952B CN 111241952 B CN111241952 B CN 111241952B CN 202010005909 A CN202010005909 A CN 202010005909A CN 111241952 B CN111241952 B CN 111241952B
Authority
CN
China
Prior art keywords
network
state
reward
learning
gpr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010005909.1A
Other languages
English (en)
Other versions
CN111241952A (zh
Inventor
吴宗泽
赖家伦
刘亚强
梁泽逍
曾德宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010005909.1A priority Critical patent/CN111241952B/zh
Publication of CN111241952A publication Critical patent/CN111241952A/zh
Application granted granted Critical
Publication of CN111241952B publication Critical patent/CN111241952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种离散制造场景中的强化学习奖励自学习方法,包括如下步骤:对当前生产线的工序细化g∈G={g1,g2,…,gN},智能体到达预定目标g记录为一个交互序列episode,根据初始参数获得g1作为目标对应的多段episodes,将episodes中的状态动作
Figure DDA0002355278930000011
以及状态的差值△作为训练数据集输入GPR模块,得到基于状态差分的***状态转移模型;智能体Agent继续与环境进行交互,获得新的状态st,Reward网络输出r(st),Actor网络输出a(st),Critic网络输出V(st),GPR模块输出值函数Vg作为整体的更新方向;当|Vg‑V(st)|<ε时,则认为当前工序下的奖励函数学习完毕,并进行Reward网络的参数保存;继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;当设定目标G={g1,g2,…,gN}全部依次实现时,完成生产线的工艺学习。

Description

一种离散制造场景中的强化学习奖励自学习方法
技术领域
本发明涉及深度强化学习技术领域,更具体的,涉及一种离散制造场景中的强化学习奖励学习方法。
背景技术
制造业按其产品制造工艺过程特点总体上可以划分为流程制造和离散制造。相比于流程制造,离散制造的产品往往由多个零件经过一系列并不连续的工序加工装配而成,主要包括机械加工、机床等加工、组装性行业。
针对离散型制造企业的加工生产过程。整个工艺生产过程常常分解成很多个加工任务,而每一个加工任务需要的占用的加工资源不多,但零件从一个工作环节到另一个工作环节,之间常进行不同类型和要求的多种加工任务。又因离散型企业产品定制程度高,不同的订单有不同的工艺需求,导致了其零件加工工艺及设备使用过于灵活,使其品质控制上难度高。现有的MES(Manufacturing Execution System)是对整个车间制造过程的优化,而不是单一解决某个生产工序的加工设备控制问题,因此在每一个生产单元中,按目前的主流方案,当从生产A产品切换到生产B产品时,往往需要人工切换设备的制程工艺,生产过程中包括设备使用等多数情况下还是依赖于操作者的技术、经验,但是在此之前并没有将深度强化学习引入生产线的先例。
强化学***台Universe上的游戏CoastRunners中,Agent也即是游戏中的船,目标一是完成比赛,二是收集环境中的得分目标,在训练中出现了Agent停留在一处不断的获取金币奖励,以另外一种不理想的策略获得更高的奖励。因此相同的框架,奖励函数设置的好坏,直接影响到Agent学习的结果。同时一个采用强化学习算法训练过的Agent,只能根据设计的奖励达到单次的训练目标
发明内容
本发明为了解决现有的离散制造生产线中,产品制造的各工序控制参数的调节,主要依靠工作人员的工作经验完成的问题,提供了一种离散制造场景中的强化学习奖励自学习方法,其采用深度强化学习的方法,实现生产线设备控制参数的学习。
为实现上述本发明目的,采用的技术方案如下:一种离散制造场景中的强化学习奖励自学习方法,包括如下步骤:
S1:对当前生产线的工序进行细化g∈G={g1,g2,...,gN},其中g为细化后当前工序需达到的目标所对应的状态,智能体Agent到达预定目标g记录为一个交互序列episodes,根据初始参数获得g1作为目标对应的多段episodes,进行GPR模块的训练;
S2:引入基于模型的强化学习方法,将episodes中的状态动作
Figure GDA0002646926650000021
以及状态的差值Δ作为训练数据集输入GPR模块,学习得到基于状态差分的***状态转移模型st+1=f(st,at);其中at为智能体Agent采取的动作;
S3:根据智能体Agent获得的环境反馈状态st,将新的状态st同步输入GRP模块、Reward网络、Actor网络、Critic网络中,则Reward网络输出r(st),Actor网络输出a(st),Critic网络输出V(st),所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数Vg并作为整体的更新方向;
S4:当|Vg-V(st)|<ε时,为了避免假阳性,人为判断是否完成当前目标下工序的学习,若完成,则认为实现该段工序的学习,即当前工序下的奖励函数也即Reward网络学习完毕,并进行Reward网络的参数保存;根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;
S5:当设定目标G={g1,g2,...,gN}全部依次实现时,完成了生产线的工艺学习,并得到了能够进行动作评估的奖励函数,即Reward网络;
S6:然后移除GPR模块,根据现有网络参数,采用计算量低的强化学习算法在线运行。
优选地,步骤S2,得到***状态转移模型st+1=f(st,at)的具体步骤如下:
S201:先构建状态差分模型,通过引入差分变量Δt=st+1-st+ε,
假设Δt服从高斯分布,根据高斯分布自共轭,st同样服从高斯分布,即可表示为
Figure GDA0002646926650000031
其中,μt+1=st+Eft+1],∑t+1=varft+1],st为t时刻环境反馈给智能体Agent的状态,可以是一个多维特征的输入,st+1为GPR模块预测的下一状态,at为智能体Agent采取的动作,对应于当前工序中的状态输入对应的各维控制参数向量;以状态特征为一维进行推导示例,即
Figure GDA0002646926650000032
S202令
Figure GDA0002646926650000033
以及状态的差值△作为训练数据集输入GPR模块,所述的训练数据集可表示为:
Figure GDA0002646926650000034
S203:采用核函数来衡量两个量的相似性,
Figure GDA0002646926650000035
其中,等式右端为矩阵形式的表示,Λ代表的是一个含可调节系数的对角矩阵,α为一个可调节系数,
Figure GDA0002646926650000036
中的
Figure GDA0002646926650000037
是数据集中任意不相同的两个量;
S204:利用最小化负对数边缘似然对GPR模块进行训练:
Figure GDA0002646926650000038
其中K为指数平方核的协方差矩阵;
S205:根据GPR模块的性质,数据的联合分布如下:
Figure GDA0002646926650000039
Figure GDA00026469266500000310
其中,I表示为单位矩阵,
Figure GDA00026469266500000311
来自于y中引入差分变量Δt时带进的
Figure GDA00026469266500000312
Figure GDA00026469266500000313
Figure GDA00026469266500000314
与y对应于训练数据集
Figure GDA00026469266500000315
Figure GDA00026469266500000316
为待预测输入,
Figure GDA00026469266500000317
为待预测的输出差分,所预测的后验分布同为高斯分布,可表示为:
Figure GDA0002646926650000041
其中:
Figure GDA0002646926650000042
Figure GDA0002646926650000043
其中为了表示清晰令
Figure GDA0002646926650000044
Ef[*]表示求均值,varf[*]表示求方差;
Figure GDA0002646926650000045
表示高斯过程中均值函数,
Figure GDA0002646926650000046
表示高斯过程中的协方差函数,其中下标f对应着模型f(st,at),从而得到状态差分模型;
S206:根据每次输入状态与Actor网络动作输出的联合高斯分布
Figure GDA0002646926650000047
推导出当前状态的差分:
Figure GDA0002646926650000048
Figure GDA0002646926650000049
其中q=[q1,…,qn]T,n对应样本数,
Figure GDA00026469266500000410
当输入状态特征为M维的情况:
Figure GDA00026469266500000411
Figure GDA00026469266500000412
相当于对每一维度进行一次以上的推导;
S207:根据状态转移模型推导后续状态分布p(st+1),可由下式推导得出:
均值μt+1=μt
方差∑t+1=∑t+∑+cov(st,△)+cov(△,st)
所述的GPR模块根据步骤S207推导得出预测的p(st+1)
根据以上推导得出状态转移模型让GPR模块实现策略评估,即得到GPR模块的最终输出值函数Vg,并作为当前Reward网络、Critic网络的更新方向;其中所述的值函数表示如下:
Figure GDA00026469266500000413
其中,
Figure GDA00026469266500000414
为损失函数,sT表示当前子目标的目标末状态,将c(st+1)∈[0,1]作为目标逼近程度的度量;
再进一步地,根据得到值函数Vg,对Actor网络的参数采用基于梯度策略搜索方法进行更新:
Figure GDA0002646926650000051
Figure GDA0002646926650000052
Figure GDA0002646926650000053
其中,
Figure GDA0002646926650000054
Figure GDA0002646926650000055
对应于Actor网络的输出,ωa指的是Actor的网络参数,
Figure GDA0002646926650000056
指的是梯度方法使
Figure GDA0002646926650000057
取得最小值的最优网络参数;
再进一步地,所述的Reward网络以当前的状态、动作为输入,输出为奖励信号r(st),通过Critic网络的输出V(st)与GPR模块中预测的下一状态st+1对应的值函数
Figure GDA0002646926650000058
的均方差,即
Figure GDA0002646926650000059
作为损失函数,进行网络的更新;
所述的Critic网络以当前的状态、动作以及Reward网络的输出r(st)作为输入,以贝尔曼方程的形式构造损失函数
Figure GDA00026469266500000510
其中γ是一个属于[0,1]区间的折扣率。
本发明的有益效果如下:
1.本发明基于强化学习中的Actor-Critic框架,引入了GPR模块,对于离散制造场景中存在的工序多,奖励稀疏难设计的状况,实现奖励的自学习,对变化的场景更具有自适应性。通过对离散制造中生产线A各个工序进行学习,生成每个工序的Reward网络、Actor网络,对应于各工序中适用的奖励函数和设备不同状态输入下的控制参数。同样的框架可以重新应用于生产线B的工艺学习,达到多场景自适应的特点。
2.本发明通过引入了基于状态差分模型的高斯过程建模方法,利用过去成功交互的多段episodes进行值函数评估,进而给出更加合理的策略更新方向。对于离散制造场景定制程度高、多工序的特点,这种方法有更高的生产自适应性。
附图说明
图1是实施例1所述的强化学习奖励自学习方法的步骤流程图。
图2是实施例1所述的强化学习的示意图。
图3是实施例1所述的强化学习奖励自学习方法的处理框图。
图4是实施例1所述的Actor网络的示意图。
图5是实施例1所述的Reward网络的示意图。
图6是实施例1所述的Critic网络的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
在强化学习中最核心的概念就是奖励函数,奖励函数向学习过程中的智能体Agent显示当前状态下采取不同动作的反馈结果,相当于我们通过奖励函数,对学习任务具体化。但是强化学习问题中面临着奖励需要针对不同的场景手动设置才能达到最佳效果的特点,导致了同一套算法对不同场景的适用性不强。
因此本实施例提出了一种离散制造场景中的强化学习奖励自学习方法,如图1所示,其引入了基于模型的强化学习方法(即用已有的数据学习出环境的模型p(st+1|st,at),对应于GPR部分,只不过GPR部分先学习出来是状态的差分,推导得出下一个状态st+1的分布),通过智能体Agent与环境的弱交互,以及观测者对初始交互序列的筛选,自动学习不同场景下的奖励函数,如图2所示,在训练的过程中智能体Agent与环境的交互信息只剩下状态xt和动作a(st),这里的xt对应于当前场景t时刻下的生产线上设备多维状态向量,a(st)对应于当前场景t时刻下的多维状态所对应的多维控制参数。
该方法具体包括如下步骤:
S1:对当前生产线的工序进行细化g∈G={g1,g2,…,gN},其中g为细化后当前工序需达到的目标所对应的状态,智能体Agent到达预定目标g记录为一个交互序列episode,根据初始参数获得g1作为目标对应的多段episodes;
S2:如图3所示,引入基于模型的强化学习方法,通过智能体Agent与环境的弱交互,以及观测者对初始交互序列的筛选,自动学习不同场景下的奖励函数。在训练的过程中智能体Agent与环境的交互信息只剩下状态xt和动作a(st),这里的xt对应于当前场景t时刻下的生产线上设备多维状态向量,a(st)对应于当前场景t时刻下的多维状态所对应的多维控制参数。
将episodes中的状态动作
Figure GDA0002646926650000061
以及状态的差值△作为训练数据集输入GPR模块,训练得到基于状态差分的***状态转移模型st+1=f(st,at);
其中,得到***状态转移模型st+1=f(st,at)的具体步骤如下:
其中本实施例所述的高斯过程(Gaussian processes)是一个非参数模型,依赖于样本数据来进行预测估计,是机器学习领域里监督学习中的一种函数逼近方法,该方法的目的是利用样本数据来捕捉整个函数的分布,拟合现有数据较为方便,而且能给出不确定性范围,可用于对所生成数据的置信度进行判断。
由于本实施例目的是学习出一条生产线各工艺流程对应的奖励函数,而值函数是累积奖励的期望,这就导致如果用高斯过程直接根据单次输入进行直接的值函数预测效果将会不理想,因此本实施例采用高斯过程对状态的差分进行建模的方法构建基于状态差分的状态转移模型(即根据新的
Figure GDA0002646926650000079
输入,得到预测状态差分△,最后推导得出p(st+1))。
S201:先构建状态差分模型,通过引入差分变量Δt=st+1-st+ε,
假设△t服从高斯分布,根据高斯分布自共轭,st同样服从高斯分布,即可表示为
Figure GDA0002646926650000071
其中,μt+1=st+Eft+1],∑t+1=varft+1],st为t时刻环境反馈给智能体Agent的状态,可以是一个多维特征的输入,类似于从设备上采集到的工艺参数,所述的工艺参数包括位置,速度,角速度,温度,压强等,st+1为GPR模块预测的下一状态,at为智能体Agent采取的动作,对应于当前工序中的状态输入对应的各维控制参数向量;以特征为一维进行推导示例即
Figure GDA0002646926650000072
S202:令
Figure GDA0002646926650000073
及状态的差值△作为训练数据集输入GPR模块,将训练数据集表示如下:
Figure GDA0002646926650000074
S203:采用核函数来衡量两个量的相似性,所述核函数包括指数平方核,本实施例采用指数平方核来衡量两个量的相似性,
Figure GDA0002646926650000075
其中,Λ代表的是一个含可调节系数的对角矩阵,α为一个可调节系数,
Figure GDA0002646926650000076
中的
Figure GDA0002646926650000077
是数据集中任意不相同的两个量;
S204:利用最小化负对数边缘似然对GPR模块进行训练:
Figure GDA0002646926650000078
其中K为指数平方核的协方差矩阵;
S205:根据GPR模块的性质,数据的联合分布如下:
Figure GDA0002646926650000081
Figure GDA0002646926650000082
其中,
Figure GDA0002646926650000083
与y对应于训练数据集
Figure GDA0002646926650000084
I表示为单位矩阵,
Figure GDA0002646926650000085
来自于y中引入差分变量Δt时带进的
Figure GDA0002646926650000086
Figure GDA0002646926650000087
为待预测输入,
Figure GDA0002646926650000088
为待预测的输出差分;
所预测的后验分布同为高斯分布,可表示为:
Figure GDA0002646926650000089
其中:
Figure GDA00026469266500000810
Figure GDA00026469266500000811
从而得到状态差分模型;
其中,
Figure GDA00026469266500000812
Ef表示求均值,varf表示求方差;
Figure GDA00026469266500000813
表示高斯过程中均值函数,
Figure GDA00026469266500000814
表示高斯过程中的协方差函数,其中下标f对应着模型f(st,at);
S206:根据已获得的***状态差分模型后,应用到
Figure GDA00026469266500000815
的求取,根据每次输入状态与Actor网络动作输出的联合高斯分布
Figure GDA00026469266500000816
推导出当前状态的差分:
Figure GDA00026469266500000817
Figure GDA00026469266500000818
其中q=[q1,…,qn]T,n对应样本数,
Figure GDA00026469266500000819
当输入状态特征为M维的情况:
Figure GDA00026469266500000820
Figure GDA00026469266500000821
这里是从状态特征维数为1到状态特征维数为M的扩充,若存在所述的状态特征为位置,速度,角速度,温度,压强时,M=5;
S207:通过状态转移模型推导后续状态分布p(st+1),可由下式推导得出:
均值μt+1=μt
方差∑t+1=∑t+∑+cov(st,△)+cov(△,st)
所述的GPR模块根据步骤S207推导得出预测的p(st+1);
根据以上推导得出状态转移模型让GPR模块实现策略评估,即并通过同样的方法推导得出p(st+2)直到p(sT),从而得到GPR模块的最终输出值函数Vg,并作为当前Reward网络、Critic网络的更新方向;其中所述的值函数表示如下:
Figure GDA0002646926650000091
其中,
Figure GDA0002646926650000092
为损失函数,sT表示当前子目标的目标末状态,将c(st+1)∈[0,1]作为目标逼近程度的度量;
值函数Vg是概率分布p(st+1)到概率分布p(sT),分别关于c(st+1)到c(sT)求期望(∫c(st+1)p(st+1)dst+1),再求和的结果。
这里的st+1,st+2,…,sT都是通过训练过的GPR模型推出来的,是求取Vg的需要,并不是与真实环境交互获得的状态。
根据得到值函数Vg,对Actor网络的参数采用基于梯度策略搜索方法进行更新:
Figure GDA0002646926650000093
Figure GDA0002646926650000094
Figure GDA0002646926650000095
其中,
Figure GDA0002646926650000096
Figure GDA0002646926650000097
对应于Actor网络的输出,ωa指的是Actor的网络参数,
Figure GDA0002646926650000098
指的是梯度方法使
Figure GDA0002646926650000099
取得最小值的最优网络参数。
S3:根据智能体Agent获得的环境反馈状态st,将新的状态st同步输入GRP模块、Reward网络、Actor网络、Critic网络中,则Reward网络输出r(st),Actor网络输出a(st),Critic网络输出V(st),所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数Vg并作为整体的更新方向;
S4:当|Vg-V(st)|<ε时,为了避免假阳性,人为判断是否完成当前目标下工序的学习,若完成,则认为实现该段工序的学习,即当前工序下的奖励函数也即Reward网络学习完毕,并进行Reward网络的参数保存;根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;
S5:当设定目标G={g1,g2,…,gN}全部依次实现时,完成了生产线的工艺学习,并得到了能够进行动作评估的奖励函数,即Reward网络。
S6:此时可移除GPR模块,根据现有网络参数,采用计算量低的强化学习算法如PPO、DDPG等在线运行。
在一个具体的实施例中,如图4所示,所述的Actor网络根据当前采集的多维状态输入st进行动作的选取,Actor网络输出的a(st)为Agent在当前状态的各维特征到相应动作分布的映射,输出值分别对应为均值和方差。
在一个具体的实施例中,如图5所示,所述的Reward网络以当前的状态、动作为输入,输出为奖励信号r(st),通过Critic网络的输出V(st)与GPR模块中预测的下一状态st+1对应的值函数
Figure GDA0002646926650000101
的均方差,即作为损失函数
Figure GDA0002646926650000102
进行网络的更新。
在一个具体的实施例中,如图6所示,所述的Critic网络以当前的状态、动作以及Reward网络的输出r(st)作为输入,以贝尔曼方程的形式构造损失函数
Figure GDA0002646926650000103
其中γ是一个属于[0,1]区间的折扣率。
根据GPR模块输出的值函数,依据的是已达到目标的episodes的状态转移分布,而且以子目标状态为优化方向,因此在奖励信号r(st)未知的情况下,采用相同的策略得出的Vg较于Critic输出的V(st+1)是当前更合理的更新方向。
本实施例对于Reward网络的更新方向,即目标值函数Vg的计算,本实施例并没有采用经验回放(Replay buffer)的方法打乱样本数据相关性用于训练神经网络(即每次将交互获得的数据分段成{s,a,r,s`}进行保存,在迭代更新参数时采样小批次(Mini-batch)的经验数据输入神经网络进行值函数预测)。原因是因为本实施例场景中奖励r(st)本身就是待估计的,因此最初是并不能对每次动作给出评价的,无法作为单次更新的依据,也正是因为这个原因,Actor网络也即策略的更新方式并没有直接采用经典Actor-Critic中用TD-error作为似然率的策略梯度更新方法
Figure GDA0002646926650000104
相邻时间前后获得的观测样本具有较强的关联性,同样不适合采用神经网络进行拟合,又由于学习状态差分相比于直接学习值函数更具优势,预测波动更小,因此引入了基于差分的高斯过程建模方法,利用过去成功交互的多段episodes进行值函数评估,进而给出更加合理的策略更新方向。对于离散制造场景定制程度高、多工序的特点,这种方法有更高的生产自适应性。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种离散制造场景中的强化学习奖励自学习方法,其特征在于:包括如下步骤:
S1:对当前生产线的工序进行细化g∈G={g1,g2,…,gN},其中g为细化后当前工序需达到的目标所对应的状态,智能体Agent到达预定目标g记录为一个交互序列episode,根据初始参数获得g1作为目标对应的多段episodes,进行GPR模块的训练;
S2:引入基于模型的强化学习方法,将episodes中的状态动作对
Figure FDA0002646926640000011
Figure FDA0002646926640000012
以及状态的差值△作为训练数据集输入GPR模块,训练得到基于状态差分的***状态转移模型st+1=f(st,at);其中at为智能体Agent采取的动作;
S3:根据智能体Agent获得的环境反馈状态st,将新的状态st同步输入GRP模块、Reward网络、Actor网络、Critic网络中,则Reward网络输出r(st),Actor网络输出a(st),Critic网络输出V(st),所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数Vg并作为整体的更新方向;
S4:当|Vg-V(st)|<ε时,为了避免假阳性,人为判断是否完成当前目标下工序的学习,若完成,则认为实现该段工序的学习,即当前工序下的奖励函数也即Reward网络学习完毕,并进行Reward网络的参数保存;根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;
S5:当设定目标G={g1,g2,…,gN}全部依次实现时,完成了生产线的工艺学习,并得到了能够进行动作评估的奖励函数,即Reward网络;
S6:然后移除GPR模块,根据现有网络参数,采用计算量低的强化学习算法在线运行。
2.根据权利要求1所述的离散制造场景中的强化学习奖励自学习方法,其特征在于:步骤S2,得到***状态转移模型st+1=f(st,at)的具体步骤如下:
S201:先构建状态差分模型,通过引入差分变量Δt=st+1-st+ε,假设△t服从高斯分布,根据高斯分布自共轭,st同样服从高斯分布,即可表示为
Figure FDA0002646926640000021
其中,μt+1=st+Eft+1],∑t+1=varft+1],st为t时刻环境反馈给智能体Agent的状态,可以是一个多维特征的输入,st+1为GPR模块预测的下一状态,at为智能体Agent采取的动作,对应于当前工序中的状态输入对应的各维控制参数向量;以特征为一维进行推导示例,即
Figure FDA0002646926640000022
S202:令
Figure FDA0002646926640000023
以及状态的差值△作为训练数据集输入GPR模块,所述的训练数据集可表示为:
Figure FDA0002646926640000024
S203:采用核函数来衡量两个量的相似性,
Figure FDA0002646926640000025
其中,Λ代表的是一个含可调节系数的对角矩阵,α为一个可调节系数,
Figure FDA0002646926640000026
中的
Figure FDA0002646926640000027
是数据集中任意不相同的两个量;
S204:利用最小化负对数边缘似然对GPR模块进行训练:
Figure FDA0002646926640000028
其中K为采用指数平方核的协方差矩阵;
S205:根据GPR模块的性质,数据的联合分布如下:
Figure FDA0002646926640000029
Figure FDA00026469266400000210
其中,
Figure FDA00026469266400000211
与y对应于训练数据集
Figure FDA00026469266400000212
I表示为单位矩阵,
Figure FDA00026469266400000213
来自于y中引入差分变量Δt时带进的
Figure FDA00026469266400000214
Figure FDA00026469266400000215
为待预测输入,
Figure FDA00026469266400000216
为待预测的输出差分;
所预测的后验分布同为高斯分布,可表示为:
Figure FDA00026469266400000217
其中:
Figure FDA00026469266400000218
Figure FDA00026469266400000219
其中Ef[*]表示求均值,varf[*]表示求方差;
Figure FDA00026469266400000220
表示高斯过程中均值函数,
Figure FDA0002646926640000031
表示高斯过程中的协方差函数,其中下标f对应着模型f(st,at)从而得到状态差分模型;
Figure FDA0002646926640000032
S206:根据每次输入状态与Actor网络动作输出的联合高斯分布
Figure FDA0002646926640000033
推导出当前状态的差分:
Figure FDA0002646926640000034
Figure FDA0002646926640000035
其中q=[q1,…,qn]T,n对应样本数,
Figure FDA0002646926640000036
当输入状态特征为M维的情况:
Figure FDA0002646926640000037
Figure FDA0002646926640000038
相当于对每一维度进行一次以上的推导;
S207:推导后续状态分布p(st+1),可由下式推导得出:
均值μt+1=μt
方差∑t+1=∑t+∑+cov(st,△)+cov(△,st)
所述的GPR模块根据步骤S207推导得出预测的p(st+1)。
3.根据权利要求2所述的离散制造场景中的强化学习奖励自学习方法,其特征在于:根据以上推导得出状态转移模型让GPR模块实现策略评估,即得到GPR模块的最终输出值函数Vg,并作为当前Reward网络、Critic网络的更新方向;其中所述的值函数表示如下:
Figure FDA0002646926640000039
其中,
Figure FDA00026469266400000310
为损失函数,sT表示当前子目标的目标末状态,将c(st+1)∈[0,1]作为目标逼近程度的度量;
根据每次得到值函数Vg,对Actor网络的参数采用基于梯度策略搜索方法进行更新:
Figure FDA00026469266400000311
Figure FDA00026469266400000312
Figure FDA0002646926640000041
其中,
Figure FDA0002646926640000042
Figure FDA0002646926640000043
对应于Actor网络的输出,ωa指的是Actor的网络参数,
Figure FDA0002646926640000044
指的是梯度方法使
Figure FDA0002646926640000045
取得最小值的最优网络参数。
4.根据权利要求3所述的离散制造场景中的强化学习奖励自学习方法,其特征在于:所述的Reward网络以当前的状态为输入,输出为奖励信号r(st),通过Critic网络的输出V(st)与GPR模块中预测的下一状态st+1对应的值函数
Figure FDA0002646926640000046
Figure FDA0002646926640000047
的均方差,即
Figure FDA0002646926640000048
作为损失函数,进行网络的更新。
5.根据权利要求4所述的离散制造场景中的强化学习奖励自学习方法,其特征在于:所述的Critic网络以当前的状态、动作以及Reward网络的输出r(st)作为输入,以贝尔曼方程的形式构造损失函数
Figure FDA0002646926640000049
Figure FDA00026469266400000410
其中γ是一个属于[0,1]区间的折扣率。
CN202010005909.1A 2020-01-03 2020-01-03 一种离散制造场景中的强化学习奖励自学习方法 Active CN111241952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010005909.1A CN111241952B (zh) 2020-01-03 2020-01-03 一种离散制造场景中的强化学习奖励自学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010005909.1A CN111241952B (zh) 2020-01-03 2020-01-03 一种离散制造场景中的强化学习奖励自学习方法

Publications (2)

Publication Number Publication Date
CN111241952A CN111241952A (zh) 2020-06-05
CN111241952B true CN111241952B (zh) 2020-11-10

Family

ID=70868314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010005909.1A Active CN111241952B (zh) 2020-01-03 2020-01-03 一种离散制造场景中的强化学习奖励自学习方法

Country Status (1)

Country Link
CN (1) CN111241952B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695690B (zh) * 2020-07-30 2023-04-18 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN112232478B (zh) * 2020-09-03 2023-11-17 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及***
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法
CN112488542B (zh) * 2020-12-04 2024-02-02 深圳市中科数建科技有限公司 基于机器学习的智慧工地智能物料调度方法及***
CN112800893B (zh) * 2021-01-18 2024-05-28 南京航空航天大学 一种基于强化学习的人脸属性编辑方法
CN112975967B (zh) * 2021-02-26 2022-06-28 同济大学 一种基于模仿学习的服务机器人定量倒水方法及存储介质
CN112989017B (zh) * 2021-05-17 2021-08-10 南湖实验室 用于生成对话策略学习用高质量模拟经验的方法
CN113359449B (zh) * 2021-06-04 2023-01-03 西安交通大学 基于强化学习的航空发动机双参数指数劣化维护方法
CN113221390B (zh) * 2021-06-24 2024-06-18 北京京东方技术开发有限公司 一种排产模型的训练方法和装置
CN113239639B (zh) * 2021-06-29 2022-08-26 暨南大学 策略信息生成方法、装置、电子装置和存储介质
CN113419424B (zh) * 2021-07-05 2023-08-18 清华大学深圳国际研究生院 减少过估计的模型化强化学习机器人控制方法及***
CN113609755B (zh) * 2021-07-07 2022-02-22 中国科学院国家空间科学中心 一种时序强化学习的星间激光干涉频率规划仿真验证***
CN113435794B (zh) * 2021-08-26 2021-11-19 山东大拇指喷雾设备有限公司 一种基于图像处理的喷嘴铸件后处理智能监测方法
CN114002948B (zh) * 2021-10-12 2023-09-26 同济大学 一种第三方数控机床接入服务平台的方法及装置
CN114454160B (zh) * 2021-12-31 2024-04-16 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***
CN116594358B (zh) * 2023-04-20 2024-01-02 暨南大学 基于强化学习的多层工厂车间调度方法
CN116859755B (zh) * 2023-08-29 2023-12-08 南京邮电大学 无人车驾驶控制的最小化协方差强化学习训练加速方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218655B (zh) * 2013-03-07 2016-02-24 西安理工大学 基于免疫耐受机制的强化学习算法
US9536191B1 (en) * 2015-11-25 2017-01-03 Osaro, Inc. Reinforcement learning using confidence scores
CN105959353A (zh) * 2016-04-22 2016-09-21 广东石油化工学院 基于平均强化学习和高斯过程回归的云作业接入控制方法
CN106094813B (zh) * 2016-05-26 2019-01-18 华南理工大学 基于模型相关强化学习的仿人机器人步态控制方法
EP3467718A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system
US11494689B2 (en) * 2018-06-05 2022-11-08 Chatterbox Labs Limited Method and device for improved classification
CN109858630A (zh) * 2019-02-01 2019-06-07 清华大学 用于强化学习的方法和设备

Also Published As

Publication number Publication date
CN111241952A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111241952B (zh) 一种离散制造场景中的强化学习奖励自学习方法
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN108564326A (zh) 订单的预测方法及装置、计算机可读介质、物流***
CN109840595B (zh) 一种基于群体学习行为特征的知识追踪方法
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN111950711A (zh) 复值前向神经网络的二阶混合构建方法及***
CN108229536A (zh) 分类预测模型的优化方法、装置及终端设备
CN112215412A (zh) 溶解氧预测方法及装置
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及***
CN105955921B (zh) 基于自动发现抽象动作的机器人分层强化学习初始化方法
CN117574721A (zh) 一种工艺参数概率模型优化方法
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及***
CN116817909A (zh) 一种基于深度强化学习的无人机中继式导航方法
Fischer et al. Increasing the performance of a training algorithm for local model networks
JP7468088B2 (ja) 画像処理システム、及び画像処理プログラム
Contardo et al. Learning states representations in pomdp
CN113469262A (zh) 一种基于Fisher信息矩阵的增量学习方法
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
CN113988181B (zh) 一种基于自适应前馈神经网络的目标分类方法
CN113449817B (zh) 基于幻影梯度的图像分类隐式模型加速训练方法
CN112766380B (zh) 一种基于特征增益矩阵增量学习的图像分类方法及***
CN114612750B (zh) 自适应学习率协同优化的目标识别方法、装置及电子设备
Wang et al. Function approximation using robust fuzzy-GreyCMAC method
CN117332814A (zh) 一种基于模块化网络的合作智能体模型、学习方法和装置
CN118427556A (zh) 一种非平稳高维时序数据的预测方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant