CN110059864A

CN110059864A - 一种基于知识迁移的矩形智能排样方法及***

Info

Publication number: CN110059864A
Application number: CN201910233416.0A
Authority: CN
Inventors: 饶运清; 徐小斐; 孟荣华; 罗强; 李广伍
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-26
Anticipated expiration: 2039-03-26
Also published as: CN110059864B

Abstract

本发明公开了一种基于知识迁移的矩形智能排样方法及***，属于结构件优化下料领域，包括：(1)选取若干组待排样零件作为源任务，并提取零件及板材相关信息；(2)利用蚁群强化学习算法求解已选取的多组源任务，并将学习完成后的最优知识矩阵存储到知识库；(3)从知识库中提取出与待解决目标任务最为相似的两组源任务，将两者对应的知识矩阵线性迁移给目标任务；(4)目标任务借助迁移知识矩阵，利用蚁群强化学习算法计算出最优排样方案；(5)输出目标任务的最优排样方案。本发明的基于知识迁移的矩形智能排样方法可以提高板材利用率和求解速度，在求解大中规模矩形排样问题上具有较好的实用性。

Description

一种基于知识迁移的矩形智能排样方法及***

技术领域

本发明属于结构件优化下料领域，更具体地，涉及一种基于知识迁移的矩形智能排样方法及***。

背景技术

近年来，随着市场竞争加剧，企业迫切的要降低生产成本，提高效率。传统的手工排样方式已经无法适应大规模、个性化定制生产的要求，企业越来越需要一种效率高、浪费少的智能优化排样方法。矩形优化排样是优化下料问题的一个分支，指按照最优的排样方案在特定矩形板材上排放不同规格的矩形零件。由于多种规则图形如三角形、扇形等以及不规则图形可通过拼接或包络转换成矩形，因此矩形优化排样有重要的研究价值，目前已在金属下料、木材纸张切割、布料切割、报刊排版等行业获得了广泛的应用。

现有技术已在矩形优化排样方面做出了一些研究，给出了不同排样技术方案。已采用的方法主要有启发式方法如最低水平线法、BL算法、下台阶算法等，智能优化方法如遗传算法、粒子群算法、蚁群算法、狼群算法等。矩形优化排样关键在于零件的定位和定序，目前技术主要采用启发式方法定位，智能算法定序的方式，并不断优化求解时间及板材利用率，现已可以较好地进行矩形优化排样设计。

然而，进一步的研究与探索，上述现有技术仍存在以下的缺陷或不足：

首先，虽然矩形排样已采用启发式方法与先进智能优化方法相结合求解的方式，但仍存在着求解时间偏长，利用率偏低的问题；

其次，目前方案只关注当前任务本身，任务之间彼此孤立寻优，求解优化相似新任务时不能有效利用已有的经验和知识，需重新开始搜索优化，导致效率低下；

再次，即使进行个性化定制，由于生产标准化，同类型产品也存在许多相同的零部件，因此不同组的待排零件存在一定程度上的“重复”现象。

基于上述缺陷和不足，需要对现有排样方法做进一步改进，设计矩形优化排样新方法，实现相似任务知识的迁移和利用，进一步提高板材利用率，降低求解时间，从而可以帮助企业提高生产效率，增强市场竞争力。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于知识迁移的矩形智能排样方法及***。其目的在于，结合知识迁移技术与蚁群强化学习算法，得到一种迁移蚁群强化学习方法，通过将源任务已学习的知识的迁移至目标任务，可以实现已有知识、经验的再利用，从而帮助相似目标任务实现大中规模矩形优化排样问题的快速有效求解。

为实现上述目的，按照本发明的一个方面，提供了一种基于知识迁移的矩形智能排样方法，包括预学习阶段和迁移学习阶段，其中：

所述预学习阶段包括以下步骤：

(1)选取若干组待排样矩形零件作为源任务，得到多组源任务，并提取各源任务中的矩形零件以及矩形板材的信息；

(2)进行知识的预学习：构建步骤(1)的多组源任务各自的知识矩阵，该知识矩阵的元素为知识对，一个状态s与动作a的组合称为一个知识对(s,a)，状态s表示蚂蚁智能体当前选择的矩形零件，动作a表示蚂蚁智能体下一个选择的矩形零件；利用蚁群强化学习算法，以矩形板材使用高度最小为目标，所有矩形零件不超出矩形板材边界且矩形零件之间互不重叠为约束，求解步骤(1)的多组源任务，得到各自最优知识矩阵，并将各最优知识矩阵存储到知识库；每组源任务的最优知识矩阵包含该组源任务达到最佳排样时矩形零件的定序信息；

所述迁移学习阶段包括以下步骤：

(3)进行知识矩阵的线性迁移：从知识库中提取出与待解决的目标任务最为相似的多组源任务各自对应的最优知识矩阵，将提取出的多组最优知识矩阵线性迁移给目标任务，得到目标任务的迁移知识矩阵；

(4)进行知识的迁移学习：基于目标任务的迁移知识矩阵，利用蚁群强化学习算法，以矩形板材使用高度最小为目标，所有矩形零件不超出矩形板材边界且矩形零件之间互不重叠为约束，求解目标任务的最优知识矩阵，目标任务的最优知识矩阵即目标任务达到最佳排样时所有矩形零件的定序信息；

(5)输出目标任务的最优排样方案。

进一步地，步骤(2)及步骤(4)的目标函数及约束条件如下：

目标函数：

n为某个源任务或目标任务中的矩形零件总数，w_i为矩形零件i的宽度，h_i为矩形零件i的高度，W为矩形板材的宽度，H为矩形板材的使用高度，矩形优化排样的目标是使矩形板材的使用高度H最小，即材料利用率最大；

约束条件：

其中，x_i和y_i分别为矩形零件i左下角的横、纵坐标，x_j和y_j分别为矩形零件j左下角的横、纵坐标，矩形零件i与矩形零件j为相邻关系。

进一步地，步骤(2)和步骤(4)中的蚁群强化学习算法如下：

Step1：初始化参数：学习因子α、折扣因子γ、AQ值的权重系数δ、HE值的权重系数β、概率选择系数ε₀、环境奖励系数E_R、最大迭代次数k_max、蚂蚁智能体数量m，某个源任务或目标任务中的矩形零件总数n，m≤n；AQ值为当前知识对(s,a)的知识信息AQ(s,a)的值，HE值为当前知识对(s,a)的启发信息HE(s,a)的值；

Step2：初始化蚂蚁智能***置：生成m个蚂蚁智能体，并随机置于n个矩形零件上，完成第一级节点的选择；

Step3：初始化知识矩阵：设置n×n大小的知识矩阵，在预学习阶段的步骤(2)中，源任务的知识矩阵元素全部初始化为AQ₀；在迁移学习阶段的步骤(4)中，目标任务的初始知识矩阵由源任务的最优知识矩阵按照步骤(3)迁移而来；

Step4：一次迭代循环：所有蚂蚁智能体根据ε-greedy动作策略选择下一个访问的矩形零件，蚂蚁智能体k每选择一个矩形零件，则将此矩形零件放入禁忌列表tabu_k中，并对路径中相应的知识对进行局部更新，每一步动作均避开tabu_k中的矩形零件；重复上述动作和知识对更新过程直至所有蚂蚁智能体均访问完所有矩形零件，完成一次迭代循环；k＝1,2,…,m，tabu_k是蚂蚁智能体k的禁忌列表；所述ε-greedy动作策略如下：

其中，

其中，A(s)为当前状态下可选的动作集合，ε为0～1的符合均匀分布的随机数，每一步动作随机生成一次ε，当ε≤ε₀时，智能体受启发信息和知识矩阵中知识的指导来选择下一个待访问的矩形零件；当ε≥ε₀时，蚂蚁智能体利用伪随机轮盘赌进行概率探索，决定下一个待访问的矩形零件；

Step5：一次迭代结束后，按照设定的目标及约束对所有蚂蚁智能体得到的排样序列采用最低水平线法解码获得各矩形零件的左下角坐标，并对材料利用率进行比较，得到本次迭代的最优解；第一次迭代的最优解同时也是当前的最好解；从第二次迭代开始，若本次迭代的最优解优于当前的最好解，则将本次迭代的最优解作为当前的最好解，否则，保持当前最好解不变；

Step6：获得当前最好解的蚂蚁智能体会获得环境奖励值，从而对其行走路径的知识信息进行全局更新，然后进行下一次迭代；

Step7：循环Step4、Step5和Step6直至知识矩阵收敛或达到最大迭代次数k_max，输出最好解对应的矩形排样方案，在预学习阶段的步骤(2)中，将源任务最优知识矩阵保存到知识库。

进一步地，Step4中，启发信息HE值由矩形零件排入最低水平线的情况决定：

(ⅰ)不能排入，HE＝0；

(ⅱ)可排入无对齐，HE＝1；

(ⅲ)可排入，只有一边对齐，HE＝2；

(ⅳ)可排入，两边对齐，HE＝3；

(ⅴ)可排入，三边对齐，HE＝4。

进一步地，在Step4中，知识矩阵局部更新方式如式(4)所示：

其中，s'是由当前状态s经动作a到达的下一状态，z是在状态s'时的最大AQ值对应的动作；

每个蚂蚁智能体在完成一次状态转移时，都会进行局部更新，逐渐减少行走路径上的AQ值，避免收敛到同一个路径。

进一步地，Step6中全局更新方法如下：

AQ(s,a)＝(1-α)AQ(s,a)+αR

其中，

其中，R表示此次迭代中，在状态s下选取动作a所获得的环境奖励值，且同一条路径上的不同知识对具有相同的环境奖励值。

进一步地，所述步骤(3)包括如下子步骤：

3.1：选取与目标任务中的矩形零件重叠率最高的两个源任务，并从知识库中获取这两个源任务对应的最优知识矩阵，矩形重叠率如式(6)所示：

其中，n_Sd表示源任务S_d与目标任务中矩形零件重叠的数目，矩形重叠率值越大，两个任务的相似程度越大；n为目标任务中的矩形零件总数；

3.2：将两个源任务与目标任务的矩形零件重叠率Ω₁和Ω₂归一化处理，得到迁移贡献系数λ₁、λ₂，且λ₁+λ₂＝1；

3.3：将目标任务的知识矩阵中的元素值初始化为

3.4：当至少一个源任务的最优知识矩阵存在目标任务需要的知识对(s,a)时，将该需要的知识对(s,a)线性组合迁移至目标任务的知识矩阵，如式(7)所示：

其中，分别为目标任务、源任务S₁、S₂中的知识对(s,a)的AQ值，s,a＝1,2,...,n且s≠a；

若两个源任务的最优知识矩阵都不存在目标任务需要的知识对时，目标任务继续保持初始值不进行迁移行为；

3.5：重复3.4，直至目标任务的所有知识对都完成迁移；

3.6：知识矩阵迁移完毕，转入步骤(4)。

进一步地，所述步骤(5)还包括将目标任务作为新的源任务，并将目标任务的最优知识矩阵加入到知识库。

为了实现上述目的，按照本发明的另一个方面，提供了一种基于知识迁移的矩形智能排样***，其特征在于，包括：处理器、预学习程序模块、知识库和迁移学习程序模块；

所述预学习程序模块在被所述处理器调用时实现如权利要求1～8任意一项所述的步骤(1)～(2)；

所述知识库用于存储所述预学习程序模块输出的源任务最优知识矩阵；

所述迁移学习程序模块在被所述处理器调用时实现如权利要求1～8任意一项所述的步骤(3)～(5)。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，主要具备以下的技术优点：

1.蚁群强化学习算法可以将群智能算法的强搜索能力以及学习类算法的“探索”、“利用”特点结合起来，实现了排样空间的快速搜索以及知识的高效学习和利用；

2.针对大规模矩形排样问题常出现的“维数灾难”问题，提出基于知识延伸的高维空间合并方法，即，将排样知识简化为状态s与动作a的组合得到知识对(s,a)，从而能够将排样知识存储到一个二维矩阵中，依靠此矩阵完成排样知识的更新与利用，降低了求解难度，且减少了计算时间；

3.将知识迁移引入到矩形排样中，并提出线性迁移方法，将源任务已学习的知识经验迁移给相似的目标任务，作为目标任务的初始知识矩阵，再对目标任务进行蚁群学习算法计算，从而减少目标任务在线学习的盲目性，大大提高计算效率；

4.本发明通过排样知识的构建、学习、迁移和利用，能够进一步提高排样的质量和效率，从而实现大中规模矩形优化排样问题的快速有效求解。

附图说明

图1是本发明优选实施例的一种基于知识迁移的矩形智能排样方法流程图；

图2是本发明优选实施例的基于知识延伸的高维空间合并方法示意图；

图3是本发明优选实施例的知识迁移过程示意图；

图4(a)～4(h)是本发明优选实施例的启发信息HE值评价规则示意图；

图5是本发明优选实施例的排样高度收敛曲线图；

图6(a)、6(b)是本发明一个应用实例的知识迁移前后对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为方便说明，先对本实施例中引入的如下符号作统一的如下表的说明：

表1符号对照表

表1中的经验值的具体取值，是本实施例提供的优选取值的示例。

由于源任务和目标任务都是求取最优矩形排样方案，因此可以共用如下目标函数和约束条件，区别仅在于源任务和目标任务中的具体参数取值值可能相同或不同。

(I)目标函数：

材料利用率最高：

将n个小矩形排放到宽为W、高度不限的矩形板材中，以排样完成后最高位置零件对应的水平线为板材最终使用高度H，矩形优化排样的目标使板材使用高度最小，即材料利用率最大。

(II)约束条件：

约束条件(2)保证了所有矩形零件排放后不超出板材边界和零件之间互不重叠。除此之外，本发明中假设矩形零件不旋转，即每个矩形零件的姿态已预先确定，且无“一刀切”工艺约束，即指每次切割板材时，不需要不间断的贯通板材两端。

如图1所示，本发明优选实施例的一种基于知识迁移的矩形智能排样方法，包括预学习阶段和迁移学习阶段，其中：

所述预学习阶段包括以下步骤：

(1)设可提供知识经验的任务为源任务，与其相似的新任务为目标任务。选取若干组待排样矩形零件作为源任务，得到多组源任务，并提取各源任务中的矩形零件以及矩形板材的信息；如表1，这些信息主要是矩形零件索引(编号)i、矩形零件总数n、矩形零件i的宽度w_i、矩形零件i的高度h_i、板材的宽度W。

(2)进行知识的预学习：构建步骤(1)的多组源任务各自的知识矩阵，该知识矩阵的元素为知识对，一个状态s与动作a的组合称为一个知识对(s,a)，即为知识矩阵中的一个元素。状态s表示蚂蚁智能体当前选择的矩形零件，动作a表示蚂蚁智能体下一个选择的矩形零件；

利用蚁群强化学习算法，以矩形板材使用高度最小为目标，所有矩形零件不超出矩形板材边界且矩形零件之间互不重叠为约束，求解步骤(1)的多组源任务各自的最优知识矩阵，并将各最优知识矩阵存储到知识库；每组源任务的最优知识矩阵即该组源任务达到最佳排样时所有矩形零件的定序信息；

所述迁移学习阶段包括以下步骤：

(3)进行知识矩阵的线性迁移：从知识库中提取出与待解决的目标任务最为相似的两组源任务各自对应的最优知识矩阵，将提取出的两组最优知识矩阵线性迁移给目标任务，得到目标任务的迁移知识矩阵；

(5)输出目标任务的最优排样方案。

按照本发明的方法获得所有矩形零件的定序信息之后，即可结合启发式方法如最低水平线法、BL算法、下台阶算法等，根据板材尺寸获得所有矩形零件的定位信息。本发明的优选实施例采用的是最低水平线法，启发信息HE值由矩形零件排入最低水平线的情况决定。

优选地，步骤(2)中，如图2所示，基于知识延伸的高维空间合并方法构建关于知识对(s,a)的知识矩阵的具体方法如下：

将AQ矩阵定义为迁移蚁群强化学习算法的知识矩阵，矩阵元素AQ(s,a)的值(简称AQ值)即为当前动作状态组合下的经验知识，表示矩形s与矩形a的联系紧密度。蚂蚁智能***于当前矩形零件即为状态s，蚂蚁智能体选择一个矩形零件即为执行一个动作a。假设任务有n个变量(即任务中共有n个矩形零件)，每个变量的可选动作集为A_i(i＝1,…,n)。将AQ矩阵划分为n个二维小矩阵AQⁱ(i＝1,…,n)，相邻变量间根据AQⁱ中储存的知识来联系。蚂蚁智能体在变量i处的动作即为蚂蚁智能体在变量i+1处的状态，由此形成基于知识的链式延伸，一个延伸就是一个知识对(s,a)。在蚁群算法中，蚂蚁智能体有记忆功能，对于矩形排样等组合优化问题，每个变量的“状态”和“动作”都是从动态待排集合中选择，因此每个小矩阵AQⁱ的状态集和动作集都相同。为了避免矩阵过于稀疏，将所有小矩阵的知识都集中到一个二维矩阵AQ^T中，即获得包含当前任务所有知识对的知识矩阵，依靠此知识矩阵完成所有步骤中知识的更新与利用。

优选地，在预学习阶段的步骤(2)和迁移学习阶段的步骤(4)中，均需要利用蚁群强化学习算法选择一种排样方案，步骤(2)(4)大体相同(不同之处直接在涉及的子步骤中说明)，包括以下子步骤：

Step1：初始化相关参数：α、γ、δ、β、ε₀、E_R、最大迭代次数k_max、蚂蚁智能体数量m；

Step2：初始化蚂蚁智能***置：生成m个蚂蚁智能体，并随机置于n个不同的矩形零件上(m<n)，完成第一级节点的选择；

Step3：初始化知识矩阵：利用基于知识延伸的高维空间合并方法，设置n×n大小的知识矩阵，在预学习阶段的步骤(2)中，知识矩阵元素全被初始化为AQ₀；在迁移学习阶段的步骤(4)中，初始知识矩阵由源任务的最优知识矩阵迁移而来；

Step4：一次迭代循环：所有蚂蚁智能体根据ε-greedy动作策略选择下一个访问的矩形零件，每选择一个矩形零件，蚂蚁智能体k需将此矩形零件放入禁忌列表tabu_k中(k＝1,2,…,m)，并对路径中相应“知识对”进行局部更新，每一步动作均避开tabu_k中的矩形零件，重复上述动作和知识更新过程直至访问完所有矩形零件；

Step5：一次迭代结束后，用最低水平线法对排样序列解码，计算本次迭代最优解，如果优于当前的最好解，则用其替换当前的最好解；

Step6：获得最好解的蚂蚁智能体会获得环境奖励，对其行走路径的知识进行全局更新，同时迭代次数自加1(即进行下一次迭代)；

Step7：循环Step4、Step5和Step6直至知识矩阵收敛或达到最大迭代次数k_max，输出最好解对应的矩形排样方案，并将源任务最优知识矩阵保存到知识库，结束。

作为进一步的优选，在上述步骤中：

①在Step3中，矩阵元素初始值设置为AQ₀＝(nh_nn)^-1，其中h_nn是由最近邻域产生的一个板材高度。

②在Step4中，ε-greedy动作策略为式(3)所示：

其中，

当随机值ε≤ε₀时，智能体受启发信息和知识矩阵中知识的指导来选择下一个待访问的矩形；当ε≥ε₀时，智能体利用伪随机轮盘赌进行概率探索。

本实施例的启发信息HE值由矩形零件排入最低水平线的情况决定，如图4的(a)～(h)所示情况：

(ⅰ)不能排入，如图(a)，HE＝0；

(ⅱ)可排入无对齐，如图(b)，HE＝1；图(b)给出了三种可排入无对齐的矩形零件高度情况示例；

(ⅲ)可排入，只有一边对齐，如图(c)、(d)、(e)，HE＝2；图(e)给出了三种可排入但只有一边对齐的矩形零件高度情况示例；

(ⅳ)可排入，两边对齐，如图(f)、(g)，HE＝3；

(ⅴ)可排入，三边对齐，如图(h)，HE＝4。

③在Step4中，知识矩阵局部更新方式如式(4)所示：

④在Step6中，知识矩阵全局更新方式如式(5)所示：

AQ(s,a)＝(1-α)AQ(s,a)+αR

其中，R表示此次迭代中，在状态s下选取动作a所获得的环境奖励值，且同一条路径上不同知识对(s，a)具有相同的奖励值，蚂蚁智能体在反复试错中对优秀解的知识做奖励增强，便于依靠知识收敛到最优解，找到最优排样结果。

优选地，在知识迁移阶段的步骤(3)，如图3所示，具体包括以下子步骤：

3.1：选取与目标任务矩形重叠率最高的两个源任务，并从知识库中获取两者的最优知识矩阵；

3.2：将两个源任务与目标任务的矩形重叠率Ω₁和Ω₂归一化处理，得到迁移贡献系数λ₁、λ₂，且λ₁+λ₂＝1；

3.3：将目标任务中知识矩阵元素值初始化为

3.4：当源任务存在目标任务需要的“知识对”时，进行线性组合迁移，若源任务都不存在相应的“知识对”时，目标任务继续保持初始值不进行迁移行为；

3.5：重复3.4，直至目标任务的所有“知识对”都完成迁移；

3.6：知识矩阵迁移完毕，目标任务在步骤(4)中以此为指导进行在线高效地学习。

作为进一步地优选，在上述步骤中：

①3.1和3.2中的矩形重叠率如式(6)所示：

其中，n_Sd表示源任务S_d与目标任务中矩形零件重叠的数目，矩形重叠率值越大，两个任务的相似程度越大，若选取的源任务有d_max个，则d＝1、2、...、d_max，本实施例为双源任务即d_max＝2，故d＝1、2。

②3.1和3.2中，λ_d＝xΩ_d，x为归一化系数，且：

本实施例为双源任务即d_max＝2，故λ₁+λ₂＝1。

③3.4中，对于本实施例的双源任务，线性组合迁移法如式(7)所示：

其中，分别为目标任务、源任务S₁、源任务S₂中知识对(s,a)的AQ值。

对于多源任务，则有：

下面结合一个应用实例对本发明的方法进行进一步说明：

采用本发明的方法对矩形零件进行优化排样，在各项数据准备充足的情况下，采用如图1所示的一种基于知识迁移的矩形优化排样智能方法流程，步骤如下：

(1)本实例中源任务和目标任务均从国际标准算例nice5中的500个矩形零件中随机选取375个零件进行优化排样，现由***随机生成3个源任务S₁、S₂、S₃和目标任务T，S₁、S₂、S₃与T的矩形重叠率分别为80％、73％、67％。选取重叠率较高的S₁、S₂形成迁移组KTS₁₂，取重叠率较低的S₃和S₂形成迁移组KTS₂₃。

为更好的体现知识迁移效果，现将基于知识迁移的方法和无迁移、单源迁移KTS₁的方法做对比，本实例中各参数设置情况如表2所示：

表2参数设置

矩形优化排样方法步骤如下：

(2)使用蚁群强化学习算法求解源任务S₁、S₂和S₃，并将解得的3个最优知识矩阵保存到知识库。

(3)分别对迁移组KTS₁₂和KTS₂₃中源任务目标任务的矩形重叠率做归一化处理，得贡献系数。利用线性迁移方法对源任务知识进行迁移。

(4)目标任务以迁移矩阵为初始知识，利用蚁群强化学习算法进行快速在线学习。

(5)得无迁移、单源迁移和本发明提出的双源迁移排样高度收敛曲线如图5所示，知识迁移与无迁移最优排样方案对比如图6所示。

由图5可以看出：

(1)无论是单源还是双源迁移，其收敛速度与结果明显优于无迁移算法，证明了知识迁移的有效性。这是由于无迁移算法时目标任务缺乏经验知识，只得在与环境不断地交互中为自己积累经验，因此排样寻优效果较差。

(2)虽然在迭代初期，单源迁移KTS₁的收敛速度快于双源迁移KTS₂₃，但在收敛阶段，KTS₂₃结果优于KTS₁，综合考虑，双源迁移性能优于单源迁移性能。

此外，三源等多源迁移设计能够为目标任务的在线学习提供更全面有效的知识，但为了减少无用知识的干扰，降低迁移难度，通常两源知识足以为目标任务的优化提供充足的经验。在选择迁移的知识时，要选择更有迁移价值的两个源任务，以便于获得较优的迁移结果。

知识迁移前后效果如图6(a)、6(b)所示，深色部分表示板材中没有被利用的空洞。可以看出采用迁移组KTS₁₂进行知识迁移后，空洞部分明显减少，板材使用高度由776降低到765，提高了板材利用率，也证明了本文提出矩形优化排样智能优化方法的有效性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识迁移的矩形智能排样方法，其特征在于，包括预学习阶段和迁移学习阶段，其中：

所述预学习阶段包括以下步骤：

所述迁移学习阶段包括以下步骤：

(5)输出目标任务的最优排样方案。

2.如权利要求1所述的一种基于知识迁移的矩形智能排样方法，其特征在于，步骤(2)及步骤(4)的目标函数及约束条件如下：

目标函数：

约束条件：

3.如权利要求1或2所述的一种基于知识迁移的矩形智能排样方法，其特征在于，步骤(2)和步骤(4)中的蚁群强化学习算法如下：

其中，

4.如权利要求3所述的一种基于知识迁移的矩形智能排样方法，其特征在于，Step4中，启发信息HE值由矩形零件排入最低水平线的情况决定：

(ⅰ)不能排入，HE＝0；

(ⅱ)可排入无对齐，HE＝1；

(ⅲ)可排入，只有一边对齐，HE＝2；

(ⅳ)可排入，两边对齐，HE＝3；

(ⅴ)可排入，三边对齐，HE＝4。

5.如权利要求3所述的一种基于知识迁移的矩形智能排样方法，其特征在于，在Step4中，知识矩阵局部更新方式如式(4)所示：

6.如权利要求3所述的一种基于知识迁移的矩形智能排样方法，其特征在于，Step6中全局更新方法如下：

AQ(s,a)＝(1-α)AQ(s,a)+αR

其中，

7.如权利要求1或2所述的一种基于知识迁移的矩形智能排样方法，其特征在于，所述步骤(3)包括如下子步骤：

3.3：将目标任务的知识矩阵中的元素值初始化为

3.5：重复3.4，直至目标任务的所有知识对都完成迁移；

3.6：知识矩阵迁移完毕，转入步骤(4)。

8.如权利要求1或2所述的一种基于知识迁移的矩形智能排样方法，其特征在于，所述步骤(5)还包括将目标任务作为新的源任务，并将目标任务的最优知识矩阵加入到知识库。

9.一种基于知识迁移的矩形智能排样***，其特征在于，包括：处理器、预学习程序模块、知识库和迁移学习程序模块；