CN111191712B

CN111191712B - 基于梯度提升决策树的印染定型机能耗分类预测方法

Info

Publication number: CN111191712B
Application number: CN201911375572.7A
Authority: CN
Inventors: 潘建; 奚家字; 赵焕东
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-06-30
Anticipated expiration: 2039-12-27
Also published as: CN111191712A

Abstract

一种基于梯度提升决策树的印染定型机能耗分类预测方法，包括以下步骤：步骤1、采集印染订单、定型机的工艺参数和能耗等数据表；步骤2、对各数据表进行整理和数据预处理，得到预处理后的特征数据集；步骤3、构建定型机综合能耗模型，使用定型机综合能耗模型产生定型机能耗类别的预测值，结合能耗类别对预处理后的特征数据集进行选择，得到训练特征数据集；步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练，得到印染定型机能耗类别预测模型；步骤5、生成待预测印染订单的特征数据，使用预测模型进行预测，得到定型机能耗类别。本发明使用梯度提升决策树算法预测印染定型机的能耗类别，具有较高的准确性。

Description

基于梯度提升决策树的印染定型机能耗分类预测方法

技术领域

本发明涉及到一种基于梯度提升决策树的印染定型机能耗分类预测方法。

技术背景

热定型过程位于印染工艺流程中的后处理工段,主要完成织物的拉幅定型处理。定型过程能耗巨大,约占印染企业总能耗的二分之一，主要由导热油加热的燃气能耗以及导热风机消耗的电能等组成。

目前，印染行业一般采用优化工艺流程、车间调度、更新设备等措施实现一定程度上的节能减排，但效果较为局限。随着大数据和物联网技术的发展，通过机器学习算法建立预测模型对工艺参数和能耗数据进行分析，帮助印染企业预测其未来生产过程中定型机的能耗情况，从而实现更好的节能效果。

发明内容

为了克服现有的印染工艺流程优化、车间调度在定型机节能耗优化方面的局限性，本发明使用印染企业提供的订单数据、定型机生产的工艺参数数据以及定型机生产的能耗数据，经过数据预处理后使用梯度提升决策树算法预测印染企业未来生产过程中定型机的能耗使用情况，具有较高的准确性。

为了解决上述技术问题，本发明所采用的技术方案是：

一种基于梯度提升决策树的印染定型机能耗分类预测方法，所述印染定型机能耗分类预测方法包括以下步骤：

步骤1、采集印染订单、定型机生产的工艺参数、定型机生产的能耗数据表；

步骤2、对各数据表进行整理，使用去除唯一属性、处理缺失值、特征编码、数据合并方法进行数据预处理，得到预处理后的特征数据集；

所述数据预处理的处理过程为：

(2.1)对唯一属性的处理：唯一属性是id属性，这些属性并不能刻画样本自身的分布规律，所以删除这些属性即可；

(2.2)对缺失数据的处理：如果印染订单的特征数据60％以上缺失，即特征值为空，则将该订单记录删除；否则，将数值型的缺失特征值使用平均值填补；

(2.3)对类别数据进行特征编码：如果数据表中包含类别数据，则对该特征值数据进行编码，将特征值映射为类别编码；

(2.4)以印染定型机工艺参数表为基础进行数据合并，对每条数据样本的多个相似特征求平均值，以平均值代替多个相似特征，并将其他数据表中关联度较高的特征合并；

(2.5)对筛选出来的所有特征按订单号分组合并，得到预处理后的特征数据集；

步骤3、构建定型机综合能耗模型，使用定型机综合能耗模型产生定型机能耗类别的预测值，结合能耗类别对预处理后的特征数据集进行选择，得到训练特征数据集；

步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练，得到印染定型机能耗类别预测模型；

步骤5、生成待预测印染订单的特征数据，使用预测模型进行预测，得到定型机能耗类别。

再进一步，所述步骤1中，所述的印染订单、定型机生产的工艺参数、定型机生产的能耗数据表包括：

印染订单数据、定型机的工艺参数、定型机的能耗数据；

其中印染订单数据包括订单的号、计划生产编号、计划生产日期、客户姓名、布料名称、颜色号、颜色代码、颜色名称、批号、米数和备注信息；定型机的工艺参数包括订单号、流程开始时间、流程结束时间、温度、湿度、压力、车速和转速信息；定型机的能耗数据包括订单号、用水量、燃气和耗电量信息。

所述步骤3中，定型机综合能耗模型的构建过程为：

①从印染样本数据中抽取能耗数据：耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M；

②通过单位产量能耗公式

计算产品单位产量能耗，其中/>

P_q为企业综合能耗，单位为千克标煤；E_i为生产活动中消耗的第i类能源实物量；P_i为第i类能源折算标煤系数。P为产品单位产量综合能耗，单位为千克标煤每百米；∑N_gh为各种合格品产量，单位为百米；

③即

得到产品单位产量能耗，用该数据代表订单综合能耗情况。

所述步骤3中，定型机能耗类别预测值产生的过程为：

计算得到所有数据样本的单位产量能耗P，P_max表示单位产量能耗的最大值，P_min表示单位产量能耗的最小值，令ΔP＝P_max-P_min，单位产量能耗小于

的能耗类别用1表示，代表能耗较低；单位产量能耗大于/>

并且小于/>

的能耗类别用2表示，代表能耗适中；单位产量能耗大于/>

的能耗类别用4表示，表示能耗较高。

所述步骤3中特征数据集选择过程为：

对于值为连续型变量的特征，计算Pearson相关系数，筛选出相关系数大于5％的特征；对于定序变量或不满足正态分布假设的等间隔数据，计算Spearman相关系数，筛选出相关系数大于5％的特征，两个变量的Pearson相关系数计算如下：

所述的Spearman相关系数被定义成等级变量之间的Pearson相关系数，原始数据依据其在总体数据中平均的降序位置，被分配了一个相应的等级。

所述步骤4中，定型机能耗类别预测模型的输入特征为：

x_i，p＝{C_name，T_gas，T_env，P_gas，U_f，U_e，T_p，S_c，S_avg，T_avg}i∈{order}

其中，order为订单号，C_name表示布料名称，T_gas表示一号定型机燃气表温度、T_env表示环境温度、P_gas表示一号定型机燃气表压力、U_f表示一号定型机前端湿度、U_e表示一号定型机尾端湿度、T_p表示流程耗时、S_c表示车速、S_avg表示排风机平均转速、T_avg表示烘房平均温度。

所述步骤4中，所述定型机能耗类别梯度提升决策树分类模型为：

其中，Ptype_i为第i个订单的定型机能耗类别预测值，T为回归数的数量，J为叶子节点的数量，P表示定型机能耗类别预测模型，f_p1，0(x_i，p)为定型机能耗类别预测初始化的回归树，f_p1，t(x_i，p)t∈{1，T}代表定型机能耗类别预测模型第t棵回归树，j∈{1，J}代表第j个叶子节点，c_p1，t，j代表定型机能耗类别预测模型第t棵回归树的第j个叶子节点的残差值，R_p，t，j为定型机能耗类别预测模型第t棵回归树的第j个叶子节点，I(x_i，p∈R_p，t，j)即x_i，p属于定型机能耗类别预测模型第t棵回归树的第j个叶子节点时等于1，否则为0；

将x_i，pi∈{order}依次输入定型机能耗类别预测模型回归树t训练回归树模型以拟合c_p1，t，j：

最终将所有定型机能耗类别预测模型回归树模型以上述公式组合得到最终定型机能耗类别预测模型：

其中C_p1，t，j为c_p1，t，j训练后最佳的值。

所述步骤5中，通过在印染订单数据表中查询与待预测印染订单的布料名称C_name相等的订单，取这些订单各个特征的平均值生成待预测印染订单的特征数据，包括一号定型机燃气表温度T_gas、一号定型机燃气表压力P_gas、一号定型机前端湿度U_f、一号定型机尾端湿度U_e、车速S_c、排风机平均转速S_avg和烘房平均温度T_avg的特征值；环境温度T_env则由天气预报预报的平均温度得到，流程耗时T_p根据生产量预估得到。

本发明的技术构思为：在印染厂提供的订单、定型机工艺参数以及定型机能耗数据的基础上，进行数据预处理、预测值生成和特征筛选，计算得出与决定能耗高低关联度高的特征，然后对特征和定型机能耗类别进行训练，生成预测模型，用于预测印染企业在未来一个月内订单在定型环节的能耗高低。

本发明的有益效果主要表现在：在对印染生产数据进行特征筛选时运用统计学中的相关系数排除一些无关特征；计算产品单位产量能耗代表综合能耗，作为预测值。在此基础上，使用梯度提升决策树来生成预测模型，提升预测的准确率。

附图说明

图1为本发明实现基于梯度提升决策树的印染定型机能耗分类预测方法的流程图。

图2为环境温度特征的节点***示意图。

图3为车速特征的节点***示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

参照图1～图3，一种基于梯度提升决策树的印染定型机能耗分类预测方法，根据印染企业提供的近几个月的订单、定型机工艺参数以及定型机能耗数据，预测印染企业在未来一个月内订单在定型环节的能耗情况。所述印染定型机能耗分类预测方法包括以下步骤：

以下为对各个数据表的描述：

表1为对印染企业订单基本信息的描述：

表1表2为对定型机生产的工艺参数数据的描述：

表2

表3为对定型机生产的能耗数据的描述：

表3

步骤2、对各数据表进行整理，使用去除唯一属性、处理缺失值、特征编码、数据合并等方法进行数据预处理，得到预处理后的特征数据集；

所述数据预处理的处理过程为：

(2.1)对唯一属性的处理：表4为订单基本信息数据表的一部分数据样本，可以看到，其中的属性订单号是唯一属性，故在数据整理合并之后将其删除；

(2.2)对缺失数据的处理：表4为订单基本信息数据表的一部分数据样本。可以看到，其中第三条样本数据除订单号、颜色号和批次以外其余均为空值的情况，该订单所有特征数据中缺失60％以上的信息，故将其删除；第十条数据样本中缺少了米数特征上的数值，此时可采用均值插补的方法处理缺失值，即米数为1598。

表4

(2.3)对类别数据进行特征编码：印染订单数据表中包含特征布料名称，总共有10种类型的布料：四面弹、绉花缎、香云纱、真丝缎、雪纺珠、弹力色丁提花、烂花绒、金伦纱、树纹锻、复合丝平纹，用数字对其进行特征编码，四面弹用1表示，绉花缎用2表示，香云纱用3表示，真丝缎用4表示，雪纺珠用5表示，弹力色丁提花用6表示，烂花绒用7表示，金伦纱用8表示，树纹锻用9表示，复合丝平纹用10表示；

(2.4)以定型机工艺参数数据表作为基础，在其上进行数据合并，根据12个循环风机的转速得到循环风机的平均转速，同理，求出3台排风机的平均转速以及11节烘箱的平均温度,将流程结束时间减去流程开始时间得到流程耗时，同时，根据订单号将订单基本信息、定型机工艺参数以及定型机能耗情况进行整合，至此得到的用于预测印染能耗分类的特征包括：一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、耗水量、流程耗时、车速、循环风机平均转速、排风机平均转速、烘房平均温度；

(2.5)对筛选出来的所有特征按订单号分组合并，得到预处理后的特征数据集，包含12个特征：布料名称、一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、耗水量、流程耗时、车速、循环风机平均转速、排风机平均转速、烘房平均温度；

所述过程为：①构建定型机综合能耗模型，从印染样本数据中抽取能耗相关数据：耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M，如表5所示：

耗电量(E)	燃气消耗量(G)	耗水量(W)	米数(M)
				131	79	26	2560
203	142	39	3780
				98	66	20	1650
231	189	42	4087
				284	238	69	7420
245	171	51	5241
				…	…	…	…
91	56	12	1420
				145	98	33	3670

表5

1立方米天然气折算标煤系数为1.33，即P_G为1.33；1度电的折算标煤系数为0.404，即P_E为0.404；1立方米自来水的折算标煤系数为0.086。即单位产量能耗

用该数据代表定型机综合能耗情况；

②通过计算所有数据样本的单位产量能耗P，得到最大值P_max＝8.70以及最小值P_min＝5.38，得到ΔP＝P_max-P_min＝3.32，单位产量能耗小于

6.49的能耗类别用1表示，代表能耗较低；单位产量能耗大于/>

并且小于/>

的能耗类别用2，代表能耗适中；单位产量能耗大于/>

的能耗类别用4表示，代表能耗较高；

对预处理后的特征数据进行选择：对于值为连续型变量的特征，计算Pearson相关系数，筛选出相关系数大于5％的特征，排除耗水量和循环风机平均转速，至此得到的用于预测印染定型机能耗分类的10个特征包括布料名称、一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、流程耗时、车速、排风机平均转速、烘房平均温度，Pearson相关系数具体如表6所示。

布料名称	0.23
		一号定型机燃气表温度	0.43
环境温度	0.06
		一号定型机燃气表压力	0.08
一号定型机前端湿度	0.46
		一号定型机尾端湿度	0.46
耗水量	-0.003
		流程耗时	-0.65
车速	0.05
		循环风机平均转速	0.01
排风机平均转速	0.16
		烘房平均温度	0.07

表6

得到训练特征数据集如表7所示：

表7

对样本数据中每个定型机能耗类别分别训练一个分类回归树，即对定型机能耗较低类别训练一个分类回归树CART Tree 1，定型机能耗适中类别训练一个分类回归树CARTTree 2，定型机能耗较高类别训练一个分类回归树CART Tree 3，这三个树相互独立。样本数据中去掉作为预测值的定型机能耗类别属性，共有10个特征，即M＝10，因此每一个分类回归树由10颗树组成；

所述的分类回归树的实现过程为：

①第一步从特征中选择环境温度特征，作为二叉树的第一个节点，即第一次选出的特征j为环境温度。

②然后对环境温度特征的值选择一个切分点，将环境特征的第一个特征值作为切分点，即m＝26。一个样本的特征环境温度的值如果小于26，则归为左子树；如果大于等于26,则归为右子树。

③以上两步便构建了分类回归树的一个节点，其他节点的生成过程类似。

进一步，在每轮迭代的时候，选择特征j，以及选择特征j的切分点m的过程为:

①遍历样本数据中的每个特征，从布料名称一直遍历到烘房平均温度；

②对每个特征遍历它所有可能的切分点，即对于布料名称、一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、流程耗时、车速、排风机平均转速、烘房平均温度这10个特征，遍历各特征上的所有特征值，找到最优特征m的最优切分点j，对于每个特征的特征值都做相同的遍历以找到每个节点的最优切分点。

再进一步，通过计算每个特征在各个特征值上的损失函数值，得到多个不同的损失函数值，取损失函数值最小的情况构造预测函数。

取各个特征值上的损失函数值最小的情况即为该特征的最优切分点。以样本1为例，对该步骤进行说明。针对分类回归树CART Tree 1的训练样本是[1,20,26,297,12.26,1.3,579,63,1035.7,178.4]，定型机能耗类别是1，输入到模型当中的样本数据为[1,20,26,297,12.26,1.3,579,63,1035.7,178.4,1]。针对分类回归树CART Tree 2的训练样本也是[1,20,26,297,12.26,1.3,579,63,1035.7,178.4]，但是定型机能耗类别为2，输入模型的样本数据为[1,20,26,297,12.26,1.3,579,63,1035.7,178.4,2]。针对分类回归树CARTTree 3的训练样本也是[1,20,26,297,12.26,1.3,579,63,1035.7,178.4]，定型机能耗类别也为2,输入模型当中的数据样本为[1,20,26,297,12.26,1.3,579,63,1035.7,178.4,2]。

分类回归树的生成过程是从这10个特征中找一个特征作为分类回归树的节点，比如环境温度作为节点，1万个样本当中环境温度小于26的就是左子树，大于等于26的是右子树。遍历所有的可能值，找到一个特征和它对应的最优特征值让损失函数值最小，损失函数值计算公式如下：

以环境温度特征为例，考虑前6条样本数据，计算损失函数值。

首先考虑环境温度特征的第一个特征值26，R₁为所有样本中环境温度小于26的样本集合，R₂为所有样本中环境温度大于等于26的样本集合，即R₁＝{3}，R₂＝{1,2,4,5,6}。y₁为R₁所有样本的定型机能耗类别的均值1/1＝1。y₂为R₂所有样本的定型机能耗类别均值(0+0+0+0+1)/5＝0.2。

由此，定型机能耗较低类型在环境温度特征的第一个特征值26的损失函数值可根据上述式子计算：(0-0.2)²+(0-0.2)²+(1-1)²+(0-0.2)²+(0-0.2)²+(1-0.2)²＝0.8。

然后计算第二个特征值30的损失函数值，R₁为所有样本中环境温度小于30的样本集合，R₂为所有样本当中环境温度大于等于30的样本集合，即R₁＝{1，3，5，6}，R₂＝{2,4}。y₁为R₁所有样本的定型机能耗类别的均值(0+1+0+1)/4＝0.5。y₂为R₂所有样本的定型机能耗类别的均值(0+0)/2＝0，可计算得到定型机能耗较低类别在第二个特征值30的损失函数值：(0-0.5)²+(0-0)²+(1-0.5)²+(0-0)²+(0-0.5)²+(1-0.5)²＝1。

同理，遍历所有特征的所有特征值，找到使得损失函数值最小的特征以及其对应的特征值，共有60种情况。最后计算得到，损失函数值最小的特征是环境温度，特征值为26，损失函数值为0.8。

由此，根据环境温度特征值26构造预测函数如下：

此处R₁＝{3}，R₂＝{1,2,4,5,6}，y₁＝1，y₂＝0.2，即：

使用预测函数预测得到样本属于定型机能耗较低类别的预测值f₁(x)＝1+0.2*5＝2，同理我们可以分别得到属于定型机能耗适中类别和定型机能耗较高的预测值f_2(x)，f_3(x)。样本属于定型机能耗较低类别的概率即为：

步骤5、生成待预测印染订单的特征数据，使用预测模型进行预测，得到定型机能耗类别。通过在印染订单数据表中查询与待预测印染订单的布料名称C_name相等的订单，取这些订单各个特征的平均值生成待预测印染订单的特征数据，包括一号定型机燃气表温度T_gas、一号定型机燃气表压力P_gas、一号定型机前端湿度U_f、一号定型机尾端湿度U_e、车速S_c、排风机平均转速S_avg和烘房平均温度T_avg的特征值；环境温度T_env则由天气预报预报的平均温度得到，流程耗时T_p根据生产量预估得到。

表8为印染订单数据表中布料名称为2的订单在各个特征上的值。

表8

表9为未来一个月的天气预报温度。

表格9未来一个月天气预报

日期	最低气温(摄氏度)	最高气温(摄氏度)	平均温度(摄氏度)
				2019/12/1	8	17	14
2019/12/2	15	18	16
				2019/12/3	13	16	14
2019/12/4	14	19	16
				2019/12/5	16	23	19
2019/12/6	16	23	19
				…	…	…	…

表9

表10为部分待预测的印染订单数据在各个特征上的详细数据以及最终得到的预测结果。

表10

本技术领域中的普通技术人员应当认识到，以上内容仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上实例的变化、变型都将落在本发明的权利要求书范围内。

Claims

1.一种基于梯度提升决策树的印染定型机能耗分类预测方法，其特征在于，所述印染定型机能耗分类预测方法包括以下步骤：

所述数据预处理的处理过程为：

2.根据权利要求1所述基于梯度提升决策树的印染定型机能耗分类预测方法，其特征在于：所述步骤1中，所述的印染订单、定型机生产的工艺参数、定型机生产的能耗数据表包括：

印染订单数据、定型机的工艺参数、定型机的能耗数据；

3.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法，其特征在于：所述步骤3中，定型机综合能耗模型的构建过程为：

①从印染样本数据中抽取能耗相关数据：耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M；

②通过综合单位产量能耗公式

计算产品单位产量综合能耗，其中

P_q为企业综合能耗，单位为千克标煤；E_i为生产活动中消耗的第i类能源实物量；P_i为第i类能源折算标煤系数，P为产品单位产量综合能耗，单位为千克标煤每百米；∑N_gh为各种合格品产量，单位为百米；

③即

得到单位产量能耗，用该数据代表综合能耗情况；

步骤3中，定型机能耗类别预测值产生的过程为：计算得到所有数据样本的单位产量能耗P，P_max表示单位产量能耗的最大值，P_min表示单位产量能耗的最小值，令ΔP＝P_max-P_min，单位产量能耗大于

并且小于/>

的能耗类别用2表示，代表能耗适中；单位产量能耗大于/>

的能耗类别用4表示，表示能耗较高。

4.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法，其特征在于：所述步骤3中，预处理后的特征数据集选择过程为：

5.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法，其特征在于：所述步骤4中，定型机能耗类别预测模型的输入特征为：

x_i,p＝{C_name,T_gas,T_env,P_gas,U_f,U_e,T_p,S_c,S_avg,T_avg}i∈{order}

其中，order为订单号，C_name表示布料名称，T_gas表示一号定型机燃气表温度、T_env表示环境温度、P_gas表示一号定型机燃气表压力、U_f表示一号定型机前端湿度、U_e表示一号定型机尾端湿度、T_p表示流程耗时、S_c表示车速、S_avg表示排风机平均转速、T_avg表示烘房平均温度；

步骤4中所述定型机能耗类别梯度提升决策树分类模型为：

其中，Ptype_i为第i个订单的定型机能耗类别预测值，T为回归数的数量，J为叶子节点的数量，P表示定型机能耗类别预测模型，f_p1,0(x_i,p)为定型机能耗类别预测初始化的回归树，j∈{1,J}代表第j个叶子节点，c_p1,t,j代表定型机能耗类别预测模型第t棵回归树的第j个叶子节点的残差值，R_p,t,j为定型机能耗类别预测模型第t棵回归树的第j个叶子节点，I(x_i,p∈R_p,t,j)即x_i,p属于定型机能耗类别预测模型第t棵回归树的第j个叶子节点时等于1，否则为0；

将x_i,p i∈{order}依次输入定型机能耗类别预测模型回归树t训练回归树模型以拟合c_p1,t,j：

其中C_p1,t,j为c_p1,t,j训练后最佳的值。

6.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法，其特征在于：所述步骤5中，通过在印染订单数据表中查询与待预测印染订单的布料名称C_name相等的订单，取这些订单各个特征的平均值生成待预测印染订单的特征数据，包括一号定型机燃气表温度T_gas、一号定型机燃气表压力P_gas、一号定型机前端湿度U_f、一号定型机尾端湿度U_e、车速S_c、排风机平均转速S_avg和烘房平均温度T_avg的特征值；环境温度T_env则由天气预报预报的平均温度得到，流程耗时T_p根据生产量预估得到。