CN111191712B - 基于梯度提升决策树的印染定型机能耗分类预测方法 - Google Patents
基于梯度提升决策树的印染定型机能耗分类预测方法 Download PDFInfo
- Publication number
- CN111191712B CN111191712B CN201911375572.7A CN201911375572A CN111191712B CN 111191712 B CN111191712 B CN 111191712B CN 201911375572 A CN201911375572 A CN 201911375572A CN 111191712 B CN111191712 B CN 111191712B
- Authority
- CN
- China
- Prior art keywords
- energy consumption
- data
- setting machine
- printing
- dyeing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 158
- 238000007639 printing Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004043 dyeing Methods 0.000 title claims abstract description 58
- 238000003066 decision tree Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000007789 gas Substances 0.000 claims description 38
- 238000007493 shaping process Methods 0.000 claims description 36
- 238000004519 manufacturing process Methods 0.000 claims description 22
- 239000004744 fabric Substances 0.000 claims description 15
- 238000001035 drying Methods 0.000 claims description 11
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 10
- 239000003245 coal Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 239000002737 fuel gas Substances 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000013145 classification model Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004513 sizing Methods 0.000 description 3
- 239000011324 bead Substances 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005242 forging Methods 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000003462 vein Anatomy 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009998 heat setting Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000008399 tap water Substances 0.000 description 1
- 235000020679 tap water Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Manufacturing & Machinery (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Coloring (AREA)
- Treatment Of Fiber Materials (AREA)
Abstract
一种基于梯度提升决策树的印染定型机能耗分类预测方法,包括以下步骤:步骤1、采集印染订单、定型机的工艺参数和能耗等数据表;步骤2、对各数据表进行整理和数据预处理,得到预处理后的特征数据集;步骤3、构建定型机综合能耗模型,使用定型机综合能耗模型产生定型机能耗类别的预测值,结合能耗类别对预处理后的特征数据集进行选择,得到训练特征数据集;步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练,得到印染定型机能耗类别预测模型;步骤5、生成待预测印染订单的特征数据,使用预测模型进行预测,得到定型机能耗类别。本发明使用梯度提升决策树算法预测印染定型机的能耗类别,具有较高的准确性。
Description
技术领域
本发明涉及到一种基于梯度提升决策树的印染定型机能耗分类预测方法。
技术背景
热定型过程位于印染工艺流程中的后处理工段,主要完成织物的拉幅定型处理。定型过程能耗巨大,约占印染企业总能耗的二分之一,主要由导热油加热的燃气能耗以及导热风机消耗的电能等组成。
目前,印染行业一般采用优化工艺流程、车间调度、更新设备等措施实现一定程度上的节能减排,但效果较为局限。随着大数据和物联网技术的发展,通过机器学习算法建立预测模型对工艺参数和能耗数据进行分析,帮助印染企业预测其未来生产过程中定型机的能耗情况,从而实现更好的节能效果。
发明内容
为了克服现有的印染工艺流程优化、车间调度在定型机节能耗优化方面的局限性,本发明使用印染企业提供的订单数据、定型机生产的工艺参数数据以及定型机生产的能耗数据,经过数据预处理后使用梯度提升决策树算法预测印染企业未来生产过程中定型机的能耗使用情况,具有较高的准确性。
为了解决上述技术问题,本发明所采用的技术方案是:
一种基于梯度提升决策树的印染定型机能耗分类预测方法,所述印染定型机能耗分类预测方法包括以下步骤:
步骤1、采集印染订单、定型机生产的工艺参数、定型机生产的能耗数据表;
步骤2、对各数据表进行整理,使用去除唯一属性、处理缺失值、特征编码、数据合并方法进行数据预处理,得到预处理后的特征数据集;
所述数据预处理的处理过程为:
(2.1)对唯一属性的处理:唯一属性是id属性,这些属性并不能刻画样本自身的分布规律,所以删除这些属性即可;
(2.2)对缺失数据的处理:如果印染订单的特征数据60%以上缺失,即特征值为空,则将该订单记录删除;否则,将数值型的缺失特征值使用平均值填补;
(2.3)对类别数据进行特征编码:如果数据表中包含类别数据,则对该特征值数据进行编码,将特征值映射为类别编码;
(2.4)以印染定型机工艺参数表为基础进行数据合并,对每条数据样本的多个相似特征求平均值,以平均值代替多个相似特征,并将其他数据表中关联度较高的特征合并;
(2.5)对筛选出来的所有特征按订单号分组合并,得到预处理后的特征数据集;
步骤3、构建定型机综合能耗模型,使用定型机综合能耗模型产生定型机能耗类别的预测值,结合能耗类别对预处理后的特征数据集进行选择,得到训练特征数据集;
步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练,得到印染定型机能耗类别预测模型;
步骤5、生成待预测印染订单的特征数据,使用预测模型进行预测,得到定型机能耗类别。
再进一步,所述步骤1中,所述的印染订单、定型机生产的工艺参数、定型机生产的能耗数据表包括:
印染订单数据、定型机的工艺参数、定型机的能耗数据;
其中印染订单数据包括订单的号、计划生产编号、计划生产日期、客户姓名、布料名称、颜色号、颜色代码、颜色名称、批号、米数和备注信息;定型机的工艺参数包括订单号、流程开始时间、流程结束时间、温度、湿度、压力、车速和转速信息;定型机的能耗数据包括订单号、用水量、燃气和耗电量信息。
所述步骤3中,定型机综合能耗模型的构建过程为:
①从印染样本数据中抽取能耗数据:耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M;
②通过单位产量能耗公式计算产品单位产量能耗,其中/> Pq为企业综合能耗,单位为千克标煤;Ei为生产活动中消耗的第i类能源实物量;Pi为第i类能源折算标煤系数。P为产品单位产量综合能耗,单位为千克标煤每百米;∑Ngh为各种合格品产量,单位为百米;
所述步骤3中,定型机能耗类别预测值产生的过程为:
计算得到所有数据样本的单位产量能耗P,Pmax表示单位产量能耗的最大值,Pmin表示单位产量能耗的最小值,令ΔP=Pmax-Pmin,单位产量能耗小于的能耗类别用1表示,代表能耗较低;单位产量能耗大于/>并且小于/>的能耗类别用2表示,代表能耗适中;单位产量能耗大于/>的能耗类别用4表示,表示能耗较高。
所述步骤3中特征数据集选择过程为:
对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于5%的特征;对于定序变量或不满足正态分布假设的等间隔数据,计算Spearman相关系数,筛选出相关系数大于5%的特征,两个变量的Pearson相关系数计算如下:
所述的Spearman相关系数被定义成等级变量之间的Pearson相关系数,原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。
所述步骤4中,定型机能耗类别预测模型的输入特征为:
xi,p={Cname,Tgas,Tenv,Pgas,Uf,Ue,Tp,Sc,Savg,Tavg}i∈{order}
其中,order为订单号,Cname表示布料名称,Tgas表示一号定型机燃气表温度、Tenv表示环境温度、Pgas表示一号定型机燃气表压力、Uf表示一号定型机前端湿度、Ue表示一号定型机尾端湿度、Tp表示流程耗时、Sc表示车速、Savg表示排风机平均转速、Tavg表示烘房平均温度。
所述步骤4中,所述定型机能耗类别梯度提升决策树分类模型为:
其中,Ptypei为第i个订单的定型机能耗类别预测值,T为回归数的数量,J为叶子节点的数量,P表示定型机能耗类别预测模型,fp1,0(xi,p)为定型机能耗类别预测初始化的回归树,fp1,t(xi,p)t∈{1,T}代表定型机能耗类别预测模型第t棵回归树,j∈{1,J}代表第j个叶子节点,cp1,t,j代表定型机能耗类别预测模型第t棵回归树的第j个叶子节点的残差值,Rp,t,j为定型机能耗类别预测模型第t棵回归树的第j个叶子节点,I(xi,p∈Rp,t,j)即xi,p属于定型机能耗类别预测模型第t棵回归树的第j个叶子节点时等于1,否则为0;
将xi,pi∈{order}依次输入定型机能耗类别预测模型回归树t训练回归树模型以拟合cp1,t,j:
最终将所有定型机能耗类别预测模型回归树模型以上述公式组合得到最终定型机能耗类别预测模型:
其中Cp1,t,j为cp1,t,j训练后最佳的值。
所述步骤5中,通过在印染订单数据表中查询与待预测印染订单的布料名称Cname相等的订单,取这些订单各个特征的平均值生成待预测印染订单的特征数据,包括一号定型机燃气表温度Tgas、一号定型机燃气表压力Pgas、一号定型机前端湿度Uf、一号定型机尾端湿度Ue、车速Sc、排风机平均转速Savg和烘房平均温度Tavg的特征值;环境温度Tenv则由天气预报预报的平均温度得到,流程耗时Tp根据生产量预估得到。
本发明的技术构思为:在印染厂提供的订单、定型机工艺参数以及定型机能耗数据的基础上,进行数据预处理、预测值生成和特征筛选,计算得出与决定能耗高低关联度高的特征,然后对特征和定型机能耗类别进行训练,生成预测模型,用于预测印染企业在未来一个月内订单在定型环节的能耗高低。
本发明的有益效果主要表现在:在对印染生产数据进行特征筛选时运用统计学中的相关系数排除一些无关特征;计算产品单位产量能耗代表综合能耗,作为预测值。在此基础上,使用梯度提升决策树来生成预测模型,提升预测的准确率。
附图说明
图1为本发明实现基于梯度提升决策树的印染定型机能耗分类预测方法的流程图。
图2为环境温度特征的节点***示意图。
图3为车速特征的节点***示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1~图3,一种基于梯度提升决策树的印染定型机能耗分类预测方法,根据印染企业提供的近几个月的订单、定型机工艺参数以及定型机能耗数据,预测印染企业在未来一个月内订单在定型环节的能耗情况。所述印染定型机能耗分类预测方法包括以下步骤:
步骤1、采集印染订单、定型机生产的工艺参数、定型机生产的能耗数据表;
以下为对各个数据表的描述:
表1为对印染企业订单基本信息的描述:
表1表2为对定型机生产的工艺参数数据的描述:
表2
表3为对定型机生产的能耗数据的描述:
表3
步骤2、对各数据表进行整理,使用去除唯一属性、处理缺失值、特征编码、数据合并等方法进行数据预处理,得到预处理后的特征数据集;
所述数据预处理的处理过程为:
(2.1)对唯一属性的处理:表4为订单基本信息数据表的一部分数据样本,可以看到,其中的属性订单号是唯一属性,故在数据整理合并之后将其删除;
(2.2)对缺失数据的处理:表4为订单基本信息数据表的一部分数据样本。可以看到,其中第三条样本数据除订单号、颜色号和批次以外其余均为空值的情况,该订单所有特征数据中缺失60%以上的信息,故将其删除;第十条数据样本中缺少了米数特征上的数值,此时可采用均值插补的方法处理缺失值,即米数为1598。
表4
(2.3)对类别数据进行特征编码:印染订单数据表中包含特征布料名称,总共有10种类型的布料:四面弹、绉花缎、香云纱、真丝缎、雪纺珠、弹力色丁提花、烂花绒、金伦纱、树纹锻、复合丝平纹,用数字对其进行特征编码,四面弹用1表示,绉花缎用2表示,香云纱用3表示,真丝缎用4表示,雪纺珠用5表示,弹力色丁提花用6表示,烂花绒用7表示,金伦纱用8表示,树纹锻用9表示,复合丝平纹用10表示;
(2.4)以定型机工艺参数数据表作为基础,在其上进行数据合并,根据12个循环风机的转速得到循环风机的平均转速,同理,求出3台排风机的平均转速以及11节烘箱的平均温度,将流程结束时间减去流程开始时间得到流程耗时,同时,根据订单号将订单基本信息、定型机工艺参数以及定型机能耗情况进行整合,至此得到的用于预测印染能耗分类的特征包括:一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、耗水量、流程耗时、车速、循环风机平均转速、排风机平均转速、烘房平均温度;
(2.5)对筛选出来的所有特征按订单号分组合并,得到预处理后的特征数据集,包含12个特征:布料名称、一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、耗水量、流程耗时、车速、循环风机平均转速、排风机平均转速、烘房平均温度;
步骤3、构建定型机综合能耗模型,使用定型机综合能耗模型产生定型机能耗类别的预测值,结合能耗类别对预处理后的特征数据集进行选择,得到训练特征数据集;
所述过程为:①构建定型机综合能耗模型,从印染样本数据中抽取能耗相关数据:耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M,如表5所示:
耗电量(E) | 燃气消耗量(G) | 耗水量(W) | 米数(M) |
131 | 79 | 26 | 2560 |
203 | 142 | 39 | 3780 |
98 | 66 | 20 | 1650 |
231 | 189 | 42 | 4087 |
284 | 238 | 69 | 7420 |
245 | 171 | 51 | 5241 |
… | … | … | … |
91 | 56 | 12 | 1420 |
145 | 98 | 33 | 3670 |
表5
②通过计算所有数据样本的单位产量能耗P,得到最大值Pmax=8.70以及最小值Pmin=5.38,得到ΔP=Pmax-Pmin=3.32,单位产量能耗小于6.49的能耗类别用1表示,代表能耗较低;单位产量能耗大于/> 并且小于/>的能耗类别用2,代表能耗适中;单位产量能耗大于/>的能耗类别用4表示,代表能耗较高;
对预处理后的特征数据进行选择:对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于5%的特征,排除耗水量和循环风机平均转速,至此得到的用于预测印染定型机能耗分类的10个特征包括布料名称、一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、流程耗时、车速、排风机平均转速、烘房平均温度,Pearson相关系数具体如表6所示。
布料名称 | 0.23 |
一号定型机燃气表温度 | 0.43 |
环境温度 | 0.06 |
一号定型机燃气表压力 | 0.08 |
一号定型机前端湿度 | 0.46 |
一号定型机尾端湿度 | 0.46 |
耗水量 | -0.003 |
流程耗时 | -0.65 |
车速 | 0.05 |
循环风机平均转速 | 0.01 |
排风机平均转速 | 0.16 |
烘房平均温度 | 0.07 |
表6
得到训练特征数据集如表7所示:
表7
步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练,得到印染定型机能耗类别预测模型;
对样本数据中每个定型机能耗类别分别训练一个分类回归树,即对定型机能耗较低类别训练一个分类回归树CART Tree 1,定型机能耗适中类别训练一个分类回归树CARTTree 2,定型机能耗较高类别训练一个分类回归树CART Tree 3,这三个树相互独立。样本数据中去掉作为预测值的定型机能耗类别属性,共有10个特征,即M=10,因此每一个分类回归树由10颗树组成;
所述的分类回归树的实现过程为:
①第一步从特征中选择环境温度特征,作为二叉树的第一个节点,即第一次选出的特征j为环境温度。
②然后对环境温度特征的值选择一个切分点,将环境特征的第一个特征值作为切分点,即m=26。一个样本的特征环境温度的值如果小于26,则归为左子树;如果大于等于26,则归为右子树。
③以上两步便构建了分类回归树的一个节点,其他节点的生成过程类似。
进一步,在每轮迭代的时候,选择特征j,以及选择特征j的切分点m的过程为:
①遍历样本数据中的每个特征,从布料名称一直遍历到烘房平均温度;
②对每个特征遍历它所有可能的切分点,即对于布料名称、一号定型机燃气表温度、环境温度、一号定型机燃气表压力、一号定型机前端湿度、一号定型机尾端湿度、流程耗时、车速、排风机平均转速、烘房平均温度这10个特征,遍历各特征上的所有特征值,找到最优特征m的最优切分点j,对于每个特征的特征值都做相同的遍历以找到每个节点的最优切分点。
再进一步,通过计算每个特征在各个特征值上的损失函数值,得到多个不同的损失函数值,取损失函数值最小的情况构造预测函数。
取各个特征值上的损失函数值最小的情况即为该特征的最优切分点。以样本1为例,对该步骤进行说明。针对分类回归树CART Tree 1的训练样本是[1,20,26,297,12.26,1.3,579,63,1035.7,178.4],定型机能耗类别是1,输入到模型当中的样本数据为[1,20,26,297,12.26,1.3,579,63,1035.7,178.4,1]。针对分类回归树CART Tree 2的训练样本也是[1,20,26,297,12.26,1.3,579,63,1035.7,178.4],但是定型机能耗类别为2,输入模型的样本数据为[1,20,26,297,12.26,1.3,579,63,1035.7,178.4,2]。针对分类回归树CARTTree 3的训练样本也是[1,20,26,297,12.26,1.3,579,63,1035.7,178.4],定型机能耗类别也为2,输入模型当中的数据样本为[1,20,26,297,12.26,1.3,579,63,1035.7,178.4,2]。
分类回归树的生成过程是从这10个特征中找一个特征作为分类回归树的节点,比如环境温度作为节点,1万个样本当中环境温度小于26的就是左子树,大于等于26的是右子树。遍历所有的可能值,找到一个特征和它对应的最优特征值让损失函数值最小,损失函数值计算公式如下:
以环境温度特征为例,考虑前6条样本数据,计算损失函数值。
首先考虑环境温度特征的第一个特征值26,R1为所有样本中环境温度小于26的样本集合,R2为所有样本中环境温度大于等于26的样本集合,即R1={3},R2={1,2,4,5,6}。y1为R1所有样本的定型机能耗类别的均值1/1=1。y2为R2所有样本的定型机能耗类别均值(0+0+0+0+1)/5=0.2。
由此,定型机能耗较低类型在环境温度特征的第一个特征值26的损失函数值可根据上述式子计算:(0-0.2)2+(0-0.2)2+(1-1)2+(0-0.2)2+(0-0.2)2+(1-0.2)2=0.8。
然后计算第二个特征值30的损失函数值,R1为所有样本中环境温度小于30的样本集合,R2为所有样本当中环境温度大于等于30的样本集合,即R1={1,3,5,6},R2={2,4}。y1为R1所有样本的定型机能耗类别的均值(0+1+0+1)/4=0.5。y2为R2所有样本的定型机能耗类别的均值(0+0)/2=0,可计算得到定型机能耗较低类别在第二个特征值30的损失函数值:(0-0.5)2+(0-0)2+(1-0.5)2+(0-0)2+(0-0.5)2+(1-0.5)2=1。
同理,遍历所有特征的所有特征值,找到使得损失函数值最小的特征以及其对应的特征值,共有60种情况。最后计算得到,损失函数值最小的特征是环境温度,特征值为26,损失函数值为0.8。
由此,根据环境温度特征值26构造预测函数如下:
此处R1={3},R2={1,2,4,5,6},y1=1,y2=0.2,即:
使用预测函数预测得到样本属于定型机能耗较低类别的预测值f1(x)=1+0.2*5=2,同理我们可以分别得到属于定型机能耗适中类别和定型机能耗较高的预测值f2(x),f3(x)。样本属于定型机能耗较低类别的概率即为:
步骤5、生成待预测印染订单的特征数据,使用预测模型进行预测,得到定型机能耗类别。通过在印染订单数据表中查询与待预测印染订单的布料名称Cname相等的订单,取这些订单各个特征的平均值生成待预测印染订单的特征数据,包括一号定型机燃气表温度Tgas、一号定型机燃气表压力Pgas、一号定型机前端湿度Uf、一号定型机尾端湿度Ue、车速Sc、排风机平均转速Savg和烘房平均温度Tavg的特征值;环境温度Tenv则由天气预报预报的平均温度得到,流程耗时Tp根据生产量预估得到。
表8为印染订单数据表中布料名称为2的订单在各个特征上的值。
表8
表9为未来一个月的天气预报温度。
表格9未来一个月天气预报
日期 | 最低气温(摄氏度) | 最高气温(摄氏度) | 平均温度(摄氏度) |
2019/12/1 | 8 | 17 | 14 |
2019/12/2 | 15 | 18 | 16 |
2019/12/3 | 13 | 16 | 14 |
2019/12/4 | 14 | 19 | 16 |
2019/12/5 | 16 | 23 | 19 |
2019/12/6 | 16 | 23 | 19 |
… | … | … | … |
表9
表10为部分待预测的印染订单数据在各个特征上的详细数据以及最终得到的预测结果。
表10
本技术领域中的普通技术人员应当认识到,以上内容仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上实例的变化、变型都将落在本发明的权利要求书范围内。
Claims (6)
1.一种基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于,所述印染定型机能耗分类预测方法包括以下步骤:
步骤1、采集印染订单、定型机生产的工艺参数、定型机生产的能耗数据表;
步骤2、对各数据表进行整理,使用去除唯一属性、处理缺失值、特征编码、数据合并方法进行数据预处理,得到预处理后的特征数据集;
所述数据预处理的处理过程为:
(2.1)对唯一属性的处理:唯一属性是id属性,这些属性并不能刻画样本自身的分布规律,所以删除这些属性即可;
(2.2)对缺失数据的处理:如果印染订单的特征数据60%以上缺失,即特征值为空,则将该订单记录删除;否则,将数值型的缺失特征值使用平均值填补;
(2.3)对类别数据进行特征编码:如果数据表中包含类别数据,则对该特征值数据进行编码,将特征值映射为类别编码;
(2.4)以印染定型机工艺参数表为基础进行数据合并,对每条数据样本的多个相似特征求平均值,以平均值代替多个相似特征,并将其他数据表中关联度较高的特征合并;
(2.5)对筛选出来的所有特征按订单号分组合并,得到预处理后的特征数据集;
步骤3、构建定型机综合能耗模型,使用定型机综合能耗模型产生定型机能耗类别的预测值,结合能耗类别对预处理后的特征数据集进行选择,得到训练特征数据集;
步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练,得到印染定型机能耗类别预测模型;
步骤5、生成待预测印染订单的特征数据,使用预测模型进行预测,得到定型机能耗类别。
2.根据权利要求1所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤1中,所述的印染订单、定型机生产的工艺参数、定型机生产的能耗数据表包括:
印染订单数据、定型机的工艺参数、定型机的能耗数据;
其中印染订单数据包括订单的号、计划生产编号、计划生产日期、客户姓名、布料名称、颜色号、颜色代码、颜色名称、批号、米数和备注信息;定型机的工艺参数包括订单号、流程开始时间、流程结束时间、温度、湿度、压力、车速和转速信息;定型机的能耗数据包括订单号、用水量、燃气和耗电量信息。
3.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤3中,定型机综合能耗模型的构建过程为:
①从印染样本数据中抽取能耗相关数据:耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M;
②通过综合单位产量能耗公式计算产品单位产量综合能耗,其中Pq为企业综合能耗,单位为千克标煤;Ei为生产活动中消耗的第i类能源实物量;Pi为第i类能源折算标煤系数,P为产品单位产量综合能耗,单位为千克标煤每百米;∑Ngh为各种合格品产量,单位为百米;
5.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤4中,定型机能耗类别预测模型的输入特征为:
xi,p={Cname,Tgas,Tenv,Pgas,Uf,Ue,Tp,Sc,Savg,Tavg}i∈{order}
其中,order为订单号,Cname表示布料名称,Tgas表示一号定型机燃气表温度、Tenv表示环境温度、Pgas表示一号定型机燃气表压力、Uf表示一号定型机前端湿度、Ue表示一号定型机尾端湿度、Tp表示流程耗时、Sc表示车速、Savg表示排风机平均转速、Tavg表示烘房平均温度;
步骤4中所述定型机能耗类别梯度提升决策树分类模型为:
其中,Ptypei为第i个订单的定型机能耗类别预测值,T为回归数的数量,J为叶子节点的数量,P表示定型机能耗类别预测模型,fp1,0(xi,p)为定型机能耗类别预测初始化的回归树,j∈{1,J}代表第j个叶子节点,cp1,t,j代表定型机能耗类别预测模型第t棵回归树的第j个叶子节点的残差值,Rp,t,j为定型机能耗类别预测模型第t棵回归树的第j个叶子节点,I(xi,p∈Rp,t,j)即xi,p属于定型机能耗类别预测模型第t棵回归树的第j个叶子节点时等于1,否则为0;
将xi,p i∈{order}依次输入定型机能耗类别预测模型回归树t训练回归树模型以拟合cp1,t,j:
最终将所有定型机能耗类别预测模型回归树模型以上述公式组合得到最终定型机能耗类别预测模型:
其中Cp1,t,j为cp1,t,j训练后最佳的值。
6.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤5中,通过在印染订单数据表中查询与待预测印染订单的布料名称Cname相等的订单,取这些订单各个特征的平均值生成待预测印染订单的特征数据,包括一号定型机燃气表温度Tgas、一号定型机燃气表压力Pgas、一号定型机前端湿度Uf、一号定型机尾端湿度Ue、车速Sc、排风机平均转速Savg和烘房平均温度Tavg的特征值;环境温度Tenv则由天气预报预报的平均温度得到,流程耗时Tp根据生产量预估得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911375572.7A CN111191712B (zh) | 2019-12-27 | 2019-12-27 | 基于梯度提升决策树的印染定型机能耗分类预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911375572.7A CN111191712B (zh) | 2019-12-27 | 2019-12-27 | 基于梯度提升决策树的印染定型机能耗分类预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191712A CN111191712A (zh) | 2020-05-22 |
CN111191712B true CN111191712B (zh) | 2023-06-30 |
Family
ID=70707681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911375572.7A Active CN111191712B (zh) | 2019-12-27 | 2019-12-27 | 基于梯度提升决策树的印染定型机能耗分类预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191712B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108873829B (zh) * | 2018-05-28 | 2020-09-15 | 上海新增鼎数据科技有限公司 | 一种基于梯度提升决策树的磷酸生产参数控制方法 |
CN111915089A (zh) * | 2020-08-07 | 2020-11-10 | 青岛洪锦智慧能源技术有限公司 | 一种污水处理厂泵组能耗的预测方法及其装置 |
CN113505818A (zh) * | 2021-06-17 | 2021-10-15 | 广东工业大学 | 改进决策树算法的熔铝炉能耗异常诊断方法和***及设备 |
CN116757451A (zh) * | 2023-08-17 | 2023-09-15 | 青岛海瑞达网络科技有限公司 | 基于智能分析技术的生产能源数据处理*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072083A (ja) * | 2016-10-26 | 2018-05-10 | 株式会社東芝 | 消費エネルギー予測装置及び消費エネルギー予測方法 |
CN109409426A (zh) * | 2018-10-23 | 2019-03-01 | 冶金自动化研究设计院 | 一种极值梯度提升逻辑回归分类预测方法 |
CN110245802A (zh) * | 2019-06-20 | 2019-09-17 | 杭州安脉盛智能技术有限公司 | 基于改进梯度提升决策树的卷烟空头率预测方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2543281A (en) * | 2015-10-13 | 2017-04-19 | British Gas Trading Ltd | System for energy consumption prediction |
-
2019
- 2019-12-27 CN CN201911375572.7A patent/CN111191712B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072083A (ja) * | 2016-10-26 | 2018-05-10 | 株式会社東芝 | 消費エネルギー予測装置及び消費エネルギー予測方法 |
CN109409426A (zh) * | 2018-10-23 | 2019-03-01 | 冶金自动化研究设计院 | 一种极值梯度提升逻辑回归分类预测方法 |
CN110245802A (zh) * | 2019-06-20 | 2019-09-17 | 杭州安脉盛智能技术有限公司 | 基于改进梯度提升决策树的卷烟空头率预测方法及*** |
Non-Patent Citations (3)
Title |
---|
Wang Ran等.Multi-criteria comprehensive study on predictive algorithm of hourly heating energy consumption for residential buildings.Sustainable Cities and Society.2019,第1页. * |
任佳 ; 苏宏业 ; .印染热定型机煤、电能耗建模及优化求解研究.仪器仪表学报.2013,(第03期),第582-587页. * |
王守相 ; 刘天宇 ; .计及用电模式的居民负荷梯度提升树分类识别方法.电力***及其自动化学报.2017,(第09期),第27-33页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111191712A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191712B (zh) | 基于梯度提升决策树的印染定型机能耗分类预测方法 | |
Yi et al. | Imbalanced classification based on minority clustering synthetic minority oversampling technique with wind turbine fault detection application | |
CN109461025B (zh) | 一种基于机器学习的电能替代潜在客户预测方法 | |
Hong et al. | Rapid identification of the optimal product configuration and its parameters based on customer-centric product modeling for one-of-a-kind production | |
CN107516135A (zh) | 一种支持多源数据的自动化监督性学习方法 | |
CN112181706B (zh) | 一种基于对数区间隔离的电力调度数据异常检测方法 | |
CN105550426A (zh) | 一种基于样本分割的多尺度二叉树高炉故障诊断方法 | |
CN110175235A (zh) | 基于神经网络的智能商品税分类编码方法及*** | |
CN111832839B (zh) | 基于充分增量学习的能耗预测方法 | |
CN117034179B (zh) | 基于图神经网络的异常电量识别及溯源方法及*** | |
CN111260138A (zh) | 加权和自适应并行关联规则的火电机组能耗动态优化方法 | |
Zhong et al. | Research on electricity consumption behavior of electric power users based on tag technology and clustering algorithm | |
CN112270615A (zh) | 基于语义计算的复杂装备制造bom智能分解方法 | |
CN114021483A (zh) | 基于时域特征与XGBoost的超短期风电功率预测方法 | |
CN110826237A (zh) | 基于贝叶斯信念网络的风电设备可靠性分析方法及装置 | |
CN115293400A (zh) | 一种电力***负荷预测方法及*** | |
CN114722947A (zh) | 一种基于近邻搜索分簇的电力调度监控数据异常检测方法 | |
CN117319452B (zh) | 应用于硫酸钡制备下的安全巡检方法及*** | |
Dalkani et al. | Modelling electricity consumption forecasting using the markov process and hybrid features selection | |
CN108846692B (zh) | 一种基于多因素循环神经网络的消费者消费行为预测方法 | |
CN112418987B (zh) | 交通运输单位信用评级方法、***、电子设备及存储介质 | |
CN101853444A (zh) | 基于模型合并的集成化企业过程参考模型建立方法 | |
CN111475988B (zh) | 基于梯度提升决策树和遗传算法的印染定型机能耗优化方法 | |
CN112306730B (zh) | 基于历史项目伪标签生成的缺陷报告严重程度预测方法 | |
CN111353523A (zh) | 一种对铁路客户进行分类的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |