CN112686296A - 一种基于粒子群优化随机森林参数的辛烷损失值预测方法 - Google Patents
一种基于粒子群优化随机森林参数的辛烷损失值预测方法 Download PDFInfo
- Publication number
- CN112686296A CN112686296A CN202011587477.6A CN202011587477A CN112686296A CN 112686296 A CN112686296 A CN 112686296A CN 202011587477 A CN202011587477 A CN 202011587477A CN 112686296 A CN112686296 A CN 112686296A
- Authority
- CN
- China
- Prior art keywords
- random forest
- data
- particle swarm
- value
- particle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002245 particle Substances 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 59
- TVMXDCGIABBOFY-UHFFFAOYSA-N octane Chemical compound CCCCCCCC TVMXDCGIABBOFY-UHFFFAOYSA-N 0.000 title claims abstract description 58
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 55
- 238000005457 optimization Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 58
- 238000012360 testing method Methods 0.000 claims abstract description 41
- 238000003066 decision tree Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000010606 normalization Methods 0.000 claims description 13
- 238000011049 filling Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 239000003502 gasoline Substances 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 239000001257 hydrogen Substances 0.000 description 16
- 229910052739 hydrogen Inorganic materials 0.000 description 16
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 15
- 238000012545 processing Methods 0.000 description 9
- 238000004523 catalytic cracking Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 239000002994 raw material Substances 0.000 description 7
- 229910052717 sulfur Inorganic materials 0.000 description 7
- 239000011593 sulfur Substances 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000006477 desulfuration reaction Methods 0.000 description 4
- 230000023556 desulfurization Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000000087 stabilizing effect Effects 0.000 description 4
- 239000003463 adsorbent Substances 0.000 description 3
- 150000001336 alkenes Chemical class 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000003197 catalytic effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000003638 chemical reducing agent Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011010 flushing procedure Methods 0.000 description 3
- 239000002737 fuel gas Substances 0.000 description 3
- 238000010438 heat treatment Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- JRZJOMJEPLMPRA-UHFFFAOYSA-N olefin Natural products CCCCCCCC=C JRZJOMJEPLMPRA-UHFFFAOYSA-N 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- WKBOTKDWSSQWDR-UHFFFAOYSA-N Bromine atom Chemical compound [Br] WKBOTKDWSSQWDR-UHFFFAOYSA-N 0.000 description 2
- 239000004215 Carbon black (E152) Substances 0.000 description 2
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- GDTBXPJZTBHREO-UHFFFAOYSA-N bromine Substances BrBr GDTBXPJZTBHREO-UHFFFAOYSA-N 0.000 description 2
- 229910052794 bromium Inorganic materials 0.000 description 2
- 239000003054 catalyst Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001311 chemical methods and process Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 239000003546 flue gas Substances 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 229930195733 hydrocarbon Natural products 0.000 description 2
- 150000002430 hydrocarbons Chemical class 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 150000001335 aliphatic alkanes Chemical class 0.000 description 1
- 150000004945 aromatic hydrocarbons Chemical class 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000004517 catalytic hydrocracking Methods 0.000 description 1
- 239000000571 coke Substances 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000368 destabilizing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005243 fluidization Methods 0.000 description 1
- 150000002431 hydrogen Chemical class 0.000 description 1
- 238000005984 hydrogenation reaction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229930195734 saturated hydrocarbon Natural products 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于粒子群优化随机森林参数的辛烷损失值预测方法,包括步骤1、计算辛烷损失值的相关特征的信息增益值,删除辛烷值损失影响较小的特征;步骤2、对剩余数据进行预处理;步骤3、采用训练数据集对随机森林算法进行训练,获得训练模型;步骤4、初始化粒子群算法参数;步骤5、采取均方根误差作为粒子群算法的适应度函数,通过粒子群算法不断对训练模型中的参数决策树数目和树的深度进行求解最优值,将最优参数导入训练模型中得到最优预测模型;步骤6、重新输入新测试集导入最优预测模型进行测试,得到预测结果。本发明可以有效地用于辛烷损失值预测。
Description
技术领域
本发明涉及一种基于粒子群优化随机森林参数的辛烷损失值预测方法,属于汽油催化裂化工艺流程中辛烷损失值预测技术领域。
背景技术
在汽油催化裂化工艺中,为了适应新国标环境下的汽油硫含量要求,对汽油中进行脱硫处理要求进一步提升,然而脱硫过程中工艺操作过度反而会影响汽油中辛烷值的含量。辛烷值作为反映汽油燃烧性能最重要指标,对工艺过程中辛烷损失值进行把控,可以有效提高生产中的经济效益。由于传统的化工过程建模多数基于数据关联和机理建模的方法来实现,但是实际炼油工艺过程复杂程度高,控制变量之间具有高度非线性、相互强耦合的关系,传统化工建模对原料分析要求较高,对过程优化响应不及时,故效果不理想。
目前,对于工艺生产中辛烷值的预测已经广泛被研究,并且取得较好的预测结果。其中主要集中于成品油中辛烷成分占比的预测。使用机器学习方法对产品油中采集数据进行分析,然后通过机器学习模型进行分析预测。
发明内容
本发明提供了一种基于粒子群优化随机森林参数的辛烷损失值预测方法,以用于辛烷损失值的预测。
本发明的技术方案是:一种基于粒子群优化随机森林参数的辛烷损失值预测方法,所述方法步骤如下:
步骤1、计算辛烷损失值的相关特征的信息增益值,删除辛烷值损失影响较小的特征;
步骤2、对删除辛烷值损失影响较小的特征的剩余数据进行预处理,对预处理的数据划分为训练数据集和测试数据集;
步骤3、采用训练数据集对随机森林算法进行训练,获得训练模型,采用测试数据集对训练模型进行验证;
步骤4、初始化粒子群算法参数;
步骤5、采取经过验证的随机森林算法训练模型的均方根误差作为粒子群算法的适应度函数,通过粒子群算法不断对经过验证的随机森林算法训练模型中的参数决策树数目n_estimators和树的深度max_depth进行求解最优值,将最优参数导入经过验证的随机森林算法训练模型中得到最优预测模型。
还包括:
步骤6、重新输入经步骤1、步骤2处理过的数据作为新测试集导入最优预测模型进行测试,得到预测结果。
所述步骤1中,删除条件为:特征的信息增益值是否小于所有特征的平均信息增益值,对于小于所有特征平均信息增益值所对应的特征都进行删除。
所述步骤2中,预处理具体为:填充空值、归一化。
所述填充空值具体为:样本数据集中,当某条样本数据存在单个特征为空值,使用空值位置处前后数据之和的平均值填充空值;否则,当某条样本数据中,含有两个以上的特征都具有空值时,删除该条数据。
所述归一化具体采用min-max标准化,使结果值映射到[0-1]之间。
所述步骤4中,设置参数如下:群体数量、粒子位置惯性权重、粒子学习因子、粒子维数;其中群体数量、粒子位置惯性权重、粒子学习因子作为影响粒子群算法主要参数,粒子维数则为优化随机森林参数的个数。
本发明的有益效果是:
(1)本发明对采集数据进行信息增益计算,可以方便观察每个特征数据信息增益值的大小与分布区间,方便我们观察特征与采集数据中辛烷损失值的关联程度高低,对原始数据集中关联耦合程度较低的特征数据进一步删除,继续提炼了特征数据的有效信息,同时降低了模型训练所需时长,避免过多特征数据对模型造成过拟合影响,通过步骤1,保证了训练模型所需特征数据具有较高的关联耦合的有效信息,降低了模型训练时的经济成本与时间成本。
(2)本发明对于空值数据采用不同的手段处理,对于两个以上空值的数据进行删除而非填充,有效地去掉了存在异常的数据,避免了进行填充会与其它正常数据存在差异,干扰模型训练效果的不足;而对于一个空值采用空值位置前后的数据之和的平均值予以代替,其目的在于均值反映前后变化趋势,有效减小与实际真实值的偏差,达到替代真实值的目的,通过该空值处理后,可以实现噪声的特征数据处理,进一步使数据达到模型训练的基本需求。同时加入归一化的处理,通过该处理,使据标准化,各指标处于同一数量级,可以消除由于不同评价指标造成的不同的量纲和量纲单位影响,以解决数据指标之间的可比性,从而使得后续参数寻优过程中的收敛速度较快和更易得到收敛最优解。对归一化后的数据则可以进行训练数据集和测试数据集划分,通过随机采样方式1:1划分为训练数据集和测试数据集,避免训练数据集与测试数据集之间数据差异较大。
(3)通过步骤1、2的处理后,进一步与随机森林算法进行结合,经过步骤1、2处理的数据可以很好的避免随机森林算法缺点(如:噪声过大易过拟合,训练时间较长),使得随机森林算法可以将优势进一步提升,通过上述步骤处理后的训练数据集对随机森林进行训练,使得模型可以达到较好的训练效果,之后使用测试数据集对其进行测试,展示模型的预测效果。
(4)通过使用初始化完成的粒子群算法对训练模型中参数进行最优值求解,可以避免由于训练模型中的算法参数采用人工经验值设置,存在不确定性和偏差的不足;而将通过粒子群算法获得最佳参数,将最佳参数输入训练模型中,可以使得训练模型提升为最优预测模型,通过粒子群算法选择的合适的决策树数目n_estimators和深度可以max_depth在保证有效增强模型的预测能力情况下,同时降低训练模型训练所需的时长和提升训练模型的泛化能力;再进一步地,选择决策树数目n_estimators和树的深度max_depth两个参数作为粒子维数,可以避免目标值个数越多导致搜索维数越高,极大增加粒子群算法搜索运行时间,从而降低搜索效率的不足;也可以避免单一参数搜寻过于简单,效果提升不稳定的不足;通过构建为二维空间搜索范围,能够确保搜索到所需能优化训练模型所需参数值,并且算法搜索运行时间较短,保证算法效率。
综上,本发明通过步骤1、2处理后进行步骤3的处理,可以提升训练模型训练效果,再进一步配合粒子群参数寻优则是从参数方面继续提升训练模型的预测能力,降低训练模型训练时长,使得模型的预测性能进一步提升;通过本发明的实验也表明该最优预测模型对工艺中采集新的特征数据同样具有良好的预测能力,有着较强稳定性,可以有效地用于辛烷损失值预测。
附图说明
图1表示本发明的流程图;
图2表示本发明所述随机森林算法对本发明场景中数据优越性对比实验验证图;
图3表示本发明方法在相对数据分布散点图;
图4表示本发明方法在真实短期数据中的预测能力展示图。
具体实施方式
实施例1:如图1所示,一种基于粒子群优化随机森林参数的辛烷损失值预测方法,所述方法步骤如下:
步骤1、计算辛烷损失值的相关特征的信息增益值,删除辛烷值损失影响较小的特征;
步骤2、对删除辛烷值损失影响较小的特征的剩余数据进行预处理,对预处理的数据划分为训练数据集和测试数据集;
步骤3、采用训练数据集对随机森林算法进行训练,获得训练模型,采用测试数据集对训练模型进行验证;
步骤4、初始化粒子群算法参数;
步骤5、采取经过验证的随机森林算法训练模型的均方根误差作为粒子群算法的适应度函数,通过粒子群算法不断对经过验证的随机森林算法训练模型中的参数决策树数目n_estimators和树的深度max_depth进行求解最优值,将最优参数导入经过验证的随机森林算法训练模型中得到最优预测模型。
进一步地,可以设置还包括:步骤6、重新输入经步骤1、步骤2处理过的数据作为新测试集导入最优预测模型进行测试,得到预测结果。
进一步地,可以设置所述步骤1中,删除条件为:特征的信息增益值是否小于所有特征的平均信息增益值,对于小于所有特征平均信息增益值所对应的特征都进行删除。
进一步地,可以设置所述步骤2中,预处理具体为:填充空值、归一化。
进一步地,可以设置所述填充空值具体为:样本数据集中,当某条样本数据存在单个特征为空值,使用空值位置处前后数据之和的平均值填充空值;否则,当某条样本数据中,含有两个以上的特征都具有空值时,删除该条数据。
进一步地,可以设置所述归一化具体采用min-max标准化,使结果值映射到[0-1]之间。
进一步地,可以设置所述步骤4中,设置参数如下:群体数量、粒子位置惯性权重、粒子学习因子、粒子维数;其中群体数量、粒子位置惯性权重、粒子学习因子作为影响粒子群算法主要参数,粒子维数则为优化随机森林参数的个数。
步骤1中,删除掉对辛烷值损失影响较小的特征,以避免产生过拟合的问题,具体删除条件为:特征信息增益值是否小于原始数据集中所有特征的平均信息增益值,小于原始数据集中所有的特征平均信息增益值所对应的特征都进行删除,其中信息增益公式如下:
公式中假设样本集有n类标签,集合为C=(C1,C2,...,Cn),i=1,2,...n;Ci为标签集C中第i类标签。假设样本集中有m类特征,集合为T=(t1,t2,...,tm),j=1,2,...m,tj为特征集T中第j类特征。P(tj)表示特征tj出现的概率,表示特征tj没有出现的概率,P(Ci)表示Ci类标签数据占总数据的比例值,P(Ci/tj)表示特征tj出现时Ci类数据出现的概率,表示特征tj没有出现时Ci类数据出现的概率。H(C)表示标签集C的信息熵值,熵值越小说明信息随机性程度越低,而特征集T中特征tj的条件熵H(Ci/tj)表示在已知特征tj的条件下,标签Ci的信息随机性程度,条件熵值越低说明Ci与tj的相关联程度越高,信息增益IG(tj)为信息熵减去条件熵的差值,所以信息增益越大说明,标签Ci与特征tj的相关联程度越高,该特征tj对于减少总数据的随机性程度的能力越大,故其值越大越利于分类。
对于辛烷损失值的相关特征构建的原始数据集,其中每条样本数据由m个特征和对应标签构成,计算辛烷损失的相关特征的信息增益值,选用信息增益进行后续判断而非其它,是基于信息增益其特有的对于数据中的特征都能进行数值展示,能方便观察每个特征信息增益值的大小与分布区间,对于取舍相关特征提供方便的数值化观察手段;而采用特征信息增益值是否小于原始数据集中所有特征的平均信息增益值作为删除判断条件,可以有效删除与原始数据集中的标签类别相关联程度较低的数据,不仅有利于减少计算消耗,还可以避免模型过拟合,从而达到提升后续步骤模型的训练速度的目的。
步骤2中的空值进行填补时,本申请通过设置采用每个空值位置处前后数据之和的平均值代替填充空值,更贴合连续时间内相邻数据之间幅值波动变化较小的数据特征,可以有效减小偏差。
步骤2中对数据预处理,使用归一化函数对特征数据进行处理,通过该处理,使据标准化,各指标处于同一数量级,可以消除由于不同评价指标造成的不同的量纲和量纲单位影响,以解决数据指标之间的可比性。归一化具体采用min-max标准化也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0-1]之间;转换公式如下:
max为特征数据中最大值,min为特征数据中最小值。A为归一化前数据,A*为归一化后数据。
步骤5中,使用粒子群算法优化随机森林参数,决定模型性能的参数主要在于决策树的数目n_estimators和决策树的深度max_depth,通过粒子群寻优搜索的最佳参数组合可以有效提高模型预测精度,降低预测值的偏差,使之更接近真实值,传统随机森林算法大部分参数设置都是基于人工手动设置,凭借的是经验值;本发明借助粒子群的优化迭代过程中,对选取参数进行粒子位置设置为二维向量Sq=(S1,S2),S1=n-estimators,S2=max-depth,每个粒子都具有两个属性:速度和位置,通过粒子不断搜索最优解,其中个体搜索最优解为Pbest,群体最优解为Gbest,粒子在迭代寻优过程中,通过Pbest和Gbest不断的更新自身的速度和位置:
其中:为第k次迭代下粒子λ飞行速度矢量的第q维分量,为第k次迭代下粒子λ位置矢量的第q维分量。α为粒子位置惯性权重,q为粒子维数,一般r1、r2为两个取值范围为[0,1]的随机数,目的为增加搜索随机性,一般粒子位置和速度都限制在[XMIN,XMAX],[VMIN,VMAX],VMIN为粒子最小搜寻速度,VMAX为粒子最大搜寻速度,XMIN为粒子最小搜寻位置,XMAX为粒子最大搜寻位置,目的是保证粒子不会盲目进行搜索。
步骤5中对随机森林参数取值必须为整数,所以使用取整函数对粒子位置和速度数值进行取整处理,使得模型能够取得最优解时,输出最佳参数组合为正整数。
实施例2:针对一种基于粒子群优化随机森林参数的辛烷损失值预测方法,本发明给出如下实验数据过程:
步骤1、对汽油催化裂化工艺流程中影响辛烷损失的特征数据进行提取作为原始数据集,计算原始数据集中各特征的信息增益值,删除辛烷值损失影响较小的特征,以避免产生过拟合的问题。具体步骤如下:
1.1、汽油催化裂化工艺中,辛烷损失原因在于脱硫过程中,加氢脱硫导致产生过多烯烃类物质造成辛烷的反应消耗,因此选取每小时的汽油催化裂化工艺中的加氢脱硫工段传感器采集的数据作为原始数据集,只锁定提取造成汽油催化裂化工艺流程中造成辛烷值损失的工段数据,有效较低采集数据成本,方便提炼特征数据中的有效信息;计算获取原始数据集中特征的信息增益值,删除小于原始数据集中所有的特征平均信息增益值所对应的特征,删除特征变量如表1所示。
表1删除特征信息增益表
变量名 | 信息增益 |
进装置原料硫含量 | 0.342 |
稳定塔压力 | 0.356 |
循环氢至闭锁料斗料腿流量 | 1.073 |
废氢排放累计流量 | 1.039 |
还原器压力 | 1.98 |
反应器顶部压力 | 1.919 |
轻烃出装置流量 | 1.174 |
燃料气进装置压力 | 1.664 |
轻石脑油进装置流量 | 1.984 |
再生器压力 | 1.958 |
精制汽油去进料缓冲罐流量 | 1.846 |
循环氢压缩机出口去混氢点压力 | 1.899 |
R-101床层中部温度 | 1.927 |
所有特征的平均信息增益值 | 1.987674 |
剩余特征包括:饱和烃(烷烃+环烷烃)含量、烯烃含量、芳烃含量、溴值、原料硫含量、待生吸附剂焦炭含量、待生吸附剂硫含量、氢油比、还原器流化氢气流量、反应器上部温度、反应器底部温度、反应器顶底压差、反吹氢气温度、反吹氢气压力、干气出装置温度、精制汽油出装置温度、精制汽油出装置流量、精制汽油出装置硫含量、蒸汽进装置压力、蒸汽进装置流量、干气出装置流量、燃料气进装置温度、燃料气进装置流量、1.0MPa蒸汽进装置温度、D107转剂线压差、D107提升氮气流量、催化汽油进装置总流量、2#催化汽油进装置流量、3#催化汽油进装置流量、原料泵出口流量、原料进装置流量、混氢点氢气流量、加热炉进口温度、加热炉排烟温度、加热炉循环氢出口温度、反应器入口温度、D104去稳定塔流量、还原器温度、再生风流量、R102再生器提升氮气流量、再生器顶底差压、再生器顶烟气温度、再生器温度、再生烟气氧含量、原料进装置流量、D-123蒸汽出口流量、D-110蒸汽盘管入口流量、稳定塔下部温度、稳定塔顶出口温度、稳定塔底出口温度、再生器顶部/再生器接收器差压、紧急氢气总管流量、紧急氢气去R-101流量、闭锁料斗烃含量、闭锁料斗充氢线压力、R-101床层下部温度、D-121含硫污水排量、加氢裂化轻石脑油进装置累积流量、8.0MPa氢气至循环氢压缩机入口流量、8.0MPa氢气至反吹氢压缩机出口流量。
步骤2、对删除辛烷值损失影响较小的特征的剩余数据进行预处理,具体为:填充空值,归一化,并且划分为训练数据集和测试数据集,提取作为对比验证实验数据集。具体步骤如下:
2.1、(1)当某条样本数据中,含有两个及以上的特征都具有空值时,删除该条数据;(2)样本数据集中,某条样本数据存在单个特征为空值,使用空值位置处前后数据之和的平均值代替,可以有效减小偏差。
2.2、对所有特征数据进行归一化处理,消除数据之间的量纲影响。
2.3、将2017-2019年数据按照随机1:1比例划分为训练数据集与测试数据集。数据本身是经过长期的采集得到的,,通过长时间历史数据的收集,构建完成辛烷损失数值特征数据,从而可以使模型的预测能力更加准确。
步骤3、采用训练数据集对随机森林算法进行训练,获得训练模型,采用测试数据集对训练模型进行验证。具体步骤如下:
3.1、输入训练数据集和测试数据集,进行不同回归算法对比验证实验,预测结果如图2、图3所示,图2为不同回归算法对测试数据集的预测能力展示,带虚线实心圆点为测试数据集中各序号数据的真实值,实心倒三角为回归算法对测试数据集中各序号数据的预测值,图中各序号对应的预测值与真实值越接近,表示回归算法预测能力越佳。图3展示的是不同回归算法中测试数据集中各序号数据的真实值与测试数据集中各序号数据的预测值相对位置偏差值,图中数据点若呈现线性集中,则表示回归算法的性能越好。其中图3与图2位置中的回归模型一一对应,用以验证不同算法在本发明中样本数据处理效果。对比评价指标选取的是相关系数、均方根误差、均方误差、平均绝对误差,其中公式如下:
上式中h(xI)表示第I个数据的预测值,表示第I个数据的真实值,表示均值,数据个数为M个。相关系数分子表示真实值与预测值平方差之和,分母表示真实值与均值的平方差之和,其取值范围在[0、1]之间,数值越接近1表示模型拟合效果越好。均方误差是测试集真实值与预测值之差的平方和,均方根误差为均方误差平方根,平方绝对误差是预测值与真实值的差的绝对值的平均,均方误差与均方根误差一样,数值越将近0越表示模型预测精度高。平方绝对误差可以避免误差相互抵消问题,可以更好地反映预测值误差的实际情况。其中实际对比实验结果评价指标如表2所示。
表2不同回归模型评价指标表
其中决策树(DT)、逻辑回归(LR)、支持向量机(SVM)、K近邻(KNN)、AdaBoos、Bagging、BP神经网络(BP)等性能指标都弱于随机森林(RF)模型。
步骤4、初始化粒子群算法参数,设置主要参数如下:群体数量,粒子位置惯性权重,粒子学习因子,粒子维数,其中群体数量,粒子位置惯性权重,粒子学习因子作为影响粒子群算法主要参数,粒子维数则为优化随机森林参数的个数。具体步骤如下:
4.1、对建立的随机森林进行参数优化时,主要是对核心参数中的决策树数目n_estimators和树的深度max_depth进行优化,理论上增加决策树的数目能有效降低预测结果的方差,但同时又会增长训练时间,而决策树的深度越深对应模型的预测能力越强,同时决策树深度增加也会加大训练时长和更易过拟合。所以选择合适的决策树数目n_estimators和深度可以max_depth有效增强模型的预测能力,同时降低模型训练所需的时长。由于人工设置参数往往凭借经验数值,无法得到最佳模型预测能力,而粒子群算法通过粒子的位置不断更新,以确定最终参数最佳组合。
4.2、对种群进行初始化,设置群体数目w=100,迭代次数k=100,优化维度为q=2,惯性权重α=0.8,学习因子c1=c2=2,粒子搜寻速度VMIN=1,VMAX=5,粒子搜寻位置XMIN=1,XMAX=20。
4.3、设置适应度函数作为粒子搜索最优位置的评判指标,本模型选择均方根误差作为预测模型的适应度函数。
步骤5、采取随机森林算法训练模型的均方根误差作为粒子群算法的适应度函数,均方根误差作为测试集真实值与预测值之差的平方和值的平方根,均方根误差越小,则表示模型的预测性能越强,利用粒子群算法对均方根误差进行最小值寻优,便可以确定随机森林回归模型达到搜寻条件时的最佳性能对应的参数值。所以通过粒子群不断对随机森林算法中的参数决策树数目n_estimators和树的深度max_depth进行求解最优值,将最优参数导入随机森林算法中得到最优预测模型。具体步骤如下:
5.1通过对训练好的随机森林预测模型,采取步骤4.3建立的适应度函数来进行计算每个粒子的适应度值。
5.2通过不断的迭代过程后,统计每个粒子的适应度大小,选择适应度较小的粒子,并记住位置后继续缩小范围进行迭代。当达到迭代次数后,得出最优适应度函数值与之对应粒子的位置与速度,输出对应的参数数值,将最优参数组合输入随机森林预测模型中得到最优预测模型。
步骤6、重新输入处理过的最新数据提取作为新测试数据集导入最优预测模型进行测试,得到预测结果,验证模型稳定性。具体步骤如下:
6.1将2020年间1-2月份数据按步骤1和步骤2处理,但不进行划分,处理后的全部数据作为新测试数据集。
6.2将新测试数据集导入到基于粒子群优化随机森林参数(PSO-RF)之后的最优预测模型中,得到预测结果分布图如图4所示,其中带线实心圆点为新测试数据集中各序号数据的真实值,带线实心五角星为新测试数据集中各序号数据的预测值。预测模型的评价指标如表2所示。结合图4和表2可知,最优预测模型对新测试数据集的预测效果较好,在实际要求误差范围之内。
表2测试数据预测结果评价表
评价指标 | 数值 |
MSE | 0.01881 |
MAE | 0.10302 |
RMSE | 0.13716 |
本发明中实施案例的实验单机处理器为Intel(R)Core(TM)i5-4590 CPU3.3GHz,运行内存12GB,操作***为64位的windows7旗舰版,程序编译语言为Python。
本发明的工作原理是:本发明根据相关文献资料,从工艺生产中选择与脱硫核心反应相关的装备特征参数,将特征参数提取范围缩小为反应器、再生器、原料相关设备、加氢相关设备、催化器等相关设备,根据文献找出各个步骤和设备中影响辛烷损失值的影响因素,其中郑云锋等人(原料油性质对催化裂化汽油辛烷值的影响)研究了氢油比,质量空速,待生吸附剂持硫率、持碳率等因素对辛烷损失的影响,于善宝等人(加强工艺管理降低SZorb装置精制汽油辛烷值损失)研究了蒸汽压、稳定塔顶、底温度,催化剂循环量,烯烃,溴等因素对辛烷损失的影响。综上所述,从汽油催化裂化分解原理的角度分析,提取造成辛烷损失的特征因素。由于操作变量之间相互耦合的复杂关联关系,本发明对工厂数据中选取的操作变量特征参数进行信息增益计算,以辛烷损失值作为变量参数,对特征进行信息增益计算,删除对辛烷值损失影响较小的特征,以避免产生过拟合的问题。确定特征变量后对剩余数据进行预处理,通过粒子群参数优化的随机森林预测模型能有效预测辛烷值的损失趋势,由于随机森林具有高维特征不敏感、高样本处理不饱和、不宜过拟合、对噪声数据不敏感的特点,同时通过对比实验验证了该方法优于其他传统回归算法,因此,本发明设计了一种基于粒子群参数优化和随机森林的辛烷损失值预测方法。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.一种基于粒子群优化随机森林参数的辛烷损失值预测方法,其特征在于:所述方法步骤如下:
步骤1、计算辛烷损失值的相关特征的信息增益值,删除辛烷值损失影响较小的特征;
步骤2、对删除辛烷值损失影响较小的特征的剩余数据进行预处理,对预处理的数据划分为训练数据集和测试数据集;
步骤3、采用训练数据集对随机森林算法进行训练,获得训练模型,采用测试数据集对训练模型进行验证;
步骤4、初始化粒子群算法参数;
步骤5、采取经过验证的随机森林算法训练模型的均方根误差作为粒子群算法的适应度函数,通过粒子群算法不断对经过验证的随机森林算法训练模型中的参数决策树数目n_estimators和树的深度max_depth进行求解最优值,将最优参数导入经过验证的随机森林算法训练模型中得到最优预测模型。
2.根据权利要求1所述的基于粒子群优化随机森林参数的辛烷损失值预测方法,其特征在于:还包括:
步骤6、重新输入经步骤1、步骤2处理过的数据作为新测试集导入最优预测模型进行测试,得到预测结果。
3.根据权利要求1或2所述的基于粒子群优化随机森林参数的辛烷损失值预测方法,其特征在于:所述步骤1中,删除条件为:特征的信息增益值是否小于所有特征的平均信息增益值,对于小于所有特征平均信息增益值所对应的特征都进行删除。
4.根据权利要求1或2所述的基于粒子群优化随机森林参数的辛烷损失值预测方法,其特征在于:所述步骤2中,预处理具体为:填充空值、归一化。
5.根据权利要求3所述的基于粒子群优化随机森林参数的辛烷损失值预测方法,其特征在于:所述填充空值具体为:样本数据集中,当某条样本数据存在单个特征为空值,使用空值位置处前后数据之和的平均值填充空值;否则,当某条样本数据中,含有两个以上的特征都具有空值时,删除该条数据。
6.根据权利要求3所述的基于粒子群优化随机森林参数的辛烷损失值预测方法,其特征在于:所述归一化具体采用min-max标准化,使结果值映射到[0-1]之间。
7.根据权利要求1或2所述的基于粒子群优化随机森林参数的辛烷损失值预测方法,其特征在于:所述步骤4中,设置参数如下:群体数量、粒子位置惯性权重、粒子学习因子、粒子维数;其中群体数量、粒子位置惯性权重、粒子学习因子作为影响粒子群算法主要参数,粒子维数则为优化随机森林参数的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011587477.6A CN112686296B (zh) | 2020-12-29 | 2020-12-29 | 一种基于粒子群优化随机森林参数的辛烷损失值预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011587477.6A CN112686296B (zh) | 2020-12-29 | 2020-12-29 | 一种基于粒子群优化随机森林参数的辛烷损失值预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112686296A true CN112686296A (zh) | 2021-04-20 |
CN112686296B CN112686296B (zh) | 2022-07-01 |
Family
ID=75454768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011587477.6A Expired - Fee Related CN112686296B (zh) | 2020-12-29 | 2020-12-29 | 一种基于粒子群优化随机森林参数的辛烷损失值预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686296B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254435A (zh) * | 2021-07-15 | 2021-08-13 | 北京电信易通信息技术股份有限公司 | 一种数据增强方法及*** |
CN113408187A (zh) * | 2021-05-15 | 2021-09-17 | 西安石油大学 | 基于随机森林的降低汽油辛烷值损失的优化方法 |
CN116306321A (zh) * | 2023-05-18 | 2023-06-23 | 湖南工商大学 | 基于粒子群的吸附水处理方案优化方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017098862A1 (ja) * | 2015-12-08 | 2017-06-15 | 国立研究開発法人物質・材料研究機構 | 炭化水素基修飾微粒子を受容体層とする燃料油識別センサおよび燃料油識別方法 |
CN109668856A (zh) * | 2017-10-17 | 2019-04-23 | 中国石油化工股份有限公司 | 预测lco加氢原料与产物的烃族组成的方法和装置 |
CN110059852A (zh) * | 2019-03-11 | 2019-07-26 | 杭州电子科技大学 | 一种基于改进随机森林算法的股票收益率预测方法 |
CN110766222A (zh) * | 2019-10-22 | 2020-02-07 | 太原科技大学 | 基于粒子群参数优化和随机森林的pm2.5浓度预测方法 |
CN111797674A (zh) * | 2020-04-10 | 2020-10-20 | 成都信息工程大学 | 基于特征融合和粒子群优化算法的mi脑电信号识别方法 |
-
2020
- 2020-12-29 CN CN202011587477.6A patent/CN112686296B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017098862A1 (ja) * | 2015-12-08 | 2017-06-15 | 国立研究開発法人物質・材料研究機構 | 炭化水素基修飾微粒子を受容体層とする燃料油識別センサおよび燃料油識別方法 |
CN109668856A (zh) * | 2017-10-17 | 2019-04-23 | 中国石油化工股份有限公司 | 预测lco加氢原料与产物的烃族组成的方法和装置 |
CN110059852A (zh) * | 2019-03-11 | 2019-07-26 | 杭州电子科技大学 | 一种基于改进随机森林算法的股票收益率预测方法 |
CN110766222A (zh) * | 2019-10-22 | 2020-02-07 | 太原科技大学 | 基于粒子群参数优化和随机森林的pm2.5浓度预测方法 |
CN111797674A (zh) * | 2020-04-10 | 2020-10-20 | 成都信息工程大学 | 基于特征融合和粒子群优化算法的mi脑电信号识别方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408187A (zh) * | 2021-05-15 | 2021-09-17 | 西安石油大学 | 基于随机森林的降低汽油辛烷值损失的优化方法 |
CN113254435A (zh) * | 2021-07-15 | 2021-08-13 | 北京电信易通信息技术股份有限公司 | 一种数据增强方法及*** |
CN113254435B (zh) * | 2021-07-15 | 2021-10-29 | 北京电信易通信息技术股份有限公司 | 一种数据增强方法及*** |
CN116306321A (zh) * | 2023-05-18 | 2023-06-23 | 湖南工商大学 | 基于粒子群的吸附水处理方案优化方法、装置及设备 |
CN116306321B (zh) * | 2023-05-18 | 2023-08-18 | 湖南工商大学 | 基于粒子群的吸附水处理方案优化方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112686296B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112686296B (zh) | 一种基于粒子群优化随机森林参数的辛烷损失值预测方法 | |
CN109814513B (zh) | 一种基于数据模型的催化裂化装置优化方法 | |
CN110379463B (zh) | 基于机器学习的海洋藻类成因分析及浓度预测方法和*** | |
Espejo et al. | A survey on the application of genetic programming to classification | |
CN112489733B (zh) | 基于粒子群算法和神经网络的辛烷值损失预测方法 | |
CN109034260B (zh) | 基于统计原理和智能寻优的脱硫塔氧化风机故障诊断***及方法 | |
US20220235279A1 (en) | Method of reducing octane loss in catalytic cracking of gasoline in S-zorb plant | |
CN115188429A (zh) | 一种融合时序特征提取的催化裂化装置关键指标建模方法 | |
CN112835570A (zh) | 一种基于机器学习的可视化数学建模方法和*** | |
CN114239400A (zh) | 基于局部双加权概率隐变量回归模型的多工况过程自适应软测量建模方法 | |
CN105740960B (zh) | 一种工业加氢裂化反应条件的优化方法 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN116227350A (zh) | 锅炉多目标优化方法及装置 | |
CN113111588B (zh) | 一种燃气轮机nox排放浓度预测方法及装置 | |
CN116312869A (zh) | 催化裂化再生烟气氮氧化物预测方法、装置及*** | |
CN112342050B (zh) | 一种优化催化裂化装置轻油收率的方法、装置及存储介质 | |
CN113408187A (zh) | 基于随机森林的降低汽油辛烷值损失的优化方法 | |
Guo et al. | Optimization modeling and empirical research on gasoline octane loss based on data analysis | |
CN116449691A (zh) | 原料油加工控制方法和装置 | |
CN110389948A (zh) | 一种基于数据驱动的加氢裂化装置的尾油预测方法 | |
Hamedi et al. | Integrating artificial immune genetic algorithm and metaheuristic ant colony optimizer with two-dose vaccination and modeling for residual fluid catalytic cracking process | |
Hasibuan et al. | Bootstrap aggregating of classification and regression trees in identification of single nucleotide polymorphisms | |
CN117434911B (zh) | 设备运行状态监控方法、装置及电子设备 | |
CN112420132A (zh) | 一种汽油催化裂化过程产品质量优化控制方法 | |
CN115497573B (zh) | 一种炭基生物地质催化材料性质预测与制备方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220701 |