CN108875118B

CN108875118B - 一种高炉铁水硅含量预测模型准确度评价方法和设备

Info

Publication number: CN108875118B
Application number: CN201810326796.8A
Authority: CN
Inventors: 蒋朝辉; 方怡静; 桂卫华; 阳春华; 谢永芳; 陈致蓬
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2021-06-25
Anticipated expiration: 2038-04-12
Also published as: CN108875118A

Abstract

本发明提供一种高炉铁水硅含量预测模型准确度评价方法和设备，所述方法包括：获取历史数据中影响高炉铁水硅含量的工况参数、硅含量测量值及待评价硅含量预测模型的硅含量预测值，根据已训练的准确度预测模型，对所述硅含量预测值的预测结果准确度进行分类，得到第一评价分类结果；根据所述硅含量测量值对所述硅含量预测值的准确度进行分类，得到第二评价分类结果；基于所述第一评价结果和所述第二评价结果得到真正例率TPR和假正例率FPR，并通过受试者工作特征曲线ROC对硅含量预测模型的可靠性进行评价。通过预测结果绘制ROC曲线，通过曲线下面积等指标能够整体的判断预测模型的性能，能够为现场选择合适的预测模型指导生产。

Description

一种高炉铁水硅含量预测模型准确度评价方法和设备

技术领域

本发明涉及高炉冶炼自动化控制技术领域，更具体地，涉及一种高炉铁水硅含量预测模型准确度评价方法和设备。

背景技术

铁水硅含量是表征高炉炼铁过程炉温及其变化趋势的关键信息，也是反应铁水质量、能耗等指标的重要物理量。但铁水硅含量无法直接在线检测，导致对炉况调控不及时或者盲目，因此对铁水硅含量做出及时准确的预测是高炉过程控制的前提。迄今为止高炉铁水硅含量预测模型种类繁多，但这些模型中真正用于高炉日常操作控制的并不多，主要原因在于没有一套合适的评价标准评价模型的预测结果的准确度。因此研究高炉铁水硅含量预测结果评价问题，进而建立一套合理的综合评价方法，从而选择合理的预测模型，对于将高炉铁水硅含量预测研究真正应用于实践中，提高高炉控制水平，实现高炉生产优质、高产、低耗目标具有重要意义。

目前高炉铁水硅含量预测评价中最常用的评价指标是命中率，其它的评价指标有趋势命中率、报准率、硅含量实测值和预测值的相关系数、将预测误差与人工预测误差比较的Theil系数TIC以及一系列的误差评价指标，已有研究中常用的误差评价指标主要有平均绝对误差(mean error，ME)、绝对值平均误差(mean absolute error，MAE)、均方根误差(root mean squared error，RMSE)、平均相对误差(mean relative error，MRE)误差频率分布指标等等，当预测结果包括预测区间时，还会采用预测区间覆盖率(PI coverageprobability，PICP)、预测区间平均宽度(mean PI width)来表征预测结果的准确度。

常用的硅含量预测结果评价判据有命中率、报准率、趋势命中率以及硅含量实测值和预测值的相关系数等。命中率、报准率以及趋势命中率都是基于预测误差的评价指标，在衡量历史数据的预测误差上，效果较好，但仅仅从误差的方面并不能完整的评价一个模型预测结果好坏，而实测值和预测值的相关系数能够很好的反应实测值与预测值的相关性强弱，但单从相关性的强弱也无法评价一个模型的预测结果。如果对众多指标采用加权求和的方法创造一个新的指标来来作为评价指标，则可避免采用单一指标的不足，但是新的指标往往只能表征模型对历史数据的表现，对模型当前得到的预测结果无法作出判断。申请公布号为“CN104651559A”的中国发明专利“一种基于多元在线序贯极限学习机的高炉铁水质量在线预报体系及预报方法”，该专利综合考虑了检测***在高炉炼铁过程中能检测到的各种过程参数建立了一个具有输出自反馈，并考虑输入输出时序和时滞关系的多元铁水质量预报模型，该模型同时实现了Si含量等多种铁水质量指标的预报以及动态测量，采用了均方根误差RMSE作为建模效果的评估指标；但是均方根误差一般用于衡量模型误差的分散程度，采用RMSE作为建模效果的评价指标，对于评价历史数据误差的分散程度能有较好的效果，但是仅从历史误差的分散程度无法全面的衡量预测模型的好坏；申请公布号为“CN104915518A”的中国发明专利公开了建立了一种铁水硅含量的二维预报模型，采用bootstrap重抽样的方法重构了训练样本集，通过重构样本集训练了n个神经网络模型来预测硅含量的值，同时通过第n+1个神经网络训练得到预测区间，从而实现值和区间的双重预报。该专利采用了命中率、报准率、相关系数等多个指标，利用层次分析法给各个指标赋权加和得到的新评价指标来评价预测值的可信度；该专利采用一种新的指标衡量值的可信度，但该方法的局限性在于预测区间的构建是基于bootstrap预测模型框架下，离开预测模型，就无法计算得到准确率、报准率等指标，其可信度指标也就无从计算了；综上所述，现有的预测模型的评价方法过于片面，无法实现对预测模型全面评价效果，只能在给定的框架中预报模型结果，缺乏一种通用性的方法来定量的评价模型预测结果的可信度。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种高炉铁水硅含量预测模型准确度评价方法、设备、计算机程序产品和存储介质，解决了现有技术中预测模型的评价方法过于片面，无法实现对预测模型全面评价效果，只能在给定的框架中评价模型预测结果的问题。

根据本发明的一个方面，提供一种高炉铁水硅含量预测模型准确度评价方法，包括：

获取历史数据中影响高炉铁水硅含量的工况参数、硅含量测量值及硅含量预测模型的硅含量预测值，根据已训练的准确度预测模型，对所述硅含量预测值的预测结果准确度进行分类，得到第一评价分类结果；

根据所述硅含量测量值对所述硅含量预测值的准确度进行分类，得到第二评价分类结果；

基于所述第一评价结果和所述第二评价结果得到真正例率TPR和假正例率FPR，并通过受试者工作特征曲线ROC对硅含量预测模型可靠性进行评价。

一种高炉铁水硅含量预测模型准确度评价设备，包括：

至少一个处理器、至少一个存储器、通信接口和总线；其中，

所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上述高炉铁水硅含量预测模型准确度评价方法。

一种高炉铁水硅含量预测模型准确度评价设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上述高炉铁水硅含量预测模型准确度评价方法。

本发明提出一种高炉铁水硅含量预测模型准确度评价方法、设备、计算机程序产品和存储介质，从机理角度分析得到影响硅含量的工况参数，采用箱线图法对输入数据进行异常值删除和缺失值补充，基于采样时间，以每炉次出铁时间为周期，时间点对应的方式选取数据样本，采用SPSS消除时滞并选取强相关性的工况参数，采用基于数据均值、梯度、波动值的方法提取数据特征；通过随机森林建模方法得到铁水硅含量预测模型结果准确度，充分利用高炉可检测到的影响铁水硅含量的工况参数，通过分析其历史数据的变化规律与硅含量的变化规律，从历史数据中提取工况参数的特征值作为模型的输入，建模得到硅含量预测值准确度类别，综合模型分类结果和金标准分类结果计算得到真正例率(TPR)和假正例率(FPR)，绘制ROC曲线，通过计算ROC曲线的曲线下面积AUC，最终定量的评价硅含量预测模型的好坏，对现场工人选择合适的预测模型指导生产有重要的意义。

附图说明

图1为根据本发明实施例的高炉铁水硅含量预测模型准确度评价方法示意图；

图2为根据本发明实施例的箱线图法示意图；

图3为根据本发明实施例的滑动窗口处理过程示意图；

图4为根据本发明实施例的随机森林分类器示意图；

图5为根据本发明实施例的ROC曲线评价结果示意图；

图6为根据本发明实施例的高炉铁水硅含量预测模型准确度评价设备示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，图中一种高炉铁水硅含量预测模型准确度评价方法，包括：

在本实施例中，从机理的角度对高炉炼铁动态过程进行分析，探究硅含量在高炉中自上而下变化的规律，逐步分析出炼铁动态过程中工况参数变化对铁水硅含量变化的影响，从而得到若干对硅含量变化会直接或者间接产生影响的工况参数；为了构建输入样本集，首先采用箱线图法对上一步骤中得到的工况参数进行异常值剔除和缺失值补充，基于采样时间，以每炉次出铁时间为周期，时间点对应的方式选取数据样本，再进行归一化处理从而得到量纲一致的工况参数，用SPSS软件对归一化后得到的工况参数进行相关性分析并消除时间滞后，得到与硅含量值相关性最高且从时间上匹配的样本。最后提取样本在时间维度上的特征值得到模型的输入变量。结合历史工况参数及历史硅含量预测结果，将历史硅含量的预测结果按照准确度分为四类并将类别编码。将从历史工况参数中提取的特征参数与对应的历史硅含量预测值及类别编码一起输入随机森林进行训练，建立铁水硅含量模型预测结果准确度的预测模型，即准确度预测模型。

在本实施例中，根据现场经验制定测试样本分类的金标准并将测试样本中的硅含量预测值通过金标准分为正负实例。

基于所述第一评价结果和所述第二评价结果计算得到真正例率(True PositiveRate，TPR)和假正例率(False Positive Rate，FPR)，并通过绘制受试者工作特征曲线(Receiver Operating Characteristic Curve，ROC)对硅含量预测模型结果的可靠性进行评价。

在本实施例中，测试集输入模型，根据模型结果综合金标准的分类结果，计算得到真正例率TPR和假正例率FPR从而绘制ROC曲线，通过计算得到曲线的曲线下面积(AreaUnder Curve，AUC)，最终定量的评价硅含量预测模型预测结果的好坏

具体的，在本实施例中，获取历史数据中影响高炉铁水中硅含量的工况参数后，还包括：

通过箱线图法对所述工况参数进行异常值剔除，以铁水成分的采样周期为参照，根据时间点对应进行工况参数的匹配，；具体的，通过对高炉炉内硅含量自上而下变化的原因作机理分析，得到影响硅含量的因素有煤粉、焦炭灰分中的硅源、理论燃烧温度、炉况顺行情况以及硅的氧化还原进程等等，再通过各种机理方程将这些因素与高炉炼铁过程中一些可检测的工况参数，如设定喷煤量、冷风流量、鼓风动能、标准风速、顶温、炉压、热风压力联系起来，得到各个工况参数与硅含量变化之间的关系，从而选得与硅含量变化关系最为密切的工况参数如表1-1所示。

表1-1机理分析得到与硅含量相关参数

根据机理分析得到的结果，对现场采集到的工况参数进行分析，具体的，包括：

数据预处理

1)异常值处理

采用箱线图法对变量进行异常值剔除，如图2所示，箱线图是用于显示数据分散情况的统计图，图由五部分组成，分别是最小值、中位数、最大值、下四分位数和上四分位数。下四分位数用Q1表示，它等于样本中所有样本点数值由小到大排列后第25％的样本点数值。中位数用MD表示，它等于该样本中所有样本点数值由小到大排列后第50％的样本点数值。上四分位数为Q3，它等于该样本中所有样本点数值由小到大排列后第75％的样本点数值。四分位距用IQR表示，它是上四分位数与下四分位数之间的间距，即上四分位数减去下四分位数。在Q1-1.5IQR和Q3+1.5IQR处画两条与中位线平行的线段，这两条线段为温和异常值截断线段，称其为内限。在Q1-3IQR和Q3+3IQR处画两条类似的线段，这两条线段为极端异常值截断点，称其为外限。分布在内限之外的点可以认为是温和的异常点，这些点可能是异常点，但也可能不是异常点。而那些分布在外限之外的点就为极端异常点。本实施例只考虑把极端异常点作为真正的异常点，而对于温和异常点不都作为异常点，因为针对高炉数据，温和异常点的数量过多，将会把大部分的数据都当做异常点而剔除掉。

2)时间点对应提取时间序列

采集变量时，不同工况参数有不同的采样周期，有分钟级数据，也有秒级数据，因此在数据预处理之前需要折中考虑，以铁水成分的采样周期为参照，依据时间点对应进行所有变量的匹配，将匹配前的数据容量定义为将处理好的得到时间序列样本。

通过统计产品与服务解决方案SPSS对工况参数进行时滞分析，得到采样周期内在时间序列上匹配的工况参数，并进行归一化处理；确定模型输入变量(即工况参数)，由于高炉内部的复杂物理化学反应，间接影响硅含量的因素众多，与硅含量相关的可测工况参数有设定喷煤量、冷风流量、鼓风动能等二十余个，在高炉炼铁的过程中，它们相互耦合，共同作用于铁水硅含量的变化，但是在建模过程中，我们只需要选择与硅含量相关性最强的变量作为模型的输入变量，所以我们通过统计产品与服务解决方案(Statistical Productand Service Solutions，SPSS)对能当前可测得的工况参数进行分析，得到与硅含量呈现相关性的若干参数。高炉炼铁是一个大时滞的动态过程，当前时刻的硅含量往往对应的时前一个或几个时刻的工况参数，所以还需要利用SPSS对各变量进行时滞分析，消除它们与硅含量结果的时滞，得到时间上匹配的数据样本。

变量归一化处理，选取的各变量数量级相差较大，对模型的收敛速度和复杂度有很大影响，在建模前需要对各变量进行归一化处理。通过数值变换来消除变量间的量纲影响。方法如下：

其中x_i，

分别为第i个变量归一化前、后取值，max(x_i)，min(x_i)分别为第i个变量归一化前的最大值、最小值。

在本实施例中，通过对硅在高炉内迁徙的含量变化分析，从机理的角度得影响铁水硅含量变化的众多影响因素，将影响因素与高炉内部可测工况参数对应可得到影响铁水硅含量变化的工况参数，这些工况参数包括上部的布料方式、原料性质，下部的风温、风量等变量，再通过SPSS分析采集到的历史工况参数及硅含量测量值，得到各参数与硅含量之间的相关性大小排序并消除各参数相对于硅含量的时间滞后影响，最终得到与铁水硅含量具有强相关性的工况参数进行下一步的特征提取。

变量的特征提取，通过SPSS对所述工况参数与硅含量进行相关性分析，得到时间序列上各个时刻工况参数与硅含量的相关性排序，提取其中相关性最大的时间点的工况参数作为特征参数，并提取所述特征参数的波动值、梯度值以及均值。

具体的，分析上述过程中所得工况参数历史数据，可以发现各参数在时间维度上存在稳定期和波动期，工况参数的波动也就意味着炉况的波动，炉况波动会造成铁水硅含量的变化。炉况是由许多工况参数共同表征的，工况数据的变化隐含着炉况变化的信息，通过特征值提取的方法挖掘炉况变化的信息，对上述过程中所得工况参数进行特征提取，提取的特征值包括当前工况参数的波动情况、梯度值以及均值，为了方便提取工况参数时间维度的波动特征，通过SPSS对所有采集到的变量与硅含量之间进行相关性分析得到硅含量与工况参数历史数据相关性排序，从而选择与当前特征参数相关性最大的历史时刻的特征参数，历史时刻的特征参数是经过时间匹配后得到的，利用时序匹配前的数据构建波动特征与均值提取的滑动窗口，如图3所示，为滑动窗口处理过程，再进行特征提取。特征提取的步骤为：

Step1：从历史数据中得到工况参数i对对炉热影响的数据容量t_i1、工况参数i的特征提取时间窗口M和时间滞后量t_i2；

Step2：计算每个工况参数的波动值、梯度值和水平值：

计算得到所有输入变量工况参数波动特征值：

计算得到所有输入变量的梯度特征值：

计算得到所有工况参数的水平值：

上述三个特征参数可以有效反应历史工况参数在时间域上的数据变化。采用基于数据均值、梯度、波动的特征提取方法，通过分析各个工况参数与硅含量在各个时刻上的相关性，从而得到计算波动值范围的滑动窗口，通过历史数据获得滑动窗口内的数据容量，计算得到各个参数的历史数据在时间域上的均值、梯度、波动的特征值。

在本实施例中，根据已训练的准确度预测模型前，还包括：

将硅含量预测值按准确度分为准确、较为准确、不太准确、非常不准，并对所述准确度进行类别编码；对历史硅含量的分类，按照炉长的判断将历史硅含量分为准确、较为准确、不太准确、非常不准四类，依据上述区间划分，给所有样本(x_i,y_i)的输出y_i打上标签。在本实施例中，如下表所示：

表1-2四分类编码

基于随机森林对所述特征参数、硅含量预测值及对应的类别编码进行训练，得到用于评价高炉铁水硅含量预测模型准确度的准确度预测模型。

具体的，在本实施例中，建立分类决策树和随机森林进行训练，

对于N个不同的工况样本(x_i,t_i)，其中x_i＝[x_i1,x_i2,…,x_in]^T∈Rⁿ,t_i＝[t₁,t₂,…,t_m]^T∈R^m，x_i为第i个样本的工况参数，t_i为第i个样本的硅含量实测值。利用bootstrap重抽样方法，有放回的在工况样本库中抽取n次，获得n个子样本。用n个子样本建立n个决策树，将相互独立的决策树h₁,h₂,...,h_n组合成森林，如图4所示。

在本实施例中，采用C4.5算法作为决策树的生成算法。C4.5采用信息增益比作为特征选择的准则，信息增益比为：

其中，

特征X将Y分成了Y₁,Y₂,...,Y_n类，H_Y(X)为C4.5算法引入的惩罚项，当特征值取值很多时，抑制信息增益增大。算法的步骤如下：

Step1：按上式计算特征集X中各特征对Y的信息增益比，选择信息增益比最大的特征X_g；

Step2：如果X_g的信息增益比小于阈值ε，则置h_i为单节点树，并将X中实例数最大的类Y_k作为该节点的类，返回h_i；

Step3：否则，对X_g的每一可能值α_j，依X_g＝α_j将X分割为子集若干非空X_j，将X_j中实例最大的类作为标记，构建子节点，由结点及其子节点构成数h_i，返回h_i；

Step4：对结点j,以X_j作为训练集，以A-{A_g}为特征集，递归的调用Step1～Step3，得到子树h_ij，返回h_ij。

分类时利用森林中每一个分类决策树进行类别判断，并根据少数服从多数的投票原则确定分类结果，即：

其中I(·)为示性函数，C为分类标签(类别)。

在本实施例中根据历史数据中硅含量测量值对所述硅含量预测值的预测结果准确度进行分类，具体包括：

设定金标准，y_i为硅含量测量值，y′_i为硅含量预测值，若|y_i-y′_i|＜0.03，则判断为当前预测结果为预测准确，否则判断当前预测结果预测不准。

在本实施例中，根据ROC曲线绘制的特点，我们将金标准设定为硅含量的测量值y_i，将测量值认为是真实值，当|y_i-y′_i|＜0.03，y_i为真实值，y′_i为预测值，则认定为当前预测结果为准确，反之认为当前预测结果不准确。

在本实施例中，并通过受试者工作特征曲线ROC对硅含量预测值可靠性进行评价，具体包括：

基于所述真正例率TPR和假正例率FPR绘制ROC曲线，计算得到曲线下面积AUC、SI、CI指标，并对高炉铁水硅含量预测模型进行定量评价。

根据随机森林对测试样本输出的结果

结合金标准对测试集硅含量的正负例分类结果，计算得到硅含量预测结果分类表：

表1-3硅含量预测结果分类表

根据分类表的分类结果，绘制ROC曲线，如图5所示，计算得到ROC曲线的AUC、SI、CI等指标，定量的评价对硅含量准确度预测结果的可靠性。

图6是示出本申请实施例的高炉铁水硅含量预测模型准确度评价设备的结构框图。

参照图6，所述高炉铁水硅含量预测模型准确度评价设备，包括：处理器(processor)810、存储器(memory)830、通信接口(Communications Interface)820和总线840；

其中，

所述处理器810、存储器830、通信接口820通过所述总线840完成相互间的通信；

所述通信接口820用于该测试设备与显示装置的通信设备之间的信息传输；

所述处理器810用于调用所述存储器830中的程序指令，以执行上述各方法实施例所提供的高炉铁水硅含量预测模型准确度评价方法，例如包括：

一种高炉铁水硅含量预测模型准确度评价设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

例如包括：

基于所述第一评价结果和所述第二评价结果得到真正例率TPR和假正例率FPR，并通过受试者工作特征曲线ROC对硅含量预测值可靠性进行评价。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的高炉铁水硅含量预测模型准确度评价方法，例如包括：

基于所述第一评价结果和所述第二评价结果得到真正例率TPR和假正例率FPR，并通过受试者工作特征曲线ROC对硅含量预测模型的可靠性进行评价。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的高炉铁水硅含量预测模型准确度评价方法，例如包括：

综上所述，本发明提出一种高炉铁水硅含量预测模型准确度评价方法、设备、计算机程序产品和存储介质，从机理角度分析得到影响硅含量的工况参数，基于采样时间，以每炉次出铁时间为周期，时间点对应的方式选取数据样本，采用SPSS选取强相关性的工况参数，采用基于数据均值、梯度、波动值的方法提取数据特征；通过随机森林建模方法得到铁水硅含量预测模型结果准确度，充分利用高炉可检测到的影响铁水硅含量的工况参数，通过分析其历史数据的变化规律与硅含量的变化规律，从历史数据中提取工况参数的特征值与硅含量预测值作为模型的输入，建模得到硅含量预测模型结果的准确度，综合模型分类结果和金标准分类结果计算得到真正例率(TPR)和假正利率(FPR)，绘制ROC曲线，通过计算ROC曲线的曲线下面积AUC、，最终定量的评价硅含量预测模型的好坏，对现场工人选择合适的预测模型指导生产有重要的意义。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的显示装置的测试设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

最后，本发明的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高炉铁水硅含量预测模型准确度评价方法，其特征在于，包括：

获取历史数据中影响高炉铁水硅含量的工况参数、硅含量测量值及硅含量预测模型的硅含量预测值，根据已训练的准确度预测模型，对所述硅含量预测值的预测结果准确度进行分类，得到第一评价结果；

根据所述硅含量测量值对所述硅含量预测值的准确度进行分类，得到第二评价结果；

基于所述第一评价结果和所述第二评价结果得到真正例率TPR和假正例率FPR，并通过受试者工作特征曲线ROC对硅含量预测模型预测结果可靠性进行评价；

其中，所述准确度预测模型的具体训练过程为：

将硅含量预测值按准确度分为准确、较为准确、不太准确、非常不准，并对所述准确度进行类别编码；

基于随机森林对历史工况参数中提取的特征参数、硅含量预测值及对应的类别编码进行训练，得到用于评价高炉铁水硅含量预测模型准确度的准确度预测模型；

所述特征参数的获取步骤具体包括：

基于机理分析获取影响硅含量变化的工况参数；

采用箱线图法对所述工况参数进行异常值剔除和缺失值补充；

基于采样时间，从异常值剔除和缺失值补充后的工况参数中选取数据样本，并将所述数据样本进行归一化处理；

对归一化处理后的数据样本进行相关性分析并消除时间滞后，得到与硅含量值相关性最高且从时间上匹配的样本；

提取所述数据样本在时间维度上的特征值作为特征参数。

2.根据权利要求1所述的方法，其特征在于，获取历史数据中影响高炉铁水硅含量的工况参数后，还包括：

通过箱线图法对所述工况参数进行异常值剔除，以铁水成分的采样周期为参照，根据时间点对应进行工况参数的匹配；

对工况参数进行归一化处理，通过统计产量与服务解决方案SPSS对所述工况参数与硅含量测量值进行相关性分析，得到时间序列上各个时刻工况参数与硅含量测量值的相关性排序，提取其中相关性最大的时间点的工况参数作为特征参数，并提取所述特征参数的波动值、梯度值以及均值。

3.根据权利要求2所述的方法，其特征在于，根据已训练的准确度预测模型前，还包括：

4.根据权利要求2所述的方法，其特征在于，提取所述特征参数的波动值、梯度值以及均值，具体包括：

从历史数据中得到工况参数、对硅含量产生影响的工况数据容量、工况参数的特征提取时间窗口和时间滞后量，并计算得到各工况参数的历史数据在时间域上的均值、梯度、波动的特征值。

5.根据权利要求1所述的方法，其特征在于，根据历史数据中硅含量测量值对所述硅含量预测值的预测结果准确度进行分类，具体包括：

6.根据权利要求1所述的方法，其特征在于，通过受试者工作特征曲线ROC对硅含量预测模型的预测结果可靠性进行评价，具体包括：

基于所述真正例率TPR和假正例率FPR绘制ROC曲线，计算得到曲线下面积AUC，并对高炉铁水硅含量预测模型进行定量评价。

7.一种高炉铁水硅含量预测模型准确度评价设备，其特征在于，包括：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

8.一种高炉铁水硅含量预测模型准确度评价设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。