CN111832101A

CN111832101A - 一种水泥强度预测模型的构建方法及水泥强度预测方法

Info

Publication number: CN111832101A
Application number: CN202010560102.4A
Authority: CN
Inventors: 彭刚; 何雷; 阮景
Original assignee: Hubei Bohua Automation System Engineering Co ltd; Huazhong University of Science and Technology
Current assignee: Hubei Bohua Automation System Engineering Co ltd; Huazhong University of Science and Technology
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-27
Anticipated expiration: 2040-06-18
Also published as: CN111832101B

Abstract

本发明涉及水泥强度预测领域，具体公开了一种水泥强度预测模型的构建方法及水泥强度预测方法，包括：采集多个水泥样本质检数据集，每个质检数据集包括多个特征参数值；通过基于条件互信息的特征选择，将多个特征参数按照与水泥强度的相关度从大到小进行排序，调取每个水泥样本的质检数据中排序前m个参数的值，构成该水泥样本的特征集，基于所有水泥样本的特征集训练辅助预测模型；确定训练所得预测精度最高的辅助预测模型所对应的m值，并基于该m值对应的所有特征集，采用GA在每次训练迭代中同步调优待训练模型的多个参数，得到水泥强度预测模型。本发明用于训练水泥强度预测模型的训练样本较为合理，训练效率高，训练所得模型预测精度较高。

Description

一种水泥强度预测模型的构建方法及水泥强度预测方法

技术领域

本发明属于水泥强度预测领域，更具体地，涉及一种水泥强度预测模型的构建方法及水泥强度预测方法。

背景技术

水泥是建筑工程的基础原材料之一，在国民经济建设中具有重要的地位，如何有效控制水泥质量以及提高水泥生产效率，是每个水泥企业都关注的焦点。

水泥强度是用来衡量水泥质量的一个重要指标，目前水泥行业人员均将28天作为水泥强度基本稳定的龄期，并且将水泥28天强度作为通用水泥的代表强度。水泥等级是按照水泥强度高低划分的等级，一般等级的数值与水泥在稳定龄期的抗压强度相等，通用水泥的等级值为水泥28天龄期的最低抗压强度。按照水泥行业的要求，通用水泥检测周期长，至少需要28天，当用户对水泥需求很迫切但是水泥库存很少的时候，水泥公司显然不能等水泥经过28天检测强度后再发货给用户，因此如何快速预测28天水泥抗压强度就显得十分重要。如果能在很短的时间内准确预测出水泥28天抗压强度，将会加快公司的水泥出厂速度，提高公司***速度。水泥强度预测是一个非常复杂的***，比较普遍的方法是利用物理方法来探究水泥性能或者是利用数学方法来构造水泥强度与特征变量之间的函数关系。如今随着人工智能技术的不断发展，可以建立基于机器学习方法的水泥强度预测模型，实现水泥强度预测。

基于机器学习的方法进行水泥强度预测时，预测效果和准确性依赖于机器学习算法的参数优化以及训练集的选取，不同的参数和训练集训练出来的模型会有差异。

发明内容

本发明提供一种水泥强度预测模型的构建方法及水泥强度预测方法，用以解决现有水泥强度预测精确度不高的问题。

本发明解决上述技术问题的技术方案如下：一种水泥强度预测模型的构建方法，包括：

采集多个水泥样本的质检数据集，每个水泥样本的质检数据集包括水泥强度实际值和多个特征参数值；

通过基于条件互信息的特征选择，将多个特征参数按照与水泥强度的相关度从大到小进行排序，调取每个水泥样本的质检数据中排序前m个参数的值，构成该水泥样本的特征集，基于所有水泥样本的所述特征集和所述水泥强度实际值训练辅助预测模型；

确定训练所得预测精度最高的辅助预测模型所对应的m值，并基于各水泥样本的水泥强度实际值和该m值对应的特征集，采用遗传算法在每次训练迭代中同步调优待训练模型的多个参数，训练得到水泥强度预测模型。

本发明的有益效果是：本发明首先整理检验室的质检数据得到多个水泥样本的质检数据集，进一步通过特征参数排序，并采用辅助预测模型，进行特征选择，选出与水泥强度相关性较高的多个特征，得到各个水泥样本的特征集，通过以上步骤，最终得到的用于训练水泥强度预测模型的训练样本更加合理，训练出来的模型预测精度更高。另外，由于预测模型参数具体影响会随着训练数据的不同而有差异，本发明采用遗传算法同时得到最优的多个关键参数，而不是逐个参数进行优化，提高了参数优化效率和精度，进而极大提高水泥强度预测模型的自适应性和训练效率。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述多个特征参数包括比表面积、烧失量、稠度、初凝、终凝、一天抗折强度、一天抗压强度、三天抗折强度、三天抗压强度、氯离子质量分数、MgO质量分数、SO₃质量分数和CaO质量分数。

本发明的进一步有益效果是：特征参数既包括时间参数(初凝、终凝)，又包括物理成分参数(比表面积、烧失量、稠度、一天抗折强度、一天抗压强度、三天抗折强度、三天抗压强度)，也包括化学成分参数(氯离子质量分数、MgO质量分数、SO₃质量分数和CaO质量分数)，可以全面多角度的进行水泥强度预测。

进一步，在构建每个水泥样本的所述特征集之前，采用箱线图法对各水泥样本的质检数据集中的异常值进行检测，并将检测出来的含有异常值的质检数据集删除。

本发明的进一步有益效果是：利用箱线图方法对原始水泥强度质检数据集进行异常值检测，并将含有异常值的样本从原始数据集中删除，保证用于水泥强度预测模型训练的样本准确性、可靠性，提高水泥强度预测模型的预测精度。

进一步，所述m值为6、7或8。

本发明的进一步有益效果是：通过辅助预测模型确定能够用于训练预测模型的最佳特征组合，提高了预测模型训练效率和后续水泥强度预测的精度。

进一步，所述辅助预测模型为支持向量机、随机森林模型或Catboost模型。

进一步，所述待训练模型为Catboost模型。

进一步，所述采用遗传算法在每次训练迭代中同步调优待训练模型的多个参数，该多个参数包括所述Catboost模型中的学习率和树的深度。

本发明的进一步有益效果是：影响Catboost模型算法性能的关键参数有树的深度depth和学习率learning_rate，这两个参数具体的影响随着数据的不同而有差异，为了让Catboost模型进行水泥强度预测时对不同的数据能自动调节参数，采用基于遗传算法同时优化CatBoost模型的学习率和树的深度参数，提高了优化效率，达到了在不同数据情况下，CatBoost模型能自动匹配出最佳的训练参数的目的，提高了Catboost模型的适应性。

进一步，所述采用遗传算法在每次训练迭代中同步调优待训练模型的多个参数，具体为：

S1、初始化种群，种群中每个个体基因型均为随机生成的13位二进制数，其中前5位和后8位分别表示所述深度和所述学习率的二进制编码；

S2、将各个体基因型对应的所述前5位和所述后8位分别转换成十进制，作为训练过程中的Catboost模型的深度和学习率；

S3、将所述Catboost模型输出的各特征集对应的均方误差值作为适应度值，选择适应度值前n高的多个个体；

S4、对所述多个个体的基因型之间进行杂交运算和变异运算，产生新的个体基因型，重复执行S2，直至达到收敛终止条件，完成Catboost模型每次训练迭代所需的最优学习率和树的深度；所述收敛终止条件是所述Catboost模型输出的均方误差值小于设定均方误差值，或训练迭代次数到达设定最大迭代次数。

本发明还提供一种水泥强度预测方法，包括：

采集待预测水泥的质检数据集，并调取该质检数据集中m个特征参数值，构成预测特征集；其中，所述m个特征参数为如上所述的预测精度最高的辅助预测模型所对应的m个特征参数；

基于所述预测特征集，采用如上所述的一种水泥强度预测模型的构建方法所构建的水泥强度预测模型，预测所述待预测水泥的水泥强度。

本发明的有益效果是：水泥强度一般通过28天或更长时间才能验证，周期较长，本发明采用如上所述的水泥强度预测模型的构建方法所构建的水泥强度预测模型，提高水泥强度预测的精度和实时性(由于可需要三天内的预测数据，因此可最长需要三天时间)，若水泥强度达不到标准，可以及时调整水泥生产工艺参数，提高水泥质量，避免生产材料浪费，同时降低时间成本，避免28天之后水泥强度达不到标准而造成时间和成本上的浪费问题。

本发明还提供一种计算机存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上所述的一种水泥强度预测模型的构建方法和/或如上所述的一种水泥强度预测方法。

附图说明

图1为本发明实施例提供的一种水泥强度预测模型的构建方法的流程框图；

图2为本发明实施例提供的特征选择对模型精度影响示意图；

图3为本发明实施例提供的分别基于CatBoost和GA-CatBoost的水泥强度预测值与实测值对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

一种水泥强度预测模型的构建方法100，如图1所示，包括：

步骤110、采集多个水泥样本的质检数据集，每个水泥样本的质检数据集包括水泥强度实际值和多个特征参数值；

步骤120、通过基于条件互信息的特征选择，将多个特征参数按照与水泥强度的相关度从大到小进行排序，调取每个水泥样本的质检数据中排序前m个参数的值，构成该水泥样本的特征集，基于所有水泥样本的特征集和水泥强度实际值训练辅助预测模型；

步骤130、确定训练所得预测精度最高的辅助预测模型所对应的m值，并基于各水泥样本的水泥强度实际值和该m值对应的特征集，采用遗传算法在每次训练迭代中同步调优待训练模型的多个参数，训练得到水泥强度预测模型。

水泥强度实际值一般为水泥28天抗压强度实际值，m的取值为正整数，根据实际数据确定。另外，需要说明的是，由于各个水泥样本的质检数据中含有一些与目标变量无关或关系很小的特征变量，针对这种情况，采用基于条件互信息的特征选择算法进行特征选择，找出与目标变量相关性较高的特征，得到水泥强度特征集，保证训练得到的水泥强度预测模型的预测精度。具体的，在对原始水泥样本进行清洗的基础上，进行特征选择，选出与水泥28天抗压强度相关性较高的特征，过程包括：

S1、每个水泥样本的质检数据集包含13个特征参数，分别为比表面积、烧失量、稠度、初凝、终凝、1天抗折强度、1天抗压强度、3天抗折强度、3天抗压强度、氯离子质量分数、MgO质量分数、SO₃质量分数和CaO质量分数，设定这13个特征构成待选特征集合X，水泥28天抗压强度实测值为Y，已选特征集合为Z，最终选定的特征数目为m；

需要说明的是，特征参数既包括时间参数(初凝、终凝)，又包括物理成分参数(比表面积、烧失量、稠度、一天抗折强度、一天抗压强度、三天抗折强度、三天抗压强度)，也包括化学成分参数(氯离子质量分数、MgO质量分数、SO₃质量分数和CaO质量分数)，可以全面多角度的进行水泥强度预测。

S2、输入X和Y，X中特征个数为n，初始化Z和m；

S3、计算特征X_i(i＝1,2…n)与Y的互信息I(X_i,Y)，并将互信息进行排序，互信息最大的特征X_p即为第一阶段的被选特征，将该特征放入集合Z，放入序号为1，并将特征X_p从X中剔除；

S4、计算条件互信息I(Y；X_i|Z),并将条件互信息进行排序，条件互信息最大的特征X_q为第二阶段的被选特征，将该特征放入集合Z，放入序号依次递增，并将特征X_q从X中剔除；

S5、循环执行S4，直至集合Z中变量的个数达到最初设定的m，最后输出特征集合。

其中，X与Y的边际密度函数分别为P(x)和P(y)，二者的联合概率密度函数为P(x,y)，则X与Y之间的互信息为

在已选特征Z已知的条件下，X中的待选特征与Y的条件互信息为：

式中P(x,y,z)为X、Y和Z的联合概率密度函数；P(x,y|z)为Z条件下X、Y的联合概率密度函数；P(x|z)为Z条件下X的概率密度函数，P(y|z)为Z条件下Y的概率密度函数。X_i为第i个特征参数在各个水样样本中的参数值所构成的集合。

优选的，辅助预测模型为支持向量机、随机森林模型或Catboost模型，但不限于支持向量机、随机森林模型或Catboost模型。

另外，为了更好的说明如何找出上述预测精度最高的辅助预测模型所对应的m值，现举例如下：

每个水泥样本的质检数据集包括13个特征参数值，先将13个特征有序加入集合Z中，具体顺序如表1所示，表中特征顺序越靠前，说明与水泥28天抗压强度相关性越大。为了选出最佳特征组合，接下来按照特征加入集合Z的先后顺序依次选择3到13个特征构成11个特征集，并利用辅助预测模型(例如支持向量机)对水泥强度进行预测，计算不同特征集组合下支持向量机的均方误差，以此来选出最佳特征组合，结果如图2所示。

表1

序号	特征	序号	特征
				1	CaO质量分数	8	烧失量
2	3天抗压强度	9	MgO质量分数
				3	1天抗压强度	10	稠度
4	3天抗折强度	11	氯离子质量分数
				5	1天抗折强度	12	初凝
6	比表面积	13	终凝
				7	SO<sub>3</sub>质量分数

从图2可知，在特征数小于7时，均方误差下降非常大，当特征数为7时，均方误差取得最小值，当特征数目继续增加时，均方误差稍微有点增大，说明选取前7个特征是最佳方案。因此，最终选取CaO质量分数、3天抗压强度、1天抗压强度、3天抗折强度、1天抗折强度、比表面积、SO₃质量分数这7个特征，同时得到水泥强度的特征集。

本实施例首先整理检验室的质检数据得到多个水泥样本的质检数据集，进一步通过特征参数排序，并采用辅助预测模型，进行特4征选择，选出与水泥强度相关性较高的多个特征，得到各个水泥样本的特征集，通过以上步骤，最终得到的用于训练水泥强度预测模型的训练样本更加合理，训练出来的模型预测精度更高。另外，由于预测模型参数具体影响会随着训练数据的不同而有差异，本发明采用遗传算法同时得到最优的多个关键参数，而不是逐个参数进行优化，提高了参数优化效率和精度，进而极大提高水泥强度预测模型的自适应性和训练效率。

优选的，在构建每个水泥样本的特征集之前，采用箱线图法对各水泥样本的质检数据集中的异常值进行检测，并将检测出来的含有异常值的水泥样本对应的质检数据集删除。例如，原始水泥样本有700个，对应有700个质检数据集，经过箱线图法清洗后，去掉50个水泥样本的质检数据集，剩余650个水泥样本的质检数据集，清洗后的每个质检数据集与清洗前无变化，均包括水泥强度实际值和原有的多个特征参数值。

利用箱线图方法对原始水泥强度数据集进行异常值检测，并将含有异常值的样本从原始数据集中删除，保证用于训练水泥强度预测模型训练的样本准确性、可靠性，提高水泥强度预测模型的预测精度。

根据实际质检数据确定m的值，优选的m可取值为7。

优选的，待训练模型为CatBoost模型。

优选的，上述采用遗传算法在每次训练迭代中同步调优待训练模型的多个参数，该多个参数包括CatBoost模型中的学习率和树的深度。

影响CatBoost模型性能的关键参数有树的深度depth和学习率learning_rate，这两个参数具体的影响随着数据的不同而有差异，为了让CatBoost模型进行水泥强度预测时对不同的数据能自动调节参数，本发明采用了基于遗传算法优化CatBoost模型参数的方法，达到了在不同数据情况下，CatBoost模型能自动匹配出最佳的训练参数的目的，提高了CatBoost预测算法的适应性。

优选的，上述采用遗传算法在每次训练迭代中同步调优待训练模型的多个参数，具体为：

种群初始化，设定种群规模S和最大迭代次数N_max，设定染色体长度L＝13，其中前5位表示depth的二进制编码；learning_rate只用小数位来编码，用后8位表示learning_rate的二进制编码，保留小数点后8位精度。为了避免出现局部最优解，设定杂交概率pc，变异概率pm。种群中每一个个体的基因型均为随机生成的13位二进制数。

将13位二进制基因型的前5位、后8位转换成十进制分别作为depth和learning_rate，以此作为参数对CatBoost模型进行训练，以输出的均方误差作为适应度。

S3、将所述Catboost模型输出的均方误差值作为适应度值，选择适应度值前n高的多个个体；

根据S2计算出来的个体适应度大小，采取轮盘赌选择法选择出适应度较高的个体，即先计算个体适应度占种群总适应度的比值，然后根据该比值来确定遗传到下一代的个体数量。

S4、对多个个体的基因型之间进行杂交运算和变异运算，产生新的个体基因型，重复执行S2，直至达到收敛终止条件，完成CatBoost模型每次训练迭代所需的最优学习率和树的深度；所述收敛终止条件是所述Catboost模型输出的均方误差值小于设定均方误差值，或训练迭代次数到达设定最大迭代次数。

杂交运算，设定杂交概率，根据杂交概率互换父母双方的部分基因，并产生新的个体；变异运算，设定变异概率，随机产生变异点，根据变异概率对变异点的原有基因取反，从而产生新的个体。

利用遗传算法对CatBoost模型中的树的深度depth和学习率learning_rate两个参数进行调优，概括为：将以上两个参数编码为二进制，并将其组合为种群中个体的基因型(染色体)，经过多次迭代，从而找出最优的基因型，最后解码成十进制得到的depth和learning_rate即为所求的最优参数。

为了更好的说明采用遗传算法优化水泥强度预测模型的参数取值的优势，现举例如下：种群规模S＝30和最大迭代次数N_max＝100，设定杂交概率pc＝0.7，变异概率pm＝0.7。分别利用CatBoost和GA-CatBoost两种算法模型对水泥强度进行预测。在测试集中选择15个测试样本，并用以上训练好的模型对这些测试样本进行预测，并计算预测值和实测值之间的相对误差，具体预测结果如表2所示。

表2

从表2中数据可以看出CatBoost预测值与实测值之间的绝对值相对误差范围为0.178％～0.497％，GA-CatBoost预测值与实测值之间的绝对值相对误差范围为0.082％～0.313％，并且GA-CatBoost绝大多数样本的绝对值相对误差均在0.2％以下，而CatBoost绝大多数样本的绝对值相对误差均在0.25％以上，GA-CatBoost模型的预测值相比于CatBoost更加接近实测值，说明优化后的CatBoost预测效果更好。

图3是根据表2中GA-CatBoost和CatBoost两个模型在15个测试样本上的预测值绘制的变化曲线，图中圆形所连曲线代表了实测值变化，三角形所连曲线代表了CatBoost预测值变化，叉形所连曲线代表了GA-CatBoost预测值变化，从图中可以看出：叉形所连曲线比三角形所连曲线更加靠近圆形所连曲线，这说明GA-CatBoost预测值的变化曲线更接近实测值的变化曲线，GA-CatBoost预测值与实测值更加接近。

根据均方误差(MSE)、平均绝对误差(MAE)、决定系数(R²)这三个指标进一步评估CatBoost和GA-CatBoost在水泥强度数据集上的性能表现，同时还选择和CatBoost一样同属于Boosting族的GBDT、XGBoost算法进行对比实验，其中，对于GBDT、XGBoost和CatBoost算法，均采用人工经验调参方式调节其参数，各模型的MSE、MAE、R²如表3所示。

表3

从表3可以看出，在同样都采用人工经验调节参数的条件下，CatBoost的精度比GBDT和XGBoost的精度高。还可以看出GA-CatBoost的MSE小于0.01，远小于CatBoost的MSE，并且GA-CatBoost的MAE也比CatBoost的MAE小，对于R²指标，GA-CatBoost的R²比CatBoost的R²大，GA-CatBoost的R²达到了0.99088，这说明使用遗传算法优化后的CatBoost预测精度有很大的提高。

本发明使用GA(Genetic Algorithm，遗传算法)对CatBoost模型的两个关键参数(树的深度depth和学习率learning_rate)进行同步优化，同时得到最优的2个关键参数，而不是逐个参数进行优化，提高了优化效率。

实施例二

一种水泥强度预测方法，包括：采集待预测水泥的质检数据集，并调取该质检数据集中m个特征参数值，构成预测特征集；其中m个特征参数为如上实施例一所述的预测精度最高的辅助预测模型所对应的m个特征参数；基于预测特征集，采用如上实施例一所述的一种水泥强度预测模型的构建方法所构建的水泥强度预测模型，预测所述待预测水泥的水泥强度。

水泥强度一般通过28天或更长时间才能验证，周期较长，本发明采用如上所述的水泥强度预测模型的构建方法所构建的水泥强度预测模型，提高水泥强度预测的精度和实时性(由于可需要三天内的预测数据，因此可最长需要三天时间)，若水泥强度达不到标准，可以及时调整水泥生产工艺参数，提高水泥质量，避免生产材料浪费，同时降低时间成本，避免28天之后水泥强度达不到标准而造成时间和成本上的浪费问题。相关技术方案同实施例一，在此不再赘述。

实施例三

一种计算机存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上实施例一所述的一种水泥强度预测模型的构建方法和/或如上实施例二所述的一种水泥强度预测方法。相关技术方案同实施例一和实施例二，在此不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种水泥强度预测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的一种水泥强度预测模型的构建方法，其特征在于，所述多个特征参数包括比表面积、烧失量、稠度、初凝、终凝、一天抗折强度、一天抗压强度、三天抗折强度、三天抗压强度、氯离子质量分数、MgO质量分数、SO₃质量分数和CaO质量分数。

3.根据权利要求1所述的一种水泥强度预测模型的构建方法，其特征在于，在构建每个水泥样本的所述特征集之前，采用箱线图法对各水泥样本的质检数据集中的异常值进行检测，并将检测出来的含有异常值的质检数据集删除。

4.根据权利要求1所述的一种水泥强度预测模型的构建方法，其特征在于，所述m值为6、7或8。

5.根据权利要求1所述的一种水泥强度预测模型的构建方法，其特征在于，所述辅助预测模型为支持向量机、随机森林模型或Catboost模型。

6.根据权利要求1至5任一项所述的一种水泥强度预测模型的构建方法，其特征在于，所述待训练模型为Catboost模型。

7.根据权利要求6所述的一种水泥强度预测模型的构建方法，其特征在于，所述采用遗传算法在每次训练迭代中同步调优待训练模型的多个参数，该多个参数包括所述Catboost模型中的学习率和树的深度。

8.根据权利要求7所述的一种水泥强度预测模型的构建方法，其特征在于，所述采用遗传算法在每次训练迭代中同步调优待训练模型的多个参数，具体实现方式为：

9.一种水泥强度预测方法，其特征在于，包括：

采集待预测水泥的质检数据集，并调取该质检数据集中m个特征参数值，构成预测特征集；其中，所述m个特征参数为如权利要求1至8任一项所述的预测精度最高的辅助预测模型所对应的m个特征参数；

基于所述预测特征集，采用如权利要求1至8任一项所述的一种水泥强度预测模型的构建方法所构建的水泥强度预测模型，预测所述待预测水泥的水泥强度。

10.一种计算机存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如权利要求1至8任一项所述的一种水泥强度预测模型的构建方法和/或如权利要求9所述的一种水泥强度预测方法。