CN116579651B

CN116579651B - 一种基于半监督学习的矿业项目评价方法

Info

Publication number: CN116579651B
Application number: CN202310531667.3A
Authority: CN
Inventors: 张艳; 向杰; 朱清; 邢凯; 温鹏飞; 严煦; 陈志勇; 成少博; 陈洋
Original assignee: China Mining News
Current assignee: China Mining News
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-11-10
Anticipated expiration: 2043-05-11
Also published as: CN116579651A

Abstract

本发明公开了一种基于半监督学习的矿业项目评价方法，包括以下步骤：分析矿业项目评价的影响因素确定出矿业项目的评价指标，依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本，并将有标记训练样本的评价指标和评价结果进行逐一项目对应构建出有标记训练数据集，将无标记训练样本的评价指标构建出无标记训练数据集；采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型。本发明基于有限的矿业项目的评价结果，半监督方法解决了标签数据不足的情况，改善了无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题。

Description

一种基于半监督学习的矿业项目评价方法

技术领域

本发明涉及矿业项目评价技术领域，具体涉及一种基于半监督学习的矿业项目评价方法。

背景技术

目前，众多学者围绕着矿业项目评价的方法开展了一系列研究，如专家判别法、数据驱动方法。专家判别法主要根据以往人工经验进行判定，对评价人员的经验和水平要求较高，同时判别的结果也具有主观性；基于机器学习的数据驱动方法主要根据矿业项目的评价指标，采用机器学习方法进行自动识别，该方法对训练数据集要求较高，需要较多的训练数据集才能得到精度较高的模型。而由于矿业项目评价结果较少，也即数据标签较少，采用常规机器学习方法无法得到泛化性好、可移植性强的模型。

发明内容

本发明的目的在于提供一种基于半监督学习的矿业项目评价方法，以解决现有技术中无法得到泛化性好、可移植性强的模型的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

一种基于半监督学习的矿业项目评价方法，包括以下步骤：

步骤S1、分析矿业项目评价的影响因素确定出矿业项目的评价指标，依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本，并将有标记训练样本的评价指标和评价结果进行逐一项目对应构建出有标记训练数据集，将无标记训练样本的评价指标构建出无标记训练数据集；

步骤S2、采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型，其中，半监督支持向量机的参数采用改进的网格搜索方法进行优化；

步骤S3、获取当前待评价矿业项目的评价指标的数据值，利用矿业项目评价模型基于待评价矿业项目的评价指标的数据值得到当前待评价矿业项目的评价结果；

步骤S4、将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代。

作为本发明的一种优选方案，所述矿业项目评价的影响因素包括矿业资源禀赋、矿业投资环境、矿业生产能力，所述矿业项目的评价指标包括矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能，所述评价结果包括推介项目、重大项目和一般项目。

作为本发明的一种优选方案，所述依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本，包括：

将历史矿业项目评价库中的所有历史矿业项目依据评价指标构建出矿业项目全关联网络，其中，矿业项目全关联网络的构建包括：

在历史矿业项目评价库中的所有历史矿业项目间量化任意两个历史矿业项目的评价指标相似性，并将评价指标相似性高于阈值的两个历史矿业项目间设置连接边；

将历史矿业项目评价库中的所有历史矿业项目抽象为网络节点，将存在连接边的历史矿业项目间对应的网络节点进行连接得到所述矿业项目全关联网络；

将历史矿业项目评价库中同历史时期的历史矿业项目依据评价指标构建出矿业项目同期关联网络，其中，矿业项目同期关联网络的构建包括：

在历史矿业项目评价库中同历史时期的历史矿业项目间量化任意两个历史矿业项目的评价指标相似性，并将评价指标相似性高于阈值的两个历史矿业项目间设置连接边；

将历史矿业项目评价库中同历史时期的历史矿业项目抽象为网络节点，将存在连接边的历史矿业项目间对应的网络节点进行连接得到所述矿业项目同期关联网络；

将所述矿业项目全关联网络与所述矿业项目同期关联网络分别进行社区划分得到多个矿业项目类别全关联集合和多个矿业项目同期关联集合，将多个矿业项目类别全关联集合和多个矿业项目同期关联集合进行交集运算得到多种类矿业项目集合；

在多种类矿业项目集合中分别抽取多个历史矿业项目组合成多种类历史矿业项目作为有标记训练样本；

在除多种类矿业项目集合外的矿业项目类别全关联集合中抽取多个历史矿业项目作为无标记训练样本；

所述矿业项目集合的种类包括推介项目、重大项目和一般项目。

作为本发明的一种优选方案，所述评价指标相似性利用欧式距离、相关系数、jaccard指数中的至少一种进行量化。

作为本发明的一种优选方案，所述社区划分的目标函数为模块度。

作为本发明的一种优选方案，所述采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型，包括：

采用半监督支持向量机基于有标记训练数据集进行模型训练构建出矿业项目评价初始模型SVM_init；

利用矿业项目评价初始模型SVM_init对无标记训练数据集的无标记训练样本进行评价结果预测，构建无标记训练样本的评价结果的迭代更新目标函数，以提高无标记训练样本的评价结果的准确性；

利用无标记训练样本的评价结果的迭代更新结果对无标记训练数据集进行更新，将更新后的无标记训练数据集与有标记训练数据集进行融合得到训练数据集；

基于融合得到的训练数据集利用网格搜索方法对矿业项目评价初始模型SVM_init进行参数优化得到矿业项目评价最终模型SVM_last；

所述迭代更新目标函数的函数表达式为：

迭代更新目标函数的约束条件为：

y_i[ω^Tκ(x_i)+b]≥1-ξ_i

ξ_i≥0,i＝1,2,…,N

式中，ω为权重矢量矩阵；κ()为核函数；x_i为数据集中的特征参数，即评价指标；b为偏置，常数；C_l和C_u分别为有标记训练数据集与无标记训练数据集惩罚系数；ξ_i为第i次迭代的松弛变量；N为无标记训练样本与有标记训练样本的个数总和；l为有标记训练样本的个数；为无标签数据集的预测结果；y_i是有标签数据集对应的标签，为评价结果；min为最小化运算符；i为计数变量；T为转置运算符。

作为本发明的一种优选方案，所述半监督支持向量机的参数采用改进的网格搜索方法进行优化，包括：

在网格搜索方法中将惩罚系数C_l和C_u设置为非等间隔步长搜索，在惩罚系数C_l和C_u的取值范围内利用非等间隔步长搜索进行半监督支持向量机的参数搜索确定；

将每次搜索确定的各组半监督支持向量机的参数依次得到每次搜索的各个矿业项目评价过渡模型，将每次搜索各个矿业项目评价过渡模型进行预测精度评价，将每次搜索的最高预测精度的矿业项目评价过渡模型对应的半监督支持向量机的参数下次搜索的搜索中心，直至搜索过程中产生最高预测精度对应的半监督支持向量机的参数作为半监督支持向量机的最优参数；

半监督支持向量机的最优参数对应的矿业项目评价过渡模型作为矿业项目评价最终模型SVM_last。

作为本发明的一种优选方案，所述非等间隔步长搜索的步长设定为自适应步长设定，以实现非等间隔步长搜索的步长与预测精度进行自适应匹配；

所述自适应步长设定函数为：

d＝-Aln(P)；

式中，d为下次搜索的步长，P为当次搜索的预测精度，A为常系数。

作为本发明的一种优选方案，所述将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代，包括：

当前待评价矿业项目的评价结果和评价指标的数据值对所述训练数据集进行更新；

利用更新后的训练数据集对矿业项目评价最终模型SVM_last进行重训练，以实现对矿业项目评价最终模型SVM_last的迭代更新。

作为本发明的一种优选方案，在构建矿业项目评价模型之前和对前待评价矿业项目的评价结果进行模型预测前，对矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能进行归一化处理。

本发明与现有技术相比较具有如下有益效果：

本发明通过众多矿业项目的分析，依据行业内丰富的专业人员经验，确定了矿业项目评价指标，为后期模型建立特征参数的确定提供了先验认识，基于有限的矿业项目的评价结果，半监督方法解决了标签数据不足的情况，改善了无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题，而且在历史矿业项目评价库中构建矿业项目全关联网络和矿业项目同期关联网络来表征历史矿业项目的全时域关联性和同时域关联性，组合全时域关联性和同时域关联性抽取有标记训练样本，筛选出分类准确性更高的样本用作训练达到提高矿业项目评价模型准确性的目的。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的基于半监督学习的矿业项目评价方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

众多学者围绕着矿业项目评价的方法开展了一系列研究，如专家判别法、数据驱动方法。专家判别法主要根据以往人工经验进行判定，对评价人员的经验和水平要求较高，同时判别的结果也具有主观性；基于机器学习的数据驱动方法主要根据矿业项目的评价指标，采用机器学习方法进行自动识别，该方法对训练数据集要求较高，需要较多的训练数据集才能得到精度较高的模型。而由于矿业项目评价结果较少，也即数据标签较少，采用常规机器学习方法无法得到泛化性好、可移植性强的模型。因此，本发明提供了一种矿业项目评价方法，利用半监督学习构建矿业项目评价模型，考虑有标签的样本，同时也充分利用未标记标签的样本特性，为矿业项目的评价提供了一种泛化性好、可移植性强的解决方案。

如图1所示，本发明提供了一种基于半监督学习的矿业项目评价方法，包括以下步骤：

本发明提供了一种利用构建模型实现矿业项目自动化的评价方法，代替传统人工识别的过程，提高了矿业项目评价的精度以及识别效率，通过众多矿业项目的分析，依据行业内丰富的专业人员经验，确定了矿业项目评价指标，为后期模型建立特征参数的确定提供了先验认识，基于有限的矿业项目的评价结果，半监督方法解决了标签数据不足的情况，改善了无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题，再利用改进的网格搜索方法用于半监督SVM参数的优化，降低算法的复杂度，提升了矿业项目评价模型参数的寻优效率，以及训练数据集和评价模型自更新的方法，能够将预测结果不断添加到训练数据中，实时更新训练数据，提高评价模型的实时识别精度。

所述矿业项目评价的影响因素包括矿业资源禀赋、矿业投资环境、矿业生产能力，所述矿业项目的评价指标包括矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能，所述评价结果包括推介项目、重大项目和一般项目。

本发明构建历史矿业项目的关联性网络来获得训练样本用作模型训练，相较于人工经验进行训练数据集的获取，利用联性网络能够自动获取保证矿业项目评价模型准确度的训练样本，具体如下：

所述依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本，包括：

所述评价指标相似性利用欧式距离、相关系数、jaccard指数中的至少一种进行量化。

所述社区划分的目标函数为模块度。

在历史矿业项目评价库中的所有历史矿业项目间构建出矿业项目全关联网络，在矿业项目的全时域内进行矿业项目关联构建，基于矿业项目全关联网络得到的多种类矿业项目集合，即推介项目集合、重大项目集合和一般项目集合，能够通过矿业项目关联性进行自动化分类，而比之人为进行矿业项目分类而言，去除了人为主观性，客观准确性更强，但是矿业项目的全时域关联存在由于时期的不同，分类存在时期差异性，比如在技术先进的时期，会将技术落后时期的标定为重大矿业项目标记为一般矿业项目，因此由于时期的不同，矿业项目的标记类别并不完全一致，因此为了弥补矿业项目全关联网络得到的多种类矿业项目集合中存在的误标记，补充了在历史矿业项目评价库中同历史时期的历史矿业项目间构建出矿业项目全关联网络，在矿业项目的同一时域内进行矿业项目关联构建，基于矿业项目同期关联网络得到的多种类矿业项目集合，即推介项目集合、重大项目集合和一般项目集合，将同期关联网络得到的多种类矿业项目集合与矿业项目全关联网络得到的多种类矿业项目集合进行结果组合，能够获取在全时域和同时域同时具有相同的分类标准，即选取出的训练样本无论在全时域范围内或单个时域范围内均属于同一个种类，降低矿业项目全关联网络得到的多种类矿业项目集合中的矿业项目的误判率，从而以此训练样本得到的矿业项目评价模型得到矿业项目评价结果不受评价时期的影响，准确性更高和鲁棒性更强。

本发明利用有标记训练数据集和无标记训练数据集矿业项目评价模型，基于有限的矿业项目的评价结果，半监督方法解决了标签数据不足的情况，改善了无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题，具体如下：

所述采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型，包括：

再利用改进的网格搜索方法用于半监督SVM参数的优化，降低算法的复杂度，提升了矿业项目评价模型参数的寻优效率。

所述迭代更新目标函数的函数表达式为：

迭代更新目标函数的约束条件为：

y_i[ω^Tκ(x_i)+b]≥1-ξ_i

ξ_i≥0,i＝1,2,…,N

根据上述公式不断迭代C_l和C_u参数，使得C_u远小于C_l，使得有标记样本所起的作用更大，最终得到无标记训练数据集的正确预测结果。

所述半监督支持向量机的参数采用改进的网格搜索方法进行优化，包括：

所述非等间隔步长搜索的步长设定为自适应步长设定，以实现非等间隔步长搜索的步长与预测精度进行自适应匹配；

所述自适应步长设定函数为：

d＝-Aln(P)；

非等间隔步长搜索的步长，自适应预测精度来调整搜索步长，搜索前期半监督支持向量机的参数产生的预测精度低，则搜索步长自适应预测精度，使得搜索前期保持长搜索步长以快速压缩半监督支持向量机的最优参数的数据区间，提高搜索效率，搜索后期半监督支持向量机的参数产生的预测精度高，则搜索步长自适应预测精度，使得搜索后期保持短搜索步长，以在半监督支持向量机的最优参数的数据区间进行精细化搜索，能够准确搜索得到半监督支持向量机的最优参数。

比如，支持向量机模型的参数主要为惩罚系数C_l，取值范围为[2^-5,2¹⁰]，参数优化采用非等间隔步长搜索。初始搜索步长为2³，即C_l的取值为2^-5,2^-2,2¹,2⁴,2⁷,2¹⁰。根据C_l取值，确定半监督支持向量机模型最优精度值，并以此为中心点，将步长调整为2，得到模型精度最高值对应的C_l值，并据此得到最终的半监督支持向量机模型

本发明通过训练数据集和评价模型自更新的方法，能够将预测结果不断添加到训练数据中，实时更新训练数据，提高评价模型的实时识别精度，具体如下：

所述将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代，包括：

在构建矿业项目评价模型之前和对前待评价矿业项目的评价结果进行模型预测前，对矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能进行归一化处理。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种基于半监督学习的矿业项目评价方法，其特征在于，包括以下步骤：

步骤S4、将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代；所述矿业项目评价的影响因素包括矿业资源禀赋、矿业投资环境、矿业生产能力，所述矿业项目的评价指标包括矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能，所述评价结果包括推介项目、重大项目和一般项目；所述依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本，包括：

所述矿业项目集合的种类包括推介项目、重大项目和一般项目；

采用半监督支持向量机基于有标记训练数据集进行模型训练构建出矿业项目评价初始模型SVM_init；利用矿业项目评价初始模型SVM_init对无标记训练数据集的无标记训练样本进行评价结果预测，构建无标记训练样本的评价结果的迭代更新目标函数，以提高无标记训练样本的评价结果的准确性；

所述迭代更新目标函数的函数表达式为：；迭代更新目标函数的约束条件为：；式中，/>为权重矢量矩阵；/>为核函数；x_i为数据集中的特征参数，即评价指标；/>为偏置，常数；/>和/>分别为有标记训练数据集与无标记训练数据集惩罚系数；/>为第i次迭代的松弛变量；N为无标记训练样本与有标记训练样本的个数总和；l为有标记训练样本的个数；/>为无标签数据集的预测结果；y_i是有标签数据集对应的标签，为评价结果；min为最小化运算符；i为计数变量；T为转置运算符；所述半监督支持向量机的参数采用改进的网格搜索方法进行优化，包括：

在网格搜索方法中将惩罚系数C_l和C_u设置为非等间隔步长搜索，在惩罚系数C_l和C_u的取值范围内利用非等间隔步长搜索进行半监督支持向量机的参数搜索确定；将每次搜索确定的各组半监督支持向量机的参数，依次对矿业项目评价初始模型SVM_init进行参数优化得到每次搜索的各个矿业项目评价过渡模型，将每次搜索各个矿业项目评价过渡模型进行预测精度评价，将每次搜索的最高预测精度的矿业项目评价过渡模型对应的半监督支持向量机的参数作为下次搜索的搜索中心，直至搜索过程中产生最高预测精度对应的半监督支持向量机的参数作为半监督支持向量机的最优参数；半监督支持向量机的最优参数对应的矿业项目评价过渡模型作为矿业项目评价最终模型SVM_last。

2.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法，其特征在于：所述评价指标相似性利用欧式距离、相关系数、jaccard指数中的至少一种进行量化。

3.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法，其特征在于：所述社区划分的目标函数为模块度。

4.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法，其特征在于：所述非等间隔步长搜索的步长设定为自适应步长设定，以实现非等间隔步长搜索的步长与预测精度进行自适应匹配；

所述自适应步长设定函数为：；

5.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法，其特征在于，所述将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代，包括：

当前待评价矿业项目的评价结果和评价指标的数据值对所述训练数据集进行更新；利用更新后的训练数据集对矿业项目评价最终模型SVM_last进行重训练，以实现对矿业项目评价最终模型SVM_last的迭代更新。

6.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法，其特征在于，在构建矿业项目评价模型之前和对前待评价矿业项目的评价结果进行模型预测前，对矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能进行归一化处理。