CN116579651B - 一种基于半监督学习的矿业项目评价方法 - Google Patents
一种基于半监督学习的矿业项目评价方法 Download PDFInfo
- Publication number
- CN116579651B CN116579651B CN202310531667.3A CN202310531667A CN116579651B CN 116579651 B CN116579651 B CN 116579651B CN 202310531667 A CN202310531667 A CN 202310531667A CN 116579651 B CN116579651 B CN 116579651B
- Authority
- CN
- China
- Prior art keywords
- mining
- evaluation
- project
- projects
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005065 mining Methods 0.000 title claims abstract description 210
- 238000011156 evaluation Methods 0.000 title claims abstract description 189
- 238000012549 training Methods 0.000 claims abstract description 153
- 238000012706 support-vector machine Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000013210 evaluation model Methods 0.000 claims abstract description 33
- 229910052500 inorganic mineral Inorganic materials 0.000 claims description 117
- 239000011707 mineral Substances 0.000 claims description 117
- 230000006870 function Effects 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 201000004569 Blindness Diseases 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 description 6
- 238000012850 discrimination method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Mining & Mineral Resources (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Marine Sciences & Fisheries (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Husbandry (AREA)
- Agronomy & Crop Science (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
Abstract
本发明公开了一种基于半监督学习的矿业项目评价方法,包括以下步骤:分析矿业项目评价的影响因素确定出矿业项目的评价指标,依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本,并将有标记训练样本的评价指标和评价结果进行逐一项目对应构建出有标记训练数据集,将无标记训练样本的评价指标构建出无标记训练数据集;采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型。本发明基于有限的矿业项目的评价结果,半监督方法解决了标签数据不足的情况,改善了无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题。
Description
技术领域
本发明涉及矿业项目评价技术领域,具体涉及一种基于半监督学习的矿业项目评价方法。
背景技术
目前,众多学者围绕着矿业项目评价的方法开展了一系列研究,如专家判别法、数据驱动方法。专家判别法主要根据以往人工经验进行判定,对评价人员的经验和水平要求较高,同时判别的结果也具有主观性;基于机器学习的数据驱动方法主要根据矿业项目的评价指标,采用机器学习方法进行自动识别,该方法对训练数据集要求较高,需要较多的训练数据集才能得到精度较高的模型。而由于矿业项目评价结果较少,也即数据标签较少,采用常规机器学习方法无法得到泛化性好、可移植性强的模型。
发明内容
本发明的目的在于提供一种基于半监督学习的矿业项目评价方法,以解决现有技术中无法得到泛化性好、可移植性强的模型的技术问题。
为解决上述技术问题,本发明具体提供下述技术方案:
一种基于半监督学习的矿业项目评价方法,包括以下步骤:
步骤S1、分析矿业项目评价的影响因素确定出矿业项目的评价指标,依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本,并将有标记训练样本的评价指标和评价结果进行逐一项目对应构建出有标记训练数据集,将无标记训练样本的评价指标构建出无标记训练数据集;
步骤S2、采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型,其中,半监督支持向量机的参数采用改进的网格搜索方法进行优化;
步骤S3、获取当前待评价矿业项目的评价指标的数据值,利用矿业项目评价模型基于待评价矿业项目的评价指标的数据值得到当前待评价矿业项目的评价结果;
步骤S4、将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代。
作为本发明的一种优选方案,所述矿业项目评价的影响因素包括矿业资源禀赋、矿业投资环境、矿业生产能力,所述矿业项目的评价指标包括矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能,所述评价结果包括推介项目、重大项目和一般项目。
作为本发明的一种优选方案,所述依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本,包括:
将历史矿业项目评价库中的所有历史矿业项目依据评价指标构建出矿业项目全关联网络,其中,矿业项目全关联网络的构建包括:
在历史矿业项目评价库中的所有历史矿业项目间量化任意两个历史矿业项目的评价指标相似性,并将评价指标相似性高于阈值的两个历史矿业项目间设置连接边;
将历史矿业项目评价库中的所有历史矿业项目抽象为网络节点,将存在连接边的历史矿业项目间对应的网络节点进行连接得到所述矿业项目全关联网络;
将历史矿业项目评价库中同历史时期的历史矿业项目依据评价指标构建出矿业项目同期关联网络,其中,矿业项目同期关联网络的构建包括:
在历史矿业项目评价库中同历史时期的历史矿业项目间量化任意两个历史矿业项目的评价指标相似性,并将评价指标相似性高于阈值的两个历史矿业项目间设置连接边;
将历史矿业项目评价库中同历史时期的历史矿业项目抽象为网络节点,将存在连接边的历史矿业项目间对应的网络节点进行连接得到所述矿业项目同期关联网络;
将所述矿业项目全关联网络与所述矿业项目同期关联网络分别进行社区划分得到多个矿业项目类别全关联集合和多个矿业项目同期关联集合,将多个矿业项目类别全关联集合和多个矿业项目同期关联集合进行交集运算得到多种类矿业项目集合;
在多种类矿业项目集合中分别抽取多个历史矿业项目组合成多种类历史矿业项目作为有标记训练样本;
在除多种类矿业项目集合外的矿业项目类别全关联集合中抽取多个历史矿业项目作为无标记训练样本;
所述矿业项目集合的种类包括推介项目、重大项目和一般项目。
作为本发明的一种优选方案,所述评价指标相似性利用欧式距离、相关系数、jaccard指数中的至少一种进行量化。
作为本发明的一种优选方案,所述社区划分的目标函数为模块度。
作为本发明的一种优选方案,所述采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型,包括:
采用半监督支持向量机基于有标记训练数据集进行模型训练构建出矿业项目评价初始模型SVMinit;
利用矿业项目评价初始模型SVMinit对无标记训练数据集的无标记训练样本进行评价结果预测,构建无标记训练样本的评价结果的迭代更新目标函数,以提高无标记训练样本的评价结果的准确性;
利用无标记训练样本的评价结果的迭代更新结果对无标记训练数据集进行更新,将更新后的无标记训练数据集与有标记训练数据集进行融合得到训练数据集;
基于融合得到的训练数据集利用网格搜索方法对矿业项目评价初始模型SVMinit进行参数优化得到矿业项目评价最终模型SVMlast;
所述迭代更新目标函数的函数表达式为:
迭代更新目标函数的约束条件为:
yi[ωTκ(xi)+b]≥1-ξi
ξi≥0,i=1,2,…,N
式中,ω为权重矢量矩阵;κ()为核函数;xi为数据集中的特征参数,即评价指标;b为偏置,常数;Cl和Cu分别为有标记训练数据集与无标记训练数据集惩罚系数;ξi为第i次迭代的松弛变量;N为无标记训练样本与有标记训练样本的个数总和;l为有标记训练样本的个数;为无标签数据集的预测结果;yi是有标签数据集对应的标签,为评价结果;min为最小化运算符;i为计数变量;T为转置运算符。
作为本发明的一种优选方案,所述半监督支持向量机的参数采用改进的网格搜索方法进行优化,包括:
在网格搜索方法中将惩罚系数Cl和Cu设置为非等间隔步长搜索,在惩罚系数Cl和Cu的取值范围内利用非等间隔步长搜索进行半监督支持向量机的参数搜索确定;
将每次搜索确定的各组半监督支持向量机的参数依次得到每次搜索的各个矿业项目评价过渡模型,将每次搜索各个矿业项目评价过渡模型进行预测精度评价,将每次搜索的最高预测精度的矿业项目评价过渡模型对应的半监督支持向量机的参数下次搜索的搜索中心,直至搜索过程中产生最高预测精度对应的半监督支持向量机的参数作为半监督支持向量机的最优参数;
半监督支持向量机的最优参数对应的矿业项目评价过渡模型作为矿业项目评价最终模型SVMlast。
作为本发明的一种优选方案,所述非等间隔步长搜索的步长设定为自适应步长设定,以实现非等间隔步长搜索的步长与预测精度进行自适应匹配;
所述自适应步长设定函数为:
d=-Aln(P);
式中,d为下次搜索的步长,P为当次搜索的预测精度,A为常系数。
作为本发明的一种优选方案,所述将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代,包括:
当前待评价矿业项目的评价结果和评价指标的数据值对所述训练数据集进行更新;
利用更新后的训练数据集对矿业项目评价最终模型SVMlast进行重训练,以实现对矿业项目评价最终模型SVMlast的迭代更新。
作为本发明的一种优选方案,在构建矿业项目评价模型之前和对前待评价矿业项目的评价结果进行模型预测前,对矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能进行归一化处理。
本发明与现有技术相比较具有如下有益效果:
本发明通过众多矿业项目的分析,依据行业内丰富的专业人员经验,确定了矿业项目评价指标,为后期模型建立特征参数的确定提供了先验认识,基于有限的矿业项目的评价结果,半监督方法解决了标签数据不足的情况,改善了无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题,而且在历史矿业项目评价库中构建矿业项目全关联网络和矿业项目同期关联网络来表征历史矿业项目的全时域关联性和同时域关联性,组合全时域关联性和同时域关联性抽取有标记训练样本,筛选出分类准确性更高的样本用作训练达到提高矿业项目评价模型准确性的目的。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的基于半监督学习的矿业项目评价方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
众多学者围绕着矿业项目评价的方法开展了一系列研究,如专家判别法、数据驱动方法。专家判别法主要根据以往人工经验进行判定,对评价人员的经验和水平要求较高,同时判别的结果也具有主观性;基于机器学习的数据驱动方法主要根据矿业项目的评价指标,采用机器学习方法进行自动识别,该方法对训练数据集要求较高,需要较多的训练数据集才能得到精度较高的模型。而由于矿业项目评价结果较少,也即数据标签较少,采用常规机器学习方法无法得到泛化性好、可移植性强的模型。因此,本发明提供了一种矿业项目评价方法,利用半监督学习构建矿业项目评价模型,考虑有标签的样本,同时也充分利用未标记标签的样本特性,为矿业项目的评价提供了一种泛化性好、可移植性强的解决方案。
如图1所示,本发明提供了一种基于半监督学习的矿业项目评价方法,包括以下步骤:
步骤S1、分析矿业项目评价的影响因素确定出矿业项目的评价指标,依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本,并将有标记训练样本的评价指标和评价结果进行逐一项目对应构建出有标记训练数据集,将无标记训练样本的评价指标构建出无标记训练数据集;
步骤S2、采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型,其中,半监督支持向量机的参数采用改进的网格搜索方法进行优化;
步骤S3、获取当前待评价矿业项目的评价指标的数据值,利用矿业项目评价模型基于待评价矿业项目的评价指标的数据值得到当前待评价矿业项目的评价结果;
步骤S4、将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代。
本发明提供了一种利用构建模型实现矿业项目自动化的评价方法,代替传统人工识别的过程,提高了矿业项目评价的精度以及识别效率,通过众多矿业项目的分析,依据行业内丰富的专业人员经验,确定了矿业项目评价指标,为后期模型建立特征参数的确定提供了先验认识,基于有限的矿业项目的评价结果,半监督方法解决了标签数据不足的情况,改善了无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题,再利用改进的网格搜索方法用于半监督SVM参数的优化,降低算法的复杂度,提升了矿业项目评价模型参数的寻优效率,以及训练数据集和评价模型自更新的方法,能够将预测结果不断添加到训练数据中,实时更新训练数据,提高评价模型的实时识别精度。
所述矿业项目评价的影响因素包括矿业资源禀赋、矿业投资环境、矿业生产能力,所述矿业项目的评价指标包括矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能,所述评价结果包括推介项目、重大项目和一般项目。
本发明构建历史矿业项目的关联性网络来获得训练样本用作模型训练,相较于人工经验进行训练数据集的获取,利用联性网络能够自动获取保证矿业项目评价模型准确度的训练样本,具体如下:
所述依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本,包括:
将历史矿业项目评价库中的所有历史矿业项目依据评价指标构建出矿业项目全关联网络,其中,矿业项目全关联网络的构建包括:
在历史矿业项目评价库中的所有历史矿业项目间量化任意两个历史矿业项目的评价指标相似性,并将评价指标相似性高于阈值的两个历史矿业项目间设置连接边;
将历史矿业项目评价库中的所有历史矿业项目抽象为网络节点,将存在连接边的历史矿业项目间对应的网络节点进行连接得到所述矿业项目全关联网络;
将历史矿业项目评价库中同历史时期的历史矿业项目依据评价指标构建出矿业项目同期关联网络,其中,矿业项目同期关联网络的构建包括:
在历史矿业项目评价库中同历史时期的历史矿业项目间量化任意两个历史矿业项目的评价指标相似性,并将评价指标相似性高于阈值的两个历史矿业项目间设置连接边;
将历史矿业项目评价库中同历史时期的历史矿业项目抽象为网络节点,将存在连接边的历史矿业项目间对应的网络节点进行连接得到所述矿业项目同期关联网络;
将所述矿业项目全关联网络与所述矿业项目同期关联网络分别进行社区划分得到多个矿业项目类别全关联集合和多个矿业项目同期关联集合,将多个矿业项目类别全关联集合和多个矿业项目同期关联集合进行交集运算得到多种类矿业项目集合;
在多种类矿业项目集合中分别抽取多个历史矿业项目组合成多种类历史矿业项目作为有标记训练样本;
在除多种类矿业项目集合外的矿业项目类别全关联集合中抽取多个历史矿业项目作为无标记训练样本;
所述矿业项目集合的种类包括推介项目、重大项目和一般项目。
所述评价指标相似性利用欧式距离、相关系数、jaccard指数中的至少一种进行量化。
所述社区划分的目标函数为模块度。
在历史矿业项目评价库中的所有历史矿业项目间构建出矿业项目全关联网络,在矿业项目的全时域内进行矿业项目关联构建,基于矿业项目全关联网络得到的多种类矿业项目集合,即推介项目集合、重大项目集合和一般项目集合,能够通过矿业项目关联性进行自动化分类,而比之人为进行矿业项目分类而言,去除了人为主观性,客观准确性更强,但是矿业项目的全时域关联存在由于时期的不同,分类存在时期差异性,比如在技术先进的时期,会将技术落后时期的标定为重大矿业项目标记为一般矿业项目,因此由于时期的不同,矿业项目的标记类别并不完全一致,因此为了弥补矿业项目全关联网络得到的多种类矿业项目集合中存在的误标记,补充了在历史矿业项目评价库中同历史时期的历史矿业项目间构建出矿业项目全关联网络,在矿业项目的同一时域内进行矿业项目关联构建,基于矿业项目同期关联网络得到的多种类矿业项目集合,即推介项目集合、重大项目集合和一般项目集合,将同期关联网络得到的多种类矿业项目集合与矿业项目全关联网络得到的多种类矿业项目集合进行结果组合,能够获取在全时域和同时域同时具有相同的分类标准,即选取出的训练样本无论在全时域范围内或单个时域范围内均属于同一个种类,降低矿业项目全关联网络得到的多种类矿业项目集合中的矿业项目的误判率,从而以此训练样本得到的矿业项目评价模型得到矿业项目评价结果不受评价时期的影响,准确性更高和鲁棒性更强。
本发明利用有标记训练数据集和无标记训练数据集矿业项目评价模型,基于有限的矿业项目的评价结果,半监督方法解决了标签数据不足的情况,改善了无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题,具体如下:
所述采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型,包括:
采用半监督支持向量机基于有标记训练数据集进行模型训练构建出矿业项目评价初始模型SVMinit;
利用矿业项目评价初始模型SVMinit对无标记训练数据集的无标记训练样本进行评价结果预测,构建无标记训练样本的评价结果的迭代更新目标函数,以提高无标记训练样本的评价结果的准确性;
利用无标记训练样本的评价结果的迭代更新结果对无标记训练数据集进行更新,将更新后的无标记训练数据集与有标记训练数据集进行融合得到训练数据集;
基于融合得到的训练数据集利用网格搜索方法对矿业项目评价初始模型SVMinit进行参数优化得到矿业项目评价最终模型SVMlast;
再利用改进的网格搜索方法用于半监督SVM参数的优化,降低算法的复杂度,提升了矿业项目评价模型参数的寻优效率。
所述迭代更新目标函数的函数表达式为:
迭代更新目标函数的约束条件为:
yi[ωTκ(xi)+b]≥1-ξi
ξi≥0,i=1,2,…,N
式中,ω为权重矢量矩阵;κ()为核函数;xi为数据集中的特征参数,即评价指标;b为偏置,常数;Cl和Cu分别为有标记训练数据集与无标记训练数据集惩罚系数;ξi为第i次迭代的松弛变量;N为无标记训练样本与有标记训练样本的个数总和;l为有标记训练样本的个数;为无标签数据集的预测结果;yi是有标签数据集对应的标签,为评价结果;min为最小化运算符;i为计数变量;T为转置运算符。
根据上述公式不断迭代Cl和Cu参数,使得Cu远小于Cl,使得有标记样本所起的作用更大,最终得到无标记训练数据集的正确预测结果。
所述半监督支持向量机的参数采用改进的网格搜索方法进行优化,包括:
在网格搜索方法中将惩罚系数Cl和Cu设置为非等间隔步长搜索,在惩罚系数Cl和Cu的取值范围内利用非等间隔步长搜索进行半监督支持向量机的参数搜索确定;
将每次搜索确定的各组半监督支持向量机的参数依次得到每次搜索的各个矿业项目评价过渡模型,将每次搜索各个矿业项目评价过渡模型进行预测精度评价,将每次搜索的最高预测精度的矿业项目评价过渡模型对应的半监督支持向量机的参数下次搜索的搜索中心,直至搜索过程中产生最高预测精度对应的半监督支持向量机的参数作为半监督支持向量机的最优参数;
半监督支持向量机的最优参数对应的矿业项目评价过渡模型作为矿业项目评价最终模型SVMlast。
所述非等间隔步长搜索的步长设定为自适应步长设定,以实现非等间隔步长搜索的步长与预测精度进行自适应匹配;
所述自适应步长设定函数为:
d=-Aln(P);
式中,d为下次搜索的步长,P为当次搜索的预测精度,A为常系数。
非等间隔步长搜索的步长,自适应预测精度来调整搜索步长,搜索前期半监督支持向量机的参数产生的预测精度低,则搜索步长自适应预测精度,使得搜索前期保持长搜索步长以快速压缩半监督支持向量机的最优参数的数据区间,提高搜索效率,搜索后期半监督支持向量机的参数产生的预测精度高,则搜索步长自适应预测精度,使得搜索后期保持短搜索步长,以在半监督支持向量机的最优参数的数据区间进行精细化搜索,能够准确搜索得到半监督支持向量机的最优参数。
比如,支持向量机模型的参数主要为惩罚系数Cl,取值范围为[2-5,210],参数优化采用非等间隔步长搜索。初始搜索步长为23,即Cl的取值为2-5,2-2,21,24,27,210。根据Cl取值,确定半监督支持向量机模型最优精度值,并以此为中心点,将步长调整为2,得到模型精度最高值对应的Cl值,并据此得到最终的半监督支持向量机模型
本发明通过训练数据集和评价模型自更新的方法,能够将预测结果不断添加到训练数据中,实时更新训练数据,提高评价模型的实时识别精度,具体如下:
所述将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代,包括:
当前待评价矿业项目的评价结果和评价指标的数据值对所述训练数据集进行更新;
利用更新后的训练数据集对矿业项目评价最终模型SVMlast进行重训练,以实现对矿业项目评价最终模型SVMlast的迭代更新。
在构建矿业项目评价模型之前和对前待评价矿业项目的评价结果进行模型预测前,对矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能进行归一化处理。
本发明通过众多矿业项目的分析,依据行业内丰富的专业人员经验,确定了矿业项目评价指标,为后期模型建立特征参数的确定提供了先验认识,基于有限的矿业项目的评价结果,半监督方法解决了标签数据不足的情况,改善了无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题,而且在历史矿业项目评价库中构建矿业项目全关联网络和矿业项目同期关联网络来表征历史矿业项目的全时域关联性和同时域关联性,组合全时域关联性和同时域关联性抽取有标记训练样本,筛选出分类准确性更高的样本用作训练达到提高矿业项目评价模型准确性的目的。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (6)
1.一种基于半监督学习的矿业项目评价方法,其特征在于,包括以下步骤:
步骤S1、分析矿业项目评价的影响因素确定出矿业项目的评价指标,依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本,并将有标记训练样本的评价指标和评价结果进行逐一项目对应构建出有标记训练数据集,将无标记训练样本的评价指标构建出无标记训练数据集;
步骤S2、采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型,其中,半监督支持向量机的参数采用改进的网格搜索方法进行优化;
步骤S3、获取当前待评价矿业项目的评价指标的数据值,利用矿业项目评价模型基于待评价矿业项目的评价指标的数据值得到当前待评价矿业项目的评价结果;
步骤S4、将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代;所述矿业项目评价的影响因素包括矿业资源禀赋、矿业投资环境、矿业生产能力,所述矿业项目的评价指标包括矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能,所述评价结果包括推介项目、重大项目和一般项目;所述依据历史矿业项目评价库抽取多种类历史矿业项目作为有标记训练样本和无标记训练样本,包括:
将历史矿业项目评价库中的所有历史矿业项目依据评价指标构建出矿业项目全关联网络,其中,矿业项目全关联网络的构建包括:
在历史矿业项目评价库中的所有历史矿业项目间量化任意两个历史矿业项目的评价指标相似性,并将评价指标相似性高于阈值的两个历史矿业项目间设置连接边;
将历史矿业项目评价库中的所有历史矿业项目抽象为网络节点,将存在连接边的历史矿业项目间对应的网络节点进行连接得到所述矿业项目全关联网络;
将历史矿业项目评价库中同历史时期的历史矿业项目依据评价指标构建出矿业项目同期关联网络,其中,矿业项目同期关联网络的构建包括:
在历史矿业项目评价库中同历史时期的历史矿业项目间量化任意两个历史矿业项目的评价指标相似性,并将评价指标相似性高于阈值的两个历史矿业项目间设置连接边;
将历史矿业项目评价库中同历史时期的历史矿业项目抽象为网络节点,将存在连接边的历史矿业项目间对应的网络节点进行连接得到所述矿业项目同期关联网络;
将所述矿业项目全关联网络与所述矿业项目同期关联网络分别进行社区划分得到多个矿业项目类别全关联集合和多个矿业项目同期关联集合,将多个矿业项目类别全关联集合和多个矿业项目同期关联集合进行交集运算得到多种类矿业项目集合;
在多种类矿业项目集合中分别抽取多个历史矿业项目组合成多种类历史矿业项目作为有标记训练样本;
在除多种类矿业项目集合外的矿业项目类别全关联集合中抽取多个历史矿业项目作为无标记训练样本;
所述矿业项目集合的种类包括推介项目、重大项目和一般项目;
所述采用半监督支持向量机基于有标记训练数据集和无标记训练数据集对有标记训练样本和无标记训练样本进行模型训练构建出矿业项目评价模型,包括:
采用半监督支持向量机基于有标记训练数据集进行模型训练构建出矿业项目评价初始模型SVMinit;利用矿业项目评价初始模型SVMinit对无标记训练数据集的无标记训练样本进行评价结果预测,构建无标记训练样本的评价结果的迭代更新目标函数,以提高无标记训练样本的评价结果的准确性;
利用无标记训练样本的评价结果的迭代更新结果对无标记训练数据集进行更新,将更新后的无标记训练数据集与有标记训练数据集进行融合得到训练数据集;
基于融合得到的训练数据集利用网格搜索方法对矿业项目评价初始模型SVMinit进行参数优化得到矿业项目评价最终模型SVMlast;
所述迭代更新目标函数的函数表达式为:;迭代更新目标函数的约束条件为:;式中,/>为权重矢量矩阵;/>为核函数;x i 为数据集中的特征参数,即评价指标;/>为偏置,常数;/>和/>分别为有标记训练数据集与无标记训练数据集惩罚系数;/>为第i次迭代的松弛变量;N为无标记训练样本与有标记训练样本的个数总和;l为有标记训练样本的个数;/>为无标签数据集的预测结果;y i 是有标签数据集对应的标签,为评价结果;min为最小化运算符;i为计数变量;T为转置运算符;所述半监督支持向量机的参数采用改进的网格搜索方法进行优化,包括:
在网格搜索方法中将惩罚系数C l 和C u 设置为非等间隔步长搜索,在惩罚系数C l 和C u 的取值范围内利用非等间隔步长搜索进行半监督支持向量机的参数搜索确定;将每次搜索确定的各组半监督支持向量机的参数,依次对矿业项目评价初始模型SVMinit进行参数优化得到每次搜索的各个矿业项目评价过渡模型,将每次搜索各个矿业项目评价过渡模型进行预测精度评价,将每次搜索的最高预测精度的矿业项目评价过渡模型对应的半监督支持向量机的参数作为下次搜索的搜索中心,直至搜索过程中产生最高预测精度对应的半监督支持向量机的参数作为半监督支持向量机的最优参数;半监督支持向量机的最优参数对应的矿业项目评价过渡模型作为矿业项目评价最终模型SVMlast。
2.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法,其特征在于:所述评价指标相似性利用欧式距离、相关系数、jaccard指数中的至少一种进行量化。
3.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法,其特征在于:所述社区划分的目标函数为模块度。
4.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法,其特征在于:所述非等间隔步长搜索的步长设定为自适应步长设定,以实现非等间隔步长搜索的步长与预测精度进行自适应匹配;
所述自适应步长设定函数为:;
式中,d为下次搜索的步长,P为当次搜索的预测精度,A为常系数。
5.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法,其特征在于,所述将当前待评价矿业项目的评价结果和评价指标的数据值对矿业项目评价模型进行更新迭代,包括:
当前待评价矿业项目的评价结果和评价指标的数据值对所述训练数据集进行更新;利用更新后的训练数据集对矿业项目评价最终模型SVMlast进行重训练,以实现对矿业项目评价最终模型SVMlast的迭代更新。
6.根据权利要求1所述的一种基于半监督学习的矿业项目评价方法,其特征在于,在构建矿业项目评价模型之前和对前待评价矿业项目的评价结果进行模型预测前,对矿山资源量、矿山储量、矿业政策风险、矿业法律风险、矿山设计产能进行归一化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310531667.3A CN116579651B (zh) | 2023-05-11 | 2023-05-11 | 一种基于半监督学习的矿业项目评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310531667.3A CN116579651B (zh) | 2023-05-11 | 2023-05-11 | 一种基于半监督学习的矿业项目评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116579651A CN116579651A (zh) | 2023-08-11 |
CN116579651B true CN116579651B (zh) | 2023-11-10 |
Family
ID=87533455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310531667.3A Active CN116579651B (zh) | 2023-05-11 | 2023-05-11 | 一种基于半监督学习的矿业项目评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116579651B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211693A (ja) * | 2008-02-29 | 2009-09-17 | Fujitsu Ltd | パターン識別装置およびパターン識別方法 |
WO2020042795A1 (zh) * | 2018-08-31 | 2020-03-05 | 阿里巴巴集团控股有限公司 | 样本属性评估模型训练方法、装置及服务器 |
CN114022015A (zh) * | 2021-11-15 | 2022-02-08 | 天津大学 | 一种基于深度学习的海外矿业投资风险评价方法 |
CN114663102A (zh) * | 2020-12-03 | 2022-06-24 | 中国人寿资产管理有限公司 | 基于半监督模型预测发债主体违约的方法、设备及存储介质 |
CN115099988A (zh) * | 2022-06-28 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 模型训练方法、数据处理方法、设备及计算机介质 |
CN115115244A (zh) * | 2022-07-08 | 2022-09-27 | 中国地质调查局发展研究中心(全国地质资料馆、自然资源部矿产勘查技术指导中心) | 矿业项目投资环境的评价方法、装置及计算机设备 |
-
2023
- 2023-05-11 CN CN202310531667.3A patent/CN116579651B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211693A (ja) * | 2008-02-29 | 2009-09-17 | Fujitsu Ltd | パターン識別装置およびパターン識別方法 |
WO2020042795A1 (zh) * | 2018-08-31 | 2020-03-05 | 阿里巴巴集团控股有限公司 | 样本属性评估模型训练方法、装置及服务器 |
CN114663102A (zh) * | 2020-12-03 | 2022-06-24 | 中国人寿资产管理有限公司 | 基于半监督模型预测发债主体违约的方法、设备及存储介质 |
CN114022015A (zh) * | 2021-11-15 | 2022-02-08 | 天津大学 | 一种基于深度学习的海外矿业投资风险评价方法 |
CN115099988A (zh) * | 2022-06-28 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 模型训练方法、数据处理方法、设备及计算机介质 |
CN115115244A (zh) * | 2022-07-08 | 2022-09-27 | 中国地质调查局发展研究中心(全国地质资料馆、自然资源部矿产勘查技术指导中心) | 矿业项目投资环境的评价方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116579651A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807760B (zh) | 一种烟叶分级方法及*** | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
CN112069310A (zh) | 基于主动学习策略的文本分类方法及*** | |
CN113591879A (zh) | 基于自监督学习的深度多视图聚类方法、网络、装置及存储介质 | |
CN111460200B (zh) | 基于多任务深度学习的图像检索方法、模型及其构建方法 | |
CN114880478B (zh) | 基于主题信息增强的弱监督方面类别检测方法 | |
Islam et al. | A comprehensive survey on the process, methods, evaluation, and challenges of feature selection | |
CN112329884B (zh) | 基于判别性视觉属性的零样本识别方法及*** | |
CN110909785B (zh) | 基于语义层级的多任务Triplet损失函数学习方法 | |
Do et al. | Associative classification with artificial immune system | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN115048539A (zh) | 基于动态记忆力的社交媒体数据在线检索方法及*** | |
CN114140645B (zh) | 基于改进自监督特征学习的摄影图像美学风格分类方法 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN116579842B (zh) | 基于用户行为数据的信用数据分析方法及*** | |
CN116579651B (zh) | 一种基于半监督学习的矿业项目评价方法 | |
García-García et al. | Music genre classification using the temporal structure of songs | |
CN115201394B (zh) | 一种多组分变压器油色谱在线监测方法及相关装置 | |
CN111984842A (zh) | 银行客户数据处理方法及装置 | |
Shah et al. | Random patterns clothing image retrieval using convolutional neural network | |
CN112699271B (zh) | 一种提升用户视频网站留存时间的推荐方法 | |
CN113468936A (zh) | 一种食材识别方法、装置和设备 | |
CN112347162A (zh) | 一种基于在线学习的多元时序数据规则挖掘方法 | |
CN116304110B (zh) | 使用英语词汇数据构建知识图谱的工作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |