CN112529112B - 一种矿物识别的方法和装置 - Google Patents
一种矿物识别的方法和装置 Download PDFInfo
- Publication number
- CN112529112B CN112529112B CN202011596584.5A CN202011596584A CN112529112B CN 112529112 B CN112529112 B CN 112529112B CN 202011596584 A CN202011596584 A CN 202011596584A CN 112529112 B CN112529112 B CN 112529112B
- Authority
- CN
- China
- Prior art keywords
- mineral
- sample data
- classification model
- minerals
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2308—Concurrency control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种矿物识别的方法和装置,该方法包括:获取目标采样区域的矿物样本数据;将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值;在确定所述概率值均小于相应的判决阈值的情况下,将所述矿物样本数据存储至所述分类模型对应的数据库中,获得扩充分类模型;根据所述扩充分类模型识别矿物,获得所述矿物的类型,能够有效利用化学组分数据,对矿物进行识别。
Description
技术领域
本申请涉及地质鉴定领域,具体涉及一种矿物识别的方法和装置。
背景技术
在地质工作中,岩矿鉴定是极为重要的一步。对于从野外取样的岩石样品需要进行初步加工以满足专业仪器鉴定要求,并观察其矿物组分以及相对含量,最后结合野外对其观察的记录来进一步确定岩石种类及相关成因信息。当前,岩矿鉴定多数基于矿物的物理和光学性质,少数由化学组分数据分析完成。基于矿物的物理和光学性质的岩矿鉴定由人工实现,经济与时间成本高,易受多种主客观因素影响。基于化学组分数据的方法获取的定量数据量大,且拓展应用性强。
因此,如何有效利用化学组分数据,对矿物进行识别成为了亟待解决的问题。
发明内容
本申请实施例提供一种矿物识别的方法和装置,通过本申请的技术方案,至少可以实现有效利用化学组分数据,对矿物进行识别。
第一方面,一种矿物样本数据库扩充的方法,所述方法包括:获取目标采样区域的矿物样本数据;将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值;在确定所述概率值均小于相应的判决阈值的情况下,将所述矿物样本数据存储至所述分类模型对应的数据库中。
本申请实施例通过扩充矿物样本数据库,能够实现对个性化数据库的快速构建,解决由于数据库中样本数据的缺少,给精准识别带来的不便。
结合第一方面,在一种实施例中,所述目标采样区域是通过如下方式获得的:计算原始采样区域的信息熵,将小于等于信息熵阈值的所述原始采样区域作为所述目标采样区域。
本申请实施例通过对原始采样区进行信息熵计算,能够通过判断是否满足信息熵阈值来获取目标采样区域,从而能够有效衡量采样区元素含量数据的不确定性,减少肉眼观察选区产生的误差。
结合第一方面,在一种实施例中,所述矿物样本数据是通过如下方式获得的:根据所述目标采样区域的信息,获得原始矿物样本数据;将所述原始矿物样本数据的空值补充默认值,获得补充后的所述原始矿物样本数据;将所述补充后的所述原始矿物样本数据进行特征重要性排序,筛选出所述矿物样本数据。
本申请实施例通过对原始矿物样本数据的补充,能够将存在空值的原始矿物样本数据补充完整;通过对数据进行重要性排序,能够实现数据降维,以此在准确率和运行时间等方面提高分类模型的运行效率。
结合第一方面,在一种实施例中,所述将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值,包括:根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,其中,所述分类模型包括决策树。
本申请实施例通过获得属于各类矿物的概率值集合组,从而获得目标分类结果,能够提高分类的准确性。
结合第一方面,在一种实施例中,所述分类模型包括一种所述决策树;所述根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,包括:通过所述决策树获得所述矿物样本属于各类矿物的概率值,得到概率值集合组,其中,所述概率值集合组中的最大概率值大于所述判决阈值;从所述概率集合组中选择所述最大概率值对应的矿物所属的类别作为所述目标分类结果。
本申请实施例通过包括一种决策树的分类模型获得的概率值集合组中的最大概率值,作为目标分类结果,能够提高分类结果的准确性。
结合第一方面,在一种实施例中,所述分类模型包括多种所述决策树;根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,包括:通过所述多个决策树中的各决策树获得所述矿物样本属于所述各类矿物的概率值,得到与多个决策树分别对应的多个概率值集合,其中,所述属于各类矿物的概率值集合组中的最大概率值均大于所述判决阈值;分别依据所述多个概率值集合中的各概率值集合获取初步分类结果,其中,所述初步分类结果是从所述概率集合组中选择最大概率值对应的矿物所属的类别确定的;根据多个所述初步分类结果的占比确定所述目标分类结果。
本申请实施例通过多种决策树计算获得目标分类结果,能够比较与多种决策树对应的概率值集合,从而能够提高分类的准确率。
结合第一方面,在一种实施例中所述各类矿物的所述矿物样本数据,存在于所述分类模型的数据库中。
第二方面,一种分类模型训练的方法,所述方法包括:获取目标采样区域的矿物训练样本数据;随机删除预定数量不满足理论范围的所述矿物训练样本数据,获得第一样本数据;根据如第一方面所述的方法,将所述第一样本数据输入分类模型进行训练,获得分类结果。
第三方面,一种矿物识别的方法,所述方法包括:通过如第一方面所述的矿物样本数据库扩充的方法,获得扩充分类模型;根据所述扩充分类模型识别矿物,获得所述矿物的类型。
第四方面,一种矿物识别的装置,所述装置包括:获取模块,被配置为获取目标采样区域的矿物样本数据;计算模块,被配置为将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值;扩充模块,被配置为在确定所述概率值均小于相应的判决阈值的情况下,将所述矿物样本数据存储至所述分类模型对应的数据库中,获得扩充分类模型;识别模块,被配置为根据所述扩充分类模型识别矿物,获得所述矿物的类型。
结合第四方面,在一种实施例中,获取模块,具体被配置为计算原始采样区域的信息熵,将小于等于信息熵阈值的所述原始采样区域作为所述目标采样区域。
结合第四方面,在一种实施例中,获取模块,具体被配置为根据所述目标采样区域的信息,获得原始矿物样本数据;将所述原始矿物样本数据的空值补充默认值,获得补充后的所述原始矿物样本数据;将所述补充后的所述原始矿物样本数据进行特征重要性排序,筛选出所述矿物样本数据。
结合第四方面,在一种实施例中,计算模块,具体被配置为根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,其中,所述分类模型包括决策树。
结合第四方面,在一种实施例中,所述分类模型包括一种所述决策树;计算模块,具体被配置为通过所述决策树获得所述矿物样本属于各类矿物的概率值,得到概率值集合组,其中,所述概率值集合组中的最大概率值大于所述判决阈值;从所述概率集合组中选择所述最大概率值对应的矿物所属的类别作为所述目标分类结果。
结合第四方面,在一种实施例中,所述分类模型包括多种所述决策树;计算模块,具体被配置为通过所述多个决策树中的各决策树获得所述矿物样本属于所述各类矿物的概率值,得到与多个决策树分别对应的多个概率值集合,其中,所述属于各类矿物的概率值集合组中的最大概率值均大于所述判决阈值;分别依据所述多个概率值集合中的各概率值集合获取初步分类结果,其中,所述初步分类结果是从所述概率集合组中选择最大概率值对应的矿物所属的类别确定的;根据多个所述初步分类结果的占比确定所述目标分类结果。
结合第四方面,在一种实施例中所述各类矿物的所述矿物样本数据,存在于所述分类模型的数据库中。
第五方面,本申请的一些实施例提供一种电子设备,包括:处理器、存储器和总线,所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现上述所有实施方式中任一所述的方法。
第六方面,本申请的一些实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时实现上述所有实施方式中任一所述的方法。
附图说明
图1是本申请实施例示出的一种矿物识别场景图;
图2是本申请实施例示出的一种矿物识别方法的流程图;
图3是本申请实施例示出的一种矿物识别实施例的流程图;
图4是本申请实施例示出的一种矿物识别装置结构图;
图5是本申请实施例示出的一种电子设备结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对附图中提供的本申请的实施例的详情描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护范围。
下面结合附图对本申请实施例进行详细描述。
本申请实施可以应用于矿物识别的场景,例如,在矿物样本数据库中已存在的同种矿物,但由于某些元素含量不同导致识别结果有误,或出现一些矿物样本据库中未包含的矿物种类,导致采用固定数据库对于这一类的矿物识别产生困难,因此本申请的发明人发现利用有限的数据样本,扩充分类模型的数据库具有非常重要的意义。例如,在未知矿物样本数据的矿物识别场景中,可以采用本申请实施例中的方法对矿物样本数据库进行扩充,获得扩充分类模型,进而根据扩充分类模型,对新获取的矿物进行类别识别。可以理解的是,本申请实施例的应用场景不限于此。
在地质工作中,岩矿鉴定是极为重要的一步。对于从野外取样的岩石样品需要进行初步加工以满足专业仪器鉴定要求,并观察其矿物组分以及相对含量,最后结合野外对其观察的记录来进一步确定岩石种类及相关成因信息。当前,岩矿鉴定多数基于矿物的物理和光学性质,少数由化学组分数据分析完成。基于矿物的物理和光学性质的岩矿鉴定由人工实现,经济与时间成本高,易受多种主客观因素影响。基于化学组分数据的方法获取的定量数据量大,且拓展应用性强。因此,如何有效利用化学组分数据,对矿物进行识别成为了亟待解决的问题。
鉴于上述问题,本申请实施例提供一种矿物识别的方法及装置,该方法包括:获取目标采样区域的矿物样本数据;将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值;在确定所述概率值均小于相应的判决阈值的情况下,将所述矿物样本数据存储至所述分类模型对应的数据库中,获得扩充分类模型;根据所述扩充分类模型识别矿物,获得所述矿物的类型,能够有效利用化学组分数据,对矿物进行识别。
下面结合图1详细描述一种矿物识别的场景,如图1所示,包括:矿物样品110、X射线荧光光谱仪120和电子设备130,在小于等于20mbar大气压的近真空环境中,对矿物样品的观察面进行切割和抛光处理后,放置于100℃至105℃的烘干箱进行干燥处理,使用金相试样专用橡皮泥固定于X射线荧光光谱仪的载物台,X射线荧光光谱仪将识别原始采样区域的元素含量数据传输到电子设备中对矿物进行分类。
下面结合图2详细描述一种矿物样本识别的方法的实施步骤,如图2所示步骤,包括:
210,获取目标采样区域的矿物样本数据。
在一种实施方式中,计算原始采样区域的信息熵,将小于等于信息熵阈值的所述原始采样区域作为所述目标采样区域。
需要说明的是,矿物样本数据包括化学组分数据,化学组分数据可以是矿物的元素组成,例如:似晶石的化学组分为BeO占45.5%和SiO2占54.5%。
矿物样品的原始采样区域可能存在目标矿物分布不均的情况,导致样本数据采集不准确,因此本申请的一些实施例的目标采样区域的选取以元素含量数据信息熵作为评价标准,计算原始采样区域的信息熵,选取小于等于信息熵阈值的原始采样区域作为目标采样区域,将原始采样区域的样本数据归一化后每种元素的分布范围为[0,1],将原始采样区域等分为M份,使用如公式(1)所示的公式计算信息熵:
其中,nrc为与当前样本点r元素同处c范围段内的样本点数目,N为总样本点数目。
在计算完成当前原始采样区域的信息熵后,将信息熵与信息熵阈值进行对比,在小于等于信息熵阈值的情况下,选择该原始采样区域作为目标区域;在大于信息熵阈值的情况下,重新选择原始采样区域进行重新计算信息熵直到获得的信息熵小于等于信息熵阈值,可以理解的是,信息熵阈值可以是0.55或0.60,本申请实施例不限于此。
通过计算原始采样区域的信息熵,选取目标采样区域的方法,包括以下具体实施例,以Cu元素为例,在原始采样区域共10个样本点,且10个样本点中Cu元素的含量分别为[0.1,0.5,0.56,0.58,0.6,0.6,0.62,0.63,0.7,0.9]。取M=4,则得到4个等分的区间[0,0.25),[0.25,0.5),[0.5,0.75),[0.75,1],则中r为Cu,c对应上述4个范围段。若c=3,即[0.5,0.75)范围段,则p=8/10。由此例可得3个概率密度p={0.1,0.8,0.1}。最后求得该原始采样区域的10个样本点Cu元素的信息熵为-(0.1ln(0.1)+0.8ln(0.8)+0.1ln(0.1))≈0.64>0.55,则需要重新选择原始采样区域进行信息熵计算,任一元素的信息熵超过0.55原则上都需要选区重测。
需要说明的是上述具体实施例是实验室结果,实际情况下可能更加复杂,在特殊情况下按照此信息熵阈值可能导致无法选取合适的目标采样区域,因此该信息熵阈值的取值作为参考可以根据实际情况做适当增加(信息熵越小表示数据不定性越小,也就说明选取的样本点更加合适,因此信息熵阈值越大代表数据的不确定性较大,不适合作为目标采样区域)。
在一种实施方式中,矿物样本数据是通过如下方式获得的:根据所述目标采样区域的信息,获得原始矿物样本数据;将所述特征阈值的所述原始矿物样本数据的空值补充默认值,获得补充后的所述原始矿物样本数据;将所述补充后的所述原始矿物样本数据进行特征重要性排序,筛选出所述矿物样本数据。
在选择出目标采样区域后,接收目标采样区域的原始矿物样本数据,例如:取100个样本点,其中,存在Cu元素含量的样本点为60个,那么将剩下40个Cu元素样本点的空值补充默认值0,获得补充后的原始矿物样本数据,再使用决策树算法对补充后的原始矿物样本数据进行重要性排序,以元素作为决策树节点划分特征的次数为衡量标准,次数越多表示重要性越高,删除划分次数在100次以下的元素,筛选出矿物样本数据。
需要说明的是,根据划分特征的次数确定矿物样本降维的阈值,主要根据实际情况和经验来取值,可以是小于200次,小于150次等,本申请实施例不限于此。
需要说明的是,由于本申请实施例中,使用X射线荧光光谱仪获得原始矿物样本数据,因此,不存在某一元素的样本点所对应的原始矿物样本数据,会出现存在空值的情况,因此,本申请实施例将原始矿物样本数据的空值补充为默认值0,以使数据完整。
上述详细的描述了获取目标采样区域的矿物样本数据的具体方法步骤,获取目标采样区域与矿物样本数据是在模型进行分类之前数据处理的过程,能够有效衡量原始采样区域元素含量数据的不确定性,减少肉眼观察选区产生的误差,能够实现数据降维,以此在准确率和运行时间等方面提高分类模型的运行效率。下面将详细描述获取矿物样本属于各类矿物的概率值的过程。
220,将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值。
在一种实施方式中,根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,其中,所述分类模型包括决策树。
在获得矿物样本数据之后,将矿物样本数据输入到包含有决策树的分类模型中,获得矿物样品属于各类矿物的概率值集合组,选择概率值集合组中最大的概率值所对应的矿物类型,作为目标分类结果。
在一种实施方式中,所述分类模型包括一种所述决策树,通过所述决策树获得所述矿物样本属于各类矿物的概率值,得到概率值集合组,其中,所述概率值集合组中的最大概率值大于所述判决阈值;从所述概率集合组中选择最大概率值对应的矿物所属的类别作为所述目标分类结果。
在分类模型中只包含一种决策树的情况下,通过这一种决策树计算得到矿物样本属于各类矿物的概率值集合组,将概率值集合组中最大的概率值所对应的矿物类别作为最终的目标分类结果。
例如:分类模型对应的数据库中存储三种类别,分别为榍石、硅灰石和透辉石,且相应于各类的判决阈值为0.2;通过这个分类模型计算输入的待识别的矿物样本属于各种类别的概率值,得到概率值集合组,该概率值集合组包括:矿物样本属于榍石的概率为0.6,属于硅灰石的概率为0.25,属于透辉石的概率为0.15,在本申请的一些实施例中直接选择概率值最大的榍石作为目标分类结果。
需要说明的是,概率值集合中至少包括两个概率值,其中,概率值的个数等于矿物分类的种类数。
在一种实施方式中,所述分类模型包括多种所述决策树,通过所述多个决策树中的各决策树获得所述矿物样本属于所述各类矿物的概率值,得到与多个决策树分别对应的多个概率值集合,其中,所述属于各类矿物的概率值集合组中的最大概率值均大于所述判决阈值;分别依据所述多个概率值集合中的各概率值集合获取初步分类结果,其中,所述初步分类结果是从所述概率集合组中选择最大概率值对应的矿物所属的类别确定的;根据多个所述初步分类结果的占比确定所述目标分类结果。
在分类模型中包含多种决策树的情况下,通过至少三种决策树计算得到至少三个矿物样本属于各类矿物的概率值集合组,通过至少三个概率值集合组可以得到包含有至少三个初步分类结果,将至少三个初步分类结果中占比大的分类结果作为最终的目标分类结果。
需要说明的是,上述至少三种决策树可以包含有传统决策树、ID3算法、C4.5算法、CART算法等,还可以使用其他算法进行计算,包括:分布式梯度提升框架(Light GradientBoosting Machine,LightGBM)、分布式梯度增强库(Xgboost)、支持向量机(SVM),Catboost,K近邻算法(KNN),贝叶斯,随机森林等相关算法,本申请实施例不限于此。
本申请的一些实施例采用多种决策树的分类模型,获得目标分类结果。假设多种决策树包括传统决策树、LightGBM和Xgboost,使用传统决策树算法得到的结果为:矿物样本属于榍石的概率为0.6,属于硅灰石的概率为0.4;使用LightGBM算法得到的结果为:矿物样本属于榍石的概率为0.7,属于硅灰石的概率为0.3;使用Xgboost算法得到的结果为:矿物样本属于榍石的概率为0.3,属于硅灰石的概率为0.7,假设这三类对应的判决阈值均为0.5,那么初步分类结果有三种分别是采用传输决策树算法和使用LightGBM算法两个算法计算得到的矿物样品属于榍石,采用Xgboost算法计算得到的矿物样品属于硅灰石,在本申请的一些实施例中选择三种算法确定的分类结果中占比大的计算结果作为最终的分类结果,因此,在上述实施例中最终的目标分类结果为矿物样品属于榍石。
上文详细描述通过根据分类模型获得属于各类矿物的概率值集合组,获得目标分类结果的,能够提高分类的准确性,下文将描述在概率值均小于相应的判决阈值的情况下,将矿物样本数据存储至分类模型对应的数据库中的具体过程。
230,在确定所述概率值均小于相应的判决阈值的情况下,将所述矿物样本数据存储至所述分类模型对应的数据库中。
在上述220步骤中,对矿物样本进行分类后,在得到的目标分类结果的概率值集合中的每个概率值都小于相应的判决阈值的情况下,表示矿物样本不属于分类模型所能识别的任意一个矿物分类,同样也表示在该分类模型的数据库中不存在矿物样本的矿物样本数据,因此,在使用上述分类方法得不到矿物样本的分类结果的情况下,本申请的实施例将矿物样本数据存储到分类模型对应的数据库中,使得数据库中存在该矿物样本数据,同时在数据库中添加由专家人工解释的矿物样本信息,对数据库进行动态更新。
需要说明的是,各类别的判决阈值可以不同也可以相同,且各类别的判决阈值可以根据实际情况进行调整,可以是5%,也可以是10%,本申请实施例不限于此。
上文描述了将矿物样本数据添加至分类模型对应的数据库中的方法,能够适用于小样本数据,可以实现个性化数据库的快速构建。下文将描述通过数据库扩充后的分类模型进行矿物样本识别的过程。
在一种实施例中,一种矿物样本识别的方法,通过如步骤210至步骤230所述的矿物样本数据库扩充的方法,获得扩充分类模型,根据扩充分类模型识别矿物,获得所述矿物的类型。
在230步骤中得到扩充完成后的扩充分类模型,将扩充分类模型再进行训练,使用训练完成后的扩充分类模型对矿物进行识别,得到矿物的类型,在仍然得不到分类结果的情况下,依然执行230步骤,继续将矿物数据添加到数据库中。
上文描述了分类模型的执行过程,下面将描述分类模型的训练过程。
在一种实施方式中,一种分类模型训练的方法,包括:获取目标采样区域的矿物训练样本数据;随机删除预定数量不满足理论范围的所述矿物训练样本数据,获得第一样本数据;根据步骤210、步骤220和步骤230的方法,将所述第一样本数据输入模型进行训练,获得分类模型。
获取进行目标区域筛选和数据处理后的数据集,将不满足理论范围的矿物训练样本数据随机删除20%,获得第一样本数据,将第一样本数据中60%的数据,作为第一矿物训练样本数据,将剩余的40%的数据,作为第一矿物测试样本数据。使用五折交叉验证的方式进行训练,将第一矿物训练样本数据分成5组(一般是均分),将每个子集数据分别做一次验证集,其余的4组子集数据作为训练集,以此进行5组训练,训练方式采用梯度提升决策树(gbdt),弱学习器的最大迭代次数为100次,学习率为0.1,树模型最大深度为3,分类数为45所以是多分类。利用多个训练所得的模型进行硬投票作为最终分类结果。所谓硬投票,即按照多数表决原则,根据分类结果中多数预测结果作为输入样本的预测类别,如果出现类别数目相同的情况,会按照预测类别的升序排序取前一个预测类别(例如模型一预测为类别‘2’,模型二预测为类别‘1’则样本会被判为类别1)。进行精度评价,利用测试集进行分类效果的测试,获取45类矿物的混淆矩阵,并由此求得多分类的Kappa系数,获得分类模型。
需要说明的是,理论范围表示矿物分类的理论值,即各类矿物包含的元素含量的理论值。
上文详细描述了分类模型训练的过程,下文将根据矿物识别的方法流程图来描述具体实施例。
310,数据采集。在小于等于20mbar大气压的近真空环境中,对矿物样品的观察面进行切割和抛光处理后,放置于100℃至105℃的烘干箱进行干燥处理,使用金相试样专用橡皮泥固定于X射线荧光光谱仪的载物台,X射线荧光光谱仪将识别原始采样区域的元素含量数据传输到电子设备中。
320,数据预处理。电子设备在获得原始采样区域的元素含量数据后,目标采样区域的选取以元素含量数据信息熵作为评价标准,计算原始采样区域的信息熵,选取小于等于信息熵阈值的原始采样区域作为目标采样区域,在计算完成当前原始采样区域的信息熵后,将信息熵与阈值进行对比,在信息熵小于等于0.55的情况下,选择该原始采样区域作为目标区域;在大于0.55的情况下,重新选择原始采样区域进行重新计算信息熵直到获得的信息熵小于等于0.55。在选择出目标采样区域后,接收目标采样区域的原始矿物样本数据,将原始矿物样本中每个元素含量与总样本数据相比,将存在空值的原始矿物样本数据补充默认值0,获得补充后的原始矿物样本数据。
330,特征工程。使用决策树算法对补充后的原始矿物样本数据进行重要性排序,以元素作为决策树节点划分特征的次数为衡量标准,次数越多表示重要性越高,删除划分次数在100次以下的元素,筛选出矿物样本数据。
340,分类模型计算。在获得矿物样本数据之后,在分类模型中包含多种决策树的情况下,通过至少三种决策树计算得到至少三个矿物样本属于各类矿物的概率值集合组。
350,判决阈值。通过至少三个概率值集合组可以得到包含有至少三个初步分类结果,将至少三个初步分类结果中占比大的分类结果作为最终的目标370分类结果。
360,数据库扩充。在得到的目标分类结果的概率值集合中的每个概率值都小于相应的判决阈值的情况下,表示矿物样本不属于目标分类结果中的任意一个矿物分类,同样也表示在该分类模型的数据库中不存在矿物样本的矿物样本数据,因此,在使用上述分类方法得不到矿物样本的分类结果的情况下,将矿物样本数据存储到分类模型的数据库中,使得数据库中存在该矿物样本数据,同时在数据库中添加由专家人工解释的矿物样本信息,对数据库进行动态更新。将扩充分类模型再进行训练,使用训练完成后的扩充分类模型对矿物进行识别,得到370分类结果。
下文将描述一种矿物识别的装置和一种电子设备。
如图4所示,一种矿物识别的装置包括:获取模块410、计算模块420、扩充模块430和识别模块440。
在一种实施方式中,一种矿物识别的装置,包括:获取模块,被配置为获取目标采样区域的矿物样本数据;计算模块,被配置为将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值;扩充模块,被配置为在确定所述概率值均小于相应的判决阈值的情况下,将所述矿物样本数据存储至所述分类模型对应的数据库中,获得扩充分类模型;识别模块,被配置为根据所述扩充分类模型识别矿物,获得所述矿物的类型。
在一种实施例中,获取模块,具体被配置为计算原始采样区域的信息熵,将小于等于信息熵阈值的所述原始采样区域作为所述目标采样区域。
在一种实施例中,获取模块,具体被配置为根据所述目标采样区域的信息,获得原始矿物样本数据;将所述原始矿物样本数据的空值补充默认值,获得补充后的所述原始矿物样本数据;将所述补充后的所述原始矿物样本数据进行特征重要性排序,筛选出所述矿物样本数据。
在一种实施例中,计算模块,具体被配置为根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,其中,所述分类模型包括决策树。
在一种实施例中,所述分类模型包括一种所述决策树;计算模块,具体被配置为通过所述决策树获得所述矿物样本属于各类矿物的概率值,得到概率值集合组,其中,所述概率值集合组中的最大概率值大于所述判决阈值;从所述概率集合组中选择最大概率值对应的矿物所属的类别作为所述目标分类结果。
在一种实施例中,所述分类模型包括多种所述决策树;计算模块,具体被配置为通过所述多个决策树中的各决策树获得所述矿物样本属于所述各类矿物的概率值,得到与多个决策树分别对应的多个概率值集合,其中,所述属于各类矿物的概率值集合组中的最大概率值均大于所述判决阈值;分别依据所述多个概率值集合中的各概率值集合获取初步分类结果,其中,所述初步分类结果是从所述概率集合组中选择最大概率值对应的矿物所属的类别确定的;根据多个所述初步分类结果的占比确定所述目标分类结果。
在一种实施例中,所述各类矿物的所述矿物样本数据,存在于所述分类模型的数据库中。
在本申请实施例中,图4所示模块能够实现图1至图3方法实施例中的各个过程。图4中的各个模块的操作和/或功能,分别为了实现图1至图3中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
如图5所示,本申请实施例还提出了,一种电子设备,包括:处理器510、存储器520和总线530,所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现上述所有实施方式中任一所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
其中,总线用于实现这些组件直接的连接通信。其中,本申请实施例中处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,可以执行上述实施例中所述的方法。
可以理解,图5所示的结构仅为示意,还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时实现上述所有实施方式中任一所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (5)
1.一种矿物样本数据库扩充的方法,其特征在于,所述方法包括:
获取目标采样区域的矿物样本数据,其中,所述矿物样本数据是矿物的元素组成;
将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值;
在确定所述概率值均小于相应的判决阈值的情况下,将所述矿物样本数据存储至所述分类模型对应的数据库中;
其中,所述目标采样区域是通过如下方式获得的:所述目标采样区域的选取以元素含量数据信息熵作为评价标准,计算原始采样区域的信息熵,选取小于或等于信息熵阈值的原始采样区域作为所述目标采样区域;
其中,所述矿物样本数据是通过如下方式获得的:根据所述目标采样区域的信息,获得原始矿物样本数据;将所述原始矿物样本数据的空值补充默认值,获得补充后的所述原始矿物样本数据;将所述补充后的所述原始矿物样本数据进行特征重要性排序,筛选出所述矿物样本数据;
其中,所述将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值,包括:根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,其中,所述分类模型包括决策树;
其中,所述分类模型包括一种所述决策树;所述根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,包括:通过所述决策树获得所述矿物样本属于各类矿物的概率值,得到概率值集合组;从所述概率值集合组中选择最大概率值对应的矿物所属的类别作为所述目标分类结果;
其中,所述分类模型包括多种所述决策树;根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,包括:通过所述多种所述决策树中的各决策树获得所述矿物样本属于所述各类矿物的概率值,得到与所述各决策树分别对应的多个概率值集合;分别依据所述多个概率值集合中的各概率值集合获取初步分类结果,其中,所述初步分类结果是从所述概率值集合组中选择最大概率值对应的矿物所属的类别确定的;根据多个所述初步分类结果的占比确定所述目标分类结果。
2.根据权利要求1所述的方法,其特征在于,
所述各类矿物的所述矿物样本数据,存在于所述分类模型的数据库中。
3.一种分类模型训练的方法,其特征在于,所述方法包括:
获取目标采样区域的矿物训练样本数据;
随机删除预定数量不满足理论范围的所述矿物训练样本数据,获得第一样本数据;
根据如权利要求1至2所述的方法,将所述第一样本数据输入训练模型进行训练,获得分类模型。
4.一种矿物识别的方法,其特征在于,所述方法包括:
通过如权利要求1至2所述的矿物样本数据库扩充的方法,获得扩充分类模型;
根据所述扩充分类模型识别矿物,获得所述矿物的类型。
5.一种矿物识别的装置,其特征在于,所述装置包括:
获取模块,被配置为获取目标采样区域的矿物样本数据,其中,所述矿物样本数据是矿物的元素组成;
计算模块,被配置为将所述矿物样本数据输入分类模型进行计算,获得属于各类矿物的概率值;
扩充模块,被配置为在确定所述概率值均小于相应的判决阈值的情况下,将所述矿物样本数据存储至所述分类模型对应的数据库中,获得扩充分类模型;
识别模块,被配置为根据所述扩充分类模型识别矿物,获得所述矿物的类型;
其中,所述目标采样区域是通过如下方式获得的:
所述目标采样区域的选取以元素含量数据信息熵作为评价标准,计算原始采样区域的信息熵,选取小于或等于信息熵阈值的原始采样区域作为所述目标采样区域;
其中,所述矿物样本数据是通过如下方式获得的:根据所述目标采样区域的信息,获得原始矿物样本数据;将所述原始矿物样本数据的空值补充默认值,获得补充后的所述原始矿物样本数据;将所述补充后的所述原始矿物样本数据进行特征重要性排序,筛选出所述矿物样本数据;
其中,所述计算模块被配置为:根据所述分类模型获得的属于各类矿物的概率值集合组,获得目标分类结果,其中,所述分类模型包括决策树;
其中,所述分类模型包括一种所述决策树;所述计算模块被配置为:通过所述决策树获得所述矿物样本属于各类矿物的概率值,得到概率值集合组;从所述概率值集合组中选择最大概率值对应的矿物所属的类别作为所述目标分类结果;
其中,所述分类模型包括多种所述决策树;所述计算模块被配置为:通过所述多种所述决策树中的各决策树获得所述矿物样本属于所述各类矿物的概率值,得到与所述各决策树分别对应的多个概率值集合;分别依据所述多个概率值集合中的各概率值集合获取初步分类结果,其中,所述初步分类结果是从所述概率值集合组中选择最大概率值对应的矿物所属的类别确定的;根据多个所述初步分类结果的占比确定所述目标分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011596584.5A CN112529112B (zh) | 2020-12-29 | 2020-12-29 | 一种矿物识别的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011596584.5A CN112529112B (zh) | 2020-12-29 | 2020-12-29 | 一种矿物识别的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112529112A CN112529112A (zh) | 2021-03-19 |
CN112529112B true CN112529112B (zh) | 2021-10-08 |
Family
ID=74977052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011596584.5A Active CN112529112B (zh) | 2020-12-29 | 2020-12-29 | 一种矿物识别的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529112B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114776304B (zh) * | 2022-05-30 | 2022-11-04 | 广州海洋地质调查局 | 一种深海矿产异常区识别的方法、装置、设备及介质 |
CN117763356A (zh) * | 2023-12-26 | 2024-03-26 | 中国地质科学院地质力学研究所 | 一种基于LightGBM算法的地震相快速识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101526488A (zh) * | 2008-03-03 | 2009-09-09 | 湖南华菱湘潭钢铁有限公司 | 一种x射线荧光光谱分析铁矿石成分的方法 |
CN108681747A (zh) * | 2018-05-11 | 2018-10-19 | 武汉理工大学 | 基于深度学习的旋转机械故障诊断与状态监测***及方法 |
CN110059765A (zh) * | 2019-04-26 | 2019-07-26 | 中国地质大学(北京) | 一种矿物智能识别分类***与方法 |
CN111582315A (zh) * | 2020-04-09 | 2020-08-25 | 上海淇毓信息科技有限公司 | 样本数据处理方法、装置及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260805B (zh) * | 2015-11-16 | 2018-10-23 | 中南大学 | 一种基于异构分类器选择性融合的锑矿品位软测量方法 |
JP6704052B2 (ja) * | 2016-01-11 | 2020-06-03 | カール・ツァイス・エックス−レイ・マイクロスコピー・インコーポレイテッドCarl Zeiss X−Ray Microscopy, Inc. | マルチモダリティ鉱物質セグメント化システムおよび方法 |
CN110261329B (zh) * | 2019-04-29 | 2020-10-09 | 北京航空航天大学 | 一种基于全谱段高光谱遥感数据的矿物识别方法 |
-
2020
- 2020-12-29 CN CN202011596584.5A patent/CN112529112B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101526488A (zh) * | 2008-03-03 | 2009-09-09 | 湖南华菱湘潭钢铁有限公司 | 一种x射线荧光光谱分析铁矿石成分的方法 |
CN108681747A (zh) * | 2018-05-11 | 2018-10-19 | 武汉理工大学 | 基于深度学习的旋转机械故障诊断与状态监测***及方法 |
CN110059765A (zh) * | 2019-04-26 | 2019-07-26 | 中国地质大学(北京) | 一种矿物智能识别分类***与方法 |
CN111582315A (zh) * | 2020-04-09 | 2020-08-25 | 上海淇毓信息科技有限公司 | 样本数据处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112529112A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110352389B (zh) | 信息处理装置及信息处理方法 | |
CN106919957B (zh) | 处理数据的方法及装置 | |
CN112529112B (zh) | 一种矿物识别的方法和装置 | |
CN107016416B (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
CN111210158B (zh) | 目标地址确定方法、装置、计算机设备和存储介质 | |
CN111414951B (zh) | 用于图像的细分类方法及装置 | |
US20150242676A1 (en) | Method for the Supervised Classification of Cells Included in Microscopy Images | |
Johnsson | Structures in high-dimensional data: Intrinsic dimension and cluster analysis | |
CN112785566B (zh) | 染色体中期图像评分方法、装置、电子设备及存储介质 | |
CN111782978B (zh) | 兴趣点数据的处理方法及装置、电子设备、可读介质 | |
CN111105041B (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN112836731A (zh) | 基于决策树准确率和相关性度量的信号随机森林分类方法、***及装置 | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
CN111949530A (zh) | 测试结果的预测方法、装置、计算机设备及存储介质 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN116864011A (zh) | 基于多组学数据的结直肠癌分子标志物识别方法及*** | |
CN111127485B (zh) | 一种ct图像中目标区域提取方法、装置及设备 | |
Rathore et al. | Approximate cluster heat maps of large high-dimensional data | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其*** | |
CN111383716B (zh) | 基因对的筛选方法、装置、计算机设备和存储介质 | |
Wang et al. | FCM algorithm and index CS for the signal sorting of radiant points | |
CN112769540A (zh) | 一种侧信道信息泄露的诊断方法、***、设备及存储介质 | |
CN109583590A (zh) | 数据处理方法及数据处理装置 | |
CN113268494B (zh) | 待优化数据库语句处理方法及装置 | |
CN117314914B (zh) | 一种对工程无损检测图像的缺陷识别方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |