CN112329804A - 基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置 - Google Patents

基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置 Download PDF

Info

Publication number
CN112329804A
CN112329804A CN202010613340.7A CN202010613340A CN112329804A CN 112329804 A CN112329804 A CN 112329804A CN 202010613340 A CN202010613340 A CN 202010613340A CN 112329804 A CN112329804 A CN 112329804A
Authority
CN
China
Prior art keywords
lithofacies
training
feature
classifier
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010613340.7A
Other languages
English (en)
Inventor
玉龙飞雪
宋先知
李根生
黄中伟
田守嶒
肖立志
廖广志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum Beijing
Original Assignee
China University of Petroleum Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum Beijing filed Critical China University of Petroleum Beijing
Priority to CN202010613340.7A priority Critical patent/CN112329804A/zh
Publication of CN112329804A publication Critical patent/CN112329804A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供了一种基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置,该方法包括:获取目标工区的多种测井数据并预处理;将预处理后的多种测井数据按照比例随机抽样成训练集和测试集;根据从训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集;利用多个训练子集对多个第一基分类器并行训练,获得多个第二基分类器及其性能指标值;第一基分类器为朴素贝叶斯分类器;根据每个第二基分类器的性能指标值确定其投票权重;利用多个第二基分类器对测试集并行岩相分类,获得每个第二基分类器的分类子结果;根据投票权重对分类子结果进行投票组合,获得岩相分类结果。本说明书可提高基于朴素贝叶斯的岩相分类器的分类准确度和学习效率。

Description

基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置
技术领域
本说明书涉及石油天然气勘探开发技术领域,尤其是涉及一种基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置。
背景技术
岩相分类不仅是地层评价、地质分析方面的重要工作,对于油气勘探开发领域的储量预测和储层描述也具有重要意义。目前岩相分类,通常是由专家对探井岩屑、岩心分析以确定岩相,其过程不仅耗时耗力、价格昂贵,而且存在很大的人为因素。
为此目前已经出现朴素贝叶斯(Naive Bayes,简称NB)的斯岩相分类方法。在实际应用中,为了简化联合类条件概率的计算,朴素贝叶斯方法引入了“特征条件独立性假设”。对于连续性变量,通常假设数据样本服从高斯分布。然而,测井数据的真实分布往往复杂多样,使得高斯分布拟合效果欠佳。此外,特征条件独立性假设在实际任务中常常也不成立,使得基于朴素贝叶斯的岩相分类器的分类准确度不高。
发明内容
本说明书实施方案的目的在于提供一种基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置,以提高基于朴素贝叶斯的岩相分类器的分类准确度和学习效率。
为达到上述目的,一方面,本说明书实施方案提供了一种基于特征随机的朴素贝叶斯岩相分类集成学习方法,包括:
获取目标工区的多种测井数据并对其进行预处理;
将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
根据从所述训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集;
利用所述多个训练子集对多个第一基分类器对应并行进行训练,获得多个第二基分类器及其性能指标值;所述第一基分类器为朴素贝叶斯分类器;
根据每个第二基分类器的性能指标值确定其投票权重;
利用所述多个第二基分类器对所述测试集并行进行岩相分类,对应获得每个第二基分类器的岩相分类子结果;
根据所述投票权重对所述岩相分类子结果进行投票组合,从而获得岩相分类结果。
本说明书一实施方案中,在训练第一基分类器时,对于训练子集中的离散型特征,根据公式
Figure RE-GDA0002863859570000021
计算其概率分布,并将该概率分布作为该离散型特征的类条件概率;
其中,c表示岩相类别;xi表示第i号特征取值;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;Dc表示岩相类别为c的样本总数;
Figure RE-GDA0002863859570000022
表示岩相类别为c,第i号特征取值为xi的样本个数。
本说明书一实施方案中,在训练第一基分类器时,对于训练子集中的连续型特征,根据以下公式计算该连续型特征的概率密度分布,并将该概率密度分布作为该连续型特征的类条件概率;
Figure RE-GDA0002863859570000023
其中,p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;c表示岩相类别; xi表示第i号特征取值;k为高斯组分数;μk为第k个高斯组分的均值向量;αk为第k个高斯组分的权重系数;σk为第k个高斯组分的标准差。
本说明书一实施方案中,训练第一基分类器时的目标函数为:
Figure RE-GDA0002863859570000024
其中,h*(x)为目标函数;x为输入的待分组的一组特征取值;xi表示第i号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;n为随机选择的特征个数。
本说明书一实施方案中,所述根据每个第二基分类器的性能指标值确定其投票权重,包括:
根据公式
Figure RE-GDA0002863859570000025
确定每个第二基分类器的投票权重;其中,w为投票权重,wori为性能指标值,a为权重衰减因子。
另一方面,本说明书实施方案还提供了一种基于特征随机的朴素贝叶斯岩相分类集成学习装置,包括:
获取模块,用于获取目标工区的多种测井数据并对其进行预处理;
划分模块,用于将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
生成模块,用于根据从所述训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集;
训练模块,用于利用所述多个训练子集对多个第一基分类器对应并行进行训练,获得多个第二基分类器及其性能指标值;所述第一基分类器为朴素贝叶斯分类器;
确定模块,用于根据每个第二基分类器的性能指标值确定其投票权重;
测试模块,用于利用所述多个第二基分类器对所述测试集并行进行岩相分类,对应获得每个第二基分类器的岩相分类子结果;
投票模块,用于根据所述投票权重对所述岩相分类子结果进行投票组合,从而获得岩相分类结果。
本说明书一实施方案中,在训练第一基分类器时,对于训练子集中的离散型特征,根据公式
Figure RE-GDA0002863859570000031
计算其概率分布,并将该概率分布作为该离散型特征的类条件概率;
其中,c表示岩相类别;xi表示第i号特征取值;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;Dc表示岩相类别为c的样本总数;Dc,xi表示岩相类别为c,第i号特征取值为xi的样本个数。
本说明书一实施方案中,在训练第一基分类器时,对于训练子集中的连续型特征,根据以下公式计算该连续型特征的概率密度分布,并将该概率密度分布作为该连续型特征的类条件概率;
Figure RE-GDA0002863859570000032
其中,p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;c表示岩相类别; xi表示第i号特征取值;k为高斯组分数;μk为第k个高斯组分的均值向量;αk为第k个高斯组分的权重系数;σk为第k个高斯组分的标准差。
本说明书一实施方案中,训练第一基分类器时的目标函数为:
Figure RE-GDA0002863859570000041
其中,h*(x)为目标函数;x为输入的待分组的一组特征取值;xi表示第i号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;n为随机选择的特征个数。
本说明书一实施方案中,所述根据每个第二基分类器的性能指标值确定其投票权重,包括:
根据公式
Figure RE-GDA0002863859570000042
确定每个第二基分类器的投票权重;其中,w为投票权重,wori为性能指标值,a为权重衰减因子。
由以上本说明书实施方案提供的技术方案可见,由于本说明书实施方案采用了加权投票的组合策略进行集成学习,从而使得最后获得的岩相分类器,具有更好的泛化性能和抗过拟合能力,从而提高了基于朴素贝叶斯的岩相分类器的分类准确度。而且由于本说明书实施方案可以根据从训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集,从而可以避免人工选择训练子集造成的耗时耗力,从而也提高了基于朴素贝叶斯的岩相分类器的学习效率。不仅如此,本说明书实施方案中的训练和测试均采用了并行处理,也进一步提高了基于朴素贝叶斯的岩相分类器的学习效率。
附图说明
为了更清楚地说明本说明书实施方案或现有技术中的技术方案,下面将对实施方案或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方案,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的实施方案中基于特征随机的朴素贝叶斯岩相分类集成学习方法的流程图;
图2为本说明书提供的实施方案中测井数据经过ETL清洗后的部分表格示意图;
图3为本说明书提供的实施方案中预处理后测井数据的训练集及测试集划分比例示意图;
图4为本说明书提供的实施方案中训练某一基分类器时,所选随机特征的高斯混合拟合情况;
图5为本说明书提供的实施方案中集成分类器的预测结果的混淆矩阵;
图6为本说明书提供的实施方案中集成分类器的预测结果的ROC曲线;
图7为本说明书提供的实施方案中基于特征随机的朴素贝叶斯岩相分类集成学习装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施方案中的附图,对本说明书实施方案中的技术方案进行清楚、完整地描述,显然,所描述的实施方案仅仅是本说明书一部分实施方案,而不是全部的实施方案。基于本说明书中的实施方案,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方案,都应当属于本说明书保护的范围。
参考图1所示,在本说明书一些实施方案中,基于特征随机的朴素贝叶斯岩相分类集成学习方法可以包括以下步骤:
S101、获取目标工区的多种测井数据并对其进行预处理。
在本说明书的实施方案中,可用于岩相解释的测井数据通常都以特殊的格式存放在测井软件数据库中。因此,在对测井数据进行挖掘和学习之前,首先需要对测井数据进行预处理。
在本说明书一实施方案中,所述预处理可以包括:首先对测井数据进行ETL清洗(即抽取、转换、加载),将其处理为可供机器学习模型(即朴素贝叶斯算法)处理的结构化数据,并以统一、标准的格式存储。其中,ETL清洗流程如下:逐行读取测井数据源文件,以测井数据源文件中的关键字为标识,识别测井数据源文件中的有效信息,包括特征名称和特征取值。有效信息经过格式化,并对异常值进行过滤后,可以逗号分隔值(Comma-SeparatedValues,简称CSV)表格的形式保存数据。
例如,在本说明书一示例性实施方案中,测井数据数据来自某一工区内的10口井,均以LAS格式(PETREL软件特有的数据格式)存储。测井数据经过预处理后可如图2所示(图2中仅示出了部分数据)。在图2中,DEPTH表示深度,Facies表示岩相,Wellname为井标识。经过预处理后,测井数据呈现为表格,共有接近50000 条数据,且包含9个可用测井特征(即输入空间为9维向量):自然伽马(GR)、光电指数(PEF)、渗透率(PERM_KLINK)、有效孔隙度(PHIE)、总孔隙度(PHIT)、地层真电阻率(RT)、总含水饱和度(SWT)、泥质含量(VSH)、砂层孔隙度(PHI_SAND)。同时,经过数据预处理的测井数据还包括3个岩相标签(即输出空间为3维向量,例如图3中的岩相1、岩相2和岩相3)。
S102、将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集。
在本说明书的实施方案中,基于测井数据的岩相分类器的训练过程是一个监督学习的过程。训练开始之前,需要将预处理好的数据划分为训练集和测试集。训练集用来估计模型参数,测试集用来评价模型的性能好坏。划分数据集时应注意保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。因此,在本说明书一些实施方案中,为了保证数据的代表性,可以采用随机分层抽样的方式将每种岩相的样本都按照指定比例(例如7:3)随机划分为两个部分,分别作为训练集和测试集。
S103、根据从所述训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集。
由于本说明书的实施方案可以根据从训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集,从而可以避免人工选择训练子集造成的耗时耗力和价格昂贵等问题。而且,其随机性主要体现在如下几个方面:
(1)特征随机
训练特征空间的随机子集,随机选择的特征不允许重复,选用特征数量大于0,小于或等于预设的数量上限。
(2)高斯混合模型组分数随机
训练每个基分类器时,选用的特征分为离散型特征和连续型特征。针对其中的连续型特征,可以采用高斯混合模型对特征的概率密度分布进行拟合;并且拟合时,高斯混合模型的高斯组分数量是随机的,其值大于0,小于或等于预设的数量上限。
(3)校验数据集随机划分
在本说明书的实施方案中,训练每个基分类器时,不是直接将整个训练集交给模型进行训练,而是先从训练集中预留一部分数据作为校验集。校验集的划分是随机分层抽样,划分比例支持手动设置。
例如,在本说明书一示例性实施方案中,设置最大特征数为4(max_features=4),最大组分数量(组分数量即为高斯混合组分个数)为6(max_components=6),则随机生成的训练子集的排列组合方案总数为:
Figure RE-GDA0002863859570000071
若设置基分类器的数量为 500(estimators=500),则可以从
Figure RE-GDA0002863859570000072
中随机抽取500个方案对应作为每个基分类器的训练子集,抽取的方案可以以数组的形式存储在***内存中。比如,在一示例性实施方案中,随机生成的特征组合之一为[PHIE、RT、SWT、VSH],对应的组分数量为[2、5、4、6],其对应的测井数据可如图4所示。在图4中,PHIE表示有效孔隙度,RT表示地层真电阻率,SWT表示总含水饱和度,VSH表示泥质含量。
S104、利用所述多个训练子集对多个第一基分类器对应并行进行训练,获得多个第二基分类器及其性能指标值;所述第一基分类器为朴素贝叶斯分类器,是训练的初始模型。
在本说明书的实施方案中,由于各第一基分类器之间是相互独立的,因此可以开启多个线程并行训练,以提高训练处理的效率。第一基分类器训练基于朴素贝叶斯算法,输入空间X为n维向量的集合,n为随机选择的特征个数。输出空间Y为m维向量的集合(例如{c1,c2,c3})。朴素贝叶斯方法引入特征条件独立性假设,分类问题求解的目标函数可表示为:
Figure RE-GDA0002863859570000073
其中,h*(x)为目标函数;x为输入的待分组的一组特征取值,且x=(x1,x2,…,xn);xi表示第i号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi|c)表示在岩相类别为 c的条件下,xi发生的概率;n为随机选择的特征个数。
在训练第一基分类器时,对于训练子集中的离散型特征,可以根据公式
Figure RE-GDA0002863859570000074
计算其概率分布,并将该概率分布作为该离散型特征的类条件概率。其中,c表示岩相类别;xi表示第i号特征取值;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;Dc表示岩相类别为c的样本总数;
Figure RE-GDA0002863859570000075
表示岩相类别为c,第i号特征取值为xi的样本个数。
在训练第一基分类器时,对于训练子集中的连续型特征,可以根据以下公式计算该连续型特征的概率密度分布,并将该概率密度分布作为该连续型特征的类条件概率;
Figure RE-GDA0002863859570000076
其中,p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;c表示岩相类别;xi表示第i号特征取值;k为高斯组分数;μk为第k个高斯组分的均值向量;αk为第k个高斯组分的权重系数;σk为第k个高斯组分的标准差。可见,高斯混合模型共有3k个模型参数需要估计,求解模型参数可以使用最大期望算法 (Expectation-Maximization algorithm,简称EM)。
在本说明书的实施方案中,第二基分类器是对第一基分类器训练后得到的训练好的模型。各个第一基分类器完成训练后可以对应得到一个第二基分类器。可以使用校验集评价第二基分类器的指定性能指标,以为后续集成学习时的投票权重选择提供参考。
在本说明书一些实施方案中,指定性能指标可以选择查准率(precision)、召回率(recall)、F1指标、综合查全率(total_recall)、微F1指标(micro F1)、宏F1指标(macroF1)、权重F1指标(weighted_F1)或准确率(accuracy)等。
S105、根据每个第二基分类器的性能指标值确定其投票权重。
在本说明书的实施方案中,为了提高集成学习的准确度,对于每个第二基分类器可以参照其训练时获得的性能指标赋予对应的投票权重。例如,在本说明书一实施方案中,可以根据公式
Figure RE-GDA0002863859570000081
确定每个第二基分类器的投票权重。其中, w为投票权重,a为权重衰减因子,wori为性能指标值。
S106、利用所述多个第二基分类器对所述测试集并行进行岩相分类,对应获得每个第二基分类器的岩相分类子结果。
与训练时类似,由于各第二基分类器之间是相互独立的,因此在利用测试集对多个第二基分类器进行测试时,也可以开启多个线程并行测试,以提高测试处理的效率。在完成并行测试后每个第二基分类器会得到一个岩相分类子结果。
S107、根据所述投票权重对所述岩相分类子结果进行投票组合,从而获得岩相分类结果。
在本说明书的实施方案中,对于各个第二基分类器而言,由于其投票权重各异,因此,当有两个第二基分类器输出的岩相分类子结果相同时,若其投票权重不同,则其对投票组合的影响也会不同,各个第二基分类器的投票组合可以形成集成分类器。例如,在一示例性实施方案中,若有第二基分类器N1、N2、N3、N4,其对应的投票权重为0.5、0.8、1、0.9。利用测试集对四个第二基分类器N1、N2、N3、N4进行并行测试后,对应的岩相分类子结果为岩相1(c1)、岩相1(c1)、岩相2(c2)、岩相2(c2)。则投票组合后:
岩相1的得票为:0.5c1+0.8c1=1.3c1
岩相2的得票为:c2+0.9c2=1.9c2
显然,岩相2的得票更高,因此经过投票组合,最终获得岩相分类结果为岩相2。
例如,在本说明书一示例性实施方案中,某个集成分类器的预测结果的混淆矩阵和ROC曲线分别如图5和图6所示。其中,在图6中,横坐标表示误报率,纵坐标表示真正率(即为判断为真的正确率)。从图5和图6可以看出,集成分类器的具有较高的岩相识别能力。
由此可见,由于本说明书实施方案采用了加权投票的组合策略进行集成学习,从而使得最后获得的岩相分类器,具有更好的泛化性能和抗过拟合能力,从而提高了基于朴素贝叶斯的岩相分类器的分类准确度。而且由于本说明书实施方案可以根据从训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集,从而可以避免人工选择训练子集造成的耗时耗力,从而也提高了基于朴素贝叶斯的岩相分类器的学习效率。不仅如此,本说明书实施方案中的训练和测试均采用了并行处理,也进一步提高了基于朴素贝叶斯的岩相分类器的学习效率。
与上述的基于特征随机的朴素贝叶斯岩相分类集成学习方法对应,本说明书还提供了一种电子设备。在本说明书一些实施方案中,所述电子设备可以包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时可以执行如下步骤:
获取目标工区的多种测井数据并对其进行预处理;
将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
根据从所述训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集;
利用所述多个训练子集对多个第一基分类器对应并行进行训练,获得多个第二基分类器及其性能指标值;所述第一基分类器为朴素贝叶斯分类器;
根据每个第二基分类器的性能指标值确定其投票权重;
利用所述多个第二基分类器对所述测试集并行进行岩相分类,对应获得每个第二基分类器的岩相分类子结果;
根据所述投票权重对所述岩相分类子结果进行投票组合,从而获得岩相分类结果。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
与上述的基于特征随机的朴素贝叶斯岩相分类集成学习方法对应,本说明书还提供了一种基于特征随机的朴素贝叶斯岩相分类集成学习装置。参考图7所示,在本说明书一些实施方案中,所述基于特征随机的朴素贝叶斯岩相分类集成学习装置可以包括:
获取模块71,可以用于获取目标工区的多种测井数据并对其进行预处理;
划分模块72,可以用于将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
生成模块73,可以用于根据从所述训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集;
训练模块74,可以用于利用所述多个训练子集对多个第一基分类器对应并行进行训练,获得多个第二基分类器及其性能指标值;所述第一基分类器为朴素贝叶斯分类器;
确定模块75,可以用于根据每个第二基分类器的性能指标值确定其投票权重;
测试模块76,可以用于利用所述多个第二基分类器对所述测试集并行进行岩相分类,对应获得每个第二基分类器的岩相分类子结果;
投票模块77,可以用于根据所述投票权重对所述岩相分类子结果进行投票组合,从而获得岩相分类结果。
在本说明书一些实施方案中,在训练第一基分类器时,对于训练子集中的离散型特征,可以根据公式
Figure RE-GDA0002863859570000101
计算其概率分布,并将该概率分布作为该离散型特征的类条件概率;
其中,c表示岩相类别;xi表示第i号特征取值;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;Dc表示岩相类别为c的样本总数;
Figure RE-GDA0002863859570000102
表示岩相类别为c,第i号特征取值为xi的样本个数。
在本说明书一些实施方案中,在训练第一基分类器时,对于训练子集中的连续型特征,可以根据以下公式计算该连续型特征的概率密度分布,并将该概率密度分布作为该连续型特征的类条件概率;
Figure RE-GDA0002863859570000111
其中,p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;c表示岩相类别; xi表示第i号特征取值;k为高斯组分数;μk为第k个高斯组分的均值向量;αk为第k个高斯组分的权重系数;σk为第k个高斯组分的标准差。
在本说明书一些实施方案中,训练第一基分类器时的目标函数可以为:
Figure RE-GDA0002863859570000112
其中,h*(x)为目标函数;x为输入的待分组的一组特征取值,且 x=(x1,x2,…,xn);xi表示第i号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;n为随机选择的特征个数。
在本说明书一些实施方案中,所述根据每个第二基分类器的性能指标值确定其投票权重,可以包括:
根据公式
Figure RE-GDA0002863859570000113
确定每个第二基分类器的投票权重;其中,w为投票权重,wori为性能指标值,a为权重衰减因子。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本申请是参照根据本说明书实施方案的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施方案可提供为方法、***或计算机程序产品。因此,本说明书实施方案可采用完全硬件实施方案、完全软件实施方案或结合软件和硬件方面的实施方案的形式。而且,本说明书实施方案可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施方案可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施方案,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施方案均采用递进的方式描述,各个实施方案之间相同相似的部分互相参见即可,每个实施方案重点说明的都是与其他实施方案的不同之处。尤其,对于***实施方案而言,由于其基本相似于方法实施方案,所以描述的比较简单,相关之处参见方法实施方案的部分说明即可。在本说明书的描述中,参考术语“一个实施方案”、“一些实施方案”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方案或示例描述的具体特征、结构、材料或者特点包含于本说明书实施方案的至少一个实施方案或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方案或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方案或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方案或示例以及不同实施方案或示例的特征进行结合和组合。
以上所述仅为本申请的实施方案而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于特征随机的朴素贝叶斯岩相分类集成学习方法,其特征在于,包括:
获取目标工区的多种测井数据并对其进行预处理;
将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
根据从所述训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集;
利用所述多个训练子集对多个第一基分类器对应并行进行训练,获得多个第二基分类器及其性能指标值;所述第一基分类器为朴素贝叶斯分类器;
根据每个第二基分类器的性能指标值确定其投票权重;
利用所述多个第二基分类器对所述测试集并行进行岩相分类,对应获得每个第二基分类器的岩相分类子结果;
根据所述投票权重对所述岩相分类子结果进行投票组合,从而获得岩相分类结果。
2.如权利要求1所述的基于特征随机的朴素贝叶斯岩相分类集成学习方法,其特征在于,在训练第一基分类器时,对于训练子集中的离散型特征,根据公式
Figure FDA0002562894980000011
计算其概率分布,并将该概率分布作为该离散型特征的类条件概率;
其中,c表示岩相类别;xi表示第i号特征取值;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;Dc表示岩相类别为c的样本总数;Dc,xi表示岩相类别为c,第i号特征取值为xi的样本个数。
3.如权利要求1所述的基于特征随机的朴素贝叶斯岩相分类集成学习方法,其特征在于,在训练第一基分类器时,对于训练子集中的连续型特征,根据以下公式计算该连续型特征的概率密度分布,并将该概率密度分布作为该连续型特征的类条件概率;
Figure FDA0002562894980000012
其中,p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;c表示岩相类别;xi表示第i号特征取值;k为高斯组分数;μk为第k个高斯组分的均值向量;αk为第k个高斯组分的权重系数;σk为第k个高斯组分的标准差。
4.如权利要求1所述的基于特征随机的朴素贝叶斯岩相分类集成学习方法,其特征在于,训练第一基分类器时的目标函数为:
Figure FDA0002562894980000021
其中,h*(x)为目标函数;x为输入的待分组的一组特征取值;xi表示第i号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;n为随机选择的特征个数。
5.如权利要求1所述的基于特征随机的朴素贝叶斯岩相分类集成学习方法,其特征在于,所述根据每个第二基分类器的性能指标值确定其投票权重,包括:
根据公式
Figure FDA0002562894980000022
确定每个第二基分类器的投票权重;其中,w为投票权重,wori为性能指标值,a为权重衰减因子。
6.一种基于特征随机的朴素贝叶斯岩相分类集成学习装置,其特征在于,包括:
获取模块,用于获取目标工区的多种测井数据并对其进行预处理;
划分模块,用于将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
生成模块,用于根据从所述训练集中随机选择的特征组合及其组分数量,随机生成多个训练子集;
训练模块,用于利用所述多个训练子集对多个第一基分类器对应并行进行训练,获得多个第二基分类器及其性能指标值;所述第一基分类器为朴素贝叶斯分类器;
确定模块,用于根据每个第二基分类器的性能指标值确定其投票权重;
测试模块,用于利用所述多个第二基分类器对所述测试集并行进行岩相分类,对应获得每个第二基分类器的岩相分类子结果;
投票模块,用于根据所述投票权重对所述岩相分类子结果进行投票组合,从而获得岩相分类结果。
7.如权利要求6所述的基于特征随机的朴素贝叶斯岩相分类集成学习装置,其特征在于,在训练第一基分类器时,对于训练子集中的离散型特征,根据公式
Figure FDA0002562894980000023
计算其概率分布,并将该概率分布作为该离散型特征的类条件概率;
其中,c表示岩相类别;xi表示第i号特征取值;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;Dc表示岩相类别为c的样本总数;
Figure FDA0002562894980000024
表示岩相类别为c,第i号特征取值为xi的样本个数。
8.如权利要求6所述的基于特征随机的朴素贝叶斯岩相分类集成学习装置,其特征在于,在训练第一基分类器时,对于训练子集中的连续型特征,根据以下公式计算该连续型特征的概率密度分布,并将该概率密度分布作为该连续型特征的类条件概率;
Figure FDA0002562894980000031
其中,p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;c表示岩相类别;xi表示第i号特征取值;k为高斯组分数;μk为第k个高斯组分的均值向量;αk为第k个高斯组分的权重系数;σk为第k个高斯组分的标准差。
9.如权利要求6所述的基于特征随机的朴素贝叶斯岩相分类集成学习装置,其特征在于,训练第一基分类器时的目标函数为:
Figure FDA0002562894980000032
其中,h*(x)为目标函数;x为输入的待分组的一组特征取值;xi表示第i号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi|c)表示在岩相类别为c的条件下,xi发生的概率;n为随机选择的特征个数。
10.如权利要求6所述的基于特征随机的朴素贝叶斯岩相分类集成学习装置,其特征在于,所述根据每个第二基分类器的性能指标值确定其投票权重,包括:
根据公式
Figure FDA0002562894980000033
确定每个第二基分类器的投票权重;其中,w为投票权重,wori为性能指标值,a为权重衰减因子。
CN202010613340.7A 2020-06-30 2020-06-30 基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置 Pending CN112329804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010613340.7A CN112329804A (zh) 2020-06-30 2020-06-30 基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010613340.7A CN112329804A (zh) 2020-06-30 2020-06-30 基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置

Publications (1)

Publication Number Publication Date
CN112329804A true CN112329804A (zh) 2021-02-05

Family

ID=74304329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010613340.7A Pending CN112329804A (zh) 2020-06-30 2020-06-30 基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置

Country Status (1)

Country Link
CN (1) CN112329804A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926680A (zh) * 2021-03-29 2021-06-08 成都理工大学 基于贝叶斯神经网络的微生物岩沉积微相识别方法
CN113344359A (zh) * 2021-05-31 2021-09-03 西南石油大学 基于随机森林的致密砂岩气储层质量主控因素定量评价方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050246307A1 (en) * 2004-03-26 2005-11-03 Datamat Systems Research, Inc. Computerized modeling method and a computer program product employing a hybrid Bayesian decision tree for classification
CN106683122A (zh) * 2016-12-16 2017-05-17 华南理工大学 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法
WO2017082897A1 (en) * 2015-11-11 2017-05-18 Halliburton Energy Services Inc. Method for computing lithofacies probability using lithology proximity models
CN107967452A (zh) * 2017-11-24 2018-04-27 广州博进信息技术有限公司 一种基于视频的深海矿物分布识别方法及***
CN108388921A (zh) * 2018-03-05 2018-08-10 中国石油集团工程技术研究院有限公司 一种基于随机森林的溢流漏失实时识别方法
CN109036568A (zh) * 2018-09-03 2018-12-18 浪潮软件集团有限公司 一种基于朴素贝叶斯算法的预测模型的建立方法
CN109164491A (zh) * 2018-10-15 2019-01-08 中国石油大学(北京) 一种基于分类支持向量机的地震岩相识别方法及***
CN109611087A (zh) * 2018-12-11 2019-04-12 中国石油大学(北京) 一种火山岩油藏储层参数智能预测方法及***
CN109919184A (zh) * 2019-01-28 2019-06-21 中国石油大学(北京) 一种基于测井数据的多井复杂岩性智能识别方法及***
CN110222744A (zh) * 2019-05-23 2019-09-10 成都信息工程大学 一种基于属性加权的朴素贝叶斯分类模型改进方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050246307A1 (en) * 2004-03-26 2005-11-03 Datamat Systems Research, Inc. Computerized modeling method and a computer program product employing a hybrid Bayesian decision tree for classification
WO2017082897A1 (en) * 2015-11-11 2017-05-18 Halliburton Energy Services Inc. Method for computing lithofacies probability using lithology proximity models
CN106683122A (zh) * 2016-12-16 2017-05-17 华南理工大学 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法
CN107967452A (zh) * 2017-11-24 2018-04-27 广州博进信息技术有限公司 一种基于视频的深海矿物分布识别方法及***
CN108388921A (zh) * 2018-03-05 2018-08-10 中国石油集团工程技术研究院有限公司 一种基于随机森林的溢流漏失实时识别方法
CN109036568A (zh) * 2018-09-03 2018-12-18 浪潮软件集团有限公司 一种基于朴素贝叶斯算法的预测模型的建立方法
CN109164491A (zh) * 2018-10-15 2019-01-08 中国石油大学(北京) 一种基于分类支持向量机的地震岩相识别方法及***
CN109611087A (zh) * 2018-12-11 2019-04-12 中国石油大学(北京) 一种火山岩油藏储层参数智能预测方法及***
CN109919184A (zh) * 2019-01-28 2019-06-21 中国石油大学(北京) 一种基于测井数据的多井复杂岩性智能识别方法及***
CN110222744A (zh) * 2019-05-23 2019-09-10 成都信息工程大学 一种基于属性加权的朴素贝叶斯分类模型改进方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
方匡南: "《随机森林组合预测理论在金融中的应用》", vol. 2012, 31 May 2012, 厦门大学出版社, pages: 1 - 228 *
玉龙飞雪: "基于深度神经网络的岩性识别方法研究", 中国优秀硕士学位论文全文数据库(基础科学辑), no. 2023, pages 011 - 202 *
瞿晓婷: "面向复杂储层岩性识别的非均衡数据分类算法研究", 中国优秀硕士学位论文全文数据库(基础科学辑), no. 2018, pages 011 - 727 *
赵铭: "基于EM和GMM的朴素贝叶斯岩性识别", 计算机***应用, no. 2019, pages 38 - 44 *
陈松峰: "利用PCA和AdaBoost建立基于贝叶斯的组合分类器", 中国优秀硕士学位论文全文数据库(信息科技辑), no. 2011, pages 138 - 274 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926680A (zh) * 2021-03-29 2021-06-08 成都理工大学 基于贝叶斯神经网络的微生物岩沉积微相识别方法
CN113344359A (zh) * 2021-05-31 2021-09-03 西南石油大学 基于随机森林的致密砂岩气储层质量主控因素定量评价方法

Similar Documents

Publication Publication Date Title
Ross et al. P wave arrival picking and first‐motion polarity determination with deep learning
Saporetti et al. Machine learning approaches for petrographic classification of carbonate-siliciclastic rocks using well logs and textural information
CN107678059B (zh) 一种储层含气识别的方法、装置及***
Liu et al. Deep classified autoencoder for lithofacies identification
CN111783825A (zh) 一种基于卷积神经网络学习的测井岩性识别方法
CN111562612B (zh) 一种基于注意力机制的深度学习微震事件识别方法及***
CN110717249A (zh) 页岩气储层测井孔隙度快速预测方法及***
CN109113729B (zh) 基于测井曲线的岩性识别方法及装置
Wei et al. Characterizing rock facies using machine learning algorithm based on a convolutional neural network and data padding strategy
CN110837115B (zh) 陆相混积岩致密储层岩性的地震识别方法及装置
CN113344050A (zh) 一种基于深度学习的岩性智能化识别方法及***
CN112329804A (zh) 基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置
Brown et al. Machine learning on Crays to optimize petrophysical workflows in oil and gas exploration
CN116427915A (zh) 基于随机森林的常规测井曲线裂缝密度预测方法及***
Kim et al. Selection of augmented data for overcoming the imbalance problem in facies classification
CN111832636B (zh) 基于特征组合的朴素贝叶斯岩相分类方法及装置
CN117408167A (zh) 基于深度神经网络的泥石流灾害易发性预测方法
CN114064459A (zh) 基于生成对抗网络和集成学习的软件缺陷预测方法
CN112990567A (zh) 建立煤层含气量预测模型的方法、装置、终端与存储介质
CN115660221B (zh) 基于混合神经网络的油气藏经济可采储量评估方法及***
CN111580179B (zh) 一种有机碳含量确定方法、装置及***
Saikia et al. Reservoir facies classification using convolutional neural networks
Kurniadi et al. Local mean imputation for handling missing value to provide more accurate facies classification
Luo et al. Multi-level reservoir identification with logs based on machine learning
CN113642772A (zh) 基于机器学习的测井储层识别预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination