CN111832636B - 基于特征组合的朴素贝叶斯岩相分类方法及装置 - Google Patents
基于特征组合的朴素贝叶斯岩相分类方法及装置 Download PDFInfo
- Publication number
- CN111832636B CN111832636B CN202010612017.8A CN202010612017A CN111832636B CN 111832636 B CN111832636 B CN 111832636B CN 202010612017 A CN202010612017 A CN 202010612017A CN 111832636 B CN111832636 B CN 111832636B
- Authority
- CN
- China
- Prior art keywords
- probability
- lithofacies
- features
- characteristic value
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 46
- 208000035126 Facies Diseases 0.000 claims description 23
- 239000000203 mixture Substances 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 7
- 208000024891 symptom Diseases 0.000 claims 1
- 230000006870 function Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 4
- 235000019738 Limestone Nutrition 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006698 induction Effects 0.000 description 3
- 239000006028 limestone Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000003345 natural gas Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000003209 petroleum derivative Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000010459 dolomite Substances 0.000 description 1
- 229910000514 dolomite Inorganic materials 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施方案提供了一种基于特征组合的朴素贝叶斯岩相分类方法及装置,该方法包括:获取目标工区的多种测井数据并对其进行预处理;将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;对所述训练集中的特征进行两两组合,并拟合每个组合的联合类条件概率;基于所述联合类条件概率构建目标函数,并基于朴素贝叶斯算法求解所述目标函数,以生成岩相分类器;利用所述测试集测试所述岩相分类器,以根据测试结果确定最优的岩相分类器;利用所述最优的岩相分类器对所述目标工区内待处理测井数据进行岩相识别。本说明书实施方案可以提高朴素贝叶斯的岩相分类器的分类准确度。
Description
技术领域
本说明书涉及石油天然气勘探开发技术领域,尤其是涉及一种基于特征组合的朴素贝叶斯岩相分类方法及装置。
背景技术
利用数据挖掘技术对海量地质和工程数据进行信息提取和学习,辅助石油与天然气的勘探与开发,是当前行业发展和研究的前沿热点。利用测井数据进行岩相识别,在地层评估、储层描述、钻井导向领域都具有重要意义。
朴素贝叶斯(Naive Bayes,简称NB)方法发源于古典数学理论,是数据挖掘和机器学习的重要方法之一。该方法学习效率高,尤其在小规模的数据分类问题中表现良好,且对数据缺失不敏感。在实际应用中,为了简化联合类条件概率的计算,朴素贝叶斯方法引入了“特征条件独立性假设”。对于连续性变量,通常假设数据样本服从高斯分布。
然而,测井数据的真实分布往往复杂多样,使得高斯分布拟合效果欠佳。此外,特征条件独立性假设在实际任务中常常也不成立,使得基于朴素贝叶斯的岩相分类的分类结果准确度不高。
发明内容
本说明书实施方案的目的在于提供一种基于特征组合的朴素贝叶斯岩相分类方法及装置,以提高朴素贝叶斯的岩相分类器的分类准确度。
为达到上述目的,一方面,本说明书实施方案提供了一种基于特征组合的朴素贝叶斯岩相分类方法,包括:
获取目标工区的多种测井数据并对其进行预处理;
将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
对所述训练集中的特征进行两两组合,并拟合每个组合的联合类条件概率;
基于所述联合类条件概率构建目标函数,并基于朴素贝叶斯算法求解所述目标函数,以生成岩相分类器;
利用所述测试集测试所述岩相分类器,以根据测试结果确定最优的岩相分类器;
利用所述最优的岩相分类器对所述目标工区内待处理测井数据进行岩相识别。
在本说明书一实施方案中,所述拟合每个组合的联合类条件概率,包括:
当组合特征均为离散型特征时,根据公式计算组合特征的联合概率分布,并将该联合概率分布作为该组合特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;Dc表示岩相类别为c的样本总数;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数。
在本说明书一实施方案中,所述拟合每个组合的联合类条件概率,还包括:
当组合特征均为连续型特征时,根据以下公式计算组合特征的联合概率密度分布,并将该联合概率密度分布作为该组合特征的联合类条件概率。
其中,p(x|c)表示在岩相类别为c的条件下,x发生的概率;c表示岩相类别;x为输入的待分组的一组特征取值;xi,xj分别表示第i号特征取值和第j号特征取值;k为高斯混合模型的组分数;μk为第k个高斯组分的均值向量;∑k为第k个高斯组分的协方差矩阵;αk为第k个高斯组分的权重系数;T表示矩阵的转置。
在本说明书一实施方案中,所述拟合每个组合的联合类条件概率,还包括:
当组合特征包括离散型特征和连续型特征时,对于其中的离散型特征,先进行统计计数,并计算出离散型特征的先验概率;
再根据公式拟合出离散型特征对应的连续特征取值的概率密度分布,并将该概率密度分布作为该离散型特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数;Dc表示岩相类别为c的样本总数,p(xi|c,xj)表示岩相类别为岩相类别为c,且第j号特征值为xj的情况下,第i号特征取值为xi发生的概率;k为高斯混合模型的组分数;σk为第k个高斯组分的方差;αk为第k个高斯组分的权重系数。
在本说明书一实施方案中,所述目标函数包括:
其中,h*(x)为目标函数;x为输入的待分组的一组特征取值;xi,xj分别表示第i号特征取值和第j号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;n为特征总数。
另一方面,本说明书实施方案还提供了一种基于特征组合的朴素贝叶斯岩相分类装置,包括:
预处理模块,用于获取目标工区的多种测井数据并对其进行预处理;
划分模块,用于将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
拟合模块,用于对所述训练集中的特征进行两两组合,并拟合每个组合的联合类条件概率;
生成模块,用于基于所述联合类条件概率构建目标函数,并基于朴素贝叶斯算法求解所述目标函数,以生成岩相分类器;
测试模块,用于利用所述测试集测试所述岩相分类器,以根据测试结果确定最优的岩相分类器;
预测模块,用于利用所述最优的岩相分类器对所述目标工区内待处理测井数据进行岩相识别。
在本说明书一实施方案中,所述拟合每个组合的联合类条件概率,包括:
当组合特征均为离散型特征时,根据公式计算组合特征的联合概率分布,并将该联合概率分布作为该组合特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;Dc表示岩相类别为c的样本总数;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数。
在本说明书一实施方案中,所述拟合每个组合的联合类条件概率,还包括:
当组合特征均为连续型特征时,根据以下公式计算组合特征的联合概率密度分布,并将该联合概率密度分布作为该组合特征的联合类条件概率;
其中,p(x|c)表示在岩相类别为c的条件下,x发生的概率;c表示岩相类别;x为输入的待分组的一组特征取值;xi,xj分别表示第i号特征取值和第j号特征取值;k为高斯混合模型的组分数;μk为第k个高斯组分的均值向量;∑k为第k个高斯组分的协方差矩阵;αk为第k个高斯组分的权重系数;T表示矩阵的转置。
在本说明书一实施方案中,所述拟合每个组合的联合类条件概率,还包括:
当组合特征包括离散型特征和连续型特征时,对于其中的离散型特征,先进行统计计数,并计算出离散型特征的先验概率;
再根据公式拟合出离散型特征对应的连续特征取值的概率密度分布,并将该概率密度分布作为该离散型特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数;Dc表示岩相类别为c的样本总数,p(xi|c,xj)表示岩相类别为岩相类别为c,且第j号特征值为xj的情况下,第i号特征取值为xi发生的概率;k为高斯混合模型的组分数;σk为第k个高斯组分的方差;αk为第k个高斯组分的权重系数。
在本说明书一实施方案中,所述目标函数包括:
其中,h*(x)为目标函数;x为输入的待分组的一组特征取值;xi,xj分别表示第i号特征取值和第j号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;n为特征总数。
由以上本说明书实施方案提供的技术方案可见,在本说明书的实施方案中,这种特征两两组合的方式可以弱化朴素贝叶斯方法的特征条件独立性假设,又不至于使特征之间产生强依赖关系造成模型复杂度增大而导致过拟合的发生,从而提高了岩相分类器的泛化性能。在此基础上,对组合特征数据的分布进行拟合,能够更好的反映各个特征数据的真实分布规律,从而有助于提高朴素贝叶斯的岩相分类器的分类准确度。
附图说明
为了更清楚地说明本说明书实施方案或现有技术中的技术方案,下面将对实施方案或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方案,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的实施方案中基于特征组合的朴素贝叶斯岩相分类方法的流程图;
图2为本说明书提供的实施方案中不同组分数量下的F1值示意图;
图3为本说明书提供的实施方案中电子设备的结构框图;
图4为本说明书提供的实施方案中基于特征组合的朴素贝叶斯岩相分类装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施方案中的附图,对本说明书实施方案中的技术方案进行清楚、完整地描述,显然,所描述的实施方案仅仅是本说明书一部分实施方案,而不是全部的实施方案。基于本说明书中的实施方案,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方案,都应当属于本说明书保护的范围。
参考图1所示,本说明书一些实施方案中的基于特征组合的朴素贝叶斯岩相分类方法,可以包括以下步骤:
S101、获取目标工区的多种测井数据并对其进行预处理。
在本说明书的实施方案中,可用于岩相解释的测井数据通常都以特殊的格式存放在测井软件数据库中。因此,在对测井数据进行挖掘和学习之前,首先需要对测井数据进行预处理。
在本说明书一实施方案中,所述的预处理可以包括:首先对测井数据进行ETL清洗(即抽取、转换、加载),将其处理为可供机器学习模型(即朴素贝叶斯算法)处理的结构化数据,并以统一、标准的格式存储。其中,ETL清洗流程如下:逐行读取测井数据源文件,以测井数据源文件中的关键字为标识,识别测井数据源文件中的有效信息,包括特征名称和特征取值。有效信息经过格式化,并对异常值进行过滤后,可以逗号分隔值(Comma-SeparatedValues,简称CSV)表格的形式保存数据。
例如,在一示例性实施方案中,预处理后的测井数据包含8个可用测井特征,包括自然伽马(GR)、深感应(ILD_log10)、中子-密度孔隙度(DeltaPHI)、平均中子-密度孔隙度(PHIND)、岩性密度(PE)、陆相-海相(NM_M)、相对位置(RELPOS)和地层信息(Formation)。令输入空间X为n维向量的集合(n=8,表示特征总数)。输出空间Y为不同岩相类别的集合,类别分别对应c1~ck(k=9)。其中,9种岩相分别为:陆相(SS)、陆相粗粉砂岩(CSiS)、陆相细粉砂岩(FSiS)、海相砂岩(SiSh)、泥岩(MS)、瓦克灰岩(WS)、白云岩(D)、泥粒灰岩(PS)和叶状藻灰岩(BS)。
S102、将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集。
在本说明书的实施方案中,基于测井数据的岩相分类器的训练过程是一个监督学习的过程。训练开始之前,需要将预处理好的数据划分为训练集和测试集。训练集用来估计模型参数,测试集用来评价模型的性能好坏。划分数据集时应注意保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。因此,在本说明书一些实施方案中,为了保证数据的代表性,可以采用随机分层抽样的方式将每种岩相的样本都按照指定比例(例如7:3)随机划分为两个部分,分别作为训练集和测试集。
S103、对所述训练集中的特征进行两两组合,并拟合每个组合的联合类条件概率。
在本说明书的实施方案中,为了弱化朴素贝叶斯方法的特征条件独立性假设,同时兼顾模型的稳定性,提出对特征进行两两组合,仅考虑两两特征之间相互依赖的方案。这种策略能在一定程度上弱化朴素贝叶斯方法的特征条件独立性假设,又不至于使特征之间产生强依赖关系造成模型复杂度增大而导致过拟合的发生。
特征一般可以分为连续型特征和离散型特征。例如,在一示例性实施方案中,测井特征共有8种:自然伽马(GR)、深感应(ILD_log10)、中子-密度孔隙度(DeltaPHI)、平均中子-密度孔隙度(PHIND)、岩性密度(PE)、陆相-海相(NM_M)、相对位置(RELPOS)和地层信息(Formation)。其中,连续型特征包括自然伽马(GR)、深感应(ILD_log10)、中子-密度孔隙度(DeltaPHI)、平均中子-密度孔隙度(PHIND)、岩性密度(PE)和相对位置(RELPOS)。离散型特征包括陆相-海相(NM_M)、地层信息(Formation)。将8种特征进行两两组合,可以得到28种组合,进而可以得到28种联合类条件概率。
在本说明书一些实施方案中,所述拟合每个组合的联合类条件概率可以分为以下三种情况:
(1)组合特征均为离散型特征
当组合特征均为离散型特征时,可以根据公式计算组合特征的联合概率分布,并将该联合概率分布作为该组合特征的联合类条件概率。其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;Dc表示岩相类别为c的样本总数;/>表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数。
(2)组合特征均为连续型特征
当组合特征均为连续型特征时,可以根据以下公式计算组合特征的联合概率密度分布,并将该联合概率密度分布作为该组合特征的联合类条件概率。
式中,p(x|c)表示在岩相类别为c的条件下,x发生的概率;c表示岩相类别;
x为输入的待分组的一组特征取值,且x=(x1,x2,…,xn);xi,xj分别表示第i号特
征取值和第j号特征取值;k为高斯混合模型的组分数;μk为第k个高斯组分的均值向量;∑k为第k个高斯组分的协方差矩阵;αk为第k个高斯组分的权重系数;T表示矩阵的转置。
其中,在求解高斯混合模型参数时,可以使用最大期望算法(ExpectationMaximization,EM)迭代求解。
(3)组合特征包括离散型特征和连续型特征
当组合特征包括离散型特征和连续型特征时,对于其中的离散型特征,先进行统计计数,并计算出离散型特征的先验概率;
再根据公式拟合出离散型特征对应的连续特征取值的概率密度分布,并将该概率密度分布作为该离散型特征的联合类条件概率。即当连续型特征与连续型特征分为一组时,可以使用二元高斯混合模型(binaryGaussian Mixture Model,简称biGMM)拟合特征组合的联合概率密度分布。其中,在求解高斯混合模型参数时,可以使用EM算法迭代求解。
式中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值。p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数;Dc表示岩相类别为c的样本总数,p(xi|c,xj)表示岩相类别为岩相类别为c,且第j号特征值为xj的情况下,第i号特征取值为xi发生的概率;k为高斯混合模型的组分数;σk为第k个高斯组分的方差;αk为第k个高斯组分的权重系数。
在组合特征包括离散型特征和连续型特征的情况下,对于其中的连续型特征可以基于上述情况(2)进行计算,在此不再赘述。
S104、基于所述联合类条件概率构建目标函数,并基于朴素贝叶斯算法求解所述目标函数,以生成岩相分类器。
在本说明书一些实施方案中,基于上一步得到的联合类条件概率可以构建目标函数,并基于朴素贝叶斯算法求解所述目标函数,基于朴素贝叶斯算法求解所述目标函数的过程即为训练过程,从而可以生成岩相分类器。其中,目标函数可以包括式中,h*(x)为目标函数;x为输入的待分组的一组特征取值,且x=(x1,x2,…,xn);xi,xj分别表示第i号特征取值和第j号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率,是c类岩相中第i号特征和第j号特征的联合类条件概率;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;n为特征总数。
S105、利用所述测试集测试所述岩相分类器,以根据测试结果确定最优的岩相分类器。
在本说明书的实施方案中,高斯混合模型的拟合效果,受到高斯组分数(即组合数量)的影响。通常情况下,组分数量越多,模型的拟合效果越能逼近数据的真实分布。但是,组分数量越多,往往使得模型的复杂程度也越高,容易发生过拟合问题,因此需要进行优选。
在本说明书一些实施方案中,可以根据测试结果对应的精确率(precision)、召回率(recall)、F1值和/或曲线下面积(area under the curve,简称AUC)等评价指标,来确定最优的岩相分类器。例如,以F1值作为评价指标为例,图2中示出了不同组分数量下的F1值(图2中横坐标为组分数量,纵坐标为F1值)。从图2中可以看出,当组分数量小于5时,处于欠拟合状态;当组分数量大于5时,模型性能不再提升;当组分数量大于8时,进入过拟合状态。因此,在保证模型精度的基础上,综合考虑计算精度和计算资源的平衡,组分数量为5时最优,即组分数量为5时对应的岩相分类器为最优。
S106、利用所述最优的岩相分类器对所述目标工区内待处理测井数据进行岩相识别。
在本说明书的实施方案中,将目标工区内待处理(即待预测)测井数据输入最优的岩相分类器,即可得到对应的岩相分类结果。
由此可见,在本说明书的实施方案中,这种特征两两组合的方式可以弱化朴素贝叶斯方法的特征条件独立性假设,又不至于使特征之间产生强依赖关系造成模型复杂度增大而导致过拟合的发生,从而提高了岩相分类器的泛化性能。在此基础上,对组合特征数据的分布进行拟合,能够更好的反映各个特征数据的真实分布规律,从而有助于提高朴素贝叶斯的岩相分类器的分类准确度。
与上述的基于特征组合的朴素贝叶斯岩相分类方法对应,本说明书还提供了一种电子设备。参考图3所示,在本说明书一些实施方案中,所述电子设备可以包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时可以执行如下步骤:
获取目标工区的多种测井数据并对其进行预处理;
将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
对所述训练集中的特征进行两两组合,并拟合每个组合的联合类条件概率;
基于所述联合类条件概率构建目标函数,并基于朴素贝叶斯算法求解所述目标函数,以生成岩相分类器;
利用所述测试集测试所述岩相分类器,以根据测试结果确定最优的岩相分类器;
利用所述最优的岩相分类器对所述目标工区内待处理测井数据进行岩相识别。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
与上述的基于特征组合的朴素贝叶斯岩相分类方法对应,本说明书还提供了一种基于特征组合的朴素贝叶斯岩相分类装置。参考图4所示,在本说明书一些实施方案中,所述基于特征组合的朴素贝叶斯岩相分类装置可以包括:
预处理模块41,可以用于获取目标工区的多种测井数据并对其进行预处理;
划分模块42,可以用于将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
拟合模块43,可以用于对所述训练集中的特征进行两两组合,并拟合每个组合的联合类条件概率;
生成模块44,可以用于基于所述联合类条件概率构建目标函数,并基于朴素贝叶斯算法求解所述目标函数,以生成岩相分类器;
测试模块45,可以用于利用所述测试集测试所述岩相分类器,以根据测试结果确定最优的岩相分类器;
预测模块46,可以用于利用所述最优的岩相分类器对所述目标工区内待处理测井数据进行岩相识别。
本说明书一些实施方案中,所述拟合每个组合的联合类条件概率可以包括:
当组合特征均为离散型特征时,根据公式计算组合特征的联合概率分布,并将该联合概率分布作为该组合特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;Dc表示岩相类别为c的样本总数;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数。
本说明书一些实施方案中,所述拟合每个组合的联合类条件概率,还可以包括:
当组合特征均为连续型特征时,根据以下公式计算组合特征的联合概率密度分布,并将该联合概率密度分布作为该组合特征的联合类条件概率;
其中,p(x|c)表示在岩相类别为c的条件下,x发生的概率;c表示岩相类别;x为输入的待分组的一组特征取值,且x=(x1,x2,…,xn);xi,xj分别表示第i号特征取值和第j号特征取值;k为高斯混合模型的组分数;μk为第k个高斯组分的均值向量;∑k为第k个高斯组分的协方差矩阵;αk为第k个高斯组分的权重系数;T表示矩阵的转置。
本说明书一些实施方案中,所述拟合每个组合的联合类条件概率,还可以包括:
当组合特征包括离散型特征和连续型特征时,对于其中的离散型特征,先进行统计计数,并计算出离散型特征的先验概率;
再根据公式拟合出离散型特征对应的连续特征取值的概率密度分布,并将该概率密度分布作为该离散型特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数;Dc表示岩相类别为c的样本总数,p(xi|c,xj)表示岩相类别为岩相类别为c,且第j号特征值为xj的情况下,第i号特征取值为xi发生的概率;k为高斯混合模型的组分数;σk为第k个高斯组分的方差;αk为第k个高斯组分的权重系数。
本说明书一些实施方案中,所述目标函数可以包括:
其中,h*(x)为目标函数;x为输入的待分组的一组特征取值,且x=(x1,x2,…,xn);xi,xj分别表示第i号特征取值和第j号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;n为特征总数。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本申请是参照根据本说明书实施方案的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施方案可提供为方法、***或计算机程序产品。因此,本说明书实施方案可采用完全硬件实施方案、完全软件实施方案或结合软件和硬件方面的实施方案的形式。而且,本说明书实施方案可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施方案可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施方案,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施方案均采用递进的方式描述,各个实施方案之间相同相似的部分互相参见即可,每个实施方案重点说明的都是与其他实施方案的不同之处。尤其,对于***实施方案而言,由于其基本相似于方法实施方案,所以描述的比较简单,相关之处参见方法实施方案的部分说明即可。在本说明书的描述中,参考术语“一个实施方案”、“一些实施方案”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方案或示例描述的具体特征、结构、材料或者特点包含于本说明书实施方案的至少一个实施方案或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方案或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方案或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方案或示例以及不同实施方案或示例的特征进行结合和组合。
以上所述仅为本申请的实施方案而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (2)
1.一种基于特征组合的朴素贝叶斯岩相分类方法,其特征在于,包括:
获取目标工区的多种测井数据并对其进行预处理;
将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
对所述训练集中的特征进行两两组合,并拟合每个组合的联合类条件概率;
基于所述联合类条件概率构建目标函数,并基于朴素贝叶斯算法求解所述目标函数,以生成岩相分类器;
利用所述测试集测试所述岩相分类器,以根据测试结果确定最优的岩相分类器;
利用所述最优的岩相分类器对所述目标工区内待处理测井数据进行岩相识别;
其中,所述拟合每个组合的联合类条件概率,包括:
当组合特征均为离散型特征时,根据公式计算组合特征的联合概率分布,并将该联合概率分布作为该组合特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;Dc表示岩相类别为c的样本总数;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数;
当组合特征均为连续型特征时,根据以下公式计算组合特征的联合概率密度分布,并将该联合概率密度分布作为该组合特征的联合类条件概率;
其中,p(x|c)表示在岩相类别为c的条件下,x发生的概率;c表示岩相类别;x为输入的待分组的一组特征取值;xi,xj分别表示第i号特征取值和第j号特征取值;k为高斯混合模型的组分数;μk为第k个高斯组分的均值向量;∑k为第k个高斯组分的协方差矩阵;αk为第k个高斯组分的权重系数;T表示矩阵的转置;
当组合特征包括离散型特征和连续型特征时,对于其中的离散型特征,先进行统计计数,并计算出离散型特征的先验概率;
再根据公式拟合出离散型特征对应的连续特征取值的概率密度分布,并将该概率密度分布作为该离散型特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数;Dc表示岩相类别为c的样本总数,p(xi|c,xj)表示岩相类别为岩相类别为c,且第j号特征值为xj的情况下,第i号特征取值为xi发生的概率;k为高斯混合模型的组分数;σk为第k个高斯组分的方差;αk为第k个高斯组分的权重系数;
所述目标函数包括其中,h*(x)为目标函数;x为输入的待分组的一组特征取值,且xi,xj分别表示第i号特征取值和第j号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;n为特征总数。
2.一种基于特征组合的朴素贝叶斯岩相分类装置,其特征在于,包括:
预处理模块,用于获取目标工区的多种测井数据并对其进行预处理;
划分模块,用于将预处理后的多种测井数据进行随机分层抽样,并按照预设比例形成训练集和测试集;
拟合模块,用于对所述训练集中的特征进行两两组合,并拟合每个组合的联合类条件概率;
生成模块,用于基于所述联合类条件概率构建目标函数,并基于朴素贝叶斯算法求解所述目标函数,以生成岩相分类器;
测试模块,用于利用所述测试集测试所述岩相分类器,以根据测试结果确定最优的岩相分类器;
预测模块,用于利用所述最优的岩相分类器对所述目标工区内待处理测井数据进行岩相识别;
其中,所述拟合每个组合的联合类条件概率,包括:
当组合特征均为离散型特征时,根据公式计算组合特征的联合概率分布,并将该联合概率分布作为该组合特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;Dc表示岩相类别为c的样本总数;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数;
当组合特征均为连续型特征时,根据以下公式计算组合特征的联合概率密度分布,并将该联合概率密度分布作为该组合特征的联合类条件概率;
其中,p(x|c)表示在岩相类别为c的条件下,x发生的概率;c表示岩相类别;x为输入的待分组的一组特征取值;xi,xj分别表示第i号特征取值和第j号特征取值;k为高斯混合模型的组分数;μk为第k个高斯组分的均值向量;∑k为第k个高斯组分的协方差矩阵;αk为第k个高斯组分的权重系数;T表示矩阵的转置;
当组合特征包括离散型特征和连续型特征时,对于其中的离散型特征,先进行统计计数,并计算出离散型特征的先验概率;
再根据公式拟合出离散型特征对应的连续特征取值的概率密度分布,并将该概率密度分布作为该离散型特征的联合类条件概率;
其中,c表示岩相类别;xi,xj分别表示第i号特征取值和第j号特征取值;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;表示岩相类别为c,第i号特征取值为xi并且第j号特征取值为xj的样本个数;Dc表示岩相类别为c的样本总数,p(xi|c,xj)表示岩相类别为岩相类别为c,且第j号特征值为xj的情况下,第i号特征取值为xi发生的概率;k为高斯混合模型的组分数;σk为第k个高斯组分的方差;αk为第k个高斯组分的权重系数;
所述目标函数包括其中,h*(x)为目标函数;x为输入的待分组的一组特征取值;xi,xj分别表示第i号特征取值和第j号特征取值;c表示岩相类别;p(c)为岩相类别c的先验概率;p(xi,xj|c)表示在岩相类别为c的条件下,xi和xj发生的概率;n为特征总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612017.8A CN111832636B (zh) | 2020-06-30 | 2020-06-30 | 基于特征组合的朴素贝叶斯岩相分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612017.8A CN111832636B (zh) | 2020-06-30 | 2020-06-30 | 基于特征组合的朴素贝叶斯岩相分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832636A CN111832636A (zh) | 2020-10-27 |
CN111832636B true CN111832636B (zh) | 2024-04-12 |
Family
ID=72899527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010612017.8A Active CN111832636B (zh) | 2020-06-30 | 2020-06-30 | 基于特征组合的朴素贝叶斯岩相分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832636B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529341B (zh) * | 2021-02-09 | 2021-07-23 | 西南石油大学 | 一种基于朴素贝叶斯算法的钻井漏失机率预测方法 |
CN112926680B (zh) * | 2021-03-29 | 2022-08-05 | 成都理工大学 | 基于贝叶斯神经网络的微生物岩沉积微相识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104749624A (zh) * | 2015-03-03 | 2015-07-01 | 中国石油大学(北京) | 一种地震岩相识别及其不确定性定量评价同步实现方法 |
CN107462927A (zh) * | 2016-06-03 | 2017-12-12 | 中国石油化工股份有限公司 | 基于朴素贝叶斯分类的地震岩相预测方法和装置 |
CN107967452A (zh) * | 2017-11-24 | 2018-04-27 | 广州博进信息技术有限公司 | 一种基于视频的深海矿物分布识别方法及*** |
CN108415077A (zh) * | 2018-02-11 | 2018-08-17 | 中国石油化工股份有限公司 | 新的边缘检测低序级断层识别方法 |
CN109919184A (zh) * | 2019-01-28 | 2019-06-21 | 中国石油大学(北京) | 一种基于测井数据的多井复杂岩性智能识别方法及*** |
CN110222734A (zh) * | 2019-05-17 | 2019-09-10 | 深圳先进技术研究院 | 贝叶斯网络学习方法、智能设备及存储装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11195057B2 (en) * | 2014-03-18 | 2021-12-07 | Z Advanced Computing, Inc. | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US10977336B2 (en) * | 2018-06-11 | 2021-04-13 | Andre J. UNGER | System and method of pre-processing discrete datasets for use in machine learning |
-
2020
- 2020-06-30 CN CN202010612017.8A patent/CN111832636B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104749624A (zh) * | 2015-03-03 | 2015-07-01 | 中国石油大学(北京) | 一种地震岩相识别及其不确定性定量评价同步实现方法 |
CN107462927A (zh) * | 2016-06-03 | 2017-12-12 | 中国石油化工股份有限公司 | 基于朴素贝叶斯分类的地震岩相预测方法和装置 |
CN107967452A (zh) * | 2017-11-24 | 2018-04-27 | 广州博进信息技术有限公司 | 一种基于视频的深海矿物分布识别方法及*** |
CN108415077A (zh) * | 2018-02-11 | 2018-08-17 | 中国石油化工股份有限公司 | 新的边缘检测低序级断层识别方法 |
CN109919184A (zh) * | 2019-01-28 | 2019-06-21 | 中国石油大学(北京) | 一种基于测井数据的多井复杂岩性智能识别方法及*** |
CN110222734A (zh) * | 2019-05-17 | 2019-09-10 | 深圳先进技术研究院 | 贝叶斯网络学习方法、智能设备及存储装置 |
Non-Patent Citations (3)
Title |
---|
"On the Capacity of Vector Gaussian Channels with Bounded Inputs";Borzoo Rassouli;《IEEE Transactions on Information Theory》;第62卷(第12期);第6884-6903页 * |
"基于概率统计反演的储层定量表征方法";袁成;《中国博士学位论文全文数据库 基础科学辑》(2018年第02期);第A011-41页 * |
"基于深度神经网络的岩性识别方法研究";玉龙飞雪;《中国优秀硕士学位论文全文数据库 基础科学辑》(2023年第03期);第A011-202页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111832636A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Long et al. | Pseudo density log generation using artificial neural network | |
Silva et al. | Petrofacies classification using machine learning algorithms | |
CN109113729B (zh) | 基于测井曲线的岩性识别方法及装置 | |
CN111832636B (zh) | 基于特征组合的朴素贝叶斯岩相分类方法及装置 | |
CN113298230B (zh) | 一种基于生成对抗网络的不平衡数据集的预测方法 | |
CN111882426B (zh) | 业务风险分类器训练方法、装置、设备及存储介质 | |
Schaaf et al. | Constraining stochastic 3-D structural geological models with topology information using approximate Bayesian computation in GemPy 2.1 | |
Xie et al. | Towards optimization of boosting models for formation lithology identification | |
Asghar et al. | Spatial pseudo-labeling for semi-supervised facies classification | |
Yuan | An improved K-means clustering algorithm for global earthquake catalogs and earthquake magnitude prediction | |
Zhou et al. | Sequential data-driven cross-domain lithology identification under logging data distribution discrepancy | |
Kim et al. | Selection of augmented data for overcoming the imbalance problem in facies classification | |
Mishra et al. | Comparison of different supervised machine learning algorithms to predict PWR spent fuel parameters | |
Demidova et al. | Development of the SVM classifier ensemble for the classification accuracy increase | |
Saez et al. | KSUFS: A novel unsupervised feature selection method based on statistical tests for standard and big data problems | |
CN112329804A (zh) | 基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置 | |
Hong et al. | A novel approach to the automatic classification of wireline log-predicted sedimentary microfacies based on object detection | |
Peng et al. | Coalbed methane content prediction using deep belief network | |
Smith et al. | Exploratory analysis of machine learning techniques in the Nevada geothermal play fairway analysis | |
CN112990567A (zh) | 建立煤层含气量预测模型的方法、装置、终端与存储介质 | |
CN113159419A (zh) | 一种群体特征画像分析方法、装置、设备及可读存储介质 | |
Zhang et al. | An adaptive ensemble learning by opposite multiverse optimizer and its application in fluid identification for unconventional oil reservoirs | |
Granek et al. | Advanced geoscience targeting via focused machine learning applied to the QUEST project dataset, British Columbia | |
Asghar et al. | Semisupervised facies classification with reconstruction cooperation | |
Laghmouch et al. | Classifying process deviations with weak supervision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |