CN115983088B - 一种基于集成学习建立的海相页岩原地气量预测模型 - Google Patents

一种基于集成学习建立的海相页岩原地气量预测模型 Download PDF

Info

Publication number
CN115983088B
CN115983088B CN202211225581.XA CN202211225581A CN115983088B CN 115983088 B CN115983088 B CN 115983088B CN 202211225581 A CN202211225581 A CN 202211225581A CN 115983088 B CN115983088 B CN 115983088B
Authority
CN
China
Prior art keywords
model
prediction
geological
prediction model
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211225581.XA
Other languages
English (en)
Other versions
CN115983088A (zh
Inventor
冯越
卢晨刚
李刚
高平
肖贤明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences Beijing
Original Assignee
China University of Geosciences Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences Beijing filed Critical China University of Geosciences Beijing
Priority to CN202211225581.XA priority Critical patent/CN115983088B/zh
Publication of CN115983088A publication Critical patent/CN115983088A/zh
Application granted granted Critical
Publication of CN115983088B publication Critical patent/CN115983088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

本发明公开了一种基于集成学***均绝对百分比误差和决定系数筛选基模型以及适配的特征参数,并建立最终的预测元模型;利用最终的预测模型以及对应的特征参数对具有相同或相近地质条件的无含气性数据的井段进行预测,并根据预测外推并评价其含气性剖面;本发明能够有效利用有限的数据,有效地避免信息遗漏或者过度拟合,从而构建精准的预测模型。

Description

一种基于集成学习建立的海相页岩原地气量预测模型
技术领域
本发明涉及原地气量预测技术领域,具体涉及一种基于集成学习建立的海相页岩原地气量预测模型。
背景技术
伴随着绿色低碳能源的广阔前景和双碳目标的发展要求,页岩气成为了目前最现实的清洁资源之一,页岩含气性是其勘探潜力最直观的表现,含气性越高,则勘探潜力越大,在实际地质特征中,由于页岩含气量受页岩自生属性和外界条件多种因素制约,因此,单因素对于含气性的作用似乎并不是一定的。
对于深层页岩气,为了满足其勘探效益,划定优质储层的原地气量(GIP)标准应当更高,然而原地气量(GIP)准确预测很困难,虽然现场解析法操作简单,对样品采集、处理与过程控制已形成规范,是目前页岩气勘探开发中使用最广泛的一种方法,但是在实际操作中受限于页岩解析仪器条件和解析时间,不可能对所有岩心样品进行解析实验。准确快速的含气量评价手段一直是一个尚待完善的问题。
为了解决前述方法,在现有技术中基于机器学习的方法来进行相应的预测,但是机器学习虽然可以显著减少耗时和劳动密集型的工作,然而,在一些复杂问题中,受到样本数量限制,单一机器学习模型可能无法发挥其自身的优势并有效地解决问题。对于页岩含气性的预测来说,在当前的现有技术中,一般是通过拟合的方式进行分析,对于这类技术方案其一般在构建模型时需要包含一定的条件,另外,在进行拟合模拟分析时,其预测的精度取决于地质参数的数据质量和数量,当地质参数个数较少时模型精度较低,又由于地质参数精度以及共线性的问题,当地质参数个数较多时,预测模型会出现过度拟合。基于前述两个方面的因素,通常制约着精准预测模型的构建,而如何准确把握地质参数数据的质量和数量又是一个不可控的问题。
发明内容
本发明的目的在于提供一种基于集成学习建立的海相页岩原地气量预测模型,以解决现有技术中无法通过少量有限的数据通过机器学习构建对页岩含气量精准预测模型的技术问题。
为解决上述技术问题,本发明具体提供下述技术方案:
一种基于集成学习建立的海相页岩原地气量预测模型,包括以下步骤:
输入原地气量和地质参数,并且将原地气量和地质参数构成一个开放式的数据集,对所述数据集进行聚类分析以确定不同地质参数对原地气量的影响权重;
依据聚类分析的影响权重,将不同地质参数输入至不同的预测模型中,并根据平均绝对百分比误差和决定系数筛选基模型并建立最终的预测元模型;
利用最终的预测模型以及对应的特征参数对具有相同或相近地质条件的无含气性数据的井段进行预测,并根据预测外推并评价其含气性剖面。
进一步地,将不同地质参数输入至不同的预测模型中的具体方法为:
将各类地质变量进行标准化处理使得各变量均处于同一个数量级;
利用主成分分析对所述地质参数进行数据降维处理;
将处理结果随机分为训练集和测试集,并将所述训练集输入不同的预测模型中进行训练,且通过训练集的滚动式收集以不断精细化所述预测模型;
其中:
对预测模型进行训练时采用k折交叉验证以避免机器学习过程中可能发生的过度拟合。
进一步地,在对所述预测模型进行精细化的过程中采用平均绝对百分比误差和决定系数对所述预测模型进行质量评价,并依次筛选出最佳的预测模型作为基模型;
其中:
所述基模型来自于不同类型的算法,并且各个所述基模型之间的性能表达差距在设定的阈值范围以内。
进一步地,对不同类型的基模型利用stacking方法集成建立元模型。
进一步地,所述元模型在利用训练集和测试集中的数据进行检验,检验条件为:
所述元模型在测试集的平均绝对百分比误差应当整体低于基模型,决定系数应当高于基模型。进一步地,在预测模型中进行训练且通过训练集的滚动式收集以不断精细化所述预测模型时,通过网格搜索的方式以优化所述预测模型的超参数。
进一步地,网格搜索的次数不少于5000次。
进一步地,对不同地质参数变量进行聚类分析,并将组间聚类分析结果作为判断依据,其具体的操作步骤为:
设定各地质参数的变量为i,不同地质参数中的样品数为ni,样品集合为Mi
设定每种地质参数变量与原地气量在向量空间中的组间距离为Li,影响地质参数变量i对原地气量的相对比重以Li大小为准,按照Li从小到大顺次聚类,直至将所有变量i全部聚为一类为止。本发明与现有技术相比较,具有如下有益效果:
本发明搭建了一个基于有限样品数量、且从聚类分析到预测元模型的GIP评价框架,通过聚类分析结果进行输入特征的确定可以有效地避免信息遗漏或者过度拟合,并利用主成分分析对输入特征进行处理可以达到对数据的降维处理,从而对***数据进行冗余分析和特征提取,有效解决数据共线性的问题,通过集成算法建立的泛化能力强的元模型,借助少量有限的小样本即可实现对页岩含气性进行预测和评价,有助于指导深层页岩气下一步的勘探部署,有效降低勘探的风险性。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的预测模型的建立流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在实际勘查中,由于地质参数复杂而多变,且不同地质参数之间的相互影响关系不同而且不统一,因此基于多种地质参数建立油气预测模型一直是一个难以解决的问题。
在当前的现有技术中,主要包括两个方面:
第一方面,通过建立含气性和多种地质参数的元回归模型,从而计算和预测页岩的GIP(原地气量);
第二方面,通过对不同地质参数进行无量纲化处理,随后利用多元线性回归分析方法计算了不同地质参数的权重,通过多参数加权叠加公式建立页岩气量的多远线性回归模型。
但是从现有技术的两个方向来说,可以明确的是,GIP预测模型的准确性取决于构建所述预测模型所用地址参数的数据质量和数量。当地质参数个数较少而且质量较低时,预测模型的精度就较低,当地质参数个数过多时,由于地质参数之间存在共线性问题,预测模型会出现过度拟合,从而导致原有的数据失真,得不到满意的预测效果。
如图1所示,本发明提供了一种基于集成学习建立的海相页岩原地气量预测模型,包括原地气量主控因素分析、确定数据参数个数、主成分分析、数据切分、模型优选、模型集成、模型评价和验证。其具体包括以下步骤:
输入原地气量和地质参数,并且将原地气量和地质参数构成一个开放式的数据集,对所述数据集进行聚类分析以确定不同地质参数对原地气量的影响权重;
依据聚类分析的影响权重,将不同地质参数输入至不同的预测模型中,并根据平均绝对百分比误差和决定系数筛选基模型并建立最终的预测元模型;
利用最终的预测模型以及对应的特征参数对具有相同或相近地质条件的无含气性数据的井段进行预测,并根据预测外推并评价其含气性剖面。
在前述中,一般建议的地质参数包括有机碳含量(TOC,%),矿物组成(硅质矿物,黏土矿物,碳酸盐矿物,%),孔隙度(%),含水饱和度(%)和地层压力系数。
在获得原始的地质参数后,首先对形成的数据集进行***聚类分析,并明确不同影响因素对原地气量的重要程度。在对数据集的聚类分析中一般采用距离来进行判断,首先将距离相近的变量先聚成类,距离较远的变量后聚成类,直到每个变量都归入合适的类中。
对不同地质参数变量进行聚类分析,并将组间聚类分析结果作为判断依据,其具体的操作步骤为:
设定各地质参数的变量为i,不同地质参数中的样品数为ni,样品集合为Mi
设定每种地质参数变量与原地气量在向量空间中的组间距离为Li,影响地质参数变量i对原地气量的相对比重以Li大小为准,按照Li从小到大顺次聚类,直至将所有变量i全部聚为一类为止。
在前述方式中,将各类不同地质参数作为变量进行组间聚类,对各变量标准化到Z分数以消除量纲,如有些参数的单位为%,有些单位为无量纲参数等,将其进行无量纲化后便于直接比较,从而提高后期的预测模型建立的准确性。
依据聚类分析的影响权重,将不同地质参数输入至不同的预测模型中,一般从最重要的参数利用各种算法,建议选择经典学***均绝对百分比误差(MAPE)(公式1)和决定系数(R2)(公式2)来决定最终模型的特征参数。
其中:
yi为实际值,为预测值,n为事件数。
通过聚类分析结果确定输入特征数量,能够有效地避免信息遗漏或者过度拟合。实际操作中发现在输入特征为7个时,各种经典模型表现更加良好,即将所有的影响因素作为特征输入模型可能不会遗漏信息,即使这些影响因素间存在着不同权重。
在实现对地质参数的聚类分析后,即可对不同的预测模型进行训练,从而进行筛选和优化。
应对对所述训练集中的多组地质参数对其进行标准化处理,经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上。
在前述中,针对同一地质变量在训练的过程中可以以此为标准进行数据修正,防止出现奇异样本数据导致的不良影响。
主成分分析:采用主成分分析降低数据的维度,各主成分之间互不相关,数据冗余少,能够有效地避免特征参数间可能存在的共线性。主成分分析中可以令PCA=0.99或者根据碎石图确定主成分个数。
因此,本实施方式搭建了一个基于有限样品数量、且从聚类分析到预测元模型的GIP评价框架,通过聚类分析结果进行输入特征数量的确定,能够有效地避免信息遗漏或者过度拟合。此外,对输入特征进行的主成分分析能够对得到的***数据进行冗余分析和特征提取,可以有效地解决共线性问题。
在完成主成分分析后,根据得到的主成分进行预测模型的训练,其中,模型的数据必须规范化,在本实施例中,数据集随机分为80%的训练集和20%的测试集,并将所述训练集输入不同的预测模型中进行训练,且通过训练集的滚动式收集以不断精细化所述预测模型。由此确保了测试数据从未输入到模型训练过程中。
其中:
对预测模型进行训练时采用k折交叉验证以避免机器学习过程中可能发生的过度拟合。在本实施例的预测模型训练中使用5折交叉验证以避免机器学习过程中可能发生的过度拟合。
在对预测模型进行训练的过程中,可以在使用网格搜索以调优模型的初始值-超参数在所有候选的参数选择中,按步长依次调整参数,通过循环遍历,尝试每一种可能性,从所有的参数中找到在验证集上精度最高的参数。其中,网格搜索m次,其中m应足够大,如大于5000。
如前述的公式(1)和公式(2),前述预测模型训练集中的MAPE和R2用于预测模型质量的评价,并依此优选预测模型作为基模型。在集成元模型时需要基模型尽可能来自不同类型算法,并且模型之间性能表现差距不能过大,可以通过提前设定阈值的方式来控制。其中,选取采用不同类型的基模型可以利用stacking方法建立元模型。
所述元模型在利用训练集和测试集中的数据进行检验,检验条件为:
集成的元模型应该性能更好、更加稳定,尤其是测试集,因为其预测效果是模型质量的重要评估依据,测试集的均绝对百分比误差应当整体低于基模型,决定系数应当高于基模型。
模型评价和验证:利用元模型对具有相同或者类似地质条件的无含气性数据的井段进行预测外推,评价其含气性剖面。
综合前述可知,在本实施方式中,其本质上相当于搭建了一个基于有限样品数量的从聚类分析到预测元模型的GIP评价框架,通过聚类分析结果进行输入特征的确定,能够有效地避免信息遗漏或者过度拟合。
此外,通过对输入特征进行的主成分分析能够对得到的***数据进行冗余分析和特征提取,可以有效地解决共线性问题。
本实施方式利用集成算法建立了泛化能力强的元模型,可以基于小样本对页岩含气性进行预测和评价,有助于指导深层页岩气下一步的勘探部署,有效降低勘探的风险性。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (3)

1.一种基于集成学习建立的页岩原地气量预测模型,其特征在于,包括以下步骤:
输入原地气量和地质参数,并且将原地气量和地质参数构成一个开放式的数据集,对所述数据集进行聚类分析以确定不同地质参数对原地气量的影响权重;
依据聚类分析的影响权重,将不同地质参数输入至不同的预测模型中,并根据平均绝对百分比误差和决定系数筛选基模型并建立最终的预测元模型;
利用最终的预测模型以及对应的特征参数对具有相同或相近地质条件的无含气性数据的井段进行预测,并根据预测外推并评价其含气性剖面;
其中:
将不同地质参数输入至不同的预测模型中的具体方法为:
将各类地质变量进行标准化处理使得各变量均处于同一个数量级;
利用主成分分析对所述地质参数进行数据降维处理;
将处理结果随机分为训练集和测试集,并将所述训练集输入不同的预测模型中进行训练,且通过训练集的滚动式收集以不断精细化所述预测模型;
对预测模型进行训练时采用k折交叉验证以避免机器学习过程中可能发生的过度拟合;
在对所述预测模型进行精细化的过程中采用平均绝对百分比误差和决定系数对所述预测模型进行质量评价,并依次筛选出最佳的预测模型作为基模型;
所述基模型来自于不同类型的算法,并且各个所述基模型之间的性能表达差距在设定的阈值范围以内;
对不同类型的基模型利用stacking方法集成建立元模型,所述元模型利用测试集中的数据进行检验,检验条件为:
所述元模型在测试集的平均绝对百分比误差应当整体低于基模型,决定系数应当高于基模型;
在对不同地质参数变量进行聚类分析,并将组间聚类分析结果作为判断依据,其具体的操作步骤为:
设定各地质参数的变量为i,不同地质参数中的样品数为,样品集合为/>
设定每种地质参数变量与原地气量在向量空间中的组间距离为,影响地质参数变量i对原地气量的相对比重以/>大小为准,按照/>从小到大顺次聚类,直至将所有变量i全部聚为一类为止。
2.根据权利要求1所述的一种基于集成学习建立的页岩原地气量预测模型,其特征在于,在预测模型中进行训练且通过训练集的滚动式收集以不断精细化所述预测模型时,通过网格搜索的方式以优化所述预测模型的超参数。
3.根据权利要求1所述的一种基于集成学习建立的页岩原地气量预测模型,其特征在于,网格搜索的次数不少于5000次。
CN202211225581.XA 2022-10-09 2022-10-09 一种基于集成学习建立的海相页岩原地气量预测模型 Active CN115983088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211225581.XA CN115983088B (zh) 2022-10-09 2022-10-09 一种基于集成学习建立的海相页岩原地气量预测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211225581.XA CN115983088B (zh) 2022-10-09 2022-10-09 一种基于集成学习建立的海相页岩原地气量预测模型

Publications (2)

Publication Number Publication Date
CN115983088A CN115983088A (zh) 2023-04-18
CN115983088B true CN115983088B (zh) 2023-08-15

Family

ID=85972690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211225581.XA Active CN115983088B (zh) 2022-10-09 2022-10-09 一种基于集成学习建立的海相页岩原地气量预测模型

Country Status (1)

Country Link
CN (1) CN115983088B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106840741A (zh) * 2016-12-22 2017-06-13 中国石油天然气股份有限公司 细粒沉积岩分析实验的样品选取方法及***
CN113379256A (zh) * 2021-06-16 2021-09-10 西南石油大学 一种Kmeans-随机森林的储层评价预测方法
CN113722653A (zh) * 2021-08-25 2021-11-30 中国地质大学(武汉) 一种多智能体***分布式优化控制方法及存储介质
CN114358427A (zh) * 2022-01-07 2022-04-15 西南石油大学 一种预测页岩气井最终可采储量的方法
CN114925623A (zh) * 2022-07-22 2022-08-19 中国地质大学(北京) 油气藏产量预测方法及***
CN115146976A (zh) * 2022-07-11 2022-10-04 中国地质大学(北京) 影响待勘测区块评价的主要地质参数的选取方法及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430725B2 (en) * 2016-06-15 2019-10-01 Akw Analytics Inc. Petroleum analytics learning machine system with machine learning analytics applications for upstream and midstream oil and gas industry
WO2020000248A1 (zh) * 2018-06-27 2020-01-02 大连理工大学 一种基于空间重构的航空发动机过渡态加速过程关键性能参数预测方法
US11663546B2 (en) * 2020-04-22 2023-05-30 Aspentech Corporation Automated evaluation of refinery and petrochemical feedstocks using a combination of historical market prices, machine learning, and algebraic planning model information
US11636240B2 (en) * 2020-10-14 2023-04-25 Schlumberger Technology Corporation Reservoir performance system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106840741A (zh) * 2016-12-22 2017-06-13 中国石油天然气股份有限公司 细粒沉积岩分析实验的样品选取方法及***
CN113379256A (zh) * 2021-06-16 2021-09-10 西南石油大学 一种Kmeans-随机森林的储层评价预测方法
CN113722653A (zh) * 2021-08-25 2021-11-30 中国地质大学(武汉) 一种多智能体***分布式优化控制方法及存储介质
CN114358427A (zh) * 2022-01-07 2022-04-15 西南石油大学 一种预测页岩气井最终可采储量的方法
CN115146976A (zh) * 2022-07-11 2022-10-04 中国地质大学(北京) 影响待勘测区块评价的主要地质参数的选取方法及设备
CN114925623A (zh) * 2022-07-22 2022-08-19 中国地质大学(北京) 油气藏产量预测方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Stacking集成学习的岩性识别研究;曹茂俊 等;《计算机技术与发展》;第32卷(第07期);全文 *

Also Published As

Publication number Publication date
CN115983088A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109611087B (zh) 一种火山岩油藏储层参数智能预测方法及***
CN108376295B (zh) 一种油气甜点预测方法及存储介质
CN112529341B (zh) 一种基于朴素贝叶斯算法的钻井漏失机率预测方法
CN106677763B (zh) 一种基于动态集成建模的油井动液面预测方法
CN107122860B (zh) 基于网格搜索和极限学习机的冲击地压危险等级预测方法
CN110895729A (zh) 一种输电线路工程建设工期的预测方法
CN110968618A (zh) 一种挖掘焊接参数量化关联规则的方法及应用
CN111507824A (zh) 风控模型入模变量最小熵分箱方法
CN115983088B (zh) 一种基于集成学习建立的海相页岩原地气量预测模型
CN116303626B (zh) 一种基于特征优化和在线学习的固井泵压预测方法
CN115618987A (zh) 生产井生产数据预测方法、装置、设备和存储介质
CN117473305A (zh) 一种近邻信息增强的储层参数预测方法及***
CN116756679A (zh) 一种基于多源信息融合的随钻潜山地质模式判识方法
CN115064207A (zh) 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法
CN113419948A (zh) 一种基于gan网络的深度学习跨项目软件缺陷的预测方法
CN114238068A (zh) 一种基于数据集成预测的软件自适应测试方法
CN117633658B (zh) 岩石储层岩性识别方法及***
CN117521476A (zh) 基于岩石参数和测井数据驱动的相渗曲线预测方法
CN117993375A (zh) 一种专利技术跨领域应用方法及***
CN117688465A (zh) 一种机械钻速预测方法及***
CN118133104A (zh) 一种深层海相页岩气井岩相快速识别方法
CN117473217A (zh) 一种测井资料脆性预测方法
CN116090331A (zh) 一种页岩气水平井压裂参数优化的方法
CN117027781A (zh) 一种基于元素录井的页岩铂金箱体人工智能辨识方法
CN116882119A (zh) 储层参数预测模型建立方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant