CN117407841B

CN117407841B - 一种基于优化集成算法的页岩层理缝预测方法

Info

Publication number: CN117407841B
Application number: CN202311722900.2A
Authority: CN
Inventors: 圣学礼; 胡慧婷; 季禹杉; 付晓飞; 王海学; 王怡
Original assignee: Sanya Offshore Oil And Gas Research Institute Of Northeast Petroleum University
Current assignee: Sanya Offshore Oil And Gas Research Institute Of Northeast Petroleum University
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-22
Anticipated expiration: 2043-12-15
Also published as: CN117407841A

Abstract

本发明一种基于优化集成算法的页岩层理缝预测方法，涉及地球物理勘探及综合研究领域，包括：基于已有成像测井数据井，导出目的层段范围内的测井曲线数据以及层理缝统计数据；对所述测井曲线数据进行优化并预处理，生成预处理后的测井曲线数据；以所述预处理后的测井曲线数据为输入，以所述层理缝统计数据为输出，建立回归模型；所述预处理后的测井曲线数据为特征数据；所述层理缝统计数据为标签数据；对所述回归模型进行优化，生成优化后的回归模型；根据所述优化后的回归模型预测未知的页岩层理缝。本发明能够提高识别效率及识别精准度。

Description

一种基于优化集成算法的页岩层理缝预测方法

技术领域

本发明涉及地球物理勘探及综合研究领域，特别是涉及一种基于优化集成算法的页岩层理缝预测方法。

背景技术

天然裂缝是指在地下岩石由于地质构运动或化学作用等自然形成的裂缝，作为油气运移的重要通道。而层理缝则为天然裂缝的一种特定类型，通常在沉积岩层沉积、压实、收缩等过程中，由于沉积物的沉积和堆积而形成一种呈沿层理面或平行层理面发育的裂缝。页岩层理缝相较于致密砂岩层理缝而言裂缝开度更小，由于页岩储层的低孔渗特性，层理缝作为其主要渗流通道。因此，层理缝的识别对页岩储层的油气勘探及开发来说有着不可或缺的作用。《石油与天然气地质》在2019年公开了刘喜武的“陆相页岩油甜点地球物理表征研究进展”，该文通过建立岩石物理模型的基础上，使用地震反演来识别预测层理缝。《石油学报》在2006年公开了黄继新的“成像测井资料在裂缝和地应力研究中的应用”，该文指出使用FMI图像来识别层理缝。《Proceedings of offshore technology conference》在2022年公布了Jiang L W的“Revealing the natural fracture system in the LongMaxishale gas reservoir, Sichuan Basin, China”，该文利用层理缝对常规测井的反射特性会出现尖峰状异常来直接识别层理缝。《石油实验地质》在2020年公开了“刘伟新”的“川东南地区不同埋深五峰组—龙马溪组页岩储层微观结构特征与对比”，该文使用了扫描电镜来识别预测微尺度下的层理缝。

综上所述，层页岩理缝的识别与预测对油气的勘探开发极其重要，利用常规的地质手段来识别及预测裂缝。例如，通过使用地震反演的手段来预测层理缝，虽然可以达到一定精度但依赖地震资料品质，尤其在页岩储层下层理缝开度较小，依靠地震很难识别；通过成像测井识别层理缝则需大量成本，不符合实际；通过测井曲线建立单一机器学习模型，则容易引起过拟合、精度不够等问题。

发明内容

本发明的目的是提供一种基于优化集成算法的页岩层理缝预测方法，以解决识别效率及识别精准度低的问题。

为实现上述目的，本发明提供了如下方案：

一种基于优化集成算法的页岩层理缝预测方法，包括：

基于已有成像测井数据井，导出目的层段范围内的测井曲线数据以及层理缝统计数据；

对所述测井曲线数据进行优化并预处理，生成预处理后的测井曲线数据；

以所述预处理后的测井曲线数据为输入，以所述层理缝统计数据为输出，建立回归模型；所述预处理后的测井曲线数据为特征数据；所述层理缝统计数据为标签数据；

对所述回归模型进行优化，生成优化后的回归模型；

根据所述优化后的回归模型预测未知的页岩层理缝。

可选的，基于已有成像测井数据井，导出目的层段范围内的测井曲线数据以及层理缝统计数据，具体包括：

建立研究工区，制作所述研究工区内目标井的测井解释成果柱状图；

基于已有成像测井数据井，将常规测井数据、层位数据以及层理缝数据加载至所述测井解释成果柱状图中，导出层段范围内的测井曲线数据以及层理缝统计数据。

可选的，对所述测井曲线数据进行优化并预处理，生成预处理后的测井曲线数据，具体包括：

利用DBSCAN聚类算法对所述测井曲线数据进行聚类，划分为多个邻近簇，剔除所述测井曲线数据中的噪声点，生成聚类后的测井曲线数据；

对所述聚类后的测井曲线数据进行归一化处理，生成预处理后的测井曲线数据。

可选的，对所述聚类后的测井曲线数据进行归一化处理，生成预处理后的测井曲线数据，具体包括：

利用公式对所述聚类后的测井曲线数据进行归一化处理，生成预处理后的测井曲线数据；其中，/>为预处理后的测井曲线数据；/>为聚类后的测井曲线数据；/>为聚类后的最小测井曲线数据；/>为聚类后的最大测井曲线数据。

可选的，所述回归模型的构建过程为：

对模型样本训练集中的每个数据样本赋予均等的权重，训练并构建弱学习器；所述模型样本训练集包括预处理后的测井曲线数据以及层理缝统计数据；

对多个弱学***方和，计算每个弱学习器的预测误差；

根据所述预测误差确定弱学习器的权重误差；

根据所述权重误差调整所述数据样本的权重；

根据数据样本调整后的权重计算每个弱学习器的权重；

将每个弱学习器的权重与对应的弱学习器相乘，再进行加权组合，确定最终的强学习器；所述最终的强学习器为所述回归模型。

可选的，所述最终的强学习器为：

；

其中，为最终的强学习器；t为弱学习器的序号；T为弱学习器的总数；/>为第t个弱学习器的权重；/>为第t个弱学习器。

可选的，对所述回归模型进行优化，生成优化后的回归模型，具体包括：

利用GridSearchCV超参数搜索工具对所述回归模型进行调参，生成优化后的回归模型。

可选的，利用GridSearchCV超参数搜索工具对所述回归模型进行调参，生成优化后的回归模型，之后还包括：

对所述优化后的回归模型的模型性能进行综合评估。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明实施例基于已有成像测井数据井，导出目的层段范围内的测井曲线数据以及层理缝统计数据，以所述预处理后的测井曲线数据为输入的特征数据，以所述层理缝统计数据为输出的标签数据，建立回归模型以预测位置的页岩层理缝，在提高识别效率的同时也大大加强了识别精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于优化集成算法的页岩层理缝预测方法流程图；

图2为本发明所提供的DBSCAN原理图；

图3为使用DBSCAN聚类算法内的默认参数去除噪声点的结果图；

图4为使用调整DBSCAN聚类算法后的参数去除噪声点的结果图；

图5为本发明所提供的随机森林特征重要性评估图；

图6为本发明所提供的AdaBoost.R2原理图；

图7为本发明所提供的不同迭代次数下模型性能图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于优化集成算法的页岩层理缝预测方法，能够提高识别效率及识别精准度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供了一种基于优化集成算法的页岩层理缝预测方法，包括：

步骤1：基于已有成像测井数据井，导出目的层段范围内的测井曲线数据以及层理缝统计数据。

在实际应用中，使用卡奔软件（“ResForm”软件）建立研究工区，制作目标井的测井解释成果柱状图，将常规测井数据、层位数据、层理缝数据以软件能识别的格式导入研究工区的数据管理模块内，将数据管理模块的数据加载到解释成果柱状图上，对各测井曲线的范围、形状等进行修改，导出目的层段范围内测井曲线数据、层理缝统计数据，当作原始数据集。

其中，“RseForm”软件是一款实用性非常强的地质软件。可用于日常地质分析、绘图等工作，能打开或创建单井图、地层对比图、剖面图、平面图、栅状图和综合图等各种图件。

测井曲线是在测井过程中，将井内地层的各种物理参数按一定比例沿井深连续记录所得的一种数据。

测井解释成果柱状图是将测井公司解释过后的测井曲线数值导入到ResForm软件内制作而成的综合单井解释成果分析图。

层位数据是指有关地下岩石层序和地质构造的信息。

层理缝是指岩石中的一种结构，通常出现在沉积岩层中。它们是平行于地层的裂缝或裂隙，形成于岩石沉积和变质过程中，通常是由于地层受到应力、变形或其他地质作用而产生的。

步骤2：对所述测井曲线数据进行优化并预处理，生成预处理后的测井曲线数据。

在实际应用中，所述步骤2具体包括：利用DBSCAN聚类算法对所述测井曲线数据进行聚类，划分为多个邻近簇，剔除所述测井曲线数据中的噪声点，生成聚类后的测井曲线数据；对所述聚类后的测井曲线数据进行归一化处理，生成预处理后的测井曲线数据。

在实际应用中，聚类过程为：对导出的目的层段范围内的测井曲线数据使用DBSCAN聚类算法进行聚类，使得原始数据被划分为若干个邻近簇从而去除大量噪声点优化了原始数据集。

其中，DBSCAN聚类算法是一种具有噪声的空间聚类算法。DBSCAN聚类算法的原理分为两步骤。

首先是数据点的类型判断。

其内部会将数据点划分为三种类型，分别是核心点、边界点和噪声点。通过定义邻域半径以及邻域内所包含的最少数据点个数（MinPts），随机选取一个数据点P并判断P点以为半径的邻域内数据点个数是否大于等于MinPts，若是，则标记P点为核心点，否则，令P为噪声点并再随机选取一个点。而边界点则被定义为一个数据点非核心点，但其所在位置在某一个核心点以为邻域的半径内。重复最开始的过程，直到所有数据点均被标记完成。

在数据点类型判断完成后，会进入下一个簇的划分步骤。

通过核心点P依次访问以为半径的邻域内的所有点，并判断其是否也为核心点或边界点。若是则将其划分为同一个簇，否则将会被划分为不同簇。重复此步骤，直到所有样本点均被划分完成，以此得到若干个簇。

DBSCAN聚类算法于常用的K-Means聚类相比有很多不同。K-Means聚类在使用之前需要首先定义簇的个数，对于未知数据集而言，不利于簇的准确划分。同时由于K-Means使用的是欧式距离对数据点进行计算，导致模型容易受到噪声点的影响，而本发明所导出的研究数据就包含了大量噪声点，因此K-Means不适合本发明。

在实际应用中，归一化处理过程为：使用随机森林特征重要性评估进行特征优选，使用MinMax归一化来约束优化后的数据集范围。

其中，随机森林特征重要性评估是指在机器学习模型中各个特征对于预测目标变量的贡献程度的一种指标。

MinMax归一化是多种数据预处理技术的一种，用于将原始数据缩放到一个规定的区间内，消除了不同特征属性之间的尺度差异。其具体原理如式（1）：

（1）

为预处理后的测井曲线数据；/>为聚类后的测井曲线数据；/>为聚类后的最小测井曲线数据，即属性值中最小值；/>为聚类后的最大测井曲线数据，即属性值中最大值。

步骤3：以所述预处理后的测井曲线数据为输入，以所述层理缝统计数据为输出，建立回归模型；所述预处理后的测井曲线数据为特征数据；所述层理缝统计数据为标签数据。

在实际应用中，所述回归模型的构建过程为：

对模型样本训练集中的每个数据样本赋予均等的权重，训练并构建弱学习器；所述模型样本训练集包括预处理后的测井曲线数据以及层理缝统计数据。

对多个弱学***方和，计算每个弱学习器的预测误差。

根据所述预测误差确定弱学习器的权重误差。

根据所述权重误差调整所述数据样本的权重。

根据数据样本调整后的权重计算每个弱学习器的权重。

在实际应用中，将预处理后的数据集作为模型样本训练集。预处理后的数据集包括预处理后的测井曲线数据以及层理缝统计数据。

以测井曲线数值为输入特征数据，以层理缝数值为输出标签数据，建立AdaBoost回归集成算法（AdaBoost.R2）的回归模型训练数据。

其中，AdaBoost.R2回归集成算法为AdaBoost算法的一种变体，用于解决回归问题。

AdaBoost算法主要用于二分类问题，在回归领域中改进为AdaBoost.R2回归集成算法。AdaBoost.R2回归集成算法的目的在于结合多个弱学习器成一个强学习器模型，从而提高模型的泛化能力与鲁棒性，AdaBoost.R2回归集成算法的具体原理如下所示：

①假设有一个数据规模为n的数据样本{(x₁,y₁)，(x₂,y₂)，…，(x_n,y_n)}，每个数据样本都会在最开始被赋予均等的权重W_i=1/n，W_i为第i个数据样本，使得：

（2）

其中，为第t轮迭代第i个数据样本的权重分布，i为数据样本的序号，/>为第n个数据样本的权重。

②对个弱学***方和，计算第t轮弱学习器h_t在D_t(i)上的预测误差e_t：

（3）

③根据式（3）所得预测误差计算弱学习器h_t的权重误差a_t：

（4）

其中，，T为迭代总轮数。

④根据式（4）所得权重误差重新调整第t+1轮数据样本的权重分布为D_t+1：

（5）

其中，B_t表示归一化因子，D_t表示第t轮数据样本的权重分布，y_i表示数据样本x_i的目标数值：

（6）

⑤重复步骤①到步骤④，直到t=T，并依次计算每个弱学习器的权重。

⑥根据步骤⑤所得所有权重分别与对应的弱学习器相乘，得到h_t(x)，再进行加权组合，以此得到最终的强学习器H(x)：

（7）

其中，h_t(x)为第t轮弱学习器h_t与对应权重的相乘结果。

步骤4：对所述回归模型进行优化，生成优化后的回归模型。

在实际应用中，对于回归模型使用GridSearchCV超参数搜索工具对模型进行调参，参数的个数越多范围越大所需搜索的时间就越长，通常情况下只需对模型重要的参数进行搜索即可。

其中，GridSearchCV（Grid_Search Cross-Validation）超参数搜索又称网格搜索，是机器学习sklearn库里的一个超参数调优工具，通过遍历各个参数的组合所对应的交叉验证得分来寻找得分最高的超参数组合，以此改善回归模型的性能。

步骤5：根据所述优化后的回归模型预测未知的页岩层理缝。

在实际应用中，对优化后的回归模型的模型性能进行综合评估。使用回归模型常用评价指标：均方误差MSE、均方根误差RMSE、平均绝对误差MAE、决定系数R2对优化后的模型进行评价。

对比其余典型单一机器学习模型如决策树、线性回归、支持向量机、xgboost、随机森林，本发明所提供的回归集成算法评分最高、误差最小。

MSE、RMSE、MAE以及R2通常用于回归模型评估，从不同角度评价模型的性能。

实施例二

以中国江苏高邮凹陷阜二段花101井为例，本发明所提供的一种基于优化集成算法的页岩层理缝预测方法具体实施步骤如下：

步骤1：使用“ResForm”软件建立研究工区，制作花101井测井解释成果柱状图，将常规测井数据、层位数据、层理缝数据以软件所需格式导入数据管理模块，再将数据管理模块内的数据加载到测井解释成果柱状图上，修改测井解释成果柱状图的显示范围，并导出目的层段（Ⅲ-Ⅴ亚段）测井曲线数据，包括：全烃、伽马（GR）、井径指标（DCAL）、浅侧向电阻率（RS）、深侧向电阻率（RD）、三孔隙度比值（RTC）、密度（DEN）、中子（CNL）、声波时差（AC）以及层理缝数据。

步骤2：以步骤1为基础，将花101井所导出的测井数据用DBSCAN聚类算法对其进行聚类操作，如图2所示。通过使用DBSCAN聚类算法内的默认参数（=0.5，MinPts=5）可以去除原始数据集中大多数噪声点，但对于某些不明显噪声点仍无法去除，如图3所示。因此需要进行调参，人为调参最终确定为（/>=0.3，MinPts=11），此时对于哪些不明显的噪声点也得以去除，优化了数据样本，如图4所示。

步骤3：以步骤2为基础，将优化过的花101井数据集进行数据预处理。首先是特征选取，使用随机森林特征重要性评估对各个特征在模型中的重要性进行评估，从而达到优选特征数据的作用。如图5所示为特征重要性评估结果，其中可以看出RTC曲线所占比例最高，可达36.4%，DEN曲线所占比例最低只有1.80%。以特征重要性数值的排序为基础，删除20%的测井曲线特征类别，优选后的特征为RTC、RD、全烃、RS、GR、DCAL、CNL。其次就是对优选后的数据进行MinMax归一化操作，使得数据缩放在（0~1）的区间范围内，降低了不同特征之间的量纲差异。最终，以归一化后的特征数据以及未归一化的层理缝数据当作模型的样本训练数据。

步骤4：以步骤3为基础，使用步骤三整理好的训练样本数据按照7：3的随机划分方式，即训练集占7份测试集占据3份。以此建立AdaBoost.R2回归集成模型，如图6所示，将支持向量机、随机森林、xgboost模型作为AdaBoost.R2的弱学习器，以串行迭代的方式对每个弱学习器进行训练，并返回弱学习器的权值，最终进行加权组合，得到强学习器。对于AdaBoost.R2模型而言有几个比较重要的参数，分别是“base_estiamtor”弱学习器类型、“n_estimators”模型迭代次数、“Learning_rate”学习率。针对弱学习器类型，默认为决策树模型，但决策树模型易过拟合，因此本文基于上述三种传统机器学习模型为弱学习器；迭代次数需要人为给定一个数值，默认数值为50，但可能达不到模型的最优精度，需要进行调试；对于学习率，默认范围是0到1，此数值越小意味着需要更多的迭代次数，极耗费时间；数值越大则需要更少的迭代次数，但可能导致模型不能充分学习数据规律。因此需要把迭代次数和权重缩减系数一起考虑。

步骤5：以步骤4为基础，对于训练后的模型使用GridSearchCV超参数搜索工具对模型进行调参，参数的个数越多范围越大所需搜索的时间就越长，通常情况下只需对模型重要的参数进行搜索即可。通过GridSearchCV找到了最优学习率值为0.30，在确定学习率确定的情况下，对模型迭代训练找到最优迭代次数，如图7所示，即可得到最优模型参数组合。

步骤6：以步骤5为基础，对模型性能进行综合评估。使用回归模型常用评价指标MSE、RMSE、MAE、R2对模型进行评价。

对比其余典型单一机器学习模型如，决策树、线性回归、支持向量机、xgboost、随机森林，AdaBoost.R2回归集成算法的评分最高、误差最小，有利的表明了AdaBoost.R2对比单一机器学习模型而言的精准度，说明回归集成算法在层理缝预测中的可行度与准确度，对比其余单一机器学习模型所得结果如表1所示：

表1 不同模型评价指标对比表

由表1可知，单一的机器学习模型，如决策树、线性回归、支持向量机等模型性能均在70%以下效果较为一般。而随机森林和xgboost模型性能达到80%，其中xgboost可达将近85%效果较好。而本文算法在四个评价指标上均明显优于其余模型，模型的性能可达87%效果很好。基于弱学习器的加持，也在弱学习器模型的模型性能上有所提高，充分说明了本文算法在实现层理缝预测问题上的可行性。

步骤7：以步骤6为基础，对花101井的测试集部分展开预测，将上述单一机器学习模型与本文模型所预测结果进行对比，部分预测结果数据如表2所示：

表2不同模型实际预测值对比表

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于优化集成算法的页岩层理缝预测方法，其特征在于，包括：

对所述测井曲线数据进行优化并预处理，生成预处理后的测井曲线数据，具体包括：利用DBSCAN聚类算法对所述测井曲线数据进行聚类，划分为多个邻近簇，剔除所述测井曲线数据中的噪声点，生成聚类后的测井曲线数据；对所述聚类后的测井曲线数据进行归一化处理，生成预处理后的测井曲线数据；

以所述预处理后的测井曲线数据为输入，以所述层理缝统计数据为输出，建立回归模型；所述预处理后的测井曲线数据为特征数据；所述层理缝统计数据为标签数据；所述回归模型的构建过程为：对模型样本训练集中的每个数据样本赋予均等的权重，训练并构建弱学***方和，计算每个弱学习器的预测误差；根据所述预测误差确定弱学习器的权重误差；根据所述权重误差调整所述数据样本的权重；根据数据样本调整后的权重计算每个弱学习器的权重；将每个弱学习器的权重与对应的弱学习器相乘，再进行加权组合，确定最终的强学习器；所述最终的强学习器为所述回归模型；

对所述回归模型进行优化，生成优化后的回归模型；

根据所述优化后的回归模型预测未知的页岩层理缝。

2.根据权利要求1所述的基于优化集成算法的页岩层理缝预测方法，其特征在于，基于已有成像测井数据井，导出目的层段范围内的测井曲线数据以及层理缝统计数据，具体包括：

3.根据权利要求1所述的基于优化集成算法的页岩层理缝预测方法，其特征在于，对所述聚类后的测井曲线数据进行归一化处理，生成预处理后的测井曲线数据，具体包括：

4.根据权利要求1所述的基于优化集成算法的页岩层理缝预测方法，其特征在于，所述最终的强学习器为：

；

5.根据权利要求1所述的基于优化集成算法的页岩层理缝预测方法，其特征在于，对所述回归模型进行优化，生成优化后的回归模型，具体包括：

6.根据权利要求5所述的基于优化集成算法的页岩层理缝预测方法，其特征在于，利用GridSearchCV超参数搜索工具对所述回归模型进行调参，生成优化后的回归模型，之后还包括：

对所述优化后的回归模型的模型性能进行综合评估。