CN115809411A

CN115809411A - 一种基于测井数据的改进型决策树岩性识别方法

Info

Publication number: CN115809411A
Application number: CN202211593276.6A
Authority: CN
Inventors: 曹文科; 李腾; 李继虎; 于倩
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-03-17

Abstract

本发明涉及测井岩性识别技术领域，尤其涉及一种基于测井数据的改进型决策树岩性识别方法，包括采集测井岩性种类以及对应物性参数数据；对相关数据进行预处理，然后对数据集进行划分；用测井岩性数据训练集建立相应的决策树分类识别模型，并使用蒙特卡洛算法优化决策树模型中树的深度；使用后剪枝的方法对决策树进行改进。本发明不仅可以有效的解决训练样本不充足、样本类别不均衡以及识别率不足等问题，而且建立的树模型可视化、容易转化成测井岩性分类规则，为后续的测井岩性分类识别研究及工程应用提供新的思路。

Description

一种基于测井数据的改进型决策树岩性识别方法

技术领域

本发明涉及测井岩性识别技术领域，尤其涉及一种基于测井数据的改进型决策树岩性识别方法。

背景技术

传统的岩石识别方法往往是在钻井过程中用取心工具从地下取出大块岩样(岩心)，研究油气层岩性，物性，厚度等基础数据，进而推断油气情况和储集特征，但该方法取芯困难，成本高且往往会遗漏未标记的有价值的数据。

近年来，测井数据通过在钻孔中使用测量电、声、热、放射性等物理性质的仪器来测量各个地层中的一些参数，然后根据多种参数以辨别地下岩石和流体性质的方法。随着机器学习的高速发展，机器学习也不断应用在测井岩性分类识别上，并且在该应用上取得了巨大的突破。

公开号CN114991749A的发明专利公开了一种细粒沉积岩性识别方法，该方法使用SPSS软件对测井曲线值和实测矿物含量进行多元线性回归预测岩性，在多元回归分析中，选用何种因子和该因子采用何种表达式只是一种推测，且拟合优度大多在0.6-0.8之间，在预测岩性时可能会造成有些岩性识别不准确的问题；公开号CN114462471A的发明专利公开了一种基于机器学习的岩性识别方法，该方法使用SSA算法优化SVR(支持向量回归算法)模型来预测岩性识别，虽然使用SSA算法相关参数做了优化，然而支持向量机主要是解决二分类问题，对于多分类问题解决效果并不理想。

随着近几年神经网络和深度学习的流行，公开号CN111914478A的发明专利中有使用PSO算法对BP神经网络进行优化提升了识别准确率高；公开号CN111783825A的发明专利中有使用卷积神经网络识别测井岩性的方法；公开号CN109736790B的发明专利中有使用深度信念网络方法预测测井岩性种类，虽然这些方法很多且识别率较高，但是这些方法往往需要大量的样本数据来保证模型的性能，且预测结果无法进行分析和解释。

因此决策树算法在保证识别率的情况下，该模型理解简单，可解释性强，容易转化成测井岩性分类规则，尤其在面对岩石样本类别不均衡时，识别率也有不错的表现。

发明内容

针对现有算法的不足，本发明不仅可以有效的解决训练样本不充足、样本类别不均衡以及识别率不足等问题，而且建立的树模型可视化、容易转化成测井岩性分类规则，为后续的测井岩性分类识别研究及工程应用提供新的思路。

本发明所采用的技术方案是：一种基于测井数据的改进型决策树岩性识别方法包括以下步骤：

步骤一、采集测井岩性种类以及对应物性参数数据；

进一步的，岩性种类包括：砂岩、泥岩、角砾岩、玄武岩、灰岩和白云岩；

步骤二、对相关数据进行预处理，然后对数据集进行划分；

进一步的，预处理包括：降维、缺失值的插补、异常值的处理和岩性类别的One-Hot编码；

进一步的，降维采用皮尔逊相关系数法；

进一步的，降维后的物性参数包括：井深、钍、铀、钾、密度、中子和光电因子。

进一步的，缺失值的插补是采用链式方程多重插补法。

步骤三、用测井岩性数据训练集建立相应的决策树分类识别模型，并使用使用蒙特卡洛算法优化决策树模型中树的深度；

进一步的，决策树分类识别模型是通过信息增益对决策树进行划分，具体包括：

(1)划分之前计算事件的熵为entroy(前)

(2)按照属性划分后再次计算事件的熵为entroy(后)

(3)计算划分之后信息增益为Gain(信息增益)＝entroy(前)-entroy(后)，选择好特征a后，对测井岩性样本集D划分为n类，则会产生v个分支节点。

进一步的，蒙特卡洛算法优化决策树模型中树的深度包括：

设置目标函数为岩性种类正确识别率极大化和树的深度极小化，约束条件为岩性种类正确识别率大于80％，树的深度为3到20；

使用线性加权法，取权重为0.7，对目标函数树的深度取权重为0.3，公式为：

minf(x)＝-0.7(x)+0.3f₂(x)

其中，f(x)为线性加权后新的目标函数，f₁(x)为决策树得出岩性种类正确识别率，f₂(x)为树的深度。

步骤四、使用后剪枝的方法对决策树进行改进，并计算剪枝后的计算精度；

进一步的，具体包括：

先从训练集生成一棵完整的决策树，然后自底向上的对非叶结点进行考察；按照已有标记计算未划分时验证集的精确度；假设划分，删除以此节点为根节点的树，使其成为叶子结点，对比删除前和删除后的性能是否有提升，如果有则进行删除，没有则保留。

进一步的，剪枝后的计算精度公式为：

其中，ACC₂为删除后的精确度，A为训练集样本数，A_i为第i个结点的子节点是否和训练集目标值相同的个数,α为待定系数，

表示二叉树的深度。

本发明的有益效果：

1、适合处理非均衡样本问题，且易转化成测井岩性分类规则，为后续的测井岩性分类识别研究提供新的思路；

2、利用蒙特卡洛算法对决策树的深度进行优化，找到树的深度的最优值；

3、改进的后剪枝算法既考虑到树的复杂度又考虑到树精确度，可以用来解决决策树过拟合问题，且测试集识别准确率有明显的提高。

附图说明

图1是本发明的基于测井数据的改进型决策树岩性识别方法流程图；

图2是本发明的测井岩性种类频数图；

图3是本发明的砂岩在不同井深下的物性参数散点图；

图4是本发明的决策树在不同二叉树深度下的识别率示意图；

图5是本发明的新井岩性自动预测成果与录井取芯对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，此图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，一种基于测井数据的改进型决策树岩性识别方法，包括以下步骤：

步骤一、采集测井岩性相关数据；

以大庆油田某区块井数据为例，将包含各种传感器的工具下放到钻孔中，然后传感器测量周围岩石的各种物性参数，包括：周围介质的电学、声学和核特性；再将传感器采集到的数据传输到计算机中；在本例中特征值为各种物性参数，目标值为岩性种类(砂岩、泥岩、角砾岩、玄武岩、灰岩和白云岩)。

步骤二：获取的数据进行预处理，然后对数据集进行划分；

首先对岩性种类频数进行统计；然后对获取到数据进行预处理操作(物性参数降维、缺失值的插补、异常值的处理和岩性类别的One-Hot编码)；最后对数据集进行划分，其具体步骤如下：

1、岩性种类频数统计：

对岩性种类频数进行统计，如图2所示，发现其岩石样本类别不均衡，适合用决策树算法解决测井岩性识别问题。

2、物性参数降维：

原始测井数据可能包含多种物性参数，以大庆油田某区块井数据为例，其中物性参数多达26种，在特征维度越高的情况下，往往会造成学习的模型变得复杂，且容易造成过拟合问题，因此将对于一些相关性较强的物性参数类别，可降维选取，其他不相关的类别保留，称之为物性参数降维，降维选取的物性参数包括：井深、钍、铀、钾、密度、中子和光电因子；降维使用的方法为皮尔逊相关系数法，并对高于预设相关度(相关系数>0.8)的2个以上参数类别进行降维选取(选取其中一个)，其皮尔逊相关系数法公式为：

其中，x和y为物性参数，r为皮尔逊相关系数。

3、缺失值的插补

在测井中往往由于机器的故障或者人为原因造成部分数据的缺失，因此需要做缺失值检测，并选用合适的方法进行插补操作。当检测岩性类别为空缺值时，可直接赋予“未知”类别。

由于岩性的物性参数的差异主要取决于岩性的种类，因此使用链式方程的多重插补尤其有用，链式方程的多重插补方法的步骤如下：

(1)插补过程中缺失变量都可以由其他变量预测而来，预测模型选择随机森林算法；

(2)对迭代后生成的5个数据集应用统计模型，评价5个模型的拟合效果，将单独分析的结果整合为一组结果，评价插补模型的优劣。

(3)对空缺值进行补全。

4、异常值的处理

各个岩性在不同深度下的各个物性参数散点图，剔除掉一些远离散点总体趋势的异常点；以砂岩为例，测量不同井深下的光电因子参数，如图3所示，随着井深的增加，光电因子数值上下波动且有不断减小的趋势，未发现特别远离测井岩性物性参数散点总体趋势的异常点，故而不做异常值处理。

5、岩性类别编码

岩性类别编码方式采用One-Hot编码，具体如表1：

表1One-Hot编码岩性标签

6、数据集的划分

数据集进行划分为为任意选用其中一口井测井岩性数据为测试集，其余为训练集，以解决在面对不同新的井口岩性的识别。

步骤三、使用测井岩性数据训练集建立相应的决策树分类识别模型，使用蒙特卡洛算法优化决策树模型中树的深度；

决策树是一种基于if-then-else规则的有监督学习算法，预测时，在树的内部节点处用某一属性值进行判断，根据判断结果决定进入哪个分支节点，直到到达叶节点处，得到分类结果。

大多数情况下使用信息增益来判断决策树的划分依据，信息增益是以某特征划分数据集前后的熵的差值，熵可以表示样本集合的不确定性，熵越大，样本的不确定性越大，因此可以使用划分前后信息熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏；

信息增益划分决策树的步骤为：

(1)划分之前计算事件的熵为entroy(前)

(2)按照属性划分后再次计算事件的熵为entroy(后)

(3)计算划分之后信息增益为Gain(信息增益)＝entroy(前)-entroy(后)，选择好特征a后，对测井岩性样本集D划分为n类，则会产生v个分支节点，其决策树划分具体步骤如下：

1、计算类别信息熵Ent(D)：

其中，C^k为第k个类别的样本数，D为总样本数。

2、计算属性的信息熵：

其中，D^v表示a属性中第v个分支节点包含的样本数，C^kv表示a属性中第v个分支节点包含的样本数中，第k个类别的样本数。

3、计算信息增益Gain(D,a)：

其中，C^k为第k个类别的样本数，D^v表示a属性中第v个分支节点包含的样本数，C^kv表示a属性中第v个分支节点包含的样本数中，第k个类别的样本数。

4、建立决策树：

从根节点触发，对节点计算所有特征的信息增益，选择信息增益最大的特征作为节点特征，根据该特征的不同取值建立子节点，对每个子节点使用相同的方式生成新的子节点，直到信息增益很小或者没有特征可以选择为止。

蒙特卡罗方法的基本思想是当所求解的问题是某种随机事件出现的概率，或者是某个随机变量的期望值时，可通过某种“实验”的方法，以这种事件出现的频率估计这一随机事件的概率，或者得到这个随机变量的某些数字特征，并将其作为问题的解；因此蒙特卡罗方法的思想应用到计算机随机模拟领域，来解决多目标规划问题(既保证正确识别率的同时，又尽可能减少树的深度)；其目标函数为岩性种类正确识别率极大化和树的深度极小化，约束条件为岩性种类正确识别率大于80％，树的深度为3到20，综上所述，该问题的模型可描述为：

min{-f₁(x),f₂(x)}

其中，f₁(x)为决策树得出岩性种类正确识别率，f₂(x)为树的深度。

使用线性加权法，由于目标函数岩性种类正确识别率要求较高，取权重为0.7，对目标函数树的深度取权重为0.3，可以把上述的多目标规划问题转换为线性规划问题，其模型为：

minf(x)＝-0.7(x)+0.3f₂(x)

其中，f(x)为线性加权后新的目标函数，使用蒙特卡罗方法求其f(x)，目标函数识别率和树的深度。

图4为不同二叉树深度下的识别正确率示意图，经过计算识别率为97.30％，树的深度为9时符合要求。

先从训练集生成一棵完整的决策树，然后自底向上的对非叶结点进行考察；按照已有标记计算未划分时验证集的精确度；按照已有标记计算未划分时验证集的精确度；假设划分，删除以此节点为根节点的树，使其成为叶子结点，对比删除前和删除后的性能(精确度)是否有所提升，如果有则进行删除，没有则保留，其计算精确度的公式为：

其中，ACC₁为删除前的精确度，A为训练集样本数，A_i为第i个结点的子节点是否和训练集目标值相同的个数；

其中，ACC₂为删除后的精确度，A为训练集样本数，A_i为第i个结点的子节点是否和训练集目标值相同的个数,α为待定系数，用于惩罚节点个数，引导模型用更少的节点，

表示二叉树的深度。

将测井岩性测试样本中数据作为输入，通过改进的决策树模型的输出结果与实际结果来相互验证；

通过步骤四得到最佳深度的决策树模型，然后通过步骤四对步骤三中的模型进行后剪枝操作，得到改进后的决策树模型，将测井岩性测试样本中数据作为输入，通过改进的决策树模型的输出结果与实际结果来相互验证，如图5所示为新井岩性自动预测成果与录井取芯对比图。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。