CN117093922A

CN117093922A - 一种基于改进svm的不平衡样本油藏复杂流体识别方法

Info

Publication number: CN117093922A
Application number: CN202311068108.XA
Authority: CN
Inventors: 毛敏; 刘娟霞; 徐长敏; 何理鹏; 杨毅; 印森林; 罗思雨
Original assignee: China France Bohai Geoservices Co Ltd
Current assignee: China France Bohai Geoservices Co Ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-21

Abstract

本发明涉及一种基于改进SVM的不平衡样本油藏复杂流体识别方法。该基于改进SVM的不平衡样本油藏复杂流体识别方法，首先通过ADASYN模型对数据进行扩充，使得发生过拟合的可能性降低，然后通过AdaBoost.M2‑SVM组合多个弱的SVM分类器，使得模型推广能力得到提升，解决了传统方法在非常规油藏储层流体识别不适应性和多解性。另外依据本方法可在基于人工智能算法的测录井结合的油藏流体识别，实现储层油气水层的智能识别。包括数据处理、算法设计、模型训练、模型部署，形成一套结合测录井数据的储层油气水层智能识别***。

Description

一种基于改进SVM的不平衡样本油藏复杂流体识别方法

技术领域

本发明涉及一种基于改进SVM的不平衡样本油藏复杂流体识别方法，属于油藏复杂流体识别技术领域。

背景技术

近年来，在海上油田勘探过程中钻遇了多套低阻油藏。对于低阻储层的流体性质识别是油气田勘探开发研究中的重点环节，识别的准确性直接关系到油气层的发现以及高效开发。当前，储层流体性质识别主要依靠录井和测井资料。录井资料作为勘探的第一性资料有直观且更加突显原始地层性质的特点，是辅助专家寻找和评价储集层最重要的资料之一，可以通过多种技术手段(如岩屑录井、岩心录井和X射线元素录井)有效地识别储集层岩性及物性、识别储层流体性质。录井资料获得的是地下油气的直接信息，具有直观准确的特点，但其仍然存在一些缺点。首先，采样间隔较大，可能导致信息的不连续性。其次，分层精度较低，对于储层厚度的解释也不够精确。

测井技术主要通过电阻率测井和声波测井等测井曲线对流体性质的响应差异来区分油气层和水层。其中，电阻率测井可以区分不同介质对电流的阻抗差异，从而区分含油气层和水层，而声波测井则利用声波在不同介质中传播速度的差异来区分不同介质，因此可以判定含油气层的存在。此外，还有一些辅助测井曲线如自然伽马测井、中子测井等也可用于储层流体性质的识别。然而对于低阻油藏，其在同一油藏内油层和水层的测井响应特征不明显，油层水层电阻率没有明显界限，基于常规测井手段难以对其进行识别，常常被错误解释为水层而遗漏。

测井解释的方法主要包括基于数理统计的交会图版法和基于体积模型与理论公式的方法。然而，对于像低阻油藏这样的非常规油藏，简化的体积模型在实际应用中会出现不适应性，建立的经验公式精度差、推广性也差。

随着人工智能技术的发展，学者们逐渐开始尝试数据驱动的储层流体识别方法。例如，基于卷积神经网络的算法、长短时记忆网络算法方法。然而测录井数据具有数据分布不平衡的问题，且对于深层网络很容易过拟合，这样的模型推广能力差，难以应用到实际开发中。因此针对上述各类技术所存在的问题，有必要研发一种基于改进SVM(SupportVector Machine)的不平衡样本油藏复杂流体识别方法，以解决现有油藏复杂流体识别方法存有的以上问题。

发明内容

本发明的目的在于：提供基于改进SVM的不平衡样本油藏复杂流体识别方法，以解决现有不平衡样本油藏复杂流体识别方法存有的精度差和推广性差的问题。

本发明的技术方案是：

一种基于改进SVM的不平衡样本油藏复杂流体识别方法，其特征在于：该识别方法包括以下步骤：

步骤1、收集整理研究区的测录井数据，建立数据层；

步骤2、对数据层中的数据进行整理得到最终数据集，包括数据整理、删除异常数据和填充空数据、数据插值和数据降维；

步骤3、由于岩性数据和气测数据与步骤2.1中其他数据的数据精细程度不一致，因此，需要对岩性数据和气测数据进行插值；

步骤4、步骤1.2统计了影响储层流体性质的15种因素，主成分分析通过数据降维，将多个非线性相关的指标转换为互不相关的较少指标；主成分分析的计算步骤如下：

步骤5、对于步骤4处理后的数据，油层和油水同层与非油层的数据比例差距过大，油层的占比较低，对于模型的训练来说，容易因为数据不平衡的问题导致模型的表现差，因此需要使用改进的自适应合成抽样Adaptive Synthetic Sampling，简称ADASYN算法进行数据增强；步骤5.1、对于步骤4中得到的样本，使用改进ADASYN对少数类样本进行随机过采样，该算法的计算步骤为：

步骤6、构建AdaBoost.M2-SVM模型；

步骤7、将步骤5处理后的数据输入到模型中进行训练，通过训练AdaBoost.M2-SVM算法进行测录井数据油气水层的识别。

本发明的优点在于：

该基于改进SVM的不平衡样本油藏复杂流体识别方法，首先通过ADASYN模型对数据进行扩充，使得发生过拟合的可能性降低，然后通过AdaBoost.M2-SVM组合多个弱的SVM分类器，使得模型推广能力得到提升，解决了传统方法在非常规油藏储层流体识别不适应性和多解性。另外依据本方法可在基于人工智能算法的测录井结合的油藏流体识别，实现储层油气水层的智能识别。包括数据处理、算法设计、模型训练、模型部署，形成一套结合测录井数据的储层油气水层智能识别***。

附图说明

图1为本申请的具体流程图；

图2为本发明进行应用时所得到的样本图；

图3为本发明进行应用时将训练集和验证集输入到AdaBoost.M2-SVM模型中的结果。

具体实施方式

该基于改进SVM的不平衡样本油藏复杂流体识别方法，其特征在于：该识别方法包括以下步骤：

步骤1、收集整理研究区的测录井数据，建立数据层；

步骤1.1、选取工区中多口井的测录井数据构成数据集，并对数据按照每间隔0.1m取一组数据，得到最终所需样本；

步骤1.2、由于井中不同传感器采集的样本的深度不一致，不能满足模型的训练需要，因此按照数据的深度特征进行匹配拼接，对深度不同的样本进行深度统一的操作。选取了岩性数据、荧光级别、包括C1、C2、C3、iC4、nC4、iC5、nC5、CO2和H2S的气测数据、包括电阻率、自然伽马、中子和密度的感应数据为特征数据，以气层、油水同层、水层和干层作为标签数据，并以上面的数据建立数据层。

步骤2.1、由于数据层原始的excel表格中“荧光级别”和“录井综合解释”列的数据有缺省值，因此需要对缺省值进行填补。对于“荧光级别”，由于在一些不是储油层的层段该数值过低，因此工作人员没有将数据记录到原始的excel表格中，实际应该填充为0，对于“录井综合解释”也是同样的处理，对于空白数据一般填充为“水层”；对于那些实际的缺失值，本文选择删除整条数据；对于气测数据，原始数据中的无效值为-999.25，并选择删除数据为负的整条数据。

步骤3.1、由于气测数据的精度为1m每个数据取样点，而对于感应数据它的数据精度为0.1m，因此对气测数据进行插值，采用不同的经典插值算法进行插值，最近邻插值,双线性插值,双三次插值算法，使得气测数据更加精细化；

双线性插值算法的原理如下：

假设P为气测数据待求解点，临近点Q11,Q12,Q21,Q22，对Q11,Q21和Q12,Q22分别进行线性插值得到R1和R2，然后对R1，R2进行线性插值得到P点的值；

步骤3.2、岩性数据是区间数据，反应的是一个深度区间的岩性。

步骤4.1、影响储层流体性质的因素有n种，总体样本为m，则样本矩阵可表示为：

其中，x_ij表示第i组样本数据中的第j个变量的值；

步骤4.2、由于影响研究区块低阻油藏流体性质的因素较多，这些因素具有不同的量纲，将影响油藏流体性质主控因素分析及后续流体预测结果；为了消除不同因素之间的维度影响，有必要对矩阵X做标准化变换得矩阵Z，本文采用减均值、除方差，对数据进行归一化处理；

其中

步骤4.3、对标准化矩阵Z求相关系数矩阵

解样本相关矩阵R的特征方程|R-λI_n|＝0得n个特征值,且λ₁≥λ₂≥…≥λ_n≥0

步骤4.4、确定k值使得信息的累计贡献率大于85％

最终我们得到12中不同的影响因子P1、P2…、P12。

步骤5、对于步骤4处理后的数据，油层和油水同层与非油层的数据比例差距过大，油层的占比较低，对于模型的训练来说，容易因为数据不平衡的问题导致模型的表现差，因此需要使用改进的自适应合成抽样Adaptive Synthetic Sampling，简称ADASYN算法进行数据增强；

步骤5.1、对于步骤4中得到的样本，使用改进ADASYN对少数类样本进行随机过采样，该算法的计算步骤为：

①用样本的训练集训练分类器，用验证集测试识别结果；

②通过得到的混淆矩阵，分别计算每个类的错分率σ_i，式中i,j＝{a,b,c…}，TP_i表示真实类别为i类，预测也为i类的个数；FN_j表示真实类别为i类，但预测为j类的个数；当σ_i大于阈值时，选择在i类和j类之间进行数据增强，否则不进行数据增强；将i类和j类之间样本较多的类设为s_m，数量较小的设为s_l；

③计算s_m和s_l之间所需合成样本的数量G，G＝(s_m-s_l)×β，式中s_m和s_l分别代表较多类和较少类的样本个数，β为0-1之间的随机数；

④对于每一个较少类样本x_i，计算其k个欧式距离最近的样本中多数类的占比r_i，式中Δ_i表示k个欧式距离最近的样本中的多数类样本的数量，i＝1,2,3…s_l；

⑤对r_i进行标准化

⑥计算少数类所需生成的样本数g

⑦根据每个少数类样本需生成的g，使用传统SMOTE算法生成新样本；

⑧将新生成的样本N_i加入训练集得到新训练集，重复步骤①和②，直到错分率σ小于阈值。

步骤6、构建AdaBoost.M2-SVM模型；

AdaBoost.M2算法作为AdaBoost算法的推广，将K类的多分类问题转化为K-1个二分类问题，使得AdaBoost算法可以应用到多分类问题上。AdaBoost.M2算法通过将多个线性核SVM分类器以不同权重组合，而计算分类器权重是通过在训练集中维护一套针对训练数据的权重分布实现的；

AdaBoost.M2算法的步骤如下：

输入训练集S＝{X_i,y_i},i＝1,…,N；，样本数为N，其中向量X_i表示第i个训练样本，标签其中i为编号，K表示不同的类别数；迭代次数T；

在第t轮迭代，样本(x_i,y_i)，的权值分布为D_t(i)；初始时样本权重相等；每次迭代时分类错误的样本权重会增加，使之得到更多的训练。存在样本X_i，其正确分类为y_i与非正确分类y(K-1种的非y_i类)。假设训练得到弱分类器h_t，其结果在[0,1]之间取值，对于样本(x_i,y_i)，分类器h_t会进行K-1次判别，每次结果会出现三种情况，分类正确，分类错误和在y和y_i之间随机选择一类。那么，每一次判别错误的概率为：

对于K分类问题，有K-1个不同的y在不同情况下有不同的重要性，因此对每个y赋予权重那么Adaboost.M2的伪损失为ε_t：

(1)将样本数据的权重初始化为首次迭代中样本i的某个错误标签y的权重为：/>

(2)循环迭代t＝1,…,T；

①第t次迭代中样本i的的错误标签的权重之和对y≠y_i有样本分布/>

②根据样本分布D_t(i)重新选择样本，调用SVM对其进行训练，得到子分类器h_t：

③计算h_t伪损失。

④令对权值进行更新：/>其中/>

(3)得到最终的组合分类器：

为了验证本申请的正确性，申请人对某油井的32口井进行了应用，应用过程如下：该基于改进SVM的复杂油藏流体识别方法包括以下步骤：

步骤1、收集整理研究区的测录井数据，建立数据层；

步骤1.1、选取工区中32口井的测录井数据构成数据集，并对数据按照每间隔0.1m取一组数据，得到最终所需样本(参见说明书附图2)；

步骤1.2、由于不同传感器采集的样本的深度不一致，不能满足模型的训练需要，因此我们按照数据的深度特征进行匹配拼接，对深度不同的样本进行深度统一的操作。我们选取了岩性、荧光级别、气测数据(C1、C2、C3、iC4、nC4、iC5、nC5、CO2、H2S)、感应数据(电阻率、自然伽马、中子、密度)为特征数据，以气层、油水同层、水层和干层作为标签数据，并以上面的数据建立数据层。

步骤2.1、由于原始的excel表格中“荧光级别”和“录井综合解释”列的数据有缺省值，因此需要对缺省值进行填补。对于“荧光级别”，由于在一些不是储油层的层段该数值过低，因此工作人员没有将数据记录到原始的excel表格中，实际应该填充为0，对于“录井综合解释”也是同样的处理，对于空白数据一般填充为“水层”。对于那些实际的缺失值，本文选择删除整条数据。对于气测值，原始数据中的无效值为-999.25，本文选择删除数据为负的整条数据。

步骤3.1、就本文而言，气测数据的精度为1m每个数据取样点，而对于感应数据它的数据精度为0.1m，因此对气测数据进行插值，采用不同的经典插值算法进行插值，最近邻插值,双线性插值,双三次插值算法，使得气测数据更加精细化。下面是双线性插值算法的原理；假设P为气测数据待求解点，临近点Q11,Q12,Q21,Q22，对Q11,Q21和Q12,Q22分别进行线性插值得到R1和R2，然后对R1，R2进行线性插值得到P点的值；

步骤3.2、岩性数据是区间数据，反应的是一个深度区间的岩性。例如：在EP10-2-2井，深度为703-720m时岩性为含砾粗砂岩，将区间数据转化为0.1米的数据，703.1m,703.2m…,719.9m的岩性都是含砾粗砂岩。

步骤4、本文统计了影响储层流体性质的15种因素(步骤1.2)，主成分分析通过数据降维，将多个非线性相关的指标转换为互不相关的较少指标。主成分分析的计算步骤如下：步骤4.1、影响储层流体性质的因素有n种，总体样本为m，则样本矩阵可表示为：

其中，x_ij表示第i组样本数据中的第j个变量的值；

步骤4.2、由于影响研究区块低阻油藏流体性质的因素较多，这些因素具有不同的量纲，将影响油藏流体性质主控因素分析及后续流体预测结果。为了消除不同因素之间的维度影响，有必要对矩阵X做标准化变换得矩阵Z，本文采用减均值、除方差，对数据进行归一化处理；

其中

步骤4.3、对标准化矩阵Z求相关系数矩阵

步骤4.4、确定k值使得信息的累计贡献率大于85％

最终我们得到12中不同的影响因子P1、P2…、P12。

步骤5、对于(步骤4)处理后的数据，油层和油水同层与非油层的数据比例差距过大，油层的占比较低，对于模型的训练来说，容易因为数据不平衡的问题导致模型的表现差，因此需要使用改进的自适应合成抽样(Adaptive Synthetic Sampling，简称ADASYN)算法进行数据增强；

①用样本的训练集训练分类器，用验证集测试识别结果；

②通过得到的混淆矩阵，分别计算每个类的错分率σ_i，式中i,j＝{a,b,c…}，TP_i表示真实类别为i类，预测也为i类的个数。FN_j表示真实类别为i类，但预测为j类的个数。当σ_i大于阈值时，选择在i类和j类之间进行数据增强，否则不进行数据增强。将i类和j类之间样本较多的类设为s_m，数量较小的设为s_l；

⑤对r_i进行标准化

⑥计算少数类所需生成的样本数g

步骤6、构建AdaBoost.M2-SVM模型；

AdaBoost.M2算法的步骤如下：

输入训练集S＝{X_i,y_i},i＝1,…,N；，样本数为N，其中向量X_i表示第i个训练样本，标签其中i为编号，K表示不同的类别数，迭代次数T；

在第t轮迭代，样本(x_i,y_i)，的权值分布为D_t(i)。初始时样本权重相等。每次迭代时分类错误的样本权重会增加，使之得到更多的训练。存在样本X_i，其正确分类为y_i与非正确分类y(K-1种的非y_i类)。假设训练得到弱分类器h_t，其结果在[0,1]之间取值，对于样本(x_i,y_i)，分类器h_t会进行K-1次判别，每次结果会出现三种情况，分类正确，分类错误和在y和y_i之间随机选择一类。那么，每一次判别错误的概率为

对于K分类问题，有K-1个不同的y在不同情况下有不同的重要性，因此对每个y赋予权重那么Adaboost.M2的伪损失为

(1)将样本数据的权重初始化为首次迭代中样本i的某个错误标签y的权重为/>

(2)循环迭代t＝1,…,T；

③计算h_t伪损失。

④令对权值进行更新：/>其中/>

(3)得到最终的组合分类器

步骤6.1、将处理后的数据(步骤5)输入到模型中进行训练，通过训练AdaBoost.M2-SVM算法进行测录井数据油气水层的识别；

所述的AdaBoost.M2-SVM分类模型采用如下步骤进行测录井油气水层的解释步骤；

(1)将步骤5扩充后的数据按照7:2:1的比例划分出训练集、验证集和测试集；

(2)将训练集和验证集输入到AdaBoost.M2-SVM模型中，通过混淆矩阵计算出Accuracy(准确率)、Precision(精确率)、Recall(召回率)、F1-score(F1值)作为模型的评估指标(参见说明书附图3)。通过比较同一数据增强算法下传统SVM模型和AdaBoost.M2-SVM的准确率，发现AdaBoost.M2-SVM的准确率更高。在不同的录井数据库上AdaBoost.M2-SVM的准确率也更高，证明AdaBoost.M2-SVM有更好的泛化能力。

Claims

1.一种基于改进SVM的不平衡样本油藏复杂流体识别方法，其特征在于：该识别方法包括以下步骤：

步骤1、收集整理研究区的测录井数据，建立数据层；

步骤2.1、由于数据层原始的excel表格中“荧光级别”和“录井综合解释”列的数据有缺省值，因此需要对缺省值进行填补；对于“荧光级别”，由于在一些不是储油层的层段该数值过低，因此工作人员没有将数据记录到原始的excel表格中，实际应该填充为0，对于“录井综合解释”也是同样的处理，对于空白数据一般填充为“水层”；对于那些实际的缺失值，本文选择删除整条数据；对于气测数据，原始数据中的无效值为-999.25，并选择删除数据为负的整条数据；

步骤3.2、岩性数据是区间数据，反应的是一个深度区间的岩性；

步骤4、步骤1.2统计了影响储层流体性质的15种因素，主成分分析通过数据降维，将多个非线性相关的指标转换为互不相关的较少指标；

①用样本的训练集训练分类器，用验证集测试识别结果；

⑤对r_i进行标准化

⑥计算少数类所需生成的样本数g

⑧将新生成的样本N_i加入训练集得到新训练集，重复步骤①和②，直到错分率σ小于阈值；

步骤6、构建AdaBoost.M2-SVM模型；

AdaBoost.M2算法作为AdaBoost算法的推广，将K类的多分类问题转化为K-1个二分类问题，使得AdaBoost算法可以应用到多分类问题上；AdaBoost.M2算法通过将多个线性核SVM分类器以不同权重组合，而计算分类器权重是通过在训练集中维护一套针对训练数据的权重分布实现的；

2.根据权利要求1所述的一种基于改进SVM的不平衡样本油藏复杂流体识别方法，其特征在于：所述的收集整理研究区的测录井数据，建立数据层的方法步骤如下：

步骤1.2、由于井中不同传感器采集的样本的深度不一致，不能满足模型的训练需要，因此按照数据的深度特征进行匹配拼接，对深度不同的样本进行深度统一的操作；选取了岩性数据、荧光级别、包括C1、C2、C3、iC4、nC4、iC5、nC5、CO2和H2S的气测数据、包括电阻率、自然伽马、中子和密度的感应数据为特征数据，以气层、油水同层、水层和干层作为标签数据，并以上面的数据建立数据层。

3.根据权利要求1所述的一种基于改进SVM的不平衡样本油藏复杂流体识别方法，其特征在于：所述的双线性插值算法的原理如下：

假设P为气测数据待求解点，临近点Q11,Q12,Q21,Q22，对Q11,Q21和Q12,Q22分别进行线性插值得到R1和R2，然后对R1，R2进行线性插值得到P点的值。

4.根据权利要求1所述的一种基于改进SVM的不平衡样本油藏复杂流体识别方法，其特征在于：所述的主成分分析的计算步骤如下：

其中，x_ij表示第i组样本数据中的第j个变量的值；

其中

步骤4.3、对标准化矩阵Z求相关系数矩阵

步骤4.4、确定k值使得信息的累计贡献率大于85％

最终我们得到12中不同的影响因子P1、P2…、P12。

5.根据权利要求1所述的一种基于改进SVM的不平衡样本油藏复杂流体识别方法，其特征在于：所述的AdaBoost.M2算法的步骤如下：

在第t轮迭代，样本(x_i,y_i)，的权值分布为D_t(i)；初始时样本权重相等；每次迭代时分类错误的样本权重会增加，使之得到更多的训练；存在样本X_i，其正确分类为y_i与非正确分类y(K-1种的非y_i类)；假设训练得到弱分类器h_t，其结果在[0,1]之间取值，对于样本(x_i,y_i)，分类器h_t会进行K-1次判别，每次结果会出现三种情况，分类正确，分类错误和在y和y_i之间随机选择一类；那么，每一次判别错误的概率为

(2)循环迭代t＝1,…,T；

③计算h_t伪损失；

④令对权值进行更新：/>其中

(3)得到最终的组合分类器：