CN117093922A - 一种基于改进svm的不平衡样本油藏复杂流体识别方法 - Google Patents
一种基于改进svm的不平衡样本油藏复杂流体识别方法 Download PDFInfo
- Publication number
- CN117093922A CN117093922A CN202311068108.XA CN202311068108A CN117093922A CN 117093922 A CN117093922 A CN 117093922A CN 202311068108 A CN202311068108 A CN 202311068108A CN 117093922 A CN117093922 A CN 117093922A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- samples
- class
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000012530 fluid Substances 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 51
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000005259 measurement Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 10
- 238000011160 research Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000000513 principal component analysis Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000006698 induction Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 3
- 238000012706 support-vector machine Methods 0.000 description 17
- 238000011161 development Methods 0.000 description 4
- 239000004215 Carbon black (E152) Substances 0.000 description 3
- 229930195733 hydrocarbon Natural products 0.000 description 3
- 150000002430 hydrocarbons Chemical class 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000032798 delamination Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003129 oil well Substances 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于改进SVM的不平衡样本油藏复杂流体识别方法。该基于改进SVM的不平衡样本油藏复杂流体识别方法,首先通过ADASYN模型对数据进行扩充,使得发生过拟合的可能性降低,然后通过AdaBoost.M2‑SVM组合多个弱的SVM分类器,使得模型推广能力得到提升,解决了传统方法在非常规油藏储层流体识别不适应性和多解性。另外依据本方法可在基于人工智能算法的测录井结合的油藏流体识别,实现储层油气水层的智能识别。包括数据处理、算法设计、模型训练、模型部署,形成一套结合测录井数据的储层油气水层智能识别***。
Description
技术领域
本发明涉及一种基于改进SVM的不平衡样本油藏复杂流体识别方法,属于油藏复杂流体识别技术领域。
背景技术
近年来,在海上油田勘探过程中钻遇了多套低阻油藏。对于低阻储层的流体性质识别是油气田勘探开发研究中的重点环节,识别的准确性直接关系到油气层的发现以及高效开发。当前,储层流体性质识别主要依靠录井和测井资料。录井资料作为勘探的第一性资料有直观且更加突显原始地层性质的特点,是辅助专家寻找和评价储集层最重要的资料之一,可以通过多种技术手段(如岩屑录井、岩心录井和X射线元素录井)有效地识别储集层岩性及物性、识别储层流体性质。录井资料获得的是地下油气的直接信息,具有直观准确的特点,但其仍然存在一些缺点。首先,采样间隔较大,可能导致信息的不连续性。其次,分层精度较低,对于储层厚度的解释也不够精确。
测井技术主要通过电阻率测井和声波测井等测井曲线对流体性质的响应差异来区分油气层和水层。其中,电阻率测井可以区分不同介质对电流的阻抗差异,从而区分含油气层和水层,而声波测井则利用声波在不同介质中传播速度的差异来区分不同介质,因此可以判定含油气层的存在。此外,还有一些辅助测井曲线如自然伽马测井、中子测井等也可用于储层流体性质的识别。然而对于低阻油藏,其在同一油藏内油层和水层的测井响应特征不明显,油层水层电阻率没有明显界限,基于常规测井手段难以对其进行识别,常常被错误解释为水层而遗漏。
测井解释的方法主要包括基于数理统计的交会图版法和基于体积模型与理论公式的方法。然而,对于像低阻油藏这样的非常规油藏,简化的体积模型在实际应用中会出现不适应性,建立的经验公式精度差、推广性也差。
随着人工智能技术的发展,学者们逐渐开始尝试数据驱动的储层流体识别方法。例如,基于卷积神经网络的算法、长短时记忆网络算法方法。然而测录井数据具有数据分布不平衡的问题,且对于深层网络很容易过拟合,这样的模型推广能力差,难以应用到实际开发中。因此针对上述各类技术所存在的问题,有必要研发一种基于改进SVM(SupportVector Machine)的不平衡样本油藏复杂流体识别方法,以解决现有油藏复杂流体识别方法存有的以上问题。
发明内容
本发明的目的在于:提供基于改进SVM的不平衡样本油藏复杂流体识别方法,以解决现有不平衡样本油藏复杂流体识别方法存有的精度差和推广性差的问题。
本发明的技术方案是:
一种基于改进SVM的不平衡样本油藏复杂流体识别方法,其特征在于:该识别方法包括以下步骤:
步骤1、收集整理研究区的测录井数据,建立数据层;
步骤2、对数据层中的数据进行整理得到最终数据集,包括数据整理、删除异常数据和填充空数据、数据插值和数据降维;
步骤3、由于岩性数据和气测数据与步骤2.1中其他数据的数据精细程度不一致,因此,需要对岩性数据和气测数据进行插值;
步骤4、步骤1.2统计了影响储层流体性质的15种因素,主成分分析通过数据降维,将多个非线性相关的指标转换为互不相关的较少指标;主成分分析的计算步骤如下:
步骤5、对于步骤4处理后的数据,油层和油水同层与非油层的数据比例差距过大,油层的占比较低,对于模型的训练来说,容易因为数据不平衡的问题导致模型的表现差,因此需要使用改进的自适应合成抽样Adaptive Synthetic Sampling,简称ADASYN算法进行数据增强;步骤5.1、对于步骤4中得到的样本,使用改进ADASYN对少数类样本进行随机过采样,该算法的计算步骤为:
步骤6、构建AdaBoost.M2-SVM模型;
步骤7、将步骤5处理后的数据输入到模型中进行训练,通过训练AdaBoost.M2-SVM算法进行测录井数据油气水层的识别。
本发明的优点在于:
该基于改进SVM的不平衡样本油藏复杂流体识别方法,首先通过ADASYN模型对数据进行扩充,使得发生过拟合的可能性降低,然后通过AdaBoost.M2-SVM组合多个弱的SVM分类器,使得模型推广能力得到提升,解决了传统方法在非常规油藏储层流体识别不适应性和多解性。另外依据本方法可在基于人工智能算法的测录井结合的油藏流体识别,实现储层油气水层的智能识别。包括数据处理、算法设计、模型训练、模型部署,形成一套结合测录井数据的储层油气水层智能识别***。
附图说明
图1为本申请的具体流程图;
图2为本发明进行应用时所得到的样本图;
图3为本发明进行应用时将训练集和验证集输入到AdaBoost.M2-SVM模型中的结果。
具体实施方式
该基于改进SVM的不平衡样本油藏复杂流体识别方法,其特征在于:该识别方法包括以下步骤:
步骤1、收集整理研究区的测录井数据,建立数据层;
步骤1.1、选取工区中多口井的测录井数据构成数据集,并对数据按照每间隔0.1m取一组数据,得到最终所需样本;
步骤1.2、由于井中不同传感器采集的样本的深度不一致,不能满足模型的训练需要,因此按照数据的深度特征进行匹配拼接,对深度不同的样本进行深度统一的操作。选取了岩性数据、荧光级别、包括C1、C2、C3、iC4、nC4、iC5、nC5、CO2和H2S的气测数据、包括电阻率、自然伽马、中子和密度的感应数据为特征数据,以气层、油水同层、水层和干层作为标签数据,并以上面的数据建立数据层。
步骤2、对数据层中的数据进行整理得到最终数据集,包括数据整理、删除异常数据和填充空数据、数据插值和数据降维;
步骤2.1、由于数据层原始的excel表格中“荧光级别”和“录井综合解释”列的数据有缺省值,因此需要对缺省值进行填补。对于“荧光级别”,由于在一些不是储油层的层段该数值过低,因此工作人员没有将数据记录到原始的excel表格中,实际应该填充为0,对于“录井综合解释”也是同样的处理,对于空白数据一般填充为“水层”;对于那些实际的缺失值,本文选择删除整条数据;对于气测数据,原始数据中的无效值为-999.25,并选择删除数据为负的整条数据。
步骤3、由于岩性数据和气测数据与步骤2.1中其他数据的数据精细程度不一致,因此,需要对岩性数据和气测数据进行插值;
步骤3.1、由于气测数据的精度为1m每个数据取样点,而对于感应数据它的数据精度为0.1m,因此对气测数据进行插值,采用不同的经典插值算法进行插值,最近邻插值,双线性插值,双三次插值算法,使得气测数据更加精细化;
双线性插值算法的原理如下:
假设P为气测数据待求解点,临近点Q11,Q12,Q21,Q22,对Q11,Q21和Q12,Q22分别进行线性插值得到R1和R2,然后对R1,R2进行线性插值得到P点的值;
步骤3.2、岩性数据是区间数据,反应的是一个深度区间的岩性。
步骤4、步骤1.2统计了影响储层流体性质的15种因素,主成分分析通过数据降维,将多个非线性相关的指标转换为互不相关的较少指标;主成分分析的计算步骤如下:
步骤4.1、影响储层流体性质的因素有n种,总体样本为m,则样本矩阵可表示为:
其中,xij表示第i组样本数据中的第j个变量的值;
步骤4.2、由于影响研究区块低阻油藏流体性质的因素较多,这些因素具有不同的量纲,将影响油藏流体性质主控因素分析及后续流体预测结果;为了消除不同因素之间的维度影响,有必要对矩阵X做标准化变换得矩阵Z,本文采用减均值、除方差,对数据进行归一化处理;
其中
步骤4.3、对标准化矩阵Z求相关系数矩阵
解样本相关矩阵R的特征方程|R-λIn|=0得n个特征值,且λ1≥λ2≥…≥λn≥0
步骤4.4、确定k值使得信息的累计贡献率大于85%
最终我们得到12中不同的影响因子P1、P2…、P12。
步骤5、对于步骤4处理后的数据,油层和油水同层与非油层的数据比例差距过大,油层的占比较低,对于模型的训练来说,容易因为数据不平衡的问题导致模型的表现差,因此需要使用改进的自适应合成抽样Adaptive Synthetic Sampling,简称ADASYN算法进行数据增强;
步骤5.1、对于步骤4中得到的样本,使用改进ADASYN对少数类样本进行随机过采样,该算法的计算步骤为:
①用样本的训练集训练分类器,用验证集测试识别结果;
②通过得到的混淆矩阵,分别计算每个类的错分率σi,式中i,j={a,b,c…},TPi表示真实类别为i类,预测也为i类的个数;FNj表示真实类别为i类,但预测为j类的个数;当σi大于阈值时,选择在i类和j类之间进行数据增强,否则不进行数据增强;将i类和j类之间样本较多的类设为sm,数量较小的设为sl;
③计算sm和sl之间所需合成样本的数量G,G=(sm-sl)×β,式中sm和sl分别代表较多类和较少类的样本个数,β为0-1之间的随机数;
④对于每一个较少类样本xi,计算其k个欧式距离最近的样本中多数类的占比ri,式中Δi表示k个欧式距离最近的样本中的多数类样本的数量,i=1,2,3…sl;
⑤对ri进行标准化
⑥计算少数类所需生成的样本数g
⑦根据每个少数类样本需生成的g,使用传统SMOTE算法生成新样本;
⑧将新生成的样本Ni加入训练集得到新训练集,重复步骤①和②,直到错分率σ小于阈值。
步骤6、构建AdaBoost.M2-SVM模型;
AdaBoost.M2算法作为AdaBoost算法的推广,将K类的多分类问题转化为K-1个二分类问题,使得AdaBoost算法可以应用到多分类问题上。AdaBoost.M2算法通过将多个线性核SVM分类器以不同权重组合,而计算分类器权重是通过在训练集中维护一套针对训练数据的权重分布实现的;
AdaBoost.M2算法的步骤如下:
输入训练集S={Xi,yi},i=1,…,N;,样本数为N,其中向量Xi表示第i个训练样本,标签其中i为编号,K表示不同的类别数;迭代次数T;
在第t轮迭代,样本(xi,yi),的权值分布为Dt(i);初始时样本权重相等;每次迭代时分类错误的样本权重会增加,使之得到更多的训练。存在样本Xi,其正确分类为yi与非正确分类y(K-1种的非yi类)。假设训练得到弱分类器ht,其结果在[0,1]之间取值,对于样本(xi,yi),分类器ht会进行K-1次判别,每次结果会出现三种情况,分类正确,分类错误和在y和yi之间随机选择一类。那么,每一次判别错误的概率为:
对于K分类问题,有K-1个不同的y在不同情况下有不同的重要性,因此对每个y赋予权重那么Adaboost.M2的伪损失为εt:
(1)将样本数据的权重初始化为首次迭代中样本i的某个错误标签y的权重为:/>
(2)循环迭代t=1,…,T;
①第t次迭代中样本i的的错误标签的权重之和对y≠yi有样本分布/>
②根据样本分布Dt(i)重新选择样本,调用SVM对其进行训练,得到子分类器ht:
③计算ht伪损失。
④令对权值进行更新:/>其中/>
(3)得到最终的组合分类器:
步骤7、将步骤5处理后的数据输入到模型中进行训练,通过训练AdaBoost.M2-SVM算法进行测录井数据油气水层的识别。
为了验证本申请的正确性,申请人对某油井的32口井进行了应用,应用过程如下:该基于改进SVM的复杂油藏流体识别方法包括以下步骤:
步骤1、收集整理研究区的测录井数据,建立数据层;
步骤1.1、选取工区中32口井的测录井数据构成数据集,并对数据按照每间隔0.1m取一组数据,得到最终所需样本(参见说明书附图2);
步骤1.2、由于不同传感器采集的样本的深度不一致,不能满足模型的训练需要,因此我们按照数据的深度特征进行匹配拼接,对深度不同的样本进行深度统一的操作。我们选取了岩性、荧光级别、气测数据(C1、C2、C3、iC4、nC4、iC5、nC5、CO2、H2S)、感应数据(电阻率、自然伽马、中子、密度)为特征数据,以气层、油水同层、水层和干层作为标签数据,并以上面的数据建立数据层。
步骤2、对数据层中的数据进行整理得到最终数据集,包括数据整理、删除异常数据和填充空数据、数据插值和数据降维;
步骤2.1、由于原始的excel表格中“荧光级别”和“录井综合解释”列的数据有缺省值,因此需要对缺省值进行填补。对于“荧光级别”,由于在一些不是储油层的层段该数值过低,因此工作人员没有将数据记录到原始的excel表格中,实际应该填充为0,对于“录井综合解释”也是同样的处理,对于空白数据一般填充为“水层”。对于那些实际的缺失值,本文选择删除整条数据。对于气测值,原始数据中的无效值为-999.25,本文选择删除数据为负的整条数据。
步骤3、由于岩性数据和气测数据与步骤2.1中其他数据的数据精细程度不一致,因此,需要对岩性数据和气测数据进行插值;
步骤3.1、就本文而言,气测数据的精度为1m每个数据取样点,而对于感应数据它的数据精度为0.1m,因此对气测数据进行插值,采用不同的经典插值算法进行插值,最近邻插值,双线性插值,双三次插值算法,使得气测数据更加精细化。下面是双线性插值算法的原理;假设P为气测数据待求解点,临近点Q11,Q12,Q21,Q22,对Q11,Q21和Q12,Q22分别进行线性插值得到R1和R2,然后对R1,R2进行线性插值得到P点的值;
步骤3.2、岩性数据是区间数据,反应的是一个深度区间的岩性。例如:在EP10-2-2井,深度为703-720m时岩性为含砾粗砂岩,将区间数据转化为0.1米的数据,703.1m,703.2m…,719.9m的岩性都是含砾粗砂岩。
步骤4、本文统计了影响储层流体性质的15种因素(步骤1.2),主成分分析通过数据降维,将多个非线性相关的指标转换为互不相关的较少指标。主成分分析的计算步骤如下:步骤4.1、影响储层流体性质的因素有n种,总体样本为m,则样本矩阵可表示为:
其中,xij表示第i组样本数据中的第j个变量的值;
步骤4.2、由于影响研究区块低阻油藏流体性质的因素较多,这些因素具有不同的量纲,将影响油藏流体性质主控因素分析及后续流体预测结果。为了消除不同因素之间的维度影响,有必要对矩阵X做标准化变换得矩阵Z,本文采用减均值、除方差,对数据进行归一化处理;
其中
步骤4.3、对标准化矩阵Z求相关系数矩阵
解样本相关矩阵R的特征方程|R-λIn|=0得n个特征值,且λ1≥λ2≥…≥λn≥0
步骤4.4、确定k值使得信息的累计贡献率大于85%
最终我们得到12中不同的影响因子P1、P2…、P12。
步骤5、对于(步骤4)处理后的数据,油层和油水同层与非油层的数据比例差距过大,油层的占比较低,对于模型的训练来说,容易因为数据不平衡的问题导致模型的表现差,因此需要使用改进的自适应合成抽样(Adaptive Synthetic Sampling,简称ADASYN)算法进行数据增强;
步骤5.1、对于步骤4中得到的样本,使用改进ADASYN对少数类样本进行随机过采样,该算法的计算步骤为:
①用样本的训练集训练分类器,用验证集测试识别结果;
②通过得到的混淆矩阵,分别计算每个类的错分率σi,式中i,j={a,b,c…},TPi表示真实类别为i类,预测也为i类的个数。FNj表示真实类别为i类,但预测为j类的个数。当σi大于阈值时,选择在i类和j类之间进行数据增强,否则不进行数据增强。将i类和j类之间样本较多的类设为sm,数量较小的设为sl;
③计算sm和sl之间所需合成样本的数量G,G=(sm-sl)×β,式中sm和sl分别代表较多类和较少类的样本个数,β为0-1之间的随机数;
④对于每一个较少类样本xi,计算其k个欧式距离最近的样本中多数类的占比ri,式中Δi表示k个欧式距离最近的样本中的多数类样本的数量,i=1,2,3…sl;
⑤对ri进行标准化
⑥计算少数类所需生成的样本数g
⑦根据每个少数类样本需生成的g,使用传统SMOTE算法生成新样本;
⑧将新生成的样本Ni加入训练集得到新训练集,重复步骤①和②,直到错分率σ小于阈值。
步骤6、构建AdaBoost.M2-SVM模型;
AdaBoost.M2算法作为AdaBoost算法的推广,将K类的多分类问题转化为K-1个二分类问题,使得AdaBoost算法可以应用到多分类问题上。AdaBoost.M2算法通过将多个线性核SVM分类器以不同权重组合,而计算分类器权重是通过在训练集中维护一套针对训练数据的权重分布实现的;
AdaBoost.M2算法的步骤如下:
输入训练集S={Xi,yi},i=1,…,N;,样本数为N,其中向量Xi表示第i个训练样本,标签其中i为编号,K表示不同的类别数,迭代次数T;
在第t轮迭代,样本(xi,yi),的权值分布为Dt(i)。初始时样本权重相等。每次迭代时分类错误的样本权重会增加,使之得到更多的训练。存在样本Xi,其正确分类为yi与非正确分类y(K-1种的非yi类)。假设训练得到弱分类器ht,其结果在[0,1]之间取值,对于样本(xi,yi),分类器ht会进行K-1次判别,每次结果会出现三种情况,分类正确,分类错误和在y和yi之间随机选择一类。那么,每一次判别错误的概率为
对于K分类问题,有K-1个不同的y在不同情况下有不同的重要性,因此对每个y赋予权重那么Adaboost.M2的伪损失为
(1)将样本数据的权重初始化为首次迭代中样本i的某个错误标签y的权重为/>
(2)循环迭代t=1,…,T;
①第t次迭代中样本i的的错误标签的权重之和对y≠yi有样本分布/>
②根据样本分布Dt(i)重新选择样本,调用SVM对其进行训练,得到子分类器ht:
③计算ht伪损失。
④令对权值进行更新:/>其中/>
(3)得到最终的组合分类器
步骤6.1、将处理后的数据(步骤5)输入到模型中进行训练,通过训练AdaBoost.M2-SVM算法进行测录井数据油气水层的识别;
所述的AdaBoost.M2-SVM分类模型采用如下步骤进行测录井油气水层的解释步骤;
(1)将步骤5扩充后的数据按照7:2:1的比例划分出训练集、验证集和测试集;
(2)将训练集和验证集输入到AdaBoost.M2-SVM模型中,通过混淆矩阵计算出Accuracy(准确率)、Precision(精确率)、Recall(召回率)、F1-score(F1值)作为模型的评估指标(参见说明书附图3)。通过比较同一数据增强算法下传统SVM模型和AdaBoost.M2-SVM的准确率,发现AdaBoost.M2-SVM的准确率更高。在不同的录井数据库上AdaBoost.M2-SVM的准确率也更高,证明AdaBoost.M2-SVM有更好的泛化能力。
该基于改进SVM的不平衡样本油藏复杂流体识别方法,首先通过ADASYN模型对数据进行扩充,使得发生过拟合的可能性降低,然后通过AdaBoost.M2-SVM组合多个弱的SVM分类器,使得模型推广能力得到提升,解决了传统方法在非常规油藏储层流体识别不适应性和多解性。另外依据本方法可在基于人工智能算法的测录井结合的油藏流体识别,实现储层油气水层的智能识别。包括数据处理、算法设计、模型训练、模型部署,形成一套结合测录井数据的储层油气水层智能识别***。
Claims (5)
1.一种基于改进SVM的不平衡样本油藏复杂流体识别方法,其特征在于:该识别方法包括以下步骤:
步骤1、收集整理研究区的测录井数据,建立数据层;
步骤2、对数据层中的数据进行整理得到最终数据集,包括数据整理、删除异常数据和填充空数据、数据插值和数据降维;
步骤2.1、由于数据层原始的excel表格中“荧光级别”和“录井综合解释”列的数据有缺省值,因此需要对缺省值进行填补;对于“荧光级别”,由于在一些不是储油层的层段该数值过低,因此工作人员没有将数据记录到原始的excel表格中,实际应该填充为0,对于“录井综合解释”也是同样的处理,对于空白数据一般填充为“水层”;对于那些实际的缺失值,本文选择删除整条数据;对于气测数据,原始数据中的无效值为-999.25,并选择删除数据为负的整条数据;
步骤3、由于岩性数据和气测数据与步骤2.1中其他数据的数据精细程度不一致,因此,需要对岩性数据和气测数据进行插值;
步骤3.1、由于气测数据的精度为1m每个数据取样点,而对于感应数据它的数据精度为0.1m,因此对气测数据进行插值,采用不同的经典插值算法进行插值,最近邻插值,双线性插值,双三次插值算法,使得气测数据更加精细化;
步骤3.2、岩性数据是区间数据,反应的是一个深度区间的岩性;
步骤4、步骤1.2统计了影响储层流体性质的15种因素,主成分分析通过数据降维,将多个非线性相关的指标转换为互不相关的较少指标;
步骤5、对于步骤4处理后的数据,油层和油水同层与非油层的数据比例差距过大,油层的占比较低,对于模型的训练来说,容易因为数据不平衡的问题导致模型的表现差,因此需要使用改进的自适应合成抽样Adaptive Synthetic Sampling,简称ADASYN算法进行数据增强;步骤5.1、对于步骤4中得到的样本,使用改进ADASYN对少数类样本进行随机过采样,该算法的计算步骤为:
①用样本的训练集训练分类器,用验证集测试识别结果;
②通过得到的混淆矩阵,分别计算每个类的错分率σi,式中i,j={a,b,c…},TPi表示真实类别为i类,预测也为i类的个数;FNj表示真实类别为i类,但预测为j类的个数;当σi大于阈值时,选择在i类和j类之间进行数据增强,否则不进行数据增强;将i类和j类之间样本较多的类设为sm,数量较小的设为sl;
③计算sm和sl之间所需合成样本的数量G,G=(sm-sl)×β,式中sm和sl分别代表较多类和较少类的样本个数,β为0-1之间的随机数;
④对于每一个较少类样本xi,计算其k个欧式距离最近的样本中多数类的占比ri,式中Δi表示k个欧式距离最近的样本中的多数类样本的数量,i=1,2,3…sl;
⑤对ri进行标准化
⑥计算少数类所需生成的样本数g
⑦根据每个少数类样本需生成的g,使用传统SMOTE算法生成新样本;
⑧将新生成的样本Ni加入训练集得到新训练集,重复步骤①和②,直到错分率σ小于阈值;
步骤6、构建AdaBoost.M2-SVM模型;
AdaBoost.M2算法作为AdaBoost算法的推广,将K类的多分类问题转化为K-1个二分类问题,使得AdaBoost算法可以应用到多分类问题上;AdaBoost.M2算法通过将多个线性核SVM分类器以不同权重组合,而计算分类器权重是通过在训练集中维护一套针对训练数据的权重分布实现的;
步骤7、将步骤5处理后的数据输入到模型中进行训练,通过训练AdaBoost.M2-SVM算法进行测录井数据油气水层的识别。
2.根据权利要求1所述的一种基于改进SVM的不平衡样本油藏复杂流体识别方法,其特征在于:所述的收集整理研究区的测录井数据,建立数据层的方法步骤如下:
步骤1.1、选取工区中多口井的测录井数据构成数据集,并对数据按照每间隔0.1m取一组数据,得到最终所需样本;
步骤1.2、由于井中不同传感器采集的样本的深度不一致,不能满足模型的训练需要,因此按照数据的深度特征进行匹配拼接,对深度不同的样本进行深度统一的操作;选取了岩性数据、荧光级别、包括C1、C2、C3、iC4、nC4、iC5、nC5、CO2和H2S的气测数据、包括电阻率、自然伽马、中子和密度的感应数据为特征数据,以气层、油水同层、水层和干层作为标签数据,并以上面的数据建立数据层。
3.根据权利要求1所述的一种基于改进SVM的不平衡样本油藏复杂流体识别方法,其特征在于:所述的双线性插值算法的原理如下:
假设P为气测数据待求解点,临近点Q11,Q12,Q21,Q22,对Q11,Q21和Q12,Q22分别进行线性插值得到R1和R2,然后对R1,R2进行线性插值得到P点的值。
4.根据权利要求1所述的一种基于改进SVM的不平衡样本油藏复杂流体识别方法,其特征在于:所述的主成分分析的计算步骤如下:
步骤4.1、影响储层流体性质的因素有n种,总体样本为m,则样本矩阵可表示为:
其中,xij表示第i组样本数据中的第j个变量的值;
步骤4.2、由于影响研究区块低阻油藏流体性质的因素较多,这些因素具有不同的量纲,将影响油藏流体性质主控因素分析及后续流体预测结果;为了消除不同因素之间的维度影响,有必要对矩阵X做标准化变换得矩阵Z,本文采用减均值、除方差,对数据进行归一化处理;
其中
步骤4.3、对标准化矩阵Z求相关系数矩阵
解样本相关矩阵R的特征方程|R-λIn|=0得n个特征值,且λ1≥λ2≥…≥λn≥0
步骤4.4、确定k值使得信息的累计贡献率大于85%
最终我们得到12中不同的影响因子P1、P2…、P12。
5.根据权利要求1所述的一种基于改进SVM的不平衡样本油藏复杂流体识别方法,其特征在于:所述的AdaBoost.M2算法的步骤如下:
输入训练集S={Xi,yi},i=1,…,N;,样本数为N,其中向量Xi表示第i个训练样本,标签其中i为编号,K表示不同的类别数;迭代次数T;
在第t轮迭代,样本(xi,yi),的权值分布为Dt(i);初始时样本权重相等;每次迭代时分类错误的样本权重会增加,使之得到更多的训练;存在样本Xi,其正确分类为yi与非正确分类y(K-1种的非yi类);假设训练得到弱分类器ht,其结果在[0,1]之间取值,对于样本(xi,yi),分类器ht会进行K-1次判别,每次结果会出现三种情况,分类正确,分类错误和在y和yi之间随机选择一类;那么,每一次判别错误的概率为
对于K分类问题,有K-1个不同的y在不同情况下有不同的重要性,因此对每个y赋予权重那么Adaboost.M2的伪损失为εt:
(1)将样本数据的权重初始化为首次迭代中样本i的某个错误标签y的权重为:/>
(2)循环迭代t=1,…,T;
①第t次迭代中样本i的的错误标签的权重之和对y≠yi有样本分布/>
②根据样本分布Dt(i)重新选择样本,调用SVM对其进行训练,得到子分类器ht:
③计算ht伪损失;
④令对权值进行更新:/>其中
(3)得到最终的组合分类器:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311068108.XA CN117093922A (zh) | 2023-08-23 | 2023-08-23 | 一种基于改进svm的不平衡样本油藏复杂流体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311068108.XA CN117093922A (zh) | 2023-08-23 | 2023-08-23 | 一种基于改进svm的不平衡样本油藏复杂流体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117093922A true CN117093922A (zh) | 2023-11-21 |
Family
ID=88772914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311068108.XA Pending CN117093922A (zh) | 2023-08-23 | 2023-08-23 | 一种基于改进svm的不平衡样本油藏复杂流体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093922A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436011A (zh) * | 2023-12-15 | 2024-01-23 | 四川泓宝润业工程技术有限公司 | 一种机泵设备故障预测方法、存储介质及电子设备 |
-
2023
- 2023-08-23 CN CN202311068108.XA patent/CN117093922A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436011A (zh) * | 2023-12-15 | 2024-01-23 | 四川泓宝润业工程技术有限公司 | 一种机泵设备故障预测方法、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635461B (zh) | 一种应用随钻参数来自动识别围岩级别的方法和*** | |
CN110674841B (zh) | 一种基于聚类算法的测井曲线识别方法 | |
Chang et al. | Lithofacies identification using multiple adaptive resonance theory neural networks and group decision expert system | |
US8090538B2 (en) | System and method for interpretation of well data | |
CN110346831B (zh) | 一种基于随机森林算法的智能化地震流体识别方法 | |
CN107356958A (zh) | 一种基于地质信息约束的河流相储层分步地震相预测方法 | |
Silva et al. | Petrofacies classification using machine learning algorithms | |
CN105760673A (zh) | 一种河流相储层地震敏感参数模板分析方法 | |
Zhu et al. | Rapid identification of high-quality marine shale gas reservoirs based on the oversampling method and random forest algorithm | |
CN115758212A (zh) | 一种基于并行网络和迁移学习的机械设备故障诊断方法 | |
CN117093922A (zh) | 一种基于改进svm的不平衡样本油藏复杂流体识别方法 | |
CN117272841B (zh) | 一种基于混合神经网络的页岩气甜点预测方法 | |
Ye et al. | Drilling formation perception by supervised learning: Model evaluation and parameter analysis | |
CN112084553A (zh) | 一种用于隧道规划的勘测方法 | |
CN115964667A (zh) | 基于深度学习和重采样的河流-湖泊岩相测井识别方法 | |
CN110552693A (zh) | 一种基于深度神经网络的感应测井曲线的层界面识别方法 | |
CN116304941A (zh) | 一种基于多模型组合的海洋数据质量控制方法及装置 | |
Chikhi et al. | Probabilistic neural method combined with radial-bias functions applied to reservoir characterization in the Algerian Triassic province | |
CN113592028A (zh) | 多专家分类委员会机器测井流体识别的方法及*** | |
CN114707597A (zh) | 一种河流相致密砂岩储层复杂岩相智能化识别方法及*** | |
CN112987091A (zh) | 储层检测方法、装置、电子设备和存储介质 | |
CN112257789A (zh) | 对围岩等级进行识别的方法 | |
Gao et al. | A novel automated machine-learning model for lithofacies recognition | |
CN117574269B (zh) | 陆相页岩储层天然裂缝智能识别方法及*** | |
CN117407841B (zh) | 一种基于优化集成算法的页岩层理缝预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |