CN116562428A

CN116562428A - 一种基于机器学习的压裂施工参数优化方法

Info

Publication number: CN116562428A
Application number: CN202310383694.0A
Authority: CN
Inventors: 曾凡辉; 李宇麟; 胡大淦; 张宇; 郭建春; 王永红; 曾波
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-08-08

Abstract

本发明公开了一种基于机器学习的压裂施工参数优化方法，包括：获取影响产量的地质因素以及工程因素；利用机器学习方法对地质因素以及工程因素进行排序，根据排序结果筛选主控因素；对筛选出的地质主控因素和工程主控因素进行降维处理；利用熵权法结合启发式自动搜索确定降维后的地质主控因素、工程主控因素的权重；根据主控因素筛选结果，结合机器学习方法和优化算法，建立以单井产量最优为目标的智能化压裂工艺参数优化模型，优化得到最佳施工参数。本发明提供的压裂施工参数优化方法相比现有技术提高了计算效率以及优化精度。

Description

一种基于机器学习的压裂施工参数优化方法

技术领域

本发明涉及石油天然气工程领域，尤其涉及一种基于机器学习的压裂施工参数优化方法。

背景技术

水力压裂是低渗透储层增产的主要方式之一，在非常规油气资源的开采中有着广泛的应用。据统计大约有三分之一的压裂井都没有实现预期的产量，因此现有技术中的水力压裂技术的施工参数优化还存在不足。对于压裂优化这个“黑箱”问题，亟需建立科学的优化设计体系来指导现场施工作业。在压裂过程中，现场积累了大量具有重要价值的压裂施工和生产动态数据，而传统的压裂参数优化方法不能充分利用这些有价值的数据。

与此同时，数据挖掘、机器学习能够充分利用现场压裂施工及生产动态数据，针对小样本的监督式机器学习模型，通过少量样本点构建出目标函数和约束函数随变量变化的规律的近似模型，从而能够对产量主控因素进行分析，因此基于机器学习的压裂施工参数优化对提高气井产量具有重要的指导意义。

现有技术CN114117654A公开了一种基于机器学***井射孔优化设计方法及装置，其中利用机器学***井产能施工参数预测模型的迭代优化，但是发明天发现该专利中并未对输入参数进行降维处理，从而导致计算效率以及优化精度不如人意。且现有技术中在进行参数优化时在特征抽提方面较为笼统，导致特征参数的针对性有待进一步提升，同时参数优化均以正交试验为主，不易获取全局最优解；且不同的机器学习方法各有其优势与不足，不同区域合适的基于机器学习的参数优化模型各有不同。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于机器学习的压裂施工参数优化方法。

为达到以上技术目的，本发明提供以下技术方案。

一种基于机器学习的压裂施工参数优化方法，其特征在于，包括以下步骤：

(1)获取影响产量的地质因素以及工程因素；

(2)利用机器学习方法对影响产量的地质因素以及工程因素进行重要性排序，根据排序结果筛选产量主控因素；

(3)利用降维方法，分别对筛选出的地质主控因素和工程主控因素进行降维处理；

(4)利用熵权法结合启发式自动搜索确定降维后的地质主控因素、工程主控因素的权重，基于主控因素与产量之间的相关关系，明确主控因素的隶属函数基本形式；

(5)根据主控因素筛选结果，结合机器学习方法和优化算法，建立以单井产量最优为目标的智能化压裂工艺参数优化模型，优化得到最佳施工参数。

进一步地，所述地质因素包括TOC、孔隙度、渗透率、压力系数、脆性指数、储层厚度、最小水平主应力、钻遇率、泥质含量。

进一步地，所述工程因素包括水平段长度、总液量、总砂量、平均砂比、施工排量、裂缝间距、施工压力、停泵压力、平均砂比、陶粒用量、压裂液返排率。

进一步地，所述步骤(2)中还包括利用皮尔逊相关分析法确定各个地质因素以及工程因素之间的相关性，其确定方法为：

计算相关系数

式中，r表示相关系数，q为1到n的自然数，n表示井的数量，a、b表示需要进行相关性分析的两个因素，a_q第q口井的a因素，b_q表示第q口井的b因素。

进一步地，机器学习算法为随机森林、人工神经网络、支持向量机三种方法中的至少一种。

进一步地，随机森林法的步骤包括：

基于方差的特征重要性度量，第i个结点的方差计算为：

式中，mse(i)表示方差，D_i示第i个结点上的数据集，x_j表示i结点数据集上的一条数据，y_j表示x_j对应的标签，c_i表示D_i数据集标签的平均值；

设表示第i个特征在RF所有决策树节点上方差的平均改变量，即第i个特征的特征重要性；

特征x_i在节点n上的重要性，即节点n上的数据划分到其左右子节点n_l和n_r前后的方差变化量：

式中，为特征x_i在节点n上的重要性；

若特征x_i在第k棵决策树中作为节点分割属性出现的节点集合为N，则该特征在这棵决策树上的重要性为：

式中，为特征x_i在第k棵决策树的重要性；

若RF中有K棵树，则特征x_i在整个RF中的重要性为：

式中，IMP_i ^mse为特征x_i在随机森林上的重要性。

进一步地，通过主成分分析法降维，其步骤包括：

设n维向量w是低维映射空间的一个映射向量，则最大化数据映射后其方差公式如下：

式中，m为参与降维的数据个数，w为低维映射空间的一个映射向量，x_i为随机数据i的具体向量表达，为所有参与降维的数据的平均向量；

假定W是包含所有特征映射向量的列向量所组成的矩阵，则该矩阵表示为：

min_wtr(W^TAW),s.t.W^TW＝I (7)

式中，tr为矩阵的迹，W为包含所有特征映射向量的列向量所组成的矩阵，I为单位向量，A为协方差矩阵，表达式如下：

主成分分析法的输出：Y＝WX，最优的W是由协方差矩阵中前k个最大的特征值所对应的特征向量作为列向量构成。

进一步地，在确定降维后的地质主控因素、工程主控因素的权重后，通过各个主控因素与单井产量之间的相关关系，明确各主成分的隶属函数基本形式，包括：

采用偏大型、偏小型、中间型三种隶属函数，建立主控因素隶属度矩阵；利用权重与隶属度矩阵，建立综合评价模糊集；引入评价集合，并利用评价集合与综合评价模糊集数据，建立模糊综合评价模型；利用所建立模糊综合评价模型对主控因素降维的结果进行压裂效果评价，得到了每口井的地质评分、施工评分与总得分，拟合评分与产量的函数曲线，进行主控因素筛选合理性验证。

本发明提供了一种基于机器学习的压裂施工参数优化方法，该方法综合Pearson相关性分析、递归特征消除法、随机森林法进行主控因素筛选，引入主成分降维等方法提高模型精度，同时利用模糊综合评价方法进行主控因素合理性验证，建立了产量预测模型，并引入粒子群优化算法建立施工参数优化模型，提高了计算效率以及优化精度。

附图说明

图1为本发明实施例中地质因素解释方差比率结果图。

图2为本发明实施例中工程因素解释方差比率结果图。

图3为本发明实施例中总得分与千米测试产量拟合关系图。

图4为本发明实施例中总得分与地质得分差值结果图。

具体实施方式

结合附图和本发明具体实施方式的描述，能够更加清楚地了解本发明的细节。但是，在此描述的本发明的具体实施方式，仅用于解释本发明的目的，而不能以任何方式理成是对本发明的限制。在本发明的教导下，技术人员可以构想基于本发明的任意可能的变形，这些都应被视为属于本发明的范围。

在本发明中提出了一种基于岩石破碎块质量分形的可压裂性评价方法，该方法包括以下步骤：

(1)获取影响产量的地质因素以及工程因素；

在一个优选的实施例中，地质因素包括TOC、孔隙度、渗透率、压力系数、脆性指数、储层厚度、最小水平主应力、钻遇率、泥质含量等参数，工程因素包括水平段长度、总液量、总砂量、平均砂比、施工排量、裂缝间距、施工压力、停泵压力、平均砂比、陶粒用量、压裂液返排率等参数。

在得到影响产量的地质因素和工程因素后，利用皮尔逊相关分析法来研究数据之间的关系情况，以确定数据之间是否有关系，以及关系强度如何，通过相关系数的大小可以度量相关关系的强度。

相关系数的计算方法如下：

是计算a、b两个因素数据序列的协方差，是计算a、b两个因素数据序列的标准差。

在具体选择机器学习算法时，本领域技术人员可以结合数据的特点以及对应算法的特点选择至少一种机器学习算法。在本发明优选的一个实施例中，机器学习算法可以选取随机森林、人工神经网络、支持向量机三种方法中的至少一种方法。

其中，随机森林进行各个因素重要性度量时主要以方差作为不纯度进行后续特征重要度计算。

基于方差的特征重要性度量，第i个结点的方差计算为：

式中，mse(i)表示方差，D_i示第i个结点上的数据集，x_j表示i结点数据集上的一条数据，y_j表示x_j对应的标签，c_i表示D_i数据集标签的平均值。

设表示第i个特征在RF所有决策树节点上方差的平均改变量，也即第i个特征的特征重要性。

式中，为特征x_i在节点n上的重要性。

式中，为特征x_i在第k棵决策树的重要性。

若RF中有K棵树，则特征x_i在整个RF中的重要性为：

式中，为特征x_i在随机森林上的重要性。

通过主成分分析法降维，将多个具有相关性的因素整合为线性不相关的主成分，利用各个主控因素之间的相关关系，用降维后较少的主成分代替原来众多因素，并使这些主成分尽可能多地保留原来因素所反映的信息，使问题得以简化。其计算步骤如下：

设n维向量w是低维映射空间的一个映射向量，则经过最大化数据映射后其方差公式如下：

式中，m是参与降维的数据个数，w是低维映射空间的一个映射向量，x_i是随机数据i的具体向量表达，是所有参与降维的数据的平均向量。

假定W是包含所有特征映射向量的列向量所组成的矩阵，该矩阵可以较好地保留数据中的信息，该矩阵如下：

min_wtr(W^TAW),s.t.W^TW＝I (7)

式中，tr是矩阵的迹，W是包含所有特征映射向量的列向量所组成的矩阵，I为单位向量，A是协方差矩阵，表达式如下：

主成分分析法的输出：Y＝WX，最优的W是由协方差矩阵中前k个最大的特征值所对应的特征向量作为列向量构成，通过该过程将X的原始维度降低到了k维。

在确定降维后的地质主控因素、工程主控因素的权重后，通过各个主控因素与单井产量之间的相关关系，明确各主成分的隶属函数基本形式。

在一个优选的实施例中，可以采用偏大型、偏小型、中间型三种隶属函数，建立主控因素隶属度矩阵。利用权重与隶属度矩阵，建立综合评价模糊集；引入评价集合，并利用评价集合与综合评价模糊集数据，建立模糊综合评价模型；利用所建立模糊综合评价模型对主控因素降维的结果进行压裂效果评价，得到了每口井的地质评分、施工评分与总得分，拟合评分与产量的函数曲线，进行主控因素筛选合理性验证。

具体地，模糊综合评价步骤如下：

(1)建立评价因素集素是参与影响压裂井产量的评价指标，在压裂井产量评价中，因素集就是参与评价井n个主成分组成的模糊子集，记成F＝(F₁F₂,……,F_n)。

(2)建立评价集

评价集合v＝(v₁,v₂,…,v_n)，v是一个全序集，即对v中任意两个评语之间存在的等级差别。v是F中评价因子相应的评价标准集合。在压裂井产量评价中，v是各个评价因素相应的产量等级(I级、II级、III级以及IV级)的集合，本文中v＝[100，75，50，25]。

(3)评价因素的模糊权向量

通常各因素对评价结果的重要程度不同，因此需要对每个因素F_i赋予一个相应的权重w_i(i＝1，2，3，......，n)从而构成权重集W。准确量化指标的权重确定将会直接影响量化结果，这里引入熵权法确定权重，接着采用启发式自动搜索的方式，进一步优化权重，得到权重矩阵W。

在一个优选的实施例中，可以选取熵权法赋权，其基本步骤如下：

设m个评价指标n个评价对象得到的原始数据矩阵为：

式中，X为原始数据矩阵，x_ij为原始数据中第i类型第j个参数数据。

对于大着为优的收益指标而言：

对于小者为优的成本性指标而言：

式中，r_ij第j个评价对象在第i个评价指标上的标准值，r_ij∈[0,1]。

该矩阵标准化可得：

R＝(r_ij)_m*n (12)

式中，R为X矩阵的标准化矩阵。

在有m个评价指标，n个评价对象的评价问题中，第i个指标的熵定义为：

式中，当f_ij＝0时，令f_ijln f_ij＝0。

定义了第i个指标的熵之后，第i个指标的熵权定义为：

式中：

在一个优选的实施例中，为进一步增加权重系数的合理性，降低模型预测误差，在熵权法权重系数的基础之上，进一步采用启发式自动搜索方法进行权重优化，以获取最佳权重系数，其步骤为：

(a)确定初始权重，再设置步长因子以及浮动范围(一般可以选取±10％)；

(b)依次调整参数权重，并更新剩余权重，若模型误差更小，则按该变化方向继续调整权重；若误差变大，则权重回退至上一步；直至所有参数权重都调整完后算作一轮，记录此时的模型误差；重复进行若干轮调整，当模型误差连续10次不变后结束当前步长因子的调整；

(c)将优化步长因子减半，重复步骤(b)，当权重调整减小到一定程度则终止算法(可选取为0.01/2¹⁰)，此时权重为最优权重，得到的模型平均相对误差最小。

(4)确定单因素评价矩阵

确定隶属函数，根据各评价因素相应的储层质量等级(可以分为I级、II级、III级、IV级)，综合模糊统计法和指派方法确定隶属函数，选取了偏大型、偏小型、中间型三种隶属函数形式。

为便于本领域技术人员对本发明技术方案的进一步理解，结合油田的具体应用对本发明进行阐释。

基于区块样本井的基础参数，利用式(1)-(5)通过Pearson相关性分析、递归特征消除法、随机森林法综合筛选即可得到样本井中的地质、工程主控因素，其结果如表1所示：

表1主控因素筛选结果

引入主成分降维方法，利用式(6)、(7)、(8)对样本井进行降维处理，其结果如图1-2所示。针对地质特征，前5项主成分的信息累计占比达89.7％，一般信息累计占比达到80％就能够接受，因此选择5项主成分代替原始10项特征。针对工程特征，前4项主成分的信息累计占比达87.9％，因此选择4项主成分代替原始10项特征。降维后的地质、工程因素解释方差比率如图1-2所示，地质、工程因素特征矩阵如表2-3所示，将样本井主控因素数据代入地质、工程因素特征矩阵得到的不同井的降维结果如表4所示。

表2地质因素特征矩阵

,表3工程因素特征矩阵

原始特征	主成分1系数	主成分2系数	主成分3系数	主成分4系数
					龙一11钻遇率	-0.25	-0.05	-0.72	-0.24
龙一11底以上4米箱体钻遇率	-0.40	-0.28	-0.01	-0.18
					井筒井距	0.29	0.31	-0.33	0.35
井筒方位	-0.04	0.44	0.35	-0.68
					平均段长	-0.27	0.44	0.30	0.32
平均簇间距	0.43	0.00	0.04	-0.05
					总用液强度	0.35	0.01	-0.15	-0.46
总加砂强度	-0.40	0.21	0.00	0.02
					陶粒比例	0.08	-0.62	0.37	0.03
排量	-0.39	-0.14	-0.04	-0.03

表4地质、工程主控因素降维结果

引入模糊综合评价方法，进行筛选出的主控因素的合理性验证，样本井得分结果如表5所示，从表5可以看出，得分与产量呈正相关关系，表明筛选出的主控因素是合理的。

表5样本井模糊评价结果

基于样本井降维后的数据，采用三种机器学***均相对误差仅17.6％，因此优选支持向量回归模型作为该井千米测试产量的预测模型。

表6机器学习产能预测模型对比

采用粒子群优化算法对该井开展施工参数智能优化，初始粒子为200个，迭代次数2000次，学***均段长90m、平均簇间距10m、总用液强度26m³/m、总加砂强度2.8t/m、排量14m³/min，对应千米测试产量为12.8×10⁴m³/d·km，较原始产能水平提升29.6％。

表7优化得到的产量排名前5的方案

本发明综合Pearson相关性分析、递归特征消除法、随机森林法进行主控因素筛选，引入主成分降维等方法提高模型精度，同时利用模糊综合评价方法进行主控因素合理性验证，基于机器学习方法建立产量预测模型，并引入粒子群优化算法建立施工参数优化模型，相比现有技术提高了计算效率以及优化精度。

以上通过实施例对本发明进行具体描述，有必要在此指出的是，本实施例仅是本发明的优选实施例，并非对本发明作任何限制，也并非局限于本文所披露的形式，不应看作是对其他实施例的排除。而本领域人员所进行的改动和简单变化不脱离本发明技术思想和范围，则均属于本发明技术方案的保护范围内。

Claims

1.一种基于机器学习的压裂施工参数优化方法，其特征在于，包括以下步骤：

(1)获取影响产量的地质因素以及工程因素；

2.根据权利要求1所述的基于机器学***主应力、钻遇率、泥质含量。

3.根据权利要求1所述的基于机器学***段长度、总液量、总砂量、平均砂比、施工排量、裂缝间距、施工压力、停泵压力、平均砂比、陶粒用量、压裂液返排率。

4.根据权利要求1所述的基于机器学习的压裂施工参数优化方法，其特征在于，所述步骤(2)中还包括利用皮尔逊相关分析法确定各个地质因素以及工程因素之间的相关性，其确定方法为：

计算相关系数

5.根据权利要求1所述的基于机器学习的压裂施工参数优化方法，其特征在于，机器学习算法为随机森林、人工神经网络、支持向量机三种方法中的至少一种。

6.根据权利要求1所述的基于机器学习的压裂施工参数优化方法，其特征在于，随机森林法的步骤包括：

基于方差的特征重要性度量，第i个结点的方差计算为：

式中，为特征x_i在节点n上的重要性；

式中，为特征x_i在第k棵决策树的重要性；

若RF中有K棵树，则特征x_i在整个RF中的重要性为：

式中，为特征x_i在随机森林上的重要性。

7.根据权利要求1所述的基于机器学习的压裂施工参数优化方法，其特征在于，通过主成分分析法降维，其步骤包括：

min_wtr(W^TAW),s.t.W^TW＝I (7)

8.根据权利要求1所述的基于机器学习的压裂施工参数优化方法，其特征在于，

在确定降维后的地质主控因素、工程主控因素的权重后，通过各个主控因素与单井产量之间的相关关系，明确各主成分的隶属函数基本形式，包括：