CN113537585B

CN113537585B - 基于随机森林和梯度提升决策树的油田增产措施推荐方法

Info

Publication number: CN113537585B
Application number: CN202110780292.5A
Authority: CN
Inventors: 李云鹏; 林杨; 李金蔓; 安创锋; 霍宏博; 李�权; 田永刚; 詹燕民; 牛永胜; 陈维汉; 钱黎庆; 曹新龙
Original assignee: CNOOC China Ltd Tianjin Branch
Current assignee: CNOOC China Ltd Tianjin Branch
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-04-07
Anticipated expiration: 2041-07-09
Also published as: CN113537585A

Abstract

一种基于随机森林和梯度提升决策树的油田增产措施推荐方法，包括：收集历史数据，并以增产措施实施时刻为分界分为实施数据集和实施效果数据集；对历史上各增产措施下的实施数据集进行数据预处理，包括：数据清洗、计算恢复比例、添加增产措施效果分类标签和训练集、测试集采样；分别从训练集和测试集中筛选出重要特征参数；构建及训练实施效果分类预测模型；向增产措施推荐可增产的生产井。本发明实现了有效增产措施下的生产井的推荐，最大程度地确保推荐措施实施成功，从技术上突破了目前难以支持多维度综合分析来实现增产的技术难点，给出可靠、有效的推荐措施来指导海上油田增产，促进了增产智能化，保障了生产井安全、稳定、高效运行。

Description

基于随机森林和梯度提升决策树的油田增产措施推荐方法

技术领域

本发明涉及一种海上油田增产措施推荐的方法。特别是涉及一种基于随机森林和梯度提升决策树的油田增产措施推荐方法。

背景技术

海上油田的开采特点和要求是安全、快速、经济和高效。由于目前海上油田类型多，储层条件复杂，敏感性强，在前期钻井、生产过程中油井容易造成伤害而严重影响产能，如限于注入水流程短、处理能力有限的影响，注入水水质普遍较差，导致注水井容易堵塞，不得不进行多轮次解堵，甚至严重制约了海上油田的快速开采和效益提升。

海上油田增产措施是降低综合递减率的重要手段，增产措施是确保海上油田稳定高效开采、提高产量、降低综合递减率的有力技术手段，科学的措施推荐可最大程度地保证措施实施成功。目前海上油田的增产措施推荐方法还仅仅停留在对油藏类型、流体性质、储层物性等几个单因素分析、对比的基础之上，无法对地层、井筒、措施设计等多维度进行综合分析，给出更加可靠、有效的推荐措施来指导海上油田增产。

因此，现有的海上油田增产措施手段已经无法满足高效增产的需求。

发明内容

本发明所要解决的技术问题是，提供一种综合考虑了地层、井筒、措施设计等多方面参数对推荐措施的影响，能够为海上油田增产措施推荐提供有效指导的的基于随机森林和梯度提升决策树的油田增产措施推荐方法。

本发明所采用的技术方案是：一种基于随机森林和梯度提升决策树的油田增产措施推荐方法，包括如下步骤：

1)收集历史数据，并以增产措施实施时刻为分界分为实施数据集和实施效果数据集；

2)对历史上各增产措施下的实施数据集进行数据预处理，包括：数据清洗、计算恢复比例、添加增产措施效果分类标签和训练集、测试集采样；

3)分别从训练集和测试集中筛选出重要特征参数；

4)构建及训练实施效果分类预测模型；

5)向增产措施推荐可增产的生产井。

本发明的基于随机森林和梯度提升决策树的油田增产措施推荐方法，鉴于海上油田自身特点的限制，借助大数据机器学习算法挖掘生产井地层、井筒、实施设计等维度的参数和特有增产措施间的关联关系，实现了有效增产措施下的生产井的推荐，最大程度地确保推荐措施实施成功，从技术上突破了目前难以支持多维度综合分析来实现增产的技术难点，给出可靠、有效的推荐措施来指导海上油田增产，促进了增产智能化，保障了生产井安全、稳定、高效运行。

附图说明

图1是本发明的基于随机森林和梯度提升决策树的油田增产措施推荐方法的流程图；

图2是随机森林模型和梯度提升决策树模型在增产措施准确率的对比。

具体实施方式

下面结合实施例和附图对本发明的基于随机森林和梯度提升决策树的油田增产措施推荐方法做出详细说明。

本发明的基于随机森林和梯度提升决策树的油田增产措施推荐方法，是采用随机森林模型和梯度提升决策树模型对增产措施实施后的有效等级进行预测，并将两种模型的预测结论进行比较，启动裁决机制，将可靠的增产措施方案推送给相应的生产井，具体步骤如下：

如图1所示，本发明的基于随机森林和梯度提升决策树的油田增产措施推荐方法，包括如下步骤：

1)收集历史数据，并以增产措施实施时刻为分界分为实施数据集和实施效果数据集；包括：

收集历史上实施过增产措施的全部数据，按增产措施内容将数据分割，分割后的每一部分只包含同一种增产措施实施前后的数据，再以增产措施实施时刻为分界，将每一部分数据一分为二，截取增产措施实施点之前的数据作为实施数据集，应用于模型训练和测试；截取增产措施实施点之后的数据作为实施效果数据集，应用于生产井恢复比例的计算。

2)对历史上各增产措施下的实施数据集进行数据预处理，包括：数据清洗、计算恢复比例、添加增产措施效果分类标签和训练集、测试集采样；其中，

(2.1)所述的数据清洗中：待清洗数据分四类：

(2.1.1)地层，包括：地层层位、地层压力、泥质含量、钙质含量、油层厚度、渗透率、电阻率、孔隙度和粘度的信息；

(2.1.2)井筒，包括：注水层段和封隔器类型的信息；

(2.1.3)增产措施设计，包括：酸液名称、酸液浓度、酸液每米用量、辅助剂名称和施工压力的信息；

(2.1.4)生产状态，分为：酸化措施有：注入量和注入压力；有机解堵措施有：产液量和井底流压；复合解堵措施有：产液量和井底流压；

数据清洗内容包括存在错误值和缺失值的记录，其中，错误值是指原始数据中无法从业务上做出合理解释的值，产生原因是读取、传输或录入过程中出现错误所致，例如样本数据的措施前注入压力为0MPa与实际不符，这类数据会影响模型准确性；缺失值是指数据的某些记录中存在某些参数丢失的现象，这类数据无法应用于模型，会导致模型报错；数据清洗的措施就是删除找出的错误值和缺失值的记录。

(2.2)所述的计算恢复比例：借助清洗过的实施数据集以及实施效果数据集，计算实施点前、后的米吸水指数，并推算出清洗后的实施数据集中所有记录的恢复比例，恢复比例是用来评估的增产措施实施前后有效程度的指标，值越大表示增产施措的效果越明显；其中，

(2.2.1)针对水井的酸化措施计算恢复比例的计算公式如下：

(2.2.2)针对油井的有机解堵措施、复合解堵措施计算恢复比例计算公式如下：

(2.3)所述的添加增产措施效果分类标签，是按恢复比例值的大小顺序将清洗后的实施数据集划分为差、中、好三类，并给每一条数据贴上差、中、好标签，用来表示实施相应增产措施后的有效等级，即增产措施效果分类标签；具体划分标准如下：

恢复比例值在[0，0.3)的，增产措施有效等级为差；恢复比例值在[0.3，0.6)的，增产措施有效等级为中；恢复比例值在[0.6，1]的增产措施有效等级为好。如表1所示。

表1

恢复比例	增产措施有效等级
		[0，0.3)	差
[0.3，0.6)	中
		[0.6，1]	好

(2.4)所述的训练集、测试集采样：是采用随机采样的方法，从清洗后的实施数据集中随机抽取70％的数据构成训练集，剩余30％的数据作为测试集，所述的训练集和测试集均包括特征参数和恢复比例，特征参数是地层、井筒、措施设计中的所有参数。

3)分别从训练集和测试集中筛选出重要特征参数；

特征参数筛选的目的是舍弃掉训练数据中的冗余特征，降低了干扰因素，使筛选后的特征指标体系更具代表性，从而有效地提高分类的精度。随机森林模型的训练过程可计算特征参数的重要性，可按重要性阈值或指标数量来筛选重要参数。随机森林特征选择的原理是：依次对每个特征赋予一个噪声干扰，观察算法性能的变化，如果变化大，则说明该特征重要，给每个特征赋予一个分数，用来记录该特征的重要性，分数越大则特征越重要，因此，可以根据特征重要性排序，选择最佳特征。

所述的分别从训练集和测试集中筛选出重要特征参数，包括：

将训练集输入随机森林模型，对随机森林模型进行训练，所述的训练集包括特征参数和恢复比例，其中特征参数是指地层、井筒、措施设计中的所有参数，恢复比例用作随机森林模型特征提取的目标参数；随机森林模型输出全部特征参数的重要性值，所述全部特征参数的重要性值域为(0,1]，重要性的值越大，所对应的特征参数和目标参数相关性越强，即越重要；按特征参数重要性对特征参数进行排序，选取重要性值排在前五位的特征参数值作为最终筛选出的重要特征参数，参与实施效果分类预测模型训练；

对测试集进行重要特征参数筛选：从测试集中选取与训练集中筛选出的五个重要特征参数相同的参数作为测试集的重要特征参数，参与实施效果分类预测模型的效果验证。

4)构建及训练实施效果分类预测模型，实施效果分类预测模型应用目的是将增产措施推荐给符合相应增产特征的生产井；该步骤包括：

(4.1)构建实施效果分类预测模型，所述的实施效果分类预测模型是由随机森林模型和梯度提升决策树模型两部分构成，这两个模型均属于集成学习范畴，特点是通过弱学习器组合提升成强学习器，弱学习器一般是决策树，但随机森林和梯度提升决策树的弱学习器的组合方式不同，分别采用了Boosting和Bagging算法进行组合。其中，

(4.1.1)对随机森林模型设置构建参数：

(a1)CART树划分对特征的评价标准为基尼系数；

(b1)决策树的最大深度5；

(c1)采用袋外误差来评估模型；

(4.1.2)对梯度提升决策树模型设置构建参数：

(a2)弱学习器的最大迭代次数为100；

(b2)损失函数采用对数似然函数；

(c2)决策树的最大深度5；

(4.2)采用特征提取后的训练集分别对构建的随机森林模型和梯度提升决策树模型进行训练，所述的特征提取后的训练集包括重要特征参数和增产措施效果分类标签，所述的增产措施效果分类标签即是得到的增产措施有效等级，增产措施效果分类标签用作随机森林模型和梯度提升决策树模型实施效果分类的目标参数；

(4.3)完成对随机森林模型和梯度提升决策树模型的训练后，再分别向训练好的随机森林模型和梯度提升决策树模型输入特征提取后的测试集，输出预测增产措施效果分类标签，完成对随机森林模型和梯度提升决策树模型预测效果的验证，保存验证后满足准确率要求的随机森林模型和梯度提升决策树模型训练成果，所述的准确率通过测试集的预测增产措施效果分类标签、增产措施效果分类标签构成的混淆矩阵来计算。

5)向增产措施推荐可增产的生产井；包括：

(5.1)从待预测集中筛选重要特征参数：从待预测集中选取与训练集中筛选出的五个重要特征参数相同的参数作为待预测集的重要特征参数，参与实施效果分类预测模型的应用；

(5.2)将从待预测集中选取的五个重要特征参数分别输入训练好的实施效果分类预测模型中的随机森林模型和梯度提升决策树模型，预测各生产井在当前增产措施下的实施效果；如果实施效果分类预测模型的实施效果均为好，则向该生产井推送这个增产措施，指导生产井增产，否则，不推送。表2所示

表2

Claims

1.一种基于随机森林和梯度提升决策树的油田增产措施推荐方法，其特征在于，包括如下步骤：

收集历史上实施过增产措施的全部数据，按增产措施内容将数据分割，分割后的每一部分只包含同一种增产措施实施前后的数据，再以增产措施实施时刻为分界，将每一部分数据一分为二，截取增产措施实施点之前的数据作为实施数据集，应用于模型训练和测试；截取增产措施实施点之后的数据作为实施效果数据集，应用于生产井恢复比例的计算

(1)所述的数据清洗中：待清洗数据分四类：

(1.1)地层，包括：地层层位、地层压力、泥质含量、钙质含量、油层厚度、渗透率、电阻率、孔隙度和粘度的信息；

(1.2)井筒，包括：注水层段和封隔器类型的信息；

(1.3)增产措施设计，包括：酸液名称、酸液浓度、酸液每米用量、辅助剂名称和施工压力的信息；

(1.4)生产状态，分为：酸化措施有：注入量和注入压力；有机解堵措施有：产液量和井底流压；复合解堵措施有：产液量和井底流压；

(2)所述的计算恢复比例：借助清洗过的实施数据集以及实施效果数据集，计算实施点前、后的米吸水指数，并推算出清洗后的实施数据集中所有记录的恢复比例；其中，

针对水井的酸化措施计算恢复比例的计算公式如下：

针对油井的有机解堵措施、复合解堵措施计算恢复比例计算公式如下：

(3)所述的添加增产措施效果分类标签，是按恢复比例值的大小顺序将清洗后的实施数据集划分为差、中、好三类，并给每一条数据贴上差、中、好标签，用来表示实施相应增产措施后的有效等级，即增产措施效果分类标签；具体划分标准如下：

恢复比例值在[0，0.3)的，增产措施有效等级为差；恢复比例值在[0.3，0.6)的，增产措施有效等级为中；恢复比例值在[0.6，1]的增产措施有效等级为好；

3)分别从训练集和测试集中筛选出重要特征参数；包括：

对测试集进行重要特征参数筛选：从测试集中选取与训练集中筛选出的五个重要特征参数相同的参数作为测试集的重要特征参数，参与实施效果分类预测模型的效果验证；

4)构建及训练实施效果分类预测模型，所述的实施效果分类预测模型是由随机森林模型和梯度提升决策树模型两部分构成；包括：

(4.1)构建由随机森林模型和梯度提升决策树模型两部分构成实施效果分类预测模型，其中，

(4.1.1)对随机森林模型设置构建参数：

(a1)CART树划分对特征的评价标准为基尼系数；

(b1)决策树的最大深度5；

(c1)采用袋外误差来评估模型；

(4.1.2)对梯度提升决策树模型设置构建参数：

(a2)弱学习器的最大迭代次数为100；

(b2)损失函数采用对数似然函数；

(c2)决策树的最大深度5；

(4.3)完成对随机森林模型和梯度提升决策树模型的训练后，再分别向训练好的随机森林模型和梯度提升决策树模型输入特征提取后的测试集，输出预测增产措施效果分类标签，完成对随机森林模型和梯度提升决策树模型预测效果的验证，保存验证后满足准确率要求的随机森林模型和梯度提升决策树模型训练成果，所述的准确率通过测试集的预测增产措施效果分类标签、增产措施效果分类标签构成的混淆矩阵来计算；

5)向增产措施推荐可增产的生产井；包括：

(5.2)将从待预测集中选取的五个重要特征参数分别输入训练好的实施效果分类预测模型中的随机森林模型和梯度提升决策树模型，预测各生产井在当前增产措施下的实施效果；如果实施效果分类预测模型的实施效果均为好，则向该生产井推送这个增产措施，指导生产井增产，否则，不推送。

2.根据权利要求1所述的基于随机森林和梯度提升决策树的油田增产措施推荐方法，其特征在于，步骤2)中，数据清洗内容包括存在错误值和缺失值的记录，其中，错误值是指原始数据中无法从业务上做出合理解释的值，产生原因是读取、传输或录入过程中出现错误所致；缺失值是指数据的某些记录中存在某些参数丢失的现象，这类数据无法应用于模型，会导致模型报错；数据清洗的措施就是删除找出的错误值和缺失值的记录。

3.根据权利要求1所述的基于随机森林和梯度提升决策树的油田增产措施推荐方法，其特征在于，步骤2)所述的训练集、测试集采样：是采用随机采样的方法，从清洗后的实施数据集中随机抽取70％的数据构成训练集，剩余30％的数据作为测试集，所述的训练集和测试集均包括特征参数和恢复比例，特征参数是地层、井筒、措施设计中的所有参数。