CN113887049A - 一种基于机器学习的石油钻井的钻速预测方法及*** - Google Patents
一种基于机器学习的石油钻井的钻速预测方法及*** Download PDFInfo
- Publication number
- CN113887049A CN113887049A CN202111169751.2A CN202111169751A CN113887049A CN 113887049 A CN113887049 A CN 113887049A CN 202111169751 A CN202111169751 A CN 202111169751A CN 113887049 A CN113887049 A CN 113887049A
- Authority
- CN
- China
- Prior art keywords
- drilling
- data
- prediction model
- data set
- drilling speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于机器学习的石油钻井的钻速预测方法及***,包括以下步骤:采集若干组石油钻井的全过程数据;对所述全过程数据进行预处理,获取钻速分段预测模型的样本数据,随机划分为训练数据集和测试数据集;构建所述钻速分段预测模型,利用所述训练数据集对所述钻速分段预测模型进行训练,得到训练后的钻速分段预测模型;利用所述训练后的钻速分段预测模型对所述测试数据集进行钻速预测。本发明使用方法原理可靠,操作简便,能够提高钻井效率,缩短钻井周期,降低钻井成本,从而大幅提高油气资源的开发效率,具有广阔的市场应用前景。
Description
技术领域
本发明涉及石油勘探的钻速预测技术领域,特别是涉及一种基于机器学习的石油钻井的钻速预测方法及***。
背景技术
石油是重要能源,同煤相比,具有能量密度大、运输储存方便、燃烧后对大气的污染程度较小等优点。从石油中提炼的燃料油是运输工具、电站锅炉、冶金工业和建筑材料工业各种窑炉的主要燃料。以石油为原料的液化气和管道煤气是城市居民生活应用的优质燃料。
石油钻井工程在油气田开发中,有着十分重要的地位,在建设一个油气田中,钻井工程往往要占总投资的50%以上。改进钻井技术和管理,提高钻井速度,是降低钻井成本的关键。对于石油钻井的钻速预测一直以来是石油钻井工程中的研究热点。钻头的机械钻速与钻头结构、所钻岩层性质、钻井液性能、钻进参数(如钻压、转速、水力参数等)和钻具组合等有关。较好地预测机械钻速,可以预测钻并成本和钻进时间,从而指导钻井生产、合理安排钻机和工作人员,为管理者提供依据。钻井机械钻速预测研究大体经历了如下阶段:1)用现场数据直接统计出钻速方程;2)考虑所钻地层性质和钻头结构的钻速方程。钻速方程所含的系数随着钻井参数或地层的变化而变化,并且难以确定,使其应用受到了局限。并且随着钻井数据的急速增长,大量的统计和待定系数的不确定性导致了传统的通过公式计算机械钻速的方法准确度大大降低。
发明内容
本发明的目的是提供一种基于机器学习的石油钻井的钻速预测方法,以解决上述现有技术存在的问题,使用方法原理可靠,操作简便,能够提高钻井效率,缩短钻井周期,降低钻井成本,从而大幅提高油气资源的开发效率,具有广阔的市场应用前景。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于机器学习的石油钻井的钻速预测方法,其特征在于,包括以下步骤:
采集若干组石油钻井的全过程数据;
对所述全过程数据进行预处理,获取钻速分段预测模型的样本数据,随机划分为训练数据集和测试数据集;
构建所述钻速分段预测模型,利用所述训练数据集对所述钻速分段预测模型进行训练,得到训练后的钻速分段预测模型;
利用所述训练后的钻速分段预测模型对所述测试数据集进行钻速预测。
可选地,所述全过程数据包括钻井过程的动态指标和静态指标。
可选地,对所述全过程数据进行预处理包括:
对若干组所述全过程数据根据专家经验进行筛选,选择一组所述全过程数据作为目标全过程数据;
对所述目标全过程数据进行清洗,去除所述静态指标和所述动态指标中的噪音数据;
对清洗后的所述目标全过程数据中离群点数据进行删除,并按照钻井阶段进行分类,获得分阶段钻井数据;
对所述分阶段钻井数据进行归一化处理;
对归一化后的所述分阶段钻井数据进行划分,获得所述训练数据集和所述测试数据集,其中,所述训练数据集和所述测试数据集与所述钻井阶段相对应。
可选地,对清洗后的所述目标全过程数据中离群点数据进行删除包括:
将所述清洗后的所述目标全过程数据进行聚类,对清洗后的所述目标全过程数据中的离群点数据进行第一次检测,获取第一阶段离群点数据,删除所述第一阶段离群点数据;
利用Elliptic Envelope方法对剩余所述清洗后的所述目标全过程数据进行第二次检测,获取第二阶段离群点数据,删除所述第二阶段离群点数据。
可选地,对所述分阶段钻井数据进行归一化处理采用Z-score标准化方法。
可选地,所述钻速分段预测模型采用深度全连接神经网络。
可选地,所述钻速分段预测模型采用Paddle Paddle框架构建,包括输入层、隐藏层和输出层,所述隐藏层使用的激活函数是Sigmoid函数,所述输出层采用tanh函数,损失函数采用均方误差。
可选地,所述钻速分段预测模型采用Adam算法进行优化训练。
还提供一种基于机器学习的石油钻井的钻速预测***,包括数据采集模块、数据预处理模块和钻速预测模块,
所述数据采集模块,用于采集若干组石油钻井的全过程数据;
所述数据预处理模块,用于对所述全过程数据进行预处理,获取钻速分段预测模型的样本数据,随机划分为训练数据集和测试数据集;
所述钻速预测模块,用于构建所述钻速分段预测模型,利用所述训练数据集对所述钻速分段预测模型进行训练,得到训练后的钻速分段预测模型,利用所述训练后的钻速分段预测模型对所述测试数据集进行钻速预测。
本发明公开了以下技术效果:
本发明提供的一种基于机器学习的石油钻井的钻速预测方法及***,采集石油钻井的全过程数据进行二阶段清洗,离群点处理,并按照钻进过程对前期处理后的数据进行归一化处理,保证了预测模型建立时的数据正确性,采用分段预测模型对不同钻进过程进行钻速预测,能够准确预测每个钻进阶段的钻速预测,并且本发明中的分段预测模型收敛速度快且误差小,大大提升了钻速预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于机器学习的石油钻井的钻速预测方法流程示意图;
图2为本发明实施例中基于机器学习的石油钻井的钻速预测***结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供一种基于机器学习的石油钻井的钻速预测方法,如图1所示,包括以下步骤:
S1、采集若干组石油钻井的全过程数据。
石油钻井是一个***的工程,前期勘探工作完成后,开始钻井工作。在实际钻井过程是分阶段进行的。通常,钻井过程以“开”为单位,随着钻进过程的不断深入,将整个钻井过程分为N开,如分为一开、二开、三开、四开、五开共五个阶段。全过程数据则是要采集所有分阶段的钻井数据。
S2、对全过程数据进行预处理,获取钻速分段预测模型的样本数据,随机划分为训练数据集和测试数据集。
全过程数据包括钻井过程的动态指标和静态指标。动态指标是在钻井过程中会随着进程不断变化并对钻进速度产生影响的数据,静态指标则是由环境等客观因素造成的,在分阶段钻井过程中或者某个时间段并不会产生变化的数据。
对全过程数据进行预处理包括以下步骤:
S201、对若干组全过程数据根据专家经验进行筛选,选择一组全过程数据作为目标全过程数据;
在石油钻井过程中,由于地理位置的影响,最造成多口井之间差别较大,会造成后期模型训练过程中由于数据差别较大,数据的过度拟合从而影响预测结果,因此,需要在多组全过程数据进行筛选,选择其中的一组数据作为进行模型训练的基础数据,即目标全过程数据。这一过程需要结合专家经验进行筛选,选择合适的一组数据。
S202、对目标全过程数据进行清洗,去除静态指标和动态指标中的噪音数据;
目标全过程数据中的静态指标存在残缺严重、需要数据人员进行手动填写,并且多为文本数据,难以量化,因此进行删除。静态指标包括但不限于钻头种类、地质情况。
还需要删除在整个钻井过程中都没有发生变化的特征及其对应的数据,例如在整个钻井过程中都为0或都为999的特征参数,然后,删除钻压为0的连续样本点。通过钻压参数可以表征当前时刻是否处于钻进状态中。根据己有的经验,钻进过程是分阶段间歇性进行的,如果有大量连续样本钻压均为0表示在这一段时间内钻机并未处于钻进状态,即钻机处于停钻或者出现工矿故障。如果模型输入数据中包含大量的钻压为0的数据,必然会影响模型对在钻时数据的拟合,进而影响在钻时刻钻速预测的准确度。
经过清洗后的目标全过程数据形成以9类动态指标为基础的9维数据。
S203、对清洗后的所述目标全过程数据中离群点数据进行删除,并按照钻井阶段进行分类,获得分阶段钻井数据;
离群点通常是指与其他样本点相距较远、显著偏离其他数据点的样本。利用经过数据清洗之后的钻速数据单独提取出来,绘制其关于各个样本点的分布图,在分布上,正常样本通常较为密集地分布于一小块区域,而离群点则通常远离正常样本分布,且分布较为稀疏。
首先将清洗后的目标全过程数据进行聚类,对清洗后的目标全过程数据中的离群点数据进行第一次检测,该检测过程为:将聚类数量设置为3,使用常用的K-means算法进行聚类,将阈值设置为2,将聚类数据进行离群点标记,获取第一阶段离群点数据,删除所述第一阶段离群点数据;
利用Elliptic Envelope方法对已经删除第一阶段离群点数据后的目标全过程数据进行第二次离群点数据检测,以删除第一阶段离群点数据后的目标全过程数据中的密集地为中心,利用Elliptic Envelope学习获取数据椭圆,椭圆范围外的数据即为第二阶段离群点数据,删除第二阶段离群点数据。
经过两个阶段的离群点数据检测并删后,将最终获得目标全过程数据按照钻井阶段进行分类,获得分阶段钻井数据。
S204、对分阶段钻井数据进行归一化处理;
对于钻井数据,经过离群点处理后,虽然在一定程度上去除了数据中的极端值,但不排除部分特征仍存在区间跨度大等问题,因此,需要对每个特征的数据进行归一化。在本实施例中,采用方法Z-score(0均值标准化法)进行归一化处理。
首先计算数据的平均值和标准差,然后进行0均值、单位方差的变换。这种变换并不保证数据都在[01]之间。计算方法如式1所示:
其中,μ表示数据的平均值,σ表示数据的标准差,xnew为归一化后的数值,x为钻井特征数据。与最大-最小值变换法不同,该方法用到了所有数据的信息。该方法比较适用于数据近似于高斯分布的情况,以及后续可能会使用距离来对相似性进行度量的情况。
S205、对归一化后的分阶段钻井数据进行划分,获得训练数据集和测试数据集,其中,训练数据集和测试数据集与钻井阶段相对应。
为保证后期预测模型的准确性,训练数据集和测试数据集也需要根据钻井阶段进行划分,即每个阶段的预测模型使用对应阶段的训练数据集和测试数据集,例如,训练2开过程的钻速预测模型就要利用采集的2开过程的钻速数据所划分的训练数据集和测试数据集。
S3、构建钻速分段预测模型,利用训练数据集对钻速分段预测模型进行训练,得到训练后的钻速分段预测模型;
本实施例中,钻速分段预测模型采用Paddle Paddle框架构建深度全连接神经网络,钻速分段预测模型包括输入层、隐藏层和输出层,以经过预处理后的钻速数据作为输入层的输入,该钻速数据包括9类动态指标,由于全连接神经网络是对钻机的钻速进行预测,最终输出为钻速值,所以确定输出层的神经元个数取1。
本文采用试错法并结合Hecht-Nielsen理论确定隐藏层的层数和隐藏层神经元的数量,经过反复实验,最终确定隐藏层的层数为3,每层神经元的个数分别为8、32、64。隐藏层使用的激活函数是Sigmoid函数,输出层采用tanh函数。采用Adam优化学习算法对模型进行训练。经过多轮调试,最终确定最优学习率都取0.01,δ采用默认值1×10-8,P1和P2分别取0.9和0.99。在训练过程中,训练采用双层循环,内层循环设置batch-size为10,即每次迭代随机抽取10组样本数据更新参数;网络外层循环epoch-num取100,即进行100轮训练。
损失函数为均方误差,对钻速分段预测模型进行优化,得到训练好的钻速分段预测模型。
S4、利用训练后的钻速分段预测模型对测试数据集进行钻速预测。
还提供了一种基于机器学习的石油钻井的钻速预测***,如图2所示,包括数据采集模块、数据预处理模块和钻速预测模块,
数据采集模块,用于采集若干组石油钻井的全过程数据;
数据预处理模块,用于对全过程数据进行预处理,获取钻速分段预测模型的样本数据,随机划分为训练数据集和测试数据集;
钻速预测模块,用于构建钻速分段预测模型,利用训练数据集对钻速分段预测模型进行训练,得到训练后的钻速分段预测模型;利用训练后的钻速分段预测模型对测试数据集进行钻速预测。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (9)
1.一种基于机器学习的石油钻井的钻速预测方法,其特征在于,包括以下步骤:
采集若干组石油钻井的全过程数据;
对所述全过程数据进行预处理,获取钻速分段预测模型的样本数据,随机划分为训练数据集和测试数据集;
构建所述钻速分段预测模型,利用所述训练数据集对所述钻速分段预测模型进行训练,得到训练后的钻速分段预测模型;
利用所述训练后的钻速分段预测模型对所述测试数据集进行钻速预测。
2.根据权利要求1所述的基于机器学习的石油钻井的钻速预测方法,其特征在于,所述全过程数据包括钻井过程的动态指标和静态指标。
3.根据权利要求2所述的基于机器学习的石油钻井的钻速预测方法,其特征在于,对所述全过程数据进行预处理包括:
对若干组所述全过程数据结合专家经验进行筛选,选择一组所述全过程数据作为目标全过程数据;
对所述目标全过程数据进行清洗,去除所述静态指标和所述动态指标中的噪音数据;
对清洗后的所述目标全过程数据中离群点数据进行删除,并按照钻井阶段进行分类,获得分阶段钻井数据;
对所述分阶段钻井数据进行归一化处理;
对归一化后的所述分阶段钻井数据进行划分,获得所述训练数据集和所述测试数据集,其中,所述训练数据集和所述测试数据集与所述钻井阶段相对应。
4.根据权利要求3所述的基于机器学习的石油钻井的钻速预测方法,其特征在于,对清洗后的所述目标全过程数据中离群点数据进行删除包括:
将所述清洗后的所述目标全过程数据进行聚类,对清洗后的所述目标全过程数据中的离群点数据进行第一次检测,获取第一阶段离群点数据,删除所述第一阶段离群点数据;
利用Elliptic Envelope方法对剩余所述清洗后的所述目标全过程数据进行第二次检测,获取第二阶段离群点数据,删除所述第二阶段离群点数据。
5.根据权利要求3所述的基于机器学习的石油钻井的钻速预测方法,其特征在于,对所述分阶段钻井数据进行归一化处理采用Z-score标准化方法。
6.根据权利要求1所述的基于机器学习的石油钻井的钻速预测方法,其特征在于,所述钻速分段预测模型采用深度全连接神经网络。
7.根据权利要求6所述的基于机器学习的石油钻井的钻速预测方法,其特征在于,所述钻速分段预测模型采用Paddle Paddle框架构建,包括输入层、隐藏层和输出层,所述隐藏层使用的激活函数是Sigmoid函数,所述输出层采用tanh函数,损失函数采用均方误差。
8.根据权利要求7所述的基于机器学习的石油钻井的钻速预测方法,其特征在于,所述钻速分段预测模型采用Adam方法进行优化训练。
9.一种基于机器学习的石油钻井的钻速预测***,其特征在于,包括数据采集模块、数据预处理模块和钻速预测模块,
所述数据采集模块,用于采集若干组石油钻井的全过程数据;
所述数据预处理模块,用于对所述全过程数据进行预处理,获取钻速分段预测模型的样本数据,随机划分为训练数据集和测试数据集;
所述钻速预测模块,用于构建所述钻速分段预测模型,利用所述训练数据集对所述钻速分段预测模型进行训练,得到训练后的钻速分段预测模型;
利用所述训练后的钻速分段预测模型对所述测试数据集进行钻速预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111169751.2A CN113887049A (zh) | 2021-10-08 | 2021-10-08 | 一种基于机器学习的石油钻井的钻速预测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111169751.2A CN113887049A (zh) | 2021-10-08 | 2021-10-08 | 一种基于机器学习的石油钻井的钻速预测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887049A true CN113887049A (zh) | 2022-01-04 |
Family
ID=79005303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111169751.2A Pending CN113887049A (zh) | 2021-10-08 | 2021-10-08 | 一种基于机器学习的石油钻井的钻速预测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887049A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114971433A (zh) * | 2022-08-01 | 2022-08-30 | 中国工业互联网研究院 | 基于工业互联网的质量管控方法、装置、设备及存储介质 |
-
2021
- 2021-10-08 CN CN202111169751.2A patent/CN113887049A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114971433A (zh) * | 2022-08-01 | 2022-08-30 | 中国工业互联网研究院 | 基于工业互联网的质量管控方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112529341B (zh) | 一种基于朴素贝叶斯算法的钻井漏失机率预测方法 | |
CN112901137B (zh) | 基于深度神经网络Sequential模型的深井钻井机械钻速预测方法 | |
CN111723949A (zh) | 基于选择性集成学习的孔隙度预测方法 | |
CN115293197A (zh) | 一种基于长短期记忆网络的钻孔应变数据异常检测方法 | |
CN116384554A (zh) | 机械钻速预测方法、装置、电子设备及计算机存储介质 | |
CN116187508A (zh) | 一种融合知识图谱和深度学习的风电机组故障预测方法 | |
CN116611556A (zh) | 一种基于混合神经网络的致密气井单井产量预测方法 | |
CN113887049A (zh) | 一种基于机器学习的石油钻井的钻速预测方法及*** | |
CN113689004A (zh) | 基于机器学习的地下管网承载力评价方法及*** | |
CN115438823A (zh) | 一种井壁失稳机制分析与预测方法及*** | |
CN112539054A (zh) | 地面管网与地下油藏复杂***生产优化方法 | |
Li et al. | Cross-oilfield reservoir classification via multi-scale sensor knowledge transfer | |
CN114862007A (zh) | 一种面向碳酸盐岩气井的短周期产气量预测方法及*** | |
CN116307670A (zh) | 一种基于双向长短期记忆网络的油气井溢漏风险监测方法及*** | |
CN117522173B (zh) | 基于深度神经网络的天然气水合物降压开采产能预测方法 | |
CN111946258A (zh) | 一种基于gru的滑动定向智能控制方法 | |
Shaohu et al. | Prediction of drilling plug operation parameters based on incremental learning and CNN-LSTM | |
CN113344729B (zh) | 一种基于小样本学习的剩余油挖潜方法 | |
CN115994231B (zh) | 稠油配汽优化的知识图谱优化方法 | |
Feder | Machine-learning approach determines spatial variation in shale decline curves | |
CN117633658B (zh) | 岩石储层岩性识别方法及*** | |
Zhang et al. | Identification Method of Stuck Pipe Based on Data Augmentation and ATT-LSTM | |
CN117951490A (zh) | 一种页岩气田弯头处冲蚀速率预测方法 | |
CN117474139A (zh) | 一种基于功率法分析与bp网络建模的电泵井排量预测方法 | |
CN115898362A (zh) | 基于Attention-LSTM的机械钻速时序特征表征与预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |