CN111144548B - 抽油机井工况的识别方法及装置 - Google Patents
抽油机井工况的识别方法及装置 Download PDFInfo
- Publication number
- CN111144548B CN111144548B CN201911339973.7A CN201911339973A CN111144548B CN 111144548 B CN111144548 B CN 111144548B CN 201911339973 A CN201911339973 A CN 201911339973A CN 111144548 B CN111144548 B CN 111144548B
- Authority
- CN
- China
- Prior art keywords
- indicator diagram
- sample
- working condition
- training
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
Abstract
本发明实施例提供一种抽油机井工况的识别方法及装置,其中方法包括:获取抽油机井的待识别示功图;将所述待识别示功图输入至预先训练的机器学习模型中,输出所述待识别示功图对应的工况类型的概率分布;其中,所述机器学习模型以示功图样本集中的各示功图样本作为训练样本,以各示功图样本对应的工况类型作为样本标签训练而成。本发明实施例具有不依赖于标准功图的优势,利用实际测量的示功图样本即可对抽油机井工况进行准确识别。
Description
技术领域
本发明涉及油气开采技术领域,更具体地,涉及抽油机井工况的识别方法及装置。
背景技术
在油气生产过程中,示功图描述了抽油泵往复运动时载荷随着位移的变化规律,可以反映抽油泵的工作状况。因此,结合生产资料、管杆信息等信息,可以利用示功图诊断抽油机井的工况,为调整生产参数、实现节能高效开采提供有力的依据。
示功图在油气生产过程中发挥着重要的作用,但是如何准确高效地识别示功图一直是油气行业面临的一个重大问题。目前识别示功图的方法主要有BP神经网络法、几何特征法、灰度矩阵共生法、傅里叶描述子、差分曲线法、网格划分法等方法,上述方法具有很大的局限在于:都依赖于标准示功图,但标准示功图在现场往往难以获得。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的抽油机井工况的识别方法及装置。
第一个方面,本发明实施例提供一种抽油机井工况的识别方法,包括:
获取抽油机井的待识别示功图;
将所述待识别示功图输入至预先训练的机器学习模型中,输出所述待识别示功图对应的工况类型的概率分布;
其中,所述机器学习模型以示功图样本集中的各示功图样本作为训练样本,以各示功图样本对应的工况类型作为样本标签训练而成。
进一步地,所述输出所述待识别示功图对应的工况类型的概率分布,之后还包括:
根据所述待识别示功图对应的工况类型的概率分布,计算所述待识别示功图对应工况类型的信息熵;
若所述信息熵不大于第一预设阈值,则将概率分布中概率最大的工况类型作为所述待识别的示功图对应的工况类型。
进一步地,所述计算所述待识别示功图对应工况类型的信息熵,之后还包括:
若所述信息熵大于第一预设阈值,则对所述待识别示功图的工况类型进行人工识别;
根据所述待识别示功图获得新的示功图样本,并存储至所述示功图样本集;
若所述示功图样本集中任意一种工况类型的示功图样本个数达到一定量级,则重新训练机器学习模型。
进一步地,所述机器学习模型的训练方法包括:
将示功图样本集分为训练集和验证集,所述训练集和验证集中的示功图样本均以对应的工况类型作为样本标签;
将所述训练集中的一部分示功图样本的样本标签统一修改为未知;
利用半监督学习算法,根据修改样本标签后的训练集对机器学习模型进行训练并计算训练精度,若训练精度不小于第二预设阈值,则用验证集验证机器学习模型,若验证结果符合预设要求,则训练结束。
进一步地,所述根据修改样本标签后的训练集对机器学习模型进行训练并计算精度,之后还包括:
若训练精度小于所述第二预设阈值,则计算各修改样本标签的训练样本对应工况类型的信息熵;
根据信息熵从大到小的顺序对所述各修改样本标签的训练样本进行排序,将前k个修改样本标签的训练样本的样本标签进行还原,并放回训练集对机器学习模型再次进行训练,直至训练精度不小于第二预设阈值;其中,k为正整数。
进一步地,所述根据所述待识别示功图获得新的示功图样本:
对所述待识别示功图的位移-载荷二维数据进行预处理,根据预处理后的每个单位面积内位移-载荷二维数据的个数获得所述示功图样本;
其中所述预处理包括差值处理、归一化处理和离散化处理。
进一步地,所述根据预处理后的每个单位面积内位移-载荷二维数据的个数获得所述示功图样本,具体为:
将所述预处理后的示功图用三元组形式的稀疏矩阵进行表示,所述三元组中包括预处理后的位移-载荷数据和预处理后的位移-载荷数据在单位面积内的出现个数;
将所述三元组形式的稀疏矩阵转换为全矩阵,所述全矩阵中行数和列数分别与预处理后的载荷和位移网格数量对应,所述全矩阵中的元素大小为对应位置的预处理后的位移-载荷数据的个数;
将所述全矩阵转换为一维向量,作为所述示功图样本。
第二个方面,本发明实施例提供一种抽油机井工况的识别装置,包括:
示功图获取模块,用于获取抽油机井的待识别示功图;
识别模块,用于将所述待识别示功图输入至预先训练的机器学习模型中,输出所述待识别示功图对应的工况类型的概率分布;
其中,所述机器学习模型以示功图样本集中的各示功图样本作为训练样本,以各示功图样本对应的工况类型作为样本标签训练而成。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的抽油机井工况的识别方法及装置,根据机器学习模型识别出抽油机井的待识别示功图对应的工况类型的概率分布,相比现有技术,具有不依赖于标准功图的优势,利用实际测量的示功图样本即可对抽油机井工况进行准确识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的抽油机井工况的识别方法的流程示意图;
图2为本发明实施例的示功图的示意图;
图3为本发明另一个实施例的抽油机井工况的识别方法的流程示意图;
图4为本发明实施例提供的抽油机井工况的识别装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的抽油机井工况的识别方法的流程示意图,如图1所示,包括S101和S102,具体地:
S101、获取抽油机井的待识别示功图;
S102、将所述待识别示功图输入至预先训练的机器学习模型中,输出所述待识别示功图对应的工况类型的概率分布;
需要说明的是,本发明实施例的机器学习模型可以是神经网络模型,也可以是SVM、随机森林、逻辑回归等模型,机器学习模型以示功图样本集中的各示功图样本作为训练样本,每一个示功图样本均通过现有的识别方法识别出了对应的工控类型,因此每个示功图样本的样本标签即为该示功图样本对应的工况类型,可以理解的是,本发明实施例的样本标签的类别不止一种,本发明实施例的机器学习模型以示功图样本集中的各示功图样本作为训练样本,以各示功图样本对应的工况类型作为样本标签训练而成,因此将待识别示功图输入至机器学习模型,即可输出待识别示功图对应的工况类型的概率分布,工况类型的概率分布即待识别示功图对应的工况类型属于各样本标签的概率分布。
本发明实施例的抽油机井工况的识别方法,根据机器学习模型识别出抽油机井的待识别示功图对应的工况类型的概率分布,相比现有技术,具有不依赖于标准功图的优势,利用实际测量的示功图样本即可对抽油机井工况进行准确识别。
在图1所示实施例的基础上,作为一种可选实施例,步骤S102之后还包括:
S103、根据所述待识别示功图对应的工况类型的概率分布,计算所述待识别示功图对应工况类型的信息熵;
可以理解的是,信息熵用于表示信源的不确定度,通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。在本发明实施例中信息熵用于表示待识别示功图对应工况类型的不确定度,显然,如果待识别示功图对应的工况类型的概率分布集中与某一个样本标签,说明待识别示功图对应工况类型的信息熵较小,如果待识别示功图对应的工况类型的概率分布于多个样本标签,且各个概率的差异较小,则说明待识别示功图对应工况类型的信息熵较大。本发明实施例可以根据现有的信息熵的计算方法,计算出待识别示功图对应工况类型的信息熵的具体结果。
S104、若所述信息熵不大于第一预设阈值,则将概率分布中概率最大的工况类型作为所述待识别的示功图对应的工况类型。
由上述说明可知,如果信息熵不大于第一预设阈值,说明待识别示功图对应的工况类型的不确定性较低,确定性较高,因此将概率分布中概率最大的工况类型作为所述待识别的示功图对应的工况类型。
本发明实施例通过计算待识别示功图对应工况类型的信息熵,根据信息熵不大于第一预设阈值获知待识别示功图对应的工况类型的确定性较高,从而根据概率分布中概率最大的工况类型作为所述待识别的示功图对应的工况类型,在实际应用中能够满足大部分示功图的识别。
在上述各实施例的基础上,作为一种可选实施例,所述计算所述待识别示功图对应工况类型的信息熵,之后还包括:
若所述信息熵大于第一预设阈值,则对所述待识别示功图的工况类型进行人工识别;
根据所述待识别示功图获得新的示功图样本,并存储至所述示功图样本集;
若所述示功图样本集中所有工况类型的新增示功图样本个数达到一定量级,则重新训练机器学习模型。
由上述各实施例可知,若信息熵大于第一预设阈值,则说明待识别示功图对应的工况类型的不确定性较大,因此本发明实施例对所述待识别示功图的工况类型进行人工识别,利用人工识别的好处在于能够确定待识别示功图的工况类型是否为新的工况类型,根据所述待识别示功图获得新的示功图样本存储至所述示功图样本集,从而实现示功图样本集的扩充以及样本集中样本种类的更新,当示功图样本集中所有工况类型的新增示功图样本个数达到一定量级时,则重新训练机器学习模型。本发明实施例基于信息熵的大小,选择性地将示功图进行人工识别,减轻了人工识别的数据量,同时待识别后对模型进行迭代更新,不断提高识别的准确率。
在上述各实施例的基础上,作为一种可选实施例,本发明实施例的机器学习模型的训练方法包括:
S201、将示功图样本集分为训练集和验证集,所述训练集和验证集中的示功图样本均以对应的工况类型作为样本标签;
S202、将所述训练集中的一部分示功图样本的样本标签统一修改为未标记,所述预设参数与所有原样本标签均不相同;
也就是说,步骤S202将训练集中的一部分示功图样本的样本标签保持不变,而将另一部分示功图样本的样本标签修改为预设参数,相对于隐去了一部分示功图样本的真实工况类型结果,这样在进行机器学习训练时,统计修改为预设参数的示功图样本的输出结果即可作为判断机器学习训练精度的依据。
S203、利用半监督学习算法,根据修改样本标签后的训练集对机器学习模型进行训练并计算训练精度,若训练精度不小于第二预设阈值,则用验证集验证机器学习模型,若验证结果符合预设要求,则训练结束。
本发明实施例采用半监督学习的方法进行训练,半监督学习的核心思想是给定一个来自某未知分布的部分有标记、部分无标记的示例集进行学习,期望学到的函数尽可能接近有标记样本的真实标记,同时对未标记示例较好地预测。而本发明在训练阶段隐去部分有标记样本的真实标记(即真实样本标签),以此进一步提高机器学习模型的识别精度。
如果训练精度不小于第二预设阈值,则说明机器学习模型已经能够对示功图的工况类型进行有效的识别,这样再用验证集验证机器学习模型,如果验证结果仍然符合预设要求,通常为精度的要求,则训练结束。本发明实施例的训练方法可嵌套不同的半监督机器学习方法,具有很强的兼容性。
在上述各实施例的基础上,作为一种可选实施例,根据修改样本标签后的训练集对机器学习模型进行训练并计算精度,之后还包括:
若训练精度小于所述第二预设阈值,则计算各修改样本标签的训练样本对应工况类型的信息熵。
当训练精度小于第二预设阈值时,说明此时机器学习模型的准确性较低,计算修改样本标签的训练样本对应的工况类型的信息熵目的是为了检验半监督学习对于无标记示例的训练精度。
根据信息熵从大到小的顺序对所述各修改样本标签的训练样本进行排序,将前k个修改样本标签的训练样本的样本标签进行还原,并放回训练集对机器学习模型再次进行训练,直至训练精度不小于第二预设阈值。
根据信息熵从大到小的顺序选择前k个修改标签的训练样本,目的是为了获得不确定性最高的k个训练样本,通过将这些训练训练样本的样本标签进行还原,再进行训练,能够增强机器学习模型对于上一次训练时不确定的工况类型的识别精度。
在本发明实施例中,通过检查模型准确率、分批次恢复部分有标记样本的真实标记的迭代过程,保持了模型在达到目标准确率的条件下尽可能的精简。
在上述各实施例的基础上,作为一种可选实施例,所述根据修改样本标签后的训练集对机器学习模型进行训练并计算训练精度,之前还包括:
对所述待识别示功图的位移-载荷二维数据进行预处理,根据预处理的每个位移-载荷二维数据的个数获得所述示功图样本。
需要说明的是,由于本发明在构建样本集的过程汇总会采集不同油田、不同抽油机井的示功图数据,因此需要对这些示功图数据进行预处理,主要包括插值(浮点型参数用线性或多项式插值),将不同油田、不同抽油机井的示功图数据统一标准;归一化,将不同尺度的示功图统一到一个维度;离散化,将示功图网格化,并用位于某个网格内的位移-载荷二维数据的个数作为该网格的数值。
本发明实施例对归一化的方法不作具体的限定,例如可以是:对于所有载荷数据,以每个载荷数据与载荷数据的中间值的商,作为荷载数据的归一化结果,对于所有位移数据,以每个位移数据与位移数据最大差值的商作为位移数据的归一化结果,所述位移数据最大差值是指所有位移数据中的最大值和最小值的差值。本发明实施例的获取示功图样本的方法有效保留了示功图的原始数据的特征,克服了现有技术在提取示功图中信息时仅提取少数特征导致的容易丢失关键信息的弊端,通过本发明实施例的获取示功图样本的方法,能够进一步提高识别的准确度。
在上述各实施例的基础上,作为一种可选实施例,所述根据预处理后的每个单位面积内位移-载荷二维数据的个数获得所述示功图样本,具体为:
S301、将所述预处理后的示功图用三元组形式的稀疏矩阵进行表示,所述三元组中包括预处理后的位移-载荷数据和预处理后的位移-载荷数据在单位面积内的出现个数;
需要说明的是,示功图作为一种横坐标为位移,纵坐标为载荷的二维图像,图中记录了多个时刻的位移-载荷数据,因此,可以将示功图作为一个矩阵,将每个时刻的位移-载荷数据作为矩阵中的一个点,由于这个矩阵中位移-载荷数据的数据比较稀疏,因此可以进一步表示为稀疏矩阵的三元组形式,那么三元组中将包括位移-载荷数据和位移-载荷数据在示功图中出现的次数。
S302、将所述三元组形式的稀疏矩阵转换为全矩阵,所述全矩阵中行数和列数分别与预处理后的载荷和位移网格数量对应,所述全矩阵中的元素大小为对应位置的预处理后的位移-载荷数据的个数。
S303、将所述全矩阵转换为一维向量,作为所述示功图样本
图2为本发明实施例的示功图的示意图,如图2所示,该示功图的横坐标为位移,纵坐标为载荷,其中:
位移S=[0,1,2,4,6,10,8,7,5,3,1,0]
载荷P=[11,12,15,18,20,19,17,15,11,12,11,11]。
本发明实施例接下来省略插值和归一化的步骤,示功图对应的稀疏矩阵可以表示为:
(0,11)2
(10,19)1
(1,11)1
(4,18)1
(2,15)1
(5,11)1
(1,12)1
(7,15)1
(3,12)1
(8,17)1
(6,20)1
稀疏矩阵换行后的全矩阵为:
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
将上述全矩阵转换为一维向量:
[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
下面结合一个具体实施例说明本发明实施例的抽油机井工况的识别方法,图3为本发明另一个实施例的抽油机井工况的识别方法的流程示意图,如图3所示:
S401、获取多个油田、多个抽油机井的示功图数据;
S402、对数据进行清洗,剔除异常数据,主要是位移传感器、载荷传感器单一或二者同时发生异常时产生的数据;
判断异常数据表达式主要包括但不限于:
Pmin=0 (5)
Pmax>Pe (6)
式中,Pmin——最小载荷;
Pmax——最大载荷;
Smax——最大位移;
Smin——最小位移;
Δ——给定阈值;
Pe——极限载荷。
其中,符合公式(1)的示功图是单一的点,符合公式(2)和(3)的示功图是一条直线(横向或纵向),符合公式(4)的示功图是随机震荡,符合公式(5)和(6)的示功图是载荷传感器未校准,从图像上可以看到突变点。
此外,还有部分异常数据为重复加载,具体的判别方法为:将原始载荷序列复制多次,此操作的目的是消除单次加载过程中载荷周期识别的误差。对复制后的载荷序列作快速傅里叶变换(FFT变换)后,频谱最大幅值出现位置超过一倍频的为异常数据。该方法的原理为正常载荷数据只加载一次,若重复加载则载荷的周期将大于等于2。
S403、对示功图数据进行预处理,主要包括插值(浮点型参数用线性或多项式插值),将不同油田、不同抽油机井的示功图数据统一标准;归一化,将不同尺度的示功图统一到一个维度。
S404、对清洗后的数据采取聚类及规则筛选的方法进行初筛,将数据大致分为几类,方便专家识别。专家对初筛后的部分样本进行识别,从而获得少量的识别后的工况图;
需要注意的是,如果直接从将清洗后的数据中随机选择数据由专家进行识别,很可能会出现识别结果集中在很少的几类工况类型中,显然这样将不利于后续进行机器学习的训练和应用,因此本发明实施例先将清洗后的数据进行初筛,使数据大致分为多个工况类别,尽管这一过程不太准确,但通过专家对每个类别中的样本进行人工识别,就能够保证工况图样本集中存在多个工况类别,间接减少了专家的工作量。
S405、利用工况图样本集进行机器学习模型的训练:
(1)将识别后的工况图进行数据转化,转为稀疏矩阵,再将稀疏矩阵转换为一维向量,作为工况图样本,从而获得工况图样本集;
(2)将工况图样本集划分训练集与验证集,比如可以随机二分,一半作为训练集,一半作为验证集;
(3)对训练集,将若干个样本的样本标签修改为预设参数,预设参数与所有原样本标签均不相同;
(4)利用半监督学习算法进行训练,并计算精度;
(5)判断精度是否小于一个预设的阈值δ,例如取0.9;
(6)若精度小于0.9,取k个不确定性样本还原标记再放回训练集,返回步骤(4);
(7)若精度大于0.9,用验证集进行模型验证;
(8)模型验证的结果不满足要求,如精度小于某一阈值σ,例如取0.88,则调整样本,并返回步骤(2);
(9)若模型验证的结果满足要求,输出模型。
S406、对未识别的示功图进行预处理,利用训练好的模型识别预处理后的、未识别的示功图,获得分类结果;
S407、根据分类结果对机器学习模型进行迭代更新:
(1)基于信息熵的大小对识别后的样本进行排序;
(2)判断信息熵是否大于阈值;
(3)若未大于阈值,则为确定样本,并输出示功图工况;
(4)若大于阈值,则为不确定样本;
(5)专家对不确定度较大的,信息价值较高的样本进行标记,标记后的样本进入示功图样本库。
(6)若所述示功图样本集中任意一种工况类型的示功图样本个数达到一定量级,则对机器学习模型进行迭代更新。
本发明实施例解决了以下技术问题:
1、克服了传统方法依赖于标准示功图且标准示功图难以获取而导致的识别门槛较高的问题;
2、克服了现有技术需要提取少数特征量,在提取过程中容易丢失关键信息,导致识别准确率往往不高的问题;
3、克服了现有技术往往采用一次性的建模识别策略,导致能识别的典型工况种类固化,拓展性也不强,对于生产中遇到的多种复杂工况误诊率高的问题;
4、由于数据采集、传输技术成熟和存储成本下降产生的大量示功图数据,目前现有的方法和软件处理困难,而本发明由于具有动态更新样本集和机器学习模型的作用,反而更加适用于大量示功图的识别场景。
图4为本发明实施例提供的抽油机井工况的识别装置的结构示意图,如图4所示,该抽油机井工况的识别装置包括:示功图获取模块401和识别模块402,其中:
示功图获取模块401,用于获取抽油机井的待识别示功图;
识别模块402,用于将所述待识别示功图输入至预先训练的机器学习模型中,输出所述待识别示功图对应的工况类型的概率分布;
其中,所述机器学习模型以示功图样本集中的各示功图样本作为训练样本,以各示功图样本对应的工况类型作为样本标签训练而成。
本发明实施例提供的抽油机井工况的识别装置,具体执行上述各抽油机井工况的识别方法实施例流程,具体请详见上述各抽油机井工况的识别方法实施例的内容,在此不再赘述。本发明实施例提供的抽油机井工况的识别装置根据机器学习模型识别出抽油机井的待识别示功图对应的工况类型的概率分布,相比现有技术,具有不依赖于标准功图的优势,利用实际测量的示功图样本即可对抽油机井工况进行准确识别。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序,以执行上述各实施例提供的抽油机井工况的识别方法,例如包括:获取抽油机井的待识别示功图;将所述待识别示功图输入至预先训练的机器学习模型中,输出所述待识别示功图对应的工况类型的概率分布;其中,所述机器学习模型以示功图样本集中的各示功图样本作为训练样本,以各示功图样本对应的工况类型作为样本标签训练而成。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的抽油机井工况的识别方法,例如包括:获取抽油机井的待识别示功图;将所述待识别示功图输入至预先训练的机器学习模型中,输出所述待识别示功图对应的工况类型的概率分布;其中,所述机器学习模型以示功图样本集中的各示功图样本作为训练样本,以各示功图样本对应的工况类型作为样本标签训练而成。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种抽油机井工况的识别方法,其特征在于,包括:
获取抽油机井的待识别示功图;
将所述待识别示功图输入至预先训练的机器学习模型中,输出所述待识别示功图对应的工况类型的概率分布;
其中,所述机器学习模型以示功图样本集中的各示功图样本作为训练样本,以各示功图样本对应的工况类型作为样本标签训练而成;
所述机器学习模型的训练方法包括:
将示功图样本集分为训练集和验证集,所述训练集和验证集中的示功图样本均以对应的工况类型作为样本标签;
将所述训练集中的一部分示功图样本的样本标签统一修改为未知;
利用半监督学习算法,根据修改样本标签后的训练集对机器学习模型进行训练并计算训练精度,若训练精度不小于第二预设阈值,则用验证集验证机器学习模型,若验证结果符合预设要求,则训练结束;
对所述待识别示功图的位移-载荷二维数据进行预处理,将所述预处理后的示功图用三元组形式的稀疏矩阵进行表示,所述三元组中包括预处理后的位移-载荷数据和预处理后的位移-载荷数据在单位面积内的出现个数;
将所述三元组形式的稀疏矩阵转换为全矩阵,所述全矩阵中行数和列数分别与预处理后的载荷和位移网格数量对应,所述全矩阵中的元素大小为对应位置的预处理后的位移-载荷数据的个数;
将所述全矩阵转换为一维向量,作为所述示功图样本;
其中所述预处理包括插值处理、归一化处理和离散化处理。
2.根据权利要求1所述的抽油机井工况的识别方法,其特征在于,所述输出所述待识别示功图对应的工况类型的概率分布,之后还包括:
根据所述待识别示功图对应的工况类型的概率分布,计算所述待识别示功图对应工况类型的信息熵;
若所述信息熵不大于第一预设阈值,则将概率分布中概率最大的工况类型作为所述待识别的示功图对应的工况类型。
3.根据权利要求2所述的抽油机井工况的识别方法,其特征在于,所述计算所述待识别示功图对应工况类型的信息熵,之后还包括:
若所述信息熵大于第一预设阈值,则对所述待识别示功图的工况类型进行人工识别;
根据所述待识别示功图获得新的示功图样本,并存储至所述示功图样本集;
若所述示功图样本集中所有工况类型的新增示功图样本个数达到一定量级,则重新训练机器学习模型。
4.根据权利要求1所述的抽油机井工况的识别方法,其特征在于,所述根据修改样本标签后的训练集对机器学习模型进行训练并计算精度,之后还包括:
若训练精度小于所述第二预设阈值,则计算各修改样本标签的训练样本对应工况类型的信息熵;
根据信息熵从大到小的顺序对所述各修改样本标签的训练样本进行排序,将前k个修改样本标签的训练样本的样本标签进行还原,并放回训练集对机器学习模型再次进行训练,直至训练精度不小于第二预设阈值;其中,k为正整数。
5.一种抽油机井工况的识别装置,其特征在于,包括:
示功图获取模块,用于获取抽油机井的待识别示功图;
识别模块,用于将所述待识别示功图输入至预先训练的机器学习模型中,输出所述待识别示功图对应的工况类型的概率分布;
其中,所述机器学习模型以示功图样本集中的各示功图样本作为训练样本,以各示功图样本对应的工况类型作为样本标签训练而成;
所述机器学习模型的训练方法包括:
将示功图样本集分为训练集和验证集,所述训练集和验证集中的示功图样本均以对应的工况类型作为样本标签;
将所述训练集中的一部分示功图样本的样本标签统一修改为未知;
利用半监督学习算法,根据修改样本标签后的训练集对机器学习模型进行训练并计算训练精度,若训练精度不小于第二预设阈值,则用验证集验证机器学习模型,若验证结果符合预设要求,则训练结束;
对所述待识别示功图的位移-载荷二维数据进行预处理,将所述预处理后的示功图用三元组形式的稀疏矩阵进行表示,所述三元组中包括预处理后的位移-载荷数据和预处理后的位移-载荷数据在单位面积内的出现个数;
将所述三元组形式的稀疏矩阵转换为全矩阵,所述全矩阵中行数和列数分别与预处理后的载荷和位移网格数量对应,所述全矩阵中的元素大小为对应位置的预处理后的位移-载荷数据的个数;
将所述全矩阵转换为一维向量,作为所述示功图样本;
其中所述预处理包括插值处理、归一化处理和离散化处理。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述抽油机井工况的识别方法的步骤。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至4中任意一项所述的抽油机井工况的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911339973.7A CN111144548B (zh) | 2019-12-23 | 2019-12-23 | 抽油机井工况的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911339973.7A CN111144548B (zh) | 2019-12-23 | 2019-12-23 | 抽油机井工况的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144548A CN111144548A (zh) | 2020-05-12 |
CN111144548B true CN111144548B (zh) | 2023-09-01 |
Family
ID=70519342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911339973.7A Active CN111144548B (zh) | 2019-12-23 | 2019-12-23 | 抽油机井工况的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144548B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767804A (zh) * | 2020-06-08 | 2020-10-13 | 上海交通大学 | 基于人工智能的可回收垃圾图像分类方法及*** |
CN112836719B (zh) * | 2020-12-11 | 2024-01-05 | 南京富岛信息工程有限公司 | 一种融合二分类和三元组的示功图相似性检测方法 |
CN112529104B (zh) * | 2020-12-23 | 2024-06-18 | 东软睿驰汽车技术(沈阳)有限公司 | 一种车辆故障预测模型生成方法、故障预测方法及装置 |
CN112861957B (zh) * | 2021-02-01 | 2024-05-03 | 陕西中良智能科技有限公司 | 一种油井运行状态检测方法及装置 |
CN115130679A (zh) * | 2022-02-11 | 2022-09-30 | 希望知舟技术(深圳)有限公司 | 数据管控方法及相关装置和介质程序产品 |
CN114510880B (zh) * | 2022-04-19 | 2022-07-12 | 中国石油大学(华东) | 一种基于傅里叶变换和几何特征的有杆泵工况诊断方法 |
CN115017457B (zh) * | 2022-04-21 | 2024-06-21 | 中联重科股份有限公司 | 用于确定工程设备的工况模型的方法、处理器及服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106321072A (zh) * | 2015-06-15 | 2017-01-11 | 中国科学院沈阳自动化研究所 | 一种基于泵功图的抽油井故障诊断方法 |
CN108764361A (zh) * | 2018-06-01 | 2018-11-06 | 北京中油瑞飞信息技术有限责任公司 | 基于集成学习的游梁式抽油机示功图的工况识别方法 |
CN110132626A (zh) * | 2019-05-20 | 2019-08-16 | 西南石油大学 | 一种基于多尺度卷积神经网络的抽油机故障诊断方法 |
CN110288257A (zh) * | 2019-07-01 | 2019-09-27 | 西南石油大学 | 一种深度超限示功图学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190354810A1 (en) * | 2018-05-21 | 2019-11-21 | Astound Ai, Inc. | Active learning to reduce noise in labels |
-
2019
- 2019-12-23 CN CN201911339973.7A patent/CN111144548B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106321072A (zh) * | 2015-06-15 | 2017-01-11 | 中国科学院沈阳自动化研究所 | 一种基于泵功图的抽油井故障诊断方法 |
CN108764361A (zh) * | 2018-06-01 | 2018-11-06 | 北京中油瑞飞信息技术有限责任公司 | 基于集成学习的游梁式抽油机示功图的工况识别方法 |
CN110132626A (zh) * | 2019-05-20 | 2019-08-16 | 西南石油大学 | 一种基于多尺度卷积神经网络的抽油机故障诊断方法 |
CN110288257A (zh) * | 2019-07-01 | 2019-09-27 | 西南石油大学 | 一种深度超限示功图学习方法 |
Non-Patent Citations (1)
Title |
---|
仲志丹 ; 樊浩杰 ; 李鹏辉 ; .基于稀疏自编码神经网络的抽油机井故障诊断.西安科技大学学报.(第04期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111144548A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144548B (zh) | 抽油机井工况的识别方法及装置 | |
US11650968B2 (en) | Systems and methods for predictive early stopping in neural network training | |
CN109086654B (zh) | 手写模型训练方法、文本识别方法、装置、设备及介质 | |
CN117155706B (zh) | 网络异常行为检测方法及其*** | |
CN109615080B (zh) | 无监督模型评估方法、装置、服务器及可读存储介质 | |
CN115587543A (zh) | 基于联邦学习和lstm的刀具剩余寿命预测方法及*** | |
CN116958688A (zh) | 一种基于YOLOv8网络的目标检测方法及*** | |
CN111177135B (zh) | 一种基于界标的数据填补方法及装置 | |
CN116227586A (zh) | 基于深度残差收缩原型网络的元学习故障诊断方法及装置 | |
CN116402630A (zh) | 一种基于表征学习的财务风险预测方法及*** | |
CN116680639A (zh) | 一种基于深度学习的深海潜水器传感器数据的异常检测方法 | |
CN110929506A (zh) | 一种垃圾信息检测方法、装置、设备及可读存储介质 | |
CN115565115A (zh) | 一种舾装件智能识别方法、计算机设备 | |
CN112798949A (zh) | 一种抽水蓄能机组发电机温度预警方法和*** | |
CN111105074A (zh) | 一种基于改进深度信念学习的故障预测方法 | |
CN116681074B (zh) | 数控***误操作检测方法、装置、设备及存储介质 | |
CN115718696B (zh) | 源码密码学误用检测方法、装置、电子设备和存储介质 | |
CN116541705B (zh) | 文本分类模型的训练方法及文本分类方法 | |
CN116823797A (zh) | 珊瑚的生产监管***及其方法 | |
CN117312947A (zh) | 一种基于胶囊网络多分类模型的冷水机故障检测方法 | |
CN116702839A (zh) | 一种基于卷积神经网络的模型训练方法及应用*** | |
CN112699368A (zh) | 主机序列入侵检测方法 | |
CN117494019A (zh) | Ip网络异常数据的模型训练方法及生成方法 | |
CN117036012A (zh) | 基于加密流量图谱特征分析的异常账户识别方法及装置 | |
CN118070038A (zh) | 部件的故障预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |