CN109670549A - 火电机组的数据筛选方法、装置以及计算机设备 - Google Patents

火电机组的数据筛选方法、装置以及计算机设备 Download PDF

Info

Publication number
CN109670549A
CN109670549A CN201811564370.2A CN201811564370A CN109670549A CN 109670549 A CN109670549 A CN 109670549A CN 201811564370 A CN201811564370 A CN 201811564370A CN 109670549 A CN109670549 A CN 109670549A
Authority
CN
China
Prior art keywords
operating condition
data set
data
comentropy
generating unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811564370.2A
Other languages
English (en)
Other versions
CN109670549B (zh
Inventor
袁俊
姜利辉
李志超
张少男
陈世和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Goes Out New Knowledge Property Right Management Co ltd
Original Assignee
Huarun Power Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huarun Power Technology Research Institute Co Ltd filed Critical Huarun Power Technology Research Institute Co Ltd
Priority to CN201811564370.2A priority Critical patent/CN109670549B/zh
Publication of CN109670549A publication Critical patent/CN109670549A/zh
Application granted granted Critical
Publication of CN109670549B publication Critical patent/CN109670549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analyzing Materials Using Thermal Means (AREA)

Abstract

本发明公开了一种火电机组的数据筛选方法、装置以及计算机设备,方法包括:计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各第一距离的距离总和;分别计算各第一距离占距离总和的比重;根据各比重计算第一特征向量对应的工况段数据集合的信息熵;计算由各信息熵构成的信息熵集合的均方差;基于各信息熵、均方差以及预定判定系数,得到各信息熵的概率分布曲线和在概率分布曲线上的判定区间;筛选超出判定区间对应的信息熵,并将筛选出的信息熵对应的工况段数据集合作为异常数据集合。本发明优化了对火电机组海量数据的筛选过程,降低了选取难度、时间成本和筛选精度。

Description

火电机组的数据筛选方法、装置以及计算机设备
技术领域
本发明涉及火电工业数据检查技术,特别涉及一种火电机组的数据筛选方法、装置以及计算机设备。
背景技术
随着数字化控制技术的发展,DCS、PLC和SIS等***已广泛应用于火电机组实际运行过程中,存储了海量的运行数据。这些数据中包含了机组***设备的状态信息、故障信息、生产指标等重要信息,对工业生产过程的深度挖掘分析具有重要价值意义。而异常数据通常是由于***或设备故障引起的数据异常,其变化机理复杂多变,筛选检测相对难度较大。
传统技术中存在如下技术问题:
传统技术中常用的火电机组工业数据的筛选检测方法,主要有人工筛选方法和机器学习分析方法。人工筛选方法主要依赖专家经验,存在误判或漏判的风险,效率较低,而机器学习分析方法将数据聚类成不同的簇,将偏离其他簇的小簇作为异常点群。但该技术生成簇的数量、模型参数选择方面存在不确定性,难以保障簇的质量。因此,传统技术未能完全满足对火电机组海量数据的筛选和检测。
发明内容
本发明的目的在于针对传统技术中的不足,提供一种火电机组的数据筛选方法、装置以及***。
本发明实施例提供了一种火电机组的数据筛选方法,包括:
计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各第一距离的距离总和;
分别计算各第一距离占距离总和的比重;
根据各比重计算第一特征向量对应的工况段数据集合的信息熵;
计算由各信息熵构成的信息熵集合的均方差;
基于各信息熵、均方差以及预定判定系数,得到各信息熵的概率分布曲线和在概率分布曲线上的判定区间;
筛选超出判定区间对应的信息熵,并将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
在其中一个实施例中,工况段数据集合为火电机组的待筛选数据样本集合中时间点相邻且属于同一预设工况的数据样本的子集;
数据筛选方法还包括:
在计算第一距离之前,根据各预设工况,基于k-means聚类算法将待筛选数据样本集合分割为各工况段数据集合。
在其中一个实施例中,聚类工况数据集合为在工况段数据集合之间的工况相似度大于或等于预设工况相似度时合并得到的集合;
数据筛选方法还包括:
在计算第一距离之前,根据预设工况相似度,基于DBSCAN聚类分析算法在工况段数据集合之间的工况相似度大于或等于预设工况相似度时进行合并,得到聚类工况数据集合。
在其中一个实施例中,数据筛选方法还包括:
在将待筛选数据样本集合分割为各工况段数据集合之后,将工况段数据集合中的聚类中心作为第一特征向量。
在其中一个实施例中,数据筛选方法还包括:
在得到聚类工况数据集合之后,将聚类工况数据集合中的聚类中心作为第二特征向量。
在其中一个实施例中,数据筛选方法还包括:
在计算第一距离之前,根据预设的数据样本个数和时间范围,获取火电机组的原始数据样本集合;
对原始数据样本集合进行预处理得到待筛选数据样本集合;预处理包括缺失值处理以及噪声处理。
在其中一个实施例中,预设工况的参数包括火电机组的运行负荷、煤热值、煤硫分、煤的挥发分、热电比以及环境温度。
在其中一个实施例中,比重基于以下公式得到:
其中,p(Li)表示第i个工况段数据集合中第一特征向量对应的比重;Li表示第i个工况段数据集合中的第一特征向量;表示第j个聚类工况数据集合中的第二特征向量;表示第i个工况段数据集合的第一特征向量与第j个聚类工况数据集合的第二特征向量的第一距离;表示第k个聚类工况数据集合的第二特征向量;表示第i个工况段数据集合的第一特征向量分别与各聚类工况数据集合的第二特征向量之间的第一距离的距离总和;m表示聚类工况数据集合的个数;o表示由各第二特征向量构成的集合。
另一方面,在一个实施例中,本发明还提供了一种火电机组的数据检测装置,包括:
距离计算模块,用于计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各第一距离的距离总和;
比重换算模块,用于分别计算各第一距离占距离总和的比重;
信息熵换算模块,用于根据各比重计算第一特征向量对应的工况段数据集合的信息熵;
均方差换算模块,用于计算由各信息熵构成的信息熵集合的均方差;
判定条件获取模块,用于基于各信息熵、均方差以及预定判定系数,得到各信息熵的概率分布曲线和在概率分布曲线上的判定区间;
筛选模块,用于筛选超出判定区间对应的信息熵,并将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
另一方面,在一个实施例中,本发明还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现火电机组的数据筛选方法。
上述技术方案中的一个技术方案具有如下优点和有益效果:
本发明的火电机组的数据筛选方法、装置以及计算机设备,基于工况段数据集合中第一特征向量与各聚类工况数据集合中第二特征向量之间的第一距离,以及各第一距离的距离总和,得到各第一距离占距离总和的比重,即获取到对应的工况段数据集合分别与各聚类工况数据集合的相似度和密集程度。进一步地,可根据比重计算出对应的工况段数据集合的信息熵,并基于各信息熵的概率分布曲线实现对信息熵的筛选,以确定出异常的工况段数据集合。本发明各实施例能够根据信息熵对火电机组的待筛选数据样本集合进行分析,快速有效地衡量出数据的确定性,并智能高效地筛选出火电机组的异常数据信息。同时,优化了对火电机组海量数据的处理和筛选过程,进一步地降低了选取难度、时间成本以及筛选精度。
附图说明
图1为本发明的一个实施方式提供的火电机组的数据筛选方法的流程示意图;
图2为本发明的一个实施方式提供的火电机组的数据筛选方法中各信息熵的概率分布曲线示意图;
图3为本发明的一个实施方式提供的火电机组的数据筛选方法中预处理的流程示意图;
图4为本发明的一个实施方式提供的火电机组的数据筛选方法的具体流程示意图;
图5为本发明的一个实施方式提供的火电机组的数据检测装置结构示意图;
图6为本发明的一个实施方式提供的计算机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图结合实施例,对本发明进一步详细说明。
参见图1,本发明实施例提供了一种火电机组的数据筛选方法,包括:
步骤S110:计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各所述第一距离的距离总和。
具体而言,火电机组的工业数据在时间上是连续的,同时,随时间的变化机组的运行负荷、煤热值、煤硫分、煤发挥分、热电比以及环境温度也随之变化,因此,可根据运行负荷、煤热值、煤硫分、煤发挥分、电热比的大小以及环境温度的高低划分多个工况。进一步地,可根据应用需求,在指定的时间段内采集火电机组产生的相应数据样本作为待筛选数据样本集合,并将该待筛选数据样本集合进行分段,其分段原则为时间点相邻且属于同一工况的数据样本的子集作为工况段数据集合。进一步地,将各工况段数据集合进行分组合并,因为时间不相邻的工况段数据集合存在相似工况的情况,因此将高度相似的工况段数据集合进行合并作为聚类工况数据集合。其中,可采用DBCSAN聚类算法,将高度相似的工况段数据集合进行聚类合并,得到聚类工况数据集合,其工况相似度可根据需求预先设定。
进一步地,工况段数据集合为高维度数据集合,其中,第一特征向量为用于表示所在工况段数据集合的特征信息,是具有代表性的数据点,包括火电机组在工业生产过程中生成的如温度、压力、流量、液位、风量以及氧量等参数点。第二特征向量为用于表示聚类工况数据集合的特征信息。进一步地,第一距离和距离总和可以但不局限于为欧式距离或cos(Cosine Distance)余弦距离。
步骤S120:分别计算各第一距离占距离总和的比重。
具体而言,工况段数据集合的第一特征向量与聚类工况数据集合的第二特征向量越相似,则该第一特征向量和对应的聚类工况数据集合的第二特征向量的距离越小,进而表示该第一特征向量对应的工况段数据集合与对应的聚类工况数据集合越密集,对应的第一距离越小,即该第一距离占距离总和的比重越小。反之,若工况段数据集合的第一特征向量与对应的聚类工况数据集合的第二特征向量越不相似,则该第一特征向量和对应的聚类工况数据集合的第二特征向量的距离越大,进而表示该第一特征向量对应的工况段数据集合与对应的聚类工况数据集合越稀疏,对应的第一距离越大,即该第一距离占距离总和的比重越大。
本发明实施例的火电机组的数据筛选方法,基于第一距离和距离总和可得到第一特征向量与第二特征向量的相似度,以及对应的工况段数据集合与各聚类工况数据集合的密集程度,有助于计算对应的信息熵,得到工况段数据集合的确定性。本发明实施例能够提升对火电机组数据进行检测的效率和自动化程度,同时可减小误判的风险从而提高检测精度。
步骤S130:根据各比重计算第一特征向量对应的工况段数据集合的信息熵。
具体而言,信息熵对随机事件具有不确定性度量的特点,可衡量火电机组的待筛选数据样本的确定性。确定性越高,则信息熵越小,发生的概率越大,即数据就越有可能属于正常运行模式,即为正常工况数据。确定性越低,则信息熵越大,发生的概率越小,即数据偏离正常工况的运行模式,即为异常数据。其中,信息熵相当于所有可能发生事件带来的信息量的期望,基于以下公式得到:
p(Li)表示第i个工况段数据集合的第一特征向量对应的比重即作为可能发生的事件的概率,其中,可能发生的事件相当于上述步骤S120中第一特征向量对应的各第一距离,距离总和相当于所有可能发生事件的总和;Li表示第i个工况段数据集合的第一特征向量,logp(i)表示第i个工况段数据集合中p(Li)对应的可能发生事件的信息量,n表示第一距离的数目即可能发生事件的个数,ei表示第i个工况段数据集合的信息熵。
步骤S140:计算由各信息熵构成的信息熵集合的均方差。
例如,各信息熵构成的信息熵集合可表示如下为:E={e1,e2,e3……ej}。其中,ej表示为工况段数据集合对应的信息熵,j表示工况段数据集合的个数。
步骤S150:基于各信息熵、均方差以及预定判定系数,得到各信息熵的概率分布曲线和在概率分布曲线上的判定区间。
具体而言,根据大量样本数据信息熵的分析统计,火电机组的各工况段数据集合的信息熵数据的概率分布曲线符合正态分布。进而根据信息熵、均方差以及预定判定系数得到的信息熵集合的概率分布曲线可为正态分布曲线。如图2所示,σ表示均方差,μ表示各信息熵构成的信息熵集合的均值。其中,预定判定系数较优地可取2或3,表示在该概率分布曲线上判定区间以信息熵集合均值对应所在位置为对称中心往两边,并距离信息熵集合均值为2个均方差位置或3个均方差位置。在本实施例中,在信息熵数据的概率分布曲线上,工况段数据集合越趋向于正常其信息熵对应的位置越接近于信息熵集合均值对应的所在位置,反之,工况段数据集合越趋向于异常其信息熵对应的位置越远离信息熵集合的均值对应所在位置。
本发明实施例的火电机组的数据筛选方法,通过信息熵、均方差以及判定系数,得到符合信息熵集合的概率分布曲线和判定区间,进而可确定出远离信息熵集合均值对应的所在位置的信息熵对应的工况段数据集合。
步骤S160:筛选超出判定区间对应的信息熵,并将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
具体而言,如图2所示,基于上述步骤S150的概率分布曲线,越往两端分布的点表示该点对应的事件发生的概率越小,越往中间靠近的点表示该点对应的事件发生的概率较大。基于此,对于火电机组在工业生产过程产生的数据而言,异常的工况段数据集合的不确定性较大信息熵较大即发生的概率较小。例如如图2,在信息熵集合的概率分布曲线上,信息熵对应的点不在判定区间内时,则将超出该判定区间如(-2σ,2σ)或(-3σ,3σ)对应的信息熵筛选出,将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
本发明实施例的火电机组的数据筛选方法,可通过信息熵的概率分布曲线,实现对异常的工况段数据集合的筛选,准确度高,可很大程度防止漏选或误选的情况发生。
本发明的火电机组的数据筛选方法,基于工况段数据集合中第一特征向量与各聚类工况数据集合中第二特征向量的第一距离,以及各第一距离的距离总和,得到各第一距离占距离总和的比重,即获取到对应的工况段数据集合分别与各聚类工况数据集合的相似度和密集程度。进一步地,可根据比重计算出对应的工况段数据集合的信息熵,并基于各信息熵的概率分布曲线实现对信息熵的筛选,以确定出异常的工况段数据集合。本发明实施例能够根据信息熵对火电机组的待筛选数据样本集合进行分析,快速有效地衡量出数据的确定性,并智能高效地筛选出火电机组的异常数据信息。同时,优化了对火电机组海量数据的处理和筛选过程,进一步地降低了选取难度、时间成本以及检测精度。
在一个具体的实施例中,工况段数据集合为火电机组的待筛选数据样本集合中时间点相邻且属于同一预设工况的数据样本的子集;
数据筛选方法还包括:
在计算第一距离之前,根据各预设工况,基于k-means聚类算法将待筛选数据样本集合分割为各工况段数据集合。
具体而言,k-means聚类算法是应用于连续性数据的一种算法,可将数据划分成不同区间。在本发明实施例中,火电机组的待筛选数据样本集合为在时间上连续的数据,为按照预设工况将该待筛选数据样本集合分为多个子集,以反映出随时间变化火电机组在工业生产过程中工况的变化,因此,可通过k-means自动聚类划分,并采用组内平方和误差的方式确定出每一子集中数据样本的数目,将待筛选数据样本集合按照预设工况分割成多段子集。
本发明实施例的火电机组的数据筛选方法,其k-means算法简单且运算快,可将火电机组的待筛选数据样本集合按照预设工况自动分割成多个工况段数据集合。进而通过划分的各工况段数据集合可准确反映出工况在不同时间段的变化,同时能够保证生成集合的质量,有助于提高异常数据集合的筛选精度。
在一个具体的实施例中,聚类工况数据集合为在工况段数据集合之间的工况相似度大于或等于预设工况相似度时合并得到的集合;
数据筛选方法还包括:
在计算第一距离之前,根据预设工况相似度,基于DBSCAN聚类分析算法在工况段数据集合之间的工况相似度大于或等于预设工况相似度时进行合并,得到聚类工况数据集合。
具体而言,DBSCAN聚类分析算法是基于密度的聚类算法,通过数据集合是否紧密相连来判断数据集合之间是否属于同一簇。因此,基于DBSCAN聚类分析算法,相似度越高的数据集之间的距离越近,其密集程度越高,由此可将密度高的数据集合归为一簇。本发明实施例的各工况段数据集合为高维度的数据集合,因此可基于计算第一特征向量之间的距离得到工况段数据集合之间的工况相似度。因此,根据各预设工况相似度,并基于DBSCAN聚类分析算法将相互之间工况相似度大于或等于预设工况相似度的工况段数据集合进行合并,得到聚类工况数据集合。
本发明实施例的火电工业的数据筛选方法,其DBSCAN聚类分析算法能够将具有足够高密度的区域划分为一簇,可根据预设工况相似度将各工况段数据集合自动合并成各聚类工况数据集合。本发明实施例自动化程度高,优化了对火电机组海量数据的处理过程,同时有助于提高对异常数据集合筛选的精度。
在一个具体的实施例中,数据筛选方法还包括:
在将待筛选数据样本集合分割为各工况段数据集合之后,将工况段数据集合中的聚类中心作为第一特征向量。
具体而言,本实施例的聚类中心为通过k-means聚类后最终得到的工况段数据集合中的各数据样本的均值。聚类中心是高维度的工况段数据集合中具有代表性的数据点,其能够反映出所在工况段数据集合的基本信息。
本发明实施例的火电机组的数据筛选方法,可通过k-means聚类完成对火电机组的待筛选数据集合分割成各工况段数据集合后,得到能够反映对应工况段数据集合特征的聚类中心并作为第一特征向量,可便于对信息熵的换算提供依据,提高对火电机组异常数据筛选的效率。
在一个具体的实施例中,数据筛选方法还包括:
在得到聚类工况数据集合之后,将聚类工况数据集合中的聚类中心作为第二特征向量。
具体而言,本实施例的聚类中心为通过DBSCAN聚类分析算法最终得到的聚类工况数据集合中各数据样本的均值。聚类中心是高维度的聚类工况数据集合中具有代表性的数据点,其能够反映出所在聚类工况数据集合的基本信息。
本发明实施例的火电机组的数据筛选方法,可通过DBSCAN聚类分析算法完成对各工况段数据集合的合并得到各聚类工况数据集合后,得到反映聚类工况数据集合的聚类中心并作为第二特征向量。可便于对判断数据集合的相似度和信息熵的换算提供依据,提高对火电机组异常数据筛选的效率。
参见图3,在一个具体的实施例中数据筛选方法还包括:
步骤S210:在计算第一距离之前,根据预设的数据样本个数和时间范围,获取火电机组的原始数据样本集合。
具体而言,火电机组包括锅炉侧、汽机侧等设备侧,对每一设备侧建模进行数据分析时所需的数据样本个数和时间范围不同,如锅炉侧***建模需要2016年的20个数据样本,如汽机侧***建模需要2017年的30个数据样本。其中,每个数据样本为一个数据采样点且包括的参数有温度、压力、流量、液位、风量以及氧量等。因此,为确保数据正确性从而得到准确的模型,在建模前对所需数据样本进行筛选。进而,如需获取对应火电机组设备侧的原始数据样本集合,可根据时间范围以及数据样本个数得到。
步骤S220:对原始数据样本集合进行预处理得到待筛选数据样本集合;预处理包括缺失值处理以及噪声处理。
具体而言,火电机组在工业过程生产中生成的数据存在数据缺失、噪声不一致等问题,导致原始数据样本不完整。由此,可对原始数据样本进行缺失值处理以及噪声处理等以得到完整的待筛选数据样本集合。其中,缺失值处理的方法包括临近值平均法、插值法等,以填补缺失数据。
本发明实施例的火电机组的数据筛选方法,可对火电机组的原始数据样本集合进行预处理以得到完整的待筛选数据样本集合,从而减少对异常数据集合进行处理筛选时造成的误差。
在一个具体的实施例中,比重基于以下公式得到:
其中,p(Li)表示第i个工况段数据集合的第一特征向量对应的比重;Li表示第i个工况段数据集合中第一特征向量;表示第j个聚类工况数据集合中的第二特征向量;表示第i个工况段数据集合的第一特征向量与第j个聚类工况数据集合的第二特征向量的第一距离;表示第k个聚类工况数据集合的第二特征向量;表示第i个工况段数据集合的第一特征向量分别与各聚类工况数据集合的第二特征向量之间的第一距离的距离总和;m表示聚类工况数据集合的个数;o表示由各第二特征向量构成的集合。
本发明实施例的火电机组的数据筛选方法,基于第一距离和距离总和可得到第一特征向量与第二特征向量的相似度,以及对应的工况段数据集合与各聚类工况数据集合的密集程度,有助于计算对应的信息熵,得到工况段数据集合的确定性。本发明实施例能够提升对火电机组数据进行检测的效率和自动化程度,同时可减小误判的风险从而提高检测精度。
在一个具体的实施例中,预设工况的参数包括火电机组的运行负荷、煤热值、煤硫分、煤的挥发分、热电比以及环境温度。
本发明实施例的火电机组的数据筛选方法,火电机组在工业生产过程中的工况包括运行负荷、煤热值、煤硫分、煤的挥发分、热电比以及环境温度等参数,为便于分析火电机组在不同时间段的工况变化情况,从而更加准确的对数据进行处理筛选,可根据运行负荷、煤热值、煤硫分、煤发挥分、电热比的大小以及环境温度的高低划分多个工况并预先设定。本发明实施例通过预设工况能够快速将火电机组的待筛选数据样本集合进行分段,可提高数据处理的效率。
参见图4,作为一优选的实施例,本发明实施例的火电机组的数据筛选方法,包括:
步骤S310:火电机组的原始数据样本集合采集。
具体而言,确定数据样本类型和时间范围,从数据库中采集所需数据样本,其中数据库可以为DCS数据库、SIS数据等。
步骤S320:原始数据样本集合预处理,得到待筛选数据样本集合。
具体而言,对原始数据样本的预处理包括缺失值处理和噪声处理。其中,待筛选数据样本集合可标记为:D={D1,D2,D3,D4,Di……Dq},(1≤i≤q),Di表示对应时间范围内相应时间点的多维数据样本,q表示数据样本即采样点的数目。
步骤S330:对待筛选数据样本集合利用k-means聚类算法进行自动分割,得到各工况段数据集合。
具体而言,可标记为:其中,为由各工况段数据集合构成的集合,jm为工况段数据集合的个数。
步骤S340:工况段数据集合的特征信息提取。
具体而言,在各工况段数据集合中提取聚类中心作为第一特征向量表示对应工况段数据集合的特征信息,标记为Li=(X1,X2,X3,Xj……Xt)T,其中,Li表示对应的工况段数据集合的聚类中心即第一特征向量,t为数据样本即该聚类中心包含的参数点个数,Xj为数据样本即该聚类中心中的参数点。
步骤S350:将各工况段数据集合利用DBCSAN聚类算法进行合并,得到聚类工况数据集合。
具体而言,可标记为:O={C1,C2,C3,Ck……Cjn},(1≤k≤jm),其中O为各聚类工况数据集合构成的集合,Cjn为聚类工况数据集合,jn为聚类工况数据集合的个数。
步骤S360:聚类工况数据集合的特征信提取。
具体而言,在各聚类工况数据集合中提取聚类中心作为第二特征向量,表示对应聚类工况数据集合的特征信息。标记为(1≤a≤z),其中,表示对应的聚类工况数据集合的聚类中心即第二特征向量,z为数据样本即该聚类中心包含的参数点个数,为数据样本即该聚类中心的参数点。
步骤S370:信息熵的计算。
具体而言,按照信息熵的计算公式计算每个工况段数据集对应的信息熵。信息熵的计算公式如下:
其中,
其中,p(Li)表示第i个工况段数据集合的第一特征向量对应的比重;Li表示第i个工况段数据集合中第一特征向量;表示第j个聚类工况数据集合中的第二特征向量;表示第i个工况段数据集合的第一特征向量与第j个聚类工况数据集合的第二特征向量的第一距离;表示第k个聚类工况数据集合的第二特征向量;表示第i个工况段数据集合的第一特征向量分别与各聚类工况数据集合的第二特征向量之间的第一距离的距离总和;m表示聚类工况数据集合的个数;o表示由各第二特征向量构成的集合。
步骤S380:异常数据集合筛选。
具体而言,基于上述步骤S370得到信息熵数据集合E={e1,e2,e3……ej}。其中,ej表示为工况段数据集合对应的信息熵,j表示工况段数据集合的个数。经统计分析,各工况段的信息熵符合正态分布,计算信息熵数据集合的均值以及均方差,采用kσ判定准则筛选出异常数据集合,其中,k可取2或3,σ为均方差。其中,kσ为在信息熵数据集合的概率分布曲线上的判定区间,若信息熵对应的点在该判定区间内,则该判定区间内信息熵对应的工况段数据集合为正常数据集合,若信息熵对应的点超出该判定区间,则该判定区间外信息熵对应的工况段数据集合为异常的数据集合。
本发明实施例的火电机组的数据筛选方法,基于信息熵集合的概率分布曲线实现对信息熵的筛选,以确定出异常的工况段数据集合。优化了对火电机组海量数据的处理和筛选过程,进一步地降低了选取难度、时间成本以及筛选精度。
应该理解的是,虽然图1、图3、图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图3、图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
参见图5,在一个实施例中,本发明还提供了一种火电机组的数据筛选装置,包括:
距离计算模块410,用于计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各第一距离的距离总和;
比重换算模块420,用于分别计算各第一距离占距离总和的比重;
信息熵换算模块430,用于根据各比重计算第一特征向量对应的工况段数据集合的信息熵;
均方差换算模块440,用于计算由各信息熵构成的信息熵集合的均方差;
判定条件获取模块450,用于基于各信息熵、均方差以及预定判定系数,得到各信息熵的概率分布曲线和在概率分布曲线上的判定区间;
筛选模块460,用于筛选超出判定区间对应的信息熵,并将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
本发明实施例的火电机组的数据筛选装置,基于工况段数据集合中第一特征向量与各聚类工况数据集合中第二特征向量的第一距离,以及各第一距离的距离总和,得到各第一距离占距离总和的比重,即获取到对应的工况段数据集合分别与各聚类工况数据集合的相似度和密集程度。进一步地,可根据比重计算出对应的工况段数据集合的信息熵,并基于各信息熵的概率分布曲线实现对信息熵的筛选,以确定出异常的工况段数据集合。本发明实施例能够根据信息熵对火电机组的待筛选数据样本集合进行分析,快速有效地衡量出数据的确定性,并智能高效地筛选出火电机组的异常数据信息。同时,优化了对火电机组海量数据的处理和筛选过程,进一步地降低了选取难度、时间成本以及检测精度。
在一个具体的实施例中,工况段数据集合为火电机组的待筛选数据样本集合中时间点相邻且属于同一预设工况的数据样本的子集;
还包括:分割模块,用于在计算第一距离之前,根据各预设工况,基于k-means聚类算法将待筛选数据样本集合分割为各工况段数据集合。
本发明实施例的火电机组的数据筛选装置,其k-means算法简单且运算快,可将火电机组的待筛选数据样本集合按照预设工况分割自动分割成多个工况段数据集合。进而通过划分的各工况段数据集合可准确反映出工况在不同时间段的变化和运行状态,同时能够保证生成集合的质量,有助于提高异常数据集合的筛选精度。
在一个具体的实施例中,聚类工况数据集合为在工况段数据集合之间的工况相似度大于或等于预设工况相似度时合并得到的集合;
还包括合并模块,用于在计算第一距离之前,根据预设工况相似度,基于DBSCAN聚类分析算法在工况段数据集合之间的工况相似度大于或等于预设工况相似度时进行合并,得到聚类工况数据集合。
本发明实施例的火电工业的数据筛选装置,其DBSCAN聚类分析算法能够将具有足够高密度的区域划分为一簇,可根据预设工况相似度将各工况段数据集合自动合并成各聚类工况数据集合。本发明实施例自动化程度高,优化了对火电机组海量数据的处理过程,同时有助于提高对异常数据集合筛选的精度。
在一个具体的实施例中,还包括第一特征向量确定模块,用于在将待筛选数据样本集合分割为各工况段数据集合之后,将工况段数据集合中的聚类中心作为第一特征向量。
本发明实施例的火电机组的数据筛选装置,可通过k-means聚类完成对火电机组的待筛选数据集合分割成各工况段数据集合后,得到能够反映对应工况段数据集合特征的聚类中心并作为第一特征向量,可便于对信息熵的换算提供依据,提高对火电机组异常数据筛选的效率。
在一个具体的实施例中,还包括第二特征向量确定模块,用于在得到聚类工况数据集合之后,将聚类工况数据集合中的聚类中心作为第二特征向量。
本发明实施例的火电机组的数据筛选装置,可通过DBSCAN聚类分析算法完成对各工况段数据集合的合并得到各聚类工况数据集合后,得到反映聚类工况数据集合的聚类中心并作为第二特征向量。可便于对判断数据集合的相似度和信息熵的换算提供依据,提高对火电机组异常数据筛选的效率。
在一个具体的实施例中,还包括:
原始数据获取模块,用于在计算第一距离之前,根据预设的数据样本个数和时间范围,获取火电机组的原始数据样本集合。
预处理模块,用于对原始数据样本集合进行预处理得到待筛选数据样本集合;预处理包括缺失值处理以及噪声处理。
本发明实施例的火电机组的数据筛选装置,可对火电机组的原始数据样本集合进行预处理以得到完整的待筛选数据样本集合,从而减少对异常数据集合进行处理筛选时造成的误差。
关于火电机组的数据筛选装置的具体限定可以参见上文中对于火电机组的数据筛选方法的限定,在此不再赘述。上述火电机组的数据筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
参见图6,在一个实施例中,本发明还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现火电机组的数据筛选方法。
该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种火电机组的数据筛选方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现火电机组的数据筛选方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种火电机组的数据筛选方法,其特征在于,包括:
计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各所述第一距离的距离总和;
分别计算各所述第一距离占所述距离总和的比重;
根据各所述比重计算所述第一特征向量对应的所述工况段数据集合的信息熵;
计算由各所述信息熵构成的信息熵集合的均方差;
基于各所述信息熵、所述均方差以及预定判定系数,得到各所述信息熵的概率分布曲线和在所述概率分布曲线上的判定区间;
筛选超出所述判定区间对应的信息熵,并将筛选出的信息熵对应的所述工况段数据集合作为异常数据集合。
2.根据权利要求1所述的火电机组的数据筛选方法,其特征在于,所述工况段数据集合为火电机组的待筛选数据样本集合中时间点相邻且属于同一预设工况的数据样本的子集;
所述数据筛选方法还包括:
在计算所述第一距离之前,根据各所述预设工况,基于k-means聚类算法将所述待筛选数据样本集合分割为各所述工况段数据集合。
3.根据权利要求1所述的火电机组的数据筛选方法,其特征在于,所述聚类工况数据集合为在所述工况段数据集合之间的工况相似度大于或等于预设工况相似度时合并得到的集合;
所述数据筛选方法还包括:
在计算所述第一距离之前,根据所述预设工况相似度,基于DBSCAN聚类分析算法在所述工况段数据集合之间的工况相似度大于或等于预设工况相似度时进行合并,得到所述聚类工况数据集合。
4.根据权利要求2所述的火电机组的数据筛选方法,其特征在于,所述数据筛选方法还包括:
在将所述待筛选数据样本集合分割为各所述工况段数据集合之后,将所述工况段数据集合中的聚类中心作为所述第一特征向量。
5.根据权利要求3所述的火电机组的数据筛选方法,其特征在于,所述数据筛选方法还包括:
在得到所述聚类工况数据集合之后,将所述聚类工况数据集合中的聚类中心作为所述第二特征向量。
6.根据权利要求2所述的火电机组的数据筛选方法,其特征在于,所述数据筛选方法还包括:
在计算所述第一距离之前,根据预设的数据样本个数和时间范围,获取所述火电机组的原始数据样本集合;
对所述原始数据样本集合进行预处理得到所述待筛选数据样本集合;所述预处理包括缺失值处理以及噪声处理。
7.根据权利要求2至6任意一项所述的火电机组的数据筛选方法,其特征在于,所述预设工况的参数包括所述火电机组的运行负荷、煤热值、煤硫分、煤的挥发分、热电比以及环境温度。
8.根据权利要求1至6任意一项所述的火电机组的数据筛选方法,其特征在于,所述比重基于以下公式得到:
其中,p(Li)表示第i个所述工况段数据集合中所述第一特征向量对应的比重;Li表示第i个所述工况段数据集合中所述第一特征向量;表示第j个聚类工况数据集合中的所述第二特征向量;表示第i个所述工况段数据集合的所述第一特征向量与第j个聚类工况数据集合的所述第二特征向量的所述第一距离;表示第k个所述聚类工况数据集合的所述第二特征向量;表示第i个所述工况段数据集合的所述第一特征向量分别与各所述聚类工况数据集合的所述第二特征向量之间的所述第一距离的所述距离总和;m表示所述聚类工况数据集合的个数;o表示由各所述第二特征向量构成的集合。
9.一种火电机组的数据检测装置,其特征在于,包括:
距离计算模块,用于计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各所述第一距离的距离总和;
比重换算模块,用于分别计算各所述第一距离占所述距离总和的比重;
信息熵换算模块,用于根据各所述比重计算所述第一特征向量对应的所述工况段数据集合的信息熵;
均方差换算模块,用于计算由各所述信息熵构成的信息熵集合的均方差;
判定条件获取模块,用于基于各所述信息熵、所述均方差以及预定判定系数,得到各所述信息熵的概率分布曲线和在所述概率分布曲线上的判定区间;
筛选模块,用于筛选超出所述判定区间对应的信息熵,并将筛选出的信息熵对应的所述工况段数据集合作为异常数据集合。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的火电机组的数据筛选方法。
CN201811564370.2A 2018-12-20 2018-12-20 火电机组的数据筛选方法、装置以及计算机设备 Active CN109670549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811564370.2A CN109670549B (zh) 2018-12-20 2018-12-20 火电机组的数据筛选方法、装置以及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811564370.2A CN109670549B (zh) 2018-12-20 2018-12-20 火电机组的数据筛选方法、装置以及计算机设备

Publications (2)

Publication Number Publication Date
CN109670549A true CN109670549A (zh) 2019-04-23
CN109670549B CN109670549B (zh) 2020-09-01

Family

ID=66145155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811564370.2A Active CN109670549B (zh) 2018-12-20 2018-12-20 火电机组的数据筛选方法、装置以及计算机设备

Country Status (1)

Country Link
CN (1) CN109670549B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110397951A (zh) * 2019-08-01 2019-11-01 广州发展集团股份有限公司 一种基于数据驱动及智能算法的锅炉燃烧优化***、方法和装置
CN111445138A (zh) * 2020-03-26 2020-07-24 华润电力技术研究院有限公司 一种集群级火电机组启动工况对比分析方法、***及装置
CN112098836A (zh) * 2020-08-14 2020-12-18 贵州乌江水电开发有限责任公司东风发电厂 一种基于电气畸变分析的电动机非稳数据排除方法及***
CN112700122A (zh) * 2020-12-29 2021-04-23 华润电力技术研究院有限公司 一种热力***性能计算方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102636991A (zh) * 2012-04-18 2012-08-15 国电科学技术研究院 一种基于模糊集关联规则的火电机组运行参数优化方法
CN106599271A (zh) * 2016-12-22 2017-04-26 江苏方天电力技术有限公司 一种燃煤机组排放监测时序数据异常值检测方法
CN106845012A (zh) * 2017-02-17 2017-06-13 大连理工大学 一种基于多目标密度聚类的高炉煤气***模型隶属度函数确定方法
CN108388922A (zh) * 2018-03-08 2018-08-10 云南电网有限责任公司电力科学研究院 一种用于火电机组主辅设备状态异常的识别方法及***
CN108549220A (zh) * 2018-03-29 2018-09-18 广东电网有限责任公司电力调度控制中心 燃煤机组运行状态实时评估方法及其***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102636991A (zh) * 2012-04-18 2012-08-15 国电科学技术研究院 一种基于模糊集关联规则的火电机组运行参数优化方法
CN106599271A (zh) * 2016-12-22 2017-04-26 江苏方天电力技术有限公司 一种燃煤机组排放监测时序数据异常值检测方法
CN106845012A (zh) * 2017-02-17 2017-06-13 大连理工大学 一种基于多目标密度聚类的高炉煤气***模型隶属度函数确定方法
CN108388922A (zh) * 2018-03-08 2018-08-10 云南电网有限责任公司电力科学研究院 一种用于火电机组主辅设备状态异常的识别方法及***
CN108549220A (zh) * 2018-03-29 2018-09-18 广东电网有限责任公司电力调度控制中心 燃煤机组运行状态实时评估方法及其***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄葆华等: "《相似规则建模方法在火电机组设备状态监测中的应用研究》", 《热能动力工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110397951A (zh) * 2019-08-01 2019-11-01 广州发展集团股份有限公司 一种基于数据驱动及智能算法的锅炉燃烧优化***、方法和装置
CN111445138A (zh) * 2020-03-26 2020-07-24 华润电力技术研究院有限公司 一种集群级火电机组启动工况对比分析方法、***及装置
CN112098836A (zh) * 2020-08-14 2020-12-18 贵州乌江水电开发有限责任公司东风发电厂 一种基于电气畸变分析的电动机非稳数据排除方法及***
CN112700122A (zh) * 2020-12-29 2021-04-23 华润电力技术研究院有限公司 一种热力***性能计算方法、装置及设备

Also Published As

Publication number Publication date
CN109670549B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111210024B (zh) 模型训练方法、装置、计算机设备和存储介质
CN109670549A (zh) 火电机组的数据筛选方法、装置以及计算机设备
CN111178611B (zh) 一种日电量预测的方法
CN113298297B (zh) 一种基于孤立森林与wgan网络的风电输出功率预测方法
CN110596506A (zh) 基于时间卷积网络的变换器故障诊断方法
CN110119447A (zh) 自编码神经网络处理方法、装置、计算机设备及存储介质
CN109325607A (zh) 一种短期风电功率预测方法及***
CN112149909A (zh) 船舶油耗预测方法、装置、计算机设备和存储介质
CN110765587A (zh) 基于动态正则化判别局部保留投影的复杂石化过程故障诊断方法
CN109325020A (zh) 小样本使用方法、装置、计算机设备和存储介质
CN113449919A (zh) 一种基于特征和趋势感知的用电量预测方法及***
CN110634060A (zh) 一种用户信用风险的评估方法、***、装置及存储介质
CN112149750A (zh) 一种供水管网爆管识别数据驱动方法
CN111288973A (zh) 海表流速获取方法、装置、计算机设备和存储介质
CN114004155A (zh) 考虑电力***拓扑结构特征的暂态稳定评估方法及装置
CN115758151A (zh) 联合诊断模型建立方法、光伏组件故障诊断方法
US20230016291A1 (en) Method for predicting coal quality of coal mill based on neural network
CN115859099A (zh) 样本生成方法、装置、电子设备和存储介质
Sharma et al. A semi-supervised generalized vae framework for abnormality detection using one-class classification
CN114330486A (zh) 基于改进Wasserstein GAN的电力***不良数据辨识方法
CN113033898A (zh) 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及***
CN116910526A (zh) 模型训练方法、装置、通信设备及可读存储介质
CN116049671A (zh) 基于多模型融合的燃气仪表故障检测方法、***及设备
CN112364477B (zh) 户外实证预测模型库生成方法及***
CN115081514A (zh) 一种数据不平衡情况下的工业设备故障识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240407

Address after: 518066 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee after: Shenzhen goes out new knowledge property right management Co.,Ltd.

Country or region after: China

Address before: 523000 Room 302, building 18, songkeyuan, Songshanhu high tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee before: CR POWER TECHNOLOGY INSTITUTE Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right