CN112465014A - 一种面向配电物联网的海量安全数据在线聚合方法 - Google Patents

一种面向配电物联网的海量安全数据在线聚合方法 Download PDF

Info

Publication number
CN112465014A
CN112465014A CN202011346272.9A CN202011346272A CN112465014A CN 112465014 A CN112465014 A CN 112465014A CN 202011346272 A CN202011346272 A CN 202011346272A CN 112465014 A CN112465014 A CN 112465014A
Authority
CN
China
Prior art keywords
data
cluster
things
class
power distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011346272.9A
Other languages
English (en)
Other versions
CN112465014B (zh
Inventor
栾奇麒
宋庆武
张腾飞
蒋峰
刘海姣
李春鹏
官国飞
王昕平
田昕泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Jiangsu Fangtian Power Technology Co Ltd
Original Assignee
Nanjing University of Posts and Telecommunications
Jiangsu Fangtian Power Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications, Jiangsu Fangtian Power Technology Co Ltd filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011346272.9A priority Critical patent/CN112465014B/zh
Publication of CN112465014A publication Critical patent/CN112465014A/zh
Application granted granted Critical
Publication of CN112465014B publication Critical patent/CN112465014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Strategic Management (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种面向配电物联网的海量安全数据在线聚合方法,能够解决海量数据信息孤立以及实时新增在线数据无法得到准确聚合分类的问题,提高了对配电物联网新增在线安全数据的聚合准确度,保证配电物联网的计算效率和数据处理的时效性,实现配电物联网的安全可靠运行。

Description

一种面向配电物联网的海量安全数据在线聚合方法
技术领域
本发明涉及配电物联网海量安全数据处理的技术领域,尤其涉及一种面向配电物联网的海量安全数据在线聚合方法
背景技术
配电物联网作为泛在电力物联网在配电领域的成功实践,实现了物联网和配电网的融合,成为了泛在电力物联网建设的主战场,然而,配电物联网终端监测和采集到的海量安全数据,却存在以下问题:数据信息较为孤立,难以得到综合全面的利用,信息孤岛问题严重;各个监测***或装置间缺乏横向沟通,信息交互存在困难;信息的纵向联系不深入,原始离线数据的剖析不到位,对新增的在线数据处理不及时等等。
现有针对配电物联网海量安全数据在线聚合的方法比较匮乏,无法实现对新增在线数据的精准聚合分类,因而造成了配电终端对海量安全数据的聚合准确度不高,对海量安全数据信息处理效率较低,降低了在线数据的利用深度。配电网物联网中的海量安全数据受到多种因素制约,若无法对其离线和在线数据进行准确的聚合分类,将会导致输入到计算中心的信息错误,从而影响配电物联网的安全可靠运行。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,本发明提出一种面向配电物联网的海量安全数据在线聚合方法,能够解决海量数据信息孤立以及实时新增在线数据无法得到准确聚合分类的问题,提高了对配电物联网新增在线安全数据的聚合准确度,保证配电物联网的计算效率和数据处理的时效性,实现配电物联网的安全可靠运行。
本发明所述的一种面向配电物联网的海量安全数据在线聚合方法,包括,
S1:获取海量安全数据并利用Map映射机制对其进行划分,得到等分容量大小的子数据集;
S2:利用MapReduce编程模型对传统的K-means算法进行改进,并将其建立在Hadoop分布式集群上,得到优化的K-means算法;
S3:对于配电物联网的离线海量安全数据,运用优化的K-means算法进行训练,得到种类性质各不相同的类簇;
S4:对于配电物联网的在线新增数据,利用模糊K-means增量算法对其进行聚合;
S5:基于训练后的模糊K-means增量算法模型对在线新增数据进行处理,判定新增在线数据所属的类簇;
S6:利用Reduce机制,对配电物联网离线数据聚合处理和新增在线数据聚合得到的类簇进行合并处理并得到最终结果。
进一步的,S1中,对海量安全数据进行划分还包括,
S1-1:对获取到的海量安全数据进行离散化处理,得到离散化数据;
S1-2:将离散化数据进行矩阵化处理,得到与时间相关的数据矩阵;
S1-3:利用与时间相关的数据矩阵,将获取到的海量安全数据分为海量离线安全数据和新增在线安全数据两部分。
进一步的,所述优化的K-means算法利用离线数据样本与类簇中心的距离计算离线数据样本归属于不同类簇的隶属度,进一步描述了不同的离线数据样本对于类簇中心迭代计算的不同贡献度,且离线样本对于类簇簇心的贡献度与样本和簇心的距离成反比。
进一步的,所述的模糊K-means增量算法定义了相似性和差异性,对于新增在线数据xnew,对其划分完之后,比较xnew***后的类簇i的类内相似性conhesion(Vi)'与未***xne之前的类内相似性cohesion(Vi)的变化,若|cohesion(Vi)'-cohesion(Vi)|<α(α为常数),则不对类簇i进行***;否则,对类簇i进行***。
进一步的,所述隶属度计算公式为,
Figure BDA0002800019350000021
其中,μij是样本Xj对于第i个类簇的隶属度;dij是样本Xj与簇心vi的欧氏距离;m是模糊系数;k是聚类的类簇个数。
进一步的,所述优化的K-means算法具体包括如下步骤,
S2-1:定义类簇个数k;初始化聚类中心vi;距离判断阈值
Figure BDA0002800019350000031
模糊系数m;上下近似加权系数ωl和ωb
S2-2:对每个对象Xj,计算Xj到各个类簇中心点vi的欧氏距离dij,选择o={i|dij=min({dij}),i=1,2...,k,如果
Figure BDA0002800019350000032
Figure BDA0002800019350000033
Figure BDA0002800019350000034
否则xjCi ,对于所有类簇,
Figure BDA0002800019350000035
其中,o表示欧式距离最小值的类簇集合、o′表示两个不同的类簇欧式距离中较小的类簇集合,Ci 和Ci'表示两个不同的,
Figure BDA0002800019350000036
Figure BDA0002800019350000037
表示类簇Ci 和Ci'的边界区域,
Figure BDA0002800019350000038
为类簇Ci 及其边界区域的并集;
S2-3:利用公式1计算每个样本的对于每个类簇的隶属度;
S2-4:利用公式2迭代计算每个类簇的簇心;
Figure BDA0002800019350000039
其中,μij是样本Xj对于第i个类簇的隶属度;
S2-5:如果簇心不再发生变化或者达到设定的迭代次数,则算法终止,否则返回S2-2。
进一步的,所述对海量离线安全数据的处理还包括,将经过优化的K-means算法处理的各子数据集的结果进行识别并输出类型,得到不同的类簇结果。
进一步的,所述相似性是指同一类簇内数据之间的相似性,差异性是指不同类簇数据之间的差异性,相似性和差异性分别是由凝聚度(cohesion)和分离度(separation)公式来体现,凝聚度和分离度公式如下,
Figure BDA00028000193500000310
separation(Vi,Vj)=d(vi,vj) 公式4
其中,Vi和Vj表示不同的类簇,vi和vj分别为类簇Vi、Vj的中心,x表示类簇Vi的某一中心,cohesion(Vi)表示类簇Vi内数据的相似性,separation(Vi,Vj)表示类簇Vi和Vj之间的差异性。
进一步的,所述采用模糊K-means增量算法对配电物联网新增在线数据的划分步骤如下,
S5-1:计算当前离线数据样本中任意2个类簇间的分离度separation(Vi,Vj);
S5-2:计算新增在线数据点xnew与各类簇中心点之间的距离:Di=d(xnew,vi)。取阈值
Figure BDA0002800019350000041
S5-3:如果Di>maxdist,则以xnew为中心点形成一个新的类簇。
S5-4:如果Di<maxdist,则xnew属于第i类。
S5-5:如果Di<maxdist且Dj<maxdist,则合并类簇i和类簇j,此时xnew属于合并后的类簇。
本发明的有益效果:本发明借助Hadoop平台,通过MapReduce并行编程模型,将K-means聚类算法进行优化,并将其建立在Hadoop分布式集群上,基于分布式存储和并行计算对海量离线安全数据进行处理,实现了对离线数据的准确聚合和分类,而后采用模糊K-means增量聚类算法,对配电物联网中的时时新增在线数据进行聚合,提高了数据的聚合准确度,满足了对新增在线数据的聚合实时处理要求,使得配电物联网海量安全数据的利用率和准确度更高,为配电物联网的安全运行提供了可靠的保证。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1表示:配电物联网海量安全数据在线聚合过程图
图2表示:改进的K-means聚类算法示意图
图3表示:模糊K-means增量算法对新增在线数据的处理流程图
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1的示意,示意为本实施例提出的面向配电物联网的海量安全数据在线聚合方法,该方法包括以下步骤,
S1:获取海量安全数据并利用Map映射机制对其进行划分,得到等分容量大小的子数据集;
具体的,根据目标要求,需要获得的海量安全数据包括电流、电压、功率等,利用Map映射机制将海量安全数据的集合按照等分的容量大小划分为子数据集1、子数据集2,...,子数据n,并通过任务分配节点分配到各任务执行节点。
其中,对海量安全数据进行划分还包括以下步骤,
对获取到的海量安全数据进行离散化处理,得到离散化数据;其中,离散化处理的方法包括等距、等频处理方法,对于采集时即为离散化的数据则不需要进行离散化处理,例如开关量。
将离散化数据进行矩阵化处理,得到与时间相关的数据矩阵。具体的,假设向量N为某一设备在某一时刻采集并离散化处理后的数据,且N=(n1,n2,Kni,K,nm,t)。其中,m表示维数,ni表示第i维样本数据取值,t表示采集时刻,可以得到该时刻采集到的数据矩阵Nq为:
Figure BDA0002800019350000061
则可以得到在某一时间段内多个设备所收集到的数据矩阵M:
Figure BDA0002800019350000062
进而,以t时刻为分界点,则t时刻以前获得的所有数据即为离线数据,t时刻后的每一个数据量都可看作在线新增数据。
S2:对传统的K-means聚类算法进行改进,并将其建立在Hadoop分布式集群上;
参照图2的示意,为改进的K-means聚类算法示意图,其中,将能够确定归属于一个类簇的数据样本划分到该类簇对应的下近似集,而将具有不确定归属关系的数据样本划分到两个或以上类簇的边界区域。在优化的K-means算法中,对聚类对象做如下规定:
待聚类对象最多只能确定属于一个类簇的下近似集;
处于边界区域的聚类对象可以属于两个或多个类簇的上近似集;
每个类簇由下近似集和边界区域两部分组成;
下近似集和边界区域构成每个类簇的上近似集。
S3:对优化的K-means算法应用到配电物联网的海量离线安全数据样本子集中进行训练;
S4:基于训练后的模型对经过Map划分的子数据集进行处理,判定数据的类簇;
具体的,所述优化的K-means算法对子数据集进行处理流程包括,
设定类簇个数k;初始化聚类中心vi;距离判断阈值
Figure BDA0002800019350000071
模糊系数m;上下近似加权系数ωl和ωb
对每个对象Xj,计算Xj到各个类簇中心点vi的欧氏距离dij。选择o={i|dij=min({dij})},i=1,2...,k,如果
Figure BDA0002800019350000072
Figure BDA0002800019350000073
Figure BDA0002800019350000074
否则xjCi 。对于所有类簇,
Figure BDA0002800019350000075
利用公式1计算每个样本的对于每个类簇的隶属度。
Figure BDA0002800019350000076
利用公式2迭代计算每个类簇的簇心。
Figure BDA0002800019350000077
如果簇心不再发生变化或者达到设定的迭代次数,则算法终止,否则返回重新计算Xj到各个类簇中心点vi的欧氏距离dij
将经过模型处理的各子数据集的结果进行识别并输出类型,得到不同的类簇结果。
S5:对于新增的在线数据,使用模糊K-means增量算法进行划分;
参照图3的示意,为模糊K-means增量算法对新增在线数据的处理流程图,具体步骤如下,
计算当前离线数据样本中任意2个类簇间的分离度separation(Vi,Vj);
计算新增在线数据点xnew与各类簇中心点之间的距离:Di=d(xnew,vi)。取阈值
Figure BDA0002800019350000081
如果Di>maxdist,则以xnew为中心点形成一个新的类簇。
如果Di<maxdist,则xnew属于第i类。
如果Di<maxdist且Dj<maxdist,则合并类簇i和类簇j,此时xnew属于合并后的类簇。
S6:利用Reduce机制,对离线聚合和在线聚合进行合并处理并得到最终结果。
通过多个Reduce函数可以把每一个节点计算处理得到的类簇进行汇总并得到最终的结果。

Claims (9)

1.一种面向配电物联网的海量安全数据在线聚合方法,其特征在于:包括,
S1:获取海量安全数据并利用Map映射机制对其进行划分,得到等分容量大小的子数据集;
S2:利用MapReduce编程模型对传统的K-means算法进行改进,并将其建立在Hadoop分布式集群上,得到优化的K-means算法;
S3:对于配电物联网的离线海量安全数据,运用优化的K-means算法进行训练,得到种类性质各不相同的类簇;
S4:对于配电物联网的在线新增数据,利用模糊K-means增量算法对其进行聚合;
S5:基于训练后的模糊K-means增量算法模型对在线新增数据进行处理,判定新增在线数据所属的类簇;
S6:利用Reduce机制,对配电物联网离线数据聚合处理和新增在线数据聚合得到的类簇进行合并处理并得到最终结果。
2.如权利要求1所述的一种面向配电物联网的海量安全数据在线聚合方法,其特征在于:S1中,对海量安全数据进行划分还包括,
S1-1:对获取到的海量安全数据进行离散化处理,得到离散化数据;
S1-2:将离散化数据进行矩阵化处理,得到与时间相关的数据矩阵;
S1-3:利用与时间相关的数据矩阵,将获取到的海量安全数据分为海量离线安全数据和新增在线安全数据两部分。
3.如权利要求1或2所述的一种面向配电物联网的海量安全数据在线聚合方法,其特征在于:所述优化的K-means算法利用离线数据样本与类簇中心的距离计算离线数据样本归属于不同类簇的隶属度,进一步描述了不同的离线数据样本对于类簇中心迭代计算的不同贡献度,且离线样本对于类簇簇心的贡献度与样本和簇心的距离成反比。
4.如权利要求1或2所述的一种面向配电物联网的海量安全数据在线聚合方法,其特征在于:所述的模糊K-means增量算法定义了相似性和差异性,对于新增在线数据xnew,对其划分完之后,比较xnew***后的类簇i的类内相似性conhesion(Vi)'与未***xnew之前的类内相似性cohesion(Vi)的变化,若|cohesion(Vi)'-cohesion(Vi)|<α(α为常数),则不对类簇i进行***;否则,对类簇i进行***。
5.如权利要求3所述的一种面向配电物联网的海量安全数据在线聚合方法,其特征在于:所述隶属度计算公式为,
Figure FDA0002800019340000021
其中,μij是样本Xj对于第i个类簇的隶属度;dij是样本Xj与簇心vi的欧氏距离;m是模糊系数;k是聚类的类簇个数。
6.如权利要求3所述的面向配电物联网的海量安全数据在线聚合方法,其特征在于:所述优化的K-means算法具体包括如下步骤,
S2-1:定义类簇个数k;初始化聚类中心vi;距离判断阈值ζ;模糊系数m;上下近似加权系数ωl和ωb
S2-2:对每个对象Xj,计算Xj到各个类簇中心点vi的欧氏距离dij,选择o={i|dij=min({dij}),i=1,2...,k,如果
Figure FDA0002800019340000022
Figure FDA0002800019340000023
Figure FDA0002800019340000024
否则xjCi ,对于所有类簇,
Figure FDA0002800019340000025
其中,o表示欧式距离最小值的类簇集合、o′表示两个不同的类簇欧式距离中较小的类簇集合,Ci 和Ci'表示两个不同的,
Figure FDA0002800019340000026
Figure FDA0002800019340000027
表示类簇Ci 和Ci'的边界区域,
Figure FDA0002800019340000028
为类簇Ci 及其边界区域的并集;
S2-3:利用公式1计算每个样本的对于每个类簇的隶属度;
S2-4:利用公式2迭代计算每个类簇的簇心;
Figure FDA0002800019340000029
其中,μij是样本Xj对于第i个类簇的隶属度;
S2-5:如果簇心不再发生变化或者达到设定的迭代次数,则算法终止,否则返回S2-2。
7.如权利要求3所述的一种面向配电物联网的海量安全数据在线聚合方法,其特征在于:所述对海量离线安全数据的处理还包括,将经过优化的K-means算法处理的各子数据集的结果进行识别并输出类型,得到不同的类簇结果。
8.如权利要求4所述的一种面向配电物联网的海量安全数据在线聚合方法,其特征在于:所述相似性是指同一类簇内数据之间的相似性,差异性是指不同类簇数据之间的差异性,相似性和差异性分别是由凝聚度(cohesion)和分离度(separation)公式来体现,凝聚度和分离度公式如下,
Figure FDA0002800019340000031
separation(Vi,Vj)=d(vi,vj) 公式4
其中,Vi和Vj表示不同的类簇,vi和vj分别为类簇Vi、Vj的中心,x表示数据样本,cohesion(Vi)表示类簇Vi内数据的相似性,separation(Vi,Vj)表示类簇Vi和Vj之间的差异性。
9.如权利要求4所述的面向配电物联网的海量安全数据在线聚合方法,其特征在于:所述采用模糊K-means增量算法对配电物联网新增在线数据的划分步骤如下,
S5-1:计算当前离线数据样本中任意2个类簇间的分离度separation(Vi,Vj);
S5-2:计算新增在线数据点xnew与各类簇中心点之间的距离:Di=d(xnew,vi)。取阈值
Figure FDA0002800019340000032
S5-3:如果Di>maxdist,则以xnew为中心点形成一个新的类簇。
S5-4:如果Di<maxdist,则xnew属于第i类。
S5-5:如果Di<maxdist且Dj<maxdist,则合并类簇i和类簇j,此时xnew属于合并后的类簇。
CN202011346272.9A 2020-11-26 2020-11-26 一种面向配电物联网的海量安全数据在线聚合方法 Active CN112465014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011346272.9A CN112465014B (zh) 2020-11-26 2020-11-26 一种面向配电物联网的海量安全数据在线聚合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011346272.9A CN112465014B (zh) 2020-11-26 2020-11-26 一种面向配电物联网的海量安全数据在线聚合方法

Publications (2)

Publication Number Publication Date
CN112465014A true CN112465014A (zh) 2021-03-09
CN112465014B CN112465014B (zh) 2022-06-14

Family

ID=74808560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011346272.9A Active CN112465014B (zh) 2020-11-26 2020-11-26 一种面向配电物联网的海量安全数据在线聚合方法

Country Status (1)

Country Link
CN (1) CN112465014B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850629A (zh) * 2015-05-21 2015-08-19 杭州天宽科技有限公司 一种基于改进k-means算法的海量智能用电数据分析方法
CN109067612A (zh) * 2018-07-13 2018-12-21 哈尔滨工程大学 一种基于增量聚类算法的在线流量识别方法
CN111898647A (zh) * 2020-07-07 2020-11-06 贵州电网有限责任公司 一种基于聚类分析的低压配电设备误告警识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850629A (zh) * 2015-05-21 2015-08-19 杭州天宽科技有限公司 一种基于改进k-means算法的海量智能用电数据分析方法
CN109067612A (zh) * 2018-07-13 2018-12-21 哈尔滨工程大学 一种基于增量聚类算法的在线流量识别方法
CN111898647A (zh) * 2020-07-07 2020-11-06 贵州电网有限责任公司 一种基于聚类分析的低压配电设备误告警识别方法

Also Published As

Publication number Publication date
CN112465014B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
Xia et al. Research on parallel adaptive canopy-k-means clustering algorithm for big data mining based on cloud platform
CN105069122B (zh) 一种基于用户行为的个性化推荐方法及其推荐装置
CN109949176B (zh) 一种基于图嵌入的社交网络中异常用户检测方法
CN112800231B (zh) 电力数据校验方法、装置、计算机设备和存储介质
CN108280472A (zh) 一种基于局部密度和聚类中心优化的密度峰聚类方法
CN110781406A (zh) 一种基于变分自动编码器的社交网络用户多属性推断方法
CN103838803A (zh) 一种基于节点Jaccard相似度的社交网络社团发现方法
CN108833302B (zh) 云环境下基于模糊聚类及严格双边匹配的资源分配方法
CN114418035A (zh) 决策树模型生成方法、基于决策树模型的数据推荐方法
CN109726749A (zh) 一种基于多属性决策的最优聚类算法选择方法和装置
CN108900320B (zh) 一种互联网测试床拓扑结构大比例规模缩减方法及装置
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及***
CN117078048A (zh) 基于数字孪生的智慧城市资源管理方法及***
CN113836707A (zh) 基于加速属性网络嵌入算法的电力***社区探测方法和装置
Zhang et al. A novel large group decision-making method via normalized alternative prediction selection
He et al. Improved K‐means algorithm for clustering non‐spherical data
Manolopoulou et al. BPEC: An R package for Bayesian phylogeographic and ecological clustering
CN112465014B (zh) 一种面向配电物联网的海量安全数据在线聚合方法
Li et al. Online course learning outcome evaluation method based on big data analysis
CN105791010A (zh) 基于用户隐含特征和协同过滤的服务质量QoS预测方法
CN111159543B (zh) 基于多级视觉相似度的个性化旅游地点推荐方法
CN112214928A (zh) 一种低压配电网多源数据处理与融合方法及***
CN109858543B (zh) 基于低秩稀疏表征和关系推断的图像可记忆度预测方法
CN115221955A (zh) 基于样本差异分析的多深度神经网络参数融合***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant