CN116109176A - 一种基于协同聚类的报警异常预测方法和*** - Google Patents
一种基于协同聚类的报警异常预测方法和*** Download PDFInfo
- Publication number
- CN116109176A CN116109176A CN202211647685.XA CN202211647685A CN116109176A CN 116109176 A CN116109176 A CN 116109176A CN 202211647685 A CN202211647685 A CN 202211647685A CN 116109176 A CN116109176 A CN 116109176A
- Authority
- CN
- China
- Prior art keywords
- cluster
- alarm
- row
- clustering
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000002159 abnormal effect Effects 0.000 claims abstract description 44
- 230000002068 genetic effect Effects 0.000 claims abstract description 23
- 238000011084 recovery Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 56
- 239000011159 matrix material Substances 0.000 claims description 30
- 210000000349 chromosome Anatomy 0.000 claims description 17
- 230000014509 gene expression Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 8
- 238000005192 partition Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 abstract description 6
- 239000007789 gas Substances 0.000 description 15
- 230000035772 mutation Effects 0.000 description 12
- 231100000331 toxic Toxicity 0.000 description 7
- 230000002588 toxic effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 3
- 230000002146 bilateral effect Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000013501 data transformation Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- ATUOYWHBWRKTHZ-UHFFFAOYSA-N Propane Chemical compound CCC ATUOYWHBWRKTHZ-UHFFFAOYSA-N 0.000 description 2
- 238000007334 copolymerization reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- 238000002759 z-score normalization Methods 0.000 description 2
- 108700003861 Dominant Genes Proteins 0.000 description 1
- OTMSDBZUPAUEDD-UHFFFAOYSA-N Ethane Chemical compound CC OTMSDBZUPAUEDD-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000001273 butane Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002917 insecticide Substances 0.000 description 1
- 239000002085 irritant Substances 0.000 description 1
- 231100000021 irritant Toxicity 0.000 description 1
- 239000006233 lamp black Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- IJDNQMDRQITEOD-UHFFFAOYSA-N n-butane Chemical compound CCCC IJDNQMDRQITEOD-UHFFFAOYSA-N 0.000 description 1
- OFBQJSOFQDEBGM-UHFFFAOYSA-N n-pentane Natural products CCCCC OFBQJSOFQDEBGM-UHFFFAOYSA-N 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000001294 propane Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Emergency Alarm Devices (AREA)
Abstract
本发明提供了一种基于协同聚类的报警异常预测方法和***,包括:获取当前报警数据;所述当前报警数据包括多个属性,所述属性至少包括报警时间、报警浓度、恢复状态、恢复时间和恢复时长;基于遗传算法,确定报警正常簇的簇中心和报警异常簇的簇中心;确定所述当前报警数据分别与所述报警正常簇的簇中心和所述报警异常簇的簇中心的相似度;基于所述相似度,将相似度高的簇的标签类别作为所述当前报警数据的预测结果;所述标签类别包括报警正常和报警异常;以通过协同聚类集成算法,对报警前的空气数据进行预测,使得可以利用历史空气数据的协同信息,预测当前报警是否为误报。
Description
技术领域
本发明涉及空气数据预测技术领域,具体而言,涉及一种基于协同聚类的报警异常预测方法和***。
背景技术
随着我国工业化的发展,工业化给人们带来了吃穿住行上的便利,在人们享受工业化带来的福利的同时,工业化却对生态环境造成了巨大的破坏。随着我国工业化进程的加快,家庭或工厂内的有害气体的污染问题愈加严重,市面上常用的气体泄露报警器可以解决大部分有毒有害气体的泄露检测问题,但不能解决传感器的误报问题,例如家庭厨房用气中,复杂的厨房环境下包括厨房水汽、杀虫剂、油漆刺激性气体、油烟等,会对传感器造成误判导致错误的报警,造成不必要的上门服务,浪费燃气公司资源。
有鉴于此,本发明提出了一种基于协同聚类的报警异常预测方法和***,以通过协同聚类集成算法,对报警前的空气数据进行预测,使得可以利用历史空气数据的协同信息,预测当前报警是否为误报。
发明内容
本发明的目的在于提供一种基于协同聚类的报警异常预测方法,包括:对空气的时间序列数据进行采样,得到空气数据集X;对所述空气数据集X执行协同聚类,得到协同聚类矩阵B;所述协同聚类矩阵B为所述空气数据集X的行向量和列向量的标签;对所述协同聚类矩阵B进行编码,得到隶属度BM;将所述隶属度BM作为个体,对所述个体执行遗传算法,得到最优协同聚类结果;基于所述最优协同聚类结果,确定空气数据的预测结果;所述预测结果为空气中有毒有害气体在未来时间的含量。
进一步的,还包括:获取历史空气数据;对所述历史空气数据进行预处理,得到所述时间序列数据。
进一步的,所述对空气的时间序列数据进行采样,得到空气数据集X,包括:确定截取步长M;基于所述截取步长M截取所述时间序列数据,得到N个时间序列样本;其中N大于等于1。
进一步的,所述对所述历史空气数据集X执行协同聚类,得到协同聚类矩阵B,包括:基于所述空气数据集X的行向量,得到X的基于对象的对象表示X1;基于所述空气数据集X和列向量,得到X的基于特征的特征表示X2;将所述对象表示X1和所述特征表示X2输入协同聚类器,协同聚类器输出所述协同聚类矩阵B。
进一步的,所述对所述协同聚类矩阵B进行编码,得到隶属度BM,包括:基于所述协同聚类矩阵B,确定聚类中心;所述聚类中心的表达式为:
其中,vk表示第k个行簇的中心,Rk表示行簇的集合,xn表示X的第n个行向量,vs表示第s个列簇的中心,Rs表示列簇的集合,ym表示X的第m个列向量,NS和MS分别表示用于计算所述行簇和列簇的聚类中心的样本总数;基于所述聚类中心,确定所述隶属度BM;所述隶属度BM的表达式为:
其中,μnk表示xn在第k个行簇中的隶属度,xn表示X的第n个行向量,L表示行/列簇数,λ表示用于控制模糊重叠程度的模糊划分矩阵指数,μms表示ym在第s个列簇中的隶属度,ym表示X的第m个列向量,vi代表第i个行/列簇的中心;基于所述隶属度BM,更新所述聚类中心;更新所述聚类中心的表达式为:
其中,N表示所述空气数据集X的行向量的总数,M表示所述空气数据集X的列向量的总数。
进一步的,所述将所述隶属度BM作为个体,对所述个体执行遗传算法,得到最优协同聚类结果,包括:对原始个体进行优化并选择,得到多个第一个体;对所述多个第一个体进行交叉和变异,得到多个第二个体;基于所述适应度函数对所述多个第一个体和所述多个第二个体进行选择,得到多个第三个体;将所述多个第三个体作为所述多个第一个体,重复执行个体筛选的过程,直到迭代次数大于阈值或所述适应度函数收敛,得到多个最终个体;计算所述多个最终个体的类内距离,并将取值最小的个体作为所述最优个体;对所述最优个体进行解码,得到所述最优协同聚类结果。
进一步的,所述适应度函数的表达式为:
其中,p代表第p条染色体,f1(x)和f2(y)分别代表行和列的模糊聚类簇内的距离,f3(x)与f4(c)分别代表簇内以及通过协同聚类生成的簇之间的距离。
进一步的,所述f1(x)和f2(y)的表达式分别为:
其中,N表示所述空气数据集X的行向量的总数,L表示行/列簇数,μnk表示xn在第k个行簇中的隶属度,λ表示用于控制模糊重叠程度的模糊划分矩阵指数,xn表示X的第n个行向量,vk表示第k个行簇的中心,M表示所述空气数据集X的列向量的总数,ym表示X的第m个列向量,μms表示ym在第s个列簇中的隶属度,vs表示第s个列簇的中心。
进一步的,所述f3(x)与f4(c)的表达式分别为:
其中,L表示行/列簇数,k表示被选择的行簇,s表示被选择的列簇,Rk表示行簇的集合,Rs表示列簇的集合,xnm表示属于第n个行簇第m个列簇的样本,vks表示由行簇k和列簇s交叉得到的块簇的中心,k′表示被选择的另一行簇,s′表示被选择的另一列簇,vk′s′表示由行簇k′和列簇s′交叉得到的块簇的中心。
本发明的目的在于提供一种基于协同聚类的报警异常预测***,包括采样模块、聚类模块、编码模块、迭代模块和预测模块;所述采样模块用于对空气的时间序列数据进行采样,得到空气数据集X;所述聚类模块用于对所述空气数据集X执行协同聚类,得到协同聚类矩阵B;所述协同聚类矩阵B为所述空气数据集X的行向量和列向量的标签;所述编码模块用于对所述协同聚类矩阵B进行编码,得到隶属度BM;所述迭代模块用于将所述隶属度BM作为个体,对所述个体执行遗传算法,得到最优协同聚类结果;所述预测模块用于基于所述最优协同聚类结果,确定空气数据的预测结果;所述预测结果为空气中有毒有害气体在未来时间的含量。
本发明实施例的技术方案至少具有如下优点和有益效果:
本说明书中的一些实施例通过将多目标遗传算法与协同聚类集成有机结合,使得基于多目标遗传模型的协同聚类集成算法(GMCCE)超越基本的共聚类结果,具有挖掘有效聚类的巨大潜力,以更好地用于空气预测,根据历史空气数据,确定报警是否异常,以及时作出处理,避免资源浪费。
本说明书中的一些实施例通过使基于多目标遗传模型的协同聚类集成算法(GMCCE)结合双边模糊聚类和共聚类,最小化了簇内的距离,最大化了簇间的距离,因此具有更好的聚类效果,提高了预测的准确度。
附图说明
图1为本发明一些实施例提供的一种基于协同聚类的报警异常预测方法的示例性流程图;
图2为本发明一些实施例提供的确定报警正常簇的簇中心和报警异常簇的簇中心的示例性示意图;
图3为本发明一些实施例提供的选择用于迭代的个体的示例性示意图;
图4为本发明一些实施例提供的一种基于协同聚类的报警异常预测***的示例性模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
图1为本发明一些实施例提供的一种基于协同聚类的报警异常预测方法的示例性流程图。在一些实施例中,流程100可以由***400执行。如图1所述,流程100可以包括以下内容:
步骤110,获取当前报警数据。在一些实施例中,步骤110可以由获取模块410执行。
当前报警数据可以是指与当前报警相关的各种数据。例如,当前报警数据可以包括当前报警前一段时间的空气数据、报警时间、报警浓度、恢复状态、恢复时间和恢复时长等。可以将报警时间、报警浓度、恢复状态、恢复时间和恢复时长作为当前报警数据的属性。在一些实施例中,当前报警数据可以通过设置在报警器周围的各种传感器获取。
步骤120,基于遗传算法,确定报警正常簇的簇中心和报警异常簇的簇中心。在一些实施例中,步骤120可以由簇中心确定模块420执行。
报警正常可以是指空气确实出现异常进行的报警。报警异常可以是指空气未发生异常的报警。通过对历史报警正常的数据和历史报警异常的数据得到报警正常簇和报警异常簇,通过对报警异常的数据和报警正常的数据进行聚类,得到报警正常簇的簇中心和报警异常簇的簇中心。
在一些实施例中,确定报警正常簇的簇中心和报警异常簇的簇中心的更多内容,参见图2及其相关描述。
步骤130,确定当前报警数据分别与报警正常簇的簇中心和报警异常簇的簇中心的相似度。在一些实施例中,步骤130可以由相似度确定模块430执行。
步骤140,基于相似度,将相似度高的簇的标签类别作为当前报警数据的预测结果。在一些实施例中,步骤140可以由预测结果确定模块440执行。
例如,当当前报警数据与报警正常簇的簇中心的相似度高于报警异常簇的簇中心时,可以认为当前报警的预测结果为报警正常。
在一些实施例中,当报警异常时,关闭警报器,并对用户和/或警报器厂商进行报警装置损坏提醒。当报警正常时,将异常信息传输给燃气公司,提醒燃气公司实施上门维修。
图2为本发明一些实施例提供的确定报警正常簇的簇中心和报警异常簇的簇中心的示例性示意图。如图2所示,流程200可以包括以下内容:
步骤210,对历史报警前的空气的时间序列数据进行采样,得到空气数据集X。
时间序列数据可以是指需要进行空气检测的区域在不同时间产生的与空气相关的数值。例如,厨房或厂房等。在一些实施例中,可以按时间顺序对报警前的空气数据进行排列得到时间序列数据。例如,获取历史空气数据;对历史空气数据进行预处理,得到时间序列数据。历史空气数据可以是指待检测区域在报警时间之前的空气数据。空气数据可以包括有毒有害气体在空气中的含量。例如,空气中甲烷、乙烷、丙烷、氮和丁烷等的含量。在一些实施例中,可以通过各类传感器获取历史空气数据。
预处理可以包括对历史空气数据进行数据清理操作和/或数据变换操作。其中,数据清理可以包括填写缺失值和删除噪声。对于缺失值,可以使用忽略元组、人工填写缺失值等数据清理的方法,对历史空气数据中缺失的数据进行补充。缺失值的填充方法包括但不限于就近填充法,即采取就近原则将缺失值填充为相邻的值。对于噪声,可以通过分享、回归或离群点分析等方法来进行处理。对于错误数据,可以通过观察和画图等数据分析的方法找到错误的数据。在一些实施例中,可以采用箱型图分析错误数据。其中,历史空气数据的箱型图的上界和下界的计算公式为:
upperbound=P+1.5(P-Q)
lowerbound=Q-1.5(P-Q)
其中,upperbound表示历史空气数据的上界,l owerbound表示历史空气数据的下界,P表示对历史空气数据按从小到大排序后的上四分位数,Q表示对历史空气数据从小到大排序后的下四分位数。
将超出上界和下界的历史空气数据作为噪声(异常值),对噪声数据的处理和缺失值相似。在一些实施例中,为了检验鲁棒性,只删除部分异常值。例如,删除偏离过大的值。
数据变换可以包括但不限于对历史空气数据进行归一化。例如,对历史空气数据执行Mi n-Max标准化(离差标准化)或Z-score标准化。其中,Mi n-Max标准化的公式为:
X*=(x-min)/(max-min)
其中,mi n表示历史空气数据中每种有毒有害气体的最小值,max表示历史空气数据中每种有毒有害气体的最大值。通过离差标准化,将原数据缩放到[0,1]之间。
Z-score标准化的公式为:
X*=(x-μ)/σ
其中,μ表示历史空气数据变量中的均值,σ表示历史空气数据变量中的标准差。空气数据变量为空气中每种有毒有害气体的含量。
空气数据集X包括多个时间段的空气数据。在一些实施例中,可以确定截取步长M;基于截取步长M截取时间序列数据,得到N个时间序列样本;其中N大于等于1。例如,将归一化后时间序列数据通过固定的步长M截取为单个的时间序列采样,从最近时间开始顺着时间轴向前采样,共计采取N个样本。这样就得到了具有N个样本和M个属性的空气数据集X。
步骤220,对空气数据集X执行协同聚类,得到协同聚类矩阵B;协同聚类结果为空气数据集X的行向量和列向量的标签。
在一些实施例中,对空气数据集X执行协同聚类,包括基于空气数据集X的行向量,得到X的基于对象的对象表示X1;基于空气数据集X的列向量,得到X的基于特征的特征表示X2;将对象表示X1和特征表示X2输入协同聚类器,协同聚类器输出协同聚类结果;基于多个所述协同聚类结果,得到所述协同聚类矩阵B。
对于空气数据集X,对X执行行向量表示,得到X1={x1,x2,…xn}表示X的基于对象的表示,其中xn是X的第n行向量,其表示的是某一个时间序列采样。对X执行列向量表示,得到X2={y1,y2,…ym}表示X的基于特征的表示,其中ym是X的第m列向量,其表示的是所有时间序列切片的某一时刻的值。
协同聚类器BC={BCi},i∈{1,2,…,P}用于协同聚类X,从而得到协同聚类矩阵B=Bij},i∈{1,2,…,P},j∈{1,2,…,N+M},其中P是协同聚类器的数量,当j≤N时Bij是X的行标签,当j>N时为列标签,这是由协同聚类结果Bij推出的。过程可以表述为:
其中,N表示空气数据集X的行向量的总数,M表示空气数据集X的列向量的总数。
步骤230,对协同聚类矩阵B进行编码,得到隶属度BM。
对于行向量,隶属度BM是指行向量隶属于正常数据还是异常数据的程度;对于列向量,隶属度BM是指列向量隶属于有害气体还是无害气体的程度。
每个协同聚类结果都以隶属度BMi的形式进行编码,在遗传算法中,BMi为可以以染色体形式表示的个体,而BMib是一个基因。该过程可以表述为:
其中,Encode表示编码器,L是数据集簇的数量(行和列),由于要将数据分为两个簇(正常和异常),所以这里L可以是一个常量,其值为L=2。在一些实施例中,行簇数量与列簇数量有相同的值。
在一些实施例中,可以基于协同聚类矩阵B,确定聚类中心;聚类中心的表达式为:
其中,vk表示第k个行簇的中心,Rk表示行簇的集合,xn表示X的第n个行向量,vs表示第s个列簇的中心,Rs表示列簇的集合,ym表示X的第m个列向量,NS和MS分别表示用于计算所述行簇和列簇的聚类中心的样本总数;
基于聚类中心,确定隶属度BM;隶属度BM的表达式为:
其中,μnk表示xn在第k个行簇中的隶属度,xn表示X的第n个行向量,L表示行/列簇数,λ表示用于控制模糊重叠程度的模糊划分矩阵指数,μms表示ym在第s个列簇中的隶属度,ym表示X的第m个列向量,vi代表第i个行/列簇的中心;
基于隶属度BM,更新聚类中心;更新聚类中心的表达式为:
其中,N表示空气数据集X的行向量的总数,M表示空气数据集X的列向量的总数。
步骤240,将隶属度BM作为个体,对个体执行遗传算法,得到最优协同聚类结果;最优协同聚类结果用于区别报警正常数据和报警异常数据。
最优协同聚类结果可以是指一段时间序列的最优聚类结果。例如,报警正常的最优时间序列聚类结果和报警异常的最优时间序列聚类结果。在一些实施例中,得到最优协同聚类结果可以包括:
对原始个体进行优化并选择,得到多个第一个体。
在遗传算法中,染色体通常用来表示一个解。协同聚类的每个结果都是大小为N+M的标签,其中前N个是行标签,后M个是列标签。由于隶属度将用于模糊聚类,通过迭代计算隶属度,将每个个体的染色体编码为隶属度BM={BMij},i∈{1,2,…,P},j∈{1,2,…,(N+M)×L},其中,P是总体的大小,对于每个BMi,前N×L元素是行聚类的隶属度,而最后M×L是列聚类的隶属度。染色体表示为大小为N×L+M×L的向量。例如,有L个行簇的数据集的协同聚类结果用B1表示为:
B1=rl1rl2…rlN∣cl1cl2…clM
其中,rli表示行聚类的标签,cli表示列聚类的标签。因此,竖线之前的部分是行聚类的标签,竖线之后的部分是列聚类的标签。编码操作后,染色体为:
BM1=μ11…μ1L…μN1…μNL∣μ11…μ1L…μM1…μML
其中,前面的部分是行的隶属度,后面的部分是列的隶属度。
在一些实施例中,可以利用NSGA-III(Non-dominated sorting geneticalgorithm-III)算法优化个体并选择最佳个体。例如,可以利用轮盘赌选择来选择优化后的原始个体,得到用于第一次迭代的父染色体。
对多个第一个体进行交叉和变异,得到多个第二个体。
交叉是指由协同聚类结果生成的隶属度的组合,它可以组合父母的显性基因,生成更接近最优解的新个体。每个染色体都有两个隶属度矩阵,父代用和K(μi)和K(μj)表示:
K(μi)={K(μir),K(μic)}K(μj)={K(μjr),K(μjc)}
其中,每个父代染色体由行和列的隶属度组成。交叉后,结果为:
S(μi)={S(μir),S(μic)}S(μj)={S(μjr),S(μjc)}
其中每个子代染色体由行和列组成。在交叉过程中,首先考虑行隶属度的组合:
其中,R是与隶属度矩阵大小相同的向量,而其元素是从0到1的随机数。列簇的交叉公式与行簇类似。
然后,对交叉后的个体进行归一化(离差标准化)操作,以确保对象的隶属度总和为1。
变异的目的是增加协同聚类集成结果的多样性。在突变操作中,隶属度中某些位置的基因发生了变化。它可以提高遗传算法的局部优化能力。
由于后代的数量与父母相同,所有后代都是通过交叉或变异过程产生的。因此,交叉的概率和变异的概率之和为1,即
Pc+Pm=1
其中,Pc是交叉的概率,Pm是突变的概率。突变过程与突变率rm密切相关,它决定了会发生变化的基因的数量。对于行隶属度和列隶属度,将分别更改rm×N和rM×M个值。在一些实施例中,突变位置根据随机数生成器生成的数字确定。变异过程是在原始值的适当范围内添加一个随机数。然后进行归一化操作,以确保对象的隶属度之和为1。
基于适应度函数对多个第一个体和多个第二个体进行选择,得到多个第三个体。
适应度函数有四个目标,其中两个是双边模糊聚类,另外两个是关于协同聚类。目标是最小化这四项,适应度函数的表达式可以为:
其中,p代表第p条染色体,f1(x)和f2(y)分别代表行和列的模糊聚类簇内的距离,f3(x)与f4(c)分别代表簇内以及通过协同聚类生成的簇之间的距离。
选取值最小的P个个体作为下一迭代的第三个体。
通过在适应度函数中使用隶属度,考虑到了最小化同一簇内对象之间距离的因素,减小了簇内对象之间的距离。为了考虑行和列之间的关系,对行和列进行了模糊聚类。对于行聚类,模糊聚类的损失函数可以表示为:
对于列聚类,模糊聚类的损失函数的获取方法与行聚类相似,其损失函数如下:
其中,N表示空气数据集X的行向量的总数,L表示行/列簇数,μnk表示xn在第k个行簇中的隶属度,λ表示用于控制模糊重叠程度的模糊划分矩阵指数,xn表示X的第n个行向量,vk表示第k个行簇的中心,M表示所述空气数据集X的列向量的总数,ym表示X的第m个列向量,μms表示ym在第s个列簇中的隶属度,vs表示第s个列簇的中心。
除了双边模糊聚类外,还对空气数据集X进行了协同聚类。它将X划分为L2块,每个块中所有样本的标签都相同,特征的标签也相同。然后,将计算每个块的中心,即该块中所有值的平均值,因此可以公式化为:
其中,vks是块的中心,行标签为k,列标签为s,n和m表示数据集样本和属性的索引,R和C分别表示行簇和列簇的集合,NI是此块中的项目数。
在每个块中,可以得到每个元素到中心的欧氏距离之和,其公式如下:
内部度量指标是评价不同样本之间的相似性,它考虑样本点是否属于一个簇,以及这些点是否远离其他簇。
根据使用协同聚类计算的中心确定簇间的距离,可以表示为:
其中,L表示行/列簇数,k表示被选择的行簇,s表示被选择的列簇,Rk表示行簇的集合,Rs表示列簇的集合,xnm表示属于第n个行簇第m个列簇的样本,vks表示由行簇k和列簇s交叉得到的块簇的中心,k′表示被选择的另一行簇,s′表示被选择的另一列簇,vk′s′表示由行簇k′和列簇s′交叉得到的块簇的中心。
聚类的目的是最大化簇之间的距离,最小化簇内的距离,协同聚类的两个损失函数的表达式可以为:
将多个第三个体作为多个第一个体,重复执行个体筛选的过程,直到迭代次数大于阈值或适应度函数收敛,得到多个最终个体。关于选择用于迭代的个体的更多内容,参见图2及其相关描述。
计算多个最终个体的类内距离,并将取值最小的个体作为最优个体。
对最优个体进行解码,得到最优协同聚类结果。
步骤250,基于最优协同聚类结果,将空气数据集X划分为报警正常数据和报警异常数据。
在一些实施例中,最优协同聚类结果包括报警异常聚类结果和/或报警正常聚类结果。通过计算空气数据集X分别与报警异常聚类结果和/或报警正常聚类结果的距离,即可得到报警正常数据和报警异常数据。
步骤260,分别计算报警正常数据和报警异常数据的簇中心,得到报警正常簇的簇中心和报警异常簇的簇中心。在一些实施例中,可以分别对报警正常数据和报警异常数据进行聚类,得到报警正常簇的簇中心和报警异常簇的簇中心。
图3为本发明一些实施例提供的选择用于迭代的个体的示例性示意图。如图3所示,流程300的内容包括:
假设在第t代,有一个P大小的种群Ut。对该种群进行交叉和变异操作后,得到一个大小为P的种群Ht。将Ut和Ht组合后,可以得到一个大小为2P的集和Zt,Zt=Ut∪Ht。从该集合中选择出P条染色体作为新的下一代,首先,利用基于Pareto集的非支配排序,将Zt划分为一些非支配层(G1,G2,…,)。然后,构建一个集合St,其中,G1、G2和G3层中的解集被确定为第(t+1)代的亲本,从G1开始,将每层的个体开始依次添加到St,直到St的大小等于P或大于P。假设最后一个可接受的层是Gv,则放弃层Gv+1和之后的层,St\Gv中的个体被确定为第(t+1)代的个体。利用参考点机制,从Gv中选择未确定的染色体进入Ut+1。直到最后一次迭代完成或适应值收敛。如图2所示,需要个体100个,第(t+1)代的亲本有80个,其余20个未确定的解集从G4中选择。
实施例
为了更好地说明报警异常的预测过程,利用模型对数据集X进行训练,通过分析训练结果从而获得报警异常的预测结果,具体步骤如下:
(1)首先对数据进行数据预处理,包括数据清理操作、数据变换操作;
(2)随后从变换后的数据中选取样本作为数据集X,每个样本包括5个属性即报警时间、报警浓度、恢复状态、恢复时间、恢复时长。
(3)数据集X通过P(P=6)个基协同聚类器产生P个基协同聚类结果,6个基协同聚类结果形成了基协同聚类结果矩阵B;
(4)将基协同聚类结果矩阵B作为初始化的种群嵌入到遗传算法框架中,每一行代表一条染色体,每条染色体代表一个解;
(5)对种群中的染色体进行交叉、变异、选择等遗传操作(案例中假设只进行一次交叉和变异),将目标函数作为适应度函数,引导遗传算法的优化方向,使得相似的样本或属性划分到同一簇,不相似的样本或属性划分到不同簇。
(6)迭代式重复第(5)步,直到迭代次数达到预设的最大迭代次数T或者适应性函数值收敛时停止迭代(案例中T=1)。
(7)遗传算法迭代结束后,得到的种群为最优种群,计算最优种群中的染色体类内距离值,根据类内聚力值选取出最优染色体,作为最优协同聚类结果B*。
(8)根据最优协同聚类结果B*,现有数据被划分为两类,分别计算报警正常簇的簇中心、报警异常簇的簇中心。
(9)分别计算当前报警数据与报警正常簇的簇中心、报警异常簇的簇中心的相似度,选取相似度高的簇的标签类别作为当前报警数据的预测结果。
图4为本发明一些实施例提供的一种基于协同聚类的报警异常预测***的示例性模块图。如图4所示,***400可以包括获取模块410、簇中心确定模块420、相似度确定模块430和预测结果确定模块440。
获取模块410用于获取当前报警数据。关于获取模块410的更多内容,参见图1及其相关描述。
簇中心确定模块420用于基于遗传算法,确定报警正常簇的簇中心和报警异常簇的簇中心。关于簇中心确定模块420的更多内容,参见图1及其相关描述。
相似度确定模块430用于确定所述当前报警数据分别与所述报警正常簇的簇中心和所述报警异常簇的簇中心的相似度。关于相似度确定模块430的更多内容,参见图1及其相关描述。
预测结果确定模块440用于基于所述相似度,将相似度高的簇的标签类别作为所述当前报警数据的预测结果;所述标签类别包括报警正常和报警异常。关于预测结果确定模块440的更多内容,参见图1及其相关描述。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于协同聚类的报警异常预测方法,其特征在于,包括:
获取当前报警数据;所述当前报警数据包括多个属性,所述属性至少包括报警时间、报警浓度、恢复状态、恢复时间和恢复时长;
基于遗传算法,确定报警正常簇的簇中心和报警异常簇的簇中心;确定所述当前报警数据分别与所述报警正常簇的簇中心和所述报警异常簇的簇中心的相似度;
基于所述相似度,将相似度高的簇的标签类别作为所述当前报警数据的预测结果;所述标签类别包括报警正常和报警异常。
2.根据权利要求1所述的基于协同聚类的报警异常预测方法,其特征在于,所述基于遗传算法,确定报警正常簇的簇中心和报警异常簇的簇中心,包括:
对历史报警前的空气的时间序列数据进行采样,得到空气数据集X;对所述空气数据集X执行协同聚类,得到协同聚类结果和由所述协同聚类结果组成的协同聚类矩阵B;所述协同聚类结果为所述空气数据集X的行向量和列向量的标签;
对所述协同聚类矩阵B进行编码,得到隶属度BM;
将所述隶属度BM作为个体,对所述个体执行遗传算法,得到最优协同聚类结果;所述最优协同聚类结果用于区别报警正常数据和报警异常数据;
基于所述最优协同聚类结果,将所述空气数据集X划分为报警正常数据和报警异常数据;
分别计算所述报警正常数据和所述报警异常数据的簇中心,得到所述报警正常簇的簇中心和所述报警异常簇的簇中心。
3.根据权利要求2所述的基于协同聚类的报警异常预测方法,其特征在于,所述对空气的时间序列数据进行采样,得到空气数据集X,包括:
确定截取步长M;
基于所述截取步长M截取所述时间序列数据,得到N个时间序列样本;其中N大于等于1。
4.根据权利要求1所述的基于协同聚类的报警异常预测方法,其特征在于,所述对所述历史空气数据集X执行协同聚类,得到协同聚类矩阵B,包括:
基于所述空气数据集X的行向量,得到X的基于对象的对象表示X1;
基于所述空气数据集X的列向量,得到X的基于特征的特征表示X2;将所述对象表示X1和所述特征表示X2输入协同聚类器,协同聚类器输出多个所述协同聚类结果;
基于多个所述协同聚类结果,得到所述协同聚类矩阵B。
5.根据权利要求2所述的基于协同聚类的报警异常预测方法,其特征在于,所述对所述协同聚类矩阵B进行编码,得到隶属度BM,包括:
基于所述协同聚类矩阵B,确定聚类中心;所述聚类中心的表达式为:
其中,vk表示第k个行簇的中心,Rk表示行簇的集合,xn表示X的第n个行向量,vs表示第s个列簇的中心,Rs表示列簇的集合,ym表示X的第m个列向量,NS和MS分别表示用于计算所述行簇和列簇的聚类中心的样本总数;
基于所述聚类中心,确定所述隶属度BM;所述隶属度BM的表达式为:
其中,μnk表示xn在第k个行簇中的隶属度,xn表示X的第n个行向量,L表示行/列簇数,λ表示用于控制模糊重叠程度的模糊划分矩阵指数,μms表示ym在第s个列簇中的隶属度,ym表示X的第m个列向量,vi代表第i个行/列簇的中心;
基于所述隶属度BM,更新所述聚类中心;更新所述聚类中心的表达式为:
其中,N表示所述空气数据集X的行向量的总数,M表示所述空气数据集X的列向量的总数。
6.根据权利要求2所述的基于协同聚类的报警异常预测方法,其特征在于,所述将所述隶属度BM作为个体,对所述个体执行遗传算法,得到最优协同聚类结果,包括:
对原始个体进行优化并选择,得到多个第一个体;
对所述多个第一个体进行交叉和变异,得到多个第二个体;
基于所述适应度函数对所述多个第一个体和所述多个第二个体进行选择,得到多个第三个体;
将所述多个第三个体作为所述多个第一个体,重复执行个体筛选的过程,直到迭代次数大于阈值或所述适应度函数收敛,得到多个最终个体;
计算所述多个最终个体的类内距离,并将取值最小的个体作为所述最优个体;
对所述最优个体进行解码,得到所述最优协同聚类结果。
10.一种基于协同聚类的报警异常预测***,其特征在于,包括获取模块、簇中心确定模块、相似度确定模块和预测结果确定模块;
所述获取模块用于获取当前报警数据;
所述簇中心确定模块用于基于遗传算法,确定报警正常簇的簇中心和报警异常簇的簇中心;
所述相似度确定模块用于确定所述当前报警数据分别与所述报警正常簇的簇中心和所述报警异常簇的簇中心的相似度;
所述预测结果确定模块用于基于所述相似度,将相似度高的簇的标签类别作为所述当前报警数据的预测结果;所述标签类别包括报警正常和报警异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211647685.XA CN116109176B (zh) | 2022-12-21 | 2022-12-21 | 一种基于协同聚类的报警异常预测方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211647685.XA CN116109176B (zh) | 2022-12-21 | 2022-12-21 | 一种基于协同聚类的报警异常预测方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116109176A true CN116109176A (zh) | 2023-05-12 |
CN116109176B CN116109176B (zh) | 2024-01-05 |
Family
ID=86257233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211647685.XA Active CN116109176B (zh) | 2022-12-21 | 2022-12-21 | 一种基于协同聚类的报警异常预测方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109176B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935608A (zh) * | 2023-09-18 | 2023-10-24 | 广州春光新能源科技发展有限公司 | 一种空气能设备的远程智能监控方法及*** |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784314A (zh) * | 2016-08-26 | 2018-03-09 | 北京协同创新智能电网技术有限公司 | 一种多变量报警***的正常异常数据划分方法及*** |
WO2018126984A2 (zh) * | 2017-01-06 | 2018-07-12 | 江南大学 | 一种基于mea-bp神经网络wsn异常检测方法 |
CN109190023A (zh) * | 2018-08-15 | 2019-01-11 | 深圳信息职业技术学院 | 协同推荐的方法、装置及终端设备 |
EP3482630A1 (en) * | 2017-11-13 | 2019-05-15 | EFOS d.o.o. | Method, system and computer program for performing a pest forecast |
US20190261204A1 (en) * | 2016-10-28 | 2019-08-22 | Nanjing Howso Technology Co., Ltd | Method and system for abnormal value detection in lte network |
CN110837855A (zh) * | 2019-10-30 | 2020-02-25 | 云南电网有限责任公司信息中心 | 一种对电网业务协同监控***中异构数据集的处理方法 |
WO2020155755A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于谱聚类的异常点比例优化方法、装置及计算机设备 |
CN111666981A (zh) * | 2020-05-13 | 2020-09-15 | 云南电网有限责任公司信息中心 | 一种基于遗传模糊聚类的***数据异常检测方法 |
WO2020262353A1 (ja) * | 2019-06-25 | 2020-12-30 | 株式会社日立パワーソリューションズ | 異常検知装置および異常検知方法 |
CN112731967A (zh) * | 2020-12-24 | 2021-04-30 | 中科院计算技术研究所大数据研究院 | 一种基于聚类和遗传算法的多无人机协同任务规划方法 |
CN113408370A (zh) * | 2021-05-31 | 2021-09-17 | 西安电子科技大学 | 基于自适应参数遗传算法的森林变化遥感检测方法 |
CN114861729A (zh) * | 2022-05-20 | 2022-08-05 | 西安邮电大学 | 无线传感器网络中时间序列异常的检测方法及装置 |
CN114881138A (zh) * | 2022-04-29 | 2022-08-09 | 南京邮电大学 | 一种基于遗传算法与K-Means结合的异常流量检测方法 |
-
2022
- 2022-12-21 CN CN202211647685.XA patent/CN116109176B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784314A (zh) * | 2016-08-26 | 2018-03-09 | 北京协同创新智能电网技术有限公司 | 一种多变量报警***的正常异常数据划分方法及*** |
US20190261204A1 (en) * | 2016-10-28 | 2019-08-22 | Nanjing Howso Technology Co., Ltd | Method and system for abnormal value detection in lte network |
WO2018126984A2 (zh) * | 2017-01-06 | 2018-07-12 | 江南大学 | 一种基于mea-bp神经网络wsn异常检测方法 |
EP3482630A1 (en) * | 2017-11-13 | 2019-05-15 | EFOS d.o.o. | Method, system and computer program for performing a pest forecast |
CN109190023A (zh) * | 2018-08-15 | 2019-01-11 | 深圳信息职业技术学院 | 协同推荐的方法、装置及终端设备 |
WO2020155755A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于谱聚类的异常点比例优化方法、装置及计算机设备 |
WO2020262353A1 (ja) * | 2019-06-25 | 2020-12-30 | 株式会社日立パワーソリューションズ | 異常検知装置および異常検知方法 |
CN110837855A (zh) * | 2019-10-30 | 2020-02-25 | 云南电网有限责任公司信息中心 | 一种对电网业务协同监控***中异构数据集的处理方法 |
CN111666981A (zh) * | 2020-05-13 | 2020-09-15 | 云南电网有限责任公司信息中心 | 一种基于遗传模糊聚类的***数据异常检测方法 |
CN112731967A (zh) * | 2020-12-24 | 2021-04-30 | 中科院计算技术研究所大数据研究院 | 一种基于聚类和遗传算法的多无人机协同任务规划方法 |
CN113408370A (zh) * | 2021-05-31 | 2021-09-17 | 西安电子科技大学 | 基于自适应参数遗传算法的森林变化遥感检测方法 |
CN114881138A (zh) * | 2022-04-29 | 2022-08-09 | 南京邮电大学 | 一种基于遗传算法与K-Means结合的异常流量检测方法 |
CN114861729A (zh) * | 2022-05-20 | 2022-08-05 | 西安邮电大学 | 无线传感器网络中时间序列异常的检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
杨斌;刘卫国;: "一种基于聚类的无监督异常检测方法", 计算机工程与应用, no. 01 * |
陈剑;蔡龙征;: "一种无监督异常入侵检测的簇异常度量方法", 计算机技术与发展, no. 04 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935608A (zh) * | 2023-09-18 | 2023-10-24 | 广州春光新能源科技发展有限公司 | 一种空气能设备的远程智能监控方法及*** |
CN116935608B (zh) * | 2023-09-18 | 2023-12-05 | 广州春光新能源科技发展有限公司 | 一种空气能设备的远程智能监控方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN116109176B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A hybrid forecasting framework based on support vector regression with a modified genetic algorithm and a random forest for traffic flow prediction | |
Sanchez et al. | Deep learning for population size history inference: Design, comparison and combination with approximate Bayesian computation | |
Babatunde et al. | A genetic algorithm-based feature selection | |
Ripon et al. | A real-coding jumping gene genetic algorithm (RJGGA) for multiobjective optimization | |
Kumar | Encoding schemes in genetic algorithm | |
Wang et al. | Evolutionary extreme learning machine ensembles with size control | |
Martínez-Ballesteros et al. | Selecting the best measures to discover quantitative association rules | |
Zhang et al. | Evolutionary computation and its applications in neural and fuzzy systems | |
CN116109176B (zh) | 一种基于协同聚类的报警异常预测方法和*** | |
Wang | Fuzzy clustering analysis by using genetic algorithm | |
Leong et al. | Robust cluster expansion of multicomponent systems using structured sparsity | |
Fonseca et al. | Phylogeographic model selection using convolutional neural networks | |
Jungjit et al. | A new genetic algorithm for multi-label correlation-based feature selection. | |
Blischak et al. | Chromosome‐scale inference of hybrid speciation and admixture with convolutional neural networks | |
Espinosa et al. | Surrogate-assisted and filter-based multiobjective evolutionary feature selection for deep learning | |
Tian et al. | Automated selection of evolutionary multi-objective optimization algorithms | |
Peña-Malavera et al. | Comparison of algorithms to infer genetic population structure from unlinked molecular markers | |
Degirmenci et al. | iMCOD: Incremental multi-class outlier detection model in data streams | |
Ma et al. | Inductive data mining based on genetic programming: Automatic generation of decision trees from data for process historical data analysis | |
MirRokni | Applying genetic algorithm in architecture and neural network training | |
Vashishtha et al. | Mining comprehensible and interesting rules: a genetic algorithm approach | |
Kwak et al. | A design of genetically oriented linguistic model with the aid of fuzzy granulation | |
Golan et al. | Mixed models for case-control genome-wide association studies: major challenges and partial solutions | |
Parvandeh et al. | A modified single and multi-objective bacteria foraging optimisation for the solution of quadratic assignment problem | |
Ojha et al. | Multi-objective optimisation of multi-output neural trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |