CN116109176A

CN116109176A - 一种基于协同聚类的报警异常预测方法和***

Info

Publication number: CN116109176A
Application number: CN202211647685.XA
Authority: CN
Inventors: 王红军; 龙涛; 王涛; 谭浩龙; 黄安
Original assignee: Chengdu Anxin Zhifu Technology Co ltd
Current assignee: Chengdu Anxin Zhifu Technology Co ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-05-12
Anticipated expiration: 2042-12-21
Also published as: CN116109176B

Abstract

本发明提供了一种基于协同聚类的报警异常预测方法和***，包括：获取当前报警数据；所述当前报警数据包括多个属性，所述属性至少包括报警时间、报警浓度、恢复状态、恢复时间和恢复时长；基于遗传算法，确定报警正常簇的簇中心和报警异常簇的簇中心；确定所述当前报警数据分别与所述报警正常簇的簇中心和所述报警异常簇的簇中心的相似度；基于所述相似度，将相似度高的簇的标签类别作为所述当前报警数据的预测结果；所述标签类别包括报警正常和报警异常；以通过协同聚类集成算法，对报警前的空气数据进行预测，使得可以利用历史空气数据的协同信息，预测当前报警是否为误报。

Description

一种基于协同聚类的报警异常预测方法和***

技术领域

本发明涉及空气数据预测技术领域，具体而言，涉及一种基于协同聚类的报警异常预测方法和***。

背景技术

随着我国工业化的发展，工业化给人们带来了吃穿住行上的便利，在人们享受工业化带来的福利的同时，工业化却对生态环境造成了巨大的破坏。随着我国工业化进程的加快，家庭或工厂内的有害气体的污染问题愈加严重，市面上常用的气体泄露报警器可以解决大部分有毒有害气体的泄露检测问题，但不能解决传感器的误报问题，例如家庭厨房用气中，复杂的厨房环境下包括厨房水汽、杀虫剂、油漆刺激性气体、油烟等，会对传感器造成误判导致错误的报警，造成不必要的上门服务，浪费燃气公司资源。

有鉴于此，本发明提出了一种基于协同聚类的报警异常预测方法和***，以通过协同聚类集成算法，对报警前的空气数据进行预测，使得可以利用历史空气数据的协同信息，预测当前报警是否为误报。

发明内容

本发明的目的在于提供一种基于协同聚类的报警异常预测方法，包括：对空气的时间序列数据进行采样，得到空气数据集X；对所述空气数据集X执行协同聚类，得到协同聚类矩阵B；所述协同聚类矩阵B为所述空气数据集X的行向量和列向量的标签；对所述协同聚类矩阵B进行编码，得到隶属度BM；将所述隶属度BM作为个体，对所述个体执行遗传算法，得到最优协同聚类结果；基于所述最优协同聚类结果，确定空气数据的预测结果；所述预测结果为空气中有毒有害气体在未来时间的含量。

进一步的，还包括：获取历史空气数据；对所述历史空气数据进行预处理，得到所述时间序列数据。

进一步的，所述对空气的时间序列数据进行采样，得到空气数据集X，包括：确定截取步长M；基于所述截取步长M截取所述时间序列数据，得到N个时间序列样本；其中N大于等于1。

进一步的，所述对所述历史空气数据集X执行协同聚类，得到协同聚类矩阵B，包括：基于所述空气数据集X的行向量，得到X的基于对象的对象表示X1；基于所述空气数据集X和列向量，得到X的基于特征的特征表示X2；将所述对象表示X1和所述特征表示X2输入协同聚类器，协同聚类器输出所述协同聚类矩阵B。

进一步的，所述对所述协同聚类矩阵B进行编码，得到隶属度BM，包括：基于所述协同聚类矩阵B，确定聚类中心；所述聚类中心的表达式为：

其中，v_k表示第k个行簇的中心，R_k表示行簇的集合，x_n表示X的第n个行向量，v_s表示第s个列簇的中心，R_s表示列簇的集合，y_m表示X的第m个列向量，NS和MS分别表示用于计算所述行簇和列簇的聚类中心的样本总数；基于所述聚类中心，确定所述隶属度BM；所述隶属度BM的表达式为：

其中，μ_nk表示x_n在第k个行簇中的隶属度，x_n表示X的第n个行向量，L表示行/列簇数，λ表示用于控制模糊重叠程度的模糊划分矩阵指数，μ_ms表示y_m在第s个列簇中的隶属度，y_m表示X的第m个列向量，v_i代表第i个行/列簇的中心；基于所述隶属度BM，更新所述聚类中心；更新所述聚类中心的表达式为：

其中，N表示所述空气数据集X的行向量的总数，M表示所述空气数据集X的列向量的总数。

进一步的，所述将所述隶属度BM作为个体，对所述个体执行遗传算法，得到最优协同聚类结果，包括：对原始个体进行优化并选择，得到多个第一个体；对所述多个第一个体进行交叉和变异，得到多个第二个体；基于所述适应度函数对所述多个第一个体和所述多个第二个体进行选择，得到多个第三个体；将所述多个第三个体作为所述多个第一个体，重复执行个体筛选的过程，直到迭代次数大于阈值或所述适应度函数收敛，得到多个最终个体；计算所述多个最终个体的类内距离，并将取值最小的个体作为所述最优个体；对所述最优个体进行解码，得到所述最优协同聚类结果。

进一步的，所述适应度函数的表达式为：

其中，p代表第p条染色体，f₁(x)和f₂(y)分别代表行和列的模糊聚类簇内的距离，f₃(x)与f₄(c)分别代表簇内以及通过协同聚类生成的簇之间的距离。

进一步的，所述f₁(x)和f₂(y)的表达式分别为：

其中，N表示所述空气数据集X的行向量的总数，L表示行/列簇数，μ_nk表示x_n在第k个行簇中的隶属度，λ表示用于控制模糊重叠程度的模糊划分矩阵指数，x_n表示X的第n个行向量，v_k表示第k个行簇的中心，M表示所述空气数据集X的列向量的总数，y_m表示X的第m个列向量，μ_ms表示y_m在第s个列簇中的隶属度，v_s表示第s个列簇的中心。

进一步的，所述f₃(x)与f₄(c)的表达式分别为：

其中，L表示行/列簇数，k表示被选择的行簇，s表示被选择的列簇，R_k表示行簇的集合，R_s表示列簇的集合，x_nm表示属于第n个行簇第m个列簇的样本，v_ks表示由行簇k和列簇s交叉得到的块簇的中心，k^′表示被选择的另一行簇，s^′表示被选择的另一列簇，v_k′s′表示由行簇k^′和列簇s^′交叉得到的块簇的中心。

本发明的目的在于提供一种基于协同聚类的报警异常预测***，包括采样模块、聚类模块、编码模块、迭代模块和预测模块；所述采样模块用于对空气的时间序列数据进行采样，得到空气数据集X；所述聚类模块用于对所述空气数据集X执行协同聚类，得到协同聚类矩阵B；所述协同聚类矩阵B为所述空气数据集X的行向量和列向量的标签；所述编码模块用于对所述协同聚类矩阵B进行编码，得到隶属度BM；所述迭代模块用于将所述隶属度BM作为个体，对所述个体执行遗传算法，得到最优协同聚类结果；所述预测模块用于基于所述最优协同聚类结果，确定空气数据的预测结果；所述预测结果为空气中有毒有害气体在未来时间的含量。

本发明实施例的技术方案至少具有如下优点和有益效果：

本说明书中的一些实施例通过将多目标遗传算法与协同聚类集成有机结合，使得基于多目标遗传模型的协同聚类集成算法(GMCCE)超越基本的共聚类结果，具有挖掘有效聚类的巨大潜力，以更好地用于空气预测，根据历史空气数据，确定报警是否异常，以及时作出处理，避免资源浪费。

本说明书中的一些实施例通过使基于多目标遗传模型的协同聚类集成算法(GMCCE)结合双边模糊聚类和共聚类，最小化了簇内的距离，最大化了簇间的距离，因此具有更好的聚类效果，提高了预测的准确度。

附图说明

图1为本发明一些实施例提供的一种基于协同聚类的报警异常预测方法的示例性流程图；

图2为本发明一些实施例提供的确定报警正常簇的簇中心和报警异常簇的簇中心的示例性示意图；

图3为本发明一些实施例提供的选择用于迭代的个体的示例性示意图；

图4为本发明一些实施例提供的一种基于协同聚类的报警异常预测***的示例性模块图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

图1为本发明一些实施例提供的一种基于协同聚类的报警异常预测方法的示例性流程图。在一些实施例中，流程100可以由***400执行。如图1所述，流程100可以包括以下内容：

步骤110，获取当前报警数据。在一些实施例中，步骤110可以由获取模块410执行。

当前报警数据可以是指与当前报警相关的各种数据。例如，当前报警数据可以包括当前报警前一段时间的空气数据、报警时间、报警浓度、恢复状态、恢复时间和恢复时长等。可以将报警时间、报警浓度、恢复状态、恢复时间和恢复时长作为当前报警数据的属性。在一些实施例中，当前报警数据可以通过设置在报警器周围的各种传感器获取。

步骤120，基于遗传算法，确定报警正常簇的簇中心和报警异常簇的簇中心。在一些实施例中，步骤120可以由簇中心确定模块420执行。

报警正常可以是指空气确实出现异常进行的报警。报警异常可以是指空气未发生异常的报警。通过对历史报警正常的数据和历史报警异常的数据得到报警正常簇和报警异常簇，通过对报警异常的数据和报警正常的数据进行聚类，得到报警正常簇的簇中心和报警异常簇的簇中心。

在一些实施例中，确定报警正常簇的簇中心和报警异常簇的簇中心的更多内容，参见图2及其相关描述。

步骤130，确定当前报警数据分别与报警正常簇的簇中心和报警异常簇的簇中心的相似度。在一些实施例中，步骤130可以由相似度确定模块430执行。

步骤140，基于相似度，将相似度高的簇的标签类别作为当前报警数据的预测结果。在一些实施例中，步骤140可以由预测结果确定模块440执行。

例如，当当前报警数据与报警正常簇的簇中心的相似度高于报警异常簇的簇中心时，可以认为当前报警的预测结果为报警正常。

在一些实施例中，当报警异常时，关闭警报器，并对用户和/或警报器厂商进行报警装置损坏提醒。当报警正常时，将异常信息传输给燃气公司，提醒燃气公司实施上门维修。

图2为本发明一些实施例提供的确定报警正常簇的簇中心和报警异常簇的簇中心的示例性示意图。如图2所示，流程200可以包括以下内容：

步骤210，对历史报警前的空气的时间序列数据进行采样，得到空气数据集X。

时间序列数据可以是指需要进行空气检测的区域在不同时间产生的与空气相关的数值。例如，厨房或厂房等。在一些实施例中，可以按时间顺序对报警前的空气数据进行排列得到时间序列数据。例如，获取历史空气数据；对历史空气数据进行预处理，得到时间序列数据。历史空气数据可以是指待检测区域在报警时间之前的空气数据。空气数据可以包括有毒有害气体在空气中的含量。例如，空气中甲烷、乙烷、丙烷、氮和丁烷等的含量。在一些实施例中，可以通过各类传感器获取历史空气数据。

预处理可以包括对历史空气数据进行数据清理操作和/或数据变换操作。其中，数据清理可以包括填写缺失值和删除噪声。对于缺失值，可以使用忽略元组、人工填写缺失值等数据清理的方法，对历史空气数据中缺失的数据进行补充。缺失值的填充方法包括但不限于就近填充法，即采取就近原则将缺失值填充为相邻的值。对于噪声，可以通过分享、回归或离群点分析等方法来进行处理。对于错误数据，可以通过观察和画图等数据分析的方法找到错误的数据。在一些实施例中，可以采用箱型图分析错误数据。其中，历史空气数据的箱型图的上界和下界的计算公式为：

upperbound＝P+1.5(P-Q)

lowerbound＝Q-1.5(P-Q)

其中,upperbound表示历史空气数据的上界，l owerbound表示历史空气数据的下界，P表示对历史空气数据按从小到大排序后的上四分位数，Q表示对历史空气数据从小到大排序后的下四分位数。

将超出上界和下界的历史空气数据作为噪声(异常值)，对噪声数据的处理和缺失值相似。在一些实施例中，为了检验鲁棒性，只删除部分异常值。例如，删除偏离过大的值。

数据变换可以包括但不限于对历史空气数据进行归一化。例如，对历史空气数据执行Mi n-Max标准化(离差标准化)或Z-score标准化。其中，Mi n-Max标准化的公式为：

X^*＝(x-min)/(max-min)

其中，mi n表示历史空气数据中每种有毒有害气体的最小值，max表示历史空气数据中每种有毒有害气体的最大值。通过离差标准化，将原数据缩放到[0，1]之间。

Z-score标准化的公式为：

X^*＝(x-μ)/σ

其中，μ表示历史空气数据变量中的均值，σ表示历史空气数据变量中的标准差。空气数据变量为空气中每种有毒有害气体的含量。

空气数据集X包括多个时间段的空气数据。在一些实施例中，可以确定截取步长M；基于截取步长M截取时间序列数据，得到N个时间序列样本；其中N大于等于1。例如，将归一化后时间序列数据通过固定的步长M截取为单个的时间序列采样，从最近时间开始顺着时间轴向前采样，共计采取N个样本。这样就得到了具有N个样本和M个属性的空气数据集X。

步骤220，对空气数据集X执行协同聚类，得到协同聚类矩阵B；协同聚类结果为空气数据集X的行向量和列向量的标签。

在一些实施例中，对空气数据集X执行协同聚类，包括基于空气数据集X的行向量，得到X的基于对象的对象表示X1；基于空气数据集X的列向量，得到X的基于特征的特征表示X2；将对象表示X1和特征表示X2输入协同聚类器，协同聚类器输出协同聚类结果；基于多个所述协同聚类结果，得到所述协同聚类矩阵B。

对于空气数据集X，对X执行行向量表示，得到X1＝{x₁,x₂,…x_n}表示X的基于对象的表示，其中x_n是X的第n行向量，其表示的是某一个时间序列采样。对X执行列向量表示，得到X2＝{y₁,y₂,…y_m}表示X的基于特征的表示，其中y_m是X的第m列向量，其表示的是所有时间序列切片的某一时刻的值。

协同聚类器BC＝{BC_i},i∈{1,2,…,P}用于协同聚类X，从而得到协同聚类矩阵B＝B_ij},i∈{1,2,…,P},j∈{1,2,…,N+M}，其中P是协同聚类器的数量，当j≤N时B_ij是X的行标签，当j>N时为列标签，这是由协同聚类结果B_ij推出的。过程可以表述为：

其中，N表示空气数据集X的行向量的总数，M表示空气数据集X的列向量的总数。

步骤230，对协同聚类矩阵B进行编码，得到隶属度BM。

对于行向量，隶属度BM是指行向量隶属于正常数据还是异常数据的程度；对于列向量，隶属度BM是指列向量隶属于有害气体还是无害气体的程度。

每个协同聚类结果都以隶属度BM_i的形式进行编码，在遗传算法中，BM_i为可以以染色体形式表示的个体，而BM_ib是一个基因。该过程可以表述为：

其中，Encode表示编码器，L是数据集簇的数量(行和列),由于要将数据分为两个簇(正常和异常)，所以这里L可以是一个常量，其值为L＝2。在一些实施例中，行簇数量与列簇数量有相同的值。

在一些实施例中，可以基于协同聚类矩阵B，确定聚类中心；聚类中心的表达式为：

其中，v_k表示第k个行簇的中心，R_k表示行簇的集合，x_n表示X的第n个行向量，v_s表示第s个列簇的中心，R_s表示列簇的集合，y_m表示X的第m个列向量，NS和MS分别表示用于计算所述行簇和列簇的聚类中心的样本总数；

基于聚类中心，确定隶属度BM；隶属度BM的表达式为：

其中，μ_nk表示x_n在第k个行簇中的隶属度，x_n表示X的第n个行向量，L表示行/列簇数，λ表示用于控制模糊重叠程度的模糊划分矩阵指数，μ_ms表示y_m在第s个列簇中的隶属度，y_m表示X的第m个列向量，v_i代表第i个行/列簇的中心；

基于隶属度BM，更新聚类中心；更新聚类中心的表达式为：

步骤240，将隶属度BM作为个体，对个体执行遗传算法，得到最优协同聚类结果；最优协同聚类结果用于区别报警正常数据和报警异常数据。

最优协同聚类结果可以是指一段时间序列的最优聚类结果。例如，报警正常的最优时间序列聚类结果和报警异常的最优时间序列聚类结果。在一些实施例中，得到最优协同聚类结果可以包括：

对原始个体进行优化并选择，得到多个第一个体。

在遗传算法中，染色体通常用来表示一个解。协同聚类的每个结果都是大小为N+M的标签，其中前N个是行标签，后M个是列标签。由于隶属度将用于模糊聚类，通过迭代计算隶属度，将每个个体的染色体编码为隶属度BM＝{BM_ij},i∈{1,2,…,P},j∈{1,2,…,(N+M)×L}，其中，P是总体的大小，对于每个BM_i，前N×L元素是行聚类的隶属度，而最后M×L是列聚类的隶属度。染色体表示为大小为N×L+M×L的向量。例如，有L个行簇的数据集的协同聚类结果用B₁表示为：

B₁＝rl₁rl₂…rl_N∣cl₁cl₂…cl_M

其中，rl_i表示行聚类的标签，cl_i表示列聚类的标签。因此，竖线之前的部分是行聚类的标签，竖线之后的部分是列聚类的标签。编码操作后，染色体为：

BM₁＝μ₁₁…μ_1L…μ_N1…μ_NL∣μ₁₁…μ_1L…μ_M1…μ_ML

其中，前面的部分是行的隶属度，后面的部分是列的隶属度。

在一些实施例中，可以利用NSGA-III(Non-dominated sorting geneticalgorithm-III)算法优化个体并选择最佳个体。例如，可以利用轮盘赌选择来选择优化后的原始个体，得到用于第一次迭代的父染色体。

对多个第一个体进行交叉和变异，得到多个第二个体。

交叉是指由协同聚类结果生成的隶属度的组合，它可以组合父母的显性基因，生成更接近最优解的新个体。每个染色体都有两个隶属度矩阵，父代用和K(μ_i)和K(μ_j)表示：

K(μ_i)＝{K(μ_ir),K(μ_ic)}K(μ_j)＝{K(μ_jr),K(μ_jc)}

其中，每个父代染色体由行和列的隶属度组成。交叉后，结果为：

S(μ_i)＝{S(μ_ir),S(μ_ic)}S(μ_j)＝{S(μ_jr),S(μ_jc)}

其中每个子代染色体由行和列组成。在交叉过程中，首先考虑行隶属度的组合：

其中，R是与隶属度矩阵大小相同的向量，而其元素是从0到1的随机数。列簇的交叉公式与行簇类似。

然后，对交叉后的个体进行归一化(离差标准化)操作，以确保对象的隶属度总和为1。

变异的目的是增加协同聚类集成结果的多样性。在突变操作中，隶属度中某些位置的基因发生了变化。它可以提高遗传算法的局部优化能力。

由于后代的数量与父母相同，所有后代都是通过交叉或变异过程产生的。因此，交叉的概率和变异的概率之和为1，即

Pc+Pm＝1

其中，Pc是交叉的概率，Pm是突变的概率。突变过程与突变率r_m密切相关，它决定了会发生变化的基因的数量。对于行隶属度和列隶属度，将分别更改r_m×N和r_M×M个值。在一些实施例中，突变位置根据随机数生成器生成的数字确定。变异过程是在原始值的适当范围内添加一个随机数。然后进行归一化操作，以确保对象的隶属度之和为1。

基于适应度函数对多个第一个体和多个第二个体进行选择，得到多个第三个体。

适应度函数有四个目标，其中两个是双边模糊聚类，另外两个是关于协同聚类。目标是最小化这四项，适应度函数的表达式可以为：

选取值最小的P个个体作为下一迭代的第三个体。

通过在适应度函数中使用隶属度，考虑到了最小化同一簇内对象之间距离的因素，减小了簇内对象之间的距离。为了考虑行和列之间的关系，对行和列进行了模糊聚类。对于行聚类，模糊聚类的损失函数可以表示为：

对于列聚类，模糊聚类的损失函数的获取方法与行聚类相似，其损失函数如下：

其中，N表示空气数据集X的行向量的总数，L表示行/列簇数，μ_nk表示x_n在第k个行簇中的隶属度，λ表示用于控制模糊重叠程度的模糊划分矩阵指数，x_n表示X的第n个行向量，v_k表示第k个行簇的中心，M表示所述空气数据集X的列向量的总数，y_m表示X的第m个列向量，μ_ms表示y_m在第s个列簇中的隶属度，v_s表示第s个列簇的中心。

除了双边模糊聚类外，还对空气数据集X进行了协同聚类。它将X划分为L²块，每个块中所有样本的标签都相同，特征的标签也相同。然后，将计算每个块的中心，即该块中所有值的平均值，因此可以公式化为：

其中，v_ks是块的中心，行标签为k，列标签为s，n和m表示数据集样本和属性的索引，R和C分别表示行簇和列簇的集合，NI是此块中的项目数。

在每个块中，可以得到每个元素到中心的欧氏距离之和，其公式如下：

内部度量指标是评价不同样本之间的相似性，它考虑样本点是否属于一个簇，以及这些点是否远离其他簇。

根据使用协同聚类计算的中心确定簇间的距离，可以表示为：

聚类的目的是最大化簇之间的距离，最小化簇内的距离，协同聚类的两个损失函数的表达式可以为：

将多个第三个体作为多个第一个体，重复执行个体筛选的过程，直到迭代次数大于阈值或适应度函数收敛，得到多个最终个体。关于选择用于迭代的个体的更多内容，参见图2及其相关描述。

计算多个最终个体的类内距离，并将取值最小的个体作为最优个体。

对最优个体进行解码，得到最优协同聚类结果。

步骤250，基于最优协同聚类结果，将空气数据集X划分为报警正常数据和报警异常数据。

在一些实施例中，最优协同聚类结果包括报警异常聚类结果和/或报警正常聚类结果。通过计算空气数据集X分别与报警异常聚类结果和/或报警正常聚类结果的距离，即可得到报警正常数据和报警异常数据。

步骤260，分别计算报警正常数据和报警异常数据的簇中心，得到报警正常簇的簇中心和报警异常簇的簇中心。在一些实施例中，可以分别对报警正常数据和报警异常数据进行聚类，得到报警正常簇的簇中心和报警异常簇的簇中心。

图3为本发明一些实施例提供的选择用于迭代的个体的示例性示意图。如图3所示，流程300的内容包括：

假设在第t代，有一个P大小的种群U_t。对该种群进行交叉和变异操作后，得到一个大小为P的种群H_t。将U_t和H_t组合后，可以得到一个大小为2P的集和Z_t，Z_t＝U_t∪H_t。从该集合中选择出P条染色体作为新的下一代，首先，利用基于Pareto集的非支配排序，将Z_t划分为一些非支配层(G₁,G₂,…,)。然后，构建一个集合S_t，其中，G₁、G₂和G₃层中的解集被确定为第(t+1)代的亲本，从G₁开始，将每层的个体开始依次添加到S_t，直到S_t的大小等于P或大于P。假设最后一个可接受的层是G_v，则放弃层G_v+1和之后的层，S_t\G_v中的个体被确定为第(t+1)代的个体。利用参考点机制，从G_v中选择未确定的染色体进入U_t+1。直到最后一次迭代完成或适应值收敛。如图2所示，需要个体100个，第(t+1)代的亲本有80个，其余20个未确定的解集从G₄中选择。

实施例

为了更好地说明报警异常的预测过程，利用模型对数据集X进行训练，通过分析训练结果从而获得报警异常的预测结果，具体步骤如下：

(1)首先对数据进行数据预处理，包括数据清理操作、数据变换操作；

(2)随后从变换后的数据中选取样本作为数据集X，每个样本包括5个属性即报警时间、报警浓度、恢复状态、恢复时间、恢复时长。

(3)数据集X通过P(P＝6)个基协同聚类器产生P个基协同聚类结果，6个基协同聚类结果形成了基协同聚类结果矩阵B；

(4)将基协同聚类结果矩阵B作为初始化的种群嵌入到遗传算法框架中，每一行代表一条染色体，每条染色体代表一个解；

(5)对种群中的染色体进行交叉、变异、选择等遗传操作(案例中假设只进行一次交叉和变异)，将目标函数作为适应度函数，引导遗传算法的优化方向，使得相似的样本或属性划分到同一簇，不相似的样本或属性划分到不同簇。

(6)迭代式重复第(5)步，直到迭代次数达到预设的最大迭代次数T或者适应性函数值收敛时停止迭代(案例中T＝1)。

(7)遗传算法迭代结束后，得到的种群为最优种群，计算最优种群中的染色体类内距离值，根据类内聚力值选取出最优染色体，作为最优协同聚类结果B^*。

(8)根据最优协同聚类结果B^*，现有数据被划分为两类，分别计算报警正常簇的簇中心、报警异常簇的簇中心。

(9)分别计算当前报警数据与报警正常簇的簇中心、报警异常簇的簇中心的相似度，选取相似度高的簇的标签类别作为当前报警数据的预测结果。

图4为本发明一些实施例提供的一种基于协同聚类的报警异常预测***的示例性模块图。如图4所示，***400可以包括获取模块410、簇中心确定模块420、相似度确定模块430和预测结果确定模块440。

获取模块410用于获取当前报警数据。关于获取模块410的更多内容，参见图1及其相关描述。

簇中心确定模块420用于基于遗传算法，确定报警正常簇的簇中心和报警异常簇的簇中心。关于簇中心确定模块420的更多内容，参见图1及其相关描述。

相似度确定模块430用于确定所述当前报警数据分别与所述报警正常簇的簇中心和所述报警异常簇的簇中心的相似度。关于相似度确定模块430的更多内容，参见图1及其相关描述。

预测结果确定模块440用于基于所述相似度，将相似度高的簇的标签类别作为所述当前报警数据的预测结果；所述标签类别包括报警正常和报警异常。关于预测结果确定模块440的更多内容，参见图1及其相关描述。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于协同聚类的报警异常预测方法，其特征在于，包括：

获取当前报警数据；所述当前报警数据包括多个属性，所述属性至少包括报警时间、报警浓度、恢复状态、恢复时间和恢复时长；

基于遗传算法，确定报警正常簇的簇中心和报警异常簇的簇中心；确定所述当前报警数据分别与所述报警正常簇的簇中心和所述报警异常簇的簇中心的相似度；

基于所述相似度，将相似度高的簇的标签类别作为所述当前报警数据的预测结果；所述标签类别包括报警正常和报警异常。

2.根据权利要求1所述的基于协同聚类的报警异常预测方法，其特征在于，所述基于遗传算法，确定报警正常簇的簇中心和报警异常簇的簇中心，包括：

对历史报警前的空气的时间序列数据进行采样，得到空气数据集X；对所述空气数据集X执行协同聚类，得到协同聚类结果和由所述协同聚类结果组成的协同聚类矩阵B；所述协同聚类结果为所述空气数据集X的行向量和列向量的标签；

对所述协同聚类矩阵B进行编码，得到隶属度BM；

将所述隶属度BM作为个体，对所述个体执行遗传算法，得到最优协同聚类结果；所述最优协同聚类结果用于区别报警正常数据和报警异常数据；

基于所述最优协同聚类结果，将所述空气数据集X划分为报警正常数据和报警异常数据；

分别计算所述报警正常数据和所述报警异常数据的簇中心，得到所述报警正常簇的簇中心和所述报警异常簇的簇中心。

3.根据权利要求2所述的基于协同聚类的报警异常预测方法，其特征在于，所述对空气的时间序列数据进行采样，得到空气数据集X，包括：

确定截取步长M；

基于所述截取步长M截取所述时间序列数据，得到N个时间序列样本；其中N大于等于1。

4.根据权利要求1所述的基于协同聚类的报警异常预测方法，其特征在于，所述对所述历史空气数据集X执行协同聚类，得到协同聚类矩阵B，包括：

基于所述空气数据集X的行向量，得到X的基于对象的对象表示X1；

基于所述空气数据集X的列向量，得到X的基于特征的特征表示X2；将所述对象表示X1和所述特征表示X2输入协同聚类器，协同聚类器输出多个所述协同聚类结果；

基于多个所述协同聚类结果，得到所述协同聚类矩阵B。

5.根据权利要求2所述的基于协同聚类的报警异常预测方法，其特征在于，所述对所述协同聚类矩阵B进行编码，得到隶属度BM，包括：

基于所述协同聚类矩阵B，确定聚类中心；所述聚类中心的表达式为：

基于所述聚类中心，确定所述隶属度BM；所述隶属度BM的表达式为：

基于所述隶属度BM，更新所述聚类中心；更新所述聚类中心的表达式为：

6.根据权利要求2所述的基于协同聚类的报警异常预测方法，其特征在于，所述将所述隶属度BM作为个体，对所述个体执行遗传算法，得到最优协同聚类结果，包括：

对原始个体进行优化并选择，得到多个第一个体；

对所述多个第一个体进行交叉和变异，得到多个第二个体；

基于所述适应度函数对所述多个第一个体和所述多个第二个体进行选择，得到多个第三个体；

将所述多个第三个体作为所述多个第一个体，重复执行个体筛选的过程，直到迭代次数大于阈值或所述适应度函数收敛，得到多个最终个体；

计算所述多个最终个体的类内距离，并将取值最小的个体作为所述最优个体；

对所述最优个体进行解码，得到所述最优协同聚类结果。

7.根据权利要求6所述的基于协同聚类的报警异常预测方法，其特征在于，所述适应度函数的表达式为：

8.根据权利要求7所述的基于协同聚类的报警异常预测方法，其特征在于，所述f₁(x)和f₂(y)的表达式分别为：

9.根据权利要求7所述的基于协同聚类的报警异常预测方法，其特征在于，所述f₃(x)与f₄(c)的表达式分别为：

10.一种基于协同聚类的报警异常预测***，其特征在于，包括获取模块、簇中心确定模块、相似度确定模块和预测结果确定模块；

所述获取模块用于获取当前报警数据；

所述簇中心确定模块用于基于遗传算法，确定报警正常簇的簇中心和报警异常簇的簇中心；

所述相似度确定模块用于确定所述当前报警数据分别与所述报警正常簇的簇中心和所述报警异常簇的簇中心的相似度；

所述预测结果确定模块用于基于所述相似度，将相似度高的簇的标签类别作为所述当前报警数据的预测结果；所述标签类别包括报警正常和报警异常。