CN115238234B - 一种异常数据确定方法、电子设备及存储介质 - Google Patents

一种异常数据确定方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115238234B
CN115238234B CN202210840814.0A CN202210840814A CN115238234B CN 115238234 B CN115238234 B CN 115238234B CN 202210840814 A CN202210840814 A CN 202210840814A CN 115238234 B CN115238234 B CN 115238234B
Authority
CN
China
Prior art keywords
data
vector
data vector
size information
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210840814.0A
Other languages
English (en)
Other versions
CN115238234A (zh
Inventor
李峰
孙瑞勇
靳海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yuntian Safety Technology Co ltd
Original Assignee
Shandong Yuntian Safety Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yuntian Safety Technology Co ltd filed Critical Shandong Yuntian Safety Technology Co ltd
Priority to CN202210840814.0A priority Critical patent/CN115238234B/zh
Publication of CN115238234A publication Critical patent/CN115238234A/zh
Application granted granted Critical
Publication of CN115238234B publication Critical patent/CN115238234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请一种异常数据确定方法、电子设备及存储介质,包括:根据第一时间长度,获取原始数据向量集A;对A中每一原始数据向量进行向量维度补齐,得到第一数据向量集B;根据预设数据阈值分别对B内每一第一数据向量进行遍历,且当bij大于或等于预设数据阈值时进行计数,得到第一数量集S;根据S对B进行第一聚类处理,得到第一聚类结果V;根据V,得到均值向量集U;根据U对B进行第二聚类处理,得到第二聚类结果;根据所述第二聚类结果,确定B中是否存在孤立数据向量;若存在,则根据所述孤立数据向量,从原始数据向量集A中确定出异常数据向量。本申请能够仅根据使用非标准协议的RTU和传感器上传的数据本身,完成异常数据的确定。

Description

一种异常数据确定方法、电子设备及存储介质
背景技术
IEC104是一种广泛应用于电力、城市轨道交通等行业的国际标准通信规约,其具有通信数据大、便于升级、实时性好、可靠性高等优点,管理***通过IEC104协议将远程终端(RTU,Remote Terminal Unit)采集的监测数据发送至调度中心,以供控制人员进行使用。
但现在由于个性化的需求越来越多,很多的RTU在进行数据/数据包的上传时,会在IEC104的基础上进行修改,并使用这种修改后的非标准协议进行数据上传。由于调度中心获得的数据/数据包是采用非标准协议进行上传的,也就导致了无法采用IEC104对应的异常数据方法来确定使用非标准协议上传的数据/数据包中的异常数据。
发明内容
有鉴于此,本申请提供一种异常数据确定方法、电子设备及存储介质,至少部分解决现有技术中存在的问题。
根据本发明的一个方面,提供一种异常数据确定方法,包括:
步骤S100,根据第一时间长度L,获取原始数据向量集A={A1,A2,A3,...,Am},Ai=(ai1,ai2,ai3,...,ain(i));其中,i=1,2,...,m,Ai为第i个RTU对应的原始数据向量,m为RTU的数量,aig为第i个原始数据向量中第g个原始数据大小信息,g=1,2,...,n(i);n(i)为第i个原始数据向量中原始数据大小信息的数量;每一RTU均具有一个唯一对应的使用非标准协议的目标传感器;
步骤S200,对原始数据向量集A中每一原始数据向量进行向量维度补齐,得到第一数据向量集B={B1,B2,B3,...,Bm},Bi=(bi1,bi2,bi3,...,biW),以使得每一第一数据向量的维度的数量相同;其中,Bi为对Ai进行向量维度补齐后得到的第一数据向量,bij为第i个第一数据向量中第j个第一数据大小信息,j=1,2,...,W,W为每一第一数据向量中维度的数量,W=max(n(1),n(2),n(3),...,n(m)),进行向量维度补齐时,补充的维度的数据大小信息为0;
步骤S300,根据预设数据阈值分别对第一数据向量集B内的每一第一数据向量进行遍历,得到第一数量集S={s1,s2,s3,...,sm};其中,si为Bi中大于或等于预设数据阈值的第一数据大小信息的数量;
步骤S400,根据第一数量集S对第一数据向量集B中的第一数据向量进行第一聚类处理,得到第一聚类结果V={V1,V2,V3,...,Vk},VX={VX1,VX2,VX3,...,VXc(X)},其中,X=1,2,...,k,VX为第X个第二数据向量集,k为所述第二数据向量集的数量,k<m,VXc(X)为第X个第二数据向量集中的第c(X)个第二数据向量,c(X)为第X个第二数据向量集中第二数据向量的数量;
步骤S500,分别根据每一第二数据向量集,得到均值向量集U={u1,u2,u3,...,uk},其中,uX为VX对应的均值向量;uX=(uX1,uX2,uX3,...uXW),uXj=(∑c(X) e=1VXe j)/c(X);其中,j=1,2,...,W,uXj为uX中第j个均值数据大小信息,VXe j为VX中第e个第二数据向量的第j个第二数据大小信息,e=1,2,...,c(X);
步骤S600,根据均值向量集U对第一数据向量集B中的第一数据向量进行第二聚类处理,得到第二聚类结果;其中,第二聚类处理的聚类类别的数量为k,且使用uX作为第X个聚类类别的聚类初始向量,聚类条件为相似度FXt小于对应的相似度阈值λX,FXt为Bt与uX的相似度,Bt为B中第t个第一数据向量,t=1,2,...,m;
步骤S700,根据所述第二聚类结果,确定第一数据向量集B中是否存在孤立数据向量;若存在,则根据所述孤立数据向量,从原始数据向量集A中确定出异常数据向量。
在本申请的一种示例性实施例中,其特征在于,
Figure BDA0003750342720000021
其中,btr为Bt中第r个第一数据大小信息,uXr为uX中第r个均值数据大小信息。
在本申请的一种示例性实施例中,λX符合如下条件:
Figure BDA0003750342720000022
Figure BDA0003750342720000023
Figure BDA0003750342720000024
其中,uYr为uY中第r个均值数据大小信息,uY为VY对应的均值向量,VY为V中第Y个第二数据向量集,Y=X+1;uZr为uZ中第r个均值数据大小信息,uZ为VZ对应的均值向量,VZ为V中第Z个第二数据向量集,Z=X-1。
在本申请的一种示例性实施例中,在所述步骤S100之前,所述方法还包括:
对每一候选传感器的数据报文进行识别,以将若干候选传感器中使用非标准协议的候选传感器确定为目标传感器。
在本申请的一种示例性实施例中,所述步骤S100之前,还包括:
确定每一RTU对应的数据上传周期,得到周期集Q={Q1,Q2,Q3,...,Qm},其中,Qi为第i个RTU对应的数据上传周期;
获取最大周期max(Q),max()为预设的最大值确定函数;
根据最大周期max(Q)确定第一时间长度L;其中,L大于等于max(Q)。
在本申请的一种示例性实施例中,L=H*max(Q),H为大于1的正整数。
在本申请的一种示例性实施例中,H=10。
在本申请的一种示例性实施例中,预设数据阈值为0.8kb。
根据本发明的一个方面,提供一种电子设备,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述任一项所述方法的步骤。
根据本发明的一个方面,提供一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行上述任一项所述方法的步骤。
本申请提供的一种异常数据确定方法,首先对A中的每一原始数据向量进行向量维度补齐,使得每一第一数据向量的维度的数量相同,即每一第一数据向量的长度相同。然后,根据预设数据阈值确定出每一第一数据向量中大于或等于预设数据阈值的第一数据大小信息的数量,得到S。然后根据第一数量集对第一数据向量集中的第一数据向量进行聚类,得到若干个第二数据向量集。其中,每一第二数据向量集中的第二数据向量对应的第一数量(可理解为原始数据向量中的有效的原始数据大小信息的数量)相近(数量差值小于阈值)。再分别根据每一第二数据向量集中的第二数据向量确定出每一第二数据向量集的均值向量,以此得到了第二聚类处理使用的聚类类别的数量k和每一聚类类别对应的聚类初始向量,并进行第二聚类处理。从而将在第二聚类处理中无法完成聚类的第一数据向量确定为孤立数据向量,再根据原始数据向量集和第一数据向量集的对应关系,最终从原始数据向量集中确定出异常数据向量。由此,完成了仅根据使用非标准协议的RTU和传感器上传的数据本身,即可完成异常数据的确定,而并不用了解RTU和传感器使用的非标准协议的协议内容。同时,由于每一第一数据向量的长度相同,故而在获取均值向量时,可以直接对每一第二数据向量集对应的第一数据向量求取均值向量。避免了由于原始数据向量维度的数量不同(长度不同)导致的无法求取均值向量的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本实施例提供的异常数据确定方法所应用场景的结构示意框图。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
请参考图1,根据本发明的一个方面,提供一种异常数据确定方法,应用于上位机,该上位机可以服务器、PC等具有能够接收数据信息和一定处理能力的电子设备。上位机与多个RTU通讯连接,能够接收RTU上传的采样数据,该采样数据可以包括上传时间、原始采样数据(从对应传感器获取的传感器采集到的数据)、原始采样数据大小信息等。RTU被配置为每到一个数据上传周期(每一RTU具有自己对应的数据上传周期)的结束时刻上传一次采样数据。且在实际应用时,由于RTU会受到网络波动的影响,会在未到达本次数据上传周期的结束时刻时,也对上位机上传一个采样数据。本实施例中,采样数据可以为流量包。
所述方法具体包括以下步骤:
步骤S000,对每一候选传感器的数据报文进行识别,以将若干候选传感器中使用非标准协议的候选传感器确定为目标传感器;其中,每一目标传感器均具有一个唯一对应的RTU,所述RTU用于将对应的目标传感器的采样数据进行上传。其中,非标准协议指自定义的IEC104协议,即修改后的IEC104协议。目标传感器可以为温度传感器、湿度传感器和压力传感器等。
步骤S100,根据第一时间长度L,获取原始数据向量集A={A1,A2,A3,...,Am},Ai=(ai1,ai2,ai3,...,ain(i));其中,i=1,2,...,m,Ai为第i个RTU对应的原始数据向量,m为RTU的数量,aig为第i个原始数据向量中第g个原始数据大小信息,g=1,2,...,n(i);n(i)为第i个原始数据向量中原始数据大小信息的数量;每一RTU均具有一个唯一对应的使用非标准协议的目标传感器。原始数据向量可以根据对应的RTU在第一时间长度中上传的采样数据得到。同时,由于每一RTU的数据上传周期和开始工作时间的不同,且网络波动导致误上传的次数也不同,故而每个原始数据向量中的原始数据大小信息的数量也是不同的。因此,本实施例中,n()并不是一个设定好的处理函数,而是一个根据i值的变化,能够得到的唯一确定数值,i的取值不同,对应的n(i)的值可以不同。
步骤S200,对原始数据向量集A中每一原始数据向量进行向量维度补齐,得到第一数据向量集B={B1,B2,B3,...,Bm},Bi=(bi1,bi2,bi3,...,biW),以使得每一第一数据向量的维度的数量相同;其中,Bi为对Ai进行向量维度补齐后得到的第一数据向量,bij为第i个第一数据向量中第j个第一数据大小信息,j=1,2,...,W,W为每一第一数据向量中维度的数量,W=max(n(1),n(2),n(3),...,n(m)),进行向量维度补齐时,补充的维度的数据大小信息为0。具体的,本实施例中,进行维度向量补齐并不是在每一原始数据向量中的头部或尾部补充连续的数量不同的0。而是根据每一原始数据向量中原有的第一数据大小信息的实际时间,在相邻的两个第一数据大小信息之间补充一定数量的0。其中,“一定数量”通过相邻两个第一数据大小信息对应的时间间隔确定,时间间隔越长,补充的0的数量越多。以使不同的第一数据向量中,同一维度中的数据对应的时间相同或相近。该相近为对应的时间差值小于0.01秒到0.1秒。补充的维度的数据大小信息为0是为了后续处理中,维度的数据大小信息不会对对应的第一数据向量的实际值产生影响,而是为了使得不同第一数据向量中的第一数据大小信息在时间和位置上进行对齐。
步骤S300,根据预设数据阈值分别对第一数据向量集B内的每一第一数据向量进行遍历,且当bij大于或等于预设数据阈值时进行计数,得到第一数量集S={s1,s2,s3,...,sm};其中,si为Bi中大于或等于预设数据阈值的第一数据大小信息的数量,即si为Bi对应的第一数量。第一数量可以理解为原始数据向量中有效的数据的数量,即不是因为网络波动而产生的原始数据大小信息的数量。
步骤S400,根据第一数量集S对第一数据向量集B中的第一数据向量进行第一聚类处理,得到第一聚类结果V={V1,V2,V3,...,Vk},VX={VX1,VX2,VX3,...,VXc(X)},其中,X=1,2,...,k,VX为第X个第二数据向量集,k为所述第二数据向量集的数量,VXc(X)为第X个第二数据向量集中的第c(X)个第二数据向量,c(X)为第X个第二数据向量集中第二数据向量的数量,k<m;
根据每一第一数据向量中的大于或等于预设数据阈值的第一数据大小信息的数量对B进行聚类,可以将采集周期相近、开始和结束时间相近和实际采样时间长度相近的第一数据向量聚类为一个第二数据向量集。即,第一数量相似的第一数据向量,其对应的RTU所使用的数据上传周期可以是相同或相似的,或开始和结束时间是相同或相似的,也可以是实际采样时间长度是相同或相似的。采用预设数据阈值确定第一数量,可以避免因网络波动和上述的向量维度补齐导致的原始数据向量的长度不同和补充的维度的数量的不同带来的影响。具体的,聚类条件可以为任意两个第一数量的差值小于设定数量差值即可被聚类为一类,设定数量差值的取值为1-5,具体的,设定数量差值为2。聚类方法可以为现有的聚类方法。可以理解的是,第二数据向量集中的第二数据向量,实际还是第一数据向量集的第一数据向量,并未对任何第一数据向向量中的第一数据大小信息作出修改,仅是进行了重新“分类”。本实施例中采用不同的名字进行撰写,仅是为了方便进行区分。具体的,预设数据阈值可以通过对历史数据中被标记为是由于网络波动产生的数据大小信息中的均值或最大值,本实施例中采用的是最大值。本实施例中,预设数据阈值为0.8kb。
步骤S500,分别根据每一第二数据向量集,得到均值向量集U={u1,u2,u3,...,uk},其中,uX为VX对应的均值向量;uX=(uX1,uX2,uX3,...uXW),uXj=(∑c(X) e=1VXe j)/c(X);其中,j=1,2,...,W,uXj为uX中第j个均值数据大小信息,VXe j为VX中第e个第二数据向量的第j个第二数据大小信息,e=1,2,...,c(X)。
本实施例中,由于对每一原始数据向量做了向量维度补齐,使得每一第一数据向量和每一第二数据向量的长度相同。故而,在根据V得到U时,可以通过公式uXj=(∑c(X) t= 1VXt j)/c(X)直接对VX内的所有第二数据向量进行同位(同维度)求均值,以得到每一第二数据向量集对应的均值向量。避免了因为原始数据向量的维度数量不同导致无法求取均值向量的问题。且求取均值向量时,使用了原始数据向量中的所有原始数据大小信息(包括了网络波动产生的原始数据大小信息),使得均值向量的数据准确性更高。
步骤S600,根据均值向量集U对第一数据向量集B中的第一数据向量进行第二聚类处理,得到第二聚类结果;其中,第二聚类处理的聚类类别的数量为k,且使用uX作为第X个聚类类别的聚类初始向量,聚类条件为相似度FXt小于对应的相似度阈值λX,FXt为Bt与uX的相似度,Bt为B中第t个第一数据向量,t=1,2,...,m。具体的,第二聚类处理可以为K-means聚类处理。其中,聚类类别的数量即为K-means聚类处理使用的“K值”,而u1,u2,u3,...,uk,则为k个聚类类别的聚类初始值。该聚类初始值实际是由B中的第二数据向量得到的,且K-means聚类针对的向量集也是B。以此,能够更加准确的实现对B中的第二数据向量的聚类。
同时,实施例中,
Figure BDA0003750342720000061
其中,btr为Bt中第r个第一数据大小信息,uXr为uX中第r个均值数据大小信息。通过该公式能够得到每一第二数据向量与每一聚类初始向量的向量距离(即相似度),具体的,FXt越小,说明越相似。
λX符合如下条件:
Figure BDA0003750342720000071
Figure BDA0003750342720000072
Figure BDA0003750342720000073
其中,uYr为uY中第r个均值数据大小信息,uY为VY对应的均值向量,VY为V中第Y个第二数据向量集,Y=X+1;uZr为uZ中第r个均值数据大小信息,uZ为VZ对应的均值向量,VZ为V中第Z个第二数据向量集,Z=X-1。
聚类条件中,每一个聚类类型的对应的相似度阈值并没有采用固定值,而是通过当前的聚类初始向量与相邻的一个或两个聚类初始向量之间的向量距离确定的,使得最终的聚类结果更加准确。以此,实现对B中的第二数据向量的聚类。而本实施例中,不根据第一聚类处理确定出孤立数据向量的原因为,第一聚类处理的聚类依据为S,而S中的各个第一数量均为正整数,仅根据第一数量进行聚类只能较好的完成采集周期相近、开始和结束时间相近和实际采样时间长度相近的第一数据向量的聚类。故而,本实施例中,为了实现更加精准的异常数据的确定,采取了两次聚类。且能够通过第一聚类处理得到的第二聚类处理使用的聚类类别的数量和每一聚类类别的聚类初始值。使得通过第一聚类处理提高了第二聚类处理的聚类准确度。
步骤S700,根据所述第二聚类结果,确定第一数据向量集B中是否存在孤立数据向量;若存在,则根据所述孤立数据向量,从原始数据向量集A中确定出异常数据向量。
第二聚类结果可以采用聚类示意图或聚类集合的形式存在,孤立数据向量为没有被聚类为任意聚类类型的第一数据向量。即该孤立数据向量与每一第一数据向量的差异度都很大,可以说明这个孤立数据向量中存在异常的第一数据大小信息。最终根据原始数据向量集和第一数据向量集的对应关系,在A中确定出异常数据向量,并进行相应的标记。其中,对应关系为,A1与B1对应,A2与B2对应,以此类推,即Ai与Bi对应。
本实施例提供的一种异常数据确定方法,首先对A中的每一原始数据向量进行向量维度补齐,使得每一第一数据向量的维度的数量相同,即每一第一数据向量的长度相同。然后,根据预设数据阈值确定出每一第一数据向量中大于或等于预设数据阈值的第一数据大小信息的数量,得到S。然后根据第一数量集对第一数据向量集中的第一数据向量进行聚类,得到若干个第二数据向量集。其中,每一第二数据向量集中的第二数据向量对应的第一数量(可理解为原始数据向量中的有效的原始数据大小信息的数量)相近(数量差值小于阈值)。再分别根据每一第二数据向量集中的第二数据向量确定出每一第二数据向量集的均值向量,以此得到了第二聚类处理使用的聚类类别的数量k和每一聚类类别对应的聚类初始向量,并进行第二聚类处理。从而将在第二聚类处理中无法完成聚类的第一数据向量确定为孤立数据向量,再根据原始数据向量集和第一数据向量集的对应关系,最终从原始数据向量集中确定出异常数据向量。由此,完成了仅根据使用非标准协议的RTU和传感器上传的数据本身,即可完成异常数据的确定,而并不用了解RTU和传感器使用的非标准协议的协议内容。同时,由于每一第一数据向量的长度相同,故而在获取均值向量时,可以直接对每一第二数据向量集对应的第一数据向量求取均值向量。避免了由于原始数据向量维度的数量不同(长度不同)导致的无法求取均值向量的问题。
在本申请的一种示例性实施例中,所述步骤S100之前,还包括:
确定每一RTU对应的数据上传周期,得到周期集Q={Q1,Q2,Q3,...,Qm},其中,Qi为第i个RTU对应的数据上传周期;
获取最大周期max(Q),max()为预设的最大值确定函数;
根据最大周期max(Q)确定第一时间长度L;其中,L大于等于max(Q)。具体的,L≥H*max(Q),H为大于1的正整数。优选的,H=10。L具有一个确定的开始时间Lstart和一个确定的结束时间,以此来获取每一RTU对应的原始数据向量。
为了保证A中的有效的数据的数量能够支持后续的异常数据确定,本实施例中,在确定L时,需要保证L大于max(Q),即保证每一原始数据向量中,至少具有一个有效的数据。而由于后续处理中,第一聚类处理的聚类条件与第一数量相关,第二聚类处理的聚类条件与第一数量和每一第一数据向量中第一数据大小信息的实际值相关。若一个原始数据向量中,仅具有一个有效的数据,可能会对最终的聚类结果产生影响,故而本实施例中,L≥10*max(Q),以保证每一原始数据向量中,至少包含10个有效的数据。
进一步的,在本申请的一种示例性实施例中,在步骤步骤S300之后,还可以包括:
确定每一RTU对应的原始数据向量中的首个原始数据大小信息的获取时间。并确定出多个获取时间中的最大获取时间Tstart max
获取HΔ=(Lstart-Tstart max)/max(Q),其中,HΔ向上取整。
遍历S,若sα小于H-HΔ,则将sα对应的第一数据向量(即Bα)从B中删除。α的取值为1到m。
并将A中与Bα对应的原始数据向量确定为异常数据向量。由于L≥H*max(Q),则说明若是正常的RTU,其对应的第一数据向量中,大于或等于预设数据阈值的第一数据大小信息的数量至少为H-HΔ个。故而,若sα小于H-HΔ,则可以说明其对应的RTU发生了漏传数据的问题,则可直接将该RTU对应的原始数据向量确定为异常数据向量。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为***、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
根据本申请的这种实施方式的电子设备。电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:上述至少一个处理器、上述至少一个储存器、连接不同***组件(包括储存器和处理器)的总线。
其中,所述储存器存储有程序代码,所述程序代码可以被所述处理器执行,使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
储存器可以包括易失性储存器形式的可读介质,例如随机存取储存器(RAM)和/或高速缓存储存器,还可以进一步包括只读储存器(ROM)。
储存器还可以包括具有一组(至少一个)程序模块的程序/实用工具,这样的程序模块包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线可以为表示几类总线结构中的一种或多种,包括储存器总线或者储存器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种异常数据确定方法,其特征在于,包括:
步骤S100,根据第一时间长度L,获取原始数据向量集A={A1,A2,A3,...,Am},Ai=(ai1,ai2,ai3,...,ain(i));其中,i=1,2,...,m,Ai为第i个RTU对应的原始数据向量,m为RTU的数量,aig为第i个原始数据向量中第g个原始数据大小信息,g=1,2,...,n(i);n(i)为第i个原始数据向量中原始数据大小信息的数量;每一RTU均具有一个唯一对应的使用非标准协议的目标传感器;
步骤S200,对原始数据向量集A中每一原始数据向量进行向量维度补齐,得到第一数据向量集B={B1,B2,B3,...,Bm},Bi=(bi1,bi2,bi3,...,biW),以使得每一第一数据向量的维度的数量相同;其中,Bi为对Ai进行向量维度补齐后得到的第一数据向量,bij为第i个第一数据向量中第j个第一数据大小信息,j=1,2,...,W,W为每一第一数据向量中维度的数量,W=max(n(1),n(2),n(3),...,n(m)),进行向量维度补齐时,补充的维度的数据大小信息为0;
步骤S300,根据预设数据阈值分别对第一数据向量集B内的每一第一数据向量进行遍历,得到第一数量集S={s1,s2,s3,...,sm};其中,si为Bi中大于或等于预设数据阈值的第一数据大小信息的数量;
步骤S400,根据第一数量集S对第一数据向量集B中的第一数据向量进行第一聚类处理,得到第一聚类结果V={V1,V2,V3,...,Vk},VX={VX1,VX2,VX3,...,VXc(X)},其中,X=1,2,...,k,VX为第X个第二数据向量集,k为所述第二数据向量集的数量,k<m,VXc(X)为第X个第二数据向量集中的第c(X)个第二数据向量,c(X)为第X个第二数据向量集中第二数据向量的数量;
步骤S500,分别根据每一第二数据向量集,得到均值向量集U={u1,u2,u3,...,uk},其中,uX为VX对应的均值向量;uX=(uX1,uX2,uX3,...uXW),uXj=(∑c(X) e=1VXe j)/c(X);其中,j=1,2,...,W,uXj为uX中第j个均值数据大小信息,VXe j为VX中第e个第二数据向量的第j个第二数据大小信息,e=1,2,...,c(X);
步骤S600,根据均值向量集U对第一数据向量集B中的第一数据向量进行第二聚类处理,得到第二聚类结果;其中,第二聚类处理的聚类类别的数量为k,且使用uX作为第X个聚类类别的聚类初始向量,聚类条件为相似度FXt小于对应的相似度阈值λX,FXt为Bt与uX的相似度,Bt为B中第t个第一数据向量,t=1,2,...,m;
步骤S700,根据所述第二聚类结果,确定第一数据向量集B中是否存在孤立数据向量;若存在,则根据所述孤立数据向量,从原始数据向量集A中确定出异常数据向量。
2.根据权利要求1所述的异常数据确定方法,其特征在于,
Figure FDA0003750342710000011
其中,btr为Bt中第r个第一数据大小信息,uXr为uX中第r个均值数据大小信息。
3.根据权利要求2所述的异常数据确定方法,其特征在于,λX符合如下条件:
Figure FDA0003750342710000021
Figure FDA0003750342710000022
Figure FDA0003750342710000023
其中,uYr为uY中第r个均值数据大小信息,uY为VY对应的均值向量,VY为V中第Y个第二数据向量集,Y=X+1;uZr为uZ中第r个均值数据大小信息,uZ为VZ对应的均值向量,VZ为V中第Z个第二数据向量集,Z=X-1。
4.根据权利要求1所述的异常数据确定方法,其特征在于,在所述步骤S100之前,所述方法还包括:
对每一候选传感器的数据报文进行识别,以将若干候选传感器中使用非标准协议的候选传感器确定为目标传感器。
5.根据权利要求1所述的异常数据确定方法,其特征在于,所述步骤S100之前,还包括:
确定每一RTU对应的数据上传周期,得到周期集Q={Q1,Q2,Q3,...,Qm},其中,Qi为第i个RTU对应的数据上传周期;
获取最大周期max(Q),max()为预设的最大值确定函数;
根据最大周期max(Q)确定第一时间长度L;其中,L大于等于max(Q)。
6.根据权利要求5所述的异常数据确定方法,其特征在于,L=H*max(Q),H为大于1的正整数。
7.根据权利要求6所述的异常数据确定方法,其特征在于,H=10。
8.根据权利要求1所述的异常数据确定方法,其特征在于,预设数据阈值为0.8kb。
9.一种电子设备,其特征在于,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述方法的步骤。
10.一种非瞬时性计算机可读存储介质,其特征在于,所述非瞬时性计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。
CN202210840814.0A 2022-07-18 2022-07-18 一种异常数据确定方法、电子设备及存储介质 Active CN115238234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210840814.0A CN115238234B (zh) 2022-07-18 2022-07-18 一种异常数据确定方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210840814.0A CN115238234B (zh) 2022-07-18 2022-07-18 一种异常数据确定方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115238234A CN115238234A (zh) 2022-10-25
CN115238234B true CN115238234B (zh) 2023-04-28

Family

ID=83673920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210840814.0A Active CN115238234B (zh) 2022-07-18 2022-07-18 一种异常数据确定方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115238234B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2995864A1 (en) * 2017-03-09 2018-09-09 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid
CN109978070A (zh) * 2019-04-03 2019-07-05 北京市天元网络技术股份有限公司 一种改进的K-means异常值检测方法以及装置
CN111612037A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法、装置、介质及电子设备
CN112632609A (zh) * 2020-12-23 2021-04-09 深圳云天励飞技术股份有限公司 异常检测方法、装置、电子设备及存储介质
WO2022105318A1 (zh) * 2020-11-18 2022-05-27 长鑫存储技术有限公司 监测机台运行状况的方法及装置、存储介质及电子设备
CN114710369A (zh) * 2022-06-06 2022-07-05 山东云天安全技术有限公司 一种异常数据检测方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2995864A1 (en) * 2017-03-09 2018-09-09 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid
CN109978070A (zh) * 2019-04-03 2019-07-05 北京市天元网络技术股份有限公司 一种改进的K-means异常值检测方法以及装置
CN111612037A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法、装置、介质及电子设备
WO2022105318A1 (zh) * 2020-11-18 2022-05-27 长鑫存储技术有限公司 监测机台运行状况的方法及装置、存储介质及电子设备
CN112632609A (zh) * 2020-12-23 2021-04-09 深圳云天励飞技术股份有限公司 异常检测方法、装置、电子设备及存储介质
CN114710369A (zh) * 2022-06-06 2022-07-05 山东云天安全技术有限公司 一种异常数据检测方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙瑞勇.一款基于主动防御机制的伪装诱捕与威胁感知产品.2021年国家网络安全宣传周"网络安全产业发展论坛".2021,全文. *

Also Published As

Publication number Publication date
CN115238234A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN115186158B (zh) 一种异常数据确定方法、电子设备及存储介质
CN111949710B (zh) 数据存储方法、装置、服务器及存储介质
JP7073952B2 (ja) データ収集システム及びデータ収集方法
CN110928561B (zh) 车辆控制器软件版本管理方法、装置、车辆和存储介质
KR20200110132A (ko) 트래픽 탐지 방법 및 장치
CN117688342B (zh) 一种基于模型的设备状态预测方法、电子设备及存储介质
CN113810492B (zh) 基于智能网关的数据点表生成方法、装置和计算机设备
CN112965879A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN113485649A (zh) 数据存储方法、***、装置、介质与电子设备
CN115238234B (zh) 一种异常数据确定方法、电子设备及存储介质
CN113691310B (zh) 光纤链路的故障监测方法、装置、设备和存储介质
CN112783827A (zh) 多传感器数据存储方法和装置
CN116259165A (zh) 监测数据处理方法、装置、电子设备及存储介质
CN115499393A (zh) 一种基于网络接口芯片的tcp连接报文处理方法
CN114465919A (zh) 一种网络服务测试方法、***、电子设备及存储介质
CN113281565A (zh) 基于双芯智能电表的负荷识别方法
CN114449052B (zh) 一种数据压缩方法、装置、电子设备及存储介质
CN117040938B (zh) 一种异常ip检测方法及装置、电子设备及存储介质
CN112350839B (zh) 以太网的事件记录方法、装置、计算机设备以及存储介质
CN115292146B (zh) 一种***容量预估方法、***、设备及存储介质
CN114710354B (zh) 异常事件检测方法及装置、存储介质及电子设备
CN118070207B (zh) 一种检测数据校验方法、电子设备及存储介质
CN109862072B (zh) 申请任务的响应方法和装置
CN110647519B (zh) 对测试样本中的缺失属性值进行预测的方法及装置
CN117541097A (zh) 一种数字化电力数据分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method for determining abnormal data, electronic devices, and storage media

Granted publication date: 20230428

Pledgee: Rizhao Bank Co.,Ltd. Jinan Branch

Pledgor: Shandong Yuntian Safety Technology Co.,Ltd.

Registration number: Y2024980008627

PE01 Entry into force of the registration of the contract for pledge of patent right