CN114579391A - 异常数据的检测方法、***、介质及终端 - Google Patents
异常数据的检测方法、***、介质及终端 Download PDFInfo
- Publication number
- CN114579391A CN114579391A CN202011391190.6A CN202011391190A CN114579391A CN 114579391 A CN114579391 A CN 114579391A CN 202011391190 A CN202011391190 A CN 202011391190A CN 114579391 A CN114579391 A CN 114579391A
- Authority
- CN
- China
- Prior art keywords
- data
- detected
- cluster
- vector
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供一种异常数据的检测方法、***、介质及终端;所述方法包括以下步骤:根据传感器组采集的历史数据,获取正常数据簇和异常数据簇;获取待检测时刻,传感器组采集的待检测数据;对待检测数据进行预处理,以获取待检测时刻对应待检测数据的待检测向量;将待检测向量输入至向量嵌入工具中,获取一待检测的可视化簇点;根据待检测的可视化簇点与正常数据簇和异常数据簇之间的距离,检测出待检测数据是否为异常数据;本发明通过向量嵌入技术处理多种传感器数据,识别信号之间的关联关系,进而提取出异常数据的模式和规律,实现在实际场景中,对传感器数据进行实时监控,从而准确地检测到异常数据,保证了异常数据检测的准确可靠性。
Description
技术领域
本发明属于异常数据检测技术领域,特别是涉及一种异常数据的检测方法、***、介质及终端。
背景技术
在IoT(Internet of Things,物联网)数据感知场景中,通常需要采集大量传感器的系列数据进行使用场景中设备运行状态的感知,这其中特别关注的是如何在庞大繁杂的传感器数据流中,检测到异常的发生,如果能在传感器数据流中及早检测到异常发生的趋势,那对于实际的场景是很有意义的,检测到异常数据的时机越早,造成的损失就越小。
目前,业内主流的异常数据检测方法通常采用以下两种方式:
(1)提高关键位置传感器数据的准确程度,这样可以从单一传感器数据的精确读数上明确当前是正常状态还是非正常状态。
(2)总结归纳异常状态时,相关的多种传感器历史数据呈现的特征或者规律,后续如果监控到传感器数据表现出的模式符合该特征时,就认为异常状态发生或者将要发生了。
对上述异常数据检测的解决办法存在如下的技术问题:
(1)由于传感器的准确度和精度,受制于当前的技术和加工水平,不可能无限制的提高,所以,业内主流的传感器技术水平无法满足能精确识别异常数据的要求,即导致异常数据检测的准确度降低。
(2)异常场景的相关历史数据可能关联多种传感器,并且是按时间顺序的流数据,这种情况下,数据的模式和规律不是特别明确的,牵扯到多种类、多数量的传感器数据,去提取信号模式是一个有巨大工作量的技术难题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种异常数据的检测方法、***、介质及终端,用于解决现有异常数据检测存在的准确度低、工作量大,难以实现可靠的异常数据检测的问题。
为实现上述目的及其他相关目的,本发明提供一种异常数据的检测方法,包括以下步骤:根据传感器组采集的历史数据,获取正常数据簇和异常数据簇;获取待检测时刻,所述传感器组采集的待检测数据;对所述待检测数据进行预处理,以获取所述待检测时刻对应所述待检测数据的待检测向量;将所述待检测向量输入至向量嵌入工具中,获取一待检测的可视化簇点;根据所述待检测的可视化簇点与所述正常数据簇和所述异常数据簇之间的距离,检测出所述待检测数据是否为异常数据。
于本发明的一实施例中,根据传感器组采集的历史数据,获取正常数据簇和异常数据簇包括以下步骤:获取一历史时刻对应的所述历史数据;对所述历史数据进行预处理,以获取所述历史时刻对应所述历史数据的一原始向量;按照时间顺序,将预设时间段内对应每一所述历史时刻的所述原始向量输入至所述向量嵌入工具中,获取至少一所述正常数据簇和至少一所述异常数据簇;所述正常数据簇和所述异常数据簇中均包括至少一可视化簇点,且每一所述可视化簇点对应一所述原始向量。
于本发明的一实施例中,所述传感器组包括至少一传感器;所述待检测数据包括至少一所述传感器采集的目标数据;对所述待检测数据进行预处理,以获取所述待检测时刻对应所述待检测数据的待检测向量包括以下步骤:对每一所述传感器采集的所述目标数据进行字符串化处理,获取对应每一所述传感器的字符串数据,以区分出不同的传感器;对所有的所述传感器对应的所述字符串数据进行向量化处理,获取所述待检测向量。
于本发明的一实施例中,根据所述待检测的可视化簇点与所述正常数据簇和所述异常数据簇之间的距离,检测出所述待检测数据是否为异常数据包括以下步骤:确定距离所述待检测的可视化簇点最近的一数据簇是正常数据簇,还是异常数据簇;若距离所述待检测的可视化簇点最近的一数据簇是正常数据簇,则所述待检测数据为正常数据;若距离所述待检测的可视化簇点最近的一数据簇是异常数据簇,则所述待检测数据为异常数据;所述异常数据簇的数量至少为二,且每一所述异常数据簇对应的异常类型各不相同;所述正常数据簇和每一所述异常数据簇所处的空间位置各不相同;所述正常数据簇中的可视化数据簇对应的历史数据均是正常的;所述异常数据簇中的可视化数据簇对应的历史数据均是异常的;已知所述历史数据是否正常及异常类型;所述异常数据的检测方法还包括:根据所述异常数据簇的异常类型,判断出所述待检测数据的异常类型。
本发明提供一种异常数据的检测***,包括:第一获取模块、第二获取模块、预处理模块、输入模块及异常检测模块;所述第一获取模块用于根据传感器组采集的历史数据,获取获取正常数据簇和异常数据簇;所述第二获取模块用于获取待检测时刻,所述传感器组采集的待检测数据;所述预处理模块用于对所述待检测数据进行预处理,以获取所述待检测时刻对应所述待检测数据的待检测向量;所述输入模块用于将所述待检测向量输入至向量嵌入工具中,获取一待检测的可视化簇点;所述异常检测模块用于根据所述待检测的可视化簇点与所述正常数据簇和所述异常数据簇之间的距离,检测出所述待检测数据是否为异常数据。
本发明提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的异常数据的检测方法。
本发明提供一种终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的异常数据的检测方法。
本发明提供一种异常数据的检测***,包括上述的终端、传感器组及向量嵌入工具;所述传感器组与所述终端连接,用于采集历史数据和待检测数据,并将所述历史数据和所述待检测数据发送至所述终端;所述向量嵌入工具与所述终端连接,用于对待检测向量进行处理,以获取一待检测的可视化簇点。
于本发明的一实施例中,所述向量嵌入工具还用于对预设时间段内对应每一历史时刻的原始向量进行处理,以获取正常数据簇和异常数据簇;所述原始向量为对应一所述历史时刻,所述终端对所述历史数据进行预处理后获得的;其中,所述向量嵌入工具对预设时间段内对应每一历史时刻的原始向量进行处理,以获取正常数据簇和异常数据簇包括以下步骤:对每一所述原始向量进行聚簇变换,以获取目标向量;对所述目标向量进行降维处理,以获取对应每一所述原始向量的二维的可视化簇点,并根据对应所有所述原始向量的二维的可视化簇点,获取所述正常数据簇和所述异常数据簇;所述向量嵌入工具对待检测向量进行处理,以获取一待检测的可视化簇点包括以下步骤:对所述待检测向量进行聚簇变换,以获取目标待检测向量;对所述目标待检测向量进行降维处理,以获取所述待检测的可视化簇点;所述待检测的可视化簇点为二维。
于本发明的一实施例中,所述向量嵌入工具还用于将对应所有所述原始向量的二维的可视化簇点及所述待检测的可视化簇点,均可视化地展示在二维坐标平面中。
如上所述,本发明所述的异常数据的检测方法、***、介质及终端,具有以下有益效果:
与现有技术相比,本发明通过将向量嵌入的方法引入异常数据检测中,通过向量嵌入技术处理多种传感器数据,识别信号之间的关联关系,进而提取出异常数据的模式和规律,然后通过异常场景的历史数据,利用向量嵌入技术提取到的模式和规律,实现在实际场景中,对传感器数据进行实时监控,从而准确地检测到异常数据,保证了异常数据检测的准确可靠性。
附图说明
图1显示为本发明的异常数据的检测方法于一实施例中的流程图。
图2显示为本发明的获取正常数据簇和异常数据簇于一实施例中的流程图。
图3显示为本发明的获取原始向量于一实施例中的流程图。
图4显示为本发明的向量嵌入工具处理原始向量于一实施例中的流程图。
图5显示为本发明的获取待检测向量于一实施例中的流程图。
图6显示为本发明的向量嵌入工具处理待检测向量于一实施例中的流程示意图。
图7显示为本发明的正常数据簇和异常数据簇显示在二维坐标平面中于一实施例中的结构示意图。
图8显示为本发明的异常数据的检测***于一实施例中的结构示意图。
图9显示为本发明的终端于一实施例中的结构示意图。
图10显示为本发明的异常数据的检测***于另一实施例中的结构示意图。
标号说明
81 第一获取模块
82 第二获取模块
83 预处理模块
84 输入模块
85 异常检测模块
91 处理器
92 存储器
101 终端
102 传感器组
103 向量嵌入工具
S1~S6 步骤
S11~S13 步骤
S121~S122 步骤
S131~S132 步骤
S31~S32 步骤
S41~S42 步骤
具体实施方式
以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的异常数据的检测方法、***、介质及终端,与现有技术相比,本发明通过将向量嵌入的方法引入异常数据检测中,通过向量嵌入技术处理多种传感器数据,识别信号之间的关联关系,进而提取出异常数据的模式和规律,然后通过异常场景的历史数据,利用向量嵌入技术提取到的模式和规律,实现在实际场景中,对传感器数据进行实时监控,从而准确地检测到异常数据,保证了异常数据检测的准确可靠性。
如图1所示,于一实施例中,本发明的异常数据的检测方法包括以下步骤:
步骤S1、根据传感器组采集的历史数据,获取正常数据簇和异常数据簇。
需要说明的是,该传感器组包括至少一传感器;该历史数据包括至少一传感器采集的数据。
如图2所示,于一实施例中,根据传感器组采集的历史数据,获取正常数据簇和异常数据簇包括以下步骤:
步骤S11、获取一历史时刻对应的所述历史数据。
具体地,对应一历史时刻,将传感器组采集的数据作为该历史时刻对应的历史数据。
步骤S12、对所述历史数据进行预处理,以获取所述历史时刻对应所述历史数据的一原始向量。
如图3所示,于一实施例中,该步骤S12包括以下步骤:
步骤S121、对传感器组中的每一传感器采集的数据进行字符串化处理,获取对应每一传感器的字符串数据,以区分出不同的传感器。
诸如,一温度传感器的型号为1001,其采集到的数据为33.5,则经字符串化处理后,获取的字符串数据为:Temp1001-33.5,通过该字符串数据,即可知道该传感器为一温度传感器,且其型号为1001,其采集的数据33.5。
需要说明的是,对数据进行字符串化处理,是领域内常见的技术手段,其具体的工作原理不作为限制本发明的条件,所以,在此也不再详细赘述。
步骤S122、对所有的传感器对应的字符串数据进行向量化处理,获取原始向量。
需要说明的是,该原始向量是对所有传感器对应的字符串数据向量化之后,产生结果的组合,即该原始向量中包括了所有传感器对应的字符串数据向量化之后的结果,该原始向量的维度等于所有传感器的总数量。
步骤S13、按照时间顺序,将预设时间段内对应每一所述历史时刻的所述原始向量输入至所述向量嵌入工具中,获取至少一所述正常数据簇和至少一所述异常数据簇。
需要说明的是,在实际场景的传感器数据中,时间发生的顺序很重要,代表了传感器数据的前后顺序,相当于传感器数据的上下文,所以,于本实施例中,按照时间发生的顺序,将所有相关传感器数据向量化之后的数据(即原始向量),放入向量嵌入工具中,对有利于后续异常数据检测结果的准确可靠性。
需要说明的是,该预设时间段是预先设置好的,其具体为何值,不作为限制本发明条件,可视实际应用场景来定。
需要说明的是,向量嵌入技术广泛应用于NLP(自然语言处理)领域,在归纳总结繁杂多样的自然语言模式和规律上作用强大。
优选地,该向量嵌入工具选择gensim开源的Word2Vec工具,该工具可以在python编程环境中用命令:pip install gensim安装。
于一实施例中,采用以下的程序代码从gensim中导出该向量嵌入工具:
from gensim.models import Word2Vec;
from sklearn.decomposition import PCA;
from matplotlib import pyplot。
然后,将经步骤S13获取的所有的原始向量放入该向量嵌入工具中,以使该向量嵌入工具对该原始向量进行相应处理后,最终获得正常数据簇和异常数据簇。
优选地,采用以下的程序代码来实现:model=Word2Vec(预设时间段内对应每一历史时刻的原始向量)。
如图4所示,于一实施例中,所述向量嵌入工具对预设时间段内对应每一历史时刻的原始向量进行处理,以获取正常数据簇和异常数据簇包括以下步骤:
步骤S131、对每一所述原始向量进行聚簇变换,以获取目标向量。
步骤S132、对所述目标向量进行降维处理,以获取对应每一所述原始向量的二维的可视化簇点,并根据对应所有所述原始向量的二维的可视化簇点,获取所述正常数据簇和所述异常数据簇。
优选地,上述降维处理可采用以下的程序代码来实现:
X=model[model.wv.vocab];
pca=PCA(n_components=2);
result=pca.fit_transform(X)。
需要说明的是,所述正常数据簇和所述异常数据簇中均包括至少一可视化簇点,且每一所述可视化簇点对应一所述原始向量。
需要说明的是,经该向量嵌入工具对该原始向量进行处理后,会得到对应该原始向量的可视化簇点,经对预设时间段内获取的所有的原始向量处理后,得到多个分别对应该原始向量的可视化簇点,最后,根据历史数据的正常或异常,判断出这些可视化簇点是属于正常数据簇,还是属于异常数据簇。
需要说明的是,所述正常数据簇中的可视化数据簇对应的历史数据均是正常的;所述异常数据簇中的可视化数据簇对应的历史数据均是异常的。
需要说明的是,所述历史数据是否正常是已知的。
需要说明的是,该向量嵌入工具对该原始向量进行处理,以实现获取正常数据簇和异常数据簇,具体的工作原理不作为限制本发明的条件,在此不再详细赘述。
步骤S2、获取待检测时刻,所述传感器组采集的待检测数据。
于一实施例中,所述传感器组所述待检测数据包括至少一所述传感器采集的目标数据。
步骤S3、对所述待检测数据进行预处理,以获取所述待检测时刻对应所述待检测数据的待检测向量。
如图5所示,于一实施例中,对所述待检测数据进行预处理,以获取所述待检测时刻对应所述待检测数据的待检测向量包括以下步骤:
步骤S31、对每一所述传感器采集的所述目标数据进行字符串化处理,获取对应每一所述传感器的字符串数据,以区分出不同的传感器。
步骤S32、对所有的所述传感器对应的所述字符串数据进行向量化处理,获取所述待检测向量。
需要说明的是,该步骤S31和步骤S32,为获取待检测向量与上述经步骤S11和步骤S12,获取原始向量的工作原理相同,在此不再详细赘述。
步骤S4、将所述待检测向量输入至向量嵌入工具中,获取一待检测的可视化簇点。
如图6所示,于一实施例中,所述向量嵌入工具对待检测向量进行处理,以获取一待检测的可视化簇点包括以下步骤:
步骤S41、对所述待检测向量进行聚簇变换,以获取目标待检测向量。
步骤S42、对所述目标待检测向量进行降维处理,以获取所述待检测的可视化簇点。
需要说明的是,所述待检测的可视化簇点为二维。
需要说明的是,该步骤S41和步骤S42为获取待检测的可视化簇点,与上述步骤S131和步骤S132中获取对应原始向量的可视化簇点的工作原理相同,在此不再详细赘述。
步骤S5、根据所述待检测的可视化簇点与所述正常数据簇和所述异常数据簇之间的距离,检测出所述待检测数据是否为异常数据。
具体地,可通过计算该待检测的可视化簇点对应的待检测向量与正常数据簇和异常数据簇中的任一可视化簇点对应的原始向量之间的欧式距离或余弦距离,实现检测出该待检测数据是否为异常数据;当然,上述距离的计算方式本质上是计算两个向量之间的距离,其具体的计算方式不作为限制本发明的条件,可以采用欧氏距离计算法,或者是采用余弦距离计算法,也可以采用其它的向量距离计算方法。
需要说明的是,步骤S1的执行顺序只要能够保证在步骤S5之前即可。
于一实施例中,根据所述待检测的可视化簇点与所述正常数据簇和所述异常数据簇之间的距离,检测出所述待检测数据是否为异常数据包括以下步骤:
确定距离所述待检测的可视化簇点最近的一数据簇是正常数据簇,还是异常数据簇;若距离所述待检测的可视化簇点最近的一数据簇是正常数据簇,则所述待检测数据为正常数据;若距离所述待检测的可视化簇点最近的一数据簇是异常数据簇,则所述待检测数据为异常数据。
进一步地,对于异常的历史数据,可能存在至少一异常类型,而对于异常的历史数据,其异常类型也是已知的。
于一实施例中,异常数据簇的数量至少为二,且每一异常数据簇对应的异常类型各不相同。
如图1所示,于一实施例中,所述异常数据的检测方法还包括以下步骤:
步骤S6、根据所述异常数据簇的异常类型,判断出所述待检测数据的异常类型。
具体地,不同的异常数据簇所处的空间位置各不相同,根据距离该异常的待检测数据最近的一异常数据簇的异常类型,判断出该待检测数据的异常类型。
需要说明的是,在实际应用场景中,当异常发生或者将要发生时,相关传感器数据会出现响应的变化趋势;通过异常场景的历史数据,利用向量嵌入技术提取到的模式和规律(历史数据中发现这些原始向量呈现一定的聚集效应,即异常数据和正常数据会聚簇在不同的空间范围内,形成正常数据簇和异常数据簇),就可以在实际应用场景中,对传感器数据进行实时监控,如果实时数据符合了提取的模式和规律(实时数据会聚集在某一簇的周围,如果聚集在异常数据簇),就可以检测到异常数据了。
如图7所示,于一实施例中,所述向量嵌入工具还用于将对应所有所述原始向量的二维的可视化簇点及所述待检测的可视化簇点,均可视化地展示在二维坐标平面中。
具体地,在图7中,第①框代表正常数据簇,且其中的可视化簇点对应的历史数据均为正常数据;第②框代表第一类型的异常数据簇,且其中的可视化簇点对应的历史数据均为第一类型的异常数据;第③框代表第二类型的异常数据簇,且其中的可视化簇点对应的历史数据均为第二类型的异常数据;第④框代表第三类型的异常数据簇,且其中的可视化簇点对应的历史数据均为第三类型的异常数据;第⑤框代表第四类型的异常数据簇,且其中的可视化簇点对应的历史数据均为第四类型的异常数据;第⑥框代表第五类型的异常数据簇,且其中的可视化簇点对应的历史数据均为第五类型的异常数据;A点代表一待检测的可视化簇点;B点代表另一待检测的可视化簇点。
由图7可知,距离该A点最近的一数据簇为第④框代表第三类型的异常数据簇,所以,得到其对应的待检测数据为第三类型的异常数据;距离该B点最近的一数据簇为第①框代表正常数据簇,所以,得到其对应的待检测数据为正常数据。
优选地,可采用以下的程序代码,实现将对应所有原始向量的二维的可视化簇点及待检测的可视化簇点,均可视化地展示在二维坐标平面中:
pyplot.scatter(result[:,0],result[:,1]);
words=list(model.wv.vocab);
for i,word in enumerate(words):
pyplot.annotate(word,xy=(result[i,0],result[i,1]));
pyplot.show()。
需要说明的是,所述正常数据簇和每一所述异常数据簇在该二维坐标平面中所处的空间位置各不相同,从而使得用户可以直接从该二维坐标平面中,直观地看出待检测数据是否正常,及其异常类型。
需要说明的是,本发明所述的异常数据的检测方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
如图8所示,于一实施例中,本发明的异常数据的检测***包括第一获取模81、第二获取模块82、预处理模块83、输入模块84及异常检测模块85。
所述第一获取模块81用于根据传感器组采集的历史数据,获取获取正常数据簇和异常数据簇。
所述第二获取模块82用于获取待检测时刻,所述传感器组采集的待检测数据。
所述预处理模块83用于对所述待检测数据进行预处理,以获取所述待检测时刻对应所述待检测数据的待检测向量。
所述输入模块84用于将所述待检测向量输入至向量嵌入工具中,获取一待检测的可视化簇点。
所述异常检测模块85用于根据所述待检测的可视化簇点与所述正常数据簇和所述异常数据簇之间的距离,检测出所述待检测数据是否为异常数据。
需要说明的是,所述第一获取模81、所述第二获取模块82、所述预处理模块83、所述输入模块84及所述异常检测模块85的结构及原理与上述异常数据的检测方法中的步骤(步骤S1~步骤S5)一一对应,故在此不再赘述。
需要说明的是,应理解以上***的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述***的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述***的存储器中,由上述***的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个数字信号处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的异常数据的检测方法。所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
如图9所示,本发明的终端包括处理器91及存储器92。
所述存储器92用于存储计算机程序;优选地,所述存储器92包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器91与所述存储器92相连,用于执行所述存储器92存储的计算机程序,以使所述终端执行上述的异常数据的检测方法。
优选地,所述处理器91可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图10所示,于一实施例中,本发明的异常数据的检测***包括上述的终端101、传感器组102及向量嵌入工具103。
具体地,所述传感器组102与所述终端101连接,用于采集历史数据和待检测数据,并将所述历史数据和所述待检测数据发送至所述终端101;所述向量嵌入工具103与所述终端101连接,用于对待检测向量进行处理,以获取一待检测的可视化簇点。
于一实施例中,所述向量嵌入工具还用于对预设时间段内对应每一历史时刻的原始向量进行处理,以获取正常数据簇和异常数据簇。
需要说明的是,所述原始向量为对应一所述历史时刻,所述终端对所述历史数据进行预处理后获得的。
具体地,所述向量嵌入工具对预设时间段内对应每一历史时刻的原始向量进行处理,以获取正常数据簇和异常数据簇包括以下步骤:
对每一所述原始向量进行聚簇变换,以获取目标向量。
对所述目标向量进行降维处理,以获取对应每一所述原始向量的二维的可视化簇点,并根据对应所有所述原始向量的二维的可视化簇点,获取所述正常数据簇和所述异常数据簇。
具体地,所述向量嵌入工具对待检测向量进行处理,以获取一待检测的可视化簇点包括以下步骤:
对所述待检测向量进行聚簇变换,以获取目标待检测向量。
对所述目标待检测向量进行降维处理,以获取所述待检测的可视化簇点;所述待检测的可视化簇点为二维。
于一实施例中,所述向量嵌入工具还用于将对应所有所述原始向量的二维的可视化簇点及所述待检测的可视化簇点,均可视化地展示在二维坐标平面中。
需要说明的是,该异常数据的检测***的工作原理与上述异常数据的检测方法的工作原理相同,在此不再详细赘述。
需要说明的是,本发明的异常数据的检测***可以实现本发明的异常数据的检测方法,但本发明的异常数据的检测方法的实现装置包括但不限于本实施例列举的异常数据的检测***的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
综上所述,本发明的异常数据的检测方法、***、介质及终端,与现有技术相比,本发明通过将向量嵌入的方法引入异常数据检测中,通过向量嵌入技术处理多种传感器数据,识别信号之间的关联关系,进而提取出异常数据的模式和规律,然后通过异常场景的历史数据,利用向量嵌入技术提取到的模式和规律,实现在实际场景中,对传感器数据进行实时监控,从而准确地检测到异常数据,保证了异常数据检测的准确可靠性;所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种异常数据的检测方法,其特征在于,包括以下步骤:
根据传感器组采集的历史数据,获取正常数据簇和异常数据簇;
获取待检测时刻,所述传感器组采集的待检测数据;
对所述待检测数据进行预处理,以获取所述待检测时刻对应所述待检测数据的待检测向量;
将所述待检测向量输入至向量嵌入工具中,获取一待检测的可视化簇点;
根据所述待检测的可视化簇点与所述正常数据簇和所述异常数据簇之间的距离,检测出所述待检测数据是否为异常数据。
2.根据权利要求1所述的异常数据的检测方法,其特征在于,根据传感器组采集的历史数据,获取正常数据簇和异常数据簇包括以下步骤:
获取一历史时刻对应的所述历史数据;
对所述历史数据进行预处理,以获取所述历史时刻对应所述历史数据的一原始向量;
按照时间顺序,将预设时间段内对应每一所述历史时刻的所述原始向量输入至所述向量嵌入工具中,获取至少一所述正常数据簇和至少一所述异常数据簇;所述正常数据簇和所述异常数据簇中均包括至少一可视化簇点,且每一所述可视化簇点对应一所述原始向量。
3.根据权利要求1所述的异常数据的检测方法,其特征在于,所述传感器组包括至少一传感器;所述待检测数据包括至少一所述传感器采集的目标数据;对所述待检测数据进行预处理,以获取所述待检测时刻对应所述待检测数据的待检测向量包括以下步骤:
对每一所述传感器采集的所述目标数据进行字符串化处理,获取对应每一所述传感器的字符串数据,以区分出不同的传感器;
对所有的所述传感器对应的所述字符串数据进行向量化处理,获取所述待检测向量。
4.根据权利要求1所述的异常数据的检测方法,其特征在于,根据所述待检测的可视化簇点与所述正常数据簇和所述异常数据簇之间的距离,检测出所述待检测数据是否为异常数据包括以下步骤:
确定距离所述待检测的可视化簇点最近的一数据簇是正常数据簇,还是异常数据簇;
若距离所述待检测的可视化簇点最近的一数据簇是正常数据簇,则所述待检测数据为正常数据;
若距离所述待检测的可视化簇点最近的一数据簇是异常数据簇,则所述待检测数据为异常数据;所述异常数据簇的数量至少为二,且每一所述异常数据簇对应的异常类型各不相同;所述正常数据簇和每一所述异常数据簇所处的空间位置各不相同;所述正常数据簇中的可视化数据簇对应的历史数据均是正常的;所述异常数据簇中的可视化数据簇对应的历史数据均是异常的;已知所述历史数据是否正常及异常类型;
所述异常数据的检测方法还包括:根据所述异常数据簇的异常类型,判断出所述待检测数据的异常类型。
5.一种异常数据的检测***,其特征在于,包括:第一获取模块、第二获取模块、预处理模块、输入模块及异常检测模块;
所述第一获取模块用于根据传感器组采集的历史数据,获取获取正常数据簇和异常数据簇;
所述第二获取模块用于获取待检测时刻,所述传感器组采集的待检测数据;
所述预处理模块用于对所述待检测数据进行预处理,以获取所述待检测时刻对应所述待检测数据的待检测向量;
所述输入模块用于将所述待检测向量输入至向量嵌入工具中,获取一待检测的可视化簇点;
所述异常检测模块用于根据所述待检测的可视化簇点与所述正常数据簇和所述异常数据簇之间的距离,检测出所述待检测数据是否为异常数据。
6.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4中任一项所述的异常数据的检测方法。
7.一种终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1至4中任一项所述的异常数据的检测方法。
8.一种异常数据的检测***,其特征在于,包括权利要求7中所述的终端、传感器组及向量嵌入工具;
所述传感器组与所述终端连接,用于采集历史数据和待检测数据,并将所述历史数据和所述待检测数据发送至所述终端;
所述向量嵌入工具与所述终端连接,用于对待检测向量进行处理,以获取一待检测的可视化簇点。
9.根据权利要求8所述的异常数据的检测***,其特征在于,所述向量嵌入工具还用于对预设时间段内对应每一历史时刻的原始向量进行处理,以获取正常数据簇和异常数据簇;所述原始向量为对应一所述历史时刻,所述终端对所述历史数据进行预处理后获得的;
其中,所述向量嵌入工具对预设时间段内对应每一历史时刻的原始向量进行处理,以获取正常数据簇和异常数据簇包括以下步骤:
对每一所述原始向量进行聚簇变换,以获取目标向量;
对所述目标向量进行降维处理,以获取对应每一所述原始向量的二维的可视化簇点,并根据对应所有所述原始向量的二维的可视化簇点,获取所述正常数据簇和所述异常数据簇;
所述向量嵌入工具对待检测向量进行处理,以获取一待检测的可视化簇点包括以下步骤:
对所述待检测向量进行聚簇变换,以获取目标待检测向量;
对所述目标待检测向量进行降维处理,以获取所述待检测的可视化簇点;所述待检测的可视化簇点为二维。
10.根据权利要求9所述的异常数据的检测***,其特征在于,所述向量嵌入工具还用于将对应所有所述原始向量的二维的可视化簇点及所述待检测的可视化簇点,均可视化地展示在二维坐标平面中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391190.6A CN114579391A (zh) | 2020-12-01 | 2020-12-01 | 异常数据的检测方法、***、介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391190.6A CN114579391A (zh) | 2020-12-01 | 2020-12-01 | 异常数据的检测方法、***、介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114579391A true CN114579391A (zh) | 2022-06-03 |
Family
ID=81766947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011391190.6A Pending CN114579391A (zh) | 2020-12-01 | 2020-12-01 | 异常数据的检测方法、***、介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579391A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632937A (zh) * | 2023-12-06 | 2024-03-01 | 北京开元泰达净化设备有限公司 | 一种工业互联网大数据平台及数据处理方法 |
-
2020
- 2020-12-01 CN CN202011391190.6A patent/CN114579391A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632937A (zh) * | 2023-12-06 | 2024-03-01 | 北京开元泰达净化设备有限公司 | 一种工业互联网大数据平台及数据处理方法 |
CN117632937B (zh) * | 2023-12-06 | 2024-04-30 | 北京开元泰达净化设备有限公司 | 一种工业互联网大数据平台及数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharpnack et al. | Changepoint detection over graphs with the spectral scan statistic | |
US9811760B2 (en) | Online per-feature descriptor customization | |
EP2431877A2 (en) | System and method for modeling conditional dependence for anomaly detection in machine condition monitoring | |
CN113449703B (zh) | 环境在线监测数据的质控方法、装置、存储介质及设备 | |
CN114461534A (zh) | 软件性能测试方法、***、电子设备及可读存储介质 | |
CN113009823A (zh) | 用于控制机器的方法和设备 | |
CN114579391A (zh) | 异常数据的检测方法、***、介质及终端 | |
CN115484112A (zh) | 支付大数据安全防护方法、***及云平台 | |
CN114584377A (zh) | 流量异常检测方法、模型的训练方法、装置、设备及介质 | |
CN112330063B (zh) | 设备故障预测方法、装置以及计算机可读存储介质 | |
CN109800152A (zh) | 一种自动化测试方法及终端设备 | |
CN117134958A (zh) | 用于网络技术服务的信息处理方法及*** | |
CN115359203B (zh) | 一种三维高精度地图生成方法、***及云平台 | |
CN108469987B (zh) | 一种基于中断控制流图的中断验证*** | |
CN111382052A (zh) | 代码质量评价方法、装置及电子设备 | |
US11886842B2 (en) | Development assistance device, development assistance system, and development assistance method | |
CN115734072A (zh) | 一种工业自动化设备的物联网集中监控方法及装置 | |
Yang et al. | On efficient and robust metrics for RANSAC hypotheses and 3D rigid registration | |
CN115510998A (zh) | 交易异常值检测方法及装置 | |
CN114021118A (zh) | 基于超融合服务器***的多元行为检测方法、***及介质 | |
CN111813442A (zh) | 一种基于机器学习的软件味道检测方法 | |
CN112379656A (zh) | 工业***异常数据的检测的处理方法、装置、设备和介质 | |
CN112765011B (zh) | 质控状态判定方法、装置及电子设备 | |
CN115438452B (zh) | 一种时序网络信号的可靠性传输检测方法 | |
CN114580982B (zh) | 一种工业设备的数据质量的评估方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |