CN113360656A - 异常数据检测方法、装置、设备及存储介质 - Google Patents
异常数据检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113360656A CN113360656A CN202110725998.1A CN202110725998A CN113360656A CN 113360656 A CN113360656 A CN 113360656A CN 202110725998 A CN202110725998 A CN 202110725998A CN 113360656 A CN113360656 A CN 113360656A
- Authority
- CN
- China
- Prior art keywords
- data
- segment set
- sequence segments
- log
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了异常数据检测方法、装置、设备及存储介质,涉及运维技术领域,方法包括:获取待处理日志,待处理日志为字符类型的数据文件;对待处理日志进行切片,得到第一片段集合,第一片段集合包括多个序列片段;将第一片段集合进行数据变换,得到第二片段集合,所述第二片段集合包括多个第二序列片段,第二序列片段由第一序列片段经过数据变换得到,第二序列片段为数字类型;对第二片段集合进行聚类分析,得到异常数据并输出。本方案能够实现对字符型序列的数值化,以及根据概率样本分布自动进行聚类,且无需基于人工经验介入的超参数,由此能够避免因经验差异和偶然性导致的算法效果的差异,且可操作性强,易于移植到任何新场景中。
Description
技术领域
本申请涉及运维技术领域,尤其涉及一种异常数据检测方法、装置、设备及存储介质。
背景技术
日志文件通常用于检测分布式***中的异常操作行为。运维人员经常使用关键字搜索和规则匹配来手动检查日志,随着分布式***的规模和复杂性不断增加,日志量暴增,继续依赖运维人员进行人工检查日志中的异常的效率较低,已无法适应规模和复杂性不断增加的分布式***。
目前主要采用监督学习和非监督学习来减少人工检测的工作量。在监督学习方面,主要有逻辑回归、决策树、SVM等方法,但由于监督学习需要在建立模型之前为样本打标,而日志异常片段在实际工作中出现次数非常少,以少量打标样本建立的模型极其容易导致过拟合,且监督学习不能对新出现异常片段样本进行识别。在非监督学习方面,主要有聚类、PCA、invariantsmining等方法,但非监督学习仍然依赖于经验和偶然性才能将字符型变量转换为数字型变量、以及设置超参数。
发明内容
本申请实施例提供了一种异常数据检测方法、装置、设备及存储介质,旨在解决现有技术中基于非监督学习检测日志中的异常操作行为时需要依赖于经验和偶然性才能将字符型变量转换为数字型变量、以及设置超参数的问题。
第一方面,本申请实施例提供了一种异常数据检测方法,其包括:
获取待处理日志,所述待处理日志为字符类型的数据文件;
对所述待处理日志进行切片,得到第一片段集合,所述第一片段集合包括多个序列片段;
将所述第一片段集合进行数据变换,得到第二片段集合,所述第二片段集合包括多个第二序列片段,第二序列片段由第一序列片段经过数据变换得到,第二序列片段为数字类型;
对所述第二片段集合进行聚类分析,得到异常数据并输出。
第二方面,本申请实施例提供了一种异常数据检测装置,其包括:
获取模块,用于获取待处理日志,所述待处理日志为字符类型的数据文件;
处理模块,用于对所述待处理日志进行切片,得到第一片段集合,所述第一片段集合包括多个序列片段;将所述第一片段集合进行数据变换,得到第二片段集合,所述第二片段集合包括多个第二序列片段,第二序列片段由第一序列片段经过数据变换得到,第二序列片段为数字类型;
所述处理模块还用于对所述第二片段集合进行聚类分析,得到异常数据并输出。
第三方面,本申请实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的异常数据检测方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的异常数据检测方法。
本申请实施例提供了一种异常数据检测方法、装置、设备及存储介质,通过将待处理日志进行切片,得到包括多个序列片段的第一片段集合,将第一片段集合进行数据变换,得到包括多个第二序列片段的第二片段集合,第二序列片段由第一序列片段经过数据变换得到,第二序列片段为数字类型;对第二片段集合进行聚类分析,得到异常数据并输出。本方案能够实现对字符型序列的数值化,以及根据概率样本分布自动进行聚类,且无需基于人工经验介入的超参数,由此能够避免因经验差异和偶然性导致的算法效果的差异,且可操作性强,易于移植到任何新场景中。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的异常数据检测方法的应用场景示意图;
图2为本申请实施例提供的异常数据检测方法的流程示意图;
图3为本申请实施例提供的异常数据检测装置的示意性框图;
图4为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
参阅图1,图1为本申请实施例提供的异常数据检测方法的应用场景示意图,以非监督学习为例,采用非监督学习的方式进行服务器日志行为异常检测的方式日志行为异常检测的流程图1所示。获取待处理日志后,采用word2vec将待处理日志切片,得到向量化后的片段集合,然后采用meanshift模型对片段集合进行聚类,得到异常数据。
参阅图2,图2为本申请实施例提供的异常数据检测方法的流程示意图,该异常数据检测方法应用于终端或服务器中,该方法通过安装于终端或服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S104。
S101、获取待处理日志。
其中,所述待处理日志为字符类型的数据文件。待处理日志中,相邻的命令之间存在关联关系或依赖关系,也存在时序关系,也可将待处理日志看作是命令序列的集合。
S102、对所述待处理日志进行切片,得到第一片段集合。
其中,所述第一片段集合包括多个序列片段,一些方式中,可将待处理日志切为等长的多个第一序列片段。第一序列片段为字符类型。
可见,即使待处理日志的数据量级较大,本申请通过对其进行数据切片,即可将待处理日志切成等长的若干个序列片段,使待处理日志中的数据能够适应模型的输入数据要求。一些实施方式中,可按照时间窗口来切割待处理日志。
例如,以待处理日志为访问日志切片为例,可将每分钟的访问日志放在一个单独的文件中。首先,添加一个存放日志文件的目录,执行命令mkdir/usr/local/nginx/logs/mysitelogs,将mysite的所有访问日志都放在这个文件夹下。然后添加一个切割访问日志的脚本,执行命令脚本。还可添加一个定时任务,执行命令crontab-e(例如,其编辑内容为*****sh/usr/local/nginx/mysitelog.sh)。命令crontab-e表示每分钟执行一次mysitelog.sh脚本。
S103、将所述第一片段集合进行数据变换,得到第二片段集合。
其中,第二片段集合包括多个第二序列片段,第二序列片段由第一序列片段经过数据变换得到,第二序列片段为数字类型。
一些实施方式中,可将第一片段集合进行向量化,以得到数字类型的第二片段集合。具体来说,因为日志文件是字符形式,无法被模型进行处理,因此需要将字符类型转换成数字类型,可采用word2vec进行数据变换。具体来说,所述将所述第一片段集合进行数据变换,得到第二片段集合,包括:
确定所述第一片段集合中相邻序列片段之间的依赖关系;
将所述第一片段集合进行向量化并在进行向量化过程中保留所述第一片段集合中相邻序列片段之间的依赖关系,以得到数字类型的所述第二片段集合。
其中,由于第一片段集合中的各第一片段为时间序列数据,而时间序列数据为在不同时间点上统计同一指标,并按照时间先后排列成的一个集合。时间序列数据能够用于了解一个指标的长期趋势和预测未来。因此,第一片段集合中相邻序列片段之间的依赖关系可以是指在一个序列中彼此相距很远的交互之间的长期顺序依赖关系。一些实施方式中,可采用循环神经网络模型确定该依赖关系:
假设第一片段集合为长度为T的输入序列{x0,x1,...,xt,...,xT},这里xt表示的是序列在t时刻的输入特征向量,该t时刻并不一定真的指的是时间,只是用来表明这是一个序列输入问题。
对于循环神经网络模型来说,其在计算t时刻的隐含特征时,不仅考虑当前时刻的输入特征xt,而且引入前一个时刻的隐含特征ht-1,其计算过程如下:
ht=f(Uxt+Wht-1+b) 公式(1)
显然通过上述公式(1)可以捕捉到第一片段集合中相邻序列片段之间的依赖关系,可以认为ht-1是一个记忆特征,其提取了前面t-1个时刻的输入特征,有时候又称ht-1为旧状态,而ht为新状态。通过上述公式(1)可得到每个时刻的隐含特征{h0,h1,...,ht,...,hT},这些隐含特征用于后面层的特征输入。
由于待处理日志中相邻命令之间具有联系(例如依赖关系或者关联关系),因此,需要在进行数据变换过程中保留待处理日志中相邻命令之间的联系,使用word2vec不仅能够将字符转换成数字类型,还能够很好的保留待处理日志中相邻命令序列之间的关系。
S104、对所述第二片段集合进行聚类分析,得到异常数据并输出。
可知,通过聚类分析得到的聚类结果就是异常数据。
本申请实施例中,所述第二片段集合中的异常命令序列一般为平时较少或极少出现的命令序列的组合,因此可使用聚类的方式对对所述第二片段集合进行异常命令的识别。
一些实施方式中,由于第二片段集合中的各序列片段已被数值化,因此,第二片段集合可以以概率分布样本的方式呈现。进而,在对其进行聚类分析时,可以根据该概率分布样本进行自动聚类。
一些实施方式中,对所述第二片段集合进行聚类分析,得到异常数据可通过神经网络模型实现,例如通过异常检测模型实现。例如,异常检测模型可采用均值偏移(meanshift)模型对第二片段集合进行聚类,该方法不需要指定任何超参数,自动进行聚类,减少人工参与,一致性较强。
其中,meanshift是基于核密度估计的爬山算法,是一种不需要指定超参数的聚类方法,即meanshift的每一步都是往密度最大的方向走。例如,以上述第二片段集合为由密密麻麻的像素点组成的像素密度分布图为例,选定该像素密度分布图中的一个点x,点x的周围有很多个点xi(i为正整数),计算点x移动到每个点xi所需要的偏移量之和,并求平均,就得到平均偏移量。该偏移量的方向是周围点分布密集的方向,该偏移量包含大小和方向。然后点x朝向平均偏移量方向移动,再以此为新的起点不断迭代直到满足一定条件结束。具体来说,所述第二片段集合包括多维空间的多个数据点;所述根据至少一种预设异常检测策略对所述概率分布样本进行自动聚类,以得到所述异常数据,包括:
从所述多个数据点中确定目标数据点n1;
以所述目标数据点n1为球心,以预设半径绘制一个候选球体;
获取所述多个数据点中所有落入所述目标球体的数据点nj与所述目标数据点n1之间的向量,其中j为正整数且j<n;
根据落入所述目标球体的数据点nj与所述目标数据点n1之间的向量和得到目标漂移向量;
将所述目标漂移向量设为所述球心,直至得到的目标漂移向量满足预设收敛条件则结束操作;
以收敛得到的目标漂移向量为球心,以所述预设半径绘制一个目标球体;
将所述多个数据点中落入所述目标球体内的所有数据点确定为所述异常数据。
一些实施方式中,均值漂移的原理如下:
以第二片段集合为给定的d维空间的n个数据点集X为例,其中,数据点集X中的各数据点分布在各第二序列片段中。那么对于该d维空间中的任意点x的meanshift向量Mh的基本形式可以表示为:
其中,向量Mh是漂移向量,举例来说,在d维空间中,任选一个点x,然后以点x为球心,h为半径做一个高维球。因为该高维球有d维,d可能大于2,所以是高维球。落在该高维球内的所有点Xi和球心x都会产生一个向量,向量是以球心为起点落在球内的点位终点。然后把这些向量都相加,相加的结果就是meanshift向量。再以meanshift向量的终点为球心,再做一个高维的球。重复以上步骤,就可得到一个meanshift向量。如此重复下去,meanshift模型可以收敛到概率密度最大得地方,也就是最稠密的地方。
Xi表示该d维空间中的第i个数据点,i∈[1,n],即Xi也可表示数据点集X中的第i个样本点。
k表示在这n个样本点xi中,有k个点落入Sk区域中。
Sk区域包括表示的是数据点集X中的点到x的距离小于球半径h的数据点,可将Sk区域中的数据点用Sh(x)表示,Sh(x)的一种具体表达式如下:
Sh(x)={y:(y-xi)T(y-xi)<h2 公式2
其中,h为数据点x的球半径。以x为球心,以h为半径。Xi为在球内的点位。
数据点集X中的点Xi到x的距离是指数据点集X中的点Xi与x的相似度,即用于聚类。
漂移的过程即通过计算得漂移向量,然后更新球心x的位置,一些实施方式中,更新球球心x的位置的一种公式为:
x=x+Mh 公式3
通过公式3能够不断的更新球球心x的位置,从而使得球心x的位置一直处于力的平衡位置。
举例来说,第二片段集合包括序列片段a和序列片段b,序列片段a和序列片段b均为概率分布样本,即均为包括多个数据点分布的集合。序列片段a和序列片段b中各自的数据点分布在d维空间,以该d维空间的概率分布样本中的任意点x为球心,以h为半径圈定一个球。落在该球内的所有点与球心x之间都产生一个向量,将这些向量相加得到该球心x的一个漂移向量M1。再以该漂移向量M1为球心,以h为半径圈定另一个球,重复前述操作,得到第二个漂移向量M2,如此循环迭代,直至满足收敛条件则结束操作,收敛得到概率密度最大的点Xmax,即概率分布样本终最密集的点Xmax,然后以该点Xmax为球心,h为半径圈定一个球a,落入该球a内的所有数据点x的集合则为异常数据。
一些实施方式中,所述方法还包括:
从所述概率分布样本中提取变量特征和时间窗口特征;
基于所述变量特征,对所述第二片段集合中的各第二序列片段的数值型变量取值分别进行异常检测,以及基于所述时间窗口特征,对所述第二片段集合中每个时间窗口内变量特征出现的频率进行异常检测。
一些实施方式中,所述获取待处理日志之后,所述对所述待处理日志进行切片之前,所述方法还包括:
使用正则表达式确定所述待处理日志中存在属性缺失值的候选数据;
若所述候选数据有多个属性缺失值,则删除所述候选数据。
该方法能够实现以下技术效果:
1、采用非监督学习的方式识别在正常工作中出现的异常命令序列。异常检测模型通过融合word2vec和meanshift两种算法特征,实现对字符型序列的数值化,以及根据概率样本分布自动进行聚类。
2、由于word2vec和meanshift这两种算法特征都是基于无参数的,因此,无需人工经验介入,由此避免了因为经验差异和偶然性导致的算法效果的差异,且可操作性强,易于移植到任何新场景中。
3、异常检测模型的结构简单,处理速度快,能够满足线上实时性的要求,可以作为在线监测的有效方法,实时拦截线上异常操作。
本申请实施例还提供一种异常数据检测装置,该异常数据检测装置用于执行前述异常数据检测方法的任一实施例。具体地,请参阅图3,图3是本申请实施例提供的异常数据检测装置的示意性框图。该异常数据检测装置20可以配置于服务器中。
如图3所示,异常数据检测装置20包括:
获取模块201,用于获取待处理日志,所述待处理日志为字符类型的数据文件;
处理模块202,用于对所述待处理日志进行切片,得到第一片段集合,所述第一片段集合包括多个序列片段;将所述第一片段集合进行数据变换,得到第二片段集合,所述第二片段集合包括多个第二序列片段,第二序列片段由第一序列片段经过数据变换得到,第二序列片段为数字类型;
所述处理模块202还用于对所述第二片段集合进行聚类分析,得到异常数据并输出。
在一实施例中,所述处理模块202还用于:
确定所述第一片段集合中相邻序列片段之间的依赖关系;
将所述第一片段集合进行向量化并在进行向量化过程中保留所述第一片段集合中相邻序列片段之间的依赖关系,以得到数字类型的所述第二片段集合。
一些实施例中,所述第二片段集合以概率分布样本的方式呈现;所述处理模块202具体用于:
从所述概率分布样本中提取各第二序列片段对应的数据组成特征;
确定与各第二序列片段对应的数据组成特征匹配的至少一种预设异常检测策略;
根据至少一种预设异常检测策略对所述概率分布样本进行自动聚类,以得到所述异常数据。
一些实施例中,所述第二片段集合包括多维空间的多个数据点;所述处理模块202具体用于:
从所述多个数据点中确定目标数据点;
以所述目标数据点为球心,以预设半径绘制一个候选球体;
获取所述多个数据点中所有落入所述目标球体的数据点与所述目标数据点之间的向量;
根据落入所述目标球体的数据点与所述目标数据点之间的向量和得到目标漂移向量;
将所述目标漂移向量设为所述球心,直至得到的目标漂移向量满足预设收敛条件则结束操作;
以收敛得到的目标漂移向量为球心,以所述预设半径绘制一个目标球体;
将所述多个数据点中落入所述目标球体内的所有数据点确定为所述异常数据。
一些实施例中,所述处理模块202具体用于:
确定所述第一片段集合中相邻序列片段之间的依赖关系;
将所述第一片段集合进行向量化并在进行向量化过程中保留所述第一片段集合中相邻序列片段之间的依赖关系,以得到数字类型的所述第二片段集合。
一些实施例中,所述第二片段集合以概率分布样本的方式呈现;所述处理模块202具体用于:
从所述概率分布样本中提取各第二序列片段对应的数据组成特征;
确定与各第二序列片段对应的数据组成特征匹配的至少一种预设异常检测策略;
根据至少一种预设异常检测策略对所述概率分布样本进行自动聚类,以得到所述异常数据。
一些实施例中,所述第二片段集合包括多维空间的多个数据点;所述处理模块202具体用于:
从所述多个数据点中确定目标数据点;
以所述目标数据点为球心,以预设半径绘制一个候选球体;
获取所述多个数据点中所有落入所述目标球体的数据点与所述目标数据点之间的向量;
根据落入所述目标球体的数据点与所述目标数据点之间的向量和得到目标漂移向量;
将所述目标漂移向量设为所述球心,直至得到的目标漂移向量满足预设收敛条件则结束操作;
以收敛得到的目标漂移向量为球心,以所述预设半径绘制一个目标球体;
将所述多个数据点中落入所述目标球体内的所有数据点确定为所述异常数据。
一些实施方式中,所述处理模块202还用于:
从所述概率分布样本中提取变量特征和时间窗口特征;
基于所述变量特征,对所述第二片段集合中的各第二序列片段的数值型变量取值分别进行异常检测,以及基于所述时间窗口特征,对所述第二片段集合中每个时间窗口内变量特征出现的频率进行异常检测。
一些实施方式中,所述处理模块202在所述获取模块201获取待处理日志之后,对所述待处理日志进行切片之前,还用于:
使用正则表达式确定所述待处理日志中存在属性缺失值的候选数据;
若所述候选数据有多个属性缺失值,则删除所述候选数据。
该异常数据检测装置20实现了对字符型序列的数值化,以及根据概率样本分布自动进行聚类,且无需基于人工经验介入的超参数,由此能够避免因经验差异和偶然性导致的算法效果的差异,且可操作性强,易于移植到任何新场景中。
上述异常数据检测装置20可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本申请实施例提供的计算机设备的示意性框图。该计算机设备300是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备300包括通过***总线301连接的处理器302、存储器和网络接口305,其中,存储器可以包括非易失性存储介质303和内存储器304。
该非易失性存储介质303可存储操作***3031和计算机程序3032。该计算机程序3032被执行时,可使得处理器302执行异常数据检测方法。
该处理器302用于提供计算和控制能力,支撑整个计算机设备300的运行。
该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境,该计算机程序3032被处理器302执行时,可使得处理器302执行异常数据检测方法。
该网络接口305用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备300的限定,具体的计算机设备300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器302用于运行存储在存储器中的计算机程序3032,以实现本申请实施例公开的异常数据检测方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本申请实施例公开的异常数据检测方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种异常数据检测方法,其特征在于,所述方法包括:
获取待处理日志,所述待处理日志为字符类型的数据文件;
对所述待处理日志进行切片,得到第一片段集合,所述第一片段集合包括多个序列片段;
将所述第一片段集合进行数据变换,得到第二片段集合,所述第二片段集合包括多个第二序列片段,第二序列片段由第一序列片段经过数据变换得到,第二序列片段为数字类型;
对所述第二片段集合进行聚类分析,得到异常数据并输出。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一片段集合进行数据变换,得到第二片段集合,包括:
确定所述第一片段集合中相邻序列片段之间的依赖关系;
将所述第一片段集合进行向量化并在进行向量化过程中保留所述第一片段集合中相邻序列片段之间的依赖关系,以得到数字类型的所述第二片段集合。
3.根据权利要求1或2所述的方法,其特征在于,所述第二片段集合以概率分布样本的方式呈现;所述对所述第二片段集合进行聚类分析,得到异常数据,包括:
从所述概率分布样本中提取各第二序列片段对应的数据组成特征;
确定与各第二序列片段对应的数据组成特征匹配的至少一种预设异常检测策略;
根据至少一种预设异常检测策略对所述概率分布样本进行自动聚类,以得到所述异常数据。
4.根据权利要求3所述的方法,其特征在于,所述第二片段集合包括多维空间的多个数据点;所述根据至少一种预设异常检测策略对所述概率分布样本进行自动聚类,以得到所述异常数据,包括:
从所述多个数据点中确定目标数据点;
以所述目标数据点为球心,以预设半径绘制一个候选球体;
获取所述多个数据点中所有落入所述目标球体的数据点与所述目标数据点之间的向量;
根据落入所述目标球体的数据点与所述目标数据点之间的向量和得到目标漂移向量;
将所述目标漂移向量设为所述球心,直至得到的目标漂移向量满足预设收敛条件则结束操作;
以收敛得到的目标漂移向量为球心,以所述预设半径绘制一个目标球体;
将所述多个数据点中落入所述目标球体内的所有数据点确定为所述异常数据。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
从所述概率分布样本中提取变量特征和时间窗口特征;
基于所述变量特征,对所述第二片段集合中的各第二序列片段的数值型变量取值分别进行异常检测,以及基于所述时间窗口特征,对所述第二片段集合中每个时间窗口内变量特征出现的频率进行异常检测。
6.根据权利要求1所述的方法,其特征在于,所述获取待处理日志之后,所述对所述待处理日志进行切片之前,所述方法还包括:
使用正则表达式确定所述待处理日志中存在属性缺失值的候选数据;
若所述候选数据有多个属性缺失值,则删除所述候选数据。
7.一种异常数据检测装置,其特征在于,所述异常数据检测装置包括:
获取模块,用于获取待处理日志,所述待处理日志为字符类型的数据文件;
处理模块,用于对所述待处理日志进行切片,得到第一片段集合,所述第一片段集合包括多个序列片段;将所述第一片段集合进行数据变换,得到第二片段集合,所述第二片段集合包括多个第二序列片段,第二序列片段由第一序列片段经过数据变换得到,第二序列片段为数字类型;
所述处理模块还用于对所述第二片段集合进行聚类分析,得到异常数据并输出。
8.根据权利要求7所述的装置,其特征在于,所述处理模块具体用于:
确定所述第一片段集合中相邻序列片段之间的依赖关系;
将所述第一片段集合进行向量化并在进行向量化过程中保留所述第一片段集合中相邻序列片段之间的依赖关系,以得到数字类型的所述第二片段集合。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的异常数据检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的异常数据检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110725998.1A CN113360656A (zh) | 2021-06-29 | 2021-06-29 | 异常数据检测方法、装置、设备及存储介质 |
PCT/CN2021/108778 WO2023272851A1 (zh) | 2021-06-29 | 2021-07-28 | 异常数据检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110725998.1A CN113360656A (zh) | 2021-06-29 | 2021-06-29 | 异常数据检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113360656A true CN113360656A (zh) | 2021-09-07 |
Family
ID=77536987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110725998.1A Pending CN113360656A (zh) | 2021-06-29 | 2021-06-29 | 异常数据检测方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113360656A (zh) |
WO (1) | WO2023272851A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114676774A (zh) * | 2022-03-25 | 2022-06-28 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116107630B (zh) * | 2023-04-13 | 2023-06-20 | 四川观想科技股份有限公司 | 一种大数据运维监控的多平台适配方法 |
CN116628428B (zh) * | 2023-07-24 | 2023-10-31 | 华能信息技术有限公司 | 一种数据加工方法及*** |
CN117783658A (zh) * | 2024-01-08 | 2024-03-29 | 北京广源佳鑫科技有限公司 | 一种电力设备的电流数字测量方法 |
CN117789999B (zh) * | 2024-02-27 | 2024-05-03 | 济宁医学院附属医院 | 一种医疗健康大数据优化采集方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019060327A1 (en) * | 2017-09-20 | 2019-03-28 | University Of Utah Research Foundation | ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP |
CN111352965A (zh) * | 2020-02-18 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 序列挖掘模型的训练方法、序列数据的处理方法及设备 |
US20200336499A1 (en) * | 2019-04-16 | 2020-10-22 | International Business Machines Corporation | Anomaly and mode inference from time series data |
CN112306982A (zh) * | 2020-11-16 | 2021-02-02 | 杭州海康威视数字技术股份有限公司 | 异常用户检测方法、装置、计算设备及存储介质 |
CN112613392A (zh) * | 2020-12-18 | 2021-04-06 | 北京新能源汽车技术创新中心有限公司 | 基于语义分割的车道线检测方法、装置、***及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102344293B1 (ko) * | 2018-10-30 | 2021-12-27 | 삼성에스디에스 주식회사 | 보안 로그 전처리 장치 및 방법 |
CN112948155B (zh) * | 2019-12-11 | 2022-12-16 | 中移(苏州)软件技术有限公司 | 模型训练方法、状态预测方法、装置、设备及存储介质 |
CN111143178B (zh) * | 2019-12-12 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
CN111538642B (zh) * | 2020-07-02 | 2020-10-02 | 杭州海康威视数字技术股份有限公司 | 一种异常行为的检测方法、装置、电子设备及存储介质 |
-
2021
- 2021-06-29 CN CN202110725998.1A patent/CN113360656A/zh active Pending
- 2021-07-28 WO PCT/CN2021/108778 patent/WO2023272851A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019060327A1 (en) * | 2017-09-20 | 2019-03-28 | University Of Utah Research Foundation | ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP |
US20200336499A1 (en) * | 2019-04-16 | 2020-10-22 | International Business Machines Corporation | Anomaly and mode inference from time series data |
CN111352965A (zh) * | 2020-02-18 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 序列挖掘模型的训练方法、序列数据的处理方法及设备 |
CN112306982A (zh) * | 2020-11-16 | 2021-02-02 | 杭州海康威视数字技术股份有限公司 | 异常用户检测方法、装置、计算设备及存储介质 |
CN112613392A (zh) * | 2020-12-18 | 2021-04-06 | 北京新能源汽车技术创新中心有限公司 | 基于语义分割的车道线检测方法、装置、***及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114676774A (zh) * | 2022-03-25 | 2022-06-28 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023272851A1 (zh) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113360656A (zh) | 异常数据检测方法、装置、设备及存储介质 | |
CN109859054B (zh) | 网络社团挖掘方法、装置、计算机设备及存储介质 | |
US11379340B2 (en) | Apparatus and method for estimating anomaly information, and program | |
CN112862127B (zh) | 一种传感器数据的异常处理方法、装置、电子设备及介质 | |
CN110705718A (zh) | 基于合作博弈的模型解释方法、装置、电子设备 | |
CN112016834B (zh) | 异常驾驶行为检测方法、装置、设备及存储介质 | |
Mall et al. | Representative subsets for big data learning using k-NN graphs | |
CN112348080A (zh) | 基于工控异常检测的rbf改进方法、装置和设备 | |
CN111368887A (zh) | 雷雨天气预测模型的训练方法及雷雨天气预测方法 | |
CN115801463B (zh) | 工业互联网平台入侵检测的方法、装置和电子设备 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
Martino et al. | Calibration Techniques for Binary Classification Problems: A Comparative Analysis. | |
KR20210124811A (ko) | 네트워크 장애 진단을 위한 학습 데이터를 생성하는 학습 데이터 생성 장치 및 방법 | |
JP2019105871A (ja) | 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置 | |
CN109800815B (zh) | 基于随机森林模型的训练方法、小麦识别方法和训练*** | |
Sharma et al. | A semi-supervised generalized vae framework for abnormality detection using one-class classification | |
Yousif et al. | Extracting a new fractal and semi-variance attributes for texture images | |
CN117152528A (zh) | 绝缘子状态识别方法、装置、设备、存储介质和程序产品 | |
CN114861753A (zh) | 一种基于大规模网络的数据分类方法和装置 | |
CN112988186B (zh) | 异常检测***的更新方法及装置 | |
CN115565115A (zh) | 一种舾装件智能识别方法、计算机设备 | |
CN114528906A (zh) | 一种旋转机械的故障诊断方法、装置、设备和介质 | |
CN112784165A (zh) | 关联关系预估模型的训练方法以及预估文件热度的方法 | |
Angelopoulos et al. | Automatic statistical analysis of acoustic emission data sets | |
CN117953252B (zh) | 高速公路资产数据自动化采集方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |