CN114584379A - 基于优化特征提取粒度的日志异常检测方法 - Google Patents
基于优化特征提取粒度的日志异常检测方法 Download PDFInfo
- Publication number
- CN114584379A CN114584379A CN202210224375.0A CN202210224375A CN114584379A CN 114584379 A CN114584379 A CN 114584379A CN 202210224375 A CN202210224375 A CN 202210224375A CN 114584379 A CN114584379 A CN 114584379A
- Authority
- CN
- China
- Prior art keywords
- log
- sequence
- event
- anomaly detection
- log event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/12—Arrangements for detecting or preventing errors in the information received by using return channel
- H04L1/16—Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
- H04L1/18—Automatic repetition systems, e.g. Van Duuren systems
- H04L1/1829—Arrangements specially adapted for the receiver end
- H04L1/1832—Details of sliding window management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/12—Arrangements for detecting or preventing errors in the information received by using return channel
- H04L1/16—Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
- H04L1/18—Automatic repetition systems, e.g. Van Duuren systems
- H04L1/1829—Arrangements specially adapted for the receiver end
- H04L1/1848—Time-out mechanisms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于优化特征提取粒度的日志异常检测方法,属于日志检测技术领域。该方法包括:获取待检测日志事件数据;基于日志模板数据,得到日志事件向量序列;利用预设尺寸的第一滑动窗口从日志事件向量序列中提取至少一个日志事件子序列;根据日志时间戳的间隔对日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列;获得归并日志子序列的检测向量序列;将检测向量序列输入日志异常检测模型,得到日志异常检测结果。本发明在一次滑动窗口算法的基础上,进一步将较短时间内生成的日志作为整体进行二次窗口滑动处理,利用日志间的时间关联性,解决短时内日志乱序的问题,从而提高后续检测的准确性。
Description
技术领域
本发明涉及日志检测技术领域,尤其涉及一种基于优化特征提取粒度的日志异常检测方法。
背景技术
相关技术中,现有研究在提取日志数据的特征时,通常会对日志进行计数向量统计,提取出日志的模板序列或文本向量作为特征,以根据这些特征对日志进行分类和检测。
但是,传统的异常检测方法虽然利用了日志在日志文件中的序列特征,但忽略了日志之间的时序关系,也就忽略了程序并发和网络时延导致的局部日志乱序问题,检测精度较低。
发明内容
本发明的主要目的在于提供一种基于优化特征提取粒度的日志异常检测方法,旨在解决现有技术中忽略了日志之间的时序关系,检测精度较低的技术问题。
根据本发明的第一方面,提供了一种基于优化特征提取粒度的日志异常检测方法,所述方法包括:
获取待检测日志事件数据;所述待检测日志事件数据包括日志模板数据和对应的日志时间戳;
基于所述日志模板数据,得到日志事件向量序列;所述日志事件序列包括至少一个日志事件向量;
利用预设尺寸的第一滑动窗口从所述日志事件向量序列中提取至少一个日志事件子序列;针对每个所述日志事件子序列,根据日志时间戳的间隔对所述日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列;
获得所述归并日志子序列的检测向量序列;
将所述检测向量序列输入日志异常检测模型,得到日志异常检测结果。
可选地,所述基于所述日志模板数据,得到日志事件向量序列,包括:
根据所述日志模板数据以及第一公式,得到所述日志事件向量序列;其中,所述第一公式为:
ei=H(F(ki));
其中,ki为第i个日志事件的模板数据,F为日志模板数据集与所述日志事件集之间的满射,H为独热编码,ei为第i个日志事件的日志事件向量。
可选地,所述针对每个所述日志事件子序列,根据日志时间戳的间隔对所述日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列,包括:
针对每个所述日志事件子序列,将所述日志时间戳的间隔小于预设阈值的日志事件提取到同一个日志事件组中,得到至少一个日志事件组;
基于所述日志事件组中所述日志事件的数量,确定第二滑动窗口的窗口尺寸;
基于所述窗口尺寸,构建窗口尺寸序列;
基于所述窗口尺寸序列,对所述日志事件子序列进行划分,得到至少一个所述归并日志子序列。
可选地,所述基于所述窗口尺寸序列,对所述日志事件子序列进行划分,包括:
根据所述窗口尺寸序列以及第二公式,对所述日志事件子序列进行划分;其中,所述第二公式为:
其中,Esub为所述日志事件子序列,m为所述窗口尺寸序列中包含的窗口尺寸个数,e为所述日志事件的日志事件向量,si为前i个窗口尺寸之和,1≤i≤m。
可选地,所述获得所述归并日志子序列的检测向量序列,包括:
将所述归并日志子序列中所有所述日志事件向量的和作为所述检测向量序列。
可选地,所述获取待检测日志事件数据,包括:
获取至少一条日志事件的文本信息;
从至少一条所述日志事件的文本信息中提取出对应的至少一个时间戳文本和至少一个日志模板文本;
根据至少一个所述时间戳文本生成时间戳序列,并根据至少一个所述日志模板文本生成日志模板序列;
根据所述时间戳序列和所述日志模板序列,得到所述待检测日志事件数据。
可选地,所述日志异常检测模型为长短期记忆网络LSTM,所述将所述检测向量序列输入日志异常检测模型,得到日志异常检测结果,包括:
将所述检测向量序列输入所述长短期记忆网络LSTM,以使所述长短期记忆网络LSTM根据所述检测向量序列,得到所述待检测日志事件数据的特征信息,并根据所述特征信息对对应的日志事件进行分类,得到所述日志异常检测结果。
根据本发明的第二方面,提供了一种基于优化特征提取粒度的日志异常检测装置,所述装置包括:
数据获取模块,用于获取待检测日志事件数据;所述待检测日志事件数据包括日志模板数据和对应的日志时间戳;
第一序列生成模块,用于基于所述日志模板数据,得到日志事件向量序列;所述日志事件序列包括至少一个日志事件向量;
二次滑动模块,用于利用预设尺寸的第一滑动窗口从所述日志事件向量序列中提取至少一个日志事件子序列;针对每个所述日志事件子序列,根据日志时间戳的间隔对所述日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列;
第二序列生成模块,用于获得所述归并日志子序列的检测向量序列;
日志检测模块,用于将所述检测向量序列输入日志异常检测模型,得到日志异常检测结果。
根据本发明的第三方面,提供了一种基于优化特征提取粒度的日志异常检测设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于优化特征提取粒度的日志异常检测程序,所述基于优化特征提取粒度的日志异常检测程序被所述处理器执行时实现第一方面的实现方式中的任一种可能的实现方式中所述的各个步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有基于优化特征提取粒度的日志异常检测程序,所述基于优化特征提取粒度的日志异常检测程序被处理器执行时实现第一方面的实现方式中的任一种可能的实现方式中所述的各个步骤。
本发明实施例提出一种基于优化特征提取粒度的日志异常检测方法,通过日志异常检测设备获取待检测日志事件数据;基于日志模板数据,得到日志事件向量序列;利用预设尺寸的第一滑动窗口从日志事件向量序列中提取至少一个日志事件子序列;根据日志时间戳的间隔对日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列;获得归并日志子序列的检测向量序列;将检测向量序列输入日志异常检测模型,得到日志异常检测结果。
本发明区别于现有技术中忽略了日志之间的时序关系,检测精度较低的情况,在基于日志数量的一次滑动窗口算法的基础上,进一步将预设阈值内生成的日志归并为一个整体进行二次窗口滑动处理,利用日志间的时间关联性,解决短时内日志乱序的问题,本发明综合考虑了日志的数量以及日志间的时序性,从而提高了后续检测的准确性,得到精确的检测结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例方案涉及的硬件运行环境的基于优化特征提取粒度的日志异常检测设备的结构示意图;
图2为本发明基于优化特征提取粒度的日志异常检测方法的第一实施例的流程示意图;
图3为本发明图2中S201的步骤的细化流程示意图;
图4为本发明图2中S203的步骤的细化流程示意图;
图5为本发明实施例涉及的基于优化特征提取粒度的日志异常检测装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取待检测日志事件数据;基于日志模板数据,得到日志事件向量序列;利用预设尺寸的第一滑动窗口从日志事件向量序列中提取至少一个日志事件子序列;根据日志时间戳的间隔对日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列;获得归并日志子序列的检测向量序列;将检测向量序列输入日志异常检测模型,得到日志异常检测结果。
相关技术中,现有研究在提取日志数据的特征时,通常会对日志进行计数向量统计,提取出日志的模板序列或文本向量作为特征,以根据这些特征对日志进行分类和检测。但是,传统的异常检测方法虽然利用了日志在日志文件中的序列特征,但忽略了日志之间的时序关系,也就忽略了程序并发和网络时延导致的局部日志乱序问题,检测精度较低。
本发明提供一种解决方案,该方案用于基于优化特征提取粒度的日志异常检测设备,区别于现有技术中忽略了日志之间的时序关系,检测精度较低的情况,在基于日志数量的一次滑动窗口算法的基础上,进一步将预设阈值内生成的日志归并为一个整体进行二次窗口滑动处理,利用日志间的时间关联性,解决短时内日志乱序的问题,本发明综合考虑了日志的数量以及日志间的时序性,从而提高了后续检测的准确性,得到精确的检测结果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的说明书和权利要求书中的“第一”、“第二”用于区别类似的对象,而不必用于描述特定的顺序或者先后次序,应该理解这样的数据在适当的情况下可以互换,以便这里描述的实施例能够以除了这里图示或者描述的那些以外的顺序实施。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于优化特征提取粒度的日志异常检测设备的结构示意图。
如图1所示,该基于优化特征提取粒度的日志异常检测设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM),也可以是稳定的非易失性存储器(Non-VolatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于优化特征提取粒度的日志异常检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、数据获取模块、数据处理模块、日志检测模块以及基于优化特征提取粒度的日志异常检测程序,其中,数据处理模块又可细化为第一序列生成模块、二次滑动模块以及第二序列生成模块。
在图1所示的基于优化特征提取粒度的日志异常检测设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于优化特征提取粒度的日志异常检测设备中的处理器1001、存储器1005可以设置在基于优化特征提取粒度的日志异常检测设备中,基于优化特征提取粒度的日志异常检测设备通过处理器1001调用存储器1005中存储的基于优化特征提取粒度的日志异常检测程序,并执行本发明实施例提供的基于优化特征提取粒度的日志异常检测方法。
基于上述硬件结构但不限于上述硬件结构,本发明提供一种基于优化特征提取粒度的日志异常检测方法第一实施例。参照图2,图2为本发明基于优化特征提取粒度的日志异常检测方法第一实施例的流程示意图。
本实施例中,该方法包括:
步骤S201,获取待检测日志事件数据;
在本实施例中,执行主体为基于优化特征提取粒度的日志异常检测设备(下文将基于优化特征提取粒度的日志异常检测简称为日志异常检测),在需要进行日志异常检测时,该日志异常检测设备可以获取对应的待检测日志事件数据,其中,该待检测日志事件数据可以是用户输入的待检测数据,也可以是日志异常检测设备从后台数据库主动调取的待检测数据。
需要补充说明的是,本实施例中,初次滑动窗口基于日志数量进行定长滑动,二次滑动窗口基于时间间隔进行变长滑动,以此优化特征提取粒度(详细步骤将在下文阐述),也就是说,本实施例所指的粒度指的是时间粒度,传统方法中只会基于日志数量进行定长滑动,也即传统方法的时间粒度是固定的,而本实施例中,在传统方式的基础上,进一步根据日志间的时间间隔来进行时间粒度的二次选择,可以理解的,对应于变长滑动,二次选择的时间粒度也是可变的,从而充分利用日志间的时间关联性解决可能出现的乱序问题,以提高后续检测精度。
在一具体实施方式中,参照图3,图3为本发明图2中S201的步骤的细化流程示意图,所述获取待检测日志事件数据,包括:
步骤A10,获取至少一条日志事件的文本信息;
获取的原始日志事件主要由三部分构成,即时间戳、模板、参数,都存储在对应日志事件的文本信息中,其中参数是一种动态的信息,与日志输出当前时刻***的状态有关,无法为解析日志事件提供有效的帮助,因此进行日志解析时主要面向的是时间戳和模板信息,参数部分则用通配符进行表示。日志时间戳记录日志产生的时刻,可以为日志对应事件的顺序排列提供依据。模板是记录了同一类型事件的日志的不变的部分,也可称为“日志键”、“日志常量”等,是日志检测的重要判定依据。
步骤A20,从至少一条所述日志事件的文本信息中提取出对应的至少一个时间戳文本和至少一个日志模板文本;
如上所述,日志事件文本信息中的参数部分对日志解析以及后续的检测无关,故本实施例中主要对日志事件的时间戳和模板进行解析提取以进行后续处理。具体的,为了将原始的日志信息转换为结构化的日志信息,本实施例中首先对获取到的日志事件文本信息进行正则表达式匹配,提取出其中的时间戳文本并进行格式化。对于剩余文本,再次进行正则表达式匹配找出IP地址参数、纯数字参数等特殊格式参数并用对应的通配符替换,然后采用drain日志解析算法对如上处理后的日志进行模板提取,得到日志模板文本。
其中,Drain是一种基于固定深度树的在线日志解析方法。当新的原始日志信息到达时,Drain将根据领域知识通过简单的正则表达式对其进行预处理。然后,Drain按照树内部节点中编码的特殊设计规则搜索日志组(即树的叶子节点)。如果找到合适的日志组,则日志消息将与存储在该日志组中的日志事件相匹配。否则,将根据日志信息创建新的日志组。本质上来讲,Drain就是将不同类型的日志区分开来,进行聚类。
步骤A30,根据至少一个所述时间戳文本生成时间戳序列,并根据至少一个所述日志模板文本生成日志模板序列;
步骤A40,根据所述时间戳序列和所述日志模板序列,得到所述待检测日志事件数据。
在对每个日志事件都进行上述处理后,可以得到一系列的时间戳文本和对应的日志模板文本,分别生成对应的时间戳序列和日志模板序列,以方便后续处理,可以理解的,最后获取到的待检测日志事件数据即包括该时间戳序列和日志模板序列。
步骤S202,基于所述日志模板数据,得到日志事件向量序列;
对于上述得到的日志模板序列,其可以用K={k1,k2,...,ki,...}表示,不难理解,ki即为第i个日志事件的模板数据。由于可能存在多个日志模板属于同一类型事件,还需对K中元素进行处理得到日志事件向量序列E={e1,e2,...,ei,...}。具体的,本实施例中通过下列第一公式对模板数据进行向量化:
ei=H(F(ki))
其中,ki为第i个日志事件的模板数据,F为日志模板数据集与所述日志事件集之间的满射,基于专业知识和语义分析完成,H为独热编码,将离散的事件序号转化为向量,便于后续模型的利用,ei为第i个日志事件的日志事件向量。其中,独热编码即One-Hot-coding,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效,以此可以来区分不同的日志事件类型。
步骤S203,利用预设尺寸的第一滑动窗口从所述日志事件向量序列中提取至少一个日志事件子序列;针对每个所述日志事件子序列,根据日志时间戳的间隔对所述日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列;
本实施例中,采用二次滑动窗口方法,分别基于日志事件数量和日志事件时间戳对上述得到的日志事件向量序列进行两次处理。首先,基于日志数量对上述得到的日志事件向量序列进行初次滑动窗口操作,其中,具体的窗口尺寸和滑动步长可以根据实际需要进行设置,比如设置预设尺寸为4,滑动步长为1,则可进行窗口大小为4,步长为1的初次滑动窗口操作。将上述日志事件向量序列用E={e1,e2,...,ei,...}表示,与上述一致,ei为第i个日志事件的日志事件向量,对日志事件向量序列进行初次滑动窗口操作后,可提取出至少一个日志事件子序列以及对应的日志时间戳数据。其中,日志事件子序列可用Esub={e1,e2,…,en}表示。
接下来,由于上述提取出了日志时间子序列的时间戳数据,故可以根据该时间戳数据,将在较短时间内同时生成的多条相关性较强的日志作为集合进行后续处理,如此可以利用日志的时间关联性,解决短时内日志乱序的问题,避免因为多个并发进程和线程的事件以及网络波动等导致的短时间内日志先后顺序混乱,进而导致后续处理效果降低的问题。
在一具体实施方式中,参照图4,图4为本发明图2中S203的步骤的细化流程示意图,所述针对每个所述日志事件子序列,根据日志时间戳的间隔对所述日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列,包括:
步骤B10,针对每个所述日志事件子序列,将所述日志时间戳的间隔小于预设阈值的日志事件提取到同一个日志事件组中,得到至少一个日志事件组;
首先,读取出上述得到的日志时间戳,将时间戳间隔小于预设阈值的日志作为同一个日志事件组,可以理解的,一个日志事件组在后续会并入同一个二次滑动窗口中,作为整体进行处理。考虑到部分日志时间戳的精度为秒,本实施例中可以将预设阈值设为1秒,当然该预设阈值还可以根据实际情况自行设置,本实施例对此不作限制。
步骤B20,基于所述日志事件组中所述日志事件的数量,确定第二滑动窗口的窗口尺寸;
步骤B30,基于所述窗口尺寸,构建窗口尺寸序列;
如上所述,任一组日志事件组中包含的是时间戳间隔小于预设阈值的日志事件,不难理解,一个日志事件组中包含至少一个日志事件,且不同的日志事件组中包含的日志事件个数可能相同也可能不同,故为了将一组日志事件组中的各个日志事件作为一个整体进行处理,相应的第二滑动窗口的窗口尺寸就要根据日志事件组的规模即包含的日志事件个数进行设置,也就是说,与上述第一滑动窗口不同,第二滑动窗口的窗口尺寸不是固定的,而是根据日志事件组的大小对应设置。举例说明,对于一组日志事件子序列Esub,假设其可按照上述方式划分为三个日志事件组,分别含有3个、2个、4个日志事件,并且其中每个日志事件的大小均为1,则可将第二滑动窗口的窗口尺寸以此设置为3、2、4,并构建起对应的窗口尺寸序列,可以理解的,在第一次滑动操作时,第二滑动窗口的窗口尺寸为3,从而将对应的3个日志事件作为一个整体提取出来,在第二次滑动操作时,第二滑动窗口的窗口尺寸为2,滑动步长为3,从而从除开在先提取出的三个日志事件的第一个日志事件开始,将对应的2个日志事件作为一个整体提取出来,在第三次滑动操作时,第二滑动窗口的窗口尺寸为4,滑动步长为2,从而从除开在先提取出的五个日志事件的第一个日志事件开始,将对应的4个日志事件作为一个整体提取出来。其中,窗口尺寸序列可以用Wsub={w1,w2,…,wm}表示,wi为第i个窗口尺寸。
步骤B30,基于所述窗口尺寸序列,对所述日志事件子序列进行划分,得到至少一个所述归并日志子序列。
其中,Esub为所述日志事件子序列,m为所述窗口尺寸序列中包含的窗口尺寸个数,e为所述日志事件的日志事件向量,si为前i个窗口尺寸之和,1≤i≤m。
步骤S204,获得所述归并日志子序列的检测向量序列;
如上所述,每个归并日志子序列中包含了一个或多个日志事件的日志事件向量,为了将其作为整体处理,需要进一步将多个日志事件向量整合为同一个向量进行处理。具体的,可将归并日志子序列中所有日志事件向量的和作为检测向量,以得到对应的检测向量序列。其中,检测向量序列可以用{v1,v2,…,vm}表示,vi为第i个检测向量,对应于第i个第二滑动窗口的窗口尺寸以及第i个归并日志子序列。
步骤S205,将所述检测向量序列输入日志异常检测模型,得到日志异常检测结果。
在本实施例中,所用的日志异常检测模型可以为长短期记忆网络LSTM,长短期记忆网络LSTM在传统时序模型循环神经网络RNN的基础上,通过为神经元设置输入门、遗忘门以及输出门的方式,解决RNN无法学习过长间隔的历史信息的问题,同时避免RNN权值矩阵循环相乘导致的梯度消失和梯度***。具体的,可以选用两层堆叠LSTM结构,该模型能够从数据中提取不同深度的特征信息,然后将处理后的样本特征信息进行融合分析,再继续传递到下一层网络结构中进行分析利用。经过Dropout函数与Dense函数处理,适当削弱梯度消失的弱点,将处理后的结果作为Softmax函数的输入,实现对样本的分类,进而得到最后的检测结果。其中,Dropout函数与Dense函数可以比较有效的缓解过拟合的发生,在一定程度上达到正则化的效果。
最后,基于上述具体描述,还可以进一步比较采用本发明方法即DSW方法与采用传统滑动窗口方法,以及采用LSTM模型与采用传统机器学习模型的检测效果,具体的操作步骤与上述基本一致,在此不再赘述。根据测试结果,可得到DSW方法作为改进后的特征提取方法,不仅能有效提升LSTM模型的检测性能,也能在一定程度上提升传统机器学习模型的效果。
本实施例中,在传统滑动窗口方法即一次窗口滑动进行日志特征提取的基础上,进一步根据每个日志的时间戳,将较短时间内生成的多条相关性较强的日志作为整体进行二次窗口滑动处理,利用日志之间的时间关联性,解决短时内日志乱序的问题,从而提高后续检测的准确性。
基于同一发明构思,本发明实施例还提供一种日志异常检测装置,参照图5所示,包括:
数据获取模块,用于获取待检测日志事件数据;所述待检测日志事件数据包括日志模板数据和对应的日志时间戳;
第一序列生成模块,用于基于所述日志模板数据,得到日志事件向量序列;所述日志事件序列包括至少一个日志事件向量;
二次滑动模块,用于利用预设尺寸的第一滑动窗口从所述日志事件向量序列中提取至少一个日志事件子序列;针对每个所述日志事件子序列,根据日志时间戳的间隔对所述日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列;
第二序列生成模块,用于获得所述归并日志子序列的检测向量序列;
日志检测模块,用于将所述检测向量序列输入日志异常检测模型,得到日志异常检测结果。
此外,在一实施例中,本申请还提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现前述方法实施例中方法的步骤。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper Text MarkupLanguage)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于优化特征提取粒度的日志异常检测方法,其特征在于,所述方法包括:
获取待检测日志事件数据;所述待检测日志事件数据包括日志模板数据和对应的日志时间戳;
基于所述日志模板数据,得到日志事件向量序列;所述日志事件序列包括至少一个日志事件向量;
利用预设尺寸的第一滑动窗口从所述日志事件向量序列中提取至少一个日志事件子序列;针对每个所述日志事件子序列,根据日志时间戳的间隔对所述日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列;
获得所述归并日志子序列的检测向量序列;
将所述检测向量序列输入日志异常检测模型,得到日志异常检测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述日志模板数据,得到日志事件向量序列,包括:
根据所述日志模板数据以及第一公式,得到所述日志事件向量序列;其中,所述第一公式为:
ei=H(F(ki));
其中,ki为第i个日志事件的模板数据,F为日志模板数据集与所述日志事件集之间的满射,H为独热编码,ei为第i个日志事件的日志事件向量。
3.根据权利要求1所述的方法,其特征在于,所述针对每个所述日志事件子序列,根据日志时间戳的间隔对所述日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列,包括:
针对每个所述日志事件子序列,将所述日志时间戳的间隔小于预设阈值的日志事件提取到同一个日志事件组中,得到至少一个日志事件组;
基于所述日志事件组中所述日志事件的数量,确定第二滑动窗口的窗口尺寸;
基于所述窗口尺寸,构建窗口尺寸序列;
基于所述窗口尺寸序列,对所述日志事件子序列进行划分,得到至少一个所述归并日志子序列。
5.根据权利要求1所述的方法,其特征在于,所述获得所述归并日志子序列的检测向量序列,包括:
将所述归并日志子序列中所有所述日志事件向量的和作为所述检测向量序列。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述获取待检测日志事件数据,包括:
获取至少一条日志事件的文本信息;
从至少一条所述日志事件的文本信息中提取出对应的至少一个时间戳文本和至少一个日志模板文本;
根据至少一个所述时间戳文本生成时间戳序列,并根据至少一个所述日志模板文本生成日志模板序列;
根据所述时间戳序列和所述日志模板序列,得到所述待检测日志事件数据。
7.根据权利要求1所述的方法,其特征在于,所述日志异常检测模型为长短期记忆网络LSTM,所述将所述检测向量序列输入日志异常检测模型,得到日志异常检测结果,包括:
将所述检测向量序列输入所述长短期记忆网络LSTM,以使所述长短期记忆网络LSTM根据所述检测向量序列,得到所述待检测日志事件数据的特征信息,并根据所述特征信息对对应的日志事件进行分类,得到所述日志异常检测结果。
8.一种基于优化特征提取粒度的日志异常检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取待检测日志事件数据;所述待检测日志事件数据包括日志模板数据和对应的日志时间戳;
第一序列生成模块,用于基于所述日志模板数据,得到日志事件向量序列;所述日志事件序列包括至少一个日志事件向量;
二次滑动模块,用于利用预设尺寸的第一滑动窗口从所述日志事件向量序列中提取至少一个日志事件子序列;针对每个所述日志事件子序列,根据日志时间戳的间隔对所述日志事件子序列中的日志事件进行归并,得到至少一个归并日志子序列;
第二序列生成模块,用于获得所述归并日志子序列的检测向量序列;
日志检测模块,用于将所述检测向量序列输入日志异常检测模型,得到日志异常检测结果。
9.一种基于优化特征提取粒度的日志异常检测设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于优化特征提取粒度的日志异常检测程序,所述基于优化特征提取粒度的日志异常检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于优化特征提取粒度的日志异常检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于优化特征提取粒度的日志异常检测程序,所述基于优化特征提取粒度的日志异常检测程序被处理器执行时实现如权利要求1至7中任一项所述的基于优化特征提取粒度的日志异常检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210224375.0A CN114584379B (zh) | 2022-03-07 | 2022-03-07 | 基于优化特征提取粒度的日志异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210224375.0A CN114584379B (zh) | 2022-03-07 | 2022-03-07 | 基于优化特征提取粒度的日志异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114584379A true CN114584379A (zh) | 2022-06-03 |
CN114584379B CN114584379B (zh) | 2023-05-30 |
Family
ID=81772924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210224375.0A Active CN114584379B (zh) | 2022-03-07 | 2022-03-07 | 基于优化特征提取粒度的日志异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114584379B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033463A (zh) * | 2022-08-12 | 2022-09-09 | 北京优特捷信息技术有限公司 | 一种***异常类型确定方法、装置、设备和存储介质 |
CN116170297A (zh) * | 2023-04-23 | 2023-05-26 | 北京首信科技股份有限公司 | 一种网络接入认证中lns网元监控的方法和装置 |
CN116484260A (zh) * | 2023-04-28 | 2023-07-25 | 南京信息工程大学 | 一种基于双向时间卷积网络的半监督日志异常检测方法 |
CN117077062A (zh) * | 2023-08-31 | 2023-11-17 | 木卫四(北京)科技有限公司 | 汽车指令异常检测方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653427A (zh) * | 2016-03-04 | 2016-06-08 | 上海交通大学 | 基于行为异常检测的日志监控方法 |
CN111930903A (zh) * | 2020-06-30 | 2020-11-13 | 山东师范大学 | 基于深度日志序列分析的***异常检测方法及*** |
CN112235327A (zh) * | 2020-12-16 | 2021-01-15 | 中移(苏州)软件技术有限公司 | 异常日志检测方法、装置、设备和计算机可读存储介质 |
CN112765603A (zh) * | 2021-01-28 | 2021-05-07 | 电子科技大学 | 一种结合***日志与起源图的异常溯源方法 |
CN113326244A (zh) * | 2021-05-28 | 2021-08-31 | 中国科学技术大学 | 一种基于日志事件图和关联关系挖掘的异常检测方法 |
US20210406106A1 (en) * | 2020-06-29 | 2021-12-30 | International Business Machines Corporation | Anomaly recognition in information technology environments |
CN113918367A (zh) * | 2021-09-26 | 2022-01-11 | 南京邮电大学 | 一种基于注意力机制的大规模***日志异常检测方法 |
CN113935023A (zh) * | 2021-09-13 | 2022-01-14 | 北京科东电力控制***有限责任公司 | 一种数据库异常行为检测方法及装置 |
US11243835B1 (en) * | 2020-12-03 | 2022-02-08 | International Business Machines Corporation | Message-based problem diagnosis and root cause analysis |
-
2022
- 2022-03-07 CN CN202210224375.0A patent/CN114584379B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653427A (zh) * | 2016-03-04 | 2016-06-08 | 上海交通大学 | 基于行为异常检测的日志监控方法 |
US20210406106A1 (en) * | 2020-06-29 | 2021-12-30 | International Business Machines Corporation | Anomaly recognition in information technology environments |
CN111930903A (zh) * | 2020-06-30 | 2020-11-13 | 山东师范大学 | 基于深度日志序列分析的***异常检测方法及*** |
US11243835B1 (en) * | 2020-12-03 | 2022-02-08 | International Business Machines Corporation | Message-based problem diagnosis and root cause analysis |
CN112235327A (zh) * | 2020-12-16 | 2021-01-15 | 中移(苏州)软件技术有限公司 | 异常日志检测方法、装置、设备和计算机可读存储介质 |
CN112765603A (zh) * | 2021-01-28 | 2021-05-07 | 电子科技大学 | 一种结合***日志与起源图的异常溯源方法 |
CN113326244A (zh) * | 2021-05-28 | 2021-08-31 | 中国科学技术大学 | 一种基于日志事件图和关联关系挖掘的异常检测方法 |
CN113935023A (zh) * | 2021-09-13 | 2022-01-14 | 北京科东电力控制***有限责任公司 | 一种数据库异常行为检测方法及装置 |
CN113918367A (zh) * | 2021-09-26 | 2022-01-11 | 南京邮电大学 | 一种基于注意力机制的大规模***日志异常检测方法 |
Non-Patent Citations (3)
Title |
---|
FENGGANG LAI: "《Distributed Systems Anomaly Detection》", 《2021 INTERNATIONAL CONFERENCE ON INFORMATION AND COMMUNICATION TECHNOLOGIES FOR DISASTER MANAGEMENT》 * |
何俊江: "《DRL-IDS:基于深度强化学习的工业物联网入侵检测***》", 《计算机科学》 * |
房笑宇: "《基于注意力机制的大规模***日志异常检测方法》", 《南京大学学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033463A (zh) * | 2022-08-12 | 2022-09-09 | 北京优特捷信息技术有限公司 | 一种***异常类型确定方法、装置、设备和存储介质 |
CN115033463B (zh) * | 2022-08-12 | 2022-11-22 | 北京优特捷信息技术有限公司 | 一种***异常类型确定方法、装置、设备和存储介质 |
CN116170297A (zh) * | 2023-04-23 | 2023-05-26 | 北京首信科技股份有限公司 | 一种网络接入认证中lns网元监控的方法和装置 |
CN116484260A (zh) * | 2023-04-28 | 2023-07-25 | 南京信息工程大学 | 一种基于双向时间卷积网络的半监督日志异常检测方法 |
CN116484260B (zh) * | 2023-04-28 | 2024-03-19 | 南京信息工程大学 | 一种基于双向时间卷积网络的半监督日志异常检测方法 |
CN117077062A (zh) * | 2023-08-31 | 2023-11-17 | 木卫四(北京)科技有限公司 | 汽车指令异常检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114584379B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114610515B (zh) | 基于日志全语义的多特征日志异常检测方法及*** | |
CN114584379B (zh) | 基于优化特征提取粒度的日志异常检测方法 | |
CN113434357B (zh) | 基于序列预测的日志异常检测方法及装置 | |
CN111371806A (zh) | 一种Web攻击检测方法及装置 | |
KR20190085098A (ko) | 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체 | |
CN113596007B (zh) | 一种基于深度学习的漏洞攻击检测方法和设备 | |
CN111680494B (zh) | 相似文本的生成方法及装置 | |
CN111191457B (zh) | 自然语言语义识别方法、装置、计算机设备和存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN112580346B (zh) | 事件抽取方法、装置、计算机设备和存储介质 | |
CN114090794A (zh) | 基于人工智能的事理图谱构建方法及相关设备 | |
CN116561748A (zh) | 一种组件子序列相关性感知的日志异常检测装置 | |
Maakoul et al. | Towards evaluating the COVID’19 related fake news problem: case of morocco | |
CN114417785A (zh) | 知识点标注方法、模型的训练方法、计算机设备及存储介质 | |
CN114785606A (zh) | 一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质 | |
Divya et al. | Text summarization using deep learning | |
CN115617614A (zh) | 基于时间间隔感知自注意力机制的日志序列异常检测方法 | |
CN117521641A (zh) | 基于自然语言处理的文本自动校对***及方法 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN117725458A (zh) | 一种获取威胁情报样本数据生成模型的方法及装置 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN111538898A (zh) | 基于组合特征提取的Web服务包推荐方法及*** | |
CN111860662B (zh) | 一种相似性检测模型的训练方法及装置、应用方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |