CN110389874A - 日志文件异常检测方法和装置 - Google Patents
日志文件异常检测方法和装置 Download PDFInfo
- Publication number
- CN110389874A CN110389874A CN201810359152.9A CN201810359152A CN110389874A CN 110389874 A CN110389874 A CN 110389874A CN 201810359152 A CN201810359152 A CN 201810359152A CN 110389874 A CN110389874 A CN 110389874A
- Authority
- CN
- China
- Prior art keywords
- log
- information
- journal file
- logic chart
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/122—File system administration, e.g. details of archiving or snapshots using management policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种日志文件异常检测方法和装置,其中,方法包括:获取日志文件中的log日志;对log日志进行特征化,以提取log日志对应的特征;根据特征对log日志进行分类,并获取log日志对应的分类信息;根据log日志对应的分类信息构建日志文件的逻辑图;以及根据逻辑图确定日志文件中的异常处。本发明实施例的日志文件异常检测方法,通过获取日志文件中的log日志,再对log日志进行特征化,以提取log日志对应的特征,然后根据特征对log日志进行分类,并获取log日志对应的分类信息,再根据log日志对应的分类信息构建日志文件的逻辑图,以及根据逻辑图确定日志文件中的异常处,能够直观地体现出异常处,简单方便地确定***运行中的问题,提高程序员的维护效率。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种日志文件异常检测方法和装置。
背景技术
随着信息化时代的来临,越来越多的领域都已开始使用智能控制***来代替传统的人工控制方式,来实现难以解决的复杂***的控制问题。例如:轨道交通中的ATS(Automatic Train Supervision,自动列车监控***)等复杂***中,多个运算主体和多种程序会按照自身的逻辑不间断运行。在***的研发和调试过程中,非常容易出现***表现异常,但关键问题无从查起的状况。目前,主要采取记录***log日志的方式,通过log日志中出现的标志信息标定出产生问题的位置,进而实现错误定位。然而,通过上述方法,需要程序员基于自身经验,人工定位并分析***的问题,不够方便、直观,效率低。
发明内容
本发明提供一种日志文件异常检测方法和装置,以解决上述技术问题中的至少一个。
本发明实施例提供一种日志文件异常检测方法,包括:
获取日志文件中的log日志;
对所述log日志进行特征化,以提取所述log日志对应的特征,所述特征包括第一编码信息和第二编码信息;
根据所述特征对所述log日志进行分类,并获取所述log日志对应的分类信息;
根据所述log日志对应的分类信息构建所述日志文件的逻辑图;以及
根据所述逻辑图确定所述日志文件中的异常处。
可选的,对所述log日志进行特征化,以提取所述log日志对应的特征,包括:
基于正则表达式提取所述log日志中的预定格式信息,并生成所述第一编码信息;
对提取预定格式信息后的所述log日志中的文本内容进行编码,以生成所述第二编码信息。
可选的,根据所述特征对所述log日志进行分类,并获取所述log日志对应的分类信息,包括:
获取所述log日志的第一编码信息的长度;
将所述第一编码信息的长度和所述第一编码信息输入至决策树,利用所述决策树进行分类,并确定所述log日志对应的第一分类编号;
将所述第二编码信息输入至所述决策树,利用所述决策树进行分类,并确定所述log日志对应的第二分类编号;
根据所述第一分类编号和所述第二分类编号生成所述log日志对应的分类信息。
可选的,根据所述log日志对应的分类信息构建所述日志文件的逻辑图,包括:
将所述log日志对应的分类信息作为所述逻辑图中的节点;
统计所述分类信息之间的跳转概率,并将所述跳转概率作为所述逻辑图中的边。
可选的,根据所述逻辑图确定所述日志文件中的异常处,包括:
将所述逻辑图中,边所对应的跳转概率与预设概率进行比对,确定跳转概率低于预设概率的边为异常处;或者
将所述逻辑图与历史逻辑图进行比对,确定所述逻辑图与所述历史逻辑图不一致的节点或边为异常处。
可选的,在根据所述逻辑图确定所述日志文件中的异常处之后,还包括:
生成异常提醒信息。
可选的,方法还包括:
在获取所述log日志的第一编码信息的长度之后,根据所述第一编码信息的长度计算所述log日志的长度离差值;
确定所述日志文件中长度离差值最大的log日志;
通过人工检测所述长度离差值最大的log日志是否异常。
本发明另一实施例提供一种日志文件异常检测装置,包括:
获取模块,用于获取日志文件中的log日志;
提取模块,用于对所述log日志进行特征化,以提取所述log日志对应的特征,所述特征包括第一编码信息和第二编码信息;
分类模块,用于根据所述特征对所述log日志进行分类,并获取所述log日志对应的分类信息;
构建模块,用于根据所述log日志对应的分类信息构建所述日志文件的逻辑图;以及
确定模块,用于根据所述逻辑图确定所述日志文件中的异常处。
可选的,所述提取模块,用于:
基于正则表达式提取所述log日志中的预定格式信息,并生成所述第一编码信息;
对提取预定格式信息后的所述log日志中的文本内容进行编码,以生成所述第二编码信息。
可选的,所述分类模块,包括:
获取单元,用于获取所述log日志的第一编码信息的长度;
第一分类单元,用于将所述第一编码信息的长度和所述第一编码信息输入至决策树,利用所述决策树进行分类,并确定所述log日志对应的第一分类编号;
第二分类单元,用于将所述第二编码信息输入至所述决策树,利用所述决策树进行分类,并确定所述log日志对应的第二分类编号;
生成单元,用于根据所述第一分类编号和所述第二分类编号生成所述log日志对应的分类信息。
可选的,所述构建模块,用于:
将所述log日志对应的分类信息作为所述逻辑图中的节点;
统计所述分类信息之间的跳转概率,并将所述跳转概率作为所述逻辑图中的边。
可选的,所述确定模块,用于:
将所述逻辑图中,边所对应的跳转概率与预设概率进行比对,确定跳转概率低于预设概率的边为异常处;或者
将所述逻辑图与历史逻辑图进行比对,确定所述逻辑图与所述历史逻辑图不一致的节点或边为异常处。
可选的,还包括:
提醒模块,用于在根据所述逻辑图确定所述日志文件中的异常处之后,生成异常提醒信息。
可选的,装置还包括:
推荐模块,用于基于预设规则向直播平台中的观众推荐分类后的优质主播。
可选的,所述分类模块,还包括:
计算单元,用于在获取所述log日志的第一编码信息的长度之后,根据所述第一编码信息的长度计算所述log日志的长度离差值;
确定单元,用于确定所述日志文件中长度离差值最大的log日志;
检测单元,用于通过人工检测所述长度离差值最大的log日志是否异常。
本发明还一实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述的日志文件异常检测方法。
本发明又一实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于执行本发明第一方面实施例所述的日志文件异常检测方法。
本发明实施例提供的技术方案可以包括以下有益效果:
通过获取日志文件中的log日志,再对log日志进行特征化,以提取log日志对应的特征,然后根据特征对log日志进行分类,并获取log日志对应的分类信息,再根据log日志对应的分类信息构建日志文件的逻辑图,以及根据逻辑图确定日志文件中的异常处,能够直观地体现出异常处,简单方便地确定***运行中的问题,提高程序员的维护效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的日志文件异常检测方法的流程图;
图2是根据本发明一个实施例的获取log日志对应的分类信息的流程图;
图3是根据本发明一个实施例的日志文件的逻辑图的效果示意图;
图4是根据本发明另一个实施例的日志文件异常检测方法的流程图;
图5是根据本发明又一个实施例的日志文件异常检测方法的流程图;
图6是根据本发明一个实施例的日志文件异常检测装置的结构框图;
图7是根据本发明另一个实施例的日志文件异常检测装置的结构框图;
图8是根据本发明又一个实施例的日志文件异常检测装置的结构框图;
图9是根据本发明一个实施例的电子设备的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的日志文件异常检测方法和装置。
图1是根据本发明一个实施例的日志文件异常检测方法的流程图。
如图1所示,该日志文件异常检测方法包括:
S101,获取日志文件中的log日志。
随着信息化时代的来临,控制***也越来越复杂。在***的运维过程中,程序员主要通过***的log日志,来查找、定位并分析出***运行时产生的问题。然而,log日志仅仅是对问题进行定位,并不能提供更直观的一些数据帮助程序员进行分析。因此,本发明提出一种日志文件异常检测方法,实现快速检测***运行中存在的问题。
在本发明的一个实施例中,可获取日志文件中的log日志。在***运行过程中,每天都会产生大量的日志文件,每个日志文件都会包含多个条目的log日志。而这些日志文件通常会保存到日志服务器中。因此,在需要对日志文件进行异常检测的时候,可从日志服务器中提取待分析的日志文件。
S102,对log日志进行特征化,以提取log日志对应的特征。
其中,特征可包括第一编码信息和第二编码信息。
具体地,可基于正则表达式提取log日志中的预定格式信息,并生成第一编码信息,然后再对提取预定格式信息后的log日志中的文本内容进行编码,以生成第二编码信息。其中,log日志中通常会包括进程信息、源程序信息、时间戳等具有一定格式的信息,同时这些信息的内容可以为程序员提供数据支持。因此,对log日志进行特征化,就是提取特征并对特征进行编码的过程。
举例来说:某个条目的log日志为:
“u'2017-09-23 06:37:57.270[main]info
o.s.c.a.annotationconfigapplicationcontext-refreshing
org.springframework.context.annotation.annotationconfigapplicationcontext@7637f22:startup date[sat sep 23 06:37:57cst 2017];root of context hierarchy\n'”
经过正则表达式提取后,获得的信息如下:[2017-09-23 06:37:57.270]、[[main]]、[info]以及[o.s.c.a.annotationconfigapplicationcontext],可分别对其进行编码为01、02、03以及04。此为第一编码信息。
而在此之后,可对log日志中的文本内容进行编码,生成第二编码信息。其目的主要在于提取文本内容中的两种关键特征,即词频和词序。例如:某log日志为
sessionid:1,remoteaddr:/172.24.0.18:49366{"header_info":{"inface_type":,"send_vender":,"receive_vender":……"t_stamp":{"sec":,,"usec":"zzl":,},其中,"inface_type"、"send_vender"、"receive_vender"、"t_stamp"等属于同一级别的特征,可编码为1;而"sec"、"usec"、"zzl"为"t_stamp"下一级别的特征,为了做区分,可编码为0。因此,生成的编码信息(第二编码信息)为1111000。
当然,还可以按照词序的编码方式进行编码。可将log日志中的header_info、inface_type、receive_vender、remoteaddr、sec、sessionid、send_vender、t_stamp、usec、zzl等,基于预设的编码表,按照顺序对其进行编码,则可得到编码信息(第二编码信息)7 41 2 6 3 8 5 910。其中,预设的编码表可如表1所示。
header_info | 1 |
inface_type | 2 |
receive_vender | 3 |
remoteAddr | 4 |
sec | 5 |
send_vender | 6 |
sessionId | 7 |
t_stamp | 8 |
usec | 9 |
zzl | 10 |
表1
当log日志中出现了此前未出现过的词组时,可先采用代码-1,-2,……按顺序增加的方式来表示这些词组。在当日运营结束后,或***其他停运时间,可对编码表进行更新。
S103,根据特征对log日志进行分类,并获取log日志对应的分类信息。
在提取log日志对应的特征之后,便可以根据特征对log日志进行分类,并获取log日志对应的分类信息。
具体地,如图2所示,可包括以下步骤:
S201,获取log日志的第一编码信息的长度。
S202,将第一编码信息的长度和第一编码信息输入至决策树,利用决策树进行分类,从而确定log日志对应的第一分类编号。
S203,将第二编码信息输入至决策树,利用决策树进行分类,并确定log日志对应的第二分类编号。
S204,根据第一分类编号和第二分类编号生成log日志对应的分类信息。
在分类时,可以使用决策树或者KNN(k-nearestneighbor,邻近分类算法)两种算法进行聚类。
在本实施例中,主要采用决策树算法来对log日志进行分类。原因在于***中的大部分的log日志的信息长度都不一样,可以使用词序的编码方式配以决策树的分叉方式,可以有效降低运算量,提高运算速度。
具体地,可计算每个log日志的特征编码长度li,i∈{1,2,…,N},即第一编码信息的长度。其中,n为算log日志的总数。可将第一编码信息的长度和第一编码信息输入至决策树,通过决策树进行分叉,最终满足条件的节点,即为log日志对应的第一分类编号。此时,每个log日志已经被分配了一个分类节点。在相同分类节点上的log日志,具有同样的编码长度、源信息、进城信息等。之后,可针对每个分类节点,将log日志的顺序编码(第二编码信息)作为特征,输入至决策树进行分叉,直至每个分类节点的叶子节点中的log日志都包含有同样的编码信息,即分类结束。通过上述方法,每个log日志均都被分配了两个分类编号,特征信息的分类编号(第一分类编号)和编码信息的分类编号(第二分类编号),这两个分类编号共同确定了log日志所属的分类信息。格式如下:(第二分类编号.第一分类编号),例如(-1.0)、(3204.0)等等。
S104,根据log日志对应的分类信息构建日志文件的逻辑图。
在生成log日志对应的分类信息之后,便可以根据log日志对应的分类信息构建日志文件的逻辑图。具体地,可将log日志对应的分类信息作为逻辑图中的节点,然后统计分类信息之间的跳转概率,并将跳转概率作为逻辑图中的边。其中,每个分类信息都包括流入和流出。流入节点为日志文件的第一条log日志所属的分类,流出节点为日志文件的最后一条log日志所属的分类。例如:针对分类1cl1和分类3cl3,分类1cl1流入分类3cl3的概率可表示为Pr{cl1→cl3cl1}=p1→3,也即是分类1出现后分类3马上出现的概率。这样就形成了节点1到节点3的一条边。通过统计分析出日志文件中所有节点的流入和流出,便可形成如图3所示的完整的逻辑图。从图3可以看出,节点(-1,0)流入到节点(211.0)的概率为0.02,而反向的,节点(211.0)流入到节点(-1,0)的概率则为0.0012。
构建好的逻辑图往往能够直观地反映出***中运行的层级、并行及通信关系等。如:预定格式信息中的进程信息,能够反映出产生log日志对应的程序来自网络中的哪个计算机或者在计算机的哪个进程,通常能够反映出程序的并发情况甚至***的归属信息。通过逻辑图的构建,便可以为程序员呈现最为细致的程序流转过程,令负责***调试的程序员能够对各个运算主体的log日志之间的流转关系有整体的认识,为程序员分析log日志提供帮助。
S105,根据逻辑图确定日志文件中的异常处。
在构建逻辑图成功之后,可根据逻辑图确定日志文件中的异常处。
具体地,可将逻辑图中,边所对应的跳转概率与预设概率进行比对,确定跳转概率低于预设概率的边为异常处。例如:某条边的跳转概率为0.0012,低于了预设概率0.01,那么说明由这条边的起始节点跳转到这条边的目的节点,即发生对应的事件的概率过低,则说明此处异常。
当然,也可以将逻辑图与历史逻辑图进行比对,确定逻辑图与历史逻辑图不一致的节点或边为异常处。例如,今日的逻辑图中,出现了昨日的逻辑图中未出现的跳转关系,可能暗示了某一部分程序没在运行,导致***异常。可直观地从图中便可看出异常处。
本发明实施例的日志文件异常检测方法,通过获取日志文件中的log日志,再对log日志进行特征化,以提取log日志对应的特征,然后根据特征对log日志进行分类,并获取log日志对应的分类信息,再根据log日志对应的分类信息构建日志文件的逻辑图,以及根据逻辑图确定日志文件中的异常处,能够直观地体现出异常处,简单方便地确定***运行中的问题,提高程序员的维护效率。
如图4所示,该日志文件异常检测方法还可包括:
S106,生成异常提醒信息。
在根据逻辑图确定日志文件中的异常处之后,可生成异常提醒信息,从而对程序员进行提醒,帮助程序员能够及时处理***运行过程中的问题。
如图5所示,该日志文件异常检测方法还可包括:
S205,根据第一编码信息的长度计算log日志的长度离差值。
在计算每个log日志的第一编码信息的长度之后,还可计算出第一编码信息的长度的均值μ,每两个log日志的第一编码信息的长度的方差σ2,进而计算出log日志的长度离差
S206,确定日志文件中长度离差值最大的log日志。
S207,通过人工检测长度离差值最大的log日志是否异常。
大多数log日志的长度都会在一定范围内。此处的一定范围指的是一个认知限度,如一条log日志有400行的内容,实际情况很可能是多个事件堆积在这一条log日志中。因此,可抽检日志文件中长度离差值最大的log日志,由程序员人工确定此log日志是否异常。如果程序员认为此log日志异常,则可以对log日志进行分析,处理相应的故障,从而保证***正常运行。
为了实现上述实施例,本发明还提出了一种日志文件异常检测装置,图6是根据本发明一个实施例的日志文件异常检测装置的结构框图,如图6所示,该装置包括获取模块610、提取模块620、分类模块630、构建模块640和确定模块650。
其中,获取模块610,用于获取日志文件中的log日志。
提取模块620,用于对log日志进行特征化,以提取log日志对应的特征,特征包括第一编码信息和第二编码信息。
分类模块630,用于根据特征对log日志进行分类,并获取log日志对应的分类信息。
构建模块640,用于根据log日志对应的分类信息构建日志文件的逻辑图。
确定模块650,用于根据逻辑图确定日志文件中的异常处。
其中,分类模块630进一步包括获取单元631、第一分类单元632、第二分类单元633和生成单元634。
获取单元631,用于获取log日志的第一编码信息的长度。
第一分类单元632,用于将第一编码信息的长度和第一编码信息输入至决策树,利用决策树进行分类,并确定log日志对应的第一分类编号。
第二分类单元633,用于将第二编码信息输入至决策树,利用决策树进行分类,并确定log日志对应的第二分类编号。
生成单元634,用于根据第一分类编号和第二分类编号生成log日志对应的分类信息。
如图7所示,日志文件异常检测装置还可包括提醒模块660。
提醒模块660,用于在根据逻辑图确定日志文件中的异常处之后,生成异常提醒信息。
如图8所示,分类模块630还可包括计算单元635、确定单元636和检测单元637。
其中,计算单元635,用于在获取log日志的第一编码信息的长度之后,根据第一编码信息的长度计算log日志的长度离差值。
确定单元636,用于确定日志文件中长度离差值最大的log日志。
检测单元637,用于通过人工检测长度离差值最大的log日志是否异常。
需要说明的是,前述对日志文件异常检测方法的解释说明,也适用于本发明实施例的日志文件异常检测装置,本发明实施例中未公布的细节,在此不再赘述。
本发明实施例的日志文件异常检测装置,通过获取日志文件中的log日志,再对log日志进行特征化,以提取log日志对应的特征,然后根据特征对log日志进行分类,并获取log日志对应的分类信息,再根据log日志对应的分类信息构建日志文件的逻辑图,以及根据逻辑图确定日志文件中的异常处,能够直观地体现出异常处,简单方便地确定***运行中的问题,提高程序员的维护效率。
为了实现上述实施例,本发明还提出了一种电子设备。
如图9所示,电子设备900包括处理器910、存储器920及存储在存储器920上并可在处理器910上运行的计算机程序901,处理器910用于执行本发明第一方面实施例的日志文件异常检测方法。
例如,计算机程序可被处理器执行以完成以下步骤的日志文件异常检测方法:
S101’,获取日志文件中的log日志。
S102’,对log日志进行特征化,以提取log日志对应的特征,特征包括第一编码信息和第二编码信息。
S103’,根据特征对log日志进行分类,并获取log日志对应的分类信息。
S104’,根据log日志对应的分类信息构建日志文件的逻辑图。
S105’,根据逻辑图确定日志文件中的异常处。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (16)
1.一种日志文件异常检测方法,其特征在于,包括:
获取日志文件中的log日志;
对所述log日志进行特征化,以提取所述log日志对应的特征,所述特征包括第一编码信息和第二编码信息;
根据所述特征对所述log日志进行分类,并获取所述log日志对应的分类信息;
根据所述log日志对应的分类信息构建所述日志文件的逻辑图;以及
根据所述逻辑图确定所述日志文件中的异常处。
2.如权利要求1所述的方法,其特征在于,对所述log日志进行特征化,以提取所述log日志对应的特征,包括:
基于正则表达式提取所述log日志中的预定格式信息,并生成所述第一编码信息;
对提取预定格式信息后的所述log日志中的文本内容进行编码,以生成所述第二编码信息。
3.如权利要求1所述的方法,其特征在于,根据所述特征对所述log日志进行分类,并获取所述log日志对应的分类信息,包括:
获取所述log日志的第一编码信息的长度;
将所述第一编码信息的长度和所述第一编码信息输入至决策树,利用所述决策树进行分类,并确定所述log日志对应的第一分类编号;
将所述第二编码信息输入至所述决策树,利用所述决策树进行分类,并确定所述log日志对应的第二分类编号;
根据所述第一分类编号和所述第二分类编号生成所述log日志对应的分类信息。
4.如权利要求1所述的方法,其特征在于,根据所述log日志对应的分类信息构建所述日志文件的逻辑图,包括:
将所述log日志对应的分类信息作为所述逻辑图中的节点;
统计所述分类信息之间的跳转概率,并将所述跳转概率作为所述逻辑图中的边。
5.如权利要求4所述的方法,其特征在于,根据所述逻辑图确定所述日志文件中的异常处,包括:
将所述逻辑图中,边所对应的跳转概率与预设概率进行比对,确定跳转概率低于预设概率的边为异常处;或者
将所述逻辑图与历史逻辑图进行比对,确定所述逻辑图与所述历史逻辑图不一致的节点或边为异常处。
6.如权利要求1所述的方法,其特征在于,在根据所述逻辑图确定所述日志文件中的异常处之后,还包括:
生成异常提醒信息。
7.如权利要求3所述的方法,其特征在于,还包括:
在获取所述log日志的第一编码信息的长度之后,根据所述第一编码信息的长度计算所述log日志的长度离差值;
确定所述日志文件中长度离差值最大的log日志;
通过人工检测所述长度离差值最大的log日志是否异常。
8.一种日志文件异常检测装置,其特征在于,包括:
获取模块,用于获取日志文件中的log日志;
提取模块,用于对所述log日志进行特征化,以提取所述log日志对应的特征,所述特征包括第一编码信息和第二编码信息;
分类模块,用于根据所述特征对所述log日志进行分类,并获取所述log日志对应的分类信息;
构建模块,用于根据所述log日志对应的分类信息构建所述日志文件的逻辑图;以及
确定模块,用于根据所述逻辑图确定所述日志文件中的异常处。
9.如权利要求8所述的装置,其特征在于,所述提取模块,用于:
基于正则表达式提取所述log日志中的预定格式信息,并生成所述第一编码信息;
对提取预定格式信息后的所述log日志中的文本内容进行编码,以生成所述第二编码信息。
10.如权利要求8所述的方法,其特征在于,所述分类模块,包括:
获取单元,用于获取所述log日志的第一编码信息的长度;
第一分类单元,用于将所述第一编码信息的长度和所述第一编码信息输入至决策树,利用所述决策树进行分类,并确定所述log日志对应的第一分类编号;
第二分类单元,用于将所述第二编码信息输入至所述决策树,利用所述决策树进行分类,并确定所述log日志对应的第二分类编号;
生成单元,用于根据所述第一分类编号和所述第二分类编号生成所述log日志对应的分类信息。
11.如权利要求8所述的装置,其特征在于,所述构建模块,用于:
将所述log日志对应的分类信息作为所述逻辑图中的节点;
统计所述分类信息之间的跳转概率,并将所述跳转概率作为所述逻辑图中的边。
12.如权利要求11所述的装置,其特征在于,所述确定模块,用于:
将所述逻辑图中,边所对应的跳转概率与预设概率进行比对,确定跳转概率低于预设概率的边为异常处;或者
将所述逻辑图与历史逻辑图进行比对,确定所述逻辑图与所述历史逻辑图不一致的节点或边为异常处。
13.如权利要求8所述的装置,其特征在于,还包括:
提醒模块,用于在根据所述逻辑图确定所述日志文件中的异常处之后,生成异常提醒信息。
14.如权利要求10所述的装置,其特征在于,所述分类模块,还包括:
计算单元,用于在获取所述log日志的第一编码信息的长度之后,根据所述第一编码信息的长度计算所述log日志的长度离差值;
确定单元,用于确定所述日志文件中长度离差值最大的log日志;
检测单元,用于通过人工检测所述长度离差值最大的log日志是否异常。
15.一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-7任一项所述的日志文件异常检测方法。
16.一种终端,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于执行如权利要求1-7任一项所述的日志文件异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810359152.9A CN110389874B (zh) | 2018-04-20 | 2018-04-20 | 日志文件异常检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810359152.9A CN110389874B (zh) | 2018-04-20 | 2018-04-20 | 日志文件异常检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110389874A true CN110389874A (zh) | 2019-10-29 |
CN110389874B CN110389874B (zh) | 2021-01-19 |
Family
ID=68283539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810359152.9A Active CN110389874B (zh) | 2018-04-20 | 2018-04-20 | 日志文件异常检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110389874B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111107079A (zh) * | 2019-12-16 | 2020-05-05 | 北京神州绿盟信息安全科技股份有限公司 | 一种上传文件检测方法及装置 |
CN111221707A (zh) * | 2020-01-17 | 2020-06-02 | 中体彩科技发展有限公司 | 一种体彩随机数发生器的监测方法及*** |
CN111563178A (zh) * | 2020-04-28 | 2020-08-21 | 深圳壹账通智能科技有限公司 | 规则逻辑图对比方法、装置、介质及电子设备 |
CN113111280A (zh) * | 2020-01-09 | 2021-07-13 | 福建天泉教育科技有限公司 | 流程图形式显示日志内容的方法、存储介质 |
CN113553244A (zh) * | 2020-04-24 | 2021-10-26 | 阿里巴巴集团控股有限公司 | 异常检测方法及设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110029817A1 (en) * | 2009-07-30 | 2011-02-03 | Hitachi, Ltd. | Abnormality detection method, device and program |
CN104268064A (zh) * | 2014-09-11 | 2015-01-07 | 百度在线网络技术(北京)有限公司 | 产品日志的异常诊断方法和装置 |
CN104616205A (zh) * | 2014-11-24 | 2015-05-13 | 北京科东电力控制***有限责任公司 | 一种基于分布式日志分析的电力***运行状态监视方法 |
US9117014B2 (en) * | 2012-11-13 | 2015-08-25 | Yasuhiko Yokote | Database system and control method therefor |
CN105468677A (zh) * | 2015-11-13 | 2016-04-06 | 国家计算机网络与信息安全管理中心 | 一种基于图结构的日志聚类方法 |
CN105653427A (zh) * | 2016-03-04 | 2016-06-08 | 上海交通大学 | 基于行为异常检测的日志监控方法 |
CN106250471A (zh) * | 2016-07-29 | 2016-12-21 | 东北大学 | 一种用于列车atp的数据自动提取与存储***及方法 |
US20170013003A1 (en) * | 2013-12-14 | 2017-01-12 | Hewlett Packard Enterprise Development Lp | Log Analysis Based on User Activity Volume |
CN106407071A (zh) * | 2016-09-06 | 2017-02-15 | 珠海迈科智能科技股份有限公司 | 一种基于linux的内容服务后台日志自动分析工具 |
CN107391353A (zh) * | 2017-07-07 | 2017-11-24 | 西安电子科技大学 | 基于日志的复杂软件***异常行为检测方法 |
CN107888602A (zh) * | 2017-11-23 | 2018-04-06 | 北京白山耘科技有限公司 | 一种检测异常用户的方法及装置 |
-
2018
- 2018-04-20 CN CN201810359152.9A patent/CN110389874B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110029817A1 (en) * | 2009-07-30 | 2011-02-03 | Hitachi, Ltd. | Abnormality detection method, device and program |
US9117014B2 (en) * | 2012-11-13 | 2015-08-25 | Yasuhiko Yokote | Database system and control method therefor |
US20170013003A1 (en) * | 2013-12-14 | 2017-01-12 | Hewlett Packard Enterprise Development Lp | Log Analysis Based on User Activity Volume |
CN104268064A (zh) * | 2014-09-11 | 2015-01-07 | 百度在线网络技术(北京)有限公司 | 产品日志的异常诊断方法和装置 |
CN104616205A (zh) * | 2014-11-24 | 2015-05-13 | 北京科东电力控制***有限责任公司 | 一种基于分布式日志分析的电力***运行状态监视方法 |
CN105468677A (zh) * | 2015-11-13 | 2016-04-06 | 国家计算机网络与信息安全管理中心 | 一种基于图结构的日志聚类方法 |
CN105653427A (zh) * | 2016-03-04 | 2016-06-08 | 上海交通大学 | 基于行为异常检测的日志监控方法 |
CN106250471A (zh) * | 2016-07-29 | 2016-12-21 | 东北大学 | 一种用于列车atp的数据自动提取与存储***及方法 |
CN106407071A (zh) * | 2016-09-06 | 2017-02-15 | 珠海迈科智能科技股份有限公司 | 一种基于linux的内容服务后台日志自动分析工具 |
CN107391353A (zh) * | 2017-07-07 | 2017-11-24 | 西安电子科技大学 | 基于日志的复杂软件***异常行为检测方法 |
CN107888602A (zh) * | 2017-11-23 | 2018-04-06 | 北京白山耘科技有限公司 | 一种检测异常用户的方法及装置 |
Non-Patent Citations (1)
Title |
---|
胡文生 等: "《大数据经典算法简介》", 31 July 2017 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111107079A (zh) * | 2019-12-16 | 2020-05-05 | 北京神州绿盟信息安全科技股份有限公司 | 一种上传文件检测方法及装置 |
CN113111280A (zh) * | 2020-01-09 | 2021-07-13 | 福建天泉教育科技有限公司 | 流程图形式显示日志内容的方法、存储介质 |
CN111221707A (zh) * | 2020-01-17 | 2020-06-02 | 中体彩科技发展有限公司 | 一种体彩随机数发生器的监测方法及*** |
CN111221707B (zh) * | 2020-01-17 | 2024-03-26 | 中体彩科技发展有限公司 | 一种体彩随机数发生器的监测方法及*** |
CN113553244A (zh) * | 2020-04-24 | 2021-10-26 | 阿里巴巴集团控股有限公司 | 异常检测方法及设备 |
CN111563178A (zh) * | 2020-04-28 | 2020-08-21 | 深圳壹账通智能科技有限公司 | 规则逻辑图对比方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110389874B (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110389874A (zh) | 日志文件异常检测方法和装置 | |
CN110209764B (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
Merten et al. | Software feature request detection in issue tracking systems | |
WO2018196798A1 (zh) | 用户客群分类方法和装置 | |
RU2010130458A (ru) | Обнаружение ошибок в машине логического вывода системы поддержки принятия клинического решения | |
US20200388358A1 (en) | Machine Learning Method for Generating Labels for Fuzzy Outcomes | |
CN113590451B (zh) | 一种根因定位方法、运维服务器及存储介质 | |
CN112069316B (zh) | 情绪识别方法和装置 | |
CN105474201A (zh) | 识别媒体内容中的报道 | |
US11594054B2 (en) | Document lineage management system | |
CN116089224B (zh) | 告警分析方法、装置、计算节点及计算机可读存储介质 | |
CN112463933A (zh) | ***日志模板的在线提取方法和装置 | |
CN112612904B (zh) | 基于知识图谱的轨道交通应急方法及装置 | |
CN107577760B (zh) | 一种基于约束规范的文本分类方法及装置 | |
WO2023103344A1 (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN116184985A (zh) | 车辆故障诊断方法、设备及介质 | |
CN112308225B (zh) | 训练神经网络的方法、装置及计算机可读存储介质 | |
CN111477321A (zh) | 具有自学习能力的治疗效果预测***及治疗效果预测终端 | |
JPWO2018122889A1 (ja) | 異常検出方法、システムおよびプログラム | |
US20220390911A1 (en) | Operational know-how estimation device and operational know-how estimation method | |
US10120652B2 (en) | System and method for representing software development requirements into standard diagrams | |
Orłowski et al. | Supporting management decisions with intelligent mechanisms of obtaining and processing knowledge | |
Kao et al. | Heterogeneous data ensemble learning in end-to-end diagnosis for IPTV | |
US20230297460A1 (en) | Information providing system, information providing method and recording medium | |
CN115576546A (zh) | 可复用的drg分组方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |