CN110795606A - 一种日志解析规则的生成方法 - Google Patents

一种日志解析规则的生成方法 Download PDF

Info

Publication number
CN110795606A
CN110795606A CN201910822081.6A CN201910822081A CN110795606A CN 110795606 A CN110795606 A CN 110795606A CN 201910822081 A CN201910822081 A CN 201910822081A CN 110795606 A CN110795606 A CN 110795606A
Authority
CN
China
Prior art keywords
log
character string
dynamic
regular expression
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910822081.6A
Other languages
English (en)
Inventor
王平
陈宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Original Assignee
Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda filed Critical Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Priority to CN201910822081.6A priority Critical patent/CN110795606A/zh
Publication of CN110795606A publication Critical patent/CN110795606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了日志解析规则的生成方法,通过把原始日志文本中的静态部分从日志内容中分离出来,从而可以只对动态部分进行处理、生成正则表达式,并为动态部分添加描述,进而得到结构化的日志解析规则。该解析规则生成方法,具有较大的适应性,资源消耗少,而且其生成的解析规则的解析精度较高。

Description

一种日志解析规则的生成方法
技术领域
本发明属于计算机及信息安全领域,尤其是涉及一种为日志分析产品生成解析规则的方法。
背景技术
网络安全日志,包括操作***产生的***日志和网络安全设备产生的报警日志等,主要记录了***和网络环境中发生的各种安全事件,为网络异常诊断和网络攻击威胁的发现提供重要的线索。在网络安全日志的分析中,日志解析是一个至关重要的步骤。
目前的日志分析产品在日志范式化上面临许多实际问题,对于人工方式录入正则:首先,繁多的日志种类和格式,无法通过统一的解析规则实现解析,而且每当有新的日志类型,就需要针对性的开发新解析方法,开发和维护成本都非常高。其次,虽然同种日志内容通常遵循一定的模式,但是这种模式往往是隐晦的,难以获取。再次,通常是根据需要提取内容设计对应的正则表达式,然后依据正则表达式来提取日志中特定的内容,但是编写正则表达式有一定的技术门槛,并且还需要不断的更新正则表达式,增加了运维人员的维护难度。对于无监督的机器自动化学习进行正则生成,适应性较差,更适用于格式化和结构化的日志,而且解析精度较低、资源消耗较高。另外,现有技术还存在这样一种情况:由于多数的日志都是英文字符和数字组成的,有的字符串是英文缩写,即便进行了结构化,还是无法进行直接阅读。
发明内容
鉴于上述背景,提出一种方案,通过把原始日志文本中的静态部分从日志内容中分离出来,从而可以只对动态部分进行处理、生成正则表达式,并为动态部分添加描述,进而得到结构化的日志解析规则。
采用的具体技术方案是一种日志解析规则的生成方法,包括:
预取原始日志数据,通过分隔符将日志内容拆分为以字符串为单元的集合;
识别字符串为静态或动态,若为静态字符串则进行清除;
若为动态字符串,确定实际含义后,对每个动态字符串标识相应的中文描述;对每个动态字符串适配正则表达式;创建所述中文描述与正则表达式的映射结构;
将原始日志中的动态字符串替换为相应的正则表达式,得到结构化的日志正则表达式;
将所述映射结构与日志正则表达式保存为解析规则。
其中,上述的对日志内容进行拆分,包括:对预取的日志内容进行比对,确定分隔符并记录其位置;按照各分隔符的位置将日志内容拆分为独立字符串组成的集合。
优选的是,选定样本日志,其他日志与样本日志进行逐个元素的比对,当至少两条日志的同一位置上出现相同的符号时,该符号为公共符号,记录其位置;每个元素包括一个字符,且连续的字母和/或数字视为一个元素,所述符号为除字母与数字以外的起连接或定界功能的字符;
当只有一种公共符号时,该种公共符号即为分隔符;
当具有至少两种公共符号时,根据公共符号分割的元素之间的关联性大小,确定出分隔符;所述关联性判断,包括判断该公共符号是否与其他字符作为整体使用。
进一步的,若被分隔符拆分出的字符串在各日志中保持不变,则将该字符串识别为静态字符串;否则识别为动态字符串;并记录各静态与动态字符串在日志中的位置。
通过对比不同日志的同一位置的动态字符串内容的含义,确定该位置的动态字符串的中文描述。
优选的,预设正则库,根据各位置的动态字符串类型,从预设的正则库中选定相应的正则表达式;所述字符串类型包括全为符号,全为字母,全为数字,以及符号、和/或字母、和/或数字的组合。
上述的映射结构为,以动态字符串的中文描述为字段名、以相应的正则表达式为内容的数据表。
取原始日志数据,根据记录的动态字符串位置,将动态字符串替换为对应的正则表达式,静态字符串保持不变,得到该种日志正则表达式。
进一步优选的,将每个选定的正则表达式与相应的动态字符串进行匹配,若匹配成功则保存该正则表达式;若匹配失败则重新从正则库中选择正则表达式,直至与字符串匹配成功,以验证正则表达式对字符串内容匹配的准确性。
通过静态字符串所属的字符串类型,匹配相应的正则表达式,清除对应的内容。
利用上述生成方法得到的解析规则,对日志进行解析的过程,包括:根据预设的解析策略,将日志数据与所述解析规则的日志正则表达式进行匹配,当日志数据的动态字符串与正则表达式匹配成功后,获取该正则表达式对应的中文描述作为对解析结果的注释。
以上的技术方案,相较于现有技术,利用若干预取的原始日志,通过确定分隔符并利用分隔符将将日志内容拆分为独立的字符串,并区分静态字符串和动态字符串,针对其中的动态字符串,一方面生成对应的正则表达式,另一方面标识中文描述;将正则表达式替换原始日志中的动态字符串即得到该种日志正则表达式,而利用日志正则表达式对日志进行解析时,其解析结果中的动态字符串含义具有实际意义的中文描述,有利于管理人员的阅读和分析。前述的解析规则生成方法,具有较大的适应性,资源消耗少,而且其生成的解析规则的解析精度较高。
附图说明
图1为日志解析规则的生成方法实施例的流程示意图;
图2为图1中生成的解析规则进行日志解析的流程示意图。
具体实施方式
下面结合附图和实施例对技术方案进行详细说明。
如图1所示,一种日志解析规则的生成方法,包括:
首先,预取原始日志数据,通过分隔符将日志内容拆分为以字符串为单元的集合。
当使用既有的解析规则对日志解析,无法得到完整、准确的解析结果,则认为该日志为新的日志,需要进行解析规则的更新。因此,需要预取至少2条/行原始日志数据作为解析规则的生成基础,此处所述“条”可以是针对流传输的日志而言,而“行”可以是针对文件传输的日志而言,在此处两者没有本质的区别。
原始日志数据预取后,首先要进行工作就是确定该类日志的分隔符,即日志中用于划分不同字段内容的符号;
分隔符本身通常不具有具体的实际含义,只起分隔或定界的功能,两个相邻分隔符之间为具有实际含义的字段内容(比如字符串)。常见的分隔符有“,”、“.”、“-”、“/”以及空格等,例如日志“AAA BBB CCC”的分隔符就是空格符,而日志“DDD_EE_F”的分隔符为“_”。
分隔符的确定,包括:选定样本日志,其他日志与样本日志进行逐个元素的比对,当至少两条日志的同一位置上出现相同的符号时,该符号为公共符号,记录其位置;每个元素包括一个字符,且连续的字母和/或数字视为一个元素,所述符号为除字母与数字以外的起连接或定界功能的字符;
当只有一种公共符号时,该种公共符号即为分隔符;
当具有至少两种公共符号时,根据公共符号分割的元素之间的关联性大小,确定出分隔符;所述关联性包括元素组合后才能表达完整的含义。
其次,识别出所述集合中的字符串为静态或动态,若被分隔符拆分出的字符串在各日志中保持不变,则将该字符串识别为静态字符串;否则识别为动态字符串;并记录各静态与动态字符串在日志中的位置。
对于集合中的静态字符串,根据其静态字符串所属的字符串类型,匹配相应的正则表达式,进行筛选并清除;所述字符串类型包括全为符号,全为字母,全为数字,以及符号、和/或字母、和/或数字的组合,例如字符串“Name”全为字母,字符串“8080”全为数字,字符串“user01”则为数字与字母的组合。
对于动态字符串,通过对比不同日志的同一位置的动态字符串内容的实际含义,确定该位置的动态字符串的中文描述;
预设正则库,根据各位置的动态字符串类型,从预设的正则库中选定相应的正则表达式;将每个选定的正则表达式与相应的动态字符串进行匹配,若匹配成功则保存该正则表达式;若匹配失败则重新从正则库中选择正则表达式,直至匹配成功,以验证正则表达式对字符串内容匹配的准确性;
创建所述中文描述与正则表达式的映射结构,映射结构为,以动态字符串的中文描述为字段名、以相应的正则表达式为内容的数据表;
取原始日志数据,根据记录的动态字符串位置,将动态字符串替换为对应的正则表达式,静态字符串保持不变,得到该种日志正则表达式。
最后,将所述映射结构与日志正则表达式保存为解析规则。
如图2所示,利用上述生成方法得到的解析规则,对日志进行解析的过程,包括:
获取待解析的日志数据,同样的日志可以是流传输或文件传输的。
根据配置的解析策略,执行解析规则,包括执行策略中配置的正则表达式,策略的配置可以是通过中文描述选定对应的正则表达式来实现解析规则。
具体的解析,是通过策略配置的解析规则中包括的正则表达式对日志数据进行匹配,匹配成功后,将对应的中文描述作为对解析结果的注释,实现更直观的阅读。
下面列举实施例进行详细说明。
以预取到的以下两条日志为例:
“2018-11-12 11:20:33 192.168.19.1 login admin.”
“2018-11-14 21:16:45 192.168.19.1 logoff user1.”
步骤1,对日志内容进行对比,确定分隔符:
逐元素对上述两条日志进行对比,即对比第一个元素“2”与“2”,第二元素“0”与“0”,以此类推,其中连续的字母或数字,如“2018”、“192”、“login”、“user1”均视为一个元素;该两条日志的相同位置上,具有的相同符号包括“-”、空格、“:”、“.”四种(也就是说不仅要符号相同,而且要位于不同日志的同一位置上的符号,才有可能是分隔符)。
对于“.”,有两种,其中作为日志结尾的“.”,由于日志首尾的符号通常不具有分隔的功能,因此排除;日志中间的“.”为连续出现的三次,且其分割的元素全部是数字,这一组数字表示的是通常可知的IP地址,四个元素作为整体使用,该“.”起的是连接作用,即并没有作为字符串之间的分隔。
“-”为连续出现两次后不再出现,“:”为连续出现两次后不再出现,且其分割的元素全部是数字,都是作为整体使用,起到的都是连接作用,并没有作为字符串之间的分隔。
空格为均匀的出现三次(即相邻两个空格之间均存在具有实际含义的字符串),因此只有空格符号符合分隔符的特征要求,从而确定该种日志的分隔符为空格符,同时记录各个分隔符所处的位置,以便下一步对日志的分隔。
步骤2,利用分隔符将日志数据分拆为字符串:
例如将第一条日志拆分为字符串集合:
{2018-11-12
11:20:33
192.168.19.1
login
admin};
第二条日志拆分为字符串集合:
{2018-11-14
21:16:45
192.168.19.1
logoff
user1}。
步骤3,区分字符串为静态还是动态:
依次对比步骤二的两个集合中的字符串可知,发生变化的字符串为第一、二、四、五,识别为动态字符串;保持不变的字符串为第三字符串,识别为静态字符串。实际中,通过两条日志的对比并不能完全准确的确定字符串是静态还是动态,例如本实施例中的“192.168.19.1”,如果该字符串是设备的IP信息,则可能为静态的,但如果是用户的IP,则可能又是动态的;但经过日志数量的累积,准确性会逐步提高,最终达到完整且准确的识别。
步骤4,对于静态字符串,根据字符串类型进行清除,本实施例中,字符串“192.168.19.1”表示的是IP地址,其正则表达式可以是:
Figure 3
利用该正则表达式可以实现对该静态字符串的清除,例如可以将第一条日志处理为:
{2018-11-12
11:20:33
login
admin};
余下的均为动态字符串,对于动态字符串,进行两种处理,首先结合两条日志中动态字符串的含义,标识中文描述:
{2018-11-12日期
11:20:33时间
login操作
admin用户名};
其次是为动态字符串适配正则表达式,具体的是通过判断字符串的组成,确定字符串的类型,然后从预设的正则库内匹配出对应的正则表达式。本实施例中,各个动态字符串的类型分别为数字与符号组合(更准确的是一种日期表达格式)、数字与符号组合(更准确的是一种时间表达格式)、字母组合、字母与数字组合;而且如果日期和时间经常是同时相邻的出现在日志中,因此日期的正则表达式可以是:\d{4}(-|/|.)\d{1,2}\d{1,2};时间的正则表达式可以是:
Figure 4
操作(英文单词)的正则表达式可以是:\b[a-zA-Z]+\b;用户名的正则表达式可以是:[A-Za-z0-9_\-\u4e00-\u9fa5]+;从而得到中文描述与正则表达式的映射结构,如下表:
Figure 2
步骤5,将动态字符串替换为正则表达式,即将原始日志中的动态字符串,用相对应的正则表达式进行替换,即得到如下日志正则表达式:
Figure 5
步骤6,将上述的中文描述映射结构与日志正则表达式保存为一条解析规则,对同种日志进行解析时,执行该规则,得到相应的结果中,各个动态字符串会自动显示中文描述,便于直接阅读:
例如对上述的第二条日志进行解析,其输出结果可以是以下形式:
日期2018-11-14/时间21:16:45/192.168.19.1/操作logoff/用户名user1.其中的符号“/”只是为了区分各个字段内容,不具有实际意义,也可以更换为其他符号。
对于其中的静态部分192.168.19.1,可以通过其来源确定其类型,例如如果经过足够多日志的验证后可以确定为用户的IP,则可以在其前面添加“用户IP”;当然,如果确定为设备IP,为了便于理解,也可以标识中文描述“设备IP”。

Claims (10)

1.一种日志解析规则的生成方法,其特征在于,包括:
预取原始日志数据,通过分隔符将日志内容拆分为以字符串为单元的集合;
识别字符串为静态或动态,若为静态字符串则进行清除;
若为动态字符串,确定实际含义,并对每个动态字符串标识相应的中文描述;对每个动态字符串适配正则表达式;创建所述中文描述与正则表达式的映射结构;
将原始日志中的动态字符串替换为相应的正则表达式,得到日志的正则表达式;
将所述映射结构与日志正则表达式保存为解析规则。
2.根据权利要求1所述的方法,其特征在于,日志的拆分,包括:
对预取的日志内容进行比对,确定分隔符并记录其位置;按照各分隔符的位置将日志内容拆分为独立字符串组成的集合。
3.根据权利要求2所述的方法,其特征在于,所述分隔符的确定,包括:
选定样本日志,其他日志与样本日志进行逐个元素的比对,当至少两条日志的同一位置上出现相同的符号时,该符号为公共符号,记录其位置;每个元素包括一个字符,且连续的字母和/或数字视为一个元素,所述符号为除字母与数字以外的起连接或定界功能的字符;
当只有一种公共符号时,该种公共符号即为分隔符;
当具有至少两种公共符号时,根据公共符号分割的元素之间的关联性大小,确定出分隔符;所述关联性判断,包括判断该公共符号是否与其他字符作为整体使用。
4.根据权利要求3所述的方法,其特征在于,若被分隔符拆分出的字符串在日志中保持不变,则将该字符串识别为静态字符串;否则识别为动态字符串;
并记录各静态与动态字符串在日志中的位置。
5.根据权利要求4所述的方法,其特征在于,通过对比不同日志的同一位置的动态字符串内容的含义,确定该位置的动态字符串的中文描述。
6.根据权利要求5所述的方法,其特征在于,预设正则库,根据各位置的动态字符串类型,从预设的正则库中选定相应的正则表达式;所述字符串类型包括全为符号,全为字母,全为数字,以及符号、和/或字母、和/或数字的组合。
7.根据权利要求6所述的方法,其特征在于,所述映射结构为,以动态字符串的中文描述为字段名、以相应字符串的正则表达式为内容的数据表。
8.根据权利要求6任一所述的方法,其特征在于,取原始日志数据,根据记录的动态字符串位置,将动态字符串替换为对应的正则表达式,静态字符串保持不变,得到该种日志的正则表达式。
9.根据权利要求6所述的方法,其特征在于,将每个选定的正则表达式与相应的动态字符串进行匹配,若匹配成功则保存该正则表达式;若匹配失败则重新从正则库中选择正则表达式,直至与字符串匹配成功。
10.根据权利要求6所述的方法,其特征在于,通过静态字符串所属的字符串类型,匹配相应的正则表达式,清除对应的内容。
CN201910822081.6A 2019-09-02 2019-09-02 一种日志解析规则的生成方法 Pending CN110795606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910822081.6A CN110795606A (zh) 2019-09-02 2019-09-02 一种日志解析规则的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910822081.6A CN110795606A (zh) 2019-09-02 2019-09-02 一种日志解析规则的生成方法

Publications (1)

Publication Number Publication Date
CN110795606A true CN110795606A (zh) 2020-02-14

Family

ID=69427145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910822081.6A Pending CN110795606A (zh) 2019-09-02 2019-09-02 一种日志解析规则的生成方法

Country Status (1)

Country Link
CN (1) CN110795606A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672482A (zh) * 2021-08-09 2021-11-19 深圳市猿人创新科技有限公司 一种终端设备的日志消息传输方法、装置、设备及介质
CN113672483A (zh) * 2021-08-09 2021-11-19 深圳市猿人创新科技有限公司 一种设备日志存储方法、装置、电子设备及介质
CN114860673A (zh) * 2022-07-06 2022-08-05 南京聚铭网络科技有限公司 基于动静结合的日志特征识别方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672482A (zh) * 2021-08-09 2021-11-19 深圳市猿人创新科技有限公司 一种终端设备的日志消息传输方法、装置、设备及介质
CN113672483A (zh) * 2021-08-09 2021-11-19 深圳市猿人创新科技有限公司 一种设备日志存储方法、装置、电子设备及介质
CN113672483B (zh) * 2021-08-09 2024-05-31 深圳市猿人创新科技有限公司 一种设备日志存储方法、装置、电子设备及介质
CN114860673A (zh) * 2022-07-06 2022-08-05 南京聚铭网络科技有限公司 基于动静结合的日志特征识别方法及装置
CN114860673B (zh) * 2022-07-06 2022-09-30 南京聚铭网络科技有限公司 基于动静结合的日志特征识别方法及装置

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
US7257719B2 (en) System and method for storing events to enhance intrusion detection
JP5241828B2 (ja) 辞書の単語及び熟語の判定
CN110795606A (zh) 一种日志解析规则的生成方法
US7606797B2 (en) Reverse value attribute extraction
US9852122B2 (en) Method of automated analysis of text documents
US20180357214A1 (en) Log analysis system, log analysis method, and storage medium
CN108305180B (zh) 一种好友推荐方法及装置
CN111950263B (zh) 一种日志解析方法、***及电子设备
US8484229B2 (en) Method and system for identifying traditional arabic poems
CN103140849A (zh) 音译处理装置、程序、记录媒体及方法
JP2008210308A (ja) ログ統合管理装置、及び、ログ統合管理方法、ログ統合管理プログラム
Cerra et al. Authorship analysis based on data compression
CN108280021A (zh) 一种基于机器学习的日志等级分析方法
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
CN101021851B (zh) 文本检索装置和文本检索方法
Demetrescu et al. Accuracy of author names in bibliographic data sources: An Italian case study
CN114048740B (zh) 敏感词检测方法、装置及计算机可读存储介质
Osman et al. Plagiarism detection using graph-based representation
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN111581057B (zh) 一种通用日志解析方法、终端设备及存储介质
CN109857842A (zh) 一种报障文本识别的方法及装置
CN110852059B (zh) 一种基于分组的文档内容差异对比可视化分析方法
US20120265520A1 (en) Text processor and method of text processing
CN115859932A (zh) 一种日志模板提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination