CN105138593A - 一种利用正则表达式自定义提取日志关键信息的方法 - Google Patents
一种利用正则表达式自定义提取日志关键信息的方法 Download PDFInfo
- Publication number
- CN105138593A CN105138593A CN201510465448.5A CN201510465448A CN105138593A CN 105138593 A CN105138593 A CN 105138593A CN 201510465448 A CN201510465448 A CN 201510465448A CN 105138593 A CN105138593 A CN 105138593A
- Authority
- CN
- China
- Prior art keywords
- rule
- daily record
- key information
- regular
- matched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用正则表达式自定义提取日志关键信息的方法,包括如下步骤:(1)定义若干条规则库。包括:确定需要匹配该规则库的日志和规则库里的规则集。(2)规则匹配。具体步骤如下:将接收到的日志依次与规则集中的规则正则表达式相匹配;遇到匹配的规则,则退出匹配,否则继续匹配下一条规则;如匹配,按该条规则提取出关键信息,并按照规则中的提取字段说明表达式将关键信息的名称与内容对应起来;如果所有的规则都不匹配,则将日志整体存储。本发明提出了一种允许用户自定义如何分析日志、提取日志中关键信息的方法,其基于正则表达式的分析方法通用性和灵活性都很强,可以满足需求。
Description
技术领域
本发明专利涉及计算机领域,尤其涉及提取出日志中的关键信息来进行格式化分析的方法。
背景技术
在计算机领域中的日志,一般都是以某种格式约定,但却是以纯文本的格式存在的。
一条linux安全的日志格式,如表1所示。
表1
其中包含了linux用户名、登录的结果、登录的时间等信息。
因为日志分析端接收到的日志是纯文本形态,所以在日志的分析中存在着很大的困难,即很难从一堆日志中统计出关键信息,例如,root用户登录失败的次数,登录成功和登录失败的比率、通过各种方式登录的比率等等。
发明内容
为解决上述技术问题,本发明提供了一种利用正则表达式自定义提取日志关键信息的方法,能够将日志进行分解,提取出需要分析的内容来格式化存储,方便将来的进一步精确分析。
为了实现上述目的,本发明采用如下技术方案。
一种利用正则表达式自定义提取日志关键信息的方法,包括如下步骤:
(1)定义若干条规则库;包括:确定需要匹配该规则库的日志和规则库里的规则集。
所述规则集为对日志进行解析的规则集合,规则的内容包括:规则的名称和ID号、规则正则表达式、提取字段说明表达式。
(2)规则匹配;具体步骤如下:
将接收到的日志依次与规则集中的规则正则表达式相匹配。
遇到匹配的规则,则退出匹配;否则继续匹配下一条规则。
如匹配,按该条规则提取出关键信息,并按照规则中的提取字段说明表达式将关键信息的名称与内容对应起来。
如果所有的规则都不匹配,则将日志整体存储。
本发明的有益效果是,日志分析服务,一般按照固定的规则或全文索引的方式来进行分析,而本发明提出了一种允许用户自定义如何分析日志、提取日志中关键信息的方法,其基于正则表达式的分析方法通用性和灵活性都很强,可以满足需求。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
图1是本发明流程示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的利用正则表达式自定义提取日志关键信息的方法,包括如下步骤:
首先由用户或***来定义n条规则库。规则库包括两方面:1.哪些日志需要匹配该规则库。2.该规则库里的规则集,由规则集来决定。
此步骤需要定义好不同来源的日志由什么规则来解析。不同来源的日志可以由该日志的“主机名”“IP”“应用名”来组合界定使用哪种规则集来匹配,也可以不指定其来源,举例如表2。
表2
主机名 | IP | 应用名 | |
规则集1 | Mysql | 192.168.1.22 | Mysql |
规则集2 | * | * | Sec |
规则集为如何对日志进行解析的规则集合,由一组正则表达式及其表述构成,每条规则的内容一般包括:
1.规则的名称和ID号。
2.规则正则表达式。
3.提取字段说明表达式。
规则匹配的过程为:
1.将接收到的日志依次与规则集中的规则正则表达式相匹配。
2.遇到第一条匹配的规则,则退出匹配,否则继续匹配下一条规则。
3.如匹配,按该条规则提取出关键信息,并按照规则中的提取字段说明表达式将关键信息的名称与内容对应起来。
4.如果所有的规则都不匹配,则将日志整体存储。
本实施例通过如下举例说明本发明的技术方案。
表3
提取字段说明表达式为:src_ip==$2;;dst_ip==$3;;name==$1。
这样将从日志中提取3个关键字:src_ip、dst_ip、name,内容根据正则表达式的匹配,分别为192.168.1.73、114.218.6.2、ICMP-unreachable。
解析后,可将输出的内容发送给后端,做进一步处理。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (1)
1.一种利用正则表达式自定义提取日志关键信息的方法,其特征是,包括如下步骤:
(1)定义若干条规则库;包括:确定需要匹配该规则库的日志和规则库里的规则集;
所述规则集为对日志进行解析的规则集合,规则的内容包括:规则的名称和ID号、规则正则表达式、提取字段说明表达式;
(2)规则匹配;具体步骤如下:
将接收到的日志依次与规则集中的规则正则表达式相匹配;
遇到匹配的规则,则退出匹配;否则继续匹配下一条规则;
如匹配,按该条规则提取出关键信息,并按照规则中的提取字段说明表达式将关键信息的名称与内容对应起来;
如果所有的规则都不匹配,则将日志整体存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510465448.5A CN105138593A (zh) | 2015-07-31 | 2015-07-31 | 一种利用正则表达式自定义提取日志关键信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510465448.5A CN105138593A (zh) | 2015-07-31 | 2015-07-31 | 一种利用正则表达式自定义提取日志关键信息的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105138593A true CN105138593A (zh) | 2015-12-09 |
Family
ID=54723942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510465448.5A Pending CN105138593A (zh) | 2015-07-31 | 2015-07-31 | 一种利用正则表达式自定义提取日志关键信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105138593A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021554A (zh) * | 2016-05-30 | 2016-10-12 | 北京奇艺世纪科技有限公司 | 一种日志解析方法及装置 |
CN106301896A (zh) * | 2016-08-03 | 2017-01-04 | 合网络技术(北京)有限公司 | 日志统计方法及装置 |
CN106354519A (zh) * | 2016-09-30 | 2017-01-25 | 乐视控股(北京)有限公司 | 一种用户画像的标签生成方法和装置 |
CN106407071A (zh) * | 2016-09-06 | 2017-02-15 | 珠海迈科智能科技股份有限公司 | 一种基于linux的内容服务后台日志自动分析工具 |
CN106528619A (zh) * | 2016-09-30 | 2017-03-22 | 国家电网公司 | 一种基于关键字段的交换机日志快速聚合方法 |
CN106598827A (zh) * | 2016-12-19 | 2017-04-26 | 东软集团股份有限公司 | 提取日志数据的方法及装置 |
CN107070908A (zh) * | 2017-04-01 | 2017-08-18 | 汕头大学 | 一种自动检测假冒网关arp欺骗的方法 |
CN109522391A (zh) * | 2018-11-27 | 2019-03-26 | 兰州智华辰宇交通科技有限公司 | 地铁运维车载日志分析与预警方法 |
CN109726284A (zh) * | 2018-12-07 | 2019-05-07 | 成都品果科技有限公司 | 一种通用性强的数据分析方法 |
CN109995784A (zh) * | 2019-04-03 | 2019-07-09 | 杭州汉领信息科技有限公司 | 一种基于udp的数据提取加速方法 |
CN111125225A (zh) * | 2019-12-24 | 2020-05-08 | 北京数衍科技有限公司 | 账单数据解析方法、装置及服务器 |
CN111737091A (zh) * | 2020-08-27 | 2020-10-02 | 北京安帝科技有限公司 | 一种日志处理方法、装置及可读介质 |
CN111881094A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 日志中关键信息提取方法、装置、终端及存储介质 |
CN112667672A (zh) * | 2021-01-06 | 2021-04-16 | 北京启明星辰信息安全技术有限公司 | 日志解析方法及解析装置 |
US11055302B2 (en) | 2015-04-03 | 2021-07-06 | Oracle International Corporation | Method and system for implementing target model configuration metadata for a log analytics system |
CN113179176A (zh) * | 2021-03-31 | 2021-07-27 | 新华三信息安全技术有限公司 | 一种日志处理方法、装置、设备及机器可读存储介质 |
US11226975B2 (en) | 2015-04-03 | 2022-01-18 | Oracle International Corporation | Method and system for implementing machine learning classifications |
US11681944B2 (en) | 2018-08-09 | 2023-06-20 | Oracle International Corporation | System and method to generate a labeled dataset for training an entity detection system |
CN116414610A (zh) * | 2023-06-12 | 2023-07-11 | 建信金融科技有限责任公司 | 异常日志片段的获取方法、装置、设备及存储介质 |
US11727025B2 (en) | 2015-04-03 | 2023-08-15 | Oracle International Corporation | Method and system for implementing a log parser in a log analytics system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101610174A (zh) * | 2009-07-24 | 2009-12-23 | 深圳市永达电子股份有限公司 | 一种日志关联分析***与方法 |
CN102957550A (zh) * | 2011-08-23 | 2013-03-06 | 中兴通讯股份有限公司 | 基于日志检测的告警方法及*** |
US20130282739A1 (en) * | 2012-04-18 | 2013-10-24 | International Business Machines Corporation | Generating a log parser by automatically identifying regular expressions matching a sample log |
CN104717085A (zh) * | 2013-12-16 | 2015-06-17 | ***通信集团湖南有限公司 | 一种日志解析方法及装置 |
-
2015
- 2015-07-31 CN CN201510465448.5A patent/CN105138593A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101610174A (zh) * | 2009-07-24 | 2009-12-23 | 深圳市永达电子股份有限公司 | 一种日志关联分析***与方法 |
CN102957550A (zh) * | 2011-08-23 | 2013-03-06 | 中兴通讯股份有限公司 | 基于日志检测的告警方法及*** |
US20130282739A1 (en) * | 2012-04-18 | 2013-10-24 | International Business Machines Corporation | Generating a log parser by automatically identifying regular expressions matching a sample log |
CN104717085A (zh) * | 2013-12-16 | 2015-06-17 | ***通信集团湖南有限公司 | 一种日志解析方法及装置 |
Non-Patent Citations (2)
Title |
---|
吕景山: "基于云计算的Web日志安全事件挖掘", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
颜斯哲 等: "浅析安全操作平台中日志的过滤与范化", 《企业技术开发》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11727025B2 (en) | 2015-04-03 | 2023-08-15 | Oracle International Corporation | Method and system for implementing a log parser in a log analytics system |
US11194828B2 (en) | 2015-04-03 | 2021-12-07 | Oracle International Corporation | Method and system for implementing a log parser in a log analytics system |
US11226975B2 (en) | 2015-04-03 | 2022-01-18 | Oracle International Corporation | Method and system for implementing machine learning classifications |
US11971898B2 (en) | 2015-04-03 | 2024-04-30 | Oracle International Corporation | Method and system for implementing machine learning classifications |
US11055302B2 (en) | 2015-04-03 | 2021-07-06 | Oracle International Corporation | Method and system for implementing target model configuration metadata for a log analytics system |
CN106021554A (zh) * | 2016-05-30 | 2016-10-12 | 北京奇艺世纪科技有限公司 | 一种日志解析方法及装置 |
CN106301896A (zh) * | 2016-08-03 | 2017-01-04 | 合网络技术(北京)有限公司 | 日志统计方法及装置 |
CN106407071A (zh) * | 2016-09-06 | 2017-02-15 | 珠海迈科智能科技股份有限公司 | 一种基于linux的内容服务后台日志自动分析工具 |
CN106354519A (zh) * | 2016-09-30 | 2017-01-25 | 乐视控股(北京)有限公司 | 一种用户画像的标签生成方法和装置 |
CN106528619A (zh) * | 2016-09-30 | 2017-03-22 | 国家电网公司 | 一种基于关键字段的交换机日志快速聚合方法 |
CN106598827B (zh) * | 2016-12-19 | 2019-05-31 | 东软集团股份有限公司 | 提取日志数据的方法及装置 |
CN106598827A (zh) * | 2016-12-19 | 2017-04-26 | 东软集团股份有限公司 | 提取日志数据的方法及装置 |
CN107070908A (zh) * | 2017-04-01 | 2017-08-18 | 汕头大学 | 一种自动检测假冒网关arp欺骗的方法 |
US11681944B2 (en) | 2018-08-09 | 2023-06-20 | Oracle International Corporation | System and method to generate a labeled dataset for training an entity detection system |
CN109522391A (zh) * | 2018-11-27 | 2019-03-26 | 兰州智华辰宇交通科技有限公司 | 地铁运维车载日志分析与预警方法 |
CN109726284A (zh) * | 2018-12-07 | 2019-05-07 | 成都品果科技有限公司 | 一种通用性强的数据分析方法 |
CN109995784A (zh) * | 2019-04-03 | 2019-07-09 | 杭州汉领信息科技有限公司 | 一种基于udp的数据提取加速方法 |
CN111125225A (zh) * | 2019-12-24 | 2020-05-08 | 北京数衍科技有限公司 | 账单数据解析方法、装置及服务器 |
CN111881094A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 日志中关键信息提取方法、装置、终端及存储介质 |
CN111881094B (zh) * | 2020-07-28 | 2023-07-18 | 平安科技(深圳)有限公司 | 日志中关键信息提取方法、装置、终端及存储介质 |
CN111737091A (zh) * | 2020-08-27 | 2020-10-02 | 北京安帝科技有限公司 | 一种日志处理方法、装置及可读介质 |
CN111737091B (zh) * | 2020-08-27 | 2020-12-08 | 北京安帝科技有限公司 | 一种日志处理方法、装置及可读介质 |
CN112667672A (zh) * | 2021-01-06 | 2021-04-16 | 北京启明星辰信息安全技术有限公司 | 日志解析方法及解析装置 |
CN112667672B (zh) * | 2021-01-06 | 2024-05-10 | 北京启明星辰信息安全技术有限公司 | 日志解析方法及解析装置 |
CN113179176B (zh) * | 2021-03-31 | 2022-05-27 | 新华三信息安全技术有限公司 | 一种日志处理方法、装置、设备及机器可读存储介质 |
CN113179176A (zh) * | 2021-03-31 | 2021-07-27 | 新华三信息安全技术有限公司 | 一种日志处理方法、装置、设备及机器可读存储介质 |
CN116414610A (zh) * | 2023-06-12 | 2023-07-11 | 建信金融科技有限责任公司 | 异常日志片段的获取方法、装置、设备及存储介质 |
CN116414610B (zh) * | 2023-06-12 | 2024-03-29 | 建信金融科技有限责任公司 | 异常日志片段的获取方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105138593A (zh) | 一种利用正则表达式自定义提取日志关键信息的方法 | |
Petrović et al. | The edinburgh twitter corpus | |
CN103020140B (zh) | 一种对互联网用户评论内容自动过滤的方法和装置 | |
CN103729402A (zh) | 一种基于图书目录的知识图谱的构建方法 | |
CN105893524B (zh) | 一种智能问答方法及装置 | |
CN103440252B (zh) | 一种中文句子中并列信息提取方法及装置 | |
Caramazza et al. | X-ray flares in Orion low-mass stars | |
CN104408191A (zh) | 关键词的关联关键词的获取方法和装置 | |
CN102096716A (zh) | 一种基于搜索引擎的计算器实现方法和装置 | |
CN106445910A (zh) | 一种文档解析方法与装置 | |
CN103186509A (zh) | 通配符类模板泛化方法和装置、通用模板泛化方法和*** | |
CN103778200A (zh) | 一种报文信息源抽取方法及其*** | |
CN101369278B (zh) | 一种近似匹配方法和装置 | |
CN105005549A (zh) | 一种自定义链式日志解析装置及方法 | |
CN104572758A (zh) | 一种电力领域专业词汇自动抽取方法及*** | |
CN104090870A (zh) | 一种在线翻译引擎的推送方法 | |
US9268769B1 (en) | System, method, and computer program for identifying message content to send to users based on user language characteristics | |
Irvine et al. | Processing informal, romanized Pakistani text messages | |
CN101887415A (zh) | 一种文本文档主题词义的自动提取方法 | |
Shrestha et al. | Using a Variety of n-Grams for the Detection of Different Kinds of Plagiarism | |
CN103678280A (zh) | 翻译任务碎片化的方法 | |
CN104881503A (zh) | 一种数据处理方法和装置 | |
CN105260365A (zh) | 终端信息的处理方法和装置 | |
CN104077274B (zh) | 一种从文档集中抽取热词短语的方法和装置 | |
Bonatto et al. | Structural parameters of 11 faint Galactic globular clusters derived with 2MASS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151209 |
|
RJ01 | Rejection of invention patent application after publication |