CN111143314A - 一种基于高速流式处理技术的日志解析方法及*** - Google Patents
一种基于高速流式处理技术的日志解析方法及*** Download PDFInfo
- Publication number
- CN111143314A CN111143314A CN201911364877.8A CN201911364877A CN111143314A CN 111143314 A CN111143314 A CN 111143314A CN 201911364877 A CN201911364877 A CN 201911364877A CN 111143314 A CN111143314 A CN 111143314A
- Authority
- CN
- China
- Prior art keywords
- data
- log
- template
- generalization
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/35—Creation or generation of source code model driven
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及一种基于高速流式处理技术的日志解析方法及***,其中,该方法可包括以下步骤:在节点底层搭建分布式消息中间件,用于缓存终端设备日志;配置日志解析模板,通过终端设备IP地址实现解析模板与日志数据相关联;日志数据泛化,具体地,采用SPARK流式批处理,将消息中间件缓存的日志按时间切片封装成RDD(弹性分布式数据集),形成源源不断的实时RDD数据流;通过转换算子操作对实时RDD数据流进行预处理;根据与终端设备IP匹配的解析模板对经过预处理的实时RDD数据进行层级解析和泛化,没有匹配上模板的数据将通过模型识别进行数据分类而实现数据泛化;日志数据储存,各个节点泛化完的数据将在各自节点上进行日志数据持久化。
Description
技术领域
本发明属于计算机领域,具体地涉及一种基于高速流式处理技术的日志解析方法及***。
背景技术
随着5G时代到来,随着终端设备得增多,从而会有海量数据的出现,使得数据处理及分析变得日益重要。为理解用户的访问特点以及用户的需求,就需要进行日志分析,发现用户的访问行为与规律,并以此来优化业务结构,从而给用户带来更好的体验。同时,随着日志数据分析处理技术的发展,人们可以从数据中发现知识,找出规律,从而产生价值,因此研究日志数据泛化分析处理具有重要的意义。
传统的日志数据分析处理方案大多是基于单机串行处理及存储,面对海量的大数据时,传统的日志数据分析处理显得力不从心了。尤其当数据量达到TB,甚至PB、ZB级别时,存储数据及处理效率非常低下。而且目前市面的一些日志解析框架,大多不支持大数据大并发的处理,而且对日志格式的处理也要进行比较复杂的代码处理,具体不足如下:
1)处理日志数据速度慢、效率低;
2)数据不可靠、丢失率高;
3)日志解析模板不可配置,维护成本高。
发明内容
本发明旨在提供一种基于高速流式处理技术的日志解析方法及***,以解决上述问题。为此,本发明采用的具体技术方案如下:
根据本发明的一方面,提供了一种基于高速流式处理技术的日志解析方法,可包括以下步骤:
在节点底层搭建分布式消息中间件,用于缓存终端设备日志;
配置日志解析模板,通过终端设备IP地址实现解析模板与日志数据相关联;
日志数据泛化,具体地,采用SPARK流式批处理,将消息中间件缓存的日志按时间切片封装成RDD(弹性分布式数据集),形成源源不断的实时RDD数据流;通过转换算子操作对实时RDD数据流进行预处理;根据与终端设备IP匹配的解析模板对经过预处理的实时RDD数据进行层级解析和泛化,没有匹配上模板的数据将通过模型识别进行数据分类而实现数据泛化;
日志数据储存,各个节点泛化完的数据将在各自节点上进行日志数据持久化。
进一步地,所述的在节点配置日志解析模板是在可视化模板配置界面上进行的。
进一步地,模板包含正则表达式匹配与解析、key-value数据格式解析、分隔符解析、数据格式转化、字段名称标准化和数据格式标准化。
进一步地,所述模型识别采用GMM模型识别。
进一步地,消息中间件在缓冲日志时,采用多主题分流策略对日志数据进行负载均衡。
根据本发明的另一方面,提供了一种基于高速流式处理技术的日志解析***,其包括:
日志缓存模块,用于缓冲终端设备日志,具体地,采用在节点底层搭建分布式消息中间件,实现时间可配置的终端设备日志数据缓存;
日志解析模板配置模块,用于配置日志解析模板,具体地,通过终端设备 IP地址实现解析模板与日志数据相关联;
日志数据泛化模块,用于数据泛化,采用SPARK流式批处理,将消息中间件缓存的日志按时间切片封装成RDD(弹性分布式数据集),形成源源不断的实时 RDD数据流;通过转换算子操作对实时RDD数据流进行预处理;根据与终端设备 IP匹配的解析模板对经过预处理的实时RDD数据进行层级解析和泛化,没有匹配上模板的数据将通过模型识别进行数据分类而实现数据泛化;
日志数据存储模块,用于储存日志数据,具体地,各个节点泛化完的数据将在各自节点上进行日志数据持久化。
进一步地,所述的在节点配置日志解析模板是在可视化模板配置界面上进行的。
进一步地,模板包含正则表达式匹配与解析、key-value数据格式解析、分隔符解析、数据格式转化、字段名称标准化和数据格式标准化。
进一步地,所述模型识别采用GMM模型识别。
进一步地,消息中间件在缓冲日志时,采用多主题分流策略对日志数据进行负载均衡。
本发明采用上述技术方案,具有的有益效果是:
1)解析模板可视化配置,无需针对不同日志信息编码,减少了代码工作量, 简化日志解析模板配置,减少日志维护成本;
2)日志消息中间件缓存化可以应对突发性峰值日志数据,保证消息的可靠性及***的稳定性;
3)流式并行计算结合可视化模板配置加算法模型对日志泛化,相比传统模式处理速度及准确性将大幅度提升;
4)可以简化大量的编码工作,日志处理速度将大大提高,支持海量大数据的处理,快速构建Machine Leanning及Analysis等应用场景。
附图说明
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
图1是本发明的一种基于高速流式处理技术的日志解析方法的流程图;
图2是本发明的一种基于高速流式处理技术的日志解析***的原理框图。
具体实施方式
现结合附图和具体实施方式对本发明进一步说明。
如图1所示,根据本发明的一方面,提供了一种基于高速流式处理技术的日志解析方法,可包括以下步骤:
S1.在节点底层搭建分布式消息中间件,用于缓存终端设备日志。采用分布式消息中间件,实现时间可配置的终端设备终端数据缓存,并且采用多主题分流策略对日志数据进行负载均衡,以应对突发性峰值日志数据,对峰值流量进行削峰,从而保证解析***可靠性及稳定。
S2.配置日志解析模板,通过终端设备IP地址实现解析模板与日志数据相关联。具体地,提供可视化模板配置界面,用户通过该视化模板配置界面配置日志解析模板,日志解析模板持久化并动态加载于流式批处理计算中,通过终端设备IP地址实现日志解析模板与日志数据关联进行关联泛化,实现统一日志泛化规则配置。模板包含正则表达式匹配与解析、key-value数据格式解析、分隔符解析、数据格式转化、字段名称标准化和数据格式标准化等。
S3.日志数据泛化,具体地,采用SPARK流式批处理,将消息中间件缓存的日志按时间切片封装成RDD(弹性分布式数据集),形成源源不断的实时RDD数据流;通过转换算子操作对实时RDD数据流进行预处理;根据与终端设备IP匹配的解析模板对经过预处理的实时RDD数据进行层级解析和泛化,没有匹配上模板的数据将通过模型识别进行数据分类而实现数据泛化。其中,模型识别采用 GMM模型识别。
GMM模型算法主要应用于对日志类型进行软聚合进行分类。每个GMM由K个高斯分布组成,每个高斯分布称为一个组件(Component),这些组件线性加成在一起就组成了GMM的概率密度函数,GMM的K个组件实际上就对应了K个聚类。
主要实现如下:
其中N(x|μk,∑k)是以μk为均值向量,Σk为协方差矩阵多元高斯分布的概率密度函数。在***实现中,GMM的每一个混合成分都使用一个 MultivariateGaussian类来存储,我们使用该类的weights成员获取到各个混合成分的权重,使用gaussians成员来获取到各个混合成分的参数(均值向量和协方差矩阵),从而得出样本点属于每个簇的概率点。
S4.日志数据储存,各个节点泛化完的数据将在各自节点上进行日志数据持久化。持久化的数据供快速构建ML调试及数据分析、数据可视化等等功能使用。
如图2所示,根据本发明的另一方面,提供了一种基于高速流式处理技术的日志解析***,其包括:
日志缓存模块100,该日志缓存模块100用于缓冲终端设备日志,其具体过程已经在上文进行了描述,这里不再重复。
日志解析模板配置模块200,该日志解析模板配置模块200用于配置日志解析模板,通过终端设备IP地址实现解析模板与日志数据相关联。其具体过程已经在上文进行了描述,这里不再重复。
日志数据泛化模块300,该数据泛化模块300用于数据泛化,其具体过程已经在上文进行了描述,这里不再重复。
存储模块400,该存储模块400用于储存日志数据,即各个节点泛化完的数据将在各自节点上进行日志数据持久化。持久化的数据供快速构建ML调试及数据分析、数据可视化等等功能使用。
本发明具有以下技术效果:
1)解析模板可视化配置,无需针对不同日志信息编码,减少了代码工作量简化日志解析模板配置,减少日志维护成本;
2)日志消息中间件缓存化应对突发性峰值日志数据,保证消息的可靠性及***的稳定性;
3)流式并行计算结合可视化模板配置加算法模型对日志泛化,相比传统模式处理速度及准确性将大幅度提升;
4)可以简化大量的编码工作,日志处理速度将大大提高,支持海量大数据的处理,快速构建Machine Leanning及Analysis等应用场景;
5)如果有新的日志种类添加,无需开发人员的参与,只需要运维人员通过可视化界面添加相应的解析模板即可完成对新的日志源信息的统一标准化解析,降低后期的运维成本。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (10)
1.一种基于高速流式处理技术的日志解析方法,其特征在于,包括以下步骤:在节点底层搭建分布式消息中间件,用于缓存终端设备日志;
配置日志解析模板,通过终端设备IP地址实现解析模板与日志数据相关联;日志数据泛化,具体地,采用SPARK流式批处理,将消息中间件缓存的日志按时间切片封装成RDD(弹性分布式数据集),形成源源不断的实时RDD数据流;通过转换算子操作对实时RDD数据流进行预处理;根据与终端设备IP匹配的解析模板对经过预处理的实时RDD数据进行层级解析和泛化,没有匹配上模板的数据将通过模型识别进行数据分类而实现数据泛化;
日志数据储存,各个节点泛化完的数据将在各自节点上进行日志数据持久化。
2.根据权利要求1所述的方法,其特征在于,所述的在节点配置日志解析模板是在可视化模板配置界面上进行的。
3.根据权利要求1或2所述的方法,其特征在于,模板包含正则表达式匹配与解析、key-value数据格式解析、分隔符解析、数据格式转化、字段名称标准化和数据格式标准化。
4.根据权利要求1所述的方法,其特征在于,所述数据泛化采用GMM模型算法。
5.根据权利要求1所述的方法,其特征在于,消息中间件在缓冲日志时,采用多主题分流策略对日志数据进行负载均衡。
6.一种基于高速流式处理技术的日志解析***,其特征在于,包括:
日志缓存模块,用于缓冲终端设备日志,具体地,采用在节点底层搭建分布式消息中间件,实现时间可配置的终端设备日志数据缓存;
日志解析模板配置模块,用于配置日志解析模板,通过终端设备IP地址实现解析模板与日志数据相关联;
日志数据泛化模块,用于数据泛化,具体地,采用SPARK流式批处理,将消息中间件缓存的日志按时间切片封装成RDD(弹性分布式数据集),形成源源不断的实时RDD数据流;通过转换算子操作对实时RDD数据流进行预处理;根据与终端设备IP匹配的解析模板对经过预处理的实时RDD数据进行层级解析和泛化,没有匹配上模板的数据将通过模型识别进行数据分类而实现数据泛化;
日志数据存储模块,用于储存日志数据,具体地,各个节点泛化完的数据将在各自节点下进行日志数据持久化。
7.根据权利要求6所述的***,其特征在于,所述的在节点配置日志解析模板是在可视化模板配置界面上进行的。
8.根据权利要求6或7所述的***,其特征在于,模板包含正则表达式匹配与解析、key-value数据格式解析、分隔符解析、数据格式转化、字段名称标准化和数据格式标准化。
9.根据权利要求6所述的***,其特征在于,所述模型识别采用GMM模型识别。
10.根据权利要求6所述的***,其特征在于,消息中间件在缓冲日志时,采用多主题分流策略对日志数据进行负载均衡。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911364877.8A CN111143314A (zh) | 2019-12-26 | 2019-12-26 | 一种基于高速流式处理技术的日志解析方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911364877.8A CN111143314A (zh) | 2019-12-26 | 2019-12-26 | 一种基于高速流式处理技术的日志解析方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111143314A true CN111143314A (zh) | 2020-05-12 |
Family
ID=70520376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911364877.8A Pending CN111143314A (zh) | 2019-12-26 | 2019-12-26 | 一种基于高速流式处理技术的日志解析方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111143314A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699692A (zh) * | 2014-01-11 | 2014-04-02 | 樊建 | 物联网接入平台数据管理方法 |
CN105574109A (zh) * | 2015-12-10 | 2016-05-11 | 青岛海信传媒网络技术有限公司 | 一种数据库同步方法、同步设备及*** |
US20170169078A1 (en) * | 2015-12-14 | 2017-06-15 | Siemens Aktiengesellschaft | Log Mining with Big Data |
CN107577805A (zh) * | 2017-09-26 | 2018-01-12 | 华南理工大学 | 一种面向日志大数据分析的业务服务*** |
CN108038145A (zh) * | 2017-11-23 | 2018-05-15 | 携程旅游网络技术(上海)有限公司 | 分布式服务跟踪方法、***、存储介质和电子设备 |
CN108197233A (zh) * | 2017-12-29 | 2018-06-22 | 飞狐信息技术(天津)有限公司 | 一种数据管理方法、中间件及数据管理*** |
CN109063017A (zh) * | 2018-07-12 | 2018-12-21 | 广州市闲愉凡生信息科技有限公司 | 一种云计算平台的数据持久化分布方法 |
CN109151464A (zh) * | 2018-11-14 | 2019-01-04 | 江苏鸿信***集成有限公司 | 基于大数据流处理的iptv机顶盒故障实时检测方法 |
CN109308289A (zh) * | 2018-09-27 | 2019-02-05 | 厦门服云信息科技有限公司 | 一种日志解析模板及基于该模板的日志解析方法 |
CN109710731A (zh) * | 2018-11-19 | 2019-05-03 | 北京计算机技术及应用研究所 | 一种基于Flink的数据流多向处理*** |
CN109714199A (zh) * | 2018-12-18 | 2019-05-03 | 中科曙光国际信息产业有限公司 | 基于大数据架构的网络流量分析与溯源*** |
CN109714388A (zh) * | 2018-11-16 | 2019-05-03 | 深圳供电局有限公司 | 一种基于流处理的停上电事件实时分析***及方法 |
CN110119421A (zh) * | 2019-04-03 | 2019-08-13 | 昆明理工大学 | 一种基于Spark流式分类的电力窃电用户识别方法 |
-
2019
- 2019-12-26 CN CN201911364877.8A patent/CN111143314A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699692A (zh) * | 2014-01-11 | 2014-04-02 | 樊建 | 物联网接入平台数据管理方法 |
CN105574109A (zh) * | 2015-12-10 | 2016-05-11 | 青岛海信传媒网络技术有限公司 | 一种数据库同步方法、同步设备及*** |
US20170169078A1 (en) * | 2015-12-14 | 2017-06-15 | Siemens Aktiengesellschaft | Log Mining with Big Data |
CN107577805A (zh) * | 2017-09-26 | 2018-01-12 | 华南理工大学 | 一种面向日志大数据分析的业务服务*** |
CN108038145A (zh) * | 2017-11-23 | 2018-05-15 | 携程旅游网络技术(上海)有限公司 | 分布式服务跟踪方法、***、存储介质和电子设备 |
CN108197233A (zh) * | 2017-12-29 | 2018-06-22 | 飞狐信息技术(天津)有限公司 | 一种数据管理方法、中间件及数据管理*** |
CN109063017A (zh) * | 2018-07-12 | 2018-12-21 | 广州市闲愉凡生信息科技有限公司 | 一种云计算平台的数据持久化分布方法 |
CN109308289A (zh) * | 2018-09-27 | 2019-02-05 | 厦门服云信息科技有限公司 | 一种日志解析模板及基于该模板的日志解析方法 |
CN109151464A (zh) * | 2018-11-14 | 2019-01-04 | 江苏鸿信***集成有限公司 | 基于大数据流处理的iptv机顶盒故障实时检测方法 |
CN109714388A (zh) * | 2018-11-16 | 2019-05-03 | 深圳供电局有限公司 | 一种基于流处理的停上电事件实时分析***及方法 |
CN109710731A (zh) * | 2018-11-19 | 2019-05-03 | 北京计算机技术及应用研究所 | 一种基于Flink的数据流多向处理*** |
CN109714199A (zh) * | 2018-12-18 | 2019-05-03 | 中科曙光国际信息产业有限公司 | 基于大数据架构的网络流量分析与溯源*** |
CN110119421A (zh) * | 2019-04-03 | 2019-08-13 | 昆明理工大学 | 一种基于Spark流式分类的电力窃电用户识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109074377B (zh) | 用于实时处理数据流的受管理功能执行 | |
US11551068B2 (en) | Processing system and method for binary weight convolutional neural network | |
CN108681569B (zh) | 一种数据自动分析***及其方法 | |
US20080010497A1 (en) | Selecting a Logging Method via Metadata | |
Plale et al. | dQCOB: managing large data flows using dynamic embedded queries | |
CN103677844B (zh) | 一种基于消息链的轻量级数据处理方法 | |
CN110597900B (zh) | 一种gdb数据实时按需生成矢量切片的方法 | |
CN115244511A (zh) | 分布式计算流水线处理 | |
Zhang et al. | CompressStreamDB: Fine-grained adaptive stream processing without decompression | |
KR20230087484A (ko) | 트리 기반 머신 학습 모델들의 양자화 | |
CN110728118B (zh) | 跨数据平台的数据处理方法、装置、设备及存储介质 | |
CN111143314A (zh) | 一种基于高速流式处理技术的日志解析方法及*** | |
CN112529161A (zh) | 生成对抗网络训练方法、生成对抗网络、人脸图像翻译方法和装置 | |
Sudharsan et al. | Globe2train: A framework for distributed ml model training using iot devices across the globe | |
CN111860557B (zh) | 图像处理方法及装置、电子设备及计算机存储介质 | |
CN110909085A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110036621A (zh) | 跨窄链路压缩频繁数据值 | |
CN114328435A (zh) | 一种基于分布式架构的非结构化文件的流处理方法及*** | |
CN112861512A (zh) | 数据处理方法、装置、设备以及存储介质 | |
CN114125071A (zh) | 数据压缩传输方法及装置 | |
US9160820B2 (en) | Large volume data transfer | |
CN113609126A (zh) | 一种众源时空数据的一体化存储管理方法及*** | |
CN114090417A (zh) | 一种数据处理性能分析方法、装置、***、设备和介质 | |
Huang et al. | Communication Latency Optimization for Mesos-based Cloud Computing Systems | |
CN113672200A (zh) | 微服务处理方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200512 |