CN111782473A - 分布式日志数据处理方法、装置及*** - Google Patents
分布式日志数据处理方法、装置及*** Download PDFInfo
- Publication number
- CN111782473A CN111782473A CN202010611847.9A CN202010611847A CN111782473A CN 111782473 A CN111782473 A CN 111782473A CN 202010611847 A CN202010611847 A CN 202010611847A CN 111782473 A CN111782473 A CN 111782473A
- Authority
- CN
- China
- Prior art keywords
- log data
- log
- data
- distributed
- cleaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/865—Monitoring of software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/875—Monitoring of systems including the internet
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供一种分布式日志数据处理方法、装置及***,方法包括:接收分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心;本申请能够有效提高整个分布式***中日志数据采集和处理的效率。
Description
技术领域
本申请涉及数据处理领域,具体涉及一种分布式日志数据处理方法、装置及***。
背景技术
随着后端服务平台的快速发展,在业务量增大的同时,现有技术中应用服务器产生大量的应用日志,通过将全部应用日志数据上送到统一日志中心管理的方式,增加了服务器性能的余量,保证了应用服务器不会在特殊场景下,因为***资源被日志采集所占用,而导致应用交易异常的问题。
但与此同时,将原始日志数据不进行简单的过滤,全部送往日志中心的做法,会对日志中心造成性能上的瓶颈,并且原始日志数据中并不是所有内容都需要上送至日志中心进行分析处理和查询,由此也降低了日志中心的处理效率。
发明内容
针对现有技术中的问题,本申请提供一种分布式日志数据处理方法、装置及***,能够有效提高整个分布式***中日志数据采集和处理的效率。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种分布式日志数据处理方法,包括:
接收分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;
根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
进一步地,所述对所述日志数据进行数据清洗,包括:
确定所述日志数据中的组件特征信息,其中,所述组件特征信息是所述各应用节点发送所述日志数据时使用的日志采集器生成的;
从所述日志数据中去除所述组件特征信息,得到去除所述组件特征信息后的日志数据。
进一步地,所述对所述日志数据进行数据清洗,包括:
判断所述日志数据中是否包含有与预设噪声字段匹配的噪声数据;
若包含,则从所述日志数据中去除所述噪声数据,得到去除所述噪声数据后的日志数据。
进一步地,在所述对所述日志数据进行数据清洗之前,还包括:
根据所述日志数据中的业务标识,对具有相同所述业务标识的多个所述日志数据进行日志合并处理,得到经过日志合并处理后的日志数据。
第二方面,本申请提供一种分布式日志数据处理装置,包括:
日志数据通道建立模块,用于接收分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;
日志数据前置清洗模块,用于根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
进一步地,所述日志数据前置清洗模块包括:
组件特征信息确定单元,用于确定所述日志数据中的组件特征信息,其中,所述组件特征信息是所述各应用节点发送所述日志数据时使用的日志采集器生成的;
组件特征信息清洗单元,用于从所述日志数据中去除所述组件特征信息,得到去除所述组件特征信息后的日志数据。
进一步地,所述日志数据前置清洗模块包括:
噪声字段匹配单元,用于判断所述日志数据中是否包含有与预设噪声字段匹配的噪声数据;
噪声数据清洗单元,用于若判断所述日志数据中包含有与预设噪声字段匹配的噪声数据,则从所述日志数据中去除所述噪声数据,得到去除所述噪声数据后的日志数据。
进一步地,还包括:
日志数据合并单元,用于根据所述日志数据中的业务标识,对具有相同所述业务标识的多个所述日志数据进行日志合并处理,得到经过日志合并处理后的日志数据。
第三方面,本申请提供一种分布式日志数据处理***,包括分布式***中的各应用节点、日志前置处理节点以及日志管理中心;
所述日志前置处理节点包括:
日志数据通道建立模块,用于接收所述分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;
日志数据前置清洗模块,用于根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至所述日志管理中心。
第四方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的分布式日志数据处理方法的步骤。
第五方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的分布式日志数据处理方法的步骤。
由上述技术方案可知,本申请提供一种分布式日志数据处理方法、装置及***,通过在分布式***中的前部应用节点和后部日志管理中心(如ElasticSearch、Kafka等)之间新增一个日志处理节点,将之前大数据量的日志处理压力,转移到日志处理节点上,并通过具有属性标识的临时数据库准确缓存来自不同节点的大数据量的日志数据,并有序获取该日志数据以进行前置性的数据清洗工作,将经过数据清洗后的日志数据传递至后部的日志管理中心,进而提高了整个日志数据采集和处理的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的分布式日志数据处理方法的流程示意图之一;
图2为本申请实施例中的分布式日志数据处理方法的流程示意图之二;
图3为本申请实施例中的分布式日志数据处理方法的流程示意图之三;
图4为本申请实施例中的分布式日志数据处理装置的结构图之一;
图5为本申请实施例中的分布式日志数据处理装置的结构图之二;
图6为本申请实施例中的分布式日志数据处理装置的结构图之三;
图7为本申请实施例中的分布式日志数据处理***的结构图;
图8为本申请一具体实施例中的日志数据接入日志管理中心的流程示意图;
图9为本申请一具体实施例中的对接AMC告警平台的流程示意图;
图10为本申请一具体实施例中的分布式日志数据处理方法的流程示意图;
图11为本申请一具体实施例中的日志处理节点架构部署图;
图12为本申请一具体实施例中的日志处理节点高可用部署示意图;
图13为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中将原始日志数据不进行简单的过滤,全部送往日志中心的做法,会对日志中心造成性能上的瓶颈,并且原始日志数据中并不是所有内容都需要上送至日志中心进行分析处理和查询,由此也降低了日志中心的处理效率的问题,本申请提供一种分布式日志数据处理方法、装置及***,通过在分布式***中的前部应用节点和后部日志管理中心(如ElasticSearch、Kafka等)之间新增一个日志处理节点,将之前大数据量的日志处理压力,转移到日志处理节点上,并通过具有属性标识的临时数据库准确缓存来自不同节点的大数据量的日志数据,并有序获取该日志数据以进行前置性的数据清洗工作,将经过数据清洗后的日志数据传递至后部的日志管理中心,进而提高了整个日志数据采集和处理的效率。
为了能够有效提高整个分布式***中日志数据采集和处理的效率,本申请提供一种分布式日志数据处理方法的实施例,参见图1,所述分布式日志数据处理方法具体包含有如下内容:
步骤S101:接收分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中。
可选地,分布式***中各应用节点发送的日志数据可以保存至一分布式发布订阅消息***,即kafka组件,该kafka组件预先配置有不同的topic属性(即所述属性标识),用于将日志数据存储于不同的临时数据库中,以供后续节点进行数据获取。
可以理解的是,通过预设属性标识将日志数据保存至对应的不同临时数据库中,能够将来自不同应用节点的日志数据进行统一暂存,保障后续对日志数据进行处理(例如数据清洗)时不会产生日志数据获取异常的问题。
步骤S102:根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
可选地,可以通过设置一日志前置处理节点,通过订阅上述kafka组件中的日志数据,进而准确得从该kafka组件中获取对应的日志数据,以进行初步的数据清洗操作,并将经过所述数据清洗后的日志数据发送至预设日志管理中心,以减轻后续日志管理中心的运算压力,也能提高日志管理中心对日志数据进行业务处理时的准确度。
从上述描述可知,本申请实施例提供的分布式日志数据处理方法,能够通过在分布式***中的前部应用节点和后部日志管理中心(如ElasticSearch、Kafka等)之间新增一个日志处理节点,将之前大数据量的日志处理压力,转移到日志处理节点上,并通过具有属性标识的临时数据库准确缓存来自不同节点的大数据量的日志数据,并有序获取该日志数据以进行前置性的数据清洗工作,将经过数据清洗后的日志数据传递至后部的日志管理中心,进而提高了整个日志数据采集和处理的效率。
为了能够在将日志数据传递到日志管理中心前对日志数据进行初步的数据清洗,以减轻日志管理中心的运算压力,在本申请的分布式日志数据处理方法的一实施例中,参见图2,上述步骤S102还可以具体包含如下内容:
步骤S201:确定所述日志数据中的组件特征信息,其中,所述组件特征信息是所述各应用节点发送所述日志数据时使用的日志采集器生成的。
步骤S202:从所述日志数据中去除所述组件特征信息,得到去除所述组件特征信息后的日志数据。
可选地,应用节点上可以通过部署日志采集器(例如Filebeat组件),以实现日志数据的采集和传输功能,可以理解的是,不同的日志采集器通常会根据自身特征在原始的日志数据中新增组件特征信息,例如时间戳、日志名等,而该组件特征信息对于后续的根据日志数据进行业务处理并无作用,因此可以在日志前置节点处去除上述组件特征信息,以对日志数据进行有效清洗,提高后续运算的准确性,并减轻日志管理中心的运算压力。
为了能够在将日志数据传递到日志管理中心前对日志数据进行初步的数据清洗,以减轻日志管理中心的运算压力,在本申请的分布式日志数据处理方法的一实施例中,参见图3,上述步骤S102还可以具体包含如下内容:
步骤S301:判断所述日志数据中是否包含有与预设噪声字段匹配的噪声数据。
步骤S302:若包含,则从所述日志数据中去除所述噪声数据,得到去除所述噪声数据后的日志数据。
可选地,应用节点的日志采集器采集到的日志数据中包含有多种字段信息,本申请可以通过预先设置一噪声字段,以对该日志数据中包含的所有字段信息进行匹配,若匹配成功,则表明该日志数据中包含有后续不需要的字段信息,即噪声数据,因此可以在日志前置节点处去除上述噪声数据,以对日志数据进行有效清洗,提高后续运算的准确性,并减轻日志管理中心的运算压力。
为了能够在执行数据清洗前将同一业务的不同日志数据进行准确合并,以提高数据清洗效率,并减轻日志管理中心的运算压力,在本申请的分布式日志数据处理方法的一实施例中,在所述对所述日志数据进行数据清洗之前,还包括:
根据所述日志数据中的业务标识,对具有相同所述业务标识的多个所述日志数据进行日志合并处理,得到经过日志合并处理后的日志数据。
可选地,在对日志数据进行初步的数据清洗前,还可以根据日志数据中的业务标识进行多个相关日志数据的合并,即具有相同所述业务标识(也即从属于同一业务)的多个日志数据可以根据预先设定好的数据格式进行日志数据的合并操作,以此减小日志数据的体量,提高后续运算的效率。
为了能够有效提高整个分布式***中日志数据采集和处理的效率,本申请提供一种用于实现所述分布式日志数据处理方法的全部或部分内容的分布式日志数据处理装置的实施例,参见图4,所述分布式日志数据处理装置具体包含有如下内容:
日志数据通道建立模块10,用于接收分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中。
日志数据前置清洗模块20,用于根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
从上述描述可知,本申请实施例提供的分布式日志数据处理装置,能够通过在分布式***中的前部应用节点和后部日志管理中心(如ElasticSearch、Kafka等)之间新增一个日志处理节点,将之前大数据量的日志处理压力,转移到日志处理节点上,并通过具有属性标识的临时数据库准确缓存来自不同节点的大数据量的日志数据,并有序获取该日志数据以进行前置性的数据清洗工作,将经过数据清洗后的日志数据传递至后部的日志管理中心,进而提高了整个日志数据采集和处理的效率。
为了能够在将日志数据传递到日志管理中心前对日志数据进行初步的数据清洗,以减轻日志管理中心的运算压力,在本申请的分布式日志数据处理装置的一实施例中,参见图5,所述日志数据前置清洗模块20包括:
组件特征信息确定单元21,用于确定所述日志数据中的组件特征信息,其中,所述组件特征信息是所述各应用节点发送所述日志数据时使用的日志采集器生成的。
组件特征信息清洗单元22,用于从所述日志数据中去除所述组件特征信息,得到去除所述组件特征信息后的日志数据。
为了能够在将日志数据传递到日志管理中心前对日志数据进行初步的数据清洗,以减轻日志管理中心的运算压力,在本申请的分布式日志数据处理装置的一实施例中,参见图6,所述日志数据前置清洗模块20包括:
噪声字段匹配单元23,用于判断所述日志数据中是否包含有与预设噪声字段匹配的噪声数据。
噪声数据清洗单元24,用于若判断所述日志数据中包含有与预设噪声字段匹配的噪声数据,则从所述日志数据中去除所述噪声数据,得到去除所述噪声数据后的日志数据。
为了能够在执行数据清洗前将同一业务的不同日志数据进行准确合并,以提高数据清洗效率,并减轻日志管理中心的运算压力,在本申请的分布式日志数据处理装置的一实施例中,还包括:
日志数据合并单元,用于根据所述日志数据中的业务标识,对具有相同所述业务标识的多个所述日志数据进行日志合并处理,得到经过日志合并处理后的日志数据。
为了更进一步说明本方案,本申请还提供一种应用上述分布式日志数据处理装置实现分布式日志数据处理方法的分布式日志数据处理***的具体应用实例,参见图7,具体包含有分布式***中的各应用节点、日志前置处理节点以及日志管理中心;
所述日志前置处理节点包括:
日志数据通道建立模块,用于接收所述分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;
日志数据前置清洗模块,用于根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至所述日志管理中心。
参见图8,为现有技术中API平台接入日志管理中心的方式。
具体地,通过在应用节点部署Filebeat组件,利用组件自身高性能且低功耗的优势,将日志完整地发往行内日志中心。其中,日志并不会在应用节点做任何的处理,原封不动的将日志所有内容发往日志中心。这其实会对日志中心造成极大的压力。
参见图9,为现有技术中对接AMC应用进行统计日志报警的方式。
通过图8和图9,我们能够看到,之前平台将分别将日志发往日志中心和Kafka,来实现日志后续的处理流程。而本方案提出,将在应用节点之后,新增一个日志处理节点,用于对日志进行初步的加工过滤,而后,将日志转发到后续需要对接的Kafka或ElasticSearch。本方案实现后,流程如图10所示。
我们能够看到,应用节点上部署的Filebeat组件,会先将节点完整日志发往Kafka进行缓冲,而日志处理节点,将订阅所有节点的日志文件,通过对日志文件中的类型进行判断,将日志进行简单的过滤后,分拣到后方日志中心ES和告警Kafka集群。
日志处理节点将采用实时流计算平台Flink进行开发。Flink有以下几点优势:
1、Flink能够提供准确的结果,甚至在出现无序或者延迟加载数据的情况下。
2、Flink是状态化的容错的,同时在维护一次完整的而应用状态时,能无缝修复错误。
3、本身是个分布式的计算框架,支持大规模运行并横向扩展,在多节点上运行时能够有很好的吞吐量和低延迟。
通过Flink框架,我们还能够将日志进行初步的过滤。由于Filebeat组件在进行日志传输时,会带上许多附加的内容,而对于目前采集的场景来说,增加的内容对于后续的数据分析并没有帮助。所以我们考虑在日志处理节点上,对日志的内容进行简单的清洗,通过简单的清洗,能够精炼日志的核心内容,并减小后方接受大量日志的压力。
通过日志处理节点进行日志的初步清洗,能够将日志量缩小到处理前的约60%,完美地实现了在日志处理链路中,减少前部应用节点压力的同时,释放后部接收日志节点的压力。
下面对日志处理节点的结构部署进行说明。日志处理节点基于Flink架构进行搭建,采用了Flink-Standalone-Cluster-HA模式进行部署。通过接入Zookeeper集群,来保证集群的高可用,同时,通过入云容器化的方式,保证了节点在高压力情况下的自动伸缩与横向扩展。参考图11和图12。
最后,对Flink-Standalone-HA高可用进行说明。
当Flink集群启动后,首先会启动一个JobManger和一个或多个的TaskManager。由Client提交任务给JobManager,JobManager再调度任务到各个TaskManager去执行,然后TaskManager将心跳和统计信息汇报给JobManager。Standalone-HA是指,在多台服务器上启动多个JobManager,通过Flink配置的zk,在所有运行的JobManager实例之间进行分布式协调。通过leader选举和轻量级一致性的状态存储来提供高可用的分布式协调服务。
由上述内容可知,本申请至少还可以实现如下技术效果:
通过在前部应用节点和后部日志数据终点(如ElasticSearch、Kafka等)中间增加一个日志处理节点,将之前大数据量的日志处理压力,转移到日志处理节点上。而日志处理节点基于Flink实时流计算平台搭建,结合本身特性,在保证高可用的情况下,支持横向扩展。完全满足分布式领域中,应对数据量爆增而通过增加横向节点数的方式来解决的处理方法。根据测试情况初步估计,采用了本发明之后,前部日志处理节点服务器资源消耗下降30%,后部日志数据终点接收数据大小精炼40%,对于整条日志数据采集流程来说,更为合理、高效。
从硬件层面来说,为了能够有效提高整个分布式***中日志数据采集和处理的效率,本申请提供一种用于实现所述分布式日志数据处理方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现分布式日志数据处理装置与核心业务***、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的分布式日志数据处理方法的实施例,以及分布式日志数据处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,分布式日志数据处理方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图13为本申请实施例的电子设备9600的***构成的示意框图。如图13所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图13是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,分布式日志数据处理方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:接收分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中。
步骤S102:根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
从上述描述可知,本申请实施例提供的电子设备,通过在分布式***中的前部应用节点和后部日志管理中心(如ElasticSearch、Kafka等)之间新增一个日志处理节点,将之前大数据量的日志处理压力,转移到日志处理节点上,并通过具有属性标识的临时数据库准确缓存来自不同节点的大数据量的日志数据,并有序获取该日志数据以进行前置性的数据清洗工作,将经过数据清洗后的日志数据传递至后部的日志管理中心,进而提高了整个日志数据采集和处理的效率。
在另一个实施方式中,分布式日志数据处理装置可以与中央处理器9100分开配置,例如可以将分布式日志数据处理装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现分布式日志数据处理方法功能。
如图13所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图13中所示的所有部件;此外,电子设备9600还可以包括图13中没有示出的部件,可以参考现有技术。
如图13所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的分布式日志数据处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的分布式日志数据处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:接收分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中。
步骤S102:根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过在分布式***中的前部应用节点和后部日志管理中心(如ElasticSearch、Kafka等)之间新增一个日志处理节点,将之前大数据量的日志处理压力,转移到日志处理节点上,并通过具有属性标识的临时数据库准确缓存来自不同节点的大数据量的日志数据,并有序获取该日志数据以进行前置性的数据清洗工作,将经过数据清洗后的日志数据传递至后部的日志管理中心,进而提高了整个日志数据采集和处理的效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (11)
1.一种分布式日志数据处理方法,其特征在于,所述方法包括:
接收分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;
根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
2.根据权利要求1所述的分布式日志数据处理方法,其特征在于,所述对所述日志数据进行数据清洗,包括:
确定所述日志数据中的组件特征信息,其中,所述组件特征信息是所述各应用节点发送所述日志数据时使用的日志采集器生成的;
从所述日志数据中去除所述组件特征信息,得到去除所述组件特征信息后的日志数据。
3.根据权利要求1所述的分布式日志数据处理方法,其特征在于,所述对所述日志数据进行数据清洗,包括:
判断所述日志数据中是否包含有与预设噪声字段匹配的噪声数据;
若包含,则从所述日志数据中去除所述噪声数据,得到去除所述噪声数据后的日志数据。
4.根据权利要求1所述的分布式日志数据处理方法,其特征在于,在所述对所述日志数据进行数据清洗之前,还包括:
根据所述日志数据中的业务标识,对具有相同所述业务标识的多个所述日志数据进行日志合并处理,得到经过日志合并处理后的日志数据。
5.一种分布式日志数据处理装置,其特征在于,包括:
日志数据通道建立模块,用于接收分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;
日志数据前置清洗模块,用于根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
6.根据权利要求5所述的分布式日志数据处理装置,其特征在于,所述日志数据前置清洗模块包括:
组件特征信息确定单元,用于确定所述日志数据中的组件特征信息,其中,所述组件特征信息是所述各应用节点发送所述日志数据时使用的日志采集器生成的;
组件特征信息清洗单元,用于从所述日志数据中去除所述组件特征信息,得到去除所述组件特征信息后的日志数据。
7.根据权利要求5所述的分布式日志数据处理装置,其特征在于,所述日志数据前置清洗模块包括:
噪声字段匹配单元,用于判断所述日志数据中是否包含有与预设噪声字段匹配的噪声数据;
噪声数据清洗单元,用于若判断所述日志数据中包含有与预设噪声字段匹配的噪声数据,则从所述日志数据中去除所述噪声数据,得到去除所述噪声数据后的日志数据。
8.根据权利要求5所述的分布式日志数据处理装置,其特征在于,还包括:
日志数据合并单元,用于根据所述日志数据中的业务标识,对具有相同所述业务标识的多个所述日志数据进行日志合并处理,得到经过日志合并处理后的日志数据。
9.一种分布式日志数据处理***,其特征在于,包括分布式***中的各应用节点、日志前置处理节点以及日志管理中心;
所述日志前置处理节点包括:
日志数据通道建立模块,用于接收所述分布式***中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;
日志数据前置清洗模块,用于根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至所述日志管理中心。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的分布式日志数据处理方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的分布式日志数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010611847.9A CN111782473A (zh) | 2020-06-30 | 2020-06-30 | 分布式日志数据处理方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010611847.9A CN111782473A (zh) | 2020-06-30 | 2020-06-30 | 分布式日志数据处理方法、装置及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111782473A true CN111782473A (zh) | 2020-10-16 |
Family
ID=72760415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010611847.9A Pending CN111782473A (zh) | 2020-06-30 | 2020-06-30 | 分布式日志数据处理方法、装置及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782473A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506954A (zh) * | 2020-12-25 | 2021-03-16 | 新浪网技术(中国)有限公司 | 数据库审计方法和装置 |
CN112948845A (zh) * | 2021-02-01 | 2021-06-11 | 航天科技控股集团股份有限公司 | 一种基于物联网数据中台的数据处理方法及*** |
CN113254308A (zh) * | 2021-05-19 | 2021-08-13 | 中国联合网络通信集团有限公司 | 日志处理方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105262812A (zh) * | 2015-10-16 | 2016-01-20 | 浪潮(北京)电子信息产业有限公司 | 一种基于云计算平台的日志数据处理方法、装置及*** |
TW201828175A (zh) * | 2017-01-19 | 2018-08-01 | 阿里巴巴集團服務有限公司 | 日誌資料處理方法及裝置 |
CN110209518A (zh) * | 2019-04-26 | 2019-09-06 | 福州慧校通教育信息技术有限公司 | 一种多数据源日志数据集中收集存储方法及装置 |
-
2020
- 2020-06-30 CN CN202010611847.9A patent/CN111782473A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105262812A (zh) * | 2015-10-16 | 2016-01-20 | 浪潮(北京)电子信息产业有限公司 | 一种基于云计算平台的日志数据处理方法、装置及*** |
TW201828175A (zh) * | 2017-01-19 | 2018-08-01 | 阿里巴巴集團服務有限公司 | 日誌資料處理方法及裝置 |
CN110209518A (zh) * | 2019-04-26 | 2019-09-06 | 福州慧校通教育信息技术有限公司 | 一种多数据源日志数据集中收集存储方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506954A (zh) * | 2020-12-25 | 2021-03-16 | 新浪网技术(中国)有限公司 | 数据库审计方法和装置 |
CN112948845A (zh) * | 2021-02-01 | 2021-06-11 | 航天科技控股集团股份有限公司 | 一种基于物联网数据中台的数据处理方法及*** |
CN113254308A (zh) * | 2021-05-19 | 2021-08-13 | 中国联合网络通信集团有限公司 | 日志处理方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111782473A (zh) | 分布式日志数据处理方法、装置及*** | |
CN111090699A (zh) | 业务数据的同步方法和装置、存储介质、电子装置 | |
CN111782470A (zh) | 分布式容器日志数据处理方法及装置 | |
CN110764881A (zh) | 分布式***后台重试方法及装置 | |
CN106815254A (zh) | 一种数据处理方法和装置 | |
CN103139157A (zh) | 一种基于socket的网络通信方法、装置及*** | |
CN112769945B (zh) | 分布式服务调用方法及装置 | |
CN113435989A (zh) | 金融数据处理方法及装置 | |
CN112181678A (zh) | 业务数据的处理方法、装置和***、存储介质、电子装置 | |
CN111259066A (zh) | 服务器集群数据同步方法及装置 | |
CN114237896A (zh) | 分布式节点资源动态调度方法及装置 | |
CN114741400A (zh) | 一种数据同步及解析方法、装置及终端设备 | |
CN112910708B (zh) | 分布式服务调用方法及装置 | |
CN107249019A (zh) | 基于业务的数据处理***、方法、装置和服务器 | |
CN116456496B (zh) | 资源调度的方法、存储介质及电子设备 | |
CN112396511A (zh) | 分布式风控变量数据处理方法、装置及*** | |
CN115914375A (zh) | 分布式消息平台容灾处理方法及装置 | |
CN104079368B (zh) | 一种应用软件的测试数据传输方法及服务器 | |
CN115562898A (zh) | 分布式支付***异常处理方法及装置 | |
CN114661563A (zh) | 基于流处理框架的数据处理方法以及*** | |
CN114374614A (zh) | 网络拓扑配置方法及装置 | |
CN111061518B (zh) | 基于驱动节点的数据处理方法、***、终端设备和存储介质 | |
CN113918436A (zh) | 日志处理方法及装置 | |
CN108805741B (zh) | 一种电能质量数据的融合方法、装置及*** | |
CN113342501B (zh) | ***故障处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |