CN113179302A

CN113179302A - 日志***以及日志数据的收集方法和收集装置

Info

Publication number: CN113179302A
Application number: CN202110433481.5A
Authority: CN
Inventors: 熊银梅
Original assignee: Hangzhou Hikvision System Technology Co Ltd
Current assignee: Hangzhou Hikvision System Technology Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-27
Anticipated expiration: 2041-04-19
Also published as: CN113179302B

Abstract

本申请公开了日志***以及日志数据的收集方法和收集装置。基于本申请，从各日志源监听到的日志数据都可以被即时推送至指定的数据管道，而无需请求应答的交互过程；并且，被推送至各数据管道的日志数据无需额外的中转暂存和整理，即可直接通过各数据管道入仓至具有匹配日志类型的日志主题，由此，可以实现基于多管道的并发日志数据即时收集和无中转入仓，从而，有助于提升日志数据的入库时效性。而且，基于多管道的并发日志数据可以被彼此独立地执行与日志类型相适配的过滤转化，因而有助于简化用于日志数据过滤转化的逻辑设计。

Description

日志***以及日志数据的收集方法和收集装置

技术领域

本申请涉及大数据分析领域，尤其涉及一种日志***、一种日志数据的收集方法、一种日志数据的入库装置、一种非瞬时计算机可读存储介质、一种用于收集日志数据的服务器和一种服务器***。

背景技术

日志数据常用于大数据分析，通过对日志数据的大数据分析，可以挖掘出各类关注事件。

其中，对于日志数据的获取可以采用请求应答的方式，即，向日志源发送日志采集请求，待日志源通过查找日志目录获取到请求的日志数据后方可返回日志数据；并且，返回的日志数据需要经过额外的中转暂存和整理后，方可按照相应的日志主题入库。

由此可见，日志数据的获取存在请求应答的交互过程、并且需要额外的中转环节，由此导致日志数据的入库实效性不高。

发明内容

本申请的各实施例提供了一种日志***以及日志数据的收集方法和收集装置，有助于提高日志数据的入库时效性。

在一个实施例中，一种日志***，包括：

采集节点，用于将从至少两个日志源监听到的日志数据，分别向收集节点维护的数据管道推送，其中，从任意一个日志源监听到的日志数据被推送的数据管道，是在收集节点维护的至少两条数据管道中为该日志源指定的数据管道；

收集节点，用于将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，其中，为任意一个日志源指定的数据管道所指向的日志主题，与该日志源产生的日志数据的日志类型相匹配。

可选地，采集节点包括至少两个采集器，每个采集器监听为其指定的一个日志源产生的日志数据；收集节点进一步利用分别为每个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，并且，供各采集器推送日志数据的数据管道之间彼此隔离。

可选地，收集节点进一步利用对单管道配置文件的分组识别，对从采集器推送入数据管道的日志数据的入仓操作实施分组的调度控制；和/或，

收集节点进一步监听各条数据管道的管道状态，其中，若任意一条数据管道向其指向的日志主题的入仓存在困阻，则，对该数据管道执行单管道输出关闭；和/或，

采集节点进一步用于在推送的日志数据中携带主题标签，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题；收集节点进一步用于对被推入至各条数据管道的日志数据，执行与日志数据所属的日志类型相适配的过滤转化，其中，日志数据所属的日志类型，是利用该日志数据携带的主题标签所表示的日志主题确定的。

在另一个实施例中，一种日志数据的收集方法包括：

获取推送至各条数据管道的日志数据，其中，日志数据是从日志源监听得到的，并且，从任意一个日志源监听到的日志数据被推送的数据管道，是在至少两条数据管道中为该日志源指定的数据管道；

将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，其中，为任意一个日志源指定的数据管道所指向的日志主题，与该日志源产生的日志数据的日志类型相匹配。

可选地，获取推送至各条数据管道的日志数据之前，进一步包括：利用分别为至少两个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，其中，每个采集器监听为其指定的一个日志源产生的日志数据，并且，供各采集器推送日志数据的数据管道之间彼此隔离。

可选地，将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，包括：利用对单管道配置文件的分组识别，对从采集器推送入数据管道的日志数据的入仓操作实施分组的调度控制；和/或，

创建供各采集器推送日志数据的数据管道之后，进一步包括：监听各条数据管道的管道状态，其中，若任意一条数据管道向其指向的日志主题的入仓存在困阻，则，对该数据管道执行单管道输出关；和/或，

将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓之前，进一步包括：识别日志数据携带的主题标签，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题；对被推入至各条数据管道的日志数据，执行与日志数据所属的日志类型相适配的过滤转化，其中，日志数据所属的日志类型，是利用该日志数据携带的主题标签所表示的日志主题确定的。

在另一个实施例中，提供了一种日志数据的收集装置，该收集装置包括：

输入插件模块，用于获取推送至各条数据管道的日志数据，其中，日志数据是从日志源监听得到的，并且，从任意一个日志源监听到的日志数据被推送的数据管道，是在至少两条数据管道中为该日志源指定的数据管道；

输出插件模块，用于将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，其中，为任意一个日志源指定的数据管道所指向的日志主题，与该日志源产生的日志数据的日志类型相匹配。

可选地，该收集装置可以进一步包括管道配置模块，用于利用分别为至少两个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，其中，每个采集器监听为其指定的一个日志源产生的日志数据，并且，供各采集器推送日志数据的数据管道之间彼此隔离。

可选地，管道配置模块进一步利用对单管道配置文件的分组识别，对从采集器推送入数据管道的日志数据的入仓操作实施分组的资源调度控制。

可选地，该收集装置进一步包括管道监听模块，用于监听各条数据管道的管道状态，其中，若任意一条数据管道向其指向的日志主题的入仓存在困阻，则，触发输出插件模块对该数据管道执行单管道输出关闭。

可选地，该收集装置可以进一步包括布置在输入插件模块和输出插件模块之间的过滤插件模块，用于识别日志数据携带的主题标签，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题；并且，对被推入至各条数据管道的日志数据，执行与日志数据所属的日志类型相适配的过滤转化，其中，日志数据所属的日志类型，是利用该日志数据携带的主题标签所表示的日志主题确定的。

在本申请的另一个实施例中，提供了一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时引发所述处理器执行前述实施例中的日志数据的收集方法。

在另一个实施例中，提供了一种用于收集日志数据的服务器，包括处理器，其中，该处理器用于执行前述实施例中的日志数据的收集方法。

在另一个实施例中，提供了一种服务器***，包括：

用于收集日志数据的第一服务器集群，用于执行如前述实施例所述的日志数据的收集方法；

布置有至少两个日志源的第二服务器集群，用于将从至少两个日志源监听到的日志数据，分别向第一服务器集群维护的至少两条数据管道推送，其中，从任意一个日志源监听到的日志数据被推送的数据管道，是在第一服务器集群维护的至少两条数据管道中为该日志源指定的数据管道。

可选地，进一步包括运行搜索和数据分析引擎的第三服务器集群，其中，第一服务器集群维护的至少两条数据管道中的一部分，指向供搜索和数据分析引擎访问的日志主题。

基于上述实施例，从各日志源监听到的日志数据都可以被即时推送至指定的数据管道，而无需请求应答的交互过程；并且，被推送至各数据管道的日志数据无需额外的中转暂存和整理，即可直接通过各数据管道入仓至具有匹配日志类型的日志主题，由此，可以实现基于多管道的并发日志数据即时收集和无中转入仓，从而，有助于提升日志数据的入库时效性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请的一个实施例中的日志***的示例性结构示意图；

图2为如图1所示实施例中的日志***的具体结构示意图；

图3为如图1所示实施例中的日志收集***的数据管道的实例示意图；

图4为如图1所示实施例中的日志***的数据流传递原理示意图；

图5为本申请的另一个实施例中的服务器***的示例性结构示意图；

图6为本申请的另一个实施例中的一种日志数据的收集方案的流程示意图；

图7为如图6所示收集方法的扩展流程示意图；

图8为如图6所示收集方法的并行流程示意图；

图9为本申请的另一个实施例中的一种日志数据的收集装置的示意图；

图10为本申请的另一个实施例所提供的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

基于现有技术中的问题，本申请实施例可以为在日志源设置对应的采集节点，以通过采集节点将监听到的日志源产生的日志数据向收集节点进行实时推送，相应地，本申请实施例可以通过在收集节点中维护的数据管道为对应的日志数据实现在数据库的正确日志主题内的即时入库。其中，收集节点中的数据管道指向的日志主题与推送入该数据管道的日志数据的日志类型相匹配。通过前述***布置以提升日志数据入库的时效性。

图1为本申请的一个实施例中的日志***的示例性结构示意图。如图1所示，本申请实施例中的日志***一般可以包含采集节点11和收集节点12。

采集节点11可以监听至少两个日志源产生的日志数据，例如，采集节点11监听的至少两个日志源中，任意两个日志源所产生的日志数据的日志类型可以相同、或者也可以不同。通过在采集节点11配置日志源的路径，可以使位于指定路径的日志源产生的日志数据被采集节点11即时采集。

例如，如图1所示，采集节点11包括至少两个采集器(采集器1和采集器2，…)，通过在采集节点11配置日志源的路径，可以使每个采集器(采集器1和采集器2，…中的一个)监听为其指定的的一个日志源(如Log-Path1、Log-Path2、…中的一个)产生的日志数据。同一个日志源产生的所有日志数据的日志类型可以是相同的。

每种日志类型的日志数据需要被送入至匹配的日志主题(Topic1、Topic2、…TopicN中的一个)，其中，日志主题可以表现为在数据库中部署的数仓，并且，所有的数仓可以均部署在同一个数据库中，或者也可以分别部署在不同的数据库中。将不同日志类型的日志数据送入匹配的日志主题的数仓中的过程，为日志数据向对应的日志主题入仓的过程。例如，一部分数仓可以部署在供搜索和数据分析引擎访问的数据库中，该搜索和数据分析引擎可以是基于数据仓库技术(Extract-Transform-Load，ETL)访问数据库的弹性搜索(ES，elasticsearch)引擎，另一部分数仓则可以部署在以HTTP端点为访问入口的数据库中。对存储在各个日志主题下的日志数据进行查询分析。

也就是，本申请的实施例中更关注于日志主题与从日志源监听到的日志数据所属的日志类型之间的匹配关系，而并不限制日志主题基于数据库部署的数仓分布方式。并且，在该实施例中，由采集节点11监听到的日志数据，可以通过收集节点12维护的数据管道而直接入仓至与其日志类型相匹配的日志主题。

相应地，采集节点11在从任意一个日志源监听到其产生的日志数据时，都可以将从该日志源监听到的日志数据向收集节点12中相应的数据管道推送。即，采集节点11可以将从至少两个日志源监听到的日志数据，分别向收集节点12维护的数据管道推送，其中，从任意一个日志源监听到的日志数据被推送的数据管道，是在收集节点12维护的至少两条数据管道中为该日志源指定的数据管道。

收集节点12可以获取到从采集节点11推送而来的日志数据，并且，对于被推送至每条数据管道的日志数据，收集节点12都可以将被推入至该数据管道的日志数据向该数据管道指向的日志主题(与被推入至该数据管道的日志数据的日志类型相匹配)入仓。即，收集节点12可以将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，其中，为任意一个日志源指定的数据管道所指向的日志主题，与该日志源产生的日志数据的日志类型相匹配。并且，收集节点12维护的至少两条数据管道所指向的日志主题可以全部不同，或者也可以部分相同、部分不同。即，从所有日志源监听到的日志数据所分别推入的数据管道可以指向互不相同的日志主题，或者，也可以允许从一部分日志源监听到的日志数据所推入的数据管道指向相同的日志主题。

例如，如图1所示，收集节点12可以进一步利用分别为每个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道(pipeline1、pipeline2、…、pipelineN)，并且，供各采集器推送日志数据的数据管道(pipeline1、pipeline2、…、pipelineN)之间彼此隔离。也就是，一个单管道配置文件pipeline.conf可以对应一个采集器的配置。

在为监听每个日志源的采集器独立配置的单管道配置文件pipeline.conf(pipeline.conf1、pipeline.conf2、…中的一个)中，pipeline输入可以被设定为监听该日志源的采集器。对pipeline输入的设定可以通过采集节点11与收集节点12之间以客户机/服务器方式的交互过程来实现，使pipeline输入通过采集节点11以客户机/服务器方式发起的注册请求而被设定为监听该日志源的采集器。由此，可以认为创建了以监听该日志源的采集器为源端的上游管道，用于采集节点11通过调用监听该日志源的采集器，向利用其单管道配置文件pipeline.conf创建的数据管道推送日志数据。

在为监听每个日志源的采集器独立配置的单管道配置文件pipeline.conf(pipeline.conf1、pipeline.conf2、…中的一个)中，pipeline输出可以被设定为与该日志源产生的日志数据的日志类型相匹配的日志主题(Topic1、Topic2、…TopicN中的一个)。对pipeline输出的设定，可以通过为pipeline输出设定日志主题的虚拟地址来实现。由此，可以认为创建了以匹配该日志源产生的日志数据的日志类型的日志主题为目的端的下游管道，用于收集节点12将被推送至利用该单管道配置文件pipeline.conf创建的数据管道的日志数据，向与该日志源产生的日志数据的日志类型相匹配的日志主题入仓。

从而，在同一个单管道配置文件pipeline.conf对pipeline输入和pipeline输出的设定，可以使源自于任意一个日志源的上游管道与连接对应的日志主题的下游管道相互连接，从而，可以形成允许日志数据从该日志源到对应的日志主题的流式传送通道。

例如，当采集节点11中的采集器将从指定的日志源监听到的日志数据推送出之后，收集节点12通过识别推送日志数据的采集器，可以确定该日志数据所推入的数据管道的单管道配置文件pipeline.conf的pipeline输入，从而，可以使日志数据从其推入的数据管道的单管道配置文件pipeline.conf的pipeline输出，向与该日志数据的日志类型相匹配的日志主体所在的虚拟地址入仓。

基于上述实施例中的日志***，从各日志源监听到的日志数据都可以被即时推送至指定的数据管道，而无需请求应答的交互过程；并且，被推送至各数据管道的日志数据无需额外的中转暂存和整理，即可直接通过各数据管道入仓至具有匹配日志类型的日志主题，由此，可以实现基于多管道的并发日志数据即时收集和无中转入仓，从而，有助于提升日志数据的入库时效性。

而且，上述日志***中由收集节点12维护的多条数据管道可以是彼此独立的，从而，当任意一条数据管道发生阻塞，都可以通过隔离器模式、并辅以队列缓存而对单条数据管道实施单独的阻塞，并且不影响其他数据管道中的日志数据的流式传送。

为此，收集节点12可以进一步监听各条数据管道的管道状态。例如，如前文所述的下游管道可以进一步具有对pipeline输出所设定的虚拟地址的事件监听功能，由此可以支持收集节点12监听各条数据管道的管道状态。

其中，若任意一条数据管道向其指向的日志主题的入仓存在困阻，则，收集节点12可以对该数据管道执行单管道输出关闭，该数据管道与其他数据管道彼此隔离无关联，直至该数据管道恢复畅通。

例如，若某个数据管道指向的日志主题部署在以HTTP端点为访问入库的数据库中，由于定期服务或其他原因，HTTP端点可能经常不可用，因此，该数据管道会在HTTP端点关闭时阻塞，相应地，收集节点12可以对该数据管道执行与其他数据管道去关联的单管道输出关闭，直至该数据管道恢复畅通，在此期间内，其他数据管道中的日志数据仍然可以向被搜索和数据分析引擎访问的数据库中的日志主题入仓。

另外，被推送至数据管道中的日志数据还可以被执行过滤转化。其中，对于不同日志类型的日志数据，其过滤转化的方式可能会有所不同。若要兼容不同日志类型的过滤转化，则可能需要在收集节点12设定复杂的判断逻辑(例如在配置文件中使用嵌套迭代的if语句)，这必然造成逻辑设计复杂。为此，该实施例中提供了一种有助于简化逻辑设计的过滤转化方案。

即，采集节点11可以进一步用于根据从任意一个日志源监听到的日志数据的日志类型，确定该日志数据的主题标签。其中，该主题标签表示与该日志源产生的日志数据的日志类型相匹配的日志主题。

例如，采集节点11可以根据监听到的日志数据的日志类型，从预先配置的标签集合(Tag1、Tag2、…、TagN)中选择与该日志数据的数据类型匹配的日志主题的一个。也就是，采集节点11在监听到某个日志源产生的日志数据时，可以为该日志数据确定与该日志源对应的日志主题(如Topic1、Topic2、…TopicN中的一个)相匹配的主题标签(Tag1、Tag2、…、TagN中对应的一个)。

并且，采集节点11可以进一步用于在推送的日志数据中携带主题标签，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题。

从而，采集节点11可以将携带有主题标签的日志数据向收集节点12维护的数据管道推送。

相应地，收集节点12可以获取到从采集节点11推送而来的携带有主题标签的日志数据，并且，收集节点12可以进一步用于对被推入至各条数据管道的日志数据，执行与日志数据所属的日志类型相适配的过滤转化，其中，日志数据所属的日志类型，是利用该日志数据携带的主题标签所表示的日志主题确定的。

例如，为每个采集器独立配置的单管道配置文件中，可以进一步用于配置连接该连接采集器的数据管道中的过滤器，以使得各数据管道中的过滤器彼此独立，并且可以使每个数据管道中的过滤器对推送至该数据管道中的日志数据执行由其携带的主题标签的过滤转化。

由此可见，基于多管道的并发日志数据可以被彼此独立地执行与日志类型相适配的过滤转化，因而有助于简化用于日志数据过滤转化的逻辑设计。

图2为如图1所示的实施例中的日志***的具体结构示意图。如图2所示，采集节点11可以通过运行数据传送引擎(诸如名为FileBeat的轻量级传送引擎)来实现对日志源的监听、以及对监听到的日志数据的推送，该数据传送引擎可以植入在产生日志源的目标服务器中，或者，也可以植入在能够访问目标服务器(如通过本地连接访问)的其他电子设备中。其中，在采集节点11运行的数据传送引擎，可以具体表现为在其植入的设备中运行服务进程PID(process identifier)。

在采集节点11运行数据传送引擎的PID可以称为FlieBeat PID。FlieBeat PID可以调用采集器，其中，每个采集器可以由一个FlieBeatPID调用，或者，也可以允许一个FlieBeat PID调用至少两个采集器。并且，对于存在多台目标服务器的场景，可以认为采集节点11涵盖多台服务器，每台目标服务器都可以运行至少一个FlieBeat PID。

并且，为每个采集节点11运行的FlieBeat PID，可以根据预先配置的目标服务器中的一条或多条日志源实现对该采集节点11所在目标服务器的日志数据的监听，即，采集节点11可以监听目标服务器的指定日志源产生的日志数据，并且，目标服务器的指定日志源是根据预先获取的配置信息确定的。其中，从同一条日志源监听同一种类型的日志数据，并且，一个FlieBeat PID中的采集器可以只监听一条日志源中的日志数据，也可以并发地监听多条日志源中的日志数据。

例如，FlieBeat PID通过启动数据传送引擎的一个或多个查找器组件，可以查看为日志数据指定的指定日志源，以对指定日志源产生的日志数据进行监听，以实现对日志数据的实时监听；并且，FlieBeat PID通过调用数据传送引擎的采集器，可以读取通过查看器监听到的日志文件，其中，采集器可以一次读取某个文件夹下的所有后缀名为log的文件，或者也可以读取指定的某一个后缀名为log的文件。

FlieBeat PID还可以通过调用各采集器，将从至少两个日志源监听到的日志数据，分别向收集节点12维护的数据管道推送，其中，从任意一个日志源监听日志数据的采集器，其推送日志数据的数据管道是在收集节点维护的至少两条数据管道中为该日志源指定的数据管道。可选地，FlieBeat PID还可以在从采集器向数据管道推送的日志数据中携带主题标签，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题。

仍参见图2，收集节点12可以通过运行数据收集引擎(诸如名为Logstash的数据搜索引擎)来实现对推送而来的日志数据的基于数据管道的入库、以及在入库之前可能需要进一步执行的过滤转化，该数据搜索引擎可以植入在与目标服务器通信连接的后端服务器中，即，收集节点12可以部署在后端服务器中。

收集节点12运行的数据收集引擎可以进一步表现为在后端服务器中基于业务需求而布置的一个或多个执行实例PID(例如Logstash PID)。

执行实例PID(Logstash PID)可以利用分别为每个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，并且，供各采集器推送日志数据的数据管道之间彼此隔离。

在图2中，以后端服务器中布置的两个供收集节点12使用的执行实例PID(Logstash PID1和Logstash PID2)为例，但可以理解的是，后端服务器中供收集节点12使用的执行实例PID的数量可以不限于此。这是因为，一个执行实例PID可以支持有限数量的数据管道，随着数据管道的需求总量的不同，所需要的执行实例PID数量也会不同。即，为收集节点12布置的执行实例PID的数量可以由数据管道的需求总量来确定。

一般地，执行实例PID(Logstash PID)耗费的***资源比较大，若为了对数据管道的数量进行扩容而不断增加执行实例PID(Logstash PID)的数量，则容易对后端服务器造成过重的负担。为了减轻后端服务器由于部署收集节点12而产生的负担，在该实施例中，提供了一种对数据管道分组控制的机制。

执行实例PID(Logstash PID)可以通过管道标识Pipeline.id来识别数据管道的单管道配置文件pipeline.conf，并且，执行实例PID(Logstash PID)所能够支持的数据管道的数量限制一般表现在可调度的Pipeline.id的数量上。即，执行实例PID(LogstashPID)能够调度的管道标识Pipeline.id的数量是有限的(例如20个)，若每个单管道配置文件pipeline.conf都独占一个管道标识Pipeline.id，则，收集节点12通过运行执行实例PID(Logstash PID)所能够创建并维护的数据管道的数量是极为有限的。

图3为如图1所示实施例中的日志收集***的数据管道的实例示意图。如图2和图3所示，为了避免这样的限制，在该实施例中，收集节点12可以进一步利用管道标识Pipeline.id实现对单管道配置文件pipeline.conf的分组识别，其中，为每组采集器对应的数据管道分别配置的单管道配置文件pipeline.conf可以被映射为一个虚拟管道配置文件PipeLine.CONF，每个虚拟管道配置文件PipeLine.CONF由一个管道标识Pipeline.id表示。

其中，每个管道标识Pipeline.id可以与至少一个日志主题相对应，相应地，每组数据管道中的各数据管道彼此独立，分别连接该管道标识Pipeline.id对应的至少一个日志主题(Topic1、Topic2、…TopicN)。即，一个管道标识Pipeline.id表示一组数据管道，一个管道标识Pipeline.id可以与包含至少一个日志主题的主题集合相对应，该管道标识Pipeline.id表示一组数据管道中各个数据管道所连接的日志主题，属于该管道标识Pipeline.id对应的主题集合。并且，可以允许同一组或不同组中的至少两个数据管道指向同一个日志主题。

若采用数据管道的分组调库控制，则，由于采集器提供的日志数据的日志类型和流量存在差异，因此，在分组时尽量满足：每组单管道配置文件pipeline.conf对应的采集器监听的各日志源产生的日志数据的日志类型相同，和/或，每组单管道配置文件pipeline.conf对应的采集器监听的各日志源的单位时间日志生成量的数据量差值小于预设的阈值。即便采样这样分组策略，也尽量避免同组的单管道配置文件pipeline.conf(采集器)的数量过多，优选地，一组单管道配置文件pipeline.conf(采集器)的数量可以取3个。

在图3中，以N个日志源对应的日志数据入库至N个不同的日志主题Topic中为例，其中，N为大于或或等于1的正整数。供收集节点12使用的一个执行实例PID(例如LogstashPID)最多可以管理M组数据管道，其中，M为大于或等于1的正整数。若M取20、并且每组包括3个数据管道，则，优选地，N可以均取50(不超过数据据管道的总数60条)。

例如，某个执行实例PID(Logstash PID1)中，一组数据管道(其管道标识为Pipeline.id M)中的各个数据管道指向管道标识Pipeline.id M((pipeline.conf1、pipeline.conf2、…pipeline.confN))对应的主题集合(Topic1、Topic2、…TopicN中的至少一个)，Pipeline.id M中的序号“M”大于等于1且小于等于N。

由FileBeat PID从目标服务器中的N条日志源(Log-Path1、Log-Path2、…Log-PathP)监听到的日志数据，可以由FileBeat PID为其选择日志类型所对应的主题标签。可选地，一个FileBeat PID可以监听多条日志源，也可以只监听指定的一条日志源。因此，N个日志源可以由1个FileBeat PID监听，或者也可以最多由N个FileBeat PID分别监听。一般地，从每个日志源所监听到的日志数据对应的日志类型属于同一类型。

相应地，从每个日志源监听到的日志数据都可以被FileBeat PID向执行实例PID(Logstash PID)分组调度控制的对应数据管道中推送(可选地携带对应的的主题标签)。

各执行实例PID(例如Logstash PID)可以获取由FileBeat PID推送而来的日志数据，并且通过分组调度控制的对应数据管道向匹配的日志主题入仓。

图4为如图1所示实施例中的日志***的数据流传递原理示意图。如图4所示，即便采用对数据管道的分组调度控制，每条数据管道的日志数据的流式传输也都可以保持彼此间的相互独立。即，每条数据管道一端的采集节点11可以通过在目标服务器运行的FileBeat PID(FileBeatPID1、FileBeatPID2、…、FileBeatPIDN中的一个)，监听到指定日志源(Log-Path1、Log-Path2、…Log-Path P中的至少一个)的日志数据，并且可选地，为日志数据标记与其日志类型相匹配的主题标签(Tag1、Tag2、…、TagN中对应的至少一个)后向对应的数据管道的pipline输入(Input)推送。从而，该日志数据(可选地经过尤其携带的主题标签确定的日志类型相适配的过滤转化)可以从其推入的数据管道的pipeline输出(Output)向匹配的日志主题入仓。当日志数据在日志数据入仓后，可以访问以供执行大数据分析。在图4中，以日志主题部署在供搜索和数据分析引擎(诸如ES)访问的数据库为例，入仓后的日志数据可以被搜索和数据分析引擎(诸如ES)基于数据仓库技术(ETL)进行用于大数据分析的抽取、转换和加载。

图5为本申请的另一个实施例中的服务器***的示例性结构示意图。如图5所示，该服务器***可以包括，用于收集日志数据的第一服务器集群51，其中包含至少一个用于收集日志数据的第一服务器510(可以看作前文提及的后端服务器)，以及，包含布置有至少两个日志源的第二服务器集群52，其中包含至少两个用于采集日志数据的第二服务器520(可以看作时前文提及的目标服务器)。

第一服务器集群51用于维护至少两条数据通道。

第二服务器集群52中可以布置有至少两个日志源，用于将从至少两个日志源监听到的日志数据，分别向第一服务器集群51维护的至少两条数据管道推送，其中，从任意一个日志源监听到的日志数据被推送的数据管道，是在第一服务器集群51维护的至少两条数据管道中为该日志源指定的数据管道。

第一服务器集群51还可以用于获取从第二服务器集群52推送至数据管道的日志数据，将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，其中，为任意一个日志源指定的数据管道所指向的日志主题，与该日志源产生的日志数据的日志类型相匹配。

基于上述实施例中的服务器***，从各日志源监听到的日志数据都可以被即时推送至指定的数据管道，而无需请求应答的交互过程；并且，被推送至各数据管道的日志数据无需额外的中转暂存和整理，即可直接通过各数据管道入仓至具有匹配日志类型的日志主题，由此，可以实现基于多管道的并发日志数据即时收集和无中转入仓，从而，有助于提升日志数据的入库时效性。

在实际部署时，第二服务器集群52可以调用至少两个采集器，每个采集器监听为其指定的一个日志源产生的日志数据，相应地，第一服务器集群51可以利用分别为每个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，并且，供各采集器推送日志数据的数据管道之间彼此隔离。

如图5所示，该服务器***还可以进一步包括运行搜索和数据分析引擎的第三服务器集群53，其中，第一服务器集群51维护的至少两条数据管道中的至少一部分，可以指向供运行搜索和数据分析引擎访问的数仓。同时，第一服务器集群51维护的至少两条数据管道中的另外一部分可以允许指向部署在其他数据库的数仓。相应地，第一服务器集群51可以进一步监听各条数据管道的管道状态，其中，若任意一条数据管道向其指向的日志主题的入仓存在困阻，则，对该数据管道执行单管道输出关闭，以避免由于某个数据库的访问异常而影响日志数据向其他数据库中部署的日志主题入仓。

可选地，第二服务器集群52推送的日志数据可以进一步携带有主题标签，即，第二服务器集群52可以进一步用于在推送的日志数据中携带主题标签，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题。相应地，第一服务器集群51可以进一步用于对被推入至各条数据管道的日志数据，执行与日志数据所属的日志类型相适配的过滤转化，其中，日志数据所属的日志类型，是利用该日志数据携带的主题标签所表示的日志主题确定的。

另外，第一服务器集群51可以进一步利用分别为每个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，并且，供各采集器推送日志数据的数据管道之间彼此隔离。也就是，一个单管道配置文件可以对应一个采集器的配置。

从而，当第二服务器集群52中的采集器将从指定的日志源监听到的日志数据推送出之后，第一服务器集群51通过识别推送日志数据的采集器，可以确定该日志数据所推入的数据管道的单管道配置文件的pipeline输入，从而，可以使日志数据从其推入的数据管道的单管道配置文件的pipeline输出，向与该日志数据的日志类型相匹配的日志主体所在的虚拟地址入仓。

若第一服务器集群51通过运行若干个前文提及的执行实例PID而控制和管理其维护的至少两条数据管道，则，减少执行实例PID的运行数量，第一服务器集群51可以进一步利用对单管道配置文件的分组识别，对从采集器推送入数据管道的日志数据的入仓操作实施分组的资源调度控制。例如，第一服务器集群51可以进一步利用管道标识实现对单管道配置文件的分组识别，其中，为每组采集器对应的数据管道分别配置的单管道配置文件pipeline.conf可以被映射为一个虚拟管道配置文件，每个虚拟管道配置文件由一个管道标识Pipeline.id表示。

上述服务器***中的第一服务器集群51可以看作是用于承载前述实施例提及的日志***中的收集节点12的后端服务器的集合，并且，该服务器***中的第二服务器集群52可以看作是用于承载前述实施例提及的日志***中的采集节点11的目标服务器的集合。

但可以理解的是，采集节点11和收集节点12的承载主体可以不限于如图5所示的第二服务器集群52和第一服务器集群52，而是可以选择任意载体来承载。

也就是，前述实施例提及的日志***中的收集节点12辅以采集节点11所实现的收集原理，可以表现为不受载体限制的通用的收集方法。

在下述的实施例中，对该通用的日志数据的收集方法进行详细说明。

图6为另一个实施例中的一种日志数据的收集方案的流程示意图。如图6所示，该收集方法的具体流程可以包括如下步骤：

S101，获取推送至各条数据管道的日志数据，其中，日志数据是从日志源监听得到的，并且，从任意一个日志源监听到的日志数据被推送的数据管道，是在至少两条数据管道中为该日志源指定的数据管道。

S102，将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，其中，为任意一个日志源指定的数据管道所指向的日志主题，与该日志源产生的日志数据的日志类型相匹配。

基于上述实施例的收集方法，从各日志源监听到的日志数据都可以被即时推送至指定的数据管道，而无需请求应答的交互过程；并且，被推送至各数据管道的日志数据无需额外的中转暂存和整理，即可直接通过各数据管道入仓至具有匹配日志类型的日志主题，由此，可以实现基于多管道的并发日志数据即时收集和无中转入仓，从而，有助于提升日志数据的入库时效性。

在S101之前，可以进一步利用分别为至少两个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，其中，每个采集器监听为其指定的一个日志源产生的日志数据，并且，供各采集器推送日志数据的数据管道之间彼此隔离。

从而，当从指定的日志源监听到的日志数据被从采集器将推送出之后，S101通过识别推送日志数据的采集器，可以确定该日志数据所推入的数据管道的单管道配置文件的pipeline输入，从而，在S102，可以使日志数据从其推入的数据管道的单管道配置文件的pipeline输出，向与该日志数据的日志类型相匹配的日志主体所在的虚拟地址入仓。

若S101和S102通过运行执行实例PID(如Logstash PID)来实现，则，为了便于以更小的负担调用更多的单管道配置文件，S101和S102可以进一步利用管道标识实现对单管道配置文件的分组识别，其中，为每组采集器对应的数据管道分别配置的单管道配置文件pipeline.conf可以被映射为一个虚拟管道配置文件，每个虚拟管道配置文件由一个管道标识Pipeline.id表示。

图7为如图6所示收集方法的扩展流程示意图。请参见图7，若获取到的日志数据中携带主题标签，则，该收集方法可以被扩展为包括如下步骤：

S201，获取推送至各条数据管道的日志数据，其中，日志数据是从日志源监听得到的，并且，从任意一个日志源监听到的日志数据被推送的数据管道，是在至少两条数据管道中为该日志源指定的数据管道。

S202，识别日志数据携带的主题标签的步骤，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题。

S203，对被推入至各条数据管道的日志数据，执行与日志数据所属的日志类型相适配的过滤转化，其中，日志数据所属的日志类型，是利用该日志数据携带的主题标签所表示的日志主题确定的。

S204，将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，其中，为任意一个日志源指定的数据管道所指向的日志主题，与该日志源产生的日志数据的日志类型相匹配。

从而，在具有与如图6所示流程具有的技术效果的基础上，如图7所示的扩展流程支持基于多管道的并发日志数据可以被彼此独立地执行与日志类型相适配的过滤转化，因而有助于简化过滤转化的逻辑设计。

图8为如图6所示收集方法的并行流程示意图。请参见图8，在执行如图6所示流程(或如图7所示扩展流程的期间内)，该实施例中的日志数据的收集方法还可以针对各条数据管道执行如下的步骤：

S301，监听各条数据管道的管道状态；

若任意一条数据管道向其指向的日志主题的入仓存在困阻，则，跳转至S302；

若存在困阻的数据管道恢复畅通，则，跳转至S303；

否则继续不做步骤跳转。

S302，对该数据管道执行与其他数据管道去关联的单管道输出关闭，然后返回S301继续监听；

S303，取消对恢复畅通的数据管道的单管道输出关闭，然后返回S301继续监听。

相比于如图6所示流程或如图7所示扩展流程，基于如图8所示的并行流程，可以进一步避免由于某个数据库的访问异常而影响日志数据向其他数据库中部署的日志主题入仓。

基于与前述日志数据的收集方法的同一发明构思，本申请实施例还提供一种日志数据的收集装置。

图9为本申请的另一个实施例中的一种日志数据的收集装置的示意图。其中，该收集装置可以包括：

输入插件模块901，用于获取推送至各条数据管道的日志数据，其中，日志数据是从日志源监听得到的，并且，从任意一个日志源监听到的日志数据被推送的数据管道，是在至少两条数据管道中为该日志源指定的数据管道；

输出插件模块902，用于将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，其中，为任意一个日志源指定的数据管道所指向的日志主题，与该日志源产生的日志数据的日志类型相匹配。

为了实现各数据管道的独立化，该收集装置可以进一步包括管道配置模块904，其中，管道配置模块904可以用于利用分别为至少两个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，其中，每个采集器监听为其指定的一个日志源产生的日志数据，并且，供各采集器推送日志数据的数据管道之间彼此隔离。

从而，当从指定的日志源监听到的日志数据从采集器推送出之后，输入插件模块901可以通过识别推送日志数据的采集器，确定该日志数据所推入的数据管道的单管道配置文件的pipeline输入，从而，触发输出插件模块902可以将日志数据从其推入的数据管道的单管道配置文件的pipeline输出，向与该日志数据的日志类型相匹配的日志主体所在的虚拟地址入仓。

若管道配置模块904通过运行若干个前文提及的执行实例PID而控制和管理其维护的至少两条数据管道，则，减少执行实例PID的运行数量，管道配置模块904可以进一步利用对单管道配置文件的分组识别，对从采集器推送入数据管道的日志数据的入仓操作实施分组的资源调度控制。例如，管道配置模块904可以进一步利用管道标识实现对单管道配置文件的分组识别，其中，为每组采集器对应的数据管道分别配置的单管道配置文件pipeline.conf可以被映射为一个虚拟管道配置文件，每个虚拟管道配置文件由一个管道标识Pipeline.id表示。

另外，各数据管道的独立化还可以支持数据管道之间彼此隔离的输出关闭控制，即，该收集装置可以进一步包括管道监听模块905，用于监听各条数据管道的管道状态，其中，若任意一条数据管道向其指向的日志主题的入仓存在困阻，则，触发输出插件模块902对该数据管道执行与其他数据管道去关联的单管道输出关闭。

若该收集装置需要对日志数据进行过滤转化，则，该收集装置可以进一步包括布置在输入插件模块和输出插件模块之间的过滤插件模块903，其中，为了简化过滤转化的逻辑设计，过滤插件模块903可以用于识别日志数据携带的主题标签，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题；并且，对被推入至各条数据管道的日志数据，执行与日志数据所属的日志类型相适配的过滤转化，其中，日志数据所属的日志类型，是利用该日志数据携带的主题标签所表示的日志主题确定的。

图10为本申请的另一个实施例所提供的一种电子设备的示意图。如图10所示，本申请的又一实施例还提供一种电子设备，其可以包括处理器1001，其中，处理器1001用于执行上述一种对日志数据的收集方法的步骤。从图10中还可以看出，上述实施例提供的电子设备还包括非瞬时计算机可读存储介质1002，该非瞬时计算机可读存储介质1002上存储有计算机程序，该计算机程序被处理器1001运行时执行上述一种对日志数据的收集方法的步骤。

具体地，该非瞬时计算机可读存储介质1002能够为通用的存储介质，如移动磁盘、硬盘、FLASH、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、或便携式紧凑磁盘只读存储器(CD-ROM)等，该非瞬时计算机可读存储介质1002上的计算机程序被处理器1001运行时，能够引发处理器1001执行上述的一种对日志数据的收集方法中的各个步骤。

实际应用中，所述的非瞬时计算机可读存储介质1002可以是上述实施例中描述的设备/装置/***中所包含的，也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，能够执行上述的一种对日志数据的收集方法中的各个步骤。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行变更或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些变更、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种日志***，其特征在于，包括：

2.根据权利要求1所述的日志***，其特征在于，

采集节点包括至少两个采集器，每个采集器监听为其指定的一个日志源产生的日志数据；

收集节点进一步利用分别为每个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，并且，供各采集器推送日志数据的数据管道之间彼此隔离。

3.根据权利要求2所述的日志***，其特征在于，

收集节点进一步利用对单管道配置文件的分组识别，对从采集器推送入数据管道的日志数据的入仓操作实施分组的调度控制；和/或，

采集节点进一步用于在推送的日志数据中携带主题标签，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题；

收集节点进一步用于对被推入至各条数据管道的日志数据，执行与日志数据所属的日志类型相适配的过滤转化，其中，日志数据所属的日志类型，是利用该日志数据携带的主题标签所表示的日志主题确定的。

4.一种日志数据的收集方法，其特征在于，包括：

5.根据权利要求4所述的收集方法，其特征在于，获取推送至各条数据管道的日志数据之前，进一步包括：

利用分别为至少两个采集器独立配置的单管道配置文件，创建供各采集器推送日志数据的数据管道，其中，每个采集器监听为其指定的一个日志源产生的日志数据，并且，供各采集器推送日志数据的数据管道之间彼此隔离。

6.根据权利要求5所述的收集方法，其特征在于，将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓，包括：

利用对单管道配置文件的分组识别，对从采集器推送入数据管道的日志数据的入仓操作实施分组的调度控制；和/或，

创建供各采集器推送日志数据的数据管道之后，进一步包括：

监听各条数据管道的管道状态，其中，若任意一条数据管道向其指向的日志主题的入仓存在困阻，则，对该数据管道执行单管道输出关闭；和/或，

将被推送至各条数据管道的日志数据，分别向各数据管道指向的日志主题入仓之前，进一步包括：

识别日志数据携带的主题标签，其中，从任意一个日志源监听到的日志数据所携带的主题标签，表示与该日志源产生的日志数据的日志类型相匹配的日志主题；

对被推入至各条数据管道的日志数据，执行与日志数据所属的日志类型相适配的过滤转化，其中，日志数据所属的日志类型，是利用该日志数据携带的主题标签所表示的日志主题确定的。

7.一种日志数据的收集装置，其特征在于，包括：

8.一种用于收集日志数据的服务器，其特征在于，包括处理器，其中，该处理器用于执行如权利要求4至6中任一项所述的日志数据的收集方法。

9.一种服务器***，其特征在于，包括：

用于收集日志数据的第一服务器集群，用于执行如权利要求4至6中任一项所述的日志数据的收集方法；

10.根据权利要求9所述的服务器***，其特征在于，进一步包括运行搜索和数据分析引擎的第三服务器集群，其中，第一服务器集群维护的至少两条数据管道中的一部分，指向供搜索和数据分析引擎访问的日志主题。