CN103401934A - 获取日志数据的方法和*** - Google Patents

获取日志数据的方法和*** Download PDF

Info

Publication number
CN103401934A
CN103401934A CN2013103404125A CN201310340412A CN103401934A CN 103401934 A CN103401934 A CN 103401934A CN 2013103404125 A CN2013103404125 A CN 2013103404125A CN 201310340412 A CN201310340412 A CN 201310340412A CN 103401934 A CN103401934 A CN 103401934A
Authority
CN
China
Prior art keywords
kafka
daily record
record data
data
flume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103404125A
Other languages
English (en)
Inventor
姚仁捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Vipshop Information And Technology Co Ltd
Original Assignee
Guangzhou Vipshop Information And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Vipshop Information And Technology Co Ltd filed Critical Guangzhou Vipshop Information And Technology Co Ltd
Priority to CN2013103404125A priority Critical patent/CN103401934A/zh
Publication of CN103401934A publication Critical patent/CN103401934A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取日志数据的方法和***,所述方法包括:第一Flume从应用服务器获取日志数据;所述第一Flume将获取的日志数据传送到Kafka,所述Kafka将收到的日志数据转换为Kafka消息队列。本发明获取日志数据的方法和***,通过第一Flume将应用服务器中的日志数据传送到Kafka,并通过Kafka将日志数据转换为Kafka消息队列,用户从Kafka获取日志数据时,只需要连接到Kafka即可,不需要进行繁琐重启和***操作,可提高获取日志数据的灵活性。

Description

获取日志数据的方法和***
技术领域
本发明涉及数据通信技术领域,特别是涉及一种获取日志数据的方法和***。
背景技术
随着电子商务技术的发展,网络的后端服务器承载的压力也越来越大,同时需要处理的“数据”也呈几何级增长,实时准确的收集、传输、计算海量日志随之成为电子商务中的迫切要求。现有技术中主要使用twitter收集日志时涉及的flume-ng技术。Flume是一个分布式、可靠的高性能工具,用于从不同数据源收集、聚合、传输大量日志数据到一个中央数据源。Flume有三个重要的概念,source,channel,sink,这三个逻辑概念组成一个Flume的代理。Source定义了数据的来源(比如文件),Sink定义了数据的出口,而Channel是Source和Sink中间的通道。其中Source,Channel,Sink都是水平扩展的,可以根据性能进行调整。
但是,flume是一个java进程,在启动时就载入了lib中的各种与平台无关的文件格式jar(Java Archive,Java归档文件),如果有程序需要读取其中的信息,需要写一个flume的插件(用java),并且要重启flume才可以,操作复杂,灵活性差;过于注重消息的可靠性,吞吐量低,不便于用户从flume快速获取日志数据。
发明内容
基于此,有必要针对上述Flume收集日志数据灵活性差和吞吐量低的问题,提供一种获取日志数据的方法和***。
一种获取日志数据的方法,包括以下步骤:
第一Flume从应用服务器获取日志数据;
所述第一Flume将获取的日志数据传送到Kafka,所述Kafka将收到的日志数据转换为Kafka消息队列。
一种获取日志数据的***,包括应用服务器、第一Flume和Kafka,其中:
所述第一Flume用于从所述应用服务器获取日志数据和将获取的日志数据传送到所述Kafka;
所述Kafka用于将收到的日志数据转换为Kafka消息队列。
上述获取日志数据的方法和***,通过第一Flume将应用服务器中的日志数据传送到Kafka,并通过Kafka将日志数据转换为Kafka消息队列,用户从Kafka获取日志数据时,只需要连接到Kafka即可,不需要进行繁琐重启和***操作,可提高获取日志数据的灵活性。
附图说明
图1是本发明获取日志数据的方法第一实施方式的流程示意图;
图2是本发明获取日志数据的方法第二实施方式的流程示意图;
图3是本发明获取日志数据的方法第三实施方式的流程示意图;
图4是本发明获取日志数据的***第一实施方式的结构示意图;
图5是本发明获取日志数据的***第二实施方式的结构示意图;
图6是本发明获取日志数据的***第三实施方式的结构示意图。
具体实施方式
请参阅图1,图1是本发明获取日志数据的方法第一实施方式的流程示意图。
本实施方式的所述获取日志数据的方法包括以下步骤:
步骤101,第一Flume从应用服务器获取日志数据。
步骤102,所述第一Flume将获取的日志数据传送到Kafka,所述Kafka将收到的日志数据转换为Kafka消息队列。
本实施方式所述获取日志数据的方法,通过第一Flume将应用服务器中的日志数据传送到Kafka,并通过Kafka将日志数据转换为Kafka消息队列,用户从Kafka获取日志数据时,只需要连接到Kafka即可,不需要进行繁琐重启和***操作,可提高获取日志数据的灵活性。
其中,对于步骤101,所述Flume优选地可通过自身的三个逻辑部分source、channel和sink从应用服务器抓取日志数据。所述应用服务器的个数和类型可预先根据用户需要和用户类型进行设定。
对于步骤102,所述Kafka是一种高吞吐量的分布式发布订阅消息***,首先,所述Kafka的操作***的文件缓存足够完善和强大,只要不随机写,顺序读写的性能非常高效。所述Kafka的数据只会顺序***,数据的删除策略是累积到一定程度或者超过一定时间再删除。所述Kafka另一个独特的特性是将用户信息保存在客户端而不是MQ服务器,这样服务器就不用记录消息的投递过程,每个客户端都自己知道自己下一次应该从什么地方什么位置读取消息,消息的投递过程也是采用客户端主动模型,这样大大减轻了服务器的负担。所述Kafka还强调减少数据的序列化和拷贝开销,它会将一些消息组织成消息队列做批量存储和发送。
优选地,所述Kafka具有如下特性:
1、通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即时数据以TB的消息存储也能够保持长时间的稳定性能。
2、高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。
3、支持通过kafka服务器和消费机集群来分区消息。
4、支持Hadoop并行数据加载。
在一个实施例中,所述第一Flume将获取的日志数据传送到Kafka的步骤包括以下步骤:
步骤1021,所述第一Flume通过第一Github***建立与所述Kafka间的数据传输通道,并以所述Kafka为数据接收终端进行参数配置。
步骤1022,所述第一Flume对获取的每条日志数据进行预处理后通过建立的数据传输通道发送至所述Kafka。
步骤1023,所述Kafka接收的日志数据达到预设数据量时,对预设数据量的日志数据进行数据打包,存储到所述Kafka的存储区域并转换为所述Kafka消息队列。
其中,在本实施例中,所述Github可托管各种Git库,并提供一个web界面,但与其它像 SourceForge或Google Code这样的服务不同,Github的独特之处在于从另外一个项目进行分支的简易性。所述Git 是一个分布式的版本控制***,最初由Linus Torvalds编写,用作Linux内核代码的管理。
优选地,所述第一Flume和所述Kafka通过一个flume插件flume-kakfa(数据传输通道)进行日志数据传输,所述flume-kafka是托管于所述第一Github***。所述flume-kafka支持从所述Kafka抓取日志数据,也支持将日志数据推向所述Kafka。
进一步地,在传输日志数据前,所述第一Flume首先将所述Kafka定义为数据源的代码片段,并通过process软件程序、congfigure软件程序和stop然间程序对每一条日志数据进行预设的预处理、配置和停止操作,具体的操作代码如下:
Figure BDA00003629304900041
优选地,以所述Kafka为数据源,并将第一Flume连接所述Kafka的代码如下:
Figure BDA00003629304900042
在上述代码中,props.put是针对到所述Kafka的连接的属性,下面分别对上述代码中每一个属性进行说明:
roupid:连接的名称
autocommit.enable:自动告知所述Kafka目前消费到哪条日志消息
autooffset.reset:自动获取最新的日志消息
socket.buffersize:端口通信的缓冲器大小。
最后根据这些属性的定义,所述第一Flume与所述Kafka建立连接。接下来具体说明一下,所述第一Flume连接到所述Kafka后,所述Kafka是如何接收数据的。我们定义了一批数据中消息的数量。所谓一批数据,指的是所述Kafka将一定数量的数据打包,一次性发送到数据目的地,而不是从所述第一Flume接收一次数据,往所述Kafka的存储区域发一次。批量发送可节约网络传输的开销。
同样的,下面是连接所述Kafka并所述Kafka以为数据目的的代码:
和以所述Kafka为数据源时建立连接和发送日志数据存在不同之处:对于日志数据的批量处理,以所述Kafka为数据目的时,由所述Kafka自己控制,而不是所述第一Flume。根据上述代码中batch.size,所述Kafka获取到一定数目的日志消息,以一批一批的方式发送。
在另一个实施例中,在所述通过Kafka将收到的日志数据转换为Kafka消息队列的步骤之后,还包括以下步骤:
通过所述Kafka提供的jmx监控接口获取Kafka的运行数据。
所述Kafka相比所述第一Flume,具有更多的监控数据可以获取,更加方便的监控到整个***的健康情况。
请参阅图2,图2是本发明获取日志数据的方法第二实施方式的流程示意图。
本实施方式的所述获取日志数据的方法与第一实施方式的区别在于:在所述Kafka将收到的日志数据转换为Kafka消息队列的步骤之后,还包括以下步骤:
步骤201,Storm实时计算集群通过Storm***建立与所述Kafka间的数据传输通道。
步骤202,所述Storm实时计算集群通过建立的数据通道从所述Kafka消息队列中获取需要的日志数据。
其中,对于步骤201,所述Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。所述Storm是管理队列及工作者集群的一种方式。所述Storm也可被用于“连续计算”(continuouscomputation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户,还可被用于“分布式RPC”,以并行的方式运行昂贵的运算
对于步骤202,Storm实时计算集群可使用所述Storm中storm-contrib的java方法来连接所述Kafka而获取日志消息。除所述Storm实时计算集群外的其他***也可从作为消息中间件的所述Kafka中获取日志消息(即每一行日志)。
目前,所述Kafka对于很多语言具有亲和力,如:java,python,ruby等流行的语言,都有支持所述Kafka的库。
本实施方式的所述获取日志数据的方法,作为用户通过自身与所述Kafka间特有的连接方式即可从所述Kafka快速获取日志数据,无需反复重启所述Kafka。
请参阅图3,图3是本发明获取日志数据的方法第三实施方式的流程示意图。
本实施方式的所述获取日志数据的方法与第一实施方式的区别在于:所述Kafka将收到的日志数据转换为Kafka消息队列的步骤之后,还包括以下步骤:
第二Flume从所述Kafka消息队列中获取用户需要的日志数据。
对于除所述Storm实时计算集群外的其他***,如:HAFS集群、全文检索集群等,若本身与所述Kafka没有固有的连接方式,可通过第二Flume与所述Kafka建立连接,并从作为消息中间件的所述Kafka中获取日志消息。
在一个实施例中所述第二Flume从所述Kafka消息队列中获取用户需要的日志数据的步骤包括以下步骤:
步骤301,所述第二Flume通过第二Github***建立与所述Kafka间的数据传输通道,并以所述Kafka为数据发送终端进行参数配置。
步骤302,所述第二Flume通过建立的数据传输通道向所述Kafka发送日志请求。
步骤303,所述Kafka根据所述日志请求,从所述Kafka消息队列获取对应的日志数据,并通过所述数据传输通道将所述对应的日志数据分批发送至所述第二Flume。
本实施例中所述第二Flume与所述Kafka建立连接的方式可与第一实施方式中以所述Kafka为数据目的通过所述flume-kafka建立连接的方式中连接代码相同。
本实施方式所述获取日志数据的方法,通过所述第二Flume与所述Kafka建立连接,并为其他***从作为消息中间件的所述Kafka中快速获取日志消息。
请参阅图4,图4是本发获取日志数据的***第一实施方式的结构示意图。
本实施方式的所述获取日志数据的***包括应用服务器100、第一Flume200和Kafka300,其中:
第一Flume200,用于从应用服务器100获取日志数据和将获取的日志数据传送到Kafka300。
Kafka300,用于将收到的日志数据转换为Kafka消息队列。
本实施方式所述获取日志数据的***,通过第一Flume将应用服务器中的日志数据传送到Kafka,并通过Kafka将日志数据转换为Kafka消息队列,用户从Kafka获取日志数据时,只需要连接到Kafka即可,不需要进行繁琐重启和***操作,可提高获取日志数据的灵活性。
其中,对于应用服务器100,其个数和类型可预先根据用户需要和用户类型进行设定。
对于第一Flume200,所述Flume优选地可通过自身的三个逻辑部分source、channel和sink从应用服务器抓取日志数据。
对于Kafka300,Kafka300中是一种高吞吐量的分布式发布订阅消息***,首先,其操作***的文件缓存足够完善和强大,只要不随机写,顺序读写的性能非常高效。Kafka300的数据只会顺序***,数据的删除策略是累积到一定程度或者超过一定时间再删除。Kafka300另一个独特的特性是将用户信息保存在客户端而不是MQ服务器,这样服务器就不用记录消息的投递过程,每个客户端都自己知道自己下一次应该从什么地方什么位置读取消息,消息的投递过程也是采用客户端主动模型,这样大大减轻了服务器的负担。Kafka300还强调减少数据的序列化和拷贝开销,它会将一些消息组织成消息队列做批量存储和发送。
优选地,Kafka300具有如下特性:
1、通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即时数据以TB的消息存储也能够保持长时间的稳定性能。
2、高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。
3、支持通过kafka服务器和消费机集群来分区消息。
4、支持Hadoop并行数据加载。
在一个实施例中,本实施方式所述获取日志数据的***还包括第一Github***,其中:
第一Flume200还用于通过第一Github***建立与Kafka300间的数据传输通道,并以Kafka300为数据接收终端进行参数配置,并对获取的每条日志数据进行预处理后通过建立的数据传输通道发送至Kafka300。
Kafka300还用于在接收的日志数据达到预设数据量时,对预设数据量的日志数据进行数据打包,存储到Kafka300的存储区域并转换为所述Kafka消息队列。
其中,在本实施例中,所述Github可托管各种Git库,并提供一个web界面,但与其它像 SourceForge或Google Code这样的服务不同,Github的独特之处在于从另外一个项目进行分支的简易性。所述Git 是一个分布式的版本控制***,最初由Linus Torvalds编写,用作Linux内核代码的管理。
优选地,第一Flume200和Kafka300通过一个flume插件flume-kakfa(数据传输通道)进行日志数据传输,所述flume-kafka是托管于所述第一Github***。所述flume-kafka支持从Kafka300抓取日志数据,也支持将日志数据推向Kafka300。
进一步地,在传输日志数据前,第一Flume200首先将Kafka300定义为数据源的代码片段,并通过process软件程序、congfigure软件程序和stop然间程序对每一条日志数据进行预设的预处理、配置和停止操作,具体的操作代码如下:
Figure BDA00003629304900091
优选地,以Kafka300为数据源,并将第一Flume200连接Kafka300的代码如下:
Figure BDA00003629304900092
Figure BDA00003629304900101
在上述代码中,props.put是针对到Kafka300的连接的属性,下面分别对上述代码中每一个属性进行说明:
roupid:连接的名称
autocommit.enable:自动告知Kafka300目前消费到哪条日志消息
autooffset.reset:自动获取最新的日志消息
socket.buffersize:端口通信的缓冲器大小。
最后根据这些属性的定义,第一Flume200与Kafka300建立连接。接下来具体说明一下,第一Flume200连接到Kafka300后, Kafka300是如何接收数据的。我们定义了一批数据中消息的数量。所谓一批数据,指的是Kafka300将一定数量的数据打包,一次性发送到数据目的地,而不是从第一Flume200接收一次数据,往Kafka300的存储区域发一次。批量发送可节约网络传输的开销。
同样的,下面是连接Kafka300并Kafka300以为数据目的的代码:
Figure BDA00003629304900102
Figure BDA00003629304900111
和以Kafka300为数据源时建立连接和发送日志数据存在不同之处:对于日志数据的批量处理,以Kafka300为数据目的时,由所Kafka300自己控制,而不是第一Flume200。根据上述代码中batch.size, Kafka300获取到一定数目的日志消息,以一批一批的方式发送。
在另一个实施例中,本实施方式所述获取日志数据的***还可以包括一个监控单元,所述监控单元用于在所述通过Kafka将收到的日志数据转换为Kafka消息队列后,通过Kafka300提供的jmx监控接口获取Kafka300的运行数据。
Kafka300相比第一Flume200,具有更多的监控数据可以获取,更加方便的监控到整个***的健康情况。
请参阅图5,图5是本发明获取日志数据的***第二实施方式的结构示意图。
本实施方式的所述获取日志数据的***与第一实施方式的区别在于:还包括Storm实时计算集群400和Storm***500, Storm实时计算集群400用于通过Storm***500建立与Kafka300间的数据传输通道,通过建立的数据通道从所述Kafka消息队列中获取需要的日志数据。
其中,对于Storm***500,所述Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。所述Storm是管理队列及工作者集群的一种方式。所述Storm也可被用于“连续计算”(continuouscomputation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户,还可被用于“分布式RPC”,以并行的方式运行昂贵的运算
对于Storm实时计算集群400,其可使用所述Storm中storm-contrib的java方法来连接Kafka300而获取日志消息。除Storm实时计算集群400外的其他***也可从作为消息中间件的Kafka300中获取日志消息(即每一行日志)。
目前,Kafka300对于很多语言具有亲和力,如:java,python,ruby等流行的语言,都有支持Kafka300的库。
本实施方式的所述获取日志数据的***,作为用户通过自身与所述Kafka间特有的连接方式即可从所述Kafka快速获取日志数据,无需反复重启所述Kafka。
请参阅图6,图6是本发明获取日志数据的***第三实施方式的结构示意图。
本实施方式的所述获取日志数据的***与第一实施方式的区别在于:还包括第二Flume600,用于从所述Kafka消息队列中获取用户需要的日志数据。
对于除Storm实时计算集群400外的其他***,如:HAFS集群、全文检索集群等,若本身与Kafka300没有固有的连接方式,可通过第二Flume600与Kafka300建立连接,并从作为消息中间件的Kafka300中获取日志消息。
在一个实施例中,本实施方式的所述获取日志数据的***还包括第二Github系,其中:
第二Flume600还用于通过第二Github***建立与Kafka300间的数据传输通道,以Kafka300为数据发送终端进行参数配置,并向Kafka300发送日志请求.
Kafka300还用于根据所述日志请求,从所述Kafka消息队列获取对应的日志数据,并通过所述数据传输通道将所述对应的日志数据分批发送至所述第二Flume600。
本实施例中第二Flume600与Kafka300建立连接的方式可与第一实施方式中第一实施方式中以所述Kafka300为数据目的通过所述flume-kafka建立连接的方式中连接代码相同。
本实施方式所述获取日志数据的***,通过所述第二Flume与所述Kafka建立连接,并为其他***从作为消息中间件的所述Kafka中快速获取日志消息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种获取日志数据的方法,其特征在于,包括以下步骤:
第一Flume从应用服务器获取日志数据;
所述第一Flume将获取的日志数据传送到Kafka,所述Kafka将收到的日志数据转换为Kafka消息队列。
2.根据权利要求1所述的获取日志数据的方法,其特征在于,所述第一Flume将获取的日志数据传送到Kafka的步骤包括以下步骤:
所述第一Flume通过第一Github***建立与所述Kafka间的数据传输通道,并以所述Kafka为数据接收终端进行参数配置;
所述第一Flume对获取的每条日志数据进行预处理后通过建立的数据传输通道发送至所述Kafka;
所述Kafka接收的日志数据达到预设数据量时,对所述日志数据进行数据打包,存储到所述Kafka的存储区域并转换为所述Kafka消息队列。
3.根据权利要求1所述的获取日志数据的方法,其特征在于,在所述Kafka将收到的日志数据转换为Kafka消息队列的步骤之后,还包括以下步骤:
Storm实时计算集群通过Storm***建立与所述Kafka间的数据传输通道;
所述Storm实时计算集群通过建立的数据通道从所述Kafka消息队列中获取需要的日志数据。
4.根据权利要求1至3中任意一项所述的获取日志数据的方法,其特征在于,在所述Kafka将收到的日志数据转换为Kafka消息队列的步骤之后,还包括以下步骤:
第二Flume从所述Kafka消息队列中获取用户需要的日志数据。
5.根据权利要求4所述的获取日志数据的方法,其特征在于,所述第二Flume从所述Kafka消息队列中获取用户需要的日志数据的步骤包括以下步骤:
所述第二Flume通过第二Github***建立与所述Kafka间的数据传输通道,并以所述Kafka为数据发送终端进行参数配置;
所述第二Flume通过建立的数据传输通道向所述Kafka发送日志请求;
所述Kafka根据所述日志请求,从所述Kafka消息队列获取对应的日志数据,并通过所述数据传输通道将所述对应的日志数据分批发送至所述第二Flume。
6.一种获取日志数据的***,其特征在于,包括应用服务器、第一Flume和Kafka,其中:
所述第一Flume用于从所述应用服务器获取日志数据和将获取的日志数据传送到所述Kafka;
所述Kafka用于将收到的日志数据转换为Kafka消息队列。
7.根据权利要求6所述的获取日志数据的***,其特征在于,还包括第一Github***,其中:
所述第一Flume还用于通过所述第一Github***建立与所述Kafka间的数据传输通道,并以所述Kafka为数据接收终端进行参数配置,并对获取的每条日志数据进行预处理后通过建立的数据传输通道发送至所述Kafka;
所述Kafka还用于在接收的日志数据达到预设数据量时,对所述日志数据进行数据打包,存储到所述Kafka的存储区域并转换为所述Kafka消息队列。
8.根据权利要求6所述的获取日志数据的***,其特征在于,还包括Storm实时计算集群和Storm***,所述Storm实时计算集群用于通过所述Storm***建立与所述Kafka间的数据传输通道,通过建立的数据通道从所述Kafka消息队列中获取需要的日志数据。
9.根据权利要求6至8中任意一项所述的获取日志数据的***,其特征在于,还包括第二Flume,用于从所述Kafka消息队列中获取用户需要的日志数据。
10.根据权利要求9所述的获取日志数据的***,其特征在于,还包括第二Github***,其中:
所述第二Flume还用于通过第二Github***建立与所述Kafka间的数据传输通道,以所述Kafka为数据发送终端进行参数配置,并向所述Kafka发送日志请求;
所述Kafka还用于根据所述日志请求,从所述Kafka消息队列获取对应的日志数据,并通过所述数据传输通道将所述对应的日志数据分批发送至所述第二Flume。
CN2013103404125A 2013-08-06 2013-08-06 获取日志数据的方法和*** Pending CN103401934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103404125A CN103401934A (zh) 2013-08-06 2013-08-06 获取日志数据的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103404125A CN103401934A (zh) 2013-08-06 2013-08-06 获取日志数据的方法和***

Publications (1)

Publication Number Publication Date
CN103401934A true CN103401934A (zh) 2013-11-20

Family

ID=49565457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103404125A Pending CN103401934A (zh) 2013-08-06 2013-08-06 获取日志数据的方法和***

Country Status (1)

Country Link
CN (1) CN103401934A (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
CN104657502A (zh) * 2015-03-12 2015-05-27 浪潮集团有限公司 基于Hadoop对海量数据进行实时统计的***和方法
CN105335406A (zh) * 2014-07-30 2016-02-17 阿里巴巴集团控股有限公司 日志数据处理方法及装置
CN105450618A (zh) * 2014-09-26 2016-03-30 Tcl集团股份有限公司 一种api服务器处理大数据的运算方法及其***
CN105490854A (zh) * 2015-12-11 2016-04-13 传线网络科技(上海)有限公司 实时日志收集方法、***和应用服务器集群
CN105589856A (zh) * 2014-10-21 2016-05-18 阿里巴巴集团控股有限公司 日志数据处理方法及***
CN105630869A (zh) * 2015-12-15 2016-06-01 北京奇虎科技有限公司 一种语音数据的存储方法和装置
CN105653662A (zh) * 2015-12-29 2016-06-08 中国建设银行股份有限公司 一种基于Flume的数据处理方法和装置
CN105786683A (zh) * 2016-03-03 2016-07-20 四川长虹电器股份有限公司 自定制的日志收集***和方法
CN105868075A (zh) * 2016-03-31 2016-08-17 浪潮通信信息***有限公司 一种实时监控分析大量日志的***及方法
CN105933736A (zh) * 2016-04-18 2016-09-07 天脉聚源(北京)传媒科技有限公司 一种日志处理方法及装置
CN105933169A (zh) * 2016-07-04 2016-09-07 江苏飞搏软件股份有限公司 一种高效鲁棒的大数据安全聚合***与方法
WO2017008658A1 (zh) * 2015-07-14 2017-01-19 阿里巴巴集团控股有限公司 一种文本数据的存储校验方法和***
CN106569936A (zh) * 2016-09-26 2017-04-19 深圳盒子支付信息技术有限公司 一种实时采集滚动日志的方法及***
CN106682119A (zh) * 2016-12-08 2017-05-17 杭州销冠网络科技有限公司 基于http服务切面与日志***的异步数据同步方法和***
CN106682071A (zh) * 2016-11-17 2017-05-17 安徽华博胜讯信息科技股份有限公司 一种基于大数据的高校图书馆数字资源共享方法
CN106709069A (zh) * 2017-01-25 2017-05-24 焦点科技股份有限公司 高可靠性的大数据日志采集与传输方法
CN106776231A (zh) * 2017-01-09 2017-05-31 武汉斗鱼网络科技有限公司 基于Git的Android崩溃日志优化方法及***
CN106775989A (zh) * 2016-12-31 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种job控制方法及装置
CN107181612A (zh) * 2017-05-08 2017-09-19 深圳市众泰兄弟科技发展有限公司 一种基于大数据的可视化网络安全监控方法
CN107508888A (zh) * 2017-08-25 2017-12-22 同方(深圳)云计算技术股份有限公司 一种车联网服务平台
CN107704478A (zh) * 2017-01-16 2018-02-16 贵州白山云科技有限公司 一种写入日志的方法和***
CN107704545A (zh) * 2017-11-08 2018-02-16 华东交通大学 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法
CN107748756A (zh) * 2017-09-20 2018-03-02 努比亚技术有限公司 数据采集方法、移动终端及可读存储介质
CN107948234A (zh) * 2016-10-13 2018-04-20 北京国双科技有限公司 数据的处理方法及装置
CN107979477A (zh) * 2016-10-21 2018-05-01 苏宁云商集团股份有限公司 一种业务监控的方法及***
CN108092849A (zh) * 2017-12-06 2018-05-29 链家网(北京)科技有限公司 业务数据监控方法、装置及***
CN108388478A (zh) * 2018-02-07 2018-08-10 平安普惠企业管理有限公司 日志数据处理方法和***
CN108989314A (zh) * 2018-07-20 2018-12-11 北京木瓜移动科技股份有限公司 一种流式数据传输、处理方法及装置
CN109446215A (zh) * 2018-10-31 2019-03-08 北京百分点信息科技有限公司 一种基于优先级的实时id拉通引擎方法
CN109684370A (zh) * 2018-09-07 2019-04-26 平安普惠企业管理有限公司 日志数据处理方法、***、设备及存储介质
CN109800128A (zh) * 2019-01-15 2019-05-24 苏州工品汇软件技术有限公司 基于微服务的操作日志记录收集方法
CN110262807A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 集群创建进度日志采集***、方法和装置
CN110460876A (zh) * 2019-08-15 2019-11-15 网易(杭州)网络有限公司 直播日志的处理方法、装置及电子设备
CN110502491A (zh) * 2019-07-25 2019-11-26 北京神州泰岳智能数据技术有限公司 一种日志采集***及其数据传输方法、装置
CN111371586A (zh) * 2018-12-26 2020-07-03 顺丰科技有限公司 日志数据传输方法、装置和设备
CN111382022A (zh) * 2018-12-27 2020-07-07 北京神州泰岳软件股份有限公司 监控实时流计算平台的方法、装置、电子设备和存储介质
CN113190528A (zh) * 2021-04-21 2021-07-30 中国海洋大学 一种并行分布式大数据架构构建方法及***
CN113468259A (zh) * 2021-09-01 2021-10-01 北京华品博睿网络技术有限公司 一种数据实时采集入库方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
EWHAUSER: "flume-kafka-plugin", 《GITHUB》 *
FLUME 官网: "Welcome to Apache Flume", 《FLUME 官网-APPACHE FLUME1.4.0》 *
TOMNOTCAT: "flume-kafka-sink", 《GITHUB》 *
张鑫: "Kafka+FlumeNG+Storm+HBase", 《百度文库》 *

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
CN105335406A (zh) * 2014-07-30 2016-02-17 阿里巴巴集团控股有限公司 日志数据处理方法及装置
CN105335406B (zh) * 2014-07-30 2018-10-02 阿里巴巴集团控股有限公司 日志数据处理方法及装置
CN105450618A (zh) * 2014-09-26 2016-03-30 Tcl集团股份有限公司 一种api服务器处理大数据的运算方法及其***
CN105589856A (zh) * 2014-10-21 2016-05-18 阿里巴巴集团控股有限公司 日志数据处理方法及***
CN105589856B (zh) * 2014-10-21 2019-04-26 阿里巴巴集团控股有限公司 日志数据处理方法及***
CN104657502A (zh) * 2015-03-12 2015-05-27 浪潮集团有限公司 基于Hadoop对海量数据进行实时统计的***和方法
WO2017008658A1 (zh) * 2015-07-14 2017-01-19 阿里巴巴集团控股有限公司 一种文本数据的存储校验方法和***
CN105490854A (zh) * 2015-12-11 2016-04-13 传线网络科技(上海)有限公司 实时日志收集方法、***和应用服务器集群
CN105490854B (zh) * 2015-12-11 2019-03-12 传线网络科技(上海)有限公司 实时日志收集方法、***和应用服务器集群
CN105630869A (zh) * 2015-12-15 2016-06-01 北京奇虎科技有限公司 一种语音数据的存储方法和装置
CN105630869B (zh) * 2015-12-15 2019-02-05 北京奇虎科技有限公司 一种语音数据的存储方法和装置
CN105653662A (zh) * 2015-12-29 2016-06-08 中国建设银行股份有限公司 一种基于Flume的数据处理方法和装置
CN105786683A (zh) * 2016-03-03 2016-07-20 四川长虹电器股份有限公司 自定制的日志收集***和方法
CN105786683B (zh) * 2016-03-03 2019-02-12 四川长虹电器股份有限公司 自定制的日志收集***和方法
CN105868075A (zh) * 2016-03-31 2016-08-17 浪潮通信信息***有限公司 一种实时监控分析大量日志的***及方法
CN105933736A (zh) * 2016-04-18 2016-09-07 天脉聚源(北京)传媒科技有限公司 一种日志处理方法及装置
CN105933169A (zh) * 2016-07-04 2016-09-07 江苏飞搏软件股份有限公司 一种高效鲁棒的大数据安全聚合***与方法
CN106569936B (zh) * 2016-09-26 2019-05-03 深圳盒子信息科技有限公司 一种实时采集滚动日志的方法及***
CN106569936A (zh) * 2016-09-26 2017-04-19 深圳盒子支付信息技术有限公司 一种实时采集滚动日志的方法及***
CN107948234A (zh) * 2016-10-13 2018-04-20 北京国双科技有限公司 数据的处理方法及装置
CN107979477A (zh) * 2016-10-21 2018-05-01 苏宁云商集团股份有限公司 一种业务监控的方法及***
CN106682071A (zh) * 2016-11-17 2017-05-17 安徽华博胜讯信息科技股份有限公司 一种基于大数据的高校图书馆数字资源共享方法
CN106682119A (zh) * 2016-12-08 2017-05-17 杭州销冠网络科技有限公司 基于http服务切面与日志***的异步数据同步方法和***
CN106775989A (zh) * 2016-12-31 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种job控制方法及装置
CN106776231A (zh) * 2017-01-09 2017-05-31 武汉斗鱼网络科技有限公司 基于Git的Android崩溃日志优化方法及***
CN106776231B (zh) * 2017-01-09 2019-11-15 武汉斗鱼网络科技有限公司 基于Git的Android崩溃日志优化方法及***
CN107704478B (zh) * 2017-01-16 2019-03-15 贵州白山云科技股份有限公司 一种写入日志的方法和***
CN107704478A (zh) * 2017-01-16 2018-02-16 贵州白山云科技有限公司 一种写入日志的方法和***
WO2018130222A1 (zh) * 2017-01-16 2018-07-19 贵州白山云科技有限公司 一种写入日志的方法、***、介质和设备
CN106709069B (zh) * 2017-01-25 2018-06-15 焦点科技股份有限公司 高可靠性的大数据日志采集与传输方法
CN106709069A (zh) * 2017-01-25 2017-05-24 焦点科技股份有限公司 高可靠性的大数据日志采集与传输方法
CN107181612A (zh) * 2017-05-08 2017-09-19 深圳市众泰兄弟科技发展有限公司 一种基于大数据的可视化网络安全监控方法
CN107508888A (zh) * 2017-08-25 2017-12-22 同方(深圳)云计算技术股份有限公司 一种车联网服务平台
CN107748756A (zh) * 2017-09-20 2018-03-02 努比亚技术有限公司 数据采集方法、移动终端及可读存储介质
CN107704545A (zh) * 2017-11-08 2018-02-16 华东交通大学 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法
CN108092849A (zh) * 2017-12-06 2018-05-29 链家网(北京)科技有限公司 业务数据监控方法、装置及***
CN108388478A (zh) * 2018-02-07 2018-08-10 平安普惠企业管理有限公司 日志数据处理方法和***
CN108388478B (zh) * 2018-02-07 2020-10-27 平安普惠企业管理有限公司 日志数据处理方法和***
CN108989314A (zh) * 2018-07-20 2018-12-11 北京木瓜移动科技股份有限公司 一种流式数据传输、处理方法及装置
CN109684370A (zh) * 2018-09-07 2019-04-26 平安普惠企业管理有限公司 日志数据处理方法、***、设备及存储介质
CN109446215B (zh) * 2018-10-31 2022-04-12 北京百分点科技集团股份有限公司 一种基于优先级的实时id拉通引擎方法
CN109446215A (zh) * 2018-10-31 2019-03-08 北京百分点信息科技有限公司 一种基于优先级的实时id拉通引擎方法
CN111371586A (zh) * 2018-12-26 2020-07-03 顺丰科技有限公司 日志数据传输方法、装置和设备
CN111371586B (zh) * 2018-12-26 2023-01-10 顺丰科技有限公司 日志数据传输方法、装置和设备
CN111382022A (zh) * 2018-12-27 2020-07-07 北京神州泰岳软件股份有限公司 监控实时流计算平台的方法、装置、电子设备和存储介质
CN111382022B (zh) * 2018-12-27 2024-02-20 北京神州泰岳软件股份有限公司 监控实时流计算平台的方法、装置、电子设备和存储介质
CN109800128A (zh) * 2019-01-15 2019-05-24 苏州工品汇软件技术有限公司 基于微服务的操作日志记录收集方法
CN110262807A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 集群创建进度日志采集***、方法和装置
CN110262807B (zh) * 2019-06-20 2023-12-26 北京百度网讯科技有限公司 集群创建进度日志采集***、方法和装置
CN110502491A (zh) * 2019-07-25 2019-11-26 北京神州泰岳智能数据技术有限公司 一种日志采集***及其数据传输方法、装置
CN110460876A (zh) * 2019-08-15 2019-11-15 网易(杭州)网络有限公司 直播日志的处理方法、装置及电子设备
CN113190528A (zh) * 2021-04-21 2021-07-30 中国海洋大学 一种并行分布式大数据架构构建方法及***
CN113190528B (zh) * 2021-04-21 2022-12-06 中国海洋大学 一种并行分布式大数据架构构建方法及***
CN113468259A (zh) * 2021-09-01 2021-10-01 北京华品博睿网络技术有限公司 一种数据实时采集入库方法及***

Similar Documents

Publication Publication Date Title
CN103401934A (zh) 获取日志数据的方法和***
CN110784419B (zh) 铁路电务专业数据可视化方法及***
CN110147398B (zh) 一种数据处理方法、装置、介质和电子设备
CN110262807B (zh) 集群创建进度日志采集***、方法和装置
CN111475575B (zh) 基于区块链的数据同步方法、装置及计算机可读存储介质
CN106815254B (zh) 一种数据处理方法和装置
CN106940677A (zh) 一种应用日志数据告警方法及装置
CN103064731A (zh) 一种提高消息队列***性能的装置及其方法
CN105577772B (zh) 素材接收方法、素材上传方法及装置
CN104899274B (zh) 一种内存数据库高效远程访问方法
US11188443B2 (en) Method, apparatus and system for processing log data
CN108270860A (zh) 环境质量在线监测数据的采集***及方法
CN108062368B (zh) 全量数据翻译方法、装置、服务器及存储介质
CN106383764A (zh) 一种数据采集方法和设备
CN111813573A (zh) 管理平台与机器人软件的通信方法及其相关设备
CN113329139B (zh) 视频流处理方法、装置及计算机可读存储介质
TW201733312A (zh) 自動熔斷的消息發送方法、裝置及系統
CN101977361A (zh) 一种批量短信预处理方法
CN104243610A (zh) 一种分布式文件传输服务方法
CN107147527A (zh) 一种Linux集群告警的***及方法
CN107491549A (zh) 一种数据处理方法及***
CN110620699A (zh) 消息到达率确定方法、装置、设备和计算机可读存储介质
CN112883011A (zh) 实时数据处理方法和装置
CN112527530A (zh) 消息处理方法、装置、设备、存储介质及计算机程序产品
CN113779094B (zh) 基于批流一体的数据处理方法、装置、计算机设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20131120

RJ01 Rejection of invention patent application after publication