CN103838867A - 日志处理方法和装置 - Google Patents

日志处理方法和装置 Download PDF

Info

Publication number
CN103838867A
CN103838867A CN201410106430.1A CN201410106430A CN103838867A CN 103838867 A CN103838867 A CN 103838867A CN 201410106430 A CN201410106430 A CN 201410106430A CN 103838867 A CN103838867 A CN 103838867A
Authority
CN
China
Prior art keywords
daily record
cluster server
record data
journal file
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410106430.1A
Other languages
English (en)
Inventor
洪珂
刘华明
卢荣斌
闵杰
李波
陈燕华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangsu Science and Technology Co Ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN201410106430.1A priority Critical patent/CN103838867A/zh
Publication of CN103838867A publication Critical patent/CN103838867A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种日志处理方法和装置。其中,日志处理方法包括:集群服务器接收用户端的日志文件;集群服务器存储日志文件;集群服务器对日志文件进行分析,得到分析结果;以及集群服务器输出分析结果。通过本发明,达到了提高日志处理效率的效果。

Description

日志处理方法和装置
技术领域
本发明涉及日志处理领域,具体而言,涉及一种日志处理方法和装置。
背景技术
现有的日志处理***通常采用传统数据库作为大数据载体,将非结构化数据或半结构化数据存储于数据表中,这样日志数据的读写较为复杂,且性能较低,伸缩性差,无法适应业务的快速变化。传统的日志处理***对海量日志数据的存储和分析的时间很长,且随着日志数据的***式增长,只能一味地靠硬件提高数据处理效率及增加存储量,不仅成本高,处理高维数据的效率也不会提高很多。
传统架构无法实现日志处理***的存储性能的线性扩展,当存储性能压力达到存储的极限时,无法快速有效的提升存储的读写性能。随着日志数据的***式增长,现有的日志处理效率低的问题日益严峻。
针对现有技术中日志处理效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种日志处理方法和装置,以解决日志处理效率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种日志处理方法。根据本发明的日志处理方法包括:集群服务器接收用户端的日志文件;集群服务器存储日志文件;集群服务器对日志文件进行分析,得到分析结果;以及集群服务器输出分析结果。
进一步地,集群服务器存储日志文件包括:集群服务器将日志文件拆分成日志数据;以及集群服务器将日志数据传送到分布式消息队列中,其中,集群服务器从分布式消息队列中读取日志数据,并对日志数据进行分析。
进一步地,在集群服务器将日志数据传送到分布式消息队列中之后,日志处理方法还包括:集群服务器从分布式消息队列中读取日志数据;集群服务器对读取的日志数据进行解析,得到解析结果;集群服务器根据解析结果生成日志数据对应的键值对;以及集群服务器通过将键值对存储到分布式数据库中来存储日志文件。
进一步地,集群服务器对日志文件进行分析包括:集群服务器从分布式数据库中实时获取增量的日志数据;以及集群服务器对增量的日志数据采用流式计算进行统计。
进一步地,集群服务器对日志文件进行分析包括:集群服务器按照预设周期从分布式数据库中获取增量的日志数据;以及集群服务器对增量的日志数据进行统计计算。
为了实现上述目的,根据本发明的另一方面,提供了一种日志处理装置。根据本发明的日志处理装置包括:接收单元,用于使得集群服务器接收用户端的日志文件;存储单元,用于使得集群服务器存储日志文件;分析单元,用于使得集群服务器对日志文件进行分析,得到分析结果;以及输出单元,用于使得集群服务器输出分析结果。
进一步地,存储单元包括:拆分模块,用于使得集群服务器将日志文件拆分成日志数据;以及传送模块,用于使得集群服务器将日志数据传送到分布式消息队列中,其中,集群服务器从分布式消息队列中读取日志数据,并对日志数据进行分析。
进一步地,存储单元还包括:读取模块,用于在集群服务器将日志数据传送到分布式消息队列中之后,使得集群服务器从分布式消息队列中读取日志数据;解析模块,用于使得集群服务器对读取的日志数据进行解析,得到解析结果;生成模块,用于使得集群服务器根据解析结果生成日志数据对应的键值对;以及存储模块,用于使得集群服务器通过将键值对存储到分布式数据库中来存储日志文件。
进一步地,分析单元包括:第一获取模块,用于使得集群服务器从分布式数据库中实时获取增量的日志数据;以及第一计算模块,用于使得集群服务器对增量的日志数据采用流式计算进行统计。
进一步地,分析单元包括:第二获取模块,用于使得集群服务器按照预设周期从分布式数据库中获取增量的日志数据;以及第二计算模块,用于使得集群服务器对增量的日志数据进行统计计算。
通过本发明,采用集群服务器来存储和分析的分类处理来达到海量日志处理的高效能,实现了海量日志分析,解决了现有技术中日志处理效率低的问题,达到了提高日志处理效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的日志处理方法的流程图;
图2是根据本发明实施例一种优选的日志处理方法的流程图;
图3是根据本发明实施例的日志处理装置的示意图;以及
图4是根据本发明实施例的一种优选的日志处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例还提供了一种日志处理方法。该方法运行在计算机设备上。
图1是根据本发明实施例的日志处理方法的流程图。如图1所示,该日志处理方法包括步骤如下:
步骤S102,集群服务器接收用户端的日志文件。
用户端可以是需要采集日志的服务器,也可以是用户那一侧需要采集日志的客户端。例如,用户通过一台服务器对应客户端,不同的客户端分别运行各自的业务,客户端会产生日志。同时,服务器在为个客户端提供后台服务,服务器在运行过程中也会产生一些日志。集群服务器可以接收服务器或者客户端的发送过来的日志文件,用于对日志文件进行处理。集群服务器可以同时接收多个用户端的日志文件,对不同用户端的日志文件分别进行处理。
本发明实施例中,可以在需要采集日志的用户端设置或者搭载一个代理模块,用于定时采集日志文件,发送到集群服务器。用户端通过HTTP协议发送请求及其对应的日志文件,集群服务器响应请求后,通过提供的服务接口接收日志文件,以便于将日志文件存储在集群服务器上。
步骤S104,集群服务器存储日志文件。
在接收到用户端的日志文件之后,可以将日志文件存储到集群服务器。
具体地,存储日志文件可以是先将日志文件拆分成多行日志数据,然后将多行日志数据依次传送至分布式消息队列中,例如kafka消息队列,以便于集群服务器从分布式消息队列中读取日志数据进行分析。在将日志数据依次传送至分布式消息队列之后,集群服务器还可以从分布式消息队列中读取日志数据,对读取的日志数据进行解析,并生成键值对(key-value)的形式存储在分布式数据库中。在存储日志文件的同时,可以获取日志文件的描述信息(如日志文件的路径、创建时间等),存放在集群服务器的数据库中。
步骤S106,集群服务器对日志文件进行分析,得到分析结果。
当用户端将日志文件传输到集群服务器之后,用户可以访问集群服务器,查询集群服务器对日志文件的分析结果。例如,通过日志分析,可以得到用户端业务的运行状况或者故障状况。对日志文件进行分析可以是对日志文件中的信息进行统计,得到统计结果。
由于用户对日志文件的分析结果的查询情况的不同,根据查询要求的及时性可以将日志的分析分为实时分析和离线分析。实时分析通常要求在数秒内返回上亿行日志数据的分析,才能达到不影响用户查询分析结果的目的。对日志数据进行实时统计,这部分日志数据量一般不会太大,可以通过流式计算来统计分析,结果暂存数据库例如redis数据库中,处理后再对分析结果进行存储。
离线分析对统计数据的及时性要求不高,可以隔天或者隔月分析结果进行展示。把解析后的日志数据先存放在分布式数据库如Hbase数据库中,事先根据业务逻辑要求写好任务job,按预设周期定时跑任务来计算统计分析日志。
步骤S108,集群服务器输出分析结果。
输出分析结果可以是将分析结果输出给相应的用户端,在用户端可以通过网页或者应用程序对分析结果进行展示,以便于工作人员进行查看。
本发明实施例中,集群服务器中多个服务器用于接收日志文件,多个服务器用于存储日志文件,以及多个服务器用于分析日志文件,本发明实施例将复杂的运算均分配到各台服务器,实现了整个***的高并发能力,处理能力可以达到传统架构的10倍以上。通过集群服务器来存储和分析的分类处理来达到海量日志处理的高效能,实现了海量日志分析,解决了现有技术中日志处理效率低的问题,达到了提高日志处理效率的效果。
本发明实施例可以是采用云计算原理,对日志文件进行处理。其中,云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。云计算作为一种新兴的技术理念,其提供的云存储(海量数据分布存储技术)、云计算(hadoop的map reduce、流式实时计算)、云安全等很适用于大数据存储、挖掘、分析、预警、统计等需求,且其高效的性能让数据处理的及时和准确得到保障。基于云计算平台的原理,进行前期日志数据存储的选择和根据数据量和查询实时性的要求做了分类处理,最主要的是做到了一个业务任务分析的并行处理,而不是的多任务的并行处理,大大提升了查询效率和统计结果的正确性。
本发明实施例的目的在于解决海量日志的云存储,以及海量日志能够得到及时分析和深入分析挖掘的云计算服务,并且保证日志数据的安全性、准确性。同时解决了日志量的增长只要通过新的计算节点来解决,而无需只是一味地靠硬件提高数据处理效率及增加存储量。
优选地,集群服务器存储日志文件的步骤包括以下步骤:
步骤S1,集群服务器将日志文件拆分成日志数据。
由于不同用户端的日志文件的格式各不相同,而每个日志文件中包含有多个日志记录,将日志文件拆分成日志数据可以是将日志文件拆分成多行日志数据,形成数据行,以便于将不通过格式的日志文件拆分成日志数据传送至分布式消息列中。
步骤S2,集群服务器将日志数据传送到分布式消息队列中。其中,集群服务器从分布式消息队列中读取日志数据,并对日志数据进行分析。
分布式消息队列可以是kafka消息队列,kafka的分布式消息队列比较适合简单的消息传递和分发,能支持大数据量,尤其是日志数据,而且与mapreduce结合做实时分析也能达到很好的效果。
优选地,在集群服务器将日志数据传送到分布式消息队列中的步骤之后,日志处理方法还包括:集群服务器从分布式消息队列中读取日志数据;集群服务器对读取的日志数据进行解析,得到解析结果;集群服务器根据解析结果生成日志数据对应的键值对;以及集群服务器通过将键值对存储到分布式数据库中来存储日志文件。
具体地,从分布式消息队列中读取日志数据,对每条日志数据进行解析,解析得到日志的关键字,例如mac地址、流量、具体应用等,基于这些解析结果生成日志数据对应的键值对,如利用mac地址为key,其他的解析结果为value,然后得到日志数据的键值对,然后把日志数据映射存储到分布式数据库如hbase数据库中。
本发明实施例,利用分布式数据库hbase存储日志解析的数据,由于hbase数据库是基于key-value的数据存储模式,扩展性好,从hbase取数进行分析速度够快,而且结果可以任意存储,要继续存储hbase、关系型数据或者redis均可,不会有不兼容的情况出现。
优选地,集群服务器对日志文件进行分析包括:集群服务器从分布式数据库中实时获取增量的日志数据;以及集群服务器对增量的日志数据采用流式计算进行统计。
由于日志文件的不断累加,存储在分布式数据库中的日志数据也不断增加,本发明实施例中的实时分析可以是集群服务器实时从分布式数据库中实时获取增量的日志数据,对增量的日志数据进行计算统计,避免对已经计算过的日志数据进行重复计算。实时获取增量的日志数据,采用流式计算对增量的数据进行统计。其中,流式计算是采用storm的bolt来完成,bolt中自带过滤、聚合、查询数据库等一系列操作,其中,过滤操作可以在前期的parse分析中完成,以DB表的形式存放在hbase中,只在流式计算中做了map映射把需要的数据组织起来进行聚合计算分析。
具体地,首先,从kafka队列中取出日志数据经过parse解析存放在hbase中,此过程将日志记录进行拆分,映射成DB表的形式存放在hbase中。然后,采用流式计算来进行实时分析统计,流式计算是采用storm的bolt来完成,bolt中自带过滤、聚合、查询数据库等一系列操作,其中,过滤操作可以在前期的parse分析中完成,以DB表的形式存放在hbase中,只在流式计算中做了map映射把需要的数据组织起来进行聚合计算分析。接着将流式计算统计完的结果存放在数据库如redis数据库中。最后,把存储在redis的结果数据依据实际需要存放在hbase数据库,或者关系型数据库mysql中,供用户查询这些统计数据。
上述实施例描述了日志分析中的实时分析的一个流程,根据实时分析流程处理海量日志的实时分析,瞬间把结果反馈给客户,提高日志分析结果的及时性。
优选地,集群服务器对日志文件进行分析包括:集群服务器按照预设周期从分布式数据库中获取增量的日志数据;以及集群服务器对增量的日志数据进行统计计算。
由于用户对日志文件的分析结果的查询情况的不同可以采用离线分析的方式对日志数据进行分析处理。可以预先设置分析的周期即预设周期,预设周期可以根据需要进行设置,例如一个星期或者一个月等。按照预设周期从分布式数据库中获取增量的日志数据,在对增量的日志数据进行统计计算。
具体地,可以通过以下步骤实现:
步骤一,从kafka队列中取出日志数据经过parse解析存放在hbase中,此过程将日志记录进行拆分,映射成DB表的形式存放在hbase中。
步骤二,根据具体需要创建一个个的作业任务,任务逻辑根据实际的业务逻辑而定。
步骤三,创建周期性调度Task,就是设置周期性的调度作业任务,比如预先创建任务1,每天零点跑任务1。
步骤四,到达的调度时间,依据调度内容启动任务。
步骤五,执行具体的任务逻辑计算统计日志数据。
步骤六,如果任务执行失败,则通过预先设置的通知模块以短信或者mail的方式通知相关用户,用户在手动排查原因后重启作业任务。
步骤七,任务执行成功后,把执行结果存放在hbase数据库中,方便用户查询。
步骤八,任务执行成功并且把结果存放在hbase数据库后,可以通过通知模块以短信或者mail的方式通知用户,任务执行成功。
上述实施例描述了日志分析中的离线分析的一个流程,根据这样的离线分析流程并行处理海量日志的离线分析,并且把结果上报给前端供用户展示。
图2是根据本发明实施例一种优选的日志处理方法的流程图。如图2所示,该日志处理方法包括步骤如下:
步骤202,提取用户端的日志文件。提取日志文件可以是提取预设关键字相关的日志文件。通过设计一个脚本类型的agent代理模块,将其搭建在用户端的服务器上,基于业务需要每隔一定时间采集需要的日志。提取用户端的日志文件之后,可以将提取的日志文件推送到集群服务器。
步骤204,将推送出的日志文件存储在集群服务器。集群服务器上存储日志文件包括:首先是存储日志文件,其次是把日志的描述文件(包括日志存放的路径、大小、时间等)存储在redis中。
步骤206,集群服务器读取日志数据,把日志数据传送到分布式消息队列中。
步骤208,集群服务器从分布式消息队列中读取日志数据,并对日志数据进行解析。先进行日志解析,把有用的数据解析出来,解析后的数据存储在hbase相应的表字段中。
步骤210,读取日志解析后的数据进行分析,得到分析结果。对解析后的数据可以采取实时分析和离线分析两种方式。
步骤212,把分析结果通过展示在用户端。可以是通过Thrift以网页或者手机APP的形式来展现。
上述实施例描述了一个日志从采集到分析最后到结果展示整个一个流程,通过集群服务器来存储和分析的分类处理来达到海量日志处理的高效能,实现了海量日志分析。
下面通过本发明实施例的日志处理方法的一个应用场景来详细描述本发明。
对于聚合视频流量日志的处理过程包括:首先,采集聚合视频流量日志。然后,集群服务器把采集到的流量日志拆分成日志数据行传送到kfaka队列中。
在流量日志传送到kfaka队列中之后,集群服务器从kfaka队列中依次读取日志数据,对每条日志进行解析,解析成一些关键字,比如mac地址、流量、具体应用等。
集群服务器解析后的结果,会形成日志数据对应的key-value的模式,如利用mac为key,其余为value,把日志数据映射存储到hbase中。
然后可以根据需要,采用实时分析或者离线分析的方式对日志文件进行分析统计。其中,离线分析可以是每2H作为一次调度周期,调度时刻一到启动事先设计好的任务,增量计算这2H的流量情况并且更新每月的流量记录。同时告知用户任务的执行情况。
实时分析可根据查询指令,迅速查询上一次任务跑完到查询点的流量信息,并把实时查询的结果和上一次任务跑完的统计数据作为实际的流量数据反馈给用户。
最后,将分析结果界面展示给用户。
基于云计算平台的原理,进行前期数据存储的选择和根据数据量和查询实时性的要求做了分类处理,最主要的是做到了一个业务任务分析的并行处理,而不是的多任务的并行处理,大大提升了查询效率和统计结果的正确性。
本发明实施例提供了一种日志处理装置,该装置可以通过集群服务器实现其功能。需要说明的是,本发明实施例的日志处理装置可以用于执行本发明实施例所提供的日志处理方法,本发明实施例的日志处理方法也可以通过本发明实施例所提供的日志处理装置来执行。
图3是根据本发明实施例的日志处理装置的示意图。如图3所示,该日志处理装置包括接收单元10、存储单元30、分析单元50和输出单元70。
接收单元10用于使得集群服务器接收用户端的日志文件。
用户端可以是需要采集日志的服务器,也可以是用户那一侧需要采集日志的客户端。例如,用户通过一台服务器对应客户端,不同的客户端分别运行各自的业务,客户端会产生日志。同时,服务器在为个客户端提供后台服务,服务器在运行过程中也会产生一些日志。集群服务器可以接收服务器或者客户端的发送过来的日志文件,用于对日志文件进行处理。集群服务器可以同时接收多个用户端的日志文件,对不同用户端的日志文件分别进行处理。
本发明实施例中,可以在需要采集日志的用户端设置或者搭载一个代理模块,用于定时采集日志文件,发送到集群服务器。用户端通过HTTP协议发送请求及其对应的日志文件,集群服务器响应请求后,通过提供的服务接口接收日志文件,以便于将日志文件存储在集群服务器上。
存储单元30用于使得集群服务器存储日志文件。
在接收到用户端的日志文件之后,可以将日志文件存储到集群服务器。
具体地,存储日志文件可以是先将日志文件拆分成多行日志数据,然后将多行日志数据依次传送至分布式消息队列中,例如kafka消息队列,以便于集群服务器从分布式消息队列中读取日志数据进行分析。在将日志数据依次传送至分布式消息队列之后,集群服务器还可以从分布式消息队列中读取日志数据,对读取的日志数据进行解析,并生成键值对(key-value)的形式存储在分布式数据库中。在存储日志文件的同时,可以获取日志文件的描述信息(如日志文件的路径、创建时间等),存放在集群服务器的数据库中。
分析单元50用于使得集群服务器对日志文件进行分析,得到分析结果。
当用户端将日志文件传输到集群服务器之后,用户可以访问集群服务器,查询集群服务器对日志文件的分析结果。例如,通过日志分析,可以得到用户端业务的运行状况或者故障状况。对日志文件进行分析可以是对日志文件中的信息进行统计,得到统计结果。
由于用户对日志文件的分析结果的查询情况的不同,根据查询要求的及时性可以将日志的分析分为实时分析和离线分析。实时分析通常要求在数秒内返回上亿行日志数据的分析,才能达到不影响用户查询分析结果的目的。对日志数据进行实时统计,这部分日志数据量一般不会太大,可以通过流式计算来统计分析,结果暂存数据库例如redis数据库中,处理后再对分析结果进行存储。
离线分析对统计数据的及时性要求不高,可以隔天或者隔月分析结果进行展示。把解析后的日志数据先存放在分布式数据库如Hbase数据库中,事先根据业务逻辑要求写好任务job,按预设周期定时跑任务来计算统计分析日志。
输出单元70用于使得集群服务器输出分析结果。
输出分析结果可以是将分析结果输出给相应的用户端,在用户端可以通过网页或者应用程序对分析结果进行展示,以便于工作人员进行查看。
本发明实施例中,集群服务器中多个服务器用于接收日志文件,多个服务器用于存储日志文件,以及多个服务器用于分析日志文件,本发明实施例将复杂的运算均分配到各台服务器,实现了整个***的高并发能力,处理能力可以达到传统架构的10倍以上。通过集群服务器来存储和分析的分类处理来达到海量日志处理的高效能,实现了海量日志分析,解决了现有技术中日志处理效率低的问题,达到了提高日志处理效率的效果。
本发明实施例可以是采用云计算原理,对日志文件进行处理。其中,云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。云计算作为一种新兴的技术理念,其提供的云存储(海量数据分布存储技术)、云计算(hadoop的map reduce、流式实时计算)、云安全等很适用于大数据存储、挖掘、分析、预警、统计等需求,且其高效的性能让数据处理的及时和准确得到保障。基于云计算平台的原理,进行前期日志数据存储的选择和根据数据量和查询实时性的要求做了分类处理,最主要的是做到了一个业务任务分析的并行处理,而不是的多任务的并行处理,大大提升了查询效率和统计结果的正确性。
本发明实施例的目的在于解决海量日志的云存储,以及海量日志能够得到及时分析和深入分析挖掘的云计算服务,并且保证日志数据的安全性、准确性。同时解决了日志量的增长只要通过新的计算节点来解决,而无需只是一味地靠硬件提高数据处理效率及增加存储量。
优选地,存储单元包括拆分模块和传送模块。
拆分模块用于使得集群服务器将日志文件拆分成日志数据。
由于不同用户端的日志文件的格式各不相同,而每个日志文件中包含有多个日志记录,将日志文件拆分成日志数据可以是将日志文件拆分成多行日志数据,形成数据行,以便于将不通过格式的日志文件拆分成日志数据传送至分布式消息列中。
传送模块用于使得集群服务器将日志数据传送到分布式消息队列中。其中,集群服务器从分布式消息队列中读取日志数据,并对日志数据进行分析。
分布式消息队列可以是kafka消息队列,kafka的分布式消息队列比较适合简单的消息传递和分发,能支持大数据量,尤其是日志数据,而且与mapreduce结合做实时分析也能达到很好的效果。
优选地,存储单元还包括读取模块、解析模块、生成模块和存储模块。
读取模块用于在集群服务器将日志数据传送到分布式消息队列中之后,使得集群服务器从分布式消息队列中读取日志数据。解析模块用于使得集群服务器对读取的日志数据进行解析,得到解析结果。生成模块用于使得集群服务器根据解析结果生成日志数据对应的键值对。存储模块用于使得集群服务器通过将键值对存储到分布式数据库中来存储日志文件。
具体地,从分布式消息队列中读取日志数据,对每条日志数据进行解析,解析得到日志的关键字,例如mac地址、流量、具体应用等,基于这些解析结果生成日志数据对应的键值对,如利用mac地址为key,其他的解析结果为value,然后得到日志数据的键值对,然后把日志数据映射存储到分布式数据库如hbase数据库中。
本发明实施例,利用分布式数据库hbase存储日志解析的数据,由于hbase数据库是基于key-value的数据存储模式,扩展性好,从hbase取数进行分析速度够快,而且结果可以任意存储,要继续存储hbase、关系型数据或者redis均可,不会有不兼容的情况出现。
优选地,分析单元包括第一获取模块和第一计算模块。
第一获取模块用于使得集群服务器从分布式数据库中实时获取增量的日志数据。第一计算模块用于使得集群服务器对增量的日志数据采用流式计算进行统计。
由于日志文件的不断累加,存储在分布式数据库中的日志数据也不断增加,本发明实施例中的实时分析可以是集群服务器实时从分布式数据库中实时获取增量的日志数据,对增量的日志数据进行计算统计,避免对已经计算过的日志数据进行重复计算。实时获取增量的日志数据,采用流式计算对增量的数据进行统计。其中,流式计算是采用storm的bolt来完成,bolt中自带过滤、聚合、查询数据库等一系列操作,其中,过滤操作可以在前期的parse分析中完成,以DB表的形式存放在hbase中,只在流式计算中做了map映射把需要的数据组织起来进行聚合计算分析。
具体地,首先,从kafka队列中取出日志数据经过parse解析存放在hbase中,此过程将日志记录进行拆分,映射成DB表的形式存放在hbase中。然后,采用流式计算来进行实时分析统计,流式计算是采用storm的bolt来完成,bolt中自带过滤、聚合、查询数据库等一系列操作,其中,过滤操作可以在前期的parse分析中完成,以DB表的形式存放在hbase中,只在流式计算中做了map映射把需要的数据组织起来进行聚合计算分析。接着将流式计算统计完的结果存放在数据库如redis数据库中。最后,把存储在redis的结果数据依据实际需要存放在hbase数据库,或者关系型数据库mysql中,供用户查询这些统计数据。
上述实施例描述了日志分析中的实时分析的一个流程,根据实时分析流程处理海量日志的实时分析,瞬间把结果反馈给客户,提高日志分析结果的及时性。
优选地,分析单元包括第二获取模块和第二计算模块。
第二获取模块用于使得集群服务器按照预设周期从分布式数据库中获取增量的日志数据。第二计算模块用于使得集群服务器对增量的日志数据进行统计计算。
由于用户对日志文件的分析结果的查询情况的不同可以采用离线分析的方式对日志数据进行分析处理。可以预先设置分析的周期即预设周期,预设周期可以根据需要进行设置,例如一个星期或者一个月等。按照预设周期从分布式数据库中获取增量的日志数据,在对增量的日志数据进行统计计算。
具体地,可以通过以下步骤实现:
步骤一,从kafka队列中取出日志数据经过parse解析存放在hbase中,此过程将日志记录进行拆分,映射成DB表的形式存放在hbase中。
步骤二,根据具体需要创建一个个的作业任务,任务逻辑根据实际的业务逻辑而定。
步骤三,创建周期性调度Task,就是设置周期性的调度作业任务,比如预先创建任务1,每天零点跑任务1。
步骤四,到达的调度时间,依据调度内容启动任务。
步骤五,执行具体的任务逻辑计算统计日志数据。
步骤六,如果任务执行失败,则通过预先设置的通知模块以短信或者mail的方式通知相关用户,用户在手动排查原因后重启作业任务。
步骤七,任务执行成功后,把执行结果存放在hbase数据库中,方便用户查询。
步骤八,任务执行成功并且把结果存放在hbase数据库后,可以通过通知模块以短信或者mail的方式通知用户,任务执行成功。
上述实施例描述了日志分析中的离线分析的一个流程,根据这样的离线分析流程并行处理海量日志的离线分析,并且把结果上报给前端供用户展示。
图4是根据本发明实施例的一种优选的日志处理装置的示意图。如图4所示,该实施例的日志处理装置包括日志采集模块20、日志存储模块40、日志分析模块60和显示模块80。
日志采集模块20用于从外部***上提取相关日志。外部***可以是需要采集日志的服务器,也可以是用户那一侧需要采集日志的客户端,即,本发明实施例中提供的用户端。具体地,可以是通过设计的一个agent代理,搭载在需要采集日志的服务器上,定时采集相关日志往存储模块传送。
日志存储模块40用于把采集来的日志存储在collector集群服务器上。日志存储模块40具有两部分功能,一是通过HTTP协议将采集来的日志文件存放在集群服务器上,并且把日志文件的描述信息(例如文件路径、创建时间等)存放在Redis中;二是processor处理过程,通过redis读取日志文件的描述信息把具体日志文件数据传送到kafka消息队列中,供日志分析模块60调用分析。日志存储模块40可以通过本发明实施例中的存储单元来实现其功能。
日志分析模块60用于计算统计日志相关数据,根据查询要求的及时性分为实时分析和离线分析。日志分析模块60可以通过本发明实施例的分析单元实现其功能。
实时分析通常要求在数秒内返回上亿行数据的分析,从日志存储模块40中分发出即时的日志数据进行实时统计,这部分数据量一般不会太大,可以通过流式计算来统计分析,结果暂存redis中,处理后往hbase中存放,方便取数前端展示。
离线分析对统计数据的及时性要求不高,可以隔天或者隔月展示。从日志存储模块中把解析后的日志数据先存放在Hbase数据库中,根据业务逻辑要求预先写好任务job,定时跑任务来计算统计分析日志。
显示模块80用于将日志分析结果通过网页或者手机APP展示给用户。
本发明实施例的优点在于:第一,采用可搭可卸的agent代理采集日志,可以方便配置采集日志类型,不需要也可以随时卸载,方便快捷,无需重新定制开发。第二,采用集群存储,作为一个日志中心,可接受所有传送过来的日志,集中进行key-value处理后进行存储,尤其是随着日志量的增长,只要通过增加硬盘、内存等硬件来扩容即可,即方便快捷又节省开销。第三,日志分析模块60针对日志量和实际需求进行分类处理,对大数据量的分析速率较快,且准确性较高,对于结果的反馈可自动通知用户,及时性得到很好的保障。第四,利用hbase存储日志解析的数据,由于hbase是基于key value的数据存储模式,扩展性好,从hbase数据库取数进行分析速度够快,而且结果可以任意存储,要继续存储hbase数据库、关系型数据或者redis数据库均可,不会有不兼容的情况出现。
综上,本发明具有如下效果:
高运算能力,将复杂的运算均分配到各台服务器,实现了整个装置的高并发能力,处理能力是传统架构的10倍以上。
在用户实际应用环境中,各种不同类型的软硬件故障发生的概率较高,如硬件损坏、网络中断、***崩溃等异常都会引起服务中断,甚至造成数据丢失。本发明实施例是一个构建在云平台之上的海量日志的日志处理装置,因此它可利用云计算环境的多主机冗余来保障服务的高可靠性。
本发明实施例能够将所有用户端的本地存储做汇总,可支持PB规模的存储容量,且非常容易进行存储扩容,整个扩展过程不会影响服务的持续运行。
本发明实施例使用的软件产品为开源产品,硬件采用低端的PC-SERVER,总成本较低。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种日志处理方法,其特征在于,包括:
集群服务器接收用户端的日志文件;
所述集群服务器存储所述日志文件;
所述集群服务器对所述日志文件进行分析,得到分析结果;以及
所述集群服务器输出所述分析结果。
2.根据权利要求1所述的日志处理方法,其特征在于,所述集群服务器存储所述日志文件包括:
所述集群服务器将所述日志文件拆分成日志数据;以及
所述集群服务器将所述日志数据传送到分布式消息队列中,
其中,所述集群服务器从所述分布式消息队列中读取所述日志数据,并对所
述日志数据进行分析。
3.根据权利要求2所述的日志处理方法,其特征在于,在所述集群服务器将所述日志数据传送到分布式消息队列中之后,所述日志处理方法还包括:
所述集群服务器从所述分布式消息队列中读取所述日志数据;
所述集群服务器对读取的日志数据进行解析,得到解析结果;
所述集群服务器根据所述解析结果生成所述日志数据对应的键值对;以及
所述集群服务器通过将所述键值对存储到分布式数据库中来存储所述日志文件。
4.根据权利要求3所述的日志处理方法,其特征在于,所述集群服务器对所述日志文件进行分析包括:
所述集群服务器从所述分布式数据库中实时获取增量的日志数据;以及
所述集群服务器对所述增量的日志数据采用流式计算进行统计。
5.根据权利要求3所述的日志处理方法,其特征在于,所述集群服务器对所述日志文件进行分析包括:
所述集群服务器按照预设周期从所述分布式数据库中获取增量的日志数据;以及
所述集群服务器对所述增量的日志数据进行统计计算。
6.一种日志处理装置,其特征在于,包括:
接收单元,用于使得集群服务器接收用户端的日志文件;
存储单元,用于使得所述集群服务器存储所述日志文件;
分析单元,用于使得所述集群服务器对所述日志文件进行分析,得到分析结果;以及
输出单元,用于使得所述集群服务器输出所述分析结果。
7.根据权利要求6所述的日志处理装置,其特征在于,所述存储单元包括:
拆分模块,用于使得所述集群服务器将所述日志文件拆分成日志数据;以及
传送模块,用于使得所述集群服务器将所述日志数据传送到分布式消息队列中,
其中,所述集群服务器从所述分布式消息队列中读取所述日志数据,并对所述日志数据进行分析。
8.根据权利要求7所述的日志处理装置,其特征在于,所述存储单元还包括:
读取模块,用于在所述集群服务器将所述日志数据传送到分布式消息队列中之后,使得所述集群服务器从所述分布式消息队列中读取所述日志数据;
解析模块,用于使得所述集群服务器对读取的日志数据进行解析,得到解析结果;
生成模块,用于使得所述集群服务器根据所述解析结果生成所述日志数据对应的键值对;以及
存储模块,用于使得所述集群服务器通过将所述键值对存储到分布式数据库中来存储所述日志文件。
9.根据权利要求8所述的日志处理装置,其特征在于,所述分析单元包括:
第一获取模块,用于使得所述集群服务器从所述分布式数据库中实时获取增量的日志数据;以及
第一计算模块,用于使得所述集群服务器对所述增量的日志数据采用流式计算进行统计。
10.根据权利要求8所述的日志处理装置,其特征在于,所述分析单元包括:
第二获取模块,用于使得所述集群服务器按照预设周期从所述分布式数据库中获取增量的日志数据;以及
第二计算模块,用于使得所述集群服务器对所述增量的日志数据进行统计计算。
CN201410106430.1A 2014-03-20 2014-03-20 日志处理方法和装置 Pending CN103838867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410106430.1A CN103838867A (zh) 2014-03-20 2014-03-20 日志处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410106430.1A CN103838867A (zh) 2014-03-20 2014-03-20 日志处理方法和装置

Publications (1)

Publication Number Publication Date
CN103838867A true CN103838867A (zh) 2014-06-04

Family

ID=50802363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410106430.1A Pending CN103838867A (zh) 2014-03-20 2014-03-20 日志处理方法和装置

Country Status (1)

Country Link
CN (1) CN103838867A (zh)

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113605A (zh) * 2014-07-30 2014-10-22 浪潮软件股份有限公司 一种企业云应用开发的监控处理方法
CN104486107A (zh) * 2014-12-05 2015-04-01 曙光信息产业(北京)有限公司 一种日志采集装置及方法
CN104501848A (zh) * 2014-12-04 2015-04-08 国家电网公司 一种变电设备的数据接入方法及***
CN104516970A (zh) * 2014-12-23 2015-04-15 广州酷狗计算机科技有限公司 一种进行日志分析的方法和装置
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与***
CN105205167A (zh) * 2015-10-10 2015-12-30 国网信息通信产业集团有限公司 一种日志数据***
CN105278996A (zh) * 2015-11-03 2016-01-27 亚信科技(南京)有限公司 一种日志采集方法、装置及日志服务***
CN105337748A (zh) * 2014-06-20 2016-02-17 北京奇虎科技有限公司 日志文件收集方法和***及服务器和服务集群控制装置
CN105426292A (zh) * 2015-10-29 2016-03-23 网易(杭州)网络有限公司 一种游戏日志实时处理***及方法
CN105512297A (zh) * 2015-12-10 2016-04-20 中国测绘科学研究院 一种基于分布式流式计算的空间数据处理方法与***
CN105589856A (zh) * 2014-10-21 2016-05-18 阿里巴巴集团控股有限公司 日志数据处理方法及***
CN105590259A (zh) * 2015-11-04 2016-05-18 ***股份有限公司 交易***的诊断装置和方法
CN105608188A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 数据处理方法和数据处理装置
CN105656706A (zh) * 2014-11-14 2016-06-08 北京通达无限科技有限公司 业务数据的处理方法及设备
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及***、查询方法及装置
CN105718295A (zh) * 2016-01-27 2016-06-29 四川长虹电器股份有限公司 数据采集及解析方法及***
CN105812202A (zh) * 2014-12-31 2016-07-27 阿里巴巴集团控股有限公司 日志实时监控预警方法及其装置
CN105933736A (zh) * 2016-04-18 2016-09-07 天脉聚源(北京)传媒科技有限公司 一种日志处理方法及装置
CN106055703A (zh) * 2016-06-22 2016-10-26 北京科摩仕捷科技有限公司 一种日志实时分析方法及***
CN106126730A (zh) * 2016-07-01 2016-11-16 百势软件(北京)有限公司 一种批量生成告警信息的方法及装置
CN106156079A (zh) * 2015-03-31 2016-11-23 西门子公司 日志数据处理方法和装置
CN106201739A (zh) * 2016-06-29 2016-12-07 上海浦东发展银行股份有限公司***中心 一种基于Redis的Storm的远程调用方法
CN106254086A (zh) * 2015-06-04 2016-12-21 重庆达特科技有限公司 云日志集中管理,分析,监控和报警平台
CN106294721A (zh) * 2016-08-08 2017-01-04 无锡天脉聚源传媒科技有限公司 一种集群数据统计及导出方法及装置
CN106354434A (zh) * 2016-08-31 2017-01-25 中国人民大学 日志数据的存储方法及***
CN106383917A (zh) * 2016-11-11 2017-02-08 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理方法
CN106406858A (zh) * 2016-08-30 2017-02-15 国电南瑞科技股份有限公司 一种基于配置文件的流式统计定义及运行方法
CN106407232A (zh) * 2015-08-03 2017-02-15 天脉聚源(北京)科技有限公司 一种对电视购物进行统计分析的方法和***
CN106484709A (zh) * 2015-08-26 2017-03-08 北京神州泰岳软件股份有限公司 一种日志数据的审计方法和审计装置
CN106528798A (zh) * 2016-11-11 2017-03-22 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理***
CN106681846A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 日志数据的统计方法、装置及***
CN106792876A (zh) * 2016-12-26 2017-05-31 浙江省公众信息产业有限公司 端到端网络感知评估方法和***
CN106850295A (zh) * 2017-02-04 2017-06-13 郑州云海信息技术有限公司 一种私有化云平台的日志采集监控方法
CN106992886A (zh) * 2017-04-05 2017-07-28 国家电网公司 一种基于分布式存储的日志分析方法及装置
CN107038162A (zh) * 2016-02-03 2017-08-11 滴滴(中国)科技有限公司 基于数据库日志的实时数据查询方法和***
CN107315830A (zh) * 2017-07-10 2017-11-03 深圳市视维科技股份有限公司 一种智能分析文档的方法及***
CN107395446A (zh) * 2017-09-18 2017-11-24 北京奇虎科技有限公司 日志实时处理***
CN107463648A (zh) * 2017-07-26 2017-12-12 苏州乐麟无线信息科技有限公司 基于分布式通信的数据分析方法及***
CN107526808A (zh) * 2017-08-22 2017-12-29 中国联合网络通信集团有限公司 实时数据处理方法及装置
CN107609129A (zh) * 2017-09-18 2018-01-19 北京奇虎科技有限公司 日志实时处理***
CN107908748A (zh) * 2017-11-17 2018-04-13 南京感度信息技术有限责任公司 基于大数据的网站用户行为数据采集方法、***及应用
CN108073625A (zh) * 2016-11-14 2018-05-25 北京京东尚科信息技术有限公司 用于元数据信息管理的***及方法
CN108073716A (zh) * 2017-12-27 2018-05-25 北京诸葛找房信息技术有限公司 在线实时用户画像生成方法
CN108133043A (zh) * 2018-01-12 2018-06-08 福建星瑞格软件有限公司 一种基于大数据的服务器运行日志结构化存储方法
CN108170538A (zh) * 2017-12-08 2018-06-15 北京奇艺世纪科技有限公司 一种信息处理方法、装置以及电子设备
CN108234210A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种内容分发网络的日志处理方法和装置
CN108563744A (zh) * 2018-04-12 2018-09-21 武汉斗鱼网络科技有限公司 基于Redis数据库的慢查询方法、装置及终端设备
CN108616556A (zh) * 2016-12-13 2018-10-02 阿里巴巴集团控股有限公司 数据处理方法、装置和***
CN108804237A (zh) * 2017-05-05 2018-11-13 北京京东尚科信息技术有限公司 数据实时统计方法、装置、存储介质和电子设备
CN108874524A (zh) * 2018-06-21 2018-11-23 山东浪潮商用***有限公司 大数据分布式任务调度***
CN109408330A (zh) * 2018-10-15 2019-03-01 东软集团股份有限公司 日志分析方法、装置、终端设备及可读存储介质
CN109428914A (zh) * 2017-08-24 2019-03-05 北京国双科技有限公司 监控方法和装置、存储介质、处理器
CN109508318A (zh) * 2018-11-15 2019-03-22 北京金山云网络技术有限公司 一种存储量统计方法、装置、电子设备和可读存储介质
CN109522285A (zh) * 2018-11-14 2019-03-26 北京首信科技股份有限公司 一种日志数据统计方法及***
CN109933505A (zh) * 2019-03-14 2019-06-25 深圳市珍爱捷云信息技术有限公司 日志处理方法、装置、计算机设备和存储介质
CN110032546A (zh) * 2019-04-18 2019-07-19 厦门大学嘉庚学院 一种快速满足临时性日志分析***及其方法
CN110196794A (zh) * 2018-02-26 2019-09-03 深圳市丰巢科技有限公司 一种基于快递柜的操作日志处理方法及***
CN110321273A (zh) * 2019-07-09 2019-10-11 政采云有限公司 一种业务统计方法及装置
CN110362544A (zh) * 2019-05-27 2019-10-22 中国平安人寿保险股份有限公司 日志处理***、日志处理方法、终端及存储介质
CN110674211A (zh) * 2019-09-29 2020-01-10 南京大学 一种Oracle数据库AWR报告的自动解析方法和设备
CN110769290A (zh) * 2019-11-13 2020-02-07 北京齐尔布莱特科技有限公司 一种播放事件更新方法、***和计算设备
CN110968561A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 日志存储方法和分布式***
CN112100148A (zh) * 2020-07-31 2020-12-18 紫光云(南京)数字技术有限公司 一种打包日志的增量处理方法
CN112134719A (zh) * 2019-06-25 2020-12-25 中兴通讯股份有限公司 一种分析基站安全日志的方法和***
CN112905618A (zh) * 2021-04-06 2021-06-04 浙江网商银行股份有限公司 数据处理方法以及装置
CN113010480A (zh) * 2020-03-26 2021-06-22 腾讯科技(深圳)有限公司 日志处理方法、装置、电子设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏彬: "基于分布式日志***的数据云服务平台设计与实现", 《万方数据库浙江大学硕士学位论文》 *

Cited By (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337748A (zh) * 2014-06-20 2016-02-17 北京奇虎科技有限公司 日志文件收集方法和***及服务器和服务集群控制装置
CN104113605A (zh) * 2014-07-30 2014-10-22 浪潮软件股份有限公司 一种企业云应用开发的监控处理方法
CN105589856B (zh) * 2014-10-21 2019-04-26 阿里巴巴集团控股有限公司 日志数据处理方法及***
CN105589856A (zh) * 2014-10-21 2016-05-18 阿里巴巴集团控股有限公司 日志数据处理方法及***
CN105656706A (zh) * 2014-11-14 2016-06-08 北京通达无限科技有限公司 业务数据的处理方法及设备
CN104501848A (zh) * 2014-12-04 2015-04-08 国家电网公司 一种变电设备的数据接入方法及***
CN104486107A (zh) * 2014-12-05 2015-04-01 曙光信息产业(北京)有限公司 一种日志采集装置及方法
CN104516970B (zh) * 2014-12-23 2018-06-22 广州酷狗计算机科技有限公司 一种进行日志分析的方法和装置
CN104516970A (zh) * 2014-12-23 2015-04-15 广州酷狗计算机科技有限公司 一种进行日志分析的方法和装置
CN105812202A (zh) * 2014-12-31 2016-07-27 阿里巴巴集团控股有限公司 日志实时监控预警方法及其装置
CN104579789A (zh) * 2015-01-23 2015-04-29 广东能龙教育股份有限公司 一种基于消息队列的海量用户行为数据采集方法与***
CN106156079A (zh) * 2015-03-31 2016-11-23 西门子公司 日志数据处理方法和装置
CN106254086A (zh) * 2015-06-04 2016-12-21 重庆达特科技有限公司 云日志集中管理,分析,监控和报警平台
CN106407232A (zh) * 2015-08-03 2017-02-15 天脉聚源(北京)科技有限公司 一种对电视购物进行统计分析的方法和***
CN106484709A (zh) * 2015-08-26 2017-03-08 北京神州泰岳软件股份有限公司 一种日志数据的审计方法和审计装置
CN105205167A (zh) * 2015-10-10 2015-12-30 国网信息通信产业集团有限公司 一种日志数据***
CN105426292A (zh) * 2015-10-29 2016-03-23 网易(杭州)网络有限公司 一种游戏日志实时处理***及方法
CN105426292B (zh) * 2015-10-29 2018-03-16 网易(杭州)网络有限公司 一种游戏日志实时处理***及方法
CN105278996A (zh) * 2015-11-03 2016-01-27 亚信科技(南京)有限公司 一种日志采集方法、装置及日志服务***
CN105590259A (zh) * 2015-11-04 2016-05-18 ***股份有限公司 交易***的诊断装置和方法
CN105512297A (zh) * 2015-12-10 2016-04-20 中国测绘科学研究院 一种基于分布式流式计算的空间数据处理方法与***
CN105608188A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 数据处理方法和数据处理装置
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及***、查询方法及装置
CN105718295A (zh) * 2016-01-27 2016-06-29 四川长虹电器股份有限公司 数据采集及解析方法及***
CN107038162A (zh) * 2016-02-03 2017-08-11 滴滴(中国)科技有限公司 基于数据库日志的实时数据查询方法和***
CN107038162B (zh) * 2016-02-03 2021-03-02 北京嘀嘀无限科技发展有限公司 基于数据库日志的实时数据查询方法和***
CN105933736A (zh) * 2016-04-18 2016-09-07 天脉聚源(北京)传媒科技有限公司 一种日志处理方法及装置
CN106055703A (zh) * 2016-06-22 2016-10-26 北京科摩仕捷科技有限公司 一种日志实时分析方法及***
CN106201739A (zh) * 2016-06-29 2016-12-07 上海浦东发展银行股份有限公司***中心 一种基于Redis的Storm的远程调用方法
CN106126730A (zh) * 2016-07-01 2016-11-16 百势软件(北京)有限公司 一种批量生成告警信息的方法及装置
CN106126730B (zh) * 2016-07-01 2019-10-11 百势软件(北京)有限公司 一种批量生成告警信息的方法及装置
CN106294721A (zh) * 2016-08-08 2017-01-04 无锡天脉聚源传媒科技有限公司 一种集群数据统计及导出方法及装置
CN106294721B (zh) * 2016-08-08 2020-05-19 无锡天脉聚源传媒科技有限公司 一种集群数据统计及导出方法及装置
CN106406858A (zh) * 2016-08-30 2017-02-15 国电南瑞科技股份有限公司 一种基于配置文件的流式统计定义及运行方法
CN106406858B (zh) * 2016-08-30 2019-08-16 国电南瑞科技股份有限公司 一种基于配置文件的流式统计定义及运行方法
CN106354434B (zh) * 2016-08-31 2019-07-23 中国人民大学 日志数据的存储方法及***
CN106354434A (zh) * 2016-08-31 2017-01-25 中国人民大学 日志数据的存储方法及***
CN106528798A (zh) * 2016-11-11 2017-03-22 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理***
CN106383917A (zh) * 2016-11-11 2017-02-08 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理方法
CN108073625B (zh) * 2016-11-14 2021-03-30 北京京东尚科信息技术有限公司 用于元数据信息管理的***及方法
CN108073625A (zh) * 2016-11-14 2018-05-25 北京京东尚科信息技术有限公司 用于元数据信息管理的***及方法
CN108616556A (zh) * 2016-12-13 2018-10-02 阿里巴巴集团控股有限公司 数据处理方法、装置和***
CN108616556B (zh) * 2016-12-13 2021-01-19 阿里巴巴集团控股有限公司 数据处理方法、装置和***
CN106792876A (zh) * 2016-12-26 2017-05-31 浙江省公众信息产业有限公司 端到端网络感知评估方法和***
CN106681846B (zh) * 2016-12-29 2020-10-13 北京奇虎科技有限公司 日志数据的统计方法、装置及***
CN106681846A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 日志数据的统计方法、装置及***
CN106850295A (zh) * 2017-02-04 2017-06-13 郑州云海信息技术有限公司 一种私有化云平台的日志采集监控方法
CN106992886A (zh) * 2017-04-05 2017-07-28 国家电网公司 一种基于分布式存储的日志分析方法及装置
CN108804237A (zh) * 2017-05-05 2018-11-13 北京京东尚科信息技术有限公司 数据实时统计方法、装置、存储介质和电子设备
CN107315830A (zh) * 2017-07-10 2017-11-03 深圳市视维科技股份有限公司 一种智能分析文档的方法及***
CN107463648A (zh) * 2017-07-26 2017-12-12 苏州乐麟无线信息科技有限公司 基于分布式通信的数据分析方法及***
CN107526808A (zh) * 2017-08-22 2017-12-29 中国联合网络通信集团有限公司 实时数据处理方法及装置
CN107526808B (zh) * 2017-08-22 2020-09-01 中国联合网络通信集团有限公司 实时数据处理方法及装置
CN109428914A (zh) * 2017-08-24 2019-03-05 北京国双科技有限公司 监控方法和装置、存储介质、处理器
CN109428914B (zh) * 2017-08-24 2022-01-25 北京国双科技有限公司 监控方法和装置、存储介质、处理器
CN107395446A (zh) * 2017-09-18 2017-11-24 北京奇虎科技有限公司 日志实时处理***
CN107395446B (zh) * 2017-09-18 2021-07-23 北京奇虎科技有限公司 日志实时处理***
CN107609129A (zh) * 2017-09-18 2018-01-19 北京奇虎科技有限公司 日志实时处理***
CN107908748A (zh) * 2017-11-17 2018-04-13 南京感度信息技术有限责任公司 基于大数据的网站用户行为数据采集方法、***及应用
CN108170538B (zh) * 2017-12-08 2021-05-28 北京奇艺世纪科技有限公司 一种信息处理方法、装置以及电子设备
CN108170538A (zh) * 2017-12-08 2018-06-15 北京奇艺世纪科技有限公司 一种信息处理方法、装置以及电子设备
CN108073716A (zh) * 2017-12-27 2018-05-25 北京诸葛找房信息技术有限公司 在线实时用户画像生成方法
CN108234210A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种内容分发网络的日志处理方法和装置
CN108133043A (zh) * 2018-01-12 2018-06-08 福建星瑞格软件有限公司 一种基于大数据的服务器运行日志结构化存储方法
CN110196794A (zh) * 2018-02-26 2019-09-03 深圳市丰巢科技有限公司 一种基于快递柜的操作日志处理方法及***
CN108563744B (zh) * 2018-04-12 2021-07-23 武汉斗鱼网络科技有限公司 基于Redis数据库的慢查询方法、装置及终端设备
CN108563744A (zh) * 2018-04-12 2018-09-21 武汉斗鱼网络科技有限公司 基于Redis数据库的慢查询方法、装置及终端设备
CN108874524A (zh) * 2018-06-21 2018-11-23 山东浪潮商用***有限公司 大数据分布式任务调度***
CN110968561A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 日志存储方法和分布式***
CN109408330A (zh) * 2018-10-15 2019-03-01 东软集团股份有限公司 日志分析方法、装置、终端设备及可读存储介质
CN109522285A (zh) * 2018-11-14 2019-03-26 北京首信科技股份有限公司 一种日志数据统计方法及***
CN109508318A (zh) * 2018-11-15 2019-03-22 北京金山云网络技术有限公司 一种存储量统计方法、装置、电子设备和可读存储介质
CN109933505A (zh) * 2019-03-14 2019-06-25 深圳市珍爱捷云信息技术有限公司 日志处理方法、装置、计算机设备和存储介质
CN110032546A (zh) * 2019-04-18 2019-07-19 厦门大学嘉庚学院 一种快速满足临时性日志分析***及其方法
CN110362544B (zh) * 2019-05-27 2024-04-02 中国平安人寿保险股份有限公司 日志处理***、日志处理方法、终端及存储介质
CN110362544A (zh) * 2019-05-27 2019-10-22 中国平安人寿保险股份有限公司 日志处理***、日志处理方法、终端及存储介质
CN112134719A (zh) * 2019-06-25 2020-12-25 中兴通讯股份有限公司 一种分析基站安全日志的方法和***
WO2020258982A1 (zh) * 2019-06-25 2020-12-30 中兴通讯股份有限公司 一种分析基站安全日志的方法、***及计算机可读存储介质
CN110321273B (zh) * 2019-07-09 2023-10-03 政采云有限公司 一种业务统计方法及装置
CN110321273A (zh) * 2019-07-09 2019-10-11 政采云有限公司 一种业务统计方法及装置
CN110674211A (zh) * 2019-09-29 2020-01-10 南京大学 一种Oracle数据库AWR报告的自动解析方法和设备
CN110769290A (zh) * 2019-11-13 2020-02-07 北京齐尔布莱特科技有限公司 一种播放事件更新方法、***和计算设备
CN113010480A (zh) * 2020-03-26 2021-06-22 腾讯科技(深圳)有限公司 日志处理方法、装置、电子设备及计算机可读存储介质
CN113010480B (zh) * 2020-03-26 2024-03-19 腾讯科技(深圳)有限公司 日志处理方法、装置、电子设备及计算机可读存储介质
CN112100148A (zh) * 2020-07-31 2020-12-18 紫光云(南京)数字技术有限公司 一种打包日志的增量处理方法
CN112905618A (zh) * 2021-04-06 2021-06-04 浙江网商银行股份有限公司 数据处理方法以及装置

Similar Documents

Publication Publication Date Title
CN103838867A (zh) 日志处理方法和装置
US8874600B2 (en) System and method for building a cloud aware massive data analytics solution background
US10110687B2 (en) Session based web usage reporter
CN110647512B (zh) 一种数据存储和分析方法、装置、设备和可读介质
CN108268565B (zh) 基于数据仓库处理用户浏览行为数据的方法及***
CN102902775B (zh) 互联网实时计算的方法和***
CN102208991A (zh) 一种日志处理方法、设备和***
CN103268336A (zh) 一种快数据和大数据结合的数据处理方法及其***
CN104182506A (zh) 日志管理方法
CN103620601A (zh) 在映射缩减过程中汇合表
CN105512336A (zh) 一种基于Hadoop的海量数据处理方法和装置
CN110675194A (zh) 一种漏斗分析方法、装置、设备及可读介质
US20140207820A1 (en) Method for parallel mining of temporal relations in large event file
EP2802979A2 (en) Processing store visiting data
Chan Big data customer knowledge management
CN112506743A (zh) 一种日志监控方法、装置和服务器
CN110147470B (zh) 一种跨机房数据比对***及方法
CN102982112A (zh) 排行榜生成方法、日志生成方法和服务器
CN105005585A (zh) 一种日志数据的处理方法和装置
CN116680315A (zh) 数据离线处理方法、装置、电子设备及存储介质
CN114971714A (zh) 一种基于大数据标签的精准客户运营方法和计算机设备
CN114637903A (zh) 一种针对定向目标数据拓展的舆情数据采集***
Gaurav et al. An outline on big data and big data analytics
US20230252011A1 (en) Method and system for data indexing and reporting
CN112506887A (zh) 车辆终端can总线数据处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140604