CN105049287A - 日志处理方法及装置 - Google Patents
日志处理方法及装置 Download PDFInfo
- Publication number
- CN105049287A CN105049287A CN201510450089.6A CN201510450089A CN105049287A CN 105049287 A CN105049287 A CN 105049287A CN 201510450089 A CN201510450089 A CN 201510450089A CN 105049287 A CN105049287 A CN 105049287A
- Authority
- CN
- China
- Prior art keywords
- information
- access
- counted
- log
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开是关于一种日志处理方法及装置,其中,方法包括接收用户的访问请求,根据预设日志模板,解析访问请求,生成访问日志;根据预设筛选标识,对访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;根据预设统计信息标识,在访问日志片断中提取与预设统计信息标识对应的待统计信息内容,对待统计信息内容进行去重操作并存储。从而实现在日志生成的同时完成筛选及去重,并直接将去重后的信息内容入库,通过本公开的技术方案可以提高日志数据统计的实时性,实现筛选出的日志片断、去重后的统计信息内容实时入库,实时性好,且服务器内仅存储用于统计的日志数据,对服务器的资源占用率少。
Description
技术领域
本公开涉及数据处理技术,尤其涉及一种日志处理方法及装置。
背景技术
随着互联网普及,网站的访问量不断增加,这就需要网站配置越来越多的网络服务器以处理并存储越来越多的用户访问记录。
通常,用户对互联网或APP的访问,实际就是对互联网或APP所对应的网络服务器的访问,当网络服务器被访问后,用户的访问记录会形成访问日志存储在该被访问的网络服务器中,不管是在互联网业务的开发过程,还是在互联网业务的使用过程,用户访问互联网的日志数据统计都是十分重要的,例如统计IP数量、用户数量等等。相关技术中一般设立一专门的日志服务器来进行日志数据统计。具体来说,多台网络(以下简称:Web)服务器可以组成分布式服务器架构为用户提供互联网业务并记录用户的日志数据,然后这些Web服务器可以将记录的日志数据同步给日志服务器,日志服务器即可汇总记录这些日志数据并定期进行数据统计。在数据统计时,日志服务器需要分析日志数据,从日志数据中解析出所需统计的目标日志数据,并对这些目标日志数据进行去重处理,最终形成数据结果集。
公开内容
为克服相关技术中存在的问题,本公开提供一种日志处理方法及装置,所述技术方案如下:
根据本公开实施例的第一方面,提供一种日志处理方法,包括:
接收用户的访问请求;
根据预设日志模板,解析所述访问请求,生成访问日志;
根据预设筛选标识,对所述访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;
根据预设统计信息标识,在所述访问日志片断中提取与所述预设统计信息标识对应的待统计信息内容,对所述待统计信息内容进行去重操作并存储。
根据本公开实施例的第二方面,提供一种日志处理装置,包括:
接收模块,用于接收用户的访问请求;
解析模块,用于根据预设日志模板,解析所述访问请求,生成访问日志;
筛选模块,用于根据预设筛选标识,对所述访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;
提取模块,用于根据预设统计信息标识,在所述访问日志片断中提取与所述预设统计信息标识对应的待统计信息内容;
去重模块,用于对所述待统计信息内容进行去重操作并存储。
根据本公开实施例的第三方面,提供一种日志处理装置,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:接收用户的访问请求;根据预设日志模板,解析所述访问请求,生成访问日志;根据预设筛选标识,对所述访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;根据预设统计信息标识,在所述访问日志片断中提取与所述预设统计信息标识对应的待统计信息内容,对所述待统计信息内容进行去重操作并存储。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过将用户的访问请求,根据预设日志模板,解析生成访问日志,并根据预设筛选标识,从访问日志中筛选出待后续分析的访问日志片断,再在该访问日志片断中提取需要进行统计的信息内容,并对该信息内容进行去重操作并存储,从而实现在日志生成的同时完成筛选及去重,并直接将去重后的信息内容入库,避免了现有技术中对日志数据需要定期同步、汇总再解析后去重的繁杂操作,解决了现有技术的日志去重操作易导致网络服务器资源占用率高、日志数据统计实时性差的问题。通过本公开的技术方案可以提高日志数据统计的实时性,实现筛选出的日志片断、去重后的统计信息内容实时入库,实时性好,且服务器内仅存储用于统计的日志数据,对服务器的资源占用率少。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种日志处理方法的流程图;
图2是根据另一示例性实施例示出的一种日志处理方法的流程图;
图3是根据一示例性实施例示出的一种日志处理装置的框图;
图4是根据另一示例性实施例示出的一种日志处理装置的框图;
图5a是根据另一示例性实施例示出的一种日志处理装置的框图;
图5b是根据另一示例性实施例示出的一种日志处理装置的框图;
图6是根据一示例性实施例示出的一种日志处理装置600的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种日志处理方法的流程图,如图1所示,本实施例以该日志处理方法应用于服务器端(网络端设备)中来举例说明,该日志处理方法包括以下步骤:
步骤101、接收用户的访问请求。
步骤102、根据预设日志模板,解析访问请求,生成访问日志。
步骤103、根据预设筛选标识,对访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储。
步骤104、根据预设统计信息标识,在访问日志片断中提取与预设统计信息识对应的待统计信息内容,对待统计信息内容进行去重操作并存储。
综上所述,本实施例提供的日志处理方法,通过将用户的访问请求,根据预设日志模板,解析生成访问日志,并根据预设筛选标识,从访问日志中筛选出待后续分析的访问日志片断,再在该访问日志片断中提取需要进行统计的信息内容,并对该信息内容进行去重操作并存储,从而实现在日志生成的同时完成筛选及去重,并直接将去重后的信息内容入库,避免了现有技术中对日志数据需要定期同步、汇总再解析后去重的繁杂操作,解决了现有技术的日志去重操作易导致网络服务器资源占用率高、日志数据统计实时性差的问题。通过本公开的技术方案可以提高日志数据统计的实时性,实现筛选出的日志片断、去重后的统计信息内容实时入库,实时性好,且服务器内仅存储用于统计的日志数据,对服务器的资源占用率少。
图2是根据另一示例性实施例示出的一种日志处理方法的流程图,如图2所示,本实施例以该日志处理方法应用于服务器端(网络端设备)中来举例说明,该日志处理方法包括以下步骤:
步骤201、接收用户的访问请求。
步骤202、根据预设访问请求分发规约,将用户的访问请求分发至相应的网络服务器。
该分发规约包含下列各项中的至少一种:网络服务器的性能值、用户访问的IP地址范围、用户访问请求中属性信息的维度。其中,网络服务器的性能值指根据分布式网络服务器中的各个服务器的性能值,如当前CPU占用率,内存、硬盘占用率等,即各个服务器当前的负载情况分配用户的访问请求;用户访问IP地址范围指根据各个分布式网络服务器所管辖的IP地址范围进行分发,通常为就近分发原则,即用户终端IP地址距离哪些网络服务器近,则将用户的访问请求分发给距离近的服务器进行处理,这样可以有效节省网络资源;用户访问请求中属性信息的维度也可以理解为访问请求中包含的信息量的多少,例如:请求中包含用户的访问时间、IP地址、浏览器类型、用户ID,则维度为4;若还包括用户的归属地信息,则维度为5;网络管理员预先对各个分布式网络服务器根据其可以接收并处理的访问请求的信息量进行设置,则只有满足网络服务器相应维度阈值的访问请求可以被该服务器接收。
步骤203、根据预设日志模板,解析访问请求,生成访问日志。
预设日志模板包括:访问日志的属性信息、访问日志的维度信息。其中,访问日志的属性信息包括:IP地址、日期、时间、用户名;还可以包括用户归属地、浏览器类型、域名、操作***类型等信息。上述为优选的预设日志模板内容,需要说明的是预设日志模板所包含的内容可由本领域技术人员根据日志记录需要自行确定,本公开对此不作限制。访问日志的维度信息为规定该访问日志可以包含的属性信息的数量值,与上述用户访问请求中属性信息的维度含义相类似,这里不再赘述。步骤203具体可以通过根据预设日志模板,在访问请求中提取与预设日志模板内容相匹配的信息,生成访问日志实现。
步骤204、根据预设筛选标识,对访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储。
预设筛选标识包括至少两个访问日志的属性信息。属性信息是可以帮助***管理员更好的掌握该访问日志的背景及来源的重要信息,但是若筛选出的访问日志片断包含过多的属性信息则信息量大,这将不利于之后对日志数据中的目标数据进行统计的速度提升,因此,本领域技术人员可以根据服务器的处理能力及硬件配置性能合理对预设筛选标识中包含的访问日志的属性信息量进行设置。其中,根据日志数据的统计需求对访问日志进行内容筛选,从访问日志中筛选(也可称作分割操作)出即包含有关用户访问的关键信息又利于进行去重统计的数据信息。以下面的例子进行说明,例如:以需要统计日IP数为例:用户ID为1的用户访问服务器的请求为:http://mi.com/log?uid=1;用户ID为2的用户访问服务器的请求为:http://mi.com/log?uid=2;访问请求在服务器上记录成访问日志文件,可能如下:用户ID为1的日志文件:10.237.14.119--[25/Apr/2015:18:57:31+0800]"GET/log?uid=1HTTP/1.1"200584"-""Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0)";用户ID为2的日志文件:10.237.14.18--[25/Apr/2015:18:59:12+0800]"GET/log?uid=2HTTP/1.1"200584"-""Mozilla/4.0(compatible;MSIE9.0;WindowsNT5.2;Trident/4.0)";为了对IP数进行统计,预设筛选标识可以为[访问时间,IP],则上述访问日志被筛选分割为如下的访问日志片断,10.237.14.119[18:57:31+0800];10.237.14.18[18:59:12+0800];可见日志的信息容量被分割为仅剩下IP及访问时间的信息量,再将该筛选出的内容作为访问日志片断存储,可以大大减轻网络服务器的存储负担,加快服务器对数据的处理效率。此外,该筛选/分割操作可以采用Lua脚本语言编程实现,Lua是一种简单、小巧的脚本语言,其可以嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能。Lua由标准C编写而成,几乎在所有操作***和平台上都可以编译,运行。且一个完整的Lua解释器不过200k,在目前所有脚本引擎中,Lua的速度是最快的。因此,采用Lua作为程序接口直接写入分布式服务器中,对现存网络服务器的改变小,且功能实现简单,是嵌入式脚本的最佳选择。
步骤205、根据预设统计信息标识,在访问日志片断中提取与预设统计信息标识对应的待统计信息内容,对待统计信息内容进行去重操作并存储。
其中,去重操作可以采用Redis数据库,Redis是一个开源的、支持网络、可基于内存亦可持久化的日志型数据库。可有效提高日志数据去重的效率,例如上述例子中对被筛选/分割出的数据片断10.237.14.119[18:57:31+0800];10.237.14.18[18:59:12+0800];进行去重操作,若预设统计信息标识为IP,在访问日志片断中提取与IP对应的待统计信息内容,得到若干个IP为[10.237.14.119],和若干个IP为[10.237.14.18]的信息内容,由于用户对网站或APP的访问通常不是单次行为,因此每次的访问都会留下一条访问记录,筛选后的信息也会存在不同时间同一IP的多条访问日志片断,再对上述若干个待统计的IP信息内容进行去重操作,就得到了统计日的所有各不相同的IP信息,对这些IP信息进行统计计算,可以得到统计日IP数量值。这种边形成访问日志边对访问日志进行筛选/分割、去重、统计计算的方法可以有效提高日志数据统计的实时性,实现筛选出的日志片断、去重后的统计信息内容实时入库,实时性好,且服务器内仅存储用于统计的日志数据,对服务器的资源占用率少。
在上述实施例的基础上,进一步地,在步骤204将筛选出的内容作为访问日志片断存储之后,还包括:舍弃访问日志片断所对应的筛选前的完整访问日志,或者还包括:将访问日志片断所对应的筛选前的完整访问日志存储。
为了有效减少分布式服务器的资源占用率,可以舍弃访问日志片断所对应的筛选前的完整访问日志,仅存储经过筛选/分割出来的访问日志片断数据。当然,有时为了安全需要,需要对日志数据进行追溯性访问,则可以将访问日志片断所对应的筛选前的完整访问日志也进行存储,但该完整访问日志可以与访问日志片断分开存储,完整访问日志存储于仅用于存储数据的存储设备中,已备后续访问查找调用,而不占用处理用户访问请求的分布式网络服务器中,以尽可能的节省对提供用户访问需求的网络服务器的资源占用。
进一步地,步骤205中对待统计信息内容进行去重操作并存储可以包括:建立预设统计信息标识对应的目标统计信息集合,将每个第一次出现的待统计信息内容写入目标统计信息集合中;舍弃与目标统计信息集合中待统计信息内容重复的其余待统计信息内容,存储目标统计信息集合。
例如,建立一个针对日IP数量统计的目标统计信息集合,IP统计信息集合为IP[],该集合初始内容为空,针对前序步骤中从访问日志片断中提取到的与IP标识对应的所有IP信息内容列表中,从第一条IP信息内容开始比对统计,将每个第一次出现的IP信息内容写入IP统计信息集合IP[]中。从而得到上面例子中的IP统计信息集合[10.237.14.119;10.237.14.18]。
或者步骤205中对待统计信息内容进行去重操作并存储可以包括:建立预设统计信息标识对应的目标统计信息集合,计算各个待统计信息内容的键值,将每个第一次出现的键值写入目标统计信息集合中;舍弃具有与目标统计信息集合中键值相同的其余待统计信息内容,存储目标统计信息集合中各个键值对应的待统计信息内容。
该键值的计算可以根据预设哈希算法,如信息摘要算法第五版(MessageDigestAlgorithm,简称MD5)或者安全散列算法(SecureHashAlgorithm,简称SHA)等,得到该待统计信息内容的哈希值,即键值,由于键值的数据格式单一,通过键值的比对,而非对待统计信息内容自身的比对,可以加快去重效率。得到各个待统计信息内容的键值后,再与上述对待统计信息内容直接进行去重操作相类似,对各个待统计信息内容的键值进行去重操作,得到目标统计信息集合中各个键值对应的待统计信息内容。进而再统计计算得到需要统计的日志数据信息。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是根据一示例性实施例示出的一种日志处理装置的框图,该日志处理装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该日志处理装置可以包括:
接收模块301,用于接收用户的访问请求;解析模块302,用于根据预设日志模板,解析访问请求,生成访问日志;筛选模块303,用于根据预设筛选标识,对访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;提取模块304,用于根据预设统计信息标识,在访问日志片断中提取与预设统计信息标识对应的待统计信息内容;去重模块305,用于对待统计信息内容进行去重操作并存储。
综上所述,本实施例提供的日志处理装置,通过将用户的访问请求,根据预设日志模板,解析生成访问日志,并根据预设筛选标识,从访问日志中筛选出待后续分析的访问日志片断,再在该访问日志片断中提取需要进行统计的信息内容,并对该信息内容进行去重操作并存储,从而实现在日志生成的同时完成筛选及去重,并直接将去重后的信息内容入库,避免了现有技术中对日志数据需要定期同步、汇总再解析后去重的繁杂操作,解决了现有技术的日志去重操作易导致网络服务器资源占用率高、日志数据统计实时性差的问题。通过本公开的技术方案可以提高日志数据统计的实时性,实现筛选出的日志片断、去重后的统计信息内容实时入库,实时性好,且服务器内仅存储用于统计的日志数据,对服务器的资源占用率少。
图4是根据另一示例性实施例示出的一种日志处理装置的框图,该日志处理装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该日志处理装置还可以包括:
分发模块306,用于根据预设访问请求分发规约,将用户的访问请求分发至相应的网络服务器;该分发规约包含下列各项中的至少一种:网络服务器的性能值、用户访问的IP地址范围、用户访问请求中属性信息的维度。
在上述实施例的基础上,进一步地,预设日志模板包括:访问日志的属性信息、访问日志的维度信息。访问日志的属性信息包括:IP地址、日期、时间、用户名。
可选的,解析模块302,包括:提取子模块3021,用于根据预设日志模板,在访问请求中提取与预设日志模板内容相匹配的信息;生成子模块3022,用于生成访问日志。
可选的,预设筛选标识包括至少两个访问日志的属性信息。
可选的,该装置还包括:处理模块307,用于舍弃访问日志片断所对应的筛选前的完整访问日志;或者,该处理模块307,用于将访问日志片断所对应的筛选前的完整访问日志存储。
图5a是根据另一示例性实施例示出的一种日志处理装置的框图,如图5a所示,在上述实施例的基础上,可选的,去重模块305,包括:第一集合建立子模块3051,用于建立预设统计信息标识对应的目标统计信息集合;第一写入子模块3052,用于将每个第一次出现的待统计信息内容写入目标统计信息集合中;第一舍弃子模块3053,用于舍弃与目标统计信息集合中待统计信息内容重复的其余待统计信息内容;第一存储子模块3054,用于存储目标统计信息集合。
图5b是根据另一示例性实施例示出的一种日志处理装置的框图,如图5b所示,在上述实施例的基础上,可选的,去重模块305,包括:第二集合建立子模块3055,用于建立预设统计信息标识对应的目标统计信息集合;计算子模块3056,用于计算各个待统计信息内容的键值;第二写入子模块3057,用于将每个第一次出现的键值写入目标统计信息集合中;第二舍弃子模块3058,用于舍弃具有与目标统计信息集合中键值相同的其余待统计信息内容;第二存储子模块3059,用于存储目标统计信息集合中各个键值对应的待统计信息内容。
可选的,筛选采用Lua脚本语言编程。去重操作采用Redis数据库。
本公开实施例还提供了一种日志处理装置,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:接收用户的访问请求;根据预设日志模板,解析所述访问请求,生成访问日志;根据预设筛选标识,对所述访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;根据预设统计信息标识,在所述访问日志片断中提取与所述预设统计信息标识对应的待统计信息内容,对所述待统计信息内容进行去重操作并存储。
图6是根据一示例性实施例示出的一种日志处理装置600的框图。例如,装置600可以被提供为一服务器。参照图6,装置600包括处理组件622,其进一步包括一个或多个处理器(图中未示出),以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述日志处理方法。处理器被配置为:接收用户的访问请求;根据预设日志模板,解析访问请求,生成访问日志;根据预设筛选标识,对访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;根据预设统计信息标识,在访问日志片断中提取与预设统计信息标识对应的待统计信息内容,对待统计信息内容进行去重操作并存储。
装置600还可以包括一个电源组件626被配置为执行装置600的电源管理,一个有线或无线网络接口650被配置为将装置600连接到网络,和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作***,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (23)
1.一种日志处理方法,其特征在于,包括:
接收用户的访问请求;
根据预设日志模板,解析所述访问请求,生成访问日志;
根据预设筛选标识,对所述访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;
根据预设统计信息标识,在所述访问日志片断中提取与所述预设统计信息标识对应的待统计信息内容,对所述待统计信息内容进行去重操作并存储。
2.根据权利要求1所述的方法,其特征在于,在所述接收用户的访问请求之后,还包括:
根据预设访问请求分发规约,将所述用户的访问请求分发至相应的网络服务器;
所述分发规约包含下列各项中的至少一种:
网络服务器的性能值、用户访问的IP地址范围、用户访问请求中属性信息的维度。
3.根据权利要求1所述的方法,其特征在于,所述预设日志模板包括:访问日志的属性信息、访问日志的维度信息。
4.根据权利要求3所述的方法,其特征在于,所述访问日志的属性信息包括:IP地址、日期、时间、用户名。
5.根据权利要求1所述的方法,其特征在于,所述根据预设日志模板,解析所述访问请求,生成访问日志,包括:
根据预设日志模板,在所述访问请求中提取与所述预设日志模板内容相匹配的信息,生成访问日志。
6.根据权利要求4所述的方法,其特征在于,所述预设筛选标识包括至少两个所述访问日志的属性信息。
7.根据权利要求6所述的方法,其特征在于,所述将筛选出的内容作为访问日志片断存储之后,还包括:
舍弃所述访问日志片断所对应的筛选前的完整访问日志;或者将所述访问日志片断所对应的筛选前的完整访问日志存储。
8.根据权利要求1所述的方法,其特征在于,所述对所述待统计信息内容进行去重操作并存储包括:
建立所述预设统计信息标识对应的目标统计信息集合,将每个第一次出现的待统计信息内容写入所述目标统计信息集合中;
舍弃与所述目标统计信息集合中待统计信息内容重复的其余待统计信息内容,存储所述目标统计信息集合。
9.根据权利要求1所述的方法,其特征在于,所述对所述待统计信息内容进行去重操作并存储包括:
建立所述预设统计信息标识对应的目标统计信息集合,计算各个所述待统计信息内容的键值,将每个第一次出现的所述键值写入所述目标统计信息集合中;
舍弃具有与所述目标统计信息集合中键值相同的其余待统计信息内容,存储所述目标统计信息集合中各个键值对应的待统计信息内容。
10.根据权利要求1-9所述的方法,其特征在于,
所述筛选采用Lua脚本语言编程。
11.根据权利要求1-9所述的方法,其特征在于,
所述去重操作采用Redis数据库。
12.一种日志处理装置,其特征在于,包括:
接收模块,用于接收用户的访问请求;
解析模块,用于根据预设日志模板,解析所述访问请求,生成访问日志;
筛选模块,用于根据预设筛选标识,对所述访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;
提取模块,用于根据预设统计信息标识,在所述访问日志片断中提取与所述预设统计信息标识对应的待统计信息内容;
去重模块,用于对所述待统计信息内容进行去重操作并存储。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
分发模块,用于根据预设访问请求分发规约,将所述用户的访问请求分发至相应的网络服务器;
所述分发规约包含下列各项中的至少一种:
网络服务器的性能值、用户访问的IP地址范围、用户访问请求中属性信息的维度。
14.根据权利要求12所述的装置,其特征在于,所述预设日志模板包括:访问日志的属性信息、访问日志的维度信息。
15.根据权利要求14所述的装置,其特征在于,所述访问日志的属性信息包括:IP地址、日期、时间、用户名。
16.根据权利要求12所述的装置,其特征在于,所述解析模块,包括:
提取子模块,用于根据预设日志模板,在所述访问请求中提取与所述预设日志模板内容相匹配的信息;
生成子模块,用于生成访问日志。
17.根据权利要求15所述的装置,其特征在于,所述预设筛选标识包括至少两个所述访问日志的属性信息。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
处理模块,用于舍弃所述访问日志片断所对应的筛选前的完整访问日志;
或者,所述处理模块,用于将所述访问日志片断所对应的筛选前的完整访问日志存储。
19.根据权利要求12所述的装置,其特征在于,所述去重模块,包括:
第一集合建立子模块,用于建立所述预设统计信息标识对应的目标统计信息集合;
第一写入子模块,用于将每个第一次出现的待统计信息内容写入所述目标统计信息集合中;
第一舍弃子模块,用于舍弃与所述目标统计信息集合中待统计信息内容重复的其余待统计信息内容;
第一存储子模块,用于存储所述目标统计信息集合。
20.根据权利要求12所述的装置,其特征在于,所述去重模块,包括:
第二集合建立子模块,用于建立所述预设统计信息标识对应的目标统计信息集合;
计算子模块,用于计算各个所述待统计信息内容的键值;
第二写入子模块,用于将每个第一次出现的所述键值写入所述目标统计信息集合中;
第二舍弃子模块,用于舍弃具有与所述目标统计信息集合中键值相同的其余待统计信息内容;
第二存储子模块,用于存储所述目标统计信息集合中各个键值对应的待统计信息内容。
21.根据权利要求12-20所述的装置,其特征在于,
所述筛选采用Lua脚本语言编程。
22.根据权利要求12-20所述的装置,其特征在于,
所述去重操作采用Redis数据库。
23.一种日志处理装置,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:接收用户的访问请求;根据预设日志模板,解析所述访问请求,生成访问日志;根据预设筛选标识,对所述访问日志进行内容筛选,将筛选出的内容作为访问日志片断存储;根据预设统计信息标识,在所述访问日志片断中提取与所述预设统计信息标识对应的待统计信息内容,对所述待统计信息内容进行去重操作并存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510450089.6A CN105049287A (zh) | 2015-07-28 | 2015-07-28 | 日志处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510450089.6A CN105049287A (zh) | 2015-07-28 | 2015-07-28 | 日志处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105049287A true CN105049287A (zh) | 2015-11-11 |
Family
ID=54455508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510450089.6A Pending CN105049287A (zh) | 2015-07-28 | 2015-07-28 | 日志处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105049287A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630658A (zh) * | 2015-12-22 | 2016-06-01 | 北京奇虎科技有限公司 | 数据处理的方法及装置 |
CN105898360A (zh) * | 2016-05-31 | 2016-08-24 | 无锡天脉聚源传媒科技有限公司 | 一种活动日志的排重方法及装置 |
CN106126721A (zh) * | 2016-06-30 | 2016-11-16 | 北京奇虎科技有限公司 | 一种实时计算平台的数据处理方法和装置 |
CN106130966A (zh) * | 2016-06-20 | 2016-11-16 | 北京奇虎科技有限公司 | 一种漏洞挖掘检测方法、服务器、装置和*** |
CN106650493A (zh) * | 2016-12-14 | 2017-05-10 | 咪咕文化科技有限公司 | 一种行为数据的获取方法和装置 |
CN106817270A (zh) * | 2015-12-01 | 2017-06-09 | 精硕科技(北京)股份有限公司 | 网络流量采集方法、***及服务器 |
CN106844480A (zh) * | 2016-12-23 | 2017-06-13 | 航天星图科技(北京)有限公司 | 一种清洗比对入库方法 |
CN107832406A (zh) * | 2017-11-03 | 2018-03-23 | 北京锐安科技有限公司 | 海量日志数据的去重入库方法、装置、设备及存储介质 |
CN107918565A (zh) * | 2017-11-17 | 2018-04-17 | 广东小天才科技有限公司 | 一种应用程序的异常信息的上报方法及移动终端 |
CN109039787A (zh) * | 2018-09-28 | 2018-12-18 | 新华三大数据技术有限公司 | 日志处理方法、装置及大数据集群 |
CN109033319A (zh) * | 2018-07-18 | 2018-12-18 | 长扬科技(北京)有限公司 | 一种大数据日志归一化方法及工具 |
CN110109812A (zh) * | 2019-05-10 | 2019-08-09 | 广州英睿科技有限公司 | 访问日志数据的统计方法、装置、计算机设备和存储介质 |
CN110119337A (zh) * | 2019-04-16 | 2019-08-13 | 深圳市轱辘汽车维修技术有限公司 | 一种数据分析方法、装置及服务器 |
CN110321410A (zh) * | 2019-06-21 | 2019-10-11 | 东软集团股份有限公司 | 日志提取的方法、装置、存储介质和电子设备 |
CN110362452A (zh) * | 2019-07-18 | 2019-10-22 | 中国银行股份有限公司 | 一种批量运维方法及*** |
CN110460876A (zh) * | 2019-08-15 | 2019-11-15 | 网易(杭州)网络有限公司 | 直播日志的处理方法、装置及电子设备 |
CN111026613A (zh) * | 2019-12-11 | 2020-04-17 | 人教数字出版有限公司 | 日志处理方法及装置 |
CN111193685A (zh) * | 2018-11-14 | 2020-05-22 | ***通信集团辽宁有限公司 | 校验日志信息真伪的方法、装置、设备和介质 |
CN111639277A (zh) * | 2020-05-22 | 2020-09-08 | 杭州安恒信息技术股份有限公司 | 机器学习样本集的自动化提取方法和计算机可读存储介质 |
US11042464B2 (en) | 2018-07-16 | 2021-06-22 | Red Hat Israel, Ltd. | Log record analysis based on reverse engineering of log record formats |
CN113609162A (zh) * | 2021-07-14 | 2021-11-05 | 远景智能国际私人投资有限公司 | 操作记录的查询方法、装置、服务器及存储介质 |
US11347619B2 (en) | 2019-08-01 | 2022-05-31 | Red Hat, Inc. | Log record analysis based on log record templates |
CN115757049A (zh) * | 2023-01-09 | 2023-03-07 | 深圳市蓝凌软件股份有限公司 | 多业务模块日志记录方法、***、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103257987A (zh) * | 2012-12-30 | 2013-08-21 | 北京讯鸟软件有限公司 | 基于规则的分布式日志服务实现方法 |
CN103929329A (zh) * | 2014-04-14 | 2014-07-16 | 百度在线网络技术(北京)有限公司 | 日志处理及配置方法、配置服务器、服务端设备和*** |
KR101476632B1 (ko) * | 2014-03-05 | 2014-12-30 | 에스케이텔레콤 주식회사 | 실시간 데이터 분석 시스템의 데이터 처리 방법 및 분석 코디네이터 장치 |
CN104660427A (zh) * | 2013-11-18 | 2015-05-27 | 深圳市腾讯计算机***有限公司 | 日志实时统计方法及装置 |
-
2015
- 2015-07-28 CN CN201510450089.6A patent/CN105049287A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103257987A (zh) * | 2012-12-30 | 2013-08-21 | 北京讯鸟软件有限公司 | 基于规则的分布式日志服务实现方法 |
CN104660427A (zh) * | 2013-11-18 | 2015-05-27 | 深圳市腾讯计算机***有限公司 | 日志实时统计方法及装置 |
KR101476632B1 (ko) * | 2014-03-05 | 2014-12-30 | 에스케이텔레콤 주식회사 | 실시간 데이터 분석 시스템의 데이터 처리 방법 및 분석 코디네이터 장치 |
CN103929329A (zh) * | 2014-04-14 | 2014-07-16 | 百度在线网络技术(北京)有限公司 | 日志处理及配置方法、配置服务器、服务端设备和*** |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106817270A (zh) * | 2015-12-01 | 2017-06-09 | 精硕科技(北京)股份有限公司 | 网络流量采集方法、***及服务器 |
CN105630658A (zh) * | 2015-12-22 | 2016-06-01 | 北京奇虎科技有限公司 | 数据处理的方法及装置 |
CN105630658B (zh) * | 2015-12-22 | 2018-10-09 | 北京奇虎科技有限公司 | 数据处理的方法及装置 |
CN105898360A (zh) * | 2016-05-31 | 2016-08-24 | 无锡天脉聚源传媒科技有限公司 | 一种活动日志的排重方法及装置 |
CN105898360B (zh) * | 2016-05-31 | 2019-06-14 | 无锡天脉聚源传媒科技有限公司 | 一种活动日志的排重方法及装置 |
CN106130966A (zh) * | 2016-06-20 | 2016-11-16 | 北京奇虎科技有限公司 | 一种漏洞挖掘检测方法、服务器、装置和*** |
CN106130966B (zh) * | 2016-06-20 | 2019-07-09 | 北京奇虎科技有限公司 | 一种漏洞挖掘检测方法、服务器、装置和*** |
CN106126721A (zh) * | 2016-06-30 | 2016-11-16 | 北京奇虎科技有限公司 | 一种实时计算平台的数据处理方法和装置 |
CN106650493A (zh) * | 2016-12-14 | 2017-05-10 | 咪咕文化科技有限公司 | 一种行为数据的获取方法和装置 |
CN106650493B (zh) * | 2016-12-14 | 2019-08-02 | 咪咕文化科技有限公司 | 一种行为数据的获取方法和装置 |
CN106844480A (zh) * | 2016-12-23 | 2017-06-13 | 航天星图科技(北京)有限公司 | 一种清洗比对入库方法 |
CN107832406A (zh) * | 2017-11-03 | 2018-03-23 | 北京锐安科技有限公司 | 海量日志数据的去重入库方法、装置、设备及存储介质 |
CN107832406B (zh) * | 2017-11-03 | 2020-09-11 | 北京锐安科技有限公司 | 海量日志数据的去重入库方法、装置、设备及存储介质 |
CN107918565A (zh) * | 2017-11-17 | 2018-04-17 | 广东小天才科技有限公司 | 一种应用程序的异常信息的上报方法及移动终端 |
US11042464B2 (en) | 2018-07-16 | 2021-06-22 | Red Hat Israel, Ltd. | Log record analysis based on reverse engineering of log record formats |
CN109033319A (zh) * | 2018-07-18 | 2018-12-18 | 长扬科技(北京)有限公司 | 一种大数据日志归一化方法及工具 |
CN109039787A (zh) * | 2018-09-28 | 2018-12-18 | 新华三大数据技术有限公司 | 日志处理方法、装置及大数据集群 |
CN111193685B (zh) * | 2018-11-14 | 2022-10-18 | ***通信集团辽宁有限公司 | 校验日志信息真伪的方法、装置、设备和介质 |
CN111193685A (zh) * | 2018-11-14 | 2020-05-22 | ***通信集团辽宁有限公司 | 校验日志信息真伪的方法、装置、设备和介质 |
CN110119337A (zh) * | 2019-04-16 | 2019-08-13 | 深圳市轱辘汽车维修技术有限公司 | 一种数据分析方法、装置及服务器 |
CN110119337B (zh) * | 2019-04-16 | 2023-03-10 | 深圳市轱辘车联数据技术有限公司 | 一种数据分析方法、装置及服务器 |
CN110109812A (zh) * | 2019-05-10 | 2019-08-09 | 广州英睿科技有限公司 | 访问日志数据的统计方法、装置、计算机设备和存储介质 |
CN110321410B (zh) * | 2019-06-21 | 2021-08-06 | 东软集团股份有限公司 | 日志提取的方法、装置、存储介质和电子设备 |
CN110321410A (zh) * | 2019-06-21 | 2019-10-11 | 东软集团股份有限公司 | 日志提取的方法、装置、存储介质和电子设备 |
CN110362452A (zh) * | 2019-07-18 | 2019-10-22 | 中国银行股份有限公司 | 一种批量运维方法及*** |
US11347619B2 (en) | 2019-08-01 | 2022-05-31 | Red Hat, Inc. | Log record analysis based on log record templates |
CN110460876A (zh) * | 2019-08-15 | 2019-11-15 | 网易(杭州)网络有限公司 | 直播日志的处理方法、装置及电子设备 |
CN111026613A (zh) * | 2019-12-11 | 2020-04-17 | 人教数字出版有限公司 | 日志处理方法及装置 |
CN111026613B (zh) * | 2019-12-11 | 2024-01-19 | 人教数字出版有限公司 | 日志处理方法及装置 |
CN111639277A (zh) * | 2020-05-22 | 2020-09-08 | 杭州安恒信息技术股份有限公司 | 机器学习样本集的自动化提取方法和计算机可读存储介质 |
CN113609162A (zh) * | 2021-07-14 | 2021-11-05 | 远景智能国际私人投资有限公司 | 操作记录的查询方法、装置、服务器及存储介质 |
CN113609162B (zh) * | 2021-07-14 | 2023-09-26 | 远景智能国际私人投资有限公司 | 操作记录的查询方法、装置、服务器及存储介质 |
CN115757049A (zh) * | 2023-01-09 | 2023-03-07 | 深圳市蓝凌软件股份有限公司 | 多业务模块日志记录方法、***、电子设备及存储介质 |
CN115757049B (zh) * | 2023-01-09 | 2023-05-05 | 深圳市蓝凌软件股份有限公司 | 多业务模块日志记录方法、***、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105049287A (zh) | 日志处理方法及装置 | |
EP3251031B1 (en) | Techniques for compact data storage of network traffic and efficient search thereof | |
WO2019100614A1 (zh) | 埋点数据处理方法、装置、计算机设备和存储介质 | |
CN107832406B (zh) | 海量日志数据的去重入库方法、装置、设备及存储介质 | |
KR20200115557A (ko) | 프리캐싱을 위해 클라이언트 머신들 간에 셰이더들을 분배하는 것 | |
KR102018445B1 (ko) | 캐스캐이딩 스타일 시트 파일들의 압축 | |
US20160253172A1 (en) | Indicating a trait of a continuous delivery pipeline | |
CN111104579A (zh) | 一种公网资产的识别方法、装置及存储介质 | |
US10387370B2 (en) | Collecting test results in different formats for storage | |
US20170339252A1 (en) | Generating a response to a client device in an internet of things domain | |
CN107370628B (zh) | 基于埋点的日志处理方法及*** | |
CN109213824B (zh) | 数据抓取***、方法和装置 | |
CN104778252B (zh) | 索引的存储方法和装置 | |
CN115858488A (zh) | 基于数据治理的平行迁移方法、装置及可读介质 | |
CN107391528B (zh) | 前端组件依赖信息搜索方法及设备 | |
CN111898036A (zh) | 一种行为数据收集处理***及方法 | |
CN109992469B (zh) | 一种合并日志的方法及装置 | |
CN108287874B (zh) | 一种db2数据库管理方法及装置 | |
CN117453639A (zh) | 一种面向云存储的数据可信销毁方法及其*** | |
US20100007919A1 (en) | Document management apparatus, document management method, and document management program | |
CN111723063A (zh) | 一种离线日志数据处理的方法和装置 | |
CN109389271B (zh) | 应用性能管理方法及*** | |
CN115878592A (zh) | 一种政务数据治理方法、装置、存储介质及电子设备 | |
CN114912111A (zh) | 一种云主机病毒检测方法、装置和*** | |
US11556649B2 (en) | Methods and apparatus to facilitate malware detection using compressed data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151111 |
|
RJ01 | Rejection of invention patent application after publication |