CN104182506A

CN104182506A - 日志管理方法

Info

Publication number: CN104182506A
Application number: CN201410409927.0A
Authority: CN
Inventors: 刘璧怡; 郭美思; 吴楠
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2014-08-19
Filing date: 2014-08-19
Publication date: 2014-12-03

Abstract

本发明提供了一种日志管理方法。涉及计算机应用领域；解决了分布式存储管理日志数据的问题。该方法包括：收集流量日志和点击日志；对收集得到的日志进行预处理；分布式存储预处理后的日志。本发明提供的技术方案适用于数据挖掘，实现了基于HDFS架构的日志文件分布式存储。

Description

日志管理方法

技术领域

本发明涉及计算机应用领域，尤其涉及一种日志管理方法。

背景技术

随着互联网的急速发展，互联网用户量也急剧增长，用户的访问日志也得到迅速的膨胀。对于互联网来说，web日志是非常重要的信息。特别是对于一些大型的电子商务网站或者社交网站，可以通过对web日志的挖掘，找出用户的潜在访问模式，从而设计出更便于用户访问的网页组织模式。然而如何在这些海量的日志中挖掘出对企业有用的信息，并依此来做出正确的决策是非常重要的工作。由于Web日志是由众多用户生成的，它具有数据源多样性、海量性、传输条件不确定性等特点，而完整的日志是对后面分析工作的保证。从收集日志到日志分析是一项非常复杂的工作，它不仅要求有较高的可靠性，还需要时效性。所以单台主机不管是在日志存储还是计算方面，尽管硬件配置很高，它的处理能力还是有限的。故采用分布式存储和计算己经成为了必然的发展趋势。

在分布式计算方面，全球约有上百种不同的方案。Hadoop就是一个使用较为广泛的分布式存储和分布式计算框架，适用于大规模的分布式计算，越来越得到重视，在广告计算、日志分析、网页搜索以及数据挖掘等方面都得到了广泛的应用。近些年来，硬盘的存储量在快速的增加，但是硬盘的访问速度却不能与时俱进。当数据量非常大时，读取操作就会花费较长的时间。

发明内容

本发明提供了一种日志管理方法，解决了分布式存储管理日志数据的问题。

一种日志管理方法，包括：

收集流量日志和点击日志；

对收集得到的日志进行预处理；

分布式存储预处理后的日志。

优选的，收集流量日志和点击日志包括：

在用户打开web页面时，将所需要的信息拼成字符串传送给前端服务器，所述信息包括以下内容的任一或任意多项：

时间、客户端IP、用户信息、访问地址、refer地址。

优选的，对收集得到的日志进行预处理包括：

计算出每次访问的页面停留时间、访问的页面的层级以及一次连续访问中浏览的页面个数；

将收集到的日志根据用户的UID信息与用户信息库进行连接，获取访问用户的用户信息，所述用户信息库保存有所有用户详细信息；

将收集到的流量日志转化为流量日志标准格式，将收集到的点击日志转化为点击日志标准格式。

优选的，分布式存储预处理后的日志包括：

对所述预处理后的日志进行块大小和副本数的配置；

向HDFS文件***上传所述预处理后的日志，以LZO格式存储于所述HDFS文件***中。

优选的，该方法还包括：

读取数据表的配置信息，按日志类型分别导入不同文件中；

对日志进行Map操作，将日志处理成key-value格式，得到Map结果；

对所述Map结果进行合并操作，得到合并结果；

对所述合并进行Reduce操作，得到数据分析结果，将该数据分析结果存放于所述HDFS文件***中；

从所述HDFS文件***中将所述数据分析结果导入数据库，供用户查询。

优选的，读取数据表的配置信息，按日志类型分别导入不同文件中包括：

从数据库中读取数据表的配置信息，所述配置信息包括列信息、指标的配置信息、维度和维度值；

将所述配置信息按日志类型分别导入不同文件中，并上传到HDFS中。

优选的，对日志进行Map操作，将日志处理成key-value格式，得到Map结果包括：

循环遍历每种日志类型的每一个指标；

根据预置的每一个指标的计算规则，选择适合的计算类型对日志进行，将志处理成key-value的格式，以该key-value格式的日志作为Map结果。

优选的，所述计算类型包括：

计数类型，将符合当前计算规则的日志格式化为key＝日期+指标ID，value＝l；

累加类型，将符合当前计算规则的日志处理为key＝日期+指标ID，value＝计算列的值；

分组计数类型，将符合当前计算规则的日志记录格式化为key＝日期+指标ID+组ID，value＝l。

分组累加类型，将符合当前计算规则的日志处理为key＝日期+指标ID+组ID，value＝计算列的值。

优选的，对所述Map结果进行合并操作，得到合并结果包括：

对Map结果进行合并至每一个key-value值只对应一条日志。

本发明提供了一种日志管理方法，收集流量日志和点击日志，对收集得到的日志进行预处理，分布式存储预处理后的日志。实现了基于HDFS架构的日志文件分布式存储，解决了分布式存储管理日志数据的问题。

附图说明

图1为本发明的实施例一提供的一种日志管理***的结构示意图。

具体实施方式

在分布式计算方面，全球约有上百种不同的方案。Hadoop就是一个使用较为广泛的分布式存储和分布式计算框架，适用于大规模的分布式计算，越来越得到重视，在广告计算、日志分析、网页搜索以及数据挖掘等方面都得到了广泛的应用。近些年来，硬盘的存储量在快速的增加，但是硬盘的访问速度却不能与时俱进。当数据量非常大时，读取操作就会花费较长的时间。但如果并行的从多个磁盘上读写数据，将会节省很多时间。

因此为了提高日志处理速度，改善目前企业在数据处理方面遇到的一些问题，需要基于分布式存储和计算，设计一个流程化、统一化的日志分析***，这个***以收集到得web日志为数据基础，由数据分析师或其他人员配置指标和维度，***可以根据用户的配置定时运行后台计算程序，最后把数据直接展示给需要的人员。该***能够节省需求方和技术人员之间的沟通成本，进一步提高了日志分析工作效率。

为了解决上述问题，本发明的实施例提供了一种日志管理方法。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

首先结合附图，对本发明的实施例一进行说明。

本发明实施例提供了一种日志管理***，该***利用Hadoop提供的HDFS和Map/Reduce两个核心的技术。在***中，用户可以自定义的配置数据表，这样增加了报表的可定制性。该***的结构如图1所示包括：日志收集服务器101、日志预处理服务器102、HDFS文件***103、统计分析模块104以及用户界面模块105。

如附图1所示，当用户在浏览网页的时候，用户的一些操作行为都被记录了下来，由前端的日志收集服务器负责收集这些记录。前端的日志收集服务器并不是存储所有的日志，它会定时的将收集到的日志推送给中间日志处理服务器。日志的预处理操作就是在中间服务器上进行的，其中预处理操作包括日志的清洗、分类和格式的统一。预处理后的日志会被定时的存放到Hadoop分布式集群中的HDFS文件***中，作为后面数据统计的应用程序的输入数据。

下面，对本发明的实施例二进行说明。

本发明实施例提供了一种日志管理方法。针对上文所涉及的两种日志类型，本发明实施例采用的是页面布码的方式来收集日志。在进行页面布码之前，需要一个JS文件，这个JS文件主要实现三个功能。

1)当用户打web页面时，将所需要的信息，包括时间、客户端IP、用户信息、访问地址、refer地址等信息拼成字符串传送给前端日志服务器。

2)实现一个方法，该方法主要是为收集点击日志服务的。主要功能就是当用户点击链接时，触发该方法，然后将用户点击短链的标识、时间、用户信息等传送给前端日志服务器。

3)自定义了一个HTML标签属性，这个属性实现的功能与上面的函数是类似的，根据实际情况选择不同的方式。

在收集流量日志的时候，只需要将事先写好的JS文件添加到HTML页面中即可，使用动态载入方式加载JS文件。在进行点击日志布码的时候，要先确认己经完成上述的JS文件加载，在需要部署点击统计的HTML标签或者链接上，增加一个自定义属性，值为key＝{key}&value＝{value}。其中key和value的值在前端部署的时候是可以自定义的，key值是用来区分需求或者模块的，value值是用来标识该模块中的点击标签或链接的，同一个模块下的value对应的key值是相同的。在整个***中，key值是唯一的，value值在一个key值下要求是唯一的。

上述页面布码完成以后，日志收集服务器收集流量日志和点击日志，在用户打开web页面时，将所需要的信息拼成字符串传送给前端服务器，所述信息包括以下内容的任一或任意多项：

时间、客户端IP、用户信息、访问地址、refer地址。

在收集到日志后，就可以对这些日志进行预处理。流量日志的预处理过程主要包括：

首先，根据用户访问记录，计算出每次访问的页面停留时间、访问的页面的层级以及一次连续访问中浏览的页面个数等数据(这些数据作为日志预处理服务器的输出，存储到HDFS文件***中，作为统计分析模块的输入数据).

其次，将日志根据用户的UID信息与用户信息库进行连接，获取访问用户的用户信息。用户信息库是保存所有用户详细信息的数据库，日志里的只有用户的UID，用户信息库里的信息包括了用户的详细信息，比如微博用户，有用户注册的详细资料、所在地、生日、发的微博记录等。点击日志的预处理需要将点击日志与用户信息库进行关联，统一数据格式。具体的，将流量日志统一为流量日志标准格式，将点击日志统一为点击日志标准格式。

对流量日志标准格式举例说明如下：

列号	含义	列号	含义
				0	会话ID	9	当前URL
1	会话序号	10	来源域名
				2	访问层次	11	上一次访问时间
3	访问时间	12	总次数
				4	Session_id	13	操作***版本
5	Cookie_id	14	浏览器版本
				6	登录用户类别	15	Flash版本
7	登录用户ID	16	语言

8

来源URL

17

访问持续时间

对点击日志标准格式举例说明如下：

列号	含义	列号	含义
				0	时间	9	昵称
1	IP	10	激活状态
				2	当前URL	11	邮箱
3	Session_id	12	用户类型
				4	Cookie_id	13	真实姓名
5	用户ID	14	标签
				6	指标代码	15	注册来源
7	级别	16
				8	性别	17

然后，即可分布式存储预处理后的日志。在HDFS文件***上存储预处理后的日志文件。自日志预处理服务器向HDFS文件***上传日志前，先通过Hadoop的配置文件对预处理后的日志进行块大小和副本数的配置，上传后日志文件以LZO格式存储。

数据统计分析模块主要是通过Hadoop提供的Map/Reduce框架实现，具体如下：

1)读取数据表的配置信息，按日志类型分别导入不同文件中；

先从数据库中读取数据表的配置信息，其中包括列信息、指标的配置信息以及维度和维度值。将这些信息按日志类型分别导入不同文件中，并且上传存到HDFS中，供后续程序使用。

2)对日志进行Map操作，将日志处理成key-value格式，得到Map结果；

循环遍历每种日志类型的每一个指标(日志的指标由使用者根据使用者的需求设置，比如首页的访问人数等)，根据每一个指标的计算规则(计算规则由用户定义，用户可根据指标，设置计算规则，比如统计某个用户A的浏览量，则计算规则写为UID＝’A’)对日志进行计算，如果某一条日志记录符合当前指标的计算规则，则将该记录处理成key-value的格式。

本发明实施例涉及的日志类型包含流量日志和点击日志。

本发明实施例中指标的计算类型包括4种：计数类型、累加类型、分组计数类型及分组累加类型，每种的数据处理都有所不同，具体如下：

计数类型：如果当前指标的计算类型是计数类型，则将符合当前计算规则的日志记录格式化为key＝日期+指标ID，value＝l。

累加类型：如果当前指标的计算类型是累加类型，那么将符合当前计算规则的日志记录处理为key＝日期+指标ID，value＝计算列的值。累加的key值与计数是相同的处理方式，但是累加的value值不是1，而是在进行列指标配置时，选择的计算列的值。这样在后面直接合并的就是累加值。

分组计数类型：如果当前指标的计算类型是分组计数类型，则将符合当前计算规则的日志记录格式化为key＝日期+指标ID+组ID，value＝l。

分组累加类型：如果当前指标的计算类型是分组累加类型，那么将符合当前计算规则的日志记录处理为key＝日期+指标ID+组ID，value＝计算列的值。累加的key值与计数是相同的处理方式，但是累加的value值不是1，而是在进行列指标配置时，选择的计算列的值。这样在后面合并的结果就是分组的累加值。

本步骤输出key-value格式的日志，即日志具有一key值和一value值。

3)对所述Map结果进行合并操作，得到合并结果；

本发明实施例在Mapper和Reducer之间增加了Combiner以进行Combine操作，Combiner主要是为了减轻Reducer的负载，提高程序运行速度。Combiner的操作是对本地的Map结果进行进一步的合并，处理后的结果作为Reducer的输入数据。如计数或者累加时，Combiner操作会将本地Map输出的结果进行合并，处理之后的结果是每一个key值(即每一个key-value组合)只有一条记录，从而减少了Reducer的工作。

4)对所述合并进行Reduce操作，得到数据分析结果，将该数据分析结果存放于所述HDFS文件***中；

经过Map和Combine的处理之后，数据被存储在统计分析模块本地的文件***中。进行Reducer操作时，需要从不同的Map上读取数据，不同Map中key值相同的日志将会在同一个Reducer中处理。具体每个key值对应的日志被分配到哪一个Reducer进行处理，是通过对key值进行哈希实现的，哈希值相同的记录分配到同一个Reducer上处理。计数和累加的Reducer操作时相同的，都是对相同key值对应的value值求和。当Reducer操作完成以后，结果数据被存放在HDFS中，最后从HDFS中将数据导入数据库，供用户查询。

用户界面模块主要是读取数据库中的统计结果数据，然后展示在前端页面，展现方式有数据表、饼图、折线图及柱状图。

本发明实施例提供了一种日志管理方法和***，首先在测试环境下，对选定的某一页面进行布码，添加所需js文件。然后收集用户访问日志。再将收集到得日志存储在Hadoop集群中一份，独立的服务器中一份。再在***的用户界面对数据表和指标进行配置。然后采用hadoop和shell脚本两种不同方法进行计算。最后通过***页面查看数据的图表的展示。收集流量日志和点击日志，对收集得到的日志进行预处理，分布式存储预处理后的日志。实现了基于HDFS架构的日志文件分布式存储，解决了分布式存储管理日志数据的问题。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上(如***、设备、装置、器件等)执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

Claims

1.一种日志管理方法，其特征在于，包括：

收集流量日志和点击日志；

对收集得到的日志进行预处理；

分布式存储预处理后的日志。

2.根据权利要求1所述的日志管理方法，其特征在于，收集流量日志和点击日志包括：

时间、客户端IP、用户信息、访问地址、refer地址。

3.根据权利要求1所述的日志管理方法，其特征在于，对收集得到的日志进行预处理包括：

4.根据权利要求3所述的日志管理方法，其特征在于，分布式存储预处理后的日志包括：

对所述预处理后的日志进行块大小和副本数的配置；

5.根据权利要求4所述的日志管理方法，其特征在于，该方法还包括：

读取数据表的配置信息，按日志类型分别导入不同文件中；

对所述Map结果进行合并操作，得到合并结果；

6.根据权利要求5所述的日志管理方法，其特征在于，读取数据表的配置信息，按日志类型分别导入不同文件中包括：

7.根据权利要求6所述的日志管理方法，其特征在于，对日志进行Map操作，将日志处理成key-value格式，得到Map结果包括：

循环遍历每种日志类型的每一个指标；

8.根据权利要求7所述的日志管理方法，其特征在于，所述计算类型包括：

分组计数类型，将符合当前计算规则的日志记录格式化为key＝日期+指标ID+组ID，value＝l；

9.根据权利要求5所述的日志管理方法，其特征在于，对所述Map结果进行合并操作，得到合并结果包括：

对Map结果进行合并至每一个key-value值只对应一条日志。