CN105933736A

CN105933736A - 一种日志处理方法及装置

Info

Publication number: CN105933736A
Application number: CN201610244023.6A
Authority: CN
Inventors: 周鸣爱
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2016-09-07

Abstract

本发明公开了一种日志处理方法及装置，对不同的实时性处理需求，采用不同的方式处理相应的日志信息，实现对日志信息的实时快速处理与非实时高效处理的目的。所述日志处理方法包括：将节目播放日志实时记录到Kafka中；根据实时统计指令从所述Kafka中记录的日志中读取所述实时统计指令所指信息并对读取的信息实时处理；并按照预设的时间周期，从所述Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中进行离线处理；其中，所述预设的时间周期小于所述Kafka中日志删除的时间周期。该方法能够根据实际处理需求，读取相应的日志信息，实现对日志信息的实时与非实时的高效处理。

Description

一种日志处理方法及装置

技术领域

本发明涉及多媒体技术领域，尤其涉及一种日志处理方法及装置。

背景技术

随着计算机网络的发展，数字电视或网络电视等得到了普遍应用。对于电视或视频运营商而言，统计分析诸多用户对各种节目的喜好程度或播放习惯如某个节目的观看频率、播放时长、播放时间等是非常重要的，因此，电视或视频运营商都需要对节目播放日志进行记录及统计。

目前，对节目播放日志进行处理的方法主要有采用消息队列记录日志并实时统计以及大数据存储日志并事后离线统计两种方法。采用消息队列处理日志的方法对日志的处理速度快，得到的统计结果实时性好，但是由于消息队列不能长时间存储数据，因此无法进行长时段的统计，如周、月、季度统计等。采用大数据如Hadoop文件存储***(Hadoop Distributed File System，HDFS)对日志进行存储后离线统计的方法，具有日志存储量大，能够进行长时段内日志统计的优点，但是由于需要进行日志数据的大量存储及统计，存在处理速度比消息队列处理方法慢，实时性不够好的问题。

发明内容

本发明提供一种日志处理方法及装置，通过根据实时性处理要求，获取相关日志信息，采用Storm处理Kafka中记录的实时统计相关的日志信息，并采用Hadoop分布式文件***存储离线统计相关的日志信息后再对其离线处理，兼具实时性日志信息快速处理及非实时性日志信息大数据存储后离线处理的优点。

本发明提供一种日志处理方法，包括：

将节目播放日志实时记录到Kafka中；

根据实时统计指令从所述Kafka中记录的日志中读取所述实时统计指令所指信息并对读取的信息实时处理；并按照预设的时间周期，从所述Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中进行离线处理；其中，所述预设的时间周期小于所述Kafka中日志删除的时间周期。

本发明实施例的一些有益效果可以包括：

所述日志处理方法根据实时处理需求将相关的日志信息实时统计分析，并按照预定时间周期，根据离线处理需求从Kafka获取相关日志信息存入Hadoop分布式文件***中以便于以后离线分析处理，兼具需要实时处理的日志信息快速处理及需要离线处理的日志信息大数据存储后离线处理的优点。

在一个实施例中，所述根据实时统计指令从所述Kafka中记录的日志中读取所述实时统计指令所指信息并对读取的信息实时处理，包括：

根据实时统计指令从所述Kafka中记录的日志中读取所述实时统计指令所指信息；

使用Storm对读取到的信息进行分析统计。

在该实施例中，日志数据的存储采用Kafka，在需要实时统计时，根据实时统计指令从Kafka中获得相关数据，统计算法采用storm统计，数据的处理速度快。

在一个实施例中，所述按照预设的时间周期，从所述Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中进行离线处理，包括：

按照预设的时间周期，从所述Kafka中记录的日志中读取离线统计相关信息；

将本次读取到的信息写入Hadoop分布式文件***中；

根据用户输入的离线统计指令，在Hadoop平台上对所述Hadoop分布式文件***中存储的信息进行离线分析统计。

在该实施例中，根据预设的时间周期，周期性地将Kafka中需要离线处理的信息写入Hadoop分布式文件***中，然后根据离线统计指令，在Hadoop平台上对这些信息进行离线分析，由于Hadoop平台能够大数据处理，该方法减少了单一采用Kafka存储及处理日志的数据量，而且能够对不需要实时处理的大量数据进行离线高速运算和存储。

在一个实施例中，所述在Hadoop平台上对所述Hadoop分布式文件***中存储的信息进行离线分析统计，包括：

在Hadoop平台上采用数据挖掘中的分类、回归分析、聚类算法中的任一种算法对所述Hadoop分布式文件***中存储的信息进行离线分析统计。

在一个实施例中，所述将本次读取到的信息写入Hadoop分布式文件***中，包括：

使用Storm对本次读取到的信息进行处理；

将使用Storm处理后的信息写入Hadoop分布式文件***中。

在一个实施例中，所述将使用Storm处理后的信息写入Hadoop分布式文件***中，包括：

通过Storm中的逻辑处理组件bolt直接将使用Storm处理后的信息写入Hadoop分布式文件***中。

在一个实施例中，所述按照预设的时间周期，从所述Kafka中记录的日志中读取离线统计相关信息之前，还包括：

将Kafka的每个主题topic的分区partation抽象为Hadoop MapReduce中的一个文件分片split；

基于所述文件分片split编写用于将信息从Kafka输出到Hadoop分布式文件***的MapReduce程序；所述MapReduce程序中预先设置有所述时间周期；

所述将本次读取到的信息写入Hadoop分布式文件***中，包括：根据所述MapReduce程序，将本次读取到的信息写入Hadoop分布式文件***中。

该实施例中，预先将Kafka的每个主题topic的分区partation抽象为Hadoop MapReduce中的一个split，编写将信息从Kafka输出到Hadoop分布式文件***的MapReduce程序，则在将Kafka中需要离线处理的信息写入Hadoop分布式文件***中时可直接根据该MapReduce程序进行数据的转移存储，存储简单快捷。

本发明提供一种日志处理装置，包括：

记录模块，用于将节目播放日志实时记录到Kafka中；

处理模块，用于根据实时统计指令从所述记录模块的Kafka中记录的日志中读取所述实时统计指令所指信息并对读取的信息实时处理；并按照预设的时间周期，从所述Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中进行离线处理；其中，所述预设的时间周期小于所述Kafka中日志删除的时间周期。

本发明实施例提供的日志处理装置能够根据实时处理需求将相关的日志信息实时统计分析，并按照预定时间周期，根据离线处理需求从Kafka获取相关日志信息存入Hadoop分布式文件***中以便于以后离线分析处理，兼具需要实时处理的日志信息快速处理及需要离线处理的日志信息大数据存储后离线处理的优点。

在一个实施例中，所述处理模块包括：

实时处理模块，用于根据实时统计指令从所述记录模块的Kafka中记录的日志中读取所述实时统计指令所指信息，并使用Storm对读取到的信息进行分析统计；

非实时处理模块，用于按照预设的时间周期，从所述记录模块的Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中，并根据用户输入的离线统计指令，在Hadoop平台上对Hadoop分布式文件***中存储的信息进行离线分析统计。

在一个实施例中，所述非实时处理模块包括：

读取模块，用于按照预设的时间周期，从所述Kafka中记录的日志中读取离线统计相关信息，并将本次读取到的信息发送给第一处理模块；

第一处理模块，用于使用Storm对所述读取模块发来的信息进行处理，并将使用Storm处理后的信息发送给第二处理模块；

第二处理模块，用于通过Storm中的逻辑处理组件bolt直接将所述第一处理模块发来的使用Storm处理后的信息写入Hadoop分布式文件***中。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的一种日志处理方法流程图；

图2为步骤S2中读取实时统计指令所指信息并对读取的信息实时处理的方法流程图；

图3为步骤S2中读取离线统计相关信息并将其写入Hadoop分布式文件***中进行离线处理的方法流程图；

图4为图3中步骤S302的一种实施方法流程图；

图5为本发明实施例一中一种日志处理方法的流程图；

图6为本发明实施例提供的一种日志处理装置结构框图；

图7为本发明实施例提供的另一种日志处理装置的结构框图；

图8为图7中非实时处理模块的结构框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明实施例提供的一种日志处理方法流程图，如图1中所示，该方法包括以下步骤S1-S2：

步骤S1：将节目播放日志实时记录到Kafka中；其中，Kafka是由Linkedin开发的一个分布式的发布订阅***，是一种成熟的技术，此处不再赘述。

步骤S2：根据实时统计指令从Kafka中记录的日志中读取实时统计指令所指信息并对读取的信息实时处理；并按照预设的时间周期，周期性地从Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中进行离线处理；其中，预设的时间周期小于Kafka中日志删除的时间周期。

其中，根据实时/离线统计的需求，需要读取的信息有所不同，例如：对于直播回看资源，与实时统计相关的信息有：某个频道，看了多少次，有多少用户再看，观看时长是多少；与离线(非实时)统计相关的信息有：按日、周、月及季度等对日志进行统计，对视频的清晰度、流畅度、视频大小等进行统计的相关数据。对于点播资源，与实时统计相关的信息有：某个节目，看了多少次，有多少用户看过，观看时长是多少；离与离线(非实时)统计相关的信息有：按日、周、月及季度等对日志进行统计，对视频的清晰度、流畅度、视频大小等进行统计的相关数据。由于具体的统计方法不是本发明的重点，此处不再对其进行赘述，根据实时统计指令读取的信息根据具体的统计要求来选择，离线统计类似。

本发明实施例提供的日志处理方法根据实时处理需求将相关的日志信息实时统计分析，并按照预定时间周期，根据离线处理需求从Kafka获取相关日志信息存入Hadoop分布式文件***中以便于以后离线分析处理，兼具需要实时处理的日志信息快速处理及需要离线处理的日志信息大数据存储后离线处理的优点。相对于现有的单一队列存储并处理日志的方法而言，数据处理量大，离线处理性好；相对于现有的单一大数据处理日志的方法而言，实时数据处理速度更快。

在一个实施例中，如图2所示，步骤S2中根据实时统计指令从Kafka中记录的日志中读取实时统计指令所指信息并对读取的信息实时处理，包括以下步骤S201-S202：

步骤S201：根据实时统计指令从Kafka中记录的日志中读取实时统计指令所指信息；

步骤S202：使用分布式实时计算***Storm对读取到的信息进行分析统计。

在该实施例中，日志数据的存储采用Kafka，由于需要统计的日志数据间的关联系较大，需要进行数据的多级交互处理，因此采用非常有效的实时计算工具Storm统计，在保证高可靠性的前提下还可以让从日志中读取的信息的处理进行的更加实时。

在一个实施例中，如图3所示，步骤S2中按照预设的时间周期，周期性地从Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中进行离线处理，包括步骤S301-S303：

步骤S301：按照预设的时间周期，周期性地从所述Kafka中记录的日志中读取离线统计相关信息。

步骤S302：将本次读取到的信息写入Hadoop分布式文件***中。

其中，将从Kafka中读取到的信息写入HDFS中的方法可以为两种：(1)将从Kafka中读取到的信息经Storm做简单处理后再写入到HDFS中；(2)直接将从Kafka中读取到的信息写入HDFS中。

步骤S303：根据用户输入的离线统计指令，在Hadoop平台上对Hadoop分布式文件***中存储的信息进行离线分析统计。

优选地，步骤S303可以在Hadoop平台上采用数据挖掘中的分类、回归分析、聚类算法中的任一种算法对HDFS中存储的信息进行离线分析统计。

在该实施例中，根据预设的时间周期，即每隔固定的时间间隔(每个时间周期的时长)，周期性地将Kafka中需要离线处理的信息写入Hadoop分布式文件***中，然后根据离线统计指令，在Hadoop平台上对这些信息进行离线分析，由于Hadoop平台能够大数据处理，该方法减少了单一采用Kafka存储及处理日志的数据量，而且能够对不需要实时处理的大量数据进行离线高速运算和存储。

若采用上述第(1)中方法将将从Kafka中读取到的信息写入HDFS中，则如图4所示，步骤S302包括以下步骤S401-S402：

步骤S401：使用Storm对本次读取到的信息进行处理；

步骤S402：将使用Storm处理后的信息写入HDFS中。

优选地，可以使用Storm中的逻辑处理组件bolt直接将使用Storm处理后的信息写入HDFS中。

若采用上述第(2)中方法将从Kafka中读取到的信息写入HDFS中，则在步骤S301之前，还包括步骤：

将Kafka的每个主题topic的分区partation抽象为Hadoop MapReduce中的一个文件分片split；然后再基于所述split编写用于将信息从Kafka输出到HDFS的MapReduce程序；其中，MapReduce是一种现有的编程模型，用于大规模数据集的并行运算，这里编写的将信息从Kafka输出到HDFS的MapReduce程序中预先设置有上述时间周期。

则步骤S302中，可根据预先编写好的用于将信息从Kafka输出到HDFS的MapReduce程序，将步骤S301中从Kafka中读取到的信息写入HDFS中，读写的时间周期即为该MapReduce程序中预先设置的时间周期。

该实施例中，预先将Kafka的每个topic的partation抽象为HadoopMapReduce中的一个文件分片split，编写将信息从Kafka输出到HDFS的MapReduce程序，则在将Kafka中需要离线处理的信息写入HDFS中时可直接根据该程序进行数据的转移存储，存储简单快捷。

下面通过具体实施例来说明本发明实施例提供的日志处理方法。

实施例一

图5为本发明实施例一中一种日志处理方法的流程图。如图5所示，该方法包括以下步骤S501-S507：

步骤S501：将节目播放日志实时记录到Kafka中；

其中，此步骤是一直在不断执行，不受其他步骤的干扰。

步骤S502：判断是否到达预设的时间周期(即：判断和上次存储离线统计相关信息的时间间隔是否达到预设的时间周期长)和/或收到实时统计指令？若收到实时统计指令，则执行步骤S503；若到达预设的时间周期，则执行步骤S505；否则(即既未到达预设的时间周期又未收到实时统计指令)，返回步骤S502。

步骤S503：从Kafka中记录的日志中读取收到的实时统计指令所指信息，继续执行步骤S504。

步骤S504：使用Storm对读取到的信息进行分析统计，并返回S502。

步骤S505：从Kafka中记录的日志中读取离线统计相关信息。

步骤S506：将本次读取到的信息写入HDFS中；

其中，可以采用上述实施例中提供的两种方法将本次从Kafka中读取到的信息写入HDFS中。

步骤S507：根据用户输入的离线统计指令，在Hadoop平台上对HDFS中存储的信息进行离线分析统计；

其中，可以采用前面所述的数据挖掘中的分类、回归分析、聚类算法中的任一种算法对HDFS中存储的信息进行离线分析统计。

本实施例一提供的日志处理方法能够对需要实时处理的日志信息进行实时快速处理，并将需要离线处理的海量日志信息转存到HDFS中进行离线分析处理，数据吞吐量大，离线分析方便。

对应于上述实施例提供的一种用日志处理方法，本发明实施例还提供一种日志处理装置，如图6所示，该装置包括：

记录模块61，用于将节目播放日志实时记录到Kafka中；

处理模块62，用于根据实时统计指令从记录模块61的Kafka中记录的日志中读取实时统计指令所指信息并对读取的信息实时处理，并按照预设的时间周期，周期性地从Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中进行离线处理；其中，预设的时间周期小于Kafka中日志删除的时间周期。

图6所示的装置可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一个实施例中，如图7所示，处理模块62包括：

实时处理模块621，用于根据实时统计指令从记录模块61的Kafka中记录的日志中读取实时统计指令所指信息，并使用Storm对读取到的信息进行分析统计；

非实时处理模块622，用于按照预设的时间周期，周期性地从记录模块61的Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中，并根据用户输入的离线统计指令，在Hadoop平台上对Hadoop分布式文件***中存储的信息进行离线分析统计。

在一个实施例中，如图8所示，非实时处理模块622包括：

读取模块81，用于按照预设的时间周期，周期性地从记录模块61的Kafka中记录的日志中读取离线统计相关信息，并将本次读取到的信息发送给第一处理模块82；

第一处理模块82，用于使用Storm对读取模块81发来的信息进行处理，并将使用Storm处理后的信息发送给第二处理模块83；

第二处理模块83，用于通过Storm中的逻辑处理组件bolt直接将第一处理模块82发来的使用Storm处理后的信息写入Hadoop分布式文件***中。

本发明实施例提供的日志处理装置能够将节目播放日志记录到Kafka中，并根据实时处理需求，获取与实时统计相关的信息直接处理，或将Kafka中与离线统计相关的信息周期性地转存到HDFS中，随后离线处理，兼具实时性日志信息快速处理及非实时性日志信息大数据存储的优点。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种日志处理方法，其特征在于，包括：

将节目播放日志实时记录到Kafka中；

2.如权利要求1所述的一种日志处理方法，其特征在于，所述根据实时统计指令从所述Kafka中记录的日志中读取所述实时统计指令所指信息并对读取的信息实时处理，包括：

使用Storm对读取到的信息进行分析统计。

3.如权利要求1所述的一种日志处理方法，其特征在于，所述按照预设的时间周期，从所述Kafka中记录的日志中读取离线统计相关信息并将其写入Hadoop分布式文件***中进行离线处理，包括：

将本次读取到的信息写入Hadoop分布式文件***中；

4.如权利要求3所述的一种日志处理方法，其特征在于，所述在Hadoop平台上对所述Hadoop分布式文件***中存储的信息进行离线分析统计，包括：

5.如权利要求3所述的一种日志处理方法，其特征在于，所述将本次读取到的信息写入Hadoop分布式文件***中，包括：

使用Storm对本次读取到的信息进行处理；

将使用Storm处理后的信息写入Hadoop分布式文件***中。

6.如权利要求5所述的一种日志处理方法，其特征在于，所述将使用Storm处理后的信息写入Hadoop分布式文件***中，包括：

7.如权利要求3所述的一种日志处理方法，其特征在于，所述按照预设的时间周期，从所述Kafka中记录的日志中读取离线统计相关信息之前，还包括：

8.一种日志处理装置，其特征在于，包括：

记录模块，用于将节目播放日志实时记录到Kafka中；

9.如权利要求8所述的一种日志处理装置，其特征在于，所述处理模块包括：

10.如权利要求9所述的一种日志处理装置，其特征在于，所述非实时处理模块包括：