CN111782477A

CN111782477A - 异常日志监控方法、装置、计算机设备及存储介质

Info

Publication number: CN111782477A
Application number: CN202010622906.2A
Authority: CN
Inventors: 宋天喜
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Shenzhen Saiante Technology Service Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16
Anticipated expiration: 2040-06-30
Also published as: CN111782477B

Abstract

本发明公开了异常日志监控方法、装置、计算机设备及存储介质，涉及云监控的异常监控，在通过任务订阅获取了清洗后应用日志数据集合后，若有清洗后应用日志数据与初始异常模式数据相同，获取对应的清洗后应用日志数据组成第一目标清洗后应用日志数据集合，将清洗后应用日志数据集合中日志数据通过K‑means聚类，得到对应的日志聚类结果；获取日志聚类结果中所包括的多个聚类簇中清洗后应用日志数据总条数为最小值的目标聚类簇，将目标聚类簇对应的清洗后应用日志数据组成第二目标清洗后应用日志数据集合。该方法实现了对海量日志数据中异常日志和疑似异常日志的有效监控和获取。

Description

异常日志监控方法、装置、计算机设备及存储介质

技术领域

本发明涉及云监控的异常监控技术领域，尤其涉及一种异常日志监控方法、装置、计算机设备及存储介质。

背景技术

数据共享交换平台作为常用的大数据平台，需提供库表、接口、文件等各类数据采集交换功能，负责打通多个接入该数据共享交换平台的业务服务器，避免数据在业务服务器中形成数据孤岛。

目前，常用的数据共享交换平台在业务高可用方面处理有以下特点：

a、数据采集交换作业主体基于传统的数据集成模式；

b、数据采集交换作业环节多、流程长、分支杂、海量数据、业务闭环难。

这就导致现有的数据共享交换平台中，若存在数据归集、共享交换作业等故障发生，难以快速定位获取异常日志，也无法基于数据共享交换平台中海量的日志数据获取疑似异常数据。

发明内容

本发明实施例提供了一种异常日志监控方法、装置、计算机设备及存储介质，旨在解决现有技术中数据共享交换平台若存在数据归集、共享交换作业等故障发生，难以快速定位获取异常日志，也无法基于数据共享交换平台中海量的日志数据获取疑似异常数据的问题。

第一方面，本发明实施例提供了一种异常日志监控方法，其包括：

通过Flume组件获取应用日志数据集合；

将所述应用日志数据集合中各条日志数据进行清洗，以得到清洗后应用日志数据集合，将所述清洗后应用日志数据集合存储至Kafka消息队列；

通过SparkStreaming任务订阅所述Kafka消息队列中的清洗后应用日志数据集合；

调用本地存储的初始异常模式数据集合及与所述初始异常模式数据集合对应的异常日志处理策略集合，获取所述初始异常模式数据集合中包括的各条初始异常模式数据；其中，所述初始异常模式数据集合中每一条初始异常模式数据对应异常日志处理策略集合中的其中一条异常日志处理策略；每一条异常日志处理策略用于对相应类型的初始异常模式数据进行故障自愈处理；

将所述清洗后应用日志数据集合中各条清洗后应用日志数据与各条初始异常模式数据进行比对，判断是否有清洗后应用日志数据与初始异常模式数据相同；

若有清洗后应用日志数据与初始异常模式数据相同，获取对应的清洗后应用日志数据组成第一目标清洗后应用日志数据集合，以发送至本地预先创建的异常库进行存储；

将清洗后应用日志数据集合中日志数据通过K-means聚类，得到对应的日志聚类结果；以及

获取所述日志聚类结果中所包括的多个聚类簇中清洗后应用日志数据总条数为最小值的目标聚类簇，将所述目标聚类簇对应的清洗后应用日志数据组成第二目标清洗后应用日志数据集合，以发送至本地预先创建的待选异常库进行存储。

第二方面，本发明实施例提供了一种异常日志监控装置，其包括：

应用日志数据集合获取单元，用于通过Flume组件获取应用日志数据集合；

数据清洗单元，用于将所述应用日志数据集合中各条日志数据进行清洗，以得到清洗后应用日志数据集合，将所述清洗后应用日志数据集合存储至Kafka消息队列；

数据订阅获取单元，用于通过SparkStreaming任务订阅所述Kafka消息队列中的清洗后应用日志数据集合；

本地模式数据获取单元，用于调用本地存储的初始异常模式数据集合及与所述初始异常模式数据集合对应的异常日志处理策略集合，获取所述初始异常模式数据集合中包括的各条初始异常模式数据；其中，所述初始异常模式数据集合中每一条初始异常模式数据对应异常日志处理策略集合中的其中一条异常日志处理策略；每一条异常日志处理策略用于对相应类型的初始异常模式数据进行故障自愈处理；

应用日志数据比对单元，用于将所述清洗后应用日志数据集合中各条清洗后应用日志数据与各条初始异常模式数据进行比对，判断是否有清洗后应用日志数据与初始异常模式数据相同；

异常库存储单元，用于若有清洗后应用日志数据与初始异常模式数据相同，获取对应的清洗后应用日志数据组成第一目标清洗后应用日志数据集合，以发送至本地预先创建的异常库进行存储；

日志数据聚类单元，用于将清洗后应用日志数据集合中日志数据通过K-means聚类，得到对应的日志聚类结果；以及

待选异常库存储单元，用于获取所述日志聚类结果中所包括的多个聚类簇中清洗后应用日志数据总条数为最小值的目标聚类簇，将所述目标聚类簇对应的清洗后应用日志数据组成第二目标清洗后应用日志数据集合，以发送至本地预先创建的待选异常库进行存储。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的异常日志监控方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的异常日志监控方法。

本发明实施例提供了一种异常日志监控方法、装置、计算机设备及存储介质，在通过任务订阅获取了清洗后应用日志数据集合后，若有清洗后应用日志数据与初始异常模式数据相同，获取对应的清洗后应用日志数据组成第一目标清洗后应用日志数据集合，将清洗后应用日志数据集合中日志数据通过K-means聚类，得到对应的日志聚类结果；获取所述日志聚类结果中所包括的多个聚类簇中清洗后应用日志数据总条数为最小值的目标聚类簇，将所述目标聚类簇对应的清洗后应用日志数据组成第二目标清洗后应用日志数据集合。实现了对海量日志数据中异常日志的有效监控和获取，还可对海量日志数据中疑似异常日志进行有效监控和获取。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的异常日志监控方法的应用场景示意图；

图2为本发明实施例提供的异常日志监控方法的流程示意图；

图3为本发明实施例提供的异常日志监控方法的子流程示意图；

图4为本发明实施例提供的异常日志监控装置的示意性框图；

图5为本发明实施例提供的异常日志监控装置的子单元示意性框图；

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

为了更清楚的理解本申请的技术方案，下面对所涉及的终端进行详细介绍。其中，本申请中的***架构图如图1所示，其中图1为本发明实施例提供的异常日志监控方法的应用场景示意图。如图1所示，本申请所涉及的终端具体如下：

第一是数据交换平台，其作用是梳理出应用日志的异常模式清单及对应的处理策略清单，作为大数据平台初始导入的静态异常模式及处理策略。

第二是大数据平台，其融合了海量日志的流式处理能力，实时分析发现平台所有作业状态及异常，落入异常库，同时，通过无监督机器学习K-means算法对集中存储日志进行聚类分析，发现新异常模式，供后续运维监控***进行业务闭环处理。

第三是运维监控***，其从大数据平台获取分析结果落入运维***异常库中，关联异常模式与处理策略，进行后续业务闭环处理。

第四是运维人员终端，运维人员终端是运维人员所使用的如智能手机平板电脑等智能终端，其可以接收由运维监控***发送的异常处理通知信息，以及时对运维监控***中待选异常库的数据进行异常处理。

大数据平台、数据交换平台、运维监控***共同组成数据共享交换平台中的智能实时融合业务监控平台，本申请在智能实时融合业务监控平台的角度描述技术方案。

请同时参阅图1和图2，其中图2为本发明实施例提供的异常日志监控方法的流程示意图，该异常日志监控方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S180。

S110、通过Flume组件获取应用日志数据集合。

在本实施例中，大数据平台通过Flume组件获取由数据交换平台发送的应用日志数据集合。应用日志数据集合则是由数据交换平台接收来自各应用服务器上传的应用日志数据。其中，Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的***。Flume组件又包括三个重要的组件，具体如下：

A1)Source组件，用于收集日志数据；

A2)Channel组件，用于传递日志数据；

A3)Sink组件，用于存储日志数据。

应用日志数据中一般包括：

B1)时间，作为日志产生的日期和时间，这个数据非常重要，一般精确到毫秒。由于一般按天滚动日志文件，日期不需要放在这个时间中，使用HH:mm:ss.SSS格式即可；

B2)日志级别，日志级别主要使用DEBUG(DEUBG级别的主要输出调试性质的内容，该级别日志主要用于在开发、测试阶段输出)、INFO(INFO级别的主要输出提示性质的内容，该级别日志主要用于生产环境的日志输出)、WARN(WARN级别的主要输出警告性质的内容，这些内容是可以预知且是有规划的，比如，某个方法入参为空或者该参数的值不满足运行该方法的条件时)、ERROR(ERROR级别主要针对于一些不可预知的信息，诸如：错误、异常等)；

B3)调用链标识(可选)，在分布式应用中，用户的一个请求会调用若干个服务完成，这些服务可能还是嵌套调用的，因此完成一个请求的日志并不在一个应用的日志文件，而是分散在不同服务器上不同应用节点的日志文件中。该标识是为了串联一个请求在整个***中的调用日志，调用链标识格式中包括唯一字符串(trace ID)和调用层级(span ID)，调用链标识作为可选项，无该数据时只输出[]即可；

B4)线程名称，输出该日志的线程名称，一般在一个应用中一个同步请求由同一线程完成，输出线程名称可以在各个请求产生的日志中进行分类，便于分清当前请求上下文的日志；

B5)日志记录器名称，日志记录器名称一般使用类名，日志文件中可以输出简单的类名即可，看实际情况是否需要使用包名。主要用于看到日志后到哪个类中去找这个日志输出，便于定位问题所在；

B6)日志内容，对需要输出日志的对象，应在其类中实现快速的toString方法，以便于在日志输出时仅输出这个对象类名和hashCode；

B7)异常堆栈(不一定有)，异常堆栈一般会出现在ERROR或者WARN级别的日志中，异常堆栈含有方法调用链的***，以及异常产生的根源。

由于通过大数据平台通过Flume组件获取由数据交换平台发送的应用日志数据集合，且Flume组件是一个分布式、高可用的日志采集组件，故通过Flume组件实现了对应用日志数据集合的快速获取。

S120、将所述应用日志数据集合中各条日志数据进行清洗，以得到清洗后应用日志数据集合，将所述清洗后应用日志数据集合存储至Kafka消息队列。

在本实施例中，当通过Flume组件获取由数据交换平台发送的应用日志数据集合后，需要对应用日志数据集合进行数据清洗。例如，若应用日志具体为Web应用日志(简称为Web日志记录)，数据清洗就是删除Web日志记录中与数据挖掘不相关的数据，把Web日志转化为时间数据挖掘的可靠的精确数据。

在一实施例中，步骤S120包括：

将所述应用日志集合中的多媒体文件、Java applet文件、JS脚本文件、CSS层叠式样式表文件、弹出式广告记录数据、搜索引擎网站访问记录数据、离线浏览软件网站访问记录数据、产生错误的访问记录数据进行删除以清洗数据，得到清洗后应用日志数据集合。

在本实施例中，Web日志记录中与数据挖掘不相关的数据，主要包括以下数据类型：

C1)多媒体文件(*.GIF、*.SWF、*.JPG、*.MIDI、*.MP3、*.AVI等)以及Java applet文件、JS脚本文件、CSS层叠式样式表文件等的记录；

C2)弹出式广告的记录；框架网页中子网页的请求记录；

C3)搜索引擎Robot和离线浏览软件对网站的访问所产生的记录；

C4)产生错误的访问记录。

针对上述Web日志记录具体在清洗时，结合网站的拓扑结构，通过检查URL的后缀名，删除认为不相关的文件，即可得到清洗后应用日志数据集合。

S130、通过SparkStreaming任务订阅所述Kafka消息队列中的清洗后应用日志数据集合。

在本实施例中，SparkStreaming是Spark(Spark是一种计算引擎)核心API(API即应用程序编程接口)的一个扩展，可以实现高吞吐量的，具备容错机制的实时流数据处理。Spark Streaming可接收Kafka(Kafka是一种高吞吐量的分布式发布订阅消息***，它可以处理消费者在网站中的所有动作流数据)、Flume、HDFS(即分布式文件***)等各种来源的实时输入数据，进行处理后，处理结构保存在HDFS、DataBase(即数据库)等各种地方。SparkStreaming实际上是对接的外部数据流之后按照时间切分，批处理一个个切分后的文件。通过SparkStreaming任务，可以快速获取所述Kafka消息队列中的清洗后应用日志数据集合。

在一实施例中，步骤S130包括：

通过SparkStreaming任务的接收器获取所述Kafka消息队列中的清洗后应用日志数据集合。

在本实施例中，在使用SparkStreaming任务时需要先添加SparkStreaming的Kafka依赖包。通过添加Kafka依赖包后，即可通过SparkStreaming任务创建的接收器，以分布式的快速接收所述Kafka消息队列中的清洗后应用日志数据集合。

在一实施例中，所述通过SparkStreaming任务的接收器获取所述Kafka消息队列中的清洗后应用日志数据集合的步骤包括：

获取所述清洗后应用日志数据集合中主题的总个数，记为第一总数值；

创建与所述第一总数值有相同数量的接收器，在每一个接收器中对应创建用于接收数据的离散流实例；其中，每一接收器对应接收所述清洗后应用日志数据集合中其中一个主题的数据；

通过每一个离散流实例接收所述清洗后应用日志数据集合中其中一个主题的数据，得到与每一个离散流实例对应的初始离散流实例；

将各个初始离散流实例进行合并，得到离散流实例集合以组成清洗后应用日志数据集合。

在本实施例中，SparkStreaming提供了表示连续数据流的、高度抽象的被称为离散流实例的Dstream(即离散流实例)。Dstream是SparkStreaming特有的数据类型，Dstream可以看作一组RDDs，即RDD的一个序列。通过创建与所述第一总数值有相同数量的接收器，可以同时获取所述清洗后应用日志数据集合中其中一个主题的数据，得到与每一个离散流实例对应的初始离散流实例。

采用分布式的方式快速获取了各个初始离散流实例后，将各个初始离散流实例进行合并，得到离散流实例集合以组成清洗后应用日志数据集合。

S140、调用本地存储的初始异常模式数据集合及与所述初始异常模式数据集合对应的异常日志处理策略集合，获取所述初始异常模式数据集合中包括的各条初始异常模式数据；其中，所述初始异常模式数据集合中每一条初始异常模式数据对应异常日志处理策略集合中的其中一条异常日志处理策略；每一条异常日志处理策略用于对相应类型的初始异常模式数据进行故障自愈处理。

在本实施例中，由于数据交换平台中已梳理出应用日志的异常模式清单及对应的处理策略清单，故可以预先由数据交换平台将初始异常模式数据集合及对应的异常日志处理策略集合发送至大数据平台进行存储。

之后，大数据平台可以将所述初始异常模式数据集合中包括的各条初始异常模式数据，以及每一条初始异常模式数据对应异常日志处理策略集合中的其中一条异常日志处理策略发送至运维监控***进行日志故障自愈处理。通过这一方式，实现了故障自愈处理的前端环节的及时处理；其中，故障自愈处理的闭环环节包括故障监控、故障日志发送指定位置、故障自愈处理。

S150、将所述清洗后应用日志数据集合中各条清洗后应用日志数据与各条初始异常模式数据进行比对，判断是否有清洗后应用日志数据与初始异常模式数据相同。

在本实施例中，大数据平台还能接收由数据交换平台发送的应用日志数据集合，且可以将其中各条日志数据进行清洗以得到清洗后应用日志数据集合。之后若大数据平台接收到了数据交换平台发送的应用日志数据集合且经过清洗后得到的所述清洗后应用日志数据集合，此时即可将其中的各条清洗后应用日志数据与所述初始异常模式数据集合中包括的各条初始异常模式数据进行比较，判断是否有与初始异常模式数据相同的清洗后应用日志数据，从而识别从所述清洗后应用日志数据集合中识别出异常数据及时进行处理。

S160、若有清洗后应用日志数据与初始异常模式数据相同，获取对应的清洗后应用日志数据组成第一目标清洗后应用日志数据集合，以发送至本地预先创建的异常库进行存储。

在本实施例中，当有清洗后应用日志数据与初始异常模式数据相同，表示有清洗后应用日志数据与当前已知的异常日志(初始异常模式数据集合中包括的各条初始异常模式数据均对应当前已知的异常日志)相同；此时可以将这些清洗后应用日志数据组成第一目标清洗后应用日志数据集合，之后发送至在大数据平台的本地预先创建的异常库进行存储。

可见，异常库中存储的清洗后应用日志数据是可以查询到已知异常日志处理策略以对应进行故障自愈的日志数据，对异常库中各条清洗后应用日志数据有针对性的快速进行故障自愈，能提高排障效率。

若所述清洗后应用日志数据集合中不存在有清洗后应用日志数据与初始异常模式数据相同，表示所述清洗后应用日志数据集合中不存在明确的异常日志，此时可以直接跳转执行步骤S170。

S170、将清洗后应用日志数据集合中日志数据通过K-means聚类，得到对应的日志聚类结果。

在本实施例中，由于日志数据一般是包括时间、日志级别、调用链标识、线程名称、日志记录器名称、日志内容、异常堆栈等信息的数据，可以视为结构化数据。此时可以根据每一日志数据包括的具体信息进行聚类。对清洗后应用日志数据集合进行聚类时，选择清洗后应用日志数据其中一个字段(例如日志内容)作为主键，其余字段作为属性数据。通过对清洗后应用日志数据集合中日志数据通过K-means聚类，可以提取其中数据量较少的聚类簇，判断是否有疑似异常日志数据，实现了对新日志异常的动态识别。

在一实施例中，如图3所示，步骤S170包括：

S171、在清洗后应用日志数据集合中选取与预设的聚类簇数相同个数的清洗后应用日志数据，将所选取的清洗后应用日志数据作为每一簇的初始聚类中心；

S172、根据所述清洗后应用日志数据集合中各条清洗后应用日志数据与各初始聚类中心的相异值，将所述清洗后应用日志数据集合进行划分，得到初始聚类结果；

S173、根据初始聚类结果，获取每一簇的调整后聚类中心；

S174、根据调整后聚类中心，将所述清洗后应用日志数据集合根据与调整后聚类中心的相异值进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的日志聚类结果。

在本实施例中，对清洗后应用日志数据集合进行聚类时采用k-means算法，过程如下：

D1)从n个清洗后应用日志数据集合中任意选取k个清洗后应用日志数据，并作为k个簇的初始聚类中心；其中，清洗后应用日志数据集合中清洗后应用日志数据的初始总个数为n，从其中任意选择k个数据点(k<n，k是用户指定的参数，即所期望的簇的个数，也即预设的聚类簇数)，将初始选择的k个数据点作为初始聚类中心。

D2)分别计算剩下的清洗后应用日志数据到k个簇初始聚类中心的相异度，将剩下的清洗后应用日志数据分别划归到相异度最低的簇，得到初始聚类结果；即是剩下的每一清洗后应用日志数据选择距其距离最近的初始聚类中心，并与该初始聚类中心归为一类；这样就以初始选择的初始聚类中心将海量的清洗后应用日志数据划分为k簇，每一簇数据都有一个初始聚类中心。

D3)根据初始聚类结果，重新计算k个簇各自的聚类中心；具体计算方法是取每一簇中所有清洗后应用日志数据的主属性的算术平均数，选择一个距离主属性算数平均值最近的清洗后应用日志数据作为新的聚类中心，重新选择该簇数据中更优的聚类中心。

D4)将n个清洗后应用日志数据中全部元素按照新的聚类中心重新聚类；

D5)重复D4)步，直到聚类结果不再变化，得到与预设的聚类簇数对应的聚类结果。

在完成了聚类分类之后，即可实现快速的将海量的清洗后应用日志数据集合进行分组，得到多个聚类簇以组成日志聚类结果。通过对清洗后应用日志数据集合中日志数据通过K-means聚类，可以快速且准确的提取其中数据量较少的聚类簇。

S180、获取所述日志聚类结果中所包括的多个聚类簇中清洗后应用日志数据总条数为最小值的目标聚类簇，将所述目标聚类簇对应的清洗后应用日志数据组成第二目标清洗后应用日志数据集合，以发送至本地预先创建的待选异常库进行存储。

在本实施例中，在日志聚类结果所包括的多个聚类簇中选择包括清洗后应用日志数据总条数的聚类簇作为目标聚类簇，是因为一般异常日志会是较小比例出现的那部分日志数据，此时可以将目标聚类簇中的这些清洗后应用日志数据组成第二目标清洗后应用日志数据集合，之后发送至在大数据平台中本地预先创建的待选异常库进行存储。

由于第二目标清洗后应用日志数据集合中的日志数据不一定是异常日志数据，此时将其存储于待选异常库，也是为了与异常库中存储的日志数据进行分区域存储。之后可以通过人工甄别的方式来判断待选异常库中是否为真实的异常日志数据。

在一实施例中，步骤S180之后还包括：

将所述异常库中的清洗后应用日志数据、以及所述待选异常库中的清洗后应用日志数据通过Sqoop2组件发送至本地的运维监控库进行存储。

在本实施例中，Sqoop2组件常用作大数据平台使用的数据库(如HDFS)与传统的关系型数据库(如MySQL)之间互传数据的工具。在运维监控***中部署有传统的关系型数据库，以接收大数据平台发送的异常库数据和待选异常库数据。

在运维监控***接收并存储了所述异常库中的清洗后应用日志数据、以及所述待选异常库中的清洗后应用日志数据后，即可及时通过自动故障自愈的方式排除所述异常库中各条清洗后应用日志数据的故障，并通过人工辅助排障的方式排除所述待选异常库数据各条清洗后应用日志数据的故障。

在一实施例中，所述将所述异常库中的清洗后应用日志数据、以及所述待选异常库中的清洗后应用日志数据通过Sqoop2组件发送至本地的运维监控库进行存储的步骤之后，还包括：

获取与所述异常库中各条清洗后应用日志数据分别对应的异常日志处理策略；

自动执行各条异常日志处理策略，得到与所述异常库中各条清洗后应用日志数据分别对应的自愈后应用日志数据；

将待选异常库的人工处理通知信息发送至运维人员终端。

在本实施例中，由于在大数据平台中存储了与所述异常库中各条清洗后应用日志数据分别对应的异常日志处理策略，此时运维监控***从大数据平台中获取与所述异常库中各条清洗后应用日志数据分别对应的异常日志处理策略，以自动执行各条异常日志处理策略，得到与所述异常库中各条清洗后应用日志数据分别对应的自愈后应用日志数据。基于各类应用日志的海量信息，通过大数据平台实时分析出交换平台出现的各类异常，并提供出口处理策略支持业务闭环处理。

与此同时，还可以将待选异常库的人工处理通知信息(这一人工处理通知信息可以是短信、邮件等形式)发送至运维人员终端，以通知运维人员及时登录运维监控***针对待选异常库中的各条清洗后应用日志数据进行故障确认及排除。

其中，运维人员针对待选异常库中的任意一条清洗后应用日志数据设置了对应的当前异常日志处理策略，则将该条清洗后应用日志数据发送至数据交换平台中的初始异常模式数据集合，以更新该初始异常模式数据集合；同时将该条清洗后应用日志数据对应的当前异常日志处理策略发送至数据交换平台中的异常日志处理策略集合，以更新该异常日志处理策略集合。同时，基于大数据平台自学习能力，不断完善补充异常模式及处理策略库，以实现自学习的智能日志分析能力。

该方法实现了对海量日志数据中异常日志的有效监控和获取，还可对海量日志数据中疑似异常日志进行有效监控和获取。

本发明实施例还提供一种异常日志监控装置，该异常日志监控装置用于执行前述异常日志监控方法的任一实施例。具体地，请参阅图4，图4是本发明实施例提供的异常日志监控装置的示意性框图。该异常日志监控装置100可以配置于服务器中。

如图4所示，异常日志监控装置100包括：应用日志数据集合获取单元110、数据清洗单元120、数据订阅获取单元130、本地模式数据获取单元140、应用日志数据比对单元150、异常库存储单元160、日志数据聚类单元170、待选异常库存储单元180。

应用日志数据集合获取单元110，用于通过Flume组件获取应用日志数据集合。

在本实施例中，大数据平台通过Flume组件获取由数据交换平台发送的应用日志数据集合。应用日志数据集合则是由数据交换平台接收来自各应用服务器上传的应用日志数据。其中，Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的***。

数据清洗单元120，用于将所述应用日志数据集合中各条日志数据进行清洗，以得到清洗后应用日志数据集合，将所述清洗后应用日志数据集合存储至Kafka消息队列。

在一实施例中，所述数据清洗单元120还用于：

多媒体文件(*.GIF、*.SWF、*.JPG、*.MIDI、*.MP3、*.AVI等)以及Java applet文件、JS脚本文件、CSS层叠式样式表文件等的记录；

弹出式广告的记录；框架网页中子网页的请求记录；

搜索引擎Robot和离线浏览软件对网站的访问所产生的记录；

产生错误的访问记录。

数据订阅获取单元130，用于通过SparkStreaming任务订阅所述Kafka消息队列中的清洗后应用日志数据集合。

在一实施例中，所述数据订阅获取单元130还用于：

在一实施例中，所述数据订阅获取单元130，包括：

主题个数获取单元，用于获取所述清洗后应用日志数据集合中主题的总个数，记为第一总数值；

接收器创建单元，用于创建与所述第一总数值有相同数量的接收器，在每一个接收器中对应创建用于接收数据的离散流实例；其中，每一接收器对应接收所述清洗后应用日志数据集合中其中一个主题的数据；

离散流实例数据接收单元，用于通过每一个离散流实例接收所述清洗后应用日志数据集合中其中一个主题的数据，得到与每一个离散流实例对应的初始离散流实例；

离散流实例合并单元，用于将各个初始离散流实例进行合并，得到离散流实例集合以组成清洗后应用日志数据集合。

本地模式数据获取单元140，用于调用本地存储的初始异常模式数据集合及与所述初始异常模式数据集合对应的异常日志处理策略集合，获取所述初始异常模式数据集合中包括的各条初始异常模式数据；其中，所述初始异常模式数据集合中每一条初始异常模式数据对应异常日志处理策略集合中的其中一条异常日志处理策略；每一条异常日志处理策略用于对相应类型的初始异常模式数据进行故障自愈处理。

应用日志数据比对单元150，用于将所述清洗后应用日志数据集合中各条清洗后应用日志数据与各条初始异常模式数据进行比对，判断是否有清洗后应用日志数据与初始异常模式数据相同。

异常库存储单元160，用于若有清洗后应用日志数据与初始异常模式数据相同，获取对应的清洗后应用日志数据组成第一目标清洗后应用日志数据集合，以发送至本地预先创建的异常库进行存储。

日志数据聚类单元170，用于将清洗后应用日志数据集合中日志数据通过K-means聚类，得到对应的日志聚类结果。

在一实施例中，如图5所示，日志数据聚类单元170包括：

初始聚类中心获取单元171，用于在清洗后应用日志数据集合中选取与预设的聚类簇数相同个数的清洗后应用日志数据，将所选取的清洗后应用日志数据作为每一簇的初始聚类中心；

初始聚类单元172，用于根据所述清洗后应用日志数据集合中各条清洗后应用日志数据与各初始聚类中心的相异值，将所述清洗后应用日志数据集合进行划分，得到初始聚类结果；

聚类中心调整单元173，用于根据初始聚类结果，获取每一簇的调整后聚类中心；

日志聚类结果获取单元174，用于根据调整后聚类中心，将所述清洗后应用日志数据集合根据与调整后聚类中心的相异值进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的日志聚类结果。

在本实施例中，在完成了聚类分类之后，即可实现快速的将海量的清洗后应用日志数据集合进行分组，得到多个聚类簇以组成日志聚类结果。通过对清洗后应用日志数据集合中日志数据通过K-means聚类，可以快速且准确的提取其中数据量较少的聚类簇。

待选异常库存储单元180，用于获取所述日志聚类结果中所包括的多个聚类簇中清洗后应用日志数据总条数为最小值的目标聚类簇，将所述目标聚类簇对应的清洗后应用日志数据组成第二目标清洗后应用日志数据集合，以发送至本地预先创建的待选异常库进行存储。

在一实施例中，异常日志监控装置100还包括：

Sqoop2组件启动单元，用于将所述异常库中的清洗后应用日志数据、以及所述待选异常库中的清洗后应用日志数据通过Sqoop2组件发送至本地的运维监控库进行存储。

在一实施例中，异常日志监控装置100还包括：

异常日志处理策获取单元，用于获取与所述异常库中各条清洗后应用日志数据分别对应的异常日志处理策略；

故障自愈单元，用于自动执行各条异常日志处理策略，得到与所述异常库中各条清洗后应用日志数据分别对应的自愈后应用日志数据；

信息发送单元，用于将待选异常库的人工处理通知信息发送至运维人员终端。

该装置实现了对海量日志数据中异常日志的有效监控和获取，还可对海量日志数据中疑似异常日志进行有效监控和获取。

上述异常日志监控装置可以实现为计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图6，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行异常日志监控方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行异常日志监控方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的异常日志监控方法。

本领域技术人员可以理解，图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图6所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的异常日志监控方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种异常日志监控方法，其特征在于，包括：

通过Flume组件获取应用日志数据集合；

2.根据权利要求1所述的异常日志监控方法，其特征在于，还包括：

3.根据权利要求1所述的异常日志监控方法，其特征在于，所述将所述应用日志数据集合中各条日志数据进行清洗，以得到清洗后应用日志数据集合，包括：

4.根据权利要求1所述的异常日志监控方法，其特征在于，所述通过SparkStreaming任务订阅所述Kafka消息队列中的清洗后应用日志数据集合，包括：

5.根据权利要求4所述的异常日志监控方法，其特征在于，所述通过SparkStreaming任务的接收器获取所述Kafka消息队列中的清洗后应用日志数据集合，包括：

6.根据权利要求1所述的异常日志监控方法，其特征在于，所述将清洗后应用日志数据集合中日志数据通过K-means聚类，得到对应的日志聚类结果，包括：

在清洗后应用日志数据集合中选取与预设的聚类簇数相同个数的清洗后应用日志数据，将所选取的清洗后应用日志数据作为每一簇的初始聚类中心；

根据所述清洗后应用日志数据集合中各条清洗后应用日志数据与各初始聚类中心的相异值，将所述清洗后应用日志数据集合进行划分，得到初始聚类结果；

根据初始聚类结果，获取每一簇的调整后聚类中心；

根据调整后聚类中心，将所述清洗后应用日志数据集合根据与调整后聚类中心的相异值进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的日志聚类结果。

7.根据权利要求2所述的异常日志监控方法，其特征在于，所述将所述异常库中的清洗后应用日志数据、以及所述待选异常库中的清洗后应用日志数据通过Sqoop2组件发送至本地的运维监控库进行存储之后，还包括：

将待选异常库的人工处理通知信息发送至运维人员终端。

8.一种异常日志监控装置，其特征在于，包括：

本地模式数据获取单元，用于调用本地存储的初始异常模式数据集合及与所述初始异常模式数据集合对应的异常日志处理策略集合，获取所述初始异常模式数据集合中包括的各条初始异常模式数据；其中，所述初始异常模式数据集合中每一条初始异常模式数据对应异常日志处理策略集合中的其中一条异常日志处理策略；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的异常日志监控方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的异常日志监控方法。