CN105577440B

CN105577440B - 一种网络故障时间定位方法和分析设备

Info

Publication number: CN105577440B
Application number: CN201510990708.0A
Authority: CN
Inventors: 宋跃忠; 林程勇; 戴龙飞; 谭屯子; 杨文国
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2019-06-11
Anticipated expiration: 2035-12-24
Also published as: CN105577440A

Abstract

本发明公开了一种网络故障时间定位方法和分析设备，涉及数据挖掘和网络管理领域。解决了现有在定位网络故障的过程中，需要采用大量的人力和时间来分析网络日志，导致的故障定位效率较低的问题。本发明公开的方法包括：获取网络设备的至少一条日志信息；对至少一条日志信息进行处理，形成包含M个日志行为向量的日志行为矩阵；其中，每个日志行为向量包含N个元素；N为日志类型的个数，日志行为向量中的第i个元素表示：在日志行为向量的时间间隔内且属于第i类的日志信息的个数；根据预设模型对日志行为矩阵中的日志行为向量进行计算，确定网络设备的故障发生时间。

Description

一种网络故障时间定位方法和分析设备

技术领域

本发明涉及数据挖掘和网络管理领域，尤其涉及一种网络故障时间定位方法和分析设备。

背景技术

随着网络技术的发展，宽带路由器在网络中的应用变得越来越广泛，且在网络中占据重要地位。然后，宽带路由器在运行过程中难免会出现故障，当宽带路由器出现故障时，若不及时解决，则会导致网络出现暂时性的中断，给企业带来诸多不便及损失，因此，及时检测并解决宽带路由器的故障是很有必要的。

由于，宽带路由器产生的网络日志中包含了大部分和宽带路由器运行相关的信息，因此，现有技术人员多通过分析网络日志来定位宽带路由器的故障。但是，在实现本发明的过程中，技术人员发现：在现有日志分析过程中人为参与的部分较多，投入了大量的人力和时间，同时，又需要结合大量的专业知识定位网络故障发生的时间，导致故障定位的效率较低。

发明内容

为解决上述问题，本发明实施例提供一种网络故障时间定位方法和分析设备，以解决现有在定位网络故障的过程中，需要采用大量的人力和时间来分析网络日志，导致的故障定位效率较低的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种网络故障时间定位方法，可以包括：

获取网络设备的至少一条日志信息；

对所述至少一条日志信息进行处理，形成包含M个日志行为向量的日志行为矩阵；其中，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数；

根据预设模型对所述日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量。

如此，对原始日志进行了压缩处理，将每个时间间隔内各种日志的分布作为一行，以行为单位用对日志进行分析，大大减少了日志处理的代理，进而提升了网络故障时间定位的效率。

由于，不同厂家不同设备和不同模块产生的日志信息间存在一定的差别，给日志内容的识别带来了不便，因此，在对其进行统一分析处理之前，可以先对各条日志的不同信息字段进行规范化处理，将日志信息转换成为统一的易识别的日志格式，然后，将统一格式后的日志信息中内容比较相似的日志以同一类信息对待，最后，将归类后的至少一条日志信息按照预定的时间间隔构建成日志行为矩阵，即在第一方面的第一种可实现方式中，可选的，可以采用下述方法对所述至少一条日志信息进行处理，形成包含M个日志行为向量的日志行为矩阵：

将每条日志信息的内容格式转换为预设的日志格式；

对格式转换后的日志信息进行归类，并用日志信息所属的类别标识代替所述日志信息，形成一个由类别标识组成的时间序列；

按照预设时间间隔对所述时间序列进行划分；

对于每个时间间隔，将所述时间间隔内相同的类别标识进行计数统计，并将统计个数排列成一个N维日志行为向量；

将所有日志行为向量按照时间顺序组成所述日志行为矩阵。

进一步的，由于网络设备在故障发生时经常会伴随比较明显的特征，为此，本发明技术人员结合大量的故障分析报告，对大量故障时间附近产生的日志信息进行分析，挖掘日志行为特征与故障发生的关联性，最终，经过大量计算得到如下结论：(1)单位时间内产生的日志信息的频数和种类数与网络设备故障的发生具有较强的关联性，具体表现为：当网络设备发生故障时，单位时间内产生的日志信息的频数和种类数会发生突变；(2)相邻时间间隔的日志行为模式的变化与网络设备故障的发生具有较强的关联性，具体表现为：当网络设备发生故障时，相邻时间间隔对应的日志行为模式间的差异值会突然增大。

即日志在频率和种类数、或者行为模式上的变化通常为网络设备发生故障时伴随的独有特征，基于此理念，本发明技术人员提出了能够筛选出符合网络设备发生故障时的行为特征的日志行为向量的预设模型，根据该模型对构建的日志行为矩阵进行计算，确定出在频率和种类数、或者行为模式上突变的日志信息，即网络设备发生故障时产生的日志信息，进而根据该日志信息所处的时间确定定界网络故障时间；所以，在第一方面的另一种可实现方式中，可选的，可以采用(1)(2)两种方式进行故障定位：

(1)分别计算所述日志行为矩阵中每个日志行为向量的日志频率和日志种类；

对于所述日志行为矩阵中的任一日志行为向量，计算所述日志行为向量和与所述日志行为向量相邻的至少一个日志行为向量间的日志频率方差以及日志种类方差；

若所述日志频率方差和日志种类方差的均值大于预设阈值，则将所述日志行为向量对应的时间间隔确定为所述网络设备故障发生时间。

其中，由于周期性日志中，单位时间内的发生的日志信息个数是不会发生改变，即日志频率是固定不变的，所以，对于周期性日志而言，在上述方式的故障检测中频数突变并没有意义，影响故障检测结果，为了解决这个问题，在分别计算所述日志行为矩阵中每个日志行为向量的日志频率和日志种类之前，所述故障定位单元203，还用于：

根据公式对每个日志行为向量中的第j个元素进行加权赋值；

其中，所述第j个元素为所述日志行为向量中的任一元素；n_j为：第j类日志信息出现的时间间隔的个数；Std(j)为：第j类日志信息的分布方差。

(2)遍历所述M个日志行为向量中的每个日志行为向量，比较所述日志行为向量和在所述日志行为向量时间之后与所述日志行为向量相邻的日志行为向量之间的相似性，得到与所述日志行为向量对应的比较值；

将遍历所述M个日志行为向量中的每个日志行为向量，得到的与所述M个日志行为向量中的每个日志行为向量一一对应的比较值从大到小进行排列；

将排列后的前k个值对应的日志行为向量的时间间隔确定为所述网络设备故障发生时间；其中，k为大于等于1的整数。

具体的，可以根据公式比较所述日志行为向量和在所述日志行为向量时间之后与所述日志行为向量相邻的日志行为向量之间的相似性，得到与所述日志行为向量对应的比较值；其中，t为日志行为向量所处的时间间隔，x_t,i代表第t行日志行为向量的第i个元素。

其中，在本发明实施例中，k为大于等于1的整数，且个数k可以经验进行选取，还可以设定一阈值，将比较值中大于该阈值的k个日志行为向量确定为发生异常的日志行为向量，为网络设备故障发生点。

需要说明的是，上述两种方式可以单独执行，也可以结合在一起执行，以更加准确的定位网络故障发生的确切时间，例如：可以先通过方式(1)确定第1行、第5行日志行为向量的频率和种类发生突变，为故障发生点，然后，再根据方式(2)仅对第1行、第5行的相似性进行计算，确定出第1行或第5行为故障发生点，加快了网络故障原因分析的效率。

第二方面，本发明实施例提供一种分析设备，用于执行上述方法，可以包括：

获取单元，用于获取网络设备的至少一条日志信息。

矩阵构建单元，用于对所述获取单元获取到的至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数。

故障定位单元，用于根据预设模型对所述矩阵构建单元形成的日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量。

由于，不同厂家不同设备和不同模块产生的日志信息间存在一定的差别，给日志内容的识别带来了不便，因此，在对其进行统一分析处理之前，可以先对各条日志的不同信息字段进行规范化处理，将日志信息转换成为统一的易识别的日志格式，然后，将统一格式后的日志信息中内容比较相似的日志以同一类信息对待，最后，将归类后的至少一条日志信息按照预定的时间间隔构建成日志行为矩阵，即在第二方面的一种可实现方式中，可选的，所述矩阵构建单元，具体可以用于：

将每条日志信息的内容格式转换为预设的日志格式；

按照预设时间间隔对所述时间序列进行划分；

将所有日志行为向量按照时间顺序组成所述日志行为矩阵。

在第二方面的又一种可实现方式中，由于网络设备在故障发生时经常会伴随比较明显的特征，为此，本发明技术人员结合大量的故障分析报告，对大量故障时间附近产生的日志信息进行分析，挖掘日志行为特征与故障发生的关联性，最终，经过大量计算得到如下结论：(1)单位时间内产生的日志信息的频数和种类数与网络设备故障的发生具有较强的关联性，具体表现为：当网络设备发生故障时，单位时间内产生的日志信息的频数和种类数会发生突变；(2)相邻时间间隔的日志行为模式的变化与网络设备故障的发生具有较强的关联性，具体表现为：当网络设备发生故障时，相邻时间间隔对应的日志行为模式间的差异值会突然增大。

即日志在频率和种类数、或者行为模式上的变化通常为网络设备发生故障时伴随的独有特征，基于此理念，本发明技术人员提出了能够筛选出符合网络设备发生故障时的行为特征的日志行为向量的预设模型，根据该模型对构建的日志行为矩阵进行计算，确定出在频率和种类数、或者行为模式上突变的日志信息，即网络设备发生故障时产生的日志信息，进而根据该日志信息所处的时间确定定界网络故障时间；所以，在第二方面的另一种实现方式中，可选的，所述故障定位单元，具体可以用于：

分别计算所述日志行为矩阵中每个日志行为向量的日志频率和日志种类；

其中，由于周期性日志中，单位时间内的发生的日志信息个数是不会发生改变，即日志频率是固定不变的，所以，对于周期性日志而言，在上述方式的故障检测中频数突变并没有意义，影响故障检测结果，为了解决这个问题，在分别计算所述日志行为矩阵中每个日志行为向量的日志频率和日志种类之前，所述故障定位单元，还用于：

根据公式对每个日志行为向量中的第j个元素进行加权赋值；

或者，所述故障定位单元，具体用于：

遍历所述M个日志行为向量中的每个日志行为向量，比较所述日志行为向量和在所述日志行为向量时间之后与所述日志行为向量相邻的日志行为向量之间的相似性，得到与所述日志行为向量对应的比较值；

需要说明的是，上述两种方式可以单独执行，也可以结合在一起执行，以更加准确的定位网络故障发生的确切时间，加快网络故障原因分析的效率。

第三方面，本发明实施例提供一种分析设备，用于执行上述方法，可以包括：

接收器，用于获取网络设备的至少一条日志信息。

处理器，用于对所述接收器获取到的至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数。

以及，根据预设模型对所述处理器形成的日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量。

由于，不同厂家不同设备和不同模块产生的日志信息间存在一定的差别，给日志内容的识别带来了不便，因此，在对其进行统一分析处理之前，可以先对各条日志的不同信息字段进行规范化处理，将日志信息转换成为统一的易识别的日志格式，然后，将统一格式后的日志信息中内容比较相似的日志以同一类信息对待，最后，将归类后的至少一条日志信息按照预定的时间间隔构建成日志行为矩阵，即在第三方面的一种可实现方式中，可选的，所述处理器，具体可以用于：

将每条日志信息的内容格式转换为预设的日志格式；

按照预设时间间隔对所述时间序列进行划分；

将所有日志行为向量按照时间顺序组成所述日志行为矩阵。

在第三方面的又一种可实现方式中，由于网络设备在故障发生时经常会伴随比较明显的特征，为此，本发明技术人员结合大量的故障分析报告，对大量故障时间附近产生的日志信息进行分析，挖掘日志行为特征与故障发生的关联性，最终，经过大量计算得到如下结论：(1)单位时间内产生的日志信息的频数和种类数与网络设备故障的发生具有较强的关联性，具体表现为：当网络设备发生故障时，单位时间内产生的日志信息的频数和种类数会发生突变；(2)相邻时间间隔的日志行为模式的变化与网络设备故障的发生具有较强的关联性，具体表现为：当网络设备发生故障时，相邻时间间隔对应的日志行为模式间的差异值会突然增大。

即日志在频率和种类数、或者行为模式上的变化通常为网络设备发生故障时伴随的独有特征，基于此理念，本发明技术人员提出了能够筛选出符合网络设备发生故障时的行为特征的日志行为向量的预设模型，根据该模型对构建的日志行为矩阵进行计算，确定出在频率和种类数、或者行为模式上突变的日志信息，即网络设备发生故障时产生的日志信息，进而根据该日志信息所处的时间确定定界网络故障时间；所以，在第三方面的另一种实现方式中，可选的，所述处理器，具体可以用于：

其中，由于周期性日志中，单位时间内的发生的日志信息个数是不会发生改变，即日志频率是固定不变的，所以，对于周期性日志而言，在上述方式的故障检测中频数突变并没有意义，影响故障检测结果，为了解决这个问题，在分别计算所述日志行为矩阵中每个日志行为向量的日志频率和日志种类之前，所述处理器，还用于：

根据公式对每个日志行为向量中的第j个元素进行加权赋值；

或者，所述处理器，具体用于：

由上可知，本发明实施例提供一种网络故障时间定位方法和分析设备，获取网络设备的至少一条日志信息；对所述至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数；根据预设模型对所述日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量。如此，对原始日志进行了压缩处理，不仅将相似的日志信息用同一种方式对待；而且基于在一定时间间隔内网络设备的行为表现基本上是相同的理念，将每个时间间隔内各种日志的分布作为一行，以行为单位用对日志进行分析，大大减少了日志处理的代理，进而提升了网络故障时间定位的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的网络故障时间定位的原理框图；

图2为本发明实施例提供的分析设备20的结构图；

图3为本发明实施例提供的网络故障时间定位方法的流程图；

图4为本发明实施例提供的分析设备30的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基本原理是：首先对网络设备产生的大量离线日志进行数据挖掘与机器学习，找到网络设备发生故障时日志的表现形式，然后根据这种表现形式对在线日志进行实时分析，若在线日志中存在满足该表现形式的日志，则确定该日志为网络设备发生故障时产生的日志，将该日志对应的时间确定为网络故障发生的时间。其中，为了提高故障定位的效率，本发明实施例，在对在线日志分析之前，先对网络日志进行了规范化、预处理等处理过程，使处理后的日志成为原始日志的压缩版，并保存大部分与故障发生相关的信息，如此，显著减少了日志分析的代价，进而提升后续故障时间定位的效率。

例如，图1为本发明实施例提供的网络故障时间定位的原理框图，如图1所示，对在线日志经过日志规范化、日志预处理、故障定界三方面的工作，定位出网络故障发生的准确时间，进而将故障时间通过分析报表反馈给检测人员；其中，日志规范化主要包括：日志时间标识规范化，其它标识规范化；日志预处理主要包括：日志聚类，用于将统一类型的日志统一处理；故障定界主要是指：根据对离线日志进行数据挖掘与机器学习得到的故障时日志的表现形式(如：频率类型变化、日志模式变化)，对经前两方面处理后的日志进行分析，找到故障发生时间。需要说明的是，图1所示的原理框图中，离线日志指本发明训练使用的日志，而在线日志指本发明应用的实际日志。

其中，本发明提供的方法可由图2所示的分析设备20执行，用于对网络设备10进行故障分析和定位。所述分析设备20可以为：交换机、路由器、网管设备、服务器、软件定义网络(Software Defined Network,SDN)控制器等设备中的任一种设备。具体的，如图2所示，所述分析设备20可以包括：处理器2011、存储器2012、接收器2013、发送器2014以及至少一个通信总线2015，用于实现这些装置之间的连接和相互通信；

接收器2013可用于与外部网元之间进行数据交互，如：收集分析设备20产生的网络日志。

存储器2012，可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者上述种类的存储器的组合。

处理器2011可能是一个中央处理器(central processing unit，简称为CPU)，也可以是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路，例如：一个或多个微处理器(digitalsingnal processor，DSP)，或，一个或者多个现场可编程门阵列(Field ProgrammableGate Array，FPGA)；用于先对离线日志进行数据挖掘与机器学习得到的故障时日志的表现形式，然后根据这种表现形式对在线日志进行实时分析，然后对在线日志进行日志规范化、日志预处理，并根据故障时日志的表现形式对处理后的日志进行分析，完成故障定界，定位出网络故障发生的时间。

发送器2014可用于与外部网元之间进行数据交互，如：可以为一人机交互界面，用于将处理器2011定位出的故障时间反馈给检测人员。

通信总线2015可以分为地址总线、数据总线、控制总线等，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

具体的，接收器2013，用于获取网络设备的至少一条日志信息。

处理器2011，用于对所述接收器2013获取到的至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数。

处理器2011，用于根据预设模型对所述处理器2011形成的日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量。

由于，不同厂家不同设备和不同模块产生的日志信息间存在一定的差别，给日志内容的识别带来了不便，因此，在对其进行统一分析处理之前，可以先对各条日志的不同信息字段进行规范化处理，将日志信息转换成为统一的易识别的日志格式，然后，将统一格式后的日志信息中内容比较相似的日志以同一类信息对待，最后，将归类后的至少一条日志信息按照预定的时间间隔构建成日志行为矩阵，即所述处理器2011，具体用于：

将每条日志信息的内容格式转换为预设的日志格式；

按照预设时间间隔对所述时间序列进行划分；

将所有日志行为向量按照时间顺序组成所述日志行为矩阵。

即日志在频率和种类数、或者行为模式上的变化通常为网络设备发生故障时伴随的独有特征，基于此理念，本发明技术人员提出了能够筛选出符合网络设备发生故障时的行为特征的日志行为向量的预设模型，根据该模型对构建的日志行为矩阵进行计算，确定出在频率和种类数、或者行为模式上突变的日志信息，即网络设备发生故障时产生的日志信息，进而根据该日志信息所处的时间确定定界网络故障时间；所以，所述处理器2011，具体用于：

其中，由于周期性日志中，单位时间内的发生的日志信息个数是不会发生改变，即日志频率是固定不变的，所以，对于周期性日志而言，在上述方式的故障检测中频数突变并没有意义，影响故障检测结果，为了解决这个问题，在分别计算所述日志行为矩阵中每个日志行为向量的日志频率和日志种类之前，所述处理器2011，还用于：

根据公式对每个日志行为向量中的第j个元素进行加权赋值；

或者，所述处理器2011，具体用于：

如：可以根据公式比较所述日志行为向量和在所述日志行为向量时间之后与所述日志行为向量相邻的日志行为向量之间的相似性，得到与所述日志行为向量对应的比较值；其中，t为日志行为向量所处的时间间隔，x_t,i代表第t行日志行为向量的第i个元素。

需要说明的是，上述两种方式可以单独执行，也可以结合在一起执行，以更加准确的定位网络故障发生的确切时间，例如：可以先确定第1行、第5行日志行为向量的频率和种类发生突变，为故障发生点，然后，再仅对第1行、第5行的相似性进行比较，确定出第1行或第5行为故障发生点，加快了网络故障原因分析的效率。

由上可知，本发明实施例提供一种分析设备，获取网络设备的至少一条日志信息；对所述至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数；根据预设模型对所述日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量。如此，对原始日志进行了压缩处理，不仅将相似的日志信息用同一种方式对待；而且基于在一定时间间隔内网络设备的行为表现基本上是相同的理念，将每个时间间隔内各种日志的分布作为一行，以行为单位用对日志进行分析，大大减少了日志处理的代理，进而提升了网络故障时间定位的效率。

为了便于描述，以下实施例一以步骤的形式示出并详细描述了本发明中分析设备20执行的网络故障时间定位方法，其中，示出的步骤也可以在除网络故障设备20之外的诸如一组可执行指令的计算机***中执行，如：本发明所述的方法还可以由网络设备10自身执行，即图2所示的分析设备20中包含的执行本发明提供的方法的单元可以包含在网络设备10中，由网络设备10执行本发明提供的网络故障时间定位方法。此外，虽然在图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

图3为本发明实施例提供的网络故障时间定位方法的流程图，由图2所示的分析设备20执行，用于对图2中的分析设备20进行故障分析和时间定位，如图3所示，所述方法可以包括：

步骤101：获取网络设备的至少一条日志信息。

其中，所述至少一条日志信息为网络设备在一段时间内的活动行为的记录信息，每条日志信息描述了网络设备一次单独的活动行为，每条日志信息可以包含：网络设备执行事件的时间戳、主机或模块名、事件级别、信息简介、事件消息等信息。

可选的，分析设备可以通过现有日志扫描抓取技术获取网络设备的至少一条日志信息，如：可以通过网络爬虫技术获取网络设备的至少一条日志信息，在此不再详细赘述。

由于，在实际应用中，日志信息的产生是实时大量的，且日志信息的内容也是极其复杂多变的，因而将相似的日志信息用同一种方式对待可以显著减少日志处理的代价；同时，从时间上来看，多条日志信息是由一条条日志信息构成的时间序列，且在一定时间间隔内网络设备的行为表现基本上是相同的，因此，以相同的时间间隔对大量的日志信息进行划分，将每个时间间隔内各种日志的分布作为一行，以行为单位用对日志进行分析，也可以大大减少日志处理的代理，进而提升后续故障定位的效率，即对大量且多样化的日志信息进行归类和分时处理后，可以在保存大部分与故障发生相关的信息的情况下，使得日志处理的代价大大降低，基于此理念，本发明接下来进行步骤102实现对日志信息的处理，以降低日志分析代价。

步骤102：对所述至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数。

其中，相邻日志行为向量间的时间间隔可以相等。

由于，不同厂家不同设备和不同模块产生的日志信息间存在一定的差别，给日志内容的识别带来了不便，因此，在对其进行统一分析处理之前，可以先对各条日志的不同信息字段进行规范化处理，将日志信息转换成为统一的易识别的日志格式，然后，将统一格式后的日志信息中内容比较相似的日志以同一类信息对待，最后，将归类后的至少一条日志信息按照预定的时间间隔构建成日志行为矩阵，即所述步骤102可以包括下述(1)(2)(3)三个主要过程：

(1)日志规范化

将步骤101获得的至少一条日志信息中每条日志信息的内容格式转换为预设的日志格式。

其中，预设的日志格式可以根据需要预先设定，本发明实施例对此不进行限定。例如：日志信息可以包括：时间戳/主机名/事件级别/信息简介/事件信息(Timestamp/Device/Event severity/Briefly information/Event message)等信息字段；且每个字段的格式可以规范为如下表1所示的格式，如：用形如“Apr 21 2015 02:34:25”格式的时间信息表示日志信息中的“时间戳”，用表示等级的数字来代表“事件等级”，此时，若存在一日志信息的时间戳为：2015-11-11 09:00:00，则需要将该时间戳转换为“Nov 11 2015 09:00:00”。

表1日志规范化格式

需要说明的是，在实际应用中，网络设备产生的日志信息可能是没有时间戳或者是事件严重等级等检测人员认为的无效日志信息，此时，若将这些日志信息仍保存下来进行后续的分析处理，无疑会增加不必要的负担，为了解决该问题的出现，在进行日志规范化的过程中，还需要剔除至少一条日志信息中无效的日志信息，具体如下：

查询所述至少一条日志信息中的每条日志信息；

将所述至少一个日志信息中的无效日志信息剔除；其中，所述无效日志为不满足网络设备产生的日志信息的格式要求的日志信息。

例如，由于在正常情况下，网络设备产生的日志信息必然包含事件严重等级这一信息，此时，若日志信息不包含事件等级或者事件等级不在等级数据库中，则可以认为该日志信息为无效信息，从众多的日志信息中剔除；其中，所述等级数据库存储有比较常见的一些事件等级；如：以数字1-5中任一数字代表事件等级存储在等级数据库中，数字越大，表示级别越大，此时，若至少一条日志信息中存在一日志信息的事件等级为6，不包含在等级数据库中，则可以确定该日志信息为无效日志信息，应剔除出至少一条日志信息。

(2)日志预处理

对格式转换后的日志信息进行归类，并用日志信息所属的类别标识代替所述日志信息，形成一个由类别标识组成的时间序列。

其中，所述类别标识用于表示：日志类型；例如：若日志信息“Apr 21 2015 12:12:12 User login”属于日志类型1，则可以用数字“1”代表该条日志信息。

优选的，可以采用层次聚类的方法对格式转换后的每条日志信息进行归类，其中，所述层次聚类为人工智能中的经典算法，采用q-gram算法的聚类分析工具来衡量字符串相似程度，将q-gram距离作为不同日志间的差异度量值，对格式转换后的每条日志信息进行聚类，通过调整聚类参数q，得到最优的日志类型数N；其中，q值的不同会导致相似结果的差异，从大量的实验上看，在本发明中q优选取3，此值对日志聚类结果的影响不大，具体实现不再赘述。

如此，经过该过程的预处理后，至少一条日志信息变为一系列由类别标志组成的时间序列，接下来，对该时间序列进行分段处理，则可标识日志的行为变化。

(3)日志行为矩阵构建

按照预设时间间隔对所述时间序列进行划分；

将所有日志行为向量按照时间顺序组成所述日志行为矩阵。

其中，所述时间间隔可以根据需要进行设置，本发明实施例对此不进行限定，如：可以为1分钟、或者5分钟。例如，若日志类型的个数为N，根据预设的时间间隔划分出M个时间段，则构建出的日志行为矩阵为：

其中，(x_T1,1x_T1,2,...,x_T1,N)表示时间间隔T1的日志行为向量，该日志行为向量中的第i个元素x_T1,i表示：属于第i类的日志信息的个数。例如：日志类型的个数为10，且用1-10的数字作为类别标识，一一对应的标识日志类型1-10，此时，若在T1时间间隔内获取到100条日志信息，其中有10条日志信息的类别标识1，20条日志信息的类别标识3，70条日志信息的类别标识7，则T1时间间隔的日志行为向量为：(10，0，20，0，0，0，70，0，0，0)。

至此，通过规范化、预处理等操作将原始大量的日志信息简化为一个向量矩阵，它表征了日志的模式变化，包含了故障相关信息，提高了后续分析的效率。

步骤103：根据预设模型对所述日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量。

由于，网络设备在故障发生时经常会伴随比较明显的特征，为此，本发明技术人员结合大量的故障分析报告，对大量故障时间附近产生的日志信息进行分析，挖掘日志行为特征与故障发生的关联性，最终，经过大量计算得到如下结论：(1)单位时间内产生的日志信息的频数和种类数与网络设备故障的发生具有较强的关联性，具体表现为：当网络设备发生故障时，单位时间内产生的日志信息的频数和种类数会发生突变；(2)相邻时间间隔的日志行为模式的变化与网络设备故障的发生具有较强的关联性，具体表现为：当网络设备发生故障时，相邻时间间隔对应的日志行为模式间的差异值会突然增大。

即日志在频率和种类数、或者行为模式上的变化通常为网络设备发生故障时伴随的独有特征，基于此理念，本发明技术人员提出了能够筛选出符合网络设备发生故障时的行为特征的日志行为向量的预设模型，根据该模型对步骤102构建的日志行为矩阵进行计算，确定出在频率和种类数、或者行为模式上突变的日志信息，即网络设备发生故障时产生的日志信息，进而根据该日志信息所处的时间确定定界网络故障时间；具体的，通过下述两种方式实现：

(1)基于日志频率和日志种类的变化进行故障定位

分别计算每个日志行为向量的日志频率和日志种类；

其中，预设阈值可以通过大量故障日志分析得到，本发明在此不进行限定，若所述日志频率方差和日志种类方差的均值大于预设阈值，则表示日志行为向量的日志频率和日志种类发生突变，该时间段为发生网络故障；若所述日志频率方差和日志种类方差的均值小于等于预设阈值，则表示日志行为向量的日志频率和日志种类为网络设备正常运作是行为特征。

需要说明的是，与所述日志行为向量相邻的至少一个日志行为向量可以为该日志行为向量之前的几个日志行为向量，也可以为该日志行为向量之后的几个日志行为向量，还可以为发生在该日志行为向量前后的几个日志行为向量，其个数可以根据需要进行设置，本发明实施例对此不进行限定；优选的，根据大量实验可知，与所述日志行为向量相邻的至少一个日志行为向量可以为：所述日志行为向量之后相邻的四个日志行为向量。

例如，若计算出的日志频率方差和日志种类方差分别为a_i和b_i，此时，若λ₁为通过对大量故障日志分析得到预设阈值，则将此向量对应的时间确定为故障时间点。

需要注意的是，由于周期性日志中，单位时间内的发生的日志信息个数是不会发生改变，即日志频率是固定不变的，所以，对于周期性日志而言，在上述方式的故障检测中频数突变并没有意义，影响故障检测结果，为了解决这个问题，本发明提出了基于信息提取技术的日志赋权方法，综合考虑了各类日志的分布情况，有效提升故障时间定界的准确性；具体的，当网络设备产生周期性日志时，本发明实施例在分别计算每个日志行为向量的日志频率和日志种类之前，还需要进行下述过程：

根据公式对每个日志行为向量中的第j个元素进行加权赋值；

其中，所述第j个元素为所述日志行为向量中的任一元素；n_j为第j类日志信息出现的时间间隔的个数，即指第j类日志信息在n个时间间隔内出现过；Std(j)为：第j类日志信息的分布方差。

所述第j类日志信息的分布方差为：所述日志行为向量中第j类日志信息的个数，与所述日志行为矩阵中除所述日志行为向量之外的其他所有日志行为向量中第j类日志信息的个数之间的方差。

例如，两个日志行为向量分别为：(10，0，20，0，0，0，70，0，0，0)、(10，0，20，0，20，0，30，0，10，10)，即在相同的时间间隔内，均产生100条日志信息，日志频率是相同的，此时，可以根据上述赋值公式分别为这两个日志行为向量中的每个元素进行加权赋值，得到：(11.7307，0，4.79，0，0，0，2.348，0，0，0)、(2.5597，0，3.9780，0，2.67，0，30，0，5.648，10)，如此，各个日志行为对应的表征值是不同的，用其代替原有日志频率可使故障时间点定位更加准确。

(2)基于日志行为模式的变化进行故障定位

需要说明的是，上述两种方式可以单独执行，也可以结合在一起执行，以更加准确的定位网络故障发生的确切时间，例如：可以先通过方式(1)确定第1行、第5行日志行为向量的频率和种类发生突变，为故障发生点，然后，再根据方式(2)仅对第1行、第5行的相似性进行比较，确定出第1行或第5行为故障发生点，加快了网络故障原因分析的效率。

由上可知，本发明实施例提供一种网络故障时间定位方法，获取网络设备的至少一条日志信息；对所述至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数；根据预设模型对所述日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量。如此，对原始日志进行了压缩处理，不仅将相似的日志信息用同一种方式对待；而且基于在一定时间间隔内网络设备的行为表现基本上是相同的理念，将每个时间间隔内各种日志的分布作为一行，以行为单位用对日志进行分析，大大减少了日志处理的代理，进而提升了网络故障时间定位的效率。

根据本发明实施例，本发明下述实施例还提供了一种分析设备30，优选地用于实现上述方法实施例中的方法。

实施例二

图4为本发明实施例提供的一种分析设备30的结构图，所述分析设备30可以为：交换机、路由器、网管设备、Web(网页)服务器、软件定义网络(Software Defined Network,SDN)控制器等设备中的任一种设备，用于执行实施例一所述的方法，如图4所示，所述分析设备30可以包括：

获取单元201，用于获取网络设备的至少一条日志信息。

矩阵构建单元202，用于对所述获取单元201获取到的至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数。

故障定位单元203，用于根据预设模型对所述矩阵构建单元202形成的日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量。

由于，不同厂家不同设备和不同模块产生的日志信息间存在一定的差别，给日志内容的识别带来了不便，因此，在对其进行统一分析处理之前，可以先对各条日志的不同信息字段进行规范化处理，将日志信息转换成为统一的易识别的日志格式，然后，将统一格式后的日志信息中内容比较相似的日志以同一类信息对待，最后，将归类后的至少一条日志信息按照预定的时间间隔构建成日志行为矩阵，即所述矩阵构建单元202，具体用于：

将每条日志信息的内容格式转换为预设的日志格式；

按照预设时间间隔对所述时间序列进行划分；

将所有日志行为向量按照时间顺序组成所述日志行为矩阵。

即日志在频率和种类数、或者行为模式上的变化通常为网络设备发生故障时伴随的独有特征，基于此理念，本发明技术人员提出了能够筛选出符合网络设备发生故障时的行为特征的日志行为向量的预设模型，根据该模型对构建的日志行为矩阵进行计算，确定出在频率和种类数、或者行为模式上突变的日志信息，即网络设备发生故障时产生的日志信息，进而根据该日志信息所处的时间确定定界网络故障时间；所以，所述故障定位单元203，具体用于：

根据公式对每个日志行为向量中的第j个元素进行加权赋值；

或者，所述故障定位单元203，具体用于：

需要说明的是，本发明图4所示分析设备中的获取单元可以为图2所示的分析设备的接收器2011；矩阵构建单元、故障定位单元可以为单独设立的处理器，也可以集成在分析设备的某一个处理器中实现，此外，也可以以程序代码的形式存储于分析设备的存储器中，由分析设备的某一个处理器调用并执行以上知识库构建的功能。这里所述的处理器可以是一个中央处理器(Central Processing Unit，CPU)，或者是特定集成电路(ApplicationSpecific Integrated Circuit，ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的单元和***的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件(例如处理器)来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络故障时间定位方法，其特征在于，包括：

分析设备获取网络设备的至少一条日志信息；

所述分析设备对所述至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数；

所述分析设备根据预设模型对所述日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量，所述网络设备发生故障时的行为特征包括日志在频率、种类数和行为模式中的至少一项发生的变化。

2.根据权利要求1所述的方法，其特征在于，所述根据预设模型对所述日志行为矩阵中日志行为向量进行计算，确定所述网络设备的故障发生时间包括：

3.根据权利要求2所述的方法，其特征在于，在分别计算所述日志行为矩阵中每个日志行为向量的日志频率和日志种类之前，所述方法还包括：

根据公式对每个日志行为向量中的第j个元素进行加权赋值；

4.根据权利要求1所述的方法，其特征在于，所述根据预设模型对所述日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间具体包括：

5.根据权利要求4所述的方法，其特征在于，所述比较所述日志行为向量和在所述日志行为向量时间之后与所述日志行为向量相邻的日志行为向量之间的相似性，得到与所述日志行为向量对应的比较值具体包括：

根据公式比较所述日志行为向量和在所述日志行为向量时间之后与所述日志行为向量相邻的日志行为向量之间的相似性，得到与所述日志行为向量对应的比较值；其中，t为日志行为向量所处的时间间隔，x_t,i代表第t行日志行为向量的第i个元素。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述至少一条日志信息进行处理，形成日志行为矩阵包括：

将每条日志信息的内容格式转换为预设的日志格式；

按照预设时间间隔对所述时间序列进行划分；

将所有日志行为向量按照时间顺序组成所述日志行为矩阵。

7.一种分析设备，用于定位网络故障发生时间，其特征在于，包括：

获取单元，用于获取网络设备的至少一条日志信息；

矩阵构建单元，用于对所述获取单元获取到的至少一条日志信息进行处理，形成日志行为矩阵；其中，所述日志行为矩阵包含M个日志行为向量，每个日志行为向量占用一个时间间隔，每个日志行为向量包含N个元素；所述N为日志类型的个数，所述日志行为向量中的第i个元素表示：在所述日志行为向量的时间间隔内且属于第i类的日志信息的个数；

故障定位单元，用于根据预设模型对所述矩阵构建单元形成的日志行为矩阵中的日志行为向量进行计算，确定所述网络设备的故障发生时间；其中，所述预设模型用于：筛选出符合网络设备发生故障时的行为特征的日志行为向量，所述网络设备发生故障时的行为特征包括日志在频率、种类数和行为模式中的至少一项发生的变化。

8.根据权利要求7所述的设备，其特征在于，所述故障定位单元，具体用于：

9.根据权利要求8所述的设备，其特征在于，所述故障定位单元，还用于：

在分别计算所述日志行为矩阵中每个日志行为向量的日志频率和日志种类之前，根据公式对每个日志行为向量中的第j个元素进行加权赋值；

10.根据权利要求7所述的设备，其特征在于，所述故障定位单元，具体用于：

11.根据权利要求10所述的设备，其特征在于，所述故障定位单元，具体用于：

12.根据权利要求7-11任一项所述的设备，其特征在于，所述矩阵构建单元，具体用于：

将每条日志信息的内容格式转换为预设的日志格式；

按照预设时间间隔对所述时间序列进行划分；

将所有日志行为向量按照时间顺序组成所述日志行为矩阵。