CN111368534A

CN111368534A - 一种应用日志降噪方法及装置

Info

Publication number: CN111368534A
Application number: CN201811587244.9A
Authority: CN
Inventors: 蒋通通; 叶晓龙; 孟震; 任赣; 竺士杰; 乔柏林; 胡林熙; 张琪
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2020-07-03

Abstract

本发明实施例提供一种应用日志降噪方法及装置。所述方法包括采集应用日志；根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量；根据所述特征向量和预先根据主题模型得到的噪声识别规则，若判定所述应用日志为噪声，则将所述应用日志去除，本发明实施例通过预先确认的分词规则对得到的应用日志进行分词，再采用预先得到的噪声识别规则对分词后得到的特征向量进行判定，从而可以简单、方便、准确得对各种应用日志进行噪声识别。

Description

一种应用日志降噪方法及装置

技术领域

本发明实施例涉及计算机软件技术领域，尤其涉及一种应用日志降噪方法及装置。

背景技术

应用日志目前被视作***故障诊断定位的重要运维窗口之一，通过对日志事件行为特征的提取聚合等可以实现对大多数故障的实时定位。除此之外，应用日志也被广泛应用于各类经营分析，如对用户访问日志等的深度挖掘及关联分析可以建立不同人群的行为肖像，从而开展多层次的营销活动。然而，随着***规模的不断增长，***复杂度不断提高，基于日志的故障诊断、经营分析等受到各类环境因素、代码质量等影响，如注入大量与故障、经分需求无关的日志，***开发时对日志级别设定不准确导致的杂乱日志等，这些类型的日志在后续日志分析的时候会造成极大的干扰，因此被视作“噪声数据”。为了构建有效的故障特征模型及聚合准确的运营指标数据，必须要在分析前将这些噪声日志滤除。

目前关于应用日志降噪的相关技术方案如下：方案一：基于人为经验标注的日志噪声过滤方法，基于经验标注的方法主要通过运维等***负责人员定期整理分析应用吐出的日志数据，并根据自己长期的工作经验对各类日志进行分类筛选，并对判定为无用噪声的日志进行标注，在日志采集或者入库的时候进行强制性过滤。而过滤的方式多数采用关键字匹配，模板正则等形式。该方法适合小型等日志量不大的应用***，见效相对彻底。方案二：基于应用日志级别的噪声过滤方法，基于应用日志级别的噪声过滤方法主要是借用当前各类编程语言的日志级别管理标准，如Java Log4j中的5大日志级别(debug、info、warn、error、fatal)，其分别针对细粒度的应用调试日志、运行日志、潜在错误、运行错误、严重事件日志进行分级打印。而依照类似的日志级别规范，开发者通过对潜在噪声日志的输出划界，定义为info甚至以上或自定义级别。在后续日志分析的时候针对无益的噪声日志过滤只需要实现对该日志级别上的整体控制即可。方案三：基于噪声模板跳表的日志过滤方法，该方案主要基于日志时间序列相似度特征提取判别，首先通过将噪声采样信息按照特定类型标识建模为时间序列，使用Haar小波变换提取序列特征，基于跳表构造噪声模板库。目标日志时间序列通过与噪声模板进行相似度比较来确定其是否为噪声日志。基于真实云计算平台的实验表明，提出的方法能够有效提高故障特征的有效性。

现有技术方案主要存在以下几个问题：(1)方案一针对人为经验标注的方式存在的问题：随着目前各类***集群规模的不断扩大，单纯的人工标注已经成为一项艰巨的任务，更不用说由于敏捷开发的落地导致应用的代码变动与日俱增，从而带来的日志量及类型上的暴增。线性增长的日志噪声无法快速准确地得到识别滤除，而且马太效应会越来越严重。准确来说，该方式对于中大型的项目成本过大。(2)方案二针对应用日志级别的噪声过滤方法存在的问题：该方案实现的前提是保证日志级别规范的准确性和全面性，需要准确的对现有及预计会发生的日志类型进行级别分类，同时需要保证开发对日志级别设定的准确理解和执行。然而随着***的复杂迭代，关于新生日志有效和噪声的区分在原有规范的边界上会逐渐模糊，并导致***开发在后续的设定上不再准确，即噪声日志数据在原有级别上不断往其余级别溢出，最终无法区分。因此，该方式存在实际上的应用缺陷。(3)方案三基于噪声模板跳表的日志过滤方式存在的问题：基于噪声模板跳表的过滤方式首先需要对原始日志序列进行小波变化，并进一步的计算与噪声模板相似度差值，最后根据设定阈值进行噪声判定，这里带来最大的问题是噪声模板的提取和相似度计算阈值的设定。综上，现有的技术方案过于复杂、费时，且耗费大量成本。

发明内容

本发明实施例提供一种应用日志降噪方法及装置，用以解决现有技术过于复杂、费时，且耗费大量成本。

第一方面，本发明实施例提供了一种应用日志降噪方法，包括：

采集应用日志；

根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量；

根据所述特征向量和预先根据主题模型得到的噪声识别规则，若判定所述应用日志为噪声，则将所述应用日志去除。

第二方面，本发明实施例提供了一种用于应用日志降噪装置，包括：

日志语料库模块，用于采集应用日志；

分词模块，用于根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量；

噪声识别模块，用于根据所述特征向量和预先根据主题模型得到的噪声识别规则，若判定所述应用日志为噪声，则将所述应用日志去除。

第三方面，本发明实施例还提供了一种电子设备，包括：

处理器、存储器、通信接口和通信总线；其中，

所述处理器、存储器、通信接口通过所述通信总线完成相互间的通信；

所述通信接口用于该电子设备的通信设备之间的信息传输；

所述存储器存储有可被所述处理器执行的计算机程序指令，所述处理器调用所述程序指令能够执行如下方法：

采集应用日志；

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下方法：

采集应用日志；

本发明实施例提供的应用日志降噪方法及装置，通过预先确认的分词规则对得到的应用日志进行分词，再采用预先得到的噪声识别规则对分词后得到的特征向量进行判定，从而可以简单、方便、准确得对各种应用日志进行噪声识别。

附图说明

图1为本发明实施例的应用日志降噪方法流程图；

图2为本发明实施例的另一应用日志降噪方法流程图；

图3为本发明实施例的用于应用日志降噪装置结构示意图；

图4为本发明实施例的另一用于应用日志降噪装置结构示意图；

图5示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例的应用日志降噪方法流程图，如图1所示，所述方法包括：

步骤S01、采集应用日志。

从网络中实时采集应用日志，并存入日志语料库中。

步骤S02、根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量。

由于所述应用日志来源的不同会存在各种不同的格式和规范，且包括不规则、破碎的文本数据，以及过度冗余，不精确的日志信息。现有技术中需要根据不同的格式和规范来对噪声识别进行相应的调整。而本发明实施例采用基于词频统计的无词典分词方式进行对实时应用日志的分词处理，不再需要遵循在日志格式和规范上的硬性约束。

将每条应用日志视作一篇短文档，根据预先得到的分词规则对所述应用日志进行分词处理，具体对该应用日志进行词语的切分，并得到每个词语的特征值，提取主要词语和特征值组建与该应用日志对应的特征向量。

步骤S03、根据所述特征向量和预先根据主题模型得到的噪声识别规则，若判定所述应用日志为噪声，则将所述应用日志去除。

通过主题模型可以得到所述主题模型中不同主题的判定规则，在本发明实施例中，在预先确认主题模型中通过词频及文档特征等建立噪声主题，因此通过该主题模型可以得到噪声识别规则。

采用所述噪声识别规则对所述应用日志的特征向量进行判定，若所述特征向量与所述噪声识别规则相符，则判定该应用日志为噪声，需要在所述应用日志中加入噪声标记，否则不作任何操作或者加入非噪声标记。

通过对标记的识别就可以对应用日志是否为噪声进行判断，若判定对应的应用日志为噪声，则需要在对应用日志进行后续数据挖掘和关联分析前加以去除。

本发明实施例通过预先确认的分词规则对得到的应用日志进行分词，再采用预先得到的噪声识别规则对分词后得到的特征向量进行判定，从而可以简单、方便、准确得对各种应用日志进行噪声识别。

图2为本发明实施例的另一应用日志降噪方法流程图，如图2所示，所述方法还包括：

步骤S10、根据语料库中训练集保存的历史应用日志，采用统计分词模型得到所述分词规则。

为了能够预先得到所述分词规则，需要先收集各种应用日志的历史数据并存入语料库中，而将其中的一部分历史应用日志组成训练集。

根据训练集中所有的历史应用日志，采用预设的统计分词模型，来得到所述分词规则。

步骤S11、根据所述分词规则对所述历史应用日志中的每个历史应用日志进行分词处理以得到对应的特征向量。

根据得到的分词规则可以对每条历史应用日志进行词语的切分，并根据词频特征进行筛选及向量化，以得到对应的特征向量。

进一步地，所述统计分词模型为N元文法(N-gram)语言模型。

所述统计分词模型有很多，在本发明实施例中仅给出了其中的一种举例说明，N-gram语言模型。该模型根据相邻字在训练集中出现的概率或频率来反应切分词的可信度。其中所述N可以根据实际的需要来进行设定，下面仅以3为例进行举例说明。在处理一条历史应用日志时，利用3字滑动窗口依次提取3个gram,即英文单词，统计出现次数，利用贝叶斯公式计算相应概率，再利用最大似然法，使得训练样本的概率取得最大值。最终根据计算结果提取高频gram作为分好的词。以每个词为维度，每个词在该条训练集中出现频率或概率信息为值，构建与该历史应用日志数据向量化后的特征向量。

步骤S12、根据所述历史应用日志的特征向量，通过训练得到主题模型；其中，所述主题模型至少包括噪声主题。

根据得到的所有历史应用日志的特征向量来进行主题建模，借用自然语言学习中的主题分类思想，将整个训练集中的主题指定为噪声和非噪声两类，将噪声识别问题转换为文体分类中的概率问题。

进一步地，所述主题模型为隐含狄利克雷分配(Latent Dirichlet Allocation，LDA)模型。

主题模型的具体应用有很多种，在此仅以LDA模型为例进行举例说明。LDA模型在确定主题类型为噪声主题和非噪声主题后，根据上述实施例中得到的特征向量，获得每个主题在训练集中所有词上的多项式分布，即狄利克雷分布。其次对于每一条历史应用日志，获得该历史应用日志在所有主题上的狄利克雷分布，然后根据预设的超参数，通过迭代优化，得到每个特征向量对应的主题，从而建立了主题模型。

步骤S13、所述根据主题模型得到所述噪声识别规则。

通过建立的主题模型的分析，可以得到所述噪声识别规则。

本发明实施例通过训练集中的历史应用日志，采用统计分词模型得到所述分词规则、主题模型，以及噪声识别规则，从而可以简单、方便、准确得对各种应用日志进行噪声识别。

基于上述实施例，进一步地，所述语料库还包括测试集，所述测试集至少包括一条测试应用日志；相应地，所述方法还包括：

根据所述分词规则对所述测试集中的每个测试应用日志进行分词处理以得到对应的特征向量；

根据所述特征向量和所述噪声识别规则进行噪声识别，并与预设的标准进行比对，若存在偏差，则根据所述偏差对所述主题模型进行优化。

所述语料库中除了训练集外，还包括由其它历史应用日志作为测试应用日志组成的测试集。

在由所述统计分词模型根据所述训练集得到分词规则，且根据主题模型得到噪声识别规则后。将所述测试集中的测试应用日志也同样放入统计分词模型中，根据得到的分词规则得到对应特征向量，再通过确定的主题模型，由噪声识别规则得到每个测试应用日志的主题。

将得到的结果与预设的标准进行比对，若存在偏差，则需要根据偏差对所述主题模型再次进行优化，以得到更加准确的噪声识别规则。

本发明实施例通过测试集对所述分词规则和噪声识别规则进行测试，若结果出现偏差，则再次对所述主题模型进行优化，从而可以简单、方便、准确得对各种应用日志进行噪声识别。

基于上述实施例，进一步地，所述方法还包括：

定期将采集到的所有应用日志存入所述语料库中，用于进一步对所述优化所述分词规则和噪声识别规则。

在实际的应用过程中，可能会出现新的应用，得到新的应用日志，或者出现新的习惯用词，所以为了能够让所述分词规则和噪声识别规则能够随时适应当前应用日志的新变化，所以需要定期将采集到的所有应用日志作为历史应用日志存入所述语料库中，分别收录到训练集或测试集，从而通过更新后的训练集来优化所述分词规则，同时来优化所述主题模型，进而得到优化后的噪声识别规则。

本发明实施例通过定期向所述语料库补充历史应用日志，从而使不断优化所述分词规则和所述噪声识别规则，从而可以简单、方便、准确得对各种应用日志进行噪声识别。

图3为本发明实施例的用于应用日志降噪装置结构示意图，如图3所示，所述装置包括：日志语料库模块10、分词模块11和噪声识别模块12，其中，所述日志语料库模块10用于采集应用日志；所述分词模块11用于根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量；所述噪声识别模块12用于根据所述特征向量和预先根据主题模型得到的噪声识别规则，若判定所述应用日志为噪声，则将所述应用日志去除。具体地：

所述日志语料库模块10从网络中实时采集应用日志，并存入日志语料库中。同时所述日志语料库模块10实时向所述分词模块11发送采集到的应用日志。

所述分词模块11将每条应用日志视作一篇短文档，根据预先得到的分词规则对所述应用日志进行分词处理，具体对该应用日志进行词语的切分，并得到每个词语的特征值，提取主要词语和特征值组建与该应用日志对应的特征向量，并将该特征向量发送给所述噪声识别模块12。

所述噪声识别模块12采用所述噪声识别规则对所述应用日志的特征向量进行判定，若所述特征向量与所述噪声识别规则相符，则判定该应用日志为噪声，需要在所述应用日志中加入噪声标记，否则不作任何操作或者加入非噪声标记。

通过对标记的识别就可以对应用日志是否为噪声进行判断，若判定对应的应用日志为噪声，则需要在对应用日志进行后续数据挖掘和关联分析前通过过滤模块加以去除。

本发明实施例提供的装置用于执行上述方法，其功能具体参考上述方法实施例，其具体方法流程在此处不再赘述。

图4为本发明实施例的另一用于应用日志降噪装置结构示意图，如图4所示，所述装置还包括：训练分词模块20、建模模块21和分类构造模块22，其中，

所述训练分词模块20用于根据语料库中训练集保存的历史应用日志，采用统计分词模型得到所述分词规则；所述训练分词模块20还用于根据所述分词规则对所述历史应用日志中的每个历史应用日志进行分词处理以得到对应的特征向量；所述建模模块21用于根据所述历史应用日志的特征向量，通过训练得到主题模型；其中，所述主题模型至少包括噪声主题；所述分类构造模块22用于所述根据主题模型得到所述噪声识别规则。具体地：

所述训练分词模块20根据训练集中所有的历史应用日志，采用预设的统计分词模型，来得到所述分词规则。所述训练分词模块20将分词规则发送给所述分词模块11。

所述训练分词模块20根据得到的分词规则可以对每条历史应用日志进行词语的切分，并根据词频特征进行筛选及向量化，以得到对应的特征向量。

进一步地，所述统计分词模型为N元文法(N-gram)语言模型。

所述建模模块21根据由训练分词模块20得到的所有历史应用日志的特征向量来进行主题建模，借用自然语言学习中的主题分类思想，将整个训练集中的主题指定为噪声和非噪声两类，将噪声识别问题转换为文体分类中的概率问题。

所述分类构造模块22通过建立的主题模型的分析，可以得到所述噪声识别规则，并将所述噪声识别规则发送给所述噪声识别模块12。

图5示例了一种电子设备的实体结构示意图，如图5所示，该服务器可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如下方法：采集应用日志；根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量；根据所述特征向量和预先根据主题模型得到的噪声识别规则，若判定所述应用日志为噪声，则将所述应用日志去除。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：采集应用日志；根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量；根据所述特征向量和预先根据主题模型得到的噪声识别规则，若判定所述应用日志为噪声，则将所述应用日志去除。

进一步地，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：采集应用日志；根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量；根据所述特征向量和预先根据主题模型得到的噪声识别规则，若判定所述应用日志为噪声，则将所述应用日志去除。

本领域普通技术人员可以理解：此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种应用日志降噪方法，其特征在于，包括：

采集应用日志；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据语料库中训练集保存的历史应用日志，采用统计分词模型得到所述分词规则；

根据所述分词规则对所述历史应用日志中的每个历史应用日志进行分词处理以得到对应的特征向量；

根据所述历史应用日志的特征向量，通过训练得到主题模型；其中，所述主题模型至少包括噪声主题；

所述根据主题模型得到所述噪声识别规则。

3.根据权利要求2所述的方法，其特征在于，所述语料库还包括测试集，所述测试集至少包括一条测试应用日志；相应地，所述方法还包括：

4.根据权利要求2所述方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于所述统计分词模型为N元文法(N-gram)语言模型。

6.根据权利要求2所述的方法，其特征在于，所述主题模型为隐含狄利克雷分配(Latent Dirichlet Allocation，LDA)模型。

7.一种用于应用日志降噪装置，其特征在于，包括：

日志语料库模块，用于采集应用日志；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

训练分词模块，用于根据语料库中训练集保存的历史应用日志，采用统计分词模型得到所述分词规则；

所述训练分词模块，还用于根据所述分词规则对所述历史应用日志中的每个历史应用日志进行分词处理以得到对应的特征向量；

建模模块，用于根据所述历史应用日志的特征向量，通过训练得到主题模型；其中，所述主题模型至少包括噪声主题；

分类构造模块，用于所述根据主题模型得到所述噪声识别规则。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述应用日志降噪方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述应用日志降噪方法的步骤。