CN115146062A

CN115146062A - 融合专家推荐与文本聚类的智能事件分析方法和***

Info

Publication number: CN115146062A
Application number: CN202210804315.6A
Authority: CN
Inventors: 高姜豪; 范永丹; 程元杰
Original assignee: Shanghai Financial Futures Information Technology Co ltd
Current assignee: Shanghai Financial Futures Information Technology Co ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-04

Abstract

本发明公开了一种融合专家推荐与文本聚类的智能事件分析方法和***，能够提升事件关联分析效率，精准推荐事件知识库中的处置方案以提升事件分析效率，能够根据人工对监控事件分类结果的更正来做动态调整，以不断优化事件分类结果，保持算法正确稳定运行，使得匹配结果保持正确且稳定。其技术方案为：数据预处理，完成事件数据库中的已知事件类和已知事件的预处理，通过分析事件类，获取关键词库，并剔除事件中的冗余信息，提取事件的关键字；为建立事件分类模型，进行预聚类；计算事件类别分类相似度阈值，从而建立事件分类模型；处理未分类的监控事件数据；更新事件分类模型。

Description

融合专家推荐与文本聚类的智能事件分析方法和***

技术领域

本发明涉及事件分析技术，具体涉及一种融合专家推荐与文本聚类的智能事件分析方法和***。

背景技术

现有的事件分析算法一般采用现场运维、事后处置的方法，即利用自动化工具对***进行监控、发布部署，依靠专业人士对于事件告警信息进行分析与处理的技术来实现，其具有如下的缺陷：

1.事件分析效率较低，占用大量计算资源，无法实时处理并发事件。

2.事件匹配准确率低，无法快速推荐准确处置方案。

3.运维事件专业性、针对性强，现有市面上的事件分析算法无法提供针对性的服务。

因此，如何研发一种新的事件分析技术，来解决现有事件分析算法的上述缺点，是目前业界亟待解决的问题。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种融合专家推荐与文本聚类的智能事件分析方法和***，能够提升事件关联分析效率，精准推荐事件知识库中的处置方案以提升事件分析效率，能够根据人工对监控事件分类结果的更正来做动态调整，以不断优化事件分类结果，保持算法正确稳定运行，使得匹配结果保持正确且稳定。

本发明的技术方案为：本发明揭示了一种融合专家推荐与文本聚类的智能事件分析方法，方法包括：

步骤1：数据预处理，完成事件数据库中的已知事件类和已知事件的预处理，通过分析事件类，获取关键词库，并剔除事件中的冗余信息，提取事件的关键字；

步骤2：为建立事件分类模型，进行预聚类；

步骤3：计算事件类别分类相似度阈值，从而建立事件分类模型；

步骤4：处理未分类的监控事件数据；

步骤5：更新事件分类模型。

根据本发明的融合专家推荐与文本聚类的智能事件分析方法的一实施例，步骤1进一步包括：

步骤1-1：事件类别数据预处理；

步骤1-2：训练数据预处理；

其中步骤1-1进一步包括：

步骤1-1-1：构建自定义字典，向自定义字典中添加某些固定短语，建立起关键字字典；

步骤1-1-2：基于所建立的关键字字典，提取未分类监控事件的关键字；

步骤1-1-3：用BERT预训练模型对关键字字典中的所有关键字进行词向量转化，获取关键字字典中的关键字对应的词向量列表；

步骤1-1-4：获取各事件类别的文本描述中的关键词，根据关键词词典获取各事件类别的文本描述中的关键词所对应的词向量，建立三维词向量矩阵；

其中步骤1-2进一步包括：

步骤1-2-1：使用正则表达式按照固定格式识别和删除冗余信息；

步骤1-2-2：通过动态更新和加载自定义字典和停止词列表，使用训练数据的分词结果；

步骤1-2-3：根据关键字字典，将分词结果中权重前列的分词作为监控事件报警信息的关键字；

步骤1-2-4：在关键字字典中找到对应于训练数据中所有关键字的单词向量和单词权重，并使用加权平均方法生成训练数据的代表性向量。

根据本发明的融合专家推荐与文本聚类的智能事件分析方法的一实施例，步骤2进一步包括：

步骤2-1：训练数据聚类；

步骤2-2：聚类结果处理；

其中，步骤2-1进一步包括：

步骤2-1-1：使用T-SNE方法对训练数据进行可视化；

步骤2-1-2：使用DBSCAN聚类算法的轮廓系数和噪声率来评估聚类效果；

其中，步骤2-2进一步包括：

步骤2-2-1：为保证每个聚类中的所有监控事件只对应于同一个类，将聚类结果进行二次划分，将初始聚类按照打上的类标签顺次生成新的聚类；

步骤2-2-2：根据新的聚类结果，对每个聚类使用K-means算法获得聚类中心向量来表示聚类。

根据本发明的融合专家推荐与文本聚类的智能事件分析方法的一实施例，步骤3进一步包括：

步骤3-1：获取各事件类别与其对应的聚类中心和噪点数据间的相似度；

步骤3-2：获取各事件类别的分类相似度阈值；

其中步骤3-1进一步包括：

步骤3-1-1：采用注意力机制，计算每个聚类中心向量或噪声数据向量对应的事件类别代表向量；

步骤3-1-2：计算聚类中心向量或噪声数据向量与事件类别代表向量之间的余弦相似度；

其中步骤3-2进一步包括：

以每个事件类别对应的最小相似度值作为阈值，生成所有事件类别的分类相似度阈值表。

根据本发明的融合专家推荐与文本聚类的智能事件分析方法的一实施例，步骤4进一步包括：

步骤4-1：数据预处理；

步骤4-2：获取分类结果；

其中步骤4-1中，根据训练数据预处理的方法，对未分类的新监测事件的报警信息进行分词，提取关键字，并生成其代表向量；

其中步骤4-2进一步包括：

步骤4-2-1：查询已形成的事件知识库中事件关键字-类的映射关系；

步骤4-2-2：计算未分类的监控事件数据的代表向量，并计算其和各个聚类中心向量之间的相似度；

步骤4-2-3：如果新事件未被分配到任何聚类，则将其标记为噪声数据；

步骤4-2-4：计算噪声数据的代表向量与每个事件类别之间的余弦相似度。

根据本发明的融合专家推荐与文本聚类的智能事件分析方法的一实施例，步骤5进一步包括：

步骤5-1：更新关键字字典；

步骤5-2：更新监控事件数据库；

其中，步骤5-1进一步包括：

步骤5-1-1：更新事件类别；

步骤5-1-2：更新关键字字典；

其中，步骤5-2进一步包括：

步骤5-2-1：更新监视事件数据；

步骤5-2-2：更新词向量矩阵；

步骤5-2-3：更新事件分类模型。

本发明还揭示了一种融合专家推荐与文本聚类的智能事件分析***，***包括：

数据预处理模块，用于完成事件数据库中的已知事件类和已知事件的预处理，通过分析事件类，获取关键词库，并剔除事件中的冗余信息，提取事件的关键字；

预聚类模块，用于为建立事件分类模型，进行预聚类；

事件类别分类相似度阈值计算模块，用于计算事件类别分类相似度阈值；

未分类监控事件数据处理模块，用于处理未分类的监控事件数据；

模型更新模块，更新事件分类模型。

根据本发明的融合专家推荐与文本聚类的智能事件分析***的一实施例，数据预处理模块进一步配置为：

事件类别数据预处理，包括：

构建自定义字典，向自定义字典中添加某些固定短语，建立起关键字字典；

基于所建立的关键字字典，提取未分类监控事件的关键字；

用BERT预训练模型对关键字字典中的所有关键字进行词向量转化，获取关键字字典中的关键字对应的词向量列表；

获取各事件类别的文本描述中的关键词，根据关键词词典获取各事件类别的文本描述中的关键词所对应的词向量，建立三维词向量矩阵；

训练数据预处理，包括：

使用正则表达式按照固定格式识别和删除冗余信息；

通过动态更新和加载自定义字典和停止词列表，使用训练数据的分词结果；

根据关键字字典，将分词结果中权重前列的分词作为监控事件报警信息的关键字；

在关键字字典中找到对应于训练数据中所有关键字的单词向量和单词权重，并使用加权平均方法生成训练数据的代表性向量。

根据本发明的融合专家推荐与文本聚类的智能事件分析***的一实施例，预聚类模块进一步配置为：

训练数据聚类，包括：

使用T-SNE方法对训练数据进行可视化；

使用DBSCAN聚类算法的轮廓系数和噪声率来评估聚类效果；

聚类结果处理，包括：

为保证每个聚类中的所有监控事件只对应于同一个类，将聚类结果进行二次划分，将初始聚类按照打上的类标签顺次生成新的聚类；

根据新的聚类结果，对每个聚类使用K-means算法获得聚类中心向量来表示聚类。

根据本发明的融合专家推荐与文本聚类的智能事件分析***的一实施例，事件类别分类相似度阈值计算模块进一步配置为：

获取各事件类别与其对应的聚类中心和噪点数据间的相似度，包括：

采用注意力机制，计算每个聚类中心向量或噪声数据向量对应的事件类别代表向量；

计算聚类中心向量或噪声数据向量与事件类别代表向量之间的余弦相似度；

获取各事件类别的分类相似度阈值，包括以每个事件类别对应的最小相似度值作为阈值，生成所有事件类别的分类相似度阈值表。

根据本发明的融合专家推荐与文本聚类的智能事件分析***的一实施例，未分类监控事件数据处理模块进一步配置为：

数据预处理，包括根据训练数据预处理的方法，对未分类的新监测事件的报警信息进行分词，提取关键字，并生成其代表向量；

获取分类结果，包括：

查询已形成的事件知识库中事件关键字-类的映射关系；

计算未分类的监控事件数据的代表向量，并计算其和各个聚类中心向量之间的相似度；

如果新事件未被分配到任何聚类，则将其标记为噪声数据；

计算噪声数据的代表向量与每个事件类别之间的余弦相似度。

根据本发明的融合专家推荐与文本聚类的智能事件分析***的一实施例，模型更新模块进一步配置为：

更新关键字字典，包括：

更新事件类别；

更新关键字字典；

更新监控事件数据库，包括：

更新监视事件数据；

更新词向量矩阵；

更新事件分类模型。

本发明对比现有技术有如下的有益效果：本发明的方案具有如下的创新点。

1：在读取监控事件报警信息时，使用正则表达式，识别日志中冗余的格式化信息并删除；动态识别带有连字符或下划线组成的英文词组，并将其添加至自定义字典中；在分词时使用自定义字典，能够有效防止在分词的步骤时将其分开，并且之后再有之前出现过的英文词组时也会保证其不会被分开。

2：在设定关键字权重时使用IDF(逆文档频率)而没有使用常规的TF*IDF(词频*逆文档频率)，突出了强区分度的词语的重要性，获得了较好的分类结果。

3：该算法中通过聚类算法进行预分类的目的是将更为相似的事件划分为一个聚类，以便在分类新监控事件时能找到与其最为相似的事件形成的聚类，根据训练数据学习到的聚类与事件类别的对应关系，能够更准确的为其推荐分类结果。

4：在聚类或噪点数据与类group进行相似度衡量过程中，通过使用注意力机制(Attention)机制，能够使得类名group_name的所有分词中与聚类或噪点数据有关的分词的权重更高，从而去减少那些与聚类或噪点数据无关的分词在形成group代表向量时的影响，这样在判断聚类或者噪点所属group的过程中，生成出来的group代表向量能够更好的与聚类或噪点数据进行相似度衡量。

5：对所有的噪点数据进行聚类，可以让较为相似的噪点数据形成新的聚类，通过不断增加新的聚类和group的对应关系，也能够让未处理过的监控事件的分类结果更加准确。并且只对噪点数据进行聚类而不是对所有数据重新进行聚类，保持了原有聚类和事件类别对应关系的稳定性。

6：在算法运行阶段，业务人员通过不断对新事件的分类、监控事件库更新、事件类别及其描述的更新，让模型对不断增多的带有分类标签的监控事件数据重新按照既定步骤进行学习，能够不断提升对于未处理过的监控事件的聚类效果。

7：该算法的优势在于，根据少量的带有标签的训练数据，对于与训练数据同类型的监控事件能够迅速地建立起有效的分类模型；并且在新增少量新类型的监控事件时，能够通过聚类和相似度衡量的手段快速形成新类型监控事件的聚类与事件类别的对应关系，从而灵活地动态调整模型分类效果，避免了传统事件分类方法在面对新类型监控事件出现时，因为需要积累大量的同类型数据来优化模型分类效果，而导致重复的预测分类错误。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的融合专家推荐与文本聚类的智能事件分析方法的一实施例的流程图。

图2示出了词向量聚类结果的一个示例的散点图。

图3示出了本发明的融合专家推荐与文本聚类的智能事件分析***的一实施例的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的融合专家推荐与文本聚类的智能事件分析方法的一实施例的流程。请参见图1，本实施例的方法的实施步骤详述如下。

步骤1：数据预处理。

步骤1是完成事件数据库中的已知事件类(类：group)和已知事件(事件：event)的预处理。在只有少量的带有分类标注的监控事件报警信息训练数据的条件下，采用如下的高效数据预处理算法，分析事件类，获取关键词库，并剔除事件中的冗余信息，提取事件的关键字。

上述的高效数据预处理算法的具体步骤如下。

步骤1-1：事件类别数据预处理。

步骤1-1中具体包括如下的处理过程。

步骤1-1-1：构建自定义字典，向自定义字典中添加某些固定短语，建立起关键字字典。使用正则表达式动态识别由事件数据包含的下划线或连字符连接的英文短语，并将识别出的英文短语添加到自定义字典中。通过加载自定义字典和停止词列表，使用jieba分词工具获得分词结果。

jieba分词工具基于前缀字典实现高效的词图扫描；先根据字典生成trie树，对需分词的句子，再根据trie树生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。根据每个词在生成trie树过程中出现的概率(即频率)，采用了动态规划对句子从右至左查找最大概率路径,找出基于词频的最大切分组合。对于未登录词，采用了基于汉字成词能力的HMM模型，使用了基于动态规划的Viterbi算法，找到一个概率最大的BEMS序列，按照B打头，E结尾的方式，对待分词的句子重新组合，就得到了分词结果。

步骤1-1-2：基于所建立的关键字字典，提取未分类监控事件的关键字。本实施例中，将每个单词的IDF(Inverse Document Frequency，逆文档频率)值用作分词的权重特征，并与关键字一起存储在关键字字典中。

TF-IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

步骤1-1-3：用BERT预训练模型对关键字字典中的所有关键字进行词向量转化，获取关键字字典中的关键字对应的词向量列表。

为了缩短了监控事件关键字的词向量转换时间，后续将采用通过查询关键字字典表来实现监控事件关键字的词向量转换。

在自然语言处理领域中，词向量被广泛应用。提取词向量是一种将文本空间中的某个词语，通过一定的方法，映射或者说嵌入到另一个数值向量空间的过程。

BERT是文本分类任务中词向量转换的重要工具。BERT预训练得出的词语-词向量对照表，可以作为一个静态的向量表征方法，可以看做是基于大量语料训练后学习到词的共性表征。研究表明，当通过深度学习将BERT用作文本分类嵌入层的输入时，可以有效地优化单词向量。此外，通过对BERT模型原理及其主要改进模型的研究，动态单词嵌入预训练模型，即BERT预训练模型，更适合于单词向量转换任务。

将关键字词典中的分词定义为t_i。将所有分词作为输入文本输入到Bert模型中，首先执行向量表示，然后通过转换器中的多个编码器模块，最后生成每个分词t_i的语义增强的词向量，将其定义为v_i＝{v_i,1,...,v_i,768}。由于从监控事件中提取的关键词都是在关键词词典中的分词，因此可以通过查询关键词词典来实现监控事件关键词的词向量转换，从而缩短了监控事件关键词的词向量转换时间。

步骤1-1-4：获取各事件类别的文本描述中的关键词，根据关键词词典获取各事件类别的文本描述中的关键词所对应的词向量，建立三维词向量矩阵E(group_label_bert)。

该实现具体的处理为：对每一个事件类group的标签分词后的每一个词语计算其词向量，将结果用大小为(1，768)(词向量的维度大小为(1，768))的零向量补齐并转化为三维矩阵(第一维度代表事件类group的总数、第二维度代表每一个事件类group的类名group_name的分词数、第三维度代表了词向量的维度)。

步骤1-2：训练数据预处理。

步骤1-2中具体包括如下的处理过程。

步骤1-2-1：使用正则表达式按照固定格式识别和删除冗余信息(如时间、日期等)，以提高分词和关键字提取的效率。

步骤1-2-2：通过动态更新和加载自定义字典和停止词列表，使用jieba分词工具获得训练数据的分词结果。

步骤1-2-3：根据关键字字典，将分词结果中权重前列(例如前十位)的分词作为监控事件报警信息的关键字。

步骤1-2-4：在关键字字典中找到对应于训练数据中所有关键字的单词向量和单词权重，并使用加权平均方法生成训练数据的代表性向量。生成代表向量的公式如下，记为event_embedding：

上式中的n是每条训练数据的关键词数量，v_i和weight_i则是每个关键词i对应词向量和词权重。

步骤2：为建立事件分类模型，进行预聚类。

步骤2-1：训练数据聚类。

步骤2-1进一步包括如下的处理过程。

步骤2-1-1：使用T-SNE方法(T分布随机近邻嵌入，T-Distribution StochasticNeighbour Embedding)对训练数据进行可视化，以观察到训练数据集是一个不规则的密集数据集，并且没有特定的固定数目的聚类，因此DBSCAN(Density-Based SpatialClustering of Applications with Noise)聚类算法适用于聚类情况，如图2所示。

在文本聚类领域，尤其是当聚类聚类数量未知时，常用的算法是DBSCAN聚类算法。DBSCAN是基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

步骤2-1-2：使用轮廓系数S和噪声率R来评估聚类效果，其中轮廓系数是是用于评价聚类效果好坏的一种指标。可以理解为描述聚类后各个类别的轮廓清晰度的指标，其包含有两种因素——内聚度和分离度。内聚度可以理解为反映一个样本点与类内元素的紧密程度，分离度可以理解为反映一个样本点与类外元素的紧密程度。

评估结果的计算公式为Score＝S-R。通过设置合理的扫描半径eps和半径内最小包含点数min_samples范围，利用上述方法对DBSCAN算法的聚类效果进行评估，得到更高的Score，找到两种不同组合的最佳组合。

步骤2-2：聚类结果处理。

步骤2-2进一步包括如下的处理过程。

步骤2-2-1：为保证每个聚类cluster中的所有监控事件只对应于同一个类group(同前文统一，将group叫做“类”)，即cluster_id和group_id应具有一对一或多对一的关系，将聚类结果进行二次划分，将初始聚类按照打上的group标签顺次生成新的聚类。对图2所展示的聚类结果进行二次划分后，更新训练数据所属的聚类号，聚类号-1是尚未成功聚类的噪声数据。

步骤2-2-2：根据新的聚类结果，对每个聚类使用K-means算法获得聚类中心向量来表示聚类。并计算每个聚类中所有点到对应的聚类中心向量的余弦相似度最小值，将其设置为每个聚类的相似度阈值，生成聚类中心向量表cluster_center和聚类相似度阈值表cluster_threshold。每个聚类的相似度阈值计算公式如下：

上式中cluster_threshold_i为聚类i中的所有点X_i＝{x_i,1,...x_i,n}到聚类中心Center_i的余弦相似度的最小值。

余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，夹角等于0，即两个向量相等。

步骤3：计算事件类别分类相似度阈值，从而建立事件分类模型。

步骤3-1：获取各事件类别与其对应的聚类中心和噪点数据间的相似度。

步骤3-1进一步包括如下的处理过程。

步骤3-1-1：采用注意力机制，计算每个聚类中心向量或噪声数据向量对应的事件类别代表向量group_label_bert。

注意力机制中，对于事件组中的分词结果构成的词向量矩阵，根据每个聚类中心或噪声数据，生成事件组的代表向量。针对一个聚类中心或噪点数据，采用注意力机制可以得出每个事件类别包含的关键词词向量加权平均后的代表向量，从而在事件类别文本描述的所有分词中，提高与相应聚类中心或噪声数据相关的分词权重，减少与聚类无关的分词权重。

步骤3-1-2：计算聚类中心向量或噪声数据向量与事件类别代表向量group_label_bert之间的余弦相似度。公式如下：

上式中的

为聚类中心向量x_i与其对应的事件类别的代表向量y_i之间的余弦相似度。

步骤3-2：获取各事件类别的分类相似度阈值。

步骤3-2-1进一步包括如下的处理过程。

步骤3-2-1：以每个事件类别对应的最小相似度值作为阈值，生成所有事件类别的分类相似度阈值表，事件类别的分类相似度阈值计算公式如下。

group_threshold_i＝min{Sim_j,i|j∈i}

上式中，Sim_j,i代表事件类别i的代表向量v_i与其所包含的聚类中心j的向量v_j，两者之间的余弦相似度。group_threshold_i代表事件类别i的分类相似度阈值，其意义是：若某一聚类中心所代表的聚类与事件类别i的相似度大小在group_threshold_i之内，则其能够被划分为该事件类别。以此更新事件类别的分类相似度阈值表。

步骤4：处理未分类的监控事件数据。

步骤4-1：数据预处理。

根据训练数据预处理的方法，对未分类的新监测事件的报警信息进行分词，提取关键字，并生成其代表向量。

步骤4-2：获取分类结果。

为了提升事件关联分析效率，精准推荐事件知识库中的处置方案，保证匹配结果保持正确且稳定，采用以下方案获取事件的分配结果。

步骤4-2-1：查询已形成的事件知识库中Event_keyword-group(事件关键字-类)映射关系，如有则直接输出匹配结果，否则执行下列步骤。关于Event_keyword-group映射，是抓取不同的监控事件(event)，每一条event含有对应的事件描述event_detail，在经过专业人员运用运维知识处理后可以将event划分为多个group，建立event与group的映射关系，当新event传入时，给出正确稳定的group匹配结果。Cluster是有同一类event_keyword的event集合，cluster能忽略掉event_keyword中影响权重较小的细小差别，达到较好的聚类效果。Group是业务人员凭借专业知识划分出的事件组，描述了一组事件的共有特征。

event_keyword与group是多对一的关系，cluster与group是多对一的关系，他们之间的关系都由词向量建立起来。Event_embedding经过聚类得到cluster，cluster_center为同一cluster得到的中心词向量，cluster_threshold为判断某一event_embedding是否能划分到这个cluster的标准。

Group通过group_label进行区分，每一个label分词后得到group_label_cut，在做词向量转换并填充后得到group_label_bert，再针对同一group所包含的cluster_center，引入注意力机制生成group的代表向量，并计算两者的相似度，更新group_threshold，其中，group_threshold为判断某一cluster_center是否能划分到这个group的标准。

步骤4-2-2：计算未分类的监控事件数据的代表向量，并计算其和各个聚类中心向量cluster_center之间的相似度Sim，选出超过步骤3中的相似度阈值的前列(例如前五个)聚类。公式如下。

上式中的Sim为未分类的监控事件数据的代表向量v与各个聚类中心向量c的余弦相似度。

步骤4-2-3：如果新事件未被分配到任何聚类，则将其标记为噪声数据(noise_label＝True)。

步骤4-2-4：用上述公式计算噪声数据的代表向量与每个事件类别之间的余弦相似度。利用注意力机制，计算由噪声数据生成的每个事件类别的代表向量与噪声数据之间的余弦相似度。将结果与事件知识库中每个事件类别的分类相似度阈值进行比较，推荐满足分类相似度阈值且相似度前列(例如前五个)的事件类别作为分类结果。

步骤5：更新模型，即为更新事件分类模型。更新过程需执行步骤1-3的事件分类模型的建立，而步骤4不属于建立模型过程，属于事件分类模型对测试数据的分类过程。

步骤5-1：更新关键字字典。

步骤5-1进一步包括如下的处理过程。

步骤5-1-1：更新事件类别。如果事件知识库中没有与新监控事件匹配的事件类别，则需要专业人员添加事件类别，以文本形式进行描述并描述其处理计划，然后自动将其添加到事件知识库中作为后续模型更新的训练数据。

步骤5-1-2：更新关键字字典。对于新增group_label中的新词切分，使用IDF计算分词权重，使用Bert预训练模型获得其词向量并将其添加到词向量表中。

步骤5-2：更新监控事件数据库。

步骤5-2进一步包括如下的处理过程。

步骤5-2-1：更新监视事件数据。随着关键字字典的更新，监控事件数据库中所有事件的关键字和代表向量可能会发生变化。为了获得正确的训练数据，需要重新提取监控事件数据库中所有事件的关键字，根据新的权重生成新的代表向量，然后更新监控事件数据库中的内容。

步骤5-2-2：更新group词向量矩阵。根据新的关键字字典和每个事件类别的文本描述的分词结果，按照生成词向量矩阵步骤中的方法，重新生成词向量矩阵。

步骤5-2-3：更新事件分类模型。模型在学习过程中学习到的聚类信息表和事件知识库中的阈值threshold也需要更新。使用监控事件数据库中的数据作为训练数据，重新运行算法实现步骤2至步骤3中的处理以重新训练事件分类模型。更新完成后，即可处理对新监视事件进行分类的任务。

图3示出了本发明的融合专家推荐与文本聚类的智能事件分析***的一实施例的原理。请参见图3，本实施例的***包括：数据预处理模块、预聚类模块、事件类别分类相似度阈值计算模块、未分类监控事件数据处理模块、模型更新模块。

数据预处理模块用于完成事件数据库中的已知事件类和已知事件的预处理，通过分析事件类，获取关键词库，并剔除事件中的冗余信息，提取事件的关键字。数据预处理模块进一步配置为先进行事件类别数据预处理再进行训练数据预处理。其中事件类别数据预处理，包括：构建自定义字典，向自定义字典中添加某些固定短语，建立起关键字字典；基于所建立的关键字字典，提取未分类监控事件的关键字；用BERT预训练模型对关键字字典中的所有关键字进行词向量转化，获取关键字字典中的关键字对应的词向量列表；获取各事件类别的文本描述中的关键词，根据关键词词典获取各事件类别的文本描述中的关键词所对应的词向量，建立三维词向量矩阵

训练数据预处理，包括：使用正则表达式按照固定格式识别和删除冗余信息；通过动态更新和加载自定义字典和停止词列表，使用训练数据的分词结果；根据关键字字典，将分词结果中权重前列的分词作为监控事件报警信息的关键字；在关键字字典中找到对应于训练数据中所有关键字的单词向量和单词权重，并使用加权平均方法生成训练数据的代表性向量。

预聚类模块用于为建立事件分类模型，进行预聚类。预聚类模块进一步配置为先进行训练数据聚类再进行聚类结果处理。其中，训练数据聚类包括：使用T-SNE方法对训练数据进行可视化；使用DBSCAN聚类算法的轮廓系数和噪声率来评估聚类效果。聚类结果处理包括：为保证每个聚类中的所有监控事件只对应于同一个类，将聚类结果进行二次划分，将初始聚类按照打上的类标签顺次生成新的聚类；根据新的聚类结果，对每个聚类使用K-means算法获得聚类中心向量来表示聚类。

事件类别分类相似度阈值计算模块用于计算事件类别分类相似度阈值。事件类别分类相似度阈值计算模块进一步配置为先获取各事件类别与其对应的聚类中心和噪点数据间的相似度，再获取各事件类别的分类相似度阈值，包括以每个事件类别对应的最小相似度值作为阈值，生成所有事件类别的分类相似度阈值表。其中获取各事件类别与其对应的聚类中心和噪点数据间的相似度，包括：采用注意力机制，计算每个聚类中心向量或噪声数据向量对应的事件类别代表向量；计算聚类中心向量或噪声数据向量与事件类别代表向量之间的余弦相似度。

未分类监控事件数据处理模块用于处理未分类的监控事件数据。未分类监控事件数据处理模块进一步配置为先进行数据预处理再获取分类结果。其中，数据预处理包括：根据训练数据预处理的方法，对未分类的新监测事件的报警信息进行分词，提取关键字，并生成其代表向量。获取分类结果包括：查询已形成的事件知识库中事件关键字-类的映射关系；计算未分类的监控事件数据的代表向量，并计算其和各个聚类中心向量之间的相似度；如果新事件未被分配到任何聚类，则将其标记为噪声数据；计算噪声数据的代表向量与每个事件类别之间的余弦相似度。

模型更新模块用于更新事件分类模型。模型更新模块进一步配置为先更新关键字字典再更新监控事件数据库。其中更新关键字字典进一步包括更新事件类别和更新关键字字典。更新监控事件数据库，包括：更新监视事件数据；更新词向量矩阵；更新事件分类模型。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种融合专家推荐与文本聚类的智能事件分析方法，其特征在于，方法包括：

步骤2：为建立事件分类模型，进行预聚类；

步骤4：处理未分类的监控事件数据；

步骤5：更新事件分类模型。

2.根据权利要求1所述的融合专家推荐与文本聚类的智能事件分析方法，其特征在于，步骤1进一步包括：

步骤1-1：事件类别数据预处理；

步骤1-2：训练数据预处理；

其中步骤1-1进一步包括：

其中步骤1-2进一步包括：

3.根据权利要求1所述的融合专家推荐与文本聚类的智能事件分析方法，其特征在于，步骤2进一步包括：

步骤2-1：训练数据聚类；

步骤2-2：聚类结果处理；

其中，步骤2-1进一步包括：

步骤2-1-1：使用T-SNE方法对训练数据进行可视化；

其中，步骤2-2进一步包括：

4.根据权利要求1所述的融合专家推荐与文本聚类的智能事件分析方法，其特征在于，步骤3进一步包括：

步骤3-2：获取各事件类别的分类相似度阈值；

其中步骤3-1进一步包括：

其中步骤3-2进一步包括：

5.根据权利要求1所述的融合专家推荐与文本聚类的智能事件分析方法，其特征在于，步骤4进一步包括：

步骤4-1：数据预处理；

步骤4-2：获取分类结果；

其中步骤4-2进一步包括：

6.根据权利要求1所述的融合专家推荐与文本聚类的智能事件分析方法，其特征在于，步骤5进一步包括：

步骤5-1：更新关键字字典；

步骤5-2：更新监控事件数据库；

其中，步骤5-1进一步包括：

步骤5-1-1：更新事件类别；

步骤5-1-2：更新关键字字典；

其中，步骤5-2进一步包括：

步骤5-2-1：更新监视事件数据；

步骤5-2-2：更新词向量矩阵；

步骤5-2-3：更新事件分类模型。

7.一种融合专家推荐与文本聚类的智能事件分析***，其特征在于，***包括：

预聚类模块，用于为建立事件分类模型，进行预聚类；

模型更新模块，更新事件分类模型。

8.根据权利要求7所述的融合专家推荐与文本聚类的智能事件分析***，其特征在于，数据预处理模块进一步配置为：

事件类别数据预处理，包括：

基于所建立的关键字字典，提取未分类监控事件的关键字；

训练数据预处理，包括：

使用正则表达式按照固定格式识别和删除冗余信息；

9.根据权利要求7所述的融合专家推荐与文本聚类的智能事件分析***，其特征在于，预聚类模块进一步配置为：

训练数据聚类，包括：

使用T-SNE方法对训练数据进行可视化；

使用DBSCAN聚类算法的轮廓系数和噪声率来评估聚类效果；

聚类结果处理，包括：

10.根据权利要求7所述的融合专家推荐与文本聚类的智能事件分析***，其特征在于，事件类别分类相似度阈值计算模块进一步配置为：

11.根据权利要求7所述的融合专家推荐与文本聚类的智能事件分析***，其特征在于，未分类监控事件数据处理模块进一步配置为：

获取分类结果，包括：

查询已形成的事件知识库中事件关键字-类的映射关系；

如果新事件未被分配到任何聚类，则将其标记为噪声数据；

12.根据权利要求7所述的融合专家推荐与文本聚类的智能事件分析***，其特征在于，模型更新模块进一步配置为：

更新关键字字典，包括：

更新事件类别；

更新关键字字典；

更新监控事件数据库，包括：

更新监视事件数据；

更新词向量矩阵；

更新事件分类模型。