CN113807073B

CN113807073B - 文本内容异常检测方法、装置以及存储介质

Info

Publication number: CN113807073B
Application number: CN202010550662.1A
Authority: CN
Inventors: 赵钧; 黄磊; 于洪涌; 王雪琼
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2023-11-14
Anticipated expiration: 2040-06-16
Also published as: CN113807073A

Abstract

本公开提供了一种文本内容异常检测方法、装置以及存储介质，涉及计算机技术领域，其中的方法包括：使用相似度概率模型获取词语之间的相似度概率值，生成词语相似度概率信息；获取与采集的每条文本相对应的特征词，并计算特征词的TF‑IDF值；根据词语相似度概率信息获取两个特征向量的特征词之间的特征词相似度概率值，并基于特征词相似度概率值以及TF‑IDF值计算两个特征向量之间的距离；使用聚类算法并根据距离对多个特征向量进行聚类处理，基于聚类处理结果确定出现异常的文本。本公开的方法、装置以及存储介质，在异常检测中不仅考虑了空间距离或密度上的差异，还结合了词语之间的语义相关性，能够提升异常检测的准确性。

Description

文本内容异常检测方法、装置以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种文本内容异常检测方法、装置以及存储介质。

背景技术

随着移动互联网的发展，上网已经成为人们日常生活的一部分。对于网络服务和监管部门，如何发现上网用户的异常行为，预防网络犯罪，是一个需要解决的问题。异常检测技术是为了发现数据集中显著不同于其它数据的对象,广泛应用在客户分类、网络入侵检测、欺诈检测等领域。常用的异常检测方法一般分为基于统计的方法、基于距离的方法等。但是，现有的异常检测技术在对于文本进行异常检测，检测的准确性较低。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种文本内容异常检测方法、装置以及存储介质。

根据本公开的第一方面，提供一种文本内容异常检测方法，包括：使用相似度概率模型获取词语之间的相似度概率值，生成词语相似度概率信息；获取与采集的每条文本相对应的特征词，并计算所述特征词的TF-IDF值；基于所述TF-IDF值建立与每条文本相对应的特征向量；根据所述词语相似度概率信息获取两个特征向量的特征词之间的特征词相似度概率值，并基于所述特征词相似度概率值以及所述TF-IDF值计算所述两个特征向量之间的距离；使用聚类算法并根据所述距离对多个特征向量进行聚类处理，基于聚类处理结果确定出现异常的文本。

可选地，所述聚类算法包括：DBSCAN聚类算法；所述使用聚类算法并根据所述距离对多个特征向量进行聚类处理，基于聚类处理结果确定出现异常的文本包括：使用所述DBSCAN聚类算法并根据所述距离对多个特征向量进行聚类分析，得到至少一个簇和噪声点集合；获取所述噪声点集合中的特征向量，将此特征向量对应的文本确定为出现异常的文本。

可选地，所述距离为：

其中，x_i为第一特征向量中的第i个特征词的TF-IDF值，y_j为第二特征向量中的第i个特征词的TF-IDF值，p_ij为第一特征向量中的第i个特征词和第二特征向量中的第j个特征词之间的特征词相似度概率值，n为第一特征向量和第二特征向量的维数。

可选地，所述相似度概率模型包括：word2vec模型；所述使用相似度概率模型获取词语之间的相似度概率值，生成词语相似度概率信息包括：构建word2vec模型，使用文本数据集对所述word2vec模型进行训练；通过word2vec模型生成两个词语之间的相似度概率值，生成所述词语相似度概率信息；其中，所述词语相似度概率信息包括：词语对和所述相似度概率。

可选地，所述根据所述词语相似度概率信息获取两个特征向量的特征词之间的特征词相似度概率值包括：根据属于第一特征向量的特征词与属于第二特征向量的特征词建立特征词对；将所述特征词对与所述词语相似度概率信息的词语对进行匹配，获取与匹配成功的词语对相对应的相似度概率作为所述特征词相似度概率值。

可选地，所述获取与采集的每条文本相对应的特征词包括：对每条文本进行分词处理并进行去停用词处理，获取所述特征词。

可选地，所述基于所述TF-IDF值建立与每条文本相对应的特征向量包括：将全部文本的特征词进行去重处理，获取n个特征词；生成与每条文本相对应的特征向量；其中，所述特征向量的维数为n，第i个所述特征向量中的元素a_ij表示第j个词在第i条样本中的TF-IDF值。

可选地，如果判断所述特征词是敏感词，则调整此特征词的TF-IDF值。

可选地，如果确定出现异常的文本，则基于此文本进行告警处理。

可选地，所述文本包括：与用户行为相对应的日志文本。

根据本公开的第二方面，提供一种文本内容异常检测装置，包括：相似度确定模块，用于使用相似度概率模型获取词语之间的相似度概率值，生成词语相似度概率信息；特征词处理模块，用于获取与采集的每条文本相对应的特征词，并计算所述特征词的TF-IDF值；特征向量建立模块，用于基于所述TF-IDF值建立与每条文本相对应的特征向量；相似度获取模块，用于根据所述词语相似度概率信息获取两个特征向量的特征词之间的特征词相似度概率值；向量距离计算模块，用于基于所述特征词相似度概率值以及所述TF-IDF值计算所述两个特征向量之间的距离；异常文本判断模块，用于使用聚类算法并根据所述距离对多个特征向量进行聚类处理，基于聚类处理结果确定出现异常的文本。

根据本公开的第三方面，提供一种文本内容异常检测装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上的方法。

本公开的文本内容异常检测方法、装置以及存储介质，获取词与词之间的相似度概率值，确定与文本相对应的特征词并计算特征词的TF-IDF值，基于TF-IDF值建立与文本相对应的特征向量，利用相似度概率值作为距离度量的权重参数，使用聚类算法并根据距离对多个特征向量进行聚类处理，用以发现异常；在异常检测中不仅考虑了空间距离或密度上的差异，还结合了词语之间的语义相关性，能够提升异常检测的准确性。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为根据本公开的文本内容异常检测方法的一个实施例的流程示意图；

图2为根据本公开的文本内容异常检测方法的一个实施例中的确定出现异常的文本的流程示意图；

图3为DBSCAN聚类算法中的核心点、边界点和异常点的示意图；

图4为根据本公开的文本内容异常检测装置的一个实施例的模块示意图；

图5为根据本公开的文本内容异常检测装置的另一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。

下文中的“第一”、“第二”等仅用于描述上相区别，并没有其它特殊的含义。

图1为根据本公开的文本内容异常检测方法的一个实施例的流程示意图，如图1所示：

步骤101，使用相似度概率模型获取词语之间的相似度概率值，生成词语相似度概率信息。

步骤102，获取与采集的每条文本相对应的特征词，并计算特征词的TF-IDF值。

文本可以有多种，例如为与用户行为相对应的日志文本，用户行为可以为用户上网、聊天等。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)，同时，TF-IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。可以使用现有的多种TF-IDF算法计算特征词的TF-IDF值。

步骤103，基于TF-IDF值建立与每条文本相对应的特征向量。

步骤104，根据词语相似度概率信息获取两个特征向量的特征词之间的特征词相似度概率值，并基于特征词相似度概率值以及TF-IDF值计算两个特征向量之间的距离。

步骤105，使用聚类算法并根据距离对多个特征向量进行聚类处理，基于聚类处理结果确定出现异常的文本。

如果确定出现异常的文本，则基于此文本进行告警处理，告警处理可采用多种方式，例如弹出告警对话框、进行声光告警等。

在一个实施例中，相似度概率模型可以为多种模型，例如为word2vec模型等。构建word2vec模型，使用文本数据集对word2vec模型进行训练。通过word2vec模型生成两个词语之间的相似度概率值，生成词语相似度概率信息，词语相似度概率信息包括词语对和相似度概率。

word2vec是由Google发布的神经网络工具包，主要采用的模型有CBOW(ContiuousBag-of-Words)和Skip-Gram两种。word2vec模型为现有的word2vec模型模型，基于预采集的与用户行为相对应的日志文本数据构建语料词汇库，使用语料词汇库进行word2vec模型训练。可以使用现有的训练方法对word2vec模型进行训练，并输出语料库中词与词之间的相似度概率值。

获取两个特征向量的特征词之间的特征词相似度概率值可以使用多种方法。例如，根据属于第一特征向量的特征词与属于第二特征向量的特征词建立特征词对，将特征词对与词语相似度概率信息的词语对进行匹配，获取与匹配成功的词语对相对应的相似度概率作为特征词相似度概率值。

在一个实施例中，对每条文本进行分词处理并进行去停用词处理，获取特征词。将全部文本的特征词进行去重处理，获取n个特征词；生成与每条文本相对应的特征向量；其中，特征向量的维数为n，第i个特征向量中的元素a_ij表示第j个词在第i条样本中的TF-IDF值。

例如，采集某个时间窗内的用户行为日志文本，日志文本包括用户访问的网页或聊天等内容。对于每条日志文本进行分词处理、去停用词后，选择s个特征词，计算每个特征词的TF-IDF值，组成m个s维向量，其中，m为日志文本的数量。

对m×s个特征词(全部特征词)去重后，得到n个特征词，将m个s维向量转换成m个n维特征向量，可以形成m×n矩阵，其中，m×n矩阵的每一列都是同一个特征词在不同的日志文本中的TF-IDF值，缺失值用0填充。M×n矩阵中的元素，即第i个特征向量中的元素a_ij表示第j个词在i条日志内容文本中的TF-IDF值。如果判断特征词是敏感词，则调整此特征词的TF-IDF值；可以修正TF-IDF值的大小，例如增加权重等，用以改变含有敏感词文本的异常度。

在一个实施例中，聚类算法可以为基于距离或密度的算法，例如为DBSCAN(Density-Based Spatial Clustering of Applications withNoise，基于密度的聚类算法)。图2为根据本公开的文本内容异常检测方法的一个实施例中的确定出现异常的文本的流程示意图，如图2所示：

步骤201，使用DBSCAN聚类算法并根据距离对多个特征向量进行聚类分析，得到至少一个簇和噪声点集合。

步骤202，获取噪声点集合中的特征向量，将此特征向量对应的文本确定为出现异常的文本。

DBSCAN算法为基于密度的聚类算法，将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。如图3所示，DBSCAN算法将数据点分为三类：核心点：在半径Eps内含有超过MinPts(最小包含点数)数目的点；边界点：在半径Eps内点的数量小于MinPts，但是落在核心点的邻域内的点；噪音点：既不是核心点也不是边界点的点。通过调整DBSCAN算法中使用的距离计算方法，引入词与词之间的相似度概率作为权重计算距离，识别异常的文本。

基于特征词相似度概率值以及TF-IDF值计算两个特征向量之间的距离为：

在现有的DBSCAN算法中，计算n维向量x和y之间的距离通常使用欧式距离：

本公开使用公式(1-1)替换欧式距离公式(1-2)，在空间度量的基础上增加了语义相关性的度量。

在一个实施例中，通过word2vec模型生成两个词语之间的相似度概率值如下表1所示：

	机器学习	python	java
				机器学习	1	0.9	0.5
python	0.9	1	0.7
				java	0.5	0.7	1

表1-相似度概率值表

如表1所示，对于词语词语“机器学习”、“python”、“java”中，通过word2vec模型生成的两个词语之间的相似度概率值，例如，“机器学习”和“java”之间的相似度概率值为0.5。

获取与采集的两条日志文本相对应的特征词，并计算特征词的TF-IDF值。特征词的TF-IDF值如下表2所示：

机器学习	python
		tf-idf值	1.2	1.5
机器学习	java
		tf-idf值	1.1	0.8

表2-特征词的tf-idf值

如表2所示，一条日志文本中的特征词为“机器学习”、“python”，计算“机器学习”、“python”的TF-IDF值分别为1.2和1.5。另一条日志文本中的特征词为“机器学习”、“java”，计算“机器学习”、“java”的TF-IDF值分别为1.1和0.8。

将全部文本的特征词进行去重处理，获取三个特征词“机器学习”、“python”、“java”，生成与两条日志文本相对应的两个特征向量如下表3所示：

机器学习	python	java
			1.2	1.5	0
1.1	0	0.8

表3-特征向量表

如表3所示，基于TF-IDF值建立与两条文本相对应的两个特征向量，特征向量的维数为3；特征向量中的元素表示特征词在日志文本中的TF-IDF值，缺失值用0填充。特征向量分别为{1.2,1.5,0}和{1.1,0，0.8}，当两个特征向量之间的距离为欧式距离时，基于公式(1-2)计算，可得距离为：

基于公式(1-1)能够计算两个特征向量之间的距离：

使用DBSCAN聚类算法并根据基于公式(1-1)计算两个特征向量之间的距离进行聚类分析，得到至少一个簇和噪声点集合。获取噪声点集合中的特征向量，将此特征向量对应的文本确定为出现异常的文本。

上述实施例中的文本内容异常检测方法，利用word2vec模型生成词的相似度概率，并和DBSCAN算法结合，引入语义改进距离度量方法进而影响算法结果，结合了特征向量每个元素(词)之间的语义相关性，能够发现用户网络上的行为异常；通过大数据机器学习获取词语之间的相似度概率，能够选择不同领域的语料库训练得出个性化、更适合应用场景的相似度概率参数用于距离度量。

上述实施例中的文本内容异常检测方法，在聚类算法中引入词与词之间的语义相关性，改进了异常检测中聚类算法的距离计算方法，实现了空间+语义结合的距离度量；适用于文本内容相关的用户行为异常检测，检测结果可用于提高网络***质量，预防网络犯罪，也可用于提升网络服务水平。

在一个实施例中，如图4所示，本公开提供一种文本内容异常检测装置40，包括：相似度确定模块41、特征词处理模块42、特征向量建立模块43、相似度获取模块44、向量距离计算模块45和异常文本判断模块46。

相似度确定模块41使用相似度概率模型获取词语之间的相似度概率值，生成词语相似度概率信息。特征词处理模块42获取与采集的每条文本相对应的特征词，并计算特征词的TF-IDF值。特征向量建立模块43基于TF-IDF值建立与每条文本相对应的特征向量。

相似度获取模块44根据词语相似度概率信息获取两个特征向量的特征词之间的特征词相似度概率值。向量距离计算模块45基于特征词相似度概率值以及TF-IDF值计算两个特征向量之间的距离。异常文本判断模块46使用聚类算法并根据距离对多个特征向量进行聚类处理，基于聚类处理结果确定出现异常的文本。异常文本判断模块46如果确定出现异常的文本，则基于此文本进行告警处理。

在一个实施例中，聚类算法包括DBSCAN聚类算法；异常文本判断模块46使用DBSCAN聚类算法并根据距离对多个特征向量进行聚类分析，得到至少一个簇和噪声点集合。异常文本判断模块46获取噪声点集合中的特征向量，将此特征向量对应的文本确定为出现异常的文本。

相似度概率模型包括word2vec模型；相似度确定模块45构建word2vec模型，使用文本数据集对word2vec模型进行训练。相似度确定模块45通过word2vec模型生成两个词语之间的相似度概率值，生成词语相似度概率信息，词语相似度概率信息包括：词语对和相似度概率。

相似度获取模块45根据属于第一特征向量的特征词与属于第二特征向量的特征词建立特征词对。相似度获取模块45将特征词对与词语相似度概率信息的词语对进行匹配，获取与匹配成功的词语对相对应的相似度概率作为特征词相似度概率值。

特征词处理模块42对每条文本进行分词处理并进行去停用词处理，获取特征词。特征词处理模块42将全部文本的特征词进行去重处理，获取n个特征词，生成与每条文本相对应的特征向量；其中，特征向量的维数为n，第i个特征向量中的元素a_ij表示第j个词在第i条样本中的TF-IDF值。特征词处理模块42如果判断特征词是敏感词，则调整此特征词的TF-IDF值。

在一个实施例中，图5为根据本公开的文本内容异常检测装置的又一个实施例的模块示意图。如图5所示，该装置可包括存储器51、处理器52、通信接口53以及总线54。存储器51用于存储指令，处理器52耦合到存储器51，处理器52被配置为基于存储器51存储的指令执行实现上述的文本内容异常检测方法。

存储器51可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器51也可以是存储器阵列。存储器51还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器52可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的文本内容异常检测方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的文本内容异常检测方法。

上述实施例提供的文本内容异常检测方法、装置以及存储介质，获取词与词之间的相似度概率值，确定与文本相对应的特征词并计算特征词的TF-IDF值，基于TF-IDF值建立与文本相对应的特征向量，利用相似度概率值作为距离度量的权重参数，使用聚类算法并根据距离对多个特征向量进行聚类处理，用以发现异常；在异常检测中不仅考虑了空间距离或密度上的差异，还结合了词语之间的语义相关性，能够提升异常检测的准确性，可用于提高网络***质量，预防网络犯罪，也可用于提升网络服务水平。

可能以许多方式来实现本公开的方法和***。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和***。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种文本内容异常检测方法，包括：

使用相似度概率模型获取词语之间的相似度概率值，生成词语相似度概率信息；

获取与采集的每条文本相对应的特征词，并计算所述特征词的TF-IDF值；

基于所述TF-IDF值建立与每条文本相对应的特征向量；

根据所述词语相似度概率信息获取两个特征向量的特征词之间的特征词相似度概率值，并基于所述特征词相似度概率值以及所述TF-IDF值计算所述两个特征向量之间的距离；

使用聚类算法并根据所述距离对多个特征向量进行聚类处理，基于聚类处理结果确定出现异常的文本。

2.如权利要求1所述的方法，所述聚类算法包括：DBSCAN聚类算法；所述使用聚类算法并根据所述距离对多个特征向量进行聚类处理，基于聚类处理结果确定出现异常的文本包括：

使用所述DBSCAN聚类算法并根据所述距离对多个特征向量进行聚类分析，得到至少一个簇和噪声点集合；

获取所述噪声点集合中的特征向量，将此特征向量对应的文本确定为出现异常的文本。

3.如权利要求2所述的方法，其中，

所述距离为：

4.如权利要求1所述的方法，所述相似度概率模型包括：word2vec模型；所述使用相似度概率模型获取词语之间的相似度概率值，生成词语相似度概率信息包括：

构建word2vec模型，使用文本数据集对所述word2vec模型进行训练；

通过word2vec模型生成两个词语之间的相似度概率值，生成所述词语相似度概率信息；

其中，所述词语相似度概率信息包括：词语对和所述相似度概率。

5.如权利要求4所述的方法，所述根据所述词语相似度概率信息获取两个特征向量的特征词之间的特征词相似度概率值包括：

根据属于第一特征向量的特征词与属于第二特征向量的特征词建立关键词对；

将所述关键词对与所述词语相似度概率信息的词语对进行匹配，获取与匹配成功的词语对相对应的相似度概率作为所述特征词相似度概率值。

6.如权利要求1所述的方法，所述获取与采集的每条文本相对应的特征词包括：

对每条文本进行分词处理并进行去停用词处理，获取所述特征词。

7.如权利要求6所述的方法，所述基于所述TF-IDF值建立与每条文本相对应的特征向量包括：

将全部文本的特征词进行去重处理，获取n个特征词；

生成与每条文本相对应的特征向量；其中，所述特征向量的维数为n，第i个所述特征向量中的元素a_ij表示第j个词在第i条样本中的TF-IDF值。

8.如权利要求1所述的方法，还包括：

如果判断所述特征词是敏感词，则调整此特征词的TF-IDF值。

9.如权利要求1所述的方法，还包括：

如果确定出现异常的文本，则基于此文本进行告警处理。

10.如权利要求1-9任一项所述的方法，其中，

所述文本包括：与用户行为相对应的日志文本。

11.一种文本内容异常检测装置，包括：

相似度确定模块，用于使用相似度概率模型获取词语之间的相似度概率值，生成词语相似度概率信息；

特征词处理模块，用于获取与采集的每条文本相对应的特征词，并计算所述特征词的TF-IDF值；

特征向量建立模块，用于基于所述TF-IDF值建立与每条文本相对应的特征向量；

相似度获取模块，用于根据所述词语相似度概率信息获取两个特征向量的特征词之间的特征词相似度概率值；

向量距离计算模块，用于基于所述特征词相似度概率值以及所述TF-IDF值计算所述两个特征向量之间的距离；

异常文本判断模块，用于使用聚类算法并根据所述距离对多个特征向量进行聚类处理，基于聚类处理结果确定出现异常的文本。

12.一种文本内容异常检测装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质非暂时性地存储有计算机指令，所述指令被处理器执行如权利要求1至10中任一项所述的方法。