CN114048310A

CN114048310A - 基于lda主题ap聚类的动向情报事件时间线提取方法

Info

Publication number: CN114048310A
Application number: CN202110850484.9A
Authority: CN
Inventors: 黄訸; 金轴; 刘彬彬; 朱靖; 李成军; 刘敬蜀; 张鹏; 吕建科; 王晓博
Original assignee: Unit 91977 Of Pla
Current assignee: Unit 91977 Of Pla
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2022-02-15

Abstract

本发明公开了一种基于LDA主题AP聚类的动向情报事件时间线提取方法，具体按照以下步骤实施：步骤1，对获取到的信息报文数据进行预处理；步骤2，对步骤1得到的信息报文数据进行主题类聚，得到各个主题下的文本集合；步骤3，对步骤2得到的各个主题下的文本集合进行事件信息词二次抽取，得到各个主题下的主题事件向量集合；步骤4，对步骤3得到的各个主题下的主题事件向量集合进行事件类聚，获得每个主题下的事件聚类信息；步骤5，对步骤4得到的每个主题下的事件聚类信息根据时间信息进行再分组；步骤6，对各个分组进行关键高频词信息和标题信息提取，并在时间轴维度上进行可视化显。

Description

基于LDA主题AP聚类的动向情报事件时间线提取方法

技术领域

本发明属于情报处理技术领域，具体涉及一种基于LDA主题AP聚类的动向情报事件时间线提取方法。

背景技术

目前，随着我国各类手段的逐步建设和完善，信息体系发展也取得的***的成绩。随之而来，虽然获取信息手段增多，获取的信息数量也显著增多，但各级信息使用人员的人手却没有增加。导致主要问题一个是信息报数量增多，每天有不少于一千份的信息报。另一个是信息报来源不同，可能出现相似或内容重叠的信息报告。给用户带了很大的压力。

因此，如何在每日大量的信息报中提取各份报告的主题信息，并按照时间线进行信息合并，大量减少用户的阅报时间，显得十分迫切。

发明内容

为解决上述问题，本发明公开了一种基于LDA主题AP聚类的动向情报事件时间线提取方法，用以解决如何在每日大量的信息报中提取各份报告的主题信息，并按照时间线进行信息合并，大量减少用户的阅报时间的问题。

为了达到上述目的，本发明提供的技术方案是：一种基于LDA主题AP 聚类的动向情报事件时间线提取方法，具体按照以下步骤实施：

步骤1，对获取到的信息报文数据进行预处理；

步骤2，对步骤1得到的信息报文数据进行主题类聚，得到各个主题下的文本集合；

步骤3，对步骤2得到的各个主题下的文本集合进行事件信息词二次抽取，得到各个主题下的主题事件向量集合；

步骤4，对步骤3得到的各个主题下的主题事件向量集合进行事件类聚，获得每个主题下的事件聚类信息；

步骤5，对步骤4得到的每个主题下的事件聚类信息根据时间信息进行再分组；

步骤6，对各个分组进行关键高频词信息和标题信息提取，并在时间轴维度上进行可视化显。

本发明的技术方案，还具有以下特点：

作为本发明的一种优选的技术方案，在所述步骤1中，进行预处理包括去除分词、词性标注、筛除停用词、去除无用词以及低频词。

作为本发明的一种优选的技术方案，在所述步骤2中，采用LDA主题模型对步骤1得到的信息报文数据进行主题类聚。

作为本发明的一种优选的技术方案，在所述步骤3中，对每个主题下的文本集合分别进行LDA浅层语义降维，获得每篇文本的主题事件向量。

作为本发明的一种优选的技术方案，在所述步骤3中，采用Kmeans算法对步骤2得到的各个主题下的文本集合进行事件信息词二次抽取。

本发明的有益效果是：本发明的一种基于LDA主题和AP聚类的信息报事件时间线提取方法，借鉴微博中的开放域事件抽取的LDA主题模型对零散微博文章的事件提取，和按时间线的***梳理方法，同时依据信息报内容特点与业务值班要求，将LDA主题模型聚类结果，进行二次事件抽取，再次进行AP聚类，形成二次聚类效果，最后通过时间线进行信息梳理整合。本发明特点是信息报通过第一次的LDA主题模型将文章的主要事件进行提取聚类，形成一次全事件集合，再通过AP聚类，发挥其算法特点，形成二次事件聚类结果，最后以时间基准进行组合。该方法更有效发挥信息报聚合特点，可以有效拆分信息内容相似大细节有区分的特点，通过***重新梳理信息报主要事件，加快用户阅报速度和事件快速溯源。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的一种基于LDA主题AP聚类的动向情报事件时间线提取方法的工作原理图；

图2是信息报文数据的概念层次示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明的一种基于LDA主题AP聚类的动向情报事件时间线提取方法，具体按照以下步骤实施：

步骤1，对获取到的信息报文数据进行预处理；

在本发明中，通过数据分析得出信息报文本数据中的信息是有层次化结构，其概念层次可按照主题-事件-文档-词语进行层级划分，具体结构如下图 2所示。这里认为每篇报文可通过按照对应主题-事件对应的词分布进行词语抽取构成，并没有对文档层-词语层进行更为细化的划分。主题层中的主题，是包含一系列事件的信息集合，例如对于“中俄海上联合演习”主题，可包含“海上联合机动”、“联合搜救”、“联合保交”等等科目演练事件信息。而事件层中的事件，则是描述同一类动作信息的报文集合，具有很强的时效性，并且这里认为不同主题下的事件信息没有交集。最底层就是词语层，它是每篇报文文本的构成基础，并且对于不同主题，其词语分布不同；同一主题下的不同事件，其事件关键描述词分布不同。

通过上面对文本信息概念层次的设定，本发明提出一种基于二次聚类并按照时间再划分的方法提取信息报文本的主题事件信息，即先进行主题聚类，再进行事件聚类，最后依据时间再分组的方法。具体流程分为数据预处理、主题信息聚类、事件信息词二次抽取、事件信息聚类、根据时间信息对事件抽取结果进行再分组以及提取分组关键词信息和标题信息并可视化这六个步骤。框架流程图如图1。

数据预处理

对于获取到的信息报文本数据，首先要进行预处理操作。在本部分完成的操作主要有分词、词性标注、筛除停用词、去除无用词以及去除低频词操作。其中分词操作和词性标注操作使用中文自然语言处理工具Hanlp完成；筛除停用词操作则是根据Hanlp提供的停用词词典完成筛选操作；本发明中的筛除无用词操作是筛除词性为副词、符号词、无意义辅助词及单个字的词语；最后是去除低频词操作，这里的频度是通过TFIDF值来衡量的，这是一种文本处理中常用的词语权重计算方法，并具有良好的实际效果。公式1计算到达本步骤的筛选词i的TFIDF值，去掉TFIDF较小的词语，剩余的筛选词作为词典。

TFIDF_i＝TF_i×IDF_i (公式1

其中

IDF_i＝log(|D|/|{j：t_i＝d_j}|)

公式中n_i为筛选词i的词频，|D|是文本总数，|{j：t_i＝d_j}|是出现筛选词 i的文本数。

主题抽取

LDA主题模型是自然语言处理领域中一种十分常用的无监督模型，其主要用途是分析大规模文本数据中的隐含主题信息，并且在文本的聚类、向量化、降维以及信息检索与抽取等多个领域得到广泛的应用。该算法是基于词袋模型的，并假设文本的生成方法是首先为该文本选定一个主题分布

用以确定每个主题被选择的概率；然后在从主题分布向量

中选择一个主题 z，并依据主题z对应的词语分布

进行多项式抽样，生成一个词语。

由于LDA主题模型在对文本主题分析以及浅层语义分析方面的优势，本发明采用LDA主题模型来实现文本主题抽取。对于经过预处理后的文本集，通过词袋模型，计算每篇文本的筛选词和词频信息，并根据预处理获得的词典进行向量化，获得每篇文本的筛选词词频向量，作为LDA主题模型的输入信息，并通过Collapse Gibbs Sampling方法进行求解。迭代至模型收敛后，可获得“文本-主题”分布矩阵和“主题-词语”分布矩阵，其中“文本-主题”分布矩阵可作为文本集的浅层语义向量集合。对文本集的浅层语义向量集合采用常用的Kmeans聚类算法进行聚类，获得主题聚类信息，并可统计各个主题聚类下的文本子集中的高TFIDF词作为各个主题信息的描述。

通常比较两个LDA主题模型降维的文本向量

和

的方式是计算其KL 散度值，但是由于KL散度具有不对称性以及不满足三角距离公式的原因并不适宜进行Kmeans聚类，所以本发明采用两个文本向量的平均KL散度作为距离度量方式，具体计算方式如公式2所示。

其中

事件抽取

AP聚类算法，全名为仿射传播聚类算法(Affinity Propagation)，即是 Frey等人于2007年在Science杂志上首次提出的。该算法不需要事先指定聚类数目，而是通过名叫参考度的参数p(preference)来控制聚类的颗粒度，一般取数据集中点对的相似度值的中值。其基本思想是首先将每个点作为潜在的聚类中心，称之为exemplar。然后通过更新每个点的吸引度和归属度更新潜在聚类中心，并将其余的点分派到潜在聚类中心形成新的聚类结果，通过若干次迭代至模型收敛，并获得最终的聚类中心与聚类结果。吸引度和归属度的更新公式如公式3和公式4所示。

其中吸引度r_i,k表示点x_k适合作为点x_i的聚类中心的程度；归属度a_i,k表示点x_i选择x_k作为聚类中心的程度。r_i,k越大说明点x_k作为潜在聚类中心的概率越大，a_i,k越大说明点x_i选择点x_k作为其聚类中心的概率越大。s_i,k是x_i和x_k间的相似度，通常通过距离进行度量。p_k反映了点k作为聚类中心的偏好，一般由用户自定义，这里选择为样本的均值。

在本发明中，对于经过主题聚类后的各个主题下的文本集合，分别进行文本信息的二次提取，即提取每个主题下的事件信息集合。首先，是对每个主题下的文本集合进行事件信息词提取。由于文本中事件信息往往由动词、名词、时间词和量词表达，所以这里的具体操作是对预处理操作后的词语进行二次筛选，筛除掉除动词、名词、时间词和量词以外的其他词性的所有词，以及各个主题文本集合下的TFIDF较小的低频词。并为每个主题的事件筛选词分别建立词典。然后，对每个主题下的文本集合分别进行LDA浅层语义降维，获得每篇文本的主题事件向量表示。最后，对各个主题下的主题事件向量集合分别进行AP聚类，获得每个主题下的事件聚类信息，并可通过统计各个事件聚类中的高TFIDF事件信息筛选词作为该事件聚类信息的描述。

在前面主题提取时采用Kmeans算法进行聚类而不是直接使用AP聚类算法，主要是基于性能和可控性两方面的考虑。对于性能方面，AP聚类模型比较复杂，其时间复杂度为O(N²t)，比Kmeans的时间复杂度O(kNm)要大，其中N是样本数，t是AP聚类迭代次数，k是聚类数，且k＜＜N，m为Kmeans 迭代次数；而AP聚类的空间复杂度为O(N²)，比Kmeans的空间复杂度 O(N+k)要高很多。所以对于大数据量下的主题事件提取，在首次聚类时使用Kmeans聚类，有利于提高运行速度和减小资源占用情况；再者Kmeans 聚类的输入参数为聚类数k，便于人工调节主题抽取效果，而AP聚类相对不易调节。而对于事件抽取，即第二次事件信息聚类，由于对各个主题聚类分别进行，每次运算时数据量减小很多，所以AP聚类在时间复杂度和空间复杂度方面的影响会减小很多，运行效果得到优化；同时由于对各个主题聚类参数k不易调节，所以AP聚类的自动确定聚类数的特点更优，且其实际聚类效果也较优，所以选择AP聚类算法进行事件信息聚类。

事件时间轴建立

类进行分析，这种实现会把描述相似主题事件信息的文本划分为一簇，但对与这簇具有相似语义的事件信息簇，其中可能会包括事件跨度很大的文本，并且本质上这些文本属于不同事件信息，例如对于“中俄海上联合演习”主题下的“海上联合机动”科目演练事件，会有若干篇描述该事件的新闻文本，且这些文本会包含2014年、2015年以及2016年该主题时间信息。虽然其信息相似，但从时间跨度上明显应划分为为三个事件，所以在这里对上述主题事件信息聚类结果按照时间进行划分。但由于不同事件的持续时间粒度不尽相同，甚至差别很大，例如对于上述的“中俄海上联合演习”中的“海上联合机动”科目演练事件可通过年来划分，但对于“中国海警在***巡航”或“韩国武装海警袭击中国渔船”这种事件的报道每个月或每周都可能会有。因此本发明中采用以报道的最小时间颗粒度天作为划分单位，把各个主题下的事件信息簇中的文本子集再按天分组，并对这些分组中的文本子集统计高频词以及进行标题信息提取，作为这个分组的事件信息描述，并把这些信息在时间轴维度上标注，并进行可视化显示。

对于每个主题下的事件信息聚类簇按照时间单位天划分得到了事件时间分组，并为其抽取主要信息句信息作为其描述信息。首先是计算当前分组中的关键高频词信息，通过对事件时间分组下的文本子集中的名词和动词进行统计，获得词频较高的词，这里取前10个词作为关键高频词；接下来，对各个事件时间分组下的文本子集中的文本，按照“。”、“！”、“？”、“；”以及换行符进行切分，由此获得文本的句子信息；之后，筛除掉以“？”结尾的句子、没有名次或动词的句子、以及没有出现本分组关键高频词的句子，完成了主要信息句子预筛选；最后，对每个事件时间分组下文本集合筛选出来的句子采用TextRank算法计算权重。具体实现方法是将每个句子看成，有向有权图中的一个节点，而任意两个节点间的边的权重为两个句子的相似性，这里采用BM25算法进行计算，计算方法如公式5所示。

其中

其中k₁和b是调节因子，在这里设定为经验值，k₁＝2，b＝0.75；q_i为句子Q中的语素，即词语，f_i为q_i在句子d中出现的频率；dl为句子d的长度， avgdl为所有句子的平均长度；N为句子总数，这里就是当前分组中文本子集筛选出来的句子总数，n(q_i)为语素q_i在当前筛选出来的句子中出现的句子数目。由此可获得当前句子集合的相似矩阵W，其中元素w_i，j为句子i和句子j 的相似度得分值。仿照PageRank算法实现，初始化参数后不断计算图中各个节点的权值得分，计算方法如公式6所示。

其中WS(V_i)为节点V_i对应的权重得分值，d为阻尼系数。这里取经验值 0.85，In(V_i)为所有指向节点V_i的节点集合，Out(V_j)为节点V_j指向的所有节点集合。

进行若干次迭代计算至模型收敛，并获得图中所有节点的权重值，也就是当前分组中句子集合的TextRank权重得分，并结合句子中关键词比重计算每个句子的综合权重得分，计算方法如公式7。取得得分值最高的句子作为当前事件时间分组的描述信息。

其中|u_i|为句子i中含有该事件关键词的数量，|U|为该事件关键词数量，该事件关键词为事件聚类的关键词和该事件时间分组关键高频词的并集。

上述说明示出并描述了发明的若干优选实施例，但如前所述，应当理解发明并非局限于本发明所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本发明所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离发明的精神和范围，则都应在发明所附权利要求的保护范围内。

Claims

1.一种基于LDA主题AP聚类的动向情报事件时间线提取方法，其特征在于，具体按照以下步骤实施：

步骤1，对获取到的信息报文数据进行预处理；

2.根据权利要求1所述的基于LDA主题AP聚类的动向情报事件时间线提取方法，其特征在于，在所述步骤1中，进行预处理包括去除分词、词性标注、筛除停用词、去除无用词以及低频词。

3.根据权利要求2所述的基于LDA主题AP聚类的动向情报事件时间线提取方法，其特征在于，在所述步骤2中，采用LDA主题模型对步骤1得到的信息报文数据进行主题类聚。

4.根据权利要求3所述的基于LDA主题AP聚类的动向情报事件时间线提取方法，其特征在于，在所述步骤3中，对每个主题下的文本集合分别进行LDA浅层语义降维，获得每篇文本的主题事件向量。

5.根据权利要求4所述的基于LDA主题AP聚类的动向情报事件时间线提取方法，其特征在于，在所述步骤3中，采用Kmeans算法对步骤2得到的各个主题下的文本集合进行事件信息词二次抽取。