CN112861990A

CN112861990A - 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质

Info

Publication number: CN112861990A
Application number: CN202110242927.6A
Authority: CN
Inventors: 朱宇坤; 何礼仁; 陈林; 蒋留振; 潘格非; 赵彬恒; 莫洋; 陈瑞东
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-05-28
Anticipated expiration: 2041-03-05
Also published as: CN112861990B

Abstract

本发明公开了一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质，属于自然语言处理技术领域。本发明首先对新闻进行文本预处理，获取关键词，以及实体词；并基于新闻的关键词进行第一次聚类，以获取新闻的子主题；进而基于子主题所包含的实体，进行第二次聚类处理，以获取新闻主题。本发明通过第一次聚类过滤噪音点，提升聚类准确率；通过第二聚类提高聚类处理的召回率，第二次聚类时，使用实体作为唯一文本特征值，提取的实体是与新闻主题关联度很高，提升计算效率。本发明不仅可以快速高效地帮助用户发现感兴趣的新闻主题，还可以便捷地与知识库融合，帮助公众更好地了解新闻主题。

Description

一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质。

背景技术

随着互联网技术的迅速发展，每天互联网中都会以指数级的增长速度增加着信息，越来越多的用户开始依靠互联网获取各大门户网站推送的新闻来获取信息，这种方法一方面让大众越来越方便地获取信息，让用户足不出户地了解世界，但当用户想要获取某种信息的时候，会发现即便通过搜索引擎的帮助，要在庞大信息中获取足够多的信息仍然是非常困难，传统的搜索引擎虽然可以在一定程度上过滤掉不相干的新闻，但即便基于同一件新闻事件的新闻，往往由于不同新闻网站的编辑的报道侧重点、立场态度、获得信息量不同，也会产生海量的新闻数量。处在现在这个大数据时代，海量的数据资源不能充分利用，是对资源的一种巨大浪费。

聚类算法是解决以上问题的方法之一，它是一种常见的非监督学习算法，可以有效地进行数据分析，其应用领域包括但不限于数据挖掘、机器学习、模式识别、信息识别、图像分析等。聚类本质上是将数据分为类间相似度最小、类内相似度最大的一些数据集合的一种数据处理方法，它可以帮助用户精简工作、提高效率并挖掘更深层次的知识。现有的大多数聚类会通过目标函数，采用多次迭代的方式实现类间相似度最小、类内相似度最大的结果，这个相似度来自于其元素与其他的元素进行距离计算，由于数据特征维度一般都比较高，所以随着数据量的提高，整个聚类算法的计算量和消耗时间都是呈现指数级增长的。常见的聚类算法一般分为层次聚类算法、划分式聚类算法、基于网格和基于密度的方法。

此外，Single-Pass聚类算法是一种在处理大数据时非常有优势的增量聚类算法(Incremental Clustering Algorithm)，它不需要指定类目数量，处理高维数据能力强、对数据顺序敏感程度高、处理噪声能力强、计算难度低和时间成本较低的特点。它可以很好的应用于话题监测与追踪、在线事件监测等社交媒体大数据领域，发现随着时间的推移而产生的各种事件，特别适合流式数据(Streaming Data)，比如微博的帖子信息，因此适合对实时性要求较高的文本聚类场景。

为了充分利用每天互联网中都会以指数级的增长速度增加的新闻数据，需要对这种每天会增长的增量数据进行聚类分析，这不仅能够帮助用户解决新闻迅速增长和零散杂乱的问题，还能解决新闻重复的问题。这种针对增量数据进行聚类的算法，一般是先寻找与第一篇文章相似的一些文章，提取这些文章的特征构造出初始主题，再通过计算输入元素与已有主题的相似度来追踪已有主题或是生成新的主题。通过展示不同时间段内主题、主题内新闻点文章数量与发生的先后顺序，这样可以观察到事件发生的起因经过和结果、公众的关注点、各个新闻事件之间关联、追踪新闻主题的偏移。另外，这种对国际间新闻进行聚类有助于及时准确地掌握最新的国际动态，有助于为政治重大决策提供指导意见、为商业服务建立用户画像，在互联网众多新闻中发掘用户关心的话题与话题的动态变化，有助于挖掘用户的个性化兴趣。最后，通过实时展示各个主题及其下各个新闻点的开始及结束的时间、各个时间段关键词的变化，这将反应社会对所描述事件的看法与这种观点随着时间的改变。追踪这些事件的变化对于监控公共舆论和偏好是十分有意义的，可以更好地对舆情进行管理。

发明内容

本发明实施例提供了一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质，用以提高对文本数据进行聚类处理的准确率、并降低处理的时间复杂度。

一方面，本发明实施例提供了一种基于关键词和实体的主题聚类方法，所述方法包括：

对待处理的新闻进行文本预处理，提取当前新闻的关键词；以及对新闻的关键词进行实体识别处理，获取实体词及其类型，并对识别出的实体进行实体重定向处理；

基于所提取的新闻的关键词进行第一次聚类处理，获取新闻的子主题；

基于子主题所包含的实体词，进行第二次聚类处理，获取新闻主题。

在一种可能的实现方式中，进行文本预处理时，确定文本语言种类，若为英文文本，则文本预处理包括：分词、词性标注、词性还原和词过滤；若为中文文本，则文本预处理包括：分词、词性标注和词过滤；其中，词过滤的对象包括：无用词及符号、停用词。

在一种可能的实现方式中，提取当前新闻的关键词具体为：将词过滤后得到词作为新闻的候选关键词，并对候选关键词进行词频统计，基于词频统计结果，将前T个词频最高的候选关键词作为该文本的关键词，其中，T为正整数。

在一种可能的实现方式中，实体重定向处理为：预构建一个实体名称库，对当前识别出的实体名称，若检索到未储存的实体名称，则将该实体名称上传到指定的检索网站匹配对应的检索实体名称，作为最佳实体名称；同时将该检索到的实体名称存入实体名称库。

在一种可能的实现方式中，基于所提取的新闻的关键词进行第一次聚类处理，获取新闻的子主题具体包括：

第一配置步骤：

基于当前子主题库中各子主题的关键词库，得到关键词集合K；

确定当前新闻的至少一个关键词是否属于关键词集合K，若是，则执行相似度匹配步骤，否则执行子主题新建步骤；

子主题新建步骤：

新建一个子主题，并基于当前新闻的所有关键词得到其关键词库的初始值，并将该子主题及其关键词库存入子主题库中；

第一相似度匹配步骤：

基于指定的相似度度量策略，基于关键词计算新闻与各子主题之间的相似度，将最大相似度的子主题作为当前新闻的子主题匹配结果，当与所匹配的子主题间的相似度大于第一相似度阈值时，则执行第一融合步骤；当与所匹配的子主题间的相似度小于或等于第一相似度阈值时，执行子主题新建步骤；

第一融合步骤：

将当前新闻的所有关键词添加到与当前新闻匹配的子主题的关键词库中；

并确定该子主题的关键词库的最近更新时间距离当前时间的天数是否超过指定天数，若是，则从该子主题的关键词库中抽取出出现频率前T个最大的关键词作为新的子主题的关键词库，并将该新的子主题及其关键词库存入子主题库中。

在一种可能的实现方式中，基于子主题所包含的实体词，进行第二次聚类处理，获取新闻主题具体包括：

第二配置步骤：

基于子主题的关键词库，提取当前子主题的关键实体，作为当前子主题的新闻点；

基于当前主题库中各主题的新闻点集合，得到总新闻点集合E；

确定当前子主题新闻的至少一个新闻点是否属于总新闻点集合E，若是，则执行第二相似度匹配步骤；否则执行主题新建步骤；

主题新建步骤：

新建一个主题，直接将当前子主题的所有新闻点作为该新建的主题的新闻点集合，并将主题及其新闻点集合存入主题库中；

第二相似度匹配步骤：

基于指定的相似度度量策略，基于新闻点计算子主题与各主题之间的相似度，将最大相似度的主题作为当前子主题的主题匹配结果，当与所匹配的主题间的相似度大于第二相似度阈值时，则执行第二融合步骤；当与所匹配的主题间的相似度小于或等于第二相似度阈值时，执行主题新建步骤；

第二融合步骤：

将当前子主题的所有新闻点添加到与当前子主题匹配的主题的新闻点集合中；

并确定该主题的新闻点集合的最近更新时间距离当前时间的天数是否超过指定天数，若是，则从该主题的新闻点集合中抽取出出现频率前T′个最大的新闻点作为新的主题的新闻点集合，并将该主题及其新闻点集合存入主题库中。

在一种可能的实现方式中，在第一、第二似度匹配步骤中，计算新闻与子主题之间的相似度，以及子主题和主题的相似度的度量策略相同，具体为：

定义P表示第二对象的特征集合P，其中，第二对象为子主题或主题，对于子主题，对应的特征集合P为关键词集合K，对于主题，对应的特征集合P为总新闻点集合E；

设置映射矩阵A，以表示特征集合P与第二对象集合C之间的映射关系，矩阵元素值为0或1，若第j个第二对象c_j中存在特征集合P的第i个特征p_i，则映射矩阵元素A_ij为1，否则为0，其中，i＝1,2,…N,j＝1,2,…M，N表示特征集合P包含的特征数，M表示第二对象集合C包含的第二对象数，第二对象集C为子主题库中包括的子主题或主题库中包括的主题；

且

其中，

表示包含特征p_i的第二对象子集；

定义p_t表示当前第一对象的一个特征，且所述特征属于特征集合P，其中，第一对象为新闻或子主题，对于新闻，对应的特征为关键词，对于子主题，对应的特征为新闻点；

取出特征p_t对应的行列式得到包含所述特征p_t的第二对象子集

即：

累加第一对象的所有第二对象子集

得到：

系数x_j则表示当前第一对象与第j个第二对象之间的相似度。

从而可以基于最大系数所对应的第二对象得到当前第一对象的相似度匹配结果。

另一方面，本发明实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现上述任一所述的主题聚类方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现上述任一所述的主题聚类方法。

本发明实施例提供的技术方案至少带来如下有益效果：聚类性能(准确率、召回率、时间效率)好，不仅可以快速高效地帮助用户发现感兴趣的新闻主题，还可以便捷地与知识库融合，帮助公众更好地了解新闻主题。本发明实施例通过第一次聚类来过滤噪音点，从而提高聚类的准确率；第二聚类的目的是将相似的子主题合并，从而有效的提高了聚类处理的召回率，在第二次聚类时，使用实体作为唯一文本特征值，提取的实体与新闻主题关联度很高，一方面大大提高了聚类的计算效率，另一方面用实体聚类比用词袋聚类更有意义，更加有说服度，也更加符合人们的传统认知。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于关键词和实体的主题聚类方法过程示意图图；

图2是本发明实施例提供的一种基于关键词和实体的主题聚类方法的第一聚类处理过程示意图；

图3是本发明实施例提供的一种基于关键词和实体的主题聚类方法的第二聚类处理过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在一些实施例中，本发明实施例提供的基于关键词和实体的主题聚类方法能够应用在新闻消息的技术领域中，用于对新闻文本进行聚类。在介绍本发明实施例之前，需要引入一些自然语言处理技术领域内的基本概念。

(1)实体，指人名、地名、机构名、位置名、国家名甚至数字、日期、货币、地址等。在新闻领域，当希望了解突发事件的主体(比如人物、地点、机构等等)时，新闻浏览者所关心的词语即为对应的实体。

(2)实体识别，通过机器识别识别，通常识别处理包括两部分，第一部分：识别出实体词边界，即实体的开始位置和结束位置；第二部分：识别出实体的类型。

其中，识别方式通常包括两类，一类基于正则规则，即实体词的构词规律和高频上下文词；另一类则是基于机器学习方法，即基于训练预料对配置的实体识别模型进行训练，再基于训练好的实体识别模型实现实体识别。

例如基于开源的jar包Stanford Core NLP，它是由斯坦福大学开发并开源的一套自然语言处理工具，提供诸如：词性标注(part-of-speech tagger)、命名实体识别(namedentity recognizer)等功能，可以识别文本中的实体并进行各种实体类型的标记，识别方法主要来自于标记后的语料库的机器学习体的上下文以及构词具有统计规律，其次，要有充足的训练语料。

(3)结构化的语义知识库，通常以<实体，关系，实体>的三元组形式来对知识进行储存和描述，进而使得整个知识库数据结构构成一个巨大的网状结构。

本发明实施例提供了一种新的基于关键词和实体的主题聚类方法，不仅可以快速高效地帮助用户发现感兴趣的新闻主题，还可以便捷地与知识库融合，帮助公众更好地了解新闻主题。本发明实施例通过将文本的特征值由词语降维到实体，降低了聚类处理的计算量，且精度较高，时间开销也较为可观，同时抗噪音点能力较强。

本发明实施例提供了一种基于关键词和实体的主题聚类方法，请参考图1，其示出了本发明实施例提供的主题聚类方法的实现步骤，包括：

步骤1：实时从数据源(即新闻库)中提取待处理的新闻；

步骤2：对当前新闻的文本信息进行预处理，提取该新闻的关键词；并对新闻的关键词进行实体识别处理，识别出新闻的实体及其类型，并对识别出的实体进行实体重定向处理；

步骤3：对新闻进行第一次聚类，即基于所提取的新闻的关键词进行第一次聚类处理，获取新闻的子主题；

步骤4：对获得的子主题进行第二次聚类处理，获取新闻主题；

步骤5：将获取的新闻主题存入主题库中。

在一种可能实现方式中，本发明实施例处理的数据来源为全网很容易获得的新闻媒体发布的新闻。新闻本身包含新闻文本内容、新闻标题、作者、发布机构、发布时间、发布的网址等，这并非所有的信息都是***所需的，而且这些信息存在结构不统一，难以合理利用的问题，因此需通过将新闻原始文本转换为由二维表结构来表达的数据，遵循数据长度和格式规范，即转换后数据的长度和格式统一，从而有利于后期全文检索和各种信息处理的步骤。

在一种可能实现方式中，步骤2中，对新闻的文本信息进行预处理包括：

分词：将整个文本分为若干词汇，方便接下来对词汇进行处理。

若待处理的文本全为英文，则分词流程比较简便，在多数情况下只要单纯地依照英文单词进行分开即可。

词性标注：对分词获得的文本词语进行词性判别，并基于识别结果进行词性标注。经过词性标注后，可得到文本中每个词的词性信息，这部分信息有助于对不同词性词语进行限制。在本实施例的一种可能实现方式中，可以对一些出现率高但在代表文章特征上效果差的文本词汇进行过滤操作，进而在保障聚类精度的前提下进一步降低处理复杂度。例如对冠词、连词、介词、助词等进行过滤操作，从而利于提高文本特征的代表性

词形还原(针对英文文本时需要)：由于英文名词中存在单复数等不同形式，而英文动词还受时态、人称、主被动态的影响产生不同形态，在语义上这些不同形式的词汇实际上是指向同一个词的，还原不同形态的词汇是词形还原技术的重点解决问题。通过对各个文本词汇进行词形还原处理，可以将每个单词还原为同一最初词，这使得在进行特征提取的过程中避免对特征进行重复提取。

词过滤(包括无用词及符号、停用词)：在新闻报道中常常会包含一些杂乱无章的数字、符号等，这往往是由于爬虫程序或者网站作者的不严谨出现的乱码问题，如果让这些数字或符号在文章中大量重复出现，将会严重污染文本的特征提取，进而影响聚类的准确性等。通过构建正则表达式的方式，首先识别出所有的数字、符号，再对其中杂乱无章的数字和符号进行删除，以免乱码对后续的聚类过程造成不良影响。

其中，停用词一般可以分为两类：一类是在自然语言中应用范围十分广泛的功能词，这些词在所有英文文章中占据了大量的篇幅，却对决定文章主题少有贡献。另一类则是一种意义很小的词，这一类词主要包括冠词、连词、介词、语气助词、关系副词等，这些词单独拿出来几乎没有意义，唯有其在一个完整的句子内或具体的情境中才是有意义、有信息的词语。通过在新闻中执行过滤停用词的操作，可以进一步减少在主题聚类过程中出现对特征提取贡献度较低的词汇，进而提高文本中关键词的出现密度，让关键词更能体现文本特征。

词频统计：对经过分词，词性标注，词性还原(仅英文文本时需要)和词过滤后得到的文本的候选关键词，进行词频统计，并基于词频统计结果，将前T个词频最高的候选关键词作为该文本的关键词，其中，T的取值可基于实际应用场景进行配置，本发明实施例对此不作限定，优选的，可将T设置为20个。

在一种可能实现方式中，步骤2中，对新闻的文本进行实体识别处理可以是：对词性标注后的文本的词汇，进行实体识别处理，识别出文本中的实体并进行各种实体类型的标记，识别方法可以是来自于标记后的预料库的机器学习。

在一种可能实现方式中，步骤2中，对新闻的文本进行实体重定向的具体方式可以设置为：

预构建一个实体名称库，对当前识别出的实体名称，若检索到未储存的实体名称，则将该实体名称上传到指定的检索网站匹配对应的检索实体名称，作为最佳实体名称；同时将该检索到的实体名称存入实体名称库。

例如，将当前识别出的实体名称上传到***(https：//en.wikipedia.org)，基于该实体名称进行检索所获得的检索实体名称作为最佳实体名称。

基于该实体重定向处理方式，解决同一实体存在众多名称的问题，进而使得本发明实施例在进行实体特征提取的时候避免重复提取同一实体。

在一种可能实现方式中，本发明实施例中，对新闻进行第一次聚类的具体实现包括：

实时提取每一篇新闻n_i中的前二十个关键词作为第一次聚类的文本特征，但这二十个关键词没有明显的重要性差别，故认为每个关键词的权重相同，本实施例中，将其设置为0.05，以便于计算。

对任一新闻n_i的关键词k_i和子主题进行相似度聚类：

基于新闻n_i的关键词，统计新闻n_i与子主题集S的各子主题s_q间的相似度百分比，若相似度百分比大于或等于指定阈值，则认为该新闻n_i与该子主题s_q相关，从而可以得到各子主题s_q相关下新闻为：

s_q＝{n_i，n_j...，n_k}

其中，s_q表示第q个子主题，n_i，n_j和n_k表示不同的新闻；

例如新闻n_i的20个关键词的可以表示为：

n_i＝{k₁，k₂，k₃...k₂₀}

对于关键词集K＝{k₁，k₂，k₃...k_n}，可以用元素取值为0-1的矩阵A表示关键词集K与子主题集合S之间的映射关系，其中，0表示子主题中不存在这个关键词，1表示存在，

表示包含关键词k_i的子主题集合，n表示新闻数量。

矩阵A的具体表达式为：

其中，m表示子主题集合S的元素数量，即子主题数。

对于当前待处理的某个新闻n_j，通过关键词提取得到新闻n_j与关键词k_i关系为：

n_j＝{k₁，k₂，k₃...k_n}

对该新闻的每一个关键词k_i分别与关键词集合K进行一个包含判断，当有k_i∈K时，可以通过取出k_i对应的行列式来判断子主题集合S中包含此关键词k_i的子主题集合

即

当n个k_i取完之后得到n个行列式并对其进行累加，可以得到：

系数x_i最大的子主题即为与新处理新闻n_j相似度最大的子主题s_i，若这个系数x_i高于所设定的阈值(例如0.35)，则进行将新闻n_j合并到子主题s_i中的操作，方法如下：

每一个子主题s_i中都有记录其中所有新闻(即与其相匹配的新闻)的关键词的集合，定义为子主题s_i的子主题关键词库W：

W＝{w₁，w₂，w₃...w_20n}

当有新闻n_j加入子主题s_i后，子主题s_i的子主题关键词库W会增加20个关键词：

W＝{w₁，w₂，w₃...w_20(n+1)}

然后在该新增后的W中取出出现频率最大的20个关键词作为新的子主题的关键词，至此完成一篇新闻的处理，以此循环处理完所有新闻完成第一次聚类，其中，当子主题超过指定的天数(例如5天)没有增加新的新闻时，对子主题的认定结束。

在一种可能实现方式中，参见图2，步骤3中，本发明实施例的第一次聚类处理具体处理流程为：

步骤301：基于当前子主题库对新闻进行相似子主题匹配处理：

构建矩阵A^K以表示关键词集K与子主题集合S之间的映射关系，其中矩阵A^K为n×m维矩阵，且矩阵元素[A^K]_i,j的取值为0或1，若第j个子主题中存在第i个关键词，则[A^K]_i,j为1，反正则取0；其中，i＝1,2,L,n,j＝1,2,L,m。

确定当前新闻的至少一个关键词是否属于关键词集合K，即关键词集合K中至少有新闻的一个关键词，若有，则执行步骤303；若无，则执行步骤302；

步骤302：将新闻转换成子主题，即新建一个子主题，并基于当前新闻的所有关键词得到其关键词库的初始值，并将该子主题及其关键词库存入子主题库中，以完成子主题的新建。

步骤303：抽出相似度子主题，即将所计算得到的系数x_i最大的子主题作为其相似度匹配结果，并将该最大系数x_i作为当前新闻与子主题的相似度，继续执行步骤304；

步骤304：判定相似度是否高于指定阈值(第一相似度阈值)，若是，则执行步骤305；否则执行步骤302；

步骤305：将新闻融合到子主题中，即对子主题库中的记录的域当前新闻匹配的子主题的关键词库进行更新：将当前新闻的所有关键词添加到与当前新闻匹配的子主题的关键词库中；

并确定该子主题的关键词库的最近更新时间距离当前时间的天数是否超过指定天数，若是，则从该子主题的关键词库中抽取出出现频率前20个最大的关键词作为新的子主题的关键词库，即抽取的数量与新闻的关键词数量相一致。并将该新的子主题及其关键词库存入子主题库中。

在一种可能实现方式中，参见图3，步骤4中，本发明实施例中的第二次聚类处理具体处理流程为：

步骤401：对新闻点进行相似主题匹配：

配置当前实体名称库中各实体词的权重；

基于实体名称库对当前子主题的关键词库中的各关键词进行实体识别，识别出实体名称及类型，并基于实体词的权重筛选识别出的实体名称，得到当前子主题的新闻点点集，例如筛选出权重大于指定权重阈值的实体作为该子主题的新闻点(即关键实体)，从而得到新闻点集；或者选取前T′个最大权重的实体；

本发明申请实施例中，主题库中的每个主题包含一个或多个新闻点。

基于子主题所包含的新闻点进行子主题与主题的相似匹配处理：

构建矩阵A^E以表示新闻点集合E与主题集合之间的映射关系，其中矩阵A^K为n′×m′维矩阵，且矩阵元素[A^E]_i,j的取值为0或1，若第j个主题中存在第i个新闻点，则[A^E]_i,j为1，反正则取0；其中，i＝1,2,L,n′,j＝1,2,L,m′。

确定当前子主题的至少一个新闻点是否属于总新闻点集合E，若是，则执行步骤403；否则执行步骤402；

步骤402：将新闻点转化成主题，即基于当前子主题新建一个主题，并直接将当前子主题的所有新闻点作为该新建的主题的新闻点集合，并将主题及其新闻点集合存入主题库中，以完成主题的新建。

步骤403：抽出相似度主题，即基于实体计算子主题与各主题之间的相似度，将最大相似度所对应的主题作为当前子主题的匹配结果，继续执行步骤404；

例如，如步骤3中一般，将步骤3中的关键词替换为实体，计算得到系数x_i，并将最大值所对应的主题作为当前子主题的相似度匹配额结果，该最大的系数即为子主题与当前主题间的相似度。

步骤404：判定相似度是否高于指定阈值(第二相似度阈值)，若是，则执行步骤405；否则执行步骤402；

步骤405：将当前新闻点融合到主题中，即对主题库中的该主题的新闻点集合进行更新：将当前子主题的所有新闻点添加到与其匹配的主题的新闻点集合中；

其中，第一相似度阈值小于第二相似度阈值，而基于第一次聚类获取新闻的子主题是为了过滤噪音点，提高准确率；第二次聚类时，是为了进行相似子主题的合并，从而提高聚类的召回率。

在本发明实施例提供的主题聚类方法中，采用了一种考虑语义逻辑的降维方法，即在降维过程中使用实体作为第二层聚类的唯一文本特征值，此降维方式可以实现高纬(数量级可达10万)的词袋转化低维(数量级可达万)高频词，再将高频词特征转化为更低维(数量级可达千)的常用实体。且在第二层聚类中，通过提取子主题的实体进行逻辑上的聚类，由于子主题中基本都是对同一事件的描述，提取的实体可被认为是媒体公认比较重要的实体，即提取的实体与新闻主题关联度很高，显著提升了聚类处理的计算效率，所以在聚类中能发挥较好的效果，并且用实体聚类比用词袋聚类更有意义，更加有说服度，也更加符合人们的传统认知。

在本发明实施例中，通过将文本的特征值由词语降维到实体，降低了聚类处理的计算量，与经典聚类算法和现有典型的话题追踪聚类算法通过实验证明，本发明实施例不仅准确率和召回率高出大多数算法10％-50％，算法消耗时间低于大多数算法30％以上，抗噪音点能力较强，算法消耗时间近似呈现线性增长，在大数据领域有很强的应用价值。

在本发明实施例中，产生的新闻主题可以依靠于新闻主题关联度很高的实体完成导入知识库的过程，比传统聚类算法便利的多，通过新闻主题中的实体与知识库进行链接，提升对新闻事件的检索和分析能力，对新闻主题进行延续性和相关性信息进行有效挖掘，追踪新闻主题的变化，加强知识库的知识自动化提取能力。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行，以实现上述任一种主题聚类方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由计算机设备的处理器加载并执行，以实现上述任一种主题聚类方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROMD)、磁带和光数据存储设备等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。