CN112861990A - 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 - Google Patents

一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112861990A
CN112861990A CN202110242927.6A CN202110242927A CN112861990A CN 112861990 A CN112861990 A CN 112861990A CN 202110242927 A CN202110242927 A CN 202110242927A CN 112861990 A CN112861990 A CN 112861990A
Authority
CN
China
Prior art keywords
news
topic
sub
similarity
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110242927.6A
Other languages
English (en)
Other versions
CN112861990B (zh
Inventor
朱宇坤
何礼仁
陈林
蒋留振
潘格非
赵彬恒
莫洋
陈瑞东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110242927.6A priority Critical patent/CN112861990B/zh
Publication of CN112861990A publication Critical patent/CN112861990A/zh
Application granted granted Critical
Publication of CN112861990B publication Critical patent/CN112861990B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质,属于自然语言处理技术领域。本发明首先对新闻进行文本预处理,获取关键词,以及实体词;并基于新闻的关键词进行第一次聚类,以获取新闻的子主题;进而基于子主题所包含的实体,进行第二次聚类处理,以获取新闻主题。本发明通过第一次聚类过滤噪音点,提升聚类准确率;通过第二聚类提高聚类处理的召回率,第二次聚类时,使用实体作为唯一文本特征值,提取的实体是与新闻主题关联度很高,提升计算效率。本发明不仅可以快速高效地帮助用户发现感兴趣的新闻主题,还可以便捷地与知识库融合,帮助公众更好地了解新闻主题。

Description

一种基于关键词和实体的主题聚类方法、设备及计算机可读 存储介质
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质。
背景技术
随着互联网技术的迅速发展,每天互联网中都会以指数级的增长速度增加着信息,越来越多的用户开始依靠互联网获取各大门户网站推送的新闻来获取信息,这种方法一方面让大众越来越方便地获取信息,让用户足不出户地了解世界,但当用户想要获取某种信息的时候,会发现即便通过搜索引擎的帮助,要在庞大信息中获取足够多的信息仍然是非常困难,传统的搜索引擎虽然可以在一定程度上过滤掉不相干的新闻,但即便基于同一件新闻事件的新闻,往往由于不同新闻网站的编辑的报道侧重点、立场态度、获得信息量不同,也会产生海量的新闻数量。处在现在这个大数据时代,海量的数据资源不能充分利用,是对资源的一种巨大浪费。
聚类算法是解决以上问题的方法之一,它是一种常见的非监督学习算法,可以有效地进行数据分析,其应用领域包括但不限于数据挖掘、机器学习、模式识别、信息识别、图像分析等。聚类本质上是将数据分为类间相似度最小、类内相似度最大的一些数据集合的一种数据处理方法,它可以帮助用户精简工作、提高效率并挖掘更深层次的知识。现有的大多数聚类会通过目标函数,采用多次迭代的方式实现类间相似度最小、类内相似度最大的结果,这个相似度来自于其元素与其他的元素进行距离计算,由于数据特征维度一般都比较高,所以随着数据量的提高,整个聚类算法的计算量和消耗时间都是呈现指数级增长的。常见的聚类算法一般分为层次聚类算法、划分式聚类算法、基于网格和基于密度的方法。
此外,Single-Pass聚类算法是一种在处理大数据时非常有优势的增量聚类算法(Incremental Clustering Algorithm),它不需要指定类目数量,处理高维数据能力强、对数据顺序敏感程度高、处理噪声能力强、计算难度低和时间成本较低的特点。它可以很好的应用于话题监测与追踪、在线事件监测等社交媒体大数据领域,发现随着时间的推移而产生的各种事件,特别适合流式数据(Streaming Data),比如微博的帖子信息,因此适合对实时性要求较高的文本聚类场景。
为了充分利用每天互联网中都会以指数级的增长速度增加的新闻数据,需要对这种每天会增长的增量数据进行聚类分析,这不仅能够帮助用户解决新闻迅速增长和零散杂乱的问题,还能解决新闻重复的问题。这种针对增量数据进行聚类的算法,一般是先寻找与第一篇文章相似的一些文章,提取这些文章的特征构造出初始主题,再通过计算输入元素与已有主题的相似度来追踪已有主题或是生成新的主题。通过展示不同时间段内主题、主题内新闻点文章数量与发生的先后顺序,这样可以观察到事件发生的起因经过和结果、公众的关注点、各个新闻事件之间关联、追踪新闻主题的偏移。另外,这种对国际间新闻进行聚类有助于及时准确地掌握最新的国际动态,有助于为政治重大决策提供指导意见、为商业服务建立用户画像,在互联网众多新闻中发掘用户关心的话题与话题的动态变化,有助于挖掘用户的个性化兴趣。最后,通过实时展示各个主题及其下各个新闻点的开始及结束的时间、各个时间段关键词的变化,这将反应社会对所描述事件的看法与这种观点随着时间的改变。追踪这些事件的变化对于监控公共舆论和偏好是十分有意义的,可以更好地对舆情进行管理。
发明内容
本发明实施例提供了一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质,用以提高对文本数据进行聚类处理的准确率、并降低处理的时间复杂度。
一方面,本发明实施例提供了一种基于关键词和实体的主题聚类方法,所述方法包括:
对待处理的新闻进行文本预处理,提取当前新闻的关键词;以及对新闻的关键词进行实体识别处理,获取实体词及其类型,并对识别出的实体进行实体重定向处理;
基于所提取的新闻的关键词进行第一次聚类处理,获取新闻的子主题;
基于子主题所包含的实体词,进行第二次聚类处理,获取新闻主题。
在一种可能的实现方式中,进行文本预处理时,确定文本语言种类,若为英文文本,则文本预处理包括:分词、词性标注、词性还原和词过滤;若为中文文本,则文本预处理包括:分词、词性标注和词过滤;其中,词过滤的对象包括:无用词及符号、停用词。
在一种可能的实现方式中,提取当前新闻的关键词具体为:将词过滤后得到词作为新闻的候选关键词,并对候选关键词进行词频统计,基于词频统计结果,将前T个词频最高的候选关键词作为该文本的关键词,其中,T为正整数。
在一种可能的实现方式中,实体重定向处理为:预构建一个实体名称库,对当前识别出的实体名称,若检索到未储存的实体名称,则将该实体名称上传到指定的检索网站匹配对应的检索实体名称,作为最佳实体名称;同时将该检索到的实体名称存入实体名称库。
在一种可能的实现方式中,基于所提取的新闻的关键词进行第一次聚类处理,获取新闻的子主题具体包括:
第一配置步骤:
基于当前子主题库中各子主题的关键词库,得到关键词集合K;
确定当前新闻的至少一个关键词是否属于关键词集合K,若是,则执行相似度匹配步骤,否则执行子主题新建步骤;
子主题新建步骤:
新建一个子主题,并基于当前新闻的所有关键词得到其关键词库的初始值,并将该子主题及其关键词库存入子主题库中;
第一相似度匹配步骤:
基于指定的相似度度量策略,基于关键词计算新闻与各子主题之间的相似度,将最大相似度的子主题作为当前新闻的子主题匹配结果,当与所匹配的子主题间的相似度大于第一相似度阈值时,则执行第一融合步骤;当与所匹配的子主题间的相似度小于或等于第一相似度阈值时,执行子主题新建步骤;
第一融合步骤:
将当前新闻的所有关键词添加到与当前新闻匹配的子主题的关键词库中;
并确定该子主题的关键词库的最近更新时间距离当前时间的天数是否超过指定天数,若是,则从该子主题的关键词库中抽取出出现频率前T个最大的关键词作为新的子主题的关键词库,并将该新的子主题及其关键词库存入子主题库中。
在一种可能的实现方式中,基于子主题所包含的实体词,进行第二次聚类处理,获取新闻主题具体包括:
第二配置步骤:
基于子主题的关键词库,提取当前子主题的关键实体,作为当前子主题的新闻点;
基于当前主题库中各主题的新闻点集合,得到总新闻点集合E;
确定当前子主题新闻的至少一个新闻点是否属于总新闻点集合E,若是,则执行第二相似度匹配步骤;否则执行主题新建步骤;
主题新建步骤:
新建一个主题,直接将当前子主题的所有新闻点作为该新建的主题的新闻点集合,并将主题及其新闻点集合存入主题库中;
第二相似度匹配步骤:
基于指定的相似度度量策略,基于新闻点计算子主题与各主题之间的相似度,将最大相似度的主题作为当前子主题的主题匹配结果,当与所匹配的主题间的相似度大于第二相似度阈值时,则执行第二融合步骤;当与所匹配的主题间的相似度小于或等于第二相似度阈值时,执行主题新建步骤;
第二融合步骤:
将当前子主题的所有新闻点添加到与当前子主题匹配的主题的新闻点集合中;
并确定该主题的新闻点集合的最近更新时间距离当前时间的天数是否超过指定天数,若是,则从该主题的新闻点集合中抽取出出现频率前T′个最大的新闻点作为新的主题的新闻点集合,并将该主题及其新闻点集合存入主题库中。
在一种可能的实现方式中,在第一、第二似度匹配步骤中,计算新闻与子主题之间的相似度,以及子主题和主题的相似度的度量策略相同,具体为:
定义P表示第二对象的特征集合P,其中,第二对象为子主题或主题,对于子主题,对应的特征集合P为关键词集合K,对于主题,对应的特征集合P为总新闻点集合E;
设置映射矩阵A,以表示特征集合P与第二对象集合C之间的映射关系,矩阵元素值为0或1,若第j个第二对象cj中存在特征集合P的第i个特征pi,则映射矩阵元素Aij为1,否则为0,其中,i=1,2,…N,j=1,2,…M,N表示特征集合P包含的特征数,M表示第二对象集合C包含的第二对象数,第二对象集C为子主题库中包括的子主题或主题库中包括的主题;
Figure BDA0002962957230000041
其中,
Figure BDA0002962957230000042
表示包含特征pi的第二对象子集;
定义pt表示当前第一对象的一个特征,且所述特征属于特征集合P,其中,第一对象为新闻或子主题,对于新闻,对应的特征为关键词,对于子主题,对应的特征为新闻点;
取出特征pt对应的行列式得到包含所述特征pt的第二对象子集
Figure BDA0002962957230000043
即:
Figure BDA0002962957230000044
累加第一对象的所有第二对象子集
Figure BDA0002962957230000045
得到:
Figure BDA0002962957230000046
系数xj则表示当前第一对象与第j个第二对象之间的相似度。
从而可以基于最大系数所对应的第二对象得到当前第一对象的相似度匹配结果。
另一方面,本发明实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现上述任一所述的主题聚类方法。
另一方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现上述任一所述的主题聚类方法。
本发明实施例提供的技术方案至少带来如下有益效果:聚类性能(准确率、召回率、时间效率)好,不仅可以快速高效地帮助用户发现感兴趣的新闻主题,还可以便捷地与知识库融合,帮助公众更好地了解新闻主题。本发明实施例通过第一次聚类来过滤噪音点,从而提高聚类的准确率;第二聚类的目的是将相似的子主题合并,从而有效的提高了聚类处理的召回率,在第二次聚类时,使用实体作为唯一文本特征值,提取的实体与新闻主题关联度很高,一方面大大提高了聚类的计算效率,另一方面用实体聚类比用词袋聚类更有意义,更加有说服度,也更加符合人们的传统认知。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种基于关键词和实体的主题聚类方法过程示意图图;
图2是本发明实施例提供的一种基于关键词和实体的主题聚类方法的第一聚类处理过程示意图;
图3是本发明实施例提供的一种基于关键词和实体的主题聚类方法的第二聚类处理过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在一些实施例中,本发明实施例提供的基于关键词和实体的主题聚类方法能够应用在新闻消息的技术领域中,用于对新闻文本进行聚类。在介绍本发明实施例之前,需要引入一些自然语言处理技术领域内的基本概念。
(1)实体,指人名、地名、机构名、位置名、国家名甚至数字、日期、货币、地址等。在新闻领域,当希望了解突发事件的主体(比如人物、地点、机构等等)时,新闻浏览者所关心的词语即为对应的实体。
(2)实体识别,通过机器识别识别,通常识别处理包括两部分,第一部分:识别出实体词边界,即实体的开始位置和结束位置;第二部分:识别出实体的类型。
其中,识别方式通常包括两类,一类基于正则规则,即实体词的构词规律和高频上下文词;另一类则是基于机器学习方法,即基于训练预料对配置的实体识别模型进行训练,再基于训练好的实体识别模型实现实体识别。
例如基于开源的jar包Stanford Core NLP,它是由斯坦福大学开发并开源的一套自然语言处理工具,提供诸如:词性标注(part-of-speech tagger)、命名实体识别(namedentity recognizer)等功能,可以识别文本中的实体并进行各种实体类型的标记,识别方法主要来自于标记后的语料库的机器学习体的上下文以及构词具有统计规律,其次,要有充足的训练语料。
(3)结构化的语义知识库,通常以<实体,关系,实体>的三元组形式来对知识进行储存和描述,进而使得整个知识库数据结构构成一个巨大的网状结构。
本发明实施例提供了一种新的基于关键词和实体的主题聚类方法,不仅可以快速高效地帮助用户发现感兴趣的新闻主题,还可以便捷地与知识库融合,帮助公众更好地了解新闻主题。本发明实施例通过将文本的特征值由词语降维到实体,降低了聚类处理的计算量,且精度较高,时间开销也较为可观,同时抗噪音点能力较强。
本发明实施例提供了一种基于关键词和实体的主题聚类方法,请参考图1,其示出了本发明实施例提供的主题聚类方法的实现步骤,包括:
步骤1:实时从数据源(即新闻库)中提取待处理的新闻;
步骤2:对当前新闻的文本信息进行预处理,提取该新闻的关键词;并对新闻的关键词进行实体识别处理,识别出新闻的实体及其类型,并对识别出的实体进行实体重定向处理;
步骤3:对新闻进行第一次聚类,即基于所提取的新闻的关键词进行第一次聚类处理,获取新闻的子主题;
步骤4:对获得的子主题进行第二次聚类处理,获取新闻主题;
步骤5:将获取的新闻主题存入主题库中。
在一种可能实现方式中,本发明实施例处理的数据来源为全网很容易获得的新闻媒体发布的新闻。新闻本身包含新闻文本内容、新闻标题、作者、发布机构、发布时间、发布的网址等,这并非所有的信息都是***所需的,而且这些信息存在结构不统一,难以合理利用的问题,因此需通过将新闻原始文本转换为由二维表结构来表达的数据,遵循数据长度和格式规范,即转换后数据的长度和格式统一,从而有利于后期全文检索和各种信息处理的步骤。
在一种可能实现方式中,步骤2中,对新闻的文本信息进行预处理包括:
分词:将整个文本分为若干词汇,方便接下来对词汇进行处理。
若待处理的文本全为英文,则分词流程比较简便,在多数情况下只要单纯地依照英文单词进行分开即可。
词性标注:对分词获得的文本词语进行词性判别,并基于识别结果进行词性标注。经过词性标注后,可得到文本中每个词的词性信息,这部分信息有助于对不同词性词语进行限制。在本实施例的一种可能实现方式中,可以对一些出现率高但在代表文章特征上效果差的文本词汇进行过滤操作,进而在保障聚类精度的前提下进一步降低处理复杂度。例如对冠词、连词、介词、助词等进行过滤操作,从而利于提高文本特征的代表性
词形还原(针对英文文本时需要):由于英文名词中存在单复数等不同形式,而英文动词还受时态、人称、主被动态的影响产生不同形态,在语义上这些不同形式的词汇实际上是指向同一个词的,还原不同形态的词汇是词形还原技术的重点解决问题。通过对各个文本词汇进行词形还原处理,可以将每个单词还原为同一最初词,这使得在进行特征提取的过程中避免对特征进行重复提取。
词过滤(包括无用词及符号、停用词):在新闻报道中常常会包含一些杂乱无章的数字、符号等,这往往是由于爬虫程序或者网站作者的不严谨出现的乱码问题,如果让这些数字或符号在文章中大量重复出现,将会严重污染文本的特征提取,进而影响聚类的准确性等。通过构建正则表达式的方式,首先识别出所有的数字、符号,再对其中杂乱无章的数字和符号进行删除,以免乱码对后续的聚类过程造成不良影响。
其中,停用词一般可以分为两类:一类是在自然语言中应用范围十分广泛的功能词,这些词在所有英文文章中占据了大量的篇幅,却对决定文章主题少有贡献。另一类则是一种意义很小的词,这一类词主要包括冠词、连词、介词、语气助词、关系副词等,这些词单独拿出来几乎没有意义,唯有其在一个完整的句子内或具体的情境中才是有意义、有信息的词语。通过在新闻中执行过滤停用词的操作,可以进一步减少在主题聚类过程中出现对特征提取贡献度较低的词汇,进而提高文本中关键词的出现密度,让关键词更能体现文本特征。
词频统计:对经过分词,词性标注,词性还原(仅英文文本时需要)和词过滤后得到的文本的候选关键词,进行词频统计,并基于词频统计结果,将前T个词频最高的候选关键词作为该文本的关键词,其中,T的取值可基于实际应用场景进行配置,本发明实施例对此不作限定,优选的,可将T设置为20个。
在一种可能实现方式中,步骤2中,对新闻的文本进行实体识别处理可以是:对词性标注后的文本的词汇,进行实体识别处理,识别出文本中的实体并进行各种实体类型的标记,识别方法可以是来自于标记后的预料库的机器学习。
在一种可能实现方式中,步骤2中,对新闻的文本进行实体重定向的具体方式可以设置为:
预构建一个实体名称库,对当前识别出的实体名称,若检索到未储存的实体名称,则将该实体名称上传到指定的检索网站匹配对应的检索实体名称,作为最佳实体名称;同时将该检索到的实体名称存入实体名称库。
例如,将当前识别出的实体名称上传到***(https://en.wikipedia.org),基于该实体名称进行检索所获得的检索实体名称作为最佳实体名称。
基于该实体重定向处理方式,解决同一实体存在众多名称的问题,进而使得本发明实施例在进行实体特征提取的时候避免重复提取同一实体。
在一种可能实现方式中,本发明实施例中,对新闻进行第一次聚类的具体实现包括:
实时提取每一篇新闻ni中的前二十个关键词作为第一次聚类的文本特征,但这二十个关键词没有明显的重要性差别,故认为每个关键词的权重相同,本实施例中,将其设置为0.05,以便于计算。
对任一新闻ni的关键词ki和子主题进行相似度聚类:
基于新闻ni的关键词,统计新闻ni与子主题集S的各子主题sq间的相似度百分比,若相似度百分比大于或等于指定阈值,则认为该新闻ni与该子主题sq相关,从而可以得到各子主题sq相关下新闻为:
sq={ni,nj...,nk}
其中,sq表示第q个子主题,ni,nj和nk表示不同的新闻;
例如新闻ni的20个关键词的可以表示为:
ni={k1,k2,k3...k20}
对于关键词集K={k1,k2,k3...kn},可以用元素取值为0-1的矩阵A表示关键词集K与子主题集合S之间的映射关系,其中,0表示子主题中不存在这个关键词,1表示存在,
Figure BDA0002962957230000091
表示包含关键词ki的子主题集合,n表示新闻数量。
矩阵A的具体表达式为:
Figure BDA0002962957230000092
其中,m表示子主题集合S的元素数量,即子主题数。
对于当前待处理的某个新闻nj,通过关键词提取得到新闻nj与关键词ki关系为:
nj={k1,k2,k3...kn}
对该新闻的每一个关键词ki分别与关键词集合K进行一个包含判断,当有ki∈K时,可以通过取出ki对应的行列式来判断子主题集合S中包含此关键词ki的子主题集合
Figure BDA0002962957230000093
Figure BDA0002962957230000094
当n个ki取完之后得到n个行列式并对其进行累加,可以得到:
Figure BDA0002962957230000095
系数xi最大的子主题即为与新处理新闻nj相似度最大的子主题si,若这个系数xi高于所设定的阈值(例如0.35),则进行将新闻nj合并到子主题si中的操作,方法如下:
每一个子主题si中都有记录其中所有新闻(即与其相匹配的新闻)的关键词的集合,定义为子主题si的子主题关键词库W:
W={w1,w2,w3...w20n}
当有新闻nj加入子主题si后,子主题si的子主题关键词库W会增加20个关键词:
W={w1,w2,w3...w20(n+1)}
然后在该新增后的W中取出出现频率最大的20个关键词作为新的子主题的关键词,至此完成一篇新闻的处理,以此循环处理完所有新闻完成第一次聚类,其中,当子主题超过指定的天数(例如5天)没有增加新的新闻时,对子主题的认定结束。
在一种可能实现方式中,参见图2,步骤3中,本发明实施例的第一次聚类处理具体处理流程为:
步骤301:基于当前子主题库对新闻进行相似子主题匹配处理:
基于当前子主题库中各子主题的关键词库,得到关键词集合K;
构建矩阵AK以表示关键词集K与子主题集合S之间的映射关系,其中矩阵AK为n×m维矩阵,且矩阵元素[AK]i,j的取值为0或1,若第j个子主题中存在第i个关键词,则[AK]i,j为1,反正则取0;其中,i=1,2,L,n,j=1,2,L,m。
确定当前新闻的至少一个关键词是否属于关键词集合K,即关键词集合K中至少有新闻的一个关键词,若有,则执行步骤303;若无,则执行步骤302;
步骤302:将新闻转换成子主题,即新建一个子主题,并基于当前新闻的所有关键词得到其关键词库的初始值,并将该子主题及其关键词库存入子主题库中,以完成子主题的新建。
步骤303:抽出相似度子主题,即将所计算得到的系数xi最大的子主题作为其相似度匹配结果,并将该最大系数xi作为当前新闻与子主题的相似度,继续执行步骤304;
步骤304:判定相似度是否高于指定阈值(第一相似度阈值),若是,则执行步骤305;否则执行步骤302;
步骤305:将新闻融合到子主题中,即对子主题库中的记录的域当前新闻匹配的子主题的关键词库进行更新:将当前新闻的所有关键词添加到与当前新闻匹配的子主题的关键词库中;
并确定该子主题的关键词库的最近更新时间距离当前时间的天数是否超过指定天数,若是,则从该子主题的关键词库中抽取出出现频率前20个最大的关键词作为新的子主题的关键词库,即抽取的数量与新闻的关键词数量相一致。并将该新的子主题及其关键词库存入子主题库中。
在一种可能实现方式中,参见图3,步骤4中,本发明实施例中的第二次聚类处理具体处理流程为:
步骤401:对新闻点进行相似主题匹配:
配置当前实体名称库中各实体词的权重;
基于实体名称库对当前子主题的关键词库中的各关键词进行实体识别,识别出实体名称及类型,并基于实体词的权重筛选识别出的实体名称,得到当前子主题的新闻点点集,例如筛选出权重大于指定权重阈值的实体作为该子主题的新闻点(即关键实体),从而得到新闻点集;或者选取前T′个最大权重的实体;
本发明申请实施例中,主题库中的每个主题包含一个或多个新闻点。
基于子主题所包含的新闻点进行子主题与主题的相似匹配处理:
基于当前主题库中各主题的新闻点集合,得到总新闻点集合E;
构建矩阵AE以表示新闻点集合E与主题集合之间的映射关系,其中矩阵AK为n′×m′维矩阵,且矩阵元素[AE]i,j的取值为0或1,若第j个主题中存在第i个新闻点,则[AE]i,j为1,反正则取0;其中,i=1,2,L,n′,j=1,2,L,m′。
确定当前子主题的至少一个新闻点是否属于总新闻点集合E,若是,则执行步骤403;否则执行步骤402;
步骤402:将新闻点转化成主题,即基于当前子主题新建一个主题,并直接将当前子主题的所有新闻点作为该新建的主题的新闻点集合,并将主题及其新闻点集合存入主题库中,以完成主题的新建。
步骤403:抽出相似度主题,即基于实体计算子主题与各主题之间的相似度,将最大相似度所对应的主题作为当前子主题的匹配结果,继续执行步骤404;
例如,如步骤3中一般,将步骤3中的关键词替换为实体,计算得到系数xi,并将最大值所对应的主题作为当前子主题的相似度匹配额结果,该最大的系数即为子主题与当前主题间的相似度。
步骤404:判定相似度是否高于指定阈值(第二相似度阈值),若是,则执行步骤405;否则执行步骤402;
步骤405:将当前新闻点融合到主题中,即对主题库中的该主题的新闻点集合进行更新:将当前子主题的所有新闻点添加到与其匹配的主题的新闻点集合中;
并确定该主题的新闻点集合的最近更新时间距离当前时间的天数是否超过指定天数,若是,则从该主题的新闻点集合中抽取出出现频率前T′个最大的新闻点作为新的主题的新闻点集合,并将该主题及其新闻点集合存入主题库中。
其中,第一相似度阈值小于第二相似度阈值,而基于第一次聚类获取新闻的子主题是为了过滤噪音点,提高准确率;第二次聚类时,是为了进行相似子主题的合并,从而提高聚类的召回率。
在本发明实施例提供的主题聚类方法中,采用了一种考虑语义逻辑的降维方法,即在降维过程中使用实体作为第二层聚类的唯一文本特征值,此降维方式可以实现高纬(数量级可达10万)的词袋转化低维(数量级可达万)高频词,再将高频词特征转化为更低维(数量级可达千)的常用实体。且在第二层聚类中,通过提取子主题的实体进行逻辑上的聚类,由于子主题中基本都是对同一事件的描述,提取的实体可被认为是媒体公认比较重要的实体,即提取的实体与新闻主题关联度很高,显著提升了聚类处理的计算效率,所以在聚类中能发挥较好的效果,并且用实体聚类比用词袋聚类更有意义,更加有说服度,也更加符合人们的传统认知。
在本发明实施例中,通过将文本的特征值由词语降维到实体,降低了聚类处理的计算量,与经典聚类算法和现有典型的话题追踪聚类算法通过实验证明,本发明实施例不仅准确率和召回率高出大多数算法10%-50%,算法消耗时间低于大多数算法30%以上,抗噪音点能力较强,算法消耗时间近似呈现线性增长,在大数据领域有很强的应用价值。
在本发明实施例中,产生的新闻主题可以依靠于新闻主题关联度很高的实体完成导入知识库的过程,比传统聚类算法便利的多,通过新闻主题中的实体与知识库进行链接,提升对新闻事件的检索和分析能力,对新闻主题进行延续性和相关性信息进行有效挖掘,追踪新闻主题的变化,加强知识库的知识自动化提取能力。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以实现上述任一种主题聚类方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以实现上述任一种主题聚类方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROMD)、磁带和光数据存储设备等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种基于关键词和实体的主题聚类方法,其特征在于,所述方法包括:
对待处理的新闻进行文本预处理,提取当前新闻的关键词;以及对新闻的关键词进行实体识别处理,获取实体词及其类型,并对识别出的实体进行实体重定向处理;
基于所提取的新闻的关键词进行第一次聚类处理,获取新闻的子主题;
基于子主题所包含的实体词,进行第二次聚类处理,获取新闻主题。
2.如权利要求1所述的方法,其特征在于,进行文本预处理时,确定文本语言种类,若为英文文本,则文本预处理包括:分词、词性标注、词性还原和词过滤;若为中文文本,则文本预处理包括:分词、词性标注和词过滤;其中,词过滤的对象包括:无用词及符号、停用词。
3.如权利要求1所述的方法,其特征在于,提取当前新闻的关键词具体为:将词过滤后得到词作为新闻的候选关键词,并对候选关键词进行词频统计,基于词频统计结果,将前T个词频最高的候选关键词作为该文本的关键词,其中,T为正整数。
4.如权利要求1所述的方法,其特征在于,实体重定向处理为:预构建一个实体名称库,对当前识别出的实体名称,若检索到未储存的实体名称,则将该实体名称上传到指定的检索网站匹配对应的检索实体名称,作为最佳实体名称;同时将该检索到的实体名称存入实体名称库。
5.如权利要求4所述的方法,其特征在于,基于所提取的新闻的关键词进行第一次聚类处理,获取新闻的子主题具体包括:
第一配置步骤:
基于当前子主题库中各子主题的关键词库,得到关键词集合K;
确定当前新闻的至少一个关键词是否属于关键词集合K,若是,则执行相似度匹配步骤,否则执行子主题新建步骤;
子主题新建步骤:
新建一个子主题,并基于当前新闻的所有关键词得到其关键词库的初始值,并将该子主题及其关键词库存入子主题库中;
第一相似度匹配步骤:
基于指定的相似度度量策略,基于关键词计算新闻与各子主题之间的相似度,将最大相似度的子主题作为当前新闻的子主题匹配结果,当与所匹配的子主题间的相似度大于第一相似度阈值时,则执行第一融合步骤;当与所匹配的子主题间的相似度小于或等于第一相似度阈值时,执行子主题新建步骤;
第一融合步骤:
将当前新闻的所有关键词添加到与当前新闻匹配的子主题的关键词库中;
并确定该子主题的关键词库的最近更新时间距离当前时间的天数是否超过指定天数,若是,则从该子主题的关键词库中抽取出出现频率前T个最大的关键词作为新的子主题的关键词库,并将该新的子主题及其关键词库存入子主题库中。
6.如权利要求4或5所述的方法,其特征在于,基于子主题所包含的实体词,进行第二次聚类处理,获取新闻主题具体包括:
第二配置步骤:
基于子主题的关键词库,提取当前子主题的关键实体,作为当前子主题的新闻点;
基于当前主题库中各主题的新闻点集合,得到总新闻点集合E;
确定当前子主题新闻的至少一个新闻点是否属于总新闻点集合E,若是,则执行第二相似度匹配步骤;否则执行主题新建步骤;
主题新建步骤:
新建一个主题,直接将当前子主题的所有新闻点作为该新建的主题的新闻点集合,并将主题及其新闻点集合存入主题库中;
第二相似度匹配步骤:
基于指定的相似度度量策略,基于新闻点计算子主题与各主题之间的相似度,将最大相似度的主题作为当前子主题的主题匹配结果,当与所匹配的主题间的相似度大于第二相似度阈值时,则执行第二融合步骤;当与所匹配的主题间的相似度小于或等于第二相似度阈值时,执行主题新建步骤;
第二融合步骤:
将当前子主题的所有新闻点添加到与当前子主题匹配的主题的新闻点集合中;
并确定该主题的新闻点集合的最近更新时间距离当前时间的天数是否超过指定天数,若是,则从该主题的新闻点集合中抽取出出现频率前T′个最大的新闻点作为新的主题的新闻点集合,并将该主题及其新闻点集合存入主题库中。
7.如权利要求6所述的方法,其特征在于,第一相似度阈值小于第二相似度阈值。
8.如权利要求5至7任一项所述的方法,其特征在于,在第一、第二似度匹配步骤中,计算新闻与子主题之间的相似度,以及子主题和主题的相似度的度量策略相同,具体为:
定义P表示第二对象的特征集合P,其中,第二对象为子主题或主题,对于子主题,对应的特征集合P为关键词集合K,对于主题,对应的特征集合P为总新闻点集合E;
设置映射矩阵A,以表示特征集合P与第二对象集合C之间的映射关系,矩阵元素值为0或1,若第j个第二对象cj中存在特征集合P的第i个特征pi,则映射矩阵元素Aij为1,否则为0,其中,i=1,2,…N,j=1,2,…M,N表示特征集合P包含的特征数,M表示第二对象集合C包含的第二对象数,第二对象集C为子主题库中包括的子主题或主题库中包括的主题;
Figure FDA0002962957220000031
其中,
Figure FDA0002962957220000032
表示包含特征pi的第二对象子集;
定义pt表示当前第一对象的一个特征,且所述特征属于特征集合P,其中,第一对象为新闻或子主题,对于新闻,对应的特征为关键词,对于子主题,对应的特征为新闻点;
取出特征pt对应的行列式得到包含所述特征pt的第二对象子集
Figure FDA0002962957220000033
即:
Figure FDA0002962957220000034
累加第一对象的所有第二对象子集
Figure FDA0002962957220000035
得到:
Figure FDA0002962957220000036
系数xj表示当前第一对象与第j个第二对象之间的相似度。
9.一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如权利要求1至8任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如权利要求1至8任一所述的方法。
CN202110242927.6A 2021-03-05 2021-03-05 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 Expired - Fee Related CN112861990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110242927.6A CN112861990B (zh) 2021-03-05 2021-03-05 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110242927.6A CN112861990B (zh) 2021-03-05 2021-03-05 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112861990A true CN112861990A (zh) 2021-05-28
CN112861990B CN112861990B (zh) 2022-11-04

Family

ID=75993303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110242927.6A Expired - Fee Related CN112861990B (zh) 2021-03-05 2021-03-05 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112861990B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722460A (zh) * 2021-09-01 2021-11-30 平安国际智慧城市科技股份有限公司 指标数据入库方法、装置、设备及存储介质
CN114065727A (zh) * 2021-12-01 2022-02-18 东方财富信息股份有限公司 资讯去重方法、设备及计算机可读介质
CN114969273A (zh) * 2022-07-28 2022-08-30 广州宏途数字科技有限公司 一种高考专业推荐方法、装置、设备及存储介质
CN116049413A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于事件演化的用户观点和立场获取方法
CN116776105A (zh) * 2023-08-22 2023-09-19 北京大学人民医院 创伤数据安全治理***构建方法、装置和电子设备
CN116798633A (zh) * 2023-08-22 2023-09-22 北京大学人民医院 创伤数据安全风险评估***构建方法和电子设备
WO2024031550A1 (en) * 2022-08-11 2024-02-15 Accenture Global Solutions Limited Trending topic discovery with keyword-based topic model
CN117910479A (zh) * 2024-03-19 2024-04-19 湖南蚁坊软件股份有限公司 聚合新闻判断方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN107918644A (zh) * 2017-10-31 2018-04-17 北京锐思爱特咨询股份有限公司 声誉管理框架内的新闻议题分析方法和实施***
CN108197117A (zh) * 2018-01-31 2018-06-22 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法
CN109033200A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 事件抽取的方法、装置、设备及计算机可读介质
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN110019556A (zh) * 2017-12-27 2019-07-16 阿里巴巴集团控股有限公司 一种话题新闻获取方法、装置及其设备
CN110134787A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种新闻话题检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN107918644A (zh) * 2017-10-31 2018-04-17 北京锐思爱特咨询股份有限公司 声誉管理框架内的新闻议题分析方法和实施***
CN110019556A (zh) * 2017-12-27 2019-07-16 阿里巴巴集团控股有限公司 一种话题新闻获取方法、装置及其设备
CN108197117A (zh) * 2018-01-31 2018-06-22 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法
CN109033200A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 事件抽取的方法、装置、设备及计算机可读介质
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN110134787A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种新闻话题检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIE ZHAO等: "A Time-Enhanced Topic Clustering Approach for News Web Search", 《INTERNATIONAL JOURNAL OF DATABASE THEORY AND APPLICATION》 *
SHENG HUANG等: "News topic detection based on hierarchical clustering and named entity", 《2011 7TH INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING AND KNOWLEDGE ENGINEERING》 *
庄郭冕: "基于主题模型和实体识别的股市热点概念挖掘", 《中国优秀硕士学位论文全文数据库_经济与管理科学辑》 *
熊玲等: "面向专题检测的主题与社群联合聚类模型", 《指挥信息***与技术》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722460A (zh) * 2021-09-01 2021-11-30 平安国际智慧城市科技股份有限公司 指标数据入库方法、装置、设备及存储介质
CN113722460B (zh) * 2021-09-01 2023-10-24 平安国际智慧城市科技股份有限公司 指标数据入库方法、装置、设备及存储介质
CN114065727A (zh) * 2021-12-01 2022-02-18 东方财富信息股份有限公司 资讯去重方法、设备及计算机可读介质
CN114969273A (zh) * 2022-07-28 2022-08-30 广州宏途数字科技有限公司 一种高考专业推荐方法、装置、设备及存储介质
CN114969273B (zh) * 2022-07-28 2022-11-15 广州宏途数字科技有限公司 一种高考专业推荐方法、装置、设备及存储介质
WO2024031550A1 (en) * 2022-08-11 2024-02-15 Accenture Global Solutions Limited Trending topic discovery with keyword-based topic model
CN116049413A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于事件演化的用户观点和立场获取方法
CN116776105A (zh) * 2023-08-22 2023-09-19 北京大学人民医院 创伤数据安全治理***构建方法、装置和电子设备
CN116798633A (zh) * 2023-08-22 2023-09-22 北京大学人民医院 创伤数据安全风险评估***构建方法和电子设备
CN116798633B (zh) * 2023-08-22 2023-11-21 北京大学人民医院 创伤数据安全风险评估***构建方法和电子设备
CN117910479A (zh) * 2024-03-19 2024-04-19 湖南蚁坊软件股份有限公司 聚合新闻判断方法、装置、设备及介质
CN117910479B (zh) * 2024-03-19 2024-06-04 湖南蚁坊软件股份有限公司 聚合新闻判断方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112861990B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN112861990B (zh) 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN111680173B (zh) 统一检索跨媒体信息的cmr模型
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及***
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
CN110298033B (zh) 关键词语料标注训练提取***
CN100592293C (zh) 基于智能本体的知识搜索引擎及其实现方法
KR101713831B1 (ko) 문서추천장치 및 방법
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与***
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
Haque et al. Literature review of automatic multiple documents text summarization
Lubis et al. A framework of utilizing big data of social media to find out the habits of users using keyword
CN110807326A (zh) 结合gpu-dmm与文本特征的短文本关键词提取方法
Xu et al. Research on topic recognition of network sensitive information based on SW-LDA model
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
Anoop et al. A topic modeling guided approach for semantic knowledge discovery in e-commerce
Sharma et al. Shallow Neural Network and Ontology-Based Novel Semantic Document Indexing for Information Retrieval.
Yu et al. Role-explicit query identification and intent role annotation
Zhang et al. Combining the attention network and semantic representation for Chinese verb metaphor identification
Ahmed et al. Building multiview analyst profile from multidimensional query logs: from consensual to conflicting preferences
Yang Lyric-based music genre classifcation
Hu et al. SP-BTM: A Specific Part-of-Speech BTM for Service Clustering
Wang Query Segmentation and Tagging
Tu et al. Research intelligence involving information retrieval–An example of conferences and journals
Luo et al. Multimedia news exploration and retrieval by integrating keywords, relations and visual features
Hu et al. Identifying accuracy of social tags by using clustering representations of song lyrics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221104

CF01 Termination of patent right due to non-payment of annual fee