CN111460153A - 热点话题提取方法、装置、终端设备及存储介质 - Google Patents

热点话题提取方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN111460153A
CN111460153A CN202010231954.9A CN202010231954A CN111460153A CN 111460153 A CN111460153 A CN 111460153A CN 202010231954 A CN202010231954 A CN 202010231954A CN 111460153 A CN111460153 A CN 111460153A
Authority
CN
China
Prior art keywords
news
cluster
text
news text
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010231954.9A
Other languages
English (en)
Other versions
CN111460153B (zh
Inventor
赵洋
包荣鑫
王宇
魏世胜
朱继刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Valueonline Technology Co ltd
Original Assignee
Shenzhen Valueonline Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Valueonline Technology Co ltd filed Critical Shenzhen Valueonline Technology Co ltd
Priority to CN202010231954.9A priority Critical patent/CN111460153B/zh
Publication of CN111460153A publication Critical patent/CN111460153A/zh
Application granted granted Critical
Publication of CN111460153B publication Critical patent/CN111460153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于信息技术领域,提供了一种热点话题提取方法、装置、终端设备及存储介质,所述方法包括:采集多个新闻文本;针对任一新闻文本,提取所述新闻文本的多个特征词;根据所述多个特征词,生成与所述新闻文本相对应的句向量;基于所述多个新闻文本各自对应的句向量,对所述多个新闻文本进行聚类,获得多个聚类簇;从所述多个聚类簇中提取热点话题。采用上述方法,可以提高热点话题提取的准确度和实时性。

Description

热点话题提取方法、装置、终端设备及存储介质
技术领域
本申请属于信息技术领域,特别是涉及一种热点话题提取方法、装置、终端设备及存储介质。
背景技术
互联网技术的进步,极大地推动了新闻媒体及门户网站的发展。人们获取资讯的方式也由传统的电视、报纸等渠道转变为可以通过电脑和手机,随时随地的在网络上阅读新闻。
对于层出不穷的新闻内容,可以通过提取新闻热点话题的方式向用户介绍当前流行或受到广泛关注的热点内容。对于某些机构来说,热点话题可以帮助其分析社会舆论,为政府的公共政策提供建议;对于企业来说,热点话题可以帮助企业决策者把握发展方向,做出正确的决定;而对于个人来说,热点话题有助于个人了解社会大事,提升知识。因此,如何分析并提取出实时热点话题具有重要的研究价值。
发明内容
有鉴于此,本申请实施例提供了一种热点话题提取方法、装置、终端设备及存储介质,以解决现有技术中提取热点话题精准度较低,且难以满足实时性的问题。
本申请实施例的第一方面提供了一种热点话题提取方法,包括:
采集多个新闻文本;
针对任一新闻文本,提取所述新闻文本的多个特征词;
根据所述多个特征词,生成与所述新闻文本相对应的句向量;
基于所述多个新闻文本各自对应的句向量,对所述多个新闻文本进行聚类,获得多个聚类簇;
从所述多个聚类簇中提取热点话题。
本申请实施例的第二方面提供了一种热点话题提取装置,包括:
新闻文本采集模块,用于采集多个新闻文本;
特征词提取模块,用于针对任一新闻文本,提取所述新闻文本的多个特征词;
句向量生成模块,用于根据所述多个特征词,生成与所述新闻文本相对应的句向量;
新闻文本聚类模块,用于基于所述多个新闻文本各自对应的句向量,对所述多个新闻文本进行聚类,获得多个聚类簇;
热点话题提取模块,用于从所述多个聚类簇中提取热点话题。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的热点话题提取方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的热点话题提取方法。
本申请实施例的第五方面提供了一种计算机程序产品,当所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述第一方面所述的热点话题提取方法。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例,基于改进的SinglePass聚类算法,可以在每次添加节点后对离群点进行检测,如果距离过大就从当前簇中移除离群点,保证了聚类中心的代表性和聚类结果的准确度,其次,本实施例提供的历史热点召回算法,能够有效地对新热点和历史热点间的关系进行判断,相同主题的热点和相似新闻将被合并,保证了实时推送的准确度。第三,本实施例通过使用 word2vec和TF-IDF对句子进行向量化处理,可以更精准地表示句向量的全局特征,排除不相关词语的干扰,同时支持实时增量化处理,能够满足实际应用的时间要求。本申请实施例提供的热点话题提取方法实现了新闻句向量表示、热点话题聚类、热点标题筛选和历史热点召回等功能,改善了已有算法中句向量表示不精准、不支持增量聚类的问题,对于大规模动态新闻数据,无需先验知识,新闻也不必具有明显特征,算法整体具有较好的普适性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例的一种热点话题提取方法的步骤流程示意图;
图2是本申请一个实施例的另一种热点话题提取方法的步骤流程示意图;
图3是本申请一个实施例的一种改进的SinglePass聚类算法的流程图;
图4是本申请一个实施例的一种历史热点话题召回算法的流程图;
图5是本申请一个实施例的一种热点话题提取装置的示意图;
图6是本申请一个实施例的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
本申请实施例针对现有技术中已有的各类话题提取算法中存在的问题,通过首先对新闻文本进行清洗和分词,接着对分词结果进行筛选,只选择具有代表性的部分分词结果进行特征提取。之后,利用大数据量(如20GB) 的历史新闻语料训练出第一语言模型(word2vec模型)。接着,分词结果被第一语言模型映射为向量之后,根据词语的TF-IDF值进行加权,生成相应的句向量。在此之后,生成的句向量通过改进的SinglePass算法进行聚类,生成多个聚类簇。最后,根据聚类簇的大小生成热点,并选取聚类簇的中心点作为最终的热点话题。本实施例可以较为精准地提取新闻文本中的全局特征,实验结果显示,按照本实施例提供的方法进行热点话题提取,其准确率和召回率都较高,并且支持增量的热点话题提取,能够满足在线实时热点话题的提取要求。
下面通过具体实施例来说明本申请的技术方案。
参照图1,示出了本申请一个实施例的一种热点话题提取方法的步骤流程示意图,具体可以包括如下步骤:
S101、采集多个新闻文本;
在本申请实施例中,多个新闻文本可以是指用于聚类,并可以根据聚类结果提取出相应的新闻热点话题的新闻资讯或新闻报道等,本实施例对新闻文本的具体类型不作限定。
在具体实现中,可以通过网页爬虫或其他形式从各类新闻网站、门户网站等抓取新闻文本。
通常,为了保证后续话题提取的时效性,可以按照新闻的发布或上线时间抓取某个特定时间段内的新闻。例如,抓取过去一个小时或两个小时内发布的新闻。
S102、针对任一新闻文本,提取所述新闻文本的多个特征词;
在本申请实施例中,对于采集到的全部新闻文本,可以逐份进行处理,将每份新闻处理成可输入后续模型进行处理的格式。
在具体实现中,针对任一新闻文本,可以首先提取该文本的多个特征词。
通常,对于一篇新闻报道,新闻标题应当是对整篇新闻所报道内容的概括;另一方面,对于新闻开篇的数个段落,也常常包括整篇新闻的简要介绍。因此,提取新闻文本的特征词可以主要从新闻标题和位于整篇新闻靠前的部分段落来进行。
在具体实现中,可以将新闻标题和整篇新闻按照顺序合并在一起,即组合成“标题+正文”的形式,然后从组合后的文本中提取处于靠前的部分内容内的多个特征词。特征词词可以是该部分内容中的任意词语,也可以是对该部分内容进行数据清洗,删除部分不具有实际意义的停用词、单字后剩下的任意词语,本实施例对此不作限定。
为了保证所有新闻文本的特征窗口类似,保证所有新闻的长度是相同的,因此新闻文本的标题和正文可以被截取为“标题+正文前多少个字”的字符串。
例如,可以首先从“标题+正文”中提取前500个文字,再从这500个文字中提取出特征词。或者,首先从“标题+正文”中提取前500个文字,再经过数据清洗删除不具有实际意义的停用词、数字、单字后,将剩下的各个词语识别为特征词。
S103、根据所述多个特征词,生成与所述新闻文本相对应的句向量;
由于聚类算法无法计算文字的输入,在聚类前,需要将新闻文本进行向量化表示。
在本申请实施例中,可以根据前述步骤提取出的特征词,将这些特征词表示为一个句向量,该句向量中的每个值均对应上述一个特征词。
采集得到的每份新闻文本均可以按照上述方式进行处理,分别得到与该新闻文本相对应的一个句向量,用于后续的聚类处理。
S104、基于所述多个新闻文本各自对应的句向量,对所述多个新闻文本进行聚类,获得多个聚类簇;
在本申请实施例中,在将全部新闻文本均使用向量进行表示后,可以以各个新闻文本对应的句向量作为聚类算法的输入数据,算法的输出数据即是经聚类得到的多个聚类簇。
在具体实现中,可以采用SinglePass(一种文本聚类算法)算法对向量化的各个新闻文本进行聚类。
SinglePass聚类算法的思想简单,运行速度快。和它的名字一样,算法运行过程中只需要对所有数据遍历一遍,比较依赖于数据的输入顺序,时间复杂度为O(n)。在聚类中,每个簇都具有一个动态更新的簇中心,簇中心为所有向量的均值,簇中心可以作为代表该簇的全局特征。
S105、从所述多个聚类簇中提取热点话题。
在本申请实施例中,由于聚类得到的每个簇的簇中心可以作为代表该簇的全局特征,因此可以根据多个簇的簇中心向量对应的新闻文本,作为最终的话题生成结果。
在具体实现中,可以直接以簇中心向量对应的新闻文本的标题,作为最终的热点话题;也可以基于簇中心向量,分别计算该簇中其他向量与簇中心向量之间的距离,选择距离最小的向量所对应的新闻文本的标题,作为最终的热点话题;还可以对上述簇中心向量对应的新闻文本的标题,以及距离最小的向量所对应的新闻文本的标题作一定的组合处理,将组合处理后得到的内容,作为最终的热点话题,本实施例对此不作限定。
在本申请实施例中,对于采集到的多个新闻文本,可以针对任一新闻文本,提取该新闻文本的多个特征词,然后根据多个特征词,生成与该新闻文本相对应的句向量,再基于多个新闻文本各自对应的句向量,对多个新闻文本进行聚类,可以获得多个聚类簇,便于从多个聚类簇中提取热点话题,有助于提高热点话题提取的精准度和实时性。
参照图2,示出了本申请一个实施例的另一种热点话题提取方法的步骤流程示意图,具体可以包括如下步骤:
S201、采集多个新闻文本,针对任一新闻文本,提取所述新闻文本的多个特征词;
在本申请实施例中,多个新闻文本可以是指用于聚类,并可以根据聚类结果提取出相应的新闻热点话题的新闻资讯或新闻报道。上述新闻文本可以通过网页爬虫或其他形式从各类新闻网站、门户网站等抓取得到。
在具体实现中,对于采集到的全部新闻文本,可以逐份进行处理。例如,针对任一新闻文本,可以首先对该新闻文本进行分词。例如,可以使用结巴 (jieba)分词工具对新闻文本进行分词,分词结果可以以列表的方式进行保存。
考虑到分词结果中具有部分干扰信息,不利于句子全局特征的表示。因此,可以将分词结果中的停用词、纯数字和单字等非目标词进行删除,因为这些分词的词向量不具有代表性,会对句向量的生成精度造成较大影响。
例如,对于某一新闻文本“16日公司新闻聚焦:格力电器15%股权转让获批”,在最终分词并处理后,可以得到如下结果“公司/新闻/聚焦/格力/ 电器/股权/转让/获批”。
对于分词并删除非目标词后获得的目标文本,可以提取在目标文本的预设文本位置内的多个词语作为特征词。上述预设位置可以是目标文本靠前的位置,例如,前100个词语等等。
在本申请实施例中,可以首先截取“标题+正文前500个字”,然后再对这500个字进行分词,删除分词后可能对后续处理造成影响的部分非目标词,得到多个特征词;也可以首先对整个“标题+正文”进行分词,然后删除非目标词,再从剩余的词语中提取靠前的一定数量,如100个词语,作为特征词,本实施例对上述截取文本、分词及提取特征词的步骤顺序不作限定。
多个特征词可以以一个句子X的形式进行表示。例如,X=[x0,x1,...,xn]。
S202、根据预设的第一语言模型,将每个特征词映射为预设维度的稠密向量,所述第一语言模型通过采用预设的跳字模型对样本新闻文本进行训练获得;
在本申请实施例中,可以基于word2vec模型训练第一语言模型。 word2vec是2013年由Mikolov提出的一种深度学习算法,它基于“一个词的含义可以由它的上下文推断得出”的语言模型假设,根据语料将词语变为稠密的向量化表示,包含连续词袋模型CBOW和跳字模型Skip-Gram两种词向量化的方式。
在具体实现中,可以使用一定数量,例如20GB的全网历史新闻作为样本新闻文本,采用word2vec模型进行训练。训练中的参数可以选择如下:词向量维度为100,窗口数为10,词语出现最小次数为8,模型为Skip-Gram 模型,循环次数为20次,其余参数采用默认参数。
最终训练出2.1GB的第一语言模型,利用该模型,每个在语料中出现次数大于8的词语都可以表示为100维的稠密向量W(x)=[w0,w1,...,w99]。
因此,对于每个特征词,可以采用训练得到的第一语言模型,将该特征词映射为100维的稠密向量。
S203、根据预设的第二语言模型,确定所述每个特征词的权重值,所述第二语言模型为通过统计样本新闻文本中每个词语的逆文档频率获得;
在本申请实施例中,第二语言模型可以是指词频-逆文档频率指数(TermFrequency–Inverse Document Frequency,TF-IDF)模型。TF是指词频,IDF 是指逆文档频率指数,两者结合常用于评估词语对于整篇文档的重要程度。如果一个词语在某文本中出现频率较高,并且在其他文档中很少出现,那该词语就具有较好的区分能力,适合用于表示文本的全局特征。
本申请实施例可以结合样本新闻文本及其分词结果,统计每一个词语的逆文档频率,形成字典,再对IDF进行建模存储。上述样本新闻文本可以是历史语料库中的新闻文本。
在本申请实施例中,IDF的计算公式可以表示为:
Figure RE-GDA0002482561010000081
其中,其中N表示总文档数量,N(x)表示包含词语x的文档的数量。存储后的字典可以度量每一个词语在文章中的重要程度,用于之后句向量的加权生成。
S204、根据所述每个特征词的稠密向量和所述权重值,生成与所述新闻文本相对应的句向量;
由于聚类算法无法计算文字的输入,在聚类前,需要将新闻文本进行向量化表示。
在本申请实施例中,IDF值可以用于加权给词向量,重要程度越高的词 IDF值越高,加权的权重也就越高。利用之前训练得到第一语言模型即 word2vec模型和第二语言模型即TF-IDF模型,每份新闻文本S都可以被表示为100维的稠密向量S(X)=[s0,s1,...,s99]。对于句向量S(X)中的每一维,其值等于每个词向量这一维度的值乘以该词IDF的值,再对句子中包含词的个数取均值。
因此,在具体实现中,针对任一特征词,可以分别计算该特征词对应的稠密向量的值与该特征词的权重值的乘积,上述权重值即是该特征词的IDF 值。然后,再计算上述乘积与全部特征词的个数之间的比值,将比值作为句向量中与该特征词相对应的维度的向量值,获得与当前新闻文本相对应的句向量。
上述计算过程可以表示为如下公式:
Figure RE-GDA0002482561010000091
其中,n为特征词的个数。
需要说明的是,对于第一语言模型和第二语言模型中不存在的生僻词,可以选择跳过,不进行加权操作,这样,所有的新闻的文本都可以表示为100 维的稠密句向量作为聚类算法的输入数据。
S205、基于所述多个新闻文本各自对应的句向量,对所述多个新闻文本进行聚类,获得多个聚类簇;
在本申请实施例中,可以基于改进的SinglePass算法进行聚类。 SinglePass算法得到的聚类簇,每个簇都具有一个动态更新的簇中心,簇中心为所有向量的均值。簇中心可以作为代表该簇的全局特征。不同节点间可以通过计算距离来判断所属的簇,本实施例可以采用欧几里得距离作为节点之间相似性的度量标准。
通常,部分聚类算法由于存在离群点造成的干扰,无法保证聚类的精准度。本实施例为了排除离群点的干扰,在SinglePass聚类的基础上,在每次***一个新的节点之后进行离群点检测,降低离群点对最终聚类结果造成的影响。
如图3所示,是本申请实施例提供的一种改进的SinglePass聚类算法的流程图,按照图3所示的流程,本实施例对向量化表示后的各个新闻文本进行聚类的过程可以包括如下步骤:
算法输入:聚类阈值、文本特征向量;
步骤1:将第一个文本的特征向量加入第一个簇,并设为聚类中心;
步骤2:遍历所有的文本特征向量;
步骤3:遍历所有的簇中心;
步骤4:计算文本特征向量与簇中心的欧几里得距离;
步骤5:记录和当前文本距离最小的簇,并记录距离的值;
步骤6:如果距离小于聚类阈值,将该文本特征向量加入距离最小的簇中,更新簇的中心,执行步骤7;
步骤7:遍历当前簇,如果有向量和中心的距离大于阈值,判定为离群点,从当前簇中移除该向量,对该向量执行步骤4;
步骤8:如果距离大于聚类阈值,新建一个簇,将该向量***簇中,更新簇中心;
算法输出:多个聚类簇,每个簇的所有向量,每个簇的中心向量。
按照上述改进SinglePass聚类算法,在聚类时,可以首先将任意一个句向量作为第一个簇,并将该句向量设为该聚类簇的中心,然后在依次计算其他各个句向量与该聚类簇的中心之间的欧几里得距离,如果上述距离小于聚类阈值,则可以将其加入上述聚类簇中,并更新簇中心;如果上述距离大于聚类阈值,则可以新建一个簇,将其加入新建的簇中。通过循环计算每个句向量与前述得到的各个聚类簇的中心之间的欧几里得距离,可以将所有句向量分别加入某一个聚类簇中,完成对全部新闻文本的聚类。
在本申请实施例中,对于新采集到的新闻文本,也可以按照上述聚类方式确定新增新闻文本所属的聚类簇。
在具体实现中,当采集到新增新闻文本时,可以首先逐个计算新增新闻文本对应的句向量与已完成聚类的多个聚类簇的簇中心向量之间的距离。当新增新闻文本对应的句向量与目标聚类簇的簇中心向量之间的距离小于预设阈值时,可以将新增新闻文本加入目标聚类簇中,并停止计算新增新闻文本对应的句向量与其他聚类簇的簇中心向量之间的距离,上述目标聚类簇可以为多个聚类簇中的任意一个。
若新增新闻文本对应的句向量与多个聚类簇的簇中心向量之间的距离均大于预设阈值,则可以认为该新增新闻文本不属于任意一个已聚类的簇,此时可以新建一聚类簇,将新增新闻文本***新建的聚类簇中。
S206、针对任一聚类簇,确定所述聚类簇的簇中心向量;分别计算所述聚类簇中每个句向量与所述簇中心向量之间的距离;
在完成对新闻文本的聚类后,可以根据聚类得到的各个簇,生成相应的热点话题。
S207、提取与所述簇中心向量之间距离最小的句向量所对应的目标新闻文本;
在具体实现中,针对任一聚类簇,可以首先找到该簇的簇中心向量,然后再分别计算该簇中每个向量与中心向量之间的欧几里得距离,从中选出距离最小的向量所对应的目标新闻文本,该目标新闻文本即是后续用于生成热点话题的基准文本。
S208、根据所述目标新闻文本的新闻标题,确定热点话题。
在本申请实施例中,对于识别出的目标新闻文本,可以直接以该目标新闻文本的新闻标题,作为最终确定的热点话题。
另一方面,生成热点话题后,还可以从聚类簇中选择其余向量对应的新闻标题,生成相似新闻列表。
需要说明的是,因为存在转载新闻的情况,生成的相似新闻列表中可能会存在多个标题相同的新闻。对于列表中相同标题的新闻,只保留其中一个即可。
在本申请实施例中,生成的多个聚类簇可以分别具有相应的时间属性,该时间属性可以表示每个聚类簇是通过采集具体哪一个时间段内的新闻所生成的。
即,热点话题可以按照某一个时间窗口滑动生成,例如,可以选择一个小时为时间窗口,每次对近一个小时的新闻进行热点话题提取。
由于不同时间窗口中的话题可能会有重复或类似,这就需要对历史热点进行召回,将新的新闻文本归类为之前已经提取出的某个热点话题中。
在本申请实施例中,可以根据时间属性,确定待处理的历史聚类簇,然后针对任一聚类簇,分别计算该聚类簇与历史聚类簇之间的相似度,若相似度小于相似度阈值,则可以将小于相似度阈值的聚类簇与历史聚类簇进行合并。
如图4所示,是本申请实施例的一种历史热点话题召回算法的流程图,按照图4所示的流程进行历史热点话题的召回,可以包括如下步骤:
算法输入:历史热点簇中心向量、新热点簇中心向量、新热点簇相似新闻、相似度阈值;
步骤1:遍历所有新热点中心向量;
步骤2:遍历所有历史热点簇中心向量;
步骤3:分别计算中心向量之间的欧几里得距离,并对距离进行记录和排序;
步骤4:选择和新热点中心向量距离最小的历史热点簇;
步骤5:如果距离小于相似度阈值,将新热点召回到历史热点中,相似新闻进行合并;
步骤6:如果距离大于相似度阈值,召回失败,生成新热点;
算法输出:历史热点列表,新热点列表。
按照上述算法,针对每个时间窗口内生成的新热点话题,可以分别计算新热点话题所属的聚类簇与历史聚类簇之间的距离,即两个聚类簇的中心向量之间的距离,如果该距离小于预设的相似度阈值,则可以将新热点话题与相似的历史聚类簇的热点话题进行合并,以此保证热点话题推送的准确性。
本申请实施例,基于改进的SinglePass聚类算法,可以在每次添加节点后对离群点进行检测,如果距离过大就从当前簇中移除离群点,保证了聚类中心的代表性和聚类结果的准确度,其次,本实施例提供的历史热点召回算法,能够有效地对新热点和历史热点间的关系进行判断,相同主题的热点和相似新闻将被合并,保证了实时推送的准确度。第三,本实施例通过使用 word2vec和TF-IDF对句子进行向量化处理,可以更精准地表示句向量的全局特征,排除不相关词语的干扰,同时支持实时增量化处理,能够满足实际应用的时间要求。本申请实施例提供的热点话题提取方法实现了新闻句向量表示、热点话题聚类、热点标题筛选和历史热点召回等功能,改善了已有算法中句向量表示不精准、不支持增量聚类的问题,对于大规模动态新闻数据,无需先验知识,新闻也不必具有明显特征,算法整体具有较好的普适性。
需要说明的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
参照图5,示出了本申请一个实施例的一种热点话题提取装置的示意图,具体可以包括如下模块:
新闻文本采集模块501,用于采集多个新闻文本;
特征词提取模块502,用于针对任一新闻文本,提取所述新闻文本的多个特征词;
句向量生成模块503,用于根据所述多个特征词,生成与所述新闻文本相对应的句向量;
新闻文本聚类模块504,用于基于所述多个新闻文本各自对应的句向量,对所述多个新闻文本进行聚类,获得多个聚类簇;
热点话题提取模块505,用于从所述多个聚类簇中提取热点话题。
在本申请实施例中,所述特征词提取模块502具体可以包括如下子模块:
目标文本获取子模块,用于针对任一新闻文本,对所述新闻文本进行分词,并删除分词后的非目标词,获得目标文本,所述非目标词包括停用词、数字或单字中的至少一种;
特征词提取子模块,用于提取在所述目标文本的预设文本位置内的多个特征词。
在本申请实施例中,所述句向量生成模块503具体可以包括如下子模块:
稠密向量映射子模块,用于根据预设的第一语言模型,将每个特征词映射为预设维度的稠密向量,所述第一语言模型通过采用预设的跳字模型对样本新闻文本进行训练获得;
权重值确定子模块,用于根据预设的第二语言模型,确定所述每个特征词的权重值,所述第二语言模型为通过统计样本新闻文本中每个词语的逆文档频率获得;
句向量生成子模块,用于根据所述每个特征词的稠密向量和所述权重值,生成与所述新闻文本相对应的句向量。
在本申请实施例中,所述句向量生成子模块具体可以包括如下单元:
乘积计算单元,用于针对任一特征词,分别计算所述特征词对应的稠密向量的值与所述特征词的权重值的乘积;
句向量生成单元,用于计算所述乘积与全部特征词的个数之间的比值,将所述比值作为句向量中与所述特征词相对应的维度的向量值,获得与所述新闻文本相对应的句向量。
在本申请实施例中,所述热点话题提取模块505具体可以包括如下子模块:
簇中心向量确定子模块,用于针对任一聚类簇,确定所述聚类簇的簇中心向量;
距离计算子模块,用于分别计算所述聚类簇中每个句向量与所述簇中心向量之间的距离;
目标新闻文本提取子模块,用于提取与所述簇中心向量之间距离最小的句向量所对应的目标新闻文本;
热点话题确定子模块,用于根据所述目标新闻文本的新闻标题,确定热点话题。
在本申请实施例中,所述装置还可以包括如下模块:
新增新闻文本距离计算模块,用于在采集到新增新闻文本时,逐个计算所述新增新闻文本对应的句向量与所述多个聚类簇的簇中心向量之间的距离;
新增新闻文本归类模块,用于在所述新增新闻文本对应的句向量与目标聚类簇的簇中心向量之间的距离小于预设阈值时,将所述新增新闻文本加入所述目标聚类簇中,并停止计算所述新增新闻文本对应的句向量与其他聚类簇的簇中心向量之间的距离;若所述新增新闻文本对应的句向量与所述多个聚类簇的簇中心向量之间的距离均大于所述预设阈值,则新建聚类簇,将所述新增新闻文本***新建的聚类簇中,所述目标聚类簇为所述多个聚类簇中的任意一个。
在本申请实施例中,所述多个聚类簇分别具有相应的时间属性,所述装置还可以包括如下模块:
历史聚类簇确定模块,用于根据所述时间属性,确定待处理的历史聚类簇;
相似度计算模块,用于针对任一聚类簇,分别计算所述聚类簇与所述历史聚类簇之间的相似度;
聚类簇合并模块,用于若所述相似度小于相似度阈值,则将小于相似度阈值的聚类簇与所述历史聚类簇进行合并。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例部分的说明即可。
参照图6,示出了本申请一个实施例的一种终端设备的示意图。如图6 所示,本实施例的终端设备600包括:处理器610、存储器620以及存储在所述存储器620中并可在所述处理器610上运行的计算机程序621。所述处理器610执行所述计算机程序621时实现上述热点话题提取方法各个实施例中的步骤,例如图1所示的步骤S101至S105。或者,所述处理器610执行所述计算机程序621时实现上述各装置实施例中各模块/单元的功能,例如图 5所示模块501至505的功能。
示例性的,所述计算机程序621可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器620中,并由所述处理器610 执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段可以用于描述所述计算机程序621在所述终端设备600中的执行过程。例如,所述计算机程序621可以被分割成新闻文本采集模块、特征词提取模块、句向量生成模块、新闻文本聚类模块和热点话题提取模块,各模块具体功能如下:
新闻文本采集模块,用于采集多个新闻文本;
特征词提取模块,用于针对任一新闻文本,提取所述新闻文本的多个特征词;
句向量生成模块,用于根据所述多个特征词,生成与所述新闻文本相对应的句向量;
新闻文本聚类模块,用于基于所述多个新闻文本各自对应的句向量,对所述多个新闻文本进行聚类,获得多个聚类簇;
热点话题提取模块,用于从所述多个聚类簇中提取热点话题。
所述终端设备600可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备600可包括,但不仅限于,处理器610、存储器620。本领域技术人员可以理解,图6仅仅是终端设备600的一种示例,并不构成对终端设备600的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备600还可以包括输入输出设备、网络接入设备、总线等。
所述处理器610可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器620可以是所述终端设备600的内部存储单元,例如终端设备600的硬盘或内存。所述存储器620也可以是所述终端设备600的外部存储设备,例如所述终端设备600上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card) 等等。进一步地,所述存储器620还可以既包括所述终端设备600的内部存储单元也包括外部存储设备。所述存储器620用于存储所述计算机程序621 以及所述终端设备600所需的其他程序和数据。所述存储器620还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制。尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种热点话题提取方法,其特征在于,包括:
采集多个新闻文本;
针对任一新闻文本,提取所述新闻文本的多个特征词;
根据所述多个特征词,生成与所述新闻文本相对应的句向量;
基于所述多个新闻文本各自对应的句向量,对所述多个新闻文本进行聚类,获得多个聚类簇;
从所述多个聚类簇中提取热点话题。
2.根据权利要求1所述的方法,其特征在于,所述针对任一新闻文本,提取所述新闻文本的多个特征词,包括:
针对任一新闻文本,对所述新闻文本进行分词,并删除分词后的非目标词,获得目标文本,所述非目标词包括停用词、数字或单字中的至少一种;
提取在所述目标文本的预设文本位置内的多个特征词。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述多个特征词,生成与所述新闻文本相对应的句向量包括:
根据预设的第一语言模型,将每个特征词映射为预设维度的稠密向量,所述第一语言模型通过采用预设的跳字模型对样本新闻文本进行训练获得;
根据预设的第二语言模型,确定所述每个特征词的权重值,所述第二语言模型为通过统计样本新闻文本中每个词语的逆文档频率获得;
根据所述每个特征词的稠密向量和所述权重值,生成与所述新闻文本相对应的句向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述每个特征词的稠密向量和所述权重值,生成与所述新闻文本相对应的句向量,包括:
针对任一特征词,分别计算所述特征词对应的稠密向量的值与所述特征词的权重值的乘积;
计算所述乘积与全部特征词的个数之间的比值,将所述比值作为句向量中与所述特征词相对应的维度的向量值,获得与所述新闻文本相对应的句向量。
5.根据权利要求1或2或4所述的方法,其特征在于,所述从所述多个聚类簇中提取热点话题,包括:
针对任一聚类簇,确定所述聚类簇的簇中心向量;
分别计算所述聚类簇中每个句向量与所述簇中心向量之间的距离;
提取与所述簇中心向量之间距离最小的句向量所对应的目标新闻文本;
根据所述目标新闻文本的新闻标题,确定热点话题。
6.根据权利要求5所述的方法,其特征在于,还包括:
当采集到新增新闻文本时,逐个计算所述新增新闻文本对应的句向量与所述多个聚类簇的簇中心向量之间的距离;
当所述新增新闻文本对应的句向量与目标聚类簇的簇中心向量之间的距离小于预设阈值时,将所述新增新闻文本加入所述目标聚类簇中,并停止计算所述新增新闻文本对应的句向量与其他聚类簇的簇中心向量之间的距离,所述目标聚类簇为所述多个聚类簇中的任意一个;
若所述新增新闻文本对应的句向量与所述多个聚类簇的簇中心向量之间的距离均大于所述预设阈值,则新建聚类簇,将所述新增新闻文本***新建的聚类簇中。
7.根据权利要求1或2或4或6所述的方法,其特征在于,所述多个聚类簇分别具有相应的时间属性,所述方法还包括:
根据所述时间属性,确定待处理的历史聚类簇;
针对任一聚类簇,分别计算所述聚类簇与所述历史聚类簇之间的相似度;
若所述相似度小于相似度阈值,则将小于相似度阈值的聚类簇与所述历史聚类簇进行合并。
8.一种热点话题提取装置,其特征在于,包括:
新闻文本采集模块,用于采集多个新闻文本;
特征词提取模块,用于针对任一新闻文本,提取所述新闻文本的多个特征词;
句向量生成模块,用于根据所述多个特征词,生成与所述新闻文本相对应的句向量;
新闻文本聚类模块,用于基于所述多个新闻文本各自对应的句向量,对所述多个新闻文本进行聚类,获得多个聚类簇;
热点话题提取模块,用于从所述多个聚类簇中提取热点话题。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的热点话题提取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的热点话题提取方法。
CN202010231954.9A 2020-03-27 2020-03-27 热点话题提取方法、装置、终端设备及存储介质 Active CN111460153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010231954.9A CN111460153B (zh) 2020-03-27 2020-03-27 热点话题提取方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010231954.9A CN111460153B (zh) 2020-03-27 2020-03-27 热点话题提取方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN111460153A true CN111460153A (zh) 2020-07-28
CN111460153B CN111460153B (zh) 2023-09-22

Family

ID=71681517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010231954.9A Active CN111460153B (zh) 2020-03-27 2020-03-27 热点话题提取方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN111460153B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914536A (zh) * 2020-08-06 2020-11-10 北京嘀嘀无限科技发展有限公司 观点分析方法、装置、设备及存储介质
CN112257801A (zh) * 2020-10-30 2021-01-22 浙江商汤科技开发有限公司 图像的增量聚类方法、装置、电子设备及存储介质
CN112613296A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 新闻的重要程度获取方法、装置、终端设备及存储介质
CN112989042A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 热点话题的提取方法、装置、计算机设备及存储介质
CN113407679A (zh) * 2021-06-30 2021-09-17 竹间智能科技(上海)有限公司 文本主题挖掘方法、装置、电子设备及存储介质
CN113420723A (zh) * 2021-07-21 2021-09-21 北京有竹居网络技术有限公司 获取视频热点的方法、装置、可读介质和电子设备
CN113761196A (zh) * 2021-07-28 2021-12-07 北京中科模识科技有限公司 文本聚类方法及***、电子设备和存储介质
WO2023009256A1 (en) * 2021-07-26 2023-02-02 Microsoft Technology Licensing, Llc Computing system for news aggregation
CN116049414A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于话题描述的文本聚类方法、电子设备和存储介质
CN116361470A (zh) * 2023-04-03 2023-06-30 北京中科闻歌科技股份有限公司 一种基于话题描述的文本聚类清洗和合并方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914536B (zh) * 2020-08-06 2021-12-17 北京嘀嘀无限科技发展有限公司 观点分析方法、装置、设备及存储介质
CN111914536A (zh) * 2020-08-06 2020-11-10 北京嘀嘀无限科技发展有限公司 观点分析方法、装置、设备及存储介质
CN112257801A (zh) * 2020-10-30 2021-01-22 浙江商汤科技开发有限公司 图像的增量聚类方法、装置、电子设备及存储介质
CN112613296A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 新闻的重要程度获取方法、装置、终端设备及存储介质
CN112989042A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 热点话题的提取方法、装置、计算机设备及存储介质
CN112989042B (zh) * 2021-03-15 2024-03-15 平安科技(深圳)有限公司 热点话题的提取方法、装置、计算机设备及存储介质
CN113407679B (zh) * 2021-06-30 2023-10-03 竹间智能科技(上海)有限公司 文本主题挖掘方法、装置、电子设备及存储介质
CN113407679A (zh) * 2021-06-30 2021-09-17 竹间智能科技(上海)有限公司 文本主题挖掘方法、装置、电子设备及存储介质
WO2023000782A1 (zh) * 2021-07-21 2023-01-26 北京有竹居网络技术有限公司 获取视频热点的方法、装置、可读介质和电子设备
CN113420723A (zh) * 2021-07-21 2021-09-21 北京有竹居网络技术有限公司 获取视频热点的方法、装置、可读介质和电子设备
WO2023009256A1 (en) * 2021-07-26 2023-02-02 Microsoft Technology Licensing, Llc Computing system for news aggregation
CN113761196A (zh) * 2021-07-28 2021-12-07 北京中科模识科技有限公司 文本聚类方法及***、电子设备和存储介质
CN113761196B (zh) * 2021-07-28 2024-02-20 北京中科模识科技有限公司 文本聚类方法及***、电子设备和存储介质
CN116049414A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于话题描述的文本聚类方法、电子设备和存储介质
CN116361470A (zh) * 2023-04-03 2023-06-30 北京中科闻歌科技股份有限公司 一种基于话题描述的文本聚类清洗和合并方法
CN116361470B (zh) * 2023-04-03 2024-05-14 北京中科闻歌科技股份有限公司 一种基于话题描述的文本聚类清洗和合并方法

Also Published As

Publication number Publication date
CN111460153B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN111460153B (zh) 热点话题提取方法、装置、终端设备及存储介质
CN110162695B (zh) 一种信息推送的方法及设备
TWI653542B (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
Li et al. Filtering out the noise in short text topic modeling
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
CN106874292B (zh) 话题处理方法及装置
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
US20190102655A1 (en) Training data acquisition method and device, server and storage medium
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN105760526B (zh) 一种新闻分类的方法和装置
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN108090216B (zh) 一种标签预测方法、装置及存储介质
US20180046721A1 (en) Systems and Methods for Automatic Customization of Content Filtering
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN111767796A (zh) 一种视频关联方法、装置、服务器和可读存储介质
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN113660541B (zh) 新闻视频的摘要生成方法及装置
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant