CN114880588B

CN114880588B - 基于知识图谱的新闻热度预测方法

Info

Publication number: CN114880588B
Application number: CN202210661303.2A
Authority: CN
Inventors: 李少博; 高登科; 徐桢虎
Original assignee: Sichuan Cover Media Technology Co ltd
Current assignee: Sichuan Cover Media Technology Co ltd
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2024-04-26
Anticipated expiration: 2042-06-13
Also published as: CN114880588A

Abstract

本发明涉及新闻媒体技术领域，公开了一种基于知识图谱的新闻热度预测方法，旨在解决现有的新闻热度预测存在预测结果滞后的问题，方案主要包括：首先对现有新闻事件的新闻数据进行信息抽取，并根据抽取得到主题词、主要实体词以及事件三元组构建事件图谱；然后根据业务规则以及预设的事件匹配算法构建知识图谱检索引擎；在需要对待预测新闻文本进行热度预测时，对待预测新闻文本进行信息抽取，知识图谱检索引擎根据抽取得到的主题词、主要实体词以及事件三元组在事件图谱中匹配新闻事件；最后根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。本发明实现了对新闻热度的***，特别适用于媒体行业。

Description

基于知识图谱的新闻热度预测方法

技术领域

本发明涉及新闻媒体技术领域，具体来说涉及一种基于知识图谱的新闻热度预测方法。

背景技术

随着互联网的发展，信息大量涌现，各式各样的信息发布渠道越来越多，各类新闻类型和报道题材层出不穷，对于新闻信息发布者来说，发布一些让读者感兴趣的东西显得尤为重要，在创作过程中提高新闻内容题材选型，预测其最终可能传播的热度，使其以较小的创作产出获得更多更具有传播力的作品，在互联网流量为王的竞争中处于优势低位，并在行业中取得一定的影响力。由此可见，新闻热度正起到越来越重要的作用，预测新闻热度对新闻内容生产者来说具有重要的意义。不仅可以提高内容生产效率，还对内容创作流程提供指导方向，让创作的新闻更贴合读者的需求，为媒体行业的长足发展打下坚实的基础。

现有新闻热度预测大多数是通过分析新闻的传播路径、热词及发布源等维度信息进行实时预测，但这类预测方法执行起来比较复杂，需要结合多方实时数据，预测结果较为滞后，往往计算出的热点新闻已经是发生后的事情，对于新闻生产者而言，这类基于实时热点的创作更像是“蹭热点”而非创造热点。

发明内容

本发明旨在解决现有的新闻热度预测存在预测结果滞后的问题，提出一种基于知识图谱的新闻热度预测方法。

本发明解决上述技术问题所采用的技术方案是：

基于知识图谱的新闻热度预测方法，包括以下步骤：

步骤1、获取新闻数据，确定各新闻数据所属的新闻事件以及各新闻事件对应的热度值，对属于同一新闻事件的新闻数据进行归类后，对新闻数据进行预处理；

步骤2、针对每个新闻事件，根据其对应的所有新闻数据进行信息抽取，获得各新闻事件对应的第一事件三元组，所述第一事件三元组包含第一主题词和第一主要实体词；

步骤3、根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度，将所述相似度大于阈值的新闻事件进行融合，并确定融合后的新闻事件的热度值；

步骤4、将所有新闻事件及其对应的第一事件三元组保存至图数据库，并基于应用场景、业务规则和预设匹配得分算法构建知识图谱检索引擎；

步骤5、获取待预测新闻文本，对待预测新闻文本进行信息抽取，获得待预测新闻文本对应的结构化数据，所述结构化数据至少包括第二主题词、第二主要实体词以及第二事件三元组；

步骤6、将所述结构化数据输入至知识图谱检索引擎，所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配，得到匹配得分靠前的多个新闻事件；

步骤7、根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。

进一步地，步骤1中，所述获取新闻数据，具体包括：

根据热榜新闻数据的质量、数量和领域对各新闻数据源进行权重打分，选取权重得分靠前的多个新闻数据源；

基于爬虫算法并根据对应的权重得分分别对选取的各新闻数据源进行数据爬取，获得与热榜新闻事件相关联的所有新闻数据以及热榜新闻事件对应的热度值；其中，权重得分越高，则对应新闻数据源的爬取数据量越多，权重得分越低，则对应新闻数据源的爬取数据量越少。

进一步地，步骤1中，所述对新闻数据进行预处理，具体包括：

过滤无法归类以及信息残缺的新闻数据；

过滤新闻数据中的敏感信息和不良信息；

对新闻数据进行脏数据清洗以及去重处理。

进一步地，步骤2中，所述根据其对应的所有新闻数据进行信息抽取，具体包括：

使用LDA模型对新闻数据进行主题词抽取，获得新闻事件对应的多个主题词，选取排名靠前且在新闻数据中出现的多个主题词作为第一主题词；

对新闻事件下的所有新闻数据进行分句处理后，基于领域词典和深度学习进行实体识别抽取，获得新闻事件对应的多个实体词，基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取，获得新闻事件对应的多个事件三元组；

基于TF-IDF计算抽取的各实体词在新闻数据中的实体得分，将该实体得分进行归一化处理后，选取实体得分之和占预设比例的实体词作为对应新闻事件的第一主要实体词；

将包含第一主题词以及第一主要实体词的事件三元组作为新闻事件的第一事件三元组。

进一步地，步骤3中，根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度，具体包括：

获取各新闻事件对应的发布时间，选取一定时间范围内的新闻事件，并计算选取的各新闻事件对应的第一事件三元组的相似度，具体包括：

基于Jaccard相似系数计算各第一事件三元组中主要实体词的实体相似度，基于RoBERTa对各第一事件三元组中的主题词向量化后，计算各第一事件三元组中主题词的余弦相似度，对所述实体相似度和余弦相似度进行加权求和后得到各新闻事件的相似度。

进一步地，步骤3中，所述确定融合后的新闻事件的热度值，具体包括：

对各新闻事件对应的热度值进行对齐处理；

对融合后的新闻事件的热度值进行更新处理，具体包括：将各新闻事件的热度值的平均值，作为对应融合后的新闻事件的热度值。

进一步地，步骤5中，所述对待预测新闻文本进行信息抽取，具体包括：

使用LDA模型对待预测新闻文本进行主题词抽取，获得待预测新闻文本对应的多个主题词，选取排名靠前且在待预测新闻文本中出现的多个主题词作为第二主题词；

对待预测新闻文本进行分句处理后，基于领域词典和深度学习进行实体识别抽取，获得待预测新闻文本对应的多个实体词，基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取，获得待预测新闻文本对应的多个事件三元组；

基于TF-IDF计算抽取的各实体词在待预测新闻文本中的实体得分，将该实体得分进行归一化处理后，选取实体得分之和占预设比例的实体词作为待预测新闻文本的第二主要实体词；

将包含第二主题词以及第二主要实体词的事件三元组作为待预测新闻文本的第二事件三元组。

进一步地，步骤6中，所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配，具体包括：

基于Word2vec将所述第二事件三元组与各第一事件三元组进行向量化后，计算所述第二事件三元组与各第一事件三元组的三元组相似度；

基于Jaccard相似系数计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词类型相似度；

基于规则映射计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词数量相似度；

基于Word2vec将所述第二主题词与各第一事件三元组中的第一主题词进行向量化后，计算所述第二主题词与各第一事件三元组中的第一主题词的主题词相似度；

将所述三元组相似度、实体词类型相似度、实体词数量相似度和主题词相似度的平均值作为所述待预测新闻文本与图数据库中各新闻事件的匹配得分。

进一步地，步骤7中，所述根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值，具体包括：

根据匹配得分确定匹配得到的新闻事件的权重，根据该权重对匹配得到的新闻事件的热度值进行加权求和，得到待预测新闻文本的预测热度值。

进一步地，还包括：

定期执行步骤1-3，得到新增的新闻事件及其对应的第一事件三元组，将新增新闻事件及其对应的第一事件三元组保存至图数据库。

本发明的有益效果是：本发明所述的基于知识图谱的新闻热度预测方法，通过构建热点事件图谱来挖掘热点新闻事件本身内在规律并以此来进行新闻热度预测，新闻创作者可以将创作的新闻文本与事件图谱进行匹配，并根据匹配得到的新闻事件的热度来确定新闻文本的热度值，从而预测出新闻文本是否可能成为热点新闻，实现对新闻热度的***。

附图说明

图1为本发明实施例所述的基于知识图谱的新闻热度预测方法的流程示意图；

图2为本发明实施例所述的新闻数据获取的流程示意图；

图3为本发明实施例所述的信息抽取的流程示意图；

图4为本发明实施例所述的新闻事件对齐处理的流程示意图；

图5为本发明实施例所述的时间图谱构建的流程示意图。

具体实施方式

下面将结合附图对本发明的实施方式进行详细描述。

本发明所述的基于知识图谱的新闻热度预测方法，包括以下步骤：步骤1、获取新闻数据，确定各新闻数据所属的新闻事件以及各新闻事件对应的热度值，对属于同一新闻事件的新闻数据进行归类后，对新闻数据进行预处理；步骤2、针对每个新闻事件，根据其对应的所有新闻数据进行信息抽取，获得各新闻事件对应的第一事件三元组，所述第一事件三元组包含第一主题词和第一主要实体词；步骤3、根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度，将所述相似度大于阈值的新闻事件进行融合，并确定融合后的新闻事件的热度值；步骤4、将所有新闻事件及其对应的第一事件三元组保存至图数据库，并基于应用场景、业务规则和预设匹配得分算法构建知识图谱检索引擎；步骤5、获取待预测新闻文本，对待预测新闻文本进行信息抽取，获得待预测新闻文本对应的结构化数据，所述结构化数据至少包括第二主题词、第二主要实体词以及第二事件三元组；步骤6、将所述结构化数据输入至知识图谱检索引擎，所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配，得到匹配得分靠前的多个新闻事件；步骤7、根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。

具体而言，本发明首先对现有新闻事件的新闻数据进行信息抽取，并根据抽取得到主题词、主要实体词以及事件三元组构建事件图谱；然后根据业务规则以及预设的事件匹配算法构建知识图谱检索引擎；在需要对待预测新闻文本进行热度预测时，对待预测新闻文本进行信息抽取，知识图谱检索引擎根据抽取得到的主题词、主要实体词以及事件三元组在事件图谱中匹配新闻事件；最后根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。

实施例

本实施例所述的基于知识图谱的新闻热度预测方法，如图1所示，包括以下步骤：

本实施例中，如图2所示，获取新闻数据的方法具体包括：

具体而言，本实施例通过梳理全网各大新闻网站并将其作为新闻数据源，分析不同新闻数据源的热榜新闻数据的质量、数量、领域，通过对以上各个维度进行人工抽样评估打分后进行计算平均得分，得到不同新闻数据源各自的权重得分；选取权重得分靠前的几个新闻数据源，并根据权重得分分配抓取资源。具体地，针对得分较高的新闻数据源增加爬取数据量，反之则减少爬取数据量。本实施例基于python开源Scrapy包构建爬虫算法，定期抓取热榜新闻事件及热榜底下关联的新闻数据、并获取热榜新闻事件的热度值及发布时间等信息。

本实施例针对全网数据源进行量化分析，保证了数据的可靠性和多样性。

针对爬取后的新闻数据，将隶属于同一新闻事件的新闻数据进行归类后，过滤无法归类以及信息残缺的新闻数据；并构建基于词典、拼音、异形字构建AC自动机敏感检测算法，对上述分好领域类别的新闻数据，进行敏感信息和不良信息的过滤(涉黄、涉暴、广告等)；以及对上述新闻数据进行脏数据的清洗、文本内容重复度很高的新闻进行去重处理(例如：同一篇新闻被多个媒体转发，但内容基本一样)，并全量字段结构化处理入库。

本实施例针对爬取后的新闻数据进行脏数据的清洗和敏感数据的过滤，并且进行人工复核，大大保证了数据的高质量。

如图3所示，每个新闻事件的信息抽取流程包括以下步骤：

步骤21、使用LDA模型对新闻数据进行主题词抽取，获得新闻事件对应的多个主题词，选取排名靠前且在新闻数据中出现的多个主题词作为第一主题词；

本实施例中，第一主题词的数量可以根据实际需求设置，本实施例对此不作限制，例如3个，即将排名前3且在新闻数据中出现的主题词作为第一主题词。

步骤22、对新闻事件下的所有新闻数据进行分句处理后，基于领域词典和深度学习进行实体识别抽取，获得新闻事件对应的多个实体词，基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取，获得新闻事件对应的多个事件三元组；

如图3所示，本实施例通过动态多池卷积神经网络DMCNN对新闻数据中的各句子分别进行触发词识别和论元识别，以减少传统方法的多级任务造成了误差传递，并且在论元识别过程中，采用微调后的BERT模型作为embedding的初始值，并且加入attention层，提高对长距离依赖的建模能力。

步骤23、基于TF-IDF计算抽取的各实体词在新闻数据中的实体得分，将该实体得分进行归一化处理后，选取实体得分之和占预设比例的实体词作为对应新闻事件的第一主要实体词；

本实施例中，预设比例可以根据实际需求设置，本实施例对此不作限制，例如80％，即将实体得分之和占80％的实体词作为对应新闻事件的第一主要实体词。

步骤24、将包含第一主题词以及第一主要实体词的事件三元组作为新闻事件的第一事件三元组。

为了保证事件三元组的有效性，本实施例还对最终得到的第一事件三元组进行人工部分抽样审核。

可以理解，由于每个新闻事件在时间维度上存在不同的演化发展，所以时常会出现多个热点新闻事件本身其实是源于一个新闻事件，所以需要进行相关事件对齐工作。

如图4所示，首先获取各新闻事件对应的发布时间，选取一定时间范围内的新闻事件。其中，时间范围可以根据实际需求设置，本实施例对此不作限制，本实施例中时间范围根据《网络舆情热点事件传播的生命周期研究》中的研究结论，一般以7天为限。

然后计算选取的各新闻事件对应的第一事件三元组的相似度，具体包括：基于Jaccard相似系数计算各第一事件三元组中主要实体词的实体相似度，基于RoBERTa对各第一事件三元组中的主题词向量化后，计算各第一事件三元组中主题词的余弦相似度，对所述实体相似度和余弦相似度进行加权求和后得到各新闻事件的相似度。

最后将相似度大于一定的阈值的多个新闻事件归为一类新闻事件，进行新闻事件融合操作。其中，阈值可根据实际需求设置，本实施例对此不作限制，也可以人工多次基于业务场景进行效果调试。

本实施例中，还将融合后的新闻事件的热度值进行更新处理，由于热度值来源于各个网站的数据抓取，热度分数有所差异，需要对对各新闻事件对应的热度值进行对齐处理，即将其归一化到标准模板(将热度值映射到设计的区间上)，例如百度热榜将400万以上的映射到100分，300万到400万映射后到80分，将各个新闻事件对应的热度值进行标准化对齐操作后，计算平均值，即为对应融合后的新闻事件的热度值。

此外，如果有新增的新闻事件，则定期将新增的新闻事件与原有新闻事件按照以上流程进行对齐处理。

如图5所示，本实施例将对齐后的第一事件三元组进行事件归类处理后将其输入至图数据库进行固话，并将新闻事件的名称及其对应的热度值进行数据库固化，然后根据应用场景开发构建相关知识图谱检索引擎，主要包括基于业务规则和预设匹配得分算法来匹配新闻事件，进而完成事件图谱的构建。

本实施例中，预设匹配算法通过事件三元组匹配情况、主要实体词匹配情况以及主题词匹配情况等匹配维度制定。其中，事件三元组匹配情况为向量化后的事件三元组的相似度；主要实体词匹配情况包括实体词类型相似度和实体词数量相似度；主题词匹配情况为向量化后的主题词的相似度。本实施例中的知识图谱检索引擎能够根据事件三元组匹配情况、主要实体词匹配情况以及主题词匹配情况在图数据库中匹配新闻事件。

具体而言，针对媒体工作者创作的待预测新闻文本，首先对其进行实体、关系、属性等内容结构化信息的抽取，获得待预测新闻文本对应的结构化数据，具体包括：

步骤51、使用LDA模型对待预测新闻文本进行主题词抽取，获得待预测新闻文本对应的多个主题词，选取排名靠前且在待预测新闻文本中出现的多个主题词作为第二主题词；

步骤52、对待预测新闻文本进行分句处理后，基于领域词典和深度学习进行实体识别抽取，获得待预测新闻文本对应的多个实体词，基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取，获得待预测新闻文本对应的多个事件三元组；

步骤53、基于TF-IDF计算抽取的各实体词在待预测新闻文本中的实体得分，将该实体得分进行归一化处理后，选取实体得分之和占预设比例的实体词作为待预测新闻文本的第二主要实体词；

步骤54、将包含第二主题词以及第二主要实体词的事件三元组作为待预测新闻文本的第二事件三元组。

可以理解，上述信息抽取的方式与新闻事件的信息抽取方法相同，此处不再赘述，相关之处参见步骤2即可。

具体地，知识图谱检索引擎在收到输入的结构化数据后，根据其中的第二主题词、第二主要实体词以及第二事件三元组在图数据库中匹配相似新闻事件，具体包括：

步骤61、基于Word2vec将所述第二事件三元组与各第一事件三元组进行向量化后，计算所述第二事件三元组与各第一事件三元组的三元组相似度；

步骤62、基于Jaccard相似系数计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词类型相似度；

步骤63、基于规则映射计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词数量相似度。例如实体词数量相差10以上，则相似度为0.1，实体词数量相差10到5，则相似度为0.6，实体词数量相差5到2，则相似度为0.8，实体词数量相差2以内，则相似度为1。

步骤64、基于Word2vec将所述第二主题词与各第一事件三元组中的第一主题词进行向量化后，计算所述第二主题词与各第一事件三元组中的第一主题词的主题词相似度；

步骤65、将所述三元组相似度、实体词类型相似度、实体词数量相似度和主题词相似度的平均值作为所述待预测新闻文本与图数据库中各新闻事件的匹配得分。

可以理解，通过以上步骤得到三元组相似度、实体词类型相似度、实体词数量相似度和主题词相似度均处于[0，1]的区间，最后将各相似度的平均值作为新闻事件的匹配得分，即：匹配得分＝(三元组相似度+实体词类型相似度+实体词数量相似度+主题词相似度)/4。

为了减少计算量，本实施例选取匹配得分前三的新闻事件作为匹配得到的新闻事件。

具体而言，本实施例根据匹配得分确定匹配得到的新闻事件的权重，根据该权重对匹配得到的新闻事件的热度值进行加权求和，得到待预测新闻文本的预测热度值。即，假设匹配得到的新闻事件分别为新闻事件1、新闻事件2和新闻事件3，则预测热度值＝新闻事件1*新闻事件1的热度值+新闻事件2*新闻事件2的热度值+新闻事件3*新闻事件3的热度值。

综上所述，本实施例针对全网数据源进行量化分析，保证了数据的可靠性和多样性。针对爬取后的新闻数据进行脏数据的清洗和敏感数据的过滤，并且进行人工复核，大大保证了数据的高质量。利用信息抽取技术对单个新闻事件下的所有新闻数据进行实体关系属性等信息抽取，基于深度学习模型对事件抽取任务进行联合训练，减少了传统方法的多级任务造成了误差传递。通过预训练模型和注意力层的添加减少，提高对长距离依赖的建模能力。采用主题词和实体词对事件三元组进行加权评分，使得图谱具备而获得更好的新闻事件的描述能力。将待预测内容与历史事件图谱进行匹配，基于匹配得分可以比较客观的从先验知识获取对内容的刻画情况，从自身事件特色属性上对内容热度进行合理的预测。预测介入点提前，不同于传统的热词实时分析，可以在内容发布之初，还没有推广传播之前进行内容的热度预测，可以让新闻创作者有较大的容错率及更多的改进时间。

Claims

1.基于知识图谱的新闻热度预测方法，其特征在于，包括以下步骤：

所述根据其对应的所有新闻数据进行信息抽取，具体包括：

将包含第一主题词以及第一主要实体词的事件三元组作为新闻事件的第一事件三元组；

根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度，具体包括：

基于Jaccard相似系数计算各第一事件三元组中主要实体词的实体相似度，基于RoBERTa对各第一事件三元组中的主题词向量化后，计算各第一事件三元组中主题词的余弦相似度，对所述实体相似度和余弦相似度进行加权求和后得到各新闻事件的相似度；

所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配，具体包括：

将所述三元组相似度、实体词类型相似度、实体词数量相似度和主题词相似度的平均值作为所述待预测新闻文本与图数据库中各新闻事件的匹配得分；

2.如权利要求1所述的基于知识图谱的新闻热度预测方法，其特征在于，步骤1中，所述获取新闻数据，具体包括：

3.如权利要求1所述的基于知识图谱的新闻热度预测方法，其特征在于，步骤1中，所述对新闻数据进行预处理，具体包括：

过滤无法归类以及信息残缺的新闻数据；

过滤新闻数据中的敏感信息和不良信息；

对新闻数据进行脏数据清洗以及去重处理。

4.如权利要求1所述的基于知识图谱的新闻热度预测方法，其特征在于，步骤3中，所述确定融合后的新闻事件的热度值，具体包括：

对各新闻事件对应的热度值进行对齐处理；

5.如权利要求1所述的基于知识图谱的新闻热度预测方法，其特征在于，步骤5中，所述对待预测新闻文本进行信息抽取，具体包括：

6.如权利要求1所述的基于知识图谱的新闻热度预测方法，其特征在于，步骤7中，所述根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值，具体包括：

7.如权利要求1-6任一项所述的基于知识图谱的新闻热度预测方法，其特征在于，还包括：