CN114880588B - 基于知识图谱的新闻热度预测方法 - Google Patents

基于知识图谱的新闻热度预测方法 Download PDF

Info

Publication number
CN114880588B
CN114880588B CN202210661303.2A CN202210661303A CN114880588B CN 114880588 B CN114880588 B CN 114880588B CN 202210661303 A CN202210661303 A CN 202210661303A CN 114880588 B CN114880588 B CN 114880588B
Authority
CN
China
Prior art keywords
news
event
entity
predicted
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210661303.2A
Other languages
English (en)
Other versions
CN114880588A (zh
Inventor
李少博
高登科
徐桢虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Cover Media Technology Co ltd
Original Assignee
Sichuan Cover Media Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Cover Media Technology Co ltd filed Critical Sichuan Cover Media Technology Co ltd
Priority to CN202210661303.2A priority Critical patent/CN114880588B/zh
Publication of CN114880588A publication Critical patent/CN114880588A/zh
Application granted granted Critical
Publication of CN114880588B publication Critical patent/CN114880588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及新闻媒体技术领域,公开了一种基于知识图谱的新闻热度预测方法,旨在解决现有的新闻热度预测存在预测结果滞后的问题,方案主要包括:首先对现有新闻事件的新闻数据进行信息抽取,并根据抽取得到主题词、主要实体词以及事件三元组构建事件图谱;然后根据业务规则以及预设的事件匹配算法构建知识图谱检索引擎;在需要对待预测新闻文本进行热度预测时,对待预测新闻文本进行信息抽取,知识图谱检索引擎根据抽取得到的主题词、主要实体词以及事件三元组在事件图谱中匹配新闻事件;最后根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。本发明实现了对新闻热度的***,特别适用于媒体行业。

Description

基于知识图谱的新闻热度预测方法
技术领域
本发明涉及新闻媒体技术领域,具体来说涉及一种基于知识图谱的新闻热度预测方法。
背景技术
随着互联网的发展,信息大量涌现,各式各样的信息发布渠道越来越多,各类新闻类型和报道题材层出不穷,对于新闻信息发布者来说,发布一些让读者感兴趣的东西显得尤为重要,在创作过程中提高新闻内容题材选型,预测其最终可能传播的热度,使其以较小的创作产出获得更多更具有传播力的作品,在互联网流量为王的竞争中处于优势低位,并在行业中取得一定的影响力。由此可见,新闻热度正起到越来越重要的作用,预测新闻热度对新闻内容生产者来说具有重要的意义。不仅可以提高内容生产效率,还对内容创作流程提供指导方向,让创作的新闻更贴合读者的需求,为媒体行业的长足发展打下坚实的基础。
现有新闻热度预测大多数是通过分析新闻的传播路径、热词及发布源等维度信息进行实时预测,但这类预测方法执行起来比较复杂,需要结合多方实时数据,预测结果较为滞后,往往计算出的热点新闻已经是发生后的事情,对于新闻生产者而言,这类基于实时热点的创作更像是“蹭热点”而非创造热点。
发明内容
本发明旨在解决现有的新闻热度预测存在预测结果滞后的问题,提出一种基于知识图谱的新闻热度预测方法。
本发明解决上述技术问题所采用的技术方案是:
基于知识图谱的新闻热度预测方法,包括以下步骤:
步骤1、获取新闻数据,确定各新闻数据所属的新闻事件以及各新闻事件对应的热度值,对属于同一新闻事件的新闻数据进行归类后,对新闻数据进行预处理;
步骤2、针对每个新闻事件,根据其对应的所有新闻数据进行信息抽取,获得各新闻事件对应的第一事件三元组,所述第一事件三元组包含第一主题词和第一主要实体词;
步骤3、根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,将所述相似度大于阈值的新闻事件进行融合,并确定融合后的新闻事件的热度值;
步骤4、将所有新闻事件及其对应的第一事件三元组保存至图数据库,并基于应用场景、业务规则和预设匹配得分算法构建知识图谱检索引擎;
步骤5、获取待预测新闻文本,对待预测新闻文本进行信息抽取,获得待预测新闻文本对应的结构化数据,所述结构化数据至少包括第二主题词、第二主要实体词以及第二事件三元组;
步骤6、将所述结构化数据输入至知识图谱检索引擎,所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配,得到匹配得分靠前的多个新闻事件;
步骤7、根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。
进一步地,步骤1中,所述获取新闻数据,具体包括:
根据热榜新闻数据的质量、数量和领域对各新闻数据源进行权重打分,选取权重得分靠前的多个新闻数据源;
基于爬虫算法并根据对应的权重得分分别对选取的各新闻数据源进行数据爬取,获得与热榜新闻事件相关联的所有新闻数据以及热榜新闻事件对应的热度值;其中,权重得分越高,则对应新闻数据源的爬取数据量越多,权重得分越低,则对应新闻数据源的爬取数据量越少。
进一步地,步骤1中,所述对新闻数据进行预处理,具体包括:
过滤无法归类以及信息残缺的新闻数据;
过滤新闻数据中的敏感信息和不良信息;
对新闻数据进行脏数据清洗以及去重处理。
进一步地,步骤2中,所述根据其对应的所有新闻数据进行信息抽取,具体包括:
使用LDA模型对新闻数据进行主题词抽取,获得新闻事件对应的多个主题词,选取排名靠前且在新闻数据中出现的多个主题词作为第一主题词;
对新闻事件下的所有新闻数据进行分句处理后,基于领域词典和深度学习进行实体识别抽取,获得新闻事件对应的多个实体词,基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取,获得新闻事件对应的多个事件三元组;
基于TF-IDF计算抽取的各实体词在新闻数据中的实体得分,将该实体得分进行归一化处理后,选取实体得分之和占预设比例的实体词作为对应新闻事件的第一主要实体词;
将包含第一主题词以及第一主要实体词的事件三元组作为新闻事件的第一事件三元组。
进一步地,步骤3中,根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,具体包括:
获取各新闻事件对应的发布时间,选取一定时间范围内的新闻事件,并计算选取的各新闻事件对应的第一事件三元组的相似度,具体包括:
基于Jaccard相似系数计算各第一事件三元组中主要实体词的实体相似度,基于RoBERTa对各第一事件三元组中的主题词向量化后,计算各第一事件三元组中主题词的余弦相似度,对所述实体相似度和余弦相似度进行加权求和后得到各新闻事件的相似度。
进一步地,步骤3中,所述确定融合后的新闻事件的热度值,具体包括:
对各新闻事件对应的热度值进行对齐处理;
对融合后的新闻事件的热度值进行更新处理,具体包括:将各新闻事件的热度值的平均值,作为对应融合后的新闻事件的热度值。
进一步地,步骤5中,所述对待预测新闻文本进行信息抽取,具体包括:
使用LDA模型对待预测新闻文本进行主题词抽取,获得待预测新闻文本对应的多个主题词,选取排名靠前且在待预测新闻文本中出现的多个主题词作为第二主题词;
对待预测新闻文本进行分句处理后,基于领域词典和深度学习进行实体识别抽取,获得待预测新闻文本对应的多个实体词,基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取,获得待预测新闻文本对应的多个事件三元组;
基于TF-IDF计算抽取的各实体词在待预测新闻文本中的实体得分,将该实体得分进行归一化处理后,选取实体得分之和占预设比例的实体词作为待预测新闻文本的第二主要实体词;
将包含第二主题词以及第二主要实体词的事件三元组作为待预测新闻文本的第二事件三元组。
进一步地,步骤6中,所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配,具体包括:
基于Word2vec将所述第二事件三元组与各第一事件三元组进行向量化后,计算所述第二事件三元组与各第一事件三元组的三元组相似度;
基于Jaccard相似系数计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词类型相似度;
基于规则映射计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词数量相似度;
基于Word2vec将所述第二主题词与各第一事件三元组中的第一主题词进行向量化后,计算所述第二主题词与各第一事件三元组中的第一主题词的主题词相似度;
将所述三元组相似度、实体词类型相似度、实体词数量相似度和主题词相似度的平均值作为所述待预测新闻文本与图数据库中各新闻事件的匹配得分。
进一步地,步骤7中,所述根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值,具体包括:
根据匹配得分确定匹配得到的新闻事件的权重,根据该权重对匹配得到的新闻事件的热度值进行加权求和,得到待预测新闻文本的预测热度值。
进一步地,还包括:
定期执行步骤1-3,得到新增的新闻事件及其对应的第一事件三元组,将新增新闻事件及其对应的第一事件三元组保存至图数据库。
本发明的有益效果是:本发明所述的基于知识图谱的新闻热度预测方法,通过构建热点事件图谱来挖掘热点新闻事件本身内在规律并以此来进行新闻热度预测,新闻创作者可以将创作的新闻文本与事件图谱进行匹配,并根据匹配得到的新闻事件的热度来确定新闻文本的热度值,从而预测出新闻文本是否可能成为热点新闻,实现对新闻热度的***。
附图说明
图1为本发明实施例所述的基于知识图谱的新闻热度预测方法的流程示意图;
图2为本发明实施例所述的新闻数据获取的流程示意图;
图3为本发明实施例所述的信息抽取的流程示意图;
图4为本发明实施例所述的新闻事件对齐处理的流程示意图;
图5为本发明实施例所述的时间图谱构建的流程示意图。
具体实施方式
下面将结合附图对本发明的实施方式进行详细描述。
本发明所述的基于知识图谱的新闻热度预测方法,包括以下步骤:步骤1、获取新闻数据,确定各新闻数据所属的新闻事件以及各新闻事件对应的热度值,对属于同一新闻事件的新闻数据进行归类后,对新闻数据进行预处理;步骤2、针对每个新闻事件,根据其对应的所有新闻数据进行信息抽取,获得各新闻事件对应的第一事件三元组,所述第一事件三元组包含第一主题词和第一主要实体词;步骤3、根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,将所述相似度大于阈值的新闻事件进行融合,并确定融合后的新闻事件的热度值;步骤4、将所有新闻事件及其对应的第一事件三元组保存至图数据库,并基于应用场景、业务规则和预设匹配得分算法构建知识图谱检索引擎;步骤5、获取待预测新闻文本,对待预测新闻文本进行信息抽取,获得待预测新闻文本对应的结构化数据,所述结构化数据至少包括第二主题词、第二主要实体词以及第二事件三元组;步骤6、将所述结构化数据输入至知识图谱检索引擎,所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配,得到匹配得分靠前的多个新闻事件;步骤7、根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。
具体而言,本发明首先对现有新闻事件的新闻数据进行信息抽取,并根据抽取得到主题词、主要实体词以及事件三元组构建事件图谱;然后根据业务规则以及预设的事件匹配算法构建知识图谱检索引擎;在需要对待预测新闻文本进行热度预测时,对待预测新闻文本进行信息抽取,知识图谱检索引擎根据抽取得到的主题词、主要实体词以及事件三元组在事件图谱中匹配新闻事件;最后根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。
实施例
本实施例所述的基于知识图谱的新闻热度预测方法,如图1所示,包括以下步骤:
步骤1、获取新闻数据,确定各新闻数据所属的新闻事件以及各新闻事件对应的热度值,对属于同一新闻事件的新闻数据进行归类后,对新闻数据进行预处理;
本实施例中,如图2所示,获取新闻数据的方法具体包括:
根据热榜新闻数据的质量、数量和领域对各新闻数据源进行权重打分,选取权重得分靠前的多个新闻数据源;
基于爬虫算法并根据对应的权重得分分别对选取的各新闻数据源进行数据爬取,获得与热榜新闻事件相关联的所有新闻数据以及热榜新闻事件对应的热度值;其中,权重得分越高,则对应新闻数据源的爬取数据量越多,权重得分越低,则对应新闻数据源的爬取数据量越少。
具体而言,本实施例通过梳理全网各大新闻网站并将其作为新闻数据源,分析不同新闻数据源的热榜新闻数据的质量、数量、领域,通过对以上各个维度进行人工抽样评估打分后进行计算平均得分,得到不同新闻数据源各自的权重得分;选取权重得分靠前的几个新闻数据源,并根据权重得分分配抓取资源。具体地,针对得分较高的新闻数据源增加爬取数据量,反之则减少爬取数据量。本实施例基于python开源Scrapy包构建爬虫算法,定期抓取热榜新闻事件及热榜底下关联的新闻数据、并获取热榜新闻事件的热度值及发布时间等信息。
本实施例针对全网数据源进行量化分析,保证了数据的可靠性和多样性。
针对爬取后的新闻数据,将隶属于同一新闻事件的新闻数据进行归类后,过滤无法归类以及信息残缺的新闻数据;并构建基于词典、拼音、异形字构建AC自动机敏感检测算法,对上述分好领域类别的新闻数据,进行敏感信息和不良信息的过滤(涉黄、涉暴、广告等);以及对上述新闻数据进行脏数据的清洗、文本内容重复度很高的新闻进行去重处理(例如:同一篇新闻被多个媒体转发,但内容基本一样),并全量字段结构化处理入库。
本实施例针对爬取后的新闻数据进行脏数据的清洗和敏感数据的过滤,并且进行人工复核,大大保证了数据的高质量。
步骤2、针对每个新闻事件,根据其对应的所有新闻数据进行信息抽取,获得各新闻事件对应的第一事件三元组,所述第一事件三元组包含第一主题词和第一主要实体词;
如图3所示,每个新闻事件的信息抽取流程包括以下步骤:
步骤21、使用LDA模型对新闻数据进行主题词抽取,获得新闻事件对应的多个主题词,选取排名靠前且在新闻数据中出现的多个主题词作为第一主题词;
本实施例中,第一主题词的数量可以根据实际需求设置,本实施例对此不作限制,例如3个,即将排名前3且在新闻数据中出现的主题词作为第一主题词。
步骤22、对新闻事件下的所有新闻数据进行分句处理后,基于领域词典和深度学习进行实体识别抽取,获得新闻事件对应的多个实体词,基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取,获得新闻事件对应的多个事件三元组;
如图3所示,本实施例通过动态多池卷积神经网络DMCNN对新闻数据中的各句子分别进行触发词识别和论元识别,以减少传统方法的多级任务造成了误差传递,并且在论元识别过程中,采用微调后的BERT模型作为embedding的初始值,并且加入attention层,提高对长距离依赖的建模能力。
步骤23、基于TF-IDF计算抽取的各实体词在新闻数据中的实体得分,将该实体得分进行归一化处理后,选取实体得分之和占预设比例的实体词作为对应新闻事件的第一主要实体词;
本实施例中,预设比例可以根据实际需求设置,本实施例对此不作限制,例如80%,即将实体得分之和占80%的实体词作为对应新闻事件的第一主要实体词。
步骤24、将包含第一主题词以及第一主要实体词的事件三元组作为新闻事件的第一事件三元组。
为了保证事件三元组的有效性,本实施例还对最终得到的第一事件三元组进行人工部分抽样审核。
步骤3、根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,将所述相似度大于阈值的新闻事件进行融合,并确定融合后的新闻事件的热度值;
可以理解,由于每个新闻事件在时间维度上存在不同的演化发展,所以时常会出现多个热点新闻事件本身其实是源于一个新闻事件,所以需要进行相关事件对齐工作。
如图4所示,首先获取各新闻事件对应的发布时间,选取一定时间范围内的新闻事件。其中,时间范围可以根据实际需求设置,本实施例对此不作限制,本实施例中时间范围根据《网络舆情热点事件传播的生命周期研究》中的研究结论,一般以7天为限。
然后计算选取的各新闻事件对应的第一事件三元组的相似度,具体包括:基于Jaccard相似系数计算各第一事件三元组中主要实体词的实体相似度,基于RoBERTa对各第一事件三元组中的主题词向量化后,计算各第一事件三元组中主题词的余弦相似度,对所述实体相似度和余弦相似度进行加权求和后得到各新闻事件的相似度。
最后将相似度大于一定的阈值的多个新闻事件归为一类新闻事件,进行新闻事件融合操作。其中,阈值可根据实际需求设置,本实施例对此不作限制,也可以人工多次基于业务场景进行效果调试。
本实施例中,还将融合后的新闻事件的热度值进行更新处理,由于热度值来源于各个网站的数据抓取,热度分数有所差异,需要对对各新闻事件对应的热度值进行对齐处理,即将其归一化到标准模板(将热度值映射到设计的区间上),例如百度热榜将400万以上的映射到100分,300万到400万映射后到80分,将各个新闻事件对应的热度值进行标准化对齐操作后,计算平均值,即为对应融合后的新闻事件的热度值。
此外,如果有新增的新闻事件,则定期将新增的新闻事件与原有新闻事件按照以上流程进行对齐处理。
步骤4、将所有新闻事件及其对应的第一事件三元组保存至图数据库,并基于应用场景、业务规则和预设匹配得分算法构建知识图谱检索引擎;
如图5所示,本实施例将对齐后的第一事件三元组进行事件归类处理后将其输入至图数据库进行固话,并将新闻事件的名称及其对应的热度值进行数据库固化,然后根据应用场景开发构建相关知识图谱检索引擎,主要包括基于业务规则和预设匹配得分算法来匹配新闻事件,进而完成事件图谱的构建。
本实施例中,预设匹配算法通过事件三元组匹配情况、主要实体词匹配情况以及主题词匹配情况等匹配维度制定。其中,事件三元组匹配情况为向量化后的事件三元组的相似度;主要实体词匹配情况包括实体词类型相似度和实体词数量相似度;主题词匹配情况为向量化后的主题词的相似度。本实施例中的知识图谱检索引擎能够根据事件三元组匹配情况、主要实体词匹配情况以及主题词匹配情况在图数据库中匹配新闻事件。
步骤5、获取待预测新闻文本,对待预测新闻文本进行信息抽取,获得待预测新闻文本对应的结构化数据,所述结构化数据至少包括第二主题词、第二主要实体词以及第二事件三元组;
具体而言,针对媒体工作者创作的待预测新闻文本,首先对其进行实体、关系、属性等内容结构化信息的抽取,获得待预测新闻文本对应的结构化数据,具体包括:
步骤51、使用LDA模型对待预测新闻文本进行主题词抽取,获得待预测新闻文本对应的多个主题词,选取排名靠前且在待预测新闻文本中出现的多个主题词作为第二主题词;
步骤52、对待预测新闻文本进行分句处理后,基于领域词典和深度学习进行实体识别抽取,获得待预测新闻文本对应的多个实体词,基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取,获得待预测新闻文本对应的多个事件三元组;
步骤53、基于TF-IDF计算抽取的各实体词在待预测新闻文本中的实体得分,将该实体得分进行归一化处理后,选取实体得分之和占预设比例的实体词作为待预测新闻文本的第二主要实体词;
步骤54、将包含第二主题词以及第二主要实体词的事件三元组作为待预测新闻文本的第二事件三元组。
可以理解,上述信息抽取的方式与新闻事件的信息抽取方法相同,此处不再赘述,相关之处参见步骤2即可。
步骤6、将所述结构化数据输入至知识图谱检索引擎,所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配,得到匹配得分靠前的多个新闻事件;
具体地,知识图谱检索引擎在收到输入的结构化数据后,根据其中的第二主题词、第二主要实体词以及第二事件三元组在图数据库中匹配相似新闻事件,具体包括:
步骤61、基于Word2vec将所述第二事件三元组与各第一事件三元组进行向量化后,计算所述第二事件三元组与各第一事件三元组的三元组相似度;
步骤62、基于Jaccard相似系数计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词类型相似度;
步骤63、基于规则映射计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词数量相似度。例如实体词数量相差10以上,则相似度为0.1,实体词数量相差10到5,则相似度为0.6,实体词数量相差5到2,则相似度为0.8,实体词数量相差2以内,则相似度为1。
步骤64、基于Word2vec将所述第二主题词与各第一事件三元组中的第一主题词进行向量化后,计算所述第二主题词与各第一事件三元组中的第一主题词的主题词相似度;
步骤65、将所述三元组相似度、实体词类型相似度、实体词数量相似度和主题词相似度的平均值作为所述待预测新闻文本与图数据库中各新闻事件的匹配得分。
可以理解,通过以上步骤得到三元组相似度、实体词类型相似度、实体词数量相似度和主题词相似度均处于[0,1]的区间,最后将各相似度的平均值作为新闻事件的匹配得分,即:匹配得分=(三元组相似度+实体词类型相似度+实体词数量相似度+主题词相似度)/4。
为了减少计算量,本实施例选取匹配得分前三的新闻事件作为匹配得到的新闻事件。
步骤7、根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。
具体而言,本实施例根据匹配得分确定匹配得到的新闻事件的权重,根据该权重对匹配得到的新闻事件的热度值进行加权求和,得到待预测新闻文本的预测热度值。即,假设匹配得到的新闻事件分别为新闻事件1、新闻事件2和新闻事件3,则预测热度值=新闻事件1*新闻事件1的热度值+新闻事件2*新闻事件2的热度值+新闻事件3*新闻事件3的热度值。
综上所述,本实施例针对全网数据源进行量化分析,保证了数据的可靠性和多样性。针对爬取后的新闻数据进行脏数据的清洗和敏感数据的过滤,并且进行人工复核,大大保证了数据的高质量。利用信息抽取技术对单个新闻事件下的所有新闻数据进行实体关系属性等信息抽取,基于深度学习模型对事件抽取任务进行联合训练,减少了传统方法的多级任务造成了误差传递。通过预训练模型和注意力层的添加减少,提高对长距离依赖的建模能力。采用主题词和实体词对事件三元组进行加权评分,使得图谱具备而获得更好的新闻事件的描述能力。将待预测内容与历史事件图谱进行匹配,基于匹配得分可以比较客观的从先验知识获取对内容的刻画情况,从自身事件特色属性上对内容热度进行合理的预测。预测介入点提前,不同于传统的热词实时分析,可以在内容发布之初,还没有推广传播之前进行内容的热度预测,可以让新闻创作者有较大的容错率及更多的改进时间。

Claims (7)

1.基于知识图谱的新闻热度预测方法,其特征在于,包括以下步骤:
步骤1、获取新闻数据,确定各新闻数据所属的新闻事件以及各新闻事件对应的热度值,对属于同一新闻事件的新闻数据进行归类后,对新闻数据进行预处理;
步骤2、针对每个新闻事件,根据其对应的所有新闻数据进行信息抽取,获得各新闻事件对应的第一事件三元组,所述第一事件三元组包含第一主题词和第一主要实体词;
所述根据其对应的所有新闻数据进行信息抽取,具体包括:
使用LDA模型对新闻数据进行主题词抽取,获得新闻事件对应的多个主题词,选取排名靠前且在新闻数据中出现的多个主题词作为第一主题词;
对新闻事件下的所有新闻数据进行分句处理后,基于领域词典和深度学习进行实体识别抽取,获得新闻事件对应的多个实体词,基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取,获得新闻事件对应的多个事件三元组;
基于TF-IDF计算抽取的各实体词在新闻数据中的实体得分,将该实体得分进行归一化处理后,选取实体得分之和占预设比例的实体词作为对应新闻事件的第一主要实体词;
将包含第一主题词以及第一主要实体词的事件三元组作为新闻事件的第一事件三元组;
步骤3、根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,将所述相似度大于阈值的新闻事件进行融合,并确定融合后的新闻事件的热度值;
根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,具体包括:
获取各新闻事件对应的发布时间,选取一定时间范围内的新闻事件,并计算选取的各新闻事件对应的第一事件三元组的相似度,具体包括:
基于Jaccard相似系数计算各第一事件三元组中主要实体词的实体相似度,基于RoBERTa对各第一事件三元组中的主题词向量化后,计算各第一事件三元组中主题词的余弦相似度,对所述实体相似度和余弦相似度进行加权求和后得到各新闻事件的相似度;
步骤4、将所有新闻事件及其对应的第一事件三元组保存至图数据库,并基于应用场景、业务规则和预设匹配得分算法构建知识图谱检索引擎;
步骤5、获取待预测新闻文本,对待预测新闻文本进行信息抽取,获得待预测新闻文本对应的结构化数据,所述结构化数据至少包括第二主题词、第二主要实体词以及第二事件三元组;
步骤6、将所述结构化数据输入至知识图谱检索引擎,所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配,得到匹配得分靠前的多个新闻事件;
所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配,具体包括:
基于Word2vec将所述第二事件三元组与各第一事件三元组进行向量化后,计算所述第二事件三元组与各第一事件三元组的三元组相似度;
基于Jaccard相似系数计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词类型相似度;
基于规则映射计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词数量相似度;
基于Word2vec将所述第二主题词与各第一事件三元组中的第一主题词进行向量化后,计算所述第二主题词与各第一事件三元组中的第一主题词的主题词相似度;
将所述三元组相似度、实体词类型相似度、实体词数量相似度和主题词相似度的平均值作为所述待预测新闻文本与图数据库中各新闻事件的匹配得分;
步骤7、根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。
2.如权利要求1所述的基于知识图谱的新闻热度预测方法,其特征在于,步骤1中,所述获取新闻数据,具体包括:
根据热榜新闻数据的质量、数量和领域对各新闻数据源进行权重打分,选取权重得分靠前的多个新闻数据源;
基于爬虫算法并根据对应的权重得分分别对选取的各新闻数据源进行数据爬取,获得与热榜新闻事件相关联的所有新闻数据以及热榜新闻事件对应的热度值;其中,权重得分越高,则对应新闻数据源的爬取数据量越多,权重得分越低,则对应新闻数据源的爬取数据量越少。
3.如权利要求1所述的基于知识图谱的新闻热度预测方法,其特征在于,步骤1中,所述对新闻数据进行预处理,具体包括:
过滤无法归类以及信息残缺的新闻数据;
过滤新闻数据中的敏感信息和不良信息;
对新闻数据进行脏数据清洗以及去重处理。
4.如权利要求1所述的基于知识图谱的新闻热度预测方法,其特征在于,步骤3中,所述确定融合后的新闻事件的热度值,具体包括:
对各新闻事件对应的热度值进行对齐处理;
对融合后的新闻事件的热度值进行更新处理,具体包括:将各新闻事件的热度值的平均值,作为对应融合后的新闻事件的热度值。
5.如权利要求1所述的基于知识图谱的新闻热度预测方法,其特征在于,步骤5中,所述对待预测新闻文本进行信息抽取,具体包括:
使用LDA模型对待预测新闻文本进行主题词抽取,获得待预测新闻文本对应的多个主题词,选取排名靠前且在待预测新闻文本中出现的多个主题词作为第二主题词;
对待预测新闻文本进行分句处理后,基于领域词典和深度学习进行实体识别抽取,获得待预测新闻文本对应的多个实体词,基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取,获得待预测新闻文本对应的多个事件三元组;
基于TF-IDF计算抽取的各实体词在待预测新闻文本中的实体得分,将该实体得分进行归一化处理后,选取实体得分之和占预设比例的实体词作为待预测新闻文本的第二主要实体词;
将包含第二主题词以及第二主要实体词的事件三元组作为待预测新闻文本的第二事件三元组。
6.如权利要求1所述的基于知识图谱的新闻热度预测方法,其特征在于,步骤7中,所述根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值,具体包括:
根据匹配得分确定匹配得到的新闻事件的权重,根据该权重对匹配得到的新闻事件的热度值进行加权求和,得到待预测新闻文本的预测热度值。
7.如权利要求1-6任一项所述的基于知识图谱的新闻热度预测方法,其特征在于,还包括:
定期执行步骤1-3,得到新增的新闻事件及其对应的第一事件三元组,将新增新闻事件及其对应的第一事件三元组保存至图数据库。
CN202210661303.2A 2022-06-13 2022-06-13 基于知识图谱的新闻热度预测方法 Active CN114880588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210661303.2A CN114880588B (zh) 2022-06-13 2022-06-13 基于知识图谱的新闻热度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210661303.2A CN114880588B (zh) 2022-06-13 2022-06-13 基于知识图谱的新闻热度预测方法

Publications (2)

Publication Number Publication Date
CN114880588A CN114880588A (zh) 2022-08-09
CN114880588B true CN114880588B (zh) 2024-04-26

Family

ID=82681690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210661303.2A Active CN114880588B (zh) 2022-06-13 2022-06-13 基于知识图谱的新闻热度预测方法

Country Status (1)

Country Link
CN (1) CN114880588B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224608A (zh) * 2015-09-06 2016-01-06 华南理工大学 基于微博数据分析的热点新闻预测方法及***
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法
WO2017075912A1 (zh) * 2015-11-05 2017-05-11 同济大学 一种新闻事件抽取方法及***
WO2021175009A1 (zh) * 2020-03-02 2021-09-10 深圳壹账通智能科技有限公司 预警事件图谱的构建方法、装置、设备及存储介质
WO2021226840A1 (zh) * 2020-05-12 2021-11-18 深圳市欢太科技有限公司 热点新闻意图识别方法、装置、设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224608A (zh) * 2015-09-06 2016-01-06 华南理工大学 基于微博数据分析的热点新闻预测方法及***
WO2017075912A1 (zh) * 2015-11-05 2017-05-11 同济大学 一种新闻事件抽取方法及***
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法
WO2021175009A1 (zh) * 2020-03-02 2021-09-10 深圳壹账通智能科技有限公司 预警事件图谱的构建方法、装置、设备及存储介质
WO2021226840A1 (zh) * 2020-05-12 2021-11-18 深圳市欢太科技有限公司 热点新闻意图识别方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN114880588A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
Rudin et al. A process for predicting manhole events in Manhattan
CN110674840B (zh) 一种多方证据关联模型构建方法和证据链提取方法及装置
CN107885793A (zh) 一种微博热点话题分析预测方法及***
CN104820629A (zh) 一种智能的舆情突发事件应急处理***及方法
CN103914478A (zh) 网页训练方法及***、网页预测方法及***
CN111899089A (zh) 基于知识图谱的企业风险预警方法及***
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
CN112000929A (zh) 一种跨平台数据分析方法、***、设备及可读存储介质
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析***及其方法
CN105512224A (zh) 基于光标位置序列的搜索引擎用户满意度自动评估方法
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
Tan et al. Constructing and interpreting causal knowledge graphs from news
CN114764463A (zh) 基于事件传播特征的互联网舆情事件自动预警***
CN114880588B (zh) 基于知识图谱的新闻热度预测方法
CN115953041A (zh) 一种营商政策***的构建方案及***
CN115794798A (zh) 一种市场监管信息化标准管理与动态维护***及方法
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理***
CN115080636A (zh) 一种基于网络服务的大数据分析***
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及***
CN117056392A (zh) 一种基于动态超图技术的大数据检索服务***及方法
CN112464668A (zh) 一种提取智能家居行业动态信息的方法和***
Tsikrika et al. Focussed crawling of environmental web resources: A pilot study on the combination of multimedia evidence.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant