CN113742464A - 一种基于异构信息网络的新闻事件发现算法及装置 - Google Patents

一种基于异构信息网络的新闻事件发现算法及装置 Download PDF

Info

Publication number
CN113742464A
CN113742464A CN202110867857.3A CN202110867857A CN113742464A CN 113742464 A CN113742464 A CN 113742464A CN 202110867857 A CN202110867857 A CN 202110867857A CN 113742464 A CN113742464 A CN 113742464A
Authority
CN
China
Prior art keywords
news
matrix
keyword
keywords
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110867857.3A
Other languages
English (en)
Inventor
仇瑜
刘德兵
黄朝园
于凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co Ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co Ltd filed Critical Beijing Zhipu Huazhang Technology Co Ltd
Priority to CN202110867857.3A priority Critical patent/CN113742464A/zh
Publication of CN113742464A publication Critical patent/CN113742464A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于异构信息网络的新闻事件发现算法及装置,方法包括:对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本申请提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过HIN进行距离矩阵的构建,减少了模型训练的时间复杂度。

Description

一种基于异构信息网络的新闻事件发现算法及装置
技术领域
本发明涉及信息网络技术领域,尤其涉及种基于异构信息网络的新闻事件发现算法。
背景技术
从海量文本数据中快速查找目标信息,实时跟踪当前热点话题的发展趋势逐渐成为用户实实在在的需求。以实时检测和追踪为目标的话题检测与追踪(TDT)技术逐渐迎来了大放异彩的时代,如今在科技企业、政府部门为了实时跟踪社会舆论导向,面向新闻事件的话题检测与跟踪算法已经成为计算机科研人员的重点研究方向。但目前的话题检测或事件发现算法没有考虑到各个关键词的情感信息,无法推荐有着相同感情色彩的文章。其次,目前传统的文本相似度算法通过TF-IDF计算文本的词频逆文档概率值,但会出现频率相同的关键词,这将导致对其所在的文档产生不同程度的影响。而只通过关键词的相似度进行事件发现,也会导致用户的情感与文章大量的隐藏信息的流失。无法进行准确地完成事件发现任务。
目前相近似的方法:
1.只根据TF-IDF计算文本词频来进行相关度比较的新闻推荐;
2.对关键词进行提取后,直接通过异构信息网络(HIN)进行推荐;
3.文章根据图注意力网络(GAT)进行推荐。
但是基于目前的方法有诸如以下的缺点:
1)没有很好地考虑文章的感情色彩
比如文章为科比去世,关键信息是NBA、科比、去世。其感情悲伤的,用户想关注的是为什么科比去世,这个信息的更多报道。而非NBA别的球星在这个时间段做了什么,谁又获得MVP。
2)异构图神经网络的复杂性
异构图神经网络虽然是一种基于多条元路径处理可以识别节点特征和语义特征的框架,但该框架需要提前指定元路径数量并会针对每条元路径的邻接矩阵与相同特征矩阵一起经过一次图注意力网络的训练,这极大提高了模型训练的时间复杂度。
异构图的产生主要由人工设置路径的样式来产生,如N→K←N,其中N表示新闻(news),K表示关键词(keys),这条元路径代表新闻报道之间存在相同的关键词,通过相同关键词进行联系。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于异构信息网络的新闻事件发现算法,以实现更加准确的对用户进行准确的推荐。
本发明的第二个目的在于提出一种基于异构信息网络的新闻事件发现装置。
为达上述目的,本发明第一方面实施例提出了一种基于异构信息网络的新闻事件发现算法,包括以下步骤:
步骤S1,对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据所述多个关键词生成关键词集合;
步骤S2,将所述关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
步骤S3,将所述事件群进行元路径或元图的构造,得到构造矩阵,并根据所述构造矩阵生成距离矩阵;
步骤S4,将所述距离矩阵与所述事件群通过图注意力网络进行特征提取,得到特征矩阵;
步骤S5,根据所述特征矩阵构建推荐簇;
步骤S6,选取所述推荐簇中大于所述原始文章相似度预设阈值的新闻进行推荐。
可选地,在本申请的一个实施例中,其特征在于,
所述预处理包括通过结巴分词对所述文章进行分词处理,以及,所述各关键词的重要程度为:
A-TFIDF=TFIDF+W
其中W公式定义为:
W=n*o
其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e-16。
可选地,在本申请的一个实施例中,其特征在于,所述S2包括:
对所述预测模型进行训练;
将训练好的预测模型进行话题预测,得到预测结果;
将所述预测结果与所述多种话题对应,得到相应的新闻事件群集合。
可选地,在本申请的一个实施例中,其特征在于,所述对所述预测模型进行训练,包括:
对所述关键词集合进行词嵌入,得到关键词集合词向量;
对关键词的情感信息进行词嵌入,得到关键词情感信息词向量;
将所述关键词集合词向量和所述关键词情感信息词向量进行拼接处理,并通过全连接层进行降维;
将降维后的关键词集合词向量和关键词的情感信息词向量放进所述预测模型,进行话题的预测。
可选地,在本申请的一个实施例中,其特征在于,所述S3,包括:
通过选取NKN路径、NUN路径、NLN路径,对所述事件群进行元路径的构造,得到元路径构造矩阵;
通过选取NK(L\U)KN对所述事件群进行进行元图构造,得到元图构造矩阵;
其中,N表示新闻实例,U表示人名,K表示关键词,L表示地点。
可选地,在本申请的一个实施例中,其特征在于,所述S3,还包括:
将所述元路径构造矩阵和所述元图构造矩阵进行PathSim计算,得到所述距离矩阵,所述距离矩阵的计算公式为:
Figure BDA0003184975310000031
可选地,在本申请的一个实施例中,其特征在于,S4包括:
所述通过图注意力网络进行特征提取时,保证图注意力网络节点之间存在的关联性;
使用Softmax进行规范化操作,对比所述图注意力网络节点造成影响的注意力系数,其中,所述注意力系数公式为:
Figure BDA0003184975310000032
可选地,在本申请的一个实施例中,其特征在于,S5包括:
通过对所述聚类算法的参数进行调整,以使所述推荐簇达到准确性的预设阈值。
本发明的基于异构信息网络的新闻事件发现方法,通过对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本申请提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过HIN进行距离矩阵的构建,减少了模型训练的时间复杂度。
为达上述目的,本申请第二方面实施例提出本发明一种基于异构信息网络的新闻事件发现装置,包括以下模块:
数据预处理模块,用于对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据所述多个关键词生成关键词集合;
预测模块,用于将所述关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
构造模块,用于将所述事件群进行元路径或元图的构造,得到构造矩阵,并通过对所述构造矩阵的计算,得到距离矩阵;
特征提取模块,用于将所述距离矩阵与所述事件群通过图注意力网络进行特征提取,得到特征矩阵;
特征聚类模块,用于根据所述特征矩阵构建推荐簇;
推荐模块,用于选取所述推荐簇中大于所述原始文章相似度预设阈值的新闻进行推荐。
可选地,在本申请的一个实施例中,其特征在于,所述数据预处理模块,包括:
通过结巴分词对所述文章进行分词处理,以及,所述各关键词的重要程度为:
A-TFIDF=TFIDF+W
其中W公式定义为:
W=n*o
其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e-16。
本发明的基于异构信息网络的新闻事件发现装置,通过对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本申请提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过HIN进行距离矩阵的构建,减少了模型训练的时间复杂度。
本申请的技术效果:第一、将文章的感情信息进行融入可以在一定程度上提高新闻话题推荐的准确性,并以此来更好的进行新闻报道的推荐;第二、只是通过HIN进行距离矩阵的构建,并在特征矩阵形成的过程中添加了感情色彩,减少了模型训练的时间复杂度。以上两点可以更加准确的对用户进行准确的推荐。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的一种基于异构信息网络的新闻事件发现算法的流程示意图;
图2为本发明实施例的一种基于异构信息网络的新闻事件发现装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的一种基于异构信息网络的新闻事件发现算法。
如图1所示,为达上述目的,本发明第一方面实施例提出了一种基于异构信息网络的新闻事件发现算法,包括以下步骤:
步骤S1,对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;
步骤S2,将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
步骤S3,将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;
步骤S4,将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;
步骤S5,根据特征矩阵构建推荐簇;
步骤S6,选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。
在本申请的一个实施例中,预处理包括通过结巴分词对文章进行分词处理,以及,各关键词的重要程度为:
A -TFIDF=TFIDF+W
其中W公式定义为:
W=n*o
其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e-16。
在本申请的一个实施例中,进一步地,S2包括:
对改进的模型训练;
S211、对关键词集合进行词嵌入;
S212、对关键词的感情信息进行词嵌入;
S213、将上述两个词向量进行拼接处理,并通过全连接层进行降维;
S214、将降维后的向量放进的模型进行话题的预测;
S215、重复S211-S214过程直到话题预测的准确率不再提升;
S22、将训练好的模型进行话题预测;
S23、将预测结果与数据库中的话题对应,得到相应的新闻事件群集合。
在本申请的一个实施例中,进一步地,S3,包括:
S31、选取NKN路径、NUN路径、NLN路径,以此来对事件群进行元路径的构造。其中N表示新闻实例,U表示人名,K表示关键词,L表示地点。
S32、选取NK(L\U)KN为元图进行构造,其代表一篇新闻报道可以通过地点和用户多种方式与另一篇产生联系,表示文档的相关性更强。
S33、将构造出来的矩阵进行PathSim计算,产生距离矩阵。其计算公式为:
Figure BDA0003184975310000061
在本申请的一个实施例中,进一步地,S4包括:
S41、将距离矩阵通过图注意力网络进行更强的特征提取,来保证各节点之间存在一定的关联性;
S42、为了对比节点造成影响的注意力系数,我们使用Softmax进行规范化操作,其公式为:
Figure BDA0003184975310000062
在本申请的一个实施例中,进一步地,S5包括:
通过对DBSCAN算法中eps,min_samples参数的不断调整,来保证推荐簇构成的准确性,防止相似度高的文章成为噪声点。
基于本申请实施例的基于异构信息网络的新闻事件发现算法,通过对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本申请提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过HIN进行距离矩阵的构建,减少了模型训练的时间复杂度。
如图2所示,为达上述目的,本申请第二方面实施例提出本发明一种基于异构信息网络的新闻事件发现装置10,包括以下模块:
数据预处理模块100,用于对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;
预测模块200,用于将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
构造模块300,用于将事件群进行元路径或元图的构造,得到构造矩阵,并通过对构造矩阵的计算,得到距离矩阵;
特征提取模块400,用于将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;
特征聚类模块500,用于根据特征矩阵构建推荐簇;
推荐模块600,用于选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。
可选地,在本申请的一个实施例中,上述数据预处理模块,包括:
通过结巴分词对文章进行分词处理,以及,各关键词的重要程度为:
A-TFIDF=TFIDF+W
其中W公式定义为:
W=n*o
其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e-16。
基于本申请实施例的基于异构信息网络的新闻事件发现装置,通过对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本申请提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过HIN进行距离矩阵的构建,减少了模型训练的时间复杂度。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

Claims (10)

1.一种基于异构信息网络的新闻事件发现算法,其特征在于,包括以下步骤:
S1,对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据所述多个关键词生成关键词集合;
S2,将所述关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
S3,将所述事件群进行元路径或元图的构造,得到构造矩阵,并根据所述构造矩阵生成距离矩阵;
S4,将所述距离矩阵与所述事件群通过图注意力网络进行特征提取,得到特征矩阵;
S5,根据所述特征矩阵构建推荐簇;
S6,选取所述推荐簇中大于所述原始文章相似度预设阈值的新闻进行推荐。
2.根据权利要求1所述的一种基于异构信息网络的新闻事件发现算法,其特征在于,
所述预处理包括通过结巴分词对所述文章进行分词处理,以及,所述各关键词的重要程度为:
A-TFIDF=TFIDF+W
其中W公式定义为:
W=n*o
其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e-16。
3.根据权利要求1所述的一种基于异构信息网络的新闻事件发现算法,其特征在于,所述S2包括:
对所述预测模型进行训练;
将训练好的预测模型进行话题预测,得到预测结果;
将所述预测结果与所述多种话题对应,得到相应的新闻事件群集合。
4.根据权利要求3所述的一种基于异构信息网络的新闻事件发现算法,其特征在于,所述对所述预测模型进行训练,包括:
对所述关键词集合进行词嵌入,得到关键词集合词向量;
对关键词的情感信息进行词嵌入,得到关键词情感信息词向量;
将所述关键词集合词向量和所述关键词情感信息词向量进行拼接处理,并通过全连接层进行降维;
将降维后的关键词集合词向量和关键词的情感信息词向量放进所述预测模型,进行话题的预测。
5.根据权利要求1所述的一种基于异构信息网络的新闻事件发现算法,其特征在于,所述S3,包括:
通过选取NKN路径、NUN路径、NLN路径,对所述事件群进行元路径的构造,得到元路径构造矩阵;
通过选取NK(L\U)KN对所述事件群进行进行元图构造,得到元图构造矩阵;
其中,N表示新闻实例,U表示人名,K表示关键词,L表示地点。
6.根据权利要求1所述的一种基于异构信息网络的新闻事件发现算法,其特征在于,所述S3,还包括:
将所述元路径构造矩阵和所述元图构造矩阵进行PathSim计算,得到所述距离矩阵,所述距离矩阵的计算公式为:
Figure FDA0003184975300000021
7.根据权利要求1所述的一种基于异构信息网络的新闻事件发现算法,其特征在于,S4包括:
所述通过图注意力网络进行特征提取时,保证图注意力网络节点之间存在的关联性;
使用Softmax进行规范化操作,对比所述图注意力网络节点造成影响的注意力系数,其中,所述注意力系数公式为:
Figure FDA0003184975300000022
8.根据权利要求1所述的一种基于异构信息网络的新闻事件发现算法,其特征在于,S5包括:
通过对所述聚类算法的参数进行调整,以使所述推荐簇达到准确性的预设阈值。
9.一种基于异构信息网络的新闻事件发现装置,其特征在于,包括:
数据预处理模块,用于对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据所述多个关键词生成关键词集合;
预测模块,用于将所述关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
构造模块,用于将所述事件群进行元路径或元图的构造,得到构造矩阵,并通过对所述构造矩阵的计算,得到距离矩阵;
特征提取模块,用于将所述距离矩阵与所述事件群通过图注意力网络进行特征提取,得到特征矩阵;
特征聚类模块,用于根据所述特征矩阵构建推荐簇;
推荐模块,用于选取所述推荐簇中大于所述原始文章相似度预设阈值的新闻进行推荐。
10.根据权利要求9所述的一种基于异构信息网络的新闻事件发现装置,其特征在于,所述数据预处理模块,包括:
通过结巴分词对所述文章进行分词处理,以及,所述各关键词的重要程度为:
A-TFIDF=TFIDF+W
其中W公式定义为:
W=n*o
其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e-16。
CN202110867857.3A 2021-07-28 2021-07-28 一种基于异构信息网络的新闻事件发现算法及装置 Pending CN113742464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110867857.3A CN113742464A (zh) 2021-07-28 2021-07-28 一种基于异构信息网络的新闻事件发现算法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110867857.3A CN113742464A (zh) 2021-07-28 2021-07-28 一种基于异构信息网络的新闻事件发现算法及装置

Publications (1)

Publication Number Publication Date
CN113742464A true CN113742464A (zh) 2021-12-03

Family

ID=78729504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110867857.3A Pending CN113742464A (zh) 2021-07-28 2021-07-28 一种基于异构信息网络的新闻事件发现算法及装置

Country Status (1)

Country Link
CN (1) CN113742464A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114078277A (zh) * 2022-01-19 2022-02-22 深圳前海中电慧安科技有限公司 一人一档的人脸聚类方法、装置、计算机设备及存储介质
CN117391071A (zh) * 2023-12-04 2024-01-12 中电科大数据研究院有限公司 一种新闻话题数据挖掘方法、装置及存储介质
CN117910479A (zh) * 2024-03-19 2024-04-19 湖南蚁坊软件股份有限公司 聚合新闻判断方法、装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114078277A (zh) * 2022-01-19 2022-02-22 深圳前海中电慧安科技有限公司 一人一档的人脸聚类方法、装置、计算机设备及存储介质
CN117391071A (zh) * 2023-12-04 2024-01-12 中电科大数据研究院有限公司 一种新闻话题数据挖掘方法、装置及存储介质
CN117391071B (zh) * 2023-12-04 2024-02-27 中电科大数据研究院有限公司 一种新闻话题数据挖掘方法、装置及存储介质
CN117910479A (zh) * 2024-03-19 2024-04-19 湖南蚁坊软件股份有限公司 聚合新闻判断方法、装置、设备及介质
CN117910479B (zh) * 2024-03-19 2024-06-04 湖南蚁坊软件股份有限公司 聚合新闻判断方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Xia et al. Scientific article recommendation: Exploiting common author relations and historical preferences
Bu et al. Improving collaborative recommendation via user-item subgroups
CN113742464A (zh) 一种基于异构信息网络的新闻事件发现算法及装置
Zhang et al. An improved hybrid collaborative filtering algorithm based on tags and time factor
Chen et al. Capturing semantic correlation for item recommendation in tagging systems
Wang et al. New approaches to mood-based hybrid collaborative filtering
Chen et al. Trend prediction of internet public opinion based on collaborative filtering
Wang et al. Attention-guide walk model in heterogeneous information network for multi-style recommendation explanation
Zhang et al. An interpretable and scalable recommendation method based on network embedding
Feng et al. Recommendations based on comprehensively exploiting the latent factors hidden in items’ ratings and content
Abinaya et al. Enhancing context-aware recommendation using hesitant fuzzy item clustering by stacked autoencoder based smoothing technique
Huang et al. Neural explicit factor model based on item features for recommendation systems
Idrissi et al. A new hybrid-enhanced recommender system for mitigating cold start issues
Su et al. A personalized music recommender system using user contents, music contents and preference ratings
CN116701861A (zh) 基于显式和隐式反馈特征的后融合个性化推荐模型和方法
Xu et al. Exploiting interactions of review text, hidden user communities and item groups, and time for collaborative filtering
Anbazhagu et al. High-performance technique for item recommendation in social networks using multiview clustering
Bi et al. A recommendations model with multiaspect awareness and hierarchical user-product attention mechanisms
Wang et al. Joint knowledge graph and user preference for explainable recommendation
Ceylan et al. Combining feature weighting and semantic similarity measure for a hybrid movie recommender system
Palomares et al. Multi-view data approaches in recommender systems: an overview
Zhao et al. Probabilistic matrix factorization based on similarity propagation and trust propagation for recommendation
Alhejaili et al. Expressive latent feature modelling for explainable matrix factorisation-based recommender systems
Anarfi et al. desc2tag: A reinforcement learning approach to mashup tag recommendation
Yin et al. An interpretable neural network TV program recommendation based on SHAP

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination