CN116010696A - 融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质 - Google Patents

融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质 Download PDF

Info

Publication number
CN116010696A
CN116010696A CN202310005366.7A CN202310005366A CN116010696A CN 116010696 A CN116010696 A CN 116010696A CN 202310005366 A CN202310005366 A CN 202310005366A CN 116010696 A CN116010696 A CN 116010696A
Authority
CN
China
Prior art keywords
news
user
representation
representations
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310005366.7A
Other languages
English (en)
Inventor
李西明
陈志浩
郭玉彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN202310005366.7A priority Critical patent/CN116010696A/zh
Publication of CN116010696A publication Critical patent/CN116010696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质,该方法包括:获取用户的历史点击新闻列表和多篇候选新闻,并分别输入新闻语义编码器,得到历史点击新闻表示列表和候选新闻表示;新闻语义编码器先分别学习不同类型的新闻表示,再将所有新闻表示聚合成统一的新闻表示;将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;用户兴趣编码器包括注意力模块和GRU网络,分别从历史点击新闻序列中学习用户的长期兴趣和短期偏好;将候选新闻表示和兴趣表示输入点击预测器,得到候选新闻的点击得分,进而得到新闻推荐列表并推荐给用户。本发明通过构建新闻语义编码器和用户兴趣编码器,提升了新闻推荐的性能。

Description

融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质
技术领域
本发明涉及人工智能和新闻推荐技术领域,特别是涉及一种融合知识图谱和用户长短期兴趣的新闻推荐方法、***、计算机设备及存储介质。
背景技术
随着互联网技术的发展和应用,越来越多人从在线新闻平台上获取及时资讯。但每天各在线新闻平台放送的新闻量远超用户的阅读量,用户要从海量新闻中选择自己感兴趣的新闻显然不切实际,所以新闻推荐***成为许多在线新闻平台的必要组成部分,它用于从海量新闻中为用户推荐可能感兴趣的新闻,以缓解信息过载。
传统的新闻推荐方法有协同过滤推荐方法(DAS.A,et al.In Proceedings ofthe 16th International Conference on World Wide Web.WWW,2007:271–280;XUE.J,etal.JCAI,2017:3203–3209)、基于内容的推荐方法(IJNTEMA.W,et al.EDBT/ICDT,2010:22-26;HUANG P S,et al.CIKM,2013:2333–2338)和混合推荐方法(MORALES.F,et al.WSDM,2012:153-162;LI.L,et al.SIGIR,2011:125–134)等。协同过滤推荐方法通过协同不同用户的反馈、评价和意见等一起对海量的信息进行过滤,从中筛选出目标用户可能感兴趣的信息。协同过滤推荐方法又分为基于用户的协同过滤推荐方法(王成,等.小型微型计算机***,2016,37(3):428-432)和基于物品的协同过滤推荐方法(卜旭松.基于物品协同过滤的个性化视频推荐算法改进研究[硕士学位论文].宁夏大学,2015)基于用户的协同过滤推荐方法如图1(a)所示,用户1和用户2都点击新闻A、新闻B、......,通过分析可以知道用户A与用户B有共同的兴趣,而用户2点击了新闻N,所以用户1也可能对新闻N感兴趣,因此可以将新闻N推荐给用户1。基于物品的协同过滤推荐方法如图1(b)所示,点击了新闻A的用户基本都点击了新闻B,而用户3已经点击过新闻A,由此分析可知用户3对新闻B可能也感兴趣,所以可以将新闻B推荐给用户3。协同过滤推荐方法虽然简单、没有明确要求提供用户信息和物品信息,但是它同时也存在如下缺点:①用户与物品的交互数据越稀疏,推荐的准确度就越低;②推荐***首次使用时存在***的冷启动问题。
基于内容的推荐方法是一种基于标的物、用户以及两者之间的交互的推荐算法(LOPS.P,et al.User Modeling and User-Adapted Interaction,2019,29(2):239-249),标的物的信息可以是对物品的语言描述、也可以是用户的评论内容与手动标记的内容。用户相关信息则可以包括职业、年龄、性别等信息,用户对标的物的操作常见的有诸如浏览、点赞、点踩、分享以及评论等操作。标的物的相关信息种类繁多,包括:文字数据、图像、影音等,这些信息都可以作为内容推荐的来源。基于内容的推荐方法原理简单,即为用户推荐用户喜欢的物品的类似物品。如图2所示,如果用户在某视频网站点播观看了《英雄本色》,那么基于内容的推荐方法可以根据本次观看记录,发现《英雄本色2》、《英雄本色3》等电影与用户观看的内容有很大相关性(SHU.J,et al.Multimedia Systems,2018,24(2):163-173),这样就可以把其他几部推荐给你。基于内容的推荐方法原理简单,但其弊端是要求内容能很容易提取出具有一定意义的信息,其特征内容结构化要求较高,此外,用户的兴趣必须通过特征形式来表达,难以显式的得到其他使用者的判断情况;同时,还存在重复推荐的可能。
混合推荐方法是将协同过滤推荐方法和基于内容的推荐方法进行结合,发挥各自的长处,弥补各自的短处。研究人员试图将多种推荐算法组合在一起,以加权、串联、并联等多种方式,以找到更好的推荐算法。
针对传统的新闻推荐方法难以获取新闻中深层次的信息和无法实时反应用户动态变化的兴趣,以及存在冷启动问题,一些研究者开始研究基于深度学习的新闻推荐方法。如Wu等人(WU.C,et al.EMNLP/IJCNLP,2019:6388-6393)提出了一种基于多头自注意力机制的新闻推荐方法NRMS(Neural News Recommendation with Multi-Head Self-Attention),其使用多头自注意力机制从新闻标题中通过建模词与词之间的交互来学习单词的上下文表示,并使用注意力机制选择重要的词来学习更具有信息量的新闻表示,其框架如图3所示。An等人(AN.M,et al.ACL,2019:336-345)将卷积神经网络(ConvolutionalNeural Networks,简称CNN)与注意力机制相结合从新闻标题中提取新闻特征,并且还从新闻主题、子主题的ID嵌入中学习表征,最后将标题、主题和子主题的表示拼接得到最终的新闻表示,提出了一种LSTUR(both Long-and Short-Term User Representations)方法,其框架如图4所示。Wu等人(WU.C,et al.IJCAI,2019:3863-3869)提出了NAML(neural Newsrecommendation with Attentive Multi-view Learning)方法,其使用注意力从新闻标题、类别、内容中学习不同的新闻数据在建模不同新闻时所具有的不同重要程度,得到最终的新闻语义表示,同时NAML模型将注意力机制应用于用户历史点击新闻序列中,以从不同的新闻中聚合用户兴趣表示,表现出了不错的推荐性能。但现有的基于深度学习的新闻推荐方法大都忽略了新闻之间知识层面的联系,这可能导致对新闻特征的提取不全,以致推荐准确度下降;而且大都没有考虑到用户即有长期兴趣,也有短期偏好,从而不能准确的得到用户兴趣表示,降低了推荐方法的性能。
发明内容
为了解决上述现有技术的不足,本发明提供了一种融合知识图谱和用户长短期兴趣的新闻推荐方法、***、计算机设备及存储介质,该方法在建模新闻语义表示时,除了使用新闻标题、简介、主题类别来学习新闻语义表示外,还使用新闻标题与简介中提及的知识实体并结合WikiData知识图谱来构建知识子图,从知识子图中学习新闻之间潜在的知识层面的联系,提高了新闻语义表示的信息量。同时,该方法不仅提取了用户的长期兴趣,还建模了用户的短期偏好,结合用户的长期兴趣和短期偏好得到用户的最终兴趣表示,这有助于获取更全面的用户兴趣。与其他基线方法相比,该方法提升了新闻推荐的性能。
本发明的第一个目的在于提供一种融合知识图谱和用户长短期兴趣的新闻推荐方法。
本发明的第二个目的在于提供一种融合知识图谱和用户长短期兴趣的新闻推荐***。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种融合知识图谱和用户长短期兴趣的新闻推荐方法,所述方法包括:
获取用户的历史点击新闻列表和多篇候选新闻;
将历史点击新闻列表和多篇候选新闻分别输入新闻语义编码器,分别得到历史点击新闻表示列表和候选新闻表示;其中所述新闻语义编码器先分别学习不同类型的新闻表示,再将所有的新闻信息表示聚合成统一的新闻表示;
将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;其中所述用户兴趣编码器包括注意力模块和GRU网络;所述注意力模块从历史点击新闻序列中对用户反复点击的一类新闻施加更高的权重以学习用户的长期兴趣表示;所述GRU网络从历史点击新闻序列中学习用户随时间动态变化的短期偏好表示,其最后一个隐层从用户最近的浏览历史中学习用户的短期表现,以捕捉用户的短期偏好;最后聚合用户的长期兴趣表示和短期偏好表示,得到用户的兴趣表示;
将候选新闻表示和用户的兴趣表示输入点击预测器,得到多篇候选新闻的点击得分;
根据点击得分,获取新闻推荐列表并推荐给用户。
进一步的,历史点击新闻和候选新闻均包括标题、简介、类别和知识实体;
所述新闻语义编码器包括标题编码器、简介编码器、类别编码器、知识实体编码器和特征注意力网络,其中:
所述标题编码器,用于从新闻标题中学习新闻表示;
所述简介编码器,用于从新闻简介中学习新闻表示;
所述类别编码器,用于从新闻类别中学习新闻表示;
所述知识实体编码器,用于从知识实体中学习新闻表示;
所述特征注意力网络,用于从不同类型的新闻表示中聚合统一的新闻语义表示。
进一步的,所述标题编码器包括词嵌入层、CNN神经网络和词注意力层;
所述标题编码器,用于从新闻标题中学习新闻表示,包括:
词嵌入层用于将新闻标题从单词序列转换成低维稠密的词向量序列;
CNN网络根据所述词向量序列,通过捕捉单词的上下文语境来学习单词的上下文表示;
词注意力层根据所述单词的上下文表示,为用户识别新闻标题中重要的词,得到新闻标题中单词的注意力权重;
将新闻标题中所有单词的上下文表示进行加权求和,得到新闻标题的新闻表示。
进一步的,所述简介编码器和所述标题编码器的结构相同,将新闻简介中所有单词的上下文表示进行加权求和,得到新闻简介的新闻表示。
进一步的,所述类别编码器包括类别ID嵌入层和隐含层;
所述类别编码器,用于从新闻类别中学习新闻表示,包括:
类别ID嵌入层的输入是主类别ID表示子类别ID表示,用于将离散的类主类别ID表示和子类别ID表示转换成低维稠密的类别嵌入gc和gsc
隐含层根据所述类别嵌入gc和gsc,分别学习类别嵌入中隐含的类别信息表示zc和zsc
类别信息表示zc和zsc作为新闻类别中的新闻表示。
进一步的,所述知识实体编码器,用于从知识实体中学习新闻表示,包括:
首先进行知识实体提炼、构建知识子图,包括:
提取新闻标题和简介中所提及的知识实体,其中MIND-small数据集已给出了新闻标题和简介中提及的知识实体;
由于新闻标题和简介提及的知识实体数量少,利用WikiData知识图谱将新闻标题和简介提及的知识实体扩展到一跳内的所有实体;
将所有实体构建为知识子图,并从WikiData知识图谱中提取出实体之间的所有关系;
然后,对于构建的知识子图,使用TransE知识图嵌入方法进行实体表示学习,得到知识实体嵌入序列;
最后,将实体注意力网络应用于知识实体嵌入序列中,为用户识别不同知识实体在挖掘新闻之间潜在的不同重要程度的知识层面的联系,即得到新闻实体集中每个知识实体的注意力权重;
将新闻实体集中所有知识实体表示加权求和,得到新闻实体集的新闻表示。
进一步的,所述特征注意力网络,用于从不同类型的新闻表示中聚合统一的新闻语义表示,包括:
Figure BDA0004036231140000051
其中,dt是计算新闻标题的新闻表示中的中间变量,Ut是注意力查询向量,Rt和rt是映射参数,zt是新闻标题的新闻表示;计算简介表、主类别、子类别和知识实体集新闻表示中的中间变量da、dc、dsc、de均与dt相同;
设新闻标题、简介表、主类别、子类别和知识实体集的注意力权重分别为αt、αa、αc、αsc和αe,其中新闻标题表示的注意力权重αt的计算公式如下:
Figure BDA0004036231140000052
其它新闻信息的注意力权重的计算方法和注意力权重αt相同;
最终统一的新闻语义表示z是由各个新闻信息的新闻表示加权求和得到,计算公式如下:
z=αtztazaczcsczsceze
进一步的,通过注意力机制从用户历史点击新闻表示序列中捕捉用户的长期兴趣,用户点击的第i篇历史新闻的权重表示为
Figure BDA0004036231140000053
公式如下:
Figure BDA0004036231140000054
其中:
Figure BDA0004036231140000055
式中,Kn和kn是映射参数,wn是注意力查询向量,zi是用户的第i篇历史点击新闻表示,n是用户历史点击新闻的数量;
对用户的历史点击新闻表示的加权求和,得到用户的长期兴趣表示。
本发明的第二个目的可以通过采取如下技术方案达到:
一种融合知识图谱和用户长短期兴趣的新闻推荐***,所述***包括:
新闻获取模块,用于获取用户的历史点击新闻列表和多篇候选新闻;
新闻表示聚合模块,用于将历史点击新闻列表和多篇候选新闻分别输入新闻语义编码器,分别得到历史点击新闻表示列表和候选新闻表示;其中所述新闻语义编码器先分别学习不同类型的新闻表示,再将所有的新闻信息表示聚合成统一的新闻表示;
兴趣表示生成模块,用于将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;其中所述用户兴趣编码器包括注意力模块和GRU网络;所述注意力模块从历史点击新闻序列中对用户反复点击的一类新闻施加更高的权重以学习用户的长期兴趣表示;所述GRU网络从历史点击新闻序列中学习用户随时间动态变化的短期偏好表示,其最后一个隐层从用户最近的浏览历史中学习用户的短期表现,以捕捉用户的短期偏好;最后聚合用户的长期兴趣表示和短期偏好表示,得到用户的兴趣表示;
点击得分预测模块,用于将候选新闻表示和用户的兴趣表示输入点击预测器,得到多篇候选新闻的点击得分;
新闻推荐列表生成模块,用于根据点击得分,获取新闻推荐列表并推荐给用户。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的新闻推荐方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的新闻推荐方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明提供的方法,通过构建新闻语义编码器,不仅使用了新闻本身的标题、简介和主题类别信息来学习新闻表示,还利用新闻标题与简介中提及的知识实体并结合WikiData知识图谱构建知识子图,从知识子图中学习新闻之间潜在的知识层面的联系,从而使得到的新闻语义表示更具信息量,提升了新闻推荐的性能。
2、本发明提供的方法,通过构建用户兴趣编码器,分别提取了用户的长期兴趣和短期偏好,并将用户的长期兴趣和短期偏好结合作为用户的最终兴趣表示,从而更全面和准确地建模用户兴趣表示,提升了新闻推荐的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1(a)为本发明背景技术中的基于用户的协同过滤推荐方法的示意图,图1(b)为基于物品的协同过滤推荐方法的示意图。
图2为本发明背景技术中的基于内容的推荐方法的示意图。
图3为本发明背景技术中的NRMS方法的框架图。
图4为本发明背景技术中的LSTUR方法的框架图。
图5为本发明实施例1的融合知识图谱和用户长短期兴趣的新闻推荐方法的流程示意图。
图6为本发明实施例1的融合知识图谱和用户长短期兴趣的新闻推荐方法的原理图。
图7为本发明实施例1的融合知识图谱和用户长短期兴趣的新闻推荐模型的结构框图。
图8为本发明实施例1的知识实体提炼过程的示意图。
图9为本发明实施例2的融合知识图谱和用户长短期兴趣的新闻推荐***的结构框图。
图10为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当理解,描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
实施例1:
如图5、6所示,本实施例提供的融合知识图谱和用户长短期兴趣的新闻推荐方法,包括以下步骤:
S501、获取用户的历史点击新闻列表和多篇候选新闻。
历史点击新闻和候选新闻均包括标题、简介、类别和知识实体等。
本实施例中取历史点击新闻列表为50条,多篇候选新闻至少包括20篇。
S502、将历史点击新闻列表和多篇候选新闻分别输入新闻语义编码器,分别得到历史点击新闻表示列表和候选新闻表示。
融合知识图谱和用户长短期兴趣的新闻推荐模型分为三个模块,分别是新闻语义编码器、用户兴趣编码器和点击预测器,模型的框架图如图7所示。
新闻语义编码器先分别学习不同类型的新闻信息(如标题、简介、实体和类别)表示,然后再将所有的新闻信息表示聚合成统一的新闻语义表示。如图3所示,新闻语义编码器共有五个组件:标题编码器、简介编码器、类别编码器、知识实体编码器和特征注意力网络,其中:
(1)标题编码器。
新闻语义编码器的第一个组件是标题编码器,用于从新闻标题中学习新闻表示。其第一层是词嵌入层,用于将新闻标题从一个单词序列
Figure BDA0004036231140000081
转换成一个低维稠密的词向量序列
Figure BDA0004036231140000082
标题编码器的第二层是CNN神经网络,将CNN网络应用于单词序列,通过捕捉单词的上下文语境来学习单词的上下文表示。第i个单词的上下文表示为
Figure BDA0004036231140000083
其计算公式如下所示:
Figure BDA0004036231140000084
其中,f是非线性激活函数,
Figure BDA0004036231140000085
Figure BDA0004036231140000086
是CNN卷积核参数,N是卷积核的数量,(2l+1)D是卷积核的大小,
Figure BDA0004036231140000087
表示词向量矩阵。这一层的输出结果是单词的上下文表示序列
Figure BDA0004036231140000088
标题编码器的第三层是词注意力层,其用于为不同用户识别新闻标题中重要的词,新闻标题中第i个单词的注意力权重表示为
Figure BDA0004036231140000089
其计算公式如下所示:
Figure BDA00040362311400000810
其中Kt和kt是映射参数,wt是注意力查询向量。
新闻标题的最终表示zt由新闻标题中所有单词上下文表示加权求和得到,其计算公式如下所示:
Figure BDA00040362311400000811
(2)简介编码器。
新闻语义编码器的第二个组件是简介编码器,用于从新闻简介中学习新闻表示,如图7所示,其结构与标题编码器相同。首先通过词嵌入层将新闻简介从一个单词序列
Figure BDA0004036231140000091
转换成一个低维稠密的词向量序列
Figure BDA0004036231140000092
然后使用CNN网络学习每个单词的上下文语境,得到新闻简介的单词上下文表示序列
Figure BDA0004036231140000093
最后使用注意力网络加权聚合所有的单词上下文表示得到新闻简介的最终表示为za
(3)类别编码器。
新闻语义编码器的第三个组件是新闻类别编码器,用于从新闻类别中学习新闻表示。类别编码器包含两层,其第一层是类别ID嵌入层,该层的输入是主类别ID表示vc和子类别ID表示vsc,用于将离散的类别ID转换成低维稠密的类别嵌入gc和gsc。类别编码器的第二层是隐含层,用于学习类别嵌入中隐含的类别信息表示zc和zsc,其中zc的计算公式如下所示:
zc=ReLU(Kc×gc+kc)
其中Kc和kc是隐含层参数,ReLU是非线程激活函数。
zsc的计算公式与zc类似。
(4)知识实体编码器。
新闻语义编码器的第四个组件是知识实体编码器,用于从知识实体中学习新闻表示。首先需要进行知识实体提炼、构建知识子图,其过程包括3步,如图8所示:第一步,先提取新闻标题和简介中所提及的知识实体,其中本方法使用的MIND-small数据集已给出了新闻标题和简介中提及的知识实体;第二步,因为新闻标题和简介提及的知识实体数量少,与其它新闻提及的知识实体之间关系稀疏、缺乏多样性,所以本文借助WikiData知识图谱,将新闻标题和简介提及的知识实体扩展到一跳内的所有实体;第三步,所有的这些实体构建一个知识子图,并从WikiData知识图谱中提取出它们之间的所有关系。
然后,对于构建完成的知识子图,使用TransE知识图嵌入方法进行实体表示学习,得到实体表示向量,知识实体嵌入序列为
Figure BDA0004036231140000094
最后,将实体注意力网络应用于知识实体嵌入序列中,来为不同用户识别不同知识实体在挖掘新闻之间潜在的不同重要程度的知识层面的联系。新闻实体集中第i个实体的注意力权重表示为
Figure BDA0004036231140000095
其计算公式如下所示:
Figure BDA0004036231140000096
其中Ke和ke是映射参数,we是注意力查询向量。
新闻实体集的最终表示ze是由新闻实体集中所有知识实体表示加权求和得到,其计算公式为:
Figure BDA0004036231140000101
(5)特征注意力网络。
新闻语义编码器的第五个组件是特征注意力网络,用于从不同类型的新闻信息表示中聚合统一的新闻语义表示。不同类型的新闻信息有不同的特点,它们在学习不同新闻的语义表示时可能含有不同的信息量。所以本模块使用一个特征注意力网络来为不同新闻识别不同类型的新闻信息在学习新闻语义表示时的不同重要性,以此准确学习新闻语义表示。定义新闻标题、简介表、主类别、子类别和知识实体集的注意力权重分别为αt、αa、αc、αsc和αe,它们的计算公式如下:
Figure BDA0004036231140000102
Figure BDA0004036231140000103
Figure BDA0004036231140000104
Figure BDA0004036231140000105
Figure BDA0004036231140000106
其中Ut、Ua、Uc、Usc和Ue是注意力查询向量,Rt、Ra、Rc、Rsc、Re、rt、ra、rc、rsc和re是映射参数。
最终统一的新闻语义表示z是由各个新闻信息表示加权求和得到,其计算公式如下所示:
z=αtztazaczcsczsceze
S503、将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示。
用户兴趣编码器用于从用户历史点击新闻序列中学习用户兴趣表示u。如图6所示,用户兴趣编码器包含两个组件。第一个组件是注意力模块Attention,它能够从用户历史点击新闻序列中对用户反复点击的一类新闻施加更高的权重以学习用户的长期兴趣表示u1,用户点击的第i篇历史新闻的权重表示为
Figure BDA0004036231140000107
其计算公式如下所示:
Figure BDA0004036231140000108
其中Kn和kn是映射参数,wn是注意力查询向量,
Figure BDA0004036231140000109
是wn的转置,zi是用户第i篇历史点击新闻表示,n是用户历史点击新闻的数量。用户的长期兴趣表示u1是用户历史点击新闻表示的加权求和,其计算公式如下所示:
Figure BDA00040362311400001010
用户兴趣编码器的第二个组件是GRU网络,GRU网络能够从用户历史点击新闻中学习用户随时间动态变化的兴趣,其最后一个隐层能从用户最近的浏览历史中学习用户的短期表现,以捕捉他们的暂时兴趣。用户短期偏好表示u2的计算公式如下所示:
μi=σ(Wμ[hi-1,zi]),
δi=σ(Wδ[hi-1,zi]),
Figure BDA0004036231140000111
Figure BDA0004036231140000112
其中σ是sigmoid函数,⊙是逐项乘积,Wμ、Wδ
Figure BDA0004036231140000113
是GRU网络的参数,zi是用户第i篇历史点击新闻表示。用户短期偏好表示是GRU网络的最后一个隐藏状态,即u2=hN,N是用户历史点击新闻的数量。
最终统一的用户兴趣表示由用户长期兴趣表示u1和用户短期偏好表示u2相加求平均得到,即u=(u1+u2)/2。
S504、将候选新闻表示和用户的兴趣表示输入点击预测器,得到多篇候选新闻的点击得分。
点击预测器用于预测用户对每个候选新闻的点击分数。评分功能应该尽可能的简单,以减少延迟。经过实验发现内积不仅是时间效率最好的方法,也是性能最好的方法。所以,候选新闻xd的点击分数
Figure BDA0004036231140000114
由统一的用户兴趣表示向量u和候选新闻语义表示向量zd通过内积计算得到,即
Figure BDA0004036231140000115
S505、根据点击得分,获取新闻推荐列表并推荐给用户。
本实施例从候选新闻中选择点击得分最高的前20篇候选新闻组成新闻推荐列表,并将新闻推荐列表推荐给用户。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图9所示,本实施例提供了一种融合知识图谱和用户长短期兴趣的新闻推荐***,该***包括新闻获取模块901、新闻表示聚合模块902、兴趣表示生成模块903、点击得分预测模块904和新闻推荐列表生成模块905,其中:
新闻获取模块901,用于获取用户的历史点击新闻列表和多篇候选新闻;
新闻表示聚合模块902,用于将历史点击新闻列表和多篇候选新闻分别输入新闻语义编码器,分别得到历史点击新闻表示列表和候选新闻表示;其中所述新闻语义编码器先分别学习不同类型的新闻表示,再将所有的新闻信息表示聚合成统一的新闻表示;
兴趣表示生成模块903,用于将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;其中所述用户兴趣编码器包括注意力模块和GRU网络;所述注意力模块从历史点击新闻序列中对用户反复点击的一类新闻施加更高的权重以学习用户的长期兴趣表示;所述GRU网络从历史点击新闻序列中学习用户随时间动态变化的短期偏好表示,其最后一个隐层从用户最近的浏览历史中学习用户的短期表现,以捕捉用户的短期偏好;最后聚合用户的长期兴趣表示和短期偏好表示,得到用户的兴趣表示点击得分预测模块904,用于将候选新闻表示和用户的兴趣表示输入点击预测器,得到多篇候选新闻的点击得分;
新闻推荐列表生成模块905,用于根据点击得分,获取新闻推荐列表并推荐给用户。
本实施例中各个模块的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图10所示,其通过***总线101连接的处理器102、存储器、输入装置103、显示器104和网络接口105,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质106和内存储器107,该非易失性存储介质106存储有操作***、计算机程序和数据库,该内存储器107为非易失性存储介质中的操作***和计算机程序的运行提供环境,处理器102执行存储器存储的计算机程序时,实现上述实施例1的新闻推荐方法,如下:
获取用户的历史点击新闻列表和多篇候选新闻;
将历史点击新闻列表和多篇候选新闻分别输入新闻语义编码器,分别得到历史点击新闻表示列表和候选新闻表示;其中所述新闻语义编码器先分别学习不同类型的新闻表示,再将所有的新闻信息表示聚合成统一的新闻表示;
将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;其中所述用户兴趣编码器包括注意力模块和GRU网络;所述注意力模块从历史点击新闻序列中对用户反复点击的一类新闻施加更高的权重以学习用户的长期兴趣表示;所述GRU网络从历史点击新闻序列中学习用户随时间动态变化的短期偏好表示,其最后一个隐层从用户最近的浏览历史中学习用户的短期表现,以捕捉用户的短期偏好;最后聚合用户的长期兴趣表示和短期偏好表示,得到用户的兴趣表示;
将候选新闻表示和用户的兴趣表示输入点击预测器,得到多篇候选新闻的点击得分;
根据点击得分,获取新闻推荐列表并推荐给用户。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的新闻推荐方法,如下:
获取用户的历史点击新闻列表和多篇候选新闻;
将历史点击新闻列表和多篇候选新闻分别输入新闻语义编码器,分别得到历史点击新闻表示列表和候选新闻表示;其中所述新闻语义编码器先分别学习不同类型的新闻表示,再将所有的新闻信息表示聚合成统一的新闻表示;
将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;其中所述用户兴趣编码器包括注意力模块和GRU网络;所述注意力模块从历史点击新闻序列中对用户反复点击的一类新闻施加更高的权重以学习用户的长期兴趣表示;所述GRU网络从历史点击新闻序列中学习用户随时间动态变化的短期偏好表示,其最后一个隐层从用户最近的浏览历史中学习用户的短期表现,以捕捉用户的短期偏好;最后聚合用户的长期兴趣表示和短期偏好表示,得到用户的兴趣表示;
将候选新闻表示和用户的兴趣表示输入点击预测器,得到多篇候选新闻的点击得分;
根据点击得分,获取新闻推荐列表并推荐给用户。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (10)

1.一种融合知识图谱和用户长短期兴趣的新闻推荐方法,其特征在于,所述方法包括:
获取用户的历史点击新闻列表和多篇候选新闻;
将历史点击新闻列表和多篇候选新闻分别输入新闻语义编码器,分别得到历史点击新闻表示列表和候选新闻表示;其中所述新闻语义编码器先分别学习不同类型的新闻表示,再将所有的新闻信息表示聚合成统一的新闻表示;
将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;其中所述用户兴趣编码器包括注意力模块和GRU网络;所述注意力模块从历史点击新闻序列中对用户反复点击的一类新闻施加更高的权重以学习用户的长期兴趣表示;所述GRU网络从历史点击新闻序列中学习用户随时间动态变化的短期偏好表示,其最后一个隐层从用户最近的浏览历史中学习用户的短期表现,以捕捉用户的短期偏好;最后聚合用户的长期兴趣表示和短期偏好表示,得到用户的兴趣表示;
将候选新闻表示和用户的兴趣表示输入点击预测器,得到多篇候选新闻的点击得分;
根据点击得分,获取新闻推荐列表并推荐给用户。
2.根据权利要求1所述的新闻推荐方法,其特征在于,历史点击新闻和候选新闻均包括标题、简介、类别和知识实体;
所述新闻语义编码器包括标题编码器、简介编码器、类别编码器、知识实体编码器和特征注意力网络,其中:
所述标题编码器,用于从新闻标题中学习新闻表示;
所述简介编码器,用于从新闻简介中学习新闻表示;
所述类别编码器,用于从新闻类别中学习新闻表示;
所述知识实体编码器,用于从知识实体中学习新闻表示;
所述特征注意力网络,用于从不同类型的新闻表示中聚合统一的新闻语义表示。
3.根据权利要求2所述的新闻推荐方法,其特征在于,所述标题编码器包括词嵌入层、CNN神经网络和词注意力层;
所述标题编码器,用于从新闻标题中学习新闻表示,包括:
词嵌入层用于将新闻标题从单词序列转换成低维稠密的词向量序列;
CNN网络根据所述词向量序列,通过捕捉单词的上下文语境来学习单词的上下文表示;
词注意力层根据所述单词的上下文表示,为用户识别新闻标题中重要的词,得到新闻标题中单词的注意力权重;
将新闻标题中所有单词的上下文表示进行加权求和,得到新闻标题的新闻表示。
4.根据权利要求3所述的新闻推荐方法,其特征在于,所述简介编码器和所述标题编码器的结构相同,将新闻简介中所有单词的上下文表示进行加权求和,得到新闻简介的新闻表示。
5.根据权利要求2所述的新闻推荐方法,其特征在于,所述类别编码器包括类别ID嵌入层和隐含层;
所述类别编码器,用于从新闻类别中学习新闻表示,包括:
类别ID嵌入层的输入是主类别ID表示子类别ID表示,用于将离散的类主类别ID表示和子类别ID表示转换成低维稠密的类别嵌入gc和gsc
隐含层根据所述类别嵌入gc和gsc,分别学习类别嵌入中隐含的类别信息表示zc和zsc
类别信息表示zc和zsc作为新闻类别中的新闻表示。
6.根据权利要求2所述的新闻推荐方法,其特征在于,所述知识实体编码器,用于从知识实体中学习新闻表示,包括:
首先进行知识实体提炼、构建知识子图,包括:
提取新闻标题和简介中所提及的知识实体,其中MIND-small数据集已给出了新闻标题和简介中提及的知识实体;
由于新闻标题和简介提及的知识实体数量少,利用WikiData知识图谱将新闻标题和简介提及的知识实体扩展到一跳内的所有实体;
将所有实体构建为知识子图,并从WikiData知识图谱中提取出实体之间的所有关系;
然后,对于构建的知识子图,使用TransE知识图嵌入方法进行实体表示学习,得到知识实体嵌入序列;
最后,将实体注意力网络应用于知识实体嵌入序列中,为用户识别不同知识实体在挖掘新闻之间潜在的不同重要程度的知识层面的联系,即得到新闻实体集中每个知识实体的注意力权重;
将新闻实体集中所有知识实体表示加权求和,得到新闻实体集的新闻表示。
7.根据权利要求2所述的新闻推荐方法,其特征在于,所述特征注意力网络,用于从不同类型的新闻表示中聚合统一的新闻语义表示,包括:
Figure FDA0004036231130000031
其中,dt是计算新闻标题的新闻表示中的中间变量,Ut是注意力查询向量,Rt和rt是映射参数,zt是新闻标题的新闻表示;计算简介表、主类别、子类别和知识实体集新闻表示中的中间变量da、dc、dsc、de均与dt相同;
设新闻标题、简介表、主类别、子类别和知识实体集的注意力权重分别为αt、αa、αc、αsc和αe,其中新闻标题表示的注意力权重αt的计算公式如下:
Figure FDA0004036231130000032
其它新闻信息的注意力权重的计算方法和注意力权重αt相同;
最终统一的新闻语义表示z是由各个新闻信息的新闻表示加权求和得到,计算公式如下:
z=αtztazaczcsczsceze
8.根据权利要求1-7任一项所述的新闻推荐方法,其特征在于,通过注意力机制从用户历史点击新闻表示序列中捕捉用户的长期兴趣,用户点击的第i篇历史新闻的权重表示为
Figure FDA0004036231130000033
公式如下:
Figure FDA0004036231130000034
其中:
Figure FDA0004036231130000035
式中,Kn和kn是映射参数,wn是注意力查询向量,zi是用户的第i篇历史点击新闻表示,n是用户历史点击新闻的数量;
对用户的历史点击新闻表示的加权求和,得到用户的长期兴趣表示。
9.一种融合知识图谱和用户长短期兴趣的新闻推荐***,其特征在于,所述***包括:
新闻获取模块,用于获取用户的历史点击新闻列表和多篇候选新闻;
新闻表示聚合模块,用于将历史点击新闻列表和多篇候选新闻分别输入新闻语义编码器,分别得到历史点击新闻表示列表和候选新闻表示;其中所述新闻语义编码器先分别学习不同类型的新闻表示,再将所有的新闻信息表示聚合成统一的新闻表示;
兴趣表示生成模块,用于将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;其中所述用户兴趣编码器包括注意力模块和GRU网络;所述注意力模块从历史点击新闻序列中对用户反复点击的一类新闻施加更高的权重以学习用户的长期兴趣表示;所述GRU网络从历史点击新闻序列中学习用户随时间动态变化的短期偏好表示,其最后一个隐层从用户最近的浏览历史中学习用户的短期表现,以捕捉用户的短期偏好;最后聚合用户的长期兴趣表示和短期偏好表示,得到用户的兴趣表示;
点击得分预测模块,用于将候选新闻表示和用户的兴趣表示输入点击预测器,得到多篇候选新闻的点击得分;
新闻推荐列表生成模块,用于根据点击得分,获取新闻推荐列表并推荐给用户。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-8任一项所述的新闻推荐方法。
CN202310005366.7A 2023-01-04 2023-01-04 融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质 Pending CN116010696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310005366.7A CN116010696A (zh) 2023-01-04 2023-01-04 融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310005366.7A CN116010696A (zh) 2023-01-04 2023-01-04 融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质

Publications (1)

Publication Number Publication Date
CN116010696A true CN116010696A (zh) 2023-04-25

Family

ID=86036936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310005366.7A Pending CN116010696A (zh) 2023-01-04 2023-01-04 融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质

Country Status (1)

Country Link
CN (1) CN116010696A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911304A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 一种文本推荐方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911304A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 一种文本推荐方法及装置
CN116911304B (zh) * 2023-09-12 2024-02-20 深圳须弥云图空间科技有限公司 一种文本推荐方法及装置

Similar Documents

Publication Publication Date Title
US11893071B2 (en) Content recommendation method and apparatus, electronic device, and storage medium
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN111241311B (zh) 媒体信息推荐方法、装置、电子设备及存储介质
Anandhan et al. Social media recommender systems: review and open research issues
CN111339415B (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
Sang et al. Context-dependent propagating-based video recommendation in multimodal heterogeneous information networks
CN111737578A (zh) 一种推荐方法及***
CN111949886B (zh) 一种用于信息推荐的样本数据生成方法和相关装置
CN110069713B (zh) 一种基于用户上下文感知的个性化推荐方法
CN112036659B (zh) 基于组合策略的社交网络媒体信息流行度预测方法
CN112016002A (zh) 融合评论文本层级注意力和时间因素的混合推荐方法
CN115964560B (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN113761383A (zh) 一种基于统一用户行为建模的搜索和推荐融合***
Meddeb et al. Personalized smart learning recommendation system for arabic users in smart campus
Zhu Network Course Recommendation System Based on Double‐Layer Attention Mechanism
CN116010696A (zh) 融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质
Xie et al. Attentive preference personalized recommendation with sentence-level explanations
Ji et al. A fuzzy intelligent group recommender method in sparse-data environments based on multi-agent negotiation
CN116628345A (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN114443956A (zh) 内容推荐方法以及相关设备
Yin et al. An interpretable neural network TV program recommendation based on SHAP
Li et al. Deep recommendation based on dual attention mechanism
Meng Cross-domain information fusion and personalized recommendation in artificial intelligence recommendation system based on mathematical matrix decomposition
Wang et al. FuzzAttention on session-based recommender system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination