CN112364245A - 基于异构信息网络嵌入的Top-K电影推荐方法 - Google Patents
基于异构信息网络嵌入的Top-K电影推荐方法 Download PDFInfo
- Publication number
- CN112364245A CN112364245A CN202011306020.3A CN202011306020A CN112364245A CN 112364245 A CN112364245 A CN 112364245A CN 202011306020 A CN202011306020 A CN 202011306020A CN 112364245 A CN112364245 A CN 112364245A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- data
- information network
- heterogeneous information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于异构信息网络嵌入的Top‑K电影推荐方法,包括:步骤1.预处理数据:步骤2.嵌入学习异构信息网络;步骤3.在异构信息网络中传播信息;步骤4.聚合节点信息和边信息;步骤5.预测评分;步骤6.Top‑K评价。本发明对异构信息网络的学习进行改进,将节点之间的边显式的加入到学习过程中,并将改进后的学习方法应用到推荐任务中来,充分获取了电影数据中不同类型的节点之间的关系,和传统的同构网络相比,获取了更丰富的语义信息,和现有的异构信息网络学习方法相比,获取了边的信息,减少了学习过程中数据损失,提高了对异构信息网络中信息的利用率。
Description
技术领域
本发明涉及一种电影推荐方法。
背景技术
伴随着互联网飞速发展随着互联网的迅速发展,给人们带来了丰富的信息,满足了人们对信息的需求。随之而来的是信息量的***式增长,人们发现,日常生活中能接触到的信息越来越多,但是真正对自身有用的信息反而越来越少,这就产生了信息过载问题,即面对海量信息,用户因自身知识水平、认知能力有限而无法快速找到自己所需的信息的问题。
最初,解决信息过载的方法主要有分类目录和搜索引擎,例如雅虎和谷歌。但是数据量的快速增长,这类方法已经不能满足人们的需求了,因此推荐***应运而生。推荐***通过对用户的历史行为分析来获取用户的兴趣,主动为用户推送感兴趣的信息。
推荐算法在早期研究主要集中在协同过滤,并取得了不错的效果。协同过滤主要分为两大类,基于邻域的协同过滤和基于模型的协同过滤。基于邻域的协同过滤可以分为基于用户的协同过滤和基于物品的协同过滤;而基于模型的协同过滤方法主要有SVM模型、贝叶斯网络模型、因影子模型等。
目前这些方法都只关注同构网络,同构网络不能很好的对复杂的现实世界进行建模,这时候开始引入异构信息网络。异构信息网络中包含了两种以上不同类型的节点和关系,可以很好的描述现实世界中的复杂关系,提高了推荐的准确性。目前异构信息网络在推荐中的研究主要集中在节点的嵌入学习,大致方向有两类,一类是元路径方法,还有一类则是直接利用图神经网络。这两类方法都是将节点向量化,获取异构信息网络的结构信息,然后结合经典的推荐算法完成推荐任务。目前这些方法大都专注于节点的处理,而忽略了节点之间的边的信息,异构信息网络中节点类型是多种多样的,因此节点之间的边的类型也是多种多样的,也包含了很多的信息,而这部分信息被忽略了。
发明内容
为了克服现有技术的上述缺点、将异构信息网络中丰富的边信息加入到推荐模型中来,本发明提供了一种新的基于异构信息网络的推荐方法,本发明将异构信息网络中的节点和边进行融合,完成电影的Top-K个性化推荐任务。
本发明利用TransR方法,对异构信息网络中的节点和边进行初始化嵌入,得到节点和边的向量表示,然后将节点向量和边向量进行聚合,得到用户和物品的向量表示,然后完成Top-K推荐任务。
基于异构信息网络嵌入的Top-K电影推荐方法,具体步骤如下:
步骤1.预处理数据,具体包括:
1.1清洗数据;对原始数据清洗,过滤掉原始数据集中的无效数据,包括观看次数小于预定值的用户数据和评价次数小于预定值的电影数据,进而到训练数据和测试数据;
1.2构造异构信息网络数据和构建训练数据、测试数据;将清洗好的数据,构建异构信息网络;将清洗的数据构建三元组,来表示异构信息网络,三元组的形式如下:
(h,r,t) (1)
其中,h代表头节点,t代表尾节点,r代表头节点h和尾节点t之间的关系,即二者之间的边;
步骤2.嵌入学习异构信息网络,具体包括:
2.1初始化嵌入;首先对异构信息网络中的节点和边向量初始化,这里采用TransR模型,将异构信息网络中的节点和边使用相同维度的向量来初始化,分别是Eh、Et、Er,代表了头节点、尾节点和边;然后按照关系类型来对节点进行映射,即针对每一种关系r,都有一个映射矩阵Mr,将节点映射到关系r的向量空间中去,公式如下:
2.2表示学习异构信息网络;这里通过初始化得到了节点和边的向量表示,通过得分函数来学习异构信息网络:
其中f(h,r,t)表示得分函数;通过该函数可以将有联系的节点彼此靠近,而将没有联系的节点对彼此疏远;学习过程的损失函数L1定义为:
步骤3.在异构信息网络中传播信息,具体包括:
3.1计算节点和邻居之间的注意力分数;
区别于使用预先准备好路径实例的元路径方法,本发明按照异构信息网络中节点的连通性,直接对节点和它的邻居计算注意力分数,例如节点h和它的一个邻居t的注意力分数π(h,r,t)为:
其中tanh(·)是激活函数;节点和他们的邻居关联越紧密,注意力分数越大;由于一个节点有多个邻居,所以会有多个注意力分数,所以对得到注意力分数进行归一化处理:
3.2节点间的信息传播,信息从邻居节点聚合到当前节点中这部分包含节点融合;具体的,以三元组(h,r,t)中的头节点h为例,它的邻居集合为Nh={(h,r,t)|(h,r,t)∈G},则节点h的邻居的向量表示为:
为了聚合这些信息,通过下面的函数来实现:
步骤5.预测评分;通过上面的步骤,可以获得用户节点的表示Eu和物品节点的表示Ei,如下所示:
评分预测的损失函数L2如下:
D={(u,i,j)|(u,i)∈R+,(u,j)∈R-} (15)
其中D为数据集,(u,i)∈R+表示正样本,(u,j)∈R-为负样本;总的损失函数Ltotal为:
Ltotal=L1+L2 (16)
步骤6.Top-K评价;通过常用的两个指标:HR@K和NDCG@K来对推荐方法进行评价,公式如下:
其中K表示去推荐结果中前K个数据;GT表示测试集合数据;reli则代表第i个位置的关联性,通常若第i个位置的物品在测试集合中,那么reli为1,否则为0;Zk代表归一化系数。
优选地,步骤1.1所述的预定值是20次。
本发明综合当前较为新颖的异构信息网络学习方法,并将节点之间的关系融合到异构信息网络的学习中来,充分的挖掘异构网络中的信息;本发明的创新点在于对异构信息网络的学习进行改进,将节点之间的边显式的加入到学习过程中,并将改进后的学习方法应用到推荐任务中来,充分获取了电影数据中不同类型的节点之间的关系,和传统的同构网络相比,获取了更丰富的语义信息,和现有的异构信息网络学习方法相比,获取了边的信息,减少了学习过程中数据损失,提高了对异构信息网络中信息的利用率。
附图说明
图1是本发明方法的总流程图。
具体实施方式
本发明提出的方法的输入数据分为两部分,一是异构信息图数据,即三元组,而是用于训练和测试的评分数据,本方法的输出是每个用户的前K个电影列表。
如图1所示,本发明的基于异构信息网络嵌入的Top-K电影推荐方法包括如下步骤:
步骤1.预处理数据,具体地:
1.1清洗数据;将电影数据中观影次数小于20的用户和观看次数小20的电影剔除,完成数据的清洗;
1.2构建异构信息网络和构建评分数据集;对用户、电影、导演、演员、流派进行编码,以及对用户-电影,电影-导演,电影-演员,电影-流派这些对象之间的关系进行编码,构建三元组和评分数据集,并将评分数据集随机划分得到训练数据和测试数据,同时训练样本中包含了正样本和负样本;将清洗好的数据,构建异构信息网络;将清洗的数据构建三元组,来表示异构信息网络,三元组的形式如下:
(h,r,t) (1)
其中,h代表头节点,t代表尾节点,r代表头节点h和尾节点t之间的关系,即二者之间的边;
步骤2.嵌入学习异构网络;
2.2表示学习异构信息网络;通过得分函数来学习异构信息系网络的嵌入,f(h,r,t)表示得分函数:
通过该函数可以将有联系的节点彼此靠近,而将没有联系的节点对彼此疏远;这个学习过程的损失函数定义为:
步骤3.在异构信息网络中信息传播;这里计算节点和邻居之间的信息传递,一个节点具有多个邻居,每个邻居对节点的重要性是不一致的,因此首先要计算节点和不同邻居之间的权重,然后再对节点和它的邻居进行信息的传递;具体地:
3.1计算节点和邻居之间的注意力分数;
不同的邻居对节点的重要性存在着差异,为此通过π(h,r,t)来衡量重要程度,即节点和它的邻居之间的权重,其中tanh(·)是激活函数:
计算节点和它全部邻居的权重之后,对这些重要性进行归一化处理:
步骤4.聚合节点信息和边信息;
然后对这三者进行聚合,激活函数采用LeakReLU(·):
步骤5.评分预测;最终通过上面的步骤,可以得到用户节点和电影节点的最终向量表示,分别记为Eu和Ei:
评分预测过程中的损失函数为:
D={(u,i,j)|(u,i)∈R+,(u,j)∈R-} (15)
其中D为数据集,(u,i)∈R+表示正样本,(u,j)∈R-为负样本;
整个模型的总损失函数为Ltotal:
Ltotal=L1+L2 (16)
步骤6;Top-K评价;完成整个学习过程后,对模型输出的结果进行评价;模型的输出是每个用户前K个电影编号列表,通过HR@K和NDCG@K这两个指标对推荐结果进行评价:
至此,完成了整个推荐的所有步骤。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (2)
1.基于异构信息网络嵌入的Top-K电影推荐方法,具体步骤如下:
步骤1.预处理数据,具体包括:
1.1清洗数据;对原始数据清洗,过滤掉原始数据集中的无效数据,包括观看次数小于预定值的用户数据和评价次数小于预定值的电影数据,进而到训练数据和测试数据;
1.2构造异构信息网络数据和构建训练数据、测试数据;将清洗好的数据,构建异构信息网络;将清洗的数据构建三元组,来表示异构信息网络,三元组的形式如下:
(h,r,t) (1)
其中,h代表头节点,t代表尾节点,r代表头节点h和尾节点t之间的关系,即二者之间的边;
步骤2.嵌入学习异构信息网络,具体包括:
2.1初始化嵌入;首先对异构信息网络中的节点和边向量初始化,这里采用TransR模型,将异构信息网络中的节点和边使用相同维度的向量来初始化,分别是Eh、Et、Er,代表了头节点、尾节点和边;然后按照关系类型来对节点进行映射,即针对每一种关系r,都有一个映射矩阵Mr,将节点映射到关系r的向量空间中去,公式如下:
2.2表示学习异构信息网络;这里通过初始化得到了节点和边的向量表示,通过得分函数来学习异构信息网络:
其中f(h,r,t)表示得分函数;通过该函数可以将有联系的节点彼此靠近,而将没有联系的节点对彼此疏远;学习过程的损失函数L1定义为:
步骤3.在异构信息网络中传播信息,具体包括:
3.1计算节点和邻居之间的注意力分数;
区别于使用预先准备好路径实例的元路径方法,本发明按照异构信息网络中节点的连通性,直接对节点和它的邻居计算注意力分数,例如节点h和它的一个邻居t的注意力分数π(h,r,t)为:
其中tanh(·)是激活函数;节点和他们的邻居关联越紧密,注意力分数越大;由于一个节点有多个邻居,所以会有多个注意力分数,所以对得到注意力分数进行归一化处理:
3.2节点间的信息传播,信息从邻居节点聚合到当前节点中这部分包含节点融合;具体的,以三元组(h,r,t)中的头节点h为例,它的邻居集合为Nh={(h,r,t)|(h,r,t)∈G},则节点h的邻居的向量表示为:
为了聚合这些信息,通过下面的函数来实现:
步骤5.预测评分;通过上面的步骤,可以获得用户节点的表示Eu和物品节点的表示Ei,如下所示:
评分预测的损失函数L2如下:
D={(u,i,j)|(u,i)∈R+,(u,j)∈R-} (15)
其中D为数据集,(u,i)∈R+表示正样本,(u,j)∈R-为负样本;总的损失函数Ltotal为:
Ltotal=L1+L2 (16)
步骤6.Top-K评价;通过常用的两个指标:HR@K和NDCG@K来对推荐方法进行评价,公式如下:
其中K表示去推荐结果中前K个数据;GT表示测试集合数据;reli则代表第i个位置的关联性,通常若第i个位置的物品在测试集合中,那么reli为1,否则为0;Zk代表归一化系数。
2.如权利要求1所述的基于异构信息网络嵌入的Top-K电影推荐方法,其特征在于:步骤1.1所述的预定值是20次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011306020.3A CN112364245B (zh) | 2020-11-20 | 2020-11-20 | 基于异构信息网络嵌入的Top-K电影推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011306020.3A CN112364245B (zh) | 2020-11-20 | 2020-11-20 | 基于异构信息网络嵌入的Top-K电影推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364245A true CN112364245A (zh) | 2021-02-12 |
CN112364245B CN112364245B (zh) | 2021-12-21 |
Family
ID=74534351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011306020.3A Active CN112364245B (zh) | 2020-11-20 | 2020-11-20 | 基于异构信息网络嵌入的Top-K电影推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364245B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861006A (zh) * | 2021-02-22 | 2021-05-28 | 中国科学院计算技术研究所 | 融合元路径语义的推荐方法及*** |
CN114238439A (zh) * | 2021-12-14 | 2022-03-25 | 四川大学 | 一种基于联合嵌入的任务驱动关系型数据视图推荐方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491540A (zh) * | 2017-08-24 | 2017-12-19 | 济南浚达信息技术有限公司 | 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法 |
US20180052994A1 (en) * | 2015-04-20 | 2018-02-22 | Splunk Inc. | User activity monitoring |
CN108363804A (zh) * | 2018-03-01 | 2018-08-03 | 浙江工业大学 | 基于用户聚类的局部模型加权融合Top-N电影推荐方法 |
US20190080383A1 (en) * | 2017-09-08 | 2019-03-14 | NEC Laboratories Europe GmbH | Method and system for combining user, item and review representations for recommender systems |
CN110677284A (zh) * | 2019-09-24 | 2020-01-10 | 北京工商大学 | 一种基于元路径的异构网络链路预测的方法 |
-
2020
- 2020-11-20 CN CN202011306020.3A patent/CN112364245B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180052994A1 (en) * | 2015-04-20 | 2018-02-22 | Splunk Inc. | User activity monitoring |
CN107491540A (zh) * | 2017-08-24 | 2017-12-19 | 济南浚达信息技术有限公司 | 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法 |
US20190080383A1 (en) * | 2017-09-08 | 2019-03-14 | NEC Laboratories Europe GmbH | Method and system for combining user, item and review representations for recommender systems |
CN108363804A (zh) * | 2018-03-01 | 2018-08-03 | 浙江工业大学 | 基于用户聚类的局部模型加权融合Top-N电影推荐方法 |
CN110677284A (zh) * | 2019-09-24 | 2020-01-10 | 北京工商大学 | 一种基于元路径的异构网络链路预测的方法 |
Non-Patent Citations (1)
Title |
---|
汤颖等: "基于局部模型加权融合的Top-N电影推荐算法", 《计算机科学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861006A (zh) * | 2021-02-22 | 2021-05-28 | 中国科学院计算技术研究所 | 融合元路径语义的推荐方法及*** |
CN112861006B (zh) * | 2021-02-22 | 2023-06-23 | 中国科学院计算技术研究所 | 融合元路径语义的推荐方法及*** |
CN114238439A (zh) * | 2021-12-14 | 2022-03-25 | 四川大学 | 一种基于联合嵌入的任务驱动关系型数据视图推荐方法 |
CN114238439B (zh) * | 2021-12-14 | 2023-03-28 | 四川大学 | 一种基于联合嵌入的任务驱动关系型数据视图推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112364245B (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162706B (zh) | 一种基于交互数据聚类的个性化推荐方法及*** | |
Luo et al. | Personalized recommendation by matrix co-factorization with tags and time information | |
CN110532471B (zh) | 基于门控循环单元神经网络的主动学习协同过滤方法 | |
CN109190030B (zh) | 融合node2vec和深度神经网络的隐式反馈推荐方法 | |
CN112507246B (zh) | 一种融合全局和局部社会兴趣影响的社会推荐方法 | |
Anand et al. | Folksonomy-based fuzzy user profiling for improved recommendations | |
CN112364245B (zh) | 基于异构信息网络嵌入的Top-K电影推荐方法 | |
CN113420221B (zh) | 融合用户隐式物品偏好与显式特征偏好的可解释推荐方法 | |
CN112948625A (zh) | 一种基于属性异质信息网络嵌入的电影推荐方法 | |
CN114510653B (zh) | 社交群体推荐方法、***、设备及存储介质 | |
CN115712780A (zh) | 一种基于云计算和大数据的信息推送方法及装置 | |
CN110083766B (zh) | 一种基于元路径引导嵌入的查询推荐方法及装置 | |
CN115329215A (zh) | 异构网络中基于自适应动态知识图谱的推荐方法及*** | |
CN113590965B (zh) | 一种融合知识图谱与情感分析的视频推荐方法 | |
Sridhar et al. | Content-Based Movie Recommendation System Using MBO with DBN. | |
CN108491477B (zh) | 基于多维云和用户动态兴趣的神经网络推荐方法 | |
CN113590976A (zh) | 一种空间自适应图卷积网络的推荐方法 | |
CN115481325A (zh) | 基于用户全局兴趣迁移感知的个性化新闻推荐方法及*** | |
CN115840853A (zh) | 一种基于知识图谱和图注意力网络的课程推荐*** | |
CN114329167A (zh) | 超参数学习、智能推荐、关键词和多媒体推荐方法及装置 | |
Stanhope et al. | Group link prediction | |
Hill et al. | A graph neural network recommendation model with knowledge graph and attention mechanism | |
Motevallian et al. | Using trust statements and ratings by GraphSAGE to alleviate cold start in recommender systems | |
Wang et al. | BERT-based aggregative group representation for group recommendation | |
Sridhar et al. | Extending Deep Neural Categorisation Models for Recommendations by Applying Gradient Based Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |