CN112364245A

CN112364245A - 基于异构信息网络嵌入的Top-K电影推荐方法

Info

Publication number: CN112364245A
Application number: CN202011306020.3A
Authority: CN
Inventors: 汤颖; 陈懿
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-12
Anticipated expiration: 2040-11-20
Also published as: CN112364245B

Abstract

基于异构信息网络嵌入的Top‑K电影推荐方法，包括：步骤1.预处理数据：步骤2.嵌入学习异构信息网络；步骤3.在异构信息网络中传播信息；步骤4.聚合节点信息和边信息；步骤5.预测评分；步骤6.Top‑K评价。本发明对异构信息网络的学习进行改进，将节点之间的边显式的加入到学习过程中，并将改进后的学习方法应用到推荐任务中来，充分获取了电影数据中不同类型的节点之间的关系，和传统的同构网络相比，获取了更丰富的语义信息，和现有的异构信息网络学习方法相比，获取了边的信息，减少了学习过程中数据损失，提高了对异构信息网络中信息的利用率。

Description

基于异构信息网络嵌入的Top-K电影推荐方法

技术领域

本发明涉及一种电影推荐方法。

背景技术

伴随着互联网飞速发展随着互联网的迅速发展，给人们带来了丰富的信息，满足了人们对信息的需求。随之而来的是信息量的***式增长，人们发现，日常生活中能接触到的信息越来越多，但是真正对自身有用的信息反而越来越少，这就产生了信息过载问题，即面对海量信息，用户因自身知识水平、认知能力有限而无法快速找到自己所需的信息的问题。

最初，解决信息过载的方法主要有分类目录和搜索引擎，例如雅虎和谷歌。但是数据量的快速增长，这类方法已经不能满足人们的需求了，因此推荐***应运而生。推荐***通过对用户的历史行为分析来获取用户的兴趣，主动为用户推送感兴趣的信息。

推荐算法在早期研究主要集中在协同过滤，并取得了不错的效果。协同过滤主要分为两大类，基于邻域的协同过滤和基于模型的协同过滤。基于邻域的协同过滤可以分为基于用户的协同过滤和基于物品的协同过滤；而基于模型的协同过滤方法主要有SVM模型、贝叶斯网络模型、因影子模型等。

目前这些方法都只关注同构网络，同构网络不能很好的对复杂的现实世界进行建模，这时候开始引入异构信息网络。异构信息网络中包含了两种以上不同类型的节点和关系，可以很好的描述现实世界中的复杂关系，提高了推荐的准确性。目前异构信息网络在推荐中的研究主要集中在节点的嵌入学习，大致方向有两类，一类是元路径方法，还有一类则是直接利用图神经网络。这两类方法都是将节点向量化，获取异构信息网络的结构信息，然后结合经典的推荐算法完成推荐任务。目前这些方法大都专注于节点的处理，而忽略了节点之间的边的信息，异构信息网络中节点类型是多种多样的，因此节点之间的边的类型也是多种多样的，也包含了很多的信息，而这部分信息被忽略了。

发明内容

为了克服现有技术的上述缺点、将异构信息网络中丰富的边信息加入到推荐模型中来，本发明提供了一种新的基于异构信息网络的推荐方法，本发明将异构信息网络中的节点和边进行融合，完成电影的Top-K个性化推荐任务。

本发明利用TransR方法，对异构信息网络中的节点和边进行初始化嵌入，得到节点和边的向量表示，然后将节点向量和边向量进行聚合，得到用户和物品的向量表示，然后完成Top-K推荐任务。

基于异构信息网络嵌入的Top-K电影推荐方法，具体步骤如下：

步骤1.预处理数据，具体包括：

1.1清洗数据；对原始数据清洗，过滤掉原始数据集中的无效数据，包括观看次数小于预定值的用户数据和评价次数小于预定值的电影数据，进而到训练数据和测试数据；

1.2构造异构信息网络数据和构建训练数据、测试数据；将清洗好的数据，构建异构信息网络；将清洗的数据构建三元组，来表示异构信息网络，三元组的形式如下：

(h,r,t) (1)

其中，h代表头节点，t代表尾节点，r代表头节点h和尾节点t之间的关系，即二者之间的边；

步骤2.嵌入学习异构信息网络，具体包括：

2.1初始化嵌入；首先对异构信息网络中的节点和边向量初始化，这里采用TransR模型，将异构信息网络中的节点和边使用相同维度的向量来初始化，分别是E_h、E_t、E_r，代表了头节点、尾节点和边；然后按照关系类型来对节点进行映射，即针对每一种关系r，都有一个映射矩阵M_r，将节点映射到关系r的向量空间中去，公式如下：

其中，

分别是节点h和t映射到r后的向量表示；

2.2表示学习异构信息网络；这里通过初始化得到了节点和边的向量表示，通过得分函数来学习异构信息网络：

其中f(h,r,t)表示得分函数；通过该函数可以将有联系的节点彼此靠近，而将没有联系的节点对彼此疏远；学习过程的损失函数L₁定义为：

其中(h,r,t)∈G表示异构信息网络中的正样本，

是负样本，G表示异构信息网络；

步骤3.在异构信息网络中传播信息，具体包括：

3.1计算节点和邻居之间的注意力分数；

区别于使用预先准备好路径实例的元路径方法，本发明按照异构信息网络中节点的连通性，直接对节点和它的邻居计算注意力分数，例如节点h和它的一个邻居t的注意力分数π(h,r,t)为：

其中tanh(·)是激活函数；节点和他们的邻居关联越紧密，注意力分数越大；由于一个节点有多个邻居，所以会有多个注意力分数，所以对得到注意力分数进行归一化处理：

其中，分子exp(π(h,r,t))表示节点h和它的一个邻居t的注意力分数，分母

表示节点h所有的邻居的注意力分数之和；

3.2节点间的信息传播，信息从邻居节点聚合到当前节点中这部分包含节点融合；具体的,以三元组(h,r,t)中的头节点h为例，它的邻居集合为N_h＝{(h,r,t)|(h,r,t)∈G}，则节点h的邻居的向量表示为：

其中

表示节点h的邻居节点传递过来的信息；

步骤4.聚合节点信息和边信息；节点h和它的邻居间的边的聚合

表示为：

为了聚合这些信息，通过下面的函数来实现：

其中LeakReLU(·)是激活函数，E_h节点h初始化表示，

是边的表示，

是节点h邻居的信息；通过聚合节点以及边的表示，充分的挖掘异构信息网络中的信息；

步骤5.预测评分；通过上面的步骤，可以获得用户节点的表示E_u和物品节点的表示E_i，如下所示：

将预测评分

表示为用户节点向量表示和物品节点向量表示的内积：

评分预测的损失函数L₂如下：

D＝{(u,i,j)|(u,i)∈R⁺,(u,j)∈R^-} (15)

其中D为数据集，(u,i)∈R⁺表示正样本，(u,j)∈R^-为负样本；总的损失函数L_total为：

L_total＝L₁+L₂ (16)

步骤6.Top-K评价；通过常用的两个指标：HR@K和NDCG@K来对推荐方法进行评价，公式如下：

其中K表示去推荐结果中前K个数据；GT表示测试集合数据；rel_i则代表第i个位置的关联性，通常若第i个位置的物品在测试集合中，那么rel_i为1，否则为0；Z_k代表归一化系数。

优选地，步骤1.1所述的预定值是20次。

本发明综合当前较为新颖的异构信息网络学习方法，并将节点之间的关系融合到异构信息网络的学习中来，充分的挖掘异构网络中的信息；本发明的创新点在于对异构信息网络的学习进行改进，将节点之间的边显式的加入到学习过程中，并将改进后的学习方法应用到推荐任务中来，充分获取了电影数据中不同类型的节点之间的关系，和传统的同构网络相比，获取了更丰富的语义信息，和现有的异构信息网络学习方法相比，获取了边的信息，减少了学习过程中数据损失，提高了对异构信息网络中信息的利用率。

附图说明

图1是本发明方法的总流程图。

具体实施方式

本发明提出的方法的输入数据分为两部分，一是异构信息图数据，即三元组，而是用于训练和测试的评分数据，本方法的输出是每个用户的前K个电影列表。

如图1所示，本发明的基于异构信息网络嵌入的Top-K电影推荐方法包括如下步骤：

步骤1.预处理数据，具体地：

1.1清洗数据；将电影数据中观影次数小于20的用户和观看次数小20的电影剔除，完成数据的清洗；

1.2构建异构信息网络和构建评分数据集；对用户、电影、导演、演员、流派进行编码，以及对用户-电影，电影-导演，电影-演员，电影-流派这些对象之间的关系进行编码，构建三元组和评分数据集，并将评分数据集随机划分得到训练数据和测试数据，同时训练样本中包含了正样本和负样本；将清洗好的数据，构建异构信息网络；将清洗的数据构建三元组，来表示异构信息网络，三元组的形式如下：

(h,r,t) (1)

步骤2.嵌入学习异构网络；

2.1初始化嵌入；将构造的三元组数据以邻接矩阵的形式作为异构信息网络嵌入学习的输入，通过下面的公式进行节点的初始化，其中，

分别是节点h和t映射到r后的向量表示：

2.2表示学习异构信息网络；通过得分函数来学习异构信息系网络的嵌入，f(h,r,t)表示得分函数：

通过该函数可以将有联系的节点彼此靠近，而将没有联系的节点对彼此疏远；这个学习过程的损失函数定义为：

其中(h,r,t)∈G表示异构信息网络中的正样本三元组，

是负样本，G表示异构信息网络；

步骤3.在异构信息网络中信息传播；这里计算节点和邻居之间的信息传递，一个节点具有多个邻居，每个邻居对节点的重要性是不一致的，因此首先要计算节点和不同邻居之间的权重，然后再对节点和它的邻居进行信息的传递；具体地：

3.1计算节点和邻居之间的注意力分数；

不同的邻居对节点的重要性存在着差异，为此通过π(h,r,t)来衡量重要程度，即节点和它的邻居之间的权重，其中tanh(·)是激活函数：

计算节点和它全部邻居的权重之后，对这些重要性进行归一化处理：

其中N_h＝{(h,r,t)|(h,r,t)∈G}表示节点h的邻居，分子exp(π(h,r,t))表示节点h和它的一个邻居t的注意力分数，分母

表示节点h所有的邻居的注意力分数之和；

3.2节点间的信息传播；通过计算得到的权重，将节点的邻居传播过来的信息进行聚合，

表示从邻居转递过来的信息：

步骤4.聚合节点信息和边信息；

将节点信息、节点的邻居传递的信息、以及节点和邻居之间边的信息进行聚合，首先是将节点h和邻居间的边进行聚合，表示为

然后对这三者进行聚合，激活函数采用LeakReLU(·)：

步骤5.评分预测；最终通过上面的步骤，可以得到用户节点和电影节点的最终向量表示，分别记为E_u和E_i：

预测评分

表示为用户节点向量表示和物品节点向量表示的内积：

评分预测过程中的损失函数为：

D＝{(u,i,j)|(u,i)∈R⁺,(u,j)∈R^-} (15)

其中D为数据集，(u,i)∈R⁺表示正样本，(u,j)∈R^-为负样本；

整个模型的总损失函数为L_total：

L_total＝L₁+L₂ (16)

步骤6；Top-K评价；完成整个学习过程后，对模型输出的结果进行评价；模型的输出是每个用户前K个电影编号列表，通过HR@K和NDCG@K这两个指标对推荐结果进行评价：

至此，完成了整个推荐的所有步骤。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。