CN115048530A

CN115048530A - 融合邻居重要度和特征学习的图卷积推荐***

Info

Publication number: CN115048530A
Application number: CN202210593429.0A
Authority: CN
Inventors: 朵琳; 韦贵香
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-13

Abstract

本发明提出了一种融合邻居重要度和特征学习的图卷积推荐***。该模型分为邻居采样模块、Bi‑Interaction特征交叉池化聚合模块和预测模块。在邻居采样模块，使用节点分数(即节点对用户的重要性)和用户对边的分数(即关系对用户的重要性)的加权分数作为节点初始分数，再与节点的中心性感知分数进行融合得到该节点的最终评分，根据评分进行排序得到邻居列表。在数据聚合模块，使用Bi‑Interaction聚合器将实体和邻域聚合为单个向量，Bi聚合器可以进行实体与邻域的特征交叉学习，使聚合结果包含更加全面的信息。最后，评分预测模块对最终的用户特征向量和项目特征向量进行点积，得到最终的概率分数。

Description

融合邻居重要度和特征学习的图卷积推荐***

技术领域

本发明涉及知识图谱推荐***技术领域，特别涉及一种融合邻居重要度和特征学习的图卷积推荐***。

背景技术

随着社交媒体的快速发展，个性化推荐***针对用户对物品的偏好进行建模，可以为用户有效解决互联网时代带来的信息过载问题。近来有许多学者在推荐***中引入知识图谱来对用户的兴趣进行建模，通过挖掘知识图中用户与交互项目之间的多跳关系(即路径)，提取隐含的用户偏好和其他辅助信息，可以帮助***更准确地学习用户与项目的相似性，提高推荐精度。

现有融合知识图谱的推荐模型大致可分为3类：基于嵌入的方法、基于路径的方法和嵌入加路径的混合方法。其中，在基于嵌入的方法中，CoFM是一种融合了协同过滤模型FM和图嵌入模型TransE的融合推荐模型，它将知识图中多个实体的信息及其关系作为有效的辅助信息引入推荐***,可以有效提高推荐的准确性，缓解用户历史交互数据稀疏的问题。但是，CoFM模型中使用的图形嵌入模型TransE不能很好地解决1-N、N-1和N-N问题。为了解决这个问题，FMH将TransE模型替换为TransH模型来改进CoFM，能够捕捉多个关联实体之间的丰富结构，更好地对用户的兴趣进行建模。基于嵌入的方法可以根据具体的应用场景来对知识图进行相应属性的嵌入，丰富实体的特征表示，但是这也导致了这种方法可应用的场景较少。在基于路径的方法中，为了利用异构信息挖掘用户的高阶兴趣，SAMREC提出了基于语义元路径的个性化推荐方法，引入评分来设计元路径后使用权重正则化项来衡量每条元路径的重要性，可以捕捉用户个性化的权重偏好，缓解评分数据稀疏的问题，但是元路径的设计需要丰富的相关邻域的专业知识，对设计者的要求较高。PinSage将高效随机游走策略和图卷积结合起来，使用随机游走策略进行路径选择，生成包含图结构和节点特征信息的节点(即项)嵌入。这种方法不需要人为地对元路径进行设计，但是使用的随机游走策略会给采样带来不确定性。嵌入加路径的混合模型可以有效解决以上两种方法存在的问题，IPAKG引入知识图来挖掘用户的隐式偏好表达，并将递归神经网络和注意机制结合起来，捕捉用户不断变化的兴趣以及序列中不同项目之间的关系，但是在利用知识图来进行用户偏好的挖掘时没有区分不同邻域对实体的重要性，导致筛选出来的邻居不能充分代表实体的邻域特征，可能会引入无效噪声信息。KGNN-LS应用一个可训练函数通过识别给定用户的重要知识图关系来计算用户的项嵌入，这种方式将知识图转换为用户特定的加权图，然后应用图神经网络来计算个性化项目嵌入。

上述方法存在两个方面的问题：首先，在利用知识图进行实体邻域的聚合时，当邻居节点过多时不仅可能会引入无效信息影响推荐结果，还会加大计算量消耗***的计算资源。KGCN等现有模型采用“固定邻域”的方法进行采样，但是这种采样方法不能充分利用所有的邻域信息，导致最终的聚合结果不够全面。此外，在训练过程中，随着实体特征阶数的增加，引入的噪声和***参数也随之增加，给***带来难以收敛的风险。KGFER从与用户交互的项目的1跳邻居和关系中采样，利用CNN从实体关系中学习项目特征，然后通过MLP将项目特征与交互项目进行聚合，最后将细化的项目嵌入到用户潜在空间以预测用户与项目交互的潜在概率。这种方法只对知识图谱中实体的一跳领域和关系进行采样，没有充分利用图谱中实体的多跳高阶关系来学习用户的潜在远程兴趣，并未直接解决上述问题。

发明内容

本发明的目的是提供一种融合邻居重要度和特征学习的图卷积推荐***，以解决上述问题。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种融合邻居重要度和特征学习的图卷积推荐***，包括以下步骤：

(1)邻居采样模块

知识图谱由三元组(h,r,t)组成，其中h代表头部实体，t代表尾部实体，r代表实体间的关系，在计算实体节点重要性时考虑了用户对实体节点的偏好程度，在用户与关系分数的基础之上加入用户与实体的分数，实体节点i的初始评分为：

s(i)＝(1-α)s(u,r)+αs(u,v)

其中，s(i)代表实体节点i的初始分数，其中第一项表示用户节点与关系的分数，第二项表示用户节点与实体i的分数，α为超参数，用来衡量用户与关系、用户与实体这两个分数的重要性。

在知识图谱中，可以使用中心性(Centrality)作为判断节点重要性或影响力的指标，中心性又可分为：度中心性、中介中心性和接近中心性；其中，度中心性衡量图谱中一个节点与所有其它节点相联系的程度；中介中心性以经过某个节点的最短路径数目来刻画该节点重要性；接近中心性反映在图谱中某一节点与其他节点之间的接近程度；根据知识图谱的特性，一个节点与之相连的节点越多，该节点隐含的信息可能越丰富，故本发明使用度中心性来衡量一个节点的重要性，并假设实体节点的重要性与其在知识图谱中的中心性正相关，即更中心的节点将比其他节点更重要，实体节点i的中心性表示为：

c(i)＝log(d(i)+ε)

其中，d(i)表示实体节点i的入度，ε是一个数值很小的常数；

最后，结合实体节点的初始分数和中心性得到实体节点最终的重要度评分：

s(i)＝σ_s(c(i)·s(i))

其中，σ_s为非线性激活函数,根据节点最终的重要度评分来进行排序，即可得到目标实体节点的邻域列表；

(2)基于特征交叉池化的聚合方法

引入特征交叉池化层来对实体邻域进行聚合：

f_{Bi-Interaction}＝LeakyReLU(W₁(e_h+e_Nh))+

LeakyReLU(W₂(e_h⊙e_Nh)

其中W₁，W₂∈R^d'×d是可训练的权重矩阵，e_h为实体特征向量，e_Nh为实体的邻域特征向量，⊙表示元素积，第k维的元素积操作如下：

(e_h⊙e_Nh)_k＝e_hke_Nhk

通过对所有特征域进行两两交叉后，可以得到一系列特征交叉后的特征向量，最后将所有结果进行sumpooling操作，模型在对每一个特征进行学习的时候，都需要和其他特征进行交叉，但是模型在学习性别特征的时候不可避免地受到时间特征的影响，在一定程度上加大了计算量，因此引入dropout防止过拟合；

(3)评分预测与模型优化

使用最终聚合得到的用户特征向量z_u和项目特征向量z_i进行点积得到用户对物品的预测评分：

使用梯度下降算法来更新模型，使用交叉熵损失函数来对模型进行优化，交差熵可以计算预测结果

和正确结果y之间的距离，距离越小，表示预测的结果越准确，模型效果越好；

与现有技术相比，本发明具有以下有益效果：

本发明针对以上问题从邻域采样和邻域聚合两个角度进行了探索，基于KGCN模型提出了邻居重要度采样策略和特征交叉池化策略，在选择邻域时，利用邻居节点的分数与其中心性感知分数来得到该节点对目标节点的重要性，按照分数来对邻居排序然后进行采样。这种做法可以通过遍历整个知识图谱，为实体找到最有价值的邻居，不仅充分利用了知识图的边缘信息，还可以克服以往使用的随机游走采样方法导致的不确定性。在进行邻域聚合时，本发明使用Bi-Interaction进行特征交叉后池化聚合，不仅可以学习向量中隐含的丰富特征信息，还可以减少噪声的产生。最后，将用户特征向量与聚合得到的实体特征向量送入预测函数中预测用户与实体项目交互的概率。将本发明所改进的模型KGCN-NP在MovieLens-1M、Book-Crossing和Last.FM数据集上进行了试验，结果表明，本发明模型的AUC、Recall和F1指标相比于基线模型均取得了有效的提升。

附图说明

图1是本发明的模型架构图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

实施例，参照图1，一种融合邻居重要度和特征学习的图卷积推荐***，包括以下步骤：

(1)邻居采样模块

知识图谱由三元组(h,r,t)组成，其中h代表头部实体，t代表尾部实体，r代表实体间的关系，现有的大部分图卷积算法都是通过计算用户与关系(如演员与悬疑片之间的关系)的分数来进行实体邻域选择，但是没考虑到用户对节点本身(如用户对悬疑片类型)的喜爱程度，导致很容易在学习目标项的嵌入时引入无效信息，在一定程度上影响用户的偏好学习，进而影响***的推荐性能。本文在计算实体节点重要性时考虑了用户对实体节点的偏好程度，在用户与关系分数的基础之上加入用户与实体的分数，实体节点i的初始评分为：

s(i)＝(1-α)s(u,r)+αs(u,v)

在知识图谱中，可以使用中心性(Centrality)作为判断节点重要性或影响力的指标，中心性又可分为：度中心性、中介中心性和接近中心性。其中，度中心性衡量图谱中一个节点与所有其它节点相联系的程度；中介中心性以经过某个节点的最短路径数目来刻画该节点重要性；接近中心性反映在图谱中某一节点与其他节点之间的接近程度。根据知识图谱的特性，一个节点与之相连的节点越多，该节点隐含的信息可能越丰富，故本文使用度中心性来衡量一个节点的重要性，并假设实体节点的重要性与其在知识图谱中的中心性正相关，即更中心的节点将比其他节点更重要，实体节点i的中心性表示为：

c(i)＝log(d(i)+ε)

其中，d(i)表示实体节点i的入度，ε是一个数值很小的常数。

s(i)＝σ_s(c(i)·s(i))

其中，σ_s为非线性激活函数。根据节点最终的重要度评分来进行排序，即可得到目标实体节点的邻域列表。

(2)基于特征交叉池化的聚合方法

KGCN中提出的三种聚合方式只是对实体向量和邻域向量做简单的求和或连接处理后进行非线性变换，没有考虑特征组合信息，可能会丢失重要的特征信息，而双交互特征聚合器(Bi-Interaction聚合器)则有效解决了排序模型融入特征时不仅需要单独考虑每一个特征，更需要考虑特征之间的交互问题。Bi-Interaction聚合器通过将两个特征组合起来实现对样本空间的非线性变换，增加模型的非线性能力，以达到对于不同的特征组合都能进行有效预测的目标，提高模型对于未知特征组合样本的预测能力。此外，Bi-Interaction池化操作降低了网络复杂度，能够加速网络的训练。本文引入特征交叉池化层来对实体邻域进行聚合：

f_{Bi-Interaction}＝LeakyReLU(W₁(e_h+e_Nh))+LeakyReLU(W₂(e_h⊙e_Nh)

(e_h⊙e_Nh)_k＝e_hke_Nhk

通过对所有特征域进行两两交叉后，可以得到一系列特征交叉后的特征向量，最后将所有结果进行sum pooling操作，与KGCN中的neighbor聚合器只用最终聚合出来的邻域代表实体不同，本文考虑到实体节点自身携带的信息更能描述该节点的特征，所以在聚合时也要对节点自身进行聚合，得到的最终实体特征向量

整合了实体自身的初始特征和l层的接收域特征。模型在对每一个特征进行学习的时候，都需要和其他特征进行交叉，例如，音乐歌曲演唱者的性别特征和歌曲发售的时间特征应该是不相关的，但是模型在学习性别特征的时候不可避免地受到时间特征的影响，在一定程度上加大了计算量，因此引入dropout防止过拟合。

(3)评分预测与模型优化

使用梯度下降算法来更新模型，使用交叉熵损失函数来对模型进行优化。交差熵可以计算预测结果

和正确结果y之间的距离，距离越小，表示预测的结果越准确，模型效果越好。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种融合邻居重要度和特征学习的图卷积推荐***，其特征在于，包括以下步骤：

(1)邻居采样模块

s(i)＝(1-α)s(u,r)+αs(u,v)

在知识图谱中，可以使用中心性(Centrality)作为判断节点重要性或影响力的指标，中心性又可分为：度中心性、中介中心性和接近中心性；其中，度中心性衡量图谱中一个节点与所有其它节点相联系的程度；中介中心性以经过某个节点的最短路径数目来刻画该节点重要性；接近中心性反映在图谱中某一节点与其他节点之间的接近程度；根据知识图谱的特性，一个节点与之相连的节点越多，该节点隐含的信息可能越丰富，故本文使用度中心性来衡量一个节点的重要性，并假设实体节点的重要性与其在知识图谱中的中心性正相关，即更中心的节点将比其他节点更重要，实体节点i的中心性表示为：

c(i)＝log(d(i)+ε)

其中，d(i)表示实体节点i的入度，ε是一个数值很小的常数；

s(i)＝σ_s(c(i)·s(i))

(2)基于特征交叉池化的聚合方法

引入特征交叉池化层来对实体邻域进行聚合：

f_{Bi-Interaction}＝LeakyReLU(W₁(e_h+e_Nh))+LeakyReLU(W₂(e_h⊙e_Nh)

(e_h⊙e_Nh)_k＝e_hke_Nhk

(3)评分预测与模型优化