CN112925984A

CN112925984A - 一种基于gcn推荐的样本密度聚合方法

Info

Publication number: CN112925984A
Application number: CN202110358626.XA
Authority: CN
Inventors: 董立岩; 王浩; 马心陶; 刘元宁; 朱晓冬
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-06-08

Abstract

本发明公开了一种基于GCN推荐的样本密度聚合方法，其方法为：步骤一、收集GCN模型的原始数据样本；步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵；步骤三、将步骤二得到的高阶度矩阵将它们聚合为一个最终形式的度矩阵；步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程。本发明的有益效果：使得原始样本中每个对象所携带的信息量增多了。因此在GCN训练时，神经网络能够更完整和准确的得到每个对象的密度特征属性，从而减少了推荐***的推荐错误率。该技术优化方法能够给依赖GCN的业务用户带来更好的直接应用体验。已经测试该方法的实际表现，以此证明该方法确实行之有效。

Description

一种基于GCN推荐的样本密度聚合方法

技术领域

本发明涉及一种样本密度聚合方法，特别涉及一种基于GCN推荐的样本密度聚合方法。

背景技术

目前，基于GCN的推荐***模型已经在很多领域进行了应用，它将一些对象的特征进行数据化表示。然后使用图卷积神经网络将这些对象的特征进行量化，从而编辑出它所对应的实际类型。例如，在一个电商网站中，每个用户都有自己喜欢的商品或者品牌，而GCN可以通过分析商品的关系网和用户与商品间的联系来得到每个用户在某类商品上的兴趣程度。然后推荐***将该类商品推荐给对应的用户。

但是由于当前GCN还存在着一个技术缺陷，导致使用GCN的模型不能够充分而准确的获取目标的特征属性。该缺陷是由于GCN缺少对目标领域原始样本的预处理所致，尤其缺少对关系网中每个对象的邻接密度特征的分析。

发明内容

本发明的目的是为了解决GCN模型不能够充分而准确的获取目标的特征属性的问题，而提供的一种基于GCN推荐的样本密度聚合方法。

本发明提供的基于GCN推荐的样本密度聚合方法，其方法包括如下步骤：

步骤一、收集GCN模型的原始数据样本，将原始的关系网络整理为对象邻接表和对象与属性的关系表，将它们作为下一步计算的依据；

步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵，就是将邻接矩阵中的每行进行度数加权时，再额外的添加计算其邻接对象的度数的过程，通过编程中的循环语句完成，该过程得到不同阶的度矩阵；

步骤三、将步骤二得到的高阶度矩阵以D＝D₁+α₁D₂+α₂D₃的形式将它们聚合为一个最终形式的度矩阵D，然后使用该矩阵计算图的拉普拉斯矩阵L,计算方法为L＝D^-1/2AD^-1/2，然后将获得的拉普拉斯矩阵进行归一化，并使用它进行特征映射和训练，在使用之前需要确定协调参数α₁和α₂的值，协调参数的值往往存在一个可用的取值区间，使用统计的办法画出模型表现分布曲线获得它们的取值区间，具体过程如下：

首先需要确定低阶协调参数的取值范围，使用GCN模型训练并进行推荐，然后记录下当低阶协调参数的值为某个值的时候模型的准确率，并记录下来。进行下一轮统计时等距离增加或者减少协调参数的值，这个间隔一般很小，通常在0.005到0.2之间，在这个过程中模型的表现曲线多数会呈现二次函数的形式，找到最大值所对应的协调参数，对于高阶的协调参数取值也是通过同样的方法得到，但是这时低阶的协调参数应该已经固定，对于协调参数初始值的设定根据阶数而异；

步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程，然后使用处理后的样本进行GCN网络推荐，并获得质量更高的推荐内容，在设定时间之后，由于关系网络的变动，应当重新统计协调参数的值。

本发明的有益效果：

本发明提供的基于GCN推荐的样本密度聚合方法使用了一种局部密度融合的技术方法优化了GCN所涉及领域的原始样本，将关系网中每个对象的本身特征与它的局部邻接密度特征进行聚合。这使得原始样本中每个对象所携带的信息量增多了。因此在GCN训练时，神经网络能够更完整和准确的得到每个对象的密度特征属性，从而减少了推荐***的推荐错误率。该技术优化方法能够给依赖GCN的业务用户带来更好的直接应用体验。已经测试该方法的实际表现，以此证明该方法确实行之有效。

附图说明

图1为本发明所述的有4个结点图的二阶度矩阵计算实例示意图。

图2为本发明所述的GCN神经网络示意图。

图3为本发明所述的使用邻接密度聚合方法的GCN与原始GCN模型在推荐精度上的对比示意图。

图4为本发明所述的使用邻接密度聚合方法的GCN与原始GCN模型在推荐精度上的对比示意图。

图5为本发明所述的使用邻接密度聚合方法的GCN与原始GCN模型在推荐精度上的对比示意图。

具体实施方式

请参阅图1至图5所示：

本发明的实现原理如下所述：

对于一个有n个结点的关系图(也可被称为图)G＝(V,E)，假设它的邻接矩阵和度矩阵为A和D，在GCN中，该网络的拉普拉斯矩阵的计算公式为L＝D^-1/2AD^-1/2。它们使用的度矩阵是结点的一阶度矩阵，称它为D₁。然后定义了它的高阶度矩阵，它们的定义代表了某一阶的局部密度特征：一阶度矩阵表示结点的一阶密度特征，二阶度矩阵表示了结点的二阶密度特征，以此类推。因此方法中的高阶度矩阵的计算方法可以被定义为以下形式：

D＝D₁+α₁D₂+α₂D₃+...+α_x-1D_x

根据上式可知对于每个大于一阶的度矩阵，它们参与计算时都需要乘上一个协调参数α，它是用来调节高阶邻接密度对当前结点的影响程度的，对它的设置往往存在一个可行区间，在该区间内，将会对推荐精度的优化有促进作用。

上式是一个度矩阵计算的形式化定义，但是对高阶度矩阵的计算算法是一个不均衡的算法，该不均衡性可以被解释为，之后结点的高阶邻接度的计算将会被之前已计算过高阶邻接度的结点所影响，如图1所示。

以计算一个三阶度矩阵为例，图的输入为一个稀疏邻接矩阵，它的计算计算过程为：1.将稀疏邻接矩阵转化为普通矩阵，并且求出该矩阵的所有行向量中元素之和，得到一阶度矩阵。2.然后对邻接矩阵进行逐行遍历，找到当前结点的二阶邻接结点的个数，从而统计出所有结点的二阶度矩阵，对于三阶度矩阵的求解方法是同样的过程。3.在使用之前所提到的公式将它们聚合在一起，得到矩阵D，它将被用于计算拉普拉斯矩阵。

虽然可以定义三阶度矩阵，但是在实际应用中，使用三阶度矩阵将不会存在更为明显的效果，并且也会增加统计协调参数的难度(因为这时将有两个协调参数需要设置)。

GCN神经网络的结构如图2所示。

用公式表示的形式为：Z＝softmax(LTanh(LXW⁰)W¹)；

该式中W⁰和W¹分别为神经网络中输入层与隐层，隐层与输出层的权重，L为之前所说的拉普拉斯矩阵，在增加了高阶密度特征后，该矩阵包含了更多可以区分每个结点的信息。拉普拉斯矩阵的特征分解形式如下：

在卷积操作中，神经网络的权重与矩阵F之间在训练时的傅里叶变换需要矩阵U的参与才能进行，这里的特征矩阵U为拉普拉斯矩阵特征分解所得，因此根据进行了局部密度定义的高阶拉普拉斯矩阵，可得到更精确的特征矩阵U，使用该矩阵进行训练能够得到更好的模型。经过以上的优化所获得的实验结果能够充分显示该方法的有效性，实验中所用到的数据集如表1所示。模型分析网络中结点之间的链接关系。从而将网络中的结点进行属性的分析，然后推荐它们给喜欢该研究方向的用户。

表1实验中使用的数据集

所获得的实验结果如图3，图4以及图5所示，图中的带有实心圆的曲线代表GCN在该方法优化前提下的推荐准确率。而空心圆曲线表示GCN使用原始样本的表现。

除了上述的方法，在它的基础上又做了进一步的优化，之前提到高阶度矩阵的计算方法是一个不平衡的计算方法，因此，在计算高阶矩阵之前将一阶度矩阵进行升序或者降序排序，以此来适应非平衡状态所带来的影响。

在排序中使用的是矩阵索引转换方法，它的实现过程如：1.对一阶度矩阵进行排序，记录下来排序后的所有结点索引与度数。2.根据排序后的索引选择升序或者降序的方法逐个计算每个结点的高阶度矩阵。其余的过程跟之前相同。我们同样通过实验验证了该方法的效果。验证结果如表2到表7所示，结果使用准确度来表示。

验证试验如下：

通过度矩阵的升序和降序操作以及调整协调参数α所获得的实验结果如下表所示：

表2在cora数据集上的实验结果(升序)

表3在citeseer数据集上的实验结果(升序)

表4在pubmed数据集上的实验结果(升序)

表5在cora数据集上的实验结果(降序)

表6在citeseer数据集上的实验结果(降序)

表7在pubmed数据集上的实验结果(降序)

最后将上述方法所得到的最优实验结果与其它该领域主流方法的实验结果进行对比，如下表所示，这些表中的数据直接反映了在推荐***中，能否更准确的将图中的某一项推荐给用户。更高的准确率在增强用户体验的同时，在大数据业务方面也能够为公司带来更高的经济效益。

表8与其他算法所获得的结果进行对比

Claims

1.一种基于GCN推荐的样本密度聚合方法，其特征在于：其方法包括如下步骤：

首先需要确定低阶协调参数的取值范围，使用GCN模型训练并进行推荐，然后记录下当低阶协调参数的值为某个值的时候模型的准确率，并记录下来，进行下一轮统计时等距离增加或者减少协调参数的值，这个间隔一般很小，通常在0.005到0.2之间，在这个过程中模型的表现曲线多数会呈现二次函数的形式，找到最大值所对应的协调参数，对于高阶的协调参数取值也是通过同样的方法得到，但是这时低阶的协调参数应该已经固定，对于协调参数初始值的设定根据阶数而异；