CN112925984A - 一种基于gcn推荐的样本密度聚合方法 - Google Patents

一种基于gcn推荐的样本密度聚合方法 Download PDF

Info

Publication number
CN112925984A
CN112925984A CN202110358626.XA CN202110358626A CN112925984A CN 112925984 A CN112925984 A CN 112925984A CN 202110358626 A CN202110358626 A CN 202110358626A CN 112925984 A CN112925984 A CN 112925984A
Authority
CN
China
Prior art keywords
matrix
gcn
degree
recommendation
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110358626.XA
Other languages
English (en)
Inventor
董立岩
王浩
马心陶
刘元宁
朱晓冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110358626.XA priority Critical patent/CN112925984A/zh
Publication of CN112925984A publication Critical patent/CN112925984A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于GCN推荐的样本密度聚合方法,其方法为:步骤一、收集GCN模型的原始数据样本;步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵;步骤三、将步骤二得到的高阶度矩阵将它们聚合为一个最终形式的度矩阵;步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程。本发明的有益效果:使得原始样本中每个对象所携带的信息量增多了。因此在GCN训练时,神经网络能够更完整和准确的得到每个对象的密度特征属性,从而减少了推荐***的推荐错误率。该技术优化方法能够给依赖GCN的业务用户带来更好的直接应用体验。已经测试该方法的实际表现,以此证明该方法确实行之有效。

Description

一种基于GCN推荐的样本密度聚合方法
技术领域
本发明涉及一种样本密度聚合方法,特别涉及一种基于GCN推荐的样本密度聚合方法。
背景技术
目前,基于GCN的推荐***模型已经在很多领域进行了应用,它将一些对象的特征进行数据化表示。然后使用图卷积神经网络将这些对象的特征进行量化,从而编辑出它所对应的实际类型。例如,在一个电商网站中,每个用户都有自己喜欢的商品或者品牌,而GCN可以通过分析商品的关系网和用户与商品间的联系来得到每个用户在某类商品上的兴趣程度。然后推荐***将该类商品推荐给对应的用户。
但是由于当前GCN还存在着一个技术缺陷,导致使用GCN的模型不能够充分而准确的获取目标的特征属性。该缺陷是由于GCN缺少对目标领域原始样本的预处理所致,尤其缺少对关系网中每个对象的邻接密度特征的分析。
发明内容
本发明的目的是为了解决GCN模型不能够充分而准确的获取目标的特征属性的问题,而提供的一种基于GCN推荐的样本密度聚合方法。
本发明提供的基于GCN推荐的样本密度聚合方法,其方法包括如下步骤:
步骤一、收集GCN模型的原始数据样本,将原始的关系网络整理为对象邻接表和对象与属性的关系表,将它们作为下一步计算的依据;
步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵,就是将邻接矩阵中的每行进行度数加权时,再额外的添加计算其邻接对象的度数的过程,通过编程中的循环语句完成,该过程得到不同阶的度矩阵;
步骤三、将步骤二得到的高阶度矩阵以D=D11D22D3的形式将它们聚合为一个最终形式的度矩阵D,然后使用该矩阵计算图的拉普拉斯矩阵L,计算方法为L=D-1/2AD-1/2,然后将获得的拉普拉斯矩阵进行归一化,并使用它进行特征映射和训练,在使用之前需要确定协调参数α1和α2的值,协调参数的值往往存在一个可用的取值区间,使用统计的办法画出模型表现分布曲线获得它们的取值区间,具体过程如下:
首先需要确定低阶协调参数的取值范围,使用GCN模型训练并进行推荐,然后记录下当低阶协调参数的值为某个值的时候模型的准确率,并记录下来。进行下一轮统计时等距离增加或者减少协调参数的值,这个间隔一般很小,通常在0.005到0.2之间,在这个过程中模型的表现曲线多数会呈现二次函数的形式,找到最大值所对应的协调参数,对于高阶的协调参数取值也是通过同样的方法得到,但是这时低阶的协调参数应该已经固定,对于协调参数初始值的设定根据阶数而异;
步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程,然后使用处理后的样本进行GCN网络推荐,并获得质量更高的推荐内容,在设定时间之后,由于关系网络的变动,应当重新统计协调参数的值。
本发明的有益效果:
本发明提供的基于GCN推荐的样本密度聚合方法使用了一种局部密度融合的技术方法优化了GCN所涉及领域的原始样本,将关系网中每个对象的本身特征与它的局部邻接密度特征进行聚合。这使得原始样本中每个对象所携带的信息量增多了。因此在GCN训练时,神经网络能够更完整和准确的得到每个对象的密度特征属性,从而减少了推荐***的推荐错误率。该技术优化方法能够给依赖GCN的业务用户带来更好的直接应用体验。已经测试该方法的实际表现,以此证明该方法确实行之有效。
附图说明
图1为本发明所述的有4个结点图的二阶度矩阵计算实例示意图。
图2为本发明所述的GCN神经网络示意图。
图3为本发明所述的使用邻接密度聚合方法的GCN与原始GCN模型在推荐精度上的对比示意图。
图4为本发明所述的使用邻接密度聚合方法的GCN与原始GCN模型在推荐精度上的对比示意图。
图5为本发明所述的使用邻接密度聚合方法的GCN与原始GCN模型在推荐精度上的对比示意图。
具体实施方式
请参阅图1至图5所示:
本发明提供的基于GCN推荐的样本密度聚合方法,其方法包括如下步骤:
步骤一、收集GCN模型的原始数据样本,将原始的关系网络整理为对象邻接表和对象与属性的关系表,将它们作为下一步计算的依据;
步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵,就是将邻接矩阵中的每行进行度数加权时,再额外的添加计算其邻接对象的度数的过程,通过编程中的循环语句完成,该过程得到不同阶的度矩阵;
步骤三、将步骤二得到的高阶度矩阵以D=D11D22D3的形式将它们聚合为一个最终形式的度矩阵D,然后使用该矩阵计算图的拉普拉斯矩阵L,计算方法为L=D-1/2AD-1/2,然后将获得的拉普拉斯矩阵进行归一化,并使用它进行特征映射和训练,在使用之前需要确定协调参数α1和α2的值,协调参数的值往往存在一个可用的取值区间,使用统计的办法画出模型表现分布曲线获得它们的取值区间,具体过程如下:
首先需要确定低阶协调参数的取值范围,使用GCN模型训练并进行推荐,然后记录下当低阶协调参数的值为某个值的时候模型的准确率,并记录下来。进行下一轮统计时等距离增加或者减少协调参数的值,这个间隔一般很小,通常在0.005到0.2之间,在这个过程中模型的表现曲线多数会呈现二次函数的形式,找到最大值所对应的协调参数,对于高阶的协调参数取值也是通过同样的方法得到,但是这时低阶的协调参数应该已经固定,对于协调参数初始值的设定根据阶数而异;
步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程,然后使用处理后的样本进行GCN网络推荐,并获得质量更高的推荐内容,在设定时间之后,由于关系网络的变动,应当重新统计协调参数的值。
本发明的实现原理如下所述:
对于一个有n个结点的关系图(也可被称为图)G=(V,E),假设它的邻接矩阵和度矩阵为A和D,在GCN中,该网络的拉普拉斯矩阵的计算公式为L=D-1/2AD-1/2。它们使用的度矩阵是结点的一阶度矩阵,称它为D1。然后定义了它的高阶度矩阵,它们的定义代表了某一阶的局部密度特征:一阶度矩阵表示结点的一阶密度特征,二阶度矩阵表示了结点的二阶密度特征,以此类推。因此方法中的高阶度矩阵的计算方法可以被定义为以下形式:
D=D11D22D3+...+αx-1Dx
根据上式可知对于每个大于一阶的度矩阵,它们参与计算时都需要乘上一个协调参数α,它是用来调节高阶邻接密度对当前结点的影响程度的,对它的设置往往存在一个可行区间,在该区间内,将会对推荐精度的优化有促进作用。
上式是一个度矩阵计算的形式化定义,但是对高阶度矩阵的计算算法是一个不均衡的算法,该不均衡性可以被解释为,之后结点的高阶邻接度的计算将会被之前已计算过高阶邻接度的结点所影响,如图1所示。
以计算一个三阶度矩阵为例,图的输入为一个稀疏邻接矩阵,它的计算计算过程为:1.将稀疏邻接矩阵转化为普通矩阵,并且求出该矩阵的所有行向量中元素之和,得到一阶度矩阵。2.然后对邻接矩阵进行逐行遍历,找到当前结点的二阶邻接结点的个数,从而统计出所有结点的二阶度矩阵,对于三阶度矩阵的求解方法是同样的过程。3.在使用之前所提到的公式将它们聚合在一起,得到矩阵D,它将被用于计算拉普拉斯矩阵。
虽然可以定义三阶度矩阵,但是在实际应用中,使用三阶度矩阵将不会存在更为明显的效果,并且也会增加统计协调参数的难度(因为这时将有两个协调参数需要设置)。
GCN神经网络的结构如图2所示。
用公式表示的形式为:Z=softmax(LTanh(LXW0)W1);
该式中W0和W1分别为神经网络中输入层与隐层,隐层与输出层的权重,L为之前所说的拉普拉斯矩阵,在增加了高阶密度特征后,该矩阵包含了更多可以区分每个结点的信息。拉普拉斯矩阵的特征分解形式如下:
Figure BDA0003004579030000061
在卷积操作中,神经网络的权重与矩阵F之间在训练时的傅里叶变换需要矩阵U的参与才能进行,这里的特征矩阵U为拉普拉斯矩阵特征分解所得,因此根据进行了局部密度定义的高阶拉普拉斯矩阵,可得到更精确的特征矩阵U,使用该矩阵进行训练能够得到更好的模型。经过以上的优化所获得的实验结果能够充分显示该方法的有效性,实验中所用到的数据集如表1所示。模型分析网络中结点之间的链接关系。从而将网络中的结点进行属性的分析,然后推荐它们给喜欢该研究方向的用户。
Figure BDA0003004579030000062
表1实验中使用的数据集
所获得的实验结果如图3,图4以及图5所示,图中的带有实心圆的曲线代表GCN在该方法优化前提下的推荐准确率。而空心圆曲线表示GCN使用原始样本的表现。
除了上述的方法,在它的基础上又做了进一步的优化,之前提到高阶度矩阵的计算方法是一个不平衡的计算方法,因此,在计算高阶矩阵之前将一阶度矩阵进行升序或者降序排序,以此来适应非平衡状态所带来的影响。
在排序中使用的是矩阵索引转换方法,它的实现过程如:1.对一阶度矩阵进行排序,记录下来排序后的所有结点索引与度数。2.根据排序后的索引选择升序或者降序的方法逐个计算每个结点的高阶度矩阵。其余的过程跟之前相同。我们同样通过实验验证了该方法的效果。验证结果如表2到表7所示,结果使用准确度来表示。
验证试验如下:
通过度矩阵的升序和降序操作以及调整协调参数α所获得的实验结果如下表所示:
Figure BDA0003004579030000071
表2在cora数据集上的实验结果(升序)
Figure BDA0003004579030000072
表3在citeseer数据集上的实验结果(升序)
Figure BDA0003004579030000073
表4在pubmed数据集上的实验结果(升序)
Figure BDA0003004579030000074
表5在cora数据集上的实验结果(降序)
Figure BDA0003004579030000075
Figure BDA0003004579030000081
表6在citeseer数据集上的实验结果(降序)
Figure BDA0003004579030000082
表7在pubmed数据集上的实验结果(降序)
最后将上述方法所得到的最优实验结果与其它该领域主流方法的实验结果进行对比,如下表所示,这些表中的数据直接反映了在推荐***中,能否更准确的将图中的某一项推荐给用户。更高的准确率在增强用户体验的同时,在大数据业务方面也能够为公司带来更高的经济效益。
Figure BDA0003004579030000083
表8与其他算法所获得的结果进行对比

Claims (1)

1.一种基于GCN推荐的样本密度聚合方法,其特征在于:其方法包括如下步骤:
步骤一、收集GCN模型的原始数据样本,将原始的关系网络整理为对象邻接表和对象与属性的关系表,将它们作为下一步计算的依据;
步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵,就是将邻接矩阵中的每行进行度数加权时,再额外的添加计算其邻接对象的度数的过程,通过编程中的循环语句完成,该过程得到不同阶的度矩阵;
步骤三、将步骤二得到的高阶度矩阵以D=D11D22D3的形式将它们聚合为一个最终形式的度矩阵D,然后使用该矩阵计算图的拉普拉斯矩阵L,计算方法为L=D-1/2AD-1/2,然后将获得的拉普拉斯矩阵进行归一化,并使用它进行特征映射和训练,在使用之前需要确定协调参数α1和α2的值,协调参数的值往往存在一个可用的取值区间,使用统计的办法画出模型表现分布曲线获得它们的取值区间,具体过程如下:
首先需要确定低阶协调参数的取值范围,使用GCN模型训练并进行推荐,然后记录下当低阶协调参数的值为某个值的时候模型的准确率,并记录下来,进行下一轮统计时等距离增加或者减少协调参数的值,这个间隔一般很小,通常在0.005到0.2之间,在这个过程中模型的表现曲线多数会呈现二次函数的形式,找到最大值所对应的协调参数,对于高阶的协调参数取值也是通过同样的方法得到,但是这时低阶的协调参数应该已经固定,对于协调参数初始值的设定根据阶数而异;
步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程,然后使用处理后的样本进行GCN网络推荐,并获得质量更高的推荐内容,在设定时间之后,由于关系网络的变动,应当重新统计协调参数的值。
CN202110358626.XA 2021-04-02 2021-04-02 一种基于gcn推荐的样本密度聚合方法 Pending CN112925984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110358626.XA CN112925984A (zh) 2021-04-02 2021-04-02 一种基于gcn推荐的样本密度聚合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110358626.XA CN112925984A (zh) 2021-04-02 2021-04-02 一种基于gcn推荐的样本密度聚合方法

Publications (1)

Publication Number Publication Date
CN112925984A true CN112925984A (zh) 2021-06-08

Family

ID=76173874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110358626.XA Pending CN112925984A (zh) 2021-04-02 2021-04-02 一种基于gcn推荐的样本密度聚合方法

Country Status (1)

Country Link
CN (1) CN112925984A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631847A (zh) * 2022-10-19 2023-01-20 哈尔滨工业大学 基于多组学特征的早期肺癌诊断***、存储介质及设备
CN116028727A (zh) * 2023-03-30 2023-04-28 南京邮电大学 一种基于图像数据处理的视频推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO WANG等: ""A local density optimization method based on a graph convolutional network"", 《FRONTIERS OF INFORMATION TECHNOLOGY AND ELECTRONIC ENGINEERING》 *
HAO WANG等: ""A local density optimization method based on a graph convolutional network"", 《FRONTIERS OF INFORMATION TECHNOLOGY AND ELECTRONIC ENGINEERING》, vol. 21, no. 12, 23 December 2020 (2020-12-23), pages 1795 - 1803, XP037320180, DOI: 10.1631/FITEE.1900663 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631847A (zh) * 2022-10-19 2023-01-20 哈尔滨工业大学 基于多组学特征的早期肺癌诊断***、存储介质及设备
CN115631847B (zh) * 2022-10-19 2023-07-14 哈尔滨工业大学 基于多组学特征的早期肺癌诊断***、存储介质及设备
CN116028727A (zh) * 2023-03-30 2023-04-28 南京邮电大学 一种基于图像数据处理的视频推荐方法
CN116028727B (zh) * 2023-03-30 2023-08-18 南京邮电大学 一种基于图像数据处理的视频推荐方法

Similar Documents

Publication Publication Date Title
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
US20170300546A1 (en) Method and Apparatus for Data Processing in Data Modeling
CN112925984A (zh) 一种基于gcn推荐的样本密度聚合方法
CN108629436B (zh) 一种估算仓库拣货能力的方法和电子设备
CN110765418B (zh) 一种流域水沙研究模型的智能集合评估方法和***
CN108132964A (zh) 一种基于用户对项目类评分的协同过滤方法
Wu et al. Comparing the aggregation methods in the analytic hierarchy process when uniform distribution
CN108830492B (zh) 一种基于大数据的确定抽检商家的方法
Kadhem et al. Factor copula models for mixed data
CN106570616A (zh) 一种科技项目评估用定量评价方法
CN115952426B (zh) 基于随机采样的分布式噪音数据聚类方法及用户分类方法
Maharani et al. The MFEP and MAUT methods in selecting the best employees
CN110825583A (zh) 一种针对云数据中心多指标融合的能效定性评估技术
CN112766537B (zh) 一种短期电负荷预测方法
Senthilkumar et al. Construction and selection of repetitive deferred variables sampling (RDVS) plan indexed by quality levels
CN114880490A (zh) 一种基于图注意力网络的知识图谱补全方法
Uddin et al. Comparison of some statistical forecasting techniques with GMDH predictor: A case study
CN111062118B (zh) 一种基于神经网络预测分层的多层软测量建模***及方法
CN111652384B (zh) 一种数据量分布的平衡方法及数据处理方法
CN114625781A (zh) 一种基于商品住房价值的批量评估方法
Charongrattanasakul et al. Designing of optimal required sample sizes for double acceptance sampling plans under the zero-inflated defective data
CN112950279A (zh) 基于机器学习的精准营销策略模型构建方法及装置
Banditvilai et al. Forecasting Models for Thailand’s Electrical Appliances Export Values
CN110287272A (zh) 一种可配置实时特征提取方法、装置及***
JP5978183B2 (ja) 計測値分類装置及び方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210608