CN112925984A - 一种基于gcn推荐的样本密度聚合方法 - Google Patents
一种基于gcn推荐的样本密度聚合方法 Download PDFInfo
- Publication number
- CN112925984A CN112925984A CN202110358626.XA CN202110358626A CN112925984A CN 112925984 A CN112925984 A CN 112925984A CN 202110358626 A CN202110358626 A CN 202110358626A CN 112925984 A CN112925984 A CN 112925984A
- Authority
- CN
- China
- Prior art keywords
- matrix
- gcn
- degree
- recommendation
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002776 aggregation Effects 0.000 title claims description 10
- 238000004220 aggregation Methods 0.000 title claims description 10
- 239000011159 matrix material Substances 0.000 claims abstract description 74
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000012887 quadratic function Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 238000005457 optimization Methods 0.000 abstract description 6
- 238000006116 polymerization reaction Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000001174 ascending effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于GCN推荐的样本密度聚合方法,其方法为:步骤一、收集GCN模型的原始数据样本;步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵;步骤三、将步骤二得到的高阶度矩阵将它们聚合为一个最终形式的度矩阵;步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程。本发明的有益效果:使得原始样本中每个对象所携带的信息量增多了。因此在GCN训练时,神经网络能够更完整和准确的得到每个对象的密度特征属性,从而减少了推荐***的推荐错误率。该技术优化方法能够给依赖GCN的业务用户带来更好的直接应用体验。已经测试该方法的实际表现,以此证明该方法确实行之有效。
Description
技术领域
本发明涉及一种样本密度聚合方法,特别涉及一种基于GCN推荐的样本密度聚合方法。
背景技术
目前,基于GCN的推荐***模型已经在很多领域进行了应用,它将一些对象的特征进行数据化表示。然后使用图卷积神经网络将这些对象的特征进行量化,从而编辑出它所对应的实际类型。例如,在一个电商网站中,每个用户都有自己喜欢的商品或者品牌,而GCN可以通过分析商品的关系网和用户与商品间的联系来得到每个用户在某类商品上的兴趣程度。然后推荐***将该类商品推荐给对应的用户。
但是由于当前GCN还存在着一个技术缺陷,导致使用GCN的模型不能够充分而准确的获取目标的特征属性。该缺陷是由于GCN缺少对目标领域原始样本的预处理所致,尤其缺少对关系网中每个对象的邻接密度特征的分析。
发明内容
本发明的目的是为了解决GCN模型不能够充分而准确的获取目标的特征属性的问题,而提供的一种基于GCN推荐的样本密度聚合方法。
本发明提供的基于GCN推荐的样本密度聚合方法,其方法包括如下步骤:
步骤一、收集GCN模型的原始数据样本,将原始的关系网络整理为对象邻接表和对象与属性的关系表,将它们作为下一步计算的依据;
步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵,就是将邻接矩阵中的每行进行度数加权时,再额外的添加计算其邻接对象的度数的过程,通过编程中的循环语句完成,该过程得到不同阶的度矩阵;
步骤三、将步骤二得到的高阶度矩阵以D=D1+α1D2+α2D3的形式将它们聚合为一个最终形式的度矩阵D,然后使用该矩阵计算图的拉普拉斯矩阵L,计算方法为L=D-1/2AD-1/2,然后将获得的拉普拉斯矩阵进行归一化,并使用它进行特征映射和训练,在使用之前需要确定协调参数α1和α2的值,协调参数的值往往存在一个可用的取值区间,使用统计的办法画出模型表现分布曲线获得它们的取值区间,具体过程如下:
首先需要确定低阶协调参数的取值范围,使用GCN模型训练并进行推荐,然后记录下当低阶协调参数的值为某个值的时候模型的准确率,并记录下来。进行下一轮统计时等距离增加或者减少协调参数的值,这个间隔一般很小,通常在0.005到0.2之间,在这个过程中模型的表现曲线多数会呈现二次函数的形式,找到最大值所对应的协调参数,对于高阶的协调参数取值也是通过同样的方法得到,但是这时低阶的协调参数应该已经固定,对于协调参数初始值的设定根据阶数而异;
步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程,然后使用处理后的样本进行GCN网络推荐,并获得质量更高的推荐内容,在设定时间之后,由于关系网络的变动,应当重新统计协调参数的值。
本发明的有益效果:
本发明提供的基于GCN推荐的样本密度聚合方法使用了一种局部密度融合的技术方法优化了GCN所涉及领域的原始样本,将关系网中每个对象的本身特征与它的局部邻接密度特征进行聚合。这使得原始样本中每个对象所携带的信息量增多了。因此在GCN训练时,神经网络能够更完整和准确的得到每个对象的密度特征属性,从而减少了推荐***的推荐错误率。该技术优化方法能够给依赖GCN的业务用户带来更好的直接应用体验。已经测试该方法的实际表现,以此证明该方法确实行之有效。
附图说明
图1为本发明所述的有4个结点图的二阶度矩阵计算实例示意图。
图2为本发明所述的GCN神经网络示意图。
图3为本发明所述的使用邻接密度聚合方法的GCN与原始GCN模型在推荐精度上的对比示意图。
图4为本发明所述的使用邻接密度聚合方法的GCN与原始GCN模型在推荐精度上的对比示意图。
图5为本发明所述的使用邻接密度聚合方法的GCN与原始GCN模型在推荐精度上的对比示意图。
具体实施方式
请参阅图1至图5所示:
本发明提供的基于GCN推荐的样本密度聚合方法,其方法包括如下步骤:
步骤一、收集GCN模型的原始数据样本,将原始的关系网络整理为对象邻接表和对象与属性的关系表,将它们作为下一步计算的依据;
步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵,就是将邻接矩阵中的每行进行度数加权时,再额外的添加计算其邻接对象的度数的过程,通过编程中的循环语句完成,该过程得到不同阶的度矩阵;
步骤三、将步骤二得到的高阶度矩阵以D=D1+α1D2+α2D3的形式将它们聚合为一个最终形式的度矩阵D,然后使用该矩阵计算图的拉普拉斯矩阵L,计算方法为L=D-1/2AD-1/2,然后将获得的拉普拉斯矩阵进行归一化,并使用它进行特征映射和训练,在使用之前需要确定协调参数α1和α2的值,协调参数的值往往存在一个可用的取值区间,使用统计的办法画出模型表现分布曲线获得它们的取值区间,具体过程如下:
首先需要确定低阶协调参数的取值范围,使用GCN模型训练并进行推荐,然后记录下当低阶协调参数的值为某个值的时候模型的准确率,并记录下来。进行下一轮统计时等距离增加或者减少协调参数的值,这个间隔一般很小,通常在0.005到0.2之间,在这个过程中模型的表现曲线多数会呈现二次函数的形式,找到最大值所对应的协调参数,对于高阶的协调参数取值也是通过同样的方法得到,但是这时低阶的协调参数应该已经固定,对于协调参数初始值的设定根据阶数而异;
步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程,然后使用处理后的样本进行GCN网络推荐,并获得质量更高的推荐内容,在设定时间之后,由于关系网络的变动,应当重新统计协调参数的值。
本发明的实现原理如下所述:
对于一个有n个结点的关系图(也可被称为图)G=(V,E),假设它的邻接矩阵和度矩阵为A和D,在GCN中,该网络的拉普拉斯矩阵的计算公式为L=D-1/2AD-1/2。它们使用的度矩阵是结点的一阶度矩阵,称它为D1。然后定义了它的高阶度矩阵,它们的定义代表了某一阶的局部密度特征:一阶度矩阵表示结点的一阶密度特征,二阶度矩阵表示了结点的二阶密度特征,以此类推。因此方法中的高阶度矩阵的计算方法可以被定义为以下形式:
D=D1+α1D2+α2D3+...+αx-1Dx
根据上式可知对于每个大于一阶的度矩阵,它们参与计算时都需要乘上一个协调参数α,它是用来调节高阶邻接密度对当前结点的影响程度的,对它的设置往往存在一个可行区间,在该区间内,将会对推荐精度的优化有促进作用。
上式是一个度矩阵计算的形式化定义,但是对高阶度矩阵的计算算法是一个不均衡的算法,该不均衡性可以被解释为,之后结点的高阶邻接度的计算将会被之前已计算过高阶邻接度的结点所影响,如图1所示。
以计算一个三阶度矩阵为例,图的输入为一个稀疏邻接矩阵,它的计算计算过程为:1.将稀疏邻接矩阵转化为普通矩阵,并且求出该矩阵的所有行向量中元素之和,得到一阶度矩阵。2.然后对邻接矩阵进行逐行遍历,找到当前结点的二阶邻接结点的个数,从而统计出所有结点的二阶度矩阵,对于三阶度矩阵的求解方法是同样的过程。3.在使用之前所提到的公式将它们聚合在一起,得到矩阵D,它将被用于计算拉普拉斯矩阵。
虽然可以定义三阶度矩阵,但是在实际应用中,使用三阶度矩阵将不会存在更为明显的效果,并且也会增加统计协调参数的难度(因为这时将有两个协调参数需要设置)。
GCN神经网络的结构如图2所示。
用公式表示的形式为:Z=softmax(LTanh(LXW0)W1);
该式中W0和W1分别为神经网络中输入层与隐层,隐层与输出层的权重,L为之前所说的拉普拉斯矩阵,在增加了高阶密度特征后,该矩阵包含了更多可以区分每个结点的信息。拉普拉斯矩阵的特征分解形式如下:
在卷积操作中,神经网络的权重与矩阵F之间在训练时的傅里叶变换需要矩阵U的参与才能进行,这里的特征矩阵U为拉普拉斯矩阵特征分解所得,因此根据进行了局部密度定义的高阶拉普拉斯矩阵,可得到更精确的特征矩阵U,使用该矩阵进行训练能够得到更好的模型。经过以上的优化所获得的实验结果能够充分显示该方法的有效性,实验中所用到的数据集如表1所示。模型分析网络中结点之间的链接关系。从而将网络中的结点进行属性的分析,然后推荐它们给喜欢该研究方向的用户。
表1实验中使用的数据集
所获得的实验结果如图3,图4以及图5所示,图中的带有实心圆的曲线代表GCN在该方法优化前提下的推荐准确率。而空心圆曲线表示GCN使用原始样本的表现。
除了上述的方法,在它的基础上又做了进一步的优化,之前提到高阶度矩阵的计算方法是一个不平衡的计算方法,因此,在计算高阶矩阵之前将一阶度矩阵进行升序或者降序排序,以此来适应非平衡状态所带来的影响。
在排序中使用的是矩阵索引转换方法,它的实现过程如:1.对一阶度矩阵进行排序,记录下来排序后的所有结点索引与度数。2.根据排序后的索引选择升序或者降序的方法逐个计算每个结点的高阶度矩阵。其余的过程跟之前相同。我们同样通过实验验证了该方法的效果。验证结果如表2到表7所示,结果使用准确度来表示。
验证试验如下:
通过度矩阵的升序和降序操作以及调整协调参数α所获得的实验结果如下表所示:
表2在cora数据集上的实验结果(升序)
表3在citeseer数据集上的实验结果(升序)
表4在pubmed数据集上的实验结果(升序)
表5在cora数据集上的实验结果(降序)
表6在citeseer数据集上的实验结果(降序)
表7在pubmed数据集上的实验结果(降序)
最后将上述方法所得到的最优实验结果与其它该领域主流方法的实验结果进行对比,如下表所示,这些表中的数据直接反映了在推荐***中,能否更准确的将图中的某一项推荐给用户。更高的准确率在增强用户体验的同时,在大数据业务方面也能够为公司带来更高的经济效益。
表8与其他算法所获得的结果进行对比
Claims (1)
1.一种基于GCN推荐的样本密度聚合方法,其特征在于:其方法包括如下步骤:
步骤一、收集GCN模型的原始数据样本,将原始的关系网络整理为对象邻接表和对象与属性的关系表,将它们作为下一步计算的依据;
步骤二、计算出邻接矩阵的度矩阵以及高阶度矩阵,就是将邻接矩阵中的每行进行度数加权时,再额外的添加计算其邻接对象的度数的过程,通过编程中的循环语句完成,该过程得到不同阶的度矩阵;
步骤三、将步骤二得到的高阶度矩阵以D=D1+α1D2+α2D3的形式将它们聚合为一个最终形式的度矩阵D,然后使用该矩阵计算图的拉普拉斯矩阵L,计算方法为L=D-1/2AD-1/2,然后将获得的拉普拉斯矩阵进行归一化,并使用它进行特征映射和训练,在使用之前需要确定协调参数α1和α2的值,协调参数的值往往存在一个可用的取值区间,使用统计的办法画出模型表现分布曲线获得它们的取值区间,具体过程如下:
首先需要确定低阶协调参数的取值范围,使用GCN模型训练并进行推荐,然后记录下当低阶协调参数的值为某个值的时候模型的准确率,并记录下来,进行下一轮统计时等距离增加或者减少协调参数的值,这个间隔一般很小,通常在0.005到0.2之间,在这个过程中模型的表现曲线多数会呈现二次函数的形式,找到最大值所对应的协调参数,对于高阶的协调参数取值也是通过同样的方法得到,但是这时低阶的协调参数应该已经固定,对于协调参数初始值的设定根据阶数而异;
步骤四、使用已经固定下来的协调参数设置来完成对原始样本数据的预处理过程,然后使用处理后的样本进行GCN网络推荐,并获得质量更高的推荐内容,在设定时间之后,由于关系网络的变动,应当重新统计协调参数的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110358626.XA CN112925984A (zh) | 2021-04-02 | 2021-04-02 | 一种基于gcn推荐的样本密度聚合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110358626.XA CN112925984A (zh) | 2021-04-02 | 2021-04-02 | 一种基于gcn推荐的样本密度聚合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112925984A true CN112925984A (zh) | 2021-06-08 |
Family
ID=76173874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110358626.XA Pending CN112925984A (zh) | 2021-04-02 | 2021-04-02 | 一种基于gcn推荐的样本密度聚合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925984A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631847A (zh) * | 2022-10-19 | 2023-01-20 | 哈尔滨工业大学 | 基于多组学特征的早期肺癌诊断***、存储介质及设备 |
CN116028727A (zh) * | 2023-03-30 | 2023-04-28 | 南京邮电大学 | 一种基于图像数据处理的视频推荐方法 |
-
2021
- 2021-04-02 CN CN202110358626.XA patent/CN112925984A/zh active Pending
Non-Patent Citations (2)
Title |
---|
HAO WANG等: ""A local density optimization method based on a graph convolutional network"", 《FRONTIERS OF INFORMATION TECHNOLOGY AND ELECTRONIC ENGINEERING》 * |
HAO WANG等: ""A local density optimization method based on a graph convolutional network"", 《FRONTIERS OF INFORMATION TECHNOLOGY AND ELECTRONIC ENGINEERING》, vol. 21, no. 12, 23 December 2020 (2020-12-23), pages 1795 - 1803, XP037320180, DOI: 10.1631/FITEE.1900663 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631847A (zh) * | 2022-10-19 | 2023-01-20 | 哈尔滨工业大学 | 基于多组学特征的早期肺癌诊断***、存储介质及设备 |
CN115631847B (zh) * | 2022-10-19 | 2023-07-14 | 哈尔滨工业大学 | 基于多组学特征的早期肺癌诊断***、存储介质及设备 |
CN116028727A (zh) * | 2023-03-30 | 2023-04-28 | 南京邮电大学 | 一种基于图像数据处理的视频推荐方法 |
CN116028727B (zh) * | 2023-03-30 | 2023-08-18 | 南京邮电大学 | 一种基于图像数据处理的视频推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563706A (zh) | 一种基于lstm网络的多变量物流货运量预测方法 | |
US20170300546A1 (en) | Method and Apparatus for Data Processing in Data Modeling | |
CN112925984A (zh) | 一种基于gcn推荐的样本密度聚合方法 | |
CN108629436B (zh) | 一种估算仓库拣货能力的方法和电子设备 | |
CN110765418B (zh) | 一种流域水沙研究模型的智能集合评估方法和*** | |
CN108132964A (zh) | 一种基于用户对项目类评分的协同过滤方法 | |
Wu et al. | Comparing the aggregation methods in the analytic hierarchy process when uniform distribution | |
CN108830492B (zh) | 一种基于大数据的确定抽检商家的方法 | |
Kadhem et al. | Factor copula models for mixed data | |
CN106570616A (zh) | 一种科技项目评估用定量评价方法 | |
CN115952426B (zh) | 基于随机采样的分布式噪音数据聚类方法及用户分类方法 | |
Maharani et al. | The MFEP and MAUT methods in selecting the best employees | |
CN110825583A (zh) | 一种针对云数据中心多指标融合的能效定性评估技术 | |
CN112766537B (zh) | 一种短期电负荷预测方法 | |
Senthilkumar et al. | Construction and selection of repetitive deferred variables sampling (RDVS) plan indexed by quality levels | |
CN114880490A (zh) | 一种基于图注意力网络的知识图谱补全方法 | |
Uddin et al. | Comparison of some statistical forecasting techniques with GMDH predictor: A case study | |
CN111062118B (zh) | 一种基于神经网络预测分层的多层软测量建模***及方法 | |
CN111652384B (zh) | 一种数据量分布的平衡方法及数据处理方法 | |
CN114625781A (zh) | 一种基于商品住房价值的批量评估方法 | |
Charongrattanasakul et al. | Designing of optimal required sample sizes for double acceptance sampling plans under the zero-inflated defective data | |
CN112950279A (zh) | 基于机器学习的精准营销策略模型构建方法及装置 | |
Banditvilai et al. | Forecasting Models for Thailand’s Electrical Appliances Export Values | |
CN110287272A (zh) | 一种可配置实时特征提取方法、装置及*** | |
JP5978183B2 (ja) | 計測値分類装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210608 |