CN112084328A

CN112084328A - 一种基于变分图自编码器与K-Means的科技论文聚类分析方法

Info

Publication number: CN112084328A
Application number: CN202010742851.9A
Authority: CN
Inventors: 徐新黎; 刘锐; 肖云月; 杨旭华; 许营坤
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-12-15

Abstract

一种基于变分图自编码器与K‑Means的科技论文聚类分析方法，利用现有的科技论文数据构建引文网络G＝(V，E，F)，根据论文之间引用关系的邻接矩阵A和论文关键词属性的特征矩阵F，构建一个由编码器和解码器组成的变分图自编码器，以最小化重构邻接矩阵

和原始邻接矩阵A之间的距离度量，以及节点表示向量分布和正态分布的散度为目标，通过无监督的方式训练得到一个多维高斯分布，从这个分布采样得到节点的低维嵌入向量z，然后用K‑Means算法对低维嵌入向量z进行聚类，得到科技论文的划分结果，并通过tSNE算法降维后进行二维的可视化展示。本发明提高了科技论文聚类分析的准确率，降低了分析的计算成本。

Description

一种基于变分图自编码器与K-Means的科技论文聚类分析方法

技术领域

本发明涉及网络科学和机器学习领域，具体涉及一种基于变分图自编码器与K-Means的科技论文聚类分析方法。

背景技术

学术论文已经经历了超过350年的发展历史，形成了超大规模的知识流动和信息传播的复杂引文网络。引文网络中隐含了由文献作者所组成的研究群体，该群体具有相似或相关的研究方向。通过复杂网络的社区发现算法可以将引文网络划分成不同的研究群体。引文网络的聚类分析，除了作者聚类，还有期刊聚类和文章聚类等。引文网络是一个逐渐生长的科学网络，随着时间的推移，引文网络的规模会越来越大，造成的结果是对于科技论文的聚类分析会愈加困难，由此对科技论文的分类管理提出了新的要求。

对引文网络进行有效分析的一个最基本的问题是如何对网络进行表示。传统的数据挖掘分析是直接作用在邻接矩阵上，但高维稀疏的邻接矩阵，一方面使得存储与计算上的成本大幅上升，另一方面使得很多机器学习方法无法直接应用。为了解决此问题，近几年提出了一批网络表示学习方法，包括DeepWalk、Line、Node2vec等，其主要目的是实现网络数据的低维表示。

引文网络中除了出版物之间的引用所构成的链接外，每个节点还有比较丰富的关键词属性。但目前大部分现有的网络表示学习方法都是将网络结构或节点属性映射到潜在空间，并不探究节点低维表示与节点属性和网络结构两者信息之间的依赖关系。随着变分自编码器在图像生成的成功应用，Kipf等人于2016年提出的变分图自编码器能够同时捕获节点属性和网络结构两部分信息，并将每个节点映射为多元高斯分布。因此使用无监督的变分图自编码器可以获取引文网络的特征信息，得到代表特征信息的相应嵌入向量后，再使用K-Means聚类算法可以提高科技论文划分的正确率。

发明内容

为了克服目前在引文网络拥有愈发庞大规模的趋势下，造成的对于论文的分类管理愈加困难、划分准确率不高等方面的问题，本发明提出了一种有效的基于变分图自编码器与K-Means的科技论文聚类分析方法。

本发明解决其技术问题所采用的技术方案是：

一种基于变分图自编码器与K-Means的科技论文聚类分析方法，包括如下步骤：

步骤一：把待分析的科技论文数据表示为一个引文网络G＝(V，E，F)，其中V＝{v₁,v₂,...,v_n}为节点集合，每个节点表示一篇科技论文，节点数即科技论文总数n＝|V|，E为边集合，两篇论文之间如果有引用关系，则这两篇论文的相应节点之间有一条连边，所有论文的连边关系构成一个n×n的邻接矩阵A，每个论文的关键词属性F＝{f₁,f₂,...,f_m},属性数量m＝|F|，所有论文的属性表示为一个n×m的属性信息特征矩阵X；

步骤二：构建一个由编码器和解码器组成的变分图自编码器，变分图自编码器的编码器为两层图卷积神经网络GCN，输入是引文网络的特征矩阵X和邻接矩阵A，通过学习节点低维向量表示的均值和方差，并采用重参数化方法对均值和方差进行采样操作，输出是节点的n×d的低维嵌入向量，解码器的输入是节点的低维向量，通过两两计算两点之间存在边的概率来重构图，其中2≤d≤n，输出是重构邻接矩阵

步骤三：用科技论文数据训练变分图自编码器，训练目标是最小化重构邻接矩阵

和原始邻接矩阵A之间的距离度量，以及节点表示向量分布和正态分布的散度，训练完毕可以获得GCN的参数，通过GCN确定一个多维高斯分布，从这个分布采样得到节点的低维嵌入向量；

步骤四：设置科技论文预期的划分数目，利用K-Means算法对低维嵌入向量进行聚类，得到科技论文的划分结果；

步骤五：对科技论文的划分结果通过tSNE算法降维，并用Matplotlib绘图库进行二维的可视化展示。

本发明的技术构思为：首先构建科技论文数据的引文网络，把引文网络的特征矩阵X和邻接矩阵A输入到变分图自编码器，以无监督的方式进行训练，得到节点嵌入向量后通过K-Means实现科技论文的划分，并进行降维可视化展示，提高了科技论文聚类分析的准确率，降低了分析的计算成本。

本发明的有益效果为：利用无监督的基于变分图自编码器与K-Means的引文网络聚类模型分析科技论文的类别，不需要分类学习训练的标注成本，提高了科技论文分类的正确率，降低了分析计算成本。

附图说明

图1为一个简单的引文网络示意图，图中的节点表示引文网络的文章，A,B,C,D,E,F为相应的文章编号，如果文章之间有相互的引用，则两节点之间有一条连边。

图2为引文网络示例cora数据集的科技论文聚类结果的二维展示图。

图3为基于变分图自编码器与K-Means的科技论文聚类分析方法的流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1～图3，一种基于变分图自编码器与K-Means的科技论文聚类分析方法，包括如下步骤：

如上所述，本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于变分图自编码器与K-Means的科技论文聚类分析方法，其特征在于：所述方法包括如下步骤：

步骤二：构建一个由编码器和解码器组成的变分图自编码器，变分图自编码器的编码器为两层图卷积神经网络GCN，输入是引文网络的特征矩阵X和邻接矩阵A，通过学习节点低维向量表示的均值μ和方差σ，并采用重参数化方法对均值μ和方差σ进行采样操作，输出是节点的n×d的低维嵌入向量z，解码器的输入是节点的低维向量z，通过两两计算两点之间存在边的概率来重构图，其中2≤d≤n，输出是重构邻接矩阵

和原始邻接矩阵A之间的距离度量，以及节点表示向量分布和正态分布的散度，训练完毕可以获得GCN的参数，通过GCN确定一个多维高斯分布，从这个分布采样得到节点的低维嵌入向量z；

步骤四：设置科技论文预期的划分数目，利用K-Means算法对低维嵌入向量z进行聚类，得到科技论文的划分结果；