CN112084328A - 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 - Google Patents

一种基于变分图自编码器与K-Means的科技论文聚类分析方法 Download PDF

Info

Publication number
CN112084328A
CN112084328A CN202010742851.9A CN202010742851A CN112084328A CN 112084328 A CN112084328 A CN 112084328A CN 202010742851 A CN202010742851 A CN 202010742851A CN 112084328 A CN112084328 A CN 112084328A
Authority
CN
China
Prior art keywords
scientific
thesis
encoder
node
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010742851.9A
Other languages
English (en)
Inventor
徐新黎
刘锐
肖云月
杨旭华
许营坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010742851.9A priority Critical patent/CN112084328A/zh
Publication of CN112084328A publication Critical patent/CN112084328A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于变分图自编码器与K‑Means的科技论文聚类分析方法,利用现有的科技论文数据构建引文网络G=(V,E,F),根据论文之间引用关系的邻接矩阵A和论文关键词属性的特征矩阵F,构建一个由编码器和解码器组成的变分图自编码器,以最小化重构邻接矩阵
Figure DDA0002607326850000011
和原始邻接矩阵A之间的距离度量,以及节点表示向量分布和正态分布的散度为目标,通过无监督的方式训练得到一个多维高斯分布,从这个分布采样得到节点的低维嵌入向量z,然后用K‑Means算法对低维嵌入向量z进行聚类,得到科技论文的划分结果,并通过tSNE算法降维后进行二维的可视化展示。本发明提高了科技论文聚类分析的准确率,降低了分析的计算成本。

Description

一种基于变分图自编码器与K-Means的科技论文聚类分析 方法
技术领域
本发明涉及网络科学和机器学习领域,具体涉及一种基于变分图自编码器与K-Means的科技论文聚类分析方法。
背景技术
学术论文已经经历了超过350年的发展历史,形成了超大规模的知识流动和信息传播的复杂引文网络。引文网络中隐含了由文献作者所组成的研究群体,该群体具有相似或相关的研究方向。通过复杂网络的社区发现算法可以将引文网络划分成不同的研究群体。引文网络的聚类分析,除了作者聚类,还有期刊聚类和文章聚类等。引文网络是一个逐渐生长的科学网络,随着时间的推移,引文网络的规模会越来越大,造成的结果是对于科技论文的聚类分析会愈加困难,由此对科技论文的分类管理提出了新的要求。
对引文网络进行有效分析的一个最基本的问题是如何对网络进行表示。传统的数据挖掘分析是直接作用在邻接矩阵上,但高维稀疏的邻接矩阵,一方面使得存储与计算上的成本大幅上升,另一方面使得很多机器学习方法无法直接应用。为了解决此问题,近几年提出了一批网络表示学习方法,包括DeepWalk、Line、Node2vec等,其主要目的是实现网络数据的低维表示。
引文网络中除了出版物之间的引用所构成的链接外,每个节点还有比较丰富的关键词属性。但目前大部分现有的网络表示学习方法都是将网络结构或节点属性映射到潜在空间,并不探究节点低维表示与节点属性和网络结构两者信息之间的依赖关系。随着变分自编码器在图像生成的成功应用,Kipf等人于2016年提出的变分图自编码器能够同时捕获节点属性和网络结构两部分信息,并将每个节点映射为多元高斯分布。因此使用无监督的变分图自编码器可以获取引文网络的特征信息,得到代表特征信息的相应嵌入向量后,再使用K-Means聚类算法可以提高科技论文划分的正确率。
发明内容
为了克服目前在引文网络拥有愈发庞大规模的趋势下,造成的对于论文的分类管理愈加困难、划分准确率不高等方面的问题,本发明提出了一种有效的基于变分图自编码器与K-Means的科技论文聚类分析方法。
本发明解决其技术问题所采用的技术方案是:
一种基于变分图自编码器与K-Means的科技论文聚类分析方法,包括如下步骤:
步骤一:把待分析的科技论文数据表示为一个引文网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一篇科技论文,节点数即科技论文总数n=|V|,E为边集合,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,所有论文的连边关系构成一个n×n的邻接矩阵A,每个论文的关键词属性F={f1,f2,...,fm},属性数量m=|F|,所有论文的属性表示为一个n×m的属性信息特征矩阵X;
步骤二:构建一个由编码器和解码器组成的变分图自编码器,变分图自编码器的编码器为两层图卷积神经网络GCN,输入是引文网络的特征矩阵X和邻接矩阵A,通过学习节点低维向量表示的均值和方差,并采用重参数化方法对均值和方差进行采样操作,输出是节点的n×d的低维嵌入向量,解码器的输入是节点的低维向量,通过两两计算两点之间存在边的概率来重构图,其中2≤d≤n,输出是重构邻接矩阵
Figure BDA0002607326830000021
步骤三:用科技论文数据训练变分图自编码器,训练目标是最小化重构邻接矩阵
Figure BDA0002607326830000022
和原始邻接矩阵A之间的距离度量,以及节点表示向量分布和正态分布的散度,训练完毕可以获得GCN的参数,通过GCN确定一个多维高斯分布,从这个分布采样得到节点的低维嵌入向量;
步骤四:设置科技论文预期的划分数目,利用K-Means算法对低维嵌入向量进行聚类,得到科技论文的划分结果;
步骤五:对科技论文的划分结果通过tSNE算法降维,并用Matplotlib绘图库进行二维的可视化展示。
本发明的技术构思为:首先构建科技论文数据的引文网络,把引文网络的特征矩阵X和邻接矩阵A输入到变分图自编码器,以无监督的方式进行训练,得到节点嵌入向量后通过K-Means实现科技论文的划分,并进行降维可视化展示,提高了科技论文聚类分析的准确率,降低了分析的计算成本。
本发明的有益效果为:利用无监督的基于变分图自编码器与K-Means的引文网络聚类模型分析科技论文的类别,不需要分类学习训练的标注成本,提高了科技论文分类的正确率,降低了分析计算成本。
附图说明
图1为一个简单的引文网络示意图,图中的节点表示引文网络的文章,A,B,C,D,E,F为相应的文章编号,如果文章之间有相互的引用,则两节点之间有一条连边。
图2为引文网络示例cora数据集的科技论文聚类结果的二维展示图。
图3为基于变分图自编码器与K-Means的科技论文聚类分析方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图3,一种基于变分图自编码器与K-Means的科技论文聚类分析方法,包括如下步骤:
步骤一:把待分析的科技论文数据表示为一个引文网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一篇科技论文,节点数即科技论文总数n=|V|,E为边集合,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,所有论文的连边关系构成一个n×n的邻接矩阵A,每个论文的关键词属性F={f1,f2,...,fm},属性数量m=|F|,所有论文的属性表示为一个n×m的属性信息特征矩阵X;
步骤二:构建一个由编码器和解码器组成的变分图自编码器,变分图自编码器的编码器为两层图卷积神经网络GCN,输入是引文网络的特征矩阵X和邻接矩阵A,通过学习节点低维向量表示的均值和方差,并采用重参数化方法对均值和方差进行采样操作,输出是节点的n×d的低维嵌入向量,解码器的输入是节点的低维向量,通过两两计算两点之间存在边的概率来重构图,其中2≤d≤n,输出是重构邻接矩阵
Figure BDA0002607326830000031
步骤三:用科技论文数据训练变分图自编码器,训练目标是最小化重构邻接矩阵
Figure BDA0002607326830000032
和原始邻接矩阵A之间的距离度量,以及节点表示向量分布和正态分布的散度,训练完毕可以获得GCN的参数,通过GCN确定一个多维高斯分布,从这个分布采样得到节点的低维嵌入向量;
步骤四:设置科技论文预期的划分数目,利用K-Means算法对低维嵌入向量进行聚类,得到科技论文的划分结果;
步骤五:对科技论文的划分结果通过tSNE算法降维,并用Matplotlib绘图库进行二维的可视化展示。
如上所述,本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (1)

1.一种基于变分图自编码器与K-Means的科技论文聚类分析方法,其特征在于:所述方法包括如下步骤:
步骤一:把待分析的科技论文数据表示为一个引文网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一篇科技论文,节点数即科技论文总数n=|V|,E为边集合,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,所有论文的连边关系构成一个n×n的邻接矩阵A,每个论文的关键词属性F={f1,f2,...,fm},属性数量m=|F|,所有论文的属性表示为一个n×m的属性信息特征矩阵X;
步骤二:构建一个由编码器和解码器组成的变分图自编码器,变分图自编码器的编码器为两层图卷积神经网络GCN,输入是引文网络的特征矩阵X和邻接矩阵A,通过学习节点低维向量表示的均值μ和方差σ,并采用重参数化方法对均值μ和方差σ进行采样操作,输出是节点的n×d的低维嵌入向量z,解码器的输入是节点的低维向量z,通过两两计算两点之间存在边的概率来重构图,其中2≤d≤n,输出是重构邻接矩阵
Figure FDA0002607326820000011
步骤三:用科技论文数据训练变分图自编码器,训练目标是最小化重构邻接矩阵
Figure FDA0002607326820000012
和原始邻接矩阵A之间的距离度量,以及节点表示向量分布和正态分布的散度,训练完毕可以获得GCN的参数,通过GCN确定一个多维高斯分布,从这个分布采样得到节点的低维嵌入向量z;
步骤四:设置科技论文预期的划分数目,利用K-Means算法对低维嵌入向量z进行聚类,得到科技论文的划分结果;
步骤五:对科技论文的划分结果通过tSNE算法降维,并用Matplotlib绘图库进行二维的可视化展示。
CN202010742851.9A 2020-07-29 2020-07-29 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 Pending CN112084328A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010742851.9A CN112084328A (zh) 2020-07-29 2020-07-29 一种基于变分图自编码器与K-Means的科技论文聚类分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010742851.9A CN112084328A (zh) 2020-07-29 2020-07-29 一种基于变分图自编码器与K-Means的科技论文聚类分析方法

Publications (1)

Publication Number Publication Date
CN112084328A true CN112084328A (zh) 2020-12-15

Family

ID=73735972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010742851.9A Pending CN112084328A (zh) 2020-07-29 2020-07-29 一种基于变分图自编码器与K-Means的科技论文聚类分析方法

Country Status (1)

Country Link
CN (1) CN112084328A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784121A (zh) * 2021-01-28 2021-05-11 浙江工业大学 一种基于时空图表示学习的交通事故预测方法
CN112800749A (zh) * 2021-01-08 2021-05-14 北京师范大学 一种基于h-gcn的学术空间构建方法
CN112836736A (zh) * 2021-01-28 2021-05-25 哈尔滨理工大学 一种基于深度自编码器构图的高光谱图像半监督分类方法
CN112990721A (zh) * 2021-03-24 2021-06-18 山西大学 一种基于缴费行为的电力用户价值分析方法及***
CN114817578A (zh) * 2022-06-29 2022-07-29 北京邮电大学 科技论文引用关系表示学习方法、***及存储介质
CN114880479A (zh) * 2022-06-14 2022-08-09 昆明理工大学 基于多级交互和图重构的异构图卷积谣言检测方法
WO2022227957A1 (zh) * 2021-04-25 2022-11-03 浙江师范大学 一种基于图自编码器的融合子空间聚类方法及***
CN117113240A (zh) * 2023-10-23 2023-11-24 华南理工大学 动态网络社区发现方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及***
CN105718528A (zh) * 2016-01-15 2016-06-29 上海交通大学 基于论文间引用关系的学术地图展示方法
US20190156946A1 (en) * 2017-11-17 2019-05-23 Accenture Global Solutions Limited Accelerated clinical biomarker prediction (acbp) platform
CN110580289A (zh) * 2019-08-28 2019-12-17 浙江工业大学 一种基于堆叠自动编码器和引文网络的科技论文分类方法
CN111291190A (zh) * 2020-03-23 2020-06-16 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息检测的方法以及相关装置
CN111428091A (zh) * 2020-03-19 2020-07-17 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息推荐的方法以及相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及***
CN105718528A (zh) * 2016-01-15 2016-06-29 上海交通大学 基于论文间引用关系的学术地图展示方法
US20190156946A1 (en) * 2017-11-17 2019-05-23 Accenture Global Solutions Limited Accelerated clinical biomarker prediction (acbp) platform
CN110580289A (zh) * 2019-08-28 2019-12-17 浙江工业大学 一种基于堆叠自动编码器和引文网络的科技论文分类方法
CN111428091A (zh) * 2020-03-19 2020-07-17 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息推荐的方法以及相关装置
CN111291190A (zh) * 2020-03-23 2020-06-16 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息检测的方法以及相关装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BINYUAN HUI等: "Collaborative graph convolutional networks: Unsupervised learning meets semi-supervised learning", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, vol. 34, no. 04, pages 4215 - 4222 *
CHUN WANG等: "Attributed graph clustering: A deep attentional embedding approach", 《ARXIV PREPRINT ARXIV: 1906.06532》, pages 1 - 7 *
THOMAS N. KIPF等: "variational graph auto-encoders", 《MACHINE LEARNING》, pages 1 - 3 *
余平刚: "基于变分自编码器的带属性网络表示学习与深度嵌入聚类", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2019, pages 139 - 17 *
林春燕,朱东华: "科学文献的模糊聚类算法", 计算机应用, no. 11, pages 68 - 69 *
白铂;刘玉婷;马驰骋;王光辉;闫桂英;闫凯;张明;周志恒;: "图神经网络", 中国科学:数学, no. 03, pages 367 - 384 *
陈梦雪;刘勇;: "基于对抗图卷积的网络表征学习框架", 模式识别与人工智能, no. 11, pages 1042 - 1050 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800749A (zh) * 2021-01-08 2021-05-14 北京师范大学 一种基于h-gcn的学术空间构建方法
CN112784121A (zh) * 2021-01-28 2021-05-11 浙江工业大学 一种基于时空图表示学习的交通事故预测方法
CN112836736A (zh) * 2021-01-28 2021-05-25 哈尔滨理工大学 一种基于深度自编码器构图的高光谱图像半监督分类方法
CN112836736B (zh) * 2021-01-28 2022-12-30 哈尔滨理工大学 一种基于深度自编码器构图的高光谱图像半监督分类方法
CN112990721A (zh) * 2021-03-24 2021-06-18 山西大学 一种基于缴费行为的电力用户价值分析方法及***
WO2022227957A1 (zh) * 2021-04-25 2022-11-03 浙江师范大学 一种基于图自编码器的融合子空间聚类方法及***
CN114880479A (zh) * 2022-06-14 2022-08-09 昆明理工大学 基于多级交互和图重构的异构图卷积谣言检测方法
CN114817578A (zh) * 2022-06-29 2022-07-29 北京邮电大学 科技论文引用关系表示学习方法、***及存储介质
CN114817578B (zh) * 2022-06-29 2022-09-09 北京邮电大学 科技论文引用关系表示学习方法、***及存储介质
CN117113240A (zh) * 2023-10-23 2023-11-24 华南理工大学 动态网络社区发现方法、装置、设备及存储介质
CN117113240B (zh) * 2023-10-23 2024-03-26 华南理工大学 动态网络社区发现方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112084328A (zh) 一种基于变分图自编码器与K-Means的科技论文聚类分析方法
Smith et al. The geometry of continuous latent space models for network data
Zhang et al. An end-to-end deep learning architecture for graph classification
Xie et al. Hierarchical clustering supported by reciprocal nearest neighbors
Zhang et al. Uncovering fuzzy community structure in complex networks
Guan et al. Text clustering with seeds affinity propagation
Qiu et al. Graph matching and clustering using spectral partitions
Frossyniotis et al. A clustering method based on boosting
Mueller et al. A comparison of vertex ordering algorithms for large graph visualization
CN107220311B (zh) 一种利用局部嵌入话题建模的文本表示方法
Watanabe et al. A new pattern representation scheme using data compression
Ghadiri et al. BigFCM: Fast, precise and scalable FCM on hadoop
CN110990718A (zh) 一种公司形象提升***的社会网络模型构建模块
Liebmann et al. Hierarchical correlation clustering in multiple 2d scalar fields
US20020002555A1 (en) Energy minimization for data merging and fusion
CN114064894A (zh) 文本处理方法、装置、电子设备及存储介质
Shutta et al. Gaussian graphical models with applications to omics analyses
US10698918B2 (en) Methods and systems for wavelet based representation
Xue et al. Taurus: towards a unified force representation and universal solver for graph layout
CN113516019A (zh) 高光谱图像解混方法、装置及电子设备
Olteanu et al. Using SOMbrero for clustering and visualizing graphs
Müller et al. Extracting knowledge from life courses: Clustering and visualization
CN116050119A (zh) 一种基于二元表示的正负图分割多视图聚类方法
Kocacoban et al. Fast online learning in the presence of latent variables
CN116108127A (zh) 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201215