CN112084328A - 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 - Google Patents
一种基于变分图自编码器与K-Means的科技论文聚类分析方法 Download PDFInfo
- Publication number
- CN112084328A CN112084328A CN202010742851.9A CN202010742851A CN112084328A CN 112084328 A CN112084328 A CN 112084328A CN 202010742851 A CN202010742851 A CN 202010742851A CN 112084328 A CN112084328 A CN 112084328A
- Authority
- CN
- China
- Prior art keywords
- scientific
- thesis
- encoder
- node
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000005259 measurement Methods 0.000 abstract 1
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 2
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及网络科学和机器学习领域,具体涉及一种基于变分图自编码器与K-Means的科技论文聚类分析方法。
背景技术
学术论文已经经历了超过350年的发展历史,形成了超大规模的知识流动和信息传播的复杂引文网络。引文网络中隐含了由文献作者所组成的研究群体,该群体具有相似或相关的研究方向。通过复杂网络的社区发现算法可以将引文网络划分成不同的研究群体。引文网络的聚类分析,除了作者聚类,还有期刊聚类和文章聚类等。引文网络是一个逐渐生长的科学网络,随着时间的推移,引文网络的规模会越来越大,造成的结果是对于科技论文的聚类分析会愈加困难,由此对科技论文的分类管理提出了新的要求。
对引文网络进行有效分析的一个最基本的问题是如何对网络进行表示。传统的数据挖掘分析是直接作用在邻接矩阵上,但高维稀疏的邻接矩阵,一方面使得存储与计算上的成本大幅上升,另一方面使得很多机器学习方法无法直接应用。为了解决此问题,近几年提出了一批网络表示学习方法,包括DeepWalk、Line、Node2vec等,其主要目的是实现网络数据的低维表示。
引文网络中除了出版物之间的引用所构成的链接外,每个节点还有比较丰富的关键词属性。但目前大部分现有的网络表示学习方法都是将网络结构或节点属性映射到潜在空间,并不探究节点低维表示与节点属性和网络结构两者信息之间的依赖关系。随着变分自编码器在图像生成的成功应用,Kipf等人于2016年提出的变分图自编码器能够同时捕获节点属性和网络结构两部分信息,并将每个节点映射为多元高斯分布。因此使用无监督的变分图自编码器可以获取引文网络的特征信息,得到代表特征信息的相应嵌入向量后,再使用K-Means聚类算法可以提高科技论文划分的正确率。
发明内容
为了克服目前在引文网络拥有愈发庞大规模的趋势下,造成的对于论文的分类管理愈加困难、划分准确率不高等方面的问题,本发明提出了一种有效的基于变分图自编码器与K-Means的科技论文聚类分析方法。
本发明解决其技术问题所采用的技术方案是:
一种基于变分图自编码器与K-Means的科技论文聚类分析方法,包括如下步骤:
步骤一:把待分析的科技论文数据表示为一个引文网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一篇科技论文,节点数即科技论文总数n=|V|,E为边集合,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,所有论文的连边关系构成一个n×n的邻接矩阵A,每个论文的关键词属性F={f1,f2,...,fm},属性数量m=|F|,所有论文的属性表示为一个n×m的属性信息特征矩阵X;
步骤二:构建一个由编码器和解码器组成的变分图自编码器,变分图自编码器的编码器为两层图卷积神经网络GCN,输入是引文网络的特征矩阵X和邻接矩阵A,通过学习节点低维向量表示的均值和方差,并采用重参数化方法对均值和方差进行采样操作,输出是节点的n×d的低维嵌入向量,解码器的输入是节点的低维向量,通过两两计算两点之间存在边的概率来重构图,其中2≤d≤n,输出是重构邻接矩阵
步骤三:用科技论文数据训练变分图自编码器,训练目标是最小化重构邻接矩阵和原始邻接矩阵A之间的距离度量,以及节点表示向量分布和正态分布的散度,训练完毕可以获得GCN的参数,通过GCN确定一个多维高斯分布,从这个分布采样得到节点的低维嵌入向量;
步骤四:设置科技论文预期的划分数目,利用K-Means算法对低维嵌入向量进行聚类,得到科技论文的划分结果;
步骤五:对科技论文的划分结果通过tSNE算法降维,并用Matplotlib绘图库进行二维的可视化展示。
本发明的技术构思为:首先构建科技论文数据的引文网络,把引文网络的特征矩阵X和邻接矩阵A输入到变分图自编码器,以无监督的方式进行训练,得到节点嵌入向量后通过K-Means实现科技论文的划分,并进行降维可视化展示,提高了科技论文聚类分析的准确率,降低了分析的计算成本。
本发明的有益效果为:利用无监督的基于变分图自编码器与K-Means的引文网络聚类模型分析科技论文的类别,不需要分类学习训练的标注成本,提高了科技论文分类的正确率,降低了分析计算成本。
附图说明
图1为一个简单的引文网络示意图,图中的节点表示引文网络的文章,A,B,C,D,E,F为相应的文章编号,如果文章之间有相互的引用,则两节点之间有一条连边。
图2为引文网络示例cora数据集的科技论文聚类结果的二维展示图。
图3为基于变分图自编码器与K-Means的科技论文聚类分析方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图3,一种基于变分图自编码器与K-Means的科技论文聚类分析方法,包括如下步骤:
步骤一:把待分析的科技论文数据表示为一个引文网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一篇科技论文,节点数即科技论文总数n=|V|,E为边集合,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,所有论文的连边关系构成一个n×n的邻接矩阵A,每个论文的关键词属性F={f1,f2,...,fm},属性数量m=|F|,所有论文的属性表示为一个n×m的属性信息特征矩阵X;
步骤二:构建一个由编码器和解码器组成的变分图自编码器,变分图自编码器的编码器为两层图卷积神经网络GCN,输入是引文网络的特征矩阵X和邻接矩阵A,通过学习节点低维向量表示的均值和方差,并采用重参数化方法对均值和方差进行采样操作,输出是节点的n×d的低维嵌入向量,解码器的输入是节点的低维向量,通过两两计算两点之间存在边的概率来重构图,其中2≤d≤n,输出是重构邻接矩阵
步骤三:用科技论文数据训练变分图自编码器,训练目标是最小化重构邻接矩阵和原始邻接矩阵A之间的距离度量,以及节点表示向量分布和正态分布的散度,训练完毕可以获得GCN的参数,通过GCN确定一个多维高斯分布,从这个分布采样得到节点的低维嵌入向量;
步骤四:设置科技论文预期的划分数目,利用K-Means算法对低维嵌入向量进行聚类,得到科技论文的划分结果;
步骤五:对科技论文的划分结果通过tSNE算法降维,并用Matplotlib绘图库进行二维的可视化展示。
如上所述,本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (1)
1.一种基于变分图自编码器与K-Means的科技论文聚类分析方法,其特征在于:所述方法包括如下步骤:
步骤一:把待分析的科技论文数据表示为一个引文网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一篇科技论文,节点数即科技论文总数n=|V|,E为边集合,两篇论文之间如果有引用关系,则这两篇论文的相应节点之间有一条连边,所有论文的连边关系构成一个n×n的邻接矩阵A,每个论文的关键词属性F={f1,f2,...,fm},属性数量m=|F|,所有论文的属性表示为一个n×m的属性信息特征矩阵X;
步骤二:构建一个由编码器和解码器组成的变分图自编码器,变分图自编码器的编码器为两层图卷积神经网络GCN,输入是引文网络的特征矩阵X和邻接矩阵A,通过学习节点低维向量表示的均值μ和方差σ,并采用重参数化方法对均值μ和方差σ进行采样操作,输出是节点的n×d的低维嵌入向量z,解码器的输入是节点的低维向量z,通过两两计算两点之间存在边的概率来重构图,其中2≤d≤n,输出是重构邻接矩阵
步骤三:用科技论文数据训练变分图自编码器,训练目标是最小化重构邻接矩阵和原始邻接矩阵A之间的距离度量,以及节点表示向量分布和正态分布的散度,训练完毕可以获得GCN的参数,通过GCN确定一个多维高斯分布,从这个分布采样得到节点的低维嵌入向量z;
步骤四:设置科技论文预期的划分数目,利用K-Means算法对低维嵌入向量z进行聚类,得到科技论文的划分结果;
步骤五:对科技论文的划分结果通过tSNE算法降维,并用Matplotlib绘图库进行二维的可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010742851.9A CN112084328A (zh) | 2020-07-29 | 2020-07-29 | 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010742851.9A CN112084328A (zh) | 2020-07-29 | 2020-07-29 | 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112084328A true CN112084328A (zh) | 2020-12-15 |
Family
ID=73735972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010742851.9A Pending CN112084328A (zh) | 2020-07-29 | 2020-07-29 | 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084328A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784121A (zh) * | 2021-01-28 | 2021-05-11 | 浙江工业大学 | 一种基于时空图表示学习的交通事故预测方法 |
CN112800749A (zh) * | 2021-01-08 | 2021-05-14 | 北京师范大学 | 一种基于h-gcn的学术空间构建方法 |
CN112836736A (zh) * | 2021-01-28 | 2021-05-25 | 哈尔滨理工大学 | 一种基于深度自编码器构图的高光谱图像半监督分类方法 |
CN112990721A (zh) * | 2021-03-24 | 2021-06-18 | 山西大学 | 一种基于缴费行为的电力用户价值分析方法及*** |
CN114817578A (zh) * | 2022-06-29 | 2022-07-29 | 北京邮电大学 | 科技论文引用关系表示学习方法、***及存储介质 |
CN114880479A (zh) * | 2022-06-14 | 2022-08-09 | 昆明理工大学 | 基于多级交互和图重构的异构图卷积谣言检测方法 |
WO2022227957A1 (zh) * | 2021-04-25 | 2022-11-03 | 浙江师范大学 | 一种基于图自编码器的融合子空间聚类方法及*** |
CN117113240A (zh) * | 2023-10-23 | 2023-11-24 | 华南理工大学 | 动态网络社区发现方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及*** |
CN105718528A (zh) * | 2016-01-15 | 2016-06-29 | 上海交通大学 | 基于论文间引用关系的学术地图展示方法 |
US20190156946A1 (en) * | 2017-11-17 | 2019-05-23 | Accenture Global Solutions Limited | Accelerated clinical biomarker prediction (acbp) platform |
CN110580289A (zh) * | 2019-08-28 | 2019-12-17 | 浙江工业大学 | 一种基于堆叠自动编码器和引文网络的科技论文分类方法 |
CN111291190A (zh) * | 2020-03-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息检测的方法以及相关装置 |
CN111428091A (zh) * | 2020-03-19 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息推荐的方法以及相关装置 |
-
2020
- 2020-07-29 CN CN202010742851.9A patent/CN112084328A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及*** |
CN105718528A (zh) * | 2016-01-15 | 2016-06-29 | 上海交通大学 | 基于论文间引用关系的学术地图展示方法 |
US20190156946A1 (en) * | 2017-11-17 | 2019-05-23 | Accenture Global Solutions Limited | Accelerated clinical biomarker prediction (acbp) platform |
CN110580289A (zh) * | 2019-08-28 | 2019-12-17 | 浙江工业大学 | 一种基于堆叠自动编码器和引文网络的科技论文分类方法 |
CN111428091A (zh) * | 2020-03-19 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息推荐的方法以及相关装置 |
CN111291190A (zh) * | 2020-03-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息检测的方法以及相关装置 |
Non-Patent Citations (7)
Title |
---|
BINYUAN HUI等: "Collaborative graph convolutional networks: Unsupervised learning meets semi-supervised learning", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, vol. 34, no. 04, pages 4215 - 4222 * |
CHUN WANG等: "Attributed graph clustering: A deep attentional embedding approach", 《ARXIV PREPRINT ARXIV: 1906.06532》, pages 1 - 7 * |
THOMAS N. KIPF等: "variational graph auto-encoders", 《MACHINE LEARNING》, pages 1 - 3 * |
余平刚: "基于变分自编码器的带属性网络表示学习与深度嵌入聚类", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2019, pages 139 - 17 * |
林春燕,朱东华: "科学文献的模糊聚类算法", 计算机应用, no. 11, pages 68 - 69 * |
白铂;刘玉婷;马驰骋;王光辉;闫桂英;闫凯;张明;周志恒;: "图神经网络", 中国科学:数学, no. 03, pages 367 - 384 * |
陈梦雪;刘勇;: "基于对抗图卷积的网络表征学习框架", 模式识别与人工智能, no. 11, pages 1042 - 1050 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800749A (zh) * | 2021-01-08 | 2021-05-14 | 北京师范大学 | 一种基于h-gcn的学术空间构建方法 |
CN112784121A (zh) * | 2021-01-28 | 2021-05-11 | 浙江工业大学 | 一种基于时空图表示学习的交通事故预测方法 |
CN112836736A (zh) * | 2021-01-28 | 2021-05-25 | 哈尔滨理工大学 | 一种基于深度自编码器构图的高光谱图像半监督分类方法 |
CN112836736B (zh) * | 2021-01-28 | 2022-12-30 | 哈尔滨理工大学 | 一种基于深度自编码器构图的高光谱图像半监督分类方法 |
CN112990721A (zh) * | 2021-03-24 | 2021-06-18 | 山西大学 | 一种基于缴费行为的电力用户价值分析方法及*** |
WO2022227957A1 (zh) * | 2021-04-25 | 2022-11-03 | 浙江师范大学 | 一种基于图自编码器的融合子空间聚类方法及*** |
CN114880479A (zh) * | 2022-06-14 | 2022-08-09 | 昆明理工大学 | 基于多级交互和图重构的异构图卷积谣言检测方法 |
CN114817578A (zh) * | 2022-06-29 | 2022-07-29 | 北京邮电大学 | 科技论文引用关系表示学习方法、***及存储介质 |
CN114817578B (zh) * | 2022-06-29 | 2022-09-09 | 北京邮电大学 | 科技论文引用关系表示学习方法、***及存储介质 |
CN117113240A (zh) * | 2023-10-23 | 2023-11-24 | 华南理工大学 | 动态网络社区发现方法、装置、设备及存储介质 |
CN117113240B (zh) * | 2023-10-23 | 2024-03-26 | 华南理工大学 | 动态网络社区发现方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084328A (zh) | 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 | |
Smith et al. | The geometry of continuous latent space models for network data | |
Zhang et al. | An end-to-end deep learning architecture for graph classification | |
Xie et al. | Hierarchical clustering supported by reciprocal nearest neighbors | |
Zhang et al. | Uncovering fuzzy community structure in complex networks | |
Guan et al. | Text clustering with seeds affinity propagation | |
Qiu et al. | Graph matching and clustering using spectral partitions | |
Frossyniotis et al. | A clustering method based on boosting | |
Mueller et al. | A comparison of vertex ordering algorithms for large graph visualization | |
CN107220311B (zh) | 一种利用局部嵌入话题建模的文本表示方法 | |
Watanabe et al. | A new pattern representation scheme using data compression | |
Ghadiri et al. | BigFCM: Fast, precise and scalable FCM on hadoop | |
CN110990718A (zh) | 一种公司形象提升***的社会网络模型构建模块 | |
Liebmann et al. | Hierarchical correlation clustering in multiple 2d scalar fields | |
US20020002555A1 (en) | Energy minimization for data merging and fusion | |
CN114064894A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
Shutta et al. | Gaussian graphical models with applications to omics analyses | |
US10698918B2 (en) | Methods and systems for wavelet based representation | |
Xue et al. | Taurus: towards a unified force representation and universal solver for graph layout | |
CN113516019A (zh) | 高光谱图像解混方法、装置及电子设备 | |
Olteanu et al. | Using SOMbrero for clustering and visualizing graphs | |
Müller et al. | Extracting knowledge from life courses: Clustering and visualization | |
CN116050119A (zh) | 一种基于二元表示的正负图分割多视图聚类方法 | |
Kocacoban et al. | Fast online learning in the presence of latent variables | |
CN116108127A (zh) | 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201215 |