CN116665786A - 一种基于图卷积神经网络的rna分层嵌入聚类方法 - Google Patents
一种基于图卷积神经网络的rna分层嵌入聚类方法 Download PDFInfo
- Publication number
- CN116665786A CN116665786A CN202310896057.3A CN202310896057A CN116665786A CN 116665786 A CN116665786 A CN 116665786A CN 202310896057 A CN202310896057 A CN 202310896057A CN 116665786 A CN116665786 A CN 116665786A
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- encoder
- graph
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 33
- 230000009467 reduction Effects 0.000 claims abstract description 65
- 238000009826 distribution Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 26
- 238000005096 rolling process Methods 0.000 claims description 24
- 210000004027 cell Anatomy 0.000 claims description 19
- 238000012174 single-cell RNA sequencing Methods 0.000 claims description 18
- 108090000623 proteins and genes Proteins 0.000 claims description 17
- 239000006185 dispersion Substances 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 15
- 210000002569 neuron Anatomy 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000002474 experimental method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004138 cluster model Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000011946 reduction process Methods 0.000 abstract 1
- 238000000547 structure data Methods 0.000 description 3
- 238000003559 RNA-seq method Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- IOCMOSUFEBBJOB-UHFFFAOYSA-K diethyl-bis[10-(triethylazaniumyl)decyl]azanium triiodide Chemical compound [I-].[I-].[I-].C(C)[N+](CCCCCCCCCC[N+](CC)(CC)CC)(CCCCCCCCCC[N+](CC)(CC)CC)CC IOCMOSUFEBBJOB-UHFFFAOYSA-K 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioethics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物信息学技术领域,具体涉及一种基于图卷积神经网络的RNA分层嵌入聚类方法,包括以下步骤:S1、数据预处理,S2、数据降噪,S3、数据降维,S4、数据聚类,本发明在降噪中使用零膨胀负二项分布的负对数似然函数作为降噪自编码器的损失函数,用来处理数据中的dropout噪声,在降维任务中使用双解码图卷积自编码器来获取数据的低维特征,在聚类任务利用KL散度函数作为聚类的损失函数进行深度嵌入聚类,促进聚类精度的提升,具有更好的聚类效果。
Description
技术领域
本发明涉及生物信息学技术领域,具体涉及一种基于图卷积神经网络的RNA分层嵌入聚类方法。
背景技术
单细胞成千上万的基因种类造成了RNA测序数据的维度灾难,由于RNA获取率低产生dropout噪声,导致数据中存在大量虚假零值。单细胞RNA测序数据中同时存在高维和强噪声的问题。
发明内容
针对现有技术的不足,本发明提供一种基于图卷积神经网络的RNA分层嵌入聚类方法,通过融合的数据降噪自编码器和数据降维图卷积自编码器解决了数据同时存在的dropout噪声和高维灾难问题,采用深度嵌入聚类优化了聚类结果,提升了聚类精度。
本发明是通过如下技术方案实现的:
提供一种基于图卷积神经网络的RNA分层嵌入聚类方法,包括以下步骤:
S1、数据预处理:将单细胞RNA测序的读取计数数据处理得到数据矩阵X,矩阵中行代表细胞,列代表基因,每个细胞具有相同种类的基因;
S2、数据降噪:
将预处理后的数据矩阵X输入到降噪自编码器,在降噪自编码器的编码层的每层引入随机的高斯噪声e,添加噪声后的数据为:
X(count )=X+e#(1);
编码器函数z=fw=(Xcorrupt),解码器函数X’=gw’(z),降噪自编码器采用ZINB的负对数似然函数作为损失函数,对数据中的dropout值计算并插补实现数据降噪;
S3、数据降维:
选择具有双解码器的图卷积自动编码器,将降噪后的数据利用K近邻算法生成KNN图,用邻接矩阵A表示图结构作为图卷积自动编码器的一个输入,用表示图节点基因特征的降噪后数据矩阵X作为图卷积自动编码器的另一个输入,通过两个解码器分别对输入KNN图数据的邻接矩阵和节点特征矩阵进行重构,使得图卷积自编码器的潜在空间生成学习到的低维的数据特征和数据之间的结构特征;
将编码层学习的数据特征向量保存为潜在空间的潜在变量h=E(X,A),通过两个解码器将变量h解码为重构数据节点矩阵Xr=DX(h)和重构边矩阵Ar=DA(h),产生邻接矩阵A的损失和数据节点X的损失,整个学习过程是使总的损失函数逐渐减小的过程,直到达到一个最小值,图卷积自编码器的总损失计算公式如下:
;
其中λ是超参数,实验将参数λ设置为0.6,通过不断训练优化损失函数,使得图卷积自编码器实现对单细胞RNA测序数据降维的同时保留高维数据之间的拓扑结构特征;
S4、数据聚类:
利用图卷积自编码器的初始化生成目标分布P,对图卷积自编码的潜在空间数据使用KL散度函数作为聚类的损失函数,通过不断的迭代训练使图卷积自编码器不断更新聚类参数直到编码层输出的聚类分布Q与目标分布P拟合,生成整个聚类更新过程中的最优聚类结果。
进一步的,在步骤S1中,采用python包中的scanpy对单细胞RNA测序的读取计数数据进行预处理,先过滤掉在任何细胞中都没有表达计数值的基因,再根据库大小对计数矩阵进行归一化并计算大小因子,后读取计数进行对数变换和缩放,使计数值遵循零均值和单位方差。
进一步的,在步骤S2中,ZINB的表达式为下面的公式:
;
其中:μ为平均值,θ为离散度,π为dropout概率;
相应的优化目标为:
;
M,Θ,П分别表示均值μ、离散度θ和丢失概率π的矩阵形式,NLLZINB表示ZINB分布的负对数似然函数,利用此损失函数优化均值、离散度、dropout概率,通过计算并插补dropout值实现数据降噪。
进一步的,在步骤S2中,降噪自编码器的结构为编码层、瓶颈层、解码层,编码层和解码层神经网络结构关于瓶颈层对称,且都是全连接的神经网络层,采用ReLU作为每层神经网络的激活函数。
进一步的,在步骤S2中,模型的编码层采用的每层神经元结构为d-256-54-32,其中d为输入数据的维度,32为瓶颈层的神经元个数,解码层结构从左到右的结构为32-54-256-d,d为输出数据的维度,与编码层结构对称,降噪自编码器训练过程中选择的批大小为256,在编码层引入的高斯噪声强度为2.5,利用Adam优化算法对模型优化。
进一步的,在步骤S4中,训练图卷积自编码器使公式(4)的损失函数Lr最小化,交替训练使训练得到的神经网络参数作为第二阶段参数优化的初始化,训练阶段的损失函数定义为L,该损失同时支配图自编码器的损失Lr和聚类损失Lc;
;
其中:表示聚类质心,γ是聚类模型实验的超参数并且设置值为2.5,在训练过程中给定了一组初始聚类质心/>,通过最小化L更新编码网络层的计算数据嵌入到潜在空间,通过对嵌入数据进行聚类迭代的更新聚类质心/>,将上述步骤交替进行直到损失函数收敛;聚类损失Lc采用的是KL散度损失:
;
通过迭代训练不断更新聚类结果,直到损失函数达到最小值,生成对潜在空间数据的最优聚类结果。
本发明的有益效果:
本发明针对单细胞RNA测序数据构建的聚类方法中融合降噪、降维方法有效解决了数据中同时存在的高维性和强噪声问题,提升了聚类精度。采用分层的方式实现了具有插补dropout事件功能的深度降噪自编码器、同时抓捕数据拓扑结构特征和数据自身特征的双解码图卷积降维自编码器、利用KL散度函数作为聚类的损失函数进行深度嵌入聚类。
降噪中采用ZINB分布拟合单细胞RNA测序数据分布,利用该分布的负对数似然函数作为损失函数对均值μ、离散度θ、dropout概率π三个目标参数进行优化,因此对数据中的dropout值进行了有效的插补。
基于图卷积网络的图自编码器对数据进行降维,图卷积自编码器保留了数据之间的拓扑结构,并利用细胞之间邻域信息有效地提高了聚类的效率。实验结果证明,使用融合的数据降噪自编码器和数据降维图卷积自编码器解决了数据同时存在的dropout噪声和高维灾难问题,采用深度嵌入聚类优化了聚类结果。通过分层实现了数据的降噪、降维、聚类,每一层都促进聚类精度的提升,通过在9个真实的高维度和高噪声的数据集上进行实验,与其它传统聚类方法相比,具有更好的聚类效果。
附图说明
图1为本发明的整体流程图。
图2为本发明采用的降噪自编码器结构图。
图3为本发明中图卷积降维自编码器的工作流程图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,对本方案进行阐述。
一种基于图卷积神经网络的RNA分层嵌入聚类方法,包括以下步骤:
S1、数据预处理:将单细胞RNA测序的读取计数数据处理得到数据矩阵X,矩阵中行代表细胞,列代表基因,每个细胞具有相同种类的基因。
采用python包中的scanpy对单细胞RNA测序的读取计数数据进行预处理,先过滤掉在任何细胞中都没有表达计数值的基因,再根据库大小对计数矩阵进行归一化并计算大小因子,后读取计数进行对数变换和缩放,使计数值遵循零均值和单位方差。
S2、数据降噪:
将预处理后的数据矩阵X输入到降噪自编码器,在降噪自编码器的编码层的每层引入随机的高斯噪声e,添加噪声后的数据为:
X(count )=X+e#(1);
编码器函数z=fw=(Xcorrupt),解码器函数X’=gw’(z),降噪自编码器采用ZINB的负对数似然函数作为损失函数,对数据中的dropout值计算并插补实现数据降噪。
ZINB的表达式为下面的公式:
;
其中:μ为平均值,θ为离散度,π为dropout概率;
使用降噪自编码器来估计ZINB分布的平均值μ、离散度θ和dropout概率π这3个参数,模型DAE的神经网络有三个输出层而不是一个,它们分别代表基因的3个参数(μ,θ,π),这三个输出层与输入层保持相同的维度。
相应的优化目标为:
;
M,Θ,П分别表示均值μ、离散度θ和丢失概率π的矩阵形式, NLLZINB表示ZINB分布的负对数似然函数,利用此损失函数优化均值、离散度、dropout概率,通过计算并插补dropout值实现数据降噪。因为均值μ和离散度θ总是正数,所以选择的激活函数是指数形式,附加系数π表示输入的dropout概率,dropout的概率在[0,1]之间,所以选择的激活函数是sigmoid。
如图2所示,降噪自编码器的结构为编码层、瓶颈层、解码层,编码层和解码层神经网络结构关于瓶颈层对称,且都是全连接的神经网络层,采用ReLU作为每层神经网络的激活函数。
模型的编码层采用的每层神经元结构为d-256-54-32,其中d为输入数据的维度,32为瓶颈层的神经元个数,解码层结构从左到右的结构为32-54-256-d,d为输出数据的维度,与编码层结构对称,降噪自编码器训练过程中选择的批大小为256,在编码层引入的高斯噪声强度为2.5,利用Adam优化算法对模型优化。
自编码器是一种人工神经网络,以无监督方式进行数据特征学习。降噪自编码器是自编码器的一种,降噪自编码器在编码层添加噪声后会增强学习数据特征的鲁棒性,原因是其具有学习被微小变化破坏的输入数据的能力。通过在编码层引入高斯噪声对数据进行破坏,利用编码器的多层编码层学习主要的数据特征,解码器根据主要数据特征还原未被损坏的原始数据。降噪自编码器的中间通常有一个低维的瓶颈层,编码器学习的数据特征通过瓶颈层输出,将输出的低维数据保存在潜在空间。
S3、数据降维:
选择具有双解码器的图卷积自动编码器,图卷积自编码器是针对图结构的数据进行无监督学习和特征提取的一种人工神经网络,图卷积自编码器的瓶颈层可以得到比较低维度的数据特征,因此对图结构数据来说是一个很好的降维方法。将降噪后的数据利用K近邻算法生成KNN图,用邻接矩阵A表示图结构作为图卷积自动编码器的一个输入,用表示图节点基因特征的降噪后数据矩阵X作为图卷积自动编码器的另一个输入,通过两个解码器分别对输入KNN图数据的邻接矩阵和节点特征矩阵进行重构,使得图卷积自编码器的潜在空间生成学习到的低维的数据特征和数据之间的结构特征。
将编码层学习的数据特征向量保存为潜在空间的潜在变量h=E(X,A),通过两个解码器将变量h解码为重构数据节点矩阵Xr=DX(h)和重构边矩阵Ar=DA(h),产生邻接矩阵A的损失和数据节点X的损失,整个学习过程是使总的损失函数逐渐减小的过程,直到达到一个最小值,图卷积自编码器的总损失计算公式如下:
;
其中λ是超参数,实验将参数λ设置为0.6,通过不断训练优化损失函数,使得图卷积自编码器实现对单细胞RNA测序数据降维的同时保留高维数据之间的拓扑结构特征。
编码层设置为两层的图卷积层,瓶颈层神经元个数分别进行了5,10,15,20,30几个数值的测试,当瓶颈层神经元个数为10时在数据集上的聚类指标普遍最高,所以图卷积编码器包含的两层图卷积神经网络的神经元结构为123-10。数据特征解码器DX由四层全连接神经网络层构成,四层全连接神经网络的神经元结构设置为10-64-256-512。邻接矩阵解码器DA由完全连接层和正交化以及激活函数组成。图卷积自编码器的双解码结构实现了对单细胞RNA测序数据的数据自身特征的学习和细胞之间结构特征的学习,通过不断训练优化损失函数,使得图卷积自编码器实现对单细胞RNA测序数据降维的同时保留高维数据之间的拓扑结构特征。
S4、数据聚类:
在本步骤之前的降噪、降维步骤的处理是为了降低数据的干扰噪声和去除数据的冗余维度,进行更准确的细胞聚类,聚类是单细胞RNA测序数据分析的重要环节,聚类是将具有相似性基因特征的细胞簇之间的距离靠得更近,将不同基因特征的细胞簇之间的距离拉得更远。
不同于传统的K均值聚类算法直接对低维数据进行聚类,本发明选择基于深度学习的深度嵌入聚类方法对图卷积自编码器模块生成的潜在空间的中的低维数据进行聚类,深度嵌入聚类是一种使用深度神经网络更新学习的数据特征的同时更新聚类分布,通过学习数据高维空间到低维空间的映射对聚类目标迭代的优化。
利用图卷积自编码器的初始化生成目标分布P,对图卷积自编码的潜在空间数据使用KL散度函数作为聚类的损失函数,通过不断的迭代训练使图卷积自编码器不断更新聚类参数直到编码层输出的聚类分布Q与目标分布P拟合,生成整个聚类更新过程中的最优聚类结果。
具体的,训练图卷积自编码器使公式(4)的损失函数Lr最小化,交替训练使训练得到的神经网络参数作为第二阶段参数优化的初始化,训练阶段的损失函数定义为L,该损失同时支配图自编码器的损失Lr和聚类损失Lc;
;
其中:表示聚类质心,γ是聚类模型实验的超参数并且设置值为2.5,在训练过程中给定了一组初始聚类质心/>,通过最小化L更新编码网络层的计算数据嵌入到潜在空间,通过对嵌入数据进行聚类迭代的更新聚类质心/>,将上述步骤交替进行直到损失函数收敛;聚类损失Lc采用的是KL散度损失:
。
通过迭代训练不断更新聚类结果,直到损失函数达到最小值,生成对潜在空间数据的最优聚类结果。
在具体实验中,初始聚类质心是根据神经网络预训练得到初始嵌入数据后通过Louvain聚类获得初始化,模型采用随机梯度下降算法最小化聚类损失Lc来更新聚类质心组。聚类损失Lc选择了高性能的软分配损失,该损失使用学生t分布作为衡量嵌入节点和质心之间相似性的核心,Lc是经验聚类分布Q与目标分布P的KL发散。通过预训练图卷积自编码器进行参数初始化得到聚类目标分布P和潜在空间聚类分布Q的初始化,P和Q之间的KL散度损失称为聚类损失,该损失是代表两分布之间的差异性,损失越小使得生成的聚类分布与目标分布的聚类结果越相似。
本发明中构建的聚类方法采用分层的方式实现数据的降噪、降维、聚类,总体架构如图1所示,主要包括数据预处理、数据降噪、数据降维、数据聚类四个模块。首先将原始数据进行预处理后输入到深度降噪自编码器DDAE模块进行数据的降噪,解决数据中的dropout事件,再将降噪数据构建KNN图,将图结构数据输入到图卷积自编码器GCNAE模块,将节点信息重构和图邻接矩阵重构并在图卷积自编码器的潜在空间得到低维的数据特征和细胞间的结构特征,实现数据的降维,将GCNAE潜在空间数据利用深度嵌入聚类的方法进行细胞聚类。
将预处理后的数据集输入到第一个核心模块深度降噪自编码器,降噪模块采用了把传统的均方误差损失函数换成了ZINB的负对数似然函数的叠加自编码神经网络,实现对单细胞RNA测序数据中dropout噪声的计算和插补,经过自编码器的编码层数据的维度降低,将学习的降噪数据特征向量输出到潜在空间。将降噪数据保存后利用K近邻算法构建KNN图,将图的邻接矩阵A和节点特征矩阵X同时输入到第二个核心模块图卷积自编码器,采用两个解码器分别解码数据节点特征信息和邻接矩阵信息,使单细胞RNA测序数据自身的特征和数据中细胞之间的结构特征同时被获取,使低维数据空间上同时包含数据中的细胞基因特征信息和细胞之间的结构特征信息。最后进行第三个核心模块深度嵌入聚类,利用图卷积自编码器的初始化生成目标分布P,对图卷积自编码的潜在空间数据使用KL散度函数作为聚类的损失函数,通过不断的迭代训练使图卷积自编码器不断更新聚类参数直到编码层输出的聚类分布Q基本上与目标分布P拟合,生成整个聚类更新过程中的最优聚类结果,此时模型完成了对单细胞RNA测序数据的降噪、降维、聚类。
当然,上述说明也并不仅限于上述举例,本发明未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述;以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制,参照优选的实施方式对本发明进行了详细说明,本领域的普通技术人员应当理解,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换都不脱离本发明的宗旨,也应属于本发明的权利要求保护范围。
Claims (6)
1.一种基于图卷积神经网络的RNA分层嵌入聚类方法,其特征在于:包括以下步骤:
S1、数据预处理:将单细胞RNA测序的读取计数数据处理得到数据矩阵X,矩阵中行代表细胞,列代表基因,每个细胞具有相同种类的基因;
S2、数据降噪:
将预处理后的数据矩阵X输入到降噪自编码器,在降噪自编码器的编码层的每层引入随机的高斯噪声e,添加噪声后的数据为:
X(count )=X+e#(1);
编码器函数z=fw=(Xcorrupt),解码器函数X’=gw’(z),降噪自编码器采用ZINB的负对数似然函数作为损失函数,对数据中的dropout值计算并插补实现数据降噪;
S3、数据降维:
选择具有双解码器的图卷积自动编码器,将降噪后的数据利用K近邻算法生成KNN图,用邻接矩阵A表示图结构作为图卷积自动编码器的一个输入,用表示图节点基因特征的降噪后数据矩阵X作为图卷积自动编码器的另一个输入,通过两个解码器分别对输入KNN图数据的邻接矩阵和节点特征矩阵进行重构,使得图卷积自编码器的潜在空间生成学习到的低维的数据特征和数据之间的结构特征;
将编码层学习的数据特征向量保存为潜在空间的潜在变量h=E(X,A),通过两个解码器将变量h解码为重构数据节点矩阵Xr=DX(h)和重构边矩阵Ar=DA(h),产生邻接矩阵A的损失和数据节点X的损失,整个学习过程是使总的损失函数逐渐减小的过程,直到达到一个最小值,图卷积自编码器的总损失计算公式如下:
;
其中λ是超参数,实验将参数λ设置为0.6,通过不断训练优化损失函数,使得图卷积自编码器实现对单细胞RNA测序数据降维的同时保留高维数据之间的拓扑结构特征;
S4、数据聚类:
利用图卷积自编码器的初始化生成目标分布P,对图卷积自编码的潜在空间数据使用KL散度函数作为聚类的损失函数,通过不断的迭代训练使图卷积自编码器不断更新聚类参数直到编码层输出的聚类分布Q与目标分布P拟合,生成整个聚类更新过程中的最优聚类结果。
2.根据权利要求1所述的基于图卷积神经网络的RNA分层嵌入聚类方法,其特征在于:在步骤S1中,采用python包中的scanpy对单细胞RNA测序的读取计数数据进行预处理,先过滤掉在任何细胞中都没有表达计数值的基因,再根据库大小对计数矩阵进行归一化并计算大小因子,后读取计数进行对数变换和缩放,使计数值遵循零均值和单位方差。
3.根据权利要求1所述的基于图卷积神经网络的RNA分层嵌入聚类方法,其特征在于:在步骤S2中,ZINB的表达式为下面的公式:
;
其中:μ为平均值,θ为离散度,π为dropout概率;
相应的优化目标为:
;
M,Θ,П分别表示均值μ、离散度θ和丢失概率π的矩阵形式,NLLZINB表示ZINB分布的负对数似然函数,利用此损失函数优化均值、离散度、dropout概率,通过计算并插补dropout值实现数据降噪。
4.根据权利要求1所述的基于图卷积神经网络的RNA分层嵌入聚类方法,其特征在于:在步骤S2中,降噪自编码器的结构为编码层、瓶颈层、解码层,编码层和解码层神经网络结构关于瓶颈层对称,且都是全连接的神经网络层,采用ReLU作为每层神经网络的激活函数。
5.根据权利要求4所述的基于图卷积神经网络的RNA分层嵌入聚类方法,其特征在于:在步骤S2中,模型的编码层采用的每层神经元结构为d-256-54-32,其中d为输入数据的维度,32为瓶颈层的神经元个数,解码层结构从左到右的结构为32-54-256-d,d为输出数据的维度,与编码层结构对称,降噪自编码器训练过程中选择的批大小为256,在编码层引入的高斯噪声强度为2.5,利用Adam优化算法对模型优化。
6.根据权利要求1所述的基于图卷积神经网络的RNA分层嵌入聚类方法,其特征在于:在步骤S4中,训练图卷积自编码器使公式(4)的损失函数Lr最小化,交替训练使训练得到的神经网络参数作为第二阶段参数优化的初始化,训练阶段的损失函数定义为L,该损失同时支配图自编码器的损失Lr和聚类损失Lc;
;
其中:表示聚类质心,γ是聚类模型实验的超参数并且设置值为2.5,在训练过程中给定了一组初始聚类质心/>,通过最小化L更新编码网络层的计算数据嵌入到潜在空间,通过对嵌入数据进行聚类迭代的更新聚类质心/>,将上述步骤交替进行直到损失函数收敛;聚类损失Lc采用的是KL散度损失:
;
通过迭代训练不断更新聚类结果,直到损失函数达到最小值,生成对潜在空间数据的最优聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310896057.3A CN116665786A (zh) | 2023-07-21 | 2023-07-21 | 一种基于图卷积神经网络的rna分层嵌入聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310896057.3A CN116665786A (zh) | 2023-07-21 | 2023-07-21 | 一种基于图卷积神经网络的rna分层嵌入聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116665786A true CN116665786A (zh) | 2023-08-29 |
Family
ID=87715486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310896057.3A Pending CN116665786A (zh) | 2023-07-21 | 2023-07-21 | 一种基于图卷积神经网络的rna分层嵌入聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665786A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235584A (zh) * | 2023-11-15 | 2023-12-15 | 之江实验室 | 图数据分类方法、装置、电子装置和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889192A (zh) * | 2021-09-29 | 2022-01-04 | 西安热工研究院有限公司 | 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 |
CN114022693A (zh) * | 2021-09-29 | 2022-02-08 | 西安热工研究院有限公司 | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 |
CN115661498A (zh) * | 2022-11-09 | 2023-01-31 | 云南大学 | 一种自优化单细胞聚类方法 |
CN116386729A (zh) * | 2022-12-23 | 2023-07-04 | 湖南大学 | 一种基于图神经网络的scRNA-seq数据降维方法 |
-
2023
- 2023-07-21 CN CN202310896057.3A patent/CN116665786A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889192A (zh) * | 2021-09-29 | 2022-01-04 | 西安热工研究院有限公司 | 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 |
CN114022693A (zh) * | 2021-09-29 | 2022-02-08 | 西安热工研究院有限公司 | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 |
CN115661498A (zh) * | 2022-11-09 | 2023-01-31 | 云南大学 | 一种自优化单细胞聚类方法 |
CN116386729A (zh) * | 2022-12-23 | 2023-07-04 | 湖南大学 | 一种基于图神经网络的scRNA-seq数据降维方法 |
Non-Patent Citations (1)
Title |
---|
GOKCEN ERASLAN等: "Single-cell RNA-seq denoising using a deep count autoencoder", NATURE COMMUNICATIONS, pages 1 - 3 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235584A (zh) * | 2023-11-15 | 2023-12-15 | 之江实验室 | 图数据分类方法、装置、电子装置和存储介质 |
CN117235584B (zh) * | 2023-11-15 | 2024-04-02 | 之江实验室 | 图数据分类方法、装置、电子装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622182B (zh) | 蛋白质局部结构特征的预测方法及*** | |
CN112418406B (zh) | 基于ssa-lstm模型的风电塔筒倾角缺失数据补齐方法 | |
JP2002230514A (ja) | 進化的最適化方法 | |
CN114022693B (zh) | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN114970774B (zh) | 一种智能变压器故障预测方法和装置 | |
CN116665786A (zh) | 一种基于图卷积神经网络的rna分层嵌入聚类方法 | |
CN113361606A (zh) | 深层图注意力对抗变分自动编码器训练方法及*** | |
CN114118369B (zh) | 一种基于群智能优化的图像分类卷积神经网络设计方法 | |
CN110674774A (zh) | 一种改进的深度学习人脸面部表情识别方法及*** | |
CN112733273A (zh) | 一种基于遗传算法和最大似然估计确定贝叶斯网络参数的方法 | |
CN112884149A (zh) | 一种基于随机敏感度st-sm的深度神经网络剪枝方法及*** | |
CN115732034A (zh) | 一种空间转录组细胞表达模式的识别方法及*** | |
CN109214401B (zh) | 基于层次化自动编码器的sar图像分类方法及装置 | |
CN114925767A (zh) | 一种基于变分自编码器的场景生成方法和装置 | |
CN115062587B (zh) | 一种基于周围信息的知识图谱嵌入及回复生成方法 | |
CN115640842A (zh) | 一种基于图注意力自编码器的网络表示学习方法 | |
CN114880538A (zh) | 基于自监督的属性图社团检测方法 | |
CN113743301B (zh) | 一种基于残差自编码器卷积神经网络的固态纳米孔测序电信号降噪处理方法 | |
CN111291810A (zh) | 基于目标属性解耦的信息处理模型生成方法及相关设备 | |
CN114037014A (zh) | 基于图自编码器的引用网络聚类方法 | |
CN112329918A (zh) | 一种基于注意力机制的对抗正则化网络嵌入方法 | |
CN117375983A (zh) | 一种基于改进cnn-lstm的电网虚假数据注入辨识方法 | |
CN104657949A (zh) | 一种煤泥浮选泡沫图像去噪中结构元素优化的方法 | |
CN117196963A (zh) | 一种基于降噪自编码器的点云去噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230829 |