CN116665786A

CN116665786A - 一种基于图卷积神经网络的rna分层嵌入聚类方法

Info

Publication number: CN116665786A
Application number: CN202310896057.3A
Authority: CN
Inventors: 鲁大营; 刘化社; 孔晨曦; 鲁克; 曹鲁成; 柴华; 樊稳稳; 刘原
Original assignee: Qufu Normal University; Shanxian Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: Qufu Normal University; Shanxian Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-08-29

Abstract

本发明涉及生物信息学技术领域，具体涉及一种基于图卷积神经网络的RNA分层嵌入聚类方法，包括以下步骤：S1、数据预处理，S2、数据降噪，S3、数据降维，S4、数据聚类，本发明在降噪中使用零膨胀负二项分布的负对数似然函数作为降噪自编码器的损失函数，用来处理数据中的dropout噪声，在降维任务中使用双解码图卷积自编码器来获取数据的低维特征，在聚类任务利用KL散度函数作为聚类的损失函数进行深度嵌入聚类，促进聚类精度的提升，具有更好的聚类效果。

Description

一种基于图卷积神经网络的RNA分层嵌入聚类方法

技术领域

本发明涉及生物信息学技术领域，具体涉及一种基于图卷积神经网络的RNA分层嵌入聚类方法。

背景技术

单细胞成千上万的基因种类造成了RNA测序数据的维度灾难，由于RNA获取率低产生dropout噪声，导致数据中存在大量虚假零值。单细胞RNA测序数据中同时存在高维和强噪声的问题。

发明内容

针对现有技术的不足，本发明提供一种基于图卷积神经网络的RNA分层嵌入聚类方法，通过融合的数据降噪自编码器和数据降维图卷积自编码器解决了数据同时存在的dropout噪声和高维灾难问题，采用深度嵌入聚类优化了聚类结果，提升了聚类精度。

本发明是通过如下技术方案实现的：

提供一种基于图卷积神经网络的RNA分层嵌入聚类方法，包括以下步骤：

S1、数据预处理：将单细胞RNA测序的读取计数数据处理得到数据矩阵X，矩阵中行代表细胞，列代表基因，每个细胞具有相同种类的基因；

S2、数据降噪：

将预处理后的数据矩阵X输入到降噪自编码器，在降噪自编码器的编码层的每层引入随机的高斯噪声e，添加噪声后的数据为：

X^{(count )}=X+e#(1)；

编码器函数z=f_w=(X^corrupt)，解码器函数X’=g_w’(z)，降噪自编码器采用ZINB的负对数似然函数作为损失函数，对数据中的dropout值计算并插补实现数据降噪；

S3、数据降维：

选择具有双解码器的图卷积自动编码器，将降噪后的数据利用K近邻算法生成KNN图，用邻接矩阵A表示图结构作为图卷积自动编码器的一个输入，用表示图节点基因特征的降噪后数据矩阵X作为图卷积自动编码器的另一个输入，通过两个解码器分别对输入KNN图数据的邻接矩阵和节点特征矩阵进行重构，使得图卷积自编码器的潜在空间生成学习到的低维的数据特征和数据之间的结构特征；

将编码层学习的数据特征向量保存为潜在空间的潜在变量h=E（X，A），通过两个解码器将变量h解码为重构数据节点矩阵X_r=D_X（h）和重构边矩阵Ar=D_A（h），产生邻接矩阵A的损失和数据节点X的损失，整个学习过程是使总的损失函数逐渐减小的过程，直到达到一个最小值，图卷积自编码器的总损失计算公式如下：

；

其中λ是超参数，实验将参数λ设置为0.6，通过不断训练优化损失函数，使得图卷积自编码器实现对单细胞RNA测序数据降维的同时保留高维数据之间的拓扑结构特征；

S4、数据聚类：

利用图卷积自编码器的初始化生成目标分布P，对图卷积自编码的潜在空间数据使用KL散度函数作为聚类的损失函数，通过不断的迭代训练使图卷积自编码器不断更新聚类参数直到编码层输出的聚类分布Q与目标分布P拟合，生成整个聚类更新过程中的最优聚类结果。

进一步的，在步骤S1中，采用python包中的scanpy对单细胞RNA测序的读取计数数据进行预处理，先过滤掉在任何细胞中都没有表达计数值的基因，再根据库大小对计数矩阵进行归一化并计算大小因子，后读取计数进行对数变换和缩放，使计数值遵循零均值和单位方差。

进一步的，在步骤S2中，ZINB的表达式为下面的公式：

；

其中：μ为平均值，θ为离散度，π为dropout概率；

相应的优化目标为：

；

M，Θ，П分别表示均值μ、离散度θ和丢失概率π的矩阵形式，NLL_ZINB表示ZINB分布的负对数似然函数，利用此损失函数优化均值、离散度、dropout概率，通过计算并插补dropout值实现数据降噪。

进一步的，在步骤S2中，降噪自编码器的结构为编码层、瓶颈层、解码层，编码层和解码层神经网络结构关于瓶颈层对称，且都是全连接的神经网络层，采用ReLU作为每层神经网络的激活函数。

进一步的，在步骤S2中，模型的编码层采用的每层神经元结构为d-256-54-32，其中d为输入数据的维度，32为瓶颈层的神经元个数，解码层结构从左到右的结构为32-54-256-d，d为输出数据的维度，与编码层结构对称，降噪自编码器训练过程中选择的批大小为256，在编码层引入的高斯噪声强度为2.5，利用Adam优化算法对模型优化。

进一步的，在步骤S4中，训练图卷积自编码器使公式（4）的损失函数L_r最小化，交替训练使训练得到的神经网络参数作为第二阶段参数优化的初始化，训练阶段的损失函数定义为L，该损失同时支配图自编码器的损失L_r和聚类损失L_c；

；

其中：表示聚类质心，γ是聚类模型实验的超参数并且设置值为2.5，在训练过程中给定了一组初始聚类质心/>，通过最小化L更新编码网络层的计算数据嵌入到潜在空间，通过对嵌入数据进行聚类迭代的更新聚类质心/>，将上述步骤交替进行直到损失函数收敛；聚类损失L_c采用的是KL散度损失：

；

通过迭代训练不断更新聚类结果，直到损失函数达到最小值，生成对潜在空间数据的最优聚类结果。

本发明的有益效果：

本发明针对单细胞RNA测序数据构建的聚类方法中融合降噪、降维方法有效解决了数据中同时存在的高维性和强噪声问题，提升了聚类精度。采用分层的方式实现了具有插补dropout事件功能的深度降噪自编码器、同时抓捕数据拓扑结构特征和数据自身特征的双解码图卷积降维自编码器、利用KL散度函数作为聚类的损失函数进行深度嵌入聚类。

降噪中采用ZINB分布拟合单细胞RNA测序数据分布，利用该分布的负对数似然函数作为损失函数对均值μ、离散度θ、dropout概率π三个目标参数进行优化，因此对数据中的dropout值进行了有效的插补。

基于图卷积网络的图自编码器对数据进行降维，图卷积自编码器保留了数据之间的拓扑结构，并利用细胞之间邻域信息有效地提高了聚类的效率。实验结果证明，使用融合的数据降噪自编码器和数据降维图卷积自编码器解决了数据同时存在的dropout噪声和高维灾难问题，采用深度嵌入聚类优化了聚类结果。通过分层实现了数据的降噪、降维、聚类，每一层都促进聚类精度的提升，通过在9个真实的高维度和高噪声的数据集上进行实验，与其它传统聚类方法相比，具有更好的聚类效果。

附图说明

图1为本发明的整体流程图。

图2为本发明采用的降噪自编码器结构图。

图3为本发明中图卷积降维自编码器的工作流程图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，对本方案进行阐述。

一种基于图卷积神经网络的RNA分层嵌入聚类方法，包括以下步骤：

S1、数据预处理：将单细胞RNA测序的读取计数数据处理得到数据矩阵X，矩阵中行代表细胞，列代表基因，每个细胞具有相同种类的基因。

采用python包中的scanpy对单细胞RNA测序的读取计数数据进行预处理，先过滤掉在任何细胞中都没有表达计数值的基因，再根据库大小对计数矩阵进行归一化并计算大小因子，后读取计数进行对数变换和缩放，使计数值遵循零均值和单位方差。

S2、数据降噪：

X^{(count )}=X+e#(1)；

编码器函数z=f_w=(X^corrupt)，解码器函数X’=g_w’(z)，降噪自编码器采用ZINB的负对数似然函数作为损失函数，对数据中的dropout值计算并插补实现数据降噪。

ZINB的表达式为下面的公式：

；

其中：μ为平均值，θ为离散度，π为dropout概率；

使用降噪自编码器来估计ZINB分布的平均值μ、离散度θ和dropout概率π这3个参数，模型DAE的神经网络有三个输出层而不是一个，它们分别代表基因的3个参数（μ，θ，π），这三个输出层与输入层保持相同的维度。

相应的优化目标为：

；

M，Θ，П分别表示均值μ、离散度θ和丢失概率π的矩阵形式， NLL_ZINB表示ZINB分布的负对数似然函数，利用此损失函数优化均值、离散度、dropout概率，通过计算并插补dropout值实现数据降噪。因为均值μ和离散度θ总是正数，所以选择的激活函数是指数形式，附加系数π表示输入的dropout概率，dropout的概率在[0，1]之间，所以选择的激活函数是sigmoid。

如图2所示，降噪自编码器的结构为编码层、瓶颈层、解码层，编码层和解码层神经网络结构关于瓶颈层对称，且都是全连接的神经网络层，采用ReLU作为每层神经网络的激活函数。

模型的编码层采用的每层神经元结构为d-256-54-32，其中d为输入数据的维度，32为瓶颈层的神经元个数，解码层结构从左到右的结构为32-54-256-d，d为输出数据的维度，与编码层结构对称，降噪自编码器训练过程中选择的批大小为256，在编码层引入的高斯噪声强度为2.5，利用Adam优化算法对模型优化。

自编码器是一种人工神经网络，以无监督方式进行数据特征学习。降噪自编码器是自编码器的一种，降噪自编码器在编码层添加噪声后会增强学习数据特征的鲁棒性，原因是其具有学习被微小变化破坏的输入数据的能力。通过在编码层引入高斯噪声对数据进行破坏，利用编码器的多层编码层学习主要的数据特征，解码器根据主要数据特征还原未被损坏的原始数据。降噪自编码器的中间通常有一个低维的瓶颈层，编码器学习的数据特征通过瓶颈层输出，将输出的低维数据保存在潜在空间。

S3、数据降维：

选择具有双解码器的图卷积自动编码器，图卷积自编码器是针对图结构的数据进行无监督学习和特征提取的一种人工神经网络，图卷积自编码器的瓶颈层可以得到比较低维度的数据特征，因此对图结构数据来说是一个很好的降维方法。将降噪后的数据利用K近邻算法生成KNN图，用邻接矩阵A表示图结构作为图卷积自动编码器的一个输入，用表示图节点基因特征的降噪后数据矩阵X作为图卷积自动编码器的另一个输入，通过两个解码器分别对输入KNN图数据的邻接矩阵和节点特征矩阵进行重构，使得图卷积自编码器的潜在空间生成学习到的低维的数据特征和数据之间的结构特征。

；

其中λ是超参数，实验将参数λ设置为0.6，通过不断训练优化损失函数，使得图卷积自编码器实现对单细胞RNA测序数据降维的同时保留高维数据之间的拓扑结构特征。

编码层设置为两层的图卷积层，瓶颈层神经元个数分别进行了5，10，15，20，30几个数值的测试，当瓶颈层神经元个数为10时在数据集上的聚类指标普遍最高，所以图卷积编码器包含的两层图卷积神经网络的神经元结构为123-10。数据特征解码器D_X由四层全连接神经网络层构成，四层全连接神经网络的神经元结构设置为10-64-256-512。邻接矩阵解码器D_A由完全连接层和正交化以及激活函数组成。图卷积自编码器的双解码结构实现了对单细胞RNA测序数据的数据自身特征的学习和细胞之间结构特征的学习，通过不断训练优化损失函数，使得图卷积自编码器实现对单细胞RNA测序数据降维的同时保留高维数据之间的拓扑结构特征。

S4、数据聚类：

在本步骤之前的降噪、降维步骤的处理是为了降低数据的干扰噪声和去除数据的冗余维度，进行更准确的细胞聚类，聚类是单细胞RNA测序数据分析的重要环节，聚类是将具有相似性基因特征的细胞簇之间的距离靠得更近，将不同基因特征的细胞簇之间的距离拉得更远。

不同于传统的K均值聚类算法直接对低维数据进行聚类，本发明选择基于深度学习的深度嵌入聚类方法对图卷积自编码器模块生成的潜在空间的中的低维数据进行聚类，深度嵌入聚类是一种使用深度神经网络更新学习的数据特征的同时更新聚类分布，通过学习数据高维空间到低维空间的映射对聚类目标迭代的优化。

具体的，训练图卷积自编码器使公式（4）的损失函数L_r最小化，交替训练使训练得到的神经网络参数作为第二阶段参数优化的初始化，训练阶段的损失函数定义为L，该损失同时支配图自编码器的损失L_r和聚类损失L_c；

；

。

在具体实验中，初始聚类质心是根据神经网络预训练得到初始嵌入数据后通过Louvain聚类获得初始化，模型采用随机梯度下降算法最小化聚类损失L_c来更新聚类质心组。聚类损失L_c选择了高性能的软分配损失，该损失使用学生t分布作为衡量嵌入节点和质心之间相似性的核心，L_c是经验聚类分布Q与目标分布P的KL发散。通过预训练图卷积自编码器进行参数初始化得到聚类目标分布P和潜在空间聚类分布Q的初始化，P和Q之间的KL散度损失称为聚类损失，该损失是代表两分布之间的差异性，损失越小使得生成的聚类分布与目标分布的聚类结果越相似。

本发明中构建的聚类方法采用分层的方式实现数据的降噪、降维、聚类，总体架构如图1所示，主要包括数据预处理、数据降噪、数据降维、数据聚类四个模块。首先将原始数据进行预处理后输入到深度降噪自编码器DDAE模块进行数据的降噪，解决数据中的dropout事件，再将降噪数据构建KNN图，将图结构数据输入到图卷积自编码器GCNAE模块，将节点信息重构和图邻接矩阵重构并在图卷积自编码器的潜在空间得到低维的数据特征和细胞间的结构特征，实现数据的降维，将GCNAE潜在空间数据利用深度嵌入聚类的方法进行细胞聚类。

将预处理后的数据集输入到第一个核心模块深度降噪自编码器，降噪模块采用了把传统的均方误差损失函数换成了ZINB的负对数似然函数的叠加自编码神经网络，实现对单细胞RNA测序数据中dropout噪声的计算和插补，经过自编码器的编码层数据的维度降低，将学习的降噪数据特征向量输出到潜在空间。将降噪数据保存后利用K近邻算法构建KNN图，将图的邻接矩阵A和节点特征矩阵X同时输入到第二个核心模块图卷积自编码器，采用两个解码器分别解码数据节点特征信息和邻接矩阵信息，使单细胞RNA测序数据自身的特征和数据中细胞之间的结构特征同时被获取，使低维数据空间上同时包含数据中的细胞基因特征信息和细胞之间的结构特征信息。最后进行第三个核心模块深度嵌入聚类，利用图卷积自编码器的初始化生成目标分布P，对图卷积自编码的潜在空间数据使用KL散度函数作为聚类的损失函数，通过不断的迭代训练使图卷积自编码器不断更新聚类参数直到编码层输出的聚类分布Q基本上与目标分布P拟合，生成整个聚类更新过程中的最优聚类结果，此时模型完成了对单细胞RNA测序数据的降噪、降维、聚类。

当然，上述说明也并不仅限于上述举例，本发明未经描述的技术特征可以通过或采用现有技术实现，在此不再赘述；以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制，参照优选的实施方式对本发明进行了详细说明，本领域的普通技术人员应当理解，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换都不脱离本发明的宗旨，也应属于本发明的权利要求保护范围。

Claims

1.一种基于图卷积神经网络的RNA分层嵌入聚类方法，其特征在于：包括以下步骤：

S2、数据降噪：

X^{(count )}=X+e#(1)；

S3、数据降维：

；

S4、数据聚类：

2.根据权利要求1所述的基于图卷积神经网络的RNA分层嵌入聚类方法，其特征在于：在步骤S1中，采用python包中的scanpy对单细胞RNA测序的读取计数数据进行预处理，先过滤掉在任何细胞中都没有表达计数值的基因，再根据库大小对计数矩阵进行归一化并计算大小因子，后读取计数进行对数变换和缩放，使计数值遵循零均值和单位方差。

3.根据权利要求1所述的基于图卷积神经网络的RNA分层嵌入聚类方法，其特征在于：在步骤S2中，ZINB的表达式为下面的公式：

；

其中：μ为平均值，θ为离散度，π为dropout概率；

相应的优化目标为：

；

4.根据权利要求1所述的基于图卷积神经网络的RNA分层嵌入聚类方法，其特征在于：在步骤S2中，降噪自编码器的结构为编码层、瓶颈层、解码层，编码层和解码层神经网络结构关于瓶颈层对称，且都是全连接的神经网络层，采用ReLU作为每层神经网络的激活函数。

5.根据权利要求4所述的基于图卷积神经网络的RNA分层嵌入聚类方法，其特征在于：在步骤S2中，模型的编码层采用的每层神经元结构为d-256-54-32，其中d为输入数据的维度，32为瓶颈层的神经元个数，解码层结构从左到右的结构为32-54-256-d，d为输出数据的维度，与编码层结构对称，降噪自编码器训练过程中选择的批大小为256，在编码层引入的高斯噪声强度为2.5，利用Adam优化算法对模型优化。

6.根据权利要求1所述的基于图卷积神经网络的RNA分层嵌入聚类方法，其特征在于：在步骤S4中，训练图卷积自编码器使公式（4）的损失函数L_r最小化，交替训练使训练得到的神经网络参数作为第二阶段参数优化的初始化，训练阶段的损失函数定义为L，该损失同时支配图自编码器的损失L_r和聚类损失L_c；

；