CN117708628A - 基于图深度学习的空间转录组学中空间域识别方法 - Google Patents

基于图深度学习的空间转录组学中空间域识别方法 Download PDF

Info

Publication number
CN117708628A
CN117708628A CN202311673334.0A CN202311673334A CN117708628A CN 117708628 A CN117708628 A CN 117708628A CN 202311673334 A CN202311673334 A CN 202311673334A CN 117708628 A CN117708628 A CN 117708628A
Authority
CN
China
Prior art keywords
gene expression
expression data
pixel point
graph
data matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311673334.0A
Other languages
English (en)
Inventor
贾松卫
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202311673334.0A priority Critical patent/CN117708628A/zh
Publication of CN117708628A publication Critical patent/CN117708628A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Optimization (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Mathematics (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图深度学习的空间转录组学中空间域识别方法,主要解决现有空间域识别技术存在运行时间长,内存消耗大,数据适应性差的问题。其实现方案是:对获取的空间转录组数据中的基因表达数据进行预处理和数据增强;根据预处理后的数据和空间坐标信息矩阵构建增强邻接图;建立一个包括图注意力网络和多层感知器网络组成的特征提取模型;通过掩码损失训练该模型,生成每个像素点的低维嵌入表示;对所有低维嵌入表示进行聚类得到空间域。本发明在缺少组织学图像信息的情况下,避免了获得组织学图像所付出的高额成本,及输入组织学图像信息所造成的内存消耗,提高了识别的准确率,可用于对生物样本的空间转录组数据聚类进而识别生物组织结构。

Description

基于图深度学习的空间转录组学中空间域识别方法
技术领域
本发明属于图深度学习技术领域,特别涉及一空间转录组学中空间域识别方法,可用于对生物样本的空间转录组数据聚类,准确识别出生物组织结构。
背景技术
图深度学习技术是当前机器学习当中最热门的研究方向之一,该技术能够有效地捕获图结构的局部和全局拓扑信息,实现对节点属性和图结构的理解和预测。图的本质是矩阵,契合空间转录组学所测得的基因表达数据和空间坐标信息的表示。
识别空间域的数据来源于空间转录组测序技术测得空间转录组学数据。文献“Longo S K,Guo M G,Ji AL,et al.Integrating single-cell and spatialtranscriptomics to elucidate intercellular tissue dynamics[J].Nature ReviewsGenetics,2021,22(10):627-644.”提到空间转录组作为下一代测序技术,其结合了组织空间坐标信息和基因表达信息,可以弥补单细胞RNA测序技术丢失细胞空间坐标信息的不足,能更加准确地分析空间域以及其他下游的分析任务。
空间域识别是空间转录组学数据分析中面临的巨大挑战之一。空间域即在组织中找到具有一致基因表达的区域,本质上是聚类问题。传统的聚类技术,如K-means和文献“Blondel V D,Guillaume J L,Lambiotte R,et al.Fast unfolding of communities inlarge networks[J].Journal of statistical mechanics:theory and experiment,2008,2008(10):P10008.”中提出的Louvain,其由于没有利用像素点的空间坐标信息,仅输入像素点的基因表达数据,因而导致聚类结果不连续,所识别的空间域不够精确,影响下游分析的准确性。
针对传统聚类技术的缺陷,目前已经提出了一些识别空间域的技术,这些技术共同的目的是如何更好地将空间转录组中的空间坐标信息或者组织学图像信息和基因表达信息结合起来聚类,进而进行相关下游分析。
Duy Pham,Xiao Tan等人在文献“Pham D,Tan X,Xu J,et al.stLearn:integrating spatial location,tissue morphology and gene expression to findcell types,cell-cell interactions and spatial trajectories withinundissociated tissues[J].BioRxiv,2020.”中提出了stLearn,其利用计算机视觉领域中经典算法残差网络-ResNet提取组织学图像特征,计算形态学距离,通过将形态学距离和空间坐标信息结合起来,监督基因表达信息并进行归一化处理,最后用所得到的结果进行聚类、轨迹推断、细胞间通信等下游分析任务。
Jian Hu等人在文献“Hu J,Li X,Coleman K,et al.SpaGCN:Integrating geneexpression,spatial location and histology to identify spatial domains andspatially variable genes by graph convolutional network[J].Nature methods,2021,18(11):1342-1351.”中提出的SpaGCN,其通过结合空间坐标信息和组织学图像信息,构建得到一个加权的无向图,然后将此无向图和基因表达信息输入图卷积神经网络进行训练,最终得到相应的低维嵌入表示并进行聚类等下游分析任务。
Chang Xu等人在文献“Xu C,Jin X,Wei S,et al.DeepST:identifying spatialdomains in spatial transcriptomics by deep learning[J].Nucleic AcidsResearch,2022.”中提出了DeepST,其利用深度神经网络提取组织学图像信息,将组织学图像信息,空间坐标信息,基因表达信息三者结合起来,输入去噪编码器,学习得到低维嵌入表示,最后进行聚类等下游分析任务。
Huazhu Fu等人在文献“Fu H,Xu H,Chong K,et al.Unsupervised spatiallyembedded deep representation of spatial transcriptomics[J].Biorxiv,2021.”中提出的SEDR,其是一种用于提取空间转录组数据的低维嵌入表示的无监督自编码器模型,分别采用变分图自编码器嵌入空间坐标信息和深度自编码器学习基因表达信息。
Edward Zhao等人在文献“Zhao E,Stone M R,Ren X,et al.Spatialtranscriptomics at subspot resolution with BayesSpace[J].NatureBiotechnology,2021,39(11):1375-1384.”中提出的BayesSpace是一种贝叶斯统计模型,基于空间邻近像素点以更高的概率出现在同一类中的假设,预测像素点的所属类别,进行空间域识别。
Kangning Dong和Shihua Zhang在文献“Dong K,Zhang S.Deciphering spatialdomains from spatially resolved transcriptomics with an adaptive graphattention auto-encoder[J].Nature communications,2022,13(1):1-12.”中提出的STAGATE是一种利用图注意力自编码器模型,其中在嵌入空间坐标信息的同时将注意力机制引入学习不同像素点之间边的权重,最终将提取的低维嵌入表示应用到空间域识别任务中。
以上以stLearn,SpaGCN,DeepST为代表的这类空间域识别技术,在提升聚类准确率的同时,由于加入了组织学图像信息,使得模型运行的时间变长,内存消耗大幅度提升。以SEDR,BayesSpace,STAGATE为代表的这类空间域识别技术虽然没有要求必需输入组织学图像信息,但遗憾的是它们的数据适应性较差,其原因在于它们仅重视空间坐标信息,无法在多样本,多尺度数据集上取得理想的一致结果。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于图深度学习的空间转录组学中空间域识别方法,以减少计算成本,提高在多样本,多尺度数据集上识别空间域结构的准确性。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)使用空间转录组测序技术获得不同生物样本的空间坐标信息矩阵S和基因表达数据矩阵X,并对基因表达数据矩阵X进行预处理,得到新的基因表达数据矩阵X1
(2)构建增强邻接图:
(2a)对经预处理得到的基因表达数据矩阵X1和空间坐标信息矩阵S分别采用k近邻算法提取每个像素点的前k个最近邻居,得到基因表达数据邻接图G1和空间坐标信息邻接图G2
(2b)对基因表达数据邻接图G1和空间坐标信息邻接图G2中的边进行融合,得到节点不变,边更新了的增强邻接图GE
(3)数据增强:
(3a)将经预处理得到的基因表达数据矩阵X1中的每个像素点加入均值为0、标准差为1的高斯噪声,得到新的基因表达数据矩阵X2
(3b)对经加入噪声得到的基因表达数据矩阵X2采用动态随机掩码策略,生成增强后的基因表达数据矩阵X3
(4)构建包括图注意力网络和多层感知器网络组成的特征提取模型,并将掩码损失作为该模型的损失函数loss;
(5)将经数据增强后的基因表达数据矩阵X3和增强邻接图GE作为模型的输入数据,采用梯度下降法对其训练,得到每个像素点的低维嵌入表示;
(6)采用Leiden算法对低维嵌入表示进行聚类,得到具有一致基因表达的区域,即空间域。
本发明与现有技术相比,具有如下优点:
1.本发明由于采用了数据增强技术,对经预处理得到的基因表达数据矩阵X1进行数据增强操作,可以充分利用基因表达信息,且在缺失组织学图像信息的情况下仍取得理想效果,避免了获得组织学图像所付出的高额成本,以及输入组织学图像信息造成的内存消耗过大问题。
2.本发明由于构建了增强邻接图,因而能更好地融合空间坐标信息和基因表达信息,与现有技术相比,不仅可更合理地处理空间坐标信息和基因表达信息之间的关系,而且能在多样本,多尺度数据集上识别更准确的空间域。
3.本发明由于构建了包括图注意力网络和多层感知器网络组成的特征提取模型,可通过使用图注意力网络能更准确地学习像素点的低维嵌入表示;通过多层感知器网络重建每个像素点的基因表达值,相对于现有技术简化了模型结构,提高了运行效率。
附图说明
图1是本发明工作原理图;
图2是用本发明在STARmap数据集上的聚类结果和人工标注结果对比图;
图3是本发明和现有Leiden、SpaGCN、STAGATE技术在STARmap数据集上聚类结果的ARI值对比图
图4是用本发明在小鼠大脑冠状切片数据集上的聚类结果和人工标注结果对比图
图5是本发明在人类背外侧前额叶皮层151673切片上的聚类结果与人工标注结果及组织学图像对比图;
图6是本发明和现有SpaGCN、STAGATE、SEDR、stLearn、DeepST技术在人类背外侧前额叶皮层151673切片上的运行时间对比图。
具体实施方式
以下结合附图对本发明的实施例和效果做进一步详细描述。
参照图1,本实例的实现步骤如下:
步骤1,获取空间转录组数据并进行预处理
1.1)使用空间转录组测序技术在生物组织切片上测量获得空间坐标信息矩阵S和基因表达数据矩阵X;
1.2)对基因表达数据矩阵X进行预处理:
1.2.1)使用scanpy工具包对基因表达数据矩阵X进行基因过滤操作,保留至少在5个细胞内表达的基因;
1.2.2)对过滤后的数据进行归一化处理;
1.2.3)对归一化处理后的数据进行PCA降维,使其降到n维,生成最终的基因表达数据矩阵X1
步骤2,构建增强邻接图。
2.1)对经预处理得到的基因表达数据矩阵X1计算其不同像素点基因表达值之间的欧氏距离:
其中,是基因表达数据矩阵X1中第i个像素点vi的基因表达值,/>是基因表达数据矩阵X1中第j个像素点vj的基因表达值;
2.2)对经预处理得到的基因表达数据矩阵X1中每个像素点与其余像素点之间的欧氏距离按照升序排序,选取每个像素点的前k1个像素点作为邻居,用这些邻居构成基因表达数据邻接图G1
2.3)对空间坐标信息矩阵S计算其不同像素点在空间位置之间的欧氏距离:
dist(si,sj)=||si-sj||
其中,si是空间坐标信息矩阵S中第i个像素点vi的空间坐标值,sj是空间坐标信息矩阵S中第j个像素点vj的空间坐标值;
2.4)对空间坐标信息矩阵S中每个像素点与其余像素点之间的欧氏距离按照升序排序,选取每个像素点的前k2个像素点作为邻居,用这些邻居构成空间坐标信息邻接图G2
2.5)构建增强邻接图GE
设图G3与图G1、G2的节点集相同,并设G3中的第i个像素点vi与第j个像素点vj在G1或G2中有连边,对满足该条件的vi与vj,则在G3中的像素点vi与像素点vj之间建立连边,生成增强邻接图GE。该增强邻接图GE满足以下特性:
其中,AEr,t是矩阵AE第r行,第t列的值;A1r,t是矩阵A1第r行,第t列的值;A2r,t是矩阵A2第r行,第t列的值;A1,A2和AE分别是图G1,G2和GE的邻接矩阵。
步骤3,数据增强。
3.1)将经预处理得到的基因表达数据矩阵X1中的每个像素点加入均值为0、标准差为1的高斯噪声,得到新的基因表达数据矩阵X2
3.2)设置掩码函数rate:
rate(m+1)=rate(m)+Δ
其中,m代表模型训练的第m次,其初始值设置为rate(0)=0.5,最大值ratemax=0.8;Δ为函数的常量项,其值设定为0.001;
3.3)随机选取基因表达数据矩阵X2中以掩码函数值作为比例的像素点,将其基因表达值置为零,进而生成增强后的基因表达数据矩阵X3,其中增强后的基因表达数据矩阵X3中第i个像素点vi的基因表达值定义为:
其中,V是进行随机掩码节点集,是基因表达数据矩阵X2中第i个像素点vi的基因表达值。
步骤4,构建包括图注意力网络和多层感知器网络组成的特征提取模型,并将掩码损失作为该模型的损失函数loss
4.1)建立由输入层、第一层隐藏层、第二层隐藏层依次级联组成图注意力网络,其中输入层的参数为数据增强后基因表达数据矩阵X3的基因特征数,第一层隐藏层为128维,第二层隐藏层为64维,所有层的激活函数是Sigmoid,图注意力网络中的注意力头数量设置为4;
4.2)建立由输入层和隐藏层组成多层感知器网络,其中输入层为64维,隐藏层为数据增强后基因表达数据矩阵X3的基因特征数,所有层的激活函数是PReLU;
4.3)将图注意力网络与多层感知器网络连接,构成特征提取模型;
4.4)建立掩码损失函数,将其作为该特征提取模型的损失函数loss,公式如下:
其中,γ为超参数设置为3,是基因表达数据矩阵X1中第i个像素点vi的基因表达值,Z是多层感知器网络的输出矩阵,zi是矩阵Z中第i个像素点vi的基因表达值,T代表转置。
步骤5,对特征提取模型进行训练。
5.1)设置该模型训练次数为1200,学习率为0.001,优化器为Adam;
5.2)将步骤3数据增强后的基因表达数据X3和步骤2构建的增强邻接图GE输入到图注意力网络中,得到每个像素点的低维嵌入表示;
5.3)将所有像素点的低维嵌入表示输入到多层感知器网络,得到当前的输出结果Z;
5.4)计算损失函数loss,采用梯度下降法优化损失值,再通过反向传播算法更新模型参数值;
5.5)重复步骤(5.2)到(5.4),直到损失loss达到收敛或训练次数达到1200,得到最终的低维嵌入表示。
步骤6,对低维嵌入表示进行聚类,得到空间域。
现常用聚类算法包括K-means算法,Louvain算法,Leiden算法,mclust算法,本实例采用但不限于用Leiden算法对低维嵌入表示进行聚类,其实现步骤如下:
6.1)设置聚类簇数,分辨率参数w:
w(n)=w(n-1)+0.01
其中,n是Leiden算法运行的第n次,分辨率初始值w(0)=0.01,最大值wmax=2.5;
6.2)将最终的低维嵌入表示作为Leiden算法的输入数据;
6.3)运行Leiden算法,最终输出每个像素点的所属类别;
6.4)统计类别数量;
6.5)重复步骤6.2)到6.4),直到统计的类别数量等于已设置的聚类簇数,将此时的分辨率参数值记为β;
6.6)将最终的低维嵌入表示再次作为Leiden算法的输入数据,β作为Leiden算法的分辨率参数,运行该算法,得到每个像素点的所属类别,用运行结果中属于同一类别的像素点构成具有一致基因表达的区域,即得到空间域。
本发明的效果可通过以下仿真结果进一步说明:
一.仿真条件
计算机硬件CPU为Inter Core(TM)i7,计算机硬件内存为16G;
计算机软件:WINDOWS10***上Pycharm集成开发软件。
二.仿真内容
仿真1,用本发明在STARmap数据集上进行聚类,并将聚类可视化的结果与人工标注结果进行对比,结果如图2所示,其中图2(a)是本发明聚类可视化结果,图2(b)是该数据集的人工标注结果。
从图2可见,本发明聚类结果与人工标注的结果高度相似,说明本发明可以识别出准确的空间域结构。
仿真2,在STARmap数据集上分别计算本发明和现有Leiden,SpaGCN,STAGATE方法聚类结果的ARI值,结果如图3所示。
从图3可见,本发明所对应的ARI值是0.63,比现有Leiden,SpaGCN,STAGATE技术的ARI值都高,说明相较于现有技术,本发明得到的聚类结果更精确。
仿真3,使用本发明在小鼠大脑冠状切片数据集上聚类,并将聚类可视化结果与人工标注结果进行对比,结果如图4所示,其中图4(a)是本发明聚类可视化结果,图4(b)是该数据集的人工标注结果。
从图4可见,本发明可以识别出人工标注结果图中的矢状结构,说明本发明可以准确识别复杂生物数据的空间域结构。
仿真4,用本发明在人类背外侧前额叶皮层151673切片上聚类,并将聚类可视化结果与人工标注结果图及组织学图像对比,如图5所示,其中图5(a)是该数据集的组织学图像,图5(b)是该数据集的人工标注结果,图5(c)是本发明聚类结果的可视化。
从图5可见,在不需要组织学图像作为输入数据的条件下,本发明的聚类结果仍可以与人工标注结果相似,说明本发明在不需要组织学图像信息的情况下仍取得理想效果,可以准确识别空间域,解决由于输入组织学图像信息造成的内存消耗过大问题。
仿真5,在人类背外侧前额叶皮层151673切片数据集上分别计算本发明和现有SpaGCN,STAGATE,SEDR,stLearn,DeepST方法的运行时长,结果如图6所示。
在人类背外侧前额叶皮层151673切片数据集上分别计算本发明和现有SpaGCN,STAGATE,SEDR,stLearn,DeepST方法聚类结果的ARI值,结果如表1所示。
表1
切片编号 本发明 stLearn SEDR SpaGCN DeepST STAGATE
151673 0.64 0.36 0.52 0.48 0.54 0.58
从图6可见,本发明的运行时长排第三,比SpaGCN和STAGATE方法时间长,但从表1可见,本发明的ARI值最高,说明本发明能以较低的计算成本识别出更准确的空间域结构。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,且各步骤的标号仅是为了对本发明技术方案的清楚描述,其序号顺序不做限定。显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (9)

1.一种基于图深度学习的空间转录组学中空间域识别方法,其特征在于,包括如下:
(1)使用空间转录组测序技术获得不同生物样本的空间坐标信息矩阵S和基因表达数据矩阵X,并对基因表达数据矩阵X进行预处理,得到新的基因表达数据矩阵X1
(2)构建增强邻接图:
(2a)对经预处理得到的基因表达数据矩阵X1和空间坐标信息矩阵S分别采用k近邻算法提取每个像素点的前k个最近邻居,得到基因表达数据邻接图G1和空间坐标信息邻接图G2
(2b)对基因表达数据邻接图G1和空间坐标信息邻接图G2中的边进行融合,得到节点不变,边更新了的增强邻接图GE
(3)数据增强:
(3a)将经预处理得到的基因表达数据矩阵X1中的每个像素点加入均值为0、标准差为1的高斯噪声,得到新的基因表达数据矩阵X2
(3b)对经加入噪声得到的基因表达数据矩阵X2采用动态随机掩码策略,生成增强后的基因表达数据矩阵X3
(4)构建包括图注意力网络和多层感知器网络组成的特征提取模型,并将掩码损失作为该模型的损失函数loss;
(5)将经数据增强后的基因表达数据矩阵X3和增强邻接图GE作为模型的输入数据,采用梯度下降法对其训练,得到每个像素点的低维嵌入表示;
(6)采用Leiden算法对低维嵌入表示进行聚类,得到具有一致基因表达的区域,即空间域。
2.根据权利要求1所述的方法,其特征在于,步骤(1)对基因表达数据矩阵X进行预处理,实现步骤包括如下:
(1a)使用scanpy工具包对基因表达数据矩阵X进行基因过滤操作,保留至少在5个细胞内表达的基因;
(1b)将过滤得到的数据进行归一化处理;
(1c)对归一化处理后的数据进行PCA降维,生成最终的基因表达数据矩阵X1
3.根据权利要求1所述的方法,其特征在于,步骤(2a)对经预处理得到的基因表达数据矩阵X1和空间坐标信息矩阵S分别采用k近邻算法提取每个像素点的前k个最近邻居,实现步骤包括如下:
(2a1)对经预处理得到的基因表达数据矩阵X1计算其不同像素点基因表达值之间的欧氏距离;
(2a2)对经预处理得到的基因表达数据矩阵X1中每个像素点与其余像素点之间的欧氏距离按照升序排序,选取每个像素点的前k1个像素点作为邻居,用这些邻居构成基因表达数据邻接图G1
(2a3)对空间坐标信息矩阵S计算其不同像素点在空间位置之间的欧氏距离;
(2a4)对空间坐标信息矩阵S中每个像素点与其余像素点之间的欧氏距离按照升序排序,选取每个像素点的前k2个像素点作为邻居,用这些邻居构成空间坐标信息邻接图G2
4.根据权利要求1所述的方法,其特征在于,步骤(2b)中对基因表达数据邻接图G1和空间坐标信息邻接图G2中的边进行融合,是设图G3与图G1、G2的节点集相同,并设G3中的第i个像素点vi与第j个像素点vj在G1或G2中有连边,对满足该条件的vi与vj,则在G3中的像素点vi与像素点vj之间建立连边,生成增强邻接图GE
5.根据权利要求1所述的方法,其特征在于,步骤(3b)对经加入噪声得到的基因表达数据矩阵X2采用动态随机掩码策略,生成增强后的基因表达数据矩阵X3,实现如下:
(3b1)设置掩码函数rate:
rate(m+1)=rate(m)+Δ
其中,m代表模型训练的第m次,其初始值设置为rate(0)=0.5,最大值ratemax=0.8;Δ为函数的常量项,其值设定为0.001;
(3b2)随机选取基因表达数据矩阵X2中以掩码函数值作为比例的像素点,将其基因表达值置为零,进而生成增强后的基因表达数据矩阵X3,其中增强后的基因表达数据矩阵X3中第i个像素点vi的基因表达值定义为:
其中,是进行随机掩码节点集,/>是基因表达数据矩阵X2中第i个像素点vi的基因表达值。
6.根据权利要求1所述的方法,其特征在于,步骤(4)中构建包括图注意力网络和多层感知器网络组成的特征提取模型,实现步骤包括如下:
(4a)建立由输入层、第一层隐藏层、第二层隐藏层依次级联组成图注意力网络,其中输入层的参数为数据增强后基因表达数据矩阵X3的基因特征数,第一层隐藏层为128维,第二层隐藏层为64维;
(4b)建立由输入层和隐藏层组成多层感知器网络,其中输入层为64维,隐藏层为数据增强后基因表达数据矩阵X3的基因特征数;
(4c)将图注意力网络与多层感知器网络连接,构成特征提取模型。
7.根据权利要求1所述的方法,其特征在于,步骤(4)所述的损失函数loss,表示如下:
其中,γ为超参数设置为3,是基因表达数据矩阵X1中第i个像素点vi的基因表达值,Z是多层感知器网络的输出矩阵,zi是矩阵Z中第i个像素点vi的基因表达值,T代表转置。
8.根据权利要求1所述的方法,其特征在于,步骤(5)中采用梯度下降法对特征提取模型进行训练,实现步骤如下:
(5a)设置该模型训练次数为1200,学习率为0.001,优化器为Adam;
(5b)将步骤(3)数据增强后的基因表达数据X3和步骤(2)构建的增强邻接图GE输入到图注意力网络中,得到低维嵌入表示;
(5c)将该低维嵌入表示输入多层感知器网络,得到输出结果Z;
(5d)计算重建掩码损失loss进行梯度优化,进而调节模型参数;
(5e)重复步骤(5b)到(5d),直到损失loss达到收敛或训练次数达到1200,得到最终的低维嵌入表示。
9.根据权利要求1所述的方法,其特征在于,步骤(6)中采用Leiden算法对最终的低维嵌入表示进行聚类,实现包括如下:
(6a)设置聚类簇数,分辨率参数w:
w(n)=w(n-1)+0.01
其中,n是Leiden算法运行的第n次,分辨率初始值w(0)=0.01,最大值wmax=2.5;
(6b)将最终的低维嵌入表示作为Leiden算法的输入数据;
(6c)运行Leiden算法,最终输出每个像素点的所属类别,并统计类别数量;
(6d)重复步骤(6b)到(6c),直到统计的类别数量等于已设置的聚类簇数,将此时的分辨率参数值记为β;
(6e)将最终的低维嵌入表示再次作为Leiden算法的输入数据,β作为Leiden算法的分辨率参数,运行该算法,得到每个像素点的所属类别;
(6f)用运行结果中属于同一类别的像素点构成具有一致基因表达的区域,即得到空间域。
CN202311673334.0A 2023-12-07 2023-12-07 基于图深度学习的空间转录组学中空间域识别方法 Pending CN117708628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311673334.0A CN117708628A (zh) 2023-12-07 2023-12-07 基于图深度学习的空间转录组学中空间域识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311673334.0A CN117708628A (zh) 2023-12-07 2023-12-07 基于图深度学习的空间转录组学中空间域识别方法

Publications (1)

Publication Number Publication Date
CN117708628A true CN117708628A (zh) 2024-03-15

Family

ID=90161652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311673334.0A Pending CN117708628A (zh) 2023-12-07 2023-12-07 基于图深度学习的空间转录组学中空间域识别方法

Country Status (1)

Country Link
CN (1) CN117708628A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118016149A (zh) * 2024-04-09 2024-05-10 太原理工大学 一种整合空间转录组多模态信息的空间域识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118016149A (zh) * 2024-04-09 2024-05-10 太原理工大学 一种整合空间转录组多模态信息的空间域识别方法

Similar Documents

Publication Publication Date Title
CN108805167B (zh) 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法
CN107273925B (zh) 基于局部感受野和半监督深度自编码的肺实质ct影像处理装置
CN108389211B (zh) 基于改进鲸鱼优化模糊聚类的图像分割方法
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN117708628A (zh) 基于图深度学习的空间转录组学中空间域识别方法
CN110826635B (zh) 基于整合非负矩阵分解的样本聚类和特征识别方法
CN106874862B (zh) 基于子模技术和半监督学习的人群计数方法
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN113889192B (zh) 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法
CN108846845B (zh) 基于缩略图与分层模糊聚类的sar图像分割方法
CN114581451A (zh) 一种基于散射图神经网络的大脑磁共振图像分割方法
CN111563549B (zh) 基于多任务进化算法的医学图像聚类方法
CN115359845A (zh) 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法
CN111798526B (zh) 基于聚类空间映射的彩色图像主色快速提取方法及***
CN112529063A (zh) 一种适用于帕金森语音数据集的深度域适应分类方法
Kothari et al. Potato leaf disease detection using deep learning
CN105809200B (zh) 一种生物启发式自主抽取图像语义信息的方法及装置
CN112509017B (zh) 一种基于可学习差分算法的遥感影像变化检测方法
O'Neill et al. Improved processing of microarray data using image reconstruction techniques
CN116912576A (zh) 基于脑网络高阶结构的自适应图卷积脑疾病分类方法
CN112215082A (zh) 一种植物叶片图像识别方法
CN116705151A (zh) 一种空间转录组数据的降维方法及***
Zhou et al. A new method for classification in DNA sequence
CN116189785A (zh) 基于空间转录组学数据特征提取的空间域识别方法
CN111080649A (zh) 一种基于黎曼流形空间的图像分割处理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination