CN117520913A - 一种单细胞类别分簇方法、***、设备及计算机可读存储介质 - Google Patents

一种单细胞类别分簇方法、***、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN117520913A
CN117520913A CN202311472879.5A CN202311472879A CN117520913A CN 117520913 A CN117520913 A CN 117520913A CN 202311472879 A CN202311472879 A CN 202311472879A CN 117520913 A CN117520913 A CN 117520913A
Authority
CN
China
Prior art keywords
data
cluster
clustering
cell
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311472879.5A
Other languages
English (en)
Inventor
郭静
***
王丹
李雨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Medintell Bioinformatic Technology Co Ltd
Original Assignee
Beijing Medintell Bioinformatic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Medintell Bioinformatic Technology Co Ltd filed Critical Beijing Medintell Bioinformatic Technology Co Ltd
Priority to CN202311472879.5A priority Critical patent/CN117520913A/zh
Publication of CN117520913A publication Critical patent/CN117520913A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及生物信息学领域,具体涉及一种单细胞类别分簇方法、***、设备及计算机可读存储介质。包括S1:获取单细胞测序数据;S2:对所述单细胞测序数据进行数据预处理得到预处理后的数据;S3:对所述预处理后的数据进行聚类得到聚类簇数据;S4:将所述聚类簇数据与构建好的细胞和/或组织特异性信息数据库中的各个类别簇进行相关性计算得到与聚类簇数据最接近簇的类别;S5:基于所述最接近簇的类别进行类别注释。本申请采用双路径进行单细胞分簇,有利于提高单细胞类别区分的准确率。

Description

一种单细胞类别分簇方法、***、设备及计算机可读存储介质
技术领域
本申请涉及生物信息学领域,具体涉及一种单细胞类别分簇方法、***、设备及计算机可读存储介质。
背景技术
得益于生物技术的发展,现如今能够较易的捕获单个细胞的基因表达数据,这些数据揭示了细胞间的异质性和复杂性,单细胞聚类分簇是解析这些复杂数据的重要方法之一,它可以将具有相似表达模式的细胞聚集在一起,从而识别并分类不同的细胞类型或状态。单细胞聚类分簇的应用范围广泛,包括神经科学、免疫学、肿瘤学等。然而,单细胞测序数据中存在大量的噪声和伪影,因此需要采用先进的数据清洗和预处理技术来去除这些干扰因素。其次,单细胞分簇需要解决的一个关键问题是如何选择合适的聚类算法和参数,不同的聚类算法和参数选择会对结果产生不同的影响,因此需要仔细考虑,单细胞聚类分簇面临如何选择合适的簇数的问题,过少的簇数可能导致不同的细胞类型的混淆,而过多的簇数则可能会导致过度分割。
发明内容
针对上述问题,本申请提出了一种单细胞类别分簇方法,通过两种不同的路径分别进行单细胞类别分簇,该方法能够提高单细胞分簇的准确率,有利于进行单细胞的后续研究分析,具体包括:
S1:获取单细胞测序数据;
S2:对所述单细胞测序数据进行数据预处理得到预处理后的数据;
S3:对所述预处理后的数据进行聚类得到聚类簇数据;
S4:将所述聚类簇数据与构建好的细胞和/或组织特异性信息数据库中的各个类别簇进行相关性计算得到与聚类簇数据最接近簇的类别;
S5:基于所述最接近簇的类别进行类别注释;
其中,所述细胞和/或组织特异性信息数据库中各个类别簇聚类的构建过程为:获取细胞和/或组织特异性测序数据集及标签;
对所述细胞和/或组织特异性测序数据集及标签进行细胞和/或组织聚类得到各个类别簇。
进一步,所述聚类采用下列的一种或几种:K-means聚类、DBSCAN聚类、谱聚类、拉普拉斯映射聚类、GMM聚类、MeanShift均值迁移聚类、高斯混合聚类、密度聚类、层次聚类、OPTICS聚类、BIRCH聚类、CLARA聚类、PAM聚类、CURE聚类。
所述S4和S5的过程还能通过SingleR包进行单细胞样本类别注释,所述SingleR包中的数据库分为人类数据库和小鼠数据库。
所述S3与S4的过程还能通过训练好的分类模型进行单细胞测序数据分类得到分类结果,根据所述分类结果对单细胞样本进行类别注释。
进一步,所述分类模型包括下列的一种或几种:卷积神经网络、空洞卷积神经网络、朴素贝叶斯、极限学习机、支持向量机、随机森林、决策树、XGBoost、KNN。
所述训练好的分类模型的训练过程包括:
获取单细胞样本及标签;
对所述单细胞样本及标签进行数据预处理得到预处理后的数据;
将所述预处理后的数据输至分类模型中进行特征提取得到特征矩阵,基于所述特征矩阵进行分类得到单细胞样本分类结果。
进一步,所述单细胞样本数据是基因表达矩阵,所述基因表达矩阵的行表示基因表达,列表示样本名;所述标签是单细胞样本数据中样本名对应的细胞类型。
所述细胞和/或组织聚类通过无监督聚类方式进行各个类别的细胞和/或组织聚类得到各个类别簇;
优选地,采用有监督分类算法进行细胞和/或组织聚类得到各个类别簇
所述数据预处理包括细胞过滤、数据标准化、选择高变基因、聚类、非线性降维;其中,所述细胞过滤的标准包括排除小于n个细胞中检测到的基因,n为大于等于1的自然数,排除总检测基因书少于预设阈值的细胞,线粒体表达基因大于等于预设阈值的细胞。
本申请的目的在于提供一种单细胞类别分簇***,包括:
数据获取单元:获取单细胞测序数据;
数据预处理单元:对所述单细胞测序数据进行数据预处理得到预处理后的数据;
数据聚类单元:对所述预处理后的数据进行聚类得到聚类簇数据;
数据计算单元:将所述聚类簇数据与构建好的细胞和/或组织特异性信息数据库中的各个类别簇进行相关性计算得到与聚类簇数据最接近簇的类别;
数据注释单元:基于所述最接近簇的类别进行类别注释;
其中,所述细胞和/或组织特异性信息数据库中各个类别簇聚类的构建过程为:
获取细胞和/或组织特异性测序数据集及标签;
对所述细胞和/或组织特异性测序数据集及标签进行细胞和/或组织聚类得到各个类别簇。
本申请的目的在于提供一种单细胞类别分簇设备,包括:
存储器与处理器,所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时实现任意一项上述的一种单细胞类别分簇方法。
本申请的目的在于提供一种计算机可读存储介质,其上存储有计算机程序,包括:
所述计算机程序被处理器执行时实现任意一项上述的一种单细胞类别分簇方法。
本申请的优势:
1.本申请采用双路径的方式进行单细胞类别分簇,进而避免了单一路径中分簇效果差,细胞分错类别的问题,提高单细胞分簇的准确率。
2.从人工智能技术的角度进行单细胞分簇,结合神经网络模型的算法进行单细胞的特征提取来构建分簇模型,该模型通过不断的优化获得良好的单细胞分簇性能,将测试数据输至网络模型中进行类别概率计算得到概率最高的类别,能够有效区别不同种类的单细胞。
3.从相关性的角度进行单细胞分簇,在组织特异信息数据库中通过神经网络模型重新进行聚类分簇得到更新后的组织特异性信息数据库,使得未注释的测试数据与更新后的组织特异性信息数据库进行相关性系数计算得到最接近的簇类别,进而获得测试数据的类别。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1为本发明实施例提供的一种单细胞类别分簇方法流程示意图;
图2为本发明实施例提供的一种单细胞类别分簇***示意图;
图3为本发明实施例提供的一种单细胞类别分簇设备示意图;
图4为本发明实施例提供的单细胞分簇整体流程示意图;
图5为本发明实施例提供的细胞和/或组织特异性信息数据库构建过程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S101、S102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图1本发明实施例提供的一种单细胞类别分簇方法示意图,具体包括:
S1:获取单细胞测序数据;
在一个实施例中,单细胞测序数据是指对单个细胞进行基因测序所得的数据。这种技术可以用来获取单个细胞的基因表达谱和其他多细胞信息,以揭示细胞种群差异和细胞进化关系。通过对单个细胞的全基因组、转录基因组和表观基因组进行测序,可以揭示实质发生和进展所涉及的复杂异质机制,进一步改善疾病诊断、预后预测和药物治疗效果的监测。
S2:对所述单细胞测序数据进行数据预处理得到预处理后的数据;
在一个实施例中,所述数据预处理包括细胞过滤、数据标准化、选择高变基因、聚类、非线性降维;其中,所述细胞过滤的标准包括排除小于n个细胞中检测到的基因,n为大于等于1的自然数,排除总检测基因书少于预设阈值的细胞,线粒体表达基因大于等于预设阈值的细胞。
在一个具体实施例中,进行数据预处理的步骤包括:
①利用R语言的Seurat包CreateSeuratObject对单细胞测序数据进行处理,首先构建Seurat对象。
②数据预处理(质控):根据基因的表达量、细胞数及线粒体基因表达力量等特征,对细胞进行一个初步的过滤。
过滤标准:
1)排除<3个细胞中检测到的基因;
2)排除总检测基因数少于50个的细胞;
3)线粒体表达基因≥5%的细胞被排除。
③数据标准化:利用“LogNormalize”方法对数据进行标准化。
④选择高变基因:利用"vst"方法提取出细胞间变异系数较大的基因,并基于这些数据进行下游分析。
⑤聚类:对选出的2000个高变基因进行PCA降维去噪处理,选择有意义的PCA进行后续分析。
⑥t-SNE/UMAP进行非线性降维。
S3:对所述预处理后的数据进行聚类得到聚类簇数据;
在一个实施例中,聚类是一种数据分析技术,它涉及到将物理或抽象对象的集合分成由类似的对象组成的多个类。聚类过程可以根据某个特定的标准(如距离),将一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇内的数据对象的差异性也尽可能大。这种技术的目的是发现数据中的内在分布结构,并且可以作为一个单独的过程或者其他学习任务的前驱过程。聚类分析又称群分析,它涉及到的分类问题是自然科学和社会科学中大量存在的。聚类算法是一种无监督学习方法,其目的是将数据集中的样本分成若干个互不相交的子集,每个子集称为一个簇。
在一个实施例中,所述聚类采用下列的一种或几种:K-means聚类、DBSCAN聚类、谱聚类、拉普拉斯映射聚类、GMM聚类、MeanShift均值迁移聚类、高斯混合聚类、密度聚类、层次聚类、OPTICS聚类、BIRCH聚类、CLARA聚类、PAM聚类、CURE聚类。
在一个实施例中,K-means聚类是一种无监督学习方法,属于典型的聚类分析方法。它按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据尽可能接近,类别间的数据相似度比较大。K-means聚类中,K表示类别数,means表示均值,K一般由人工来指定,或通过层次聚类的方法获得数据的类别数量作为选择K值的参考。选择较大的K可以降低数据的误差,但会增加过拟合的风险。
K-means聚类的算法原理如下:
1创建K个点作为初始质心(通常是随机选择)。
2当任意一个点的簇分类结果发生改变时,对数据的每一个点,计算每一个质心与该数据点的距离,将数据点分配到距其最近的簇。
3对于每一个簇,计算簇中所有点的均值并将均值作为质心。
4算法停止条件为:所有的点类别划分都不再改变为止。
S4:将所述聚类簇数据与构建好的细胞和/或组织特异性信息数据库中的各个类别簇进行相关性计算得到与聚类簇数据最接近簇的类别;
在一个实施例中,相关性系数是反映两个变量之间相关关系密切程度的统计指标,通常以积差方法计算。它以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。相关性系数介于-1和1之间,其中1表示完全正相关,-1表示完全负相关,0表示无线性关系。
在一个实施例中,组织特异性信息数据库是一种用于存储和查询特定组织或细胞类型基因表达数据的数据库。这些数据库通常由实验验证的基因表达数据组成,可以用于研究特定组织或细胞类型中基因的表达模式和功能。
一些组织特异性信息数据库包括:
TiED:人类增强子数据库,提供了10种不同组织中的增强子表进行定量和分析,可以鉴定增强子的组织特异性。
Human Protein Atlas:提供人类蛋白质组学的数据,包括组织特异性的基因表达数据。
Genevisible:提供了人类、小鼠和大鼠的基因表达数据,可以根据组织类型进行查询和分析。
Expression Atlas:提供了来自各种组织和细胞类型的基因表达数据,可以根据实验条件和组织类型进行查询和分析。
这些数据库提供了不同的查询和分析功能,可以帮助研究人员了解特定组织或细胞类型中基因的表达模式和功能,为研究疾病、生物过程和药物作用机制等提供重要的信息。
在一个实施例中,本发明基于组织特异性信息数据库通过卷积神经网络重新进行数据分簇得到各个细胞簇的特异性信息数据库,具体的过程包括:
数据预处理:首先需要对组织特异性信息数据库中的数据进行预处理,包括数据清洗、标准化、去除噪声等步骤,以准备输入到卷积神经网络中。
特征提取:使用卷积神经网络进行特征提取,从数据中学习到更高级的特征表示。这些特征可以反映数据的内在规律和结构。
聚类分析:基于提取的特征使用聚类算法(如K-means、谱聚类等)进行重新分簇。
模型评估和优化:对聚类结果进行评估和优化,使用常用的聚类评估指标(如轮廓系数、Calinski-Harabasz指数等)来衡量聚类效果的好坏。如果效果不理想,调整卷积神经网络的参数或修改聚类算法的参数进行优化。
由于组织特异性信息数据库中的数据通常是高维的,因此在使用卷积神经网络进行特征提取时需要注意处理高维数据的方法和技术。
在一个实施例中,卷积神经网络(CNN)在处理高维数据时,采用以下几种方法:
激活函数:非线性操作可以通过激活函数来实现。常用的激活函数包括sigmoid、tanh、ReLU等。它们可以通过弯曲或扭曲来提升数据的表征能力。
批量归一化:在训练过程中,使用批量归一化可以减少训练过程中的不稳定性。它通过对每一批数据进行归一化处理,将数据转化为具有相同分布的标准化数据,从而使得训练更加稳定。
池化操作:池化操作是一种降采样操作,它可以在小区域内采取一个特定的值作为输出值。常用的池化操作包括最大池化、平均池化和范数池化等。池化操作可以减少数据的维度和计算量,同时保留重要特征。
注意力机制:注意力机制可以增强模型对输入数据中重要特征的关注度。它可以对输入数据进行加权处理,使得模型更加关注重要的特征信息。
在一个实施例中,S4和S5的过程还能通过SingleR包进行单细胞样本类别注释,所述SingleR包中的数据库分为人类数据库和小鼠数据库。
在一个具体实施例中,现有SingleR自带的7个内置参考数据集,其中5个是人类数据,2个是小鼠的数据。
在一个实施例中,所述S3与S4的过程还能通过训练好的分类模型进行单细胞测序数据分类得到分类结果,根据所述分类结果对单细胞样本进行类别注释。
在一个实施例中,所述分类模型包括下列的一种或几种:卷积神经网络、空洞卷积神经网络、朴素贝叶斯、极限学习机、支持向量机、随机森林、决策树、XGBoost、KNN。
在一个实施例中,所述训练好的分类模型的训练过程包括:
获取单细胞样本及标签;
对所述单细胞样本及标签进行数据预处理得到预处理后的数据;
将所述预处理后的数据输至分类模型中进行特征提取得到特征矩阵,基于所述特征矩阵进行分类得到单细胞样本分类结果。
在一个实施例中,所述单细胞样本数据是基因表达矩阵,所述基因表达矩阵的行表示基因表达,列表示样本名;所述标签是单细胞样本数据中样本名对应的细胞类型。
在一个实施例中,所述细胞和/或组织聚类通过无监督聚类方式进行各个类别的细胞和/或组织聚类得到各个类别簇;
优选地,采用有监督分类算法进行细胞和/或组织聚类得到各个类别簇。
在一个具体实施例中,采用改进的卷积神经网络模型(包括卷积层、低秩注意力模块、全连接层)进行单细胞类别分类/分簇,基因表达矩阵以热力图的形式作为模型输入数据,设输入的基因表达矩阵图数据Img,其中IMGm表示图像数据像素的长,IMGn表示图像数据像素的宽。
首先,将基因表达矩阵图像数据Img输入到三层卷积层,对于每一卷积层,设定的核的大小为k×k,步长为s,填充为p。对于输入数据I和卷积核K,卷积操作可以定义为:
则,在本实施例中,第一卷积层的卷积核和输出特征图尺寸为:
核大小:k1×k1
输出特征图尺寸:
第二卷积层的卷积核和输出特征图尺寸为:
核大小:k2×k2
输出特征图尺寸:
第三卷积层的卷积核和输出特征图尺寸为:
核大小:k3×k3
输出特征图尺寸:
在3层卷积层之后,将卷积特征输入到低秩注意力模块中。
卷积层输出的特征图作为低秩注意力模块的输入特征图,输入特征图依次经过1×1卷积、低秩注意力模块、两个归一化层得到处理后特征图,处理后特征图与输入特征图融合得到注意特征图。
在一个具体实施例中,低秩注意力模块的步骤包括:
设卷积层的输出特征图为G,参数设为以下形式:
同时,设数据的通道数为C,则G∈RH×W×C。进一步地,利用1×1卷积层进行通道降维,可得到降维的特征图为H×W×C′。继而利用因子分解双线性编码模块进行稀疏二阶统计量的计算。
具体的,因子分解双线性编码模块通过从特征对(mi,nj)中学习到一个具有b个原子的字典A,其中每一个原子均可以分解为低秩矩阵此时,编码系数cs可通过以下方式计算:
其中,ω为可调参数,s=1,2,…,C,∥∥1为L1范数算子,表示编码系数的第l个元素。Xl∈Rp×v,/>q是超参数,且v<<p。进一步地,因子分解双线性编码模块可以通过LASSO算法求解,即:
其中,为Hadamard积,且Q∈Rb×vb为固定的二值矩阵,X和Y是通过低秩矩阵X和Y计算得到的,其目的是为
了降低运算复杂度,计算方式可以表示为:
其中,和I为全1向量和矩阵,pl为P的第l列,其中P定义为:
通过上述求解,利用因子分解双线性编码模块求得的低秩特征向量可
以表示为:
其中,F∈R1×1×b是通过最大化操作,由遍历字典A中每个原子聚合得
到,且b<<C2。此时,低秩注意力模块的计算表达式为:
其中,Conv1×1()为1×1卷积操作,其目的是通过降维操作,完成对特征G通道信息的自动学习,有效地增强有价值特征信息的特征响应,抑制无价值特征信息的特征响应。σ(·)为sigmoid激活函数,为特征图通道乘法。进一步地,本发明引入逐像素归一化层增强特征的可判别性,主要
包括符号平方根归一化层和l2归一化层,具体计算方式为:
其中,为G特征向量的第i行第j列个特征描述子,sign(·)为符号函数。即,当时,/>当/>时,/>当/>时,/>κ为一个小整数,以保证算式有意义。
进一步地,将归一化后的特征G″与基因表达矩阵数据进行融合,融合方式为输入到预设的全连接神经网络中进行非线性映射,且该全连接神经网络的输出为融合后的特征。其中,卷积层、低秩注意力模块、全连接神经网络的训练方式采用改进的鲸鱼算法进行参数的优化。
在一个具体实施例中,传统的鲸鱼算法是一种启发式的全局优化算法,其灵感来源于座头鲸的捕食行为。鲸鱼算法主要基于鲸鱼围绕猎物的螺旋捕食模型和追逐猎物的行为。本发明提出一种动态鲸鱼优化算法,即,在神经网络参数的优化过程中中,损失函数的最优值不是固定的。因此,动态鲸鱼优化算法中的猎物位置不是固定的,而是根据网络输出和期望输出之间的差异动态调整。此外,对于神经网络的复杂损失面、局部最小值和鞍点是常见问题,动态鲸鱼优化算法引入了一种新的局部搜索机制,允许鲸鱼在损失面上进行更细致的搜索。
在一个具体实施例中,动态鲸鱼优化算法大的算法流程如下:
1、初始化
随机初始化一个鲸鱼群体,每个鲸鱼的位置代表了神经网络的一组参数(权重和偏置)。同时,设定学习速率、探索因子、局部搜索半径等参数。具体的,鲸鱼的位置P代表神经网络的参数集合,包括权重和偏置,可以表示为:
P={w1,w2,...,wi,...,wn,b1,b2,...,bi,...,bm}
鲸鱼的速度V决定了它在搜索空间中的移动方向和幅度,可以表示为:
V={v1,v2,...,vi,...,vn,vb1,vb2,...,vbi,...,vbm}
其中,P为鲸鱼的位置;wi为第i个神经网络权重;bi为第i个神经网络偏置;V为鲸鱼的速度;vi和vbi为分别是权重和偏置的速度分量。
2、猎物位置评估
使用当前鲸鱼群体进行前向传播,计算损失函数的值。根据损失函数值确定当前最优的鲸鱼位置,该位置即为当前的猎物位置。为了评估神经网络的性能,本发明的损失函数L用于衡量神经网络的输出O与期望输出T之间的差异,可以表示为:
L=f(O,T)
其中,f是均方误差的损失函数。
进一步地,在鲸鱼位置更新时,考虑鲸鱼当前位置P,猎物位置Pbest和一个随机位置Prand,更新鲸鱼位置的公式为:
Pnew=P+a×(Pbest-β×P)×V+(1-a)×(Prand-P)×V
其中,a是探索因子,控制了鲸鱼向猎物位置还是随机位置移动的倾向;β是在[0,1]范围内的随机数。
同时,在每次迭代时,鲸鱼的速度也进行更新,鲸鱼速度的更新是基于它向猎物或随机位置移动的方向和幅度,更新方式可以表示为:
Vnew=α×(Pbest-P)+(1-α)×(Prand-P)×η(t)
其中,α为一个介于0和1之间的权重因子;Pbest为猎物的位置,也就是在参数空间中当前找到的最佳位置;Prand为在参数空间中的一个随机位置。
进一步地,在每次迭代时,学习速率η(t)也进行动态更新,可以表示为:
其中,ηstart是初始学习速率,t是当前迭代次数,Tmax是最大迭代次数。η(t)为动态学习速率。
3、局部探索与全局搜索
对每个鲸鱼执行以下操作:
3.1、局部探索:根据设定的局部搜索半径,在当前鲸鱼位置附近进行随机搜索,寻找损失函数值更低的位置。在局部搜索中,对鲸鱼的当前位置P进行微小的扰动,可以表示为:
Plocal=P+δ×r
其中,δ是局部搜索半径,r是从[-1,1]范围随机选择的数。
3.2、全局搜索:利用当前的猎物位置,根据鲸鱼算法的原理更新鲸鱼位置,即向猎物位置移动。
4、信息共享与协作
在鲸鱼进行信息共享时,每个鲸鱼将其找到的最优解分享给其他鲸鱼。在鲸鱼进行协作调整时,根据邻近鲸鱼的信息,对当前鲸鱼位置进行微调,以提高群体的搜索效率。假设鲸鱼i想要向鲸鱼j靠近,则它的位置更新可以表示为:
Pi,new=Pi+γ(Pj-Pi)
其中,γ是一个因子,代表鲸鱼i朝向鲸鱼j的移动幅度。
5、动态调整策略
根据迭代次数和预定策略,动态调整探索因子,以平衡全局搜索和局部搜索的权重。考虑到迭代次数t最大迭代次数Tmax,动态调整探索因子a的设置方式可以表示为:
其中,astart和aend分别是探索因子的初始值和结束值。
进一步地,随着迭代次数的增加,减小学习速率,使算法逐渐收敛。
6、混沌扰动
在一定的迭代间隔后,对鲸鱼位置引入混沌扰动,以跳出可能的局部最优解,增强算法的全局搜索能力。混沌映射χ(x)基于逻辑映射进行定义,可以表示为:
χ(x)=μx(1-x)
其中,μ是一个参数,通常设为4。χ(x)为混沌映射函数。进一步地,用这个映射来扰动鲸鱼位置,可以表示为:
Pchaos=P+∈×(χ(P)-0.5)×ω
其中,∈是扰动强度,ω为鲸鱼权重。
7、多模态策略
选取损失函数值最低的一定比例的鲸鱼,将其标记为精英鲸鱼。进一步地,对精英鲸鱼执行精细的局部搜索,对其他鲸鱼执行全局搜索。也即,
在多模态策略中,对于精英鲸鱼,更加注重局部搜索,而对于其他鲸鱼,则更侧重于全局搜索。则定义权重ω:
8、收敛判断
如果满足预定的停止条件(达到最大迭代次数),则停止算法。
否则,返回步骤2。
动态鲸鱼优化算法迭代完成,即表示卷积层、低秩注意力模块、全连接神经网络训练完成。
在一个具体实施例中,将融合后的特征输入到分类器中进行分类。本发明提出一种基于改进量化和稀疏技术的高阶神经网络算法进行分类。传统的高阶神经网络中,每个神经元的计算不仅仅是简单的线性组合,而是引入了多个权重进行高阶组合。这极大的增加了神经网络的表达能力,但也带来了计算复杂度的提高。为了应对这个问题,本发明提出一种基于改进量化和稀疏技术的高阶神经网络算法,将权重量化为更低位宽的数值,如8位或16位,大大减少了模型的大小和计算量。此外,在神经网络中,许多权重的值非常接近于零,这些权重对于模型的输出贡献很小。基于这个观察,本发明引入稀疏技术,通过设置一个阈值,将小于这个阈值的权重设置为零,并在训练过程中,通过正则化技术保持这些权重为零,从而实现模型的稀疏化。
在一个具体实施例中,基于改进量化和稀疏技术的高阶神经网络算法的流程如下:
1、初始化网络结构
确定网络的深度、每层的宽度以及相应的高阶连接策略。对于每一个权重ew,量化其为Q(ew)。量化过程通常是对权重进行线性缩放,使其落入特定的范围,并对其进行离散化。在一个实施例中,设ew为原始权重,emax和emin分别为权重的最大值和最小值,ab为量化的位数(如8位或16位),则:
其中,round表示四舍五入,ew表示分类器中的权重。
2、权重量化
为每个权重选择一个量化级别,并将权重值按照这个量化级别进行近似。对于权重w,如果其绝对值小于某个阈值t,则设置为零,可以表示为:
进一步地,对于每个权重ew,量化误差∈可以表示为:
∈=ew-Q-1(Q(ew))
其中,Q-1是量化函数的逆函数,其将量化后的权重值转换回其原始范围。
3、权重稀疏化
为网络设置一个稀疏阈值,并将小于这个阈值的权重设置为零。
4、正向传播
输入样本,通过网络进行计算,得到预测值。对于输入eX和权重eW(量化和稀疏化后),输出eY可表示为:
eY=σ(eXeW+eb)
其中,σ为激活函数;eX表示输入到分类器的数据;eY表示真实的设备能耗标签;eb为分类器的偏置。
进一步地,激活函数σ是一个Sigmoid函数,具体表示为:
对于该激活函数的导数σ′(z),可以表示为:
其中,z是输入到激活函数的线性组合,即eXeW+eb。
5、计算损失
根据预测值和真实标签计算损失。在一个实施例中,使用均方误差损失函数,对于真实标签eL和预测值eY,损失J可表示为:
其中,N是样本数量;eLi表示通过模型预测的设备能耗标签;J代表损失函数,表示模型预测与真实标签之间的差异。
6、反向传播
根据损失函数计算每个权重的梯度,并对梯度进行修剪,使其不会超出预定的范围。则梯度g可表示为:
g=(eY-eL)·σ′(eXeW+eb)
其中,σ′是激活函数的导数。
进一步地,对于损失函数关于权重eW的梯度,可以表示为:
其中,eXT是输入数据的转置。
进一步地,对于偏置eb的更新,其梯度表示为:
7、权重更新
使用梯度下降或其他优化算法更新权重,则权重的更新公式为:
eWnew=eW-η·eg
进一步地,对于偏置的更新,其更新公式为:
其中,η是学习率,eWnew和ebnew为更新后的权重和偏置。
8、稀疏化调整
在每次权重更新后,检查权重值,将小于稀疏阈值的权重再次设置为零。
9、结束判定
如果满足预定的结束条件,如迭代次数达到预定值,或者损失值小于预定阈值,算法结束,否则返回步骤4。迭代完成后,即表示分类器模型训练完成。
利用分类器,得到最终输出类别。
S5:基于所述最接近簇的类别进行类别注释;
其中,所述组织特异性信息数据库中各个类别簇聚类的构建过程为:
获取组织细胞数据集;
基于分类模型对所述组织细胞数据集进行细胞聚类得到各个类别簇。
在一个实施例中,本发明的整体流程如图4所示,单细胞测序数据通过数据预处理后通过SingleR包进行分簇注释,当SingleR的分簇性能较差时,选择以下分簇路径:先进行聚类再计算相关性系数的分簇路径或采用分类模型的分簇路径,在得到分簇结果后进行单细胞类别注释。
在一个实施例中,本发明中得到分簇结果包括以下几种情况:
1.采用SingleR包得到的分簇结果及注释;
2.采用聚类+相关性系数计算得到的分簇结果及注释;
3.采用分类模型进行分类得到的分簇结果及注释;
4.SingleR包的效果差,采用聚类+相关性系数得到分簇结果及注释;
5.SingleR包的效果差,采用分类模型进行分类得到的分簇结果及注释。
在一个实施例中,细胞和/或组织特异性信息库进行聚类结构如图5所示,细胞和/或组织特异性测序数据选择无监督聚类方式或有监督分类算法分类得到各个类别的簇。
图2本发明实施例提供的一种单细胞类别分簇***示意图,具体包括:
数据获取单元:获取单细胞测序数据;
数据预处理单元:对所述单细胞测序数据进行数据预处理得到预处理后的数据;
数据聚类单元:对所述预处理后的数据进行聚类得到聚类簇数据;
数据计算单元:将所述聚类簇数据与构建好的细胞和/或组织特异性信息数据库中的各个类别簇进行相关性计算得到与聚类簇数据最接近簇的类别;
数据注释单元:基于所述最接近簇的类别进行类别注释;
其中,所述细胞和/或组织特异性信息数据库中各个类别簇聚类的构建过程为:
获取细胞和/或组织特异性测序数据集及标签;
对所述细胞和/或组织特异性测序数据集及标签进行细胞聚类得到各个类别簇。
图3本发明实施例提供的一种单细胞类别分簇设备示意图,具体包括:
存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行任意一项上述的一种单细胞类别分簇方法。
一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行时任意一项上述的一种单细胞类别分簇方法。
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以改善本方法的性能。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的介质存储可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种单细胞类别分簇方法,其特征在于,所述方法具体包括:
S1:获取单细胞测序数据;
S2:对所述单细胞测序数据进行数据预处理得到预处理后的数据;
S3:对所述预处理后的数据进行聚类得到聚类簇数据;
S4:将所述聚类簇数据与构建好的细胞和/或组织特异性信息数据库中的各个类别簇进行相关性计算得到与聚类簇数据最接近簇的类别;
S5:基于所述最接近簇的类别进行类别注释;
其中,所述细胞和/或组织特异性信息数据库中各个类别簇聚类的构建过程为:
获取细胞和/或组织特异性测序数据集及标签;
对所述细胞和/或组织特异性测序数据集及标签进行细胞和/或组织聚类得到各个类别簇。
2.根据权利要求1所述的单细胞类别分簇方法,其特征在于,所述聚类采用下列的一种或几种:K-means聚类、DBSCAN聚类、谱聚类、拉普拉斯映射聚类、GMM聚类、MeanShift均值迁移聚类、高斯混合聚类、密度聚类、层次聚类、OPTICS聚类、BIRCH聚类、CLARA聚类、PAM聚类、CURE聚类;
优选地,S4和S5的过程还能通过SingleR包进行单细胞样本类别注释,所述SingleR包中的数据库分为人类数据库和小鼠数据库。
3.根据权利要求1或2所述的单细胞类别分簇方法,其特征在于,所述S3与S4的过程还能通过训练好的分类模型进行单细胞测序数据分类得到分类结果,根据所述分类结果对单细胞样本进行类别注释。
4.根据权利要求3所述的单细胞类别分簇方法,其特征在于,所述分类模型包括下列的一种或几种:卷积神经网络、空洞卷积神经网络、朴素贝叶斯、极限学习机、支持向量机、随机森林、决策树、XGBoost、KNN。
5.根据权利要求3所述的单细胞类别分簇方法,其特征在于,所述训练好的分类模型的训练过程包括:
获取单细胞样本及标签;
对所述单细胞样本及标签进行数据预处理得到预处理后的数据;
将所述预处理后的数据输至分类模型中进行特征提取得到特征矩阵,基于所述特征矩阵进行分类得到单细胞样本分类结果;
优选地,所述单细胞样本是基因表达矩阵,所述基因表达矩阵的行表示基因表达,列表示样本名;所述标签是单细胞样本数据中样本名对应的细胞类型。
6.根据权利要求1所述的单细胞类别分簇方法,其特征在于,所述细胞和/或组织聚类通过无监督聚类方式进行各个类别的细胞和/或组织聚类得到各个类别簇;
优选地,采用有监督分类算法进行细胞和/或组织聚类得到各个类别簇。
7.根据权利要求1或5所述的单细胞类别分簇方法,其特征在于,所述数据预处理包括细胞过滤、数据标准化、选择高变基因、聚类、非线性降维;其中,所述细胞过滤的标准包括排除小于n个细胞中检测到的基因,n为大于等于1的自然数,排除总检测基因书少于预设阈值的细胞,线粒体表达基因大于等于预设阈值的细胞。
8.一种单细胞类别分簇***,其特征在于,包括:
数据获取单元:获取单细胞测序数据;
数据预处理单元:对所述单细胞测序数据进行数据预处理得到预处理后的数据;
数据聚类单元:对所述预处理后的数据进行聚类得到聚类簇数据;
数据计算单元:将所述聚类簇数据与构建好的细胞和/或组织特异性信息数据库中的各个类别簇进行相关性计算得到与聚类簇数据最接近簇的类别;
数据注释单元:基于所述最接近簇的类别进行类别注释;
其中,所述细胞和/或组织特异性信息数据库中各个类别簇聚类的构建过程为:
获取细胞和/或组织特异性测序数据集及标签;
对所述细胞和/或组织特异性测序数据集及标签进行细胞和/或组织聚类得到各个类别簇。
9.一种单细胞类别分簇设备,其特征在于,包括:
存储器与处理器,所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时实现权利要求1-7任意一项上述的一种单细胞类别分簇方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,包括:
所述计算机程序被处理器执行时实现权利要求1-7任意一项上述的一种单细胞类别分簇方法。
CN202311472879.5A 2023-11-07 2023-11-07 一种单细胞类别分簇方法、***、设备及计算机可读存储介质 Pending CN117520913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311472879.5A CN117520913A (zh) 2023-11-07 2023-11-07 一种单细胞类别分簇方法、***、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311472879.5A CN117520913A (zh) 2023-11-07 2023-11-07 一种单细胞类别分簇方法、***、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN117520913A true CN117520913A (zh) 2024-02-06

Family

ID=89750617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311472879.5A Pending CN117520913A (zh) 2023-11-07 2023-11-07 一种单细胞类别分簇方法、***、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117520913A (zh)

Similar Documents

Publication Publication Date Title
Yang et al. On hyperparameter optimization of machine learning algorithms: Theory and practice
Sun et al. Local-learning-based feature selection for high-dimensional data analysis
Sinkkonen et al. Clustering based on conditional distributions in an auxiliary space
Villani et al. Regression density estimation using smooth adaptive Gaussian mixtures
Osama et al. Gene reduction and machine learning algorithms for cancer classification based on microarray gene expression data: A comprehensive review
US20140310218A1 (en) High-Order Semi-RBMs and Deep Gated Neural Networks for Feature Interaction Identification and Non-Linear Semantic Indexing
CN107016261A (zh) 基于联合约束非负矩阵分解的差异表达基因辨识方法
US8326787B2 (en) Recovering the structure of sparse markov networks from high-dimensional data
Castelli et al. Supervised learning: classification
CN112699960A (zh) 基于深度学习的半监督分类方法、设备及存储介质
Singh et al. Digit recognition using single layer neural network with principal component analysis
Prabhakar et al. ENIC: Ensemble and nature inclined classification with sparse depiction based deep and transfer learning for biosignal classification
CN117520914A (zh) 一种单细胞分类方法、***、设备及计算机可读存储介质
Wei et al. Research and implementation of cancer gene data classification based on deep learning
Wang et al. Projected fuzzy C-means with probabilistic neighbors
CN114220164A (zh) 一种基于变分模态分解和支持向量机的手势识别方法
Parisapogu et al. 1-Dimensional convolution neural network classification technique for gene expression data
Hubin et al. Variational Inference for Bayesian Neural Networks under Model and Parameter Uncertainty
Iduseri et al. An efficient variable selection method for predictive discriminant analysis
CN117520913A (zh) 一种单细胞类别分簇方法、***、设备及计算机可读存储介质
US20220414433A1 (en) Automatically determining neural network architectures based on synaptic connectivity
Gille et al. Semi-supervised classification using a supervised autoencoder for biomedical applications
Aydın A class-driven approach to dimension embedding
Hasan et al. A Comparative Study of Hybrid Dimension Reduction Techniques to Enhance the Classification of High-Dimensional Microarray Data
US20230196059A1 (en) Attention-based brain emulation neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination