CN117520914A - 一种单细胞分类方法、***、设备及计算机可读存储介质 - Google Patents

一种单细胞分类方法、***、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN117520914A
CN117520914A CN202311472880.8A CN202311472880A CN117520914A CN 117520914 A CN117520914 A CN 117520914A CN 202311472880 A CN202311472880 A CN 202311472880A CN 117520914 A CN117520914 A CN 117520914A
Authority
CN
China
Prior art keywords
classification
whale
cell
algorithm
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311472880.8A
Other languages
English (en)
Inventor
王丹
***
郭静
李雨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Medintell Bioinformatic Technology Co Ltd
Original Assignee
Beijing Medintell Bioinformatic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Medintell Bioinformatic Technology Co Ltd filed Critical Beijing Medintell Bioinformatic Technology Co Ltd
Priority to CN202311472880.8A priority Critical patent/CN117520914A/zh
Publication of CN117520914A publication Critical patent/CN117520914A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及生物信息学领域,具体涉及一种单细胞分类方法、***、设备及计算机可读存储介质。包括获取单细胞测序样本数据;将所述单细胞测序样本数据输至训练好的分类模型中进行单细胞分类得到分类结果;其中,所述训练好的分类模型的训练过程为:获取样本数据集及标签;将所述样本数据集及标签进行数据预处理得到基因表达矩阵集,所述基因表达矩阵集,行表示基因表达情况,列表示样本名,所述标签为所述样本名对应的细胞类型;将所述基因表达矩阵集输至分类模型中依次进行特征提取和分类得到分类结果。本申请结合深度学习实现单细胞种类分类,有助于临床细胞的研究,具有很好临床价值。

Description

一种单细胞分类方法、***、设备及计算机可读存储介质
技术领域
本申请涉及生物信息学领域,具体涉及一种单细胞分类方法、***、设备及计算机可读存储介质。
背景技术
随着生物技术的发展,现在己经能够捕获单个细胞的基因表达数据。这些数据揭示了细胞间的异质性和复杂性,通过单细胞分类可以更准确地识别和区分不同类型的细胞,研究它们的特性和功能,从而深入了解细胞异质性的来源和机制;可以解析组织微环境中的不同细胞类型和状态,研究它们之间的相互作用和影响,从而更好地理解组织微环境的动态变化和调节机制;单个细胞表达谱的差异反映了细胞状态和功能的不同,可以发现新的细胞类型和功能,进一步拓展我们对生命现象的认识。同时,单细胞分类可以应用于临床诊断和治疗,例如,通过识别和区分不同类型的肿瘤细胞,可以为肿瘤诊断和治疗提供更准确和个性化的方案此外,单细胞分类还可以应用于移植医学、再生医学等领域,为临床实践提供更准确和可靠的信息。然而,如何对这些数据进行有效的分类和分析,以揭示细胞类型、状态和功能,是一个具有挑战性的问题。细胞类型和状态在生物体内是动态变化的,单细胞数据只能捕捉到某一时刻的状态,而不能反映细胞的全局状态和功能。这给细胞的准确分类带来了困难。另外,细胞类型的分类往往是非线性的,不能简单地通过阈值或边界来划分。这需要更复杂的算法和模型来处理这种非线性关系,增加了分类的难度。最后,由于技术的敏感性,数据中可能包含大量的噪声,这给分类模型的训练和准确性带来了挑战。
发明内容
针对上述问题,本发明结合深度学习技术提出一种单细胞分类方法,具体包括:获取单细胞测序样本数据;
将所述单细胞测序样本数据输至训练好的分类模型中进行单细胞分类得到分类结果;
其中,所述训练好的分类模型的训练过程为:
获取样本数据集及标签;
将所述样本数据集及标签进行数据预处理得到基因表达矩阵集,所述基因表达矩阵集,行表示基因表达情况,列表示样本名,所述标签为所述样本名对应的细胞类型;
将所述基因表达矩阵集输至分类模型中依次进行特征提取和分类得到分类结果。
进一步,所述特征提取采用神经网络进行提取单细胞特征,其中,所述神经网络由卷积模块、低秩注意力模块、全连接模块组成,单细胞样本数据依次经过卷积模块、低秩注意力模块后得到注意特征,所述注意特征与所述单细胞样本数据进行融合得到融合特征,所述融合是通过全连接模块进行非线性映射得到的;
优选地,所述低秩注意力模块通过一维卷积进行特征降维得到降维后的特征,对所述降维后的特征进行稀疏二阶统计量的计算得到低秩特征向量,所述低秩特征向量与所述低秩注意力模块的输入向量融合得到注意特征;其中,所述稀疏二阶统计量是基于因子分解双线性编码完成的;
优选地,采用逐像素归一化层增强注意特征的可判别性,所述归一化包括符号平方根归一化层、l2归一化层。
进一步,低秩注意力模块G′的计算公式表示为:
其中,Conv1×1()为1×1卷积操作,卷积层的输出特征图为G,σ(·)为sigmoid激活函数,为特征图通道乘法,F为因子分解双线性编码模块求得的低秩特征向量。
所述神经网络采用优化算法优化神经网络的参数,所述优化算法采用下列的一种或几种:鲸鱼算法、模拟退火算法、鱼群算法、蚁群算法、小生境算法、遗传算法、晶体生长优化算法、食肉植物生长优化算法;
优选地,所述鲸鱼算法通过模拟鲸鱼狩猎行为得到神经网络参数的取值,每只鲸鱼在移动的时候对当前的鲸鱼种群计算适应度值,若适应度值优于之前的适应度值则设置为当前最优解,通过更新与迭代直至得到最终的解;
优选地,采用动态鲸鱼算法优化神经网络参数,所述动态鲸鱼算法中猎物的位置是基于网络输出和期望输出之间的差异动态调整得到的;通过计算损失函数值评估猎物位置后更新鲸鱼的位置与速度;其中,通过局部搜索寻找更小的损失函数,通过全局搜索向猎物位置移动;
优选地,根据迭代次数和预定策略,采用动态调整探索因子调整所述全局搜索和所述局部搜索的权重,所述动态调整探索因子a的公式表示为:
其中,astart和aend分别是探索因子的初始值和结束值,迭代次数t、最大迭代次数Tmax
进一步,所述动态鲸鱼算法在经过迭代后,对鲸鱼位置进行混沌扰动,所述混沌扰动来扰动鲸鱼位置P得到更新后的鲸鱼位置Pchaos的公式为:
Pchaos=P+∈×(χ(P)-0.5)×ω
其中,∈是扰动强度,ω为鲸鱼权重,χ()为混沌映射。
所述动态鲸鱼算法采用多模态策略增强局部搜索,所述多模态策略是将损失函数最小的鲸鱼标记为精英鲸鱼,所述精英鲸鱼侧重精细局部搜索,其他鲸鱼侧重全局搜索。
所述分类采用基于神经网络模型的分类器进行特征分类,将所述神经网络模型的权重进行量化,每个权重选择一个量化级别,并将权重值按照所述量化级别进行近似;其中,每一个权重ew的量化误差∈表示为:
∈=ew-Q-1(Q(ew))
其中,Q-1是量化函数的逆函数,Q()为量化函数。
优选地,所述神经网络模型通过稀疏技术稀疏化模型,所述稀疏技术是预设一个阈值,将小于阈值的权重设置为零。
本申请的目的在于提供一种单细胞分类***,包括:
数据获取单元:获取单细胞测序样本数据;
数据分类单元:将所述单细胞测序样本数据输至训练好的分类模型中进行单细胞分类得到分类结果;其中,所述训练好的分类模型的训练过程为:
获取样本数据集及标签;
将所述样本数据集及标签进行数据预处理得到基因表达矩阵集,所述基因表达矩阵集,行表示基因表达情况,列表示样本名,所述标签为所述样本名对应的细胞类型;
将所述基因表达矩阵集输至分类模型中依次进行特征提取和分类得到分类结果。
本申请的目的在于提供一种单细胞分类设备,包括:
存储器和处理器,所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时实现任意一项上述的一种单细胞分类方法。
本申请的目的在于提供一种计算机可读存储介质,其上存储有计算机程序,包括:
所述计算机程序被处理器执行时实现任意一项上述的一种单细胞分类方法。
本申请的优势:
1.采用了改进的卷积神经网络及低秩注意力模块为特征提取带来了优化,使得特征更加有区分度,其中因子分解双线性编码对特征进行稀疏二阶统计量的计算,而不是传统的注意力机制。这种结构具有低计算复杂性和高特征提取能力。
2.采用动态鲸鱼优化算法优化参数调整,与传统的鲸鱼算法不同,其引入了动态调整猎物位置和新的局部搜索机制,使得神经网络的参数优化更为高效,可以找到更好的参数组合,从而提高模型性能,提高了参数优化的效率和准确性。
3.采用了基于改进量化和稀疏技术的高阶神经网络模型算法,该算法不仅增加了神经网络的表达能力,还通过量化和稀疏化技术显著减少了模型的大小和计算量,使模型更适合在有限资源的环境中部署。
4.本申请的整体流程的设计目的是为了更准确地从输入数据中提取有价值的特征,并利用这些特征进行准确的分类。对于单细胞测序数据能够通过该方法实现单细胞种类的详细区分,有助于进行单细胞的异质性和复杂性,推动临床基础研究、临床应用研究,具有不可估量的临床研究价值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1为本发明实施例提供的一种单细胞分类方法流程示意图;
图2为本发明实施例提供的一种单细胞分类***示意图;
图3为本发明实施例提供的一种单细胞分类设备示意图;
图4为本发明实施例提供的神经网络结构示意图;
图5为本发明实施例提供的低秩注意力模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S101、S102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图1本发明实施例提供的一种单细胞分类方法示意图,具体包括:
S101:获取单细胞测序样本数据;
在一个实施例中,单细胞测序数据是指对单个细胞进行基因测序所得的数据。这种技术可以用来获取单个细胞的基因表达谱和其他多细胞信息以揭示细胞种群差异和细胞进化关系。通过对单个细胞的全基因组、转录基因组和表观基因组进行测序,可以揭示实病发生和进展所涉及的复杂异质机制,进一步改善疾病诊断、预后预测和药物治疗效果的监测。
单细胞测序数据的分析涉及多个步骤,包括数据准备、数据预处理、基因表达分析、细胞类型识别和差异分析等。这种数据分析可以帮助更深入地了解细胞的异质性和复杂性,以及在分子水平上解析组织和器官的功和发育。
S102:将所述单细胞测序样本数据输至训练好的分类模型中进行单细胞分类得到分类结果;其中,所述训练好的分类模型的训练过程为:
获取样本数据集及标签;
将所述样本数据集及标签进行数据预处理得到基因表达矩阵集,所述基因表达矩阵集,行表示基因表达情况,列表示样本名,所述标签为所述样本名对应的细胞类型;
将所述基因表达矩阵集输至分类模型中依次进行特征提取和分类得到分类结果。
在一个实施例中,基因表达矩阵是一种二维的统计表,它描述了细胞中基因在不同条件下的表达水平。这种矩阵通常由一行表示一个基因,而每一列则表示个样本(例如一种细胞或一个组织)。在矩阵中,每一个单元格都包含某基因在某样本中表达的数据,这些数据可以是基因表达活性的直接测量,也可以是基因表达状态的推断。基因表达矩阵可以作为生物体内某一特定环境或状态下基因的表达模式的综合评价指标,它可以帮助生物学家和医生了解大量的基因表达模式,以便更有效地检测特定的基因表达是否受到特定的条件或环境影影响,此外,基因表达矩阵还可以用来理解特定基因在不同生物体中发挥的功能,以及比较不同生物体中基因表达的相似性和差异。
在实际应用中,基因表达矩的分析方法可以帮助更深入地洞察基因表达信息网络的动态特征,以及更有效地检测癌症抗原表位、识别肿瘤细胞的抗药性标记,研究多种生物过程比遗传表达的调控、DNA甲基化的调控、基因突变的调控和免疫***的作用等。同时,基于基因表达矩阵的研究还可以用来设计新型药物或基因治疗,以及精细化治疗和预防各种疾病。
在一个实施例中,细胞类型包括但不限于:T细胞、NK细胞、B细胞、Pre-B细胞、树突状细胞、CD4幼稚细胞、CD8幼稚细胞、CD16+单核细胞、CD14+单核细胞、CD4记忆细胞、CD8效应细胞、双阴性T细胞、PDC、CDC、GMP、祖细胞、浆母细胞、髓样细胞、淋巴细胞、血浆细胞、纤维细胞、腔激素反应型细胞、腔分泌型细胞、基底肌上皮细胞。
在一个具体实施例中,在进行数据预处理时,根据基因的表达量、细胞数及线粒体基因表达力量等特征,对细胞进行一个初步的过滤,过滤标准:
1)排除<3个细胞中检测到的基因;
2)排除总检测基因数少于50个的细胞;
3)线粒体表达基因≥5%的细胞被排除。
进一步,利用“LogNormalize”方法对数据进行标准化,再利用″vst″方法提取出细胞间变异系数较大的基因。
进一步,对选出的1000-5000个高变基因进行PCA降维去噪处理,选择有意义的PCA进行后续分析,最后通过t-SNE/UMAP进行非线性降维。
在一个实施例中,所述神经网络由卷积模块、低秩注意力模块、全连接模块组成,单细胞样本数据依次经过卷积模块、低秩注意力模块后得到注意特征,所述注意特征与所述单细胞样本数据进行融合得到融合特征,所述融合是通过全连接模块进行非线性映射得到的;
在一个实施例中,所述低秩注意力模块通过一维卷积进行特征降维得到降维后的特征,对所述降维后的特征进行稀疏二阶统计量的计算得到低秩特征向量,所述低秩特征向量与所述低秩注意力模块的输入向量融合得到注意特征;其中,所述稀疏二阶统计量是基于因子分解双线性编码完成的;低秩注意力模块G′的计算公式表示为:
其中,Conv1×1()为1×1卷积操作,卷积层的输出特征图为G,σ(·)为sigmoid激活函数,为特征图通道乘法,F为因子分解双线性编码模块求得的低秩特征向量。
在一个实施例中,采用逐像素归一化层增强注意特征的可判别性,所述归一化包括符号平方根归一化层、l2归一化层。
在一个实施例中,所述神经网络采用优化算法优化神经网络的参数,所述优化算法采用下列的一种或几种:鲸鱼算法、模拟退火算法、鱼群算法、蚁群算法、小生境算法、遗传算法、晶体生长优化算法、食肉植物生长优化算法;
所述鲸鱼算法通过模拟鲸鱼狩猎行为得到神经网络参数的取值,每只鲸鱼在移动的时候对当前的鲸鱼种群计算适应度值,若适应度值优于之前的适应度值则设置为当前最优解,通过更新与迭代直至得到最终的解;
采用动态鲸鱼算法优化神经网络参数,所述动态鲸鱼算法中猎物的位置是基于网络输出和期望输出之间的差异动态调整得到的;通过计算损失函数值评估猎物位置后更新鲸鱼的位置与速度;其中,通过局部搜索寻找更小的损失函数,通过全局搜索向猎物位置移动;
根据迭代次数和预定策略,采用动态调整探索因子调整所述全局搜索和所述局部搜索的权重,所述动态调整探索因子a的公式表示为:
其中,astart和aend分别是探索因子的初始值和结束值,迭代次数t、最大迭代次数Tmax
进一步,所述动态鲸鱼算法在一定的迭代间隔后,对鲸鱼位置进行混沌扰动,所述混沌扰动来扰动鲸鱼位置P得到更新后的鲸鱼位置Pchaos的公式为:
Pchaos=P+∈×(χ(P)-0.5)×ω
其中,∈是扰动强度,v为鲸鱼权重,χ()为混沌映射。
所述动态鲸鱼算法采用多模态策略增强局部搜索,所述多模态策略是将损失函数最小的鲸鱼标记为精英鲸鱼,所述精英鲸鱼侧重精细局部搜索,其他鲸鱼侧重全局搜索。
在一个实施例中,所述分类采用基于神经网络模型的分类器进行特征分类,将所述神经网络模型的权重进行量化,每个权重选择一个量化级别,并将权重值按照所述量化级别进行近似;其中,每一个权重ew的量化误差∈表示为:
∈=ew-Q-1(Q(ew))
其中,Q-1是量化函数的逆函数,Q()为量化函数。
所述神经网络模型通过稀疏技术稀疏化模型,所述稀疏技术是预设一个阈值,将小于阈值的权重设置为零。
在一个具体实施例中,首先,利用改进的卷积神经网络对基因表达矩阵图进行特征提取,具体的,改进的卷积神经网络模型包括卷积层、低秩注意力模块、全连接层,如图4所示,基因表达矩阵图依次经过卷积层、低秩注意力模块得到的特征矩阵再与基因表达矩阵图通过全连接层进行融合后得到融合矩阵,融合矩阵通过分类器得到分类结果。
在一个具体实施例中,基因表达矩阵以热力图的形式作为模型输入数据,设输入的基因表达矩阵图数据Img,其中IMGm表示图像数据像素的长,IMGn表示图像数据像素的宽。
首先,将基因表达矩阵图像数据Img输入到三层卷积层,对于每一卷积层,设定的核的大小为k×k,步长为s,填充为p。对于输入数据I和卷积核K,卷积操作可以定义为:
则,在本实施例中,第一卷积层的卷积核和输出特征图尺寸为:
核大小:k1×k1
输出特征图尺寸:
第二卷积层的卷积核和输出特征图尺寸为:
核大小:k2×k2
输出特征图尺寸:
第三卷积层的卷积核和输出特征图尺寸为:
核大小:k3×k3
输出特征图尺寸:
在3层卷积层之后,将卷积特征输入到低秩注意力模块中。
在一个具体实施例中,本发明所提出的低秩注意力模块结构如图5所示,卷积层输出的特征图作为低秩注意力模块的输入特征图,输入特征图依次经过1×1卷积、低秩注意力模块、两个归一化层得到处理后特征图,处理后特征图与输入特征图融合得到注意特征图。
在一个具体实施例中,低秩注意力模块的步骤包括:
设卷积层的输出特征图为G,参数设为以下形式:
同时,设数据的通道数为C,则G∈RH×W×C。进一步地,利用1×1卷积层进行通道降维,可得到降维的特征图为H×w×C′。继而利用因子分解双线性编码模块进行稀疏二阶统计量的计算。
具体的,因子分解双线性编码模块通过从特征对(mi,nj)中学习到一个具有b个原子的字典A,其中每一个原子均可以分解为低秩矩阵XlYl T。此时,编码系数cs可通过以下方式计算:
其中,ω为可调参数,s=1,2,...,C,||||1为L1范数算子,表示编码系数的第l个元素。Xl∈Rp×v,Yl T∈Rv×q,q是超参数,且v<<p。进一步地,因子分解双线性编码模块可以通过LASSO算法求解,即:
cs=sign(c′s)⊙max(abs(c′s)-ω/2,0)
其中,c′s=Q(X,Tmi⊙Y,Tnj),⊙为Hadamard积,且Q∈Rb×vb为固定的二值矩阵,X,和Y,是通过低秩矩阵X和Y计算得到的,其目的是为
了降低运算复杂度,计算方式可以表示为:
其中,和I为全1向量和矩阵,pl为P的第l列,其中P定义为:
P=((Q(XTXQT⊙YTYQT))-1Q)T
通过上述求解,利用因子分解双线性编码模块求得的低秩特征向量可以表示为:
其中,F∈R1×1×b是通过最大化操作,由遍历字典A中每个原子聚合得
到,且b<<C2。此时,低秩注意力模块的计算表达式为:
其中,Conv1×1()为1×1卷积操作,其目的是通过降维操作,完成对特征G通道信息的自动学习,有效地增强有价值特征信息的特征响应,抑制无价值特征信息的特征响应。σ(·)为sigmoid激活函数,为特征图通道乘法。进一步地,本发明引入逐像素归一化层增强特征的可判别性,主要
包括符号平方根归一化层和l2归一化层,具体计算方式为:
其中,为G′特征向量的第i行第j列个特征描述子,sign(·)为符号函数。即,当时,/>当/>时,/>当/>时,/>K为一个小整数,以保证算式有意义。
进一步地,将归一化后的特征G″与基因表达矩阵数据进行融合,融合方式为输入到预设的全连接神经网络中进行非线性映射,且该全连接神经网络的输出为融合后的特征。其中,卷积层、低秩注意力模块、全连接神经网络的训练方式采用改进的鲸鱼算法进行参数的优化。
在一个具体实施例中,传统的鲸鱼算法是一种启发式的全局优化算法,其灵感来源于座头鲸的捕食行为。鲸鱼算法主要基于鲸鱼围绕猎物的螺旋捕食模型和追逐猎物的行为。本发明提出一种动态鲸鱼优化算法,即,在神经网络参数的优化过程中中,损失函数的最优值不是固定的。因此,动态鲸鱼优化算法中的猎物位置不是固定的,而是根据网络输出和期望输出之间的差异动态调整。此外,对于神经网络的复杂损失面、局部最小值和鞍点是常见问题,动态鲸鱼优化算法引入了一种新的局部搜索机制,允许鲸鱼在损失面上进行更细致的搜索。
在一个具体实施例中,动态鲸鱼优化算法大的算法流程如下:
1、初始化
随机初始化一个鲸鱼群体,每个鲸鱼的位置代表了神经网络的一组参数(权重和偏置)。同时,设定学习速率、探索因子、局部搜索半径等参数。具体的,鲸鱼的位置P代表神经网络的参数集合,包括权重和偏置,可以表示为:
P={w1,w2,...,wi,...,wn,b1,b2,...,bi,...,bm}
鲸鱼的速度V决定了它在搜索空间中的移动方向和幅度,可以表示为:
V={v1,v2,...,vi,...,vn,vb1,vb2,…,vbi,...,vbm}
其中,P为鲸鱼的位置;wi为第i个神经网络权重;bi为第i个神经网络偏置;V为鲸鱼的速度;vi和vbi为分别是权重和偏置的速度分量。
2、猎物位置评估
使用当前鲸鱼群体进行前向传播,计算损失函数的值。根据损失函数值确定当前最优的鲸鱼位置,该位置即为当前的猎物位置。为了评估神经网络的性能,本发明的损失函数L用于衡量神经网络的输出O与期望输出T之间的差异,可以表示为:
L=f(O,T)
其中,f是均方误差的损失函数。
进一步地,在鲸鱼位置更新时,考虑鲸鱼当前位置P,猎物位置Pbest和一个随机位置Prand,更新鲸鱼位置的公式为:
Pnew=P+a×(Pbest-β×P)×V+(1-a)×(Prand-P)×V
其中,a是探索因子,控制了鲸鱼向猎物位置还是随机位置移动的倾向;β是在[0,1]范围内的随机数。
同时,在每次迭代时,鲸鱼的速度也进行更新,鲸鱼速度的更新是基于它向猎物或随机位置移动的方向和幅度,更新方式可以表示为:
Vnew=a×(Pbest-P)+(1-a)×(Prand-P)×η(t)
其中,a为一个介于0和1之间的权重因子;Pbest为猎物的位置,也就是在参数空间中当前找到的最佳位置;Prand为在参数空间中的一个随机位置。
进一步地,在每次迭代时,学习速率η(t)也进行动态更新,可以表示为:
其中,ηstart是初始学习速率,t是当前迭代次数,Tmax是最大迭代次数。η(t)为动态学习速率。
3、局部探索与全局搜索
对每个鲸鱼执行以下操作:
3.1、局部探索:根据设定的局部搜索半径,在当前鲸鱼位置附近进行随机搜索,寻找损失函数值更低的位置。在局部搜索中,对鲸鱼的当前位置P进行微小的扰动,可以表示为:
Plocal=P+δ×r
其中,δ是局部搜索半径,r是从[-1,1]范围随机选择的数。
3.2、全局搜索:利用当前的猎物位置,根据鲸鱼算法的原理更新鲸鱼位置,即向猎物位置移动。
4、信息共享与协作
在鲸鱼进行信息共享时,每个鲸鱼将其找到的最优解分享给其他鲸鱼。在鲸鱼进行协作调整时,根据邻近鲸鱼的信息,对当前鲸鱼位置进行微调,以提高群体的搜索效率。假设鲸鱼i想要向鲸鱼j靠近,则它的位置更新可以表示为:
Pi,new=Pi+Y(Pi-Pi)
其中,γ是一个因子,代表鲸鱼i朝向鲸鱼j的移动幅度。
5、动态调整策略
根据迭代次数和预定策略,动态调整探索因子,以平衡全局搜索和局部搜索的权重。考虑到迭代次数t最大迭代次数Tmax,动态调整探索因子a的设置方式可以表示为:
其中,astart和aend分别是探索因子的初始值和结束值。
进一步地,随着迭代次数的增加,减小学习速率,使算法逐渐收敛。
6、混沌扰动
在一定的迭代间隔后,对鲸鱼位置引入混沌扰动,以跳出可能的局部最优解,增强算法的全局搜索能力。混沌映射χ(x)基于逻辑映射进行定义,可以表示为:
χ(x)=μx(1-x)
其中,μ是一个参数,通常设为4。χ(x)为混沌映射函数。进一步地,用这个映射来扰动鲸鱼位置,可以表示为:
Pchaos=P+∈×(χ(P)-0.5)×ω
其中,∈是扰动强度,ω为鲸鱼权重。
7、多模态策略
选取损失函数值最低的一定比例的鲸鱼,将其标记为精英鲸鱼。进一步地,对精英鲸鱼执行精细的局部搜索,对其他鲸鱼执行全局搜索。也即,在多模态策略中,对于精英鲸鱼,更加注重局部搜索,而对于其他鲸鱼,则更侧重于全局搜索。则定义权重ω:
8、收敛判断
如果满足预定的停止条件(达到最大迭代次数),则停止算法。
否则,返回步骤2。
动态鲸鱼优化算法迭代完成,即表示卷积层、低秩注意力模块、全连接神经网络训练完成。
在一个具体实施例中,将融合后的特征输入到分类器中进行分类。本发明提出一种基于改进量化和稀疏技术的高阶神经网络算法进行分类。传统的高阶神经网络中,每个神经元的计算不仅仅是简单的线性组合,而是引入了多个权重进行高阶组合。这极大的增加了神经网络的表达能力,但也带来了计算复杂度的提高。为了应对这个问题,本发明提出一种基于改进量化和稀疏技术的高阶神经网络算法,将权重量化为更低位宽的数值,如8位或16位,大大减少了模型的大小和计算量。此外,在神经网络中,许多权重的值非常接近于零,这些权重对于模型的输出贡献很小。基于这个观察,本发明引入稀疏技术,通过设置一个阈值,将小于这个阈值的权重设置为零,并在训练过程中,通过正则化技术保持这些权重为零,从而实现模型的稀疏化。
在一个具体实施例中,基于改进量化和稀疏技术的高阶神经网络算法的流程如下:
1、初始化网络结构
确定网络的深度、每层的宽度以及相应的高阶连接策略。对于每一个权重ew,量化其为Q(ew)。量化过程通常是对权重进行线性缩放,使其落入特定的范围,并对其进行离散化。在一个实施例中,设ew为原始权重,emax和emin分别为权重的最大值和最小值,ab为量化的位数(如8位或16位),则:
其中,round表示四舍五入,ew表示分类器中的权重。
2、权重量化
为每个权重选择一个量化级别,并将权重值按照这个量化级别进行近似。对于权重w,如果其绝对值小于某个阈值t,则设置为零,可以表示为:
进一步地,对于每个权重ew,量化误差∈可以表示为:
∈=ew-Q-1(Q(ew))
其中,Q-1是量化函数的逆函数,其将量化后的权重值转换回其原始范围。
3、权重稀疏化
为网络设置一个稀疏阈值,并将小于这个阈值的权重设置为零。
4、正向传播
输入样本,通过网络进行计算,得到预测值。对于输入eX和权重eW(量化和稀疏化后),输出eY可表示为:
eY=σ(eXeW+eb)
其中,σ为激活函数;eX表示输入到分类器的数据;eY表示真实的设备能耗标签;eb为分类器的偏置。
进一步地,激活函数σ是一个Sigmoid函数,具体表示为:
对于该激活函数的导数σ′(z),可以表示为:
σ′(z)=σ(z)·(1-σ(z))
其中,z是输入到激活函数的线性组合,即eXeW+eb。
5、计算损失
根据预测值和真实标签计算损失。在一个实施例中,使用均方误差损失函数,对于真实标签eL和预测值eY,损失J可表示为:
其中,N是样本数量;eLi表示通过模型预测的设备能耗标签;J代表损失函数,表示模型预测与真实标签之间的差异。
6、反向传播
根据损失函数计算每个权重的梯度,并对梯度进行修剪,使其不会超出预定的范围。则梯度g可表示为:
g=(eY-eL)·σ′(eXeW+eb)
其中,σ′是激活函数的导数。
进一步地,对于损失函数关于权重eW的梯度,可以表示为:
其中,eXT是输入数据的转置。
进一步地,对于偏置eb的更新,其梯度表示为:
/>
7、权重更新
使用梯度下降或其他优化算法更新权重,则权重的更新公式为:
eWnew=eW-η·eg
进一步地,对于偏置的更新,其更新公式为:
其中,η是学习率,eWnew和ebnew为更新后的权重和偏置。
8、稀疏化调整
在每次权重更新后,检查权重值,将小于稀疏阈值的权重再次设置为零。
9、结束判定
如果满足预定的结束条件,如迭代次数达到预定值,或者损失值小于预定阈值,算法结束,否则返回步骤4。迭代完成后,即表示分类器模型训练完成。
利用分类器,得到最终输出类别。
在一个实施例中,单细胞分类方法的方案包括下列的一种或几种:
1.采用基于低秩注意力模块的卷积神经网络提取特征+分类器进行分类;
2.采用基于动态鲸鱼优化算法的卷积神经网络提取特征+分类器进行分类;
3.采用卷积神经网络提取特征+基于改进量化和稀疏技术的分类器进行分类;
4.采用基于低秩注意力模块+动态鲸鱼优化算法的卷积神经网络提取特征+
分类器进行分类;
5.采用基于低秩注意力模块的卷积神经网络提取特征+基于改进量化和稀疏技术的分类器进行分类;
6.采用基于动态鲸鱼优化算法的卷积神经网络提取特征+基于改进量化和稀疏技术的分类器进行分类;
7.采用基于低秩注意力模块+动态鲸鱼优化算法的卷积神经网络提取特征+
基于改进量化和稀疏技术的分类器进行分类;
图2本发明实施例提供的一种单细胞分类***示意图,具体包括:
数据获取单元:获取单细胞测序样本数据;
数据分类单元:将所述单细胞测序样本数据输至训练好的分类模型中进行单细胞分类得到分类结果;其中,所述训练好的分类模型的训练过程为:
获取样本数据集及标签;
将所述样本数据集及标签进行数据预处理得到基因表达矩阵集,所述基因表达矩阵集,行表示基因表达情况,列表示样本名,所述标签为所述样本名对应的细胞类型;
将所述基因表达矩阵集输至分类模型中依次进行特征提取和分类得到分类结果。
图3本发明实施例提供的一种单细胞分类设备示意图,具体包括:
存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行任意一项上述的一种单细胞分类方法。
一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,
所述计算机程序被处理器执行时任意一项上述的一种单细胞分类方法。
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以改善本方法的性能。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的介质存储可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种单细胞分类方法,其特征在于,所述方法包括:
获取单细胞测序样本数据;
将所述单细胞测序样本数据输至训练好的分类模型中进行单细胞分类得到分类结果;
其中,所述训练好的分类模型的训练过程为:
获取样本数据集及标签;
将所述样本数据集及标签进行数据预处理得到基因表达矩阵集,所述基因表达矩阵集,行表示基因表达情况,列表示样本名,所述标签为所述样本名对应的细胞类型;
将所述基因表达矩阵集输至分类模型中依次进行特征提取和分类得到分类结果。
2.根据权利要求1所述的单细胞分类方法,其特征在于,所述特征提取采用神经网络进行提取单细胞特征,其中,所述神经网络由卷积模块、低秩注意力模块、全连接模块组成,单细胞样本数据依次经过卷积模块、低秩注意力模块后得到注意特征,所述注意特征与所述单细胞样本数据进行融合得到融合特征,所述融合是通过全连接模块进行非线性映射得到的;
优选地,所述低秩注意力模块通过一维卷积进行特征降维得到降维后的特征,对所述降维后的特征进行稀疏二阶统计量的计算得到低秩特征向量,所述低秩特征向量与所述低秩注意力模块的输入向量融合得到注意特征;其中,所述稀疏二阶统计量是基于因子分解双线性编码完成的;
优选地,采用逐像素归一化层增强注意特征的可判别性,所述归一化包括符号平方根归一化层、l2归一化层。
3.根据权利要求2所述的单细胞分类方法,其特征在于,低秩注意力模块G′的计算公式表示为:
其中,Conv1×1()为1×1卷积操作,卷积层的输出特征图为G,σ(·)为sigmoid激活函数,为特征图通道乘法,F为因子分解双线性编码模块求得的低秩特征向量。
4.根据权利要求2所述的单细胞分类方法,其特征在于,所述神经网络采用优化算法优化神经网络的参数,所述优化算法采用下列的一种或几种:鲸鱼算法、模拟退火算法、鱼群算法、蚁群算法、小生境算法、遗传算法、晶体生长优化算法、食肉植物生长优化算法;
优选地,所述鲸鱼算法通过模拟鲸鱼狩猎行为得到神经网络参数的取值,每只鲸鱼在移动的时候对当前的鲸鱼种群计算适应度值,若适应度值优于之前的适应度值则设置为当前最优解,通过更新与迭代直至得到最终的解;
优选地,采用动态鲸鱼算法优化神经网络参数,所述动态鲸鱼算法中猎物的位置是基于网络输出和期望输出之间的差异动态调整得到的;通过计算损失函数值评估猎物位置后更新鲸鱼的位置与速度;其中,通过局部搜索寻找更小的损失函数,通过全局搜索向猎物位置移动;
优选地,根据迭代次数和预定策略,采用动态调整探索因子调整所述全局搜索和所述局部搜索的权重,所述动态调整探索因子a的公式表示为:
其中,astart和aend分别是探索因子的初始值和结束值,迭代次数t、最大迭代次数Tmax
5.根据权利要求4所述的单细胞分类方法,其特征在于,所述动态鲸鱼算法在经过迭代后,对鲸鱼位置进行混沌扰动,所述混沌扰动来扰动鲸鱼位置P得到更新后的鲸鱼位置Pchaos的公式为:
Pchaos=P+∈×(χ(P)-0.5)×ω
其中,∈是扰动强度,ω为鲸鱼权重,χ()为混沌映射。
6.根据权利要求4所述的单细胞分类方法,其特征在于,所述动态鲸鱼算法采用多模态策略增强局部搜索,所述多模态策略是将损失函数最小的鲸鱼标记为精英鲸鱼,所述精英鲸鱼侧重精细局部搜索,其他鲸鱼侧重全局搜索。
7.根据权利要求1所述的单细胞分类方法,其特征在于,所述分类采用基于神经网络模型的分类器进行特征分类,将所述神经网络模型的权重进行量化,每个权重选择一个量化级别,并将权重值按照所述量化级别进行近似;其中,每一个权重ew的量化误差∈表示为:
∈=ew-Q-1(Q(ew))
其中,Q-1是量化函数的逆函数,Q()为量化函数。
优选地,所述神经网络模型通过稀疏技术稀疏化模型,所述稀疏技术是预设一个阈值,将小于阈值的权重设置为零。
8.一种单细胞分类***,其特征在于,包括:
数据获取单元:获取单细胞测序样本数据;
数据分类单元:将所述单细胞测序样本数据输至训练好的分类模型中进行单细胞分类得到分类结果;其中,所述训练好的分类模型的训练过程为:
获取样本数据集及标签;
将所述样本数据集及标签进行数据预处理得到基因表达矩阵集,所述基因表达矩阵集,行表示基因表达情况,列表示样本名,所述标签为所述样本名对应的细胞类型;
将所述基因表达矩阵集输至分类模型中依次进行特征提取和分类得到分类结果。
9.一种单细胞分类设备,其特征在于,包括:
存储器和处理器,所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时实现权利要求1-7任意一项上述的一种单细胞分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,包括:
所述计算机程序被处理器执行时实现权利要求1-7任意一项上述的一种单细胞分类方法。
CN202311472880.8A 2023-11-07 2023-11-07 一种单细胞分类方法、***、设备及计算机可读存储介质 Pending CN117520914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311472880.8A CN117520914A (zh) 2023-11-07 2023-11-07 一种单细胞分类方法、***、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311472880.8A CN117520914A (zh) 2023-11-07 2023-11-07 一种单细胞分类方法、***、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN117520914A true CN117520914A (zh) 2024-02-06

Family

ID=89741178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311472880.8A Pending CN117520914A (zh) 2023-11-07 2023-11-07 一种单细胞分类方法、***、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117520914A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118051808A (zh) * 2024-04-15 2024-05-17 应然优储生物科技(天津)有限公司 一种基于ai的细胞识别方法和***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118051808A (zh) * 2024-04-15 2024-05-17 应然优储生物科技(天津)有限公司 一种基于ai的细胞识别方法和***

Similar Documents

Publication Publication Date Title
Sun et al. Local-learning-based feature selection for high-dimensional data analysis
CN107016261B (zh) 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN112085059B (zh) 一种基于改进正余弦优化算法的乳腺癌图像特征选择方法
US8775345B2 (en) Recovering the structure of sparse markov networks from high-dimensional data
CN112699960A (zh) 基于深度学习的半监督分类方法、设备及存储介质
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN113743353B (zh) 空间、通道和尺度注意力融合学习的宫颈细胞分类方法
CN106682454A (zh) 一种宏基因组数据分类方法和装置
Nguyen et al. Deep learning for metagenomic data: using 2d embeddings and convolutional neural networks
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN112215259A (zh) 基因选择方法和装置
Routray et al. Ensemble Learning with Symbiotic Organism Search Optimization Algorithm for Breast Cancer Classification & Risk Identification of Other Organs on Histopathological Images
CN117253122B (zh) 玉米种子近似品种筛选方法、装置、设备及存储介质
CN114220164A (zh) 一种基于变分模态分解和支持向量机的手势识别方法
CN112908414A (zh) 一种大规模单细胞分型方法、***及存储介质
Salman et al. Gene expression analysis via spatial clustering and evaluation indexing
CN117520914A (zh) 一种单细胞分类方法、***、设备及计算机可读存储介质
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
US20220343134A1 (en) Convolutional neural network architectures based on synaptic connectivity
Ullah et al. Crow-ENN: An Optimized Elman Neural Network with Crow Search Algorithm for Leukemia DNA Sequence Classification
CN113177608A (zh) 一种针对不完整数据的近邻模型特征选择方法及装置
Berikov Autoencoder-based low-rank spectral ensemble clustering of biological data
Noori et al. Deep Feature Selection Model Based on Convolutional Neural Network and Binary Marine Predator Algorithm
Gower et al. Inference of population genetics parameters using discriminator neural networks: an adversarial Monte Carlo approach
CN117520913A (zh) 一种单细胞类别分簇方法、***、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination