CN116469473B - T细胞亚型鉴定的模型训练方法、装置、设备及存储介质 - Google Patents

T细胞亚型鉴定的模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116469473B
CN116469473B CN202310708381.8A CN202310708381A CN116469473B CN 116469473 B CN116469473 B CN 116469473B CN 202310708381 A CN202310708381 A CN 202310708381A CN 116469473 B CN116469473 B CN 116469473B
Authority
CN
China
Prior art keywords
cells
model
sequencing data
data
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310708381.8A
Other languages
English (en)
Other versions
CN116469473A (zh
Inventor
史植文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyin Oriental Transformation Medical Research Center Co ltd
Original Assignee
Beijing Zhiyin Oriental Transformation Medical Research Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyin Oriental Transformation Medical Research Center Co ltd filed Critical Beijing Zhiyin Oriental Transformation Medical Research Center Co ltd
Priority to CN202310708381.8A priority Critical patent/CN116469473B/zh
Publication of CN116469473A publication Critical patent/CN116469473A/zh
Application granted granted Critical
Publication of CN116469473B publication Critical patent/CN116469473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种T细胞亚型鉴定的模型训练方法、装置、设备及存储介质,涉及生物技术领域,方法包括:获取预先设置的建立模型的数据集;基于建立模型的数据集的测序数据对应的Marker基因的表达量,从建立模型的数据集中提取T细胞的测序数据;在T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;将第一对应关系和第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型。

Description

T细胞亚型鉴定的模型训练方法、装置、设备及存储介质
技术领域
本发明涉及生物技术领域,尤其涉及一种T细胞亚型鉴定的模型训练方法、装置、设备及存储介质。
背景技术
肿瘤特异性T细胞是识别和杀伤肿瘤的主要淋巴细胞;此外,肿瘤特异性T细胞的T细胞(抗原)受体(T cell receptor,TCR)的鉴定,还可以提供患者治疗的临床监测生物标志物,用于跟踪抗肿瘤免疫反应的临床疗效,深入研究肿瘤免疫治疗的生物学机制。
目前,鉴定肿瘤特异性T细胞的常规方法是离体T细胞功能测试。
但是,上述鉴定过程对实验室平台的要求很高,鉴定周期长;并且,会漏掉很大一部分肿瘤特异性T细胞,例如可能遗漏内源性病毒抗原的T细胞或无法在体外激活的最终耗竭的T细胞等,肿瘤特异性T细胞的鉴定准确性低。
发明内容
本发明提供一种T细胞亚型鉴定的模型训练方法、装置、设备及存储介质,用以解决现有技术中肿瘤特异性T细胞的鉴定对实验室平台的要求很高、鉴定周期长及鉴定准确性低的问题。
本发明提供一种T细胞亚型鉴定的模型训练方法,包括:
获取预先设置的建立模型的数据集;其中,所述建立模型的数据集至少包括肿瘤特异性T细胞的单细胞测序数据;
基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据;
在所述T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在所述T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;
将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型。
根据本发明提供的一种T细胞亚型鉴定的模型训练方法,所述获取预先设置的建立模型的数据集,包括:
获取预先设置的候选数据集;
对所述候选数据集的测序数据执行过滤操作后,得到所述建立模型的数据集;
其中,所述过滤操作包括以下步骤:
从所述候选数据集中,去除基因的检出数量小于第一阈值的测序数据;
从所述候选数据集中,去除特异性分子标签UMI的数量小于第二阈值的测序数据;
从所述候选数据集中,去除UMI的线粒体基因表达量比例大于第三阈值的测序数据;
从所述候选数据集中,去除双细胞对应的测序数据。
根据本发明提供的一种T细胞亚型鉴定的模型训练方法,所述基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据,包括:
基于所述建立模型的数据集的测序数据对应的Marker基因的表达量,从所述建立模型的数据集中提取第一候选测序数据;
从所述第一候选测序数据的高变基因中,去除T细胞受体基因和组织解离诱导基因,得到所述T细胞的测序数据。
根据本发明提供的一种T细胞亚型鉴定的模型训练方法,所述从所述第一候选测序数据的高变基因中,去除T细胞受体基因和组织解离诱导基因,得到所述T细胞的测序数据,包括:
从所述第一候选测序数据的高变基因中,去除所述T细胞受体基因和组织解离诱导基因,得到第二候选测序数据;
通过预先设置的SCTransform算法处理所述第二候选测序数据,得到所述T细胞的测序数据。
根据本发明提供的一种T细胞亚型鉴定的模型训练方法,所述将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型,包括:
通过极端梯度提升算法设定预先设置的第一候选模型的参数,得到初步鉴定模型;其中,所述参数包括以下至少一项:树的最大深度、学习率和采样百分比;
将预先设置的逻辑回归模型作为分类模型;
基于所述初步鉴定模型和所述分类模型,得到所述待训练模型。
根据本发明提供的一种T细胞亚型鉴定的模型训练方法,所述基于所述初步鉴定模型和所述分类模型,得到所述待训练模型,包括:
基于所述初步鉴定模型和所述分类模型,得到第二候选模型;
通过预先设置的10倍交叉验证算法,计算所述第二候选模型的目标超参数,基于所述目标超参数优化所述第二候选模型,得到所述待训练模型。
本发明还提供一种T细胞亚型鉴定的模型训练装置,包括:
获取模块,用于获取预先设置的建立模型的数据集;其中,所述建立模型的数据集至少包括肿瘤特异性T细胞的单细胞测序数据;
提取模块,用于基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据;
确定模块,用于在所述T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在所述T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;
训练模块,用于将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述T细胞亚型鉴定的模型训练方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述T细胞亚型鉴定的模型训练方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述T细胞亚型鉴定的模型训练方法。
本发明提供的T细胞亚型鉴定的模型训练方法、装置、设备及存储介质,相较于相关技术中通过离体T细胞功能测试来鉴定肿瘤特异性T细胞,存在对实验室平台的要求很高、鉴定周期长和鉴定准确性低的问题,通过本发明实施例训练得到的T细胞亚型鉴定模型鉴定肿瘤特异性T细胞,操作简单,分析效率高,有效降低了鉴定周期,并提高了肿瘤特异性T细胞的鉴定准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的T细胞亚型鉴定的模型训练方法的流程示意图之一;
图2是本发明提供的T细胞亚型鉴定的模型训练方法的流程示意图之二;
图3是本发明提供的T细胞亚型鉴定的模型训练方法中鉴定结果示例的示意图;
图4是本发明提供的T细胞亚型鉴定的模型训练方法中肿瘤特异性T细胞和其他T细胞克隆分布比例柱形图;
图5是本发明提供的T细胞亚型鉴定的模型训练方法中的受试者操作特征曲线图;
图6是本发明提供的T细胞亚型鉴定的模型训练方法中的精准召回曲线图;
图7是本发明提供的T细胞亚型鉴定的模型训练方法中的验证曲线图;
图8是本发明提供的T细胞亚型鉴定的模型训练装置的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图描述本发明的T细胞亚型鉴定的模型训练方法、装置、设备及存储介质。
图1是本发明提供的T细胞亚型鉴定的模型训练方法的流程示意图之一,如图1所示,T细胞亚型鉴定的模型训练方法包括步骤101至步骤104;其中:
步骤101、获取预先设置的建立模型的数据集;其中,所述建立模型的数据集至少包括肿瘤特异性T细胞的单细胞测序数据;
步骤102、基于所述建立模型的数据集的测序数据对应的标志(Marker)基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据;
步骤103、在所述T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在所述T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;
步骤104、将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型。
相关技术中,鉴定肿瘤特异性T细胞的常规方法是离体T细胞功能测试。这种筛选过程对实验室平台要求很高,检测周期长,并且,会漏掉很大一部分肿瘤特异性T细胞,例如识别内源性病毒抗原的T细胞或无法在体外激活的最终耗竭的T细胞。
上述不利因素大大限制了T细胞受体改造的T细胞过继疗法在临床中的应用。近年来,单细胞测序技术在研究肿瘤特异性T细胞的应用方面,逐渐揭示了肿瘤特异性T细胞的生物学特性,例如这些T细胞呈现较高的耗竭指数。这使得使用T细胞的单细胞转录组特征鉴定肿瘤特异性T细胞成为可能。
本发明实施例中,先获取包括肿瘤特异性T细胞的单细胞测序数据的建立模型的数据集;例如可以从已发表的公共数据库中下载建立模型的数据集。
可选地,肿瘤特异性T细胞可以包括CD8+ T细胞和CD4+ T细胞。
在获取建立模型的数据集后,可以基于建立模型的数据集中测序数据对应的Marker基因表达量,统计Marker基因的表达量并进行单细胞亚群分类,以从建立模型的数据集中提取出T细胞的测序数据。
在获取T细胞的测序数据后,对于每一个T细胞,根据其是否支持识别肿瘤的注释信息,可以分为肿瘤特异性T细胞和非肿瘤特异性T细胞,故本发明实施例判断T细胞的测序数据对应的细胞是否支持识别肿瘤的注释信息,以将T细胞的测序数据对应的细胞分类成肿瘤特异性T细胞或非肿瘤特异性T细胞,确定肿瘤特异性T细胞和与其对应的T细胞的测序数据之间的第一对应关系,以及非肿瘤特异性T细胞和与其对应的T细胞的测序数据之间的第二对应关系,进而将第一对应关系和第二对应关系作为训练数据,通过有监督学习的训练方式训练待训练模型,得到T细胞亚型鉴定模型。
可选地,可以将上述得到的第一对应关系和第二对应关系,作为输入数据集,其中包括70%数据量的训练集,其余30%的数据作为验证集。
可选地,还可以对训练好的T细胞亚型鉴定模型进行性能评估,例如计算鉴定的准确率、召回率、F值及受试者操作特性曲线(receiver operating characteristic curve,ROC)/AUC(Area Under Curve)曲线,其中,AUC曲线用于表征ROC曲线下与坐标轴围成的面积。
可选地,在得到T细胞亚型鉴定模型后,可以通过T细胞亚型鉴定模型鉴定肿瘤特异性T细胞,例如鉴定CD8+ T淋巴细胞。
在本发明实施例提供的T细胞亚型鉴定的模型训练方法中,先获取包括肿瘤特异性T细胞的单细胞测序数据的建立模型的数据集,以基于建立模型的数据集中测序数据对应的Marker基因表达量,从建立模型的数据集中提取出T细胞的测序数据,再判断T细胞的测序数据对应的细胞是否支持识别肿瘤的注释信息,以将T细胞的测序数据对应的细胞分类成肿瘤特异性T细胞或非肿瘤特异性T细胞,确定肿瘤特异性T细胞和与其对应的T细胞的测序数据之间的第一对应关系,以及非肿瘤特异性T细胞和与其对应的T细胞的测序数据之间的第二对应关系,进而将第一对应关系和第二对应关系作为训练数据,通过有监督学***台的要求很高、鉴定周期长和鉴定准确性低的问题,通过本发明实施例训练得到的T细胞亚型鉴定模型鉴定肿瘤特异性T细胞,操作简单,分析效率高,有效降低了鉴定周期,并提高了肿瘤特异性T细胞的鉴定准确性。
可选地,所述获取预先设置的建立模型的数据集的实现方式可以包括:
获取预先设置的候选数据集;
对所述候选数据集的测序数据执行过滤操作后,得到所述建立模型的数据集;
其中,所述过滤操作包括以下步骤:
1)从所述候选数据集中,去除基因的检出数量小于第一阈值的测序数据;
具体地,例如在单细胞中鉴定到的基因(gene)在小于3个细胞中被检测到时,可以从候选数据集中去除该细胞对应的测序数据。
2)从所述候选数据集中,去除特异性分子标签(Unique molecularidentifier,UMI)的数量小于第二阈值的测序数据;
具体地,在测序Counts数据异常的情况下,UMI的数量会小于第二阈值,例如单细胞中UMI的总数小于200,此时可以从候选数据集中去除该测序数据。
3)从所述候选数据集中,去除UMI的线粒体基因表达量比例大于第三阈值的测序数据;
具体地,在线粒体基因组比例过高的情况下,UMI的线粒体基因表达量比例会大于第三阈值,例如单细胞中UMI的线粒体基因表达量比例大于20%,此时可以从候选数据集中去除该测序数据。
4)从所述候选数据集中,去除双细胞对应的测序数据。
具体地,可以基于预先设置的DoubletFinder算法,分析候选数据集的测序数据中双细胞对应的测序数据,并去除双细胞对应的测序数据。
本发明实施例中,对候选数据集的测序数据进行质控,以过滤低质量细胞对应的测序数据,得到建立模型的数据集,可以有效提高训练数据的数据质量,进而提高训练得到的T细胞亚型鉴定模型的鉴定准确性。
可选地,所述基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据的实现方式可以包括:
基于所述建立模型的数据集的测序数据对应的Marker基因的表达量,从所述建立模型的数据集中提取第一候选测序数据;
从所述第一候选测序数据的高变基因中,去除T细胞受体基因和组织解离诱导基因,得到所述T细胞的测序数据。
具体地,在基于建立模型的数据集的测序数据对应的Marker基因的表达量,从建立模型的数据集中提取第一候选测序数据后,还可以对第一候选测序数据中的高变基因进行过滤,具体去除T细胞受体基因和组织解离诱导基因(或称为组织解离诱导基因),得到T细胞的测序数据。
需要说明的是,高变基因是指:在细胞与细胞之间进行比较时选择的表达量差别最大的基因,基于高变基因,有助于鉴别不同类型的细胞,提高肿瘤特异性T细胞的鉴定准确性。
可选地,所述从所述第一候选测序数据的高变基因中,去除T细胞受体基因和组织解离诱导基因,得到所述T细胞的测序数据的实现方式可以包括:
从所述第一候选测序数据的高变基因中,去除所述T细胞受体基因和组织解离诱导基因,得到第二候选测序数据;
通过预先设置的SCTransform算法处理所述第二候选测序数据,得到所述T细胞的测序数据。
具体地,在对第一候选测序数据的高变基因过滤后,还可以再通过预先设置的SCTransform算法处理测序数据,得到T细胞的测序数据;其中,SCTransform算法可以对测序数据进行缩放降维,并实现表达量均一化,去除测序深度影响,可以有效提高训练数据的数据质量,进而提高训练得到的T细胞亚型鉴定模型的鉴定准确性。
可选地,可以使用单细胞分析软件Seurat的SCTransform算法处理测序数据,以实现表达量均一化,去除测序深度影响。
可选地,所述将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型的实现方式可以包括:
通过极端梯度提升算法设定预先设置的第一候选模型的参数,得到初步鉴定模型;其中,所述参数包括以下至少一项:树的最大深度、学习率和采样百分比;
将预先设置的逻辑回归模型作为分类模型;
基于所述初步鉴定模型和所述分类模型,得到所述待训练模型。
具体地,可以使用极端梯度提升算法设定第一候选模型的参数,得到初步鉴定模型;设定的参数可以包括以下至少一项:树的最大深度、学习率和采样百分比;并选择逻辑回归模型作为分类模型;再基于初步鉴定模型和分类模型,得到待训练模型。本发明实施例提供了获取待训练模型的一种具体实现方式。
可选地,所述基于所述初步鉴定模型和所述分类模型,得到所述待训练模型的实现方式可以包括:
基于所述初步鉴定模型和所述分类模型,得到第二候选模型;
通过预先设置的10倍交叉验证算法,计算所述第二候选模型的目标超参数,基于所述目标超参数优化所述第二候选模型,得到所述待训练模型。
具体地,可以根据10倍交叉验证算法,计算模型最佳的超参数作为目标超参数,得到优化后的模型作为T细胞亚型鉴定模型,可以有效提高T细胞亚型鉴定模型的鉴定准确性。
下面举例说明本发明实施例提供的T细胞亚型鉴定的模型训练方法。
基于癌症患者的肿瘤手术切除样本、或穿刺样本中浸润淋巴细胞的单细胞转录组数据,所采用的检测样本易于获取。与常规鉴定肿瘤特异性T细胞的实验流程相比,本发明所建立的鉴定肿瘤特异性T细胞的T细胞亚型鉴定模型,大幅缩短了肿瘤特异性T细胞的鉴定周期和鉴定成本,分析结果表明99%的待测肿瘤浸润CD8+ T淋巴细胞均能够得到正确的分类。该鉴定方法操作简单,分析效率高;检测结果结合单细胞免疫组测序数据,还可以直接获得肿瘤特异性T细胞的T细胞受体序列信息,为后续进行工程化T细胞受体细胞治疗奠定基础。因此,实施本发明所提供的T细胞亚型鉴定的模型训练方法训练得到的T细胞亚型鉴定模型,可作为过继细胞疗法有效的筛选工具,从而广泛应用于肿瘤免疫治疗领域。
一、T细胞亚型鉴定的模型训练方法包括以下步骤:
S1、获取包含新抗原特异性CD8+ T细胞(肿瘤特异性T细胞)的单细胞测序数据集(建立模型的数据集),该数据集从已发表的公共数据库中下载;
S2、对建立模型的数据集中的单细胞转录组测序数据进行质控:根据每个单细胞中基因的检出数量、测序Counts数目及线粒体基因组的比例,去除单细胞测序数据中基因数量表达过多或过少、测序Counts数据异常和线粒体基因组比例过高的单细胞测序数据,同时过滤掉双细胞的单细胞测序数据;
具体地,对单细胞转录组测序数据进行质控,根据以下指标进行低质量细胞过滤处理:
1)单细胞中鉴定到的gene在小于3个细胞中被检测到;
2)单细胞中UMI的总数小于200;
3)单细胞中UMI的线粒体基因表达量比例大于20%;
4)根据DoubletFinder的分析结果,去除双细胞。
S3、基于质控过滤后的单细胞转录组测序数据,统计Marker基因的表达量并进行单细胞亚群分类,提取肿瘤浸润CD8+ T细胞的单细胞转录组测序数据;并对高变基因进行过滤,过滤掉T细胞受体基因和组织解离过程的诱导表达基因(组织解离诱导基因);
S4、对肿瘤浸润CD8+ T细胞的单细胞转录组测序数据进行缩放,具体使用单细胞分析软件Seurat的SCTransform算法,进行表达量均一化,去除测序深度影响;可以提取其中残差排名前1500的高变基因缩放数据以便后续使用;
可选地,可以基于表达量均值和方差的关系进行排名。
S5、每个CD8+ T细胞,根据是否识别肿瘤的注释信息,分为肿瘤特异性T细胞和非肿瘤特异性T细胞,再整合S4中高变基因缩放数据,作为机器学习模型(待训练模型)的输入数据集;
具体地,可以将输入数据集划分为包含70%数据量的训练集,其余30%数据作为验证集;
S6、使用极端梯度提升算法,设定初步鉴定模型的参数,包括树的最大深度,学习率,采样百分比,并选择逻辑回归模型做分类模型;
S7、根据10倍交叉验证技术,计算模型最佳的超参数,得到优化后的新抗原特异性CD8+ T细胞亚型鉴定模型;
S8、对建立的机器学习模型(T细胞亚型鉴定模型)进行性能评估,包括计算准确率、召回率、F值及ROC/AUC曲线。
二、图2是本发明提供的T细胞亚型鉴定的模型训练方法的流程示意图之二,如图2所示,包括以下几步:
1、肿瘤特异性T细胞数据收集;
2、测序数据质控及表达量定量;
3、注释CD8+ T细胞;
4、CD8+ T细胞表达矩阵数据清洗;
5、机器学习模型建立。
具体地,首先通过对收集到的原始数据(建立模型的数据集)进行数据过滤、比对、定量、鉴定回收细胞,得到CD8+ T细胞的基因表达矩阵(CD8+ T细胞的单细胞转录组测序数据),然后进行进一步的数据过滤、标准化和缩放,最后通过肿瘤特异性T细胞的机器学习算法(T细胞亚型鉴定模型),鉴定出新抗原特异性CD8+ T细胞;分析方法的具体步骤如下:
(1)数据质控:选取肿瘤组织单细胞测序数据,运用Seurat软件对单细胞测序数据进行质控过滤;
(2)CD8+ T细胞鉴定:基于质控过滤后的单细胞测序数据,统计Marker基因的表达量(CD3D,CD3G,CD8A,CD8B,CD45)进行CD8+ T细胞的鉴定,随后提取CD8+ T细胞的单细胞转录组测序数据;
(3)对CD8+ T细胞的单细胞转录组测序数据缩放及过滤:使用单细胞分析软件Seurat的SCTransform算法,进行表达量均一化,去除测序深度影响;对高变基因进行过滤,去除T细胞受体基因和组织解离诱导基因,提取其中排名前1500的高变基因缩放数据;
(4)将步骤(3)中的高变基因缩放数据,作为鉴定肿瘤特异性T细胞的机器学习模型(待训练模型)的输入数据集,进行鉴定,图3是本发明提供的T细胞亚型鉴定的模型训练方法中鉴定结果示例的示意图,如图3所示,通过统一流形逼近和投影(uniform manifoldapproximation and projection,UMAP)图,展示了肿瘤患者浸润CD8+ T细胞中新抗原特异性T细胞(即肿瘤特异性T细胞)的分布;
(5)根据鉴定出的新抗原特异性CD8+ T细胞的TCR序列信息,判定出其扩增情况,结果参见图4,图4是本发明提供的T细胞亚型鉴定的模型训练方法中肿瘤特异性T细胞和其他T细胞克隆分布比例柱形图。
另外,图5是本发明提供的T细胞亚型鉴定的模型训练方法中的受试者操作特征曲线图,如图5所示,受试者操作特征曲线图用于展示模型的特异性和灵敏度。
图6是本发明提供的T细胞亚型鉴定的模型训练方法中的精准召回曲线图,如图6所示,精准召回曲线用于展示模型的召回率和精准度。
图7是本发明提供的T细胞亚型鉴定的模型训练方法中的验证曲线图,如图7所示,验证曲线图用于显示模型不存在过拟合或欠拟合。
下面对本发明提供的T细胞亚型鉴定的模型训练装置进行描述,下文描述的T细胞亚型鉴定的模型训练装置与上文描述的T细胞亚型鉴定的模型训练方法可相互对应参照。
图8是本发明提供的T细胞亚型鉴定的模型训练装置的结构示意图,如图8所示,T细胞亚型鉴定的模型训练装置800包括:
获取模块801,用于获取预先设置的建立模型的数据集;其中,所述建立模型的数据集至少包括肿瘤特异性T细胞的单细胞测序数据;
提取模块802,用于基于所述建立模型的数据集的测序数据对应的标志(Marker)基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据;
确定模块803,用于在所述T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在所述T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;
训练模块804,用于将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型。
在本发明实施例提供的T细胞亚型鉴定的模型训练装置中,先由获取模块获取包括肿瘤特异性T细胞的单细胞测序数据的建立模型的数据集,以由提取模块基于建立模型的数据集中测序数据对应的Marker基因表达量,从建立模型的数据集中提取出T细胞的测序数据,再由确定模块判断T细胞的测序数据对应的细胞是否支持识别肿瘤的注释信息,以将T细胞的测序数据对应的细胞分类成肿瘤特异性T细胞或非肿瘤特异性T细胞,确定肿瘤特异性T细胞和与其对应的T细胞的测序数据之间的第一对应关系,以及非肿瘤特异性T细胞和与其对应的T细胞的测序数据之间的第二对应关系,进而由训练模块将第一对应关系和第二对应关系作为训练数据,通过有监督学***台的要求很高、鉴定周期长和鉴定准确性低的问题,通过本发明实施例训练得到的T细胞亚型鉴定模型鉴定肿瘤特异性T细胞,操作简单,分析效率高,有效降低了鉴定周期,并提高了肿瘤特异性T细胞的鉴定准确性。
可选地,获取模块801具体用于:
获取预先设置的候选数据集;
对所述候选数据集的测序数据执行过滤操作后,得到所述建立模型的数据集;
其中,所述过滤操作包括以下步骤:
从所述候选数据集中,去除基因的检出数量小于第一阈值的测序数据;
从所述候选数据集中,去除特异性分子标签UMI的数量小于第二阈值的测序数据;
从所述候选数据集中,去除UMI的线粒体基因表达量比例大于第三阈值的测序数据;
从所述候选数据集中,去除双细胞对应的测序数据。
可选地,提取模块802具体用于:
基于所述建立模型的数据集的测序数据对应的Marker基因的表达量,从所述建立模型的数据集中提取第一候选测序数据;
从所述第一候选测序数据的高变基因中,去除T细胞受体基因和组织解离诱导基因,得到所述T细胞的测序数据。
可选地,提取模块802还具体用于:
从所述第一候选测序数据的高变基因中,去除所述T细胞受体基因和组织解离诱导基因,得到第二候选测序数据;
通过预先设置的SCTransform算法处理所述第二候选测序数据,得到所述T细胞的测序数据。
可选地,训练模块804具体用于:
通过极端梯度提升算法设定预先设置的第一候选模型的参数,得到初步鉴定模型;其中,所述参数包括以下至少一项:树的最大深度、学习率和采样百分比;
将预先设置的逻辑回归模型作为分类模型;
基于所述初步鉴定模型和所述分类模型,得到所述待训练模型。
可选地,训练模块804还具体用于:
基于所述初步鉴定模型和所述分类模型,得到第二候选模型;
通过预先设置的10倍交叉验证算法,计算所述第二候选模型的目标超参数,基于所述目标超参数优化所述第二候选模型,得到所述待训练模型。
图9是本发明提供的电子设备的结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行T细胞亚型鉴定的模型训练方法,该方法包括:
获取预先设置的建立模型的数据集;其中,所述建立模型的数据集至少包括肿瘤特异性T细胞的单细胞测序数据;
基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据;
在所述T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在所述T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;
将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的T细胞亚型鉴定的模型训练方法,该方法包括:
获取预先设置的建立模型的数据集;其中,所述建立模型的数据集至少包括肿瘤特异性T细胞的单细胞测序数据;
基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据;
在所述T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在所述T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;
将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的T细胞亚型鉴定的模型训练方法,该方法包括:
获取预先设置的建立模型的数据集;其中,所述建立模型的数据集至少包括肿瘤特异性T细胞的单细胞测序数据;
基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据;
在所述T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在所述T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;
将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种T细胞亚型鉴定的模型训练方法,其特征在于,包括:
获取预先设置的建立模型的数据集;其中,所述建立模型的数据集至少包括肿瘤特异性T细胞的单细胞测序数据;
基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据;
在所述T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在所述T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;
将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型;
其中,所述基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据,包括:
基于所述建立模型的数据集的测序数据对应的Marker基因的表达量,从所述建立模型的数据集中提取第一候选测序数据;
从所述第一候选测序数据的高变基因中,去除T细胞受体基因和组织解离诱导基因,得到所述T细胞的测序数据。
2.根据权利要求1所述的T细胞亚型鉴定的模型训练方法,其特征在于,所述获取预先设置的建立模型的数据集,包括:
获取预先设置的候选数据集;
对所述候选数据集的测序数据执行过滤操作后,得到所述建立模型的数据集;
其中,所述过滤操作包括以下步骤:
从所述候选数据集中,去除基因的检出数量小于第一阈值的测序数据;
从所述候选数据集中,去除特异性分子标签UMI的数量小于第二阈值的测序数据;
从所述候选数据集中,去除UMI的线粒体基因表达量比例大于第三阈值的测序数据;
从所述候选数据集中,去除双细胞对应的测序数据。
3.根据权利要求1所述的T细胞亚型鉴定的模型训练方法,其特征在于,所述从所述第一候选测序数据的高变基因中,去除T细胞受体基因和组织解离诱导基因,得到所述T细胞的测序数据,包括:
从所述第一候选测序数据的高变基因中,去除所述T细胞受体基因和组织解离诱导基因,得到第二候选测序数据;
通过预先设置的SCTransform算法处理所述第二候选测序数据,得到所述T细胞的测序数据。
4.根据权利要求1所述的T细胞亚型鉴定的模型训练方法,其特征在于,所述将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型,包括:
通过极端梯度提升算法设定预先设置的第一候选模型的参数,得到初步鉴定模型;其中,所述参数包括以下至少一项:树的最大深度、学习率和采样百分比;
将预先设置的逻辑回归模型作为分类模型;
基于所述初步鉴定模型和所述分类模型,得到所述待训练模型。
5.根据权利要求4所述的T细胞亚型鉴定的模型训练方法,其特征在于,所述基于所述初步鉴定模型和所述分类模型,得到所述待训练模型,包括:
基于所述初步鉴定模型和所述分类模型,得到第二候选模型;
通过预先设置的10倍交叉验证算法,计算所述第二候选模型的目标超参数,基于所述目标超参数优化所述第二候选模型,得到所述待训练模型。
6.一种T细胞亚型鉴定的模型训练装置,其特征在于,包括:
获取模块,用于获取预先设置的建立模型的数据集;其中,所述建立模型的数据集至少包括肿瘤特异性T细胞的单细胞测序数据;
提取模块,用于基于所述建立模型的数据集的测序数据对应的标志Marker基因的表达量,从所述建立模型的数据集中提取T细胞的测序数据;
确定模块,用于在所述T细胞的测序数据对应的细胞支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与肿瘤特异性T细胞之间的第一对应关系;在所述T细胞的测序数据对应的细胞不支持识别肿瘤的注释信息的情况下,确定所述T细胞的测序数据与非肿瘤特异性T细胞之间的第二对应关系;
训练模块,用于将所述第一对应关系和所述第二对应关系作为训练数据,训练预先设置的待训练模型,得到T细胞亚型鉴定模型;
其中,所述提取模块具体用于:
基于所述建立模型的数据集的测序数据对应的Marker基因的表达量,从所述建立模型的数据集中提取第一候选测序数据;
从所述第一候选测序数据的高变基因中,去除T细胞受体基因和组织解离诱导基因,得到所述T细胞的测序数据。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述T细胞亚型鉴定的模型训练方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述T细胞亚型鉴定的模型训练方法。
CN202310708381.8A 2023-06-15 2023-06-15 T细胞亚型鉴定的模型训练方法、装置、设备及存储介质 Active CN116469473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310708381.8A CN116469473B (zh) 2023-06-15 2023-06-15 T细胞亚型鉴定的模型训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310708381.8A CN116469473B (zh) 2023-06-15 2023-06-15 T细胞亚型鉴定的模型训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116469473A CN116469473A (zh) 2023-07-21
CN116469473B true CN116469473B (zh) 2023-09-22

Family

ID=87181055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310708381.8A Active CN116469473B (zh) 2023-06-15 2023-06-15 T细胞亚型鉴定的模型训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116469473B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104195227A (zh) * 2008-11-07 2014-12-10 赛昆塔公司 通过序列分析监测状况的方法
CN111276252A (zh) * 2020-01-15 2020-06-12 北京吉因加科技有限公司 一种肿瘤良恶性鉴别模型的构建方法及装置
CN111315390A (zh) * 2017-09-05 2020-06-19 磨石肿瘤生物技术公司 用于t细胞疗法的新抗原鉴别
CN113160887A (zh) * 2021-04-23 2021-07-23 哈尔滨工业大学 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法
CN115798723A (zh) * 2023-01-18 2023-03-14 北京泽桥医疗科技股份有限公司 一种癌症复发风险预测模型构建方法
WO2023037164A2 (en) * 2021-09-10 2023-03-16 Immunoscape Pte Ltd Systems and methods for the identification of target-specific t cells and their receptor sequences using machine learning
CN115896242A (zh) * 2022-11-25 2023-04-04 绵溢(河北雄安)生物科技有限公司 一种基于外周血免疫特征的癌症智能筛查模型及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104195227A (zh) * 2008-11-07 2014-12-10 赛昆塔公司 通过序列分析监测状况的方法
CN111315390A (zh) * 2017-09-05 2020-06-19 磨石肿瘤生物技术公司 用于t细胞疗法的新抗原鉴别
CN111276252A (zh) * 2020-01-15 2020-06-12 北京吉因加科技有限公司 一种肿瘤良恶性鉴别模型的构建方法及装置
CN113160887A (zh) * 2021-04-23 2021-07-23 哈尔滨工业大学 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法
WO2023037164A2 (en) * 2021-09-10 2023-03-16 Immunoscape Pte Ltd Systems and methods for the identification of target-specific t cells and their receptor sequences using machine learning
CN115896242A (zh) * 2022-11-25 2023-04-04 绵溢(河北雄安)生物科技有限公司 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN115798723A (zh) * 2023-01-18 2023-03-14 北京泽桥医疗科技股份有限公司 一种癌症复发风险预测模型构建方法

Also Published As

Publication number Publication date
CN116469473A (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及***
US20030017481A1 (en) Methods for classifying samples and ascertaining previously unknown classes
CN111009286A (zh) 对宿主样本进行微生物分析的方法和装置
CN108319813A (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
CN108021788B (zh) 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN107208131A (zh) 用于肺癌分型的方法
CN110910950A (zh) 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法
CN114446389B (zh) 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用
CN107849613A (zh) 用于肺癌分型的方法
CN116580768B (zh) 一种基于定制化策略的肿瘤微小残留病灶检测方法
CN107463797B (zh) 高通量测序的生物信息分析方法及装置、设备及存储介质
CN113862351A (zh) 体液样本中鉴定胞外rna生物标志物的试剂盒及方法
WO2021080978A1 (en) Calculating cell-type rna profiles for diagnosis and treatment
CN111584064A (zh) 一种结、直肠癌转移预测***及其使用方法
CN112599190B (zh) 一种基于混合分类器来识别耳聋相关基因的方法
CN116469473B (zh) T细胞亚型鉴定的模型训练方法、装置、设备及存储介质
CN116385441B (zh) 一种基于mri对少突胶质细胞瘤进行风险分层的方法及***
CN117275585A (zh) 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备
CN112382341A (zh) 一种用于鉴定食管鳞癌预后相关的生物标志物的方法
CN109215736B (zh) 一种肠道病毒组的高通量检测方法及应用
Liu et al. TSDLPP: a novel two-stage deep learning framework for prognosis prediction based on whole slide histopathological images
KR20190114351A (ko) 비침습적 산전 검사에 의한 태아 염색체의 미세결실 또는 미세증폭의 확인 방법
CN113918786A (zh) 一种细胞亚型智能判定方法
CN110619926A (zh) 一种识别全部rna剪切位点的分析方法及分析***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant