CN117953965A - 一种肿瘤的分类预测方法、装置和电子设备 - Google Patents

一种肿瘤的分类预测方法、装置和电子设备 Download PDF

Info

Publication number
CN117953965A
CN117953965A CN202410112672.5A CN202410112672A CN117953965A CN 117953965 A CN117953965 A CN 117953965A CN 202410112672 A CN202410112672 A CN 202410112672A CN 117953965 A CN117953965 A CN 117953965A
Authority
CN
China
Prior art keywords
information
preset
gene expression
enrichment
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410112672.5A
Other languages
English (en)
Inventor
樊嘉
张道涵
梁宸
陆佳成
周俭
施国明
黄晓勇
郭晓军
孟献龙
胡舒阳
叶沐
裴晏梓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Hospital Fudan University
Original Assignee
Zhongshan Hospital Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Hospital Fudan University filed Critical Zhongshan Hospital Fudan University
Priority to CN202410112672.5A priority Critical patent/CN117953965A/zh
Publication of CN117953965A publication Critical patent/CN117953965A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请提供了一种肿瘤的分类预测方法、装置和电子设备,涉及生物信息技术领域,包括获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据;根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息;根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息;将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到所述待测用户的预测分类结果,本申请使用待测富集信息和待测通讯强度信息进行预测,提高了预测分类结果的可解释性和分类准确性,以便于为临床决策提供可靠的参考性意见。

Description

一种肿瘤的分类预测方法、装置和电子设备
技术领域
本发明涉及生物信息技术领域,尤其涉及一种肿瘤的分类预测方法、装置和电子设备。
背景技术
癌症疾病的分类是一个复杂的问题,需要综合考虑多种因素。随着高通量测序技术的发展,基因表达谱已经成为研究癌症的重要工具。
经典的机器学习算法例如逻辑回归、支持向量机分类算法、随机森林以及前馈神经网络都是直接根据样本的基因表达数据对样本进行分类与预测。
然而,基因表达数据中的基因之间存在复杂的相互作用和网络关系,而这些关系在传统的机器学习方法中并未得到充分考虑。因此,通过基因表达数据直接进行癌症组织分类时具有局限性及片面性,且分类准确率低。
兹提出一种肿瘤的分类预测方法、装置和电子设备。
发明内容
本说明书提供一种肿瘤的分类预测方法、装置和电子设备,通过待测富集信息和待测通讯强度信息进行预测,提高了预测的可解释性,将上述数据输入至肿瘤分类预测模型得到所述待测用户的预测分类结果,提高了分类准确性,以便于为临床决策提供可靠的参考性意见,以辅助专业人员的准确判断。
本申请提供的一种肿瘤的分类预测方法采用如下的技术方案,包括:
获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据;
根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息;
根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息;
将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到所述待测用户的预测分类结果。
可选的,所述获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据,包括:
获取所述待测用户的待测组织样本,对所述待测组织样本进行单细胞悬液制备,得到单细胞悬液;
根据所述单细胞悬液构建基因信息文库;
对所述基因信息文库进行高通量测序,得到原始测序数据;
对所述原始测序数据进行校正,得到校正后的测序数据;
基于所述校正后的测序数据,确定细胞与基因的表达关系,将所述表达关系的集合,作为所述细胞基因表达数据。
可选的,所述第一预设信息包括预设基因集和预设通路信息;
所述根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息,包括:
结合所述预设基因集和所述细胞基因表达数据中的表达关系,计算初始富集信息,所述初始富集信息包括细胞、预设基因集通路与初始富集评分之间的第一富集关联关系;
根据所述预设分群信息,对所述第一富集关联关系进行分类,确定细胞群、预设基因集通路与目标富集评分之间的第二富集关联关系;
根据所述预设通路信息,对所述第二富集关联关系进行筛选,收集包含降维通路的第二富集关联关系,作为所述待测富集信息。
可选的,第二预设信息包括若干个预设受体和若干个预设配体;
可选的,所述根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息,包括:
将所述细胞基因表达数据映射到蛋白-蛋白相互作用网络上,确定在所述细胞基因表达数据中,所述预设配体与所述预设受体之间的相关作用关系,作为受体-配体对水平;
通过所述受体-配体对水平计算细胞之间的通讯概率;
根据所述预设分群信息对细胞进行分群,结合所述通讯概率确定两个细胞群之间的目标通讯强度,汇总生成所述待测通讯强度信息。
可选的,所述将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到预测分类结果,包括:
将所述细胞群作为输入节点;
提取所述待测富集信息中的细胞群的目标富集评分,作为所述输入节点的节点特征;
提取待测通讯强度信息中的目标通讯强度作为两个所述输入节点之间的边权重;
对每一个所述输入节点进行图卷积操作,确定各个分类标签的预测概率;
筛选出符合预设条件的预测概率,将其对应的分类标签作为预测的分类标签输出,得到预测分类结果。
可选的,还包括:
根据确诊患者样本构建目标基因表达矩阵,所述确诊患者样本包括原始组织样本;
融合同一原始组织样本下的所有的目标基因表达矩阵,得到第一基因表达矩阵;
如果所述第一基因表达矩阵不具有批次效应,从所述第一基因表达矩阵中获取标记基因;
通过所述标记基因对细胞进行无监督聚类,得到预设分群信息,所述预设分群信息包括细胞群与细胞之间的对应关系。
本申请提供的一种肿瘤的分类预测***采用如下的技术方案,包括:
获取模块,用于获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据;
第一处理模块,用于根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息;
第二处理模块,用于根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息;
预测模块,用于将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到所述待测用户的预测分类结果。
可选的,所述获取模块,包括:
获取子模块,用于获取所述待测用户的待测组织样本,对所述待测组织样本进行单细胞悬液制备,得到单细胞悬液;
基因信息文库构建子模块,用于根据所述单细胞悬液构建基因信息文库;
测序子模块,用于对所述基因信息文库进行高通量测序,得到原始测序数据;
校正子模块,用于对所述原始测序数据进行校正,得到校正后的测序数据;
集合子模块,用于基于所述校正后的测序数据,确定细胞与基因的表达关系,将所述表达关系的集合,作为所述细胞基因表达数据。
可选的,所述第一预设信息包括预设基因集和预设通路信息;
所述第一处理模块,包括:
富集处理子模块,用于结合所述预设基因集和所述细胞基因表达数据中的表达关系,计算初始富集信息,所述初始富集信息包括细胞、预设基因集通路与初始富集评分之间的第一富集关联关系;
汇总子模块,用于根据所述预设分群信息,对所述第一富集关联关系进行分类,确定细胞群、预设基因集通路与目标富集评分之间的第二富集关联关系;
筛选子模块,用于根据所述预设通路信息,对所述第二富集关联关系进行筛选,收集包含降维通路的第二富集关联关系,作为所述待测富集信息。
可选的,第二预设信息包括若干个预设受体和若干个预设配体;
所述第二处理模块,包括:
映射子模块,用于将所述细胞基因表达数据映射到蛋白-蛋白相互作用网络上,确定在所述细胞基因表达数据中,所述预设配体与所述预设受体之间的相关作用关系,作为受体-配体对水平;
通讯概率处理子模块,用于通过所述受体-配体对水平计算细胞之间的通讯概率;
分群子模块,用于根据所述预设分群信息对细胞进行分群,结合所述通讯概率确定两个细胞群之间的目标通讯强度,汇总生成所述待测通讯强度信息。
可选的,所述预测模块,包括:
将所述细胞群作为输入节点;
第一提取子模块,用于提取所述待测富集信息中的细胞群的目标富集评分,作为所述输入节点的节点特征;
第二提取子模块,用于提取待测通讯强度信息中的目标通讯强度作为两个所述输入节点之间的边权重;
图卷积子模块,用于对每一个所述输入节点进行图卷积操作,确定各个分类标签的预测概率;
标签筛选子模块,用于筛选出符合预设条件的预测概率,将其对应的分类标签作为预测的分类标签输出,得到预测分类结果。
可选的,还包括:分群模块;
所述分群模块,包括:
矩阵构建子模块,用于根据确诊患者样本构建目标基因表达矩阵,所述确诊患者样本包括原始组织样本;
融合子模块,用于融合同一原始组织样本下的所有的目标基因表达矩阵,得到第一基因表达矩阵;
判断子模块,用于如果所述第一基因表达矩阵不具有批次效应,从所述第一基因表达矩阵中获取标记基因;
聚类子模块,用于通过所述标记基因对细胞进行无监督聚类,得到预设分群信息,所述预设分群信息包括细胞群与细胞之间的对应关系。
本说明书还提供一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一项方法。
本说明书还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项方法。
本申请中,通过获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据;根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息;根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息;将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到所述待测用户的预测分类结果,本申请使用待测富集信息和待测通讯强度信息进行预测,提高了预测分类结果的可解释性和分类准确性,以便于为临床决策提供可靠的参考性意见。
附图说明
图1为本说明书实施例提供的一种肿瘤的分类预测方法的原理示意图;
图2为本说明书实施例提供的一种肿瘤的分类预测***的结构示意图;
图3为本说明书实施例提供的一种电子设备的结构示意图;
图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。
图1为本说明书实施例提供的一种肿瘤的分类预测方法的原理示意图,该方法包括:
S2获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据;
S3根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息;
S4根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息;
S5将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到所述待测用户的预测分类结果。
以下以原发性肝肿瘤的分类预测为例,进行进一步说明:
原发性肝肿瘤可分为两大类:原发性肝癌和良性占位性病变。其中,原发性肝癌在2020年列全球第六大最常见癌症和第三大癌症死亡原因。肝良性占位性病变,包括血管平滑肌脂肪瘤(AML)、局灶性结节性增生(FNH)和肝腺瘤等,通常没有症状而不需要手术干预。
肝肿瘤的准确诊断对于肝肿瘤患者及时开展治疗和提高生存率至关重要。
目前,在肿瘤影像学检查上,主要是通过血清甲胎蛋白(AFP)结合影像学检查如彩超、磁共振成像(MRI)和/或计算机断层扫描(CT)等影像学检查,进行原发性肝癌的临床诊断。然而,尽管肝恶性肿瘤和良性病变之间通常明显的血清学标记、影像学特征等差异,但AFP诊断原发性肝癌的特异性只有39%,也就是说,部分患者可能由于呈现非典型的影像学特征,造成治疗延误。而且,影像诊断还需要借助训练有素的放射科医师。
在肿瘤病理学诊断上,可以通过肝病灶穿刺活检可明确病灶性质,实现肝癌分子分型,为明确肝肿瘤的诊断、指导治疗过程及判断预后提供有价值的信息。然而,肿瘤病理学诊断需要严格的条件,比如,需要足够的高质量组织标本和可识别的组织学特征。而且,病理诊断也需要经过严格训练的专业的病理学家。除此之外,在肿瘤病理学诊断过程中,苏木精-伊红(H&E)染色中观察到的一般组织学特征通常不足以确定肿瘤性质,通常需要免疫组织化学染色,这使得病理诊断变得更具挑战性和耗时。
为了进一步提高肿瘤的预测分类效果,现有技术还使用了单细胞RNA测序方法,基于基因表达数据计算肿瘤相关细胞类型的丰度,进而得到肿瘤的分类标签。然而,基因之间的相互作用和网络关系是复杂的,这使得简单依赖于基因表达谱进行癌症组织分类,具有明显的局限性,且准确性低。
基于此,为了提高预测的准确性以及分类的可解释性,本发明提出一种肿瘤的预测分类方法,其具体包括:
S1构建、训练和验证肿瘤分类预测模型;
为了提高肿瘤分类预测模型的鲁棒性,首先,S11构建模型训练数据;
S11-1根据确诊患者样本构建目标基因表达矩阵;
S11-1-1收集若干个确诊患者样本,确诊患者样本包括原始组织样本和与之对应的确诊标签;
在本说明书的一个实施例中,经过伦理委员会批准,在获得每位确诊患者的书面知情同意之后,收集接受了外科手术或活体穿刺的原发性肝肿瘤的确诊患者的肿瘤组织,作为原始组织样本。肿瘤组织是由多种不同类型的细胞组成的,这些细胞在基因表达、生长和分化等方面存在显著差异和多样性,因此,肿瘤组织具有高异质性。其中,肿瘤组织在术后90分钟内即被收集和处理。
确诊患者包括若干个肝细胞癌患者,若干个胆管细胞癌患者以及若干个局限性结节状增生患者。其中,肝细胞癌患者、胆管细胞癌患者为恶性原发性肝肿瘤患者,局限性结节状增生患者为良性原发性肝肿瘤患者。
每一确诊患者的原始组织样本对应一个确诊标签。确诊标签包括确诊患者的病因。
本发明的肿瘤分类预测模型可以预测肿瘤的良、恶性分类,也可以预测恶性肿瘤的具体癌种分类。可以根据实际情况收集确诊患者样本,调整确诊标签。
具体来说,如果要构建用于肿瘤的良、恶性分类的肿瘤分类预测模型,则肝细胞癌患者、胆管细胞癌患者的原始组织样本对应的确诊标签即为代表着恶性肿瘤的标签。局限性结节状增生患者对应的确诊标签即为代表着良性肿瘤的标签。
如果要构建用于恶性肿瘤的具体癌种分类的肿瘤分类预测模型,则肝细胞癌患者的原始组织样本对应的确诊标签即为代表着肝细胞癌的标签。胆管细胞癌患者的原始组织样本对应的确诊标签即为代表着胆管细胞癌的标签。局限性结节状增生患者对应的确诊标签代表着非恶性肿瘤的标签、或者空标签。由于局限性结节状增生为良性肿瘤,因此,在构建用于恶性肿瘤的具体癌种分类的肿瘤分类预测模型时,可以不使用局限性结节状增生患者的确诊患者样本参与该肿瘤分类预测模型的训练。
确诊标签的标签值可以使用数字/特定符合/特定文字,在此不作限定。后续的分类标签的表现形式也不作限定。
比如,可以使用“0”作为良性肿瘤对应的标签值,使用“1”作为恶性肿瘤对应的标签值。也可以直接使用“良性”字样作为良性肿瘤对应的标签值,使用“恶性”字样作为恶性肿瘤对应的标签值。
作为优选的,上述各类确诊患者的例数不要求相同。在本说明书的具体实施例中,获取25例确诊患者的原始组织样本,其中,确诊患者包括7例肝细胞癌患者,11例胆管细胞癌患者以及7例局限性结节状增生患者。
S11-1-2对原始组织样本分别进行单细胞悬液制备,得到原始组织样本对应的单细胞悬液。其中,每一个原始组织样本对应一份单细胞悬液。
本发明提供一种单细胞悬液制备的方法,其具体包括:
获取原始组织样本,使用10-20ml的细胞冲洗液来冲洗原始组织样本,剪去原始组织样本上的血块之后,得到经过预处理的原始组织样本,移除细胞冲洗液,并补充新鲜的细胞冲洗液;
从上述经过预处理的原始组织样本中选择结构完整的组织,加入5ml的组织解离液,用剪刀剪碎组织至1mm3大小,得到原始组织解离样本,其中,剪碎的原始组织样本浸泡在组织解离液中。其中,组织解离液是将0.1g的Ⅱ型胶原酶溶解于50ml的DMEM培养基中得到的。
在37℃的温度条件下对原始组织解离样本进行水浴摇床孵育20分钟,得到原始组织裂解样本;然后,使用70μm滤膜对原始组织裂解样本进行过滤,补加5ml的细胞清洗液清洗70μm滤膜,于冰上保存,得到原始组织滤过液。
在4℃的温度条件下对原始组织滤过液进行离心6分钟处理,得到离心后的原始组织滤过液。对离心后的原始组织滤过液做去除上清处理,然后沉淀重悬于10ml的细胞清洗液中,得到原始组织样本的重悬液;在4℃的温度条件下对原始组织样本的重悬液进行离心10分钟处理,得到原始组织样本的细胞重悬液;从中提取3ml的细胞重悬液重悬上述沉淀,制得原始组织样本对应的单细胞悬液。
其中,单细胞悬液的细胞存活率在85%以上,细胞浓度为700-1200cells/μl,以备进行10x Genomics ChromiumTM***上机。
S11-1-3对每一份原始组织样本对应的单细胞悬液分别进行测序,得到原始组织样本对应的测序数据。
具体的,基于10x Genomics平台,使用油滴凝胶珠从单细胞悬液中捕获单细胞,生成GEMs,完成单细胞分离;其中,每一个细胞包裹在单独的GEMs中,每一个细胞对应一个油滴,以便后续的分子操作。
生成GEMs之后,GEMs中的凝胶珠会逐渐溶解;当GEMs中的凝胶珠溶解时,其释放出所携带的barcode序列,细胞内的mRNA会与该GEMs中的barcode序列以及独特的分子标识符(UMI)结合,形成带有barcode序列和UMI的mRNA,使用PCR仪对mRNA进行反转录,得到cDNA;将反转录得到的cDNA进行标签化,得到带有barcode序列和UMI标记的cDNA,以便后续的分析能够准确识别和检测cDNA。
在反转录完成后,GEMs会被破碎,释放出带有barcode序列和UMI的cDNA;将包裹在油相中的油滴分离出来,然后使用磁珠对一链cDNA进行纯化和富集;磁珠能够特异结合cDNA,通过磁力将cDNA与其他杂质分离,通过去除其他杂质和不需要的核酸分子,提高后续准确性和灵敏度。
在去除杂质之后,对cDNA进行扩增和质检。将质检合格的cDNA进行建库。其中,将cDNA转化为适合测序的基因信息文库,这一过程包括片段化、连接测序接头、样本IndexPCR等步骤。在本说明书的一个实施例中,其具体包括:
①对cDNA进行片段化处理,得到若干个cDNA片段,即,cDNA分子会被打断成适合测序平台读取的长度;作为优选的,片段分布集中于300-700bp之间。
②对cDNA片段进行修饰,得到修饰后的cDNA片段;即,添加测序所需的接头和其他必要的序列;
③为单细胞悬液分配索引;即,为单细胞悬液分配一个独特的索引标签(Index),用于区分不同单细胞悬液对应的测序数据。
④对修饰后的cDNA片段进行PCR扩增;即,对每一索引标签对应的修饰后的cDNA片段进行PCR扩增,得到单细胞悬液对应的基因信息文库,基因信息文库中保存有确诊患者的cDNA片段。
⑤对基因信息文库进行质检,确保基因信息文库的质量和浓度满足测序要求。
本发明通过GEMs从单个细胞中捕获mRNA,以便于转化为可用于高通量测序的基因信息文库,以便于提高后期测序的准确性和速度。
在得到基因信息文库之后,利用Il lumina测序平台对基因信息文库进行测序,每一个原始组织样本对应得到一份测序数据,其中,测序数据优选为Fastq格式。
S11-1-4对每一原始组织样本对应的测序数据中进行校正;
(1)对测序数据进行数据质量统计,得到质量统计结果;
采用Cell Ranger软件对测序数据进行数据质量统计。在本说明书的一个实施例中,质量统计结果包括:有效的Barcodes比例、Qphred数值大于30的碱基占总体碱基的百分比、Barcode序列大于Q30比例、RNA序列大于Q30比例以及UMI序列大于Q30比例。
(2)判断质量统计结果是否符合质量评估规则;其中,如果质量统计结果不符合质量评估规则,则认定评估不合格,对单细胞悬液进行重新测序,或者重新制备单细胞悬液,再对新制备的单细胞悬液进行测序。如果质量统计结果符合质量评估规则,则认定评估合格,该测序数据即为评估合格的测序数据,将其用于后续预测过程。
在本说明书的一个实施例中,质量评估规则包括:有效的Barcodes比例、Qphred数值大于30的碱基占总体碱基的百分比、Barcode序列大于Q30比例、RNA序列大于Q30比例以及UMI序列大于Q30比例分别达到90%以上。
(3)对评估合格的测序数据进行校正,得到校正后的测序数据;
在本说明书的一个实施例中,将质量评估合格的测序数据比对到Ensembl数据库的参考基因组,得到比对结果;基于比对结果对质量评估合格的测序数据进行校正,从质量评估合格的测序数据中删除比对不一致的数据,得到校正后的测序数据。
S11-1-5基于校正后的测序数据,得到细胞与基因的表达关系,构建原始组织样本对应的原始基因表达矩阵;
同一细胞的cDNA上携带有barcode序列和UMI标记。因此,根据barcode序列可以将基因按照细胞进行分类。
首先,根据Barcode序列对校正后的测序数据进行拆分,得到每一细胞的转录数据。对每一细胞的转录数据进行去重,去除由于PCR扩增产生的重复转录数据。
通过识别Barcode序列和UMI标记,对去重后的转录数据进行测量和计数,以定量每一细胞中各个基因的表达值,表达值包括该基因的mRNA分子数或蛋白质含量。基于各个基因在每一细胞中的表达值,得到细胞与基因的表达关系,作为基因表达数据。
构建原始组织样本对应的原始基因表达矩阵。具体的,汇总原始组织样本的所有基因表达数据,构建原始基因表达矩阵;其中,原始基因表达矩阵的每一行表示一个基因,原始基因表达矩阵的每一列表示一个细胞,原始基因表达矩阵中的每一个数值表示相应基因在对应细胞中的表达值。
S11-1-6基于原始基因表达矩阵构建目标基因表达矩阵;
(1)通过重采样从原始基因表达矩阵中随机选取预定数量的细胞,根据选取出来的细胞,查找对应的基因表达数据,来构建目标基因表达矩阵。根据目标基因表达矩阵所对应的原始基因表达矩阵,将原始基因表达矩阵的确诊标签作为目标基因表达矩阵的确诊标签。其中,预定数量优选为5000及以上。
(2)对上述步骤S11-1-6的(1)进行多次重复,即可基于一个原始基因表达矩阵得到多个目标基因表达矩阵,其中,每一原始组织样本对应多个目标基因表达矩阵。
重复次数为5-20次,优选为10次。因此,如果对上述步骤S11-1-6的(1)进行重复10次,则基于25个原始组织样本的原始基因表达矩阵,可以得到250个新的目标基因表达矩阵。
S11-2基于目标基因表达矩阵进行细胞分群,得到预设分群信息。
S11-2-1融合同一原始组织样本下的所有的目标基因表达矩阵,得到第一基因表达矩阵;
作为优选的,可以使用Seurat包对同一原始组织样本下的所有的目标基因表达矩阵进行融合,得到融合后的表达矩阵;使用Harmony包对融合后的表达矩阵进行对齐和整合,消除不同实验条件和技术平台之间的差异,得到一个第一基因表达矩阵。每一原始组织样本对应一个第一基因表达矩阵。
S11-2-2分析第一基因表达矩阵是否具有批次效应;
分析第一基因表达矩阵,通过作图以评估不同细胞之间的混合情况。肿瘤微环境由多种细胞组成,包括恶性细胞、基质细胞和免疫细胞等。在本说明书的一个实施例中,可以评估免疫细胞与基质细胞混合情况。作图方法包括但不限于散点图、热图和聚类图。
为了评估是否存在显著的批次效应,对不同的第一基因表达矩阵进行对比分析。具体的,使用PCA函数将不同的第一基因表达矩阵进行降维,将其降维到二维或三维空间中,并观察不同的数据点是否聚集在一起或存在明显的分离。
如果散点图中的点分布较为分散,可能表明存在显著的批次效应。如果存在显著的批次效应,则进行数据整合或归一化处理,以确保不同的第一基因表达矩阵具有可比性。其中,通过数据整合处理,对不同批次的第一基因表达矩阵进行线性变换或规范化来实现,使得不同原始组织样本对应的第一基因表达矩阵具有相同的尺度或分布。通过归一化处理,将数据的规模调整到相同的水平,以便于后期的比较和分析。
S11-2-3如果第一基因表达矩阵不具有批次效应,从第一基因表达矩阵中获取标记基因;
具体的,对第一基因表达矩阵进行标准化;从标准化结果中,使用Find VariableFeatures函数选取2000个高变基因;使用Run PCA函数对2000个高变基因进行线性降维PCA,识别出表达模式上有显著差异的50个主要基因;再从50个主要基因中选取具有显著差异的前20个主要基因,将其作为标记基因。
S11-2-4通过标记基因对细胞进行无监督聚类,得到预设分群信息;
预设分群信息包括细胞群与细胞之间的对应关系;其中,每一细胞群关联至少一细胞;
在本说明书的一个实施例中,使用无监督聚类进行细胞分群。具体的,基于目标表达矩阵确定包括标记基因的细胞,将其作为目标细胞;使用Find Neighbors函数确定各个目标细胞之间的接近关系;基于UMAP聚类的粒度,确定细胞簇的大小和数量;结合各个目标细胞之间的接近关系以及细胞簇的大小和数量,使用Find Clusters函数将目标细胞分成不同的细胞群。其中,UMAP聚类的粒度优选为0.5。
传统肿瘤诊断依赖对肿瘤细胞的病理分析,但对占所有癌症的7%的原发灶不明的癌症,诊断及治疗非常困难。使用单细胞RNA测序可对单个肿瘤细胞和/或免疫细胞进行综合分析,可以表征不同的细胞亚群、确定群体异质性、剖析细胞命运分支点,其分析方法明显已经超越了常规分子或病理方法。另外,对于微量组织给临床诊断带来极大困难。因此,基于测序结果以深入理解肿瘤与微环境中不同细胞类型之间的相互作用,可以提高肿瘤预测分类的可解释性和准确性。为了提高可解释性,本发明考虑通过通路富集矩阵、通讯强度矩阵用于预测分类。
S11-3根据目标基因表达矩阵、预设分群信息和第一预设信息,得到通路富集矩阵;
具体的,第一预设信息包括预设基因集和预设通路信息。
结合预设基因集和目标基因表达矩阵中的每一细胞的基因表达信息,计算第一富集信息;
S11-3-1加载msigdbr包,使用get_GO_genesets函数来获取预设基因集,预设基因集包括若干个预设基因集通路;作为优选的,预设基因集包括C5人类基因集。
S11-3-2通过预设基因集确定若干个预设基因集通路,根据目标基因表达矩阵中的每一细胞的基因表达信息,确定第一富集信息,第一富集信息包括:每一细胞对应的预设基因集通路的富集评分;作为优选的,通过GSVA函数计算每一细胞对应的预设基因集通路的活性程度(GSVA评分),将其作为富集评分。
S11-3-3根据预设分群信息,对所有的第一富集信息进行分类汇总,得到第二富集信息,第二富集信息包括细胞群对应的预设基因集通路的富集评分;
如前所述,预设分群信息包括细胞群与细胞之间的对应关系;基于预设分群信息,确定同一细胞群对应的各个细胞;然后,将同群的细胞在预设基因集通路的所有的富集评分的平均值作为该细胞群在预设基因集通路的富集评分。
S11-3-4根据预设通路信息,对第二富集信息进行筛选,查找包含降维通路的第二富集信息作为目标富集信息;
预设通路信息是预先确定好的。预设通路信息包括若干个降维通路。
在本说明书的一个实施例中,如果本发明是要用于预测肿瘤(肝肿瘤)的良、恶性分类,预设通路信息包括25个降维通路,具体如表1所示:
(表1)
如果本发明是要用于预测恶性肿瘤(肝肿瘤)的具体癌种分类,预设通路信息包括18个降维通路,具体如表2所示:
序号 基因通路的ID 序号 基因通路的ID 序号 基因通路的ID
1 GO:0031589 7 GO:0050901 13 GO:1902042
2 GO:0002181 8 GO:0051346 14 GO:0043270
3 GO:0030036 9 GO:0001503 15 GO:0016337
4 GO:0007159 10 GO:0045785 16 GO:0052547
5 GO:0030593 11 GO:0007157 17 GO:0050863
6 GO:0050900 12 GO:0001819 18 GO:0042110
(表2)
基于降维通路对第二富集数据进行筛选,得到通路富集矩阵,以作为目标富集信息。其中,通路富集矩阵包括:每一细胞群对应的降维通路的富集评分。
其中,通路富集矩阵的每一行表示一个细胞群,通路富集矩阵的每一列表示一个降维通路,通路富集矩阵的数值表示相应细胞群在对应降维通路的富集评分,该富集评分用于显示细胞群在降维通路中的活性程度。
S11-4根据目标基因表达矩阵、预设分群信息和标记基因的集合,得到通讯强度矩阵;
标记基因是表达水平显著高于或低于正常水平的基因,其可以作为过表达的配体或受体候选基因。判断每一标记基因的具体表达类型,将其中的过表达的配体作为预设配体,将其中的受体候选基因作为预设受体,将预设配体和预设受体的集合,作为第二预设信息。
将细胞基因表达数据映射到蛋白-蛋白相互作用网络(PPI网络)上,确定受体-配体对水平。在本说明书的一个实施例中,将细胞基因表达数据映射到蛋白-蛋白相互作用网络(PPI网络)上,确定哪些细胞表达哪些受体和配体。通过比较不同细胞对应的细胞与基因的表达关系,我们可以确定哪些预设受体和预设配体在特定的细胞中过表达。如果预设配体或预设受体过表达,则识别预设配体和预设受体之间的相互作用关系,作为受体-配体对水平。
通过受体-配体对水平,计算细胞之间的通讯概率;在本说明书的一个实施例中,确定了受体-配体对水平之后,通过Compute Commun Prob函数,根据受体-配体对水平计算含有受体的细胞与含有配体的细胞之间的通讯概率。通过根据受体-配体对的通讯概率,进行置换检验来推断生物意义上的细胞-细胞通讯概率。
作为优选的,使用CellChat包进行通讯分析。通过导入Cell Phone DB.Human中Secreted Signaling数据集,借此分析细胞群间受体-配体对的相互作用。
结合预设分群信息,对细胞进行分群,计算两个细胞群之间的待测通讯强度信息。
在本说明书的一个实施例中,获取两个细胞群之间的所有的通讯概率的平均值,作为两个细胞群之间的通讯强度。
基于各个细胞群之间的通讯强度,构建目标通讯矩阵,其中,目标通讯矩阵的每一行表示一个细胞群,目标通讯矩阵的每一列表示一个细胞群。目标通讯矩阵的数值表示相应细胞群与对应细胞群之间的通讯强度。通讯强度,用于显示两个细胞群之间的信息交流的能力。
S11-5将目标基因表达矩阵对应的确诊标签、以及基于目标基因表达矩阵得到的通路富集矩阵和通讯强度矩阵,作为一个模型训练数据。即,一个目标基因表达矩阵对应一个模型训练数据。
S12构建肿瘤分类预测模型;
单细胞RNA测序可以对单个肿瘤细胞和免疫细胞进行综合分析,进而可以确定群体异质性、分析细胞与免疫细胞间交互作用及剖析细胞命运分支点。然而,为了处理多维的单细胞RNA测序数据,需要强大的计算方法来支撑。神经网络非常适合直接从海量数据中提取和学习隐藏特征。
为了挖掘细胞群、降维通路的富集评分、细胞群之间的通讯强度与分类标签之间的关系,提高预测分类的可解释性。在本说明书的一个实施例中,基于GNN图神经网络构建肿瘤分类预测模型。
在本说明书的一个实施例中,肿瘤分类预测模型包括输入层、隐藏层和输出层,其中,隐藏层包括2-4层的单向图卷积层和单层全连接层。
具体的,输入层用于接收通路富集矩阵、通讯强度矩阵;
2-4层的单向图卷积层,将通路富集矩阵和通讯强度矩阵合并为一个图的数据结构,其中,以细胞群为输入节点,以通路富集矩阵中的富集评分为输入节点的特征,以通讯强度矩阵中的通讯强度为输入节点之间的边权重。
每层图卷积网络中增设潜在主节点,连接到图中的每个输入节点,主节点与各输入节点之间的边权重被设置为连接组的平均权重。
潜在主节点初始特征值为0向量,用于收集来自图中所有输入节点的信息,充当全局暂存空间,每个节点向这个空间写入信息,但不从中读取,以便于允许信息在传播阶段从远距离收集。
在每一层的图卷积中,隐藏层的大小与所选的通路数量(即输入维度)完全匹配。即,隐藏层的节点数量与输入维度相同,这有助于确保网络的表达能力。
单层全连接层:末层的图卷积层潜在主节点的特征向量通过单层全连接层投射至输出层。
输出层:用于通过sigmoid函数计算输出各个分类标签的概率。其中,以概率=0.5为界值判定预测出的分类标签。分类标签参照确诊标签进行设置。
所有的层共享同一组可学习的参数。这种设置有助于避免过拟合,因为整个网络只学习一个共享的参数集,而不是为每个层学习独立的参数。
在每次进行训练、测试、使用肿瘤分类预测模型前,调整输入节点的特征和输入节点之间的边权重。
具体的,关于调整输入节点的特征,包括:
对于通路富集矩阵中的每个富集评分,计算其z-score:将计算出的z-score值用于归一化处理,对输入节点的节点特征进行更新。
其中,
关于调整输入节点之间的边权重,包括:计算平均通讯强度;通过边权重除以平均通讯强度进行归一化,对两个输入节点之间的边权重进行更新。
其中,
本发明基于单细胞RNA测序得到细胞群在降维通路的活性程度、以及细胞群之间的信息交流能力,并以此作为预测基础,提高了针对高异质性组织进行分类的鲁棒性。
S13对模型训练数据进行划分,确定训练集和测试集,使用所述训练集对所述肿瘤分类预测模型进行训练,使用所述测试集对所述肿瘤分类预测模型进行评估;
具体的,每次选择其中一个原始基因表达矩阵,基于该原始基因表达矩阵选择对应的部分目标基因表达矩阵,将其对应的模型训练数据作为测试样本;查找其余的未被选择的原始基因表达矩阵,确定与其对应的所有目标基因表达矩阵,将其对应的模型训练数据作为训练样本。在本说明书的一个实施例中,同一原始基因表达矩阵对应10个目标基因表达矩阵,25个原始基因表达矩阵共计对应250个目标基因表达矩阵;每次选择其中一个原始基因表达矩阵中的10个目标基因表达矩阵作为测试样本;其余的24个原始基因表达矩阵的所有目标基因表达矩阵(240个目标样本)作为训练样本。由于训练集和测试集对应的原始组织样本不存在数据交叉,即训练集和测试集在案例层面是完全分开的,因此,其避免任何可能的信息泄露。
汇总所有训练样本对应的模型训练数据,构建训练集;汇总所有的测试样本对应的模型训练数据,构建测试集。
在对肿瘤分类预测模型进行训练时,每个目标基因表达矩阵随机丢弃一个输入节点(细胞群)的节点特征和对应的边权重。不同类别的训练集数量可能不同,上述方式可以进行数据增强实现配平,进而消除训练数据不平衡带来的不利影响,提高了肿瘤分类预测模型的泛化性。
S13-1使用训练集对肿瘤分类预测模型进行训练;使用对应的内部测试集对训练好的模型进行验证;
在本说明书的一个实施例中,训练肿瘤分类预测模型时,进行100次迭代训练。在每次迭代中,执行以下步骤:
(1)前向传播:使用肿瘤分类预测模型(图神经网络)接收输入数据;使用当前模型参数计算原始输出(logits),其中,原始输出包括预测标签及其预测概率。
(2)计算损失:将使用实际的确诊标签和原始输出(logits)来计算出损失值。
(3)反向传播:使用计算出的损失值来计算梯度,根据损失函数对模型参数的偏导数(梯度),使用反向传播算法来计算每个参数的梯度。
(4)更新参数:使用Adam优化器更新模型参数。
作为优选的,计算损失时使用的损失函数优选为二元交叉熵损失函数(BCE WithLogits Loss)。使用Adam优化器,其参数按照实际情况设定。作为优选的,设定初始学习率为0.001;批量大小为4;总迭代次数为100。
这些步骤将在每个训练迭代中重复进行,直到达到预设的迭代次数或满足其他停止条件。通过反复迭代和参数更新,模型将在训练过程中逐渐学习并改进其预测性能。
在本说明书的一个实施例中,对肿瘤分类预测模型进行留一交叉验证(LOOCV),对于每一轮LOOCV(一次迭代),其采用的均是不同的训练集和测试集。
S13-2基于验证结果,评估肿瘤分类预测模型的性能和可靠性。
具体的,每经过10轮LOOCV,计算一次评估指标;其中,基于10轮LOOCV中的所有预测标签及其预测概率,汇总计算评估指标,评估指标包括ROC曲线下面积(AUC)和F1分数。
在经过100轮LOOCV之后,得到10个评估指标,用于评估模型的性能和可靠性。
其中,上述训练集和测试集均为内部数据集。
在本说明书的一个实施例中,如果肿瘤分类预测模型是用于肿瘤的良、恶性分类,基于测试结果的评估,具体包括,汇总在内部数据集上预测出肿瘤为良性分类的ROC曲线下面积(AUC)与F1分数;汇总在内部数据集上预测出肿瘤为恶性分类的ROC曲线下面积(AUC)与F1分数,进而确认肿瘤分类预测模型在高异质性的原始组织样本上的准确性。
如果肿瘤分类预测模型是用于恶性肿瘤的具体癌种分类,基于测试结果的评估,具体包括,汇总在内部数据集上预测出恶性肿瘤的具体癌种为肝细胞肝癌的ROC曲线下面积(AUC)与F1分数;汇总在内部数据集上预测出恶性肿瘤的具体癌种为肝内胆管癌的ROC曲线下面积(AUC)与F1分数。
作为优选的,还可以获取TCGA数据集。使用内部数据集进行肿瘤分类预测模型的训练,使用TCGA数据集进行肿瘤分类预测模型的测试。基于测试结果的评估,具体包括,汇总在TCGA数据集上预测出恶性肿瘤的具体癌种为肝细胞肝癌的ROC曲线下面积(AUC)与F1分数;汇总在TCGA数据集上预测出恶性肿瘤的具体癌种为肝内胆管癌的ROC曲线下面积(AUC)与F1分数,以确认肿瘤分类预测模型在高异质性的原始组织样本上的准确性。
另外,除了使用上述完整的单细胞数据作为测试数据,还可以基于经筛选的免疫细胞的细胞基因表达矩阵构建模型训练数据,基于经筛选的非免疫细胞的细胞基因表达矩阵构建模型训练数据,以分别作为测试数据输入到肿瘤分类预测模型中,代表样本异质性的两个极端,以评估模型在高异质性组织样本上的准确性。
在本说明书的一个实施例中,当ROC曲线下面积(AUC)>60%,且F1分数>0.6时,认定肿瘤分类预测模型的评估通过,可以用于进行后续的分类预测。
S2获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据;
S21获取待测用户的待测组织样本,基于所述待测组织样本得到原始测序数据;
S21-1获取所述待测用户的待测组织样本,对所述待测组织样本进行单细胞悬液制备,得到单细胞悬液;
待测组织样本是指:通过活体穿刺得到的待测用户的生理组织样本。相对于传统的穿刺病理诊断,待测组织样本对组织完整度要求更低。
单细胞悬液制备的方法包括:
(1)对待测组织样本进行预处理,得到预处理样本;具体的,获取待测组织样本,使用10-20ml的细胞冲洗液来冲洗待测组织样本,剪去待测组织样本上的血块之后,得到经过预处理的待测组织样本,移除细胞冲洗液,并补充新鲜的细胞冲洗液,得到预处理样本;
(2)对预处理样本进行剪碎处理,得到待测组织解离样本;
(3)对待测组织解离样本进行裂解和过滤,得到待测滤过液。
(4)对待测滤过液进行离心处理之后,得到离心后的待测滤过液。
(5)对离心后的滤过液进行沉淀与重悬处理,得到单细胞悬液。
其中,单细胞悬液制备的具体方法可参照步骤S11,在此不再赘述。
S21-2根据所述单细胞悬液构建基因信息文库;
首先,从单细胞悬液中捕获单细胞,进行单细胞分离;在本说明书的一个实施例中,基于10x Genomics平台,使用油滴凝胶珠从单细胞悬液中捕获单细胞,生成GEMs,完成单细胞分离。然后,通过GEMs从单个细胞中捕获mRNA,转化为可用于高通量测序的cDNA文库,将其作为基因信息文库。
根据单细胞悬液构建基因信息文库可参照本发明的步骤S11-1-3,在此不再赘述。
S21-3对所述基因信息文库进行高通量测序,得到原始测序数据。
在本说明书的一个实施例中,利用Il lumina测序平台对基因信息文库进行测序,得到原始测序数据,其中,原始测序数据优选为Fastq格式。
S22从原始测序数据中确定细胞与基因的表达关系,得到每一细胞中的基因表达数据;
S22-1对所述原始测序数据进行校正,得到校正后的测序数据;
首先,对原始测序数据进行数据质量统计,得到质量统计结果;
在本说明书的一个实施例中,质量统计结果包括:有效的Barcodes比例、Qphred数值大于30的碱基占总体碱基的百分比、Barcode序列大于Q30比例、RNA序列大于Q30比例以及UMI序列大于Q30比例。
其次,判断质量统计结果是否符合质量评估规则,得到评估结果;如果质量统计结果不符合质量评估规则,则认定评估不合格,对单细胞悬液进行重新测序,或者重新制备单细胞悬液进行测序。如果质量统计结果符合质量评估规则,则认定评估合格,该原始测序数据即为评估合格的测序数据,将其用于后续预测过程。
在本说明书的一个实施例中,质量评估规则包括:有效的Barcodes比例、Qphred数值大于30的碱基占总体碱基的百分比、Barcode序列大于Q30比例、RNA序列大于Q30比例以及UMI序列大于Q30比例分别达到90%以上。
然后,对评估合格的测序数据进行校正,得到校正后的测序数据;
在本说明书的一个实施例中,将质量评估合格的测序数据比对到Ensembl数据库的参考基因组,得到比对结果;
基于比对结果对质量评估合格的测序数据进行校正,从质量评估合格的测序数据中删除比对不一致的数据,得到校正后的测序数据。
本申请通过待测组织样本得到测序数据,通过基于先验数据集的生物可解释性图神经网络提取肿瘤及其微环境信息进行预测,有效弥补常规病理诊断对于组织高要求及基于特定标志物的分子病理诊断易受肿瘤异质性影响的缺点。
S22-2基于所述校正后的测序数据,确定细胞与基因的表达关系,将所述表达关系的集合,作为所述细胞基因表达数据;
同一细胞的cDNA上携带有barcode序列和UMI标记。
因此,根据barcode序列可以将遗传信息按照细胞进行分类。具体的,根据Barcode序列对校正后的测序数据进行拆分,得到每一细胞的转录数据;
对每一细胞的转录数据进行去重,去除由于PCR扩增产生的重复转录数据。然后,通过识别Barcode序列和UMI标记,对每一细胞中各个基因的表达值进行定量,通过对转录数据进行测量和计数,将细胞、基因和表达值之间的关联关系,作为细胞与基因的表达关系。表达值包括该基因的mRNA分子数或蛋白质含量。汇总所有的表达关系,得到细胞基因表达数据。
作为优选的,基于各个基因在各个细胞中的表达关系,即所有的细胞与基因的表达关系,构建基因表达矩阵,其中,基因表达矩阵的每一行表示一个基因Genex,基因表达矩阵的每一列表示一个细胞Celly,则矩阵中第i行的Genei、第j列的Cellj对应的数值是细胞Cellj中的基因Genei的表达值,其中,0<i≤x,0<j≤y。
S3根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息;
第一预设信息包括预设基因集和预设通路信息。
所述细胞基因表达数据包括每一细胞中的基因表达信息。
S31结合所述预设基因集和所述细胞基因表达数据中的表达关系,计算初始富集信息,所述初始富集信息包括细胞、预设基因集通路与初始富集评分之间的第一富集关联关系;
获取预设基因集;具体的,加载msigdbr包,使用get_GO_genesets函数来获取预设基因集,预设基因集包括若干个预设基因集通路;作为优选的,预设基因集包括C5人类基因集。
通过预设基因集确定若干个预设基因集通路,根据细胞基因表达数据中的表达关系,得到每一细胞对应的预设基因集通路的初始富集评分,确定细胞、预设基因集通路与初始富集评分之间的第一富集关联关系。
汇总所有的第一富集关联关系,得到初始富集信息。
作为优选的,通过GSVA函数计算每一细胞对应的预设基因集通路的GSVA评分,将其作为初始富集评分。
S32根据所述预设分群信息,对所述第一富集关联关系进行分类,确定细胞群、预设基因集通路与目标富集评分之间的第二富集关联关系;
预设分群信息包括细胞群与细胞之间的对应关系;基于预设分群信息,确定同一细胞群对应的各个细胞,获取同群的细胞在预设基因集通路的所有的初始富集评分,将所有的初始富集评分的平均值作为该细胞群在预设基因集通路的目标富集评分。
确定细胞群、预设基因集通路与目标富集评分之间的第二富集关联关系。
汇总所有的第二富集关联关系,得到目标富集信息。
S33根据所述预设通路信息,对所述第二富集关联关系进行筛选,收集包含降维通路的第二富集关联关系,作为所述待测富集信息;
预设通路信息是预先确定好的。预设通路信息包括若干个降维通路。
在本说明书的一个实施例中,如果本发明是用于预测待测用户的肝肿瘤的良、恶性分类,预设通路信息包括25个降维通路,具体如前述表1所示。
如果本发明是用于预测待测用户的具体癌种分类,预设通路信息包括18个降维通路,具体如前述表2所示。
基于预设通路信息中的降维通路对目标富集信息进行筛选,查找每一细胞群对应的降维通路的目标富集评分,进而确定细胞群、降维通路与目标富集评分的第三富集关联关系,汇总所有的第三富集关联关系,得到待测富集信息。
当然,也可以从目标富集信息中剔除与降维通路无关的第二富集关联关系,以得到待测富集信息。
S4根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息;
第二预设信息包括若干个预设受体和若干个预设配体。
S41将所述细胞基因表达数据映射到蛋白-蛋白相互作用网络上,确定在所述细胞基因表达数据中,所述预设配体与所述预设受体之间的相关作用关系,作为受体-配体对水平;
在本说明书的一个实施例中,将细胞基因表达数据映射到蛋白-蛋白相互作用网络(PPI网络)上,确定哪些细胞表达哪些受体和配体。通过比较不同细胞对应的细胞与基因的表达关系,我们可以确定哪些预设受体和预设配体在特定的细胞中过表达。如果预设配体和/或预设受体过表达,则识别预设配体与预设受体之间的相关作用关系,作为受体-配体对水平。
S42通过所述受体-配体对水平计算细胞之间的通讯概率;
在本说明书的一个实施例中,确定了受体-配体对水平之后,通过Compute CommunProb函数,根据受体-配体对水平计算含有受体的细胞与含有配体的细胞之间的通讯概率。通过根据受体-配体对的通讯概率,进行置换检验来推断生物意义上的细胞-细胞通讯概率。
作为优选的,使用CellChat包进行通讯分析。通过导入Cell Phone DB.Human中Secreted Signaling数据集,借此分析细胞群间受体-配体对的相互作用。
S43根据所述预设分群信息对细胞进行分群,结合所述通讯概率确定两个细胞群之间的目标通讯强度,汇总生成所述待测通讯强度信息。
在本说明书的一个实施例中,根据所述预设分群信息对细胞进行分群之后,获取两个细胞群之间的所有的通讯概率的平均值,作为两个细胞群之间的目标通讯强度。基于两个细胞群之间的目标通讯强度得到两个细胞群之间的通讯强度关系,汇总所有的通讯强度关系,生成待测通讯强度信息。
作为优选的,基于各个细胞群之间的目标通讯强度,构建通讯强度矩阵,其中,通讯强度矩阵的每一行表示一个细胞群Groupα,通讯强度矩阵的每一列表示一个细胞群Groupβ,则通讯强度矩阵中第m行的细胞群Groupm、第n列的细胞群Groupn对应的数值是细胞群Groupm与细胞群Groupn之间的目标通讯强度,其中,0<m≤α,0<n≤β。
S5将待测富集信息和待测通讯强度信息代入肿瘤分类预测模型,得到预测分类结果。
将细胞群作为输入节点;对于每个输入节点(细胞群),提取待测富集信息中的细胞群的目标富集评分,作为对应输入节点(细胞群)的节点特征;提取待测通讯强度信息中的目标通讯强度作为两个输入节点(细胞群)之间的边权重。
对每一个输入节点(细胞群)进行图卷积操作,更新输入节点(细胞群)的嵌入向量,考虑邻居节点的信息以及他们之间的边权重。在每次图卷积操作中,模型会使用其内部的参数(已在训练过程中学习得到)来更新输入节点(细胞群)的嵌入向量。在图卷积操作之后,使用聚合函数来聚合邻居节点的特征信息。得到当前节点的新的特征表示。
GNN模型将最后一层的节点嵌入向量输入到一个分类器中,通过sigmoid函数计算输出各个分类标签的预测概率;筛选出符合预设条件的预测概率,将其对应的分类标签作为预测的分类标签输出,得到预测分类结果。
在本说明书的一个实施例中,将符合预设条件包括:预测分类标签的概率≥0.5。
在实际应用时,本发明的应用场景并不局限于原发性肝肿瘤的分类预测。由于该技术基于单细胞RNA测序和图神经网络GNN,其可以广泛应用于其他类型的肿瘤的分类预测,进而为临床决策提供可靠的参考性意见,以辅助专业人员的准确判断。
图2本说明书实施例提供的一种肿瘤的分类预测***的结构示意图,该***包括:
获取模块202,用于获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据;
第一处理模块203,用于根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息;
第二处理模块204,用于根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息;
预测模块205,用于将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到所述待测用户的预测分类结果。
可选的,所述获取模块202,包括:
获取子模块,用于获取所述待测用户的待测组织样本,对所述待测组织样本进行单细胞悬液制备,得到单细胞悬液;
基因信息文库构建子模块,用于根据所述单细胞悬液构建基因信息文库;
测序子模块,用于对所述基因信息文库进行高通量测序,得到原始测序数据;
校正子模块,用于对所述原始测序数据进行校正,得到校正后的测序数据;
集合子模块,用于基于所述校正后的测序数据,确定细胞与基因的表达关系,将所述表达关系的集合,作为所述细胞基因表达数据。
可选的,所述第一预设信息包括预设基因集和预设通路信息;
所述第一处理模块203,包括:
富集处理子模块,用于结合所述预设基因集和所述细胞基因表达数据中的表达关系,计算初始富集信息,所述初始富集信息包括细胞、预设基因集通路与初始富集评分之间的第一富集关联关系;
汇总子模块,用于根据所述预设分群信息,对所述第一富集关联关系进行分类,确定细胞群、预设基因集通路与目标富集评分之间的第二富集关联关系;
筛选子模块,用于根据所述预设通路信息,对所述第二富集关联关系进行筛选,收集包含降维通路的第二富集关联关系,作为所述待测富集信息。
可选的,第二预设信息包括若干个预设受体和若干个预设配体;
可选的,所述第二处理模块204,包括:
映射子模块,用于将所述细胞基因表达数据映射到蛋白-蛋白相互作用网络上,确定在所述细胞基因表达数据中,所述预设配体与所述预设受体之间的相关作用关系,作为受体-配体对水平;
通讯概率处理子模块,用于通过所述受体-配体对水平计算细胞之间的通讯概率;
分群子模块,用于根据所述预设分群信息对细胞进行分群,结合所述通讯概率确定两个细胞群之间的目标通讯强度,汇总生成所述待测通讯强度信息。
可选的,所述预测模块205,包括:
将所述细胞群作为输入节点;
第一提取子模块,用于提取所述待测富集信息中的细胞群的目标富集评分,作为所述输入节点的节点特征;
第二提取子模块,用于提取待测通讯强度信息中的目标通讯强度作为两个所述输入节点之间的边权重;
图卷积子模块,用于对每一个所述输入节点进行图卷积操作,确定各个分类标签的预测概率;
标签筛选子模块,用于筛选出符合预设条件的预测概率,将其对应的分类标签作为预测的分类标签输出,得到预测分类结果。
可选的,还包括:分群模块;
所述分群模块,包括:
矩阵构建子模块,用于根据确诊患者样本构建目标基因表达矩阵,所述确诊患者样本包括原始组织样本;
融合子模块,用于融合同一原始组织样本下的所有的目标基因表达矩阵,得到第一基因表达矩阵;
判断子模块,用于如果所述第一基因表达矩阵不具有批次效应,从所述第一基因表达矩阵中获取标记基因;
聚类子模块,用于通过所述标记基因对细胞进行无监督聚类,得到预设分群信息,所述预设分群信息包括细胞群与细胞之间的对应关系。
本发明实施例的装置的功能已经在上述的方法实施例中进行了描述,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种肿瘤的分类预测方法,其特征在于,包括:
获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据;
根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息;
根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息;
将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到所述待测用户的预测分类结果。
2.如权利要求1所述的一种肿瘤的分类预测方法,其特征在于,所述获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据,包括:
获取所述待测用户的待测组织样本,对所述待测组织样本进行单细胞悬液制备,得到单细胞悬液;
根据所述单细胞悬液构建基因信息文库;
对所述基因信息文库进行高通量测序,得到原始测序数据;
对所述原始测序数据进行校正,得到校正后的测序数据;
基于所述校正后的测序数据,确定细胞与基因的表达关系,将所述表达关系的集合,作为所述细胞基因表达数据。
3.如权利要求1所述的一种肿瘤的分类预测方法,其特征在于,所述第一预设信息包括预设基因集和预设通路信息;
所述根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息,包括:
结合所述预设基因集和所述细胞基因表达数据中的表达关系,计算初始富集信息,所述初始富集信息包括细胞、预设基因集通路与初始富集评分之间的第一富集关联关系;
根据所述预设分群信息,对所述第一富集关联关系进行分类,确定细胞群、预设基因集通路与目标富集评分之间的第二富集关联关系;
根据所述预设通路信息,对所述第二富集关联关系进行筛选,收集包含降维通路的第二富集关联关系,作为所述待测富集信息。
4.如权利要求3所述的一种肿瘤的分类预测方法,其特征在于,第二预设信息包括若干个预设受体和若干个预设配体;
所述根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息,包括:
将所述细胞基因表达数据映射到蛋白-蛋白相互作用网络上,确定在所述细胞基因表达数据中,所述预设配体与所述预设受体之间的相关作用关系,作为受体-配体对水平;
通过所述受体-配体对水平计算细胞之间的通讯概率;
根据所述预设分群信息对细胞进行分群,结合所述通讯概率确定两个细胞群之间的目标通讯强度,汇总生成所述待测通讯强度信息。
5.如权利要求4所述的一种肿瘤的分类预测方法,其特征在于,所述将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到预测分类结果,包括:
将所述细胞群作为输入节点;
提取所述待测富集信息中的细胞群的目标富集评分,作为所述输入节点的节点特征;
提取待测通讯强度信息中的目标通讯强度作为两个所述输入节点之间的边权重;
对每一个所述输入节点进行图卷积操作,确定各个分类标签的预测概率;
筛选出符合预设条件的预测概率,将其对应的分类标签作为预测的分类标签输出,得到预测分类结果。
6.如权利要求1所述的一种肿瘤的分类预测方法,其特征在于,还包括:
根据确诊患者样本构建目标基因表达矩阵,所述确诊患者样本包括原始组织样本;
融合同一原始组织样本下的所有的目标基因表达矩阵,得到第一基因表达矩阵;
如果所述第一基因表达矩阵不具有批次效应,从所述第一基因表达矩阵中获取标记基因;
通过所述标记基因对细胞进行无监督聚类,得到预设分群信息,所述预设分群信息包括细胞群与细胞之间的对应关系。
7.一种肿瘤的分类预测***,其特征在于,包括:
获取模块,用于获取待测用户的原始测序数据,基于所述原始测序数据得到细胞基因表达数据;
第一处理模块,用于根据所述细胞基因表达数据、预设分群信息和第一预设信息,得到待测富集信息;
第二处理模块,用于根据所述细胞基因表达数据、所述预设分群信息和第二预设信息,得到待测通讯强度信息;
预测模块,用于将所述待测富集信息和所述待测通讯强度信息代入肿瘤分类预测模型,得到所述待测用户的预测分类结果。
8.一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1-6中任一项所述的方法。
CN202410112672.5A 2024-01-26 2024-01-26 一种肿瘤的分类预测方法、装置和电子设备 Pending CN117953965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410112672.5A CN117953965A (zh) 2024-01-26 2024-01-26 一种肿瘤的分类预测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410112672.5A CN117953965A (zh) 2024-01-26 2024-01-26 一种肿瘤的分类预测方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN117953965A true CN117953965A (zh) 2024-04-30

Family

ID=90802635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410112672.5A Pending CN117953965A (zh) 2024-01-26 2024-01-26 一种肿瘤的分类预测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN117953965A (zh)

Similar Documents

Publication Publication Date Title
CN113454733A (zh) 用于预后组织模式识别的多实例学习器
US11468559B2 (en) Cellular analysis
CN112005306A (zh) 选择、管理和分析高维数据的方法和***
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
Gabitto et al. Integrated multimodal cell atlas of Alzheimer’s disease
EP1498825A1 (en) Apparatus and method for analyzing data
AU2003214724B2 (en) Medical applications of adaptive learning systems using gene expression data
CN108319813A (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
Padmanabhan et al. An active learning approach for rapid characterization of endothelial cells in human tumors
CN107208131A (zh) 用于肺癌分型的方法
US20210118526A1 (en) Calculating cell-type rna profiles for diagnosis and treatment
CN112927757A (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
CN112397153A (zh) 一种用于预测食管鳞癌预后的生物标志物的筛选方法
Levy et al. Mixed effects machine learning models for colon cancer metastasis prediction using spatially localized immuno-oncology markers
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
Elhadary et al. Revolutionizing chronic lymphocytic leukemia diagnosis: A deep dive into the diverse applications of machine learning
US20210249101A1 (en) Systems and methods for predictive molecular biomarker identification and quantification from morphology changes in histopathology tissue
Jiménez-Sánchez et al. Weakly supervised deep learning to predict recurrence in low-grade endometrial cancer from multiplexed immunofluorescence images
Mavropoulos et al. Artificial intelligence-driven morphology-based enrichment of malignant cells from body fluid
KR101990430B1 (ko) 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법
CN106874705A (zh) 基于转录组数据确定肿瘤标记物的方法
CN116153420B (zh) 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法
CN112382341A (zh) 一种用于鉴定食管鳞癌预后相关的生物标志物的方法
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测***
CN108603233A (zh) 转移性疾病中循环肿瘤细胞(ctc)的单细胞基因组图谱分析以表征疾病异质性

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination