CN117476101A

CN117476101A - 一种多组学单细胞测序数据区分恶性细胞的方法、***、设备和介质

Info

Publication number: CN117476101A
Application number: CN202311568169.2A
Authority: CN
Inventors: 郭国骥; 叶昉; 张爽; 傅雨婷
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-01-30

Abstract

本发明公开了一种多组学单细胞测序数据区分恶性细胞的方法、***、设备和介质，属于肿瘤单细胞测序技术领域。所述方法包括利用分子标记微珠进行高通量单细胞多组学测序；进一步基于多组学单细胞测序数据进行拷贝数变异分析，从而对肿瘤及肿瘤旁组织中的恶性细胞进行区分。利用本发明，能够在多组学水平准确地区分肿瘤中恶性细胞的基因组序列特征与基因表达模式，在临床肿瘤样本的检测与辅助诊断中具有巨大的应用价值。

Description

一种多组学单细胞测序数据区分恶性细胞的方法、***、设备和介质

技术领域

本发明属于肿瘤单细胞测序技术领域，具体地，涉及一种多组学单细胞测序数据区分恶性细胞的方法、***、设备和介质。

背景技术

肿瘤是世界范围内发病率与死亡率最高的疾病。肿瘤的发生一定程度上源于突变积累后获得干性的初始恶性细胞，经过内源性肿瘤微环境的变化和外源性条件的诱导，由恶性细胞增殖分化产生的具有不同表型和形态的细胞类型塑造了肿瘤的异质性。各种器官组织内的肿瘤发生发展都源自肿瘤内部的异质性，各类肿瘤的演进过程也具有共性特征，不同突变的肿瘤克隆进化过程导致一种或多种具有生存优势的克隆类型决定了肿瘤的分子特征和微环境的形成，这个过程是动态且复杂的。肿瘤内部异质性是临床治疗过程产生化疗、靶向药治疗和免疫治疗耐药性以及复发致死的关键因素。

随着近年来高通量二代测序技术的进步，不同类型肿瘤深度基因组测序研究揭示了基因组不稳定性，多种体细胞突变与肿瘤的异质性形成及生存演变密切相关。对肿瘤进行细胞分辨率的多维度分析有助于进一步明确肿瘤内部异质性的形成和克隆进化发育史，探究肿瘤发生发展的共性和差异机制，并帮助解决临床肿瘤复发和耐药等重要问题。然而，对不同类型肿瘤发生发展和内部异质性等问题的细胞层面多维度分析和比较研究仍相对较少，并且在技术层面缺乏自主化，低成本和相对高通量的平台。

以往对各类肿瘤组织的分子特征分析通常为群体细胞水平的基因组测序，基因表达分析(转录组测序，基因表达芯片或荧光定量分析)和组织水平的蛋白定位及表达。受限于技术手段的分辨率，群体水平的基因表达检测无法反映内部细胞的异质性。单细胞测序技术(single-cell sequencing)可以从单细胞精度检测细胞差异化的基因表达或基因组变化，为肿瘤内部异质性的解析和演进发育轨迹提供了新的机会。在肿瘤研究领域，单细胞测序可以从基因组、转录组、蛋白组，代谢组和表观遗传组等多组学维度为原发肿瘤异质性、肿瘤微环境，原发与复发转移肿瘤灶的关联等一系列问题提供帮助。

基于单细胞组学发现的肿瘤细胞发生机制和肿瘤细胞演进的异质性，能进一步从恶性细胞突变和内部异质性细胞的分子特征为肿瘤的诊断和防治提供线索，并且在机制研究和诊断防治方向有巨大的应用转化潜力。目前，对肿瘤的单细胞组学研究集中基于转录组基因表达的细胞分子分型上。随着商业化单细胞技术平台和高通量测序仪的发展，各种肿瘤动物模型和人临床肿瘤样本的单细胞转录组图谱都已经发表。多种肿瘤细胞图谱***性地表征了瘤内细胞和免疫微环境细胞的异质性。因此，开发一种基于微孔单细胞多组学测序的快速肿瘤细胞鉴定方法，具有重要的临床意义。

发明内容

为了解决上述技术问题，本发明提供的技术方案如下：

本发明第一方面提供一种基于单细胞多组学测序区分恶性细胞的方法，包括以下步骤：

S1，获得肿瘤样本和肿瘤旁样本，分别制备单细胞核悬液，将其与分子标记微珠混合并加载到微孔芯片中，在微孔内原位捕获标记细胞核的碱基序列并加上细胞身份标签及分子标签；

S2，构建测序文库，并进行单细胞转录组测序、单细胞染色质可及性测序、单细胞基因组测序和单细胞甲基化测序中的至少两种测序，获得不同的单细胞测序数据；

S3，针对每一种单细胞测序数据，分别进行如下分析：

S31，分别获得肿瘤样本中和肿瘤旁样本中平均拷贝数变异水平，分别作为恶性拷贝数变异期望和正常拷贝数变异期望，

S32，将肿瘤样本中和肿瘤旁样本的单细胞测序数据各分为N个子集，对于每个子集，根据以下标准进行判断：

若该子集的平均拷贝数变异水平小于正常拷贝数变异期望，则该子集为正常子集，其细胞为正常细胞；若该子集的平均拷贝数变异水平大于恶性拷贝数变异期望，则该子集为恶性子集，其细胞为恶性细胞；若该子集的平均拷贝数变异介于正常拷贝数变异期望和恶性拷贝数变异期望之间，则该子集为中间态，

S33，对于中间态子集，重新分为N个子集，按照S32中的标准进行分类；

S34，重复步骤S33，直到没有更多的正常子集或恶性子集，或者达到迭代的最大次数Y，

其中N＝20～100，Y＝10-50；

S4，对步骤S3中不同单细胞测序数据鉴定到的恶性细胞的染色体拷贝数变异模式进行相关性分析，利用拷贝数变异模式相同的染色体区域将恶性细胞进行合并。

在本发明的一些实施方案中，步骤S1中，分子标记微珠与细胞核经过比例计算1:1混合后加载到微孔芯片上，可以给细胞核带上细胞身份标签，便于在后续分析过程中快速确定来自不同细胞类型的细胞核。优选地，对于转录组测序和细胞质可及性测序，进行逆转录/基因组打断的同时，给细胞核带上细胞身份标签。

进一步地，在步骤S1中，还包括：使用醛类固定液(如多聚甲醛)、醇类固定液(如乙醇)、酸类固定液以及交联剂中的任意一种固定剂对细胞核悬液进行重悬固定处理，使细胞核内的核酸/蛋白相互交联固定，更加有效地使核酸分子进入细胞/细胞核内进行反应。优选的，在基因组测序中，对细胞核不进行任何有机溶剂固定处理，使转座酶可以更有效地进入到细胞核内进行反应。

在本发明的一些实施方案中，步骤S1中，所述细胞核中原位核酸分子标记反应的对象为mRNA和DNA。微珠表面已知碱基序列的核酸分子携带的多聚T尾可以与处理后的细胞核中的mRNA杂交结合；微珠表面已知碱基序列的核酸分子携带的随机或固定序列可以与处理后的细胞核中的DNA杂交结合。

在本发明的一些实施方案中，步骤S3中，在进行分析之前，进一步包括进行拟群体化处理的步骤：

根据来源于同一样本的细胞数量加合单细胞测序数据进行拟群体化处理，根据欧式距离加合邻近细胞的单细胞测序数据集构建拟群体集，并进行数据归一化处理。

在本发明的一些实施方案中，步骤S4中，所述将拷贝数变异模式相同的染色体区域将恶性细胞进行合并的具体步骤是：筛选拷贝数变异方向均为“扩增”或“缺失”的染色体区域，绘制恶性细胞染色体变异模式图，从而将恶性细胞进行合并。

在本发明的一些实施方案中，进一步包括根据任一种单细胞测序数据进行细胞亚型鉴定的步骤：

根据测序数据中的细胞身份标签，将所有的微珠两两分组，形成微珠配对；

对每个微珠配对采取遍历计算，计算内容为微珠捕获序列的相似性，并将微珠配对根据相似性进行排序；

接着，根据微孔实际含有的孔数，对序列相似性高于预设阈值的微珠配对进行合并；

最后，将来源于肿瘤样本和肿瘤旁样本的细胞分别进行基因矩阵的合并，对合并后的单细胞组学矩阵进行降维、特征选取、差异分析与细胞亚群分群，并基于公共数据库对细胞亚群进行注释。

上述过程，通过数据中微珠所携带和捕获的细胞身份标签中的随机序列分布相似性的计算相似性表达评分，由此确定哪些微孔存在多个微珠位于同一个微孔中的情况，并合并同一微孔中所有微珠的遗传序列信息，对于在同一微孔内的多个细胞核，通过细胞身份标签，将微珠合并的遗传序列信息分配还原给单个细胞核，可以得到单细胞分辨率的多组学数据。

对于转录组测序，微珠连接的引物序列包括四个部分：文库接头序列，细胞标签序列，分子标签序列以及核酸捕获序列。其中文库接头序列用于后续的上机测序；细胞标签序列用以识别不同的细胞；分子标签序列是由随机碱基组成的一段序列，每个DNA分子都含有一个独特的分子标签序列，用以识别混合测序时区分不同的DNA分子；核酸捕获序列含有多聚T尾或随机引物序列，用于捕获RNA分子。

对于基因组测序，文库构建时使用转座酶进行基因组染色质开放区域的打断；微珠连接的引物序列包括四个部分：文库接头序列，细胞标签序列，分子标签序列以及核酸捕获序列。其中文库接头序列用于后续的上机测序；细胞标签序列用以识别不同的细胞；分子标签序列是由随机碱基组成的一段序列，每个DNA分子都含有一个独特的分子标签序列，用以识别混合测序时区分不同的DNA分子；核酸捕获序列含有与转座酶接头序列匹配的杂交序列，用于捕获转座酶打断的DNA分子。

在本发明的一些实施方案中，所述对序列相似性高于预设阈值的微珠配对进行合并具体为：

(1)微孔内一个细胞、一个微珠，直接将微珠的细胞身份标签和捕获的遗传序列信息，作为该单细胞的遗传信息矩阵；

(2)微孔内有多个细胞、一个微珠，将微珠的捕获的遗传序列信息，根据其配对的多个细胞的细胞身份标签，分配给这多个细胞，作为该多个细胞的遗传信息矩阵；

(3)微孔内有一个细胞、多个微珠，将微珠的捕获的遗传序列进行累加，并分配给这一个细胞，作为该单细胞的遗传信息矩阵；

(4)微孔内有多个细胞、多个微珠，将微珠的捕获的遗传序列先进行累加，再根据其配对的多个细胞的细胞身份标签，分配给这多个细胞，作为该多个细胞的遗传信息矩阵。

在本发明的一些实施方案中，进一步包括预测鉴定的恶性细胞中的关键转录因子和/或其靶基因，进行恶性细胞的分子分型。

本发明可以从疑似癌(恶性肿瘤)样本中交叉验证与进一步辅助确认恶性细胞，进一步从细胞组学维度快速明确恶性细胞的细胞谱系来源，比例以及拷贝数变异模式，靶基因等分子分型指标，从而提供辅助诊断。

本发明第二方面提供一种基于单细胞多组学测序区分恶性细胞的***，包括以下模块：

数据输入模块：用于接收肿瘤样本和肿瘤旁样本进行单细胞转录组测序、单细胞染色质可及性测序、单细胞基因组测序和单细胞甲基化测序中的至少两种测序获得的不同的单细胞测序数据；

恶性细胞区分模块：与所述数据输入模块连接，用于针对每一种单细胞测序数据，分别进行如下分析：

S34，重复步骤S33，直到没有更多的正常子集或恶性子集，或者达到迭代的

最大次数Y，其中N＝20～100，Y＝＝10～50；

S4，对步骤S3中不同单细胞测序数据鉴定到的恶性细胞的染色体拷贝数变异模式进行相关性分析，将拷贝数变异模式相同的染色体区域将恶性细胞进行合并。

进一步地，还包括：

细胞亚型鉴定模块，分别与数据输入模块和所述恶性细胞区分模块连接，用于根据以下步骤进行细胞亚型鉴定：

最后，将来源于肿瘤样本和肿瘤旁样本的细胞分别进行基因矩阵的合并，对合并后的单细胞组学矩阵进行降维、特征选取、差异分析与细胞亚群分群，并基于公共数据库对细胞亚群进行注释；

并用于基于恶性细胞区分模块鉴定到的恶性细胞，确定恶性细胞在不同细胞亚群中的变异模式。

更进一步地，还包括关键靶基因及其调控网络富集模块，与所述恶性细胞区分模块连接，用于预测鉴定的恶性细胞中的关键转录因子和/或其靶基因，进行恶性细胞的分子分型。

本发明第三方面提供一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如本发明第一方面任一所述的一种基于单细胞多组学测序区分恶性细胞的方法的步骤。

本发明第四方面提供一种计算机可读存储介质，

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种基于单细胞多组学测序区分恶性细胞的方法的步骤。

本发明的有益效果

相对于现有技术，本发明具有以下有益效果：

本发明提供一种基于微孔单细胞多组学测序的快速肿瘤细胞鉴定方法、设备及介质。基于微孔微珠***在单细胞水平高通量的检测肿瘤样本的多组学的遗传信息。并基于多组学信息对肿瘤中的恶性细胞进行快速准确地鉴定，并富集其靶基因的特征调控模式，为临床肿瘤的分型与辅助诊断提供参考。

本发明将不同单细胞测序数据得到的各染色体拷贝数变异模式进行相关性分析，筛选拷贝数变异方向均为“扩增”或“缺失”的染色体区域绘制恶性细胞染色体变异模式图。并对按每个细胞的平均拷贝数水平迭代分组得到的恶性细胞进行合并。确定核心的恶性细胞亚群与其在各个细胞谱系内的分布比例。进一步确定其基因组变异模式，并对恶性细胞的关键靶基因及其调控网络进行富集，进行恶性细胞的分子分型。本发明能够整合肿瘤恶性细胞多组学数据构建调控网络，而现有技术中的调控网络构建基本是针对单细胞转录组基因表达数据，整合肿瘤单细胞转录组与单细胞染色质可及性等基因组学数据构建单细胞分辨率的调控网络属于本发明的首创。

附图说明

图1示出了小鼠肺部肿瘤样本、肿瘤旁样本、正常参考对照肺样本由基因组染色质可及性定义的细胞亚型与细胞亚型的样本来源。Adj表示肿瘤旁样本，Normal表示对侧正常肺样本，Tumor表示肿瘤样本。

图2示出了小鼠肺部肿瘤样本、肿瘤旁样本、对侧正常肺样本的由基因组染色质可及性定义的细胞亚型，由拷贝数变异程度定义的恶性细胞(malignant)与非恶性正常细胞(nonmalignant)的分布投影。

图3示出了Copy-scAT鉴定的基因组染色质可及性组水平上由恶性程度分组的拷贝数变异程度。NMF_cluster代表Non-negative matrix factorization，非负矩阵分解，为一种无监督聚类分群方法，通过该方法得到3号群为恶性细胞亚群，与拷贝数变异定义的分布相匹配。

图4示出了inferCNV鉴定的转录组水平上预测的恶性细胞(malignant)与非恶性细胞(nonmalignant)的染色体范围拷贝数变异模式。

图5示出了在不同染色体区带上，inferCNV鉴定的转录组水平上拷贝数变异平均分数与Copy-scAT鉴定的基因组染色质可及性组水平上拷贝数变异平均分数，在拷贝数缺失(del effect)与拷贝数扩增(dup effect)一致的染色体区带上的相关性。

图6示出了小鼠肺部肿瘤恶性细胞关键靶基因的富集结果及其调控网络。粉色基因为选择的关键靶基因，节点颜色深浅代表其网络中心度，节点大小代表其互作基因数量的多少。

具体实施方式

除非另有说明、从上下文暗示或属于现有技术的惯例，否则本申请中所有的份数和百分比都基于重量，且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下，本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考，且其等价的同族专利也引入作为参考，特别这些文献所披露的关于本领域中的相关术语的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致，则以本申请中提供的术语定义为准。

本申请中的数字范围是近似值，因此除非另有说明，否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值，条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。对于包含小于1的数值或者包含大于1的分数(例如1.1，1.5等)的范围，则适当地将1个单位看作0.0001，0.001，0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围，通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例，并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。

术语“包含”，“包括”，“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在，且与这些其它的组分、步骤或过程是否在本申请中披露无关。为消除任何疑问，除非明确说明，否则本申请中所有使用术语“包含”，“包括”，或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反，除了对操作性能所必要的那些，术语“基本上由……组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由……组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明，否则术语“或”指列出的单独成员或其任何组合。

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白，下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术，因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白，这里所公开的特定实施例可以做很多修改，仍然能得到相同的或者类似的结果，而非背离本发明的精神或范围。

除非另有定义，所有在此使用的技术和科学的术语，和本发明所属领域内的技术人员所通常理解的意思相同，在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的仪器设备，如无特殊说明，均为实验室常规仪器设备；下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。

实施例1基于微孔方法的衰老小鼠肺肿瘤样本单细胞多组学文库制备与测序

1.样品准备

从鉴定到肺部肿物的衰老C57BL6小鼠中分离肿瘤组织与肿瘤旁对照组织。将两种组织在液氮中迅速冷冻研磨碾碎成粉末，加入细胞核裂解液重悬冰上裂解。离心洗涤后得到单细胞核混悬液。

2.转录组学文库构建

利用4％多聚甲醛(PFA)对细胞核进行固定，将不同样本的肿瘤和肿瘤旁组织单核悬液加入到不同的离心管中，每个离心管分别添加携带不同细胞身份标签序列的逆转录引物、反转录酶、反转录反应缓冲液、dNTPs、RNA酶抑制剂、50％ PEG8000、10％TritonX10组分，混合均匀后置于PCR仪中进行恒温的反转录反应。反转录反应结束后，分别用3×SSC和PBS洗涤细胞核，准备进行芯片加载。

在芯片加载时，等比例混合细胞核与分子标签微珠，并添加恒温聚合酶和高保真聚合酶的扩增体系。根据实际上样量，使用移液器将不同肿瘤样本反转录后的细胞核快速均匀地加载到微孔芯片中，在显微镜下镜检微珠与细胞在微孔中的落孔情况，使微孔芯片内细胞核和微珠落孔率大于70％，加入密封油封住微孔芯片使其形成单独的反应空间，置于PCR热循环仪内进行扩增。

反应完毕后，通过多次离心将芯片中的液体和分子标记微珠充分收集下来，吸取反应液转移至新的离心管中；随后加入DNA纯化磁珠进行纯化获得扩增后的cDNA液体；加入到含有测序标签(index)的测序接头(P5和P7)以及高保真聚合酶的扩增体系，进行测序文库扩增，获得带有index的测序文库；再后利用DNAClean Beads纯化磁珠获得测序文库，使用Qubit 3.0荧光剂测定文库浓度，置于-20℃保存。根据测序仪上机要求选择合适量的测序文库上机进行测序。

3.表观基因组学-染色质可及性文库构建

将不同样本的肿瘤和肿瘤旁组织单核悬液加入到不同的离心管中，每个离心管分别添加携带不同细胞身份标签序列的转座酶、2×酶切反应液、1％洋地黄皂苷、10％Tween-20和1×PBS的酶切体系，充分混匀，置于37℃～55℃的恒温反应体系中酶切反应半小时。冰上终止酶切反应，收集细胞核离心，随后用PBS洗液离心洗两遍细胞核，准备进行芯片加载。

在芯片加载时，等比例混合细胞核与分子标签微珠，并添加50mM EDTA和2×高保真聚合酶，混匀。根据实际上样量，使用移液器将不同肿瘤样本反转录后的细胞核快速均匀的加载到微孔芯片中，在显微镜下镜检微珠与细胞在微孔中的落孔情况，使微孔芯片内细胞核和微珠落孔率大于70％，扣紧管盖，随后将离心管置于50℃恒温反应半小时，释放基因组片段，随后向微孔芯片内加入添加恒温聚合酶和高保真聚合酶的扩增体系，加入密封油封住微孔芯片使其形成单独的反应空间，置于PCR热循环仪内进行扩增。

反应完毕后，通过多次离心将芯片中的液体和分子标记微珠充分收集下来，吸取反应液转移至新的离心管中。随后加入DNA纯化磁珠进行纯化获得扩增后的cDNA液体。加入到含有测序标签的P5、P7以及高保真聚合酶的扩增体系，进行测序文库扩增，获得带有index的测序文库，随后利用DNA Clean Beads纯化磁珠获得测序文库，使用Qubit 3.0荧光剂测定文库浓度，置于-20℃保存。根据测序仪上机要求选择合适量的测序文库上机进行测序。

实施例2基于单细胞多组学的衰老小鼠肺肿瘤样本细胞亚型鉴定

对实施例1得到的高通量测序的原始fastq数据根据通过逆转录/转座酶酶切携带的细胞身份标签序列以及微珠上携带的分子标签序列进行提取、筛分，并将测序数据比对到小鼠参考基因组得到单细胞转录组矩阵与染色质可及性矩阵。

首先，根据测序数据中按位置提取的细胞身份标签，将所有的微珠两两分组，形成微珠配对。

然后，对每个微珠配对采取遍历计算，计算内容为微珠捕获序列的相似性(Jaccard表达评分)，并将微珠配对根据相似性进行排序。在转录组测序中，纳入计算的捕获序列为随机引物序列；在染色质可及性测序中，纳入计算的捕获序列为捕获到的遗传信息。

接着，根据微孔实际含有的孔数(1万个)，对序列相似性高(排序到1万个微珠配对位置对应的Jaccard表达评分作为判断序列相似性高的阈值)的微珠配对进行合并操作，判断有哪些微珠位于同一个微孔内，并进行如下的分类处理：

(1)对于计算后微孔内有一个细胞、一个微珠的情况，直接将微珠的细胞身份标签和捕获的遗传序列信息，作为该单细胞的遗传信息矩阵。

(2)对于计算后微孔内有多个细胞、一个微珠的情况，将微珠的捕获的遗传序列信息，根据其配对的多个细胞的逆转录/酶切步骤细胞身份标签，分配给这多个细胞，作为该多个细胞的遗传信息矩阵。

(3)对于计算后微孔内有一个细胞、多个微珠的情况，将微珠的捕获的遗传序列进行累加，并分配给这一个细胞，作为该单细胞的遗传信息矩阵。

(4)对于计算后微孔内有多个细胞、多个微珠的情况，将微珠的捕获的遗传序列先进行累加，再根据其配对的多个细胞的逆转录/酶切步骤细胞身份标签，分配给这多个细胞，作为该多个细胞的遗传信息矩阵。

最后，对肿瘤细胞与肿瘤旁组织细胞进行合并，利用Seurat和ArchR软件分别对转录组数据与染色质可及性数据进行下游的基因表达矩阵生成与处理，选取头部的2000个具有特征性的差异基因，对单细胞基因表达矩阵进行PCA分析与降维处理，在二维平面上投射特征性的单细胞亚群。对每一个亚群，利用Findmarker等差异富集工具，得到该亚群最有特征性的基因集。参考已有的基因注释数据库，比如PanglaoDB数据库，进行细胞亚群分型的注释与定义，将其定义到不同谱系具体的细胞类型，鉴别出肿瘤组织内的不同的上皮细胞、基质细胞和免疫细胞类型，以基因组染色质可及性为基准进行亚型分类，如图1所示，其中，每个细胞的样本来源也被整合标记。

实施例3鉴定小鼠肺部肿瘤样本中的恶性细胞

使用单细胞基因组染色质可及性与转录组数据对肿瘤和肿瘤旁样本进行细胞类型的鉴定后，根据肿瘤样本、肿瘤旁样本测序得到的细胞数量，选择一定的合并比例(在该实例中，为亚群内部100个细胞合并为一个拟群体集细胞)，根据欧式距离加合该100个邻近细胞的数据集构建拟群体集，随后在Seurat软件中将合并的细胞的基因表达计数矩阵(列为每个细胞，行为基因)进行加合处理，即计算每一个测序得到的基因(每一行)在100个细胞里(100列)计数的总和，并作为加合后该拟群体集的基因表达矩阵。对拟群体化处理后的单细胞基因表达矩阵降维分群，，并进行数据归一化处理，将单细胞数据的拟群体集再归一化到10⁶数量级。

联合inferCNV软件和Copy-scAT软件进行肺部肿瘤样本数据集在(拟群体集水平)转录组和基因组水平的拷贝数变异分析，定量刻画不同染色体范围内的拷贝数缺失(deleffect)与拷贝数扩增(dup effect)模式。

首先假设肿瘤与肿瘤旁组织中均存在恶性细胞与正常细胞，初始将肿瘤旁组织中的拷贝数区域作为正常对照，在拟群体集水平计算肿瘤与肿瘤旁组织细胞的拷贝数的平均值(平均拷贝数变异水平)；并将肿瘤旁组织与肿瘤组织的平均拷贝数变异水平分别作为“正常拷贝数变异期望”与“恶性拷贝数变异期望”。对于转录组数据，将基因表达水平量化到-1到1的范围。

利用层次聚类算法将肺部肿瘤旁组织与肺肿瘤组织单细胞数据构建的拟群体集分为50个子集，并定义：

每个子集的平均拷贝数变异水平若小于“正常拷贝数变异期望”，将该子集定义为“正常”；

每个子集的平均拷贝数变异水平若大于“恶性拷贝数变异期望”，将该子集定义为“恶性”；

每个子集的平均拷贝数变异水平介于二者之间，将该子集定义为“中间态”。

对于被归类到“中间态”的子集，将进入下一轮层次聚类的迭代，即被重新分为50个子集并计算分类。直到没有更多的“正常”或“恶性”子集或者达到迭代的最大次数，将最后的拷贝数变异标签投射到单细胞分群结果上，将多组学确定的恶性细胞进行合并，观察是否有恶性细胞单独聚集的亚群，或是存在恶性细胞散在分布模式。

结果如图2所示，能够看到预测的恶性细胞大部分来自肿瘤组织样本，在肿瘤旁组织中也有一定比例的恶性过渡态细胞分布。各个染色体水平区域性与整体性的拷贝数变异模式结果如图3、图4所示，能够看到在鉴定的该肺部肿瘤样本恶性细胞群中，8号、16号、17号染色体呈现显著的拷贝数扩增；肿瘤与肿瘤旁组织中的恶性细胞在4号、5号、11号染色体呈现拷贝数缺失。

将不同组学的拷贝数变异模式进行整合与相关性分析，需要根据注释好的染色体区域将其划分为不同的区带，在不同组学重叠的区带水平进行平均拷贝数变异分数的量化(从缺失到扩增量化到-2到2的范围)与投射，并对不同区带多组学拷贝数变异的拷贝数“扩增”和“缺失”进行比较。对于inferCNV转录组水平数据与Copy-scAT基因组染色质可及性水平数据，一共得到42条重叠的染色体区带，每个染色体区带的拷贝数扩增与拷贝数缺失被标记出来，如图5所示，多组学联合分析的拷贝数变异结果相关性能达到0.73，具有显著性(p值为0.0018)。

实施例4恶性细胞基因表达调控网络构建

利用SCRIP软件对多组学联合鉴定的肺部肿瘤恶性细胞中关键转录因子及其靶基因进行预测并构建调控网络。

首先用ClusterProfiler工具，选择显著性p值阈值为0.1，对低质量的靶基因进行过滤，并富集潜在的关键通路，得到21条共有的富集通路，同时筛选到与这些通路存在高相关性的49个靶基因，将这些基因命名为关键节点靶基因。

利用STRING数据库的靶基因互作信息，对这些靶基因的互作网络进行描绘，进一步移除网络范围外的蛋白，按平均表达倍数(avg.LogFC)>0.25以及显著性BH调整p值<0.05的阈值对正常和恶性细胞的关键节点靶基因进行富集，如图6所示。

利用该框架能够富集到已知的与肺肿瘤高度相关的Tp63、Foxc2、Nkx2-1等关键靶基因，表示该恶性细胞群具有上皮-间质转化的特征，且目前检测到的肿瘤样本属于肺鳞癌，并提示存在从上皮型肺腺癌到基质型肺鳞癌的转化过程。证明本发明的方法能够快速准确地鉴定肿瘤中恶性细胞的调控关键靶基因及其调控网络。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于单细胞多组学测序区分恶性细胞的方法，其特征在于，包括以下步骤：

S3，针对每一种单细胞测序数据，分别进行如下分析：

其中N＝20～100，Y＝10～50；

S4，对步骤S3中不同单细胞测序数据鉴定到的恶性细胞的染色体拷贝数变异模式进行相关性分析，将拷贝数变异模式相同的染色体区域将恶性细胞进行合并。筛选拷贝数变异方向均为“扩增”或“缺失”的染色体区域绘制恶性细胞染色体变异模式图。并对按每个细胞的平均拷贝数水平迭代分组得到的恶性细胞进行合并。

2.根据权利要求1所述的一种基于单细胞多组学测序区分恶性细胞的方法，其特征在于，进一步包括根据任一种单细胞测序数据进行细胞亚型鉴定的步骤：

3.根据权利要求2所述的一种基于单细胞多组学测序区分恶性细胞的方法，其特征在于，所述对序列相似性高于预设阈值的微珠配对进行合并具体为：

4.根据权利要求1所述的一种基于单细胞多组学测序区分恶性细胞的方法，其特征在于，步骤S3中，在进行分析之前，进一步包括进行拟群体化处理的步骤：

5.根据权利要求1所述的一种基于单细胞多组学测序区分恶性细胞的方法，其特征在于，进一步包括预测鉴定的恶性细胞中的关键转录因子和/或其靶基因，进行恶性细胞的分子分型。

6.一种基于单细胞多组学测序区分恶性细胞的***，其特征在于，包括以下模块：

S34，重复步骤S33，直到没有更多的正常子集或恶性子集，或者达到迭代的最大次数Y，其中N＝20～100，Y＝10～50。

7.根据权利要求6所述的一种基于单细胞多组学测序区分恶性细胞的***，其特征在于，还包括：

8.根据权利要求6所述的一种基于单细胞多组学测序区分恶性细胞的***，其特征在于，还包括：

关键靶基因及其调控网络富集模块，与所述恶性细胞区分模块连接，用于预测鉴定的恶性细胞中的关键转录因子和/或其靶基因，进行恶性细胞的分子分型。

9.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-6任一所述的一种基于单细胞多组学测序区分恶性细胞的方法的步骤。

10.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任一所述的一种基于单细胞多组学测序区分恶性细胞的方法的步骤。