CN114708910B

CN114708910B - 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法

Info

Publication number: CN114708910B
Application number: CN202210177169.9A
Authority: CN
Inventors: 龙江; 沈晓天; 胡倍源; 顾海涛; 武春涛; 董汉光; 阎九亮; 亓子豪; 陈涛
Original assignee: Shanghai First Peoples Hospital
Current assignee: Shanghai First Peoples Hospital
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2024-05-14
Anticipated expiration: 2042-02-24
Also published as: CN114708910A

Abstract

本发明涉及一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法，所述方法包括以下步骤：a)通过单细胞测序，建立Marker基因名，细胞亚群名的表达矩阵M；b)通过池测序，建立基因名，样本名的表达矩阵N；c)将所述Marker基因名，细胞亚群名的表达矩阵M中的Marker基因名比对至所述基因名，样本名的表达矩阵N，获取Marker基因名，样本名的表达矩阵N’；d)使用程序scFrac，以M，N’为输入，得到M中每个细胞亚群在N’的各个样本中所占的富集分数。本发明为寻找和解析细胞群样本内部的细胞亚群与临床意义之间的关联性提供了一种经济节约、准确可靠的方法。

Description

一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法

技术领域

本发明涉及物信息分析技术领域，具体地说，涉及一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法。

背景技术

肿瘤是一种包含多种细胞种类的病理组织。包括但不限于肿瘤细胞，免疫细胞，基质细胞，内皮细胞等。细胞组成的比例差异决定了肿瘤的恶性程度，转移能力，对治疗的反应性等。

单细胞转录组技术是结合细胞分离技术与二代测序技术的新兴技术手段。其主要特点为可获得单个细胞的基因表达谱，可在基因表达层面对细胞亚群分群，可以对不同的细胞群及其基因表达的差异，生理功能差异进行研究。可用于稀有细胞群的发现，鉴定。此技术尤其适合解析复杂细胞群，例如干细胞，胚胎细胞，肿瘤细胞的细胞种类构成。

池测序为传统的二代测序技术，针对细胞群进行测序，获得较为笼统，粗糙的细胞群的表达信息。其中非主要细胞群的表达信息往往被掩盖，很多重要信息，尤其是细胞构成的比例信息无法获得。

池测序由于发展时间长，成本低，对计算资源要求小的优势，有充足的数据资源可供获取，分析。目前较为知名的，肿瘤相关的池测序数据集包括TCGA，ICGC，GEO数据库，包含了成百上千例临床随访信息完善的池测序样本，为肿瘤研究提供了丰富的资源。

单细胞转录组测序虽然有分辨率高，可以解析样本内细胞组成等优势，但由于其成本高，发展时间较短，目前尚无包含临床信息的单细胞转录组测序的数据集。研究一种将单细胞测序对细胞组成的解析结果用于池测序，推测出池测序内细胞组成的富集分数的方法，从而结合两种测序的优势，对肿瘤研究有重要意义。

专利文献CN112700820A公开了一种基于单细胞转录组测序的细胞亚群注释方法，包括如下步骤：1)10x barcode UMI识别，2)比对基因组，3)基因表达谱，4)低质量细胞过滤和数据均一化，5)细胞群体聚类，6)Marker基因提取，7)细胞亚群注释。该发明解决了单细胞亚群注释的问题，使得单细胞测序数据在常规分析后，可以支持依据基因表达谱和/或细胞Marker基因进行细胞注释，实现了不同注释方法的有机结合，得到细胞类型的分布情况和相关信息。然而该文献涉及的是单细胞测序结果细胞群的注释，目前未见如本申请的利用单细胞测序数据来计算池测序中细胞亚群富集分数的方法。

发明内容

本发明的目的是针对现有技术中的不足，提供一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法。

本发明的再一的目的是，提供一种利用单细胞测序数据计算池测序中细胞亚群富集分数的***。

为实现上述第一个目的，本发明采取的技术方案是：

一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法，包括以下步骤：

a)通过单细胞测序，建立Marker基因名，细胞亚群名的表达矩阵M；

b)通过池测序，建立基因名，样本名的表达矩阵N；

c)将所述Marker基因名，细胞亚群名的表达矩阵M中的Marker基因名比对至所述基因名，样本名的表达矩阵N，获取Marker基因名，样本名的表达矩阵N’；

d)使用程序scFrac，以M，N’为输入，得到M中每个细胞亚群在N’的各个样本中所占的富集分数。

作为本发明的一个优选例，步骤a所述的单细胞测序为单细胞转录组测序。

更优选地，所述单细胞转录组测序的方法选自Smart-seq、Smart-seq2、CEL-seq、CEL-seq2、Drop-seq、MARS-seq、MARS-seq2和SCRB-seq。

作为本发明的另一优选例，步骤a所述的单细胞测序采用的单细胞分离和标记平台为Chromium^TM***、BD Rhapsody^TM单细胞分析***、单细胞测序解决方案、ICELL8单细胞***或C1^TM单细胞全自动制备***。

作为本发明的另一优选例，步骤a所述的单细胞测序采用的单细胞高通量测序平台为illumina系列、BGISEQ系列、Roche 454、ABI solid或Ion Proton。

作为本发明的另一优选例，步骤a包括以下步骤：

a-1)10Xbarcode UMI识别：10X genomics平台建库测序的下机数据为fastq序列，包括barcode，UMI，mRNA序列三部分，使用软件cellranger count，通过barcode序列识别细胞，通过UMI序列对基因表达定量，通过3’端mRNA序列进行基因鉴定；

a-2)比对基因组：采取STAR算法，将fastq序列比对至参考基因组上，获得序列的基因信息，使用cellranger对基因的表达量进行定量；

a-3)低质量细胞过滤和均一化：基于细胞的基因表达量和线粒体DNA表达量对低质量细胞过滤，使用R语言的Seurat包，过滤细胞之后，再通过Seurat包的Normalization函数对表达量进行均一化；

a-4)细胞聚类：使用主成分分析方法对细胞表达谱降维，选取前10个主成分用于后续的聚类，使用临近算法对细胞进行聚类，使用Umap对细胞进行基于图论的可视化聚类，将KNN获得的聚类结果映射至Umap聚类结果上；

a-5)Marker基因提取：Seurat通过wilcox法比较检验不同细胞组成间的差异基因，其中表达较其他细胞群体显著上升的基因即为该细胞亚群的Marker基因；

a-6)建立Marker基因，目标细胞群表达矩阵M：将每个细胞亚群的Marker基因作为行名，每个单细胞作为列名，从单细胞测序数据中获得一表达矩阵M。

作为本发明的另一优选例，步骤b包括以下步骤：从组织提取全组织RNA，经过反转录为cDNA，片段化为cDNA片段，两端加引物，PCR扩增，测序，从illumina平台测序下机的数据包括fastq_1,fastq_2，经过fastq质控，STAR比对至参考基因组，htseq-count获取基因表达量，获取以基因为行名，样本为列名的池测序的表达矩阵N。

为实现上述第二个目的，本发明采取的技术方案是：

一种利用单细胞测序数据计算池测序中细胞亚群富集分数的***，所述***用于将单细胞测序建立的Marker基因名，细胞亚群名的表达矩阵M中的Marker基因名比对至池测序建立的基因名，样本名的表达矩阵N，进而获取Marker基因名，样本名的表达矩阵N’，最终获得M中每个细胞亚群在N’的各个样本中所占的富集分数。

本发明优点在于：

1、本发明提供了一种分析样本内部各细胞亚群所占比例的方法。大型临床队列的样本包含有丰富的生物信息，但单细胞测序价格昂贵，对取材要求高，导致样本例数纳入少，从而产生数据偏倚，也无法用单细胞测序技术探究其表达谱特征与细胞组分。而本发明可以利用池测序(如二代测序)价格低廉，标本处理要求低，技术成熟的优势，有机结合单细胞测序，能够更好的分析样本内部各细胞的生物学特征及比例，也可在池测序队列中验证和进一步探究单细胞测序的结果。尤其适合在大样本队列中寻找肿瘤内部的细胞亚群与临床意义之间的关联性。本发明的技术有助于减少前期的实验投入，节省科研经费的开支，有的放矢。

2、本发明利用机器学习的方式拟合得到一个包括单细胞测序和池测序的模型，该模型用于推断池测序中细胞比例具有准确度高的优势。

附图说明

附图1是实施例1的单细胞测序中的细胞聚类分析结果。

附图2是实施例1中单细胞测序所得的细胞亚群比例(a)与按本发明方法推测的细胞亚群比例(b)的比较。

附图3是实施例1中B细胞(a)，Fibroblast细胞(b)经单细胞测序所得富集分数和按本发明方法推测的富集分数的相关性分析。

具体实施方式

下面结合附图对本发明提供的具体实施方式作详细说明。

实施例1在胰腺癌中利用单细胞测序数据计算池测序中细胞亚群富集分数

0、取15份新鲜的胰腺癌组织，平均分为两份，一份进行10X genomic单细胞测序，另外一份行RNAseq池测序。

1、10Xbarcode UMI识别：10X genomics平台建库测序的下机数据为fastq序列，包括barcode，UMI，mRNA序列三部分。使用软件cellranger count，通过barcode序列识别细胞，通过UMI序列对基因表达定量，通过3’端mRNA序列进行基因鉴定。

2、比对基因组：采取STAR算法，将fastq序列比对至参考基因组上，获得序列的基因信息。使用cellranger对基因的表达量进行定量。

3、低质量细胞过滤和均一化：基于细胞的基因表达量和线粒体DNA表达量对低质量细胞过滤。使用R语言的Seurat包，过滤细胞之后，再通过Seurat包的Normalization函数对表达量进行均一化。

4、细胞聚类：使用PCA(主成分分析)方法对细胞表达谱降维，选取前10个主成分用于后续的聚类。使用KNN(临近算法)对细胞进行聚类，使用Umap对细胞进行基于图论的可视化聚类。将KNN获得的聚类结果映射至Umap聚类结果上。(图1)

5、Marker基因提取：Seurat通过wilcox法比较检验不同细胞组成间的差异基因，其中表达较其他细胞群体显著上升的基因即为该细胞亚群的Marker基因。

6、建立Marker基因，目标细胞群表达矩阵M：将每个细胞亚群的Marker基因作为行名，每个单细胞作为列名，从单细胞测序数据中获得一表达矩阵M。

7、池测序：从组织提取全组织RNA，经过反转录为cDNA，片段化为cDNA片段，两端加引物，PCR扩增，测序。从illumina平台测序下机的数据包括fastq_1,fastq_2。经过fastq质控，STAR比对至参考基因组，htseq-count获取基因表达量，获取以基因为行名，样本为列名的池测序的表达矩阵N。

8、获取表达谱：将6中的Marker基因比对至7中的表达矩阵N，获取以Marker基因为行名，样本名为列名的表达谱N’。

9、使用程序scFrac获取细胞亚群的富集分数：使用程序scFrac，以M，N’为输入，得到M中每个细胞亚群在N’中所占的富集分数。

10、以条形图比较单细胞测序所得的细胞亚群比例(图2a)与经scFrac推测的细胞亚群比例(图2b)，可见各个细胞比例较为接近。比较B细胞(图3a)，Fibroblast细胞(图3b)在单细胞测序和池测序中经scFrac推测的富集分数的相关性，可见相关性较强。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法，其特征在于，包括以下步骤：

b)通过池测序，建立基因名，样本名的表达矩阵N；

d)使用程序scFrac，以M，N’为输入，得到M中每个细胞亚群在N’的各个样本中所占的富集分数；

步骤a)包括以下步骤：

a-1)10X barcode UMI识别：10X genomics平台建库测序的下机数据为fastq序列，包括barcode，UMI，mRNA序列三部分，使用软件cellranger count，通过barcode序列识别细胞，通过UMI序列对基因表达定量，通过3’端mRNA序列进行基因鉴定；

2.根据权利要求1所述的方法，其特征在于，步骤a)所述的单细胞测序为单细胞转录组测序。

3.根据权利要求2所述的方法，其特征在于，所述单细胞转录组测序的方法选自Smart-seq、Smart-seq2、CEL-seq、CEL-seq2、Drop-seq、MARS-seq、MARS-seq2和SCRB-seq。

4.根据权利要求1所述的方法，其特征在于，步骤b)包括以下步骤：从组织提取全组织RNA，经过反转录为cDNA，片段化为cDNA片段，两端加引物，PCR扩增，测序，从illumina平台测序下机的数据包括fastq_1,fastq_2，经过fastq质控，STAR比对至参考基因组，htseq-count获取基因表达量，获取以基因为行名，样本为列名的池测序的表达矩阵N。