CN114864000A

CN114864000A - 一种动态鉴定人类单细胞染色体拷贝数的方法

Info

Publication number: CN114864000A
Application number: CN202210780710.5A
Authority: CN
Inventors: 严智强; 乔杰; 闫丽盈; 朱小辉; 宋石
Original assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Current assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-08-05
Anticipated expiration: 2042-07-05
Also published as: CN114864000B

Abstract

本发明公开了一种基于二代测序数据的动态鉴定人类单细胞染色体拷贝数的方法，该方法可通过动态寻找最优的划分染色体拷贝数1、拷贝数2、拷贝数3的阈值，实现提高单细胞染色体拷贝数检测的准确率。

Description

一种动态鉴定人类单细胞染色体拷贝数的方法

技术领域

本发明涉及医学检测领域，更为具体的，本发明涉及一种动态鉴定人类单细胞染色体拷贝数的方法。

背景技术

单细胞基因组测序是鉴定人类胚胎及癌症单细胞中染色体拷贝数的重要技术手段。通过单细胞基因组扩增后进行二代测序，可以得到单细胞的基因组测序数据。进一步通过测序数据计算，可以获得单细胞的染色体拷贝数。在通过单细胞基因组测序数据计算染色体拷贝数的过程中，由于单细胞基因组测序数据的离散程度较大，在基因组上所得数据较为分散，而目前的多数计算方法都是设定一个固定的阈值来划分染色体拷贝数，将染色体划分为单体（拷贝数为1）、二倍体（拷贝数为2）、三倍体（拷贝数为3）。然而，由于不同批次和不同类型的单细胞测序数据分布不同，这种使用固定划分阈值的方法在确定染色体拷贝数方面存在一定的缺陷，并不是每一批单细胞测序数据均适合用软件设定的固定阈值来确定染色体的拷贝数。因此，在不同单细胞数据中，这种方法的准确性有较大波动。

目前针对单细胞基因组测序数据的染色体拷贝数的检测多使用上述方法，如现有技术1《Single cell sequencing reveals low levels of aneuploidy acrossmammalian tissues》当中，就使用单细胞基因组测序检测每个单细胞中的染色体拷贝数。在确定染色体拷贝数方面，首先将基因组划分为固定窗口，然后统计比对到参考基因组每个窗口的序列数，并计算序列数相对于二倍体的ratio，并进行log2处理，而后计算每条染色体上log2(ratio)的中位数。而后使用固定的阈值来确定染色体的拷贝数：如果该染色体上log2(ratio)的中位数小于-0.57则认为该染色体拷贝数为1，如果中位数大于0.44则认为该染色体拷贝数为3，如果中位数在-0.57和0.44之间，则认为该染色体拷贝数为2。相似的，在另一篇现有技术2 《Assessment of megabase-scale somatic copy numbervariation using single-cell sequencing》中，也是使用单细胞测序鉴定每个细胞中的染色体拷贝数。在该文章中，首先通过和现有技术1相同的方法，得到每个染色体的log2(ratio)的中位数，然后使用固定阈值确定染色体拷贝数：如果该染色体上log2(ratio)的中位数小于-0.35则认为该染色体拷贝数为1，如果中位数大于0.4则认为该染色体拷贝数为3，如果中位数在-0.35和0.4之间，则认为该染色体拷贝数为2。

在以上的现有技术中，二者均是通过固定的阈值，来划分染色体的拷贝数。然而对于不同项目的单细胞样本，甚至同一项目的不同批次的单细胞样本，由于扩增、建库、测序等方面的差异，导致不同批次单细胞测序数据分布不同，因此，使用固定阈值来确定染色体拷贝数所获得的结果合理性和准确度仍然有待于提升。

发明内容

为了解决现有技术中存在的缺陷，本发明开发了一种基于二代测序数据的动态鉴定人类单细胞染色体拷贝数的方法，该方法可通过动态寻找最优的划分染色体拷贝数1、拷贝数2、拷贝数3的阈值，实现提高单细胞染色体拷贝数检测的准确率。具体的，本发明提供如下的技术方案：

本发明的第一个方面，提供一种基于二代测序数据的动态鉴定人类单细胞染色体拷贝数的方法，该方法包括如下步骤：

（1）单细胞扩增并进行DNA二代测序;

（2）步骤（1）所得测序数据（reads），去除二代测序接头序列、低质量碱基。处理后数据比对至参考基因组，并去掉低比对质量序列以及PCR重复序列；

（3）参考基因组窗口中比对序列计数及窗口GC含量、比对率统计：

将参考基因组划分为连续的窗口，并计算每个窗口中比对的序列（reads）数，GC含量和可比对率；

（4）窗口序列数矫正及观测值相对于理论值比例（copy ratio）的计算：

对每个窗口的序列数进行GC含量和比对率的矫正，得到每个窗口矫正后的序列数，然后计算每条染色体上序列数的中位数；

（5）利用获得的中位数计算观测值和理论拷贝数的比值copy ratio，并log2处理，得到log2(copy ratio)，对所有样本的所有染色体的这些log2(copy ratio)的分布进行统计，并得到density分布图，找到染色体拷贝之间的最佳划分阈值，从而动态设定不同批次单细胞测序样本的最佳的染色体拷贝数划分阈值。

在一种实施方案中，步骤（1）中每个样本测序量为1 G数据量。

在一种实施方式中，步骤（2）的具体操作为：将步骤（1）所得测序数据（reads），使用trim_galore质控软件默认参数去除二代测序接头序列、低质量碱基。仅保留处理后序列长度大于36 bp的序列。经过处理后的序列，使用BWA软件以默认参数比对至UCSC hg38人类参考基因组。比对后序列使用samtools软件去除结果中的低比对质量序列、PCR重复序列。得到唯一比对至参考基因组的非重复序列。

在一种实施方式中，步骤（3）的具体操作为：将参考基因组划分为1 Mb大小的窗口，使用readCounter软件统计每个窗口的比对序列数。使用gcCounter软件计算参考基因组每个窗口的GC含量。使用mapCounter软件计算参考基因组每个窗口的可比对率。

在一种实施方式中，步骤（4）所述矫正的具体操作为：

随机选取步骤3中所得的5000个窗口，获得每个窗口的GC含量值和比对序列数，使用R软件中的loess套索回归函数拟合GC含量值和原始比对序列数的关系，得到任一GC含量（GCi）所对应的权重（GCiw）；进一步使用loess套索回归函数拟合GC矫正后的序列数和比对率的关系，得到任一比对率（Mj）所对应的权重Mjw。并且得到在给定GC含量（GCi）和比对率（Mj）状态下的理论序列数（Tij）。

在得到上述两种权重后，对于人类参考基因组上任一窗口k，其比对序列数记为Nk，GC含量记为GCi，比对率记为Mj。则矫正后序列数如下公式所示：

RNk=Nk×GCiw×Mjw

进一步，计算矫正后序列数RNk相对于二倍体下相同GC含量和比对率的理论序列数（Tij）的比例（copy ratio）=RNk/Tij，并对copy ratio做log2转换，得到该窗口的log2(copy ratio)。计算公式为：

log2(copy ratio)=log2(RNk/Tij)。

本发明相对于现有技术，获得了如下显著的进步：

本发明使用动态的方法，计算拷贝数1（单体）、拷贝数2（二倍体）、拷贝数3（三体）的最佳划分阈值。由于每个项目或是每个批次的单细胞测序样本存在一定差别，尤其是扩增体系和建库体系不同的情况下，不同批次单细胞样本所得测序数据差异较大，这种情况下，使用一个固定阈值来确定不同批次中单细胞样本染色体的拷贝数容易造成染色体拷贝数检测错误。本发明报道的动态设定阈值的方法，根据每个批次单细胞测序数据自身的比对后数据分布特点，动态设定最优的染色体拷贝数划分的阈值。相对于设定固定阈值的方法，更加适用于每个不同项目和批次的单细胞测序样本，避免了由于使用固定阈值造成的错误，提高了检测的准确性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1：利用X染色体上所有窗口确定拷贝数1（单体）和拷贝数2（二倍体）的最佳划分阈值；

图2：利用常染色体确定拷贝数2和3的最佳划分阈值；

图3：拷贝数2（二倍体）和拷贝数3（三体）的最佳划分阈值可视化；

图4：和现有技术1、2对比，所用拷贝数1和拷贝数2划分阈值在本项目的单细胞测序数据中的划分表现。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1 确定单细胞的染色体拷贝数的方法

1.单细胞扩增及测序

单细胞使用MALBAC方法进行单细胞DNA扩增。单细胞扩增分为预扩增和指数扩增两步。首先将细胞裂解，并配制好预扩增试剂。向含有5ul细胞裂解液的PCR管中加入30µl预扩增试剂，在PCR热仪中孵育。孵育温度及时间为：94℃/3min；8个循环的 20℃/40s，30℃/40s，40℃/30s，50℃/30s，60℃/30s，70℃/4min，95℃/20s，58℃/10s；4℃暂停。预扩增完成后，得到单细胞扩增模板，而后进行指数扩增。首先根据比例配制扩增混合液。向完成预扩增的PCR管中加入30µl 扩增混合液。在 PCR 仪中孵育，PCR反应条件为：94℃/30s；94℃/20s运行17 个循环，58℃/30s，72℃/3min；4℃暂停。指数扩增产物DNA使用商业化DNA建库试剂盒（购自NEBNext）构建二代测序文库。文库使用Illumina X10测序仪测序，测序方式为双端150 bp，每个样本测序量为1 G数据量。

2.测序数据清洗、比对及比对后处理

步骤1所得测序数据（reads），使用trim_galore质控软件默认参数去除二代测序接头序列、低质量碱基。仅保留处理后序列长度大于36 bp的序列。经过处理后的序列，使用BWA软件以默认参数比对至UCSC hg38人类参考基因组。比对后序列使用samtools软件去除结果中的低比对质量序列、PCR重复序列。得到唯一比对至参考基因组的非重复序列。

3.参考基因组窗口中比对序列计数及窗口GC含量、比对率统计

将参考基因组划分为1 Mb大小的窗口，使用readCounter软件统计每个窗口的比对序列数。使用gcCounter软件计算参考基因组每个窗口的GC含量。使用mapCounter软件计算参考基因组每个窗口的可比对率。

4.窗口序列数矫正及观测值相对于理论值比例（copy ratio）的计算

由于二代测序数据比对至每个窗口的序列数受到所在窗口中GC含量和比对率的影响，因此为了将不同窗口所得序列数进行归一化，需要对每个窗口的序列数进行GC含量和比对率的矫正。

矫正具体操作方法为：随机选取步骤3中所得的5000个窗口，获得每个窗口的GC含量值和比对序列数，使用R软件中的loess套索回归函数拟合GC含量值和原始比对序列数的关系，得到任一GC含量（GCi）所对应的权重（GCiw）；进一步使用loess套索回归函数拟合GC矫正后的序列数和比对率的关系，得到任一比对率（Mj）所对应的权重Mjw。并且得到在给定GC含量（GCi）和比对率（Mj）状态下的理论序列数（Tij）。

RNk=Nk×GCiw×Mjw

log2(copy ratio)=log2(RNk/Tij)

进一步，对每条染色体上的所有窗口的log2(copy ratio)计算中位数，将中位数作为对应染色体的最终拷贝数判定前数值。

实施例2 确定拷贝数1（单体）和拷贝数2（二倍体）的最优划分阈值

本案例样本为一批人类体外培养囊胚活检后消化分离所得的囊胚单细胞。该批样本来自于北京大学第三医院，该批次一共获得14个囊胚的共129个单细胞，所得细胞状态良好。上述129个单细胞分别使用实施例1中的方法进行单细胞扩增、测序、及数据计算，进一步，对每条染色体上的所有窗口的log2(copy ratio)计算中位数，将中位数作为对应染色体的最终拷贝数判定前数值，该批次样本的每条染色体的拷贝数判定前数值如表1所示。

表1 实施例2中129个样本的每条染色体经序列数矫正后的拷贝数判定前数值（chr1-chrX表示染色体名称，cell1-cell129表示样本名称）

在单细胞染色体拷贝数检测中，阈值的确定十分重要，决定了染色体被判定的拷贝数以及整体结果的准确率。在确定拷贝数1和拷贝数2的划分阈值中，X染色体是一个很好的阳性参考。在人类单细胞测序样本中，绝大多数细胞的X染色体拷贝数为1（XY男性细胞）或2（XX女性细胞），因此，对于整体染色体拷贝数1和拷贝数2的确定，可以借助X染色体，寻找最优的划分阈值。

具体操作为：按照实施例1的方法，取129个单细胞X染色体的所有窗口的log₂(copy ratio)值，对这些数据进行频率统计并可视化，其分布如图1所示。由图可知，X染色体上所有窗口的log₂(copy ratio)值具有明显的两个集中区域，左侧集中区域（峰）代表拷贝数1的X染色体上的log₂(copy ratio)数值分布，右侧集中区域（峰）代表拷贝数2的X染色体上的log₂(copy ratio)数值分布。进一步，使用R软件的density函数得到两个富集峰之间峰谷的对应值，得到峰谷对应值为-0.44。则在本批次单细胞样本中，-0.44即为拷贝数1和拷贝数2的最佳划分阈值。

实施例3 确定拷贝数2（二倍体）和拷贝数3（三体）的最优划分阈值

为了进一步确定拷贝数2和拷贝数3的最优划分阈值，基于实施例2相同的计算方式，拷贝数为2对应的log₂(copy ratio)的峰和拷贝数为3对应的log₂(copy ratio)的峰之间的峰谷则为该两个拷贝数的最佳划分阈值。

在人类单细胞中，大部分染色体拷贝数为2，部分染色体存在拷贝数增加，拷贝数为3。因此，进一步借助数据分布的方式，以常染色体上log₂(copy ratio)数值分布确定拷贝数2和拷贝数3的最佳划分阈值。如图2所示，在所有常染色体上，由于大部分染色体拷贝数为2，log₂(copy ratio)数值主要集中于0附近。在图2右侧存在一个小的峰，为少数拷贝数为3的染色体对应的log₂(copy ratio)数值集中形成的峰。使用R的density函数计算右侧峰和主峰之间峰谷对应的数值，发现0.4为最佳区分数值。

为了更加直观地展示峰谷位置，统计右侧峰对应的染色体数量，进一步从-0.44和0.4之间（拷贝数为2）随机选取相同数量的染色体，将右侧峰log₂(copy ratio)数值和随机选取的拷贝数2对应的log₂(copy ratio)数值进行统计并可视化，如图3所示。在平衡了拷贝数2的染色体数量后，在坐标轴上可以明显得到一个峰谷，峰谷对应的数值0.4则为拷贝数2和拷贝数3的最佳划分阈值。

在得到拷贝数1，拷贝数2，拷贝数3之间最佳划分阈值后，可准确确定本批次单细胞每条染色体的拷贝数。结果如表2所示。

表2 实施例2和3中129个样本经最佳阈值划分后的每条染色体拷贝数（chr1-chrX表示染色体名称，cell1-cell129表示样本名称）

实施例4 对照实验

对于本批次单细胞测序数据，尝试使用以往技术中已报道的设定固定划分阈值的方法用于本批次数据。文献《Single cell sequencing reveals low levels ofaneuploidy across mammalian tissues》当中使用固定阈值-0.57划分拷贝数1和拷贝数2，如果使用该数值对拷贝数1和拷贝数2进行划分，结果如图4所示，则位于-0.57到-0.44（峰谷）的部分的样本，事实上明显更倾向于属于拷贝数1，但是使用-0.57的阈值后这些样本会位于阈值的右侧，被错误地划分为拷贝数2。类似的，如果使用文献《Assessment ofmegabase-scale somatic copy number variation using single-cell sequencing》中的-0.35划分拷贝数1和拷贝数2，如图4所示，则位于-0.44（峰谷）和-0.35之间的部分，事实上明显更倾向于属于拷贝数2，但是使用-0.35的阈值后这些样本会位于阈值的左侧，被错误地划分为拷贝数1。因此，对于本批次数据，使用已有报道的固定阈值并不是最优选择。如果使用文献报道的固定阈值，则会导致本批单细胞数据中一些样本的染色体拷贝数划分出现错误。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于二代测序数据的动态鉴定人类单细胞染色体拷贝数的方法，其特征在于，所述方法包括如下步骤：

（1）单细胞扩增并进行DNA二代测序;

（2）步骤（1）所得测序数据，去除二代测序接头序列、低质量碱基，处理后数据比对至参考基因组，并去掉低比对质量序列以及PCR重复序列；

将参考基因组划分为连续的窗口，并计算每个窗口中比对的序列数，GC含量和可比对率；

（4）窗口序列数矫正及观测值相对于理论值比例记为“copy ratio”，计算copy ratio的数值：

（5）利用获得的中位数计算观测值相对于理论拷贝数的比值copy ratio，并log2处理，得到log2(copy ratio)，对所有样本的所有染色体的这些log2(copy ratio)的分布进行统计，并得到density分布图，找到染色体拷贝之间的最佳划分阈值，从而动态设定不同批次单细胞测序样本的最佳的染色体拷贝数划分阈值。

2.如权利要求1所述的方法，其特征在于，步骤（1）中每个样本测序量为1 G数据量。

3.如权利要求1所述的方法，其特征在于，步骤（2）的具体操作为：将步骤（1）所得测序数据，使用trim_galore质控软件默认参数去除二代测序接头序列、低质量碱基；仅保留处理后序列长度大于36 bp的序列；经过处理后的序列，使用BWA软件以默认参数比对至UCSChg38人类参考基因组；比对后序列使用samtools软件去除结果中的低比对质量序列、PCR重复序列，得到唯一比对至参考基因组的非重复序列。

4.如权利要求1所述的方法，其特征在于，步骤（3）的具体操作为：将参考基因组划分为1 Mb大小的窗口，使用readCounter软件统计每个窗口的比对序列数，使用gcCounter软件计算参考基因组每个窗口的GC含量，使用mapCounter软件计算参考基因组每个窗口的可比对率。

5.如权利要求1所述的方法，其特征在于，步骤（4）所述矫正的具体操作为：

随机选取步骤3中所得的5000个窗口，获得每个窗口的GC含量值和比对序列数，使用R软件中的loess套索回归函数拟合GC含量值和原始比对序列数的关系，得到任一GC含量GCi所对应的权重GCiw；进一步使用loess套索回归函数拟合GC矫正后的序列数和比对率的关系，得到任一比对率Mj所对应的权重Mjw，并且得到在给定GC含量GCi和比对率Mj状态下的理论序列数Tij；

在得到上述两种权重后，对于人类参考基因组上任一窗口k，其比对序列数记为Nk，GC含量记为GCi，比对率记为Mj，矫正后序列数如下公式所示：

RNk=Nk×GCiw×Mjw；

进一步，计算矫正后序列数RNk相对于二倍体下相同GC含量和比对率的理论序列数Tij的比例copy ratio=RNk/Tij，并对copy ratio做log2转换，得到该窗口的log2(copyratio)，计算公式为：

log2(copy ratio)=log2(RNk/Tij)。