CN114864000A - 一种动态鉴定人类单细胞染色体拷贝数的方法 - Google Patents

一种动态鉴定人类单细胞染色体拷贝数的方法 Download PDF

Info

Publication number
CN114864000A
CN114864000A CN202210780710.5A CN202210780710A CN114864000A CN 114864000 A CN114864000 A CN 114864000A CN 202210780710 A CN202210780710 A CN 202210780710A CN 114864000 A CN114864000 A CN 114864000A
Authority
CN
China
Prior art keywords
ratio
window
copy
copy number
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210780710.5A
Other languages
English (en)
Other versions
CN114864000B (zh
Inventor
严智强
乔杰
闫丽盈
朱小辉
宋石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Third Hospital Peking University Third Clinical Medical College
Original Assignee
Peking University Third Hospital Peking University Third Clinical Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Third Hospital Peking University Third Clinical Medical College filed Critical Peking University Third Hospital Peking University Third Clinical Medical College
Priority to CN202210780710.5A priority Critical patent/CN114864000B/zh
Publication of CN114864000A publication Critical patent/CN114864000A/zh
Application granted granted Critical
Publication of CN114864000B publication Critical patent/CN114864000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于二代测序数据的动态鉴定人类单细胞染色体拷贝数的方法,该方法可通过动态寻找最优的划分染色体拷贝数1、拷贝数2、拷贝数3的阈值,实现提高单细胞染色体拷贝数检测的准确率。

Description

一种动态鉴定人类单细胞染色体拷贝数的方法
技术领域
本发明涉及医学检测领域,更为具体的,本发明涉及一种动态鉴定人类单细胞染色体拷贝数的方法。
背景技术
单细胞基因组测序是鉴定人类胚胎及癌症单细胞中染色体拷贝数的重要技术手段。通过单细胞基因组扩增后进行二代测序,可以得到单细胞的基因组测序数据。进一步通过测序数据计算,可以获得单细胞的染色体拷贝数。在通过单细胞基因组测序数据计算染色体拷贝数的过程中,由于单细胞基因组测序数据的离散程度较大,在基因组上所得数据较为分散,而目前的多数计算方法都是设定一个固定的阈值来划分染色体拷贝数,将染色体划分为单体(拷贝数为1)、二倍体(拷贝数为2)、三倍体(拷贝数为3)。然而,由于不同批次和不同类型的单细胞测序数据分布不同,这种使用固定划分阈值的方法在确定染色体拷贝数方面存在一定的缺陷,并不是每一批单细胞测序数据均适合用软件设定的固定阈值来确定染色体的拷贝数。因此,在不同单细胞数据中,这种方法的准确性有较大波动。
目前针对单细胞基因组测序数据的染色体拷贝数的检测多使用上述方法,如现有技术1《Single cell sequencing reveals low levels of aneuploidy acrossmammalian tissues》当中,就使用单细胞基因组测序检测每个单细胞中的染色体拷贝数。在确定染色体拷贝数方面,首先将基因组划分为固定窗口,然后统计比对到参考基因组每个窗口的序列数,并计算序列数相对于二倍体的ratio,并进行log2处理,而后计算每条染色体上log2(ratio)的中位数。而后使用固定的阈值来确定染色体的拷贝数:如果该染色体上log2(ratio)的中位数小于-0.57则认为该染色体拷贝数为1,如果中位数大于0.44则认为该染色体拷贝数为3,如果中位数在-0.57和0.44之间,则认为该染色体拷贝数为2。相似的,在另一篇现有技术2 《Assessment of megabase-scale somatic copy numbervariation using single-cell sequencing》中,也是使用单细胞测序鉴定每个细胞中的染色体拷贝数。在该文章中,首先通过和现有技术1相同的方法,得到每个染色体的log2(ratio)的中位数,然后使用固定阈值确定染色体拷贝数:如果该染色体上log2(ratio)的中位数小于-0.35则认为该染色体拷贝数为1,如果中位数大于0.4则认为该染色体拷贝数为3,如果中位数在-0.35和0.4之间,则认为该染色体拷贝数为2。
在以上的现有技术中,二者均是通过固定的阈值,来划分染色体的拷贝数。然而对于不同项目的单细胞样本,甚至同一项目的不同批次的单细胞样本,由于扩增、建库、测序等方面的差异,导致不同批次单细胞测序数据分布不同,因此,使用固定阈值来确定染色体拷贝数所获得的结果合理性和准确度仍然有待于提升。
发明内容
为了解决现有技术中存在的缺陷,本发明开发了一种基于二代测序数据的动态鉴定人类单细胞染色体拷贝数的方法,该方法可通过动态寻找最优的划分染色体拷贝数1、拷贝数2、拷贝数3的阈值,实现提高单细胞染色体拷贝数检测的准确率。具体的,本发明提供如下的技术方案:
本发明的第一个方面,提供一种基于二代测序数据的动态鉴定人类单细胞染色体拷贝数的方法,该方法包括如下步骤:
(1)单细胞扩增并进行DNA二代测序;
(2)步骤(1)所得测序数据(reads),去除二代测序接头序列、低质量碱基。处理后数据比对至参考基因组,并去掉低比对质量序列以及PCR重复序列;
(3)参考基因组窗口中比对序列计数及窗口GC含量、比对率统计:
将参考基因组划分为连续的窗口,并计算每个窗口中比对的序列(reads)数,GC含量和可比对率;
(4)窗口序列数矫正及观测值相对于理论值比例(copy ratio)的计算:
对每个窗口的序列数进行GC含量和比对率的矫正,得到每个窗口矫正后的序列数,然后计算每条染色体上序列数的中位数;
(5)利用获得的中位数计算观测值和理论拷贝数的比值copy ratio,并log2处理,得到log2(copy ratio),对所有样本的所有染色体的这些log2(copy ratio)的分布进行统计,并得到density分布图,找到染色体拷贝之间的最佳划分阈值,从而动态设定不同批次单细胞测序样本的最佳的染色体拷贝数划分阈值。
在一种实施方案中,步骤(1)中每个样本测序量为1 G数据量。
在一种实施方式中,步骤(2)的具体操作为:将步骤(1)所得测序数据(reads),使用trim_galore质控软件默认参数去除二代测序接头序列、低质量碱基。仅保留处理后序列长度大于36 bp的序列。经过处理后的序列,使用BWA软件以默认参数比对至UCSC hg38人类参考基因组。比对后序列使用samtools软件去除结果中的低比对质量序列、PCR重复序列。得到唯一比对至参考基因组的非重复序列。
在一种实施方式中,步骤(3)的具体操作为:将参考基因组划分为1 Mb大小的窗口,使用readCounter软件统计每个窗口的比对序列数。使用gcCounter软件计算参考基因组每个窗口的GC含量。使用mapCounter软件计算参考基因组每个窗口的可比对率。
在一种实施方式中,步骤(4)所述矫正的具体操作为:
随机选取步骤3中所得的5000个窗口,获得每个窗口的GC含量值和比对序列数,使用R软件中的loess套索回归函数拟合GC含量值和原始比对序列数的关系,得到任一GC含量(GCi)所对应的权重(GCiw);进一步使用loess套索回归函数拟合GC矫正后的序列数和比对率的关系,得到任一比对率(Mj)所对应的权重Mjw。并且得到在给定GC含量(GCi)和比对率(Mj)状态下的理论序列数(Tij)。
在得到上述两种权重后,对于人类参考基因组上任一窗口k,其比对序列数记为Nk,GC含量记为GCi,比对率记为Mj。则矫正后序列数如下公式所示:
RNk=Nk×GCiw×Mjw
进一步,计算矫正后序列数RNk相对于二倍体下相同GC含量和比对率的理论序列数(Tij)的比例(copy ratio)=RNk/Tij,并对copy ratio做log2转换,得到该窗口的log2(copy ratio)。计算公式为:
log2(copy ratio)=log2(RNk/Tij)。
本发明相对于现有技术,获得了如下显著的进步:
本发明使用动态的方法,计算拷贝数1(单体)、拷贝数2(二倍体)、拷贝数3(三体)的最佳划分阈值。由于每个项目或是每个批次的单细胞测序样本存在一定差别,尤其是扩增体系和建库体系不同的情况下,不同批次单细胞样本所得测序数据差异较大,这种情况下,使用一个固定阈值来确定不同批次中单细胞样本染色体的拷贝数容易造成染色体拷贝数检测错误。本发明报道的动态设定阈值的方法,根据每个批次单细胞测序数据自身的比对后数据分布特点,动态设定最优的染色体拷贝数划分的阈值。相对于设定固定阈值的方法,更加适用于每个不同项目和批次的单细胞测序样本,避免了由于使用固定阈值造成的错误,提高了检测的准确性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1:利用X染色体上所有窗口确定拷贝数1(单体)和拷贝数2(二倍体)的最佳划分阈值;
图2:利用常染色体确定拷贝数2和3的最佳划分阈值;
图3:拷贝数2(二倍体)和拷贝数3(三体)的最佳划分阈值可视化;
图4:和现有技术1、2对比,所用拷贝数1和拷贝数2划分阈值在本项目的单细胞测序数据中的划分表现。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1 确定单细胞的染色体拷贝数的方法
1.单细胞扩增及测序
单细胞使用MALBAC方法进行单细胞DNA扩增。单细胞扩增分为预扩增和指数扩增两步。首先将细胞裂解,并配制好预扩增试剂。向含有5ul细胞裂解液的PCR管中加入30µl预扩增试剂,在PCR热仪中孵育。孵育温度及时间为:94℃/3min;8个循环的 20℃/40s,30℃/40s,40℃/30s,50℃/30s,60℃/30s,70℃/4min,95℃/20s,58℃/10s;4℃暂停。预扩增完成后,得到单细胞扩增模板,而后进行指数扩增。首先根据比例配制扩增混合液。向完成预扩增的PCR管中加入30µl 扩增混合液。在 PCR 仪中孵育,PCR反应条件为:94℃/30s;94℃/20s运行17 个循环,58℃/30s,72℃/3min;4℃暂停。指数扩增产物DNA使用商业化DNA建库试剂盒(购自NEBNext)构建二代测序文库。文库使用Illumina X10测序仪测序,测序方式为双端150 bp,每个样本测序量为1 G数据量。
2.测序数据清洗、比对及比对后处理
步骤1所得测序数据(reads),使用trim_galore质控软件默认参数去除二代测序接头序列、低质量碱基。仅保留处理后序列长度大于36 bp的序列。经过处理后的序列,使用BWA软件以默认参数比对至UCSC hg38人类参考基因组。比对后序列使用samtools软件去除结果中的低比对质量序列、PCR重复序列。得到唯一比对至参考基因组的非重复序列。
3.参考基因组窗口中比对序列计数及窗口GC含量、比对率统计
将参考基因组划分为1 Mb大小的窗口,使用readCounter软件统计每个窗口的比对序列数。使用gcCounter软件计算参考基因组每个窗口的GC含量。使用mapCounter软件计算参考基因组每个窗口的可比对率。
4.窗口序列数矫正及观测值相对于理论值比例(copy ratio)的计算
由于二代测序数据比对至每个窗口的序列数受到所在窗口中GC含量和比对率的影响,因此为了将不同窗口所得序列数进行归一化,需要对每个窗口的序列数进行GC含量和比对率的矫正。
矫正具体操作方法为:随机选取步骤3中所得的5000个窗口,获得每个窗口的GC含量值和比对序列数,使用R软件中的loess套索回归函数拟合GC含量值和原始比对序列数的关系,得到任一GC含量(GCi)所对应的权重(GCiw);进一步使用loess套索回归函数拟合GC矫正后的序列数和比对率的关系,得到任一比对率(Mj)所对应的权重Mjw。并且得到在给定GC含量(GCi)和比对率(Mj)状态下的理论序列数(Tij)。
在得到上述两种权重后,对于人类参考基因组上任一窗口k,其比对序列数记为Nk,GC含量记为GCi,比对率记为Mj。则矫正后序列数如下公式所示:
RNk=Nk×GCiw×Mjw
进一步,计算矫正后序列数RNk相对于二倍体下相同GC含量和比对率的理论序列数(Tij)的比例(copy ratio)=RNk/Tij,并对copy ratio做log2转换,得到该窗口的log2(copy ratio)。计算公式为:
log2(copy ratio)=log2(RNk/Tij)
进一步,对每条染色体上的所有窗口的log2(copy ratio)计算中位数,将中位数作为对应染色体的最终拷贝数判定前数值。
实施例2 确定拷贝数1(单体)和拷贝数2(二倍体)的最优划分阈值
本案例样本为一批人类体外培养囊胚活检后消化分离所得的囊胚单细胞。该批样本来自于北京大学第三医院,该批次一共获得14个囊胚的共129个单细胞,所得细胞状态良好。上述129个单细胞分别使用实施例1中的方法进行单细胞扩增、测序、及数据计算,进一步,对每条染色体上的所有窗口的log2(copy ratio)计算中位数,将中位数作为对应染色体的最终拷贝数判定前数值,该批次样本的每条染色体的拷贝数判定前数值如表1所示。
表1 实施例2中129个样本的每条染色体经序列数矫正后的拷贝数判定前数值(chr1-chrX表示染色体名称,cell1-cell129表示样本名称)
Figure 445461DEST_PATH_IMAGE001
Figure 831443DEST_PATH_IMAGE002
Figure 80022DEST_PATH_IMAGE003
Figure 944073DEST_PATH_IMAGE004
Figure 210975DEST_PATH_IMAGE005
Figure 299017DEST_PATH_IMAGE006
Figure 34892DEST_PATH_IMAGE007
Figure 437054DEST_PATH_IMAGE008
Figure 574774DEST_PATH_IMAGE009
Figure 833717DEST_PATH_IMAGE010
Figure 40577DEST_PATH_IMAGE011
在单细胞染色体拷贝数检测中,阈值的确定十分重要,决定了染色体被判定的拷贝数以及整体结果的准确率。在确定拷贝数1和拷贝数2的划分阈值中,X染色体是一个很好的阳性参考。在人类单细胞测序样本中,绝大多数细胞的X染色体拷贝数为1(XY男性细胞)或2(XX女性细胞),因此,对于整体染色体拷贝数1和拷贝数2的确定,可以借助X染色体,寻找最优的划分阈值。
具体操作为:按照实施例1的方法, 取129个单细胞X染色体的所有窗口的log2(copy ratio)值,对这些数据进行频率统计并可视化,其分布如图1所示。由图可知,X染色体上所有窗口的log2(copy ratio)值具有明显的两个集中区域,左侧集中区域(峰)代表拷贝数1的X染色体上的log2(copy ratio)数值分布,右侧集中区域(峰)代表拷贝数2的X染色体上的log2(copy ratio)数值分布。进一步,使用R软件的density函数得到两个富集峰之间峰谷的对应值,得到峰谷对应值为-0.44。则在本批次单细胞样本中,-0.44即为拷贝数1和拷贝数2的最佳划分阈值。
实施例3 确定拷贝数2(二倍体)和拷贝数3(三体)的最优划分阈值
为了进一步确定拷贝数2和拷贝数3的最优划分阈值,基于实施例2相同的计算方式,拷贝数为2对应的log2(copy ratio)的峰和拷贝数为3对应的log2(copy ratio)的峰之间的峰谷则为该两个拷贝数的最佳划分阈值。
在人类单细胞中,大部分染色体拷贝数为2,部分染色体存在拷贝数增加,拷贝数为3。因此,进一步借助数据分布的方式,以常染色体上log2(copy ratio)数值分布确定拷贝数2和拷贝数3的最佳划分阈值。如图2所示,在所有常染色体上,由于大部分染色体拷贝数为2,log2(copy ratio)数值主要集中于0附近。在图2右侧存在一个小的峰,为少数拷贝数为3的染色体对应的log2(copy ratio)数值集中形成的峰。使用R的density函数计算右侧峰和主峰之间峰谷对应的数值,发现0.4为最佳区分数值。
为了更加直观地展示峰谷位置,统计右侧峰对应的染色体数量,进一步从-0.44和0.4之间(拷贝数为2)随机选取相同数量的染色体,将右侧峰log2(copy ratio)数值和随机选取的拷贝数2对应的log2(copy ratio)数值进行统计并可视化,如图3所示。在平衡了拷贝数2的染色体数量后,在坐标轴上可以明显得到一个峰谷,峰谷对应的数值0.4则为拷贝数2和拷贝数3的最佳划分阈值。
在得到拷贝数1,拷贝数2,拷贝数3之间最佳划分阈值后,可准确确定本批次单细胞每条染色体的拷贝数。结果如表2所示。
表2 实施例2和3中129个样本经最佳阈值划分后的每条染色体拷贝数(chr1-chrX表示染色体名称,cell1-cell129表示样本名称)
Figure 43168DEST_PATH_IMAGE012
Figure 35395DEST_PATH_IMAGE013
Figure 668501DEST_PATH_IMAGE014
Figure 378968DEST_PATH_IMAGE015
Figure 919671DEST_PATH_IMAGE016
Figure 15672DEST_PATH_IMAGE017
Figure 616418DEST_PATH_IMAGE018
Figure 548601DEST_PATH_IMAGE019
Figure 96257DEST_PATH_IMAGE020
Figure 859814DEST_PATH_IMAGE021
Figure 615149DEST_PATH_IMAGE022
实施例4 对照实验
对于本批次单细胞测序数据,尝试使用以往技术中已报道的设定固定划分阈值的方法用于本批次数据。文献《Single cell sequencing reveals low levels ofaneuploidy across mammalian tissues》当中使用固定阈值-0.57划分拷贝数1和拷贝数2,如果使用该数值对拷贝数1和拷贝数2进行划分,结果如图4所示,则位于-0.57到-0.44(峰谷)的部分的样本,事实上明显更倾向于属于拷贝数1,但是使用-0.57的阈值后这些样本会位于阈值的右侧,被错误地划分为拷贝数2。类似的,如果使用文献《Assessment ofmegabase-scale somatic copy number variation using single-cell sequencing》中的-0.35划分拷贝数1和拷贝数2,如图4所示,则位于-0.44(峰谷)和-0.35之间的部分,事实上明显更倾向于属于拷贝数2,但是使用-0.35的阈值后这些样本会位于阈值的左侧,被错误地划分为拷贝数1。因此,对于本批次数据,使用已有报道的固定阈值并不是最优选择。如果使用文献报道的固定阈值,则会导致本批单细胞数据中一些样本的染色体拷贝数划分出现错误。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种基于二代测序数据的动态鉴定人类单细胞染色体拷贝数的方法,其特征在于,所述方法包括如下步骤:
(1)单细胞扩增并进行DNA二代测序;
(2)步骤(1)所得测序数据,去除二代测序接头序列、低质量碱基,处理后数据比对至参考基因组,并去掉低比对质量序列以及PCR重复序列;
(3)参考基因组窗口中比对序列计数及窗口GC含量、比对率统计:
将参考基因组划分为连续的窗口,并计算每个窗口中比对的序列数,GC含量和可比对率;
(4)窗口序列数矫正及观测值相对于理论值比例记为“copy ratio”,计算copy ratio的数值:
对每个窗口的序列数进行GC含量和比对率的矫正,得到每个窗口矫正后的序列数,然后计算每条染色体上序列数的中位数;
(5)利用获得的中位数计算观测值相对于理论拷贝数的比值copy ratio,并log2处理,得到log2(copy ratio),对所有样本的所有染色体的这些log2(copy ratio)的分布进行统计,并得到density分布图,找到染色体拷贝之间的最佳划分阈值,从而动态设定不同批次单细胞测序样本的最佳的染色体拷贝数划分阈值。
2.如权利要求1所述的方法,其特征在于,步骤(1)中每个样本测序量为1 G数据量。
3.如权利要求1所述的方法,其特征在于,步骤(2)的具体操作为:将步骤(1)所得测序数据,使用trim_galore质控软件默认参数去除二代测序接头序列、低质量碱基;仅保留处理后序列长度大于36 bp的序列;经过处理后的序列,使用BWA软件以默认参数比对至UCSChg38人类参考基因组;比对后序列使用samtools软件去除结果中的低比对质量序列、PCR重复序列,得到唯一比对至参考基因组的非重复序列。
4.如权利要求1所述的方法,其特征在于,步骤(3)的具体操作为:将参考基因组划分为1 Mb大小的窗口,使用readCounter软件统计每个窗口的比对序列数,使用gcCounter软件计算参考基因组每个窗口的GC含量,使用mapCounter软件计算参考基因组每个窗口的可比对率。
5.如权利要求1所述的方法,其特征在于,步骤(4)所述矫正的具体操作为:
随机选取步骤3中所得的5000个窗口,获得每个窗口的GC含量值和比对序列数,使用R软件中的loess套索回归函数拟合GC含量值和原始比对序列数的关系,得到任一GC含量GCi所对应的权重GCiw;进一步使用loess套索回归函数拟合GC矫正后的序列数和比对率的关系,得到任一比对率Mj所对应的权重Mjw,并且得到在给定GC含量GCi和比对率Mj状态下的理论序列数Tij;
在得到上述两种权重后,对于人类参考基因组上任一窗口k,其比对序列数记为Nk,GC含量记为GCi,比对率记为Mj,矫正后序列数如下公式所示:
RNk=Nk×GCiw×Mjw;
进一步,计算矫正后序列数RNk相对于二倍体下相同GC含量和比对率的理论序列数Tij的比例copy ratio=RNk/Tij,并对copy ratio做log2转换,得到该窗口的log2(copyratio),计算公式为:
log2(copy ratio)=log2(RNk/Tij)。
CN202210780710.5A 2022-07-05 2022-07-05 一种动态鉴定人类单细胞染色体拷贝数的方法 Active CN114864000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210780710.5A CN114864000B (zh) 2022-07-05 2022-07-05 一种动态鉴定人类单细胞染色体拷贝数的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210780710.5A CN114864000B (zh) 2022-07-05 2022-07-05 一种动态鉴定人类单细胞染色体拷贝数的方法

Publications (2)

Publication Number Publication Date
CN114864000A true CN114864000A (zh) 2022-08-05
CN114864000B CN114864000B (zh) 2022-09-09

Family

ID=82625920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210780710.5A Active CN114864000B (zh) 2022-07-05 2022-07-05 一种动态鉴定人类单细胞染色体拷贝数的方法

Country Status (1)

Country Link
CN (1) CN114864000B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579054A (zh) * 2022-11-17 2023-01-06 北京大学 单细胞拷贝数变异探测方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013059967A1 (zh) * 2011-10-28 2013-05-02 深圳华大基因科技有限公司 一种检测染色体微缺失和微重复的方法
US20150056619A1 (en) * 2012-04-05 2015-02-26 Bgi Diagnosis Co., Ltd. Method and system for determining copy number variation
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN108410970A (zh) * 2018-03-12 2018-08-17 博奥生物集团有限公司 一种单细胞基因组拷贝数变异的检测方法及试剂盒
CN108573125A (zh) * 2018-04-19 2018-09-25 上海亿康医学检验所有限公司 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN110016497A (zh) * 2018-01-09 2019-07-16 北京大学 一种检测肿瘤单细胞基因组拷贝数变异的方法
CN113270141A (zh) * 2021-06-10 2021-08-17 哈尔滨因极科技有限公司 一种基因组拷贝数变异检测整合算法
US20210343372A1 (en) * 2020-02-18 2021-11-04 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013059967A1 (zh) * 2011-10-28 2013-05-02 深圳华大基因科技有限公司 一种检测染色体微缺失和微重复的方法
US20150056619A1 (en) * 2012-04-05 2015-02-26 Bgi Diagnosis Co., Ltd. Method and system for determining copy number variation
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN110016497A (zh) * 2018-01-09 2019-07-16 北京大学 一种检测肿瘤单细胞基因组拷贝数变异的方法
CN108410970A (zh) * 2018-03-12 2018-08-17 博奥生物集团有限公司 一种单细胞基因组拷贝数变异的检测方法及试剂盒
CN108573125A (zh) * 2018-04-19 2018-09-25 上海亿康医学检验所有限公司 一种基因组拷贝数变异的检测方法及包含该方法的装置
US20210343372A1 (en) * 2020-02-18 2021-11-04 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
CN113270141A (zh) * 2021-06-10 2021-08-17 哈尔滨因极科技有限公司 一种基因组拷贝数变异检测整合算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUIMIN GENG等: "A Computational Method to Predict DNA Copy Number Alterations from Gene Expression Data in Tumor Cases", 《2009 42ND HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES》 *
JIE CHEN等: "A Statistical Change Point Model Approach for the Detection of DNA Copy Number Variations in Array CGH Data", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
盛敏等: "比较基因组杂交技术的研究进展", 《中国妇幼健康研究》 *
范俊梅等: "应用基因组杂交、单核苷酸芯片及二代测序技术开展植入前染色体异常诊断", 《中国实用妇科与产科杂志》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579054A (zh) * 2022-11-17 2023-01-06 北京大学 单细胞拷贝数变异探测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN114864000B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
Wang et al. Using next-generation RNA sequencing to identify imprinted genes
Kalender Atak et al. High accuracy mutation detection in leukemia on a selected panel of cancer genes
EP3143537A1 (en) Rare variant calls in ultra-deep sequencing
CN104846089B (zh) 一种孕妇外周血中胎儿游离dna比例的定量方法
EP3405573A1 (en) Methods and systems for high fidelity sequencing
He et al. Assessing the impact of data preprocessing on analyzing next generation sequencing data
CN111304303A (zh) 微卫星不稳定的预测方法及其应用
WO2019213811A1 (zh) 检测染色体非整倍性的方法、装置及***
Brody et al. Quantification of somatic mutation flow across individual cell division events by lineage sequencing
Gu et al. Mutation spectrum of six genes in Chinese phenylketonuria patients obtained through next-generation sequencing
CN114864000B (zh) 一种动态鉴定人类单细胞染色体拷贝数的方法
CN106951737B (zh) 一种检测流产组织dna拷贝数变异和嵌合体的方法
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
Lee et al. Targeted next-generation sequencing-based detection of microsatellite instability in colorectal carcinomas
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
Kim et al. Korean society for genetic diagnostics guidelines for validation of next-generation sequencing-based somatic variant detection in hematologic malignancies
Zhu et al. Extremely rare polymorphisms in Saccharomyces cerevisiae allow inference of the mutational spectrum
CN108728515A (zh) 一种使用duplex方法检测ctDNA低频突变的文库构建和测序数据的分析方法
CN107208152B (zh) 检测突变簇的方法和装置
Benaglio et al. Ultra high throughput sequencing in human DNA variation detection: a comparative study on the NDUFA3-PRPF31 region
WO2019213810A1 (zh) 检测染色体非整倍性的方法、装置及***
Valori et al. High prevalence of low-allele-fraction somatic mutations in STAT3 in peripheral blood CD8+ cells in multiple sclerosis patients and controls
TW202300656A (zh) 基因組序列上之拷貝數變異之候選斷點之機械性檢測
EP4328920A1 (en) Microsatellite instability detection method based on second-generation sequencing
CN109897822B (zh) 一组人永生化b淋巴细胞系的建立和应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant