CN108256292B - 一种拷贝数变异检测装置 - Google Patents

一种拷贝数变异检测装置 Download PDF

Info

Publication number
CN108256292B
CN108256292B CN201611242775.5A CN201611242775A CN108256292B CN 108256292 B CN108256292 B CN 108256292B CN 201611242775 A CN201611242775 A CN 201611242775A CN 108256292 B CN108256292 B CN 108256292B
Authority
CN
China
Prior art keywords
module
region
value
llr
cnv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611242775.5A
Other languages
English (en)
Other versions
CN108256292A (zh
Inventor
荆瑞琳
张萌萌
王晓雯
李雪峰
玄兆伶
李大为
梁峻彬
陈重建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Annoroad Gene Technology Beijing Co ltd
Beijing Annoroad Medical Laboratory Co ltd
Original Assignee
Annoroad Gene Technology Beijing Co ltd
Annoroad Yiwu Medical Inspection Co ltd
Zhejiang Annoroad Bio Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Annoroad Gene Technology Beijing Co ltd, Annoroad Yiwu Medical Inspection Co ltd, Zhejiang Annoroad Bio Technology Co ltd filed Critical Annoroad Gene Technology Beijing Co ltd
Priority to CN201611242775.5A priority Critical patent/CN108256292B/zh
Publication of CN108256292A publication Critical patent/CN108256292A/zh
Application granted granted Critical
Publication of CN108256292B publication Critical patent/CN108256292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种拷贝数变异检测装置,其检测灵敏度高。本发明的拷贝数变异检测装置包括序列比对模块、前期数据处理模块、归一化模块、背景库筛选模块、数据波动消除模块、GC校正模块、CNV区域预判模块、CNV区域断点确定模块、CNV区域筛选模块、以及输出模块。

Description

一种拷贝数变异检测装置
技术领域
本发明属于分子生物学检测领域,具体涉及拷贝数变异检测装置及检测方法。
背景技术
基因的拷贝数变异(Copy Number Variation,CNV)是一类在临床上非常重要的结构变异,与多种肿瘤的预后,靶向药物的敏感性相关。可靠的CNV检测结果可以为临床用药以及病情评估等提供十分重要的依据。
目前临床上所使用的CNV检测技术大多为基于PCR或免疫组化的实验手段(如FISH,IHC等)。此类方法仅可对常见的已知基因进行CNV检测,且检测结果灵敏度较低,仅可检测高倍数(一般为8倍以上)扩增变异,单次检测仅可覆盖一个基因。
基于新一代测序(Next-Generation Sequencing,NGS)平台的CNV检测,可以在保证检测性能的前提下一次性给出多个基因的CNV检测结果,同时对于低拷贝数CNV有更好的检测效果。
传统的NGS平台CNV检测技术大多基于全基因组测序技术平台完成研发。随着NGS技术的不断进步,基于目标区域捕获的高深度测序技术在临床检测的应用场景下逐渐表现出优势。但由于全基因组测序数据与目标区域捕获测序数据存在根本差别,目前传统NGS平台的CNV检测方法对于目标区域捕获测序数据并不适用,在检测CNV的准确性上难以保证,且检测灵敏度有待提高。
发明内容
鉴于上述现有技术中存在的不足,本发明的目的在于提供一种对CNV的检测灵敏度更高的检测装置及检测方法。
本发明的发明人为解决上述技术问题进行了深入研究,结果发现:在CNV检测方法中,是否对数据进行合理的降噪处理,断点的分析是否准确,是否使用了合适的背景库,会直接影响到检测结果。通过更为合理全面的降噪处理,动态背景库的应用,能够提高CNV检测灵敏度,更进一步,通过更为准确的断点分析,可以扩大CNV检测结果的应用范围,从而完成了本发明。
即,本发明包括:
一种拷贝数变异(所述拷贝数变异可以发生在基因区域,也可以发生在非基因区域区域)检测装置,其包括:
测序数据获取模块,用于获取来自待检生物样本的捕获测序数据及来自背景库样本(健康正常人)的捕获测序数据;优选地,上述两种捕获测序数据是使用同一张基因捕获芯片进行捕获测序而得到的;
序列比对模块,其与所述测序数据获取模块连接,用于将所述测序数据获取模块获得的测序数据与参考基因组序列进行比对,得到比对结果(包含例如,每条可以与参考基因组比对上的短序列所在的染色体,坐标,短序列与参考基因组的匹配情况等信息),根据该比对结果计算每一个位点(指基因组上的每个位点,但捕获测序中可能有一些位点的深度值为0)的深度值;
前期数据处理模块,其与所述序列比对模块连接,用于将目标区域(100k-100M,全基因组或者重点关注区域)划分为一定长度(50-1000bp)的有重叠(10-70%)的窗口,去掉窗口内位点的深度极值(极大值和极小值)并计算深度均值或中值,且计算该窗口内的参考基因组序列的GC含量;
归一化模块,其与所述前期数据处理模块连接,用于对所述前期数据处理模块所得到的每一个窗口内的深度均值或中值进行归一化,计算得到待检生物样本和背景库样本每个窗口内的Z值;
背景库筛选模块,其与所述归一化模块连接,用于根据待检生物样本与背景库样本的Z值,筛选出n个背景库样本(健康人样本,每个背景库样本对应一个健康人),得到背景库样本集,然后使用该n个背景库样本在m个窗口内的Z值构建m行n列的矩阵Xm×n
数据波动消除模块,其与所述背景库筛选模块连接,用于消除捕获测序带来的固有数据波动;
GC校正模块,其与所述数据波动消除模块连接,用于根据各窗口内的GC含量进行GC矫正;
CNV区域预判模块,其与所述GC校正模块连接,用于进行CNV区域的预判,并基于预判结果修正初始正常区域的Z值,同时基于修正的Z值重新对CNV区域预判结果进行单次修正;
CNV区域断点确定模块,其与所述CNV区域预判模块连接,用于判定CNV区域断点;
CNV区域筛选模块,其与所述CNV区域断点确定模块连接,用于对所述CNV区域断点确定模块判定的CNV区域进行筛选;以及
输出模块,其与所述CNV区域筛选模块连接,用于输出CNV检测结果(包括例如,用于展示CNV检测结果的图,CNV变异的阴性/阳性的判定结果等)。
本发明的拷贝数变异检测装置的测序数据获取模块获取采用二代测序方法对待检生物样本中的DNA进行测序而得到的测序数据。二代测序的主流平台一般均采用边合成边测序(Sequencing By Synthesis,SBS)技术进行核酸测序。测序前,需要对核酸(DNA或RNA)样本进行测序文库的构建,基本流程如下:首先将片段化后的DNA进行片段的末端修复,之后在修复后的片段3′端加“A”碱基,然后将上述DNA片段与含有测序引物结合位点的DNA接头(Adapter)连接,最后通过PCR进行扩增,完成测序文库构建。对于具体的二代测序方法没有特殊限制,可以采用任何本领域技术人员已知的二代测序方法。
优选地,所述前期数据处理模块采用滑动窗口法划分所述窗口。
优选地,所述归一化模块依据下述公式(1)计算得到待检样本每个窗口内的Z值,公式(1)中Zi表示第i个窗口的Z值,
Zi=trimScale(Zi,Zi)……(1)。
优选地,定义公式(2):
定义
Figure BDA0001196514950000041
其中,chr表示染色体,St表示待检生物样本,Sn表示背景库样本;
所述背景库筛选模块根据待检生物样本与背景库的Z值,筛选出使得所述d值最小的n个背景库样本,得到筛选后的背景库样本集S1,S2,S3,...,Sn
优选地,所述数据波动消除模块对背景库矩阵Xm×n做奇异值分解,得到m行r列因子矩阵Um×r,r为因子个数,然后取贡献率(即排名靠前的K个因子,K一般为4-10)最大的k个因子进行LOESS回归,得到残差Zp
优选地,所述GC校正模块根据各窗口内的GC含量,对Zp基于LOESS回归做GC矫正,得到残差Zpg,且X染色体、Y染色体和常染色体分开计算。
优选地,所述CNV区域预判模块
a.首先,根据用户给定的阈值k,对在收敛区域[-k,k]范围内的Zpg值(初始正常区域)进行归一化操作;
b.然后,重复上述过程直到收敛区域内的窗口集不再发生变化(修正正常区域);
c.然后,将不属于收敛区域[-k,k]的窗口进行连接,根据用户给定的阈值Ct,令相邻窗口数不超过Ct的归为同一异常片段;
d.然后,按下述公式(3)对正常区域N内的所有窗口的Zpg值进行修正;以及
Zpg=trimScale(Zpg,N)……(3)
e.重复步骤c和步骤d一次,得到Zrpg(最终正常区域);
定义Zpg均值大于0的异常片段为拷贝数增加片段,小于0的异常片段为拷贝数减少片段,其他除异常片段外的所有片段为正常区域N。
优选地,所述CNV区域断点确定模块对于给定某个异常区域R,
a.根据用户设定的窗口数阈值Nw,对异常区域R内的前Nw个相邻窗口计算基于正常区域均值和方差的LLR,得到LLRnorm,计算基于异常区域均值和方差的LLR,得到LLRabn
若LLRabn≥LLRnorm,则认为当前连续Nw个窗口为CNV区域,Nw值保持不变;
若LLRabn<LLRnorm,则将Nw值减半;
b.对异常区域R内的下Nw个连续窗口重复上述步骤a,直至Nw值小于设定的阈值Nmw,迭代停止;
c.在迭代停止后的Nw个窗口中,任取其中一个窗口S做为CNV区域的断点,基于断点窗口S,对当下的Nw个窗口计算基于正常区域均值和方差的LLR,得到LLRnorm,计算基于异常区域均值和方差的LLR,得到LLRabn,若LLRnorm+LLRabn值为最大,则将窗口S判定为CNV区域断点。
优选地,所述CNV区域筛选模块对CNV区域内的所有M个窗口,计算基于正常区域均值和方差的LLR,得到LLRtest
从正常区域进行N次抽样,每次抽样取M个连续窗口,并计算基于正常区域均值和方差的LLR,可得到N个LLRnormal值;
若某次抽样的LLRnormal值小于LLRtest,则将当前CNV区域修正为正常区域,若N次抽样的LLRnormal值均大于LLRtest,则保留当前CNV区域。
优选地,所述拷贝数变异检测装置还包括:
数据质检模块,其与所述测序模块和所述序列比对模块连接,用于对所述测序模块获得的测序数据进行质检。质检包括但不限于例如去除低质量的短序列、去除N含量较高的短序列、去除与Adapter相关的短序列、并最终统计各项相关的质控指标。
此外,本发明还包括:
一种拷贝数变异(所述拷贝数变异可以发生在基因区域,也可以发生在非基因区域区域)检测方法,其包括:
测序数据获取步骤,获取来自待检生物样本的捕获测序数据及来自背景库样本的捕获测序数据;优选地,上述两种捕获测序数据是使用同一张基因捕获芯片进行捕获测序而得到的;
序列比对步骤,将所述测序数据获取步骤获得的测序数据与参考基因组序列进行比对,得到比对结果(包含例如,每条可以与参考基因组比对上的短序列所在的染色体,坐标,短序列与参考基因组的匹配情况等信息),根据该比对结果计算每一个位点(指基因组上的每个位点,但捕获测序中可能有一些位点的深度值为0)的深度值;
前期数据处理步骤,将目标区域(100k-100M,全基因组或者重点关注区域)划分为一定长度(50-1000bp)的有重叠(10-70%)的窗口,去掉窗口内位点的深度极值(极大值和极小值)并计算深度均值或中值,且计算该窗口内的参考基因组序列的GC含量;
归一化步骤,对前期数据处理步骤所得到的每一个窗口内的深度均值或中值进行归一化,计算得到待检生物样本和背景库样本每个窗口内的Z值;
背景库筛选步骤,根据待检生物样本与背景库样本的Z值,筛选出n个背景库样本(健康人样本,每个背景库样本对应一个健康人),得到背景库样本集,然后使用该n个背景库样本在m个窗口内的Z值构建m行n列的矩阵Xm×n
数据波动消除步骤,消除捕获测序带来的固有数据波动;
GC校正步骤,根据各窗口内的GC含量进行GC矫正;
CNV区域预判步骤,进行CNV区域的预判,并基于预判结果修正初始正常区域的Z值,同时基于修正的Z值重新对CNV区域预判结果进行单次修正;
CNV区域断点确定步骤,判定CNV区域断点;
CNV区域筛选步骤,对所述CNV区域断点确定步骤判定的CNV区域断点进行筛选;以及
输出步骤,输出CNV检测结果(包括例如,用于展示CNV检测结果的图,CNV变异的阴性/阳性的判定结果等)。
本发明的拷贝数变异检测装置的测序数据获取步骤获取采用二代测序方法对待检生物样本中的DNA进行测序而得到的测序数据。二代测序的主流平台一般均采用边合成边测序(Sequencing By Synthesis,SBS)技术进行核酸测序。测序前,需要对核酸(DNA或RNA)样本进行测序文库的构建,基本流程如下:首先将片段化后的DNA进行片段的末端修复,之后在修复后的片段3′端加“A”碱基,然后将上述DNA片段与含有测序引物结合位点的DNA接头(Adapter)连接,最后通过PCR进行扩增,完成测序文库构建。对于具体的二代测序方法没有特殊限制,可以采用任何本领域技术人员已知的二代测序方法。
优选地,所述前期数据处理步骤采用滑动窗口法划分所述窗口。
优选地,所述归一化步骤依据下述公式(1)计算得到待检样本每个窗口内的Z值,公式(1)中Zi表示第i个窗口的Z值,
Zi=trimScale(Zi,Zi)……(1)。
优选地,定义公式(2):
定义
Figure BDA0001196514950000071
其中,chr表示染色体,St表示待检生物样本,Sn表示背景库样本;
所述背景库筛选步骤根据待检生物样本与背景库的Z值,筛选出使得所述d值最小的n个背景库样本,得到筛选后的背景库样本集S1,S2,S3,...,Sn
优选地,所述数据波动消除步骤对背景库矩阵Xm×n做奇异值分解,得到m行r列因子矩阵Um×r,r为因子个数,然后取贡献率(即排名靠前的K个因子,K一般为4-10)最大的k个因子进行LOESS回归,得到残差Zp
优选地,所述GC校正步骤根据各窗口内的GC含量,对Zp基于LOESS回归做GC矫正,得到残差Zpg,且X染色体、Y染色体和常染色体分开计算。
优选地,所述GNV区域预判步骤
a.首先,根据用户给定的阈值k,对在收敛区域[-k,k]范围内的Zpg值(初始正常区域)进行归一化操作;
b.然后,重复上述过程直到收敛区域内的窗口集不再发生变化(修正正常区域);
c.然后,将不属于收敛区域[-k,k]的窗口进行连接,根据用户给定的阈值Ct,令相邻窗口数不超过Ct的归为同一异常片段;
d.然后,按下述公式(3)修正一次修正正常区域N所有窗口的Zpg值;以及
Zpg=trimScale(Zpg,N)……(3)
e.重复步骤c和步骤e一次,得到Zrpg(最终正常区域);
其中,定义Zpg均值大于0的异常片段为副本(duplication),小于0的异常片段为缺失(deletion),其他(指除异常片段外的所有片段,并定义为正常片段,包括收敛区域)为正常区域N。
优选地,所述GNV区域断点确定步骤对于给定某个异常区域R,
a.根据用户设定的窗口数阈值Nw,对异常区域R内的前Nw个相邻窗口计算基于正常区域均值和方差的LLR,得到LLRnorm,计算基于异常区域均值和方差的LLR,得到LLRabn
若LLRabn≥LLRnorm,则认为当前连续Nw个窗口为GNV区域,Nw值保持不变;
若LLRabn<LLRnorm,则将Nw值减半;
b.对异常区域R内的下Nw个连续窗口重复上述步骤a,直至Nw值小于设定的阈值Nmw,迭代停止;
c.在迭代停止后的Nw个窗口中,任取其中一个窗口S做为CNV区域的断点,基于断点窗口S,对当下的Nw个窗口计算基于正常区域均值和方差的LLR,得到LLRnorm,计算基于异常区域均值和方差的LLR,得到LLRabn,若LLRnorm+LLRabn值为最大,则将窗口S判定为CNV区域断点。
优选地,所述CNV区域筛选步骤对CNV区域内的所有M个窗口,计算基于正常区域均值和方差的LLR,得到LLRtest
从正常区域进行N次抽样,每次抽样取M个连续窗口,并计算基于正常区域均值和方差的LLR,可得到N个LLRnormal值;
若某次抽样的LLRnormal值小于LLRtest,则将当前CNV区域修正为正常区域,若N次抽样的LLRnormal值均大于LLRtest,则保留当前CNV区域。
优选地,所述拷贝数变异检测方法还包括:
数据质检步骤,对所述测序步骤获得的测序数据进行质检。质检包括但不限于例如去除低质量的短序列、去除N含量较高的短序列、去除与Adapter相关的短序列、并最终统计各项相关的质控指标。
此外,本发明人还发现,捕获测序获得的数据具有固有波动,会导致对低浓度低拷贝CNV的误判(假阴性),而仅通过进行背景库校正即可消除这种数据波动。因此,在另一方面中,本发明提供一种拷贝数变异(所述拷贝数变异可以发生在基因区域,也可以发生在非基因区域)检测装置,其包括:
测序数据获取模块,用于获取来自待检生物样本的捕获测序数据及来自背景库样本(健康正常人)的测序数据;优选地,上述两种捕获测序数据是使用同一张基因捕获芯片进行捕获测序而得到的;
序列比对模块,其与所述测序数据获取模块连接,用于将所述测序数据获取模块获得的测序数据与参考基因组序列进行比对,得到比对结果(包含例如,每条可以与参考基因组比对上的短序列所在的染色体,坐标,短序列与参考基因组的匹配情况等信息),根据该比对结果计算每一个位点(指基因组上的每个位点,但捕获测序中可能有一些位点的深度值为0)的深度值;
前期数据处理模块,其与所述序列比对模块连接,用于将目标区域(100k-100M,全基因组或者重点关注区域)划分为一定长度(50-1000bp)的有重叠(10-70%)的窗口,去掉窗口内位点的深度极值(极大值和极小值)并计算深度均值或中值,且计算该窗口内的参考基因组序列的GC含量;
归一化模块,其与所述前期数据处理模块连接,用于对所述前期数据处理模块所得到的每一个窗口内的深度均值或中值进行归一化,计算得到待检生物样本和背景库样本每个窗口内的Z值;
背景库筛选模块,其与所述归一化模块连接,用于根据待检生物样本与背景库样本的Z值,筛选出n个背景库样本(健康人样本,每个背景库样本对应一个健康人),得到背景库样本集,然后使用该n个背景库样本在m个窗口内的Z值构建m行n列的矩阵Xm×n
数据波动消除模块,其与所述背景库筛选模块连接,用于消除捕获测序带来的固有数据波动;以及
GC校正模块,其与所述数据波动消除模块连接,用于根据各窗口内的GC含量进行GC矫正;
输出模块,其与所述GC校正模块连接,用于输出CNV检测结果(包括例如,用于展示CNV检测结果的图,CNV变异的阴性/阳性的判定结果等)。
其中,上述各模块的优选实施方式可参照前述。
相应地,本发明还提供一种拷贝数变异(所述拷贝数变异可以发生在基因区域,也可以发生在非基因区域区域)检测方法,其包括:
测序数据获取步骤,获取来自待检生物样本的捕获测序数据及来自背景库样本的捕获测序数据;
序列比对步骤,将所述测序数据获取步骤获得的测序数据与参考基因组序列进行比对,得到比对结果(包含例如,每条可以与参考基因组比对上的短序列所在的染色体,坐标,短序列与参考基因组的匹配情况等信息),根据该比对结果计算每一个位点(指基因组上的每个位点,但捕获测序中可能有一些位点的深度值为0)的深度值;
前期数据处理步骤,将目标区域(100k-100M,全基因组或者重点关注区域)划分为一定长度(50-1000bp)的有重叠(10-70%)的窗口,去掉窗口内位点的深度极值(极大值和极小值)并计算深度均值或中值,且计算该窗口内的参考基因组序列的GC含量;
归一化步骤,对前期数据处理步骤所得到的每一个窗口内的深度均值或中值进行归一化,计算得到待检生物样本和背景库样本每个窗口内的Z值;
背景库筛选步骤,根据待检生物样本与背景库样本的Z值,筛选出n个背景库样本(健康人样本,每个背景库样本对应一个健康人),得到背景库样本集,然后使用该n个背景库样本在m个窗口内的Z值构建m行n列的矩阵Xm×n
数据波动消除步骤,消除捕获测序带来的固有数据波动;
GC校正步骤,根据各窗口内的GC含量进行GC矫正;以及
输出步骤,输出CNV检测结果(包括例如,用于展示CNV检测结果的图,CNV变异的阴性/阳性的判定结果等)。
其中,上述各步骤的优选实施方式可参照前述。
根据本发明,提供一种对CNV的检测灵敏度更高的检测装置及检测方法。
附图说明
图1为本发明的拷贝数变异检测装置的示意图。
图2为显示实施例1的检测结果的图。
图3为显示实施例2中针对多个确定基因的CNV检测结果的图。
图4为显示比较例1中针对多个确定基因的CNV检测结果的图。
发明的具体实施方式
本说明书中提及的科技术语具有与本领域技术人员通常理解的含义相同的含义,如有冲突以本说明书中的定义为准。
定义
参考基因组:一个细胞或者生物体所携带的一套完整的单倍体序列,包括全套基因和间隔序列。
比对:一般指序列比对,指为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列的过程。
深度值:对于基因组上的某个位点,根据比对结果,覆盖到该位点的短序列数量即为该位点的深度值。
窗口(滑动窗口):一般指基因组上的一段固定长度的区域。
背景库:由N例(一般认为>=20例)健康人样本所组成的样本库。
捕获测序:通过预先设计好的探针,对基因组上的特定区域(感兴趣的区域)进行DNA片段抓取,并最终对抓取到的DNA片段进行NGS测序的过程。
NGS(高通量测序):高通量测序技术(High-throughput sequencing)又称“下一代”测序技术(″Next-generation″sequencing technology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。
归一化(Z值):
Figure BDA0001196514950000121
trimScale(w,v):定义w为某个需要进行归一化的值,v为某个数据集
a.去掉v上下一定百分比的数据得到
Figure BDA0001196514950000124
b.计算
Figure BDA0001196514950000125
的均值μ和标准差σ
c.计算得到
Figure BDA0001196514950000122
作为最终结果
LLR:对于给定的Nw值,LLR定义为X基于均值μ,方差σ的Log Likelihood:
Figure BDA0001196514950000123
SVD(奇异值分解):SVD是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。其作用是把数据集映射到低维空间中去。数据集的特征值(在SVD中用奇异值表征)按照重要性排列,降维的过程就是舍弃不重要的特征向量的过程,而剩下的特征向量组成的空间即为降维后的空间。
生物样本:是指新鲜组织样本,FFPE样本,包含游离DNA的血液样本,优选包含肿瘤细胞的新鲜组织,包含肿瘤细胞的FFPE样本,包含循环肿瘤游离DNA的血液样本等。
实施例
以下通过实施例对本发明进行更具体的说明。应当理解,此处所描述的实施例是用于解释本发明,而非用于限定本发明。
实施例1:
实施例1的拷贝数变异检测装置包括下述模块。
测序数据获取模块:
获取了使用癌症目标区域捕获芯片对待检测的基因组DNA进行捕获测序而获得的2.1G Base测序数据。
数据质检模块∶
对测序数据进行数据质检,过滤掉平均质量值低于15的短序列,过滤掉N含量高于5%的短序列,过滤掉与Adapter相关的短序列,最终剩余2.0G Base的测序数据C。
序列比对模块:
使用经过过滤的2.0G Base测序数据C,与人参考基因组HG19进行短序列比对,获得比对结果A。根据该比对结果A计算基因组上的每个位点的深度值,得到结果D。
前期数据处理模块:
将癌症目标区域划分为150bp且有30%重叠的2135个窗口,去掉窗口内15%的深度极值并计算深度中值,且计算该窗口内的参考基因组序列的GC含量,得到结果X。
归一化模块:
结合结果X与D,依据公式Zi=trimScale(Zi,Zi)计算得到待检测基因组DNA每个窗口内的Z值。
背景库筛选模块:
定义
Figure BDA0001196514950000141
chr是染色体的意思,St表示待检测样本,Sn表示背景库样本。
根据待检基因组DNA与背景库的Z值,筛选出使得d值最小的53个背景库样本,得到筛选后的背景库样本集S1,S2,S3,...,S53
使用这53个样本在2135个窗口内的Z值构建2135行53列矩阵X2135×53作为背景库待用。
数据波动消除模块:
对背景库矩阵X2135×53做奇异值分解,得到2135行25列因子矩阵U2135×25,25为因子个数。取贡献率最大的7个因子进行LOESS回归,得到残差Zp
GC校正模块:
根据2135个窗口内的GC含量,对Zp基于LOESS回归做GC矫正,得到残差Zpg
CNV区域预判模块:
a.对在收敛区域[-3,3]范围内的Zpg值进行归一化操作。
b.重复上述过程直到收敛区域内的窗口集不再发生变化。
c.将不属于收敛区域[-3,3]的窗口进行连接,令相邻窗口数不超过4的归为同一异常片段。
d.定义Zpg均值大于0的异常片段为duplication(拷贝数增加片段),小于0为deletion(拷贝数减少片段),其他(指除异常片段外的所有片段,并定义为正常片段,包括收敛区域)为正常区域N。定义所有异常区域为R。
e.修正正常区域N所有窗口的Zpg
Zpg=trimScale(Zpg,N)
重复步骤c-e一次得到Zrpg
CNV区域断点确定模块:
a.选定某个异常区域R内的前16个相邻窗口:计算基于正常区域N的均值和方差的LLR,得到LLRnorm。计算基于异常区域均值和方差的LLR,得到LLRabn
b.若LLRabn≥LLRnorm,则当前连续16个窗口为CNV区域。
c.若LLRabn<LLRnorm,则将当前窗口数减半,即变为8个窗口。
对选定的异常区域R内的下16个连续窗口重复上述a-c的操作与判断,直至当前窗口数小于4,迭代停止。
迭代停止后,在剩余的窗口中,任取其中一个窗口S做为CNV区域的断点。
基于断点窗口S,对当下的4个窗口:计算基于正常区域均值和方差的LLR,得到LLRnorm。计算基于异常区域均值和方差的LLR,得到LLRabn
若LLRnorm+LLRabn值为最大,则将窗口S定为CNV区域断点;若不是最大,则继续任取,直到找到最大的那个窗口为止。
CNV区域筛选模块:
选定某个CNV区域内的7个窗口,计算基于正常区域均值和方差的LLR,得到LLRtest
从正常区域进行10次抽样,每次抽样取7个连续窗口,并计算基于正常区域均值和方差的LLR,可得到10个LLRnormal值。
若存在某次抽样的LLRnormal值小于LLRtest,则将当前CNV区域修正为正常区域。
若10次抽样的LLRnormal值均大于LLRtest,则保留当前CNV区域。
输出模块:
输出用于展示CNV检测结果的图。检测结果如图2所示,图中标号1-7的区域为CNV阳性区域,其中1,2,3,6,7为拷贝数减少区域;4,5为拷贝数增加区域。还需要说明的是,传统的CBS算法中,会将例如图2中箭头所示的若干离散的点也判定为CNV,从而导致假阳性率偏高。
实施例2:
实施例2为针对乳腺癌多个目标基因(确定基因)的CNV检测。检测样本为一例女性乳腺癌患者的血液样本。实施例2的拷贝数变异检测装置包括:测序数据获取模块、数据质检模块、序列比对模块、前期数据处理模块、归一化模块、背景库筛选模块、数据波动消除模块、以及输出模块。
检测结果如图3所示。图中的每一个小圆点为一个窗口的Zpg值。其中,PDGFRA与KIT基因为低纯度亚型所对应的拷贝数增加;ERBB2基因为正常纯度亚型所对应的拷贝数增加。
比较例1
比较例1的拷贝数变异检测装置不包括背景库筛选模块、数据波动消除模块,其他模块与实施例2的拷贝数变异检测装置相同。
检测结果如图4所示。其中,PDGFRA基因、KIT基因和ERBB2基因均不能检测到拷贝数的变异情况。
结果验证
同一患者原肿瘤新鲜组织提取RNA后进行反转录,使用QPCR方法验证PIK3CA和ERBB2基因的表达量是否升高,验证结果与实施例2检测结果一致。本发明的检测装置能够成功检出低纯度样本的拷贝数变异。
工业实用性
本发明的CNV检测装置及检测方法能够显著地提高CNV的检测灵敏度。

Claims (8)

1.一种拷贝数变异检测装置,其包括:
测序数据获取模块,用于获取来自待检生物样本的捕获测序数据及来自背景库样本的捕获测序数据;
序列比对模块,其与所述测序数据获取模块连接,用于将所述测序数据获取模块获取的测序数据与参考基因组序列进行比对,得到比对结果,根据该比对结果计算每一个位点的深度值;
前期数据处理模块,其与所述序列比对模块连接,用于将目标区域划分为一定长度的有重叠的窗口,去掉窗口内位点的深度极值并计算深度均值或中值,且计算该窗口内的参考基因组序列的GC含量;
归一化模块,其与所述前期数据处理模块连接,用于对所述前期数据处理模块所得到的每一个窗口内的深度均值或中值进行归一化,计算得到待检生物样本和背景库样本每个窗口内的Z值;所述归一化模块依据下述公式(1)计算得到待检生物样本每个窗口内的Z值,公式(1)中Zi表示第i个窗口的Z值,
Zi=trimScale(Zi,Zi)……(1);
背景库筛选模块,其与所述归一化模块连接,用于根据待检生物样本与背景库样本的Z值,筛选出n个背景库样本,得到背景库样本集,然后使用该n个背景库样本在m个窗口内的Z值构建m行n列的矩阵Xm×n
数据波动消除模块,其与所述背景库筛选模块连接,用于消除捕获测序带来的固有数据波动;
GC校正模块,其与所述数据波动消除模块连接,用于根据各窗口内的GC含量进行GC矫正;
CNV区域预判模块,其与所述GC校正模块连接,用于进行CNV区域的预判,并基于预判结果修正初始正常区域的Z值,同时基于修正的Z值重新对CNV区域预判结果进行单次修正;
CNV区域断点确定模块,其与所述CNV区域预判模块连接,用于判定CNV区域断点;
CNV区域筛选模块,其与所述CNV区域断点确定模块连接,用于对所述CNV区域断点确定模块判定的CNV区域进行筛选;
输出模块,其与所述CNV区域筛选模块连接,用于输出CNV检测结果。
2.根据权利要求1所述的拷贝数变异检测装置,其中,所述前期数据处理模块采用滑动窗口法划分所述窗口。
3.根据权利要求1所述的拷贝数变异检测装置,其中,定义公式(2):
定义
Figure FDA0003213302290000021
其中,chr表示染色体,ST表示待检生物样本,SN表示背景库样本,
所述背景库筛选模块根据待检生物样本与背景库的Z值,筛选出使得所述d(ST,SN)值最小的n个背景库样本,得到筛选后的背景库样本集S1,S2,S3,…,SN
4.根据权利要求1所述的拷贝数变异检测装置,其中,所述数据波动消除模块对背景库矩阵Xm×n做奇异值分解,得到m行r列因子矩阵Um×r,r为因子个数,然后取贡献率最大的K个因子进行LOESS回归,得到残差Zp
5.根据权利要求4所述的拷贝数变异检测装置,其中,所述GC校正模块根据各窗口内的GC含量,对Zp基于LOESS回归做GC矫正,得到残差Zpg,且X染色体、Y染色体和常染色体分开计算。
6.根据权利要求5所述的拷贝数变异检测装置,其中,CNV区域预判模块
a.首先,根据用户给定的阈值k,对在收敛区域[-k,k]范围内的Zpg值进行归一化操作;
b.然后,重复上述过程直到收敛区域内的窗口集不再发生变化;
c.然后,将不属于收敛区域[-k,k]的窗口进行连接,根据用户给定的阈值Ct,令相邻窗口数不超过Ct的归为同一异常片段;
d.然后,按下述公式(3)对正常区域N内的所有窗口的Zpg值进行修正;以及
Zpg=trimScale(Zpg,N)……(3)
e.重复步骤c和步骤d一次,得到Zrpg
定义Zpg均值大于0的异常片段为拷贝数增加片段,小于0的异常片段为拷贝数减少片段,其他除异常片段外的所有片段为正常区域N。
7.根据权利要求1所述的拷贝数变异检测装置,其中,所述CNV区域断点确定模块对于给定某个异常区域R,
a.根据用户设定的窗口数阈值Nw,对异常区域R内的前Nw个相邻窗口计算基于正常区域均值和方差的LLR,得到LLRnorm,计算基于异常区域均值和方差的LLR,得到LLRabn
若LLRabn≥LLRnorm,则认为当前连续Nw个窗口为CNV区域,Nw值保持不变;
若LLRabn<LLRnorm,则将Nw值减半;
对于给定的Nw值,LLR定义为X基于均值μ、方差σ的Log Likelihood:
Figure FDA0003213302290000031
b.对异常区域R内的下Nw个连续窗口重复上述步骤a,直至Nw值小于设定的阈值Nmw,迭代停止;
c.在迭代停止后的Nw个窗口中,任取其中一个窗口S做为CNV区域的断点,基于断点窗口S,对当下的Nw个窗口计算基于正常区域均值和方差的LLR,得到LLRnorm,计算基于异常区域均值和方差的LLR,得到LLRabn,若LLRnorm+LLRabn值为最大,则将窗口S判定为CNV区域断点。
8.根据权利要求1所述的拷贝数变异检测装置,其中,所述CNV区域筛选模块对CNV区域内的所有M个窗口,计算基于正常区域均值和方差的LLR,得到LLRtest
从正常区域进行N次抽样,每次抽样取M个连续窗口,并计算基于正常区域均值和方差的LLR,可得到N个LLRnormal值;
对于给定的M值,LLR定义为X基于均值μ、方差σ的Log Likelihood:
Figure FDA0003213302290000041
若某次抽样的LLRnormal值小于LLRtest,则将当前CNV区域修正为正常区域,若N次抽样的LLRnormal值均大于LLRtest,则保留当前CNV区域。
CN201611242775.5A 2016-12-29 2016-12-29 一种拷贝数变异检测装置 Active CN108256292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611242775.5A CN108256292B (zh) 2016-12-29 2016-12-29 一种拷贝数变异检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611242775.5A CN108256292B (zh) 2016-12-29 2016-12-29 一种拷贝数变异检测装置

Publications (2)

Publication Number Publication Date
CN108256292A CN108256292A (zh) 2018-07-06
CN108256292B true CN108256292B (zh) 2021-11-02

Family

ID=62720776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611242775.5A Active CN108256292B (zh) 2016-12-29 2016-12-29 一种拷贝数变异检测装置

Country Status (1)

Country Link
CN (1) CN108256292B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383717A (zh) * 2018-12-29 2020-07-07 北京安诺优达医学检验实验室有限公司 一种构建生物信息分析参照数据集的方法及***
CN109887546B (zh) * 2019-01-15 2019-12-27 明码(上海)生物科技有限公司 基于二代测序的单基因或多基因拷贝数检测***及方法
CN110310704A (zh) * 2019-05-08 2019-10-08 西安电子科技大学 一种基于局部异常因子的拷贝数变异检测方法
CN110648721B (zh) * 2019-09-19 2022-04-12 首都医科大学附属北京儿童医院 针对外显子捕获技术检测拷贝数变异的方法及装置
CN111028890B (zh) * 2019-12-31 2020-09-11 东莞博奥木华基因科技有限公司 一种基于run间矫正的CNV检测方法
CN111341383B (zh) * 2020-03-17 2021-06-29 安吉康尔(深圳)科技有限公司 一种检测拷贝数变异的方法、装置和存储介质
CN111599407B (zh) * 2020-05-13 2021-10-15 北京橡鑫生物科技有限公司 拷贝数变异的检测方法和装置
WO2023030233A1 (zh) * 2021-08-30 2023-03-09 广州燃石医学检验所有限公司 一种拷贝数变异的检测方法及其应用
CN113736865A (zh) * 2021-09-09 2021-12-03 元码基因科技(北京)股份有限公司 用于检测样本中基因拷贝数变异的试剂盒、反应体系及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409088A (zh) * 2011-09-22 2012-04-11 郭奇伟 一种基因拷贝数变异的检测方法
CN102567654A (zh) * 2010-10-08 2012-07-11 霍夫曼-拉罗奇有限公司 阵列数据波校正的方法
CN105483229A (zh) * 2015-12-21 2016-04-13 广东腾飞基因科技有限公司 一种检测胎儿染色体非整倍体的方法及***
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN105760712A (zh) * 2016-03-01 2016-07-13 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10415083B2 (en) * 2013-10-28 2019-09-17 The Translational Genomics Research Institute Long insert-based whole genome sequencing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567654A (zh) * 2010-10-08 2012-07-11 霍夫曼-拉罗奇有限公司 阵列数据波校正的方法
CN102409088A (zh) * 2011-09-22 2012-04-11 郭奇伟 一种基因拷贝数变异的检测方法
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN105483229A (zh) * 2015-12-21 2016-04-13 广东腾飞基因科技有限公司 一种检测胎儿染色体非整倍体的方法及***
CN105760712A (zh) * 2016-03-01 2016-07-13 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法

Also Published As

Publication number Publication date
CN108256292A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN108256292B (zh) 一种拷贝数变异检测装置
CN112888459B (zh) 卷积神经网络***及数据分类方法
CN109880910A (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及***
CN109767810B (zh) 高通量测序数据分析方法及装置
CN110444255B (zh) 基于二代测序的生物信息质控方法、装置和存储介质
CN106650312B (zh) 一种用于循环肿瘤dna拷贝数变异检测的装置
CN110846411B (zh) 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法
TWI670495B (zh) 一種鑑定樣本中腫瘤負荷的方法和系統
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN105986008A (zh) Cnv检测方法和装置
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN114694750B (zh) 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN110993029A (zh) 一种检测染色体异常的方法及***
CN108268752B (zh) 一种染色体异常检测装置
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN113789371A (zh) 一种基于批次矫正的拷贝数变异的检测方法
CN111696622B (zh) 一种校正和评估变异检测软件检测结果的方法
CN116486913B (zh) 基于单细胞测序从头预测调控突变的***、设备和介质
CN116564410A (zh) 一种预测突变位点顺式调控基因的方法、设备和介质
CN116364179A (zh) 结直肠癌预后标志物筛选***及方法、结直肠癌预后风险评估***
CN115240764A (zh) 一种肿瘤基因检测***及数据处理方法
Wu et al. OA 10.07 genomic profile of cell-free dna from sputum, plasma, urine and tumor tissue and correlation with clinical effect in advanced NSCLC
CN117423388B (zh) 一种基于甲基化水平的多癌种检测***及电子设备
CN115798584B (zh) 一种同时检测egfr基因t790m和c797s顺反式突变的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210929

Address after: 322000 1st floor, building 9, standard workshop, No.10 Gaoxin Road, Houjiang street, Yiwu City, Jinhua City, Zhejiang Province

Applicant after: ZHEJIANG ANNOROAD BIO-TECHNOLOGY Co.,Ltd.

Applicant after: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

Applicant after: ANNOROAD (YIWU) MEDICAL INSPECTION Co.,Ltd.

Address before: 100176 room 701, unit 2, building 8, courtyard 88, Kechuang 6th Street, Beijing Economic and Technological Development Zone, Beijing

Applicant before: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

Applicant before: ZHEJIANG ANNOROAD BIO-TECHNOLOGY Co.,Ltd.

Applicant before: ANNOROAD (YIWU) MEDICAL INSPECTION Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240625

Address after: Room 701, Unit 2, Building 8, No. 88 Kechuang 6th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing, 100176

Patentee after: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

Country or region after: China

Patentee after: BEIJING ANNOROAD MEDICAL LABORATORY Co.,Ltd.

Address before: 322000 1st floor, building 9, standard workshop, No.10 Gaoxin Road, Houjiang street, Yiwu City, Jinhua City, Zhejiang Province

Patentee before: ZHEJIANG ANNOROAD BIO-TECHNOLOGY Co.,Ltd.

Country or region before: China

Patentee before: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

Patentee before: ANNOROAD (YIWU) MEDICAL INSPECTION CO.,LTD.