CN107208152B - 检测突变簇的方法和装置 - Google Patents

检测突变簇的方法和装置 Download PDF

Info

Publication number
CN107208152B
CN107208152B CN201580075727.9A CN201580075727A CN107208152B CN 107208152 B CN107208152 B CN 107208152B CN 201580075727 A CN201580075727 A CN 201580075727A CN 107208152 B CN107208152 B CN 107208152B
Authority
CN
China
Prior art keywords
mutation
snp
candidate
cluster
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580075727.9A
Other languages
English (en)
Other versions
CN107208152A (zh
Inventor
宋彬
李波
侯勇
刘耿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Huada Gene Technology Co ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN107208152A publication Critical patent/CN107208152A/zh
Application granted granted Critical
Publication of CN107208152B publication Critical patent/CN107208152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种检测突变簇的方法,该方法包括:获取待测样本的突变数据,突变数据包括N个SNP在参考序列上的位置信息;将参考序列划分为多个多重重叠窗口,使每个窗口包含Num个SNP;弃去不符合(a)和/或(b)的窗口,获得第一候选突变簇,(a)窗口的大小D<Len,Len为预定的Num个SNP突变间距阈值,Len≤ADL,ADL为1/Num的平均突变间距,i为SNP在参考序列上的编号,di为SNPi的突变间距,SNPi的突变间距为参考序列上SNPi到SNPi+1或SNPi‑1的距离,(b)窗口的突变密度显著高于待测样本整体的突变密度;合并有重叠的第一候选突变簇。

Description

检测突变簇的方法和装置
技术领域
本发明涉及生物信息领域,具体的,本发明涉及一种突变簇的检测方法和一种突变簇的检测装置。
背景技术
Kataegis(希腊语,意思为阵雨或雷雨)是一种新型的局部高频突变(localizedhypermutation)[Nik-Zainal,S.et al.Mutational processes molding the genomes of21breast cancers.Cell 149,979-993,doi:10.1016/j.cell.2012.04.024(2012).],有的也称之为突变阵雨(mutation showers)[Taylor,B.J.et al.DNA deaminases inducebreak-associated mutation showers with implication of APOBEC3B and 3A inbreast cancer kataegis.Elife 2,e00534,doi:10.7554/eLife.00534(2013).],另外有的也称之为成簇突变(clustered mutations)[Roberts,S.A.et al.Clustered mutationsin yeast and in human cancers can arise from damaged long single-strand DNAregions.Molecular cell 46,424-435,doi:10.1016/j.molcel.2012.03.030(2012).]。Kataegis最早在乳腺癌中被发现,而后在头颈癌、慢性淋巴细胞白血病(CLL)、淋巴瘤等癌症中均有发现。研究证明,乳腺癌中的kataegis的突变特征(signatures)与APOBEC(载脂蛋白B mRNA编辑酶催化多肽)蛋白家族(特别是APOBEC3B)高度相关,而许多CLL、淋巴瘤中的kataegis往往发生在免疫球蛋白区域。可见,研究kataegis的形成机制有助于深入研究相关癌症的形成和发展机制,对于癌症的诊断和防治研究探讨具有重要意义。
随着研究的深入,人们逐渐了解kataegis的特征。目前kataegis主要发现有六大特征:1、突变成簇,2、突变类型固定,主要为C->T或者C->G,且位于TCW(W代表碱基A或者T)基序,3、与基因重组紧密相关,4、链协同(Strand-coordinated),连续突变在同一条DNA链上,5、顺式排列(incis),突变往往在同一条reads上,6、同一个kataegis内部突变突变基因频率(variant allele fraction)相同。根据kataegis的特征可以开展kataegis检测,同时也可以利用已知的特征来验证检出的kataegis。
发明内容
本发明旨在至少提供一种检测突变簇(成簇突变,Kataegis)的方法。
依据本发明的一方面,提供一种检测突变簇的方法,该方法包括以下步骤:获取待测样本的突变数据,所述突变数据包括N个SNP(Single Nucleotide Polymorphism)在参考序列上的位置信息;将所述参考序列划分为多个多重重叠窗口,使每个所述窗口包含Num个SNP;弃去不符合(a)和/或(b)的窗口,获得第一候选突变簇,一个所述第一候选突变簇包括余下的一个窗口中的Num个SNP,(a)窗口的大小D<Len,Len为预定的Num个SNP突变间距阈值,Len≤ADL,ADL为1/Num的平均突变间距,
Figure BDA0001373380290000021
i为SNP在参考序列上的编号,di为SNPi的突变间距,SNPi的突变间距为参考序列上SNPi到SNPi+1或SNPi-1的距离,(b)窗口的突变密度显著高于待测样本整体的突变密度;合并有重叠的第一候选突变簇。待测样本的突变数据可以是已知的他人对该样本的突变检测结果,也可以是自己对该样本的突变检测结果,所称的突变包括单核苷酸突变,即包括SNP,也包括在癌症研究中,Kataegis特指的SNV(Somatic single nucleotide variants)的成簇突变,即成簇体细胞突变,突变检测结果中包括各检出的突变类型及各突变在该样本核酸序列中的位置,即对应到参考序列上的位置,所称的参考序列指预先确定的序列,可以是预先获得的待测样本所属生物类别的任意参考模板,例如,若待测样本来源的个体为人类,参考序列可选择NCBI数据库提供的HG19,进一步地,也可以预先配置包含更多参考序列的资源库,例如依据待测样本来源个体的状态、地域等因素选择或是测定组装出更接近的序列作为参考序列。Num>=2。所称的多重重叠窗口指一个窗口与多个窗口有部分重叠,当Num>2时。经(a)和/或(b)后余下的一个窗口对应一个所说的第一候选突变簇,每个第一候选突变簇都包含至少一个突变簇或者一个突变簇的一部分。合并有重叠的第一候选突变簇也即合并经(a)和/或(b)后余下的有重叠的窗口。
在本发明的一个实施例中,获取突变数据包括:获取待测样本中的核酸序列的测定数据,测定数据包括多个读段;将所述测定数据与参考序列进行比对,获得比对结果;基于所述比对结果,识别SNP。所说的测定数据通过对核酸序列进行测序文库制备、上机测序获得,在本发明的一个实施例中,获取所述测定数据,包括:获取待测样本中的核酸,制备所述核酸的测序文库,对所述测序文库进行测序。测序文库的制备方法根据所选择的测序方法的要求进行,测序方法依据测序平台的不同可选择但不限于Illumina公司的Hisq2000/2500测序平台、Life Technologies公司的Ion Torrent平台和单分子测序平台,测序方式可以选择单端测序,也可以选择双末端测序,获得的下机数据是测读出来的片段,称为读段(reads)。在本发明的一个实施例中,所称比对可以利用已知比对软件进行,例如SOAP、BWA和TeraMap等。所称核酸序列包括待测样本中的染色体片段,若待测样本来自二倍体生物,染色体片段由互补的两条链组成,分别称为正链和负链,“正链”和“负链”是相对的,称一条链为正链就可以称其互补链为负链,在本发明的一个实施例中,将与参考序列匹配的链称为正链,将另一条链称为负链。可使用的SNP检测软件包括但不限于SomaticSniper、CaVEMan、SAMtools和MuTect。
在本发明的一些实施例中,为使突变数据中的SNP高度可信,可以对识别出的SNP进行过滤,以使突变数据中的SNP满足以下(1)-(9)中的至少之一、至少之二、至少之三、至少之四、至少之五、至少之六、至少之七、至少之八或者全部(1)-(9):(1)比对上任一SNP的读段的数目不少于10条,(2)在肿瘤组织中的突变频率不小于10%,在正常组织中的突变频率不大于2%,(3)在肿瘤组织中的突变频率与在正常组织中的突变频率的差异具有统计意义,(4)其两个等位基因的比对质量得分无显著差异,(5)其两个等位基因的碱基质量得分无显著差异,(6)不明显富集在比对上其的读段的5‘端或3’端的5bp内,(7)任一SNP至少有两条读段的支持,并且所支持的读段中包括正读段和负读段,(8)支持其的读段不同时支持Indel,(9)不位于简单重复区域,简单重复区域(Simple Sequence Repeat,SSR)在真核生物基因组中广泛存在,一般是以1-6bp组成较低程度的重复序列,主要以2-3个核苷酸为重复单位如(GA)n、(AC)n和(GAA)n等,其中n为重复单位的个数,一般软件该区域识别出的SNP的假阳性高。在比对过程中,一般对比对参数进行设置,设置一条reads最多允许有s个碱基错配(mismatch),s优选为1或2,若reads中有超过s个碱基发生错配,则视为该reads无法比对到(比对上)参考序列。(1)中的比对上任一SNP的读段指读段比对到参考序列上的该SNP位置,(7)或(8)中的支持SNP的读段指比对上该SNP的读段的相应位置的碱基与该SNP位点一样。满足(2)和/或(3),利于得到大部分只发生在肿瘤组织的SNP位点,一个SNP的突变频率为在某个群体中发生该SNP的个体所占的比例,这里的群体可以是多个细胞、多个组织或者多个生物个体等,如此,相应的个体为单个细胞、单个组织或单个生物个体,突变频率可以预先利用群体样本来测定,也可以直接利用公开数据。在本发明的一个实施例中,(4)中的比对质量得分和(5)中的碱基质量得分是一般对比软件都有的参数,该实施例是利用BWA软件进行比对,获得比对结果,(4)为两个等位基因的比对质量得分都不小于30,且利用Wilcoxon检验,无显著差异(p<0.05),(5)为一SNP的两个等位基因的碱基质量得分都不小于15,且利用Wilcoxon检验,无显著差异(p<0.06),本领域普通技术人员可以理解,使用其它比对软件由于比对质量和碱基质量计分的规则可能不一样,会使具体得分分值要求不一样,但只要达到一样的比对要求,也属于本发明的范围。在本发明的一个实施例中,(6)的不明显富集为经Wilcoxon检验(p<0.2)。在本发明的一个实施例中,在比对时,将各读段与参考序列进行比对,也会将各读段的反向互补序列与参考序列进行比对,读段和其反向互补序列分别来自染色体片段的两条链,称为正读段和负读段,(7)即为要求比对上的读段中包含正读段和负读段,而且包含至少一条正读段和至少一条负读段的相应位置与该SNP的碱基相同。(8)有利于除去假阳性SNP。
为能检测出所有突变簇,在本发明的一个实施例,将参考序列划分为多个多重重叠窗口,使每个窗口包含Num个SNP,包括:从所述参考序列上划分出第i个SNP到第i+Num-1个SNP之间的区域为窗口i,i取遍{1,2,…,N-Num+1}中的数值。Num可以依据设想的或已知突变簇的平均大小来设置,Num取较大值,即划分的每个窗口包含较多SNP,例如包含超过20个SNP,可能多数包含突变簇的窗口所包含的突变簇不是单个突变簇,一般需要对窗口进一步划分以判断是否包含多个突变簇以及各突变簇的边界,Num取较小值,例如包含小于5个SNP,可能多数包含突变簇的窗口所包含的突变簇不是一个完整的突变簇,一般需要对窗口进行合并以判断一个完整突变簇的边界。在本发明的一个实施例中,Num=10,能使检测过程中需要进一步处理判断的窗口相对较少,利于快速高效检测,且在利用机器运行时运算量较小、对机器处理器的要求较低。
在本发明的一个实施例中,当i=1,di=0,当i>1时,di为参考序列上SNPi到SNPi-1的距离。以一个方向统一定义各个SNP的突变间距,利于后续准确检测。在本发明的一个实施例中,设置Len=ADL。
窗口的突变密度指该窗口所包含的SNP的集中程度,在本发明的一个实施例中,将窗口的突变密度表示为该窗口中突变间距小于ADL的SNP的个数,称为窗口的ADL突变密度,相应的,将待测样本整体的突变密度表示为所有窗口的平均ADL突变密度,即相应的为,每Num个SNP中突变间距小于ADL的SNP个数的平均值,可表示为待测样本整体的突变密度=K/M,其中,K为每个窗口中突变间距小于ADL的SNP的个数的总和,M为窗口总数。在本发明的一个实施例中,窗口的突变密度显著高于待测样本整体的突变密度指,窗口的突变密度大于待测样本整体的突变密度具有统计意义。比较均值的差异,可采用的统计检验包括但不限于t检验、z检验和Fisher精确检验。在本发明的一个实施例中,统计得平均每Num个突变中突变间距小于ADL的突变个数L,那么在该待测样本中平均每T个突变中有L个突变间距小于ADL的突变,T=N/w*L,w为该样本所有的突变间距小于ADL的突变个数,即待测样本的整体的ADL突变密度。利用Fisher精确检验计算P值,检验该窗口的ADL突变密度是否显著高于该样本整体的ADL突变密度。表1显示Fisher精确检验列联表。
表1
ADL突变数目 非ADL突变数目
一个平均窗口 L Num-L
待测样本整体 L T-L
假设突变在全基因组随机分布,那么有一定的概率存在若干个随机突变成簇,为排除掉这些随机突变簇,在本发明的一个实施例中,该方法还包括:将每个合并后的第一候选突变簇的突变密度分别与待测样本整体的突变密度进行比较,获得第二候选突变簇,每个所述第二候选突变簇的突变密度显著高于待测样本整体的突变密度,排除所述第二候选突变簇中的随机误差引起的候选突变簇,获得第三候选突变簇。随着各步骤对窗口的处理,所说的处理包括合并窗口以及去除突变密度不满足所说的显著高于待测样本整体的突变密度的窗口,各步骤中的待测样本整体的突变密度也随之更新。在本发明的一个实施例中,利用负二项分布计算第二候选突变簇的P值(cluster P),cluster
Figure BDA0001373380290000051
如果候选突变簇的P值小于阈值P0则输出作为所说的第三候选突变簇,P0=1×10-4,这里,cluster P被定义为在x-1或更少的碱基对长度范围内观察到y-1个突变的概率,x表示为成簇突变(突变簇)的长度,y表示这个成簇突变中的突变个数,j为该计算公式的变数,j的上界为x-y、下界为0,π表示突变频率=突变个数N/基因组长度G。
同样为了排除掉基因组中的随机突变簇,在本发明的另一个实施例中,是这样处理的:排除合并后的第一候选突变簇中的随机误差引起的候选突变簇,获得第四候选突变簇。由于第一候选突变簇满足(b),合并后的各个第一候选突变簇一般也会满足(b),所以无需进行上个实施方式中的将每个合并后的第一候选突变簇的突变密度分别与待测样本整体的突变密度进行比较的步骤,也可获得基本一致的结果。
本发明的这一方面的检测方法具有较高的灵敏度和准确性,通过窗口遍历的方法能够找出待测样本基因组中所有的成簇突变,经过至少一次统计检验能够保证较高的准确性;而且,该方法适用性广,考虑样本本身平均突变间距和突变频率,能够适用于不同类型、不同来源的肿瘤SNV(SNP)数据分析。再者,该检测方法能够流程化,与上下游分析流程,如绘制阵雨图(Rainfall plot)、kataegis基因注释和突变特征(signatures)分析等有很好的衔接功能;该方法的检测结果,可以辅助临床检测研究,如辅助癌症的诊断和分型、癌症的靶向防治等。
本领域普通技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
依据本发明的另一方面,本发明提供一种检测突变簇的装置,用以实现上述本发明各个实施例中的方法的全部或部分步骤,该装置包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括计算机可执行程序;处理器,与所述数据输入单元、数据输出单元和存储单元连接,用于执行所述程序,执行所述程序包括完成上述实施方式中的各种方法的全部或部分步骤。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的一个实施例中Kataegis检测流程图。
图2是本发明的一个实施例中的DLBCL 129样本的阵雨图。
图3是本发明的一个实施例中的Breast:PD3904a样本的阵雨图。
具体实施方式
以下结合一般步骤及具体参数设置对依据本发明的方法/装置进行突变簇检测进行详细描述。本发明的描述中,“第一”、“第二”、“第三”、“第四”等为指代或描述方便,不能理解为有顺序关系或者有相对重要性指示,除非另有说明,“多个”、“多组”的含义是两个(组)或两个(组)以上。
除另有交待,以下实施例中涉及的未特别交待的软件、统计检验方法及其参数设置,都是公开的且可利用默认设置进行。
实施例一
在进行Kataegis检测前,考虑到SNV来源的不同,为了确保检出的SNV均是高度可信的,设置统一的SNP检测条件和SNP过滤条件,主要包括以下九个条件。
1)肿瘤和正常组织中的SNV位点的测序深度都需大于等于10x;
2)在肿瘤组织中的突变频率≥10%,在正常组织中的突变频率≤2%;
3)Fisher精确检验,在肿瘤组织中的突变频率和在正常组织中的突变频率的差异具有统计意义(p<0.15);
4)突变等位基因的比对质量分数(mapping quality score)不得显著低于参考等位基因(mapping quality score≥30;Wilcoxon检验,p<0.05),若一SNP的两个等位基因中的一个与参考序列相同,将该等位基因称为参考等位基因,将另一个称为突变等位基因;
5)突变等位基因的碱基质量分数(base quality score)不得显著低于参考等位基因(base quality score≥15;Wilcoxon检验,p<0.06);
6)SNV不得显著富集在reads的5’或3’末端的5bp内(Wilcoxon检验,p<0.2);
7)肿瘤组织的任一SNP最少要两条reads支持,并且支持的reads中包含来自于不同链的reads;
8)支持SNV不得同时支持Indel(insertion or the deletion,***或缺失);
9)SNV不得在或者靠近简单重复区域(simple repeat region)。
在检出SNV后开始做kataegis检测。先确定Kataegis检测中的参数,主要有:连续突变个数(Num,Num>=2)、kataegis长度阈值(Len,单位bp)、P值阈值(P0)三个参数分别设置为10,10000和0.0001。
如图1所示,Kataegis检测方法主要包括以下四个步骤:
1、读入突变数据,基本信息统计。统计待测样本的突变总数N,根据每个突变i的突变间距di(定义为该突变与前一个突变的距离,d0=0),计算ADL(abnormal distance line,定义为平均突变间距的1/Num)作为划分突变间距的阈值(公式1)。如果一个突变的突变间距小于ADL,则该突变很可能位于成簇突变,定义突变间距小于ADL的突变为ADL突变,统计样本中ADL突变总数n。
Figure BDA0001373380290000071
2、遍历突变数据,检测第一候选kataegis。以Num个连续突变为窗口遍历每条染色体的突变,如果这Num个突变的总间距小于Len(考虑到不同样本SNV数目和密度的差异,若Len大于ADL则取值为ADL),将这Num个突变作为一个候选kataegis。统计这Num个突变中ADL突变个数(L),那么在该样本中平均每T(T=N/w*L)个突变中有L个ADL突变。利用Fisher精确检验,检验该窗口内的ADL突变密度是否显著高于该样本全基因组整体的ADL突变密度。Fisher精确检验列联表如表1所示。
3、遍历第一候选kataegis,合并有重叠的第一候选kataegis。如果一个第一候选kataegis的首个突变在另一个第一候选kataegis中,则合并两个候选kataegis,延伸至无重合后停止。
4、统计校验,过滤上步获得的候选突变簇并输出结果。首先检验合并后的候选kataegis中ADL突变密度是否显著高于样本整体ADL突变密度,利用Fisher精确检验重新检验,如果计算得的P值小于阈值P0则将各个合并后的候选kataegis作为第二候选kataegis。然后,排除随机误差,假设突变在全基因组随机分布,那么仍有一定的概率存在若干个随机突变成簇,利用负二项分布计算cluster P值后校验(公式2),如果第二候选kataegis的P值小于阈值P0则作为最终的kataegis,输出结果。这里cluster P值被定义为在x-1或更少的碱基对长度范围内观察到y-1个突变的概率。其中x表示为成簇突变的长度,y表示这个成簇突变中的突变个数,π表示突变频率,π=突变个数N/全基因组长度G。
Figure BDA0001373380290000072
实施例二
弥漫大B细胞淋巴瘤(DLBCL)kataegis检测。
突变数据来源为文章《B Cell Super-Enhancers and Regulatory ClustersRecruit AID Tumorigenic Activity》(http://dx.doi.org/10.1016/j.cell.2014.11.013),共10对样本,全基因组测序SNV数据,测序平台为Hiseq,体细胞突变检测软件为VarScan。
利用本检测方法,按实施例一中设置的参数,在DLBCL样本SNV数据中共检测105个kataegis,如表2所示。经注释发现有30个相关基因,其中与免疫球蛋白基因(IGH,IGK,IGL)相关的kataegis有56个,此外还有部分与PIM1,PAX5,RHOH,CIITA,MIR142,BCL6和AICDA等ADI靶基因相关,且呈现复发现象,如表3和图2所示,表明在DLBCL中kataegis形成的诱因为AID。
表2
Figure BDA0001373380290000081
Figure BDA0001373380290000091
Figure BDA0001373380290000101
表3
Figure BDA0001373380290000102
Figure BDA0001373380290000111
实施例三
9种癌症kataeigs检测。
数据来源于《Signatures of mutational processes in human cancer》文章,9种癌症共507个样本,全基因组测序SNV数据。为了评估本方法的敏感性与准确度,通过设置不同的连续突变个数Num和P值阈值(P0)两个参数,比较检出结果与文章结果的异同。结果发现,当连续突变个数为6(与文章一致时),随着P值阈值的不断增大,检测结果不断增加,与文章结果Overlap率(重合率)也增加。本方法检出的kataegis较多,是因为文章在检出后也做了过滤。另一方面,当P值阈值均为0.0001时,连续突变个数为10时较6的Overlap率更高,说明两种方法对包含更多突变的kataegis检出结果趋于一致。
表4
Figure BDA0001373380290000112
按照实施例一的参数设置,以下以Breast:PD3904a样本为例展示具体检测流程。Breast:PD3904a样本来自一名罹患乳腺癌的女性,测序平台为Illumina GAIIx或Hiseq2000,体细胞突变检测软件为CaVEMan。
1)输入数据,表5示例数据信息及格式。
表5
Figure BDA0001373380290000113
2)利用机器语言例如Perl将该检测方法写成脚本,运行。
3)检测过程及结果
第一步,计算Breast:PD3904a的总突变数为5379,平均突变间距为543393.3,则ADL为54339.33。统计全部突变中突变间距小于ADL的个数为812,那么平均在66(5379/812*10)个突变中有10个突变间距小于ADL的突变。
第二步,找出候选kataegis,如表6所示。
表6
Figure BDA0001373380290000121
第三步,合并有overlap的候选kataegis,经过P值校验,最后找到两个Kataegis,如表7所示。
表7
Figure BDA0001373380290000122
图3为Breast:PD3904a样本的阵雨图,可以看到在chr5和chr11两条染色体上有成簇突变,与该文章的检测结果一致。

Claims (9)

1.一种非疾病诊断目的的检测突变簇的方法,其特征在于,包括步骤,
获取待测样本的突变数据,所述突变数据包括N个SNP在参考序列上的位置信息;
将所述参考序列划分为多个多重重叠窗口,使每个所述窗口包含Num个SNP;
弃去不符合(a)和(b)的窗口,获得第一候选突变簇,一个所述第一候选突变簇包括余下的一个窗口中的Num个SNP,
(a)窗口的大小D<Len,Len为预定的Num个SNP突变间距阈值,Len≤ADL,ADL为1/Num的平均突变间距,
Figure FDA0002754433970000011
i为SNP在参考序列上的编号,di为SNPi的突变间距,SNPi的突变间距为参考序列上SNPi到SNPi+1或SNPi-1的距离,
(b)窗口的突变密度显著高于待测样本整体的突变密度;
合并有重叠的第一候选突变簇,
若一个第一候选突变簇的首个突变在另一个第一候选突变簇中,则合并两个候选突变簇,延伸至无重合后停止;
其中,突变数据中的SNP满足以下(1)-(9)至少之一,
(1)比对上任一SNP的读段的数目不少于10条,
(2)在肿瘤组织中的突变频率不小于10%,在正常组织中的突变频率不大于2%,
(3)在肿瘤组织中的突变频率与在正常组织中的突变频率的差异具有统计意义,
(4)其两个等位基因的比对质量得分无显著差异,
(5)其两个等位基因的碱基质量得分无显著差异,
(6)非显著富集在比对上其的读段的5‘端或3’端的5bp内,
(7)任一SNP至少有两条读段的支持,并且所支持的读段中包括正读段和负读段,
(8)支持其的读段不同时支持Indel,
(9)不位于简单重复区域;
当i=1,di=0,
当i>1时,di为参考序列上SNPi到SNPi-1的距离
所述窗口的突变密度为该窗口中突变间距小于ADL的SNP的个数,所述待测样本整体的突变密度为平均每T个SNP中有L个突变间距小于ADL的SNP的个数,其中,T=N/w*L,L为统计得的平均每Num个SNP中突变间距小于ADL的SNP个数,w为该样本所有的突变间距小于ADL的突变个数;
窗口的突变密度显著高于待测样本整体的突变密度指,窗口的突变密度大于待测样本整体的突变密度具有统计意义;
2≤Num≤10。
2.权利要求1的方法,其特征在于,所述获取待测样本突变数据,包括,
获取待测样本的核酸序列的测定数据,所述测定数据包括多个读段;
将所述测定数据与参考序列进行比对,获得比对结果;
基于所述比对结果,识别SNP。
3.权利要求2的方法,其特征在于,获取所述测定数据,包括,
获取待测样本的核酸,
制备所述核酸的测序文库,
对所述测序文库进行测序。
4.权利要求1的方法,其特征在于,所述将参考序列划分为多个多重重叠窗口,使每个窗口包含Num个SNP,包括,
从所述参考序列上划分出第i个SNP到第i+Num-1个SNP之间的区域为窗口i,i取遍{1,2,…,N-Num+1}中的数值。
5.权利要求1的方法,其特征在于,Num=10。
6.权利要求1-5任一方法,其特征在于,还包括,
将每个合并后的第一候选突变簇的突变密度与待测样本整体的突变密度进行比较,获得第二候选突变簇,每个所述第二候选突变簇的突变密度显著高于待测样本整体的突变密度,
排除所述第二候选突变簇中的随机误差引起的候选突变簇,获得第三候选突变簇。
7.权利要求1-5任一方法,其特征在于,还包括,
排除合并后的第一候选突变簇中的随机误差引起的候选突变簇,获得第四候选突变簇。
8.一种检测突变簇的装置,其特征在于,包括,
数据输入单元,用于输入数据;
数据输出单元,用于输出数据;
存储单元,用于存储数据,其中包括计算机可执行程序;
处理器,与所述数据输入单元、数据输出单元和存储单元连接,用于执行所述程序,执行所述程序包括完成权利要求1-7任一方法。
9.一种计算机可读介质,其特征在于,用于存储供计算机执行的程序,执行所述程序包括完成权利要求1-7任一方法。
CN201580075727.9A 2015-03-06 2015-03-06 检测突变簇的方法和装置 Active CN107208152B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/073818 WO2016141517A1 (zh) 2015-03-06 2015-03-06 检测突变簇的方法和装置

Publications (2)

Publication Number Publication Date
CN107208152A CN107208152A (zh) 2017-09-26
CN107208152B true CN107208152B (zh) 2021-03-23

Family

ID=56878534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580075727.9A Active CN107208152B (zh) 2015-03-06 2015-03-06 检测突变簇的方法和装置

Country Status (2)

Country Link
CN (1) CN107208152B (zh)
WO (1) WO2016141517A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110875084B (zh) * 2018-08-13 2022-06-21 深圳华大基因科技服务有限公司 一种核酸序列比对的方法
CN113284562B (zh) * 2021-06-07 2021-12-24 中国农业科学院农业基因组研究所 一种酶的改良方法
CN117253546B (zh) * 2023-10-11 2024-05-28 北京博奥医学检验所有限公司 一种降低靶向二代测序背景噪音的方法、***及可存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014152990A1 (en) * 2013-03-14 2014-09-25 University Of Rochester System and method for detecting population variation from nucleic acid sequencing data
CN104379765A (zh) * 2012-04-10 2015-02-25 非营利性组织佛兰芒综合大学生物技术研究所 用于检测癌症中的微卫星不稳定性和测定与dna碱基切除修复途径抑制的合成致死性的新标记

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104379765A (zh) * 2012-04-10 2015-02-25 非营利性组织佛兰芒综合大学生物技术研究所 用于检测癌症中的微卫星不稳定性和测定与dna碱基切除修复途径抑制的合成致死性的新标记
WO2014152990A1 (en) * 2013-03-14 2014-09-25 University Of Rochester System and method for detecting population variation from nucleic acid sequencing data

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mutational Processes Molding the Genomes of 21 Breast Cancers;Serena Nik-Zainal et al;《Cell》;20120525;第149卷;第979-993页 *
Signatures of mutational processes in human cancer;Ludmil B.Alexandrov et al;《nature》;20130814;第500卷(第7463期);第415-421页和补充信息第1-3页 *

Also Published As

Publication number Publication date
CN107208152A (zh) 2017-09-26
WO2016141517A1 (zh) 2016-09-15

Similar Documents

Publication Publication Date Title
US11031100B2 (en) Size-based sequencing analysis of cell-free tumor DNA for classifying level of cancer
CN109689891B (zh) 用于无细胞核酸的片段组谱分析的方法
Guo et al. Three-stage quality control strategies for DNA re-sequencing data
Tyburczy et al. Mosaic and intronic mutations in TSC1/TSC2 explain the majority of TSC patients with no mutation identified by conventional testing
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
US11718869B2 (en) Method and kit for determining genome instability based on next generation sequencing (NGS)
JP2022514879A (ja) 無細胞dna末端特性
JP2023510318A (ja) 無細胞試料の二末端dna断片タイプおよびその用途
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN105555970A (zh) 同时进行单体型分析和染色体非整倍性检测的方法和***
CN107208152B (zh) 检测突变簇的方法和装置
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
JP7333838B2 (ja) 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法
WO2016112539A1 (zh) 确定胎儿核酸含量的方法和装置
JP2022537442A (ja) ヒト胚におけるコピー数変異を検証するために単一ヌクレオチド変異の密度を使用するシステム、コンピュータプログラム製品及び方法
CN114258572A (zh) 用于确定基因组倍性的***和方法
CN117925820B (zh) 一种用于胚胎植入前变异检测的方法
ES2922728T3 (es) Normalización matemática de conjuntos de datos de secuencias
Hu Methods and Analyses in the Study of Human DNA Methylation
Ouwens et al. VU Research Portal
WO2024137407A1 (en) Methods and targets of dna methylation entropy
JP2024100931A (ja) Dnaのサイズに基づく解析
CN116913378A (zh) 基于低深度测序数据检测基因组纯合区域的方法及***
Velmurugan Novel Microsatellite Detection, Microsatellite Based Biomarker Discovery in Lung Cancer and The Exome-Wide Effects of a Dysfunctional DNA Repair Mechanism
Russo et al. Comparative Study of a CGH and Next Generation Sequencing (NGS) for Chromosomal Microdeletion and Microduplication Screening

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221101

Address after: 570311 room 201-2, floor 2, building a, leading science and Technology Innovation Park, Haikou national high tech Zone, No. 6, Yaogu 1st Road, Xiuying District, Haikou City, Hainan Province

Patentee after: Hainan Huada Gene Technology Co.,Ltd.

Address before: 518083 Huada Complex Park, 21 Hongan Third Street, Yantian District, Shenzhen City, Guangdong Province, 7 buildings, 7 floors-14 floors

Patentee before: BGI SHENZHEN Co.,Ltd.

TR01 Transfer of patent right