CN107423578B - 检测体细胞突变的装置 - Google Patents
检测体细胞突变的装置 Download PDFInfo
- Publication number
- CN107423578B CN107423578B CN201710120900.3A CN201710120900A CN107423578B CN 107423578 B CN107423578 B CN 107423578B CN 201710120900 A CN201710120900 A CN 201710120900A CN 107423578 B CN107423578 B CN 107423578B
- Authority
- CN
- China
- Prior art keywords
- mutation
- sites
- module
- type
- variation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种检测体细胞突变的装置。该装置包括获取模块、注释模块、筛选模块、计算模块、变异类型初判模块以及变异类型校正模块。其中筛选模块中包括虚拟对照集,虚拟对照集包含561例白细胞的变异信息。该装置通过筛选模块将检测数据与包括虚拟对照集在内的数据库进行比对,从而筛选胚系突变位点,并利用计算模块计算得到各染色体的胚系突变频率的均值和标准差,然后利用变异类型初判模块以及变异类型校正模块对各个不同变异位点的变异频率特征分析确定变异位点的类型,并通过已知变异类型的突变位点的数据库对初定变异类型进行校正,从而筛选出样本中的体细胞突变的变异位点,提高了体细胞突变的变异位点检测的准确性。
Description
技术领域
本发明涉及体细胞突变检测领域,具体而言,涉及一种检测体细胞突变的装置。
背景技术
人体基因组中存在着大量的变异位点,根据其来源的不同,可分为胚系突变和体细胞突变。前者来源于个体形成最早期时生殖细胞携带的遗传性变异,这类变异在后代个体的所有细胞中均存在。与此相对地,体细胞突变非遗传得来,而是个体在后天发育过程中所获得。高通量测序技术为快速大量提取人体基因组信息提供了重要基础,通过使用高通量测序的方式即可从个体中获得目标基因或特定区域的核苷酸序列,然后通过Mutect等变异检测软件对序列进行分析,可从中挖掘出可能存在的体细胞变异位点。
筛选体细胞变异位点的方式有两类:成对样本和单样本。前者需要提供一套与患病组织配对的正常组织作为对照样本,并以此鉴定存在的胚系突变,该方法虽然准确但由于需要对两份样本同时进行高通量测序并进行分析,大量增加了生产成本和时间成本。后者仅患病组织样本,该方法虽快速便捷并极大降低了成本和时间周期,但准确性一直达不到理想水平。
而且,在肿瘤个体化用药的广阔前景下,体细胞突变的检测显得尤为关键。目前尽管已有国内外研究机构和公司都在尝试通过单样本进行体细胞变异的检测,但大部分公司对于体细胞突变的检测采取的策略还是依赖于配对对照样本的比较,成本较高,而且由于取样难的原因配对的对照样本不总是能获取的。
因而,在无法提供配对样本时,如何提高体细胞突变的检测准确度,进而降低生产成本和时间成本,就此成为了商业应用中一个急需解决的技术问题。
发明内容
本发明的主要目的在于提供一种检测体细胞突变的装置,以改善现有技术中的单样本检测体细胞突变准确性低的缺陷。
为了实现上述目的,根据本发明的一个方面,提供了一种检测体细胞突变的装置,该装置包括:获取模块、注释模块、筛选模块、计算模块、变异类型初判模块以及变异类型校正模块,其中,获取模块用于获取单样本的变异位点的检测数据;注释模块用于注释检测数据中的变异位点的人群突变频率;筛选模块用于对照千人基因组、ExAC数据库以及虚拟对照集,从注释后的变异位点中筛选出胚系突变位点,并将剩余变异位点记为变异类型未知的突变位点,虚拟对照集包含561例白细胞的变异信息;计算模块用于对分布在各染色体上的胚系突变位点进行统计并计算各染色体的胚系突变频率的均值和标准差;变异类型初判模块用于根据均值和标准差对变异类型未知的突变位点的突变丰度进行Z检验,并根据Z检验的结果初步判断变异类型未知的突变位点的初定变异类型,初定变异类型包括胚系突变、体细胞突变以及待定变异类型;变异类型校正模块用于根据包括已知变异类型的突变位点的数据库对初定变异类型进行校正,得到校正后的体细胞突变的变异位点。
进一步地,筛选模块包括:比对单元、筛选单元以及标记单元,比对单元用于将注释后的变异位点与胚系突变数据库进行比对,得到比对集,胚系突变数据库包括虚拟对照集、千人基因组和ExAC数据库;筛选单元用于从比对集中筛选出符合以下条件a0或b0的变异位点:a0.存在于千人基因组和ExAC数据库中且突变丰度在0.3~0.75的变异位点;b0.在虚拟对照集中人群突变频率大于1%且突变丰度在0.3~0.75的变异位点;标记单元用于将满足条件a0或b0的变异位点记为胚系突变位点,并将剩余变异位点记为变异类型未知的突变位点。
进一步地,变异类型初步判断模块包括:Z检验子模块、体细胞突变初判子模块、胚系突变初判子模块以及待定变异类型初判子模块,其中Z检验子模块用于根据均值和标准差对变异类型未知的突变位点的突变丰度进行Z检验,得到Z值;体细胞突变初判子模块用于将Z值≤-3的变异类型未知的突变位点记为体细胞突变;胚系突变初判子模块用于将Z值≥3的变异类型未知的突变位点记为胚系突变;待定变异类型初判子模块用于将-3<Z值<3的变异类型未知的突变位点记为待定变异类型。
进一步地,变异类型校正模块包括:获取校正子模块以及第一校正子模块,其中,获取校正子模块用于获取所有变异类型的突变位点的数据库,数据库包括虚拟对照集、Mutect repeat集、novo1000、COSMIC以及My Cancer Genome;第一校正子模块用于将Z值≥3,且符合以下条件a1或b1的突变位点的变异类型由胚系突变校正为体细胞突变:a1.存在于My Cancer Genome中;b1.存在于COSMIC中且存在于虚拟对照集的至多1个样本中且存在于Mutect repeat集的<10%的样本中。
进一步地,变异类型校正模块还包括:第二校正子模块,用于将-3<Z值<3,且符合以下条件a2、b2或c2的突变位点的变异类型由待定变异类型校正为体细胞突变:a2.存在于My Cancer Genome中;b2.在COSMIC中至少有5条纪录,存在于虚拟对照集的至多1个样本中,且存在于Mutect Repeat集的<50%的样本中;c2.突变位点所在染色体的胚系突变频率的标准差大于0.05,-3<Z值<-1,存在于虚拟对照集的至多有1个样本中且存在于Mutect Repeat集的<50%的样本中。
进一步地,变异类型校正模块还包括:第三校正子模块,用于将Z值≤-3,且符合以下条件a3、b3或c3的突变位点的变异类型由体细胞突变校正为待定变异类型;a3.不存在于My Cancer Genome中;b3.存在于novo1000中至少10%的样本;c3.存在虚拟对照集50%以上的样本且存在于Mutect Repeat集50%以上的样本中。
进一步地,装置还包括变异检测模块,变异检测模块用于在获取模块获取单样本的变异位点的检测数据之前,将单样本的目标区域的测序数据与参考基因组数据进行比对,得到单样本的所有变异位点的检测数据。
进一步地,变异检测模块为Mutect。
进一步地,装置还包括过滤模块,过滤模块用于在获取模块获取单样本的变异位点的检测数据之后,过滤总测序深度低于50X或突变测序深度低于5X的检测数据,得到过滤后的测序数据。
进一步地,注释模块包括:获取子单元和注释子单元,获取子单元用于获取已知人群突变频率的变异位点的数据库,已知人群突变频率的变异位点的数据库包括千人基因组、ExAC数据库以及ESP6500中的任意一个或多个;注释子单元用于利用已知人群突变频率的变异位点的数据库,对检测数据中的变异位点的人群突变频率进行注释。
应用本发明的技术方案,通过筛选模块将检测数据与包括虚拟对照集在内的数据库进行比对,从而筛选胚系突变位点,并利用计算模块计算得到各染色体的胚系突变频率的均值和标准差,然后利用变异类型初判模块以及变异类型校正模块对各个不同变异位点的变异频率特征进行分析确定变异位点的类型,并通过已知变异类型的突变位点的数据库对初定变异类型进行校正,从而筛选出样本中的体细胞突变的变异位点,提高了体细胞突变的变异位点检测的准确性。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
千人基因组计划数据库:即1000Genomes Project,公开了1092个人的基因组数据。
ExAC数据库:即Exome Aggregation Consortium,迄今为止人类最大的外显子组整合数据库。
ESP6500数据库:即Exome Sequencing Project,美国国立心肺血液研究院资助的外显子测序计划,其中有6500多例正常人的外显子组数据。
虚拟对照集:561例白细胞样本的变异检测结果(只有胚系突变,也可能有少数软件检测错误而产生的假突变)构建而成,信息包括突变所在染色体、坐标、突变前碱基、突变后碱基、在561例样本中所占比例、所有有该突变的样本及相应样本中的突变丰度。
Mutect repeat集:321例肿瘤样本的变异检测结果(既有体细胞突变也有胚系突变,也可能有少数软件检测错误而产生的假突变)构建而成,信息包括突变所在染色体、坐标、突变前碱基、突变后碱基、在321例样本中所占比例、所有有该突变的样本及相应样本中的突变丰度。
Novo1000:申请人自己构建的1256例正常人的变异检测结果,信息包括:突变所在染色体、坐标、突变前碱基、突变后碱基、在1256例样本中所占比例。
MyCancerGenome:公共的肿瘤数据库。
COSMIC:公共的体细胞突变数据库。
突变丰度:指支持突变的序列(reads)数与总序列(reads)数的比值。其中,突变丰度在0.3~0.75之间的突变为杂合胚系突变,突变丰度在0.85以上的突变为纯合胚系突变。由于杂合胚系突变的位点数较少,本申请在统计胚系变异位点时,将纯合胚系突变的突变丰度除以2,转化为杂合胚系突变的突变丰度进行统计。
如背景技术所提到的,现有技术中的检测体细胞突变存在准确性低的缺陷,为了改善这一状况,在本申请一种典型的实施方式中,提供了一种检测体细胞突变的装置,该装置包括:获取模块、注释模块、筛选模块、计算模块、变异类型初判模块以及变异类型校正模块,其中,获取模块用于获取单样本的变异位点的检测数据;注释模块用于注释检测数据中的变异位点的人群突变频率;筛选模块用于对照千人基因组、ExAC数据库以及虚拟对照集,从注释后的变异位点中筛选出胚系突变位点,并将剩余变异位点记为变异类型未知的突变位点,虚拟对照集包含561例白细胞的变异信息;计算模块用于对分布在各染色体上的胚系突变位点进行统计,并计算各染色体的胚系突变频率的均值和标准差;变异类型初判模块用于根据均值和标准差对变异类型未知的突变位点的突变丰度进行Z检验,并根据Z检验的结果初步判断变异类型未知的突变位点的初定变异类型,初定变异类型包括胚系突变、体细胞突变以及待定变异类型;变异类型校正模块用于根据包括已知变异类型的突变位点的数据库对初定变异类型进行校正,得到校正后的体细胞突变的变异位点。
本申请的上述检测体细胞突变的装置,通过筛选模块将检测数据与包括虚拟对照集在内的数据库进行比对,从而筛选胚系突变位点,并利用计算模块计算得到各染色体的胚系突变频率的均值和标准差,然后利用变异类型初判模块以及变异类型校正模块对各个不同变异位点的变异频率特征进行分析确定变异位点的类型,并通过已知变异类型的突变位点的数据库对初定变异类型进行校正,从而筛选出样本中的体细胞突变的变异位点,提高了体细胞突变的变异位点检测的准确性。
本申请一种优选的实施例中,上述筛选模块包括:比对单元、筛选单元以及标记单元,其中,比对单元用于将注释后的变异位点与胚系突变数据库进行比对,得到比对集,胚系突变数据库包括虚拟对照集、千人基因组和ExAC数据库;筛选单元用于从比对集中筛选出符合以下条件a0或b0的变异位点:a0.存在于千人基因组和ExAC数据库中且突变丰度在0.3~0.75的变异位点;b0.在虚拟对照集中人群突变频率大于1%且突变丰度在0.3~0.75的变异位点;标记单元,用于将满足条件a0或b0的变异位点记为胚系突变位点,并将剩余变异位点记为变异类型未知的突变位点。
上述筛选模块通过将注释后的变异位点与包含虚拟对照集在内的胚系突变数据库进行比对,使得到的比对集所含的候选胚系突变位点更齐全也更准确,进而筛选单元筛选得到的胚系突变位点更齐全也更准确,进一步使得后续计算模块计算得到的各染色体的胚系突变频率的均值和标准差更准确。
上述装置中变异类型初步判断模块是根据计算模块计算得到的各染色体的胚系突变频率的均值和标准差,然后再根据各个变异类型未知的突变位点的突变丰度的Z检验的结果初步判断变异类型未知的突变位点的变异类型是胚系突变、体细胞突变还是待定变异类型(即变异类型不能确定)。具体地,上述变异类型初步判断模块包括Z检验子模块、体细胞突变初判子模块、胚系突变初判子模块以及待定变异类型初判子模块,其中,Z检验子模块用于根据均值和标准差对变异类型未知的突变位点的突变丰度进行Z检验,得到Z值;体细胞突变初判子模块用于将Z值≤-3的变异类型未知的突变位点记为体细胞突变;胚系突变初判子模块用于将Z值≥3的变异类型未知的突变位点记为胚系突变;待定变异类型初判子模块用于将-3<Z值<3的变异类型未知的突变位点记为待定变异类型。
现有的变异类型判断模块更多直接基于突变丰度为0.5来判定胚系突变。而胚系突变丰度受肿瘤纯度、肿瘤基因组倍性等因素的影响,而且只有在肿瘤纯度为100%且肿瘤基因组倍性为2时,胚系突变丰度才为0.5。本申请的上述变异类型初步判断模块考虑到不同个体中不同染色体上胚系突变丰度的差异,并基于此去鉴定待检测样本的体细胞突变,因而检测结果更准确。
与现有检测装置相比,本申请的上述检测体细胞突变的装置,通过包含上述变异类型校正模块,对变异类型初判模块输出的各变异位点的变异类型进行进一步校正,提高了检测的准确性。具体校正模块的校正准确率根据所采用的数据库不同而不同。在本申请一种优选的实施例中,上述变异类型校正模块包括:获取校正子模块及第一校正子模块,其中,获取校正子模块用于获取所有变异类型的突变位点的数据库,数据库包括虚拟对照集、Mutect repeat集、novo1000、COSMIC以及My Cancer Genome;以及第一校正子模块用于将Z值≥3,且符合以下条件a1或b1的突变位点的变异类型由胚系突变校正为体细胞突变:a1.存在于My Cancer Genome中;b1.存在于COSMIC中且存在于虚拟对照集的至多1个样本中且存在于Mutect repeat集的<10%的样本中。
本申请的上述变异类型校正模块通过包括第一校正子模块,能够将满足上述a1或b1条件的变异位点的变异类型,由初定的胚系突变校正为体细胞突变,从而一方面提高了体细胞突变的检测准确性,另一方便也增加了体细胞突变的检出数量。
上述包含第一校正子模块的变异类型校正模块已经能够使得本申请的装置检测比现有技术的准确性高,为了进一步提高检测准确性,在本申请一种优选的实施例中,上述变异类型校正模块还包括:第二校正子模块,用于将-3<Z值<3,且符合以下条件a2、b2或c2的突变位点的变异类型由待定变异类型校正为体细胞突变:a2.存在于My CancerGenome中;b2.在COSMIC中至少有5条纪录,存在于虚拟对照集的至多1个样本中,且存在于Mutect Repeat集的<50%的样本中;c2.突变位点所在染色体的胚系突变频率的标准差大于0.05,-3<Z值<-1,存在于虚拟对照集的至多有1个样本中且存在于Mutect Repeat集的<50%的样本。
上述第二校正子模块能够将变异类型初步判断模块中被初步判定为待定变异类型的突变位点进一步校正为体细胞突变,进一步增加了体细胞的检出数量,同时也进一步提高了检测准确性。
为了进一步提高上述装置的检测准确性,在本申请一种优选的实施例中,上述变异类型校正模块还包括:第三校正子模块,用于将Z值≤-3,且符合以下条件a3、b3或c3的突变位点的变异类型由体细胞突变校正为待定变异类型;a3.不存在于My Cancer Genome中;b3.存在于novo1000中至少10%的样本;c3存在虚拟对照集50%以上的样本且存在于Mutect Repeat集50%以上的样本中。
上述优选实施例中,变异类型校正模块通过第三校正子模块将根据变异类型初判模块中判定为体细胞突变的变异位点校正为不确定变异类型的突变位点,从而使得体细胞突变的检测结果更准确。
本申请的上述装置中,对于单样本的变异位点的检测数据,可以是直接获得的检测数据,也可以是通过从单样本开始,经测序对比等模块处理后得到的检测数据。具体根据实际检测需要进行选择。在本申请一种优选的实施例中,上述装置还包括变异检测模块,变异检测模块用于在获取模块获取单样本的变异位点的检测数据之前,将单样本的目标区域的测序数据与参考基因组数据进行比对,得到单样本的所有变异位点的检测数据。
上述变异检测模块采用现有可用的检测模块即可,本申请并无特殊限定。在本申请一种优选的实施例中,上述变异检测模块为Mutect模块。与现有技术中的其他检测模块相比,该变异检测模块在达到相似的特异性时,具有更高的灵敏性,尤其是对突变丰度低于0.1的体细胞突变。
为了减少低质量数据的干扰,提高检测效率,在本申请一种优选的实施例中,上述装置还包括过滤模块,该过滤模块用于在获取模块获取单样本的变异位点的检测数据之后,过滤总测序深度低于50X或突变测序深度低于5X的检测数据,得到过滤后的测序数据。
上述装置中的注释模块,根据研究目的和实际需要,可以选择合适的已知数据库对检测数据中各变异位点进行人群突变频率注释。在本申请一种优选的实施例中,上述注释模块包括:获取子单元和注释子单元,获取子单元用于获取已知人群突变频率的变异位点的数据库,已知人群突变频率的变异位点的数据库包括千人基因组、ExAC数据库以及ESP6500中的任意一个或多个;注释子单元,用于利用已知人群突变频率的变异位点的数据库,对检测数据中的变异位点的人群突变频率进行注释。
上述优选的实施例中,通过采用上述包括千人基因组、ExAC数据库以及ESP6500的已知人群突变频率的变异位点的数据库进行人群突变频率注释,能够对各变异位点进行更齐全、更准确地进行胚系突变频率注释。
下面将结合具体的实施例来进一步说明本申请的有益效果。
本申请的以下实施例旨在通过单样本的变异分析,获得准确可靠的体细胞变异位点。根据某个基因组片段上突变的频率服从正态分布,且该正态分布的均值为这个片段发生胚系突变的期望频率。因此,统计这个片段胚系突变频率的均值,即可得到这条染色体或基因发生胚系突变的期望频率,再根据不同个体变异位点的变异频率特征进行分析,确定变异位点的类型,进而筛选出样本中的体细胞突变。
实验一:进行体细胞突变筛选前的准备工作如下:
第一步:建库
1)从组织或外周血样本中提取DNA,并将其随机打断,形成较小的DNA双链片段;
2)为DNA片段添加接头序列;
第二步:测序
1)通过PCR扩增连上接头的DNA片段,然后通过液相杂交捕获平台对扩增后的DNA样品进行特定区域的捕获;
2)通过Hiseq高通量测序仪对捕获到的DNA片段进行进行测序,从而获得目标基因所在区域的序列信息;
第三步:质量控制
1)去除测序结果中的接头序列;
2)对测序结果进行质量评估,去除其中的低质量序列(序列中N的含量超过该条序列长度的10%,或者低质量碱基数超过该条序列长度的50%),并将所得到的高质量序列比对到人类的参考基因组;
第四步:通过Mutect(如果采用其他变异检测软件,虚拟对照集、Mutect repeat集也需用相应变异检测软件的检测结果构建)变异检测软件对上述比对结果(BAM文件)进行分析,提取出与参考基因组不一致的变异位点,得到:a)Mutect软件的单样本检测结果vcf文件(sampleID.SNP.vcf,单样本变异检测情况),b)Mutect软件的单样本检测结果xls文件(sampleID.SNP.xls,单样本变异检测情况的详细信息);
至此,准备工作完毕,软件读入千人基因组、ExAC、ESP6500、虚拟对照集、Mutectrepeat集、novo1000等数据,并通过统计学方法对胚系变异和体细胞变异的类型进行判定,最终筛选出可靠的体细胞变异位点。
实验二:体细胞突变筛选程序(call_somatic_by_tumor_only_testing.pl)的步骤如下:
1)利用Perl脚本(mutect_filt.pl)将Mutect的检测结果根据测序深度等进行初步过滤;
2)利用Perl脚本(process_mutect_vcf.pl)将vcf格式转为ANNOVAR输入格式;
3)通过ANNOVAR程序(ANNOVAR.v1.pl)利用多个数据库信息对变异位点进行注释;
4)读入虚拟对照集、Mutect repeat集、MyCancerGenome等库文件;
5)将存在于千人基因组和ExAC数据库中突变丰度在0.3~0.75的变异位点;或者在虚拟对照集中人群突变频率大于1%且突变丰度在0.3~0.75的变异位点记为胚系突变位点,用于计算各条染色体胚系突变频率的均值与标准差;
6)利用各条染色体胚系突变频率的均值与标准差,将待检的类型未知的突变通过Z检验初步判定其变异类型,将Z值≤-3的变异类型未知的突变位点记为体细胞突变;将Z值≥3的变异类型未知的突变位点记为胚系突变;将-3<Z值<3的变异类型未知的突变位点记为待定变异类型。
7)对于Z检验后的结果根据虚拟对照集、Mutect repeat集、MyCancerGenome等进一步校正初步判定的类型,最终得到可靠的体细胞变异位点。其中,校正的原则为:
(A)将Z值≥3,且符合以下条件a1或b1的突变位点的变异类型由胚系突变校正为体细胞突变:
a1.存在于My Cancer Genome中;
b1.存在于COSMIC中且存在于虚拟对照集的至多1个样本中且存在于Mutectrepeat集的<10%的样本中。
(B)将-3<Z值<3,且符合以下条件a2、b2或c2的突变位点的变异类型由待定变异类型校正为体细胞突变:
a2.存在于My Cancer Genome中;
b2.在COSMIC中至少有5条纪录,存在于虚拟对照集的至多1个样本中,且存在于Mutect Repeat集的<50%的样本中;
c2.突变位点所在染色体的胚系突变频率的标准差大于0.05,-3<Z值<-1,存在于虚拟对照集的至多有1个样本中且存在于Mutect Repeat集的<50%的样本中。
(C)将Z值≤-3,且符合以下条件a3、b3或c3的突变位点的变异类型由体细胞突变校正为待定变异类型;
a3.不存在于My Cancer Genome中;
b3.存在于novo1000中至少10%的样本;
c3.存在虚拟对照集50%以上的样本且存在于Mutect Repeat集50%以上的样本中。
实验三:有效性验证
本申请的检测装置在研发后利用92个癌症患者血液样本以及60个癌症患者的组织样本进行测试,结果发现,92个血液样本中有67个样本的单样本体细胞变异检测结果,与对应成对样本体细胞变异检测结果的一致性达到90%以上。60个组织样本中有37个样本的单样本体细胞变异检测结果与对应成对样本体细胞变异检测结果的一致性达到90%以上。此外,92个血液样本中76个样本完全没有假阴性,13个样本的假阴性在1~5个突变,60个组织样本中30个样本完全没有假阴性,21个样本的假阴性在1~5个突变,这些样本的假阳性也控制在10个突变左右。以上结果具体见下表1、2和3。
表1:
表1显示了体细胞突变的一致性结果。对不同集群的数据分开统计,区别在于新、旧集群的过滤标准不一样;新集群上共有57个血液样本、30个组织样本用于测试,旧集群上共有92个血液样本、60个组织样本用于测试;大部分血液样本的一致性在90%以上,一半以上的组织样本的一致性也在90%以上。血液样本的效果比组织较好,原因在于组织样本质量和测序质量不如血液样本。最后一行“=0”表示成对样本的体细胞突变检测结果为空。
表2:
表2显示了体细胞突变的假阴性结果。同样地,对不同集群的数据分开统计。大部分血液样本的假阴性为0,一半以上的组织样本的假阴性也为0,假阴性大多都控制在5个以内。血液样本的效果比组织较好,原因在于组织样本质量和测序质量不如血液样本。
表3:
表3显示了体细胞突变的假阳性结果。同样地,对不同集群的数据分开统计。大部分样本的假阳性控制在10个左右。同样,血液样本的效果比组织较好,原因在于组织样本质量和测序质量不如血液样本。
需要说明的是,理论上,按基因计算胚系突变频率的均值和标准差会更准确。即如果发生在每个基因上的突变数目足够,Z检验模型可为:(状态待判定突变的频率-突变所在基因胚系突变频率的均值)/突变所在基因胚系突变频率的标准差。而实际上,由于发生在每个基因上的突变数目相对较少,因而本申请的以染色体为单位计算胚系突变的均值和标准差,同样能够获得相对比较准确的均值和标准差。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
针对单样本检测结果准确性过低的缺点,本申请通过自主开发的体细胞变异位点筛选程序对变异位点进行判定,最终实现基于单样本准确高效检测目标基因所携带的体细胞突变,解决目前单样本筛选体细胞变异的不足。一方面能在只有单个肿瘤样本时能提供与成对样本具有较高一致性的体细胞突变检测结果,另一方面降低体细胞突变的检测成本,有益于扩大肿瘤个体化用药的受益人群。
与文章”Discriminating somatic and germline mutations in tumor DNAsamples without matching normals”相比,在构建虚拟对照集的基础上,还构建了MutectRepeat集用于筛选在多个单样本中出现的胚系突变或软件检测错误,并进一步考虑样本间的差异以及各条染色体间的差异,即不同样本或同一样本的不同染色体拥有不同的胚系突变频率,且引进Z检验,计算各条染色体胚系突变频率的均值和标准差;另一方面,现有Foundation Medicine公司的无需配对对照样本检体细胞突变的方法是去同时计算体细胞突变和胚系突变的期望值,从而筛选体细胞突变和胚系突变,但其实会有一部分突变,因为频率介于这两个期望值之间,而最终无法判定其为胚系突变还是体细胞突变,本发明的装置通过以现有(Foundation Medicine)方法的变异频率模型,计算每条染色体胚系突变的期望值及标准差,进而利用Z检验判定突变的胚系突变或体细胞突变类型,从而使得检测结果更准确。
显然,本领域的技术人员应该明白,本发明的上述的一些模块或一些步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种检测体细胞突变的装置,其特征在于,所述装置包括:
获取模块,用于获取单样本的变异位点的检测数据;
注释模块,用于注释所述检测数据中的变异位点的人群突变频率;
筛选模块,用于对照千人基因组、ExAC数据库以及虚拟对照集,从注释后的所述变异位点中筛选出胚系突变位点,并将剩余变异位点记为变异类型未知的突变位点,所述虚拟对照集包含561例白细胞的变异信息;
计算模块,用于对分布在各染色体上的所述胚系突变位点进行统计,并计算各所述染色体的胚系突变频率的均值和标准差;
变异类型初判模块,用于根据所述均值和所述标准差对所述变异类型未知的突变位点的突变丰度进行Z检验,并根据Z检验的结果初步判断所述变异类型未知的突变位点的初定变异类型,所述初定变异类型包括胚系突变、体细胞突变以及待定变异类型;
变异类型校正模块,用于根据包括已知变异类型的突变位点的数据库对所述初定变异类型进行校正,得到校正后的体细胞突变的变异位点。
2.根据权利要求1所述的装置,其特征在于,所述筛选模块包括:
比对单元,所述比对单元用于将注释后的所述变异位点与胚系突变数据库进行比对,得到比对集,所述胚系突变数据库包括所述虚拟对照集、所述千人基因组和所述ExAC数据库;
筛选单元,用于从所述比对集中筛选出符合以下条件a0或b0的变异位点:
a0.存在于所述千人基因组和所述ExAC数据库中且突变丰度在0.3~0.75的变异位点;
b0.在所述虚拟对照集中人群突变频率大于1%且突变丰度在0.3~0.75的变异位点;
标记单元,用于将满足条件a0或b0的变异位点记为所述胚系突变位点,并将剩余变异位点记为所述变异类型未知的突变位点。
3.根据权利要求1所述的装置,其特征在于,所述变异类型初判模块包括:
Z检验子模块,用于根据所述均值和标准差对所述变异类型未知的突变位点的突变丰度进行Z检验,得到Z值;
体细胞突变初判子模块,用于将Z值≤-3的所述变异类型未知的突变位点记为体细胞突变;
胚系突变初判子模块,用于将Z值≥3的所述变异类型未知的突变位点记为胚系突变;
待定变异类型初判子模块,用于将-3<Z值<3的所述变异类型未知的突变位点记为待定变异类型。
4.根据权利要求3所述的装置,其特征在于,所述变异类型校正模块包括:
获取校正子模块,用于获取所有变异类型的突变位点的数据库,所述所有变异类型的突变位点的数据库包括虚拟对照集、Mutect repeat集、novo1000、COSMIC以及My CancerGenome;以及
第一校正子模块,用于将Z值≥3,且符合以下条件a1或b1的突变位点的变异类型由所述胚系突变校正为体细胞突变:
a1.存在于所述My Cancer Genome中;
b1.存在于所述COSMIC中、存在于所述虚拟对照集的至多1个样本中且存在于所述Mutect repeat集的<10%的样本中。
5.根据权利要求4所述的装置,其特征在于,所述变异类型校正模块还包括:
第二校正子模块,用于将-3<Z值<3,且符合以下条件a2、b2或c2的突变位点的变异类型由所述待定变异类型校正为体细胞突变:
a2.存在于所述My Cancer Genome中;
b2.在所述COSMIC中至少有5条记录、存在于所述虚拟对照集的至多1个样本中且存在于所述Mutect Repeat集的<50%的样本中;
c2.突变位点所在染色体的胚系突变频率的标准差大于0.05、-3<Z值<-1、存在于所述虚拟对照集的至多有1个样本中且存在于所述Mutect Repeat集的<50%的样本中。
6.根据权利要求5所述的装置,其特征在于,所述变异类型校正模块还包括:
第三校正子模块,用于将Z值≤-3且符合以下条件a3、b3或c3的突变位点的变异类型由所述体细胞突变校正为待定变异类型;
a3.不存在于所述My Cancer Genome中;
b3.存在于所述novo1000中至少10%的样本;
c3.存在于所述虚拟对照集50%以上的样本中且存在于所述Mutect Repeat集50%以上的样本中。
7.根据权利要求1所述的装置,其特征在于,所述装置还包括变异检测模块,所述变异检测模块用于在所述获取模块获取单样本的变异位点的检测数据之前,将单样本的目标区域的测序数据与参考基因组数据进行比对,得到所述单样本的所有变异位点的检测数据。
8.根据权利要求7所述的装置,其特征在于,所述变异检测模块为Mutect模块。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括过滤模块,所述过滤模块用于在所述获取模块获取单样本的变异位点的检测数据之后,过滤总测序深度低于50X或突变测序深度低于5X的检测数据,得到过滤后的所述测序数据。
10.根据权利要求1所述的装置,其特征在于,所述注释模块包括:
获取子单元,用于获取已知人群突变频率的变异位点的数据库,所述已知人群突变频率的变异位点的数据库包括千人基因组、ExAC数据库以及ESP6500中的任意一个或多个;
注释子单元,用于利用所述已知人群突变频率的变异位点的数据库,对所述检测数据中的变异位点的人群突变频率进行注释。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710120900.3A CN107423578B (zh) | 2017-03-02 | 2017-03-02 | 检测体细胞突变的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710120900.3A CN107423578B (zh) | 2017-03-02 | 2017-03-02 | 检测体细胞突变的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423578A CN107423578A (zh) | 2017-12-01 |
CN107423578B true CN107423578B (zh) | 2020-09-22 |
Family
ID=60423068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710120900.3A Active CN107423578B (zh) | 2017-03-02 | 2017-03-02 | 检测体细胞突变的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423578B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280325B (zh) * | 2017-12-08 | 2020-11-27 | 北京雅康博生物科技有限公司 | 高通量测序数据的处理方法、处理装置、存储介质及处理器 |
CN107974490B (zh) * | 2017-12-08 | 2019-05-14 | 东莞博奥木华基因科技有限公司 | 基于半导体测序的pku致病基因突变检测方法及装置 |
CN108733975B (zh) * | 2018-03-29 | 2021-09-07 | 深圳裕策生物科技有限公司 | 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质 |
CN109712671B (zh) * | 2018-12-20 | 2020-06-26 | 北京优迅医学检验实验室有限公司 | 基于ctDNA的基因检测装置、存储介质及计算机*** |
CN109920485B (zh) * | 2018-12-29 | 2023-10-31 | 浙江安诺优达生物科技有限公司 | 对测序序列进行变异模拟的方法及其应用 |
CN111383713B (zh) * | 2018-12-29 | 2023-08-01 | 北京安诺优达医学检验实验室有限公司 | ctDNA检测分析装置及方法 |
CN109887548B (zh) * | 2019-01-18 | 2022-11-08 | 臻悦生物科技江苏有限公司 | 基于捕获测序的ctDNA占比的检测方法及检测装置 |
CN110010197B (zh) * | 2019-03-29 | 2021-07-20 | 深圳裕策生物科技有限公司 | 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质 |
CN110060733B (zh) * | 2019-04-28 | 2020-01-07 | 上海宝藤生物医药科技股份有限公司 | 基于单样本的二代测序肿瘤体细胞变异检测装置 |
US20240221866A1 (en) * | 2021-06-21 | 2024-07-04 | Guangzhou Kingmed Transformative Medicine Institute Co., Ltd. | Method of reducing artefact variants in high throughput-sequencing and uses thereof |
CN114067908B (zh) * | 2021-11-23 | 2022-09-13 | 深圳吉因加医学检验实验室 | 一种评估单样本同源重组缺陷的方法、装置和存储介质 |
CN115798578B (zh) * | 2022-12-06 | 2024-06-18 | 中国人民解放军军事科学院军事医学研究院 | 一种分析与检测病毒新流行变异株的装置及方法 |
CN115966259B (zh) * | 2022-12-26 | 2023-10-13 | 南京普恩瑞生物科技有限公司 | 一种基于逻辑回归建模的样本同源性检测校验方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6676162B2 (en) * | 2002-04-24 | 2004-01-13 | Ford Global Technologies, Llc | Occupant restraint belt presenter |
CN104462869A (zh) * | 2014-11-28 | 2015-03-25 | 天津诺禾致源生物信息科技有限公司 | 检测体细胞单核苷酸突变的方法和装置 |
CN104561289A (zh) * | 2014-12-26 | 2015-04-29 | 北京诺禾致源生物信息科技有限公司 | 基因缺失突变的检测方法和装置 |
CN105574365A (zh) * | 2016-01-22 | 2016-05-11 | 北京圣谷同创科技发展有限公司 | 高通量测序突变检测结果的统计学验证方法 |
CN106021984A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种全外显子组测序数据分析*** |
-
2017
- 2017-03-02 CN CN201710120900.3A patent/CN107423578B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6676162B2 (en) * | 2002-04-24 | 2004-01-13 | Ford Global Technologies, Llc | Occupant restraint belt presenter |
CN104462869A (zh) * | 2014-11-28 | 2015-03-25 | 天津诺禾致源生物信息科技有限公司 | 检测体细胞单核苷酸突变的方法和装置 |
CN104561289A (zh) * | 2014-12-26 | 2015-04-29 | 北京诺禾致源生物信息科技有限公司 | 基因缺失突变的检测方法和装置 |
CN105574365A (zh) * | 2016-01-22 | 2016-05-11 | 北京圣谷同创科技发展有限公司 | 高通量测序突变检测结果的统计学验证方法 |
CN106021984A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种全外显子组测序数据分析*** |
Also Published As
Publication number | Publication date |
---|---|
CN107423578A (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423578B (zh) | 检测体细胞突变的装置 | |
CN109033749B (zh) | 一种肿瘤突变负荷检测方法、装置和存储介质 | |
Guo et al. | Three-stage quality control strategies for DNA re-sequencing data | |
KR102237923B1 (ko) | 암 검출을 위한 혈장 dna의 돌연변이 분석 | |
CN104462869A (zh) | 检测体细胞单核苷酸突变的方法和装置 | |
CN113724791B (zh) | Cyp21a2基因ngs数据分析的方法、装置及应用 | |
WO2018054254A1 (zh) | 一种鉴定样本中肿瘤负荷的方法和*** | |
CN108804876B (zh) | 用于计算癌症样本纯度和染色体倍性的方法和装置 | |
CN110093417B (zh) | 一种检测肿瘤单细胞体细胞突变的方法 | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN105512514A (zh) | 一种mhc补全数据库、其构建方法和应用 | |
CN108268752B (zh) | 一种染色体异常检测装置 | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN113724781B (zh) | 检测纯合缺失的方法和装置 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
WO2020124625A1 (zh) | 基于ctDNA的基因检测方法、装置、存储介质及计算机*** | |
CN115394359B (zh) | 一种通过转录组检测单细胞染色体拷贝数变异方法 | |
CN114530200B (zh) | 基于计算snp熵值的混合样本鉴定方法 | |
WO2023184065A1 (zh) | 融合基因的鉴定方法、装置、设备、程序及存储介质 | |
Liu et al. | CRSCNV: A cross-model-based statistical approach to detect copy number variations in sequence data | |
CN116769888A (zh) | 从单样本中检测体细胞变异的方法和电子装置 | |
Shen et al. | FirstSV: Fast and Accurate Approach of Structural Variations Detection for Short DNA fragments | |
KR20230155107A (ko) | 진양성 변이 및 위양성 변이를 구별하는 PiSeq 장치 및 알고리즘 | |
CN116994649A (zh) | 一种基因检测数据的智能判定方法以及智能判定*** | |
Papenfuss et al. | Bioinformatics Analysis of Sequence Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |