ctDNA检测分析装置及方法
技术领域
本发明涉及DNA肿瘤分析领域,尤其是涉及一种ctDNA检测分析装置和方法。
背景技术
分子和细胞异质性是癌症的标志,是肿瘤诊断和治疗最大的挑战之一。癌细胞的基因组不稳定性和表型可塑性导致病变特异性基因组。肿瘤的精准治疗一直是科研和临床医学追求的目标。液体活检是体外诊断的一种方法,是一种非侵入式的血液测试,能够监测肿瘤或转移灶释放到血液循环***中的循环肿瘤细胞(CTC)和循环肿瘤DNA(ctDNA),是检测肿瘤的突破性新型辅助治疗技术。液体活检测优势在于能够解决精准治疗的痛点,通过非侵入式取样降低活检的危害性,而且有效延长患者的生存期,具有很高的性价比。
癌症患者的正常循环cfDNA水平高于健康人。当肿瘤体积增加时,细胞周转量也因凋亡和坏死细胞的数量增加。大多数cfDNA片段测量在180和200bp之间,表明细胞凋亡可能在循环中产生大部分的cfDNA。1989年,Stroun等发现癌症患者血浆中有一些cfDNA来源于癌细胞。在1994年,首例报道胰腺癌患者在血浆cfDNA中检测到KRAS基因突变。在健康人群中,血浆游离DNA(cfDNA)cfDNA浓度介于1-10ng/ml。人的血浆游离核酸片段,在1949年首先由Mandel和Métais首次研究报道;1977年报道了首例癌症患者的cfDNA水平;cfDNA中的突变是癌症的高度特异性标志物,这样就形成了术语“循环肿瘤DNA”(ctDNA)。
基于ctDNA这种液态活检技术,在临床上可以将其应用于:1、癌症早筛/诊断:对于症状患者,具备敏感和特异性的癌症检测可能加快诊断和治疗的时间。对于人群水平,ctDNA作为疾病标志物的肿瘤筛查可以在症状明显之前进行干预。2、预后、残留疾病和复发风险评估:评估进展风险对于选择治疗至关重要。经治疗后,确定患有复发风险高的患者可用于分层辅助治疗。3、治疗选择:新型分子靶向治疗和免疫治疗改进了患者分子分型和治疗分层。目前,肿瘤活组织获得肿瘤诊断的金标准,但不易获得,并且它们受肿瘤异质性干扰,从而导致假阴性结果。4、治疗监测:传统的监测方法精度有限,同时存在较高成本和辐射危害。液体活检可以随连续重复监测,对患者的风险较小,同时提供准确的肿瘤相关信息读。
目前ctDNA检测主要是检测单一或少数已知致病位点的体细胞变异来对患者疾病进行诊疗。这种对于同时具有体系突变和胚系突变的患者来说,分析时往往仅选取部分位点进行,如此就引入了主观因素,从而导致结果的偏向性,并且在不同基因型人群中药物不同的毒性反应方面没有办法同时进行评估指导。
发明内容
为了实现上述目的,本发明提供了一种结合二代测序方法进行ctDNA变异位点分析和评估解读装置和方法。
具体来说,本发明涉及如下内容:
1.一种ctDNA检测分析装置,其包括:
数据处理模块,用于对ctDNA及对照样本测序数据进行过滤、对比,筛选低质量的变异测序数据,保留高质量的变异测序数据;
体细胞变异获取模块,用于对ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息;
体细胞变异筛选模块,用于对获取的体细胞变异结果信息进行筛选,获得体细胞变异位点相关的基因信息。
2.根据方案1所述的ctDNA检测分析装置,其中,在所述数据处理模块之后还包括:
胚系变异获取模块,用于将对照样本的变异测序数据与人类参考基因组信息比对,过滤获取胚系变异结果;
遗传风险解读模块,用于评估胚系变异结果的癌症风险信息。
3.根据方案1或2所述的ctDNA检测分析装置,其中,
在所述体细胞变异筛选模块之后还包括:
靶向药物指导模块,用于针对基因的体细胞变异位点,筛选应用于体细胞变异位点的药物。
4.根据方案2或3所述的ctDNA检测分析装置,其中,
在所述遗传风险解读模块之后还包括:
药物代谢模块,用于评估特定基因的特异性胚系变异位点的药物使用效果,确定在不同基因型人群中的药物使用反应。
5.根据方案1~4中任一项所述的ctDNA检测分析装置,其还包括:
样本收集模块,用于收集受试者的ctDNA样本、对照样本,并进行二代建库测序,获得测序数据,
其中,所述对照样本为来源于提供ctDNA样本的受试者的正常白细胞样本。
6.根据方案1~5中任一项所述的ctDNA检测分析装置,其中体细胞变异包括:单核苷酸变异和小片段***缺失变异。
7.根据方案1~6中任一项所述的ctDNA检测分析装置,其中,所述体细胞变异筛选模块包括三个子模块:
体细胞变异位点注释子模块,用于对体细胞变异位点进行注释;
注释结果筛选子模块,用于对注释的结果进行筛选;以及
体细胞变异结果整合子模块,用于对筛选得到的体细胞变异结果进行整合。
8.根据方案2或7所述的ctDNA检测分析装置,其中,在所述注释结果筛选子模块以及在所述胚系变异获取模块中,进行如下过滤方法以过滤经注释的体细胞变异位点以及胚系变异结果:
保留外显子区或剪切位点区的错义变异,
过滤千人基因组数据库(人群中频率大于0.01)变异位点,保留1000Genome数据库中频率低于0.01的变异位点;以及
过滤ExAC数据库(人群中频率大于0.01)变异位点,保留ExAC数据库中频率低于0.01的变异位点。
9.根据方案3所述的ctDNA检测分析装置,其中,靶向药物指导模块利用OncoKB数据库进行靶向药物代谢信息的注释解读,以及
进一步优选,所述靶向药物指导模块包括根据FDA对靶向药物的分类等级,利用检测得到的体细胞变异信息,评估针对患者特定变异位点的给药信息,并出具药物等级分类。
10.根据方案2所述的ctDNA检测分析装置,其中,所述遗传风险解读模块包括根据ClinVar、BIC、HGMD数据库,对胚系变异位点的遗传风险进行解读,给出位点变异的风险等级。
11.根据方案4所述的ctDNA检测分析装置,其中,所述药物代谢模块包括根据PharmGKB数据库,针对胚系变异产生的基因型信息,评估使用某种药物时该基因型患者对药物的反应,包括毒性、敏感性。
12.一种ctDNA检测分析方法,其包括:
数据处理步骤,用于对ctDNA及对照样本测序数据进行过滤、对比,筛选低质量的变异测序数据,保留高质量的变异测序数据;
体细胞变异信息检测步骤,用于对ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息;
体细胞变异结果筛选步骤,用于对获取的体细胞变异结果信息进行筛选,获得体细胞变异位点相关的基因信息。
13.根据方案12所述的ctDNA检测分析方法,其中,在所述数据处理步骤之后还包括:
胚系变异信息获取及过滤步骤,用于将对照样本的变异测序数据与人类参考基因组信息比对,过滤获取胚系变异结果;
遗传风险解读步骤,用于评估胚系变异结果的癌症风险信息。
14.根据方案12或13所述的ctDNA检测分析方法,其中,
在所述体细胞变异结果筛选步骤之后还包括:
靶向药物指导步骤,用于针对基因的体细胞变异位点,筛选应用于体细胞变异位点的药物。
15.根据方案13或14所述的ctDNA检测分析方法,其中,
在所述遗传风险解读步骤之后还包括:
药物代谢分析步骤,用于评估特定基因的特异性胚系变异位点的药物使用效果,确定在不同基因型人群中的药物使用反应。
16.根据方案12~15中任一项所述的ctDNA检测分析方法,其还包括:
样本收集步骤,用于收集受试者的ctDNA样本、对照样本,并进行二代建库测序,获得测序数据,
其中,所述对照样本为来源于提供ctDNA样本的受试者的正常白细胞样本。
17.根据方案12~16中任一项所述的ctDNA检测分析方法,其中体细胞变异包括:单核苷酸变异和小片段***缺失变异。
18.根据方案12~17中任一项所述的ctDNA检测分析方法,其中,所述体细胞变异结果筛选步骤包括三个子步骤:
体细胞变异位点注释子步骤,用于对体细胞变异位点进行注释;
注释结果筛选子步骤,用于对注释的结果进行筛选;以及
体细胞变异结果整合子步骤,用于对筛选得到的体细胞变异结果进行整合。
19.根据方案13或18所述的ctDNA检测分析方法,其中,在所述注释结果筛选子步骤以及在所述胚系变异信息获取及过滤步骤中,进行如下过滤方法以过滤经注释的体细胞变异位点以及胚系变异结果:
保留外显子区或剪切位点区的错义变异,
过滤千人基因组数据库(人群中频率大于0.01)变异位点,保留1000Genome数据库中频率低于0.01的变异位点;以及
过滤ExAC数据库(人群中频率大于0.01)变异位点,保留ExAC数据库中频率低于0.01的变异位点。
20.根据方案14所述的ctDNA检测分析方法,其中,靶向药物指导方法利用OncoKB数据库进行靶向药物代谢信息的注释解读,以及
进一步优选,所述靶向药物指导方法包括根据FDA对靶向药物的分类等级,利用检测得到的体细胞变异信息,评估针对患者特定变异位点的给药信息,并出具药物等级分类。
21.根据方案13所述的ctDNA检测分析方法,其中,所述遗传风险解读步骤包括根据ClinVar、BIC、HGMD数据库,对胚系变异位点的遗传风险进行解读,给出位点变异的风险等级。
22.根据方案15所述的ctDNA检测分析方法,其中,所述药物代谢分析步骤包括根据PharmGKB数据库,针对胚系变异产生的基因型信息,评估使用某种药物时该基因型患者对药物的反应,包括毒性、敏感性。
发明的效果
本发明将设计区域范围内的所有变异均考虑进去,避免因个人主观因素造成的偏向性和遗漏;本发明一次分析的目标区域内的所有变异进行分析,对于不用基因型个体指导用药具有重要作用。
附图说明
图1本发明一个具体实施方式涉及的ctDNA检测分析装置。
图2本发明另一个具体实施方式涉及的ctDNA检测分析装置。
图3本发明又一个具体实施方式涉及的ctDNA检测分析装置。
图4本发明再一个具体实施方式涉及的ctDNA检测分析装置。
图5本发明另再一个具体实施方式涉及的ctDNA检测分析装置。
具体实施方式以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在本发明中提及的基因突变包括体细胞突变和胚系突变,其中,胚系突变是指从母体带来的基因突变,这种突变在全身所有的细胞都有(正常细胞和癌细胞都有);而体细胞突变,一般特指的是癌细胞自己产生的突变,正常细胞是没有这种突变。简单来说,后天的突变是体细胞突变,只有胚系突变是会遗传给下一代的。
本发明中涉及单核苷酸多态性(single nucleotide polymorphism,SNP)和单核苷酸变异(single nucleotide variants,SNV)。SNP是个体间基因组DNA序列同一位置单个核苷酸变异(替代、***或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。
本发明中的小片段***缺失变异(InDel)是指基因组上小片段(>50bp)的***或缺失。
本发明中的ctDNA是指循环肿瘤DNA,是指肿瘤细胞体细胞DNA经脱落或者当细胞凋亡后释放进入循环***,是一种特征性的肿瘤生物标记。通过ctDNA检测,能够检出血液中的肿瘤踪迹。ctDNA是一种无细胞状态的胞外DNA,存在于血液、滑膜液和脑脊液等体液中,其主要是由单链或双链DNA以及单链与双链DNA的混合物组成,以DNA蛋白质复合物或游离DNA两种形式存在。
本发明中的白细胞(leukocyte,white blood cell,简称:WBC)是无色、球形、有核的血细胞。正常成人总数为(4.0~10.0)x 109/L,可因每天不同时间、机体的功能状态而在一定范围内变化。白细胞一般有活跃的移动能力,它们可以从血管内迁移到血管外,或从血管外组织迁移到血管内。因此,白细胞除存在于血液和淋巴中外,也广泛存在于血管、***以外的组织中。
在本发明的一个具体的实施方式中,如图1所示,本发明涉及一种ctDNA检测分析装置,其包括:数据处理模块,用于对ctDNA及对照样本测序数据进行过滤、对比,筛选低质量的变异测序数据,保留高质量的变异测序数据;体细胞变异获取模块,用于对ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息;体细胞变异筛选模块,用于对获取的体细胞变异结果信息进行筛选,获得体细胞变异位点相关的基因信息。
在本发明的一个具体的实施方式中,如图2所示,本发明涉及一种ctDNA检测分析装置,其包括:样本收集模块,其用于收集受试者的ctDNA样本、对照样本,并进行二代建库测序,获得测序数据;数据处理模块,用于对ctDNA及对照样本测序数据进行过滤、对比,筛选低质量的变异测序数据,保留高质量的变异测序数据;体细胞变异获取模块,用于对ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息;体细胞变异筛选模块,用于对获取的体细胞变异结果信息进行筛选,获得体细胞变异位点相关的基因信息。
在本发明的一个具体的实施方式中,如图3所示,本发明涉及一种ctDNA检测分析装置,其包括:样本收集模块,其用于收集受试者的ctDNA样本、对照样本,并进行二代建库测序,获得测序数据;数据处理模块,用于对ctDNA及对照样本测序数据进行过滤、对比,筛选低质量的变异测序数据,保留高质量的变异测序数据;体细胞变异获取模块,用于对ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息;体细胞变异筛选模块,用于对获取的体细胞变异结果信息进行筛选,获得体细胞变异位点相关的基因信息;靶向药物指导模块,用于针对基因的体细胞变异位点,筛选应用于体细胞变异位点的药物。
在本发明的一个具体的实施方式中,如图4所示,本发明涉及一种ctDNA检测分析装置,其包括:数据处理模块,用于对ctDNA及对照样本测序数据进行过滤、对比,筛选低质量的变异测序数据,保留高质量的变异测序数据;体细胞变异获取模块,用于对ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息;体细胞变异筛选模块,用于对获取的体细胞变异结果信息进行筛选,获得体细胞变异位点相关的基因信息;以及胚系变异获取模块,用于将对照样本的变异测序数据与人类参考基因组信息比对,过滤获取胚系变异结果;遗传风险解读模块,用于评估胚系变异结果的癌症风险信息。
在本发明的一个具体的实施方式中,如图5所示,本发明涉及一种ctDNA检测分析装置,其包括:样本收集模块,用于收集受试者的ctDNA样本、对照样本,并进行二代建库测序,获得测序数据;数据处理模块,用于对ctDNA及对照样本测序数据进行过滤、对比,筛选低质量的变异测序数据,保留高质量的变异测序数据;体细胞变异获取模块,用于对ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息;体细胞变异筛选模块,用于对获取的体细胞变异结果信息进行筛选,获得体细胞变异位点相关的基因信息;靶向药物指导模块,用于针对基因的体细胞变异位点,筛选应用于体细胞变异位点的药物;以及胚系变异获取模块,用于将对照样本的变异测序数据与人类参考基因组信息比对,过滤获取胚系变异结果;遗传风险解读模块,用于评估胚系变异结果的癌症风险信息;药物代谢模块,用于评估特定基因的特异性胚系变异位点的药物使用效果,确定在不同基因型人群中的药物使用反应。
在本发明的一个具体的实施方式中,在样本收集模块中,收集受试者的ctDNA样本、对照样本,并进行二代建库测序,获得测序数据。其中,所述对照样本为来源于提供ctDNA样本的受试者的正常白细胞样本。
在本发明的一个具体的实施方式中,在数据处理模块中,具体来说,将建好的ctDNA和对照样本的白细胞的DNA文库在Illumina测序平台进行上机测序,测序的长度为双端150bp(PE150)。原始测序数据以fq格式存储。在本步骤中,在使用数据进行后续的分析前,需要对数据进行过滤,从而筛选低质量的变异测序数据,保留高质量的变异测序数据,具体来说过滤步骤如下:
(1)去除接头污染的Reads(Reads中接头污染的碱基数大于5bp,对于双端测序,若一端受到接头污染,则去掉两端的Reads);
(2)去除低质量的Reads(Reads中质量值Q≤19的碱基占总碱基的15%以上,对于双端测序,若一端为低质量Reads,则会去掉两端Reads);
(3)去除含N比例大于5%的Reads(对于双端测序,若一端含N比例大于5%,则会去掉两端Reads)。
经过过滤后得到的Clean Data可以用于后续的分析。首先通过BWA将Clean Data与人参考基因组hg19进行比对,然后用samtools和Picard对数据进行排序和去重。
在本发明的一个具体的实施方式中,在体细胞变异获取模块中,对ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息。具体来说,GATK是Genome Analysis ToolKit的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling软件之一。将S2步骤中获得的ctDNA样本和对照样本白细胞的比对结果作为输入文件,提供人参考基因组hg19的fa文件和目标区域bed格式文件,其中bed文件含有待检测基因在参考基因组上的具***置信息。采用GATK的mutect2模块直接检测的体细胞变异结果。由此,可以将ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息。
在本发明的一个具体的实施方式中,体细胞变异主要包括:单核苷酸变异和小片段***缺失变异。
在本发明的一个具体的实施方式中,体细胞变异筛选模块包括三个子模块:体细胞变异位点注释子模块,用于对体细胞变异位点进行注释;注释结果筛选子模块,用于对注释的结果进行筛选;以及体细胞变异结果整合子模块,用于对筛选得到的体细胞变异结果进行整合。其中,在所述注释结果筛选子模块,进行如下过滤方法以过滤经注释的体细胞变异位点:保留外显子区或剪切位点区的错义变异,过滤千人基因组数据库(人群中频率大于0.01)变异位点,保留1000Genome数据库中频率低于0.01的变异位点;以及过滤ExAC数据库(人群中频率大于0.01)变异位点,保留ExAC数据库中频率低于0.01的变异位点。
在本发明的一个具体的实施方式中,在体细胞变异筛选模块中,筛选低质量的体细胞变异位点,保留高质量体细胞变异位点,后续变异位点解读均用的筛选后的变异位点信息。筛选低质量变异位点,主要是在位点的测序深度、检测质量值等方面进行,采用的是GATK4软件,相关参数均采用软件的默认参数。
首先在体细胞变异位点注释子模块中,对体细胞变异位点进行注释,为了保证注释的全面性,在本模块中同时依据NCBI和UCSC数据库进行注释,确定变异位点所在的基因,以及在基因上的具***置和变异对蛋白质编码的影响。进一步,在本步骤中,还优选利用多个数据库进行不同方面的注释。例如疾病相关的数据库COSMIC、HGMD等,从而获得更为全面的基因信息。
其次在注释结果筛选子模块中:对注释结果进一步筛选。针对注释得到的体细胞变异位点作进一步的筛选,具体的筛选方法如下:1)保留外显子区(exonic)或剪切位点区(splicing,剪切位点上游2bp)的错义变异;2)过滤千人基因组数据库(人群中频率大于0.01)变异位点,保留1000Genome数据库中频率低于0.01的变异位点;3)过滤ExAC数据库(人群中频率大于0.01)变异位点,保留ExAC数据库中频率低于0.01的变异位点。
然后,在体细胞变异结果整合子模块中,对筛选得到的体细胞变异结果进行整合,一个变异位点一行,在前几列写明变异所在的染色体、变异的起始位点、变异的终止位点、参考基因组碱基类型、变异后的碱基类型,基因名称、基因区间、cDNA变异情况、蛋白肽变异情况,这些信息用于定位变异。
在本发明的一个具体的实施方式中,在所述胚系变异获取模块中,进行如下过滤方法以过滤胚系变异结果:保留外显子区或剪切位点区的错义变异,过滤千人基因组数据库(人群中频率大于0.01)变异位点,保留1000Genome数据库中频率低于0.01的变异位点;以及过滤ExAC数据库(人群中频率大于0.01)变异位点,保留ExAC数据库中频率低于0.01的变异位点。在本模块中,具体来说,胚系变异的检测同样采用GATK软件进行分析,仅将对照样本的白细胞的测序结果作为输入文件,提供人参考基因组hg19的fa文件和目标区域bed格式文件,其中bed文件含有待检测基因在参考基因组上的具***置信息。
在本发明的一个具体的实施方式中,靶向药物指导模块利用OncoKB数据库进行靶向药物代谢信息的注释解读,以及进一步优选,所述靶向药物指导模块包括根据FDA对靶向药物的分类等级,利用检测得到的体细胞变异信息,评估针对患者特定变异位点的给药信息,并出具药物等级分类。具体来说,在本模块中,用于针对基因的具体变异位点,筛选出目前应用于该变异位点的药物,指导临床应用。具体来说,可以利用OncoKB数据库,匹配基因位点的变异信息和靶向药物指导,整理出样本体细胞变异的靶向用药指导信息。
在本发明的一个具体的实施方式中,遗传风险解读模块包括根据ClinVar、BIC、HGMD数据库,对胚系变异位点的遗传风险进行解读,给出位点变异的风险等级。具体来说,基于过滤后胚系突变,通过ANNOVAR,参考ClinVar,HGMD,BIC数据库,匹配各数据库中的癌症风险信息;参考各群体数据库,匹配各数据库中的人群频率,为每一个germline突变标记癌症风险评级。
在本发明的一个具体的实施方式中,药物代谢模块包括根据PharmGKB数据库,针对胚系变异产生的基因型信息,评估使用某种药物时该基因型患者对药物的反应,包括毒性、敏感性。具体来说,基于过滤后的胚系突变,通过ANNOVAR,参考PharmGKB数据库,匹配数据库中位点药物使用及不同基因型患者对药物的代谢、反应等信息。
在本发明的一个具体的实施方式中,本发明涉及一种ctDNA检测分析方法。具体来说该方法包括以下步骤:
S1步骤:收集样本信息步骤;本步骤用于收集ctDNA样本、对照样本,并进行二代建库测序,获得测序数据。在本步骤中,样本通常包括受试者的ctDNA样本、对照的白细胞样本,并针对这些收集的样本进行二代建库测序,从而获得这些样本的测序数据,其中,在本步骤中,优选对照的白细胞样本是来自受试者自身的正常白细胞样本。
S2步骤:数据处理步骤,本步骤用于对ctDNA及对照样本测序数据进行过滤、对比,筛选低质量的变异测序数据,保留高质量的变异测序数据。
具体来说,将建好的ctDNA和对照样本的白细胞的DNA文库在Illumina测序平台进行上机测序,测序的长度为双端150bp(PE150)。原始测序数据以fq格式存储。在本步骤中,在使用数据进行后续的分析前,需要对数据进行过滤,从而筛选低质量的变异测序数据,保留高质量的变异测序数据,具体来说过滤步骤如下:
(1)去除接头污染的Reads(Reads中接头污染的碱基数大于5bp,对于双端测序,若一端受到接头污染,则去掉两端的Reads);
(2)去除低质量的Reads(Reads中质量值Q≤19的碱基占总碱基的15%以上,对于双端测序,若一端为低质量Reads,则会去掉两端Reads);
(3)去除含N比例大于5%的Reads(对于双端测序,若一端含N比例大于5%,则会去掉两端Reads)。
经过过滤后得到的Clean Data可以用于后续的分析。首先通过BWA将Clean Data与人参考基因组hg19进行比对,然后用samtools和Picard对数据进行排序和去重。
S3步骤:体细胞变异获取步骤,本步骤用于对ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息。
具体来说,GATK是Genome Analysis ToolKit的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling软件之一。将S2步骤中获得的ctDNA样本和对照样本白细胞的比对结果作为输入文件,提供人参考基因组hg19的fa文件和目标区域bed格式文件,其中bed文件含有待检测基因在参考基因组上的具***置信息。采用GATK的mutect2模块直接检测的体细胞变异结果。由此,可以将ctDNA的高质量的变异测序数据和对照样本的高质量的变异测序数据与人类参考基因组进行比对,获取体细胞变异结果信息。
其中,体细胞变异信息主要包括:单核苷酸变异(SNV)和小片段***缺失变异(InDel)。
S4步骤:体细胞变异筛选步骤;本步骤用于对获取的体细胞变异结果信息进行筛选,获得体细胞变异位点相关的基因信息。在本步骤中,筛选低质量的体细胞变异位点,保留高质量体细胞变异位点,后续变异位点解读均用的筛选后的变异位点信息。筛选低质量变异位点,主要是在位点的测序深度、检测质量值等方面进行,采用的是GATK4软件,相关参数均采用软件的默认参数。
首先步骤S4-1,对体细胞变异位点进行注释,为了保证注释的全面性,在本步骤中同时依据NCBI和UCSC数据库进行注释,确定变异位点所在的基因,以及在基因上的具***置和变异对蛋白质编码的影响。进一步,在本步骤中,还优选利用多个数据库进行不同方面的注释。例如疾病相关的数据库COSMIC、HGMD等,从而获得更为全面的基因信息。
其次步骤S4-2:对注释结果进一步筛选。针对注释得到的体细胞变异位点作进一步的筛选,具体的筛选方法如下:
1)保留外显子区(exonic)或剪切位点区(splicing,剪切位点上游2bp)的错义变异;
2)过滤千人基因组数据库(人群中频率大于0.01)变异位点,保留1000Genome数据库中频率低于0.01的变异位点;
3)过滤ExAC数据库(人群中频率大于0.01)变异位点,保留ExAC数据库中频率低于0.01的变异位点。
然后,在S4-3步骤中,对筛选得到的体细胞变异结果进行整合,一个变异位点一行,在前几列写明变异所在的染色体、变异的起始位点、变异的终止位点、参考基因组碱基类型、变异后的碱基类型,基因名称、基因区间、cDNA变异情况、蛋白肽变异情况,这些信息用于定位变异。
S5步骤:靶向药物指导步骤;本步骤用于针对基因的体细胞变异位点,筛选应用于体细胞变异位点的药物。
具体来说,在本步骤中,用于针对基因的具体变异位点,筛选出目前应用于该变异位点的药物,指导临床应用。具体来说,可以利用OncoKB数据库,匹配基因位点的变异信息和靶向药物指导,整理出样本体细胞变异的靶向用药指导信息。
进一步还包括根据FDA对靶向药物的分类等级,利用检测得到的体细胞变异信息,评估针对患者特定变异位点的给药信息,并出具药物等级分类。
S6步骤:胚系变异获取步骤,该步骤中同样利用数据处理步骤S1和S2中获得的高质量的测序数据,即仅利用对照样品的白细胞,优选是受试者自身的白细胞的测序数据。在本步骤中,胚系变异的检测同样采用GATK软件进行分析,仅将对照样本的白细胞的测序结果作为输入文件,提供人参考基因组hg19的fa文件和目标区域bed格式文件,其中bed文件含有待检测基因在参考基因组上的具***置信息。
具体来说,基于癌症分析项目中的正常样本比对结果,鉴定胚系变异。对胚系变异进行过滤。
具体的过滤方法如下:
1)保留外显子区(exonic)或剪切位点区(splicing,剪切位点上游2bp)的错义变异;
2)过滤千人基因组数据库(所有人群及亚洲中频率均大于0.01)变异位点,保留1000Genome数据库中频率低于0.01的变异位点;
3)过滤ExAC数据库(所有人群及亚洲中频率均大于0.01)变异位点,保留ExAC数据库中频率低于0.01的变异位点;
4)过滤检测到的胚系突变位点。
S7步骤:遗传风险解读步骤,用于评估胚系突变变异位点的癌症风险信息。
具体来说,基于过滤后胚系突变,通过ANNOVAR,参考ClinVar,HGMD,BIC数据库,匹配各数据库中的癌症风险信息;参考各群体数据库,匹配各数据库中的人群频率,为每一个germline突变标记癌症风险评级。
S8:药物代谢分析步骤,用于评估特定基因的特异性变异位点药物使用效果,在不同基因型人群中的药物使用反应。
基于过滤后的胚系突变,通过ANNOVAR,参考PharmGKB数据库,匹配数据库中位点药物使用及不同基因型患者对药物的代谢、反应等信息。
在现有技术中,二代测序数据常规的分析策略是测序数据过滤比对-变异检测-ANNOVAR注释-后续其它分析。为了与二代测序分析方法无缝对接,本发明从对ctDNA体细胞变异和胚系变异检测的结果入手评估靶向药物的使用、癌症遗传风险和化疗药物/靶向药物代谢情况。
实施例
实验1:样本收集
收集两例来源不同病例样本的ctDNA和血液白细胞样本,并提取DNA建库进行二代测序分析,其中提取DNA和建库的方法均为本领域中通常使用的方法,采用定制化杂交芯片对候选基因的目标区域序列进行捕获。首先,对DNA进行纯度、浓度和体积等方面的检测;对符合质量要求的DNA建立基因组测序文库,形成片段化的基因组序列,该序列两端包含测序接头;基因组DNA文库与定制化液相芯片进行杂交,通过互补配对原则,目标基因组DNA片段与被生物素标记的寡核苷酸探针结合形成杂交复合物;未与液相芯片探针结合的基因组片段被洗脱纯化,利用PCR扩增捕获片段;对捕获杂交后的文库进行纯度、浓度检测。
实验2:测序数据处理
将建好的DNA文库在Illumina测序平台进行上机测序,测序的长度为双端150bp(PE150)。原始测序数据以fq格式存储,在使用数据进行分析前,需要对数据进行过滤,过滤步骤条件如下:
(1)去除接头污染的Reads(Reads中接头污染的碱基数大于5bp,对于双端测序,若一端受到接头污染,则去掉两端的Reads);
(2)去除低质量的Reads(Reads中质量值Q≤19的碱基占总碱基的15%以上,对于双端测序,若一端为低质量Reads,则会去掉两端Reads);
(3)去除含N比例大于5%的Reads(对于双端测序,若一端含N比例大于5%,则会去掉两端Reads)。
经过过滤后得到的Clean Data可以用于后续的分析。首先通过BWA将Clean Data与人参考基因组hg19进行比对,然后用samtools和Picard对数据进行排序和去重。
实验3:体细胞变异获取
GATK是Genome Analysis ToolKit的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling软件之一。将实验2中获得的ctDNA样本和对照样本的比对结果文件作为输入文件,提供人参考基因组hg19的fa文件和目标区域bed格式文件,其中bed文件含有待检测基因在参考基因组上的具***置信息。采用GATK的mutect2模块直接检测的体细胞变异结果。
实验4:胚系变异获取
胚系变异的检测同样采用GATK软件进行分析,仅将对照样本(即血液白细胞样本)的比对结果文件作为输入文件,提供人参考基因组hg19的fa文件和目标区域bed格式文件,其中bed文件含有待检测基因在参考基因组上的具***置信息。采用GATK的HaplotypeCaller模块直接检测的体细胞变异结果。
实验5:体细胞变异筛选
体细胞变异采用GATK的FilterMutectCalls模块进行低质量位点筛选,胚系变异采用GATK的VariantFiltration模块进行低质量位点筛选。所有参数均选择默认参数进行分析,主要是对变异位点的深度、质量值、频率等方面进行过滤筛选。
实验6:体细胞变异注释筛选
体细胞变异注释使用的是annovar注释程序,annovar是一个整合应用最新的数据库信息对变异位点进行功能注释的软件,注释方面包括三方面:基于基因、基因组区域以及过滤功能的注释。基于基因的数据库注释,主要注释该变异所在的基因名称、是否影响编码蛋白以及所影响的氨基酸位置信息,如RefGene数据库的注释;基于基因组区域的数据库注释,主要注释该变异所位于的基因组功能区域,如gene、exon、UTR、转录因子结合位点等,如tfbsConsSites数据库的注释;基于过滤功能的数据库注释,主要注释该变异是否出现在一些常见数据库中以及该变异的保守性和致病性,如1000Genome、dbSNP、dbNSFP等数据库的注释。
注释完成后,该模块会将注释结果进行整理,提取变异位点的重要信息,具体的展示结果见下表1,以表中展示的结果为例,检测出来的变异位点位于染色体1号的15541654位置,该位置的参考碱基型为T,模块检测处理的变异碱基型为C,该位置涉及的基因是TMEM51,该位置位于TMEM51基因的外显子区域,由T到C的变异是一个错义突变,会导致编码氨基酸的变化,该位点的变异导致相应转录本的信息也会发生变化,涉及的转录本有NM_001136217,NM_018002,NM_001136216,NM_001136218,分别会涉及这个转录本的exon2,exon2,exon3,exon3,导致的都是cDNA的第71位的T变成C,相应的氨基酸变化是24位的亮氨酸(L)变成脯氨酸(P),该位点在正常对照样本中的深度为80,变异频率为0,在肿瘤样本中的深度为90,变异频率为22.22,且该位点的检测质量值通过筛选阈值。
表1体细胞变异注释筛选结果
Chr:染色体;
start:起始位置;
end:终止位置;
ref:参考基因组碱基型;
alt:变异碱基型;
gene:基因名称;
genePos:位点所在基因功能区;
exonicFunc:突变位点分类;
transcript:转录本;
exon:外显子编号;
cdna:碱基改变;
pep:氨基酸改变;
splicing:剪切位点;
depth_normal:正常样品的测序深度;
freq_normal:正常样品的突变频率;
depth_tumor:癌症样品的测序深度;
freq_tumor:癌症样品的突变频率;
filter:是否通过过滤;
由于当前科学研究关注的疾病变异主要集中在外显子区域的非同义突变和剪切位点上的突变,并且体细胞变异在人群中往往具有较低的突变频率,因此我们以此为依据,对检测得到的体细胞变异进行筛选,具体的过滤方法如下:
1)保留外显子区(exonic)或剪切位点区(splicing,剪切位点上游2bp)的错义变异;
2)过滤千人基因组数据库(所有人群及亚洲中频率均大于0.01)变异位点,保留1000Genome数据库中频率低于0.01的变异位点;
3)过滤ExAC数据库(所有人群及亚洲中频率均大于0.01)变异位点,保留ExAC数据库中频率低于0.01的变异位点;
实验7:靶向药物指导
OncoKB数据库中包含有特定肿瘤基因发生变化后对机体的影响以及药物治疗相关信息,是一个非常准确的肿瘤治疗方面的数据库。将检测到的体细胞变异位点与检测癌种进行输入,与OncoKB数据库进行比对注释,获取项目癌种相应的位点致病评级和FDA获批靶向药物的使用治疗信息。具体的结果展示如下表2所示,体细胞变异位点涉及到的基因名称是EGFR,并且发生的变异具体信息是cDNA的858位亮氨酸(L)突变为精氨酸(R),针对这种变异信息,目前可以指导的靶向药物有厄洛替尼、阿法替尼和吉非替尼,这三种药均是FDA获批的靶向药,并且批准疾病类型与模块检测的疾病类型一致。
表2靶向药物指导分析结果
gene_name:靶向药靶向基因名;
alt:突变信息;
drug:药物信息;
level:药物分级。
其中,最后一列level靶向药物分级说明如下:
A:FDA获批靶向药,适应症用药,具有FDA获批的适用性检测生物标记物;
B1:FDA获批靶向药,适应症用药,具有NCCN推荐的适用性检测生物标记物;
B2:FDA获批靶向药,非适应症用药,具有NCCN推荐的适用性检测生物标记物;
C1:在临床具有效果的靶向药,适应症用药;
C2:在临床具有效果的靶向药,非适应症用药;
D:在生物学具有治疗意义的靶向药;
N:基于适应症及生物标记物检测结果,该FDA获批的靶向药具有耐受性。
实验8:胚系变异注释
胚系变异注释同样使用的是annovar注释程序,annovar是一个整合应用最新的数据库信息对变异位点进行功能注释的软件,注释方面包括三方面:基于基因、基因组区域以及过滤功能的注释。基于基因的数据库注释,主要注释该变异所在的基因名称、是否影响编码蛋白以及所影响的氨基酸位置信息,如RefGene数据库的注释;基于基因组区域的数据库注释,主要注释该变异所位于的基因组功能区域,如gene、exon、UTR、转录因子结合位点等,如tfbsConsSites数据库的注释;基于过滤功能的数据库注释,主要注释该变异是否出现在一些常见数据库中以及该变异的保守性和致病性,如1000Genome、dbSNP、dbNSFP等数据库的注释。
实验9:遗传风险解读
癌症的发生会受到遗传因素的作用。“二次打击”理论表明,如果抑癌基因上存在有害胚系突变,那么一旦发生额外的有害体细胞突变,癌症就会发生。基于鉴定获得的胚系突变,一般参考ClinVar,HGMD和BIC数据库,获得癌症遗传性风险信息。风险信息分为5类:(1)良性(benign);(2)可能良性(likely benign);(3)重要性不确定变异(variant ofuncertain significance,VUS);(4)可能致病性(likely pathogenic);(5)致病性(pathogenic)。
ClinVar数据库主要是收集了与疾病相关的遗传变异信息,包含了超过125,000份独特突变的临床注释。ClinVar采用的是星标***(star-based system),可以评估某个特定突变在疾病中的本来或者注释作用。
HGMD数据库收录整理已发表文献中与人类遗传病密切相关的致病位点数据库,每个位点都有参考文献的PMID,收集的位点疾病关系类型主要包括引起疾病的变异、可能引起疾病的变异但致病性尚待确认、功能多态性、与疾病相关的多态性和与疾病相关的多态性有功能支持证明的。
BIC数据库主要收集的是乳腺癌相关的致病位点变异信息。
将胚系突变及其对应的癌症遗传性风险信息结果进行展示,如下表3所示,在表中胚系变异涉及的基因是KCNQ4,并且发生的变异具体信息是cDNA的546位的C碱基突变为G碱基类型,针对这种变异,依据ClinVar数据库的信息,该变异是致病的,在已研究的疾病中可能会与非综合性的听力损伤有关,依据HGMD数据库的信息,该变异是一种显性遗传变异,与耳聋相关,是一种常染色体显性,依据BIC数据库信息,则不能得到该位点的遗传风险信息。
表3遗传风险解读信息
基因:基因名称;
突变:变异信息;
risk_label_ClinVar:基于ClinVar数据库的风险评估;
risk_label_BIC:基于BIC数据库的风险评估;
risk_label_HGMD:基于HGMD数据库的风险评估;
实验10:药物代谢评估
PharmGKB数据库是一个收集与药物基因组相关的基因型和表型信息,并将这些信息***地归类的数据库。PharmGKB全称是Pharmacogenetics and PharmacogenomicsKnowledge Base,翻译成汉语就是遗传药理学与药物基因组学数据库,网站把基因和药物的关系分为两个大的范畴:表型(包括:临床结果(CO),药效学和药物反应(PD),药物动力学(PK)以及分子和细胞功能化验(FA));基因型(GN)。
通过PharmGKB数据库注释,可以明确位点变异不同基因型时,在采取药物治疗患者不同的药物吸收和毒性情况。
药物代谢评估结果展示如下表4所示,胚系变异涉及的基因是EGFR,具体的变异位点是在7号染色体的55086755上,由参考碱基G突变为T,这是一个已知的变异,在dbSNP数据库中的编号是rs712829,该个体在这个位点上的基因型是0/1,即杂合型胚系变异,依据PharmGKB数据库,针对这个变异,可以采用厄洛替尼,这个药物在患者使用治疗时,可能腹泻的严重程度较小。
表4药物代谢评估结果
基因:基因名;
染色体:染色体;
基因位置:位置信息;
rs编号:rs号;
REF:参考序列;
ALT:突变序列;
基因型:基因型;
药物类别:药物类型;
药物名称:药物中文名;
代谢特征:相关说明;
实验7中靶向药物指导仅基于体细胞变异,指导使用的药物为厄洛替尼、阿法替尼和吉非替尼三种。实验10结合体细胞变异检测结果进一步对该样本的胚系变异进行分析,得出患者使用厄洛替尼治疗时,可能腹泻的严重程度较小。因此,本发明提供的检测分析装置对现有体细胞检测结果进行了进一步完善,对于不同基因型个体指导用药具有重要作用。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离发明技术原理的前提下,还可以做出若干改进和10替换,这些改进和替换也应视为本发明的保护范围。