实施例1
根据本发明实施例,提供了一种循环肿瘤DNA重复序列的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种循环肿瘤DNA重复序列的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取待检测循环肿瘤DNA的测序数据和参考基因组序列,其中,测序数据为对待检测循环肿瘤DNA进行高通量测序得到的数据,测序数据包括:多对双端序列。
具体地,上述的待检测循环肿瘤DNA可以从病人的血液、淋巴液、组织间隙液、脑髓液等体液中提取得到的基因序列,在本发明实施例中以血液中提取到的ctDNA为例进行说明;上述的测序数据可以是对待检测ctDNA进行NGS测序得到的ctDNA样本捕获测序fastq数据;上述的参考基因组序列可以是从公开数据库NCBI等网站下载的人类参考基因组fasta数据。
步骤S104,将测序数据和参考基因组序列进行比对,得到第一比对结果,其中,第一比对结果至少包括:多对双端序列的基因组位置、碱基序列和对应的碱基质量值序列。
具体地,上述的基因组位置可以是每对PE reads比对到参考基因组序列中的位置,不同的PE reads可以比对到相同的位置;上述的碱基质量值可以是通过NGS测序得到的测序质量,用于衡量每个碱基位置上碱基类型测量的准确度,碱基质量值越大,说明碱基类型测量的准确度越高;上述的碱基序列可以是每对双端序列中每个碱基位置上的碱基类型,DNA序列中包含四种类型的碱基,分别为G、C、T、A,在NGS测序过程中,可以确定每个碱基位置上的碱基类型,并得到该碱基类型的碱基质量值。
在一种可选的方案中,可以获取人类参考基因组fasta数据和ctDNA样本捕获测序fastq数据,利用基因组比对工具bwa mem进行序列比对,得到比对结果文件(.bam),也即,得到上述的第一比对结果,比对结果文件为bam格式,包含每对PE reads的名称、位置信息、SAM标记、比对质量信息、CIGAR字串、mate pair信息、片段序列、测序质量等。
需要说明的是,第一比对结果中的多对双端序列的碱基序列和碱基质量值是从NGS测序的测序数据中直接继承过来的数据,第一比对结果包含基因组比对位置及比对情况的信息的同时,还存储了多对双端序列的碱基序列和碱基质量值,方便后续的其他分析,不再使用fastq文件。
步骤S106,基于第一比对结果,确定每对双端序列的类型,其中,类型包括:独立序列和重复序列。
在一种可选的方案中,由于在没有PCR和测序错误时,同一个DNA分子片段(fragment)经过PCR产生多个完全一样的fragment,这组fragment均可以比对到参考基因组同一个位置,且序列相同。而来自不同fragment的DNA分子,虽然可能比对到基因组的相同位置,但由于其可能分别属于不同的DNA分子(例如,血液中提取到的DNA包含两种类型,一种是包含肿瘤信息的ctDNA分子;另一种是在血液中游离的自身DNA,多是从身体的细胞或者白血球破裂释放出来的,一般认为是无害的,不用多久会被人体自身清理掉,两种DNA携带的信息不同;又例如,不同的ctDNA分子),所以其序列可能并不相同。因此,本发明实施例提供了一种UniqS方法,基于上述基本事实,可以将比对到基因组相同位置且序列完全相同的PE reads定义为来自同一个原始fragment的多个重复,并选择其中碱基质量和最高的作为这组fragment的最终代表的独立序列(unique reads),其余作为重复序列。
需要说明的是,无论是通过本发明提供的去重方法进行去重之前,还是通过本发明提供的去重方法进行去重之后,所有的bam文件均包含下列信息:每对PE reads的名称、位置信息、SAM标记、比对质量信息、CIGAR字串、mate pair信息、片段序列、测序质量等。
根据本发明上述实施例,获取待检测循环肿瘤DNA的测序数据和参考基因组序列,将测序数据和参考基因组序列进行比对,得到第一比对结果,进一步基于第一比对结果,确定每对双端序列的类型,从而实现重复序列的去重处理。容易注意到的是,由于在将测序数据和参考基因组序列进行比对之后,需要结合多对双端序列的具体碱基序列确定每对双端序列的类型,从而实现在考虑到序列质量值的同时,考虑具体碱基序列上的差异,达到保留更多的原始分子,提高处理准确度的技术效果,进而解决了现有技术中测序数据的处理方法对样本测序进行重复序列删除或标记,准确度低的技术问题。
可选地,在本发明上述实施例中,步骤S106,基于第一比对结果,确定每对双端序列的类型包括:
步骤S1062,将多对双端序列划分为至少一个序列集合,其中,每个序列集合包括:至少一对双端序列,同一个序列集合中的双端序列的基因组位置相同且每个碱基位置上的碱基类型相同。
具体地,上述的每个序列集合用于表征同一个fragment,每个序列集合中包含的PE reads为同一个fragment经过PCR产生的多个重复序列。
步骤S1064,计算每个序列集合中每对双端序列包含的所有碱基的碱基质量值之和,得到每个序列集合中每对双端序列的碱基质量和。
步骤S1066,获取每个序列集合中最大碱基质量和对应的第一双端序列。
步骤S1068,将每个序列集合中第一双端序列作为独立序列,并将每个序列集合中除第一双端序列之外的其他第二双端序列作为重复序列。
在一种可选的方案中,可以将比对到基因组相同位置且序列完全相同的PE reads定义为来自同一个原始fragment的多个重复,选择其中碱基质量和最高的作为这组fragment的最终代表的unique reads,其余作为其副本标记为重复。
例如,如图2所示,对于包含如2所示的8对PE reads的测序数据,可以将第1对PEreads划分为第一个序列集合,将第2对、第4对、第5对、第7对和第8对PEreads划分为第二个序列集合,将第3对PE reads划分为第三个序列集合,将第6对PE reads划分为第四个序列集合,从而得到四个序列集合,也即,测序数据中的8对PE reads来自四个fragment的多个重复,进一步地,对于第一个序列集合、第三个序列集合和第四个序列集合,由于序列集合中仅包含一对PE reads,因此,可以将序列集合中包含的PE reads作为unique reads;对于第二个序列集合,由于序列集合中包含5对PE reads,则可以获取碱基质量和最高的PEreads,例如,第4对PE reads作为unique reads,并将第2对、第5对、第7对和第8对PE reads作为重复序列进行标记。
可选地,在本发明上述实施例中,步骤S1062,将多对双端序列划分为至少一个序列集合包括:
步骤S10622,将每对双端序列的与多对双端序列中除每对双端序列之外的任意一对双端序列进行比较。
步骤S10624,如果每对双端序列的基因组位置和任意一对双端序列的基因组位置相同,并且每对双端序列中每个碱基位置上的碱基类型与任意一对双端序列中每个碱基位置上的碱基类型相同,则将每对双端序列和任意一对双端序列划分为同一个序列集合。
在一种可选的方案中,为了判断两对PE reads是否来自同一个fragment,则可以首先判断两对PE reads的基因组位置是否相同,如果不同,则可以确定两对PE reads来自不同的fragment,如果相同,则进一步判断两对PE reads每个碱基位置上的碱基类型是否相同,如果不同,则可以确定两对PE reads来自不同的fragment;如果相同,则可以确定两对PE reads序列完全相同,也即两对PE reads来自同一个fragment,因此,可以将两对PEreads划分在同一个序列集合中。
可选地,在本发明上述实施例中,在步骤S106,基于第一比对结果,确定每对双端序列的类型之后,该方法还包括:
步骤S108,在第一比对结果中,对重复序列进行标记。
在一种可选的方案中,本发明提供的UniqS方法不删除原始数据,仅在比对结果文件(.bam)中对重复序列进行标记,得到标记后的比对结果文件(.bam)。
可选地,在本发明上述实施例中,第一比对结果还包括:标记位,其中,步骤S108,在第一比对结果中,对重复序列进行标记包括:
步骤S1082,获取重复序列的标记位的当前值。
具体地,上述的标志位可以是比对结果文件(.bam)中的SAM标记,SAM标记的值可以是多种比对信息对应值之和,上述的当前值可以是SAM标记的原有数值,不同的PE reads的SAM标记的原有数值不同。
步骤S1084,计算当前值与预设值之和,得到和值。
具体地,上述的预设值可以是1024。
步骤S1086,将当前值修改为和值。
在一种可选的方案中,本发明提供的UniqS方法不删除原始数据,仅在相应的SAM标记的原有数值上增加1024,表示该PE reads为重复序列,从而得到标记后的比对结果文件(.bam)。
可选地,在本发明上述实施例中,在步骤S108,在第一比对结果中,对重复序列进行标记之后,该方法还包括:
步骤S110,根据第一比对结果,显示每个基因组位置对应的双端序列的比对信息和碱基质量值。
具体地,上述的比对信息可以是是否与参考基因组的每个位置上的碱基相同,是否发生***缺失,比对到参考基因组的正链还是负链等,本发明对此不作具体限定。
步骤S112,对比对质量满足预设条件的双端序列进行过滤。
具体地,上述的预设条件可以是比对质量为0。
在一种可选的方案中,可以调用samtools-1.3mpileup根据标记后的bam文件,按基因组位置展示比对到该位置的所有reads的比对信息和质量值,每一行记录一个基因组位置的比对情况,也即,每一行记录比对到每个基因组位置的所有reads的比对信息和质量值。可以认为是一种比对结果纵向的堆叠式的统计和展示。
可选地,在本发明上述实施例中,在步骤S108,在第一比对结果中,对重复序列进行标记之后,该方法还包括:
步骤S114,获取捕获测序区间。
步骤S116,根据捕获测序区间,对独立序列进行单核苷酸变异检测和***缺失检测,得到检测结果。
在一种可选的方案中,可以获取捕获测序区间Bed文件,并调用varscan2mpileup2snp模块检测单核苷酸变异(SNV),mpileup2indel模块检测***缺失(INDEL),其中,单核苷酸变异是指参考基因组的某个位置上发生碱基类型的改变,***缺失是指在参考基因组的某段序列上***了一小段新的序列或缺失了某段序列。
可选地,在本发明上述实施例中,在步骤S106,基于第一比对结果,确定每对双端序列的类型之前,该方法还包括:
步骤S118,按照每对双端序列的基因组位置,对第一比对结果进行排序,得到第二比对结果,并为第二比对结果建立索引。
在一种可选的方案中,可以调用Picard’s SortSam模块将比对结果文件(.bam)(也即上述的第一比对结果)按比对位置排序,同时建立bam文件的索引文件(.bai)。通过比对结果文件按比对位置排序,从而使得相同位置的PE reads相邻,方便后续对PEreads进行去重处理。
步骤S120,对第二比对结果进行过滤,得到第三比对结果。
在一种可选的方案中,由于同一个PE reads可能会对比到多个基因组位置,在进行去重处理之前,首先需要对比对结果文件(.bam)进行过滤,具体可以调用samtools view模块对排序后的bam文件进行筛选,得到第三比对结果。
步骤S122,基于第三比对结果,确定每对双端序列的类型。
在一种可选的方案中,可以将第三比对结果中,比对到基因组相同位置且序列完全相同的PE reads定义为来自同一个原始fragment的多个重复,并选择其中碱基质量和最高的作为这组fragment的最终代表的独立序列(unique reads),其余作为重复序列。
可选地,在本发明上述实施例中,步骤S104,将测序数据和参考基因组序列进行比对,得到第一比对结果包括:
步骤S1042,获取多对双端序列中每条序列和参考基因组序列中的每段序列的匹配度。
步骤S1044,获取最高匹配度对应的至少一段序列,得到每条序列的匹配序列。
步骤S1046,根据每条序列的匹配序列,确定每条序列的基因组位置。
在一种可选的方案中,可以计算每一对PE reads中每条reads与人类参考基因组序列的匹配度,通过匹配度判断每一条reads是否来自人类参考基因组序列中某一段序列,匹配度越高,每一条reads来自人类参考基因组序列中该序列的可能性越大,可以将每条reads比对到最高匹配度的序列,从而根据该序列的位置,可以得到该条reads的基因组位置。
需要说明的是,在本发明实施例中,可以采用现有技术中提供的比对算法进行比对,本发明对此不做具体限定。
图3是根据本发明实施例的一种可选的循环肿瘤DNA重复序列的处理方法的流程图,下面结合图3对本发明一种优选的实施例进行详细说明。如图3所示,该方法可以包括如下步骤:输入cfDNA样本捕获测序fastq文件和人类参考基因组fasta文件,利用bwa mem软件进行基因组比对;调用Picard软件进行reads排序;调用samtools软件进行reads过滤;利用本发明上述实施例提供的UniqS算法进行去重,得到cfDNA样本标记重复后的bam文件;输入捕获测序区间Bed文件,调用samtools mpileup对标记重复后的bam文件按位置展示所有reads的比对情况和质量值;调用varscan2 mpileup2snp模块鉴定SNV,mpileup2indel模块鉴定INDEL。
需要说明的是,上述的cfDNA样本也可以是其他含有ctDNA的体液样本。
本发明输入文件包括:待测样本经过比对、排序、过滤等步骤后生成的测序数据文件(bam格式,包含每条测序片段的名称、SAM标记、位置信息、比对质量信息、CIGAR字串、mate pair信息、片段序列、测序质量等)、人类参考基因组序列(fasta格式);
本发明的输出文件包括:待测样本标记重复后的比对结果文件(bam格式)以及检测到的SNV和INDEL的vcf格式文件。
通过上述方案,对于DNA分子碎片化严重、覆盖基因组范围小、经过多轮PCR的样本或测序方案,尤其是血浆ctDNA样本的捕获测序数据可以保留更多的原始分子,有效利用碱基序列,提高了原始数据的利用率,和最终变异检测的准确性。
下面通过单碱基变异(SNV)梯度稀释细胞系测试实验验证对上述实施例进行验证。
1、细胞系培养
细胞系HCT116、KYSE450、NCI-H1573、NCI-H1975、NCI-H441、PC-9、SK-HEP-1、SW48、THP-1、BEAS-2B购买自南京科佰生物科技有限公司,按照提供的说明书进行细胞培养,即RPMI-1640培养基中加入10%胎牛血清,在37度条件下进行培养。
2、细胞DNA提取
收集细胞悬液后,常温300g离心5分钟后弃上清,用200uLPBS重悬细胞,然后用QIAamp DNA Mini Kit(货号为51304;Qiagen,Germany)进行基因组DNA提取。经过裂解后过柱纯化,最后用low-TE缓冲液洗脱DNA。
3、用ddPCR的方法确定以上细胞系中突变位点的理论VAF
用细胞提取的基因组DNA作为模板,进行ddPCR的实验,以上细胞系中突变位点的理论VAF如表1所示。ddPCR用伯乐的仪器、商品化探针和反应体系。反应体系组成为:10ulddPCR supermix for probes(no dUTP),1ul突变探针,1ul野生型探针,以及20ng待测DNA。配制好反应体系后,按照仪器使用方法进行乳糜生成,吸取乳糜至96孔PCR板,用Pierceable Foil Heat Seal进行热封。PCR反应的条件为:酶激活95度,8min;94度30s解链,55度1min退火延伸,共39个循环;酶失活98度10min;4度保温。PCR扩增之后,伯乐的微滴读取仪读取每个反应孔中的带有荧光的微滴数目。每批次反应用超纯水作为阴性对照。每个待测DNA做三个复孔作为技术重复。
表1
4、含有11个突变位点的样本制备
按照下表2中的质量百分比混合上表中的10种细胞系,制备成1个样本,并计算预期的VAF值。
表2
5、样本的ddPCR结果
用ddPCR实验的方法检测样本中以上列表中各个位点的VAF值,如表3所示,每个反应体系中加入20ng样本DNA,每个样本做三个复孔作为技术重复。
表3
基因 |
突变 |
DDPCR VAF |
KRAS |
G13D |
0.53 |
PIK3CA |
H1047R |
1.06 |
EGFR |
G719S |
0.88 |
NRAS |
Q61K |
1.80 |
EGFR |
L858R |
1.26 |
EGFR |
T790M |
1.52 |
KRAS |
G12V |
1.43 |
EGFR |
E746_A750del |
4.76 |
BRAF |
V600E |
0.92 |
EGFR |
S768I |
2.42 |
NRAS |
G12D |
4.48 |
6、样本的文库构建、捕获和测序
将混合的细胞系样本DNA首先用covaris超声打断成200bp左右的DNA片段,qubit荧光定量后,如表4所示,用不同的起始量DNA,不足50ul用无酶水补平,采用KAPAhyperpreparation kit(罗氏公司)进行文库构建,经过末端修复、3’端加polyA、连接测序接头、进行无偏向扩增,之后进行纯化获得文库。
表4
样本 |
起始量DNA(ng) |
PCR循环数 |
样本1 |
20 |
6 |
样本2 |
5 |
8 |
样本3 |
5 |
8 |
详述如下:
1)末端平齐并在3’末端加A:反应体系如下表5所示:
表5
试剂 |
体积 |
Fragmented,double-stranded DNA |
50μL |
End Repair&A-Tailing Buffer |
7μL |
End Repair&A-Tailing Enzyme Mix |
3μL |
总体积 |
60μL |
Buffer和酶应预先在EP管中混匀,与DNA涡旋混匀后按以下反应进行。反应步骤如下表6所示:
表6
该步操作将PCR管盖温度设为85℃,而非105℃。若该操作结束后立即进行下步实验,应将终止温度设为20℃,而非4℃。
2)连接接头:根据建库说明书的指导,20ng DNA应该采用7.5uM接头。按照下表7所示配制反应体系:
表7
试剂 |
体积 |
反应产物 |
60μL |
接头体积 |
5μL |
超纯水 |
5μL |
连接Buffer |
30μL |
DNA连接酶 |
10μL |
总体积 |
110μL |
Buffer和酶应预先在EP管中混匀,涡旋震荡后离心,20℃孵育15分钟。
3)连接后纯化:在上一步反应体系(110ul)中加入Agencourt AMPure XP纯化磁珠88ul。
充分涡旋振荡,轻微离心。室温吸附5-15分钟,使DNA与磁珠充分结合EP管放至磁力架吸附至液体澄清缓慢吸取EP管中上清并丢弃。EP管中加入200μL 80%乙醇孵育30秒缓慢吸取EP管中乙醇并丢弃。重复一次乙醇洗磁珠。EP管室温干燥3-5分钟至乙醇完全挥发。从磁力架取下EP管,加入22μL超纯水,涡旋振荡,轻微离心室温孵育2分钟洗脱DNA,EP管放至磁力架吸附至液体澄清,上清转移至新的EP管,取1μL上清测DNA浓度,剩余的进行扩增。
4)PCR扩增:按照下表8所示配制PCR体系。
表8
试剂 |
体积 |
KAPA HiFi HotStart ReadyMix(2X) |
25μL |
KAPA Library Amplification Primer Mix(10X)* |
5μL |
接头连接文库 |
20μL |
总体积 |
50μL |
充分震荡后快速离心,按照下表9所示条件进行PCR反应。
表9
5)扩增后纯化:加入与PCR反应体系同等体积的Agencourt AMPure XP纯化磁珠(50μl)。
充分涡旋振荡,轻微离心,室温吸附5-15分钟,使DNA与磁珠充分结合。EP管放至磁力架吸附至液体澄清,缓慢吸取EP管中上清并丢弃。EP管中加入200μL 80%乙醇孵育30秒,缓慢吸取EP管中乙醇并丢弃。重复一次乙醇洗磁珠。EP管室温干燥3-5分钟至乙醇完全挥发。从磁力架取下EP管,加入52μL超纯水,涡旋振荡,轻微离心。室温孵育2分钟洗脱DNA,EP管放至磁力架吸附至液体澄清,上清转移至新的EP管,取1μL上清测DNA浓度。
6)在测序前采用探针捕获的方法,用Roche NimbleGen探针将包含11个突变位点的目的区域进行富集和进一步扩增,获得目的区域的文库。经过q-PCR定量后进行上机测序。
7、处理下机fastq数据为各软件可使用的输入文件。
数据下机后,首先将下机数据从fastq文件处理成bam文件,具体使用的软件和步骤如下:
7.1比对
调用bwa-0.7.12mem将每一对fastq文件都作为PE reads比对到hg19人类参考基因组序列,除-M参数与指定Reads Group的ID外,不使用其余参数选项,生成初始bam文件。
7.2排序
调用picard-2.1.0的SortSam模块,对初始bam文件按照染色***置进行排序,参数设置为“SORT_ORDER=coordinate”。
7.3筛选
调用samtools-1.3view对排序后的bam文件进行筛选,采用“-F 0x900”作为参数。
7.4建立索引
调用samtools-1.3的index模块对最终生成的bam文件建立索引,生成与过滤后的bam文件配对的bai文件。
8、标记重复
8.1使用Picard’s MarkDuplicates模块标记重复,后续的变异检测时,会自动过滤这部分重复序列,再进行分析。
8.2根据本发明上述实施例提供的方法(UniqS)对过滤后的bam文件去除重复序列,生成标记重复的bam文件。
8.3统计比对情况:
调用samtools-1.3的flagstat模块对最终生成的bam文件进行统计,生成标记重复后的bam文件的比对情况文件,包括总reads的数量、重复reads的数量、比对到参考基因组上的reads数量、成对的reads数据数量、read1的数量、read2的数量、完美匹配到参考序列的reads数量(properly paired)、一对reads都比对到了参考序列上的数量、一对reads中只有一条与参考序列相匹配的数量、一对reads比对到不同染色体的数量、一对reads比对到不同染色体的且比对质量值大于5的数量等。
8.4结果比较:
本发明上述实施例提供的算法与Picard方法的数据量统计结果如下表10所示,从下表10中可以看出,本发明提供的算法比Picard方法保留的数据量更多,提高了数据的有效利用率。
表10
样本 |
Picard |
UniqS |
样本1 |
24872747 |
58481983 |
样本2 |
13687626 |
55455207 |
样本3 |
14290322 |
52631043 |
9、变异检测
9.1堆叠
调用samtools-1.3mpileup对标记重复后的bam文件按位置展示所有reads的比对情况和质量值,参数设置为“q=1”,mpileup的结果文件(mpileup文件)包含染色体、基因组位置、参考基因组碱基类型、该位点测序深度、全部覆盖该位点reads的比对情况和质量值。
由于ddPCR验证阳性位点有限,仅对下列区间做mpileup处理,使用参数“-lpositive.bed”,positive.bed文件如表11所示。
表11
染色体 |
起始位置 |
结束位置 |
基因 |
chr1 |
115256527 |
115256530 |
NRAS |
chr1 |
115258745 |
115258748 |
NRAS |
chr3 |
178952083 |
178952086 |
PIK3CA |
chr12 |
25398279 |
25398282 |
KRAS |
chr12 |
25398282 |
25398285 |
KRAS |
chr7 |
140453134 |
140453137 |
BRAF |
chr7 |
55241706 |
55241709 |
EGFR |
chr7 |
55242414 |
55242513 |
EGFR |
chr7 |
55249003 |
55249006 |
EGFR |
chr7 |
55249069 |
55249072 |
EGFR |
chr7 |
55259513 |
55259516 |
EGFR |
9.2统计positive.bed区间的平均测序深度
使用简单的脚本或bash命令根据mpileup文件统计不同去除重复序列方法在positive.bed区间的测序深度的平均值,结果见表12。
表12
样本 |
Picard |
UniqS |
样本1 |
1625.370 |
4524.840 |
样本2 |
533.496 |
3855.390 |
样本3 |
627.380 |
3601.530 |
本发明提供的方法比Picard的方法在positive.bed区间平均深度相比Picard去重更高。
9.3变异检测
调用varscan2mpileup2snp模块检测单核苷酸变异(SNV),mpileup2indel模块检测***缺失标记(INDEL),参数设置“--min-coverage 100--min-reads2 2--min-var-freq0.001--p-value 0.05--min-avg-qual 20”。
对上述3个样本的ddPCR验证为阳性的位点用不同去重方法之后统计的变异结果如下表13至15所示(表格中数值为突变频率),其中,表13示出样本1的变异结果,表14示出样本2的变异结果,表15示出样本3的变异结果。
表13
基因 |
Aachange |
Picard |
UniqS |
NRAS |
p.Q61K |
0 |
1.05 |
PIK3CA |
p.H1047R |
0.96 |
1.15 |
BRAF |
p.V600E |
0.83 |
0.73 |
NRAS |
p.G12D |
3.87 |
4.8 |
EGFR |
p.G719S |
0.88 |
0.74 |
EGFR |
p.L858R |
1.64 |
1.93 |
EGFR |
p.S768I |
2.15 |
2.33 |
KRAS |
p.G13D |
0.6 |
0.5 |
EGFR |
p.745_750del |
3.05 |
2.69 |
KRAS |
p.G12V |
1.02 |
1.15 |
EGFR |
p.T790M |
1.39 |
1.04 |
表14
基因 |
Aachange |
Picard |
UniqS |
NRAS |
p.Q61K |
4.22 |
4.23 |
PIK3CA |
p.H1047R |
0 |
1.77 |
BRAF |
p.V600E |
0 |
0.92 |
NRAS |
p.G12D |
0 |
1.53 |
EGFR |
p.G719S |
0.93 |
1.3 |
EGFR |
p.L858R |
2.3 |
2.35 |
EGFR |
p.S768I |
1.04 |
0.83 |
KRAS |
p.G13D |
1.07 |
0.86 |
EGFR |
p.745_750del |
2.92 |
2.03 |
KRAS |
p.G12V |
1.34 |
1.83 |
EGFR |
p.T790M |
0.96 |
0.87 |
表15
基因 |
Aachange |
Picard |
UniqS |
NRAS |
p.Q61K |
0 |
0.99 |
PIK3CA |
p.H1047R |
0 |
0.5 |
BRAF |
p.V600E |
0.99 |
0.94 |
NRAS |
p.G12D |
5.45 |
5.83 |
EGFR |
p.G719S |
0 |
1.32 |
EGFR |
p.L858R |
0.76 |
0.94 |
EGFR |
p.S768I |
1.66 |
1.7 |
KRAS |
p.G13D |
0 |
0.3 |
EGFR |
p.745_750del |
2.56 |
2.35 |
KRAS |
p.G12V |
1.54 |
2.04 |
EGFR |
p.T790M |
0 |
0.88 |
Picard在多处阳性位点检测的突变频率为0(频率>0为阳性,频率=0为阴性),而UniqS方法在全部11个位点都检测为阳性。综上可以看出使用本发明相比Picard去重可以检测更多的阳性位点。