CN113652484B

CN113652484B - 测序panel的应用、试剂盒及测序文库的制备方法

Info

Publication number: CN113652484B
Application number: CN202110954469.9A
Authority: CN
Inventors: 胡传圣; 李华; 胡文献; 胡延平; 沈益行
Original assignee: Shanghai Yidi Biotechnology Co ltd; Suzhou Jingmai Biotechnology Co ltd
Current assignee: Shanghai Yidi Biotechnology Co ltd; Suzhou Jingmai Biotechnology Co ltd
Priority date: 2021-08-03
Filing date: 2021-08-19
Publication date: 2022-06-07
Anticipated expiration: 2041-08-19
Also published as: CN113652484A

Abstract

本申请涉及一种测序panel的应用、试剂盒及测序文库的制备方法，属于生物技术领域。该测序文库所采用的Y型接头的序列设计更为优化，即提高了数据分析的准确性，又提高了测序的经济性；该测序panel经过合理严格的筛选方法得到，对胃癌患者与健康人能进行准确的区分，能在癌症检测或制备癌症检测产品中的应用；并通过设计合理的检测模型和分值公式，能提高检测的准确性，其高度的预测准确性经过了临床样品的验证，具有很大的推广潜力。

Description

测序panel的应用、试剂盒及测序文库的制备方法

本申请要求了申请日为2021年8月03日，申请号为202110885340.7的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及一种测序panel的应用、试剂盒及测序文库的制备方法，属于生物技术领域。

背景技术

胃癌是全世界最常见的恶性肿瘤之一，也是死亡率最高的恶性肿瘤之一。据近年来的统计资料显示，在中国，胃癌长期居于各类癌症死亡的三大主要原因之一。目前，显著改善的手术技术以及各种新近开发的治疗方法都使得早期胃癌患者的治疗效果得到了显著的提升，生存期亦有了明显的增加；但晚期胃癌患者的生存期仍然很不乐观，五年生存率远低于50％，且长期的高昂治疗费用为家庭和社会带来了沉重的负担。因此，胃癌的早期检测对于胃癌的治疗至关重要。

胃镜是目前诊断胃癌最为常用的工具。早期胃癌在胃镜下的表现包括黏膜颜色异常和表面血管消失、黏膜层凹陷或凸起增厚、溃疡周边不正常的黏膜褶皱、等等；在需要的情况下，亦可以切取胃部组织进行切片活检。尽管胃镜检查后进行组织活检是胃癌诊断的金标准，但由于胃镜具有侵入性，常会引起患者的不适与恐惧，症状不明显的患者常常不愿意接受胃镜检查。而症状严重之后再进行胃镜检查，很可能已经处于晚期胃癌阶段。蛋白标志物可以作为胃癌诊断的参考依据，常用的胃癌蛋白标志物包括癌胚抗原(CEA)、糖类抗原19-9(CA19-9)、糖类抗原50(CA50)和胃蛋白酶原等。但是，由于这些常规胃癌蛋白标志物的敏感性/特异性不够高，不适合被单独用作胃癌的诊断标准，对早期胃癌检测更是作用十分有限。

液体活检技术作为体外诊断的一个分支，液体活检通过血液或者尿液等对癌症等疾病做出诊断，其优势在于能通过非侵入性取样降低活检的危害，而且有效延长患者生存期，性价比高。基于血液的ctDNA检测作为液体活检技术的重要发展分支之一，有望取代组织活检。目前市场上的液体活检产品基本都是只能对胃癌的一种或者若干种基因突变进行检测，对于突变的覆盖度不高，用其对胃癌(特别是早期胃癌)进行检测带来的敏感性和特异性并不高。因此，目前很有必要研发新的基于液体活检的胃癌检测方法和试剂盒，以用于胃癌高风险人群的肿瘤检测，便于及早进行临床干预。

发明内容

本发明的目的在于提供一种测序panel的应用、试剂盒及测序文库的制备方法，能简单并且准确地将胃癌患者与健康人进行区分，其高度的预测准确性经过了临床样品的验证，具有很大的推广潜力。

为达到上述目的，本发明提供如下技术方案：

第一方面，提供了一种测序panel在癌症检测或制备癌症检测产品中的应用，所述测序panel包括以下98个基因：

ABCC9，ACTC1，ANK2，ANK3，ANO3，APC，ARID1A，ATM，ATP10A，BRCA2，C3ORF20，CACNA1C，CACNA1E，CDH1，CDH11，CDH23，CHD6，CNTN6，CNTNAP5，COL6A3，CREBBP，CSMD1，CSMD3，CTNNB1，CUBN，DCC，DDX17，DDX51，DENND3，DIDO1，DKK2，DNAH1，DNAH11，DNAH5，DNAJC2，DPP4，ENAM，ERBB3，EVX2，EYS，FAT3，FAT4，FBN1，FBXW7，FLG，FLNC，GAREM1，GRM5，HAS3，HMCN1，HRH2，IGSF10，ITPR3，KMT2D，KRAS，LRP1，LRP1B，LRP2，LRRIQ1，LRRK2，MED12L，MFSD1，MUC16，MYH10，MYO15A，NALCN，NBEA，NIPBL，OBSCN，OR51A4，PCDH15，PCIF1，PCLO，PEG3，PHF2，PIK3CA，RHOA，RNF213，RSPH3，RYR2，SCN9A，SMAD4，SPEN，SPTA1，SYNE1，TBXT，TENM4，TNXB，TP53，TRIO，TRPS1，TTN，TUBB2B，USH2A，XIRP2，ZFHX4，ZIM3，ZNF77。

进一步地，所述测序panel的测序区域包括所述98个基因的外显子区域、外显子上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp。

进一步地，所述癌症为胃癌。

进一步地，基于所述测序panel进行测序文库制备和测序数据分析。

进一步地，在所述测序文库制备中，采用以下Y型接头：

5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNTACGGTGCGCT-3’，

5’-GCGCACCGTANNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’；

其中，NNNNNNN为随机核苷酸序列；ACCGGTCCGTAA为12个碱基的固定序列；TATAGCCT和GCCAATTA为可根据实际情况替换的index序列。

进一步地，在所述测序数据分析中，对所述测序panel进行SNV和InDel分析，并设置根据分值公式对受测样品进行打分，所述分值公式为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)；

其中，i表示以下31个基因：ATM，TP53，FLG，PIK3CA，CSMD3，NBEA，GAREM1，PCDH15，DNAH1，TENM4，ZNF77，CACNA1C，TTN，ANK3，APC，LRRK2，ACTC1，ABCC9，DCC，DDX51，ENAM，CTNNB1，HRH2，SPEN，CHD6，MED12L，USH2A，ATP10A，ZFHX4，CNTNAP5，HMCN1；

j标识以下30个基因：RSPH3，LRP1B，KRAS，DNAJC2，CSMD1，DKK2，FAT4，XIRP2，TUBB2B，MYH10，DDX17，CNTN6，ERBB3，FAT3，SCN9A，OR51A4，PCIF1，ANO3，NIPBL，IGSF10，GRM5，EVX2，TRIO，CREBBP，RHOA，CACNA1E，PHF2，COL6A3，MYO15A，SPTA1；

k标识以下37个基因：ANK2，ARID1A，BRCA2，C3ORF20，CDH1，CDH11，CDH23，CUBN，DENND3，DIDO1，DNAH11，DNAH5，DPP4，EYS，FBN1，FBXW7，FLNC，HAS3，ITPR3，KMT2D，LRP1，LRP2，LRRIQ1，MFSD1，MUC16，NALCN，OBSCN，PCLO，PEG3，RNF213，RYR2，SMAD4，SYNE1，TBXT，TNXB，TRPS1，ZIM3；

Mu为i、j或k基因中检测到的SNV和InDel总数；C₁＝0.90，C₂＝0.74，C₃＝0.54。

第二方面，提供了一种试剂盒，其包括针对以下测序panel的探针、引物和Y型接头，所述测序panel为以下98个基因：

进一步地，所述探针的捕获区域包括所述98个基因的外显子区域、外显子上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp；

和/或，所述Y型接头为5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNTACGGTGCGCT-3’，

其中，NNNNNNN为随机核苷酸序列；ACCGGTCCGTAA为12个碱基的固定序列；TATAGCCT和GCCAATTA为可根据实际情况替换的index序列；

和/或，所述引物包括：测序引物5’-ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’，以及Index引物5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’。

第三方面，提供了一种测序文库的制备方法，其采用所述的试剂盒，所述制备方法包括：

S1、提供所述试剂盒和外周血；

S2、提取所述外周血的游离DNA，打断并磁珠纯化筛选得到DNA片段；

S3、对所述DNA片段进行末端补平和末端加A，并在磁珠纯化后与Y型接头进行连接；

S4、PCR扩增步骤S3得到的样品，并进行磁珠纯化和Qubit定量；

S5、重复步骤S4将得到的不同样品进行等质量比混合，使用所述探针进行杂交，洗脱后用磁珠纯化产物；随后PCR扩增，并且磁珠纯化，得到所述测序文库。

与现有技术相比，本申请的有益效果在于：

1)本申请的98个测序panel基因经过合理严格的筛选方法得到，对胃癌患者与健康人能进行准确的区分，能在癌症检测或制备癌症检测产品中的应用；并通过设计合理的检测模型和分值公式，能提高检测的准确性，其高度的预测准确性经过了临床样品的验证，具有很大的推广潜力。

2)测序文库所采用的Y型接头的序列设计更为优化，与常规Y型接头相比，除了引物区域的序列得以优化、引入随机核苷酸序列(A1)和固定序列(A2)，更重要的是提出了A1和A2的优化设计方法，这既能减少后续数据分析产生的错误，又能提高测序的经济性，能提高胃癌检测准确度以及降低胃癌检测的成本。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本申请实施例一中训练组测序数据的质控结果箱线图，其中，平均覆盖度经过了以10000为底的对数转换。

图2为本申请实施例一中在训练组中使用分值公式得到的胃癌检测ROC曲线图。

图3为本申请实施例二中验证组测序数据的质控结果箱线图，其中，平均覆盖度经过了以10000为底的对数转换。

图4为本申请实施例二中在验证组中使用分值公式得到的胃癌检测ROC曲线图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供了一种测序panel在癌症检测或制备癌症检测产品中的应用，所述测序panel包括以下98个基因：

可选的，所述测序panel的测序区域包括所述98个基因的外显子区域、外显子上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp。

可选的，所述癌症为胃癌。

本申请还提供了一种试剂盒，其包括针对上述98个测序panel的探针、引物和Y型接头。

可选的，所述探针的捕获区域包括所述98个基因的外显子区域、外显子上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp。

可选的，所述Y型接头为5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNTACGGTGCGCT-3’，

可选的，所述引物包括：测序引物5’-ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’，以及Index引物5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’。

本申请中，可以通过以下方法基于所述测序panel进行测序文库制备和测序数据分析：

1)从受试者处获得外周血，分离血清并从中提取游离DNA作为受试样品；

2)取100-500ng DNA超声打断至100-1000bp，磁珠纯化筛选150bp左右片段；

3)先对筛选出的DNA片段进行末端补平并用磁珠纯化产物；随后对DNA片段进行末端加A，并且磁珠纯化产物；

4)使用Y型接头(序列为5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和5’-TTACGGACCGGTN NNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’)与步骤(3)所得样品进行连接；Y型接头中，NNNNNNN为7个碱基的随机核苷酸序列(简写为A1,A1序列在两个接头中可为不同的随机序列，用以增加复杂度)，ACCGGTCCGTAA为12个碱基的固定序列(简写为A2)，TATAGCCT和GCCAATTA为index序列，用于区分不同受测者的测序数据，可用Illumina常用的8碱基index替换。

5)PCR扩增步骤4得到的样品并进行磁珠纯化和Qubit定量；

6)将3-6个步骤5得到不同样品进行等质量比例混合，随后使用对应测序panel(含98个基因：ABCC9,ACTC1,ANK2,ANK3,ANO3,APC,ARID1A,ATM,ATP10A,BRCA2,C3ORF20,CACNA1C,CACNA1E,CDH1,CDH11,CDH23,CHD6,CNTN6,CNTNAP5,COL6A3,CREBBP,CSMD1,CSMD3,CTNNB1,CUBN,DCC,DDX17,DDX51,DENND3,DIDO1,DKK2,DNAH1,DNAH11,DNAH5,DNAJC2,DPP4,ENAM,ERBB3,EVX2,EYS,FAT3,FAT4,FBN1,FBXW7,FLG,FLNC,GAREM1,GRM5,HAS3,HMCN1,HRH2,IGSF10,ITPR3,KMT2D,KRAS,LRP1,LRP1B,LRP2,LRRIQ1,LRRK2,MED12L,MFSD1,MUC16,MYH10,MYO15A,NALCN,NBEA,NIPBL,OBSCN,OR51A4,PCDH15,PCIF1,PCLO,PEG3,PHF2,PIK3CA,RHOA,RNF213,RSPH3,RYR2,SCN9A,SMAD4,SPEN,SPTA1,SYNE1,TBXT,TENM4,TNXB,TP53,TRIO,TRPS1,TTN,TUBB2B,USH2A,XIRP2,ZFHX4,ZIM3,ZNF77)的探针进行杂交，从而靶向捕获上述98个基因的外显子区域、外显子上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp；

7)再一次使用对应上述测序panel的探针进行靶向捕获,洗脱后用磁珠纯化产物；随后PCR扩增，并且磁珠纯化，所得产物后即为制备好的DNA文库(测序文库)；

8)对于步骤(7)获得的测序文库，在使用Agilent 2100Bioanalyzer进行片段长度范围检测以及Invitrogen Qubit进行浓度定量之后，送至Illumina NextSeq500高通量测序平台进行测序，测序时需加入测序引物(5’-ACCGACCTGCAACGACTAGC-3’，5’-GACTGTCTGCAACGACTAGC-3’)和Index引物(5’-AGTCCTGATCGACAGATCAC-3’,5’-TCGGTGAACGCAGATACTTG-3’)，随后获得下机数据，测序读长为150bp，测序模式为双端测序；

9)对步骤(8)获得的下机数据，使用质控工具(如FastQC，Cutadpat，Trimmomatic)进行数据质控和预处理以得到去除了低质量序列和测序接头的有效数据，随后使用序列比对软件(如Bowtie2)将得到的序列再比对到参考基因组序列上，获得定位于参考基因组的位置信息；

10)根据步骤(9)获得的序列比对位置，对结果进行PCR重复序列的去除。具体而言，被序列比对软件比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置相同)的序列则视为PCR重复，并将其合并为同一条序列；

11)将步骤(10)中获得的已去除PCR重复的序列，进一步过滤掉低比对质量(MAPQ<20)的序列，获得高比对质量的序列，进一步统计目标区域的测序覆盖度，舍弃覆盖度低于1000倍的区域后，进入下一步分析；

12)使用变异检测工具(如Varscan2)，对步骤(11)获得的数据进行SNV和InDel分析，进一步过滤掉低质量的SNV和InDel，获得高质量的SNV和InDel，并计算每个目标基因中的SNV与InDel总数；同时，使用注释工具(如SnpEff)对高质量的SNV和InDel位点进行注释。

13)基于该98个基因测序panel，使用如下胃癌分值公式(每一位受测者会得到一个分值Score_lung)：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i表示以下31个基因：ATM，TP53，FLG，PIK3CA，CSMD3，NBEA，GAREM1，PCDH15，DNAH1，TENM4，ZNF77，CACNA1C，TTN，ANK3，APC，LRRK2，ACTC1，ABCC9，DCC，DDX51，ENAM，CTNNB1，HRH2，SPEN，CHD6，MED12L，USH2A，ATP10A，ZFHX4，CNTNAP5，HMCN1；j标识以下30个基因：RSPH3，LRP1B，KRAS，DNAJC2，CSMD1，DKK2，FAT4，XIRP2，TUBB2B，MYH10，DDX17，CNTN6，ERBB3，FAT3，SCN9A，OR51A4，PCIF1，ANO3，NIPBL，IGSF10，GRM5，EVX2，TRIO，CREBBP，RHOA，CACNA1E，PHF2，COL6A3，MYO15A，SPTA1；k标识以下37个基因：ANK2，ARID1A，BRCA2，C3ORF20，CDH1，CDH11，CDH23，CUBN，DENND3，DIDO1，DNAH11，DNAH5，DPP4，EYS，FBN1，FBXW7，FLNC，HAS3，ITPR3，KMT2D，LRP1，LRP2，LRRIQ1，MFSD1，MUC16，NALCN，OBSCN，PCLO，PEG3，RNF213，RYR2，SMAD4，SYNE1，TBXT，TNXB，TRPS1，ZIM3；Mu为i、j或k基因中检测到的SNV和InDel总数；C₁＝0.90，C₂＝0.74，C₃＝0.54。以Score_lung＝2为分类阈值，高于2则将受测者预测为胃癌，低于或等于2则将受测者预测为健康人。

下面将结合具体实施方式来对本申请进行详细说明。

实施例一使用训练组样本确定血清游离DNA的测序panel

申请人于2018年3月至2019年1月采集了未经治疗的I和II期胃癌患者的外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性30例，女性20例，平均年龄为57.8，年龄分布为33–79岁。同期，申请人采集了健康人外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性30例，女性20例，平均年龄为58.2，年龄分布为33–78岁。这两组样品的性别与年龄都没有统计学上的显著差异，因此满足性别和年龄匹配的原则。

设计测序panel：

首先，该panel需要包括以下的胃癌驱动基因TP53,ARID1A,PIK3CA,CDH1,SMAD4,KRAS,APC,KMT2D,CDH11,ERBB3,RHOA,CTNNB1；

随后，使用TCGA的胃癌患者(亚洲人)全基因组/全外显子组测序数据，计算不同基因在患者中的突变频率(突变仅包括SNV和InDel)，并根据突变频率从高到低进行排序，随后挑选出排名靠前的基因与上述癌症驱动基因组成一个包含300个基因的测序panel。

这300个基因为：ABCA13,ABCC9,ACTC1,ADCY8,ADGRL1,ADRB2,AHNAK,AKAP9,ALDH4A1,ALK,ANGPT4,ANK2,ANK3,ANO3,APC,APCDD1L,APOB,ARID1A,ASCC3,ASPG,ATM,ATP10A,BCAR3,BRCA2,BRD1,C3ORF20,CACNA1C,CACNA1E,CAPN3,CARD9,CDH1,CDH11,CDH23,CDH9,CEP120,CFAP54,CFHR2,CGRRF1,CHD6,CHEK1,CHI3L1,CNTN6,CNTNAP5,COL11A1,COL6A3,COL9A3,CREBBP,CSMD1,CSMD2,CSMD3,CSTF2T,CTNNB1,CUBN,CYLD,CYP2F1,CYP39A1,DBN1,DCC,DDX17,DDX19B,DDX51,DENND3,DEPDC1,DIDO1,DIPK2A,DKK2,DNAH1,DNAH11,DNAH5,DNAH9,DNAJC2,DNMT3B,DOCK8,DOLK,DPP4,DST,DYNC1H1,DYSF,EFNB2,EFTUD2,EHD1,ENAM,EPC1,EPHB4,EPHB6,ERBB3,ESPL1,ESPNL,EVX2,EYS,FASTKD5,FAT1,FAT3,FAT4,FBN1,FBN2,FBXW7,FCRLB,FLG,FLNC,FREM2,GAREM1,GBX2,GCC2,GGPS1,GLRA4,GLRX3,GNA11,GRM5,GTF2IRD2,GXYLT1,HAS3,HAUS3,HELQ,HEPACAM2,HIST1H2AD,HM13,HMCN1,HNRNPH1,HRH2,HRNR,ICE1,IGHG4,IGSF10,IL1RAP,ILDR2,ITPR3,KIT,KLHDC8A,KMT2A,KMT2B,KMT2D,KRAS,KRT20,LANCL2,LMBRD1,LPCAT1,LRP1,LRP1B,LRP2,LRRIQ1,LRRK2,MACF1,MAMLD1,MAP2,MAPT,MARVELD2,MBOAT1,MED12L,MFSD1,MIB1,MOGS,MREG,MSS51,MTR,MUC16,MYD88,MYH10,MYNN,MYO15A,MZF1,N4BP2,NAALADL2,NALCN,NBEA,NDUFA8,NIBAN3,NIPBL,NKX6-2,NME8,NOP56,NR1H2,NRXN1,NUCB1,NUP98,NUTM2G,NXPE4,OBSCN,OPLAH,OR4P4,OR51A4,OR5L1,ORC1,ORM2,OS9,OSBP2,P3H2,PCDH15,PCDH17,PCDH7,PCDHGB1,PCIF1,PCLO,PDE8A,PDK4,PDZD2,PEG3,PHF2,PIK3CA,PLEC,POLA1,POLE2,POMK,PPARGC1B,PRDM10,PRKAR2B,PRPF40A,PTBP3,PTK7,PTPN2,PTPRT,PURG,RAPGEF2,RAPGEF6,RELB,REV3L,RGS1,RGS12,RGS9,RHOA,RNF14,RNF175,RNF213,RPAP1,RPTOR,RSBN1L,RSPH3,RYR2,RYR3,SAG,SCN9A,SDK1,SELENON,SEMA3C,SEMA5B,SEPTIN12,SERPINA10,SETD2,SH3RF3,SIL1,SKI,SLC12A3,SLC25A25,SLC47A1,SLC4A7,SLC4A9,SLC6A18,SLC6A19,SLC8A1,SLF2,SMAD4,SMPD1,SNX20,SOCS5,SPATA20,SPEN,SPTA1,ST6GALNAC3,STAB1,SUSD1,SYNE1,SYNE2,TBXT,TENM4,TET3,TG,THSD7B,TIE1,TM9SF2,TMEM109,TMEM165,TNFAIP3,TNXB,TP53,TRDN,TRIO,TRPS1,TSPOAP1,TTN,TUBB2B,TXNDC5,UNC79,UPF2,USH2A,USP17L2,USP7,VAX1,VPS13D,XIRP2,ZFHX4,ZIM3,ZNF142,ZNF212,ZNF217,ZNF280A,ZNF667,ZNF77,ZNF790,ZPR1,ZW10。该panel的探针靶向捕获区域包含了该300个基因的外显子区域、外显子上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp；探针为带生物素标记的单链DNA分子，其设计参考Illumina TruSeq Exome(FC-150-1004)，化学合成使用常规方法；基因组注释信息来自于Ensembl v96数据库。

设计Y型接头的方法：

一、Y型接头中的随机核苷酸序列(A1)的长度由计算机模拟计算后确定，具体方法为：

1)用游离DNA的入口量(以500ng计)除以单个细胞的DNA量(以6pg计)，随后乘以2，得到超声打断产生的同一位置的DNA片段的最多拷贝数m；

2)假定A1的长度为n，使用R语言产生一个长度为4²ⁿ的向量，包含的元素为从1到4²ⁿ的自然数；

3)使用R语言从所述向量中进行有放回抽样，抽样次数为m，对抽得的m个元素进行去重并计算去重后剩余元素数占m个元素的比例P；

4)不断增加n，当n≥7时，P大于99.9％，即同一位置的DNA拷贝因为连接到了相同的A1而在后续分析中被误认为是PCR重复去除的比例低于千分之一；又由于A1应尽可能短(减少由于测序错误导致的不同A1被读成相同的可能性；减少A1在下机数据中的占比以提高经济性)，A1的长度显然应该选择7。

二、Y型接头中的固定序列(A2)的长度由以下方法确定：假定固定序列包含n个核苷酸(n≥8)，当n从8依次增加到12时，对应的固定序列的碱基组合数量依次为65536，262144，1048576，4194304，16777216；使用序列比对软件Bowtie2将所有的组合比对到人类参考基因组(hg38)，当n≤11时，所有组合都可以完美比对到人类参考基因组上(即没有任何错配)，当n＝12时，开始出现少量(<1％)无法完美比对的碱基组合；可以预见，当n≥13时，亦会有无法完美比对的碱基组合；为了避免因固定序列与基因组序列相同而发生错误的序列移除，同时为了让固定序列尽可能短(减少由于测序错误导致的A2无法识别；减少A2在下机数据中的占比以提高经济性)，固定序列A2的长度显然应该选择12。

本实施例中，对于每一份外周血样品，均采用以下(1)-(23)步骤进行血清游离DNA的文库制备和测序数据分析，从而得到血清游离DNA的SNV以及InDel：

(1)外周血样品在用干燥采血管采集后于4℃静置半小时以上，随后400g，4℃离心10分钟取上清，进一步1800g，4℃离心10分钟取上清，得到血清样品，保存于-80℃冰箱中；

(2)使用QIAamp Circulating Nucleic Acid Kit(55114，QIAGEN)从上述血清样品抽提100–500ng的DNA，用超纯水(无DNA酶和RNA酶,下同)稀释至总体积为20μl，随后使用Bioruptor超声破碎仪将其打断并使用磁珠纯化至片段长度为150bp左右；

(3)将打断完的样本用RSB(15026770，Illumina)补足至50ul体积，加入100ul SPB(15052080，Illumina)混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加入62.5ul RSB后混匀，室温孵育2min，磁力架上吸附，取上清60ul至新管；

(4)加入40ul ERP3(15046465，Illumina)，混匀后30℃补平30min，降至4℃后取出；

(5)加入90ul SPB后充分混匀，室温孵育5min，磁力架上吸附，吸取185ul上清至新管，往新管内加入125ul SPB后充分混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul80％酒精洗两次，弃液体干燥后加入20ul RSB重悬磁珠，室温孵育2min，磁力架上吸附，取上清17.5ul至新管；

(6)加入12.5ul ATL2(15046467，Illumina)，混匀后37℃反应30min，70℃反应5min，4℃冷却5min后取出；

(7)加入2.5ul RSB，2.5ul LIG2(15036183，Illumina)，2.5ul接头(adapter；15uM；接头为Y型接头，碱基序列为5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCC TCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNTACGGTGCGCT-3’和5’-GCGCACCGTANNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’)混匀后30℃反应10min，降至4℃后取出；其中，TATAGCCT和GCCAATTA为index序列，用于区分不同受测者的测序数据，后续需要混样的不同样品在此处使用了不同的index序列(替换序列参照Illumina常用的8碱基index序列)。

(8)加入5ul STL(15012546，Illumina)混匀，加入39ul SPB混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加入52.5ul RSB，室温孵育2min，磁力架上吸附，吸取50ul上清至新管，新管加入45ul SPB混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加入27.5ul RSB，室温孵育2min，磁力架上吸附，吸取25ul上清至新管；

(9)加入5ul PPC(15031748，Illumina)，20ul EPM(15041027，Illumina)混匀后进行PCR反应：95℃预变性3min，98℃变性20s，60℃退火15s，72℃延伸30s，执行11个循环后，72℃延伸5min降至4℃后取出；

(10)加35ul SPB充分混匀，室温孵育5min，磁力架上吸附，取82ul上清至新管，加入82ul SPB混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加入17.5ul RSB重悬磁珠，室温孵育2min，磁力架上吸附，取上清15ul至新管，用Invitrogen Qubit测定浓度；

(11)将5个样本按等质量比例混合，使总样本量在900ng-1500ng之间，体积用RSB补足至40ul；

(12)加入50ul CT3(15048799，Illumina)，10ul DNA探针溶液(0.5uM；探针为带生物素标记的单链DNA分子，其设计参考Illumina TruSeq Exome，化学合成使用常规方法)混匀后进行杂交反应：95℃，10min；94℃,1min，92℃,1min，90℃,1min，…，60℃,1min(每降2℃反应1min)；58℃，90min后可取出；

(13)取EP管，立即加入100ul上步得到的样品，加入250ul SMB(15015927，Illumina)，室温孵育25min，磁力架上吸附，弃上清，加200ul SWS(15052987，Illumina)，混匀，50℃孵育30min，立即放在磁架上，吸附，弃上清，重复一次；

(14)配工作液：28.5ul EE1(15037034，Illumina)和1.5ul HP3(11324596，Illumina)混匀；取23ul重悬磁珠，室温孵育2min，磁力架上吸附，取21ul上清至新管，加入4ul ET2(15013008，Illumina)混匀；

(15)加入15ul RSB，50ul CT3，10ul DNA探针溶液(同上)混匀后进行杂交反应：95℃，10min；94℃,1min，92℃,1min，90℃,1min，…，60℃，1min(每降2℃反应1min)；58℃，14.5h后可取出；

(16)取EP管，立即加入100ul上步得到的样品，加入250ul SMB，室温孵育25min，磁力架上吸附，弃上清，加200ul SWS，混匀，50℃孵育30min，立即放在磁架上，吸附，弃上清，重复一次；

(17)配工作液：28.5ul EE1和1.5ul HP3混匀；取上一步得到的重悬磁珠23ul，室温孵育2min，磁力架上吸附，取21ul上清至新管，加入4ul ET2混匀；加45ul SPB混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加27.5ul RSB，室温孵育2min，磁力架上吸附，取上清25ul于新管；

(18)加5ul PPC，20ul NEM(15037047，Illumina)混匀后进行PCR反应：98℃预变性30s，98℃变性10s，60℃退火30s，72℃延伸30s，执行11个循环后，72℃延伸5min，降至4℃后取出，加入45ul SPB，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加22ul RSB，室温孵育2min，磁力架上吸附，取上清20ul于新管，得到制备完成的外显子文库。

(19)使用Agilent 2100Bioanalyzer进行片段长度范围检测(片段长度基本分布于200～400bp间)以及Invitrogen Qubit进行浓度定量(大于1ng/μl)之后，送至IlluminaNextSeq 500测序平台进行测序，测序读长为150bp，测序模式为双端测序，加入测序引物(5’-ACCGACCTGCAACGACTAGC-3’，5’-GACTGTCTGCAACGACTAGC-3’)和Index引物(5’-AGTCCTGATCGACAGATCAC-3’,5’-TCGGTGAACGCAGATACTTG-3’)，并获得下机数据。

(20)使用FastQC，Cutadpat和Trimmomatic进行数据质控和预处理(使用默认参数)以得到去除了低质量序列和测序接头的有效数据，随后通过识别固定碱基序列A2将随机核苷酸序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除，随后使用序列比对软件Bowtie2将得到的序列再比对到人类参考基因组序列上(hg38；使用默认参数)，获得定位于参考基因组的位置信息；

(21)根据序列比对位置，对结果进行PCR重复序列的去除。具体而言，被Bowtie2比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置相同)的序列若带有相同的随机核苷酸序列A1，则视为PCR重复，并将其合并为同一条序列；

(22)从已去除PCR重复的序列中，进一步过滤掉低比对质量的序列(仅保留MAPQ≥20的序列)，进一步统计目标区域的测序覆盖度，舍弃覆盖度低于1000倍的区域后，进入下一步分析；

(23)使用变异检测工具Varscan2，对上一步获得的数据进行SNV和InDel分析，而后进一步过滤掉dbSNP(v151)数据库中的常见突变，获得高质量的SNV和InDel，然后运用注释工具SnpEff对高质量的SNV和InDel位点进行注释(默认参数)。

测序数据质控分析显示，100个样品的下机数据Q30均大于85％，可比对序列超过95％，靶向捕获区域的平均覆盖度均达到4300倍以上(数据分布的箱线图如图1所示)，数据质量均为合格。

对于任意一个基因X和受测者N而言，定义T_XN为步骤(23)在该受测者的该基因中检测到的SNV和InDel总数。同时，为每一个受测者定义一个变量S_N，当受测者为健康人、I期患者和II期患者的时候，S_N分别是0、1和2。随后，对于基因X，计算T_XN与S_N的皮尔森相关系数R_X，保留相关系数R_X大于0.7的基因用于胃癌状态的预测。本实施例中，总计保留的基因数为98个，组成了最终的98个基因测序panel，这些基因包含ABCC9,ACTC1,ANK2,ANK3,ANO3,APC,ARID1A,ATM,ATP10A,BRCA2,C3ORF20,CACNA1C,CACNA1E,CDH1,CDH11,CDH23,CHD6,CNTN6,CNTNAP5,COL6A3,CREBBP,CSMD1,CSMD3,CTNNB1,CUBN,DCC,DDX17,DDX51,DENND3,DIDO1,DKK2,DNAH1,DNAH11,DNAH5,DNAJC2,DPP4,ENAM,ERBB3,EVX2,EYS,FAT3,FAT4,FBN1,FBXW7,FLG,FLNC,GAREM1,GRM5,HAS3,HMCN1,HRH2,IGSF10,ITPR3,KMT2D,KRAS,LRP1,LRP1B,LRP2,LRRIQ1,LRRK2,MED12L,MFSD1,MUC16,MYH10,MYO15A,NALCN,NBEA,NIPBL,OBSCN,OR51A4,PCDH15,PCIF1,PCLO,PEG3,PHF2,PIK3CA,RHOA,RNF213,RSPH3,RYR2,SCN9A,SMAD4,SPEN,SPTA1,SYNE1,TBXT,TENM4,TNXB,TP53,TRIO,TRPS1,TTN,TUBB2B,USH2A,XIRP2,ZFHX4,ZIM3,ZNF77；探针靶向捕获区域包含了该98个基因的外显子区域、外显子上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp。

基于该98个基因测序panel，申请人针对样品患胃癌的情况设计了公式，每一位受测者会得到一个分值(Score_lung)，具体得分值公式如下：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

这里，i为R_X大于0.9的基因(共31个，包含ATM,TP53,FLG,PIK3CA,CSMD3,NBEA,GAREM1,PCDH15,DNAH1,TENM4,ZNF77,CACNA1C,TTN,ANK3,APC,LRRK2,ACTC1,ABCC9,DCC,DDX51,ENAM,CTNNB1,HRH2,SPEN,CHD6,MED12L,USH2A,ATP10A,ZFHX4,CNTNAP5,HMCN1)，j为R_X大于0.8且小于等于0.9的基因(共30个，包含RSPH3,LRP1B,KRAS,DNAJC2,CSMD1,DKK2,FAT4,XIRP2,TUBB2B,MYH10,DDX17,CNTN6,ERBB3,FAT3,SCN9A,OR51A4,PCIF1,ANO3,NIPBL,IGSF10,GRM5,EVX2,TRIO,CREBBP,RHOA,CACNA1E,PHF2,COL6A3,MYO15A,SPTA1)，k为R_X大于0.7且小于等于0.8的基因(包含其余37个基因)；Mu为i、j或k基因中检测到的SNV和InDel总数；C₁＝∑(R_i ²)/28＝0.90，C₂＝∑(R_j ²)/33＝0.74，C₃＝∑(R_k ²)/41＝0.54。

以Score_lung＝2为分类阈值，高于2则将受测者判断为胃癌，低于或等于2则将受测者判断为健康人。基于该分值公式以及分类阈值，胃癌的检测敏感性为0.92，特异性亦为0.92。随后，使用R语言ROCR包绘制ROC曲线(中文全称为受试者工作特征曲线)，对应的AUC(英文全称为Area Under Curve)值为0.934，如图2所示，表明该分值公式能在训练组中将I和II期胃癌患者与健康人进行准确的区分。

实施例二使用验证组样本确定测序panel的可靠性申请人于2019年2月至2020年1月采集了未经治疗的I和II期胃癌患者的外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性29例，女性21例，平均年龄为62.2岁，年龄分布为40–81岁，均为中国人。同期，申请人采集了健康人外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性29例，女性21例，平均年龄为61.9岁，年龄分布为41–80岁，均为中国人。这两组样品的性别与年龄都没有统计学上的显著差异，因此满足性别和年龄匹配的原则。

同样的，验证组的样本经过了文库制备和测序数据分析(除了靶向捕获区域由原来的300基因的相应区域变为最终的98个基因的测序panel，其余步骤与实施例一的步骤(1)-(23)相同)。质控结果显示，100个样品的下机数据Q30均大于85％，可比对序列超过95％，靶向捕获区域的平均覆盖度达到4600倍以上(如图3所示)，数据质量均为合格。随后，使用实施例一得到的Score_lung计算公式，为每一位受测者计算其Score_lung。同样以Score_lung＝2为分类阈值，对胃癌患者和健康人进行分类，相应的胃癌检测敏感性为0.92，特异性为0.92；使用R语言ROCR包绘制基于验证组样本的ROC曲线，其AUC值为0.922，如图4所示。结果再次说明，本实施例的98个基因测序panel和Score_lung计算公式能够将I和II期胃癌患者与健康人进行准确的区分。

综上所述：1)本申请的98个测序panel基因经过合理严格的筛选方法得到，对胃癌患者与健康人能进行准确的区分，能在癌症检测或制备癌症检测产品中的应用；并通过设计合理的检测模型和分值公式，能提高检测的准确性，其高度的预测准确性经过了临床样品的验证，具有很大的推广潜力。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种检测测序panel的试剂盒在制备胃癌检测产品中的应用，其特征在于，所述测序panel包括以下98个基因：

ABCC9，ACTC1，ANK2，ANK3，ANO3，APC，ARID1A，ATM，ATP10A，BRCA2，C3ORF20，CACNA1C，CACNA1E，CDH1，CDH11，CDH23，CHD6，CNTN6，CNTNAP5，COL6A3，CREBBP，CSMD1，CSMD3，CTNNB1，CUBN，DCC，DDX17，DDX51，DENND3，DIDO1，DKK2，DNAH1，DNAH11，DNAH5，DNAJC2，DPP4，ENAM，ERBB3，EVX2，EYS，FAT3，FAT4，FBN1，FBXW7，FLG，FLNC，GAREM1，GRM5，HAS3，HMCN1，HRH2，IGSF10，ITPR3，KMT2D，KRAS，LRP1，LRP1B，LRP2，LRRIQ1，LRRK2，MED12L，MFSD1，MUC16，MYH10，MYO15A，NALCN，NBEA，NIPBL，OBSCN，OR51A4，PCDH15，PCIF1，PCLO，PEG3，PHF2，PIK3CA，RHOA，RNF213，RSPH3，RYR2，SCN9A，SMAD4，SPEN，SPTA1，SYNE1，TBXT，TENM4，TNXB，TP53，TRIO，TRPS1，TTN，TUBB2B，USH2A，XIRP2，ZFHX4，ZIM3和ZNF77；

所述试剂盒包括针对所述测序panel的探针、引物和Y型接头；

所述探针的捕获区域包括所述98个基因的外显子区域、外显子上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp；

所述Y型接头为5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNTACGGTGCGCT-3’，

5’- GCGCACCGTANNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’；

其中，NNNNNNN为随机核苷酸序列； TATAGCCT 和GCCAATTA 为可根据实际情况替换的index序列；

所述引物包括：测序引物5’-ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’，以及Index引物5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’。

2.如权利要求1所述的应用，其特征在于，基于所述测序panel进行测序文库制备和测序数据分析。

3.如权利要求2所述的应用，其特征在于，在所述测序数据分析中，对所述测序panel进行SNV 和 InDel分析，并设置根据分值公式对受测样品进行打分，所述分值公式为：

Score_lung= C₁×∑(Mu_i) + C₂×∑(Mu_j) + C₃×∑(Mu_k)；

Mu为i、j或k基因中检测到的SNV和InDel总数；C₁=0.90，C₂=0.74，C₃=0.54。