CN111020019B

CN111020019B - 基于纳米孔技术进行基因融合检测的方法

Info

Publication number: CN111020019B
Application number: CN202010149484.1A
Authority: CN
Inventors: 王伟伟; 宋蕾; 孙雪; 田埂
Original assignee: Geneis Beijing Co ltd
Current assignee: Geneis Beijing Co ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-06-19
Anticipated expiration: 2040-03-06
Also published as: CN111020019A

Abstract

本发明公开一种基于纳米孔技术进行基因融合检测的方法。本发明的方法通过探针捕获富集重复序列区内的融合长片段，然后基于纳米孔技术对富集的长片段进行测序。本发明的方法能够克服片段读长短、融合断点位于重复序列导致的基因融合的分析难度大、漏检和误判，实现融合基因的精确定位和快速实时检出，并大大提高检出结果的准确性，在临床水平上建立了一套基于纳米孔测序的快速融合基因检测方法。

Description

基于纳米孔技术进行基因融合检测的方法

技术领域

本发明涉及基因测序，具体地涉及基于纳米孔技术进行基因融合检测的方法。

背景技术

用于检测体细胞突变的NGS正在广泛用于肿瘤诊疗相关的分子检测，包括对特定基因的DNA/RNA进行测序，以寻找与肿瘤临床诊疗相关的突变基因的改变。许多疾病的发生都伴随有基因融合现象。因此，融合基因的检测对于疾病的诊断和治疗都有很重要的作用。

在检测体细胞变异时，研究人员目前大多选择靶向测序方案，明显缩小了测序的成本，也减轻了数据分析的负担。但因为融合基因的断点一般都在内含子区域内，内含子一般比较长，且结构复杂，如果检测DNA，探针的设计会比较困难，同时测序费用较高，因为NGS的测序读长短，对于含有重复序列的DNA片段分析难度也比较大，很难找到精确定位，一定程度会导致漏检或误判。常见的肿瘤体细胞检测方案大多是基于二代测序的DNA靶向测序或DNA靶向测序结合qPCR、FISH等其他辅助手段来进行融合检测。对于三代测序例如纳米孔测序而言，目前只有通过PCR富集后进行靶向测序的方案。

发明内容

针对现有技术中只有通过PCR富集后进行三代靶向测序的问题，发明人在深入研究后克服了探针捕获长片段，特别是非唯一序列区的长片段时效率不高，甚至不能用于后续检测的问题，提出一种探针捕获长片段结合纳米孔技术进行基因融合检测的方法。具体地，本发明包括以下内容。

一种基于纳米孔技术进行基因组非唯一序列内的基因融合检测的方法，其包括以下步骤：

(1) 目标融合区域的富集步骤，由来源于生物样品的DNA得到长度为1-3K的捕获用片段，与人cot-1 DNA混合后蒸干，再复溶于优化后的杂交液中，室温孵育后，在93-97℃温度下保持5-15分钟，加入由多条探针组成的探针组，通过每分钟0.1℃缓慢降温到杂交温度，提高捕获目标序列的特异性和长片段结合稳定性，置于63-67℃杂交4-16小时，将产物与链霉亲和素磁珠混合，孵育45min后，用清洗液对磁珠进行清洗，使用随机引物、dNTP、具有单链DNA为引导二链合成活性的酶进行合成和富集，保证长片段双链的完整性和保真性，以及长片段在总片段分布中的占比，使用吸附磁珠纯化后，进行质控，得到富集后的DNA；

(2) 建库测序步骤，取富集后的DNA进行文库构建，并在末端连接条码接头，采用条码引物进行富集，经纯化后进行质控，使质控后的目标序列或其部分通过位于芯片的纳米孔，其中，所述芯片设置于电极附近，且所述电极能够检测通过所述纳米孔的电流；其中，所述探针组由多条探针组成，且各探针分别包含直接连接的长度为x的第一序列和长度为y的第二序列，且所述第一序列与位于第一基因内的第一区域互补，所述第二序列与位于第二基因内的第二区域互补，所述第一区域和/或所述第二区域位于基因组非唯一序列内，其中，第一序列的长度为x，第二序列的长度为y，第一区域的重复数为R1，第二区域的重复数为R2，x和y各自为40~150之间的自然数，且x+y为100~300，当1/R2≤R1/R2<1时，使x大于y，当R1/R2=1时，使x=y，当1<R1/R2≤R1时，使x小于y。

根据本发明的基于纳米孔技术进行基因组非唯一序列内的基因融合检测的方法，优选地，所述基因组非唯一序列为重复序列或高度同源序列。

根据本发明的基于纳米孔技术进行基因组非唯一序列内的基因融合检测的方法，优选地，所述高度同源序列为假基因序列或基因家族序列。

根据本发明的基于纳米孔技术进行基因组非唯一序列内的基因融合检测的方法，优选地，通过调整超声频率和能量和/或优化打断时间和体系将来源于生物样品的DNA打断至1-3K的长度，并将打断片段直接作为捕获用片段；或者通过调整超声频率和能量和/或优化打断时间和体系将来源于生物样品的DNA打断，并利用打断片段与接头连接，构建文库，将文库中的片段作为捕获用片段。

根据本发明的基于纳米孔技术进行基因组非唯一序列内的基因融合检测的方法，优选地，所述来源于生物样品的DNA为从生物样品直接提取的DNA，或从生物样品提取的RNA经逆转录后得到的cDNA。

根据本发明的基于纳米孔技术进行基因组非唯一序列内的基因融合检测的方法，优选地，所述第一区域和/或所述第二区域位于内含子区。

根据本发明的基于纳米孔技术进行基因组非唯一序列内的基因融合检测的方法，优选地，所述第一区域和所述第二区域均位于重复序列内。

根据本发明的基于纳米孔技术进行基因组非唯一序列内的基因融合检测的方法，优选地，当所述第一区域位于重复序列内且所述第二区域未位于重复序列区时，使x调整为40~(x+y)/2；当所述第二区域位于重复序列区且所述第一区域未位于重复序列区时，使y调整为40~(x+y)/2。

根据本发明的基于纳米孔技术进行基因组非唯一序列内的基因融合检测的方法，优选地，所述杂交液包含SSPE、Denhart溶液和SDS，其中，SSPE中含180-250g/L的氯化钠和8-12g/L的EDTA钠盐，SDS的含量为0.3-0.8%，通过对杂交液盐离子强度和去污剂的比例调整和杂交条件的优化，使得杂交过程严谨性增加，使得对含有非唯一序列的长片段的富集效率和目标特异性的整体提升。

现在常用的肿瘤体细胞突变检测方法中，存在检测结果不够准确（单独DNA层面），或是检测流程多样化不够统一（DNA靶向测序+qPCR或FISH），或是RNA-Seq测序数据量较大等问题。本发明的方法通过探针捕获和纳米孔测序读长以及快速实时测序分析，提高了检测结果的准确性。本发明不仅仅在实验水平上，而且在临床水平上建立了一套基于探针捕获和纳米孔测序的快速融合基因检测方法。

本发明的方法有效提高了融合基因的检出率，特别是融合断点在重复序列区或附近的情况。因纳米孔测序样品制备时所需标准起始量较大，为了降低起始量且不影响融合基因检出和探针捕获的效率，本发明从提取、片段化到捕获的步骤都进行了优化，使得富集后DNA片段长度在1K到3K之间，保证了纳米孔测序的读长和质量。

附图说明

图1为本发明示例性的EML4-ALK融合检测的方法流程图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。

本发明提供一种基于探针捕获和纳米孔技术进行基因融合检测的方法，其至少包括(1)目标融合区域的富集步骤和(2)三代建库测序步骤。下面详细说明。

目标融合区域的富集步骤]

本发明的步骤(1)为采用捕获探针对目标融合区域进行富集的步骤。与二代测序时探针捕获时的方法不同，本发明的待捕获的片段长度更长，达到1K以上，例如1K-3K，优选3K以上，还优选5K以上。已知核酸分子的片段越短，例如100-500bp，越利于探针的捕获。当核酸分子变长时，分子结构变得复杂，其与探针的捕获效率大大降低。这是目前基于探针捕获富集结合二代测序已成为相对成熟的技术，而至今仍没有基于探针捕获结合纳米孔测序的成熟技术的原因所在。

本发明的捕获过程包括由来源于生物样品的DNA得到长度为1-3K的捕获用片段，与人cot-1 DNA混合后蒸干，再复溶于优化后的杂交液中，室温孵育后，在93-97℃温度下保持5-15分钟，加入由多条探针组成的探针组，置于63-67℃杂交4-16小时，将产物与链霉亲和素磁珠混合，孵育45min后，用清洗液对磁珠进行清洗，使用随机引物、dNTP、具有外切酶活性的二链合成酶进行富集，经磁珠纯化后，进行质控。

本发明中，优化后的杂交液具有与长片段捕获相适应的离子强度和去污剂比例。在示例性杂交液中包含SSPE、Denhart溶液和SDS。其中，SSPE中含180-250g/L的氯化钠和8-12g/L的EDTA钠盐。SDS的含量为0.3-0.8%。

本发明中，捕获用片段可通过DNA打断方式进行。此类方式在本领域是已知的。这些DNA打断方式可参考已知的教科书，例如冷泉港的《分子克隆实验指南》第四版等公开出版物等。优选地，通过调整超声频率和能量和/或优化打断时间和体系将来源于生物样品的DNA打断，并将打断片段直接作为捕获用片段。

本发明中，生物样品不限定，一般而言其实例包括但不限于组织样品或流体样品。组织样品包括体细胞样品，例如癌组织等病变组织或正常的组织。流体样品包括血液或其成分例如血浆、血清等。生物样品可以是任何哺乳动物来源的样品，也可以是人样品。

本发明中，DNA可以是从生物样品直接分离得到的脱氧核糖核酸，也可以是从生物样品分离得到的核糖核酸(例如，mRNA)经逆转录得到的脱氧核糖核酸，即cDNA。此处的逆转录可以是天然条件下的逆转录，也可以是人为控制的逆转录。

本发明中使用由多条探针组成的探针组在适于杂交的条件下与捕获用片段接触并反应，从而得到复合体，即进行捕获的过程。这里的接触并反应是指一段探针组序列，当其与捕获用片段序列比对时，一条序列的5'端与另一条序列的3'端配对，互补配对不需要完美配对，稳定的双链可以包含错配或者是不配对的碱基。这里的“互补”可以是指两条核酸序列通过氢键发生序列特异性的结合，它们的嘌呤和/或嘧啶碱基依据沃森-克里克法则形成双链核酸复合体，也可以是核酸序列及修饰的核酸序列与另一段序列依据沃森-克里克法则形成核酸双链。

本发明中，探针组中探针的数量不限定，可根据需要而变化。一般而言，探针的数量为50以上，优选100以上，更优选500以上，例如1000条、2000条等。本发明中，各探针分别包含直接连接的第一序列和第二序列。其中，第一序列与位于第一基因内的第一区域互补，第二序列与位于第二基因内的第二区域互补。优选地，本发明的第一区域为第一基因内的片段，第二区域为第二基因内的片段，其中，第一区域和/或第二区域位于基因组非唯一序列内。基因组非唯一序列的实例包括但不限于重复序列区和高度同源序列。其中高度同源序列是指序列同一性为90%以上，优选95%以上，更优选97%以上，进一步优选99%以上的序列。此类高度同源序列的实例包括转座区和假基因、基因家族等的保守区。

本发明中需要根据第一区域的重复数和第二区域的重复数调整第一序列和第二序列的长度。具体地，假定第一序列的长度为x，第二序列的长度为y，第一区域的重复数为R1，第二区域的重复数为R2，x和y各自为40~150之间的自然数，且x+y为100~300，则当1/R2<R1/R2<1时，使x大于y，当R1/R2=1时，使x=y，当1<R1/R2<R1时，使x小于y。

在某些实施方案中，当第一区域位于重复序列内且所述第二区域未位于重复序列区时，使x调整为40~(x+y)/2；当所述第二区域位于重复序列区且所述第一区域未位于重复序列区时，使y调整为40~(x+y)/2。x和y的比例能够影响探针在大量重复序列内结合少量存在的融合片段，进而影响富集效果。融合断点在内含子区域，尤其是内含子区域中占有较大重复比例的重复序列中的检出，大大提高捕获效率和检出准确率。往往这些区域内的融合位点在常规融合检测，例如原位荧光杂交、PT-PCR和免疫组化不易被检出，甚至在二代测序NGS中被判断为假阴性而忽略。

本发明中，第一基因和第二基因分别表示基因组中由连续的多个核苷酸分子组成的区域，优选地，该区域具有单独的功能。第一基因和第二基因优选为开放阅读框ORF。在某些实施方案中，本发明的第一基因包括KIAA1549、API2、PML、Bcr、NUP98、PML、FIP1L1、E2A、 ETV6、BCOR、ETV6、COL1A1、Mfn2、BCR、TMPRSS2、EML4基因。第二基因为与第一基因发生融合的基因，本发明的第二基因包括EGFR、MALT1、RARA、Abl、NRG、RARα、PDGFRA、PBX1、NTRK1、 CCNB3、NTRK3、PDGFB、HSG、ABL、ETS、ALK基因。

在某些实施方案中，每条探针具有对应于第一基因内的第一区域，不同探针分别对应于不同的第一区域，多个探针的一部分对应于不同位置的多个第一区域，从而使探针组能够覆盖第一基因的全部。类似地，每条探针还具有对应于第二基因内的第二区域，不同的探针分别对应于不同的第二区域，多个探针的另一部分还可对应于不同位置的多个第二区域，从而使探针组还能够覆盖第二基因的全部。在某些实施方案中，本发明的探针组中包含针对已知融合类型的探针，例如，针对第一基因和第二基因高频融合位点的探针。

在某些实施方案中，本发明的第一区域或第二区域分别位于基因的内含子内。在另外的实施方案中，本发明的第一区域或第二区域分别位于基因的重复序列区内。

在某些实施方案中，本发明中，探针上可进一步包含用于分离的功能基团，例如生物素等。通过此类功能基团可使探针与载体等进行结合或分离。例如将探针预先固定至磁珠或基片等载体。在具体实施方案中，含有目标序列的片段和带有生物素标记的探针直接杂交，然后通过生物素亲和素的反应使该片段锚定在带有亲和素的磁珠上，洗去非目标序列的片段。

建库测序步骤]

本发明的步骤(2)为建立三代测序文库的步骤。具体地，包括取富集后的DNA进行文库构建，或进一步末端修复，并在末端连接条码接头，采用条码引物进行富集，经纯化后进行质控，使质控后的目标序列或其部分通过位于芯片的纳米孔，其中，所述芯片设置于电极附近，且所述电极能够检测通过纳米孔的电流。

优选地，在适于探针分离的条件下从复合体中分离出探针，并利用由此得到的捕获片段与纳米孔接头连接，构建文库，将文库中片段作为目标序列。构建文库可采用本领域常规操作，例如使用Oxford nanopore technologies公司的PCR Barcoding Kit进行文库构建。在具体实施方案中，当目标序列或其部分穿过纳米尺度的通道时，A、T、G、C不同的碱基化学性质的差异会导致纳米孔的电化学参数的变化量相应变化，对这些变化进行检测可以转换得到目标序列的核酸序列，此类用于纳米孔测序平台可举例例如Oxford NanoporeTechnologies(ONT)公司的MinION测序平台。

实施例

基于nanopore平台进行EML4-ALK融合检测的方法流程图如图1所示，具体如下步骤所示：

1. 目标融合区域的富集

1) 取细胞系和组织gDNA 1μg，使用Covaris M220打断到1K到3K，与人cot-1DNA 5μg混合，使用真空抽滤泵60℃蒸干后，再复溶于优化后的杂交液（含10XSSPE、10XDenhart溶液和0.3%SDS）中，室温孵育10min后上PCR仪，在95℃温度下10min后加入混合好的120ntssDNA探针(探针序列参见SEQ ID No.1~63)，通过每分钟降低0.1℃缓慢降温到杂交温度，再置于65℃杂交4-16小时。

2) 将步骤1)产物与链霉亲和素磁珠混合，在PCR仪上孵育45min，后续用清洗液对磁珠进行清洗。

3) 步骤2)的产物使用随机引物、dNTP、Klenow exo-等进行富集，经过AgencourtAMPure XP磁珠纯化后使用Qubit4.0以及Agilent 2100毛细管电泳进行质控。

2. 建库

1) 取样本DNA和上述步骤1)得到的富集后的DNA文库各100ng，使用Oxfordnanopore technologies公司的PCR Barcoding Kit进行文库构建，使用NEB Ultra IIEnd-prep reaction buffer和Ultra II End-prep enzyme mix进行末端修复；

2) 使用Blunt/TA Ligase Master Mix将Barcode Adapters连接到步骤1)的产物上；

3) 步骤2)的产物使用LongAmp Taq 2x Master Mix和Barcode Primers进行富集，经过Agencourt AMpure XP磁珠纯化后，使用Qubit4.0以及Agilent 2100毛细管电泳进行质控。

4) 将不同barcode的文库混在一起进行上机测序。

3.结果与分析：

使用MinION测序，产出2.3G；进行生物信息流程的融合断点比对分析。

该检测样本的断点位置位于EML4基因13号内含子区域的散在重复序列区域，对捕获效率造成影响的同时，在NGS数据的生信分析时，因为读长限制会出现EML4端序列比对到多个染色***置的情况，导致无法精确定位染色***置的reads常会被过滤掉，造成假阴性的结果。

如下表1所示，NGS测序没有检测到有效融合reads，纳米孔直接测序可以检出融合reads，经探针捕获富集后，融合reads增加了一到两个数量级的提升，在结构变异的检测方面有准确的断点检出和基因组定位。

表1

Sample	Raw_reads	Raw_bases	融合reads数
				直接测序文库	175,717	80,119,036	2
捕获后文库	156,884	41,937,986	50

样品处理和捕获上机时间的周期为24h，而传统NGS的检测和分析周期一般在一周左右时间。本发明的方法在融合基因的检测的反馈时间上有明显优势。

尽管本发明已经参考示例性实施方案进行了描述，但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下，可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

序列表

<110> 元码基因科技（北京）股份有限公司

<120> 基于纳米孔技术进行基因融合检测的方法

<130> BH1900302-1

<141> 2020-03-04

<160> 63

<170> SIPOSequenceListing 1.0

<210> 1

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 1

caccccaaaa agaaagcctg tacccattag tagtcacttt ctatttctcc ctcccctcag 60

cccctaggta accaccaatt tcctttaggt ctctatagat 100

<210> 2

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 2

tgttttttga gatggagttt cactcttgtt gcccaggctg gagtgcagtg gtgcgatttc 60

ggctcactga acctccgcct cccaggttca agcgattctc 100

<210> 3

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 3

aagaaggtgt gtctttaatt gaagcatgat ttaaagtaaa tgcaaagcta aaaatcagat 60

atatggaaaa taattatttg tattatatag ggcagagtca 100

<210> 4

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 4

tgttagtctg gttcctccaa gaagcagact ggagatggga ttagacccaa tatggtctgc 60

agattttatt agaagaaatg cccatgagag gaaatgggga 100

<210> 5

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 5

aaggcaacag gtccccagct ctgaaactgc ccaagggaac agagaacctt aggagcagta 60

agatccctgt cactgggcat gtttaagtgg aggcaggatg 100

<210> 6

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 6

gccccttggt gggggtggta gagggcttat tctatagtag aggattttta agactccttc 60

aggagccatg acccaccttt cacacagtgg tcagagcact 100

<210> 7

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 7

cgagctgtgg caggtagggg agggacagaa agtttacaaa accgaatcca gggtgttctg 60

gaacccagaa accatttgtg gtcatgggcc aaatctcagg 100

<210> 8

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 8

catgctaaat taaataaagg agatagtttc cctttaccac tgaataagaa aattcaatta 60

ttttcttcag aaagtatacg tttgttgtgt taaataactg 100

<210> 9

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 9

tactacctaa ctcagtgaaa atcacatagt tttaaaaaat atgtacatta taaattttaa 60

agcagtaatt taaactttgc tcaacggtat tatggcttgt 100

<210> 10

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 10

tttaagtaaa ctaacggaac cacatactga aatataagac atgtactgaa atgacagata 60

tacgatttac aaggttccca taattatttc tactgtccta 100

<210> 11

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 11

accttgcatc agttttctct agtagctctc catgtattta tttttttccc taaaatgttg 60

atctttcaga gtacatctaa cttagattta acaacaaatt 100

<210> 12

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 12

ggtaaaggtt gctatggttc atttttctat atttagaaat aactctggaa tcacaaatcc 60

aattgaaggg ctaaaactta agctgaatac atgcagggac 100

<210> 13

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 13

aatttttgtg atctacatgc ctaagctctt tatgaactgt ctccatctca gtcaccttta 60

ccaacatggg cctaaagaaa ttaggatgct aggtttgcat 100

<210> 14

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 14

tttctttgaa taagatttca atatctcagt ttctctagac ttcagcttac tcacttcatg 60

caaaacagaa ataacatgat aggatcaaat gttatcgctg 100

<210> 15

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 15

ggctattgtg agtggcttaa aattataaaa gttttacaga cagaccaata ggatagacta 60

gagagttgag aagtagaccc caaagatgac aaacacgtga 100

<210> 16

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 16

cttgtatggc cctgttccca tgctgttaat tggtatcatt catcaatcac agcattcttc 60

ttcaaaaaca agatacagcc tcagaaatcc ttctcagtac 100

<210> 17

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 17

agcactccaa gaagccacta ccaacagaac aaaggtggca tcataaacaa ctcctatcta 60

gccttaactg tcctgataca tataaaaact gtaaaggagt 100

<210> 18

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 18

ggccgggccc ggtggctcat gcctgtaatc ccagcacttt gggaggccga ggtgggtgga 60

tcaagaggtc aggagatcga gaccatcctg gctaacacgg 100

<210> 19

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 19

tggataggag aaatcaaagg attatttaat gatgctagaa taatttgttt aactatttgg 60

gatattttcc taaaatcaag aaatacttct atgcttacag 100

<210> 20

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 20

cacctcccaa tctaccatct agcaaatcta ttagacaaac aaacaaaaaa agcaagatca 60

gtgtggcaga ctgggaacag aaaacccgtg ctgaatgtgt 100

<210> 21

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 21

attcttttat aaatacaaac catattctaa taatctattc taattttccc taggtagcca 60

gactaaggta gaaaggtgta tctgggccag gtacggtggc 100

<210> 22

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 22

actaaaaata caaaaaaaaa aaaaaaaaat tagcgaggca tggtggtggg cacctgtagt 60

cccagctact cgggaggctg aggcaggaga atggcgtgaa 100

<210> 23

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 23

cccaggaggc ggagcttgca gtgagctgac atcacgccac tgcgccccag cctgggtgac 60

agtgcgagac tccatctcaa aaaaaaagaa aaaaaacagg 100

<210> 24

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 24

tgtatctgaa gagttatgcc aacaggacac cccaattctc agagttccac atataaatat 60

attgcctaat ctaccttctt ttaccctaga ggcttaatcc 100

<210> 25

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 25

ctccatcttc tagactctga tgagttgcca gctgtaattc agagggacca ccaccaacat 60

cttacagagt cctcgttctc actgcctgac aaaaagagca 100

<210> 26

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 26

ggcaaaatcc ataagaagca tgtggaacct caaattccaa gtatgaatat attttcaaca 60

ttaaatatta ggtattaagt aataaaagca actcttgggg 100

<210> 27

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 27

ggaaaaactt gtttctagtc tcaccacctc agtataacct tacaaagaat aaagataaat 60

gacatttatt actgtcattg cagattacta tttactaagt 100

<210> 28

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 28

atctcacttt aaataaataa accaaaagtc ctctgctttt aatgtttggg tagagaagaa 60

aaatgaattg tgtttaccac tggagaacag gatcagaatc 100

<210> 29

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 29

ggaagaggta gagtttgtaa taataagcat gtattacttt tcttcctgac atagaaggtt 60

ccactccact tctaccttcg atgagcttat aaatcaattt 100

<210> 30

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 30

aggaaattaa gagaaaacca aagaagttat gggttgcaca ggatgcctaa gtagattaga 60

aaaatgaata aactgtcact tcaaaaacca ttaggagggc 100

<210> 31

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 31

catgacacaa ggggacgtgg gattctttat actgtggcta aaaaaaatag ttaatagctc 60

ttagttccat tctttttcct cctaaagttc ctgaatgtgg 100

<210> 32

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 32

agactaaatg ctgctgcaga agttaggctt cacacagttt gaaactgatc actttttaca 60

tgcatgtata atctcagagt tgttattaca cttaactggt 100

<210> 33

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 33

tcacctgagg tcaggagttc gagaccagcc tgaccaacat ggagaaaccc tgtctctact 60

aaaaatacag catcagccgg gtgtggtggt gcatgcttgt 100

<210> 34

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 34

cctactaata agtgaattat atctatattt cttaatatct gatttacaag taatatttta 60

tattgtttga tggtatgaag aagtaggaaa aagaaaaaga 100

<210> 35

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 35

agaaataatt caaaaatata ataaatggtt cagctgttaa aacatgttct agttacagaa 60

actcctgtgg acaagaaaga ccaaaacagt tttccacctg 100

<210> 36

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 36

aaaccgaaga attatgtttt tgggatgagg aattcctcca tgctttaaga agaaatctct 60

tacctccata tttcctaatc tttctcagga tttcaagagc 100

<210> 37

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 37

atgatgtact ttgtactgca catctgaaag ttcccattaa ctctgggcag acccagcaag 60

acaaggttat gctggtgcat gttaccccat gaactctgat 100

<210> 38

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 38

ccttccagta agtgtagaac ataagcagaa aatggggaac taaaagaaag gggaagaggg 60

aaaaggaagg aaggtggtgg aaaatgatct aaatgacact 100

<210> 39

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 39

aaatggtgcc aaaagacaag caggtcagaa aaaataacta atacacaaat aattagaaag 60

taacttacag ttgtaaatgc tgctagaaaa tactagacat 100

<210> 40

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 40

taacttcttt ttaacactta aacttccatt aaaattagct taccagaatc atagcttgga 60

ggcttcatat ctccctgatt caattctgtc ccgtatttca 100

<210> 41

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 41

tttctgctgc aagtacttct gatgttcaag atcgcctgtc agctcttgag tcacgagttc 60

agcaacaaga agatgaaatc actgtgctaa aggcggcttt 100

<210> 42

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 42

ggctgatgtt ttgaggcgtc ttgcaatctc tgaagatcat gtggcctcag tgaaaaaatc 60

agtctcaagt aaaggtaatt gtgttgtaaa gttaaaaaga 100

<210> 43

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 43

gtcttgcttt ttgcaatatt ttctttgaaa gttgaagctg gaaatataaa actagtttct 60

tatgtggatt acttgtgatt atagtttgtt ttccatttcg 100

<210> 44

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 44

tttttttaat tcccaaaaag ttctgaaagt ttattcttta ttatttaaaa taaagaattt 60

ttgtgtaatc cactgattat actcacaggt tttttatgtt 100

<210> 45

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 45

acagtatttg tgtgaagtta gtatcttcca actagatgat aagtttactc agggcaggaa 60

ctgaatcatc gttttgtgtc tctcatttca tattgaacat 100

<210> 46

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 46

aggtggtagg cactcatgtg ttcttaaaat tctgttgtca atacagaaac ataattaaaa 60

tcatcatagt ttaaatagct ttattctgaa ccctctgtgg 100

<210> 47

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 47

ttgttagcag aatcctgaaa aaattaattt aagctctgaa gcttacgagc ccagtataat 60

gggacttcta actttccagt attgggagtt ttcaaggttg 100

<210> 48

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 48

agacaaacag tcgtcaagac cctgttgctc tgagtttgga gcagatgtag tgtacctttt 60

cccttacttc aaccaccaag aaagaattta ttattctttc 100

<210> 49

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 49

acatgaatca agatttgaac atatcatttg atgtctctta ctgatttatt ggtagagtat 60

atggggatag gcgtgattat gcccattttg gcagtgggaa 100

<210> 50

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 50

aagtgaggac atttattggc ttgccttcct acttcgatgt caatgtaaat tattaaccta 60

gggaggagtt ttatataact cccaaattct agctgagtag 100

<210> 51

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 51

gagatagtgc agtcagccaa ccagcaaatg agaagcagat ttagaagaaa gattgtgaat 60

tcagtttctg aatgttgttt agggtgtata tggtatgtag 100

<210> 52

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 52

agatacatat tggtagctga attacatatg gatctagtgc tcatgttagt tttggctagc 60

agtaagaatt tgggaatgtt cctcttatgg atgatagttg 100

<210> 53

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 53

aagccataga ggatgtaaaa tgagaaggca gtccagcata gttccactgg gagctccaac 60

atttcagcat agcacaaaaa gtgatgcaca ttgccagctg 100

<210> 54

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 54

cttacagaga tgtcaaataa aacaaagact gagagatgac cattggattc ggcatttaca 60

gcaatattag aaacctctcc aaaagcaatt ttagtggagt 100

<210> 55

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 55

aatagaactg caaatcaaat accagtattt tgagaagcag caattaagaa taattgtaga 60

attgagagca acaaatatag ccactctcaa aaaattcacc 100

<210> 56

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 56

tgagtggaag acggtggtaa tagctaggag aggatgctat gttgaaggcc agttttaatt 60

actttttaaa atttgttaaa aatatgtgat agacttgaac 100

<210> 57

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 57

acaaagatag gttgaggaca aaaaggcagc agagaggaag accaatacgg ggaaatgggg 60

tggtaattga tgaggcaagt gtcctgagaa tttgagaagg 100

<210> 58

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 58

gatctttgag aaccacaact tctagccctg ataactgtga atatatatcg agataatgat 60

aacctttagg tgcaaagata ggtcgtcagt ggtagaaaaa 100

<210> 59

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 59

aagagaatgc atgtttgaaa tggttaaagc ggagaatgga agaccgtaga catttgaaag 60

agatgctgag agaccctgag gctatggagg cgggatactt 100

<210> 60

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 60

attgtggagg aaaggtgagt atcattctgc ccggttttgt gattcccact cttttccctc 60

ttggcctcat gtactctggg tctgtgtatt tacagtggag 100

<210> 61

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 61

agttagatgg aagaaaggat tgatcttttt cattagtgat agtgagataa atatgtcaat 60

gacaaaggac aaggggcctg agggtttggc aaaagacttg 100

<210> 62

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 62

ataaaaacca ctttgactaa taaagtgtta tattatgctt gcttgcttga tttatttatt 60

tatttattta tttatttaga gagtcaactt tgaggaccgc 100

<210> 63

<211> 100

<212> DNA

<213> Artificial Sequence

<400> 63

caagatcaag ccagaaaaca attttgtttg gttatgaatt gatttttata ggaggatttt 60

ggatttttag agtaggataa ggagctagat ctgttaatgt 100

Claims

1.一种基于纳米孔技术进行基因融合检测的方法，其特征在于，包括以下步骤：

(1) 目标融合区域的富集步骤，

由来源于生物样品的gDNA得到长度为1-3K的捕获用片段，与人cot-1 DNA混合后蒸干，再复溶于优化后的杂交液中，室温孵育后，在93-97℃温度下保持5-15分钟，加入由多条探针组成的探针组，通过每分钟降低0.1℃缓慢降温到杂交温度，提高捕获目标序列的特异性和长片段结合稳定性，置于63-67℃杂交4-16小时，将产物与链霉亲和素磁珠混合，孵育45min后，用清洗液对磁珠进行清洗，使用随机引物、dNTP、具有单链DNA为引导二链合成活性的酶进行合成和富集，保证长片段双链的完整性和保真性，以及长片段在总片段分布中的占比，使用吸附磁珠纯化后，进行质控，得到富集后的DNA；

(2) 建库测序步骤

取富集后的DNA进行文库构建，并在末端连接条码接头，采用条码引物进行富集，经纯化后进行质控，使质控后的目标序列或其部分通过位于芯片的纳米孔，其中，所述芯片设置于电极附近，且所述电极能够检测通过所述纳米孔的电流；

其中，所述探针组由多条带有生物素标记的探针组成，且各探针的序列如SEQ IDNo.1-63所示；

所述优化后的杂交液包含SSPE、Denhart溶液和SDS，其中，SSPE中含180-250g/L的氯化钠和8-12g/L的EDTA钠盐，SDS在优化后的杂交液中的含量为0.3-0.8%，通过对杂交液盐离子强度和去污剂的比例调整和杂交条件的优化，使得杂交过程严谨性增加，使得对长片段的富集效率和目标特异性的整体提升；

其中，所述基因融合是指第一基因和第二基因的融合，其中第一基因为EML4基因，第二基因为ALK基因。

2.根据权利要求1所述的基于纳米孔技术进行基因融合检测的方法，其特征在于，通过调整超声频率和能量和/或优化打断时间和体系将来源于生物样品的gDNA打断至1-3K的长度，并将打断片段直接作为捕获用片段；或者

通过调整超声频率和能量和/或优化打断时间和体系将来源于生物样品的gDNA打断，并利用打断片段与接头连接，构建文库，将文库中的片段作为捕获用片段。