CN107354209B - 组合标签、接头及确定含有低频突变核酸序列的方法 - Google Patents

组合标签、接头及确定含有低频突变核酸序列的方法 Download PDF

Info

Publication number
CN107354209B
CN107354209B CN201710573056.XA CN201710573056A CN107354209B CN 107354209 B CN107354209 B CN 107354209B CN 201710573056 A CN201710573056 A CN 201710573056A CN 107354209 B CN107354209 B CN 107354209B
Authority
CN
China
Prior art keywords
tag
nucleic acid
molecular
library
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710573056.XA
Other languages
English (en)
Other versions
CN107354209A (zh
Inventor
高晓峘
曾晓静
李胜
张印新
韩颖鑫
何哲
王佳伟
夏伟成
蒋馥蔓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jingke Medical Laboratory Co ltd
Original Assignee
Guangzhou Jingke Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jingke Medical Laboratory Co ltd filed Critical Guangzhou Jingke Medical Laboratory Co ltd
Priority to CN201710573056.XA priority Critical patent/CN107354209B/zh
Priority to PCT/CN2017/100425 priority patent/WO2019010776A1/zh
Publication of CN107354209A publication Critical patent/CN107354209A/zh
Application granted granted Critical
Publication of CN107354209B publication Critical patent/CN107354209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一组合标签、含有该组合标签的接头及其组合物以及一种确定待测样本目标区域含有低频突变核酸序列的方法。其中所述组合标签包括分子标签和文库标签,所述分子标签的碱基与所述文库标签的碱基交叉排列。本发明将文库标签和随机分子标签结合在一起,利用识别不同样本的文库标签的确定的碱基序列,将分子标签随机隔开,这样既能达到控制连续一样的碱基数目,不会降低特定分子标签种类,并且又不会额外增加两种标签的长度的目的,不会浪费测序数据。

Description

组合标签、接头及确定含有低频突变核酸序列的方法
技术领域
本发明涉及核酸测序技术领域,具体的,本发明涉及组合标签、含有该组合标签的接头及其组合物、确定待测样本目标区域含有低频突变核酸序列的方法。
背景技术
高通量测序是目前应用范围最广的测序技术,然而其在测序中仍不可避免的存在一些测序错误,发生率为0.1%~0.2%或者更高,并且PCR过程使用的DNA聚合酶也有错误率,错误率为10-7~10-5,特别是随着PCR循环数的增加错误率也有所增加。
为了检测低于0.1%的碱基突变(低频突变)或测序错误,学者发明了分子标签的方法,分子标签是在PCR之前给每个测序模板的一端或者两端加入一段特殊的序列。分子标签的每个位置可以是A、T、C、G 4种碱基中的1种,分子标签的长度根据实际的实验需要选择,根据分子标签的长度及4种碱基的变化,分子标签可以有4的n次方种类。如果原始模板的分子标签是完全随机分布的,那分子标签的多样性能够保证每个原始模板在原始文库中连上分子标签后是独一无二的,在之后的PCR过程中,每个原始模板会作为初始模板形成一簇“分子簇”,如果没有测序错误和PCR错误,这各簇中的分子序列都是初始模板正链和负链的无错误“复制链”。
理论上,分子标签的每个位置的碱基序列是完全随机分布的。然而,在引物合成过程中,合成某一碱基时,会加入等量的A、T、C、G四种碱基,由于这四种碱基合成所需的能量或者合成效率不一样,使得每个位置上A、T、C、G四种碱基的出现频率并不是完全相等的。可能会出现多个连续一样的碱基,例如8个A、8个G等,从而导致实际上得到的随机分子标签种类并没有理论上那么多。
多个连续一样的碱基不仅会增加测序错误的可能性,也会增加优势分子序列的比例。当序列十分相似的不同分子序列连上同一种标签序列的情况下,技术人员无法区别判断其属于正常存在、测序错误导致或低频突变的分子。更进一步的,当低频突变和正常丰度的序列连上一样的分子克隆时会导致将低频突变当成测序错误或PCR错误从而漏检。因此分子标签的不随机性会降低其效用,甚至限制了其应用。为了解决这个问题,有学者在分子标签中加入碱基U,比如NNNUUUNNNUUUNNN,以避免出现多个连续相同的碱基,导致分子标签的检测效用低下,而此种方法将增加分子标签的长度,且U碱基在分析过程并不具有区分不同分子的作用,即不具备分子标签的效用,因此此种方法不仅添加了无效的分子标签长度,且浪费测序长度,影响测序成本。
发明内容
本发明的目的在于提供能够有效控制标签的碱基数目减少测序数据浪费的标签组合物及检测方法。
本发明一方面提供一种组合标签,包括分子标签和文库标签,所述分子标签的碱基与所述文库标签的碱基交叉排列。
本发明另一方面还提供一种接头,所述接头含有上述组合标签,且所述组合标签位于所述接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。
本发明另一方面还提供一种确定待测样本目标区域含有低频突变核酸序列的方法,包括如下步骤:
S1、利用如上所述的接头,对待测样本目标区域核酸进行加接头反应,对加接头后的待测样本目标区域核酸进行PCR扩增,获得扩增产物,所述扩增产物构成所述待测样本的目标区域核酸测序文库;
S2、对所述待测样本的目标区域核酸测序文库进行测序,获得测序后核酸序列;
S3、将所述测序后核酸序列按照所述接头中含有的分子标签进行分类,将携带有相同分子标签的所述测序后的核酸序列归类为同一核酸序列集;
S4、将所述核酸序列集内的测序后核酸序列进行相互比较,统计所述核酸序列集中每个碱基位置的碱基种类及其频率;
S5、根据所述核酸序列集中每个碱基位置的碱基种类及其频率,通过数据分析,得到所述核酸序列集中含有正确的碱基排列位置的核酸序列;
S6、将所述含有正确的碱基排列位置的核酸序列与所述核酸序列集中的其余的核酸序列或平行的核酸序列集中的核酸序列进行比较,得到含有低频突变的核酸序列。
本发明将文库标签和随机分子标签结合在一起,利用识别不同样本的文库标签的确定的碱基序列,将分子标签随机隔开,这样既能达到控制连续一样的碱基数目,不会降低特定分子标签种类,并且又不会额外增加两种标签的长度的目的,不会浪费测序数据。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中
图1为本发明实施例中确定待测样本目标区域含有低频突变核酸序列的方法流程图。
图2为本发明实施例中完全互补双链接头中分子标签结构示意图。
图3为本发明实施例中一端互补一端开放的Y型接头中分子标签位于互补端的结构示意图。
图4为本发明实施例中一端互补一端开放的Y型接头中分子标签位于开放端的结构示意图。
图5为本发明实施例中分子标签不位于接头上,但可通过PCR引入接头的Y型结构的示意图。
具体实施方式
下面详细描述本发明的实施例。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,在本发明的描述中,除非另有说明“多个”的含义是两个或两个以上。
本发明提供一种组合标签,包括分子标签和文库标签,所述文库标签的碱基与所述分子标签交叉排列。
所述文库标签是指,用来识别测序中不同样本文库的标签序列,以达到多个文库一起测序的目的。例如当测序平台是proton,使用的文库标签为barcode。当测序平台是illumina时,使用的文库标签为index。
根据本发明的具体实施例,所述文库标签的每1~2个碱基与所述分子标签的每个1-3碱基交叉排列。详细描述如下;
一、所述文库标签的每1个碱基与所述分子标签的每1个碱基交叉排列,并且所述组合标签最多有2个连续相同的碱基。参考以下具体示例:
1、当组合标签为AN2TN4GN6CN8……ANn-6TNn-4GNn-2CNn时,从左到右,第1、3、5、7、9、...n-3、n-1位置是所述文库标签(ATGC…ATGC),第2、4、6、8、10、...n-2、n位置是所述分子标签(N2N4N6N8…Nn-6Nn-4Nn-2Nn)。
所述分子标签的碱基与其相邻的前一位的文库标签的碱基不同,例如AN2TN4GN6CN8……中,N2不为A,可以是T、C、G中任一个,N4不为T,可以是A、C、G中任一个。
在1个确定的文库标签的情况下,所述分子标签的组合数是3n/2。例如,当n=16时,文库标签的长度为8bp,所述分子标签的长度为8bp,分子标签序列组合数为38=6561。
2、当组合标签为N1AN3TN5GN7……CNn-7ANn-5TNn-3GNn-1C,从左到右,第2、4、6、8、10、...、n位置是所述文库标签,第1、3、5、7、9、...n-3、n-1位置是所述分子标签。
所述分子标签的碱基与其相邻的后一位的文库标签的碱基不同,例如N1AN3TN5GN7……中,N1不为A,可以是T、C、G中任一个,N3不为T,可以是A、C、G中任一个。
在1个确定的文库标签的情况下,所述分子标签的组合数是3n/2。例如,当n=16时,文库标签的长度为8bp,所述分子标签的长度为8bp,分子标签序列组合数38=6561。
3、当组合标签为AN2TN4GN6CN8……ANn-7TNn-5GNn-3CNn-1A,从左到右,第1、3、5、7、9、...n-2、n位置是所述文库标签,第2、4、6、8、10、...n-1位置是所述分子标签。
所述分子标签的碱基与其相邻的前一位的文库标签的碱基不同,例如AN2TN4GN6CN8……中,N2不为A,可以是T、C、G中任一个,N4不为T,可以是A、C、G中任一个。
在1个确定的文库标签的情况下,所述分子标签的组合数是3(n-1)/2。例如,当n=17时,文库标签的长度为9bp,所述分子标签的长度为8bp,分子标签序列组合数38=6561。
4、当组合标签为N1AN3TN5GN7……CNn-8ANn-6TNn-4GNn-2CNn,从左到右,第2、4、6、8、10、...n-1位置是所述文库标签,第1、3、5、7、9、...n-2、n位置是所述分子标签。
所述分子标签的碱基与其相邻的后一位的文库标签的碱基不同,例如N1AN3TN5GN7……中,N1不为A,可以是T、C、G中任一个,N3不为T,可以是A、C、G中任一个。
在1个确定的文库标签的情况下,所述分子标签的组合数是3(n+1)/2。例如,当n=17时,文库标签的长度为8bp,所述分子标签的长度为9bp,分子标签序列组合39=19683。
二、所述文库标签的每1~2个碱基与所述分子标签的每1~2个碱基交叉排列,并且所述组合标签最多有3个连续相同的碱基。
进一步的,所述文库标签的每1~2个碱基与所述分子标签的每1个碱基交叉排列,并且所述组合标签最多有3个连续相同的碱基。参考以下具体示例:
5、当组合标签为ATN3GCN6……ACNn-3TCNn,从左到右,第1、2、4、5、7、8、...(n-2)、(n-1)位置是所述文库标签,第3、6、9、12、15、18、...(n-3)、n位置是所述分子标签。
所述分子标签的碱基与其相邻的任一个文库标签的碱基不同。
在1个确定的文库标签的情况下,所述分子标签的组合数是4n/3。当n=18时,所述文库标签的长度为12bp,所述分子标签的长度为6bp,分子标签序列组合数46=4069。
6、当组合标签为N1ATN4GC……Nn-6ACNn-3TGNn,从左到右,第2、3、5、6、8、9、...(n-2)、(n-1)位置是所述文库标签,第1、4、7、10、13、16、19、...(n-6)、(n-3)、n位置是所述分子标签。
所述分子标签的碱基与其相邻的任一个文库标签的碱基不同。
在1个确定的文库标签的情况下,所述分子标签的组合数是4(n+2)/3。当n=19时,文库标签的长度为12bp,文库内分子间的分子标签序列的长度为7bp,分子标签序列组合数47=16384。
7、当组合标签为ATN3GCN6……ACNn-4TGNn-1C,从左到右,第1、2、4、5、7、8、...(n-2)、n位置是文库标签,第3、6、9、12、15、18、...(n-4)、(n-1)位置是所述分子标签。
所述分子标签的碱基与其相邻的任一个文库标签的碱基不同。
在1个确定的文库标签的情况下,所述分子标签的组合数是4(n-1)/3。当n=19时,文库标签的长度为13bp,文库内分子间的分子标签序列的长度为6bp,分子标签序列组合数46=4069。
8、当组合标签为TN2GCN5ACN8……TGNn-2CT,从左到右,从左到右,第1、3、4、6、7、...(n-4)、(n-3)、(n-1)、n位置是文库标签,第2、5、8、12、15、18、...(n-2)位置是所述分子标签。
所述分子标签的碱基与其相邻的任一个文库标签的碱基不同。
在1个确定的文库标签的情况下,所述分子标签的组合数是4(n-1)/3。当n=13时,文库标签的长度为9bp,文库内分子间的分子标签序列的长度为4bp,分子标签序列组合数44=256。
进一步的,所述文库标签的每1个碱基与所述分子标签的每1~2个碱基交叉排列,并且所述组合标签最多有3个连续相同的碱基。参考以下具体示例:
9、当组合标签为AN2N3TN5N6……CNn-4Nn-3GNn-1Nn,从左到右,第1、4、7、...n-5、n-2位置是所述文库标签,第2、3、5、6、...n-4、n-3、n-1、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是42n/3。当n=24时,所述文库标签的长度为8bp,所述分子标签的长度为16bp,分子标签序列组合数416=4294967296。
10、当组合标签为AN2N3TN5N6……CNn-5Nn-4GNn-2N n-1T,从左到右,第1、4、7、...n-6、n-3、n位置是所述文库标签,第2、3、5、6、...n-5、n-4、n-2、n-1位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是42(n-1)/3。当n=25时,所述文库标签的长度为8bp,所述分子标签的长度为16bp,分子标签序列组合数416=4294967296。
11、当组合标签为N1N2TN4N5A……CNn-5Nn-4GNn-2Nn-1T,从左到右,第3、6、9、...n-6、n-3、n位置是所述文库标签,第1、2、4、5、7、...n-5、n-4、n-2、n-1位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是42n/3。当n=24时,所述文库标签的长度为8bp,所述分子标签的长度为16bp,分子标签序列组合数416=4294967296。
12、当组合标签为N1N2TN4N5A……CNn-4Nn-3GNn-1Nn,从左到右,第3、6、9、...n-5、n-2位置是所述文库标签,第1、2、4、5、7、...n-4、n-3、n-1、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种,例如N1N2TN4N5A…………中,N可以是A、T、C、G中任一个。
在1个确定的文库标签的情况下,所述分子标签的组合数是42(n+1)/3。当n=26时,所述文库标签的长度为8bp,所述分子标签的长度为18bp,分子标签序列组合数418=68719476736。
13、当组合标签为AN2TN4N5GN7CN9N10……GNn-3CNn-1Nn,从左到右,第1、3、6、8、...n-4、n-2位置是所述文库标签,第2、4、5、7、9、...n-3、n-1、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是44n/7。当n=21时,所述文库标签的长度为9bp,所述分子标签的长度为12bp,分子标签序列组合数412=16777216。
14、当组合标签为AN2N3TN5GN7N8CN10……GNn-3Nn-2CNn,从左到右,第1、4、6、9、...n-4、n-1位置是所述文库标签,第2、3、5、7、8、...n-3、n-2、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是44n/7。当n=21时,所述文库标签的长度为9bp,所述分子标签的长度为12bp,分子标签序列组合数412=16777216。
15、当组合标签为AN2N3TN5GN7N8CN10……GNn-4Nn-3CNn-1T,从左到右,第1、4、6、9、...n-5、n-2、n位置是所述文库标签,第2、3、5、7、8、...n-4、n-3、n-1位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是44(n-1)/7。当n=22时,所述文库标签的长度为10bp,所述分子标签的长度为12bp,分子标签序列组合数412=16777216。
进一步的,所述文库标签的每1~2个碱基与所述分子标签的每1~2个碱基交叉排列,并且所述组合标签最多有3个连续相同的碱基。参考以下具体示例:
16、当组合标签为AN2N3TGN6CN8N9ATN12……GNn-4Nn-3CANn,从左到右,第1、4、5、7、10、11、...n-5、n-2、n-1位置是所述文库标签,第2、3、6、8、9、12、...n-4、n-3、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是4n/2。当n=16时,所述文库标签的长度为8bp,所述分子标签的长度为8bp,分子标签序列组合数48=65536。
17、当组合标签为ATN3N4GN6CTN9N10AN12……GCNn-3Nn-2ANn,从左到右,第1、2、5、7、8、11、...n-5、n-4、n-1位置是所述文库标签,第3、4、6、9、10、12、...n-3、n-2、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是4n/2。当n=16时,所述文库标签的长度为8bp,所述分子标签的长度为8bp,分子标签序列组合数48=65536。
三、所述文库标签的每1~2个碱基与所述分子标签的每2~3个碱基交叉排列,并且所述组合标签最多有4个连续相同的碱基。参考以下具体示例:
18、当组合标签为AN2N3N4TGN7N8CN10N11N12AT……ANn-6Nn-5Nn-4TGNn-1Nn,从左到右,第1、5、6、9、13、14、...n-7、n-3、n-2位置是所述文库标签,第2、3、4、7、8、10、11、12、...n-6、n-5、n-4、n-1、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是45n/8。当n=24时,所述文库标签的长度为9bp,所述分子标签的长度为15bp,分子标签序列组合数415=1073741824。
19、当组合标签为ATN3N4N5GCN8N9N10ATN13N14N15……GCNn-7Nn-6Nn-5ATNn-2Nn-1Nn,从左到右,第1、2、6、7、11、12、...n-9、n-8、n-4、n-3位置是所述文库标签,第3、4、5、8、9、10、13、14、15、...n-7、n-6、n-5、n-2、n-1、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是43n/5。当n=20时,所述文库标签的长度为8bp,所述分子标签的长度为12bp,分子标签序列组合数412=16777216。
四、所述文库标签的每1~2个碱基与所述分子标签的每1~3个碱基交叉排列,并且所述组合标签最多有4个连续相同的碱基。参考以下具体示例:
20、当组合标签为AN2N3N4TGN7N8CN10……ANn-8Nn-7Nn-6TGNn-3Nn-2CNn,从左到右,第1、5、6、9、...n-9、n-5、n-4、n-1位置是所述文库标签,第2、3、4、7、8、10、...n-8、n-7、n-6、n-3、n-2、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是46n/10。当n=20时,所述文库标签的长度为8bp,所述分子标签的长度为12bp,分子标签序列组合数412=16777216。
21、当组合标签为ATN3N4N5GN7ATN10N11N12GN14……ATNn-4Nn-3Nn-2GNn,从左到右,第1、2、6、8、9、13、......n-6、n-5、n-1是所述文库标签,第3、4、5、7、10、11、12、14、...n-7、n-6、n-5、n-2、n-1、n位置是所述分子标签。
所述分子标签的碱基可以为四种碱基中的任一种。
在1个确定的文库标签的情况下,所述分子标签的组合数是44n/7。当n=21时,所述文库标签的长度为9bp,所述分子标签的长度为12bp,分子标签序列组合数412=16777216。
本发明解决了现有技术中为了避免分子标签中出现多个连续一样的碱基,而在分子标签内部加入U碱基来隔开分子标签(NNNUUUNNNUUUNNN)的问题。首次将文库标签和随机分子标签结合在一起,能在保证不加入无效长度的前提下,通过增加有效分子标签长度,能保证有足够长度的文库标签和分子标签,满足具体方案的需求。
根据本发明的具体实施例,所述分子标签的长度为6~18bp,所述文库标签的长度为8~12bp。
本发明还提供一种接头,所述接头含有如上所述的组合标签,且所述组合标签位于所述接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。
根据本发明的具体实施例,所述接头还含有识别性特征序列,所述识别性特征序列为4个不重复的碱基,所述识别性特征序列与所组合标签的3’端或5’端相连。
本发明还提供一种确定待测样本目标区域含有低频突变核酸序列的方法,如图1所述包括如下步骤:
S1、利用如上所述的接头,对待测样本目标区域核酸进行加接头反应,对加接头后的待测样本目标区域核酸进行PCR扩增,获得扩增产物,所述扩增产物构成所述待测样本的目标区域核酸测序文库;
S2、对所述待测样本的目标区域核酸测序文库进行测序,获得测序后核酸序列;
S3、将所述测序后核酸序列按照所述接头中含有的分子标签进行分类,将携带有相同分子标签的所述测序后的核酸序列归类为同一核酸序列集;
S4、将所述核酸序列集内的测序后核酸序列进行相互比较,统计所述核酸序列集中每个碱基位置的碱基种类及其频率;
S5、根据所述核酸序列集中每个碱基位置的碱基种类及其频率,通过数据分析,得到所述核酸序列集中含有正确的碱基排列位置的核酸序列;
S6、将所述含有正确的碱基排列位置的核酸序列与所述核酸序列集中的其余的核酸序列或平行的核酸序列集中的核酸序列进行比较,得到含有低频突变的核酸序列。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面示例仅用于解释本发明,而不能理解为对本发明的限制。除另有交待,以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器,都是常规市售产品或者开源的。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1确定待测样本目标区域含有低频突变核酸序列的方法
1、设计组合标签及含有该组合标签的接头。
按照文库标签和分子标签以单个碱基交叉排列方式设计组合标签,所述组合标签上最多含有2个连续相同的碱基。按照实验需要,设计一组组合标签16种。如表1所示,16种组合标签:
表1
Figure BDA0001350145790000141
Figure BDA0001350145790000151
其中,有下划线的碱基是分子标签序列,无下划线的碱基是文库标签序列。
将上述设计的组合标签设计成一组接头,其中组合标签可位于接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。如图2、图3、图4、图5所示,NNN...NNN代表组合标签,接头的种类可以是,完全互补的双链结构、一端互补一端开放的Y型结构,或者可通过PCR将组合标签引入接头的Y型结构。组合标签可以仅位于接头的任意一端或中间,也可以分布于2个或者2个以上的位置,N的个数代表组合标签的碱基数目,需要的组合标签种类多就增加该位置的碱基个数,比如采用8bp、12bp、16bp、24bp或者更多的碱基个数。
如表2所示,16种含有不同组合标签的接头:
表2
Figure BDA0001350145790000152
Figure BDA0001350145790000161
当接头如图1和图2及其类似的结构,需要同时设计含有组合标签反向互补的结构,如需要同时设计表2中的F向序列和R向序列,图3、图4及其类似的结构则只需要设计单链组合标签,如表2中的F向序列而不需要设计组合标签反向互补序列。
根据实验的需要,还可以在组合标签的3’或5’端添加识别性特征序列和/或文库标签。例如,使用Ion Torrent平台测序时,可以将识别不同样本的Barcode序列加入其中。
2、合成含有组合标签的接头
根据所设计的接头序列,将设计出来的组合标签或及其对应的反向互补序列及其3'端、5'端的序列进行合成,得到含有组合标签的接头。本领域人员可以理解的,合成方法可采用本领域熟知的方法,也可委托给引物合成公司合成。
3、将得到的接头稀释成工作液,待用。
4、提取样本DNA
抽取病人外周EDTA抗凝血10ml,并新鲜离心分离血浆,按照本领域技术人员熟知的方法提取血浆DNA。
5、DNA末端修复
将提取得到的DNA溶液和末端修复的试剂混合液混合,按照本领域技术人员熟知的末端修复的方法进行反应,反应结束后进行分离纯化。
5.1按如下反应体系在1.5mlEP管中配制:
试剂 体积/ul
DNA 50
10×PNK缓冲液 5
dNTP溶液(10mM) 2
T4DNA聚合酶 1
T4PNK 1
KLENOW片段(稀释10倍) 1
总体积/ul 50
室温混匀,轻微离心后,反应体系置于PCR仪中,20℃反应30分钟,反应结束后,使用AMpure XP磁珠纯化。
5.2在50ul体系反应产物中加入90ul磁珠,进行AMpure XP磁珠纯化后,反复用500ul 75%乙醇洗涤两次,弃上清液。37℃烘干,至磁珠干燥。加入23ul水,混匀磁珠,待澄清,吸取22ul上清液。
6、加接头反应
将末端修复后的DNA溶液和前述第3步中得到的含有组合标签的接头的工作液、连接反应试剂混合液混合,按照本领域技术人员熟知的加接头的方法进行反应,反应结束后进行分离纯化。
6.1将5中得到的溶液按照以下体系配制反应液:
Figure BDA0001350145790000171
Figure BDA0001350145790000181
室温混匀,轻微离心后,反应体系置于PCR仪中,20℃反应30分钟,反应结束后,使用AMpure XP磁珠纯化。
6.2采用如5.2所示的方法进行磁珠纯化,其区别在于50ul体系反应产物中加入75ul磁珠,反复用500ul 75%乙醇洗涤两次,弃上清液。37℃烘干,至磁珠干燥。加入36ul水,混匀磁珠,待澄清,吸取34.5ul上清液。
7、PCR富集,构建测序文库
将加接头后的DNA和PCR反应试剂混合液混均,按照本领域技术人员熟知的方法进行PCR反应,反应结束后进行分离纯化,到此文库构建结束,对文库进行QC检测,检测合格后等待测序。
7.1在1个新的PCR管中按照以下体系配制反应液:
试剂 体积/ul
DNA 34.5
10×Pfx扩增缓冲液 5
dNTP溶液(10mM) 5
MgSO<sub>4</sub>(50mM) 2
PCR引物PE1(10pmol/ul) 4
PCR引物PE2(10pmol/ul) 4
Pfx DNA聚合酶 1
总体积/ul 50
室温混匀,轻微离心后,反应体系置于PCR仪中,按照以下条件进行反应:
Figure BDA0001350145790000182
Figure BDA0001350145790000191
反应结束后,使用AMpure XP磁珠纯化。
7.2采用如5.2所示的方法进行磁珠纯化,其区别在于50ul体系反应产物中加入50ul磁珠。文库构建结束。
8、文库质检
对文库进行QPCR和Agilent 2100检测,质检合格文库安排上机。
9、对文库进行DNA测序
可使用Ion Torrent Proton、Ion Torrent PGM等二代测序仪对文库进行测序。
10、分析测序结果
将测序后得到的DNA的测序结果进行分析,按照组合标签将得到的DNA序列进行分类,将携带有相同的组合标签的序列作为1个“分子簇”,这个分子簇是初始1个DNA分子通过PCR形成的1类DNA,即原始DNA分子的正链和负链的“复制链”。
统计“分子簇”内部每个碱基位置的碱基种类及其出现的频数。
根据数据分析,找出由于PCR和测序带入的错误并纠正。
从而得到原始DNA的正确序列,并通过分子簇内部和平行比较,找出真正的突变序列。
实施例2
本实施例确定待测样本目标区域含有低频突变核酸序列的方法与实施例1基本相同,其不同之处在于,步骤1中按照文库标签2个碱基与分子标签1个碱基交叉排列。
如下表3所示:
Figure BDA0001350145790000201
接头P1序列5’-3’:
SEQ ID NO 46:CCTCTCTATGGGCAGTCGGTGAT。
其中,有下划线的碱基是分子标签序列,无下划线的碱基是文库标签序列。
实施例3
本实施例确定待测样本目标区域含有低频突变核酸序列的方法与实施例1基本相同,其不同之处在于,步骤1中按照文库标签1~2个碱基与分子标签1~2个碱基交叉排列。
如下表4所示:
Figure BDA0001350145790000202
接头P1序列5’-3’:
SEQ ID NO 59:CCTCTCTATGGGCAGTCGGTGAT。
其中,有下划线的碱基是分子标签序列,无下划线的碱基是文库标签序列。
实施例4
本实施例确定待测样本目标区域含有低频突变核酸序列的方法与实施例1基本相同,其不同之处在于,步骤1中按照文库标签1~2个碱基与分子标签2~3个碱基交叉排列。
如下表5所示:
Figure BDA0001350145790000211
接头P1序列5’-3’:
SEQ ID NO 72:CCTCTCTATGGGCAGTCGGTGAT。
其中,有下划线的碱基是分子标签序列,无下划线的碱基是文库标签序列。
上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明技术方案所做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Figure DEST_PATH_IDA0001419781340000011
Figure DEST_PATH_IDA0001419781340000021
Figure DEST_PATH_IDA0001419781340000031
Figure DEST_PATH_IDA0001419781340000041
Figure DEST_PATH_IDA0001419781340000051
Figure DEST_PATH_IDA0001419781340000061
Figure DEST_PATH_IDA0001419781340000071
Figure DEST_PATH_IDA0001419781340000081
Figure DEST_PATH_IDA0001419781340000091
Figure DEST_PATH_IDA0001419781340000101
Figure DEST_PATH_IDA0001419781340000111
Figure DEST_PATH_IDA0001419781340000121
Figure DEST_PATH_IDA0001419781340000131
Figure DEST_PATH_IDA0001419781340000141
Figure DEST_PATH_IDA0001419781340000151
Figure DEST_PATH_IDA0001419781340000161
Figure DEST_PATH_IDA0001419781340000171
Figure DEST_PATH_IDA0001419781340000181
Figure DEST_PATH_IDA0001419781340000191
Figure DEST_PATH_IDA0001419781340000201
Figure DEST_PATH_IDA0001419781340000211
Figure DEST_PATH_IDA0001419781340000221
Figure DEST_PATH_IDA0001419781340000231
Figure DEST_PATH_IDA0001419781340000241

Claims (8)

1.一种确定待测样本目标区域含有低频突变核酸序列的方法,包括如下步骤:
S1、利用一种接头,对待测样本目标区域核酸进行加接头反应,所述接头含有一种组合标签,所述组合标签包括分子标签和文库标签,所述分子标签的碱基与所述文库标签的碱基交叉排列,且所述组合标签位于所述接头除突出端“T”和非突出端末端20bp碱基以外的任意位置,对加接头后的待测样本目标区域核酸进行PCR扩增,获得扩增产物,所述扩增产物构成所述待测样本的目标区域核酸测序文库;
S2、对所述待测样本的目标区域核酸测序文库进行测序,获得测序后核酸序列;
S3、将所述测序后核酸序列按照所述接头中含有的分子标签进行分类,将携带有相同分子标签的所述测序后的核酸序列归类为同一核酸序列集;
S4、将所述核酸序列集内的测序后核酸序列进行相互比较,统计所述核酸序列集中每个碱基位置的碱基种类及其频率;
S5、根据所述核酸序列集中每个碱基位置的碱基种类及其频率,通过数据分析,得到所述核酸序列集中含有正确的碱基排列位置的核酸序列;
S6、将所述含有正确的碱基排列位置的核酸序列与所述核酸序列集中的其余的核酸序列或平行的核酸序列集中的核酸序列进行比较,得到含有低频突变的核酸序列。
2.如权利要求1所述的确定待测样本目标区域含有低频突变核酸序列的方法,其特征在于,所述接头还含有识别性特征序列,所述识别性特征序列为4个不重复的碱基,所述识别性特征序列与所组合标签的3’端或5’端相连。
3.如权利要求1所述的确定待测样本目标区域含有低频突变核酸序列的方法,其特征在于,所述文库标签的每1~2个碱基与所述分子标签的每个1~3碱基交叉排列。
4.如权利要求3所述的确定待测样本目标区域含有低频突变核酸序列的方法,其特征在于,所述文库标签的每1个碱基与所述分子标签的每1个碱基交叉排列,并且所述组合标签最多有2个连续相同的碱基。
5.如权利要求3所述的确定待测样本目标区域含有低频突变核酸序列的方法,其特征在于,所述文库标签的每1~2个碱基与所述分子标签的每1~2个碱基交叉排列,并且所述组合标签最多有3个连续相同的碱基。
6.如权利要求3所述的确定待测样本目标区域含有低频突变核酸序列的方法,其特征在于,所述文库标签的每1~2个碱基与所述分子标签的每2~3个碱基交叉排列,并且所述组合标签最多有4个连续相同的碱基。
7.如权利要求3所述的确定待测样本目标区域含有低频突变核酸序列的方法,其特征在于,所述文库标签的每1~2个碱基与所述分子标签的每1~3个碱基交叉排列,并且所述组合标签最多有4个连续相同的碱基。
8.如权利要求1所述的确定待测样本目标区域含有低频突变核酸序列的方法,其特征在于,所述分子标签的长度为6~18bp,所述文库标签的长度为8~12bp。
CN201710573056.XA 2017-07-14 2017-07-14 组合标签、接头及确定含有低频突变核酸序列的方法 Active CN107354209B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710573056.XA CN107354209B (zh) 2017-07-14 2017-07-14 组合标签、接头及确定含有低频突变核酸序列的方法
PCT/CN2017/100425 WO2019010776A1 (zh) 2017-07-14 2017-09-04 组合标签、接头及确定含有低频突变核酸序列的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710573056.XA CN107354209B (zh) 2017-07-14 2017-07-14 组合标签、接头及确定含有低频突变核酸序列的方法

Publications (2)

Publication Number Publication Date
CN107354209A CN107354209A (zh) 2017-11-17
CN107354209B true CN107354209B (zh) 2021-01-08

Family

ID=60293441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710573056.XA Active CN107354209B (zh) 2017-07-14 2017-07-14 组合标签、接头及确定含有低频突变核酸序列的方法

Country Status (2)

Country Link
CN (1) CN107354209B (zh)
WO (1) WO2019010776A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110438121A (zh) * 2018-05-03 2019-11-12 深圳华大临床检验中心 接头、接头文库及其应用
CN111073961A (zh) * 2019-12-20 2020-04-28 苏州赛美科基因科技有限公司 一种基因稀有突变的高通量检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103938277A (zh) * 2014-04-18 2014-07-23 中国科学院北京基因组研究所 以痕量dna为基础的二代测序文库构建方法
CN105861710A (zh) * 2016-05-20 2016-08-17 北京科迅生物技术有限公司 测序接头、其制备方法及其在超低频变异检测中的应用
WO2016160844A2 (en) * 2015-03-30 2016-10-06 Cellular Research, Inc. Methods and compositions for combinatorial barcoding
CN106048009A (zh) * 2016-06-03 2016-10-26 人和未来生物科技(长沙)有限公司 一种用于超低频基因突变检测的标签接头及其应用

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7947446B2 (en) * 2007-05-29 2011-05-24 Ming-Sheng Lee High throughput mutation screening methods and kits using a universalized approach—differential sequence fill-in (DSF)-enabled sequential adapter ligation and amplification
CN104293938B (zh) * 2014-09-30 2017-11-03 天津华大基因科技有限公司 构建测序文库的方法及其应用
CN106811460B (zh) * 2015-11-30 2020-11-27 浙江安诺优达生物科技有限公司 用于低频突变检测的二代测序文库的构建方法及试剂盒
CN106676182B (zh) * 2017-02-07 2020-08-14 北京诺禾致源科技股份有限公司 一种低频率基因融合的检测方法及装置
CN106834275A (zh) * 2017-02-22 2017-06-13 天津诺禾医学检验所有限公司 ctDNA超低频突变检测文库的构建方法、试剂盒及文库检测数据的分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103938277A (zh) * 2014-04-18 2014-07-23 中国科学院北京基因组研究所 以痕量dna为基础的二代测序文库构建方法
WO2016160844A2 (en) * 2015-03-30 2016-10-06 Cellular Research, Inc. Methods and compositions for combinatorial barcoding
CN105861710A (zh) * 2016-05-20 2016-08-17 北京科迅生物技术有限公司 测序接头、其制备方法及其在超低频变异检测中的应用
CN106048009A (zh) * 2016-06-03 2016-10-26 人和未来生物科技(长沙)有限公司 一种用于超低频基因突变检测的标签接头及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RN 914039-67-1;无;《STN REGISTRY》;20061127;第27页 *

Also Published As

Publication number Publication date
CN107354209A (zh) 2017-11-17
WO2019010776A1 (zh) 2019-01-17

Similar Documents

Publication Publication Date Title
CN106367485B (zh) 一种用于检测基因突变的多定位双标签接头组及其制备方法和应用
JP2024059651A (ja) Dnaプロファイリングのための方法および組成物
CN104694635B (zh) 一种高通量简化基因组测序文库的构建方法
CN105002567B (zh) 无参考基因组高通量简化甲基化测序文库的构建方法
CN106555226A (zh) 一种构建高通量测序文库的方法和试剂盒
CN106811460B (zh) 用于低频突变检测的二代测序文库的构建方法及试剂盒
CN111808854B (zh) 带有分子条码的平衡接头及快速构建转录组文库的方法
CN106939344B (zh) 用于二代测序的接头
CN108715902A (zh) 梅花垂枝性状snp分子标记及其应用
CN107354209B (zh) 组合标签、接头及确定含有低频突变核酸序列的方法
WO2012037875A1 (zh) Dna标签及其应用
Menon et al. Bioinformatics tools and methods to analyze single-cell RNA sequencing data
CN104232626A (zh) 简化基因组测序文库中条码物及其设计方法
CN110724731A (zh) 一种在多重pcr体系内加入内参定量核酸拷贝数的方法
CN108220418A (zh) 基于多重pcr捕获技术的杜氏/贝氏肌营养不良症的检测试剂盒及方法
CN111440846A (zh) 一种用于纳米孔测序建库的位置锚定条码***
CN108932401B (zh) 一种测序样本的标识方法及其应用
CN108866155B (zh) 一种下一代测序文库的制备方法
US20190112594A1 (en) Compositions and methods that are useful for identifying allele variants that modulate gene expression
CN110218811B (zh) 一种筛选水稻突变体的方法
CN109797437A (zh) 一种检测多个样品时测序文库的构建方法及其应用
CN112301432B (zh) 一种构建全基因组高通量测序的文库的方法和试剂盒
CN104073549B (zh) 一种高效快速测定bac末端序列的方法
CN113444769A (zh) 一种dna标签序列的构建方法及其应用
WO2019010775A1 (zh) 分子标签、接头及确定含有低频突变核酸序列的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Gao Xiaohuan

Inventor after: Zeng Xiaojing

Inventor after: Li Sheng

Inventor after: Zhang Yinxin

Inventor after: Han Yingxin

Inventor after: He Zhe

Inventor after: Wang Jiawei

Inventor after: Xia Weicheng

Inventor after: Jiang Biman

Inventor before: Gao Xiaohuan

Inventor before: Zeng Xiaojing

Inventor before: Zhang Yinxin

Inventor before: Han Yingxin

Inventor before: He Zhe

Inventor before: Wang Jiawei

Inventor before: Xia Weicheng

Inventor before: Li Sheng

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant