CN107784198B - 一种二代序列和三代单分子实时测序序列联合组装方法和*** - Google Patents

一种二代序列和三代单分子实时测序序列联合组装方法和*** Download PDF

Info

Publication number
CN107784198B
CN107784198B CN201610741984.8A CN201610741984A CN107784198B CN 107784198 B CN107784198 B CN 107784198B CN 201610741984 A CN201610741984 A CN 201610741984A CN 107784198 B CN107784198 B CN 107784198B
Authority
CN
China
Prior art keywords
sequence
generation
genome
level
framework
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610741984.8A
Other languages
English (en)
Other versions
CN107784198A (zh
Inventor
邓天全
贺丽娟
杨林峰
刘亚斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201610741984.8A priority Critical patent/CN107784198B/zh
Publication of CN107784198A publication Critical patent/CN107784198A/zh
Application granted granted Critical
Publication of CN107784198B publication Critical patent/CN107784198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种二代序列和三代单分子实时测序序列联合组装方法和***,该方法包括:二代序列组装获得一级二代基因组骨架序列;二代序列对一级二代基因组骨架序列进行补洞,获得二级二代基因组骨架序列;三代单分子实时测序序列对二代基因组骨架序列进行补洞,获得一级二三代骨架序列;自纠错后的三代单分子实时测序序列利用与一级二三代骨架序列相互重叠关系进行拼接,获得二级二三代骨架序列;二代序列与二级二三代骨架序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得三级二三代骨架序列;用二代序列对三级二三代骨架序列进行补洞,获得最终基因组组装序列。本发明的方法能够提高基因组组装的指标和准确性。

Description

一种二代序列和三代单分子实时测序序列联合组装方法和 ***
技术领域
本发明涉及核苷酸序列组装技术领域,尤其涉及一种二代序列和三代单分子实时测序序列联合组装方法和***。
背景技术
目前,基因组组装以全基因组鸟枪法测序(Whole-genome shotgun sequencing,WGS)为主流设计方案,它主要根据基因组的重复序列的具体特点,搭配不同长度的DNA***片段进行双末端测序,在全基因组的平均测序深度足够的情况下可保证单碱基的准确性和基因组的完整性。随着第二代测序技术(Next-generation sequencing,NGS)的成熟和普及,测序成本大大降低,基于第二代测序技术的全基因组鸟枪法测序成为各种基因组项目测序的主流方案。
然而对于复杂基因组,其具有高杂合性(杂合性即在同源染色体上的一个或多个位点上有不同等位基因存在的状态)与重复序列等各种问题,上述的解决方案易受这些问题的干扰,组装结果无法达标,导致数据分析及组装困难,不适用于复杂基因组。
把组装出的重叠群(Contig)或骨架序列(Scaffold)从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个重叠群或骨架序列的大小即为N50的大小,N50对评价基因测序的完整性有重要意义。
目前三代—Pacbio单分子实时测序(SMRT)技术由于具有超长读长的特点,能对高重复序列、转座子区域及高度变异区域等基因组复杂区域进行高水平组装,使得ContigN50和Scaffold N50长度更长,组装结果更完整准确,三代测序技术用于全基因组组装的物种越来越多。但其由于样品要求高、成本昂贵、单碱基错误率高(比如Pacbio RSII平台序列平均15%的错误率),如果只用纯三代测序技术进行全基因组自组装,普通基因组(非高重复和高杂合)数据量一般要求基因组大小的50倍以上,复杂基因组则需要更高的数据量,费用非常昂贵,目前主要用于细菌、真菌及几百兆以下的动植物基因组中。
基于二代测序成本低、高准确性和三代Pacbio超长读长特点,使用二代序列和三代Pacbio序列混合组装是目前提高基因组组装指标和准确性的一种很好的方案,目前二代序列和三代Pacbio序列混合组装软件DBG2OLC(参考文献DBG2OLC:Efficient Assembly ofLarge Genomes Using the Compressed Overlap Graph(2014))在简单基因组中的表现良好,但在复杂基因组中其组装效果往往不是很理想。
发明内容
本发明提供一种二代序列和三代单分子实时测序序列联合组装方法和***,能够提高基因组组装的指标和准确性。
根据本发明的第一方面,本发明提供一种二代序列和三代单分子实时测序序列联合组装方法,包括:二代序列组装获得一级二代基因组骨架序列;上述二代序列对上述一级二代基因组骨架序列进行补洞,获得二级二代基因组骨架序列;三代单分子实时测序序列对上述二代基因组骨架序列进行补洞,获得一级二三代骨架序列;自纠错后的三代单分子实时测序序列利用与上述一级二三代骨架序列相互重叠关系进行拼接,获得二级二三代骨架序列;上述二代序列与上述二级二三代骨架序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得三级二三代骨架序列;用上述二代序列对上述三级二三代骨架序列进行补洞,获得最终基因组组装序列。
进一步地,上述方法还包括:利用上述二代序列读间的对关系将上述二级二代基因组骨架序列进行拼接,获得三级二代基因组骨架序列。
进一步地,上述方法还包括:上述三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到上述自纠错后的三代单分子实时测序序列。
进一步地,上述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。
进一步地,上述三代单分子实时测序序列对上述二代基因组骨架序列进行补洞使用的三代单分子实时测序序列是自纠错前的序列。
进一步地,上述三代单分子实时测序序列对上述二代基因组骨架序列进行补洞使用的三代单分子实时测序序列是自纠错后的序列。
进一步地,上述获得三级二三代骨架序列的步骤具体包括:上述二代序列比对到上述二级二三代骨架序列,获得比对结果;计算上述二级二三代骨架序列的覆盖度,获得二级二三代骨架序列有效序列区域无覆盖的情况;用无效序列替换无覆盖的有效序列区域,获得上述三级二三代骨架序列。
根据本发明的第二方面,本发明提供一种二代序列和三代单分子实时测序序列联合组装***,包括:二代序列组装单元,用于二代序列组装获得一级二代基因组骨架序列;二代序列补洞单元,用于上述二代序列对上述一级二代基因组骨架序列进行补洞,获得二级二代基因组骨架序列;三代序列补洞单元,用于三代单分子实时测序序列对上述二代基因组骨架序列进行补洞,获得一级二三代骨架序列;第一拼接单元,用于自纠错后的三代单分子实时测序序列利用与上述一级二三代骨架序列相互重叠关系进行拼接,获得二级二三代骨架序列;比对替换单元,用于上述二代序列与上述二级二三代骨架序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得三级二三代骨架序列;最终补洞单元,用于用上述二代序列对上述三级二三代骨架序列进行补洞,获得最终基因组组装序列。
进一步地,上述***还包括:第二拼接单元,用于利用上述二代序列读间的对关系将上述二级二代基因组骨架序列进行拼接,获得三级二代基因组骨架序列。
进一步地,上述***还包括:自纠错单元,用于上述三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到上述自纠错后的三代单分子实时测序序列。
本发明提供的基因组组装方法和***,采用第二代测序技术与第三代单分子实时测序法相结合的方法进行测序,并进行分级组装,提高了组装的指标和准确性。
附图说明
图1示出三代单分子实时测序(Pacbio测序)序列自纠错的实施例流程图;
图2示出本发明的二代序列和三代单分子实时测序序列联合组装方法的一个实施例的流程图;
图3示出本发明的二代序列和三代单分子实时测序序列联合组装方法中基因组无效序列获取的一个实施例的流程图;
图4示出本发明的二代序列和三代单分子实时测序序列联合组装***的一个实施例的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
在本发明的一个实施方案中,提供一种基于第二代测序技术和第三代(例如Pacbio)单分子实时测序技术(SMRT)所得测序序列联合组装的方法和***,采用基于第二代测序技术的全基因组鸟枪法与第三代(例如Pacbio)单分子实时测序技术相结合的方法进行测序,旨在解决简单基因组和复杂基因组的组装问题。
本发明中涉及到的术语说明如下:
二代序列,是指基于第二代测序技术得到的测序序列。
三代单分子实时测序序列,是指基于第三代测序技术得到的测序序列,尤其是以Pacbio测序为代表的单分子实时测序序列,在本发明中,也可以称为“三代序列”。
一级二代基因组骨架序列,是指二代序列经过第一级组装得到的基因组骨架序列,其中“二代”用于表示该序列是基于第二代测序技术得到的。类似地,二级二代基因组骨架序列,是指对一级二代基因组骨架序列进行第二级处理后得到的基因组骨架序列,在本发明中,具体是二代序列对一级二代基因组骨架序列进行补洞后得到的基因组骨架序列。三级二代基因组骨架序列,是指对二级二代基因组骨架序列进行第三级处理后得到的基因组骨架序列,在本发明中,具体是利用二代序列读间的对关系将二级二代基因组骨架序列进行拼接后得到的基因组骨架序列。
一级二三代骨架序列,是指二代序列和三代序列进行第一级处理后得到的骨架序列,在本发明中,具体是三代单分子实时测序序列对二代基因组骨架序列进行补洞后得到的骨架序列。其中二代基因组骨架序列,可以是二级二代基因组骨架序列,也可以是三级二代基因组骨架序列。类似地,二级二三代骨架序列,是指对上述一级二三代骨架序列进行第二级处理后得到的骨架序列,在本发明中,具体是自纠错后的三代单分子实时测序序列利用与一级二三代骨架序列相互重叠关系进行拼接后得到的骨架序列。三级二三代骨架序列,是指对上述二级二三代骨架序列进行第三级处理后得到的骨架序列,在本发明中,具体是二代序列与二级二三代骨架序列进行比对获得无效比对区域,并用无效序列对该区域进行替换后得到的骨架序列。
本发明中涉及三代单分子实时测序序列的自纠错,例如Pacbio序列的自纠错。图1示出三代单分子实时测序(例如Pacbio测序)序列自纠错的实施例流程图,包括:
在步骤102中,将使用三代单分子实时测序(例如Pacbio测序)得到的原始序列数据,过滤掉接头、短序列和质量值过低的序列,最终获得质量值比较高的三代单分子实时测序(例如Pacbio测序)序列数据。
在步骤104中,由于三代单分子实时测序(例如Pacbio测序)序列一般平均的错误率高达15%,为了提高接下来的图2中步骤208补洞的效率和步骤210拼接的准确性,将步骤102过滤后的三代单分子实时测序(例如Pacbio测序)序列利用序列间的比对关系进行自纠错,最终获得自纠错后的三代单分子实时测序(例如Pacbio测序)序列,例如可以使用纠错软件MHAP(参考文献:Assembling Large Genomes with Single-MoleculeSequencing andLocality Sensitive Hashing)。又比如可以使用FALCON组装软件中的纠错功能。FALCON下载网址https://github.com/PacificBiosciences/FALCON。经过自纠错以后的序列错误率下降,准确率提高,数据量变小,比对时间变短,提高了效率,有很大优势。
图2示出本发明的二代序列和三代单分子实时测序序列联合组装方法的一个实施例的流程图,具体包括:
在步骤202中,二代序列组装获得一级二代基因组骨架序列。
将二代序列进行组装,将读(reads,测序序列)依次截取出长度为K(例如30-100bp等)的短序列,称为K-mer,K-mer前后互相重叠K-1个碱基。将K-mer存储到散列表中,形成德布鲁因图的顶点;在读上前后相继的K-mer认为这两个K-mer相连,形成德布鲁因图的边。将所有读都处理完后,可以得到整个德布鲁因图,去除图中由测序错误、杂合位点引起的路径,将线性的K-mer路径连接起来即可形成第一级的重叠群(Contig)序列。将这些K-mer碱基连接起来即形成第一级的重叠群序列。然后将读比对到重叠群序列上,根据读的对关系(paired end)建立重叠群序列间的相对位置和方向关系,从而形成第一级的骨架序列(Scaffold),即一级二代基因组骨架序列。这个阶段的组装可以使用拼接软件SOAPdenovo或Platanus实现。例如,这个阶段的组装可以使用华大基因研究院的拼接软件SOAPdenovo进行拼接,基于德布鲁因图进行短序列组装,得到一级骨架序列。组装软件参考文献Li,R.et al.De novo assembly of human genomes with massively parallel short readsequencing.Genome Res(2009)。此软件可以从网上免费获得,网址为http://soap.genomics.org.cn/soapdenovo.html。也可以从网址http://platanus.bio.titech.ac.jp/platanus/获得Platanus组装软件。
在步骤204中,二代序列对一级二代基因组骨架序列进行补洞,获得二级二代基因组骨架序列。
在步骤202第一级的骨架序列完成后,可以利用读间的对关系,对骨架序列中无效碱基N进行填充,例如,采用华大基因研究院的软件KGF进行补洞,也可以使用SOAPdenovo配套的补洞软件GapCloser进行此阶段工作,GapCloser可以在soap.genomics.org.cn免费获得。也可以使用Platanus配套的补洞工具Gapclose进行此阶段工作。
在步骤206中,利用二代序列读间的对关系将二级二代基因组骨架序列进行拼接,获得三级二代基因组骨架序列。
利用读间的对关系将基因组的骨架序列进行拼接,本实施例中所用软件可以为SSPACE软件。本步骤对骨架序列(Scaffold)N50会有所提升,但在此套组装方法中为可选步骤,非必需步骤,可从步骤204跨过步骤206,直接跳到步骤208进行补洞。一般而言,经步骤206的拼接,序列组装更长,此为优点,因此在二级二代基因组骨架序列不是很长的情况下,进行该步骤,能够有效地提高骨架序列(Scaffold)N50。然而,该步骤的拼接也可能引入组装错误,因此在二级二代基因组骨架序列的N50已经能够满足指标的情况下,可以不进行该步骤。
在步骤208中,三代单分子实时测序序列对二代基因组骨架序列进行补洞,获得一级二三代骨架序列。
用三代单分子实时测序(例如Pacbio测序)序列对步骤206或步骤204后的基因组骨架序列进行补洞,获得一级二三代骨架序列。三代单分子实时测序序列可为步骤102获得的自纠错前的序列或者步骤104获得的自纠错后的序列。该步骤可以使用补洞软件PBJelly实现。
在步骤210中,自纠错后的三代单分子实时测序序列利用与一级二三代骨架序列相互重叠(overlap)关系进行拼接,获得二级二三代骨架序列。
在步骤212中,二代序列与二级二三代骨架序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得三级二三代骨架序列。
此步骤具体实施步骤如图3所示。首先,在步骤302中,二代序列比对到二级二三代骨架序列,获得比对结果;其次,在步骤304中,计算二级二三代骨架序列的覆盖度,获得二级二三代骨架序列有效序列区域无覆盖的情况;最后,在步骤306中,用无效序列替换无覆盖的有效序列区域,获得三级二三代骨架序列。
在步骤214中,二代序列对三级二三代骨架序列进行补洞,获得最终基因组组装序列。
此步骤可以利用读间的对关系,对骨架序列中无效碱基N进行填充,例如,采用华大基因研究院的软件KGF进行补洞,也可以使用SOAPdenovo配套的补洞软件GapCloser进行此阶段工作,GapCloser可以在soap.genomics.org.cn免费获得。也可以使用Platanus配套的补洞软件Gapclose进行此阶段工作。
对应于上述二代序列和三代单分子实时测序序列联合组装方法,本发明一个实施例还提供一种二代序列和三代单分子实时测序序列联合组装***,如图4所示,该***包括:二代序列组装单元402,用于二代序列组装获得一级二代基因组骨架序列;二代序列补洞单元404,用于二代序列对一级二代基因组骨架序列进行补洞,获得二级二代基因组骨架序列;三代序列补洞单元408,用于三代单分子实时测序序列对二代基因组骨架序列进行补洞,获得一级二三代骨架序列;第一拼接单元410,用于自纠错后的三代单分子实时测序序列利用与一级二三代骨架序列相互重叠关系进行拼接,获得二级二三代骨架序列;比对替换单元412,用于二代序列与二级二三代骨架序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得三级二三代骨架序列;最终补洞单元414,用于用二代序列对三级二三代骨架序列进行补洞,获得最终基因组组装序列。
作为进一步改进,上述***还包括:第二拼接单元406,用于利用二代序列读间的对关系将二级二代基因组骨架序列进行拼接,获得三级二代基因组骨架序列;以及自纠错单元416,用于三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到自纠错后的三代单分子实时测序序列。
本领域普通技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
下面提供本发明方法的一个植物基因组大小为1.1Gb的具体应用例。在该例子中,实现基因组测序组装,具体步骤如下:
(一)Pacbio数据处理
1)将原始下机数据(Raw data)中的接头序列去除,同时去除小于500bp的短序列,RQ值小于0.8的序列,得到过滤后的序列数据,数据量为17Gb。
2)使用MHAP软件对过滤后的序列进行自纠错,获得自纠错后的Pacbio序列,数据量为9.2Gb。参考文献:Assembling Large Genomes with Single-MoleculeSequencingand Locality Sensitive Hashing。
(二)使用Platanus组装软件对二代序列进行组装和补洞
1)建立重叠群
将二代序列进行组装,将读(测序序列)依次截取出长度为K的短序列,称为K-mer,K-mer前后互相重叠K-1个碱基。将K-mer存储到散列表中,形成德布鲁因图的顶点;在读上前后相继的K-mer认为这两个K-mer相连,形成德布鲁因图的边。将所有读都处理完后,可以得到整个德布鲁因图,去除图中由测序错误、杂合位点引起的路径,将线性的K-mer路径连接起来即可形成第一级的重叠群序列。将这些K-mer碱基连接起来即形成第一级的重叠群序列。通过此步组装可以得到大小约为1029Mb的骨架序列,Scaffold N50约为1583bp,Contig N50约为1583bp。
2)骨架序列拼接
根据各个读间的对关系(paired-end)信息,建立第二级的骨架序列。首先将不同***片段的读比对到重叠群序列上,然后根据两端都比对到重叠群序列上的双端读信息,确定重叠群序列间的前后关系,排列出骨架序列。
可以得到大小约为971Mb的骨架序列,Scaffold N50约为902Kb,Contig N50约为6.5Kb。
3)二代序列对基因组骨架补洞
经过Platanus的gapclose补洞步骤处理后可以得到大小约为962Mb的新骨架序列,Scaffold N50约为912Kb,Contig N50约为26Kb。
经过1)至3)步骤的处理,已经完成了图2中的第202和204步骤,获得了二级二代基因组骨架序列。
(三)利用读间的对关系将基因组的骨架序列进行拼接
使用SSPACE软件利用二代小片段和大片段读间的对关系将二级二代基因组的骨架序列进行拼接,获得图2步骤206的三级二代基因组骨架序列。基因组骨架序列大小约为975Mb,Scaffold N50约为1283Kb,Contig N50约为26Kb。
(四)自纠错后的Pacbio序列对二代基因组骨架进行补洞
使用9.2Gb自纠错后Pacbio序列和三代PBJelly补洞软件对三级二代基因组骨架进行补洞,获得补洞后的一级二三代骨架序列。
经过PBJelly软件补洞后可以得到大小约为1004Mb的新骨架序列,Scaffold N50约为1305Kb,Contig N50约为139Kb。
(五)自纠错后的Pacbio序列和基因组骨架序列利用相互重叠关系进行拼接
使用SSPACE-LongRead软件对9.2Gb自纠错后的Pacbio和基因组骨架序列进行拼接,得到大小约为1007Mb的二级二三代新骨架序列,Scaffold N50约为1504Kb,Contig N50约为139Kb。
SSPACE-LongRead的参考文献为SSPACE-LongRead:scaffolding bacterialdraft genomes using long read sequence information。
(六)获取基因组骨架序列无效比对区域并用无效序列替换
用SOAPaligner软件将二代序列比对到二级二三代骨架序列,重复序列比对结果设置为全部输出,获得比对结果并统计二级二三代骨架序列的覆盖度;挑选出无覆盖的有效序列区域;最后,用无效序列替换无覆盖度的有效序列区域,获得三级二三代骨架序列。SOAPaligner软件可以在soap.genomics.org.cn免费获得。
通过替换可得到大小约为1007Mb的新骨架序列,Scaffold N50约为1504Kb,Contig N50约为62Kb。
(七)二代序列对基因组骨架进行补洞
利用双端读中只有一端或者只有一部分比对到重叠群上,另一端则可以根据***片段大小定位到骨架序列中的“N”区域中,这样就可以把骨架序列中的无效碱基转变为有效碱基。此步采用华大基因研究院的软件KGF进行补洞,同时使用SOAPdenovo配套的补洞软件GapCloser进行此阶段工作,GapCloser可以在soap.genomics.org.cn免费获得。
经过KGF软件补洞可以得到大小约为1006Mb的新骨架序列,Scaffold N50约为1504Kb,Contig N50约为88Kb。经过Gapcloser软件补洞可以得到大小为1006Mb的最终基因组组装序列,Scaffold N50约为1503Kb,Contig N50约为210Kb。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种二代序列和三代单分子实时测序序列联合组装方法,其特征在于,所述方法包括:
二代序列组装获得一级二代基因组骨架序列;
所述二代序列对所述一级二代基因组骨架序列进行补洞,获得二级二代基因组骨架序列;
三代单分子实时测序序列对所述二级二代基因组骨架序列进行补洞,获得一级二三代骨架序列;
自纠错后的三代单分子实时测序序列利用与所述一级二三代骨架序列相互重叠关系进行拼接,获得二级二三代骨架序列;
所述二代序列与所述二级二三代骨架序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得三级二三代骨架序列;
用所述二代序列对所述三级二三代骨架序列进行补洞,获得最终基因组组装序列。
2.根据权利要求1所述的联合组装方法,其特征在于,所述方法还包括:
利用所述二代序列读间的对关系将所述二级二代基因组骨架序列进行拼接,获得三级二代基因组骨架序列。
3.根据权利要求1所述的联合组装方法,其特征在于,所述方法还包括:
所述三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到所述自纠错后的三代单分子实时测序序列。
4.根据权利要求3所述的联合组装方法,其特征在于,所述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。
5.根据权利要求1所述的联合组装方法,其特征在于,所述三代单分子实时测序序列对所述二级二代基因组骨架序列进行补洞使用的三代单分子实时测序序列是自纠错前的序列。
6.根据权利要求1所述的联合组装方法,其特征在于,所述三代单分子实时测序序列对所述二级二代基因组骨架序列进行补洞使用的三代单分子实时测序序列是自纠错后的序列。
7.根据权利要求1所述的联合组装方法,其特征在于,所述获得三级二三代骨架序列的步骤具体包括:
所述二代序列比对到所述二级二三代骨架序列,获得比对结果;
计算所述二级二三代骨架序列的覆盖度,获得二级二三代骨架序列有效序列区域无覆盖的情况;
用无效序列替换无覆盖的有效序列区域,获得所述三级二三代骨架序列。
8.一种二代序列和三代单分子实时测序序列联合组装***,其特征在于,所述***包括:
二代序列组装单元,用于二代序列组装获得一级二代基因组骨架序列;
二代序列补洞单元,用于所述二代序列对所述一级二代基因组骨架序列进行补洞,获得二级二代基因组骨架序列;
三代序列补洞单元,用于三代单分子实时测序序列对所述二级二代基因组骨架序列进行补洞,获得一级二三代骨架序列;
第一拼接单元,用于自纠错后的三代单分子实时测序序列利用与所述一级二三代骨架序列相互重叠关系进行拼接,获得二级二三代骨架序列;
比对替换单元,用于所述二代序列与所述二级二三代骨架序列进行比对获得无效比对区域,并用无效序列对该区域进行替换,获得三级二三代骨架序列;
最终补洞单元,用于用所述二代序列对所述三级二三代骨架序列进行补洞,获得最终基因组组装序列。
9.根据权利要求8所述的联合组装***,其特征在于,所述***还包括:
第二拼接单元,用于利用所述二代序列读间的对关系将所述二级二代基因组骨架序列进行拼接,获得三级二代基因组骨架序列。
10.根据权利要求8所述的联合组装***,其特征在于,所述***还包括:
自纠错单元,用于所述三代单分子实时测序序列利用序列间的比对关系进行自纠错,得到所述自纠错后的三代单分子实时测序序列。
CN201610741984.8A 2016-08-26 2016-08-26 一种二代序列和三代单分子实时测序序列联合组装方法和*** Active CN107784198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610741984.8A CN107784198B (zh) 2016-08-26 2016-08-26 一种二代序列和三代单分子实时测序序列联合组装方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610741984.8A CN107784198B (zh) 2016-08-26 2016-08-26 一种二代序列和三代单分子实时测序序列联合组装方法和***

Publications (2)

Publication Number Publication Date
CN107784198A CN107784198A (zh) 2018-03-09
CN107784198B true CN107784198B (zh) 2021-06-15

Family

ID=61441081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610741984.8A Active CN107784198B (zh) 2016-08-26 2016-08-26 一种二代序列和三代单分子实时测序序列联合组装方法和***

Country Status (1)

Country Link
CN (1) CN107784198B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110858503A (zh) * 2018-08-11 2020-03-03 中国科学院昆明动物研究所 综合应用第三代超长测序读段和第二代链接式读段从头组装基因组的方法
CN109411020B (zh) * 2018-11-01 2022-02-11 中国水产科学研究院 利用长测序读段进行全基因组序列补洞的方法
CN111564181B (zh) * 2020-04-02 2024-06-04 北京百迈客生物科技有限公司 一种基于二代和三代ont技术进行宏基因组组装方法
CN114657175A (zh) * 2022-04-08 2022-06-24 武汉百奥微帆生物科技有限公司 一种基于三代测序的病毒基因组组装方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104508130A (zh) * 2012-06-29 2015-04-08 麻省理工学院 大规模并行组合遗传学
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和***
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201220924D0 (en) * 2012-11-21 2013-01-02 Cancer Res Inst Royal Materials and methods for determining susceptibility or predisposition to cancer
US9670530B2 (en) * 2014-01-30 2017-06-06 Illumina, Inc. Haplotype resolved genome sequencing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104508130A (zh) * 2012-06-29 2015-04-08 麻省理工学院 大规模并行组合遗传学
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和***
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sagar M. Utturkar等.Evaluation and validation of de novo and hybrid assembly techniques to derive high-quality genome sequences .《Bioinformatics》.2014,第30卷(第19期), *
高通量测序中拼接问题的研究现状;徐鹏昊;《山东农业工程学院学报》;20160115(第1期);第42-44页 *

Also Published As

Publication number Publication date
CN107784198A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
Wang et al. Assembly of chloroplast genomes with long-and short-read data: a comparison of approaches using Eucalyptus pauciflora as a test case
Di Genova et al. Efficient hybrid de novo assembly of human genomes with WENGAN
CN107615283B (zh) 用于二倍体基因组组装和单倍型序列重建的方法、软件和***
CN107784201B (zh) 一种二代序列和三代单分子实时测序序列联合补洞方法和***
Aury et al. Hapo-G, haplotype-aware polishing of genome assemblies with accurate reads
CN107784198B (zh) 一种二代序列和三代单分子实时测序序列联合组装方法和***
CN113496760B (zh) 基于第三代测序的多倍体基因组组装方法和装置
Aury et al. Long-read and chromosome-scale assembly of the hexaploid wheat genome achieves high resolution for research and breeding
Lu et al. Next generation sequencing in aquatic models
Scheunert et al. Can we use it? On the utility of de novo and reference-based assembly of Nanopore data for plant plastome sequencing
Renaud et al. Authentication and assessment of contamination in ancient DNA
Steinberg et al. Building and improving reference genome assemblies
Rayamajhi et al. Evaluating Illumina-, Nanopore-, and PacBio-based genome assembly strategies with the bald notothen, Trematomus borchgrevinki
Goussarov et al. Introduction to the principles and methods underlying the recovery of metagenome‐assembled genomes from metagenomic data
Han et al. Telomere-to-telomere and haplotype-phased genome assemblies of the heterozygous octoploid ‘Florida Brilliance’strawberry (Fragaria× ananassa)
Wang et al. BAUM: improving genome assembly by adaptive unique mapping and local overlap-layout-consensus approach
CN112786109A (zh) 一种基因组完成图的基因组组装方法
US10395757B2 (en) Parental genome assembly method
CN112489727A (zh) 一种快速获取罕见病致病位点的方法和***
Espinosa et al. Advancements in long-read genome sequencing technologies and algorithms
Gabaldón et al. Whole-Genome Sequencing Recommendations
Aury et al. Hapo-G, haplotype-aware polishing of genome assemblies
Mead et al. The genome assembly of Island Oak (Quercus tomentella), a relictual island tree species
Chuang et al. GABOLA: A Reliable Gap-Filling Strategy for de novo Chromosome-Level Assembly
Adam et al. Nanopore guided assembly of segmental duplications near telomeres

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1250820

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant