CN109754845B - 模拟目标疾病仿真测序文库的方法及其应用 - Google Patents

模拟目标疾病仿真测序文库的方法及其应用 Download PDF

Info

Publication number
CN109754845B
CN109754845B CN201910202594.7A CN201910202594A CN109754845B CN 109754845 B CN109754845 B CN 109754845B CN 201910202594 A CN201910202594 A CN 201910202594A CN 109754845 B CN109754845 B CN 109754845B
Authority
CN
China
Prior art keywords
variation
sequence
variant
germline
embryonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910202594.7A
Other languages
English (en)
Other versions
CN109754845A (zh
Inventor
荆瑞琳
谢张冬
周淼
杨梦成
杜洋
李大为
玄兆伶
王海良
王娟
肖飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Annoroad Gene Technology Beijing Co ltd
Beijing Annoroad Medical Laboratory Co ltd
Original Assignee
Annuo Uni-Data (yiwu) Medical Inspection Co Ltd
Nanjing Annoroad Gene Technology Co ltd
Zhejiang Annuo Uni-Data Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Annuo Uni-Data (yiwu) Medical Inspection Co Ltd, Nanjing Annoroad Gene Technology Co ltd, Zhejiang Annuo Uni-Data Biotechnology Co Ltd filed Critical Annuo Uni-Data (yiwu) Medical Inspection Co Ltd
Publication of CN109754845A publication Critical patent/CN109754845A/zh
Application granted granted Critical
Publication of CN109754845B publication Critical patent/CN109754845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了模拟目标疾病仿真测序文库的方法及其应用,其中,该模拟目标疾病仿真测序文库的方法能根据需要得到不同体系和胚系变异特征、杂合/纯合比例和不同患病序列纯度,有针对性地模拟出了捕获测序条件下的下机数据。并且,该方法既能模拟全基因组下机数据,也能模拟捕获测序下机数据,适用范围广。同时,该方法运行速度快,能够在较短的时间内生成所需的模拟序列,并且模拟得到的序列的仿真程度高。

Description

模拟目标疾病仿真测序文库的方法及其应用
技术领域
本发明涉及生物技术领域,具体地,涉及模拟目标疾病仿真测序文库的方法及其应用。
背景技术
在基因测序领域,从一代、二代到三代甚至四代,测序技术在短时间内有了飞跃的发展。随着高通量测序的普及以及相应技术的快速更新迭代,诞生了许多全新的检测方法和流程。它们大多还不够完善,性能和适用范围等也缺少准确而清晰的定位,这些都需要通过测试去确定。一般来说,测试(“benchmarking”)会检测真实的测序下机数据,在检出变异之后还需要后续相应的实验验证,这导致该方法费时费力且费钱。数据模拟的方法可以很好地避开这些缺点,既不需要真实的下机数据,也不需要后续繁琐的实验验证步骤,迅速、高效且效费比高。目前可用于变异模拟的软件有很多,但多针对全基因组,无法模拟捕获测序下机数据,并且能模拟的变异类型有限,同时,模拟的算法服从,处理速度慢。
由此,同时能用于模拟全基因组和捕获测序下机数据的方法有待进一步研究。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种模拟目标疾病仿真测序文库的方法,既能模拟全基因组下机数据,也能模拟捕获测序下机数据,并能模拟多种变异类型以及目标疾病样本的特征,同时对测序数据进行拟合,使其仿真程度更高。
需要说明的是,本发明是基于发明人的下列工作而完成的:
基于现有的变异模拟方法,为了实现对捕获测序下机数据的模拟,首先,发明人将变异模拟限制在了捕获测序的目标区域,并且根据捕获测序的特点对变异的种类及输出等做了特别处理;其次,针对变异后的测序序列进行单独校检;此外,发明人进一步对下机数据进行深度波动拟合,更加真实地模拟出了捕获测序条件下的下机数据。
因而,根据本发明的一个方面,本发明提供了一种模拟目标疾病仿真测序文库的方法。根据本发明的实施例,该方法包括:获取碱基序列;基于胚系变异数据库,在所述碱基序列上添加胚系变异模拟生成胚系变异序列;基于目标疾病的体系变异数据库,在所述胚系变异序列的基础上迭代添加体系变异生成至少一条含有胚系和体系变异的序列;从所述胚系变异序列和所述含有胚系和体系变异的序列中选取部分变异作为纯合变异,分别以所述胚系变异序列和所述含有胚系和体系变异的序列为模板,得到胚系变异二倍体和含有胚系和体系变异的二倍体;以及将所述胚系变异二倍体和所述含有胚系和体系变异的二倍体转换为下机序列,以便得到胚系下机序列集和含有胚系和体系变异的下机序列集;以及按预定比例从所述胚系下机序列集和含有胚系和体系变异的下机序列集选项部分胚系下机序列和部分含有胚系和体系变异的下机序列,所述部分胚系下机序列和部分含有胚系和体系变异的下机序列构成所述目标疾病仿真测序文库。
根据本发明的实施例的模拟目标疾病仿真测序文库的方法,能根据需要得到不同体系和胚系变异特征、杂合/纯合比例和不同患病序列纯度,有针对性地模拟出了捕获测序条件下的下机数据。并且,该方法既能模拟全基因组下机数据,也能模拟捕获测序下机数据,适用范围广。同时,该方法运行速度快,能够在较短的时间内生成所需的模拟序列,并且模拟得到的序列的仿真程度高。
在此基础上,本发明提供了一种模拟目标疾病仿真测序文库的***。根据本发明的实施例,该***包括:碱基序列获取装置,用于获取碱基序列;胚系变异序列生成装置,所述胚系变异序列生成装置与所述碱基序列获取装置相连,基于胚系变异数据库,用于在所述碱基序列上添加胚系变异模拟生成胚系变异序列;体系变异序列生成装置,所述体系变异序列生成装置与所述胚系变异序列生成装置相连,基于目标疾病的体系变异数据库,用于在所述胚系变异序列的基础上迭代添加体系变异生成至少一条含有胚系和体系变异的序列;二倍体生成装置,所述二倍体生成装置分别与所述胚系变异序列生成装置和所述体系变异序列生成装置相连,用于从所述胚系变异序列和所述含有胚系和体系变异的序列中选取部分变异作为纯合变异,分别以所述胚系变异序列和所述含有胚系和体系变异的序列为模板,得到胚系变异二倍体和含有胚系和体系变异的二倍体;下机序列转换装置,所述下机序列转换装置与所述二倍体生成装置相连,用于将所述胚系变异二倍体和所述含有胚系和体系变异的二倍体转换为下机序列,以便得到胚系下机序列子集和含有胚系和体系变异的下机序列子集;以及纯度模拟装置,所述纯度模拟装置与所述下机序列转换装置相连,用于按预定比例从所述胚系下机序列集和含有胚系和体系变异的下机序列集选取部分胚系下机序列和部分含有胚系和体系变异的下机序列,所述部分胚系下机序列和部分含有胚系和体系变异的下机序列构成所述目标疾病仿真测序文库。
根据本发明的实施例的模拟目标疾病仿真测序文库的***,能根据需要得到不同体系和胚系变异特征、杂合/纯合比例和不同患病序列纯度,有针对性地模拟出了捕获测序条件下的下机数据。并且,该***既能模拟全基因组下机数据,也能模拟捕获测序下机数据,适用范围广。同时,该***运行速度快,能够在较短的时间内生成所需的模拟序列,并且模拟得到的序列的仿真程度高。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1显示了根据本发明一个实施例的模拟目标疾病仿真测序文库的方法的流程示意图;
图2显示了根据本发明一个实施例的模拟目标疾病仿真测序文库的***的结构示意图;
图3显示了根据本发明一个实施例的胚系变异序列生成装置的结构示意图;
图4显示了根据本发明一个实施例的体系变异序列生成装置的结构示意图;
图5显示了根据本发明一个实施例的变异校验装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不能理解为对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
根据本发明的一个方面,本发明提供了一种模拟目标疾病仿真测序文库的方法。根据本发明的实施例的模拟目标疾病仿真测序文库的方法,能根据需要得到不同体系和胚系变异特征、杂合/纯合比例和不同患病序列纯度,并能准确地模拟出接近真实的捕获测序条件下目标区域的深度波动,从而更加真实地模拟出了捕获测序条件下的下机数据。并且,该方法既能模拟全基因组下机数据,也能模拟捕获测序下机数据,适用范围广。同时,该方法运行速度快,能够在较短的时间内生成所需的模拟序列,并且模拟得到的序列的仿真程度高。
根据本发明实施例的模拟目标疾病仿真测序文库的方法,能够在较短的时间内生成所需的含有变异的序列,比如在915个总长约200kb的目标区域内随机模拟200个单核苷酸位点变异(SNV)和300个***缺失标记(indel),并同时生成对应的变异序列用时<30s。此外,迭代的层次约多,每次迭代的平均用时会更少,比如一次序列生成需要约21s,而4次迭代也不会超过22s。
根据本发明实施例的模拟目标疾病仿真测序文库的方法,通过迭代实现多层次变异多背景的叠加,并允许在任意层次添加指定突变。
根据本发明实施例的模拟目标疾病仿真测序文库的方法,能够获得含有一些特殊的变异组合的序列用于测试。
参考图1,根据本发明的实施例,对该模拟目标疾病仿真测序文库的方法进行解释说明,具体如下:
S100获取碱基序列
根据本发明的实施例,获取碱基序列。
其中,本文中的术语“碱基序列”是指使用一串字母表示的真实的或者假设的携带基因信息的DNA或者RNA分子的一级结构。
根据本发明的实施例,该碱基序列可以是捕获测序得到的。捕获测序不同于全基因组测序,它只检测感兴趣的部分区域,因此成本低、检测速度快、测序深度高。同时,由于探针的亲和性差异,捕获测序的reads数据也具有自己独特的深度波动特征。为了能够模拟出接近真实的捕获测序的下机数据,它一般需要具有以下几个特点:(1)能够指定变异,参入部分真实存在的正常的或肿瘤的变异后模拟的数据会更真实;(2)能够限制模拟的区域,实现捕获的初步特征,如果目标区域一个变异都没有那也就失去了实际意义;(3)能够实现包括snv、indel、CNV、SV在内的所有变异;(4)能够进一步地模拟出reads和肿瘤样本的一些特征,包括GC倾向性、体系/胚系差异、染色体倍数、异质性和肿瘤纯度等。相对于全基因的变异模拟,在捕获测序条件下,有些变异所导致的结果是重叠的。比如目标区域外到目标区域内的复制和移位最终表现出的都只是一段已知序列的***。
进一步地,针对捕获测序的序列特征,即相对于全基因,捕获测序指是针对特定区域的一段序列,部分变异可能跨越目标区域,同时位于目标区域内和目标区域外。进而,为了判定变异是否跨越目标区域,也就是越界,发明人在标记后的特征串上设置了越界判定部,也就是说,标记后的特征串包括目标片段部和越界判定部,其中,越界判定部位于该目标片段部的两端,用于判定目标片段的两端是否存在越界的变异。
S200生成胚系变异序列
根据本发明的实施例,基于胚系变异数据库,在所述碱基序列上添加胚系变异模拟生成胚系变异序列。其中,“胚系变异”也就是胚细胞变异。
根据本发明的实施例,所述模拟生成胚系变异序列的方法包括:所述碱基序列进行胚系变异状态标记,以便得到胚系变异标记后的特征串;选取待添加的胚系变异;将所述待添加的胚系变异整合至所述胚系变异标记后的特征串上,以便得到添加胚系变异后的特征串和胚系变异信息;以及将所述添加胚系变异后的特征串进行碱基还原,以便得到胚系变异序列。由此,通过对碱基序列的变异状态进行标记,设定碱基的变异类型,从而对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。
根据本发明的实施例,该变异状态标记为数值标记,也就是利用不同的数值标记不同的变异类型,不仅标记简单,而且,可以通过数值的加和进行多层次变异的叠加。
由于二进制只有0和1两个数字,与有和无的判定相符,根据本发明的实施例,该变异类型的设置以二进制数值表示有和无,得到二进制表示的该设置后的标记位;该数值转换包括将该二进制表示的设置后的标记位转换成十进制数字,该十进制数字为该碱基的变异类型标记。由此,通过二进制进行变异类型有和无的判断,便于通过数值进制的转换进行变异类型的标记,易于对不同变异类型的叠加的表示,变异状态标记易于存储和解读。
为了便于理解,举例说明变异状态标记的方法,对每一个长度为N的目标片段,生成一个相应的长度为N+2,初始值为2的变异状态标记位数组。两侧的额外两个标记位为越界判定部,用于记录变异的越界状态。标志位以十进制整数形式存储,但以二进制格式解读。采用了二进制的前6位来标记各种状态。例如,根据指定的变异信息(90个snp和100个inDel)对相应的标志位进行操作。比如3号染色体的第1000个碱基由G突变成了T,根据记录差值的公式得到并记录它们的差值2。同时将碱基G对应的标志位加32(SNV对应的标记位为二进制的第六位,转化为十进制后为32)。对于短删除,记录删除起始和结束位点,由于短删除对应的标记位为二进制的第一位,转化为十进制为1,而变异状态标记位的初始值为2,所以同时对所有待删除碱基的标志位减1。而对于短***,记录***位置左侧第一个碱基的坐标,同时对该碱基的标记位加8(短***对应的标记位为二进制的第四位,转化为十进制后为8)。
根据本发明的实施例,所述胚系变异包括指定胚系变异和随机胚系变异,所述体系变异包括指定体系变异和随机体系变异。由此,既包括指定胚系变异,又包括随机胚系变异,变异具有多样性,更符合人类基因特点。其中,需要说明的是,指定变异可以来源于目标疾病的数据库,从而使模拟得到的序列具有目标疾病的变异特征,而随机变异由随机产生,使变异具有个体特征,并且,无论指定变异还是随机变异,都分别具有体系变异和胚系变异,使变异即具有目标疾病的一般变异特征,又具有个体的变异特征,变异模拟序列的仿真程度更高。
S300生成含有胚系和体系变异的序列
根据本发明的实施例,基于目标疾病的体系变异数据库,在所述胚系变异序列的基础上迭代添加体系变异生成至少一条含有胚系和体系变异的序列。其中,“体系变异”也就是体细胞变异。其中,需要说明的是,添加体系变异的方法与前述添加胚系变异的方法相似,在此不再赘述。
根据本发明的实施例,生成所述含有胚系和体系变异的序列包括:将所述添加胚系变异后的特征串进行体系变异状态标记,以便得到体系标记后的特征串;选取待添加的体系变异;将所述待添加的体系变异整合至所述体系标记后的特征串上,以便得到添加体变异后的特征串和胚系变异信息;以及将所述添加体系变异后的特征串进行碱基还原,以便得到所述含有胚系和体系变异的序列。由此,在添加胚系变异后的特征串添加体系变异,形成含有胚系和体系变异的序列。
根据本发明的实施例,所述胚系变异状态标记和所述体系变异状态标记均包括:将碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位,可以通过在各变异类型对应的标记位是进行有和无的标记来确认各碱基的变异类型,并且,各标记位是独立的,也可以是相互关联的,也就是说,可以同时对一个碱基的不同标记位进行标记,从而进行多层次变异的叠加,同时,针对变异模拟的特点,对部分变异类型进行关联,使其不能同时发生,例如同一碱基上SNV(单核苷酸突变)和删除变异不同时发生;通过有和无对字符的各标记位进行变异类型的设置,得到设置后的标记位,同一碱基可以存在多种变异类型,从而实现碱基任意层次的指定变异;将设置后的标记位进行数值转换,得到数值化的碱基的变异类型标记。
根据本发明的实施例,所述胚系变异和所述体系变异的类型为选自单核苷酸位点变异、删除、***、连续重复、倒置、易位和拷贝数变异中的至少一种,其中,删除还包括长删除和短删除,***还包括长***和短***,而短的掺入和删除,也就是***缺失标记(InDel)。
根据本发明的实施例,所述体系变异含有目标疾病的变异。由此,该添加的变异含有目标疾病的变异。也就是,通过添加目标疾病的变异,使变异模拟后的序列含有目标疾病的变异特征,与目标疾病的序列的相似度更高。
进一步需要说明的是,在指定变异的选取过程中,可以检查各变异之间是否存在互斥关系,也就是在同一碱基位点是否可以发生多层的变异,该位点的变异类型是否会影响后续该位点的其他变异的设置,例如在删除位点再进行其他变异就没有意义。
为了便于理解变异整合到特征串上的方法,根据本发明的实施例,对该整合进行解释说明,体系变异和胚系变异均包括指定变异整合和随机变异整合,具体地,整合包括:将指定变异与变异标记特征串上的对应的标记位进行第一整合,得到添加指定变异的特征串;将随机变异与添加指定变异的特征串上随机选取的字符进行第二整合,并相应修改随机选取的字符的变异类型标记,得到变异特征串。具体地,第一整合是按照指定变异的原发位点的位置在变异标记特征串上的对应的标记位添加变异,而随机变异是在添加指定变异的特征串上随机生成的,位置和变异的类型均是随机产生的,产生随机变异后,记录该随机变异的变异位置、变异类型和具体变异序列信息等。
其中,需要说明的是,在进行第一整合时,需要将第二整合中的指定变异的标记位标记为不可以变异位点,例如,可以将标记位的数值设置为0,以防止第一整合中的随机变异在第二整合中的指定位点产生变异,影响第二整合指定变异的添加。
一般情况下,变异整合的顺序根据变异片段的长度进行设置,先进行变异片段较长的相应的变异类型的模拟,再进行变异片段较短的变异类型的模拟,例如变异模拟的顺序可以为长删除、连续重复、倒置、***缺失标记和单核苷酸位点变异。
根据本发明的实施例,将添加变异后的特征串进行碱基还原,得到变异模拟后的序列。其中,碱基还原指的是将特征串上的非碱基特征符号转化为对应的碱基,从而得到模拟后的碱基序列。
在当前的序列模拟工具中,均是从参考基因组序列模拟变异的fasta序列。并且,在模拟变异的过程中,需要在fasta序列模拟步骤便进行校验,以保障此步骤模拟的正确性。进而,根据本发明的实施例,该方法进一步包括:变异校验装置,所述变异校验装置与所述胚系变异序列生成装置、所述体系变异序列生成装置和所述二倍体生成装置相连,所述变异校验装置用于对所述含有胚系和体系变异的序列和所述胚系变异序列进行变异校验,以便得到校验后的含有胚系和体系变异的序列和校验后的胚系变异序列。
根据本发明的实施例,所述变异校验装置包括:序列读取件,所述序列读取件用于顺序读取变异序列,所述变异序列为所述含有胚系和体系变异的序列和所述胚系变异序列;变异区确认件,所述变异区确认件与所述序列读取件相连,所述变异区确认件基于所述体系变异信息和所述胚系变异信息确定所述变异序列上的每一变异区域;区域划分件,所述区域划分件与所述变异区确认件相连,所述区域划分件基于所述每一变异区域确定所述变异序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;序列校验件,所述序列校验件与所述区域划分件相连,按照所述变异序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:(1)对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及(2)对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。由此,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确,增加了变异模拟过程的可靠性。
具体地,因为变异信息包括原始序列按照位置存储的所有变异区域的变异信息,在顺序读取所述原始序列时,可以基于所述变异信息确定所述原始序列上的每一变异区域。并且,由于所述变异区域在所述原始序列上分段排列,针对如上所述的以字符串形式的原始序列,可以基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串。也就是说,字符串的长度可以是根据突变位点进行分隔得到的,例如,两段突变序列之间的为非突变序列为一段字符串,两段突变序列分别为两段独立的字符串,从而,通过突变位点将一段序列分隔为非变异区域的非变异字符串和对应于变异区域的变异字符串。
接下来,可以按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及,对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
其中,所述第一比对和所述第二比对均是以字符串为单位进行的。由此,相当于碱基的逐一比对,本发明通过对非变异字符串和变异字符串分别按照字符串进行比较,其中,非变异字符串直接将原始序列上的对应位置的序列与待校验序列上的相应非变异字符串进行比较,而变异字符串需要先将原始序列上的对应位置的序列添加变异信息,生成变异序列,再将生成的变异序列与变异字符串进行比较。由此,基于每个变异起始结束位点切割并处理每条序列为多字符串,再基于字符串比较的方式,将最大效率的快速检查每条序列上每个位置的碱基的正确性。
S400生成二倍体
根据本发明的实施例,从所述胚系变异序列和所述含有胚系和体系变异的序列中选取部分变异作为纯合变异,分别以所述胚系变异序列和所述含有胚系和体系变异的序列为模板,得到胚系变异二倍体和含有胚系和体系变异的二倍体。换句话说,就是在含有胚系变异的序列的基础上添加体系变异,使序列同时具有胚系变异和体系变异,然后从胚系变异和体系变异选取部分变异作为纯合变异,合成二倍体序列,该二倍体序列为配对的二倍体序列,各二倍体序列构成二倍体集合。由此,通过在胚系变异数据库和体系变异数据库中选取变异,在测序序列上利用前述的对测序序列进行变异模拟的方法生成胚系变异和体系变异,使测序序列获得体系和胚系变异特征,并特异选取部分变异实现杂合和纯合二倍体,得到不同的纯度目标疾病患者测序文库。由此,该方法可以根据需要进行具有特定体系和胚系变异特征和预定纯合比例的测序文库的模拟,并且得到的测序文库的仿真程度高,有利于对相关测序装置的变异检测准确度的检测。对应系列中整合添加的变异,可以根据具体的需求进行调整,根据本发明的一些实施例,按照变异类型的预定比例,从胚系变异序列集合和含有胚系和体系变异的序列集合中选取变异。
其中,纯合变异的比例可以根据需要进行设定,例如,可以按照临床目标疾病的通常纯合变异的比例进行设定,以使变异序列集合的仿真度更高。
S500生成下机数据
根据本发明的实施例,将所述胚系变异二倍体和所述含有胚系和体系变异的二倍体转换为下机序列,得到胚系下机序列集和含有胚系和体系变异的下机序列集。例如,可以利用ART软件进行下机序列转换。
根据本发明的一些具体实施例,可以ART软件将二倍体的fasta数据生成对应的fastq测序文件,也就是下机序列。由此,利用ART软件生成对应的fastq测序文件,并模拟好接近真实的深度分布。
S600生成目标疾病仿真测序文库
根据本发明的实施例,按预定比例从所述胚系下机序列集和含有胚系和体系变异的下机序列集选项部分胚系下机序列和部分含有胚系和体系变异的下机序列,所述部分胚系下机序列和部分含有胚系和体系变异的下机序列构成所述目标疾病仿真测序文库。
其中,本文中的“预定比例”可以根据不同的疾病、人群和测试需要等多方面的因素由本领域技术人员自行设置,通常以接近实际目标疾病人群的患者与正常人的比例为宜。例如,以构建肿瘤患者的仿真测序文库,可以按肿瘤/正常的比例从normal及tumor的fasta文件中随机抽取reads,抽取完成之后将reads合并成新的fastq文件,以实现不同的肿瘤纯度,其中,新的fastq文件即构成了仿真测序文库。
模拟目标疾病仿真测序文库的***
根据本发明的另一方面,本发明提供了一种模拟目标疾病仿真测序文库的***。根据本发明的实施例的模拟目标疾病仿真测序文库的***,能根据需要得到不同体系和胚系变异特征、杂合/纯合比例和不同患病序列纯度,有针对性地模拟出了捕获测序条件下的下机数据。并且,该***既能模拟全基因组下机数据,也能模拟捕获测序下机数据,适用范围广。同时,该***运行速度快,能够在较短的时间内生成所需的模拟序列,并且模拟得到的序列的仿真程度高。
根据本发明实施例的模拟目标疾病仿真测序文库的***,能够在较短的时间内生成所需的含有变异的序列,比如在915个总长约200kb的目标区域内随机模拟200个单核苷酸位点变异(SNV)和300个***缺失标记(InDel),并同时生成对应的变异序列用时<30s。此外,迭代的层次约多,每次迭代的平均用时会更少,比如一次序列生成需要约21s,而4次迭代也不会超过22s。
参考图2,根据本发明的实施例,对该***进行解释,该***包括:
碱基序列获取装置100:根据本发明的实施例,该碱基序列获取装置100用于获取碱基序列。根据本发明的实施例,该碱基序列可以是捕获测序得到的。
根据本发明的实施例,该碱基序列获取装置100为序列片段截取装置。由此,序列截取的速度快。
胚系变异序列生成装置200:根据本发明的实施例,该胚系变异序列生成装置200与所述碱基序列获取装置100相连,基于胚系变异数据库,用于在所述碱基序列上添加胚系变异模拟生成胚系变异序列。
参考图3,根据本发明的实施例,该胚系变异序列生成装置200包括:胚系变异状态标记件210、胚系变异选取件220、胚系变异整合件230和第一碱基还原件240,其中,胚系变异状态标记件210用于将所述碱基序列进行胚系变异状态标记,得到胚系变异标记后的特征串;胚系变异选取件220用于选取待添加的胚系变异;所述胚系变异整合件230与所述胚系变异状态标记件210和所述胚系变异选取件220相连,用于将所述待添加的胚系变异整合至所述胚系变异标记后的特征串上,以便得到添加胚系变异后的特征串;所述第一碱基还原件240与所述胚系变异整合件230相连,用于将所述添加胚系变异后的特征串进行碱基还原,以便得到胚系变异序列。由此,通过对碱基序列的变异状态进行标记,设定碱基的变异类型,从而对各种变异进行模拟,变异模拟的方法简单,生成速度快,并能根据需要设计特殊的变异组合用于测试,变异模拟后的序列的仿真程度高。
体系变异序列生成装置300:根据本发明的实施例,该体系变异序列生成装置300与胚系变异序列生成装置200相连,基于目标疾病的体系变异数据库,该体系变异序列生成装置300用于在所述胚系变异序列的基础上迭代添加体系变异生成至少一条含有胚系和体系变异的序列。
参考图4,根据本发明的实施例,该体系变异序列生成装置300包括:体系变异状态标记件310、体系变异选取320、体系变异整合件330和第二碱基还原件340,其中,该体系变异状态标记件310与所述胚系变异整合件200相连,用于将所述添加胚系变异后的特征串进行体系变异状态标记,得到体系标记后的特征串;体系变异选取320用于选取待添加的体系变异;所述体系变异整合件330与所述体系变异状态标记件310和所述体系变异选取件320相连,用于将所述待添加的体系变异整合至所述体系标记后的特征串上,得到添加体变异后的特征串;所述第二碱基还原件340与所述体系变异整合件330相连,所述第二碱基还原件340用于将所述添加体系变异后的特征串进行碱基还原,得到所述含有胚系和体系变异的序列。由此,在添加胚系变异后的特征串添加体系变异,形成含有胚系和体系变异的序列。
根据本发明的实施例,所述胚系变异状态标记件210和所述体系变异状态标记件310均包括:碱基标记模块、变异类型设置模块和数值转换模块,其中,碱基标记模块用于将所述碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位,可以通过在各变异类型对应的标记位是进行有和无的标记来确认各碱基的变异类型,并且,各标记位是独立的,也可以是相互关联的,也就是说,可以同时对一个碱基的不同标记位进行标记,从而进行多层次变异的叠加,同时,针对变异模拟的特点,对部分变异类型进行关联,使其不能同时发生,例如同一碱基上SNV(单核苷酸突变)和删除变异不同时发生;所述变异类型设置模块与所述碱基标记模块相连,用于通过有和无对所述字符的各所述标记位进行变异类型的设置,得到设置后的标记位;所述数值转换模块与所述变异类型设置模块相连,用于将所述设置后的标记位进行数值转换,得到数值化的所述碱基的变异类型标记。
根据本发明的实施例,所述变异类型设置模块以二进制数值表示所述有和无,得到二进制表示的所述设置后的标记位;所述数值转换模块用于将所述二进制表示的所述设置后的标记位转换成十进制数字,所述十进制数字为所述碱基的变异类型标记。
根据本发明的实施例,该***进一步包括变异校验装置700,所述变异校验装置700与所述胚系变异序列生成装置200、所述体系变异序列生成装置300和所述二倍体生成装置500相连,该变异校验装置700用于对所述含有胚系和体系变异的序列和所述胚系变异序列进行变异校验,得到校验后的含有胚系和体系变异的序列和校验后的胚系变异序列。
参考图5,根据本发明的实施例,所述变异校验装置700包括:序列读取件710、变异区确认720、区域划分件730、序列校验件740,其中,所述序列读取件710用于顺序读取变异序列,所述变异序列为所述含有胚系和体系变异的序列和所述胚系变异序列;所述变异区确认件720与所述序列读取件710相连,所述变异区确认件720基于序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;所述序列校验件740与所述区域划分件730相连,按照所述变异序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,该校验包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。由此,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确,增加了变异模拟过程的可靠性。
二倍体生成装置400:根据本发明的实施例,该二倍体生成装置400分别与所述胚系变异序列生成装置200和所述体系变异序列生成装置300相连,用于从所述胚系变异序列和所述含有胚系和体系变异的序列中选取部分变异作为纯合变异,分别以所述胚系变异序列和所述含有胚系和体系变异的序列为模板,得到胚系变异二倍体和含有胚系和体系变异的二倍体。由此,通过在胚系变异数据库和体系变异数据库中选取变异,在测序序列上利用前述的对测序序列进行变异模拟的方法生成胚系变异和体系变异,使测序序列获得体系和胚系变异特征,并特异选取部分变异实现杂合和纯合二倍体,得到不同的纯度目标疾病患者测序文库。
下机序列转换装置500:根据本发明的实施例,该下机序列转换装置与所述二倍体生成装置相连,用于将所述胚系变异二倍体和所述含有胚系和体系变异的二倍体转换为下机序列,以便得到胚系下机序列子集和含有胚系和体系变异的下机序列子集。例如,可以利用ART软件进行下机序列转换。
根据本发明的实施例,该下机序列转换装置500为ART转换装置,可以ART软件将二倍体的fasta数据生成对应的fastq测序文件,也就是下机序列。由此,利用ART软件生成对应的fastq测序文件,并模拟好接近真实的深度分布。
纯度模拟装置600:根据本发明的实施例,该纯度模拟装置600与所述下机序列转换装置500相连,用于按预定比例从所述胚系下机序列集和的含有胚系和体系变异的下机序列集选取部分胚系下机序列和部分含有胚系和体系变异的下机序列,所述部分胚系下机序列和部分含有胚系和体系变异的下机序列构成所述目标疾病仿真测序文库。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (22)

1.一种模拟目标疾病仿真测序文库的方法,其特征在于,包括:
获取碱基序列;
基于胚系变异数据库,在所述碱基序列上添加胚系变异模拟生成胚系变异序列;
基于目标疾病的体系变异数据库,在所述胚系变异序列的基础上迭代添加体系变异生成至少一条含有胚系和体系变异的序列;
从所述胚系变异序列和所述含有胚系和体系变异的序列中选取部分变异作为纯合变异,分别以所述胚系变异序列和所述含有胚系和体系变异的序列为模板,得到胚系变异二倍体和含有胚系和体系变异的二倍体;
将所述胚系变异二倍体和所述含有胚系和体系变异的二倍体转换为下机序列,以便得到胚系下机序列集和含有胚系和体系变异的下机序列集;以及
按预定比例从所述胚系下机序列集和含有胚系和体系变异的下机序列集选取部分胚系下机序列和部分含有胚系和体系变异的下机序列,所述部分胚系下机序列和部分含有胚系和体系变异的下机序列构成所述目标疾病仿真测序文库,
其中,所述胚系变异和所述体系变异的类型为选自单核苷酸位点变异、删除、***、连续重复、倒置、易位和拷贝数变异中的至少一种。
2.根据权利要求1所述的方法,其特征在于,所述获取碱基序列是通过在基因组上截取序列片段得到的。
3.根据权利要求2所述的方法,其特征在于,所述碱基序列为捕获测序序列。
4.根据权利要求1所述的方法,其特征在于,所述模拟生成胚系变异序列的方法包括:
将所述碱基序列进行胚系变异状态标记,以便得到胚系变异标记后的特征串;
选取待添加的胚系变异;
将所述待添加的胚系变异整合至所述胚系变异标记后的特征串上,以便得到添加胚系变异后的特征串和胚系变异信息;以及
将所述添加胚系变异后的特征串进行碱基还原,以便得到胚系变异序列。
5.根据权利要求4所述的方法,其特征在于,生成所述含有胚系和体系变异的序列包括:
将所述添加胚系变异后的特征串进行体系变异状态标记,以便得到体系标记后的特征串;
选取待添加的体系变异;
将所述待添加的体系变异整合至所述体系标记后的特征串上,以便得到添加体变异后的特征串和体系变异信息;以及
将所述添加体系变异后的特征串进行碱基还原,以便得到所述含有胚系和体系变异的序列。
6.根据权利要求4或5所述的方法,其特征在于,所述胚系变异状态标记和所述体系变异状态标记均包括:
将所述碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位;
通过有和无对字符的各所述标记位进行变异类型的设置,以便得到设置后的标记位;
将所述设置后的标记位进行数值转换,以便得到数值化的所述碱基的变异类型标记。
7.根据权利要求6所述的方法,其特征在于,所述变异类型的设置以二进制数值表示所述有和无,以便得到二进制表示的所述设置后的标记位;
所述数值转换包括将所述二进制表示的所述设置后的标记位转换成十进制数字,所述十进制数字为所述碱基的变异类型标记。
8.根据权利要求1所述的方法,其特征在于,
所述体系变异含有目标疾病的变异。
9.根据权利要求8所述的方法,其特征在于,所述胚系变异包括指定胚系变异和随机胚系变异,所述体系变异包括指定体系变异和随机体系变异。
10.根据权利要求4所述的方法,其特征在于,在所述得到胚系变异二倍体和含有胚系和体系变异的二倍体前,进一步包括:
对所述含有胚系和体系变异的序列和所述胚系变异序列进行变异校验,以便得到校验后的含有胚系和体系变异的序列和校验后的胚系变异序列。
11.根据权利要求10所述的方法,其特征在于,所述变异校验的方法包括:
顺序读取变异序列,所述变异序列为所述含有胚系和体系变异的序列和所述胚系变异序列;
基于所述体系变异信息和所述胚系变异信息确定所述变异序列上的每一变异区域;
基于所述每一变异区域确定所述变异序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;
按照所述变异序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于原始序列和所述变异信息校验待校验序列,包括:
对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及
对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
12.根据权利要求11所述的方法,其特征在于,所述第一比对和所述第二比对均是以字符串为单位进行的。
13.根据权利要求11所述的方法,其特征在于,所述转换为下机序列是利用ART软件进行的。
14.一种模拟目标疾病仿真测序文库的***,其特征在于,包括:
碱基序列获取装置,用于获取碱基序列;
胚系变异序列生成装置,所述胚系变异序列生成装置与所述碱基序列获取装置相连,基于胚系变异数据库,用于在所述碱基序列上添加胚系变异模拟生成胚系变异序列;
体系变异序列生成装置,所述体系变异序列生成装置与所述胚系变异序列生成装置相连,基于目标疾病的体系变异数据库,用于在所述胚系变异序列的基础上迭代添加体系变异生成至少一条含有胚系和体系变异的序列;
二倍体生成装置,所述二倍体生成装置分别与所述胚系变异序列生成装置和所述体系变异序列生成装置相连,用于从所述胚系变异序列和所述含有胚系和体系变异的序列中选取部分变异作为纯合变异,分别以所述胚系变异序列和所述含有胚系和体系变异的序列为模板,得到胚系变异二倍体和含有胚系和体系变异的二倍体;
下机序列转换装置,所述下机序列转换装置与所述二倍体生成装置相连,用于将所述胚系变异二倍体和所述含有胚系和体系变异的二倍体转换为下机序列,以便得到胚系下机序列子集和含有胚系和体系变异的下机序列子集;以及
纯度模拟装置,所述纯度模拟装置与所述下机序列转换装置相连,用于按预定比例从所述胚系下机序列集和含有胚系和体系变异的下机序列集选取部分胚系下机序列和部分含有胚系和体系变异的下机序列,所述部分胚系下机序列和部分含有胚系和体系变异的下机序列构成所述目标疾病仿真测序文库。
15.根据权利要求14所述的***,其特征在于,所述碱基序列获取装置为序列片段截取装置。
16.根据权利要求15所述的***,其特征在于,所述胚系变异序列生成装置包括:
胚系变异状态标记件,用于将所述碱基序列进行胚系变异状态标记,以便得到胚系变异标记后的特征串;
胚系变异选取件,用于选取待添加的胚系变异;
胚系变异整合件,所述胚系变异整合件与所述胚系变异状态标记件和所述胚系变异选取件相连,用于将所述待添加的胚系变异整合至所述胚系变异标记后的特征串上,以便得到添加胚系变异后的特征串;以及
第一碱基还原件,所述第一碱基还原件与所述胚系变异整合件相连,用于将所述添加胚系变异后的特征串进行碱基还原,以便得到胚系变异序列。
17.根据权利要求16所述的***,其特征在于,体系变异序列生成装置包括:
体系变异状态标记件,所述体系变异状态标记件与所述胚系变异整合件相连,用于将所述添加胚系变异后的特征串进行体系变异状态标记,以便得到体系标记后的特征串;
体系变异选取件,用于选取待添加的体系变异;
体系变异整合件,所述体系变异整合件与所述体系变异状态标记件和所述体系变异选取件相连,用于将所述待添加的体系变异整合至所述体系标记后的特征串上,以便得到添加体变异后的特征串;以及
第二碱基还原件,所述第二碱基还原件与所述体系变异整合件相连,用于将所述添加体系变异后的特征串进行碱基还原,以便得到所述含有胚系和体系变异的序列。
18.根据权利要求17所述的***,其特征在于,所述胚系变异状态标记件和所述体系变异状态标记件均包括:
碱基标记模块,用于将所述碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位;
变异类型设置模块,所述变异类型设置模块与所述碱基标记模块相连,用于通过有和无对字符的各所述标记位进行变异类型的设置,以便得到设置后的标记位;以及
数值转换模块,所述数值转换模块与所述变异类型设置模块相连,用于将所述设置后的标记位进行数值转换,以便得到数值化的所述碱基的变异类型标记。
19.根据权利要求18所述的***,其特征在于,所述变异类型设置模块以二进制数值表示所述有和无,以便得到二进制表示的所述设置后的标记位;
所述数值转换模块用于将所述二进制表示的所述设置后的标记位转换成十进制数字,所述十进制数字为所述碱基的变异类型标记。
20.根据权利要求14所述的***,其特征在于,进一步包括:
变异校验装置,所述变异校验装置与所述胚系变异序列生成装置、所述体系变异序列生成装置和所述二倍体生成装置相连,所述变异校验装置用于对所述含有胚系和体系变异的序列和所述胚系变异序列进行变异校验,以便得到校验后的含有胚系和体系变异的序列和校验后的胚系变异序列。
21.根据权利要求20所述的***,其特征在于,所述变异校验装置包括:
序列读取件,所述序列读取件用于顺序读取变异序列,所述变异序列为所述含有胚系和体系变异的序列和所述胚系变异序列;
变异区确认件,所述变异区确认件与所述序列读取件相连,所述变异区确认件基于所述体系变异信息和所述胚系变异信息确定所述变异序列上的每一变异区域;
区域划分件,所述区域划分件与所述变异区确认件相连,所述区域划分件基于所述每一变异区域确定所述变异序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;
序列校验件,所述序列校验件与所述区域划分件相连,按照所述变异序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于原始序列和所述变异信息校验待校验序列,包括:
对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及
对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
22.根据权利要求21所述的***,其特征在于,所述下机序列转换装置为ART转换装置。
CN201910202594.7A 2018-12-29 2019-03-18 模拟目标疾病仿真测序文库的方法及其应用 Active CN109754845B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811635231 2018-12-29
CN2018116352314 2018-12-29

Publications (2)

Publication Number Publication Date
CN109754845A CN109754845A (zh) 2019-05-14
CN109754845B true CN109754845B (zh) 2020-02-28

Family

ID=66408813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910202594.7A Active CN109754845B (zh) 2018-12-29 2019-03-18 模拟目标疾病仿真测序文库的方法及其应用

Country Status (1)

Country Link
CN (1) CN109754845B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105780129A (zh) * 2014-12-15 2016-07-20 天津华大基因科技有限公司 目标区域测序文库构建方法
CN105830077A (zh) * 2013-10-21 2016-08-03 维里纳塔健康公司 用于在确定拷贝数变异中改善检测的灵敏度的方法
CN107423534A (zh) * 2016-05-24 2017-12-01 郝柯 基因组拷贝数变异的检测方法和***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2140386A2 (en) * 2007-03-16 2010-01-06 Gene Security Network System and method for cleaning noisy genetic data and determining chromsome copy number
US9984198B2 (en) * 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US20140057793A1 (en) * 2012-08-21 2014-02-27 Real Time Genomics, Inc. Method of simultaneously evaluating multiple genomic sequences
CA3043875A1 (en) * 2016-11-16 2018-05-24 Illumina, Inc. Methods of sequencing data read realignment
CN106682450B (zh) * 2016-11-24 2019-05-07 西安电子科技大学 一种基于状态转移模型的新一代测序拷贝数变异仿真方法
CN109097457A (zh) * 2017-06-20 2018-12-28 深圳华大智造科技有限公司 确定核酸样本中预定位点突变类型的方法
CN107604046B (zh) * 2017-11-03 2021-08-24 上海交通大学 用于微量dna超低频突变检测的双分子自校验文库制备及杂交捕获的二代测序方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105830077A (zh) * 2013-10-21 2016-08-03 维里纳塔健康公司 用于在确定拷贝数变异中改善检测的灵敏度的方法
CN105780129A (zh) * 2014-12-15 2016-07-20 天津华大基因科技有限公司 目标区域测序文库构建方法
CN107423534A (zh) * 2016-05-24 2017-12-01 郝柯 基因组拷贝数变异的检测方法和***

Also Published As

Publication number Publication date
CN109754845A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN107615283B (zh) 用于二倍体基因组组装和单倍型序列重建的方法、软件和***
Sundquist et al. Whole-genome sequencing and assembly with high-throughput, short-read technologies
Nelson et al. McClintock: an integrated pipeline for detecting transposable element insertions in whole-genome shotgun sequencing data
JP7166434B2 (ja) 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法
CN110010193B (zh) 一种基于混合策略的复杂结构变异检测方法
JP5068414B2 (ja) 少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法
Bocklandt et al. Bionano genome mapping: high-throughput, ultra-long molecule genome analysis system for precision genome assembly and haploid-resolved structural variation discovery
CN110491441A (zh) 一种模拟人群背景信息的基因测序数据仿真***及方法
CN107451419B (zh) 通过计算机程序模拟产生简化dna甲基化测序数据的方法
CN111243663B (zh) 一种基于模式增长算法的基因变异检测方法
CN113496760A (zh) 基于第三代测序的多倍体基因组组装方法和装置
CN109754845B (zh) 模拟目标疾病仿真测序文库的方法及其应用
CN111383714B (zh) 模拟目标疾病仿真测序文库的方法及其应用
CN109920485B (zh) 对测序序列进行变异模拟的方法及其应用
US20110004616A1 (en) Base sequence determination program, base sequence determination device, and base sequence determination method
CN113416770A (zh) 一种染色体结构变异断点的定位方法及装置
JP3878503B2 (ja) 核酸塩基配列決定方法
Rescheneder Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates
Cawley Statistical models for DNA sequencing and analysis
CN114242158B (zh) ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备
CN111261225B (zh) 一种基于二代测序数据的反转相关复杂变异检测方法
CN113449533B (zh) 一种基于条形码序列的读长比对方法和装置
Sánchez Practical Transcriptomics: Differential gene expression applied to food production
D'Costa et al. Somrit: The Somatic Retrotransposon Insertion Toolkit
Liao et al. Deep Learning Enhanced Tandem Repeat Variation Identification via Multi-Modal Conversion of Nanopore Reads Alignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240326

Address after: Room 101 and Room 201, unit 2, building 8, yard 88, Kechuang 6th Street, Daxing District, Beijing 100176

Patentee after: BEIJING ANNOROAD MEDICAL LABORATORY Co.,Ltd.

Country or region after: China

Patentee after: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

Address before: 322000 1st floor, building 9, standard workshop, No.10 Gaoxin Road, Houjiang street, Yiwu City, Jinhua City, Zhejiang Province

Patentee before: ZHEJIANG ANNOROAD BIO-TECHNOLOGY Co.,Ltd.

Country or region before: China

Patentee before: ANNOROAD (YIWU) MEDICAL INSPECTION CO.,LTD.

Patentee before: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right