CN109712672B - 检测基因重排的方法、装置、存储介质及处理器 - Google Patents

检测基因重排的方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN109712672B
CN109712672B CN201811643484.6A CN201811643484A CN109712672B CN 109712672 B CN109712672 B CN 109712672B CN 201811643484 A CN201811643484 A CN 201811643484A CN 109712672 B CN109712672 B CN 109712672B
Authority
CN
China
Prior art keywords
sequence
breakpoint
candidate
sequences
breakpoints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811643484.6A
Other languages
English (en)
Other versions
CN109712672A (zh
Inventor
王彬安
刘洋洋
李富威
王建伟
伍启熹
刘倩
刘珂弟
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Usci Medical Laboratory Co ltd
Original Assignee
Beijing Usci Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Usci Medical Laboratory Co ltd filed Critical Beijing Usci Medical Laboratory Co ltd
Priority to CN201811643484.6A priority Critical patent/CN109712672B/zh
Publication of CN109712672A publication Critical patent/CN109712672A/zh
Application granted granted Critical
Publication of CN109712672B publication Critical patent/CN109712672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种检测基因重排的方法、装置、存储介质及处理器。该方法包括:获取待测样本的待比对序列;将待比对序列与参考基因组进行比对,得到异常比对序列,异常比对序列包括比对位置异常的序列,比对方向异常的序列和未比对上参考基因组的序列;根据异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置;利用待比对序列中支持候选断点的位置的序列进行组装,保留组装结果中与候选断点的位置的序列信息一致的断点,记为基因重排的断点。本申请解决现有技术难以检测基因重排发生的断点位置的问题。

Description

检测基因重排的方法、装置、存储介质及处理器
技术领域
本发明涉及基因变异检测领域,具体而言,涉及一种检测基因重排的方法、装置、存储介质及处理器。
背景技术
现有技术通常采用巢式RT-PCR的方法来检测基因重排现象,其步骤如下:基于已知的靶基因序列,制备特异的探针,检测基因重排。巢式PCR反应有两次PCR扩增,从而降低了扩增多个靶位点的可能性(因为与两套引物都互补的引物很少)增加了检测的敏感性;又有两对PCR引物与检测模板的配对,增加了检测的可靠性。由于第二套引物位于第一轮PCR产物内部,而非目的片断包含两套引物结合位点的可能性极小,因此第二套引物不可能扩增非目的片断。这种巢式PCR扩增确保第二轮PCR产物几乎或者完全没有引物配对特异性不强造成的非特异性扩增的污染。
但是,巢式RT-PCR检查基因重排存在以下缺点:1)无法准确判断基因重排的结构。2)受引物和探针的限制,无法检测未知重排现象。3)无法得到重排基因断裂连接区的序列的详细信息。
因此,有必要对现有的检测方法进行改进。
发明内容
本发明的主要目的在于提供一种检测检测基因重排的方法、装置、存储介质及处理器,以解决现有技术难以检测基因重排发生的断点位置的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种检测基因重排的方法,该方法包括:获取待测样本的待比对序列;将待比对序列与参考基因组进行比对,得到异常比对序列,异常比对序列包括比对位置异常的序列,比对方向异常的序列和未比对上参考基因组的序列;根据异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置;利用待比对序列中支持候选断点的位置的序列进行组装,保留组装结果中与候选断点的位置的序列信息一致的断点,记为基因重排的断点。
进一步地,根据异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置包括:将异常比对序列进行序列切分后再与参考基因组比对,根据切分后的异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置。
进一步地,根据异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置包括:将异常比对序列进行序列切分后再与参考基因组比对,获得能同时跨越潜在断点两侧第一长度的序列,记为第一标记序列,而能同时跨越潜在断点两侧,但长度小于第二长度的序列作为第二标记序列;根据第一标记序列上的潜在断点的位置模拟发生基因重排的断点参考序列;将待比对序列与断点参考序列进行比对,并对能够比对上断点参考序列且跨断点参考序列上的断点的序列进行标记,记作支持断点的断点候选序列;将断点候选序列上的断点的位置确定为候选断点的位置。
进一步地,将断点候选序列上的断点的位置确定为候选断点的位置包括:根据测序质量和支持序列数对断点候选序列进行校正,得到校正后的候选断点序列;将校正后的候选断点序列上的断点的位置确定为候选断点的位置。
进一步地,将断点候选序列上的断点的位置确定为候选断点的位置包括:根据支持断点参考序列上的断点的第一标记序列、第二标记序列以及待比对序列中支持跨断点参考序列上的断点的成对序列,过滤断点候选序列中的假阳性断点序列,得到过滤后的候选断点序列;将过滤后的候选断点序列上的断点的位置确定为候选断点的位置。
进一步地,利用待比对序列中支持候选断点的位置的序列进行组装包括:根据支持断点参考序列上的断点的第一标记序列、第二标记序列以及待比对序列中支持跨断点参考序列上的断点的成对序列进行组装,保留组装结果中与候选断点的位置的序列信息一致的断点,记为基因重排的断点。
进一步地,获取待测样本的待比对序列包括:构建待测样本的测序文库;对测序文库进行高通量测序,获得测序数据;对测序数据进行预处理,得到待测样本的待比对序列。
进一步地,测序文库为杂交捕获文库,优选通过SEQIDNO:1至SEQ ID NO:36的捕获探针获得杂交捕获文库。
进一步地,在获得基因重排的断点之后,方法还包括对发生重排的基因进行定量的步骤,定量的步骤包括:根据基因重排的断点的序列信息,统计待比对序列中支持基因重排的断点的序列数,记为marker序列数;将marker序列数与内参基因的序列数相除,所得比值即为发生重排的基因相对于内参基因的表达丰度。
为了实现上述目的,根据本发明的第二个方面,提供了一种检测基因重排的装置,装置用于存储或者运行模块,或者模块为装置的组成部分;其中,模块为软件模块,软件模块为一个或多个,软件模块用于执行上述任一种检测基因重排的方法。
根据本发明的第三个方面,提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述任一种检测基因重排的方法。
根据本发明的第四个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种检测基因重排的方法。
应用本发明的技术方案,通过利用高通量测序数据来检测基因发生重排的位置,利用待比对序列中与参考基因组上的序列发生比对异常的序列,来确定发生重排的候选断点位置,然后通过待比对序列的组状序列来进一步验证可靠的候选断点位置,从而能够准确地检测到基因重排的断点位置,相应地,断点位置的序列信息也能准确获知,为进一步通过常规PCR来验证该断点位置提供了基础。因此,本申请的方法不仅能检测到已知或未知的重排现象,而且能准确检测到重排发生的具***置及相应的序列信息。这种方法直接利用NGS测序数据,基于统计和算法开发,并不增加任何额外的实验检测成本。此外,该方法的检测准确性高,成本低,适用于低丰度的基因的结构重排检测。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的一种优选实施例中检测基因重排的断点位置的简单流程示意图;
图2示出了根据本发明的另一种优选实施例中检测基因重排的断点位置的详细流程示意图;以及
图3和图4示出了根据本发明的实施例1的方法所检测到的断点位置经一代PCR测序验证的测序结果图,其中,图3示出的是正向引物的测序结果,图4示出的是反向引物的测序结果。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
如背景技术所提到的,现有技术在对发生重排的基因进行检测时,仅能判断重排现象而对重排发生的位置不能准确测定,因而,为了改善这一状况,在本申请一种典型的实施方式中,提供了一种检测基因重排的方法,该方法包括:获取待测样本的待比对序列;将待比对序列与参考基因组进行比对,得到异常比对序列,异常比对序列包括比对位置异常的序列,比对方向异常的序列和未比对上参考基因组的序列;根据异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置;利用待比对序列中支持候选断点的位置的序列进行组装,保留组装结果中与候选断点的位置的序列信息一致的断点,记为基因重排的断点。
本申请所提供的上述检测基因重排的方法,通过利用高通量测序数据来检测基因发生重排的位置,利用待比对序列中与参考基因组上的序列发生比对异常的序列,来确定发生重排的候选断点位置,然后通过待比对序列的组状序列来进一步验证可靠的候选断点位置,从而能够准确地检测到基因重排的断点位置,相应地,断点位置的序列信息也能准确获知,为进一步通过常规PCR来验证该断点位置提供了基础。因此,本申请的方法不仅能检测到已知或未知的重排现象,而且能准确检测到重排发生的具***置及相应的序列信息。这种方法直接利用NGS测序数据,基于统计和算法开发,并不增加任何额外的实验检测成本。此外,该方法的检测准确性高,成本低,适用于低丰度的基因的结构重排检测。
需要说明的是,上述待测样本的待比对序列可以是从待测样本的原始测序数据经处理后形成待比对序列,也可以是已有的现成的能够用来比对的待比对序列。上述方法通过增加了通过组装后的序列来验证候选断点位置,使得断点位置更准确。
待比对序列中,一部分能够与参考基因组比对上的序列,而一部分因发生基因重排而无法直接比对到参考基因组上,因而这部分序列称为异常比对序列。异常的比对序列包括比对位置异常的序列(如此正向串联重复的序列)、比对方向异常的序列(比如反向串联重复的序列)以及未比对上参考基因组的序列(如***缺失的序列)。根据这些异常比对序列在参考基因组上的比对位置和对比方向,采用现有的方法(比如能比对到同一染色体的位置异常,发生序列间倒置,通过比对方向异常,确定其潜在的断点位置。或者,能比对到不同的染色体序列位置,序列发生易位,通过比对方向)可以确定其潜在的断点位置。
在某些优选的实施例中,根据异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置包括:将异常比对序列进行序列切分后再与参考基因组比对,根据切分后的异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置。
具体地,现有的序列切分比对软件有bwa、hisat2或STAR。这些软件在对比时采用更宽松的比对方法,把切分开的每段序列比对到参考基因组可能的位置上,从而能够确定最终的比对位置和比对方向。
在一些更优选的实施例中,根据异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置包括:将异常比对序列进行序列切分后再与参考基因组比对,获得能同时跨越潜在断点两侧第一长度的序列,记为第一标记序列,而能同时跨越潜在断点两侧,但小于第二长度的序列作为第二标记序列;根据第一标记序列上的潜在断点的位置模拟发生基因重排的断点参考序列;将待比对序列与断点参考序列进行比对,并对能够比对上断点参考序列且跨断点参考序列上的断点的序列进行标记,记作支持断点的断点候选序列;将断点候选序列上的断点的位置确定为候选断点的位置。
双端测序的数据中,存在两个方向的测序序列,按照单端测序的序列来看,如果通过切分成两段或三段序列再与参考基因组进行比对,每段分别能比对到参考基因组不同的位置和方向上,则可以根据具体切分的位置来推断基因重排潜在的断点位置。通过划分第一标记序列和第二标记序列,并以此模拟构建断点参考序列重新比对,有助于获取更多潜在的跨断点序列和支持跨断点的正常比对成对序列。进一步通过支持该断点参考序列上的断点位置的序列作用候选断点序列,从而使所筛选到的候选断点的准确度相对较高。上述第一标记序列跨越潜在断点两侧的第一长度根据序列测序长度的不同,可以合理设置为20~25bp。而小于第二长度的序列作为第二标记序列中,第二长度可以根据序列测序长度的不同,合理设置为10~20bp。
为了进一步提高断点位置的准确度,可以根据待测样本的测序数据的测序深度及测序策略,进一步对上述的候选断点进行校正和假阳性过滤,从而保留真实性更高的断点位置。
在某些优选的实施例中,将断点候选序列上的断点的位置确定为候选断点的位置包括:根据测序质量和支持序列数对断点候选序列进行校正,得到校正后的候选断点序列;将校正后的候选断点序列上的断点的位置确定为候选断点的位置。
具体地,例如测序平均深度达到1000×,跨断点的序列达到平均深度的2%以上,即20×以上可以进行断点碱基校正,通过模拟参考序列的断点比对位置关系,比对的碱基质量,进行断点校正。如果支持跨断点的序列低于20×的断点假阳性较高,通常去除。
在某些优选的实施例中,将断点候选序列上的断点的位置确定为候选断点的位置包括:根据支持断点参考序列上的断点的第一标记序列、第二标记序列以及待比对序列中支持跨断点参考序列上的断点的成对序列,过滤断点候选序列中的假阳性断点序列,得到过滤后的候选断点序列;将过滤后的候选断点序列上的断点的位置确定为候选断点的位置。
具体地,例如保留第一标记序列数大于10,待比对序列中支持跨断点参考序列上的断点的成对序列大于50的断点。当然,此处的具体数值根据不同测序样本的不同可以适当调整,此处仅是举例说明。
在某些优选的实施例中,利用待比对序列中支持候选断点的位置的序列进行组装包括:根据支持断点参考序列上的断点的第一标记序列、第二标记序列以及待比对序列中支持跨断点参考序列上的断点的成对序列进行组装,保留组装结果中与候选断点的位置的序列信息一致的断点,记为基因重排的断点。
通过利用上述第一标记序列、第二标记序列以及支持上述断点的成对序列,进行序列组装,通过从头组装形成的组装序列再次验证候选断点位置,使得最终确定的基因重排的断点位置更准确。
如前述,本申请的待测样本的待比对数据可以是现有的能够直接用于比对的待比对序列,也可以是测序得到的原始数据经处理后得到的带比对序列。在某些优选的实施例中,获取待测样本的待比对序列包括:构建待测样本的测序文库;对测序文库进行高通量测序,获得测序数据;对测序数据进行预处理,得到待测样本的待比对序列。
在某些优选的实施例中,测序文库为杂交捕获文库,优选通过SEQIDNO:1至SEQ IDNO:36的捕获探针获得杂交捕获文库。采用杂交捕获文库,可针对目的基因的测序数据进行基因重排检测。上述SEQ ID NO:1至SEQ ID NO:36的捕获探针能够捕获MLL基因的全外显子序列,因而能够用于检测该基因的外显子重排位置及其相应的序列信息。
本申请的上述方法能够准确检测目的基因发生重排的断点位置,根据研究目的的不同,还可以利用上述待测样本的待比对序列对所检测的变异基因的表达量进行检测。在某些优选的实施例中,在获得基因重排的断点之后,上述方法还包括对发生重排的基因进行定量的步骤,定量的步骤包括:根据基因重排的断点的序列信息,统计待比对序列中支持基因重排的断点的序列数,记为marker序列数;将marker序列数与内参基因的序列数相除,所得比值即为发生重排的基因相对于内参基因的表达丰度。通过对某些发生重排的基因的表达量进行检测,能够反应该基因在特定条件下或特定处理状态下的表达情况,进而,通过一系列不同条件或不同状态下对该基因的表达量进行检测,可以反应其表达的差异情况。上述内参基因可以根据实际需要合理选择,比如当检测的基因为MLL基因时,通常可以选择ABL1基因作为内参基因。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得计算设备执行本发明各个实施例所述的方法,或者是使得处理器来执行本发明各个实施例所述的方法。
在本申请第二种典型的实施方式中,提供了一种检测基因重排的装置,装置用于存储或者运行模块,或者模块为装置的组成部分;其中,模块为软件模块,软件模块为一个或多个,软件模块用于执行上述任一种方法。采用该装置不仅能够更准确地检测基因发生重排的断点位置,而且能够获得断点位置对应的序列信息,进而便于根据其序列信息检测其相对表达量,其实用性及适用范围更广,任何存在基因重排现象的变异基因都可以采用上述装置进行检测。
优选地,上述装置包括:获取模块、比对模块、候选模块和组装确定模块,获取模块用于获取待测样本的待比对序列;比对模块用于将待比对序列与参考基因组进行比对,得到异常比对序列,异常比对序列包括比对位置异常的序列,比对方向异常的序列和未比对上参考基因组的序列;候选模块用于根据异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置;组装确定模块用于利用待比对序列中支持候选断点的位置的序列进行组装,保留组装结果中与候选断点的位置的序列信息一致的断点,记为基因重排的断点。
在一种优选的实施例中,上述候选模块包括:切分比对模块及候选确定模块,切分比对模块用于将异常比对序列进行序列切分后再与参考基因组比对,候选确定模块用于根据切分后的异常比对序列在参考基因组上的比对位置和比对方向,确定候选断点的位置。
在一种优选的实施例中,上述候选模块包括:切分标记模块、模拟模块、比对标记模块及候选断点模块,切分标记模块用于将异常比对序列进行序列切分后再与参考基因组比对,获得能同时跨越潜在断点两侧第一长度的序列,记为第一标记序列,而能同时跨越潜在断点两侧,但长度小于第二长度的序列作为第二标记序列;模拟模块用于根据第一标记序列上的潜在断点的位置模拟发生基因重排的断点参考序列;比对标记模块用于将待比对序列与断点参考序列进行比对,并对能够比对上断点参考序列且跨断点参考序列上的断点的序列进行标记,记作支持断点的断点候选序列;候选断点模块用于将断点候选序列上的断点的位置确定为候选断点的位置。
在一种优选的实施例中,候选断点模块包括:校正断点模块和校正确定模块,校正断点模块用于根据测序质量和支持序列数对断点候选序列进行校正,得到校正后的候选断点序列;校正确定模块用于将校正后的候选断点序列上的断点的位置确定为候选断点的位置。
在一种优选的实施例中,候选断点模块包括:过滤断点模块和过滤确定模块,过滤断点模块用于根据支持断点参考序列上的断点的第一标记序列、第二标记序列以及待比对序列中支持跨断点参考序列上的断点的成对序列,过滤断点候选序列中的假阳性断点序列,得到过滤后的候选断点序列;过滤确定模块用于将过滤后的候选断点序列上的断点的位置确定为候选断点的位置。
在一种优选的实施例中,组装确定模块包括:组装子模块和保留模块,组装子模块用于根据支持断点参考序列上的断点的第一标记序列、第二标记序列以及待比对序列中支持跨断点参考序列上的断点的成对序列进行组装,保留模块用于保留组装结果中与候选断点的位置的序列信息一致的断点,记为基因重排的断点。
在一种优选的实施例中,获取模块包括:构建模块、测序模块以及预处理模块,构建模块用于构建待测样本的测序文库;测序模块用于对测序文库进行高通量测序,获得测序数据;预处理模块用于对测序数据进行预处理,得到待测样本的待比对序列。
在一种优选的实施例中,上述测序文库为杂交捕获文库,优选通过SEQIDNO:1至SEQ ID NO:36的捕获探针获得杂交捕获文库。
在一种优选的实施例中,上述装置还包括对发生重排的基因进行定量的定量模块,定量模块包括:统计模块和表达量计算模块,统计模块用于根据基因重排的断点的序列信息,统计待比对序列中支持基因重排的断点的序列数,记为marker序列数;表达量计算模块用于将marker序列数与内参基因的序列数相除,所得比值即为发生重排的基因相对于内参基因的表达丰度。
在本申请第三种典型的实施方式中,提供了一种存储介质,该存储介质包括存储的程序,其中,程序执行上述任一种检测基因重排的方法。
在本申请第四种典型的实施方式中,提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种检测基因重排的方法。
上述存储介质、处理器及装置,均可以被计算机用于执行上述检测基因重排的方法,并输出相应的检测结果,这些产品在不增加任何额外的实验和测序成本的基础上,实现了对基因重排的检测,且该装置的检测成本低、准确性高。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read(-)Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
下面将结合具体的实施例来进一步说明本申请的有益效果。
实施例1检测MLL-PTD基因重排的方法
1、样本和数据
1)抽取患者骨髓或外周血,用采集管保存。
2)提取样本核酸,剩余样本置于-80℃保存。
3)构建测序文库,通过杂交捕获方法(MLL基因的杂交捕获探针,分别为该基因的36个外显子,具体序列见下表1),将目标区域富集。
4)捕获后的文库进行上机测序。
表1:
Figure BDA0001931567130000081
Figure BDA0001931567130000091
Figure BDA0001931567130000101
Figure BDA0001931567130000111
Figure BDA0001931567130000121
Figure BDA0001931567130000131
2、测序数据的预处理
1)数据质控
主要是删除低质量的序列,包含5个以上碱基N的序列被剔除;连续40个核苷酸的平均测序质量低于Q20的序列也被删除。
2)比对MLL基因序列
用hisat2将质控通过的高质量序列比对到参考序列,用于进一步分析。
3、MLL-PTD识别
1)原理和理论基础:
MLL-PTD导致MLL基因(共36个外显子)分子水平发生变异,表现为外显子连接顺序发生改变,重排通常发生在exon2到exon11之间。
2)MLL-PTD断点识别:
首先将成对序列进行比对,根据比对的序列位置关系,对于位置关系异常的序列对,寻找序列对之间存在的结构变异。同时将非正常比对的序列切分,使用更宽松的比对方法,把序列比对到可能的位置,确定最终的比对位置和比对方向,断点位置根据切割序列的比对位置计算获得。如图1所示,跨断点序列能同时跨越断点两侧第一长度的序列,作为第一标记序列,能同时跨越第二长度的序列作为第二标记序列。通过标记序列断点位置模拟发生PTD的断点参考序列,将序列进行重新比对,只保留比对良好且存在跨断点序列的候选断点。
3)断点校正
因断点边缘序列相似,存在突变或测序错误,因而,如图2所示,根据比对打分,测序质量和支持序列数进行校正,给出最优预测断点序列,作为候选断点。
4)多因数过滤假阳性
对候选断点,根据支持断点的第一标记序列,第二标记序列和支持跨断点的成对序列进一步过滤假阳性。之后如图2所示,将支持断点的所有序列进行组装,保留组装结果与断点序列信息一致的断点。从而得到可靠的MLL-PTD结构信息。
4、MLL-PTD定量
基于MLL-PTD的marker序列数/内参基因ABL1的序列深度,得出与ABL1基因的丰度比值。
具体按照图2所示的本申请的方法对122个样本进行了检测,检测出有10个样本发生了MLL-PTD变异,具体报告结果如下表2和表3。
表2:
Figure BDA0001931567130000141
表3:
样本编号 SEQ ID NO: 融合序列*
A 37 AGAGGTCTCTGATGAGTCACTTTCTTGACC@cttttcttttggtttttgttttacagggat
B 38 AGAGGTCTCTGATGAGTCACTTTCTTGACC@cttttcttttggtttttgttttacagggat
C 39 ATCTGAGCCAAAACCTAAGAATTGCTCATC@cttttcttttggtttttgttttacagggat
D 40 CATCTTCTGAGCCAGCAATTGATGACTTGT@cttttcttttggtttttgttttacagggat
E 41 ATCTGAGCCAAAACCTAAGAATTGCTCATC@cttttcttttggtttttgttttacagggat
F 42 ATCTGAGCCAAAACCTAAGAATTGCTCATC@cttttcttttggtttttgttttacagggat
G 43 ATCTGAGCCAAAACCTAAGAATTGCTCATC@cttaaagtccactctgatcctgtggactcc
H 44 ATCTGAGCCAAAACCTAAGAATTGCTCATC@ctgattctggtggtggaggctgctttttct
I 45 ATCTGAGCCAAAACCTAAGAATTGCTCATC@cttttcttttggtttttgttttacagggat
J 46 ATCTGAGCCAAAACCTAAGAATTGCTCATC@cttttcttttggtttttgttttacagggat
K 47 CATCTTCTGAGCCAGCAATTGATGACTTGT@cttttcttttggtttttgttttacagggat
*表3中的融合序列为反向互补的序列,如A:exon8->exon 4小写的字母代表exon8的序列,大写的代表exon4。
2、选取样本C进行Sanger测序验证检测到的MLL-PTD断点结构。
PCR验证的样本信息如下表4。
表4:
样本编号 MLL-PTD结构 Exon A Exon B Marker序列数 Ratio
C exon8->exon2 exon8 exon2 231 17.12%
验证得到的序列信息为:
ATCTGAGCCAAAACCTAAGAATTGCTCATC@cttttcttttggtttttgttttacagggat
(即SEQ ID NO:39)。
3、根据断点位置生成断点模板序列,在断点前后300bp设计引物,进行PCR扩增。
4、PCR产物大小合理,条带明亮单一,将PCR产物进行Sanger测序,测序峰图干净。
5、根据Sanger测序结果可以找到断点结构,并且断点前后碱基与上述本申请的方法所鉴定到的断点序列完全一致(正向引物测序结果见图3,反向互补测序结果见图4)。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:本申请的方法不仅能检测到已知或未知的重排现象,而且能准确检测到重排发生的具***置及相应的序列信息。适用范围广,适合所有发生重排现象的基因的检测。
这种方法直接利用NGS测序数据,基于统计和算法开发,并不增加任何额外的实验检测成本。此外,该方法的检测准确性高,成本低,适用于低丰度的基因的结构重排检测。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
序列表
<110> 北京优迅医学检验实验室有限公司
<120> 检测基因重排的方法、装置、存储介质及处理器。
<130> PN102308YXYX
<160> 47
<170> SIPOSequenceListing 1.0
<210> 1
<211> 455
<212> DNA
<213> 智人(Homo sapiens)
<400> 1
ctgcttcact tcacggggcg aacatggcgc acagctgtcg gtggcgcttc cccgcccgac 60
ccgggaccac cgggggcggc ggcggcgggg ggcgccgggg cctagggggc gccccgcggc 120
aacgcgtccc ggccctgctg cttccccccg ggcccccggt cggcggtggc ggccccgggg 180
cgcccccctc ccccccggct gtggcggccg cggcggcggc ggcgggaagc agcggggctg 240
gggttccagg gggagcggcc gccgcctcag cagcctcctc gtcgtccgcc tcgtcttcgt 300
cttcgtcatc gtcctcagcc tcttcagggc cggccctgct ccgggtgggc ccgggcttcg 360
acgcggcgct gcaggtctcg gccgccatcg gcaccaacct gcgccggttc cgggccgtgt 420
ttggggagag cggcggggga ggcggcagcg gagag 455
<210> 2
<211> 70
<212> DNA
<213> 智人(Homo sapiens)
<400> 2
gatgagcaat tcttaggttt tggctcagat gaagaagtca gagtgcgaag tcccacaagg 60
tctccttcag 70
<210> 3
<211> 2654
<212> DNA
<213> 智人(Homo sapiens)
<400> 3
ttaaaactag tcctcgaaaa cctcgtggga gacctagaag tggctctgac cgaaattcag 60
ctatcctctc agatccatct gtgttttccc ctctaaataa atcagagacc aaatctggag 120
ataagatcaa gaagaaagat tctaaaagta tagaaaagaa gagaggaaga cctcccacct 180
tccctggagt aaaaatcaaa ataacacatg gaaaggacat ttcagagtta ccaaagggaa 240
acaaagaaga tagcctgaaa aaaattaaaa ggacaccttc tgctacgttt cagcaagcca 300
caaagattaa aaaattaaga gcaggtaaac tctctcctct caagtctaag tttaagacag 360
ggaagcttca aataggaagg aagggggtac aaattgtacg acggagagga aggcctccat 420
caacagaaag gataaagacc ccttcgggtc tcctcattaa ttctgaactg gaaaagcccc 480
agaaagtccg gaaagacaag gaaggaacac ctccacttac aaaagaagat aagacagttg 540
tcagacaaag ccctcgaagg attaagccag ttaggattat tccttcttca aaaaggacag 600
atgcaaccat tgctaagcaa ctcttacaga gggcaaaaaa gggggctcaa aagaaaattg 660
aaaaagaagc agctcagctg cagggaagaa aggtgaagac acaggtcaaa aatattcgac 720
agttcatcat gcctgttgtc agtgctatct cctcgcggat cattaagacc cctcggcggt 780
ttatagagga tgaggattat gaccctccaa ttaaaattgc ccgattagag tctacaccga 840
atagtagatt cagtgccccg tcctgtggat cttctgaaaa atcaagtgca gcttctcagc 900
actcctctca aatgtcttca gactcctctc gatctagtag ccccagtgtt gatacctcca 960
cagactctca ggcttctgag gagattcagg tacttcctga ggagcggagc gatacccctg 1020
aagttcatcc tccactgccc atttcccagt ccccagaaaa tgagagtaat gataggagaa 1080
gcagaaggta ttcagtgtcg gagagaagtt ttggatctag aacgacgaaa aaattatcaa 1140
ctctacaaag tgccccccag cagcagacct cctcgtctcc acctccacct ctgctgactc 1200
caccgccacc actgcagcca gcctccagta tctctgacca cacaccttgg cttatgcctc 1260
caacaatccc cttagcatca ccatttttgc ctgcttccac tgctcctatg caagggaagc 1320
gaaaatctat tttgcgagaa ccgacattta ggtggacttc tttaaagcat tctaggtcag 1380
agccacaata cttttcctca gcaaagtatg ccaaagaagg tcttattcgc aaaccaatat 1440
ttgataattt ccgaccccct ccactaactc ccgaggacgt tggctttgca tctggttttt 1500
ctgcatctgg taccgctgct tcagcccgat tgttttcgcc actccattct ggaacaaggt 1560
ttgatatgca caaaaggagc cctcttctga gagctccaag atttactcca agtgaggctc 1620
actctagaat atttgagtct gtaaccttgc ctagtaatcg aacttctgct ggaacatctt 1680
cttcaggagt atccaataga aaaaggaaaa gaaaagtgtt tagtcctatt cgatctgaac 1740
caagatctcc ttctcactcc atgaggacaa gaagtggaag gcttagtagt tctgagctct 1800
cacctctcac ccccccgtct tctgtctctt cctcgttaag catttctgtt agtcctcttg 1860
ccactagtgc cttaaaccca acttttactt ttccttctca ttccctgact cagtctgggg 1920
aatctgcaga gaaaaatcag agaccaagga agcagactag tgctccggca gagccatttt 1980
catcaagtag tcctactcct ctcttccctt ggtttacccc aggctctcag actgaaagag 2040
ggagaaataa agacaaggcc cccgaggagc tgtccaaaga tcgagatgct gacaagagcg 2100
tggagaagga caagagtaga gagagagacc gggagagaga aaaggagaat aagcgggagt 2160
caaggaaaga gaaaaggaaa aagggatcag aaattcagag tagttctgct ttgtatcctg 2220
tgggtagggt ttccaaagag aaggttgttg gtgaagatgt tgccacttca tcttctgcca 2280
aaaaagcaac agggcggaag aagtcttcat cacatgattc tgggactgat attacttctg 2340
tgactcttgg ggatacaaca gctgtcaaaa ccaaaatact tataaagaaa gggagaggaa 2400
atctggaaaa aaccaacttg gacctcggcc caactgcccc atccctggag aaggagaaaa 2460
ccctctgcct ttccactcct tcatctagca ctgttaaaca ttccacttcc tccataggct 2520
ccatgttggc tcaggcagac aagcttccaa tgactgacaa gagggttgcc agcctcctaa 2580
aaaaggccaa agctcagctc tgcaagattg agaagagtaa gagtcttaaa caaaccgacc 2640
agcccaaagc acag 2654
<210> 4
<211> 178
<212> DNA
<213> 智人(Homo sapiens)
<400> 4
ggtcaagaaa gtgactcatc agagacctct gtgcgaggac cccggattaa acatgtctgc 60
agaagagcag ctgttgccct tggccgaaaa cgagctgtgt ttcctgatga catgcccacc 120
ctgagtgcct taccatggga agaacgagaa aagattttgt cttccatggg gaatgatg 178
<210> 5
<211> 235
<212> DNA
<213> 智人(Homo sapiens)
<400> 5
acaagtcatc aattgctggc tcagaagatg ctgaacctct tgctccaccc atcaaaccaa 60
ttaaacctgt cactagaaac aaggcacccc aggaacctcc agtaaagaaa ggacgtcgat 120
cgaggcggtg tgggcagtgt cccggctgcc aggtgcctga ggactgtggt gtttgtacta 180
attgcttaga taagcccaag tttggtggtc gcaatataaa gaagcagtgc tgcaa 235
<210> 6
<211> 65
<212> DNA
<213> 智人(Homo sapiens)
<400> 6
gatgagaaaa tgtcagaatc tacaatggat gccttccaaa gcctacctgc agaagcaagc 60
taaag 65
<210> 7
<211> 378
<212> DNA
<213> 智人(Homo sapiens)
<400> 7
ctgtgaaaaa gaaagagaaa aagtctaaga ccagtgaaaa gaaagacagc aaagagagca 60
gtgttgtgaa gaacgtggtg gactctagtc agaaacctac cccatcagca agagaggatc 120
ctgccccaaa gaaaagcagt agtgagcctc ctccacgaaa gcccgtcgag gaaaagagtg 180
aagaagggaa tgtctcggcc cctgggcctg aatccaaaca ggccaccact ccagcttcca 240
ggaagtcaag caagcaggtc tcccagccag cactggtcat cccgcctcag ccacctacta 300
caggaccgcc aagaaaagaa gttcccaaaa ccactcctag tgagcccaag aaaaagcagc 360
ctccaccacc agaatcag 378
<210> 8
<211> 74
<212> DNA
<213> 智人(Homo sapiens)
<400> 8
gtccagagca gagcaaacag aaaaaagtgg ctccccgccc aagtatccct gtaaaacaaa 60
aaccaaaaga aaag 74
<210> 9
<211> 132
<212> DNA
<213> 智人(Homo sapiens)
<400> 9
gaaaaaccac ctccggtcaa taagcaggag aatgcaggca ctttgaacat cctcagcact 60
ctctccaatg gcaatagttc taagcaaaaa attccagcag atggagtcca caggatcaga 120
gtggacttta ag 132
<210> 10
<211> 114
<212> DNA
<213> 智人(Homo sapiens)
<400> 10
gaggattgtg aagcagaaaa tgtgtgggag atgggaggct taggaatctt gacttctgtt 60
cctataacac ccagggtggt ttgctttctc tgtgccagta gtgggcatgt agag 114
<210> 11
<211> 147
<212> DNA
<213> 智人(Homo sapiens)
<400> 11
tttgtgtatt gccaagtctg ttgtgagccc ttccacaagt tttgtttaga ggagaacgag 60
cgccctctgg aggaccagct ggaaaattgg tgttgtcgtc gttgcaaatt ctgtcacgtt 120
tgtggaaggc aacatcaggc tacaaag 147
<210> 12
<211> 96
<212> DNA
<213> 智人(Homo sapiens)
<400> 12
cagctgctgg agtgtaataa gtgccgaaac agctatcacc ctgagtgcct gggaccaaac 60
taccccacca aacccacaaa gaagaagaaa gtctgg 96
<210> 13
<211> 121
<212> DNA
<213> 智人(Homo sapiens)
<400> 13
atctgtacca agtgtgttcg ctgtaagagc tgtggatcca caactccagg caaagggtgg 60
gatgcacagt ggtctcatga tttctcactg tgtcatgatt gcgccaagct ctttgctaaa 120
g 121
<210> 14
<211> 123
<212> DNA
<213> 智人(Homo sapiens)
<400> 14
gaaacttctg ccctctctgt gacaaatgtt atgatgatga tgactatgag agtaagatga 60
tgcaatgtgg aaagtgtgat cgctgggtcc attccaaatg tgagaatctt tcaggtacag 120
aag 123
<210> 15
<211> 185
<212> DNA
<213> 智人(Homo sapiens)
<400> 15
atgagatgta tgagattcta tctaatctgc cagaaagtgt ggcctacact tgtgtgaact 60
gtactgagcg gcaccctgca gagtggcgac tggcccttga aaaagagctg cagatttctc 120
tgaagcaagt tctgacagct ttgttgaatt ctcggactac cagccatttg ctacgctacc 180
ggcag 185
<210> 16
<211> 174
<212> DNA
<213> 智人(Homo sapiens)
<400> 16
gctgccaagc ctccagactt aaatcccgag acagaggaga gtataccttc ccgcagctcc 60
cccgaaggac ctgatccacc agttcttact gaggtcagca aacaggatga tcagcagcct 120
ttagatctag aaggagtcaa gaggaagatg gaccaaggga attacacatc tgtg 174
<210> 17
<211> 111
<212> DNA
<213> 智人(Homo sapiens)
<400> 17
ttggagttca gtgatgatat tgtgaagatc attcaagcag ccattaattc agatggagga 60
cagccagaaa ttaaaaaagc caacagcatg gtcaagtcct tcttcattcg g 111
<210> 18
<211> 74
<212> DNA
<213> 智人(Homo sapiens)
<400> 18
caaatggaac gtgtttttcc atggttcagt gtcaaaaagt ccaggttttg ggagccaaat 60
aaagtatcaa gcaa 74
<210> 19
<211> 194
<212> DNA
<213> 智人(Homo sapiens)
<400> 19
cagtgggatg ttaccaaacg cagtgcttcc accttcactt gaccataatt atgctcagtg 60
gcaggagcga gaggaaaaca gccacactga gcagcctcct ttaatgaaga aaatcattcc 120
agctcccaaa cccaaaggtc ctggagaacc agactcacca actcctctgc atcctcctac 180
accaccaatt ttga 194
<210> 20
<211> 107
<212> DNA
<213> 智人(Homo sapiens)
<400> 20
gtactgatag gagtcgagaa gacagtccag agctgaaccc acccccaggc atagaagaca 60
atagacagtg tgcgttatgt ttgacttatg gtgatgacag tgctaat 107
<210> 21
<211> 138
<212> DNA
<213> 智人(Homo sapiens)
<400> 21
gatgctggtc gtttactata tattggccaa aatgagtgga cacatgtaaa ttgtgctttg 60
tggtcagcgg aagtgtttga agatgatgac ggatcactaa agaatgtgca tatggctgtg 120
atcaggggca agcagctg 138
<210> 22
<211> 159
<212> DNA
<213> 智人(Homo sapiens)
<400> 22
agatgtgaat tctgccaaaa gccaggagcc accgtgggtt gctgtctcac atcctgcacc 60
agcaactatc acttcatgtg ttcccgagcc aagaactgtg tctttctgga tgataaaaaa 120
gtatattgcc aacgacatcg ggatttgatc aaaggcgaa 159
<210> 23
<211> 118
<212> DNA
<213> 智人(Homo sapiens)
<400> 23
gtggttcctg agaatggatt tgaagttttc agaagagtgt ttgtggactt tgaaggaatc 60
agcttgagaa ggaagtttct caatggcttg gaaccagaaa atatccacat gatgattg 118
<210> 24
<211> 79
<212> DNA
<213> 智人(Homo sapiens)
<400> 24
ggtctatgac aatcgactgc ttaggaattc taaatgatct ctccgactgt gaagataagc 60
tctttcctat tggatatca 79
<210> 25
<211> 161
<212> DNA
<213> 智人(Homo sapiens)
<400> 25
gtgttccagg gtatactgga gcaccacaga tgctcgcaag cgctgtgtat atacatgcaa 60
gatagtggag tgccgtcctc cagtcgtaga gccggatatc aacagcactg ttgaacatga 120
tgaaaacagg accattgccc atagtccaac atcttttaca g 161
<210> 26
<211> 186
<212> DNA
<213> 智人(Homo sapiens)
<400> 26
aaagttcatc aaaagagagt caaaacacag ctgaaattat aagtcctcca tcaccagacc 60
gacctcctca ttcacaaacc tctggctcct gttattatca tgtcatctca aaggtcccca 120
ggattcgaac acccagttat tctccaacac agagatcccc tggctgtcga ccgttgcctt 180
ctgcag 186
<210> 27
<211> 4249
<212> DNA
<213> 智人(Homo sapiens)
<400> 27
gaagtcctac cccaaccact catgaaatag tcacagtagg tgatccttta ctctcctctg 60
gacttcgaag cattggctcc aggcgtcaca gtacctcttc cttatcaccc cagcggtcca 120
aactccggat aatgtctcca atgagaactg ggaatactta ctctaggaat aatgtttcct 180
cagtctccac caccgggacc gctactgatc ttgaatcaag tgccaaagta gttgatcatg 240
tcttagggcc actgaattca agtactagtt tagggcaaaa cacttccacc tcttcaaatt 300
tgcaaaggac agtggttact gtaggcaata aaaacagtca cttggatgga tcttcatctt 360
cagaaatgaa gcagtccagt gcttcagact tggtgtccaa gagctcctct ttaaagggag 420
agaagaccaa agtgctgagt tccaagagct cagagggatc tgcacataat gtggcttacc 480
ctggaattcc taaactggcc ccacaggttc ataacacaac atctagagaa ctgaatgtta 540
gtaaaatcgg ctcctttgct gaaccctctt cagtgtcgtt ttcttctaaa gaggccctct 600
ccttcccaca cctccatttg agagggcaaa ggaatgatcg agaccaacac acagattcta 660
cccaatcagc aaactcctct ccagatgaag atactgaagt caaaaccttg aagctatctg 720
gaatgagcaa cagatcatcc attatcaacg aacatatggg atctagttcc agagatagga 780
gacagaaagg gaaaaaatcc tgtaaagaaa ctttcaaaga aaagcattcc agtaaatctt 840
ttttggaacc tggtcaggtg acaactggtg aggaaggaaa cttgaagcca gagtttatgg 900
atgaggtttt gactcctgag tatatgggcc aacgaccatg taacaatgtt tcttctgata 960
agattggtga taaaggcctt tctatgccag gagtccccaa agctccaccc atgcaagtag 1020
aaggatctgc caaggaatta caggcaccac ggaaacgcac agtcaaagtg acactgacac 1080
ctctaaaaat ggaaaatgag agtcaatcca aaaatgccct gaaagaaagt agtcctgctt 1140
cccctttgca aatagagtca acatctccca cagaaccaat ttcagcctct gaaaatccag 1200
gagatggtcc agtggcccaa ccaagcccca ataatacctc atgccaggat tctcaaagta 1260
acaactatca gaatcttcca gtacaggaca gaaacctaat gcttccagat ggccccaaac 1320
ctcaggagga tggctctttt aaaaggaggt atccccgtcg cagtgcccgt gcacgttcta 1380
acatgttttt tgggcttacc ccactctatg gagtaagatc ctatggtgaa gaagacattc 1440
cattctacag cagctcaact gggaagaagc gaggcaagag atcagctgaa ggacaggtgg 1500
atggggccga tgacttaagc acttcagatg aagacgactt atactattac aacttcacta 1560
gaacagtgat ttcttcaggt ggagaggaac gactggcatc ccataattta tttcgggagg 1620
aggaacagtg tgatcttcca aaaatctcac agttggatgg tgttgatgat gggacagaga 1680
gtgatactag tgtcacagcc acaacaagga aaagcagcca gattccaaaa agaaatggta 1740
aagaaaatgg aacagagaac ttaaagattg atagacctga agatgctggg gagaaagaac 1800
atgtcactaa gagttctgtt ggccacaaaa atgagccaaa gatggataac tgccattctg 1860
taagcagagt taaaacacag ggacaagatt ccttggaagc tcagctcagc tcattggagt 1920
caagccgcag agtccacaca agtaccccct ccgacaaaaa tttactggac acctataata 1980
ctgagctcct gaaatcagat tcagacaata acaacagtga tgactgtggg aatatcctgc 2040
cttcagacat tatggacttt gtactaaaga atactccatc catgcaggct ttgggtgaga 2100
gcccagagtc atcttcatca gaactcctga atcttggtga aggattgggt cttgacagta 2160
atcgtgaaaa agacatgggt ctttttgaag tattttctca gcagctgcct acaacagaac 2220
ctgtggatag tagtgtctct tcctctatct cagcagagga acagtttgag ttgcctctag 2280
agctaccatc tgatctgtct gtcttgacca cccggagtcc cactgtcccc agccagaatc 2340
ccagtagact agctgttatc tcagactcag gggagaagag agtaaccatc acagaaaaat 2400
ctgtagcctc ctctgaaagt gacccagcac tgctgagccc aggagtagat ccaactcctg 2460
aaggccacat gactcctgat cattttatcc aaggacacat ggatgcagac cacatctcta 2520
gccctccttg tggttcagta gagcaaggtc atggcaacaa tcaggattta actaggaaca 2580
gtagcacccc tggccttcag gtacctgttt ccccaactgt tcccatccag aaccagaagt 2640
atgtgcccaa ttctactgat agtcctggcc cgtctcagat ttccaatgca gctgtccaga 2700
ccactccacc ccacctgaag ccagccactg agaaactcat agttgttaac cagaacatgc 2760
agccacttta tgttctccaa actcttccaa atggagtgac ccaaaaaatc caattgacct 2820
cttctgttag ttctacaccc agtgtgatgg agacaaatac ttcagtattg ggacccatgg 2880
gaggtggtct cacccttacc acaggactaa atccaagctt gccaacttct caatctttgt 2940
tcccttctgc tagcaaagga ttgctaccca tgtctcatca ccagcactta cattccttcc 3000
ctgcagctac tcaaagtagt ttcccaccaa acatcagcaa tcctccttca ggcctgctta 3060
ttggggttca gcctcctccg gatccccaac ttttggtttc agaatccagc cagaggacag 3120
acctcagtac cacagtagcc actccatcct ctggactcaa gaaaagaccc atatctcgtc 3180
tacagacccg aaagaataaa aaacttgctc cctctagtac cccttcaaac attgcccctt 3240
ctgatgtggt ttctaatatg acattgatta acttcacacc ctcccagctt cctaatcatc 3300
caagtctgtt agatttgggg tcacttaata cttcatctca ccgaactgtc cccaacatca 3360
taaaaagatc taaatctagc atcatgtatt ttgaaccggc acccctgtta ccacagagtg 3420
tgggaggaac tgctgccaca gcggcaggca catcaacaat aagccaggat actagccacc 3480
tcacatcagg gtctgtgtct ggcttggcat ccagttcctc tgtcttgaat gttgtatcca 3540
tgcaaactac cacaacccct acaagtagtg cgtcagttcc aggacacgtc accttaacca 3600
acccaaggtt gcttggtacc ccagatattg gctcaataag caatctttta atcaaagcta 3660
gccagcagag cctggggatt caggaccagc ctgtggcttt accgccaagt tcaggaatgt 3720
ttccacaact ggggacatca cagaccccct ctactgctgc aataacagcg gcatctagca 3780
tctgtgtgct cccctccact cagactacgg gcataacagc cgcttcacct tctggggaag 3840
cagacgaaca ctatcagctt cagcatgtga accagctcct tgccagcaaa actgggattc 3900
attcttccca gcgtgatctt gattctgctt cagggcccca ggtatccaac tttacccaga 3960
cggtagacgc tcctaatagc atgggactgg agcagaacaa ggctttatcc tcagctgtgc 4020
aagccagccc cacctctcct gggggttctc catcctctcc atcttctgga cagcggtcag 4080
caagcccttc agtgccgggt cccactaaac ccaaaccaaa aaccaaacgg tttcagctgc 4140
ctctagacaa agggaatggc aagaagcaca aagtttccca tttgcggacc agttcttctg 4200
aagcacacat tccagaccaa gaaacgacat ccctgacctc aggcacagg 4249
<210> 28
<211> 81
<212> DNA
<213> 智人(Homo sapiens)
<400> 28
gactccagga gcagaggctg agcagcagga tacagctagc gtggagcagt cctcccagaa 60
ggagtgtggg caacctgcag g 81
<210> 29
<211> 65
<212> DNA
<213> 智人(Homo sapiens)
<400> 29
gcaagtcgct gttcttccgg aagttcaggt gacccaaaat ccagcaaatg aacaagaaag 60
tgcag 65
<210> 30
<211> 171
<212> DNA
<213> 智人(Homo sapiens)
<400> 30
aacctaaaac agtggaagaa gaggaaagta atttcagctc cccactgatg ctttggcttc 60
agcaagaaca aaagcggaag gaaagcatta ctgagaaaaa acccaagaaa ggacttgttt 120
ttgaaatttc cagtgatgat ggctttcaga tctgtgcaga aagtattgaa g 171
<210> 31
<211> 75
<212> DNA
<213> 智人(Homo sapiens)
<400> 31
atgcctggaa gtcattgaca gataaagtcc aggaagctcg atcaaatgcc cgcctaaagc 60
agctctcatt tgcag 75
<210> 32
<211> 175
<212> DNA
<213> 智人(Homo sapiens)
<400> 32
gtgttaacgg tttgaggatg ctggggattc tccatgatgc agttgtgttc ctcattgagc 60
agctgtctgg tgccaagcac tgtcgaaatt acaaattccg tttccacaag ccagaggagg 120
ccaatgaacc ccccttgaac cctcacggct cagccagggc tgaagtccac ctcag 175
<210> 33
<211> 108
<212> DNA
<213> 智人(Homo sapiens)
<400> 33
gaagtcagca tttgacatgt ttaacttcct ggcttctaaa catcgtcagc ctcctgaata 60
caaccccaat gatgaagaag aggaggaggt acagctgaag tcagctcg 108
<210> 34
<211> 84
<212> DNA
<213> 智人(Homo sapiens)
<400> 34
gagggcaact agcatggatc tgccaatgcc catgcgcttc cggcacttaa aaaagacttc 60
taaggaggca gttggtgtct acag 84
<210> 35
<211> 130
<212> DNA
<213> 智人(Homo sapiens)
<400> 35
gtctcccatc catggccggg gtcttttctg taagagaaac attgatgcag gtgagatggt 60
gattgagtat gccggcaacg tcatccgctc catccagact gacaagcggg aaaagtatta 120
cgacagcaag 130
<210> 36
<211> 4928
<212> DNA
<213> 智人(Homo sapiens)
<400> 36
ggcattggtt gctatatgtt ccgaattgat gactcagagg tagtggatgc caccatgcat 60
ggaaatgctg cacgcttcat caatcactcg tgtgagccta actgctattc tcgggtcatc 120
aatattgatg ggcagaagca cattgtcatc tttgccatgc gtaagatcta ccgaggagag 180
gaactcactt acgactataa gttccccatt gaggatgcca gcaacaagct gccctgcaac 240
tgtggcgcca agaaatgccg gaagttccta aactaaagct gctcttctcc cccagtgttg 300
gagtgcaagg aggcggggcc atccaaagca acgctgaagg ccttttccag cagctgggag 360
ctcccggatt gcgtggcaca gctgaggggc ctctgtgatg gctgagctct cttatgtcct 420
atactcacat cagacatgtg atcatagtcc cagagacaga gttgaggtct cgaagaaaag 480
atccatgatc ggctttctcc tggggcccct ccaattgttt actgttagaa agtgggaatg 540
gggtccctag cagacttgcc tggaaggagc ctattataga gggttggtta tgttgggaga 600
ttgggcctga atttctccac agaaataagt tgccatcctc aggttggccc tttcccaagc 660
actgtaagtg agtgggtcag gcaaagcccc aaatggaggg ttggttagat tcctgacagt 720
ttgccagcca ggccccacct acagcgtctg tcgaacaaac agaggtctgg tggttttccc 780
tactatcctc ccactcgaga gttcacttct ggttgggaga caggattcct agcacctccg 840
gtgtcaaaag gctgtcatgg ggttgtgcca attaattacc aaacattgag cctgcaggct 900
ttgagtggga gtgttgcccc caggagcctt atctcagcca attacctttc ttgacagtag 960
gagcggcttc cctctcccat tccctcttca ctcccttttc ttcctttccc ctgtcttcat 1020
gccactgctt tcccatgctt ctttcgggtt gtaggggaga ctgactgcct gctcaaggac 1080
actccctgct gggcatagga tgtgcctgca aaaagttccc tgagcctgta agcactccag 1140
gtggggaagt ggacaggagc cattggtcat aaccagacag aatttggaaa cattttcata 1200
aagctccatg gagagtttta aagaaacata tgtagcatga ttttgtagga gaggaaaaag 1260
attatttaaa taggatttaa atcatgcaac aacgagagta tcacagccag gatgaccctt 1320
gggtcccatt cctaagacat ggttacttta ttttcccctt gttaagacat aggaagactt 1380
aatttttaaa cggtcagtgt ccagttgaag gcagaacact aatcagattt caaggcccac 1440
aacttgggga ctagaccacc ttatgttgag ggaactctgc cacctgcgtg caacccacag 1500
ctaaagtaaa ttcaatgaca ctactgccct gattactcct taggatgtgg tcaaaacagc 1560
atcaaatgtt tcttctcttc ctttccccaa gacagagtcc tgaacctgtt aaattaagtc 1620
attggatttt actctgttct gtttacagtt tactatttaa ggttttataa atgtaaatat 1680
attttgtata tttttctatg agaagcactt catagggaga agcacttatg acaaggctat 1740
tttttaaacc gcggtattat cctaatttaa aagaagatcg gtttttaata attttttatt 1800
ttcataggat gaagttagag aaaatattca gctgtacaca caaagtctgg tttttcctgc 1860
ccaacttccc cctggaaggt gtactttttg ttgtttaatg tgtagcttgt ttgtgccctg 1920
ttgacataaa tgtttcctgg gtttgctctt tgacaataaa tggagaagga aggtcaccca 1980
actccattgg gccactcccc tccttcccct attgaagctc ctcaaaaggc tacagtaata 2040
tcttgataca acagattctc ttctttcccg cctctctcct ttccggcgca acttccagag 2100
tggtgggaga cggcaatctt tacatttccc tcatctttct tacttcagag ttagcaaaca 2160
acaagttgaa tggcaacttg acatttttgc atcaccatct gcctcatagg ccactctttc 2220
ctttccctct gcccaccaag tcctcatatc tgcagagaac ccattgatca ccttgtgccc 2280
tcttttgggg cagcctgttg aaactgaagc acagtctgac cactcacgat aaagcagatt 2340
tttctctgcc tctgccacaa ggtttcagag tagtgtagtc caagtagagg gtggggcacc 2400
cttttctcgc cgcaagaagc ccattcctat ggaagtctag caaagcaata cgactcagcc 2460
cagcactctc tgccccagga ctcatggctc tgctgtgcct tccatcctgg gctcccttct 2520
ctcctgtgac cttaagaact ttgtctggtg gctttgctgg aacattgtca ctgttttcac 2580
tgtcatgcag ggagcccagc actgtggcca ggatggcaga gacttccttg tcatcatgga 2640
gaagtgccag caggggactg ggaaaagcac tctacccaga cctcacctcc cttcctcctt 2700
ttgcccatga acaagatgca gtggccctag gggttccact agtgtctgct ttcctttatt 2760
attgcactgt gtgaggtttt tttgtaaatc cttgtattcc tatttttttt aaagaaaaaa 2820
aaaaaacctt aagctgcatt tgttactgaa atgattaatg cactgatggg tcctgaattc 2880
accttgagaa agacccaaag gccagtcagg gggtgggggg aactcagcta aatagaccta 2940
gttactgccc tgctaggcca tgctgtactg tgagcccctc ctcactctct accaacccta 3000
aaccctgagg acaggggagg aacccacagc ttccttctcc tgccagctgc agatggtttg 3060
ccttgccttt ccacccccta attgtcaacc acaaaaatga gaaattcctc ttctagctca 3120
gccttgagtc cattgccaaa ttttcagcac acctgccagc aacttggggg aataagcgaa 3180
ggtttcccta caagagggaa agaaggcaaa aacggcacag ctatctccaa acacatctga 3240
gttcatttca aaagtgacca agggaatctc cgcacaaaag tgcagattga ggaattgtga 3300
tgggtcattc ccaagaatcc cccaaggggc atcccaaatc cctgaggagt aacagctgca 3360
aacctggtca gttctcagtg agagccagct cacttatagc tttgctgcta gaacctgttg 3420
tggctgcatt tcctggtggc cagtgacaac tgtgtaacca gaatagctgc atggcgctga 3480
ccctttggcc ggaacttggt ctcttggctc cctccttggc cacccaccac ctctcgcaca 3540
gcccctctgt ttttacacca ataacaagaa ttaaggggga agccctggca gctatacgtt 3600
ttcaaccaga ctcctttgcc gggacccagc ccgccaccct gctcgcctcc gtcaaacccc 3660
cggccaatgc agtgagcacc atgtagctcc cttgatttaa aaaaaataaa aaataaaaaa 3720
aaaaggaaaa aaaaatacaa cacacacaca aaaataaaaa aaatattcta atgaatgtat 3780
ctttctaaag gactgacgtt caatcaaata tctgaaaata ctaaaggtca aaaccttgtc 3840
agatgttaac ttctaagttc ggtttgggat tttttttttt taatagaaat caagttgttt 3900
ttgtttttaa ggaaaagcgg gtcattgcaa agggctgggt gtaattttat gtttcatttc 3960
cttcatttta aagcaataca aggttatgga gcagatggtt ttgtgccgaa tcatgaatac 4020
tagtcaagtc acacactctg gaaacttgca actttttgtt tgttttggtt ttcaaataaa 4080
tataaatatg atatatatag gaactaatat agtaatgcac catgtaacaa agcctagttc 4140
agtccatggc ttttaattct cttaacacta tagataagga ttgtgttaca gttgctagta 4200
gcggcaggaa gatgtcaggc tcactttcct ctgattcccg aaatgggggg aacctctaac 4260
cataaaggaa tggtagaaca gtccattcct cggatcagag aaaaatgcag acatggtgtc 4320
acctggattt ttttctgccc atgaatgttg ccagtcagta cctgtcctcc ttgtttctct 4380
atttttggtt atgaatgttg gggttaccac ctgcatttag gggaaaattg tgttctgtgc 4440
tttcctggta tcttgttccg aggtactcta gttctgtctt tcaaccaaga aaatagaatt 4500
gtggtgtttc ttttattgaa cttttaacag tctctttagt aaatacaggt agttgaataa 4560
ttgtttcaag agctcaacag atgacaagct tcttttctag aaataagaca ttttttgaca 4620
actttatcat gtataacaga tctgtttttt ttccttgtgt tcttccaagc ttctggttag 4680
agaaaaagag aaaaaaaaaa aaggaaaatg tgtctaaagt ccatcagtgt taactccctg 4740
tgacagggat gaaggaaaat actttaatag ttcaaaaaat aataatgctg aaagctctct 4800
acgaaagact gaatgtaaaa gtaaaaagtg tacatagttg taaaaaaaag gagtttttaa 4860
acatgtttat tttctatgca ctttttttta tttaagtgat agtttaatta ataaacatgt 4920
caagttta 4928
<210> 37
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 37
agaggtctct gatgagtcac tttcttgacc cttttctttt ggtttttgtt ttacagggat 60
<210> 38
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 38
agaggtctct gatgagtcac tttcttgacc cttttctttt ggtttttgtt ttacagggat 60
<210> 39
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 39
atctgagcca aaacctaaga attgctcatc cttttctttt ggtttttgtt ttacagggat 60
<210> 40
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 40
catcttctga gccagcaatt gatgacttgt cttttctttt ggtttttgtt ttacagggat 60
<210> 41
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 41
atctgagcca aaacctaaga attgctcatc cttttctttt ggtttttgtt ttacagggat 60
<210> 42
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 42
atctgagcca aaacctaaga attgctcatc cttttctttt ggtttttgtt ttacagggat 60
<210> 43
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 43
atctgagcca aaacctaaga attgctcatc cttaaagtcc actctgatcc tgtggactcc 60
<210> 44
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 44
atctgagcca aaacctaaga attgctcatc ctgattctgg tggtggaggc tgctttttct 60
<210> 45
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 45
atctgagcca aaacctaaga attgctcatc cttttctttt ggtttttgtt ttacagggat 60
<210> 46
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 46
atctgagcca aaacctaaga attgctcatc cttttctttt ggtttttgtt ttacagggat 60
<210> 47
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 47
catcttctga gccagcaatt gatgacttgt cttttctttt ggtttttgtt ttacagggat 60

Claims (11)

1.一种检测基因重排的方法,其特征在于,所述方法包括:
获取待测样本的待比对序列;
将所述待比对序列与参考基因组进行比对,得到异常比对序列,所述异常比对序列包括比对位置异常的序列,比对方向异常的序列和未比对上所述参考基因组的序列;
根据所述异常比对序列在所述参考基因组上的所述比对位置和比对方向,确定候选断点的位置;
利用所述待比对序列中支持所述候选断点的位置的序列进行组装,保留组装结果中与所述候选断点的位置的序列信息一致的断点,记为所述基因重排的断点;
根据所述异常比对序列在所述参考基因组上的比对位置和比对方向,确定候选断点的位置包括:
将所述异常比对序列进行序列切分后再与所述参考基因组比对,根据切分后的所述异常比对序列在所述参考基因组上的所述比对位置和所述比对方向,确定所述候选断点的位置;
根据所述异常比对序列在所述参考基因组上的比对位置和比对方向,确定所述候选断点的位置包括:
将所述异常比对序列进行序列切分后再与所述参考基因组比对,获得能同时跨越潜在断点两侧第一长度的序列,记为第一标记序列,而能同时跨越所述潜在断点两侧,但长度小于第二长度的序列作为第二标记序列;
根据所述第一标记序列上的所述潜在断点的位置模拟发生基因重排的断点参考序列;
将所述待比对序列与所述断点参考序列进行比对,并对能够比对上所述断点参考序列且跨所述断点参考序列上的断点的序列进行标记,记作支持断点的断点候选序列;
将所述断点候选序列上的断点的位置确定为所述候选断点的位置。
2.根据权利要求1所述的方法,其特征在于,将所述断点候选序列上的断点的位置确定为所述候选断点的位置包括:
根据测序质量和支持序列数对所述断点候选序列进行校正,得到校正后的所述候选断点序列;
将校正后的所述候选断点序列上的断点的位置确定为所述候选断点的位置。
3.根据权利要求1所述的方法,其特征在于,将所述断点候选序列上的断点的位置确定为所述候选断点的位置包括:
根据支持所述断点参考序列上的断点的所述第一标记序列、所述第二标记序列以及所述待比对序列中支持跨所述断点参考序列上的断点的成对序列,过滤所述断点候选序列中的假阳性断点序列,得到过滤后的所述候选断点序列;
将过滤后的所述候选断点序列上的断点的位置确定为所述候选断点的位置。
4.根据权利要求1所述的方法,其特征在于,利用所述待比对序列中支持所述候选断点的位置的序列进行组装包括:
根据支持所述断点参考序列上的断点的所述第一标记序列、所述第二标记序列以及所述待比对序列中支持跨所述断点参考序列上的断点的成对序列进行组装,保留组装结果中与所述候选断点的位置的序列信息一致的断点,记为所述基因重排的断点。
5.根据权利要求1至4中任一项所述的方法,其特征在于,获取待测样本的待比对序列包括:
构建所述待测样本的测序文库;
对所述测序文库进行高通量测序,获得测序数据;
对所述测序数据进行预处理,得到所述待测样本的待比对序列。
6.根据权利要求5所述的方法,其特征在于,所述测序文库为杂交捕获文库。
7.根据权利要求6所述的方法,其特征在于,通过SEQIDNO:1至SEQ ID NO:36的捕获探针获得所述杂交捕获文库。
8.根据权利要求1至4中任一项所述的方法,其特征在于,在获得所述基因重排的断点之后,所述方法还包括对发生重排的所述基因进行定量的步骤,所述定量的步骤包括:
根据所述基因重排的断点的序列信息,统计所述待比对序列中支持所述基因重排的断点的序列数,记为marker序列数;
将所述marker序列数与内参基因的序列数相除,所得比值即为发生重排的所述基因相对于所述内参基因的表达丰度。
9.一种检测基因重排的装置,其特征在于,所述装置用于存储或者运行模块,或者所述模块为所述装置的组成部分;其中,所述模块为软件模块,所述软件模块为一个或多个,所述软件模块用于执行权利要求1至8中任一项所述的检测基因重排的方法。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至8中任意一项所述的检测基因重排的方法。
11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的检测基因重排的方法。
CN201811643484.6A 2018-12-29 2018-12-29 检测基因重排的方法、装置、存储介质及处理器 Active CN109712672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811643484.6A CN109712672B (zh) 2018-12-29 2018-12-29 检测基因重排的方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811643484.6A CN109712672B (zh) 2018-12-29 2018-12-29 检测基因重排的方法、装置、存储介质及处理器

Publications (2)

Publication Number Publication Date
CN109712672A CN109712672A (zh) 2019-05-03
CN109712672B true CN109712672B (zh) 2021-05-25

Family

ID=66260266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811643484.6A Active CN109712672B (zh) 2018-12-29 2018-12-29 检测基因重排的方法、装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN109712672B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942807A (zh) * 2019-11-20 2020-03-31 北京橡鑫生物科技有限公司 检测基因重排的方法与装置
CN111081318B (zh) * 2019-12-06 2023-06-06 人和未来生物科技(长沙)有限公司 一种融合基因检测方法、***和介质
CN111524548B (zh) * 2020-07-03 2020-10-23 至本医疗科技(上海)有限公司 用于检测igh重排的方法、计算设备和计算机存储介质
CN114694753B (zh) * 2022-03-18 2023-04-07 深圳华大医学检验实验室 一种核酸序列比对方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105339506A (zh) * 2013-03-15 2016-02-17 基因组影像公司 用于检测重排基因组序列中的断点的方法
CN106951732A (zh) * 2010-05-25 2017-07-14 加利福尼亚大学董事会 Bambam:高通量测序数据的平行比较分析
CN107480472A (zh) * 2017-07-21 2017-12-15 广州漫瑞生物信息技术有限公司 一种基因融合的检测方法和装置
CN108256295A (zh) * 2016-12-29 2018-07-06 安诺优达基因科技(北京)有限公司 一种用于检测基因融合的装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298892B (zh) * 2014-09-18 2017-05-10 天津诺禾致源生物信息科技有限公司 基因融合的检测装置和方法
CN104794371B (zh) * 2015-04-29 2018-02-09 深圳华大生命科学研究院 检测逆转座子***多态性的方法和装置
KR20180107102A (ko) * 2015-12-16 2018-10-01 그릿스톤 온콜로지, 인코포레이티드 신생항원 동정, 제조, 및 용도
CN108830044B (zh) * 2018-06-05 2020-06-26 序康医疗科技(苏州)有限公司 用于检测癌症样本基因融合的检测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951732A (zh) * 2010-05-25 2017-07-14 加利福尼亚大学董事会 Bambam:高通量测序数据的平行比较分析
CN105339506A (zh) * 2013-03-15 2016-02-17 基因组影像公司 用于检测重排基因组序列中的断点的方法
CN108256295A (zh) * 2016-12-29 2018-07-06 安诺优达基因科技(北京)有限公司 一种用于检测基因融合的装置
CN107480472A (zh) * 2017-07-21 2017-12-15 广州漫瑞生物信息技术有限公司 一种基因融合的检测方法和装置

Also Published As

Publication number Publication date
CN109712672A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109712672B (zh) 检测基因重排的方法、装置、存储介质及处理器
JP7051900B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
KR102356323B1 (ko) 서열 변이체 콜에 대한 검증방법 및 시스템
Fruciano et al. Genetic linkage of distinct adaptive traits in sympatrically speciating crater lake cichlid fish
CN112218956A (zh) 用于解析核酸混合物和混合细胞群体的方法和试剂及相关应用
CN107267613A (zh) 测序数据处理***和smn基因检测***
CN112349346A (zh) 检测基因组区域中的结构变异的方法
CN113621716A (zh) 结核分枝杆菌多线耐药基因鉴定的方法和装置
CN115083521A (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及***
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
KR102347463B1 (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
CN110942806A (zh) 一种血型基因分型方法和装置及存储介质
CN109390039B (zh) 一种统计dna拷贝数信息的方法、装置及存储介质
KR101815529B1 (ko) 휴먼 하플로타이핑 시스템 및 방법
CN112513292B (zh) 基于高通量测序检测同源序列的方法和装置
US20170226588A1 (en) Systems and methods for dna amplification with post-sequencing data filtering and cell isolation
CN115961054B (zh) 用于华南虎个体识别和/或亲子鉴定的遗传标记及应用
Xu et al. Analysis of population-genetic properties of copy number variations
RU2759953C2 (ru) Способ выявления вариаций и изменений числа копий в генах BRCA1 и BRCA2 по данным таргетного массового параллельного секвенирования генома
JP7497879B2 (ja) 核酸混合物および混合細胞集団を解析するための方法および試薬ならびに関連用途
JP7362901B2 (ja) 塩基のメチル化度の算出方法及びプログラム
US20230332220A1 (en) Random insertion genome reconstruction
US6963805B2 (en) Methods for identifying the evolutionarily conserved sequences
US20230332205A1 (en) Linked dual barcode insertion constructs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant