CN114496087A - 用于确定阳性断点的方法、计算设备和计算机存储介质 - Google Patents

用于确定阳性断点的方法、计算设备和计算机存储介质 Download PDF

Info

Publication number
CN114496087A
CN114496087A CN202210073366.6A CN202210073366A CN114496087A CN 114496087 A CN114496087 A CN 114496087A CN 202210073366 A CN202210073366 A CN 202210073366A CN 114496087 A CN114496087 A CN 114496087A
Authority
CN
China
Prior art keywords
mismatch sequence
predetermined
sequence
breakpoint
slope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210073366.6A
Other languages
English (en)
Inventor
王凯
陈惠�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhiben Medical Laboratory Co ltd
Origimed Technology Shanghai Co ltd
Original Assignee
Shanghai Zhiben Medical Laboratory Co ltd
Origimed Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhiben Medical Laboratory Co ltd, Origimed Technology Shanghai Co ltd filed Critical Shanghai Zhiben Medical Laboratory Co ltd
Priority to CN202210073366.6A priority Critical patent/CN114496087A/zh
Publication of CN114496087A publication Critical patent/CN114496087A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开涉及一种用于确定阳性断点的方法、计算设备和计算机存储介质。该方法包括:获取跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长,以便在支持读长中确定符合错配序列一致性条件的读长;记录符合预定错配序列一致性条件的读长中的每一读长的错配序列长度,以便确定与预定错配序列相匹配的读长,预定错配序列是基于所记录的错配序列长度而确定的;基于错配序列长度,针对与预定错配序列相匹配的读长进行排序,以便计算关于同一断点的斜率;以及基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点。本公开有助于对假阳性的快速正确识别,能够自动并准确地判断断点的真假。

Description

用于确定阳性断点的方法、计算设备和计算机存储介质
技术领域
本公开总体上涉及生物信息处理,并且具体地,涉及用于确定阳性断点的方法、计算设备和计算机存储介质。
背景技术
传统的确定阳性断点的方案主要包括两种。第一种是利用重排calling软件计算断点附近碱基的统计学分布类型来确认疑似断点。第二种是通过人工利用IGV软件判读支持读长(support reads)的错配(mismatch)参差情况。
在第一种方案中,主要根据不同跨断点支持读长错配部分相同基因组坐标位的碱基相同,并且唯一比对到另一重组基因断点位置来确认断点,而不进行断点真假判断,因此会产生很多关于断点的假阳性判断结果。
在第二种方案中,主要经由基因组位置排序后,通过确定不同读长(reads)的起始或终止点的依次有序错开来确认断点。由于需要通过人工利用IGV软件判读,因此判断耗时耗力,通量低,难以满足大批量临床需求。
综上,传统的确定阳性断点的方案存在的不足之处在于,难以自动并准确地判断断点的真假。
发明内容
本公开提供一种用于确定阳性断点的方法、计算设备和计算机存储介质,能够自动并准确地判断断点的真假。
根据本公开的第一方面,提供了一种确定阳性断点的方法。该方法包括:获取跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长,以便在支持读长中确定符合错配序列一致性条件的读长;记录符合预定错配序列一致性条件的读长中的每一读长的错配序列长度,以便确定与预定错配序列相匹配的读长,预定错配序列是基于所记录的错配序列长度而确定的;基于错配序列长度,针对与预定错配序列相匹配的读长进行排序,以便计算关于同一断点的斜率;以及基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点。
根据本发明的第二方面,还提供了一种计算设备,该设备包括:存储器,被配置为存储一个或多个计算机程序;以及处理器,耦合至存储器并且被配置为执行一个或多个程序使装置执行本公开的第一方面的方法。
根据本公开的第三方面,还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。
在一些实施例中,在支持读长中确定符合错配序列一致性条件的读长包括:响应于确定支持读长的错配序列在相同基因组坐标位的碱基相同,确定当前支持读长符合错配序列一致性条件的读长。
在一些实施例中,基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点包括:确定斜率是否为零;以及响应于确定斜率为零,确定与斜率相关的同一断点为假阳性断点。
在一些实施例中,基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点包括:响应于确定斜率不为与零,确定与斜率相关的同一断点的断点数量是否大于或者等于第一预定数量阈值;响应于确定断点数量大于或者等于第一预定数量阈值,确定与预定错配序列相匹配的读长的数量是否小于第二预定数量阈值之间;以及响应于与预定错配序列相匹配的读长的数量小于第二预定数量阈值,确定与斜率相关的同一断点为假阳性断点。
在一些实施例中,基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点包括:响应于确定斜率不为零并且与不为与零的斜率相关的断点数量在第三预定数量阈值和第一数量阈值之间,确定每个断点的与预定错配序列相匹配的读长的数量是否均大于或者等于第四预定数量阈值,第一数量阈值大于第三预定数量阈值;响应于确定每个断点的与预定错配序列相匹配的读长的数量均大于或者等于第四预定数量阈值,确定错配序列是否是碱基不平衡的重复单位序列;以及响应于确定错配序列不是碱基不平衡的重复单位序列,则确定与斜率相关的同一断点为真阳性断点。
在一些实施例中,基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点包括:响应于确定斜率不为并且满足以下任一条件,确定与斜率相关的同一断点为真阳性断点:斜率在第一预定斜率范围之内,并且与预定错配序列相匹配的读长的数量小于或者等于预定读长数量阈值;以及斜率大于或者等于第二预定斜率阈值,并且与预定错配序列相匹配的读长的数量小于或者等于预定读长数量阈值。
在一些实施例中,基于错配序列长度,针对与预定错配序列相匹配的读长进行排序,以便计算关于同一断点的斜率包括:按照错配序列长度增加的顺序,针对与预定错配序列相匹配的读长进行升序排序;以及基于经排序的与预定错配序列相匹配的读长的错配序列长度和排序顺序数据,计算关于同一断点的斜率。
在一些实施例中,基于经排序的与预定错配序列相匹配的读长的错配序列长度和排序顺序数据,计算关于同一断点的斜率包括:基于经排序的与预定错配序列相匹配的读长的错配序列长度和排序顺序数据,经由线性回归函数,计算关于同一断点的斜率。
在一些实施例中,获取跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长包括:基于关于待测样本的测序序列与全基因组参考序列的对比结果数据,抽取符合以下两项条件的支持读长,以便形成子比对序列:重排两个基因区间的各有的基因组聚类后的长度均在预定范围之内;以及重排两个基因区间具有失调读长的成对关系;基于子比对序列,确定跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长。在一些实施例中,预定错配序列是基于所记录的错配序列长度而确定的包括以下任一项:预定错配序列是基于所记录的错配序列长度中的最小错配序列长度而确定的;预定错配序列是基于所记录的错配序列长度中的最大错配序列长度而确定的;或者预定错配序列是基于所记录的错配序列长度中的出现频率最高的错配序列长度而确定的。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
图1示出了根据本公开的实施例的用于实施确定阳性断点的方法的***的示意图。
图2示出了根据本公开的实施例的用于确定阳性断点的方法的流程图。
图3示出了根据本公开的实施例的用于确定阳性断点的方法的流程图。
图4示出了根据本公开的实施例的用于计算关于同一断点的斜率的方法的流程图。
图5示出了用于计算关于同一断点的斜率的方法的示意图。
图6示出了关于同一断点的斜率为零的情形的示意图。
图7示出了用于计算关于同一断点的斜率的方法的示意图;
图8示意性示出了适于用来实现本公开实施例的电子设备的框图;以及。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
关于比对信息来源,以下实施例中,在进行之前,先对待测样本通过探针捕获得到的各个测序片段进行双末端测序得到双末端数据,该双末端数据包括一对对成对的读长;再将获得的双末端数据比对到参考基因组上得到比对信息。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
另外,在本文中使用的术语“测序片段”,其通常是将来自目标个体的待测样本经过测序平台适配的文库构建流程构建出来的RNA文库,其组成是一定长度的RNA随机片段。
在本文中使用的术语“读长”表示对测序片段末端测序得到的测序序列。术语“成对的读长”表示:双末端测序得到的来自同一个测序片段两端的两个测序序列,根据成对的读长在全基因组参考序列上比对的结果可以将成对的读长分为不同类型的成对的读长。术语“失调读长对”或者“成对失调读长”表示:上述比对的结果显示成对的读长不能按正常的映射间距、方向比对到全基因组参考序列上,或其中的一个或两个读长都不能完整地在一个位置比对到全基因组参考序列上,或者两个成对的读长不能比对在同一个染色体上,通常指PE discordant reads和clipped reads对。
术语“断点”表示:一个读长上,与参考序列连续匹配和与参考序列连续不匹配的交界处碱基所在的位点称为该读长的断点。术语“同一断点”表示:断点在全基因组参考序列上映射到同一位置的所有断点统称为同一断点。
如前文描述,对于传统的利用重排calling软件计算断点附近碱基的统计学分布类型来确认疑似断点的方案,其主要根据不同跨断点支持读长错配部分相同基因组坐标位的碱基相同,并且唯一比对到另一重组基因断点位置来确认断点,而不进行断点真假判断,因此会产生很多关于断点的假阳性判断结果。而对于传统的、主要通过人工利用IGV软件判读支持读长的错配参差情况的方案,需要人工通过确定不同读长的起始或终止点的依次有序错开来确认断点,因此判断耗时耗力,通量低,难以满足大批量临床需求。因此,传统的确定阳性断点的方案难以自动并准确地判断断点的真假。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于确定阳性断点的方案。该方案包括:确定跨同一断点的支持读长中符合错配序列一致性条件的读长,以及确定与预定错配序列相匹配的读长,本公开可以获得由多条符合错配序列一致性条件的reads组成的代表支持该同一重排的多个随机事件。另外,通过针对所确定与预定错配序列匹配的读长进行排序以便计算关于同一断点的斜率,以及基于所计算的斜率和与预定错配序列相匹配的读长的数量确定阳性断点,本公开可以自动并高效地获得用于指示断点一边的错配序列读长(mismatch reads,或softclip reads)的一致性和参差情况的数据,进而自动并准确地判断断点的真假。
图1示出了根据本公开的实施例的用于实施确定阳性断点的方法的***100的示意图。如图1所示,***100例如包括计算设备110、测序设备130、生信服务器140和网络150。计算设备110可以通过网络150以有线或者无线的方式与测序设备130、生信服务器140进行数据交互。
关于测序设备130,其例如用于针对来自目标个体的待测样本进行测序,例如,针对待测样本通过探针捕获得到的各个测序片段进行双末端测序得到双末端测序数据。测序设备130还用于将关于待测样本的测序序列(例如,双末端数据)发送给计算设备110。在一些实施例中,关于待测样本的测序序列来自生信服务器140。
关于计算设备110,其例如用于获取跨同一断点的所有支持读长,以便在支持读长中确定符合错配序列一致性条件的读长;记录符合预定错配序列一致性条件的读长中的每一读长的错配序列长度,以便确定与预定错配序列相匹配的读长。计算设备110还用于基于错配序列长度,针对与预定错配序列相匹配的读长进行排序,以便计算关于同一断点的斜率;以及基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点。在一些实施例中,计算设备110可以具有一个或多个处理单元,包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外,在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包括:符合错配序列一致性条件读长确定单元112、与预定错配序列相匹配的读长确定单元114、关于同一断点的斜率计算单元116、阳性断点确定单元118。上述符合错配序列一致性条件读长确定单元112、匹配预定错配序列的读长单元114、同一断点的斜率计算单元116、阳性断点确定单元118可以配置在一个或者多个计算设备110上。
关于符合错配序列一致性条件读长确定单元112,其用于获取跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长,以便在支持读长中确定符合错配序列一致性条件的读长。
关于与预定错配序列相匹配的读长确定单元114,其用于记录符合预定错配序列一致性条件的读长中的每一读长的错配序列长度,以便确定与预定错配序列相匹配的读长,预定错配序列是基于所记录的错配序列长度而确定的。
关于同一断点的斜率计算单元116,其用于基于错配序列长度,针对与预定错配序列相匹配的读长进行排序,以便计算关于同一断点的斜率。
关于阳性断点确定单元118,其用于基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点。
以下将结合图2描述根据本公开的实施例的用于确定阳性断点的方法200。图2示出了根据本公开的实施例的用于确定阳性断点的方法200的流程图。应当理解,方法200例如可以在图8所描述的电子设备800处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
在步骤202处,计算设备110获取跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长,以便在支持读长中确定符合错配序列一致性条件的读长。如图5所示,竖直箭头522所指示的多个不同的支持读长所跨的同一断点。同一断点的左侧指示不同支持读长中比对上第一基因组的基因区段。同一断点的右侧指示不同支持读长中未比对上第二基因组的错配序列。
关于获取所有支持读长的方法,其例如包括:首先,计算设备110获取双末端测序数据与全基因组参考序列的比对结果数据(该比对结果数据例如为input bam文件)。然后,计算设备110基于比对结果数据,抽取符合以下两项条件的支持读长,以便形成子比对序列:重排两个基因区间的各有的基因组聚类后的长度均在预定范围之内;以及重排两个基因区间具有失调读长的成对关系。该子比对序列例如是关于重排基因的subbam文件。之后,计算设备110基于子比对序列,确定跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长。例如,基于关于重排基因的subbam文件计算soft clipreads,即获取跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长。关于预定范围,其例如而不限于是1000bp。
关于确定符合错配序列一致性条件的读长的方法,其例如包括:计算设备110确定支持读长的错配序列是否在相同基因组坐标位的碱基相同;如果计算设备110确定支持读长的错配序列在相同基因组坐标位的碱基相同,确定当前支持读长符合错配序列一致性条件的读长。如图5所示,在不同soft clip reads的错配序列中,在每个竖向相同的基因组坐标位上的碱基是相同的,则不同的soft clip reads为符合错配序列一致性条件的读长。
在步骤204处,计算设备110记录符合预定错配序列一致性条件的读长中的每一读长的错配序列长度,以便确定与预定错配序列相匹配的读长,预定错配序列是基于所记录的错配序列长度而确定的。
在一些实施例中,预定错配序列是基于所记录的错配序列长度中的最小错配序列长度而确定的。例如,具有最小错配序列长度的错配序列为ATC,确定该预定错配序列为ATC,计算设备110以该预定错配序列ATC为参考对象来匹配符合预定错配序列一致性条件的读长中的每一读长的错配序列,以便确定与预定错配序列相匹配的读长。例如错配序列ATCG和ATCT分别所在的读长均被确定与预定错配序列ATC相匹配的读长。通过采用上述手段,即通过将最小错配序列长度的错配序列作为预定错配序列来选取匹配的读长,本公开可以基于相对宽松的条件匹配上更多的错配序列,避免个别断点因为对比质量等原因而导致的未匹配上的情形,因而有利于避免关于断点的漏检。
在一些实施例中,预定错配序列是基于所记录的错配序列长度中的最大错配序列长度而确定的。例如,具有最大错配序列长度的错配序列为ATGCTGA。错配序列ATGCT所在读长未被确定为与预定错配序列ATGCTGA相匹配的读长,错配序列ATGCTGAC所在读长则被确定与预定错配序列ATGCTGA相匹配的读长。通过采用上述手段,即通过将最大错配序列长度的错配序列作为预定错配序列来选取匹配的读长,本公开可以基于更为严格的条件匹配上更精确的错配序列,有利于提高判断结果的准确性。
应当理解,在一些实施例中,预定错配序列是基于每一读长的错配序列长度中的出现频率最高的错配序列长度而确定的。
关于确定与预定错配序列相匹配的读长的方法,其例如包括:计算设备110将符合预定错配序列一致性条件的多条reads得到的断点进行比较,使得基于跨同一断点的不同reads生成一个数据集,计算该数据集里所抽提的错配序列长度(错配序列长度例如由错配碱基的数量所表征),由此,得到跨同一断点的不同reads的错配序列长度;将错配序列长度最小的reads所对应的错配序列确定为用于预定错配序列的字符串,将剩余的reads的错配序列中与该字符串相匹配,以便记录下与预定错配序列相匹配的错配序列的长度。该错配序列的长度例如是错配序列中与字符串相匹配的碱基的数量。
在步骤206处,计算设备110基于错配序列长度,针对与预定错配序列相匹配的读长进行排序,以便计算关于同一断点的斜率。
关于计算关于同一断点的斜率的方法,其例如包括:计算设备110按照错配序列的长度增加的顺序,针对与预定错配序列相匹配的读长进行升序排序;以及基于经排序的错配序列的长度与排序顺序数据,计算关于同一断点的斜率。下文将结合图4和图5说明用于计算关于同一断点的斜率的方法,在此,不再赘述。
在步骤208处,计算设备110基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点。
关于确定阳性断点的方法,其例如包括:计算设备110确定斜率是否为零;如果计算设备110确定斜率为零,确定与斜率相关的同一断点为假阳性断点。例如,如果计算设备110针对融合基因A-B确定斜率为零,则表明融合基因A-B的断点是平齐的,图6示出了关于同一断点的斜率为零的情形的示意图,如图6所示,此时则表明与该为零的斜率相关的同一断点为假阳性断点。
如果计算设备110确定斜率不为与零,确定与斜率相关的同一断点的断点数量是否大于或者等于第一预定数量阈值(该第一预定数量阈值例如而不限于是4);如果确定断点数量大于或者等于第一预定数量阈值,确定与预定错配序列相匹配的读长的数量是否小于第二预定数量阈值(该第二预定数量阈值例如而不限于是30);如果所确定的匹配预定错配序列的读长的数量小于第二预定数量阈值,确定与斜率相关的同一断点为假阳性断点。例如,如果计算设备110针对融合基因A-B确定斜率不为零的断点个数大于或者等于4,并且所确定的匹配预定错配序列的最多的读长的数量小于30,则表明所确定的匹配预定错配序列的最多的读长中的断点杂乱,确定与该斜率相关的同一断点为假阳性断点。
在一些实施例中,如果计算设备110确定斜率不为零并且与不为与零的斜率相关的断点数量在第三预定数量阈值、(该第三预定数量阈值例如而不限于是2)和第一数量阈值(该第一预定数量阈值例如而不限于是4)之间,确定每个断点的与预定错配序列相匹配的读长的数量是否均大于或者等于第四预定数量阈值,第一数量阈值大于第三预定数量阈值;如果确定每个断点的与预定错配序列相匹配的读长的数量均大于或者等于第四预定数量阈值,确定错配序列是否是碱基不平衡的重复单位序列(该第四预定数量阈值例如而不限于是5),确定错配序列是否是碱基不平衡的重复单位序列;以及如果计算设备110确定错配序列不是碱基不平衡的重复单位序列,则确定与斜率相关的同一断点为真阳性断点。例如,如果计算设备110针对融合基因A-B确定斜率不为零的断点个数在2至4之间,并且每个断点的匹配预定错配序列的读长的数量均大于或者等于5,并且错配序列不是碱基不平衡的重复单位序列,则确定与斜率相关的同一断点为真阳性断点。
在上述方案中,通过确定跨同一断点的支持读长中符合错配序列一致性条件的读长,以及确定与预定错配序列匹配的读长,本公开可以获得由多条符合错配序列一致性条件的reads组成的代表支持该同一重排的多个随机事件。另外,通过针对所与预定错配序列匹配的读长进行排序以便计算关于同一断点的斜率,以及基于所计算的斜率和与预定错配序列相匹配的读长的数量确定阳性断点,本公开可以自动并高效地获得用于指示断点一边的错配读长(mismatch reads,或soft clip reads)的一致性和参差情况的数据,进而自动并准确地判断断点的真假。试验数据表明,针对融合基因A-B,基于对应断点的斜率和支持该斜率的错配序列的读长的数量,本公开确定阳性断点的准确率能够达到95%。
以下将结合图3描述根据本公开的实施例的用于确定阳性断点的方法300。图3示出了根据本公开的实施例的用于确定阳性断点的方法300的流程图。应当理解,方法300例如可以在图8所描述的电子设备800处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法300还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
在步骤302处,计算设备110确定斜率是否为零。如果计算设备110确定斜率为零,则调转至步骤308处,确定与斜率相关的同一断点为假阳性断点。
在步骤304处,如果计算设备110确定斜率不为零,确定第一预定条件是否满足,第一预定条件包括以下任一项:斜率在第一预定斜率范围之内,并且与预定错配序列相匹配的读长的数量小于或者等于预定读长数量阈值;以及斜率大于或者等于第二预定斜率阈值,并且与预定错配序列相匹配的读长的数量小于或者等于预定读长数量阈值。
在步骤306处,如果计算设备110确定第一预定条件满足,确定与斜率相关的同一断点为真阳性断点。
应当理解,当斜率适中(例如斜率在第一预定斜率范围之内)并且所确定的与预定错配序列匹配的读长的数量较少(例如,小于或者等于预定读长数量阈值),错配序列的最长长度适中,错配序列的长度之间的距离大且相对平均,因而真阳性断点的概率大。当所计算的斜率较大并且所确定的与预定错配序列匹配的读长的数量较少的时候,错配序列的最长长度较大,错配序列的长度之间的距离大,因而真阳性断点的概率大。
如果计算设备110确定斜率较小并且所确定的与预定错配序列匹配的读长的数量较多的时候,则说明错配序列的最长长度较短并且不同错配序列的长度之间的长度差较小,则假阳概率大。如果计算设备110确定斜率适中并且所确定的匹配预定错配序列的读长的数量较多的时候,说明错配序列的最长长度适中并且不同错配序列的长度之间的长度差较小,则假阳概率大。如果计算设备110确定斜率较大并且所确定的与预定错配序列匹配的读长的数量较多的时候,则说明错配序列的最长长度较多并且不同错配序列的长度之间的长度差较小,则假阳概率大。如果计算设备110确定斜率较小并且所确定的匹配预定错配序列的读长的数量较少的时候,则说明错配序列的最长长度较短,则假阳概率大。
以下将结合图4、图5和图7描述根据本公开的实施例的用于确定阳性断点的方法400。图4示出了根据本公开的实施例的用于确定阳性断点的方法400的流程图。图7示出了用于计算关于同一断点的斜率的方法的示意图。应当理解,方法400例如可以在图8所描述的电子设备800处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法40还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
在步骤402处,计算设备110按照错配序列的长度增加的顺序,针对确定匹配预定错配序列的读长进行升序排序。例如,计算设备110根据匹配预定错配序列的错配序列的长度从小到大的顺序进行排序,由此,得到跨同一断点的、并且错配序列一致的各个reads的错配序列的长度信息。图5示出了,根据与预定错配序列匹配的读长的错配序列长度从小到大的顺序排序后的、跨同一断点的各个reads。
在步骤404处,计算设备110基于经排序的与预定错配序列相匹配的读长的错配序列长度和排序顺序数据,计算关于同一断点的斜率。例如,基于经排序的错配序列的长度和对应的排序顺序数据,经由线性回归函数,确定最佳拟合直线,以便获取对应的线性回归函数的系数;基于该系数,确定关于同一断点的斜率。
以下结合公式(1)示例经由一般线性回归计算得到关于同一断点的斜率的方法。
Figure BDA0003483063470000131
在上述公式(1)中,
Figure BDA0003483063470000132
代表错配序列的长度信息。x代表对应的reads的排序顺序数据。p代表第p个排序顺序数据。w=[w1,w2…wp]为系数。w0代表常数。
例如,如图7所示,计算设备110以错配序列长度作为y变量,以对应的reads的排序顺序数据作为x变量。图7中的每个点指示对应的reads错配序列排序顺序所对应的错配序列长度。例如,标记702指示按照reads的错配序列长度从小到大的顺序排第一的reads的错配序列长度为3、标记704指示按照reads的错配序列长度从小到大的顺序排第二的reads的错配序列长度为4,以此类推,标记706指示按照reads的错配序列长度从小到大的顺序排第N的reads的错配序列长度为M。经由线性回归函数,确定最佳拟合直线708,以便获取对应的线性回归函数的系数w;以及基于该系数w,确定关于同一断点的斜率。
在上述方案中,本公开通过所计算的斜率大小便捷地获得能够抽象指示支持读长的错配序列的参差情况的信息,以利于***至少基于斜率自动识别支持读长的错配序列的参差情况。
图8示意性示出了适于用来实现本公开实施例的电子设备800的框图。设备800可以是用于实现执行图2至图4所示的方法200至400的设备。如图7所示,设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808,处理单元801执行上文所描述的各个方法和处理,例如执行方法200至400。例如,在一些实施例中,方法200至400可被实现为计算机软件程序,其被存储于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时,可以执行上文描述的方法200-500、800、900和1200的一个或多个操作。备选地,在其他实施例中,CPU 801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200至400的一个或多个动作。
需要进一步说明的是,本公开可以是方法、装置、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一序列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
以上该仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。

Claims (12)

1.一种用于确定阳性断点的方法,包括:
获取跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长,以便在支持读长中确定符合错配序列一致性条件的读长;
记录符合预定错配序列一致性条件的读长中的每一读长的错配序列长度,以便确定与预定错配序列相匹配的读长,所述预定错配序列是基于所记录的错配序列长度而确定的;
基于错配序列长度,针对与预定错配序列相匹配的读长进行排序,以便计算关于所述同一断点的斜率;以及
基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点。
2.根据权利要求1所述的方法,其中在支持读长中确定符合错配序列一致性条件的读长包括:
响应于确定支持读长的错配序列在相同基因组坐标位的碱基相同,确定当前支持读长符合错配序列一致性条件的读长。
3.根据权利要求1所述的方法,其中基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点包括:
确定斜率是否为零;以及
响应于确定斜率为零,确定与所述斜率相关的所述同一断点为假阳性断点。
4.根据权利要求3所述的方法,其中基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点包括:
响应于确定斜率不为与零,确定与所述斜率相关的所述同一断点的断点数量是否大于或者等于第一预定数量阈值;
响应于确定所述断点数量大于或者等于第一预定数量阈值,确定与预定错配序列相匹配的读长的数量是否小于第二预定数量阈值之间;以及
响应于与预定错配序列相匹配的读长的数量小于第二预定数量阈值,确定与所述斜率相关的所述同一断点为假阳性断点。
5.根据权利要求3所述的方法,其中基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点包括:
响应于确定斜率不为零并且与所述不为与零的斜率相关的断点数量在第三预定数量阈值和第一数量阈值之间,确定每个断点的与预定错配序列相匹配的读长的数量是否均大于或者等于第四预定数量阈值,所述第一数量阈值大于第三预定数量阈值;
响应于确定每个断点的与预定错配序列相匹配的读长的数量均大于或者等于第四预定数量阈值,确定错配序列是否是碱基不平衡的重复单位序列;以及
响应于确定错配序列不是碱基不平衡的重复单位序列,则确定与所述斜率相关的所述同一断点为真阳性断点。
6.根据权利要求3所述的方法,其中基于所计算的斜率和与预定错配序列相匹配的读长的数量,确定阳性断点包括:
响应于确定斜率不为并且满足以下任一条件,确定与所述斜率相关的所述同一断点为真阳性断点:
斜率在第一预定斜率范围之内,并且与预定错配序列相匹配的读长的数量小于或者等于预定读长数量阈值;以及
斜率大于或者等于第二预定斜率阈值,并且与预定错配序列相匹配的读长的数量小于或者等于预定读长数量阈值。
7.根据权利要求1所述的方法,其中基于错配序列长度,针对与预定错配序列相匹配的读长进行排序,以便计算关于所述同一断点的斜率包括:
按照错配序列长度增加的顺序,针对与预定错配序列相匹配的读长进行升序排序;以及
基于经排序的与预定错配序列相匹配的读长的错配序列长度和排序顺序数据,计算关于所述同一断点的斜率。
8.根据权利要求1所述的方法,其中基于经排序的与预定错配序列相匹配的读长的错配序列长度和排序顺序数据,计算关于所述同一断点的斜率包括:
基于经排序的与预定错配序列相匹配的读长的错配序列长度和排序顺序数据,经由线性回归函数,计算关于所述同一断点的斜率。
9.根据权利要求1所述的方法,其中获取跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长包括:
基于关于待测样本的测序序列与全基因组参考序列的对比结果数据,抽取符合以下两项条件的支持读长,以便形成子比对序列:
重排两个基因区间的各有的基因组聚类后的长度均在预定范围之内;以及
重排两个基因区间具有失调读长的成对关系;
基于子比对序列,确定跨同一断点的、一端比对上第一基因组并且另一端未比对上第二基因组的所有支持读长。
10.根据权利要求1所述的方法,其中所述预定错配序列是基于所记录的错配序列长度而确定的包括以下任一项:
预定错配序列是基于所记录的错配序列长度中的最小错配序列长度而确定的;
预定错配序列是基于所记录的错配序列长度中的最大错配序列长度而确定的;或者
预定错配序列是基于所记录的错配序列长度中的出现频率最高的错配序列长度而确定的。
11.一种计算设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行根据权利要求1至10任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至10中任一项所述的方法。
CN202210073366.6A 2022-01-21 2022-01-21 用于确定阳性断点的方法、计算设备和计算机存储介质 Pending CN114496087A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210073366.6A CN114496087A (zh) 2022-01-21 2022-01-21 用于确定阳性断点的方法、计算设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210073366.6A CN114496087A (zh) 2022-01-21 2022-01-21 用于确定阳性断点的方法、计算设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN114496087A true CN114496087A (zh) 2022-05-13

Family

ID=81473129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210073366.6A Pending CN114496087A (zh) 2022-01-21 2022-01-21 用于确定阳性断点的方法、计算设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN114496087A (zh)

Similar Documents

Publication Publication Date Title
CN111292802B (zh) 用于检测突变的方法、电子设备和计算机存储介质
CN114496077B (zh) 用于检测单核苷酸变异和***缺失的方法、设备和介质
CN111933214B (zh) 用于检测rna水平体细胞基因变异的方法、计算设备
US20130166221A1 (en) Method and system for sequence correlation
KR20210116454A (ko) 유전자 변이 인식 방법 및 장치 및 기억 매체
CN111462816B (zh) 用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质
CN111341383A (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN115312121B (zh) 靶基因位点检测方法、装置、设备及计算机存储介质
KR20200107774A (ko) 표적화 핵산 서열 분석 데이터를 정렬하는 방법
CN111584002B (zh) 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质
CN111292809B (zh) 用于检测rna水平基因融合的方法、电子设备和计算机存储介质
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
CN117873905B (zh) 一种代码同源检测的方法、装置、设备及介质
CN114758720A (zh) 用于检测拷贝数变异的方法、设备和介质
KR20160039386A (ko) Itd 검출 장치 및 방법
CN114496087A (zh) 用于确定阳性断点的方法、计算设备和计算机存储介质
CN114822700B (zh) 用于呈现重排或融合结构亚型的方法、设备和介质
US20090175520A1 (en) Method and apparatus for matching of bracketed patterns in test strings
CN110570908B (zh) 测序序列多态识别方法及装置、存储介质、电子设备
CN114464256A (zh) 用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质
CN114496073B (zh) 用于识别阳性重排的方法、计算设备和计算机存储介质
CN110021342B (zh) 用于加速变异位点的识别的方法及***
KR102349023B1 (ko) 뉴클레오티드 서열 변이의 빈도 분포 결정
CN112908412A (zh) 用于复合杂合变异致病证据适用性的方法、设备和介质
CN114420204B (zh) 用于预测待测基因的拷贝数的方法、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination