CN111161801B - 一代基因测序中自动识别杂合突变的方法 - Google Patents

一代基因测序中自动识别杂合突变的方法 Download PDF

Info

Publication number
CN111161801B
CN111161801B CN201911403408.2A CN201911403408A CN111161801B CN 111161801 B CN111161801 B CN 111161801B CN 201911403408 A CN201911403408 A CN 201911403408A CN 111161801 B CN111161801 B CN 111161801B
Authority
CN
China
Prior art keywords
area
sequence
point position
integer
integer point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911403408.2A
Other languages
English (en)
Other versions
CN111161801A (zh
Inventor
杨琦
张未波
李孝尧
施笑蕾
濮娜
张国福
陈炜炜
柯路
童智慧
李维勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911403408.2A priority Critical patent/CN111161801B/zh
Publication of CN111161801A publication Critical patent/CN111161801A/zh
Application granted granted Critical
Publication of CN111161801B publication Critical patent/CN111161801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种一代基因测序中自动识别杂合突变的方法,包括以下步骤:S1将一代基因测序结果中各个碱基的检出信号数据转换为横坐标为正实数点位;S2计算各整数点位上各个碱基检出信号强度包络面积;S3将各整数点位分组,使得每个分组内各碱基检出信号的最大包络面积数值相接近;S4在所述的每个整数点位分组内各自确定用于识别杂合突变的面积差阈值和面积比阈值;S5使用噪声识别算法标识出被测序列中的噪声整数点位集合;S6根据其所在的整数点位分组确定面积差阈值和面积比阈值;计算该整数点位的面积最大的两种碱基的面积差和面积比,判定突变。本发明可提升杂合突变的识别效率及准确率,降低人工成本。

Description

一代基因测序中自动识别杂合突变的方法
技术领域
本发明涉及一种基因测序结果分析方法,尤其是一种可自动识别其中杂合突变的方法,具体的说是一代基因测序中自动识别杂合突变的方法。
背景技术
现有的一代基因测序(Sanger测序法)结果缺乏成熟的杂合突变自动化识别技术,均须通过人工识别,导致杂合突变识别的效率及准确率低下,而人力及时间成本则非常高昂.严重影响了基因测序的发展,亟须改进。
发明内容
本发明的目的是针对现有技术的不足,提供一种一代基因测序中自动识别杂合突变的方法,大大提升杂合突变的识别效率及准确率,降低人工及时间成本,具有广泛的应用前景
本发明的技术方案是:
一种一代基因测序中自动识别杂合突变的方法,包括以下步骤:
S1 将一代基因测序结果中各个碱基的检出信号数据转换为横坐标为正实数点位,纵坐标为对应碱基检出信号强度值的坐标序列;其中,所述正实数点位的单位为bp;
S2 基于所述各个碱基的坐标序列,计算各个碱基在各整数点位左右各0.5bp区间中的碱基检出信号强度点曲线与横坐标轴所围图形的面积,作为各整数点位上各个碱基检出信号强度包络面积;
S3以各整数点位上各碱基检出信号的最大包络面积作为分类依据,将各整数点位分组,使得每个分组内各碱基检出信号的最大包络面积数值相接近;
S4 依据杂合突变基因中出现频率的统计特征及发生杂合突变的整数点位左右各0.5bp区间中的图形特征,在所述的每个整数点位分组内,各自确定用于识别杂合突变的面积差阈值和面积比阈值;
S5 使用噪声识别算法标识出被测序列中的噪声整数点位集合;
S6针对不在噪声整数点位集合中的每个整数点位,根据其所在的整数点位分组确定面积差阈值和面积比阈值;根据该整数点位各个碱基检出信号强度包络面积,计算该整数点位的面积最大的两种碱基的面积差和面积比,若其面积差小于面积差阈值且面积比小于面积比阈值,则该点位判定为疑似杂合突变。
优选的,所述步骤S1包括以下步骤:
S1.1 读取各类碱基对应的检出信号强度值所构成的正有理数序列,以下简称为检出序列;
S1.2读取当前整数点位所在的检出序列下标;所述点位的单位为bp;所述下标为正整数;
S1.3 求当前整数点位与前一整数点位中的检出序列的下标差,取其倒数作为前一整数点位到当前整数点位的数据点位,简称为步进单位值;该步进单位值为正有理数;单位为bp;
S1.4 横坐标从前一点位开始,按下标顺序取出检出序列数据,该数据为正有理数;
S1.5将检出序列数据作为纵坐标,以累加S1.3求出的步进单位值作为其横坐标,直至下个整数点位前;将这些横坐标和纵坐标对应的点所构成的序列推入坐标序列末尾;
S1.6若当前整数点位尚未超过被测序列长度,则将当前整数点位加一后返回S1.3步骤继续。若当前整数点位达到被测序列长度,则此时就获得了完整的坐标序列。
优选的,所述步骤S2包括以下步骤:
S2.1 在当前整数点位上对于各个碱基的两侧各0.5bp区间截取序列,简称为截取序列;
S2.2 在S2.1中当前整数点位两侧各0.5bp的两端点无数据时,可通过插值算法补正,提升包络面积计算精度;
S2.3 计算各整数点位截取序列中每两组坐标构成的梯形面积,将其累加即得到各类碱基于各点位的包络面积,并将其推入面积序列末尾;
S2.4若当前整数点位尚未超过被测序列长度,则将当前整数点位加一后返回S2.1步骤继续;若当前整数点位达到被测序列长度,则此时就获得了完整的面积序列。
优选的,所述步骤S4包括以下步骤:
S4.1 将每个点位处的各类碱基面积的最大值减去第二大值,作为最大包络面积差序列,简称为面积差序列;
S4.2 将每个点位处的各类碱基面积的最大值除以第二大值,作为最大包络面积比序列,简称为面积比序列;
S4.3 计算S4.1面积差序列的中位数,简称为面积差中位数;计算S4.2面积比序列的中位数,简称为面积比中位数;
S4.4 面积差阈值等于面积差中位数乘以分组内波形峰值最大变化率;面积比阈值等于面积比中位数乘以分组内波形峰值最大变化率。
优选的,所述步骤S6 包括以下步骤:
S6.1 若当前点位在噪声点位中,则跳过此点位,继续分析下一个点位;
S6.2 根据当前点位所在的按最大碱基包络面积,获取其所在整数点位分组,从而获知该分组的面积差阈值及面积比阈值;
S6.3 将分析点位的面积差和面积比自序列取出,若分析点位的面积差小于等于面积差阈值,且分析点位的面积比小于等于面积比阈值,则认为该点位为疑似杂合突变点位。
本发明的有益效果:
本发明设计合理,使用方便,可通过利用计算机图形学方法来仿造人类观察杂合突变的过程,大大提升杂合突变的识别效率及准确率,降低人工及时间成本,具有广泛的应用前景。
附图说明
图1是不同碱基的连线图碱基荧光信号强度曲线示意图。
图2是图1的局部放大图。
图3是两组坐标点所围图形面积。
图4是每个整数点位范围内包络线与点位轴所围图形面积。
其中:
图1中顶端数字为整数点位,曲线上的字母为该数据点对应的碱基类型,下方的A、T、C、G字母为该整数点位识别出的碱基类型,最下方的数字为Phred得分,用以评价此处测序质量。
图2中框出的313整数点位出现了C和T碱基的杂合突变特征信号曲线,因为该两种碱基对应的包络线与点位轴面积差和面积比接近。
图3是使用梯形面积公式计算两组坐标点所围图形面积。
图4为将某一类碱基对应碱基荧光曲线的每个整数点位范围内的多个梯形面积进行计算,并求和得到每个整数点位内的该类碱基对应碱基荧光曲线与点位轴的包络面积。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1、2、3和4所示。
一种一代基因测序中自动识别杂合突变的方法,包括以下步骤:
S1将一代基因测序结果中各个碱基的检出信号数据转换为横坐标为正实数点位,其中正整数点位显示在图1、图2的上方,纵坐标为对应碱基检出信号强度值的坐标序列,因为在每个正实数点位的横坐标上会同时出现多种碱基检出信号,故在图1、图2所示的波形部分用对应碱基的字母进行标出;其中,所述正实数点位的单位为bp,例如图2框出的点位为313,其内部波形所对应的碱基检出信号主要由C和T构成;
S1.1本实施例以人类的LPL蛋白对应的核苷酸序列作为示例,首先读取各类碱基对应的检出信号强度值所构成的正有理数序列,例如在某次测序中A碱基对应的检出信号强度值序列为 [50, 99, 203, 389, 679, 3455, 3816, 4172…],这个序列包含了5921个采样点上的检出信号强度值,以下简称为检出序列;
S1.2读取当前整数点位所在的检出序列下标;所述点位的单位为bp;所述下标为正整数,例如[3, 39, 44, 58, 76, 94, 101, 109…],这个序列包含了494个整数点位所对应的检出信号强度值数据下标,如点位1,它对应的数据点应该是下标为0,1,2的三条数据,在A碱基上也就是50,99和203;
S1.3 求当前整数点位与前一整数点位中的检出序列的下标差,取其倒数作为前一整数点位到当前整数点位的数据点位,简称为步进单位值;该步进单位值为正有理数;单位为bp,接S1.1和S1.2,例如2点位到1点位的下标差为39-3=36,说明中间有36个均匀的样点,步进值为1/36,1点位比较特殊,其下标差与0相减为3-0=3,步进值为1/3;
S1.4 横坐标从前一点位开始,按下标顺序取出检出序列数据,该数据为正有理数,接S1.3中例,其中整数点位1对应的检出信号强度值为50、99、203共计3个样点,整数点位2对应的检出信号强度值为389, 679, 3455, 3816, 4172…共计36个样点;
S1.5将检出序列数据作为纵坐标,以累加S1.3求出的步进单位值作为其横坐标,直至下个整数点位前;将这些横坐标和纵坐标对应的点所构成的序列推入坐标序列末尾,接S1.4,在整数点位1的三个样点中,其横坐标自0起,每个数据点累计1/3,从而构成坐标序列(1/3, 50)、(2/3, 99),(3/3, 203),在整数点位2的36个样点中其横坐标自1起每个数据点累计1/36,从而构成坐标序列(1+1/36, 389)、(1+2/36, 679) 、(1+3/36, 3455)…,以此类推;
S1.6若当前整数点位尚未超过被测序列长度,则将当前整数点位加一后返回S1.3步骤继续。若当前整数点位达到被测序列长度,则此时就获得了完整的坐标序列;
S2 基于所述各个碱基的坐标序列,计算各个碱基在各整数点位左右各0.5bp区间中的碱基检出信号强度点曲线与横坐标轴所围图形的面积,作为各整数点位上各个碱基检出信号强度包络面积;
S2.1 在当前整数点位上对于各个碱基的两侧各0.5bp区间截取序列,简称为截取序列,接S1.4,使用整数点位1两侧各0.5bp区间即[0.5bp, 1.5bp],则整数点位1处截取序列为(2/3, 99),(3/3, 203),(1+1/36, 389)、(1+2/36, 679) 、(1+3/36, 3455)…至横坐标1+18/36为止;
S2.2 在S2.1中当前整数点位两侧各0.5bp的两端点无数据时,可通过插值算法补正,提升包络面积计算精度,以S2.1中数据为例,以1位当前整数点位,在右侧1.5bp为止有数据点,但是在左侧0.5bp为止恰好没有数据点,所以此时可以用斜率方程求得0.5bp处由(1/3, 50)和(2/3, 99)构成点的斜率,再由此斜率求得0.5bp处上的插值点为74,从而得到(0.5, 74);
S2.3如图3所示,利用梯形面积公式计算各整数点位截取序列中每两组坐标构成的梯形面积,将其累加即得到如图4所示的各类碱基于各点位的包络面积,并将其推入面积序列末尾,以S2.2中补正过的数据为例,(0.5, 74),(2/3, 99)两点所围面积可以用(上底+下底)*高/2.0求得,也就是(74+99)x(2/3 – 0.5)/2.0=14;
S2.4若当前整数点位尚未超过被测序列长度,则将当前整数点位加一后返回S2.1步骤继续;若当前整数点位达到被测序列长度,则此时就获得了完整的面积序列;
S3以各整数点位上各碱基检出信号的最大包络面积作为分类依据,将各整数点位分组,使得每个分组内各碱基检出信号的最大包络面积数值相接近;常用的分组方法包括K-Means,SVM等;我们可以从图1和图2中看出,各碱基检出信号的最大包络峰值是起伏不定的,通过这种方法可以减少这种起伏对我们判断杂合突变带来的影响,从而提升正确率;以ATCG碱基在1-4整数点位左右各0.5范围内的包络面积序列: (0, 100, 0, 0), (98, 0,91, 0), (10, 2, 3,1), (2,50,49,1) , (4, 2, 30,1), (0, 8, 0, 8) ,…为例,其最大包络面积序列为(100, 98, 10, 50, 30, 8),如果分为高中低三组,则高组包含(0, 100,0, 0), (98, 0, 91, 0),…中组包含(2,50,49,1) , (4, 2, 30,1),…低组包含(10, 2,3,1) , (0, 8, 0, 8)…。
S4 依据杂合突变基因中出现频率的统计特征及发生杂合突变的整数点位左右各0.5bp区间中的图形特征,在所述的每个整数点位分组内,各自确定用于识别杂合突变的面积差阈值和面积比阈值;
S4.1 将每个点位处的各类碱基面积的最大值减去第二大值,作为最大包络面积差序列,简称为面积差序列;接S3,,其中的高组面积差序列为(100, 7,…),中组面积差序列为(1, 28,…),低组面积差序列为(7, 0,…);
S4.2 将每个点位处的各类碱基面积的最大值除以第二大值,作为最大包络面积比序列,简称为面积比序列;接S3,其中的高组面积比序列为(正无穷, 98/91,…),中组面积差序列为(50/49, 30/4,…),低组面积差序列为(10/3, 8/8,…);
S4.3 计算S4.1面积差序列的中位数,简称为面积差中位数,接S4.1,其中位数高组96、中组24,低组8;计算S4.2面积比序列的中位数,简称为面积比中位数,接S4.1,其中位数高组999、中组777,低组666;
S4.4 面积差阈值等于面积差中位数乘以分组内波形峰值最大变化率;面积比阈值等于面积比中位数乘以分组内波形峰值最大变化率,此处可设各组内的波形峰值最大变化率为20%,面积差阈值分别为高组96x20%=19.2,中组24x20%=4.8和低组8x20%=1.6,面积比阈值分比为高组400 x20%=80、中组280 x20%=56,低组80 x20%=16;
S5使用噪声识别算法标识出被测序列中的噪声整数点位集合;
可用基于测序质量分(Phred分)的Modified Mott trimming算法寻找到Phred分数最大的低噪声序列,该序列两侧即为首尾噪声序列,其中元素均为噪声点位;
可用小波变换或傅里叶变换去除坐标序列中的噪音频谱;
可用基于神经网络的方法对于每个点位的图形质量进行评估,将评估中图形质量较差的识别为噪声;
也可用其他的噪声识别算法;
S6针对不在噪声整数点位集合中的每个整数点位,根据其所在的整数点位分组确定面积差阈值和面积比阈值;根据该整数点位各个碱基检出信号强度包络面积,计算该整数点位的面积最大的两种碱基的面积差和面积比,若其面积差小于面积差阈值且面积比小于面积比阈值,则该点位判定为疑似杂合突变,从图2中可以看出,在发生杂合突变的点位上面积差较小,面积比也较为接近于1,符合视觉规律;
S6.1 若当前点位在噪声点位中,则跳过此点位,继续分析下一个点位,例如,噪声点位集合为(1,2,3,412,413),当前点位为1,则直接跳过,因为2、3也是噪声点位,故从点位4开始分析;
S6.2 根据当前点位所在的按最大碱基包络面积,获取其所在整数点位分组,从而获知该分组的面积差阈值及面积比阈值,如点位4、5和6的各类碱基荧光信号包络面积序列为(2,50,49,1) , (4, 2, 30,1), (0, 8, 0, 8),其中(2,50,49,1) , (4, 2, 30,1)都是属于中组,则它们的面积差阈值为4.8,面积比阈值为56,其中(0, 8, 0, 8) 属于低组,则它的面积差阈值为1.6,面积比阈值为16;
S6.3 将分析点位的面积差和面积比自序列取出,若分析点位的面积差小于等于面积差阈值,且分析点位的面积比小于等于面积比阈值,则认为该点位为疑似杂合突变点位,接S6.2例点位4、5、6上的面积差序列为1、26、0,其中4、6符合小于面积差阈值条件,面积比序列为50/49,30/4和1,均小于对应阈值,故同时符合两个条件的整数点位4、6被识别为杂合突变点位。
本发明通过利用计算机图形学原理来仿造人类观察杂合突变的过程,大大提升了杂合突变的识别效率及准确率,降低人工及时间成本,因而,具有广泛的应用前景。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims (4)

1.一种一代基因测序中自动识别杂合突变的方法,其特征是:所述方法包括以下步骤:
S1 将一代基因测序结果中各个碱基的检出信号数据转换为横坐标为正实数点位,纵坐标为对应碱基检出信号强度值的坐标序列;其中,所述正实数点位的单位为bp;
S2 基于所述各个碱基的坐标序列,计算各个碱基在各整数点位左右各0.5bp区间中的碱基检出信号强度点曲线与横坐标轴所围图形的面积,作为各整数点位上各个碱基检出信号强度包络面积;
S3 以各整数点位上各碱基检出信号的最大包络面积作为分类依据,将各整数点位分组,使得每个分组内各碱基检出信号的最大包络面积数值相接近;
S4 依据杂合突变基因中出现频率的统计特征及发生杂合突变的整数点位左右各0.5bp区间中的图形特征,在所述的每个整数点位分组内,各自确定用于识别杂合突变的面积差阈值和面积比阈值;包括以下步骤:
S4.1 将每个点位处的各类碱基面积的最大值减去第二大值,作为最大包络面积差序列,简称为面积差序列;
S4.2 将每个点位处的各类碱基面积的最大值除以第二大值,作为最大包络面积比序列,简称为面积比序列;
S4.3 计算S4.1面积差序列的中位数,简称为面积差中位数;计算S4.2面积比序列的中位数,简称为面积比中位数;
S4.4 面积差阈值等于面积差中位数乘以分组内波形峰值最大变化率;面积比阈值等于面积比中位数乘以分组内波形峰值最大变化率;
S5 使用噪声识别算法标识出被测序列中的噪声整数点位集合;
S6 针对不在噪声整数点位集合中的每个整数点位,根据其所在的整数点位分组确定面积差阈值和面积比阈值;根据该整数点位各个碱基检出信号强度包络面积,计算该整数点位的面积最大的两种碱基的面积差和面积比,若其面积差小于面积差阈值且面积比小于面积比阈值,则该点位判定为疑似杂合突变。
2.根据权利要求1所述的一代基因测序中自动识别杂合突变的方法,其特征是:所述步骤S1包括以下步骤:
S1.1 读取各类碱基对应的检出信号强度值所构成的正有理数序列,以下简称为检出序列;
S1.2 读取当前整数点位所在的检出序列下标;所述点位的单位为bp;所述下标为正整数;
S1.3 求当前整数点位与前一整数点位中的检出序列的下标差,取其倒数作为前一整数点位到当前整数点位的数据点位,简称为步进单位值;该步进单位值为正有理数;单位为bp;
S1.4 横坐标从前一点位开始,按下标顺序取出检出序列数据,该数据为正有理数;
S1.5 将检出序列数据作为纵坐标,以累加S1.3求出的步进单位值作为其横坐标,直至下个整数点位前;将这些横坐标和纵坐标对应的点所构成的序列推入坐标序列末尾;
S1.6 若当前整数点位尚未超过被测序列长度,则将当前整数点位加一后返回S1.3步骤继续;若当前整数点位达到被测序列长度,则此时就获得了完整的坐标序列。
3.根据权利要求1所述的一代基因测序中自动识别杂合突变的方法,其特征是:所述步骤S2包括以下步骤:
S2.1 在当前整数点位上对于各个碱基的两侧各0.5bp区间截取序列,简称为截取序列;
S2.2 在S2.1中当前整数点位两侧各0.5bp的两端点无数据时,可通过插值算法补正,提升包络面积计算精度;
S2.3 计算各整数点位截取序列中每两组坐标构成的梯形面积,将其累加即得到各类碱基于各点位的包络面积,并将其推入面积序列末尾;
S2.4 若当前整数点位尚未超过被测序列长度,则将当前整数点位加一后返回S2.1步骤继续;若当前整数点位达到被测序列长度,则此时就获得了完整的面积序列。
4. 根据权利要求1所述的一代基因测序中自动识别杂合突变的方法,其特征是: 所述步骤S6 包括以下步骤:
S6.1 若当前点位在噪声点位中,则跳过此点位,继续分析下一个点位;
S6.2 根据当前点位所在的最大碱基包络面积,获取其所在整数点位分组,从而获知该分组的面积差阈值及面积比阈值
S6.3 将分析点位的面积差和面积比自序列取出,若分析点位的面积差小于等于面积差阈值,且分析点位的面积比小于等于面积比阈值,则认为该点位为疑似杂合突变点位。
CN201911403408.2A 2019-12-31 2019-12-31 一代基因测序中自动识别杂合突变的方法 Active CN111161801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911403408.2A CN111161801B (zh) 2019-12-31 2019-12-31 一代基因测序中自动识别杂合突变的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911403408.2A CN111161801B (zh) 2019-12-31 2019-12-31 一代基因测序中自动识别杂合突变的方法

Publications (2)

Publication Number Publication Date
CN111161801A CN111161801A (zh) 2020-05-15
CN111161801B true CN111161801B (zh) 2023-06-06

Family

ID=70559791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911403408.2A Active CN111161801B (zh) 2019-12-31 2019-12-31 一代基因测序中自动识别杂合突变的方法

Country Status (1)

Country Link
CN (1) CN111161801B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102234690A (zh) * 2010-04-30 2011-11-09 爱科来株式会社 Jak2基因的外显子12中的突变的检测方法、以及用于所述检测方法的核酸探针和试剂盒
CN104630375A (zh) * 2015-02-16 2015-05-20 北京圣谷同创科技发展有限公司 癌症基因突变及基因扩增检测
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
CN107326064A (zh) * 2016-04-29 2017-11-07 天昊生物医药科技(苏州)有限公司 基因倒位突变检测方法
CN107944225A (zh) * 2017-11-28 2018-04-20 慧算医疗科技(上海)有限公司 基因高通量测序数据突变检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102234690A (zh) * 2010-04-30 2011-11-09 爱科来株式会社 Jak2基因的外显子12中的突变的检测方法、以及用于所述检测方法的核酸探针和试剂盒
CN104630375A (zh) * 2015-02-16 2015-05-20 北京圣谷同创科技发展有限公司 癌症基因突变及基因扩增检测
CN107326064A (zh) * 2016-04-29 2017-11-07 天昊生物医药科技(苏州)有限公司 基因倒位突变检测方法
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
CN107944225A (zh) * 2017-11-28 2018-04-20 慧算医疗科技(上海)有限公司 基因高通量测序数据突变检测方法

Also Published As

Publication number Publication date
CN111161801A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN108573225B (zh) 一种局部放电信号模式识别方法及***
Pons et al. Measwring and testing genetic differentiation with ordered versus unordered alleles
CN102445544B (zh) 一种提高单同位素峰判断准确率的方法和***
CN109346130B (zh) 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN110824586B (zh) 基于改进决策树算法的降水预测方法
CN108814590B (zh) 一种心电qrs波群的检测方法及其心电分析方法
CN110010193A (zh) 一种基于混合策略的复杂结构变异检测方法
CN105825076B (zh) 消除常染色体内和染色体间gc偏好的方法及检测***
CN109545278B (zh) 一种鉴定植物lncRNA与基因互作的方法
CN108256292A (zh) 一种拷贝数变异检测装置
CN113662560B (zh) 发作间期痫样放电的检测方法、存储介质和设备
CN113805018A (zh) 一种配电网10kV电缆局部放电故障类型智能识别方法
CN103902798B (zh) 数据预处理方法
CN111161801B (zh) 一代基因测序中自动识别杂合突变的方法
CN102749420B (zh) 一种适宜凝胶型蛋白质加工的花生品质测定及其评价方法
CN112786103B (zh) 一种分析靶向测序Panel估算肿瘤突变负荷可行性的方法和装置
CN117609831A (zh) 一种基于随机矩阵的变压器局放检测方法、介质及***
CN105907860B (zh) 一种利用|Δ(SNP-index)|进行性状定位的QTL-seq方法及其应用
CN117095745A (zh) 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用
JP2004527728A (ja) ベースコーリング装置及びプロトコル
CN108460424B (zh) 一种基于线点转换和聚类对比的空间运动轨迹识别方法
Phillips et al. Visualization of environmental audio using ribbon plots and acoustic state sequences
CN116035595A (zh) 一种基于振幅整合脑电的复杂网络特征的新生儿惊厥自动诊断方法
CN111599408B (zh) 基因变异顺反位置关系检测方法、装置、设备和存储介质
CN115762633B (zh) 一种基于三代测序的基因组结构变异基因型校正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant