CN111477277A - 样本质量评估方法和装置 - Google Patents

样本质量评估方法和装置 Download PDF

Info

Publication number
CN111477277A
CN111477277A CN202010478389.6A CN202010478389A CN111477277A CN 111477277 A CN111477277 A CN 111477277A CN 202010478389 A CN202010478389 A CN 202010478389A CN 111477277 A CN111477277 A CN 111477277A
Authority
CN
China
Prior art keywords
variation
sites
sample
quality
snp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010478389.6A
Other languages
English (en)
Inventor
单光宇
张静波
徐冰
杨静怡
伍启熹
王建伟
刘倩
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Usci Medical Laboratory Co ltd
Original Assignee
Beijing Usci Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Usci Medical Laboratory Co ltd filed Critical Beijing Usci Medical Laboratory Co ltd
Priority to CN202010478389.6A priority Critical patent/CN111477277A/zh
Publication of CN111477277A publication Critical patent/CN111477277A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种样本质量评估方法和装置。其中,评估方法包括:分别获取待测组织样本与对照细胞样本的测序数据;检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例,并根据比例判定样本质量。通过找出成对测序的组织样本的测序数据和细胞样本的测序数据中胚系SNP变异位点,并根据其中纯合变异位点和杂合变异位点所占的比例来判断样本的测序数据的质量,改善了无法对没有参考品的样本的测序数据进行质量质控的现状。

Description

样本质量评估方法和装置
技术领域
本发明涉及测序数据质控领域,具体而言,涉及一种样本质量评估方法和装置。
背景技术
在二代测序的临床实践中,常常需要双样本测序,即同时对病理样本及对照样本测序,以便准确找到体细胞变异。然而,常常由于实验操作疏忽、样本放置过久或者发生污染等多种原因导致样本质量降低,无法用于后续的数据分析。因此,准确地判定样本质量对于有效地进行体细胞变异检测具有重要的作用。
现有方法常常不会直接判定样本的质量状态,而是根据二代测序通用技术指导原则,在每一个测序批次设置阳性参考品和阴性参考品间接进行质量判定。然而在真实的临床实践中,往往由于成本优先的考量,忽略了参考品的购买与设置,发生样本质量无法准确识别的风险。也即,当没有参考品时,目前尚无判定样本质量的有效方案。
发明内容
本发明的主要目的在于提供一种样本质量评估方法和装置,以解决现有技术中没有参考品时难以判定样本质量的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种样本质量的评估方法,该评估方法包括:分别获取待测组织样本与对照细胞样本的测序数据;检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例,并根据比例判定样本质量。
进一步地,检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点包括:检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到候选位点;去除候选位点中位于重复序列区域的位点以及链偏好性位点,得到胚系SNP变异位点。
进一步地,计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例包括:根据变异频率的高低将胚系SNP变异位点分为纯合变异位点、杂合变异位点和剩余变异位点;统计纯合变异位点的数量与杂合变异位点的数量之和占胚系SNP变异位点总数量的比例;优选地,纯合变异位点的变异频率≥90%,40%≤杂合变异位点的变异频率≤60%,其余变异频率的为剩余变异位点。
进一步地,根据比例判定样本质量包括:当比例大于等于质量阈值,则判定样本质量合格;当比例低于质量阈值,则判定样本质量不合格;优选地,质量阈值为0.7。
进一步地,测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
根据本申请的第二个方面,提供了一种样本质量的评估装置,该评估装置包括:获取模块,用于分别获取待测组织样本与对照细胞样本的测序数据;胚系SNP变异检测模块,用于检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;比例计算模块,用于计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例;以及质量判定模块,用于根据比例判定样本质量。
进一步地,胚系SNP变异检测模块包括:变异筛选模块,用于检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到候选位点;过滤模块,用于去除候选位点中位于重复序列区域的位点以及链偏好性位点,得到胚系SNP变异位点。
进一步地,比例计算模块包括:位点划分模块,用于根据变异频率的高低分将胚系SNP变异位点为纯合变异位点、杂合变异位点和剩余变异位点;比例统计模块,用于统计纯合变异位点的数量与杂合变异位点的数量之和占胚系SNP变异位点总数量的比例;优选地,纯合变异位点的变异频率≥90%,40%≤杂合变异位点的变异频率≤60%,其余变异频率的为剩余变异位点。
进一步地,质量判定模块包括:第一判定模块,用于当比例大于等于质量阈值时,判定样本质量合格;第二判定模块,用于当比例低于质量阈值时,判定样本质量不合格;优选地,质量阈值为0.7。
进一步地,测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
为了实现上述目的,根据本发明的第三个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种评估方法。
根据本发明的第四个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种评估方法。
应用本发明的技术方案,通过根据成对测序的组织样本的测序数据和细胞样本的测序数据中共有的SNP变异位点挑选出来,找到胚系SNP变异位点,并根据纯合变异位点和杂合变异位点在总的胚系SNP变异位点中所占的比例来判断样本的测序数据的质量。从而改善了无法对没有参考品的样本的测序数据进行质量质控的现状。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例1中的样本质量的评估方法的流程示意图;
图2示出了根据本发明的实施例2中的样本质量的评估方法的详细流程示意图;
图3示出了根据本发明的实施例5中的样本质量的评估装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
如背景技术部分所提及的,目前尚无对没有参考品时的样本的测序数据的质量进行评估的方案。为改善这一现状,本申请基于目前测序样本均是对对照细胞样本(比如,白细胞样本)和待测组织样本(如,病例组织样本)同时进行测序的,针对这种成对测序的样本的测序数据,提出了质量评估的改进方案。在常规的测序实践中,我们发现当样本质量较差时,胚系变异的频率波动较大,频率波动超出了正常范围,例如出现大量≤40%频率的变异。因此,我们尝试用频率符合正常范围胚系变异的占比来衡量样本质量,并通过大量的已知样本质量的样本进行验证,取得了较好的效果。在此基础上,我们提出了本申请的改进方案。
实施例1
本实施例提供了一种样本质量的评估方法,如图1所示,该评估方法包括:
步骤S101,分别获取待测组织样本与对照细胞样本的测序数据;
步骤S103,检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;
步骤S105,计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例;
步骤S107,根据比例判定样本质量。
上述评估方法,通过根据成对测序的组织样本的测序数据和细胞样本的测序数据中共有的SNP变异位点挑选出来,找到胚系SNP变异位点,并根据纯合变异位点和杂合变异位点在总的胚系SNP变异位点中所占的比例来判断样本的测序数据的质量。从而改善了无法对没有参考品的样本的测序数据进行质量质控的现状。
检测成对样本中的胚系SNP变异位点的步骤可以采用现有的检测软件来实现,比如Mutect 2软件。为了进一步提高评估结果的准确性,减少某些SNP变异位点的干扰,在一种优选的实施例中,检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点包括:检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到候选位点;去除候选位点中位于重复序列区域的位点以及链偏好性位点,得到胚系SNP变异位点。
位于重复序列区域的位点以及链偏好性位点容易使得对纯合SNP变异位点和杂合SNP变异位点的统计发生偏差,因而将该部分位点剔除,有助于提高所计算的比例的准确性。
上述胚系SNP变异位点划分时,根据变异频率的高低进行合理设置阈值来区分纯合变异位点和杂合变异位点。在一种优选的实施例中,计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例包括:将胚系SNP变异位点根据变异频率的高低分为纯合变异位点、杂合变异位点和剩余变异位点;统计纯合变异位点的数量与杂合变异位点的数量之和占胚系SNP变异位点总数量的比例。
上述纯合变异位点和杂合变异位点的变异频率的设定,可以根据具体测序数据的不同进行合理设定,在本申请中优选将变异频率大于90%的SNP变异位点记为纯合变异位点,而将变异频率在40%~60%之间的记为杂合变异位点,其余变异频率的记为剩余变异位点。
上述各胚系SNP位点的变异频率可以根据检测软件检测得到,比如Mutect 2软件。
在一种优选的实施例中,根据比例判定样本质量包括:当比例大于等于质量阈值,则判定样本质量合格;当比例低于质量阈值,则判定样本质量不合格。在本申请中,优选该质量阈值为0.7,通过大量的样本检测验证,当该质量阈值控制在0.7时,对样本质量的评估结果比较准确。
需要说明的是,上述评估方法所针对的测序数据无特殊限定,既可以是靶向捕获文库的测序数据、全基因组测序数据,也可以是全外显子测序数据。
实施例2
本实施例提供给了一种用于检测二代测序样本质量状态的评估方法,具体步骤如下:
1)样本预处理并提取DNA;
2)目标区域捕获原理:使用特定序列的探针捕获样本的靶向区域;
3)通过高通量的方法进行测序,得到测序序列;
4)过滤掉低质量的序列,利用以下流程进行质量判定。
具体流程详见图2。
该流程主要分为两部分:
第一部分:样本处理
样本DNA提取、打断、加接头、杂交捕获、洗脱、富集、测序;
第二部分:数据处理
利用BWA-mem比对软件将高通量测序序列比对到人类参考基因组上,未比对上的序列形成软截断。然后根据比对到参考基因组上的位置进行排序,并用samtools软件建立index;
第三部分:确定样本的质量状态
1)使用Mutect2软件对肿瘤和对照样本的SNP位点进行变异检测,确定样本的胚系SNP位点及其频率;
2)对确定的胚系SNP位点,去除位于重复区的位点及链偏好性位点;
3)对于过滤后的胚系SNP位点进行变异频率汇总;
4)最后,将过滤后得到的胚系SNP位点区分成三个群体:纯合位点(变异频率≥90%)、杂合位点(40%≤变异频率≤60%)以及(剩余位点)。然后评估纯合位点及杂合位点群体在总胚系SNP位点群体中所占比例(按下列公式),确定该例样本的质量状态。
Figure BDA0002516548950000051
对于任一完成测序的成对样本,经过以上过滤流程,可以得到确定的胚系SNP变异总个数。如果样本质量不佳,符合频率要求的杂合/纯合位点个数(将显著减少,导致质量值降低;如果样本质量较好,符合频率要求的杂合/纯合位点个数较多,进而质量值将保持在一个较高水平。
实施例3
本实施例的待检样本是已知质量不合格的肺癌病理样本及相应的对照样本。在实施例的主要试剂如下:
表1:
Figure BDA0002516548950000052
1.利用荧光定量计(Qubit)进行定量,其浓度为3.8ng/ul,体积为130ul;利用超声破碎仪(Covaris)对样品进行片段化,使DNA片段大小在200-400bp之间,然后利用琼脂糖凝胶电泳检测片段大小是否符合要求。
2.先将片段化的样品进行磁珠纯化,然后进行末端修复和3’端腺苷化,体系配置见下面表格,基本步骤如下:先在20℃温浴30min,其次在65℃温浴30min结束反应。
表2:
末端修复和3’端腺苷化缓冲液 7μl
末端修复和3’端腺苷化酶混合液 3μl
DNA 50ul(500ng)
3.将上述修复后的DNA进行接头连接,接头连接体系详见下表,在20℃温浴15min。
表3:
试剂 体积
带标签的接头 2.5μl
DNA样品 60ul
连接反应液 30ul
连接酶 10ul
无核酸酶的水 7.5ul
4.将上述接头连接后的产物进行磁珠纯化,然后进行PCR扩增,得到足量的带接头的DNA片段,基本步骤如下:先在98℃预变性45s,其次在98℃变性15s,然后在60℃退火30s,72℃延伸30s;重复变性退火延伸过程7次;最后在72℃延伸1min,结束反应。扩增体系见下表:
表4:
试剂 体积
快速热启动聚合酶 25μL
扩增引物 1uL
连上接头的DNA片段 24μL
5.对PCR扩增产物进行磁珠纯化后,利用Qubit定量得到浓度后,取出500ng扩增产物,使用浓缩仪将扩增产物体积浓缩到4.4ul,然后进行封闭和探针杂交,杂交反应体系如下表所示,
表5:
Figure BDA0002516548950000061
Figure BDA0002516548950000071
杂交反应条件如下表所示:
表6:
Figure BDA0002516548950000072
6.使用链霉亲合素磁珠对探针结合的样品进行捕获,步骤如下:将50ul磁珠加入1.5ml离心管,置于磁力架上,弃上清,用200ul连接缓冲液清洗三遍后,使用200ul连接缓冲液重悬磁珠,将与探针杂交的样品加入磁珠,混匀仪上颠倒混匀30min,置于磁力架上,弃上清,用清洗液1清洗1遍,然后用预热到65℃的清洗液2清洗3遍,期间保证磁珠和缓冲液2的温度在65℃。最后置于磁力架上,弃上清,加入38ul无核酸酶的水,重悬磁珠。
7.将磁珠捕获到的DNA片段进行PCR扩增,扩增体系见下表,得到足量的加上接头的DNA片段,基本步骤如下:先在98℃预变性2min,其次在98℃变性30s,然后在60℃退火30s,72℃延伸1min;重复变性退火延伸过程14次;最后在72℃延伸5min,结束反应。反应体系如下所示。
表7:
Figure BDA0002516548950000073
Figure BDA0002516548950000081
8.将得到的PCR扩增产物进行磁珠纯化,然后利用qPCR定量,利用2100进行片段大小检测。
9.测序,在基因测序仪上完成测序,测序平台将得到的光信号转化为碱基序列下机数据为fq文件存储所有测序片段结果。
10.将下机数据fq文件比对上参考基因组,去除低质量序列,使用实施例2的检测流程进行检测。
11.样本检测结果:
该例样本质量分值为0.5,小于设定的阈值0.7。低于该阈值被判定为样本质量不合格,与样本真实状态一致。
实施例4
使用6例已知样本质量状态的二代测序样本进行检测,所有样本均可以正确判定,结果如下表。
表8:
样本编号 样本类型 真实状态 质量评分 质量判定 是否一致
S1 肺癌样本 合格 0.86 合格 一致
S2 肺癌样本 合格 0.89 合格 一致
S3 肺癌样本 合格 0.92 合格 一致
S4 肺癌样本 不合格 0.57 不合格 一致
S5 肺癌样本 不合格 0.63 不合格 一致
S6 肺癌样本 不合格 0.55 不合格 一致
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得计算设备执行本发明各个实施例所述的方法,或者是使得处理器来执行本发明各个实施例所述的方法。
实施例5
本实施例提供了一种样本质量的评估装置,如图3所示,该评估装置包括:获取模块20、胚系SNP变异检测模块40、比例计算模块60以及质量判定模块80,其中获取模块20,用于分别获取待测组织样本与对照细胞样本的测序数据;胚系SNP变异检测模块40,用于检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;比例计算模块60,用于计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例;质量判定模块80,用于根据比例判定样本质量。
在一种优选的实施例中,胚系SNP变异检测模块包括:变异筛选模块,用于检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到候选位点;过滤模块,用于去除候选位点中位于重复序列区域的位点以及链偏好性位点,得到胚系SNP变异位点。
在一种优选的实施例中,比例计算模块包括:位点划分模块,用于根据变异频率的高低分将胚系SNP变异位点为纯合变异位点、杂合变异位点和剩余变异位点;比例统计模块,用于统计纯合变异位点的数量与杂合变异位点的数量之和占胚系SNP变异位点总数量的比例。
在一种优选的实施例中,质量判定模块包括:第一判定模块,用于当比例大于等于质量阈值时,判定样本质量合格;第二判定模块,用于当比例低于质量阈值时,判定样本质量不合格。
在一种优选的实施例中,测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
实施例6
本实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种的评估方法。
本实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种的评估方法。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:与设置阳性和阴性参考品的间接判定方法相比,本申请的方法和装置能够直接判定样本质量,检测的精度更高,亦可以得到明确的判定阈值。除此之外,本申请的检测流程可以很好地利用病理样本和对照样本的测序数据,辅之自行设计的过滤流程,能够准确地进行样本质量识别,使得在参考品缺失的情况下确定样本质量成为可能。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本申请的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种样本质量的评估方法,其特征在于,所述评估方法包括:
分别获取待测组织样本与对照细胞样本的测序数据;
检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到胚系SNP变异位点;
计算所述胚系SNP变异位点中纯合变异位点和杂合变异位点的比例,并根据所述比例判定样本质量。
2.根据权利要求1所述的评估方法,其特征在于,检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到胚系SNP变异位点包括:
检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到候选位点;
去除所述候选位点中位于重复序列区域的位点以及链偏好性位点,得到所述胚系SNP变异位点。
3.根据权利要求1所述的评估方法,其特征在于,计算所述胚系SNP变异位点中纯合变异位点和杂合变异位点的比例包括:
根据变异频率的高低将所述胚系SNP变异位点分为纯合变异位点、杂合变异位点和剩余变异位点;
统计所述纯合变异位点的数量与所述杂合变异位点的数量之和占所述胚系SNP变异位点总数量的比例;
优选地,所述纯合变异位点的变异频率≥90%,40%≤所述杂合变异位点的变异频率≤60%,其余变异频率的为剩余变异位点。
4.根据权利要求1所述的评估方法,其特征在于,根据所述比例判定样本质量包括:
当所述比例大于等于质量阈值,则判定所述样本质量合格;
当所述比例低于所述质量阈值,则判定所述样本质量不合格;
优选地,所述质量阈值为0.7。
5.根据权利要求1所述的评估方法,其特征在于,所述测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
6.一种样本质量的评估装置,其特征在于,所述评估装置包括:
获取模块,用于分别获取待测组织样本与对照细胞样本的测序数据;
胚系SNP变异检测模块,用于检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到胚系SNP变异位点;
比例计算模块,用于计算所述胚系SNP变异位点中纯合变异位点和杂合变异位点的比例;以及
质量判定模块,用于根据所述比例判定样本质量。
7.根据权利要求6所述的评估装置,其特征在于,胚系SNP变异检测模块包括:
变异筛选模块,用于检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到候选位点;
过滤模块,用于去除所述候选位点中位于重复序列区域的位点以及链偏好性位点,得到所述胚系SNP变异位点。
8.根据权利要求6所述的评估装置,其特征在于,所述比例计算模块包括:
位点划分模块,用于根据变异频率的高低分将所述胚系SNP变异位点为纯合变异位点、杂合变异位点和剩余变异位点;
比例统计模块,用于统计所述纯合变异位点的数量与所述杂合变异位点的数量之和占所述胚系SNP变异位点总数量的比例;
优选地,所述纯合变异位点的变异频率≥90%,40%≤所述杂合变异位点的变异频率≤60%,其余变异频率的为剩余变异位点。
9.根据权利要求6所述的评估装置,其特征在于,所述质量判定模块包括:
第一判定模块,用于当所述比例大于等于质量阈值时,判定所述样本质量合格;
第二判定模块,用于当所述比例低于所述质量阈值时,判定所述样本质量不合格;
优选地,所述质量阈值为0.7。
10.根据权利要求6所述的评估装置,其特征在于,所述测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任一项所述的评估方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任一项所述的评估方法。
CN202010478389.6A 2020-05-29 2020-05-29 样本质量评估方法和装置 Pending CN111477277A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010478389.6A CN111477277A (zh) 2020-05-29 2020-05-29 样本质量评估方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010478389.6A CN111477277A (zh) 2020-05-29 2020-05-29 样本质量评估方法和装置

Publications (1)

Publication Number Publication Date
CN111477277A true CN111477277A (zh) 2020-07-31

Family

ID=71765409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010478389.6A Pending CN111477277A (zh) 2020-05-29 2020-05-29 样本质量评估方法和装置

Country Status (1)

Country Link
CN (1) CN111477277A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599189A (zh) * 2020-12-29 2021-04-02 北京优迅医学检验实验室有限公司 一种全基因组测序的数据质量评估方法及其应用
CN112746097A (zh) * 2021-01-29 2021-05-04 深圳裕康医学检验实验室 一种检测样本交叉污染的方法以及预测交叉污染源的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109536588A (zh) * 2018-12-26 2019-03-29 北京优迅医学检验实验室有限公司 检测ffpe样本氧化状态的方法及装置
CN109686404A (zh) * 2018-12-26 2019-04-26 北京优迅医学检验实验室有限公司 检测样本混淆的方法及装置
CN109949861A (zh) * 2019-03-29 2019-06-28 深圳裕策生物科技有限公司 肿瘤突变负荷检测方法、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109536588A (zh) * 2018-12-26 2019-03-29 北京优迅医学检验实验室有限公司 检测ffpe样本氧化状态的方法及装置
CN109686404A (zh) * 2018-12-26 2019-04-26 北京优迅医学检验实验室有限公司 检测样本混淆的方法及装置
CN109949861A (zh) * 2019-03-29 2019-06-28 深圳裕策生物科技有限公司 肿瘤突变负荷检测方法、装置和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599189A (zh) * 2020-12-29 2021-04-02 北京优迅医学检验实验室有限公司 一种全基因组测序的数据质量评估方法及其应用
CN112746097A (zh) * 2021-01-29 2021-05-04 深圳裕康医学检验实验室 一种检测样本交叉污染的方法以及预测交叉污染源的方法

Similar Documents

Publication Publication Date Title
EP3143537B1 (en) Rare variant calls in ultra-deep sequencing
CN105543380B (zh) 一种检测基因融合的方法及装置
KR101795124B1 (ko) 복제 수 변이를 검측하기 위한 방법 및 시스템
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
CN109767810B (zh) 高通量测序数据分析方法及装置
CN106715711B (zh) 确定探针序列的方法和基因组结构变异的检测方法
CN107058551B (zh) 检测微卫星位点不稳定性的方法及装置
CN104894271B (zh) 一种检测基因融合的方法及装置
CN111304303A (zh) 微卫星不稳定的预测方法及其应用
CN110846411A (zh) 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法
CN111477277A (zh) 样本质量评估方法和装置
CN109022562A (zh) 用于检测高通量测序中样本污染的snp位点的筛选方法及检测样本污染的方法
CN114530198A (zh) 一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法
CN112746097A (zh) 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN111052249A (zh) 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、***和计算机可读介质
CN109686404B (zh) 检测样本混淆的方法及装置
CN110468189A (zh) 基于单样本二代测序检测样本体细胞变异的方法及装置
CN107075565B (zh) 个体单核苷酸多态性位点分型方法及装置
US7912652B2 (en) System and method for mutation detection and identification using mixed-base frequencies
CN110993024B (zh) 建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置
CN115896256A (zh) 基于二代测序技术的rna***缺失突变的检测方法、装置、设备和存储介质
CN113981070B (zh) 胚胎染色体微缺失的检测方法、装置、设备和存储介质
CN114517223A (zh) 一种用于筛选snp位点的方法及其应用
CN109536588A (zh) 检测ffpe样本氧化状态的方法及装置
EP3552127B1 (en) Methods for detecting variants in next-generation sequencing genomic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200731

RJ01 Rejection of invention patent application after publication