CN111477277A - 样本质量评估方法和装置 - Google Patents
样本质量评估方法和装置 Download PDFInfo
- Publication number
- CN111477277A CN111477277A CN202010478389.6A CN202010478389A CN111477277A CN 111477277 A CN111477277 A CN 111477277A CN 202010478389 A CN202010478389 A CN 202010478389A CN 111477277 A CN111477277 A CN 111477277A
- Authority
- CN
- China
- Prior art keywords
- variation
- sites
- sample
- quality
- snp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013441 quality evaluation Methods 0.000 title abstract description 8
- 238000012163 sequencing technique Methods 0.000 claims abstract description 71
- 238000011156 evaluation Methods 0.000 claims abstract description 22
- 210000004602 germ cell Anatomy 0.000 claims description 36
- 210000004027 cell Anatomy 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 17
- 230000003252 repetitive effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 210000001161 mammalian embryo Anatomy 0.000 claims description 2
- 239000013558 reference substance Substances 0.000 abstract description 8
- 239000002773 nucleotide Substances 0.000 abstract description 5
- 125000003729 nucleotide group Chemical group 0.000 abstract description 5
- 238000003908 quality control method Methods 0.000 abstract description 4
- 239000000523 sample Substances 0.000 description 115
- 239000011324 bead Substances 0.000 description 11
- 239000012634 fragment Substances 0.000 description 8
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 7
- 201000005202 lung cancer Diseases 0.000 description 7
- 208000020816 lung neoplasm Diseases 0.000 description 7
- 239000000047 product Substances 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 230000003321 amplification Effects 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 238000005406 washing Methods 0.000 description 5
- 238000012408 PCR amplification Methods 0.000 description 4
- 238000000137 annealing Methods 0.000 description 4
- 239000007853 buffer solution Substances 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000004925 denaturation Methods 0.000 description 3
- 230000036425 denaturation Effects 0.000 description 3
- 238000009396 hybridization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001575 pathological effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 239000006228 supernatant Substances 0.000 description 3
- 230000006154 adenylylation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 108010090804 Streptavidin Proteins 0.000 description 1
- UDMBCSSLTHHNCD-KQYNXXCUSA-N adenosine 5'-monophosphate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(O)=O)[C@@H](O)[C@H]1O UDMBCSSLTHHNCD-KQYNXXCUSA-N 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012257 pre-denaturation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Organic Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种样本质量评估方法和装置。其中,评估方法包括:分别获取待测组织样本与对照细胞样本的测序数据;检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例,并根据比例判定样本质量。通过找出成对测序的组织样本的测序数据和细胞样本的测序数据中胚系SNP变异位点,并根据其中纯合变异位点和杂合变异位点所占的比例来判断样本的测序数据的质量,改善了无法对没有参考品的样本的测序数据进行质量质控的现状。
Description
技术领域
本发明涉及测序数据质控领域,具体而言,涉及一种样本质量评估方法和装置。
背景技术
在二代测序的临床实践中,常常需要双样本测序,即同时对病理样本及对照样本测序,以便准确找到体细胞变异。然而,常常由于实验操作疏忽、样本放置过久或者发生污染等多种原因导致样本质量降低,无法用于后续的数据分析。因此,准确地判定样本质量对于有效地进行体细胞变异检测具有重要的作用。
现有方法常常不会直接判定样本的质量状态,而是根据二代测序通用技术指导原则,在每一个测序批次设置阳性参考品和阴性参考品间接进行质量判定。然而在真实的临床实践中,往往由于成本优先的考量,忽略了参考品的购买与设置,发生样本质量无法准确识别的风险。也即,当没有参考品时,目前尚无判定样本质量的有效方案。
发明内容
本发明的主要目的在于提供一种样本质量评估方法和装置,以解决现有技术中没有参考品时难以判定样本质量的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种样本质量的评估方法,该评估方法包括:分别获取待测组织样本与对照细胞样本的测序数据;检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例,并根据比例判定样本质量。
进一步地,检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点包括:检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到候选位点;去除候选位点中位于重复序列区域的位点以及链偏好性位点,得到胚系SNP变异位点。
进一步地,计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例包括:根据变异频率的高低将胚系SNP变异位点分为纯合变异位点、杂合变异位点和剩余变异位点;统计纯合变异位点的数量与杂合变异位点的数量之和占胚系SNP变异位点总数量的比例;优选地,纯合变异位点的变异频率≥90%,40%≤杂合变异位点的变异频率≤60%,其余变异频率的为剩余变异位点。
进一步地,根据比例判定样本质量包括:当比例大于等于质量阈值,则判定样本质量合格;当比例低于质量阈值,则判定样本质量不合格;优选地,质量阈值为0.7。
进一步地,测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
根据本申请的第二个方面,提供了一种样本质量的评估装置,该评估装置包括:获取模块,用于分别获取待测组织样本与对照细胞样本的测序数据;胚系SNP变异检测模块,用于检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;比例计算模块,用于计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例;以及质量判定模块,用于根据比例判定样本质量。
进一步地,胚系SNP变异检测模块包括:变异筛选模块,用于检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到候选位点;过滤模块,用于去除候选位点中位于重复序列区域的位点以及链偏好性位点,得到胚系SNP变异位点。
进一步地,比例计算模块包括:位点划分模块,用于根据变异频率的高低分将胚系SNP变异位点为纯合变异位点、杂合变异位点和剩余变异位点;比例统计模块,用于统计纯合变异位点的数量与杂合变异位点的数量之和占胚系SNP变异位点总数量的比例;优选地,纯合变异位点的变异频率≥90%,40%≤杂合变异位点的变异频率≤60%,其余变异频率的为剩余变异位点。
进一步地,质量判定模块包括:第一判定模块,用于当比例大于等于质量阈值时,判定样本质量合格;第二判定模块,用于当比例低于质量阈值时,判定样本质量不合格;优选地,质量阈值为0.7。
进一步地,测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
为了实现上述目的,根据本发明的第三个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种评估方法。
根据本发明的第四个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种评估方法。
应用本发明的技术方案,通过根据成对测序的组织样本的测序数据和细胞样本的测序数据中共有的SNP变异位点挑选出来,找到胚系SNP变异位点,并根据纯合变异位点和杂合变异位点在总的胚系SNP变异位点中所占的比例来判断样本的测序数据的质量。从而改善了无法对没有参考品的样本的测序数据进行质量质控的现状。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例1中的样本质量的评估方法的流程示意图;
图2示出了根据本发明的实施例2中的样本质量的评估方法的详细流程示意图;
图3示出了根据本发明的实施例5中的样本质量的评估装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
如背景技术部分所提及的,目前尚无对没有参考品时的样本的测序数据的质量进行评估的方案。为改善这一现状,本申请基于目前测序样本均是对对照细胞样本(比如,白细胞样本)和待测组织样本(如,病例组织样本)同时进行测序的,针对这种成对测序的样本的测序数据,提出了质量评估的改进方案。在常规的测序实践中,我们发现当样本质量较差时,胚系变异的频率波动较大,频率波动超出了正常范围,例如出现大量≤40%频率的变异。因此,我们尝试用频率符合正常范围胚系变异的占比来衡量样本质量,并通过大量的已知样本质量的样本进行验证,取得了较好的效果。在此基础上,我们提出了本申请的改进方案。
实施例1
本实施例提供了一种样本质量的评估方法,如图1所示,该评估方法包括:
步骤S101,分别获取待测组织样本与对照细胞样本的测序数据;
步骤S103,检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;
步骤S105,计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例;
步骤S107,根据比例判定样本质量。
上述评估方法,通过根据成对测序的组织样本的测序数据和细胞样本的测序数据中共有的SNP变异位点挑选出来,找到胚系SNP变异位点,并根据纯合变异位点和杂合变异位点在总的胚系SNP变异位点中所占的比例来判断样本的测序数据的质量。从而改善了无法对没有参考品的样本的测序数据进行质量质控的现状。
检测成对样本中的胚系SNP变异位点的步骤可以采用现有的检测软件来实现,比如Mutect 2软件。为了进一步提高评估结果的准确性,减少某些SNP变异位点的干扰,在一种优选的实施例中,检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点包括:检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到候选位点;去除候选位点中位于重复序列区域的位点以及链偏好性位点,得到胚系SNP变异位点。
位于重复序列区域的位点以及链偏好性位点容易使得对纯合SNP变异位点和杂合SNP变异位点的统计发生偏差,因而将该部分位点剔除,有助于提高所计算的比例的准确性。
上述胚系SNP变异位点划分时,根据变异频率的高低进行合理设置阈值来区分纯合变异位点和杂合变异位点。在一种优选的实施例中,计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例包括:将胚系SNP变异位点根据变异频率的高低分为纯合变异位点、杂合变异位点和剩余变异位点;统计纯合变异位点的数量与杂合变异位点的数量之和占胚系SNP变异位点总数量的比例。
上述纯合变异位点和杂合变异位点的变异频率的设定,可以根据具体测序数据的不同进行合理设定,在本申请中优选将变异频率大于90%的SNP变异位点记为纯合变异位点,而将变异频率在40%~60%之间的记为杂合变异位点,其余变异频率的记为剩余变异位点。
上述各胚系SNP位点的变异频率可以根据检测软件检测得到,比如Mutect 2软件。
在一种优选的实施例中,根据比例判定样本质量包括:当比例大于等于质量阈值,则判定样本质量合格;当比例低于质量阈值,则判定样本质量不合格。在本申请中,优选该质量阈值为0.7,通过大量的样本检测验证,当该质量阈值控制在0.7时,对样本质量的评估结果比较准确。
需要说明的是,上述评估方法所针对的测序数据无特殊限定,既可以是靶向捕获文库的测序数据、全基因组测序数据,也可以是全外显子测序数据。
实施例2
本实施例提供给了一种用于检测二代测序样本质量状态的评估方法,具体步骤如下:
1)样本预处理并提取DNA;
2)目标区域捕获原理:使用特定序列的探针捕获样本的靶向区域;
3)通过高通量的方法进行测序,得到测序序列;
4)过滤掉低质量的序列,利用以下流程进行质量判定。
具体流程详见图2。
该流程主要分为两部分:
第一部分:样本处理
样本DNA提取、打断、加接头、杂交捕获、洗脱、富集、测序;
第二部分:数据处理
利用BWA-mem比对软件将高通量测序序列比对到人类参考基因组上,未比对上的序列形成软截断。然后根据比对到参考基因组上的位置进行排序,并用samtools软件建立index;
第三部分:确定样本的质量状态
1)使用Mutect2软件对肿瘤和对照样本的SNP位点进行变异检测,确定样本的胚系SNP位点及其频率;
2)对确定的胚系SNP位点,去除位于重复区的位点及链偏好性位点;
3)对于过滤后的胚系SNP位点进行变异频率汇总;
4)最后,将过滤后得到的胚系SNP位点区分成三个群体:纯合位点(变异频率≥90%)、杂合位点(40%≤变异频率≤60%)以及(剩余位点)。然后评估纯合位点及杂合位点群体在总胚系SNP位点群体中所占比例(按下列公式),确定该例样本的质量状态。
对于任一完成测序的成对样本,经过以上过滤流程,可以得到确定的胚系SNP变异总个数。如果样本质量不佳,符合频率要求的杂合/纯合位点个数(将显著减少,导致质量值降低;如果样本质量较好,符合频率要求的杂合/纯合位点个数较多,进而质量值将保持在一个较高水平。
实施例3
本实施例的待检样本是已知质量不合格的肺癌病理样本及相应的对照样本。在实施例的主要试剂如下:
表1:
1.利用荧光定量计(Qubit)进行定量,其浓度为3.8ng/ul,体积为130ul;利用超声破碎仪(Covaris)对样品进行片段化,使DNA片段大小在200-400bp之间,然后利用琼脂糖凝胶电泳检测片段大小是否符合要求。
2.先将片段化的样品进行磁珠纯化,然后进行末端修复和3’端腺苷化,体系配置见下面表格,基本步骤如下:先在20℃温浴30min,其次在65℃温浴30min结束反应。
表2:
末端修复和3’端腺苷化缓冲液 | 7μl |
末端修复和3’端腺苷化酶混合液 | 3μl |
DNA | 50ul(500ng) |
3.将上述修复后的DNA进行接头连接,接头连接体系详见下表,在20℃温浴15min。
表3:
试剂 | 体积 |
带标签的接头 | 2.5μl |
DNA样品 | 60ul |
连接反应液 | 30ul |
连接酶 | 10ul |
无核酸酶的水 | 7.5ul |
4.将上述接头连接后的产物进行磁珠纯化,然后进行PCR扩增,得到足量的带接头的DNA片段,基本步骤如下:先在98℃预变性45s,其次在98℃变性15s,然后在60℃退火30s,72℃延伸30s;重复变性退火延伸过程7次;最后在72℃延伸1min,结束反应。扩增体系见下表:
表4:
试剂 | 体积 |
快速热启动聚合酶 | 25μL |
扩增引物 | 1uL |
连上接头的DNA片段 | 24μL |
5.对PCR扩增产物进行磁珠纯化后,利用Qubit定量得到浓度后,取出500ng扩增产物,使用浓缩仪将扩增产物体积浓缩到4.4ul,然后进行封闭和探针杂交,杂交反应体系如下表所示,
表5:
杂交反应条件如下表所示:
表6:
6.使用链霉亲合素磁珠对探针结合的样品进行捕获,步骤如下:将50ul磁珠加入1.5ml离心管,置于磁力架上,弃上清,用200ul连接缓冲液清洗三遍后,使用200ul连接缓冲液重悬磁珠,将与探针杂交的样品加入磁珠,混匀仪上颠倒混匀30min,置于磁力架上,弃上清,用清洗液1清洗1遍,然后用预热到65℃的清洗液2清洗3遍,期间保证磁珠和缓冲液2的温度在65℃。最后置于磁力架上,弃上清,加入38ul无核酸酶的水,重悬磁珠。
7.将磁珠捕获到的DNA片段进行PCR扩增,扩增体系见下表,得到足量的加上接头的DNA片段,基本步骤如下:先在98℃预变性2min,其次在98℃变性30s,然后在60℃退火30s,72℃延伸1min;重复变性退火延伸过程14次;最后在72℃延伸5min,结束反应。反应体系如下所示。
表7:
8.将得到的PCR扩增产物进行磁珠纯化,然后利用qPCR定量,利用2100进行片段大小检测。
9.测序,在基因测序仪上完成测序,测序平台将得到的光信号转化为碱基序列下机数据为fq文件存储所有测序片段结果。
10.将下机数据fq文件比对上参考基因组,去除低质量序列,使用实施例2的检测流程进行检测。
11.样本检测结果:
该例样本质量分值为0.5,小于设定的阈值0.7。低于该阈值被判定为样本质量不合格,与样本真实状态一致。
实施例4
使用6例已知样本质量状态的二代测序样本进行检测,所有样本均可以正确判定,结果如下表。
表8:
样本编号 | 样本类型 | 真实状态 | 质量评分 | 质量判定 | 是否一致 |
S1 | 肺癌样本 | 合格 | 0.86 | 合格 | 一致 |
S2 | 肺癌样本 | 合格 | 0.89 | 合格 | 一致 |
S3 | 肺癌样本 | 合格 | 0.92 | 合格 | 一致 |
S4 | 肺癌样本 | 不合格 | 0.57 | 不合格 | 一致 |
S5 | 肺癌样本 | 不合格 | 0.63 | 不合格 | 一致 |
S6 | 肺癌样本 | 不合格 | 0.55 | 不合格 | 一致 |
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得计算设备执行本发明各个实施例所述的方法,或者是使得处理器来执行本发明各个实施例所述的方法。
实施例5
本实施例提供了一种样本质量的评估装置,如图3所示,该评估装置包括:获取模块20、胚系SNP变异检测模块40、比例计算模块60以及质量判定模块80,其中获取模块20,用于分别获取待测组织样本与对照细胞样本的测序数据;胚系SNP变异检测模块40,用于检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到胚系SNP变异位点;比例计算模块60,用于计算胚系SNP变异位点中纯合变异位点和杂合变异位点的比例;质量判定模块80,用于根据比例判定样本质量。
在一种优选的实施例中,胚系SNP变异检测模块包括:变异筛选模块,用于检测待测组织样本和对照细胞样本各自的测序数据中共有的SNP变异位点,得到候选位点;过滤模块,用于去除候选位点中位于重复序列区域的位点以及链偏好性位点,得到胚系SNP变异位点。
在一种优选的实施例中,比例计算模块包括:位点划分模块,用于根据变异频率的高低分将胚系SNP变异位点为纯合变异位点、杂合变异位点和剩余变异位点;比例统计模块,用于统计纯合变异位点的数量与杂合变异位点的数量之和占胚系SNP变异位点总数量的比例。
在一种优选的实施例中,质量判定模块包括:第一判定模块,用于当比例大于等于质量阈值时,判定样本质量合格;第二判定模块,用于当比例低于质量阈值时,判定样本质量不合格。
在一种优选的实施例中,测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
实施例6
本实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种的评估方法。
本实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种的评估方法。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:与设置阳性和阴性参考品的间接判定方法相比,本申请的方法和装置能够直接判定样本质量,检测的精度更高,亦可以得到明确的判定阈值。除此之外,本申请的检测流程可以很好地利用病理样本和对照样本的测序数据,辅之自行设计的过滤流程,能够准确地进行样本质量识别,使得在参考品缺失的情况下确定样本质量成为可能。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本申请的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种样本质量的评估方法,其特征在于,所述评估方法包括:
分别获取待测组织样本与对照细胞样本的测序数据;
检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到胚系SNP变异位点;
计算所述胚系SNP变异位点中纯合变异位点和杂合变异位点的比例,并根据所述比例判定样本质量。
2.根据权利要求1所述的评估方法,其特征在于,检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到胚系SNP变异位点包括:
检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到候选位点;
去除所述候选位点中位于重复序列区域的位点以及链偏好性位点,得到所述胚系SNP变异位点。
3.根据权利要求1所述的评估方法,其特征在于,计算所述胚系SNP变异位点中纯合变异位点和杂合变异位点的比例包括:
根据变异频率的高低将所述胚系SNP变异位点分为纯合变异位点、杂合变异位点和剩余变异位点;
统计所述纯合变异位点的数量与所述杂合变异位点的数量之和占所述胚系SNP变异位点总数量的比例;
优选地,所述纯合变异位点的变异频率≥90%,40%≤所述杂合变异位点的变异频率≤60%,其余变异频率的为剩余变异位点。
4.根据权利要求1所述的评估方法,其特征在于,根据所述比例判定样本质量包括:
当所述比例大于等于质量阈值,则判定所述样本质量合格;
当所述比例低于所述质量阈值,则判定所述样本质量不合格;
优选地,所述质量阈值为0.7。
5.根据权利要求1所述的评估方法,其特征在于,所述测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
6.一种样本质量的评估装置,其特征在于,所述评估装置包括:
获取模块,用于分别获取待测组织样本与对照细胞样本的测序数据;
胚系SNP变异检测模块,用于检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到胚系SNP变异位点;
比例计算模块,用于计算所述胚系SNP变异位点中纯合变异位点和杂合变异位点的比例;以及
质量判定模块,用于根据所述比例判定样本质量。
7.根据权利要求6所述的评估装置,其特征在于,胚系SNP变异检测模块包括:
变异筛选模块,用于检测所述待测组织样本和所述对照细胞样本各自的所述测序数据中共有的SNP变异位点,得到候选位点;
过滤模块,用于去除所述候选位点中位于重复序列区域的位点以及链偏好性位点,得到所述胚系SNP变异位点。
8.根据权利要求6所述的评估装置,其特征在于,所述比例计算模块包括:
位点划分模块,用于根据变异频率的高低分将所述胚系SNP变异位点为纯合变异位点、杂合变异位点和剩余变异位点;
比例统计模块,用于统计所述纯合变异位点的数量与所述杂合变异位点的数量之和占所述胚系SNP变异位点总数量的比例;
优选地,所述纯合变异位点的变异频率≥90%,40%≤所述杂合变异位点的变异频率≤60%,其余变异频率的为剩余变异位点。
9.根据权利要求6所述的评估装置,其特征在于,所述质量判定模块包括:
第一判定模块,用于当所述比例大于等于质量阈值时,判定所述样本质量合格;
第二判定模块,用于当所述比例低于所述质量阈值时,判定所述样本质量不合格;
优选地,所述质量阈值为0.7。
10.根据权利要求6所述的评估装置,其特征在于,所述测序数据为靶向捕获文库的测序数据、全基因组测序数据或全外显子测序数据。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任一项所述的评估方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任一项所述的评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010478389.6A CN111477277A (zh) | 2020-05-29 | 2020-05-29 | 样本质量评估方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010478389.6A CN111477277A (zh) | 2020-05-29 | 2020-05-29 | 样本质量评估方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111477277A true CN111477277A (zh) | 2020-07-31 |
Family
ID=71765409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010478389.6A Pending CN111477277A (zh) | 2020-05-29 | 2020-05-29 | 样本质量评估方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111477277A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599189A (zh) * | 2020-12-29 | 2021-04-02 | 北京优迅医学检验实验室有限公司 | 一种全基因组测序的数据质量评估方法及其应用 |
CN112746097A (zh) * | 2021-01-29 | 2021-05-04 | 深圳裕康医学检验实验室 | 一种检测样本交叉污染的方法以及预测交叉污染源的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109536588A (zh) * | 2018-12-26 | 2019-03-29 | 北京优迅医学检验实验室有限公司 | 检测ffpe样本氧化状态的方法及装置 |
CN109686404A (zh) * | 2018-12-26 | 2019-04-26 | 北京优迅医学检验实验室有限公司 | 检测样本混淆的方法及装置 |
CN109949861A (zh) * | 2019-03-29 | 2019-06-28 | 深圳裕策生物科技有限公司 | 肿瘤突变负荷检测方法、装置和存储介质 |
-
2020
- 2020-05-29 CN CN202010478389.6A patent/CN111477277A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109536588A (zh) * | 2018-12-26 | 2019-03-29 | 北京优迅医学检验实验室有限公司 | 检测ffpe样本氧化状态的方法及装置 |
CN109686404A (zh) * | 2018-12-26 | 2019-04-26 | 北京优迅医学检验实验室有限公司 | 检测样本混淆的方法及装置 |
CN109949861A (zh) * | 2019-03-29 | 2019-06-28 | 深圳裕策生物科技有限公司 | 肿瘤突变负荷检测方法、装置和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599189A (zh) * | 2020-12-29 | 2021-04-02 | 北京优迅医学检验实验室有限公司 | 一种全基因组测序的数据质量评估方法及其应用 |
CN112746097A (zh) * | 2021-01-29 | 2021-05-04 | 深圳裕康医学检验实验室 | 一种检测样本交叉污染的方法以及预测交叉污染源的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3143537B1 (en) | Rare variant calls in ultra-deep sequencing | |
CN105543380B (zh) | 一种检测基因融合的方法及装置 | |
KR101795124B1 (ko) | 복제 수 변이를 검측하기 위한 방법 및 시스템 | |
KR102638152B1 (ko) | 서열 변이체 호출을 위한 검증 방법 및 시스템 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN106715711B (zh) | 确定探针序列的方法和基因组结构变异的检测方法 | |
CN107058551B (zh) | 检测微卫星位点不稳定性的方法及装置 | |
CN104894271B (zh) | 一种检测基因融合的方法及装置 | |
CN111304303A (zh) | 微卫星不稳定的预测方法及其应用 | |
CN110846411A (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
CN111477277A (zh) | 样本质量评估方法和装置 | |
CN109022562A (zh) | 用于检测高通量测序中样本污染的snp位点的筛选方法及检测样本污染的方法 | |
CN114530198A (zh) | 一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法 | |
CN112746097A (zh) | 一种检测样本交叉污染的方法以及预测交叉污染源的方法 | |
CN111052249A (zh) | 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、***和计算机可读介质 | |
CN109686404B (zh) | 检测样本混淆的方法及装置 | |
CN110468189A (zh) | 基于单样本二代测序检测样本体细胞变异的方法及装置 | |
CN107075565B (zh) | 个体单核苷酸多态性位点分型方法及装置 | |
US7912652B2 (en) | System and method for mutation detection and identification using mixed-base frequencies | |
CN110993024B (zh) | 建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置 | |
CN115896256A (zh) | 基于二代测序技术的rna***缺失突变的检测方法、装置、设备和存储介质 | |
CN113981070B (zh) | 胚胎染色体微缺失的检测方法、装置、设备和存储介质 | |
CN114517223A (zh) | 一种用于筛选snp位点的方法及其应用 | |
CN109536588A (zh) | 检测ffpe样本氧化状态的方法及装置 | |
EP3552127B1 (en) | Methods for detecting variants in next-generation sequencing genomic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200731 |
|
RJ01 | Rejection of invention patent application after publication |