CN111032885B - 一种hpv精确分型的生物信息学分析方法及*** - Google Patents
一种hpv精确分型的生物信息学分析方法及*** Download PDFInfo
- Publication number
- CN111032885B CN111032885B CN201780093704.XA CN201780093704A CN111032885B CN 111032885 B CN111032885 B CN 111032885B CN 201780093704 A CN201780093704 A CN 201780093704A CN 111032885 B CN111032885 B CN 111032885B
- Authority
- CN
- China
- Prior art keywords
- sequence
- hpv
- dna
- reads
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003766 bioinformatics method Methods 0.000 title claims description 12
- 238000012163 sequencing technique Methods 0.000 claims abstract description 34
- 239000012634 fragment Substances 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000012165 high-throughput sequencing Methods 0.000 claims abstract description 9
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 208000022361 Human papillomavirus infectious disease Diseases 0.000 claims description 39
- 230000008696 hypoxemic pulmonary vasoconstriction Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 102100021519 Hemoglobin subunit beta Human genes 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 6
- 201000010099 disease Diseases 0.000 claims description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 2
- 238000007622 bioinformatic analysis Methods 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 claims 1
- 241000701806 Human papillomavirus Species 0.000 description 75
- 239000002585 base Substances 0.000 description 13
- 206010008342 Cervix carcinoma Diseases 0.000 description 7
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 7
- 201000010881 cervical cancer Diseases 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 241000341655 Human papillomavirus type 16 Species 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 5
- 241000700605 Viruses Species 0.000 description 4
- 238000011109 contamination Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000010827 pathological analysis Methods 0.000 description 3
- 238000002105 Southern blotting Methods 0.000 description 2
- 208000000260 Warts Diseases 0.000 description 2
- 239000003513 alkali Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003205 genotyping method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 210000004877 mucosa Anatomy 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000003753 real-time PCR Methods 0.000 description 2
- 201000010153 skin papilloma Diseases 0.000 description 2
- 206010059313 Anogenital warts Diseases 0.000 description 1
- 108091005904 Hemoglobin subunit beta Proteins 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 208000003445 Mouth Neoplasms Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 208000009608 Papillomavirus Infections Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 208000009621 actinic keratosis Diseases 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000010170 biological method Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008508 epithelial proliferation Effects 0.000 description 1
- 210000004392 genitalia Anatomy 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 208000012987 lip and oral cavity carcinoma Diseases 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010208 microarray analysis Methods 0.000 description 1
- 238000007899 nucleic acid hybridization Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 208000003154 papilloma Diseases 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000007894 restriction fragment length polymorphism technique Methods 0.000 description 1
- 201000008261 skin carcinoma Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 210000003934 vacuole Anatomy 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/70—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Engineering & Computer Science (AREA)
- Immunology (AREA)
- Wood Science & Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Virology (AREA)
- Biotechnology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种HPV精确分型的生物信息学分型方法及***,所述方法包括:接收高通量测序技术得到的测序片段,得到每个样本的reads序列;将所有样本的reads序列进行分组聚类,将聚类后的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的匹配结果;对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别。
Description
技术领域
本发明属于生物信息学领域,涉及一种HPV精确分型的生物信息学分析方法及***。
背景技术
人***瘤病毒(HPV)是一种嗜上皮性病毒,属于乳多空病毒科的***瘤空泡病毒A属,是球形DNA病毒,能引起人体皮肤黏膜的鳞状上皮增殖。至今,被分离出的HPV已经有170多种,根据侵犯的组织部位和致病强弱不同可分为四类:(1)皮肤低危型(如HPV2、3、7、10等)可以引起皮肤疣;(2)皮肤高危型(如HPV5、20、38等)可以引起良性皮肤疣,光化性角化病,非黑瘤皮肤癌等;(3)黏膜低危型(如HPV6、11、13、32等)可以引起良性生殖器湿疣;(4)黏膜高危型(如HPV16、18、31、33等)可以引发恶性肿瘤,诱发的癌症数量占人类所有癌症数量的5%,相当于病毒诱发的所有癌症数量的1/3。其中,HPV16恶性程度最高,在世界范围内,约50%的***是由HPV16引起的。***是最常见的妇科肿瘤,也是威胁女性生命安全的第二大恶性肿瘤。2012年,约有528,000例***病例,死亡人数达266,000人。约70%的***发生在发展中国家。据统计,约70%的***是由HPV16和HPV18感染所致。因此精准高效的进行HPV型别鉴定是有效预防***的重要手段,也是降低女性死亡率的一个重要举措。
目前,用于HPV基因分型的检测方法主要是分子生物学方法,大致包括三种:(1)核酸杂交检测法,包括Southern印迹,原位杂交和斑点印记杂交等,其中Southern印迹法是HPV基因分型的金标准,同时HPV的存在可以与形态学联系起来,但是这种方法灵敏度低,耗时长,纯化DNA的起始量大,并且不适用于容易降解的DNA的检测;(2)信号放大检测法,包括HPV和HC2,这种方法可以进行HPV定量检测,也是FDA批准的检测方法,假阳性率低,灵敏度高,但是这种方法受专利的限制,需要得到许可才能使用,同时不适合HPV特定型别的鉴定及多重HPV感染的检测;(3)核酸扩增检测法,包括微阵列分析,/>PCR,PCR-RFLP,Real-time PCR,Abbott Real-time PCR,HPV genome sequencing等,这种方法在病毒载量和基因型方面比较灵活,有非常高的灵敏度,且可以进行多样本检测,但是对某些特定型别的HPV的扩增信号较低,先前放大的材料污染可能导致假阳性。
201080070484.7公开了一种HPV精确分型的生物学分析的方法及***,该方法将高通量测序获得的测序片段进行分组,与参考基因组序列进行比对后确定序列片段的HPV型别或阴性,对确定型别的序列片段按照样本进行合并,根据确定型别的序列片段的数量和比例进行筛选,最终确定每个样本的HPV型别或者确定为阴性。该方法利用生物信息学的分析方法及技术手段,实现了快速检测大量样本、快速完成对感染HPV型别的检测,然而在型别鉴定过程中,需要将每个样品的序列数量按比例缩放到文库的测序量为理想情况下的平均测序量,然后根据支持HPV型别的序列片段数占总序列片段数的比例是否达到预定阈值来判断是否感染了该型别,该过程中不仅修改了每个样品的总序列片段数,而且仅根据比例是否达到预定阈值来判断是否感染了该型别,判断依据较为单薄无力,因此并不能实现对HPV的精确分型。此外,该方法的型别判别标准采用的是绝对序列片段数,受样本绝对数据量的影响较大,假阳性率较高。
因此,提供一种高精准、高灵敏度、高特异性、低假阴性率和低假阳性率的HPV分型检测技术成为本领域亟待解决的问题。
发明内容
针对上述问题,本发明提供一种HPV精确分型的生物信息学分析方法及***,以克服现有技术精确度差、灵敏度低、特异性差、假阴性率和假阳性率高的缺点。
本发明提供一种HPV精确分型的生物信息学分析方法,包括以下步骤:
1)接收高通量测序技术(NGS)得到的测序片段,得到reads序列;
2)将reads序列进行分组聚类,得到每个样本的reads序列;
3)将每个样本的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的匹配结果(即每个样本中的总reads数、比对上的reads数、未比对上的reads数;在比对上的reads中,与HBB比对上的reads数和各HPV分型的reads数),并进行统计;
4)对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别。
在LDA模型(Linear Discriminant Analysis)的分类分析中,假设在阴性、阳性两个分类(y=0与y=1)中特征值矢量均为正态分布,分别具有均值μ0,1与协方差矩阵∑,且两分类的先验概率为π0,1,则贝叶斯分类器可表示为如下形式:对给定特征值x的某样本,若阳性的后验概率
则将对象归为阳性(y=1),否则归为阴性(y=0),其中C=0.5为阈值。
实际分析时,上述假设不可能严格成立,且全体的均值μ0,1与协方差矩阵Σ是未知量,因而上述贝叶斯分类器是无法获得的。然而,在上述假设近似成立的情况下,可由样本估计均值与协方差矩阵/>仍然应用上述公式进行分类,此即LDA模型。此时阈值C可依据需要调节,例如进行相关检测时降低假阴性率比降低假阳性率更重要,则应选用C<0.5的值。
根据需求,在本发明中可考虑的模型有逻辑回归模型、LDA模型、QDA模型等。但结合数据特点,在两个分类(感染与未感染)特征值相差较远的情况下,逻辑回归有模型不稳定的缺点。然而,因为LDA的分类边界为(高维)平面,而QDA的分类边界为曲面,特征值大幅随机波动对LDA的影响要远小于对QDA的影响。鉴于实验上无法消除特征值的大幅随机波动,本发明选择LDA模型进行型别的判定。
在分类问题中,一般假阳性率(FPR)下降则假阴性率(FNR)上升,反之亦然。因此,在本发明中,阈值的选择依据是在保证假阴性率小于5%的前提下,尽量降低假阴性率与假阳性率之和。
优选地,假阴性率和假阳性率之和为7%~10%,本发明的一个实施例中,假阴性率和假阳性率之和为10%。
优选地,所述分析方法还包括预处理的步骤;
优选地,所述预处理步骤具体包括:对高通量测序技术得到的序列片段进行过滤,除去不合格的序列,以进一步降低不合格序列的影响,进一步提高检测分析的准确性,从而得到“干净的”序列。
优选地,所述过滤具体包括以下步骤:
a)预设不合格碱基的测序质量阈值和比例阈值;
b)当reads序列中碱基的测序质量低于所述测序质量阈值,且低于测序质量阈值的碱基个数占整条序列碱基个数的比例超过所述比例阈值时,将该reads序列判定为不合格序列并加以过滤;否则,进入步骤c);
c)当reads序列的测序结果中不确定的碱基个数超过整条序列碱基个数的10%时,将该reads序列判定为不合格序列并加以过滤;否则,进入步骤d);
d)当reads序列的测序结果与接头序列库进行比对时,如果reads序列中存在测序接头序列,则将该reads序列判定为不合格序列并加以过滤;否则,判定为合格的reads序列,进行步骤2)。
优选地,步骤2)所述分组聚类具体包括:
e)将reads序列按照标签序列和引物序列进行聚类;
f)截取每个reads序列中对应的标签序列和引物序列并进行标识,得到聚类后每个样本的reads序列。
优选地,步骤3)所述HPV参考序列集包括用于阴性质控的HBB(即人类基因组的血红蛋白β亚基,hemoglobin subunit beta)序列集和HPV型别序列集;HBB作为内部质控,主要为了识别由于DNA量不足或PCR扩增失败导致的假阴性。
优选地,步骤3)所述统计为将比对结果按照每个样本一行,每种型别一列进行统计,得到reads分布矩阵文件;统计的结果文件也可以如表1所示的形式输出。
例如,编号为S001的样本,总的reads数为3327,其中比对上的reads数为1115,未比对上的reads数为2212;在比对上的reads中,与HBB比对上的reads数为1110,与HPV16、HPV18、HPV31、HPV35比对上的reads数均为0,与HPV33和HPV45比对上的reads数均为1。
表1
在本发明中,步骤3)中将聚类后的reads序列与HPV参考序列集进行比对优选运用BWA(V0.6.2-r126)软件进行,并输出比对后的文件;也可选用其他任何适用的软件进行,本发明没有具体限制。
优选地,步骤4)所述HPV分型包括以下步骤:
g)根据步骤3)的reads分布矩阵判断每个样本总体为阴性或阳性,若为阴性,则输出结果;若为阳性,进入步骤h);
h)逐个HPV型别判断阴性或阳性,即判断每个样本感染的HPV的型别。
优选地,所述判断每个样本总体为阴性或阳性包括以下步骤:
a’)预设阈值C,通过训练集计算和分析,调整预设的阈值C;
b’)针对训练集样本观测数据,将训练参数和/>带入到分值计算公式中,得到每个样本总体的分值,所述分值计算公式为:
c’)将分值与预设的阈值C进行比较,若大于C,则判定为阳性,否则判定为阴性;
优选地,预设的阈值C的范围为0.4~0.6,例如可以是0.4、0.42、0.44、0.46、0.48、0.5、0.52、0.54、0.56、0.58或0.6及其之间所有的点值,限于篇幅的限制,在此不再一一列举,更优选为0.5;
优选地,所述通过训练集计算和分析具体包括:基于训练集样本,运用下面公式计算出参数和/>其中N0为阴性样本量,N1为阳性样本量:
再通过公式:
得到训练集中各种型别的分值,将得到的分值与病理分析结果结合,用于调整预设的阈值C。
优选地,所述逐个HPV型别判断阴性或阳性包括:
若该HPV型别的阳性样本数量≥9,则对该HPV型别建立LDA模型,以总比对上的reads数、HBB reads数和该HPV型别reads数为特征值,以该HPV型别的阴性样本总数量和阳性样本总数量为相应变量,判断每个reads序列样本为阴性或阳性;
若该HPV型别的阳性样本数量小于9,则将其余所有具有≥9的阳性样本数量的HPV型别建立的LDA模型用于该HPV型别,取平均结果后,判断每个reads序列样本为阴性或阳性;
优选地,所述总比对上的reads数、HBB reads数和该HPV型别reads数均使用相对值;
优选地,所述判断每个reads序列样本为阴性或阳性还具体包括:
d’)针对上述步骤中测试集样本的观测数据,将训练参数和/>带入到分值计算公式中:
得到测试集中每个样本总体的分值,将该分值与C进行比较,若大于C则判定为阳性,否则判定为阴性;
e’)对测试集中的阳性样本进行分型:依次对每个HPV型别考虑,若在训练集中曾对该HPV型别建立LDA模型,则将该模型应用于测试集中的阳性样本上;若在训练集中不曾对该HPV型别建立LDA模型,则将所有HPV型别上曾建立的LDA模型应用于该HPV型别,取平均结果;
f’)输出每个测试集样本的判定结果。
第二方面,本发明提供一种如第一方面所述的分析方法进行HPV精确分型的生物信息学分析***,包括:
接收模块:用于接收高通量测序技术得到的测序片段,得到每个样本的reads序列;
聚类模块:与所述接收模块相连,用于将reads序列根据标签序列和引物序列进行分组聚类,得到聚类后的reads序列;
比对统计模块:与所述聚类模块相连,用于将聚类后的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的HPV型别或阴性,并进行统计;
HPV分型模块:用于对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别或确定为阴性。
优选地,所述***还包括预处理模块,所述预处理模块主要用于每个reads序列的过滤,除去不合格的序列,得到“干净”的reads序列。
在本发明中,所述“干净”的reads序列是满足以下条件之一的序列:
1)序列中“N”碱基的个数小于整条序列碱基个数的10%;
2)序列平均碱基质量值大于15;
3)没有接头污染的序列;
4)没有文库污染的序列。
与现有技术相比,本发明至少具有以下有益效果:
本发明提供的HPV精确分型的生物信息学分型方法及***,克服了现有技术精确度差、灵敏度低、特异性差、假阴性率和假阳性率高的缺点,提供HPV型别的精准分型,为HPV普通筛查和临床实验提供精准的分型结果,为***、口腔癌和***癌等的预防提供有利保障。
附图说明
图1是本发明的HPV精确分型的生物信息学分析方法的流程示意图;
图2是性能评估ROC分析结果图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
所述HPV精确分型的生物信息学分析方法的整个流程图如图1所示,其包括测序、样本预处理、分组聚类、比对和统计、建立每个HPV分型的LDA模型和测试集的结果判定,具体如下:
实施例1测序
本实施例基于Miseq平台SE150的3331份有病理分析结果的样本(即已知这些样本属于阴性或HPV分型),对65种HPV型别进行验证性判定,包括16种主要型别(包含14种高危型别和2种低危型别)和49种次要型别。
在本实施例这,样本的编号已经过随机化处理。
利用高通量测序技术(NGS)进行测序,得到每个样本的reads序列。
实施例2样本预处理
对所有样本的reads序列进行过滤,除去不合格的序列:
a)预设不合格碱基的测序质量阈值;例如,测序平均质量低于20,则认为是不合格序列;
b)当样本的reads序列中碱基的测序质量低于所述测序质量阈值,具体的,序列的平均碱基质量值小于15时,将该样本的reads序列判定为不合格序列并加以过滤;否则,进入步骤c);
c)当样本的reads序列的测序结果中不确定的碱基个数超过整条序列碱基个数(例如Illumina GA测序结果中的N)的10%时,将该样本的reads序列判定为不合格序列并加以过滤;否则,进入步骤d);
d)当样本的reads序列的测序结果与接头序列库进行比对时,如果样本的reads序列中存在测序接头序列,则将该样本的reads序列判定为不合格序列并加以过滤;否则,进入步骤e);
e)当一个文库中出现标签序列污染时,即实验过程中并没有对标签1序列对应的孔上样,但是标签1出现了序列,则认为不合格序列并加以过滤;否则判定为合格的reads序列,进行后续步骤;
d)将预处理统计文件输出为StatRaw.txt。具体内容以单样本为例,如表2所示。
表2预处理统计文件
原始序列数 | 534036 | |
干净序列数及其占原始序列比率 | 499902 | 93.61 |
接头污染序列数及其占干净序列的比率 | 21459 | 4.29 |
文库污染序列数及其占干净序列的比率 | 12424 | 2.49 |
低质量的序列数及其占干净序列的比率 | 25 | 0.01 |
含N碱基序列数及其占干净序列的比率 | 226 | 0.05 |
实施例3分组聚类
a)提供标签序列和引物序列文件,具体的序列如表3所示;
表3-1标签序列
表3-2引物序列
/>
b)按照标签序列和引物序列对预处理后的reads序列进行聚类;
c)截取每个reads序列中对应的标签序列和引物序列,标识标签序列和引物序列到每个reads序列的标识符中;
d)得到聚类之后的reads序列,并将聚类统计文件输出为StatEff.txt。
实施例4比对和统计
运用BWA(V0.6.2-r126)软件,把聚类之后的reads序列比对到HPV参考序列集上,得到比对后的统计结果文件StatMap.txt和Reads分布矩阵文件RDisMat.txt。StatMap.txt文件按照每个样本一行,每种型别一列进行统计每个样本(共3331份样本)中的总reads数、比对上的reads数、未比对上的reads数;在比对上的reads中,与HBB比对上的reads数和各HPV分型的reads数,如表4所示。
表4StatMap文件结果
/>
实施例5建立每个HPV分型的LDA模型
在本实施例中,随机划分SAM文件中的3331份样本中的60%即1999份样本作为训练集,其余40%即1332份样本作为测试集。训练集用于建立各HPV分型的LDA模型和阈值C。
a)根据以往经验预设一个阈值C为0.5;
b)基于训练集样本,运用以下公式计算参数和/>
其中,N0为阴性样本量,N1为阳性样本量;
c)根据以下公式,计算出训练集中各HPV型别的分值:
d)基于阈值C(0.5),针对训练集样本观测数据,将训练参数和/>带入到分值计算公式中,得到训练集中每个样本总体的分值,将该分值与C(0.5)进行比较,若大于C(0.5)则判定为阳性,否则判定为阴性;
e)以病理分析结果为准,考察模型效果,计算模型的假阴性率与假阳性率。一般而言,两者均与阈值C有关。尝试不同的阈值C(即分别尝试C为0.4、0.42、0.46、0.48、0.52、0.54、0.58和0.6),找到最佳值(C=0.5)使得模型假阴性率不大于5%且假阴性率与假阳性率之和最小;
f)依次考虑训练集中的每个HPV分型:若某一样本中某一HPV型别的阳性样本的数量≥9(例如样本编号S007中,HPV45的样本数量为4052),则对该HPV型别建立LDA模型;忽略某一样本中某一HPV型别的阳性样本的数量<9的型别。
实施例6测试集的结果判定
a)将参数和/>带入到以下公式中,计算测试集中每个样本的分值,将分值与阈值C(0.5)进行比较;若大于C(0.5),则判定为阳性,并进入步骤b);否则判定为阴性;
b)对测试集中的阳性样本进行分型:依次对每个HPV型别考虑:若在训练集中曾对该HPV型别建立LDA模型,则将该模型应用于测试集中的阳性样本上;若在训练集中不曾对该HPV型别建立LDA模型,则将所有HPV型别上曾建立的LDA模型应用于该HPV型别,取平均结果并将结果输出为HPV-GR.txt。
性能评估
受篇幅限制,展示20个样本的旧***和实施例六(即HPV-AGM)的结果如下表5所示。
表5
性能评估主要将本发明的方法和***与旧的基于NGS的HPV检测技术相比较,性能评估策略主要采用受试者工作特征曲线(ROC:receiver operating characteristiccurve)分析,结果如图2所示。从图2可以看出,本发明的方法和***(即HPV-AGM)的准确率达到99.7%,并且特异度和灵敏度均优于旧模型。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
序列表
<110> 深圳华大基因股份有限公司
<120> 一种HPV精确分型的生物信息学分析方法及***
<130> 2017
<160> 185
<170> PatentIn version 3.5
<210> 1
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 1
tacgctgtac 10
<210> 2
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 2
tatgtgtact 10
<210> 3
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 3
tgactcagac 10
<210> 4
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 4
ctagatgtca 10
<210> 5
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 5
gatgactctc 10
<210> 6
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 6
tgtagtgagt 10
<210> 7
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 7
tcatcgtaga 10
<210> 8
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 8
tagcatctgt 10
<210> 9
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 9
ctatacgtgc 10
<210> 10
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 10
cgactgtaga 10
<210> 11
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 11
gatgtcatgt 10
<210> 12
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 12
gtgtagatac 10
<210> 13
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 13
agctgacgat 10
<210> 14
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 14
atgatatagt 10
<210> 15
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 15
atgtgctcta 10
<210> 16
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 16
catacgctca 10
<210> 17
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 17
ctgatatcta 10
<210> 18
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 18
gcactagatg 10
<210> 19
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 19
agtacgcatg 10
<210> 20
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 20
tagctcatct 10
<210> 21
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 21
agcatacact 10
<210> 22
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 22
gctatagtca 10
<210> 23
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 23
cgtctcatgc 10
<210> 24
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 24
acgatgctat 10
<210> 25
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 25
gagtgtacta 10
<210> 26
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 26
gtcatacgtg 10
<210> 27
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 27
atctgagtac 10
<210> 28
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 28
cgatagcatc 10
<210> 29
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 29
actgatctca 10
<210> 30
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 30
ctcgatacta 10
<210> 31
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 31
catgtgactg 10
<210> 32
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 32
cgcatcacta 10
<210> 33
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 33
gcatatatct 10
<210> 34
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 34
ctgatgcgac 10
<210> 35
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 35
tctcagagtc 10
<210> 36
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 36
cagtgcgagt 10
<210> 37
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 37
atctctgatg 10
<210> 38
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 38
ctgtctgtgt 10
<210> 39
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 39
atgagtcgtc 10
<210> 40
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 40
gcatactgac 10
<210> 41
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 41
ctgctcgcat 10
<210> 42
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 42
ctctagtgct 10
<210> 43
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 43
cgtcgtgcta 10
<210> 44
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 44
cgactactat 10
<210> 45
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 45
gcacgtcgat 10
<210> 46
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 46
gtagtgctct 10
<210> 47
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 47
ctgacgagct 10
<210> 48
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 48
acacgcacta 10
<210> 49
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 49
ctcgcactac 10
<210> 50
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 50
agatctcact 10
<210> 51
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 51
atactagtgt 10
<210> 52
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 52
atatctcgta 10
<210> 53
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 53
tgactgcgta 10
<210> 54
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 54
tgtagacgta 10
<210> 55
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 55
agagactatg 10
<210> 56
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 56
catgagtaga 10
<210> 57
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 57
tgacagctac 10
<210> 58
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 58
cgctagacat 10
<210> 59
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 59
cgtagatatg 10
<210> 60
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 60
tgagtctgct 10
<210> 61
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 61
tagtcgtatg 10
<210> 62
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 62
catacacgac 10
<210> 63
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 63
cgctcagaga 10
<210> 64
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 64
gtgagtctca 10
<210> 65
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 65
tgtactacta 10
<210> 66
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 66
gctgtgcgac 10
<210> 67
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 67
tgagatagtc 10
<210> 68
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 68
cgatgtatat 10
<210> 69
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 69
atatgctact 10
<210> 70
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 70
cactcgctgt 10
<210> 71
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 71
tgacgtgatg 10
<210> 72
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 72
acatcatcac 10
<210> 73
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 73
ctacatagac 10
<210> 74
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 74
agtctacata 10
<210> 75
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 75
agtcactgct 10
<210> 76
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 76
catcacgcac 10
<210> 77
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 77
agcatgtgat 10
<210> 78
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 78
gctatgtagt 10
<210> 79
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 79
agacgtagct 10
<210> 80
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 80
cagacataga 10
<210> 81
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 81
tgcgtcatca 10
<210> 82
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 82
tacatagctc 10
<210> 83
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 83
atgtgagaga 10
<210> 84
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 84
cgtcgtctgt 10
<210> 85
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 85
cgtgtagact 10
<210> 86
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 86
ctacgatgta 10
<210> 87
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 87
tatcgtcgtc 10
<210> 88
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 88
tcatcgagct 10
<210> 89
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 89
actatcgcta 10
<210> 90
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 90
gctactgatg 10
<210> 91
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 91
agctcgatca 10
<210> 92
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 92
cacatatcgt 10
<210> 93
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 93
acgtcgtgat 10
<210> 94
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 94
tacgatgatg 10
<210> 95
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 95
gagactgact 10
<210> 96
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 96
agtgctagat 10
<210> 97
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 97
agctgcgtgt 10
<210> 98
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 98
tgatacgctc 10
<210> 99
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 99
tctcgactca 10
<210> 100
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 100
ctagagatat 10
<210> 101
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 101
atagacgcat 10
<210> 102
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 102
acgcactcac 10
<210> 103
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 103
atcgtagatc 10
<210> 104
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 104
agtagctgtc 10
<210> 105
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 105
cgatatactg 10
<210> 106
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 106
gctcgatata 10
<210> 107
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 107
cagagtcatg 10
<210> 108
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 108
agtacgatgc 10
<210> 109
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 109
gctctcactg 10
<210> 110
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 110
tagctcgctg 10
<210> 111
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 111
gtgagctatc 10
<210> 112
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 112
cagtctgata 10
<210> 113
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 113
tacatgctct 10
<210> 114
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 114
tagtctcgct 10
<210> 115
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 115
cgctacgact 10
<210> 116
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 116
tcgatctgta 10
<210> 117
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 117
acagctatgt 10
<210> 118
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 118
atagtcatgc 10
<210> 119
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 119
agactctcgt 10
<210> 120
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 120
tatgacgagt 10
<210> 121
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 121
tgtgtctaga 10
<210> 122
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 122
gagatgtctg 10
<210> 123
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 123
gcgtcatcgt 10
<210> 124
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 124
atacagagta 10
<210> 125
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 125
gtgctcgtca 10
<210> 126
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 126
gtcatctgct 10
<210> 127
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 127
tactgacgtg 10
<210> 128
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 128
ctacactatc 10
<210> 129
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 129
gcgtgcgata 10
<210> 130
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 130
tgacatgcgt 10
<210> 131
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 131
tgtcgcatat 10
<210> 132
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 132
acactgctca 10
<210> 133
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 133
atactgtgac 10
<210> 134
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 134
ctacgcatca 10
<210> 135
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 135
acgagctaga 10
<210> 136
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 136
gtcgatgaga 10
<210> 137
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 137
cgctgtgatc 10
<210> 138
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 138
tcgtcactat 10
<210> 139
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 139
ctctgtatgc 10
<210> 140
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 140
actatgagct 10
<210> 141
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 141
cactgctctc 10
<210> 142
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 142
actgagcatc 10
<210> 143
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 143
tctatgatac 10
<210> 144
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 144
ctcactatca 10
<210> 145
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 145
tcgacgcact 10
<210> 146
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 146
tgacgatctc 10
<210> 147
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 147
acgtatgctc 10
<210> 148
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 148
cacgtactca 10
<210> 149
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 149
cgcacgtact 10
<210> 150
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 150
agtacactat 10
<210> 151
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 151
ctgcgactgc 10
<210> 152
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 152
catacgacat 10
<210> 153
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 153
tagctacgac 10
<210> 154
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 154
actcgtgtct 10
<210> 155
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 155
ctgtgtcact 10
<210> 156
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 156
tcatctcatg 10
<210> 157
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 157
tactacacta 10
<210> 158
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 158
gtagtacata 10
<210> 159
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 159
gagctagaga 10
<210> 160
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 160
tgtatagtgc 10
<210> 161
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 161
cgtgtcgctc 10
<210> 162
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 162
atcgcatcgt 10
<210> 163
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 163
gctgatgtac 10
<210> 164
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 164
tgcgacgtgc 10
<210> 165
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 165
atcagatctc 10
<210> 166
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 166
cgagctgtgc 10
<210> 167
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 167
atatgtctgt 10
<210> 168
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 168
tacgtatgta 10
<210> 169
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 169
gacactactc 10
<210> 170
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 标签序列
<400> 170
cgatgactca 10
<210> 171
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 171
tttgttactg tggtggatac tac 23
<210> 172
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 172
tttgttaccg ttgttgatac tac 23
<210> 173
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 173
tttgttacta aggtagatac cactc 25
<210> 174
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 174
tttgttactg ttgtggatac aac 23
<210> 175
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 175
tttgttacta tggtagatac cacac 25
<210> 176
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 176
gaaaaataaa ctgtaaatca tattcct 27
<210> 177
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 177
gaaaaataaa ttgtaaatca tactc 25
<210> 178
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 178
gaaatataaa ttgtaaatca aattc 25
<210> 179
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 179
gaaaaataaa ctgtaaatca tattc 25
<210> 180
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 180
gaaaaataaa ctgcaaatca tattc 25
<210> 181
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 181
tttgttactg tggtagatac tac 23
<210> 182
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 182
aatatatgtg tgcttatttg 20
<210> 183
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 183
agattaggga aagtattaga 20
<210> 184
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 184
tttgttactg tagttgatac cactc 25
<210> 185
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<400> 185
tttgtcacag ttgtggatac cactc 25
Claims (12)
1.一种以非疾病诊断和治疗为目的的HPV精确分型的生物信息学分析方法,其特征在于,所述分析方法包括以下步骤:
1)接收高通量测序技术得到的测序片段,得到reads序列;
2)将reads序列进行分组聚类,得到每个样本的reads序列;
3)将每个样本的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的匹配结果,并进行统计;
4)对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列的HPV型别;
步骤4)所述HPV分型包括以下步骤:
g)根据步骤3)的reads分布矩阵文件判断每个样本总体为阴性或阳性,若为阴性,则输出结果;若为阳性,进入步骤h);
h)逐个HPV型别判断阴性或阳性,即判断每个样本感染的HPV的型别;
所述判断每个样本总体为阴性或阳性包括以下步骤:
a’)预设阈值C,通过训练集计算和分析,调整预设的阈值C;所述通过训练集计算和分析具体包括:基于训练集样本,运用下面公式计算出参数和/>其中N0为阴性样本量,N1为阳性样本量:
b’)针对训练集样本观测数据,将训练参数和/>带入到分值计算公式中,得到训练集中每个样本总体的分值,所述分值计算公式为:
c’)将分值与预设的阈值C进行比较,若大于C,则判定为阳性,否则判定为阴性;
d’)将训练参数和/>带入到分值计算公式中,得到测试集中每个样本总体的分值,将该分值与C进行比较,若大于C则判定为阳性,否则判定为阴性分值公式:
e’)对测试集中的阳性样本进行分型:依次对每个HPV型别考虑,若在训练集中曾对该HPV型别建立LDA模型,则将该模型应用于测试集中的阳性样本上;若在训练集中不曾对该HPV型别建立LDA模型,则将所有HPV型别上曾建立的LDA模型应用于该HPV型别,取平均结果;
f’)输出每个测试样本的判定结果;
所述逐个HPV型别判断阴性或阳性包括:
若该HPV型别的阳性样本数量≥9,则对该HPV型别建立LDA模型,以总比对上的reads数、HBB reads数和该HPV型别reads数为特征值,以该HPV型别的阴性样本总数量和阳性样本总数量为相应变量,判断每个reads序列样本为阴性或阳性;
若该HPV型别的阳性样本数量小于9,则将其余所有具有≥9的阳性样本数量的HPV型别建立的LDA模型用于该HPV型别,取平均结果后,判断每个reads序列样本为阴性或阳性。
2.根据权利要求1所述的分析方法,其特征在于,步骤2)所述分组聚类具体包括:
e)将reads序列按照标签序列和引物序列进行聚类;
f)截取每个reads序列中对应的标签序列和引物序列并进行标识,得到聚类后每个样本的reads序列。
3.根据权利要求1所述的分析方法,其特征在于,步骤3)所述HPV参考序列集包括HBB序列集和HPV型别序列集。
4.根据权利要求1所述的分析方法,其特征在于,步骤3)所述统计为将比对结果按照每个样本一行,每种型别一列进行统计,得到reads分布矩阵文件。
5.根据权利要求1所述的分析方法,其特征在于,所述预设的阈值C的范围为0.4~0.6。
6.根据权利要求5所述的分析方法,其特征在于,所述预设的阈值C的范围为0.5。
7.根据权利要求1所述的分析方法,其特征在于,所述总比对上的reads数、HBB reads数和该HPV型别reads数均使用相对值。
8.根据权利要求1所述的分析方法,其特征在于,所述分析方法还包括预处理的步骤。
9.根据权利要求8所述的分析方法,其特征在于,所述预处理的步骤具体包括:对高通量测序技术得到的测序片段进行过滤,除去不合格的序列。
10.根据权利要求9所述的分析方法,其特征在于,所述过滤具体包括:
a)预设不合格碱基的测序质量阈值和比例阈值;
b)当reads序列中碱基的测序质量低于所述测序质量阈值,且低于测序质量阈值的碱基个数占整条序列碱基个数的比例超过所述比例阈值时,将该样本的reads序列判定为不合格序列并加以过滤;否则,进入步骤c);
c)当reads序列的测序结果中不确定的碱基个数超过整条序列碱基个数的10%时,将该reads序列判定为不合格序列并加以过滤;否则,进入步骤d);
d)当reads序列的测序结果与接头序列库进行比对时,如果reads序列中存在测序接头序列,则将该reads序列判定为不合格序列并加以过滤;否则,判定为合格的reads序列,进行步骤2)。
11.一种采用权利要求1-10中任一项所述的分析方法进行HPV精确分型的生物信息学分析***,其特征在于,所述***包括:
接收模块:用于接收高通量测序技术得到的测序片段,得到每个样本的reads序列;
聚类模块:与所述接收模块相连,用于将reads序列根据标签序列和引物序列进行分组聚类,得到聚类后的reads序列;
比对统计模块:与所述聚类模块相连,用于将聚类后的reads序列与HPV参考序列集进行比对和筛选,确定筛选后的reads序列的HPV型别或阴性,并进行统计;
HPV分型模块:与所述比对统计模块相连,用于对确定HPV型别的reads序列采用LDA模型进行HPV分型,最终确认每个reads序列归属的HPV型别或确定为阴性。
12.根据权利要求11所述的分析***,其特征在于,所述***还包括预处理模块,所述预处理模块用于每个reads序列的过滤,除去不合格的序列。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/100927 WO2019047109A1 (zh) | 2017-09-07 | 2017-09-07 | 一种hpv精确分型的生物信息学分析方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111032885A CN111032885A (zh) | 2020-04-17 |
CN111032885B true CN111032885B (zh) | 2024-05-17 |
Family
ID=65633303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780093704.XA Active CN111032885B (zh) | 2017-09-07 | 2017-09-07 | 一种hpv精确分型的生物信息学分析方法及*** |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111032885B (zh) |
WO (1) | WO2019047109A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023164470A1 (en) * | 2022-02-23 | 2023-08-31 | The University Of North Carolina At Chapel Hill | Methods of treatment for hpv malignancies |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101921874A (zh) * | 2010-06-30 | 2010-12-22 | 深圳华大基因科技有限公司 | 基于Solexa测序法的检测人类***瘤病毒的方法 |
CN102367487A (zh) * | 2011-09-09 | 2012-03-07 | 中国医学科学院病原生物学研究所 | 一种高精确度检测人类***状瘤病毒基因型的方法 |
CN102369275A (zh) * | 2009-02-02 | 2012-03-07 | 卓莫赛尔公司 | 新型细胞系和方法 |
CN102884203A (zh) * | 2010-02-26 | 2013-01-16 | 崇实大学校产学协力团 | 用于对查询序列的基因型与亚型进行分类的方法 |
CN103261442A (zh) * | 2010-12-02 | 2013-08-21 | 深圳华大基因健康科技有限公司 | Hpv 精确分型的生物信息学分析的方法及*** |
CN105378104A (zh) * | 2013-03-15 | 2016-03-02 | 威拉赛特公司 | 用于样品分类的方法和组合物 |
-
2017
- 2017-09-07 CN CN201780093704.XA patent/CN111032885B/zh active Active
- 2017-09-07 WO PCT/CN2017/100927 patent/WO2019047109A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102369275A (zh) * | 2009-02-02 | 2012-03-07 | 卓莫赛尔公司 | 新型细胞系和方法 |
CN102884203A (zh) * | 2010-02-26 | 2013-01-16 | 崇实大学校产学协力团 | 用于对查询序列的基因型与亚型进行分类的方法 |
CN101921874A (zh) * | 2010-06-30 | 2010-12-22 | 深圳华大基因科技有限公司 | 基于Solexa测序法的检测人类***瘤病毒的方法 |
CN103261442A (zh) * | 2010-12-02 | 2013-08-21 | 深圳华大基因健康科技有限公司 | Hpv 精确分型的生物信息学分析的方法及*** |
CN102367487A (zh) * | 2011-09-09 | 2012-03-07 | 中国医学科学院病原生物学研究所 | 一种高精确度检测人类***状瘤病毒基因型的方法 |
CN105378104A (zh) * | 2013-03-15 | 2016-03-02 | 威拉赛特公司 | 用于样品分类的方法和组合物 |
Non-Patent Citations (1)
Title |
---|
陈悦科等.18 种中高危型人***状瘤病 毒高效分型方法的建立.《广东化工》.2016,第第43卷卷(第第43卷期),第1-3,19页. * |
Also Published As
Publication number | Publication date |
---|---|
WO2019047109A1 (zh) | 2019-03-14 |
CN111032885A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2018305609B2 (en) | Enhancement of cancer screening using cell-free viral nucleic acids | |
US20090029346A1 (en) | Detection of human papilloma virus | |
WO2019085988A1 (en) | Using nucleic acid size range for noninvasive prenatal testing and cancer detection | |
Kelly et al. | A spectral phenotype of oncogenic human papillomavirus-infected exfoliative cervical cytology distinguishes women based on age | |
CN113528672B (zh) | 用于膀胱癌早期筛查的引物和探针组合、试剂盒及应用 | |
Lorincz et al. | Methylation of HPV and a tumor suppressor gene reveals anal cancer and precursor lesions | |
CN115612744A (zh) | 人***瘤病毒分型及相关基因甲基化一体化检测模型及其构建方法 | |
CN111032885B (zh) | 一种hpv精确分型的生物信息学分析方法及*** | |
CN111613324A (zh) | 一种机器学习模型高通量分析乙型肝炎病毒基因组rt/s区序列特征预测肝癌风险的方法 | |
US7687232B2 (en) | Method for estimating the risk of carcinoma development | |
WO2012071685A1 (zh) | Hpv精确分型的生物信息学分析的方法及*** | |
CN111088398A (zh) | 用于九价hpv病毒分型检测的复合扩增体系及其试剂盒 | |
WO2016176846A1 (zh) | 检测染色体非整倍性的试剂盒、装置和方法 | |
CN110964800A (zh) | 用于预测早产风险的cfRNA标志物 | |
CN116334228A (zh) | 一种用于***dna甲基化检测的标志物及其应用 | |
CN111621565B (zh) | 弥漫性大b细胞淋巴瘤分子分型试剂盒及分型装置 | |
CN111593140A (zh) | 一种高危型人***瘤病毒的检测和分型试剂盒 | |
CN113667757A (zh) | 用于***癌早期筛查的生物标志物组合、试剂盒及应用 | |
CN107460234B (zh) | 血清48-lncRNA作为肝脏慢性疾病诊断标记物的应用 | |
CN117721209B (zh) | 一种用于***检测的组合检测试剂、试剂盒 | |
RU2709815C1 (ru) | Способ поиска молекулярных маркеров патологического процесса для дифференциальной диагностики, мониторинга и таргетной терапии | |
CN115232872A (zh) | 一种作为nsclc诊断的标志物及其制备方法和应用 | |
CN116790755A (zh) | 一种神经胶质瘤检测的标志物及其应用 | |
CN116814854A (zh) | 人***瘤病毒基因分型检测引物探针组合物、应用、检测方法和试剂盒 | |
CN111094594A (zh) | 产生复数候选探针和鉴定哺乳动物中细胞类型的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40026071 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |