CN111032885B

CN111032885B - 一种hpv精确分型的生物信息学分析方法及***

Info

Publication number: CN111032885B
Application number: CN201780093704.XA
Authority: CN
Inventors: 柴相花; 王书元; 刘强; 袁玉英; 张红云; 刘娜; 尹烨
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2017-09-07
Filing date: 2017-09-07
Publication date: 2024-05-17
Anticipated expiration: 2037-09-07
Also published as: WO2019047109A1; CN111032885A

Abstract

本发明公开了一种HPV精确分型的生物信息学分型方法及***，所述方法包括：接收高通量测序技术得到的测序片段，得到每个样本的reads序列；将所有样本的reads序列进行分组聚类，将聚类后的reads序列与HPV参考序列集进行比对和筛选，确定筛选后的reads序列的匹配结果；对确定HPV型别的reads序列采用LDA模型进行HPV分型，最终确认每个reads序列的HPV型别。

Description

一种HPV精确分型的生物信息学分析方法及***

技术领域

本发明属于生物信息学领域，涉及一种HPV精确分型的生物信息学分析方法及***。

背景技术

人***瘤病毒(HPV)是一种嗜上皮性病毒，属于乳多空病毒科的***瘤空泡病毒A属，是球形DNA病毒，能引起人体皮肤黏膜的鳞状上皮增殖。至今，被分离出的HPV已经有170多种，根据侵犯的组织部位和致病强弱不同可分为四类：(1)皮肤低危型(如HPV2、3、7、10等)可以引起皮肤疣；(2)皮肤高危型(如HPV5、20、38等)可以引起良性皮肤疣，光化性角化病，非黑瘤皮肤癌等；(3)黏膜低危型(如HPV6、11、13、32等)可以引起良性生殖器湿疣；(4)黏膜高危型(如HPV16、18、31、33等)可以引发恶性肿瘤，诱发的癌症数量占人类所有癌症数量的5％，相当于病毒诱发的所有癌症数量的1/3。其中，HPV16恶性程度最高，在世界范围内，约50％的***是由HPV16引起的。***是最常见的妇科肿瘤，也是威胁女性生命安全的第二大恶性肿瘤。2012年，约有528,000例***病例，死亡人数达266,000人。约70％的***发生在发展中国家。据统计，约70％的***是由HPV16和HPV18感染所致。因此精准高效的进行HPV型别鉴定是有效预防***的重要手段，也是降低女性死亡率的一个重要举措。

目前，用于HPV基因分型的检测方法主要是分子生物学方法，大致包括三种：(1)核酸杂交检测法，包括Southern印迹，原位杂交和斑点印记杂交等，其中Southern印迹法是HPV基因分型的金标准，同时HPV的存在可以与形态学联系起来，但是这种方法灵敏度低，耗时长，纯化DNA的起始量大，并且不适用于容易降解的DNA的检测；(2)信号放大检测法，包括HPV和HC2，这种方法可以进行HPV定量检测，也是FDA批准的检测方法，假阳性率低，灵敏度高，但是这种方法受专利的限制，需要得到许可才能使用，同时不适合HPV特定型别的鉴定及多重HPV感染的检测；(3)核酸扩增检测法，包括微阵列分析，/>PCR，PCR-RFLP，Real-time PCR，Abbott Real-time PCR，HPV genome sequencing等，这种方法在病毒载量和基因型方面比较灵活，有非常高的灵敏度，且可以进行多样本检测，但是对某些特定型别的HPV的扩增信号较低，先前放大的材料污染可能导致假阳性。

201080070484.7公开了一种HPV精确分型的生物学分析的方法及***，该方法将高通量测序获得的测序片段进行分组，与参考基因组序列进行比对后确定序列片段的HPV型别或阴性，对确定型别的序列片段按照样本进行合并，根据确定型别的序列片段的数量和比例进行筛选，最终确定每个样本的HPV型别或者确定为阴性。该方法利用生物信息学的分析方法及技术手段，实现了快速检测大量样本、快速完成对感染HPV型别的检测，然而在型别鉴定过程中，需要将每个样品的序列数量按比例缩放到文库的测序量为理想情况下的平均测序量，然后根据支持HPV型别的序列片段数占总序列片段数的比例是否达到预定阈值来判断是否感染了该型别，该过程中不仅修改了每个样品的总序列片段数，而且仅根据比例是否达到预定阈值来判断是否感染了该型别，判断依据较为单薄无力，因此并不能实现对HPV的精确分型。此外，该方法的型别判别标准采用的是绝对序列片段数，受样本绝对数据量的影响较大，假阳性率较高。

因此，提供一种高精准、高灵敏度、高特异性、低假阴性率和低假阳性率的HPV分型检测技术成为本领域亟待解决的问题。

发明内容

针对上述问题，本发明提供一种HPV精确分型的生物信息学分析方法及***，以克服现有技术精确度差、灵敏度低、特异性差、假阴性率和假阳性率高的缺点。

本发明提供一种HPV精确分型的生物信息学分析方法，包括以下步骤：

1)接收高通量测序技术(NGS)得到的测序片段，得到reads序列；

2)将reads序列进行分组聚类，得到每个样本的reads序列；

3)将每个样本的reads序列与HPV参考序列集进行比对和筛选，确定筛选后的reads序列的匹配结果(即每个样本中的总reads数、比对上的reads数、未比对上的reads数；在比对上的reads中，与HBB比对上的reads数和各HPV分型的reads数)，并进行统计；

4)对确定HPV型别的reads序列采用LDA模型进行HPV分型，最终确认每个reads序列的HPV型别。

在LDA模型(Linear Discriminant Analysis)的分类分析中，假设在阴性、阳性两个分类(y＝0与y＝1)中特征值矢量均为正态分布，分别具有均值μ_0,1与协方差矩阵∑，且两分类的先验概率为π_0,1，则贝叶斯分类器可表示为如下形式：对给定特征值x的某样本，若阳性的后验概率

则将对象归为阳性(y＝1)，否则归为阴性(y＝0)，其中C＝0.5为阈值。

实际分析时，上述假设不可能严格成立，且全体的均值μ_0,1与协方差矩阵Σ是未知量，因而上述贝叶斯分类器是无法获得的。然而，在上述假设近似成立的情况下，可由样本估计均值与协方差矩阵/>仍然应用上述公式进行分类，此即LDA模型。此时阈值C可依据需要调节，例如进行相关检测时降低假阴性率比降低假阳性率更重要，则应选用C<0.5的值。

根据需求，在本发明中可考虑的模型有逻辑回归模型、LDA模型、QDA模型等。但结合数据特点，在两个分类(感染与未感染)特征值相差较远的情况下，逻辑回归有模型不稳定的缺点。然而，因为LDA的分类边界为(高维)平面，而QDA的分类边界为曲面，特征值大幅随机波动对LDA的影响要远小于对QDA的影响。鉴于实验上无法消除特征值的大幅随机波动，本发明选择LDA模型进行型别的判定。

在分类问题中，一般假阳性率(FPR)下降则假阴性率(FNR)上升，反之亦然。因此，在本发明中，阈值的选择依据是在保证假阴性率小于5％的前提下，尽量降低假阴性率与假阳性率之和。

优选地，假阴性率和假阳性率之和为7％～10％，本发明的一个实施例中，假阴性率和假阳性率之和为10％。

优选地，所述分析方法还包括预处理的步骤；

优选地，所述预处理步骤具体包括：对高通量测序技术得到的序列片段进行过滤，除去不合格的序列，以进一步降低不合格序列的影响，进一步提高检测分析的准确性，从而得到“干净的”序列。

优选地，所述过滤具体包括以下步骤：

a)预设不合格碱基的测序质量阈值和比例阈值；

b)当reads序列中碱基的测序质量低于所述测序质量阈值，且低于测序质量阈值的碱基个数占整条序列碱基个数的比例超过所述比例阈值时，将该reads序列判定为不合格序列并加以过滤；否则，进入步骤c)；

c)当reads序列的测序结果中不确定的碱基个数超过整条序列碱基个数的10％时，将该reads序列判定为不合格序列并加以过滤；否则，进入步骤d)；

d)当reads序列的测序结果与接头序列库进行比对时，如果reads序列中存在测序接头序列，则将该reads序列判定为不合格序列并加以过滤；否则，判定为合格的reads序列，进行步骤2)。

优选地，步骤2)所述分组聚类具体包括：

e)将reads序列按照标签序列和引物序列进行聚类；

f)截取每个reads序列中对应的标签序列和引物序列并进行标识，得到聚类后每个样本的reads序列。

优选地，步骤3)所述HPV参考序列集包括用于阴性质控的HBB(即人类基因组的血红蛋白β亚基，hemoglobin subunit beta)序列集和HPV型别序列集；HBB作为内部质控，主要为了识别由于DNA量不足或PCR扩增失败导致的假阴性。

优选地，步骤3)所述统计为将比对结果按照每个样本一行，每种型别一列进行统计，得到reads分布矩阵文件；统计的结果文件也可以如表1所示的形式输出。

例如，编号为S001的样本，总的reads数为3327，其中比对上的reads数为1115，未比对上的reads数为2212；在比对上的reads中，与HBB比对上的reads数为1110，与HPV16、HPV18、HPV31、HPV35比对上的reads数均为0，与HPV33和HPV45比对上的reads数均为1。

表1

在本发明中，步骤3)中将聚类后的reads序列与HPV参考序列集进行比对优选运用BWA(V0.6.2-r126)软件进行，并输出比对后的文件；也可选用其他任何适用的软件进行，本发明没有具体限制。

优选地，步骤4)所述HPV分型包括以下步骤：

g)根据步骤3)的reads分布矩阵判断每个样本总体为阴性或阳性，若为阴性，则输出结果；若为阳性，进入步骤h)；

h)逐个HPV型别判断阴性或阳性，即判断每个样本感染的HPV的型别。

优选地，所述判断每个样本总体为阴性或阳性包括以下步骤：

a’)预设阈值C，通过训练集计算和分析，调整预设的阈值C；

b’)针对训练集样本观测数据，将训练参数和/>带入到分值计算公式中，得到每个样本总体的分值，所述分值计算公式为：

c’)将分值与预设的阈值C进行比较，若大于C，则判定为阳性，否则判定为阴性；

优选地，预设的阈值C的范围为0.4～0.6，例如可以是0.4、0.42、0.44、0.46、0.48、0.5、0.52、0.54、0.56、0.58或0.6及其之间所有的点值，限于篇幅的限制，在此不再一一列举，更优选为0.5；

优选地，所述通过训练集计算和分析具体包括：基于训练集样本，运用下面公式计算出参数和/>其中N₀为阴性样本量，N₁为阳性样本量：

再通过公式：

得到训练集中各种型别的分值，将得到的分值与病理分析结果结合，用于调整预设的阈值C。

优选地，所述逐个HPV型别判断阴性或阳性包括：

若该HPV型别的阳性样本数量≥9，则对该HPV型别建立LDA模型，以总比对上的reads数、HBB reads数和该HPV型别reads数为特征值，以该HPV型别的阴性样本总数量和阳性样本总数量为相应变量，判断每个reads序列样本为阴性或阳性；

若该HPV型别的阳性样本数量小于9，则将其余所有具有≥9的阳性样本数量的HPV型别建立的LDA模型用于该HPV型别，取平均结果后，判断每个reads序列样本为阴性或阳性；

优选地，所述总比对上的reads数、HBB reads数和该HPV型别reads数均使用相对值；

优选地，所述判断每个reads序列样本为阴性或阳性还具体包括：

d’)针对上述步骤中测试集样本的观测数据，将训练参数和/>带入到分值计算公式中：

得到测试集中每个样本总体的分值，将该分值与C进行比较，若大于C则判定为阳性，否则判定为阴性；

e’)对测试集中的阳性样本进行分型：依次对每个HPV型别考虑，若在训练集中曾对该HPV型别建立LDA模型，则将该模型应用于测试集中的阳性样本上；若在训练集中不曾对该HPV型别建立LDA模型，则将所有HPV型别上曾建立的LDA模型应用于该HPV型别，取平均结果；

f’)输出每个测试集样本的判定结果。

第二方面，本发明提供一种如第一方面所述的分析方法进行HPV精确分型的生物信息学分析***，包括：

接收模块：用于接收高通量测序技术得到的测序片段，得到每个样本的reads序列；

聚类模块：与所述接收模块相连，用于将reads序列根据标签序列和引物序列进行分组聚类，得到聚类后的reads序列；

比对统计模块：与所述聚类模块相连，用于将聚类后的reads序列与HPV参考序列集进行比对和筛选，确定筛选后的reads序列的HPV型别或阴性，并进行统计；

HPV分型模块：用于对确定HPV型别的reads序列采用LDA模型进行HPV分型，最终确认每个reads序列的HPV型别或确定为阴性。

优选地，所述***还包括预处理模块，所述预处理模块主要用于每个reads序列的过滤，除去不合格的序列，得到“干净”的reads序列。

在本发明中，所述“干净”的reads序列是满足以下条件之一的序列：

1)序列中“N”碱基的个数小于整条序列碱基个数的10％；

2)序列平均碱基质量值大于15；

3)没有接头污染的序列；

4)没有文库污染的序列。

与现有技术相比，本发明至少具有以下有益效果：

本发明提供的HPV精确分型的生物信息学分型方法及***，克服了现有技术精确度差、灵敏度低、特异性差、假阴性率和假阳性率高的缺点，提供HPV型别的精准分型，为HPV普通筛查和临床实验提供精准的分型结果，为***、口腔癌和***癌等的预防提供有利保障。

附图说明

图1是本发明的HPV精确分型的生物信息学分析方法的流程示意图；

图2是性能评估ROC分析结果图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

所述HPV精确分型的生物信息学分析方法的整个流程图如图1所示，其包括测序、样本预处理、分组聚类、比对和统计、建立每个HPV分型的LDA模型和测试集的结果判定，具体如下：

实施例1测序

本实施例基于Miseq平台SE150的3331份有病理分析结果的样本(即已知这些样本属于阴性或HPV分型)，对65种HPV型别进行验证性判定，包括16种主要型别(包含14种高危型别和2种低危型别)和49种次要型别。

在本实施例这，样本的编号已经过随机化处理。

利用高通量测序技术(NGS)进行测序，得到每个样本的reads序列。

实施例2样本预处理

对所有样本的reads序列进行过滤，除去不合格的序列：

a)预设不合格碱基的测序质量阈值；例如，测序平均质量低于20，则认为是不合格序列；

b)当样本的reads序列中碱基的测序质量低于所述测序质量阈值，具体的，序列的平均碱基质量值小于15时，将该样本的reads序列判定为不合格序列并加以过滤；否则，进入步骤c)；

c)当样本的reads序列的测序结果中不确定的碱基个数超过整条序列碱基个数(例如Illumina GA测序结果中的N)的10％时，将该样本的reads序列判定为不合格序列并加以过滤；否则，进入步骤d)；

d)当样本的reads序列的测序结果与接头序列库进行比对时，如果样本的reads序列中存在测序接头序列，则将该样本的reads序列判定为不合格序列并加以过滤；否则，进入步骤e)；

e)当一个文库中出现标签序列污染时，即实验过程中并没有对标签1序列对应的孔上样，但是标签1出现了序列，则认为不合格序列并加以过滤；否则判定为合格的reads序列，进行后续步骤；

d)将预处理统计文件输出为StatRaw.txt。具体内容以单样本为例，如表2所示。

表2预处理统计文件

原始序列数	534036
			干净序列数及其占原始序列比率	499902	93.61
接头污染序列数及其占干净序列的比率	21459	4.29
			文库污染序列数及其占干净序列的比率	12424	2.49
低质量的序列数及其占干净序列的比率	25	0.01
			含N碱基序列数及其占干净序列的比率	226	0.05

实施例3分组聚类

a)提供标签序列和引物序列文件，具体的序列如表3所示；

表3-1标签序列

表3-2引物序列

/>

b)按照标签序列和引物序列对预处理后的reads序列进行聚类；

c)截取每个reads序列中对应的标签序列和引物序列，标识标签序列和引物序列到每个reads序列的标识符中；

d)得到聚类之后的reads序列，并将聚类统计文件输出为StatEff.txt。

实施例4比对和统计

运用BWA(V0.6.2-r126)软件，把聚类之后的reads序列比对到HPV参考序列集上，得到比对后的统计结果文件StatMap.txt和Reads分布矩阵文件RDisMat.txt。StatMap.txt文件按照每个样本一行，每种型别一列进行统计每个样本(共3331份样本)中的总reads数、比对上的reads数、未比对上的reads数；在比对上的reads中，与HBB比对上的reads数和各HPV分型的reads数，如表4所示。

表4StatMap文件结果

/>

实施例5建立每个HPV分型的LDA模型

在本实施例中，随机划分SAM文件中的3331份样本中的60％即1999份样本作为训练集，其余40％即1332份样本作为测试集。训练集用于建立各HPV分型的LDA模型和阈值C。

a)根据以往经验预设一个阈值C为0.5；

b)基于训练集样本，运用以下公式计算参数和/>

其中，N₀为阴性样本量，N₁为阳性样本量；

c)根据以下公式，计算出训练集中各HPV型别的分值：

d)基于阈值C(0.5)，针对训练集样本观测数据，将训练参数和/>带入到分值计算公式中，得到训练集中每个样本总体的分值，将该分值与C(0.5)进行比较，若大于C(0.5)则判定为阳性，否则判定为阴性；

e)以病理分析结果为准，考察模型效果，计算模型的假阴性率与假阳性率。一般而言，两者均与阈值C有关。尝试不同的阈值C(即分别尝试C为0.4、0.42、0.46、0.48、0.52、0.54、0.58和0.6)，找到最佳值(C＝0.5)使得模型假阴性率不大于5％且假阴性率与假阳性率之和最小；

f)依次考虑训练集中的每个HPV分型：若某一样本中某一HPV型别的阳性样本的数量≥9(例如样本编号S007中，HPV45的样本数量为4052)，则对该HPV型别建立LDA模型；忽略某一样本中某一HPV型别的阳性样本的数量＜9的型别。

实施例6测试集的结果判定

a)将参数和/>带入到以下公式中，计算测试集中每个样本的分值，将分值与阈值C(0.5)进行比较；若大于C(0.5)，则判定为阳性，并进入步骤b)；否则判定为阴性；

b)对测试集中的阳性样本进行分型：依次对每个HPV型别考虑：若在训练集中曾对该HPV型别建立LDA模型，则将该模型应用于测试集中的阳性样本上；若在训练集中不曾对该HPV型别建立LDA模型，则将所有HPV型别上曾建立的LDA模型应用于该HPV型别，取平均结果并将结果输出为HPV-GR.txt。

性能评估

受篇幅限制，展示20个样本的旧***和实施例六(即HPV-AGM)的结果如下表5所示。

表5

性能评估主要将本发明的方法和***与旧的基于NGS的HPV检测技术相比较，性能评估策略主要采用受试者工作特征曲线(ROC：receiver operating characteristiccurve)分析，结果如图2所示。从图2可以看出，本发明的方法和***(即HPV-AGM)的准确率达到99.7％，并且特异度和灵敏度均优于旧模型。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

序列表

<110> 深圳华大基因股份有限公司

<120> 一种HPV精确分型的生物信息学分析方法及***

<130> 2017

<160> 185

<170> PatentIn version 3.5

<210> 1

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 1

tacgctgtac 10

<210> 2

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 2

tatgtgtact 10

<210> 3

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 3

tgactcagac 10

<210> 4

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 4

ctagatgtca 10

<210> 5

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 5

gatgactctc 10

<210> 6

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 6

tgtagtgagt 10

<210> 7

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 7

tcatcgtaga 10

<210> 8

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 8

tagcatctgt 10

<210> 9

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 9

ctatacgtgc 10

<210> 10

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 10

cgactgtaga 10

<210> 11

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 11

gatgtcatgt 10

<210> 12

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 12

gtgtagatac 10

<210> 13

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 13

agctgacgat 10

<210> 14

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 14

atgatatagt 10

<210> 15

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 15

atgtgctcta 10

<210> 16

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 16

catacgctca 10

<210> 17

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 17

ctgatatcta 10

<210> 18

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 18

gcactagatg 10

<210> 19

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 19

agtacgcatg 10

<210> 20

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 20

tagctcatct 10

<210> 21

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 21

agcatacact 10

<210> 22

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 22

gctatagtca 10

<210> 23

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 23

cgtctcatgc 10

<210> 24

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 24

acgatgctat 10

<210> 25

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 25

gagtgtacta 10

<210> 26

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 26

gtcatacgtg 10

<210> 27

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 27

atctgagtac 10

<210> 28

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 28

cgatagcatc 10

<210> 29

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 29

actgatctca 10

<210> 30

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 30

ctcgatacta 10

<210> 31

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 31

catgtgactg 10

<210> 32

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 32

cgcatcacta 10

<210> 33

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 33

gcatatatct 10

<210> 34

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 34

ctgatgcgac 10

<210> 35

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 35

tctcagagtc 10

<210> 36

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 36

cagtgcgagt 10

<210> 37

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 37

atctctgatg 10

<210> 38

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 38

ctgtctgtgt 10

<210> 39

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 39

atgagtcgtc 10

<210> 40

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 40

gcatactgac 10

<210> 41

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 41

ctgctcgcat 10

<210> 42

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 42

ctctagtgct 10

<210> 43

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 43

cgtcgtgcta 10

<210> 44

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 44

cgactactat 10

<210> 45

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 45

gcacgtcgat 10

<210> 46

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 46

gtagtgctct 10

<210> 47

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 47

ctgacgagct 10

<210> 48

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 48

acacgcacta 10

<210> 49

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 49

ctcgcactac 10

<210> 50

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 50

agatctcact 10

<210> 51

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 51

atactagtgt 10

<210> 52

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 52

atatctcgta 10

<210> 53

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 53

tgactgcgta 10

<210> 54

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 54

tgtagacgta 10

<210> 55

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 55

agagactatg 10

<210> 56

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 56

catgagtaga 10

<210> 57

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 57

tgacagctac 10

<210> 58

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 58

cgctagacat 10

<210> 59

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 59

cgtagatatg 10

<210> 60

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 60

tgagtctgct 10

<210> 61

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 61

tagtcgtatg 10

<210> 62

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 62

catacacgac 10

<210> 63

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 63

cgctcagaga 10

<210> 64

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 64

gtgagtctca 10

<210> 65

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 65

tgtactacta 10

<210> 66

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 66

gctgtgcgac 10

<210> 67

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 67

tgagatagtc 10

<210> 68

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 68

cgatgtatat 10

<210> 69

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 69

atatgctact 10

<210> 70

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 70

cactcgctgt 10

<210> 71

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 71

tgacgtgatg 10

<210> 72

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 72

acatcatcac 10

<210> 73

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 73

ctacatagac 10

<210> 74

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 74

agtctacata 10

<210> 75

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 75

agtcactgct 10

<210> 76

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 76

catcacgcac 10

<210> 77

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 77

agcatgtgat 10

<210> 78

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 78

gctatgtagt 10

<210> 79

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 79

agacgtagct 10

<210> 80

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 80

cagacataga 10

<210> 81

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 81

tgcgtcatca 10

<210> 82

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 82

tacatagctc 10

<210> 83

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 83

atgtgagaga 10

<210> 84

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 84

cgtcgtctgt 10

<210> 85

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 85

cgtgtagact 10

<210> 86

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 86

ctacgatgta 10

<210> 87

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 87

tatcgtcgtc 10

<210> 88

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 88

tcatcgagct 10

<210> 89

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 89

actatcgcta 10

<210> 90

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 90

gctactgatg 10

<210> 91

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 91

agctcgatca 10

<210> 92

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 92

cacatatcgt 10

<210> 93

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 93

acgtcgtgat 10

<210> 94

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 94

tacgatgatg 10

<210> 95

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 95

gagactgact 10

<210> 96

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 96

agtgctagat 10

<210> 97

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 97

agctgcgtgt 10

<210> 98

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 98

tgatacgctc 10

<210> 99

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 99

tctcgactca 10

<210> 100

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 100

ctagagatat 10

<210> 101

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 101

atagacgcat 10

<210> 102

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 102

acgcactcac 10

<210> 103

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 103

atcgtagatc 10

<210> 104

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 104

agtagctgtc 10

<210> 105

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 105

cgatatactg 10

<210> 106

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 106

gctcgatata 10

<210> 107

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 107

cagagtcatg 10

<210> 108

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 108

agtacgatgc 10

<210> 109

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 109

gctctcactg 10

<210> 110

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 110

tagctcgctg 10

<210> 111

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 111

gtgagctatc 10

<210> 112

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 112

cagtctgata 10

<210> 113

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 113

tacatgctct 10

<210> 114

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 114

tagtctcgct 10

<210> 115

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 115

cgctacgact 10

<210> 116

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 116

tcgatctgta 10

<210> 117

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 117

acagctatgt 10

<210> 118

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 118

atagtcatgc 10

<210> 119

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 119

agactctcgt 10

<210> 120

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 120

tatgacgagt 10

<210> 121

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 121

tgtgtctaga 10

<210> 122

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 122

gagatgtctg 10

<210> 123

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 123

gcgtcatcgt 10

<210> 124

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 124

atacagagta 10

<210> 125

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 125

gtgctcgtca 10

<210> 126

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 126

gtcatctgct 10

<210> 127

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 127

tactgacgtg 10

<210> 128

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 128

ctacactatc 10

<210> 129

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 129

gcgtgcgata 10

<210> 130

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 130

tgacatgcgt 10

<210> 131

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 131

tgtcgcatat 10

<210> 132

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 132

acactgctca 10

<210> 133

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 133

atactgtgac 10

<210> 134

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 134

ctacgcatca 10

<210> 135

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 135

acgagctaga 10

<210> 136

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 136

gtcgatgaga 10

<210> 137

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 137

cgctgtgatc 10

<210> 138

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 138

tcgtcactat 10

<210> 139

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 139

ctctgtatgc 10

<210> 140

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 140

actatgagct 10

<210> 141

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 141

cactgctctc 10

<210> 142

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 142

actgagcatc 10

<210> 143

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 143

tctatgatac 10

<210> 144

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 144

ctcactatca 10

<210> 145

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 145

tcgacgcact 10

<210> 146

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 146

tgacgatctc 10

<210> 147

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 147

acgtatgctc 10

<210> 148

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 148

cacgtactca 10

<210> 149

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 149

cgcacgtact 10

<210> 150

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 150

agtacactat 10

<210> 151

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 151

ctgcgactgc 10

<210> 152

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 152

catacgacat 10

<210> 153

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 153

tagctacgac 10

<210> 154

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 154

actcgtgtct 10

<210> 155

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 155

ctgtgtcact 10

<210> 156

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 156

tcatctcatg 10

<210> 157

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 157

tactacacta 10

<210> 158

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 158

gtagtacata 10

<210> 159

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 159

gagctagaga 10

<210> 160

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 160

tgtatagtgc 10

<210> 161

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 161

cgtgtcgctc 10

<210> 162

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 162

atcgcatcgt 10

<210> 163

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 163

gctgatgtac 10

<210> 164

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 164

tgcgacgtgc 10

<210> 165

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 165

atcagatctc 10

<210> 166

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 166

cgagctgtgc 10

<210> 167

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 167

atatgtctgt 10

<210> 168

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 168

tacgtatgta 10

<210> 169

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 169

gacactactc 10

<210> 170

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 标签序列

<400> 170

cgatgactca 10

<210> 171

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 171

tttgttactg tggtggatac tac 23

<210> 172

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 172

tttgttaccg ttgttgatac tac 23

<210> 173

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 173

tttgttacta aggtagatac cactc 25

<210> 174

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 174

tttgttactg ttgtggatac aac 23

<210> 175

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 175

tttgttacta tggtagatac cacac 25

<210> 176

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 176

gaaaaataaa ctgtaaatca tattcct 27

<210> 177

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 177

gaaaaataaa ttgtaaatca tactc 25

<210> 178

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 178

gaaatataaa ttgtaaatca aattc 25

<210> 179

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 179

gaaaaataaa ctgtaaatca tattc 25

<210> 180

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 180

gaaaaataaa ctgcaaatca tattc 25

<210> 181

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 181

tttgttactg tggtagatac tac 23

<210> 182

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 182

aatatatgtg tgcttatttg 20

<210> 183

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 183

agattaggga aagtattaga 20

<210> 184

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 184

tttgttactg tagttgatac cactc 25

<210> 185

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物序列

<400> 185

tttgtcacag ttgtggatac cactc 25

Claims

1.一种以非疾病诊断和治疗为目的的HPV精确分型的生物信息学分析方法，其特征在于，所述分析方法包括以下步骤：

1)接收高通量测序技术得到的测序片段，得到reads序列；

2)将reads序列进行分组聚类，得到每个样本的reads序列；

3)将每个样本的reads序列与HPV参考序列集进行比对和筛选，确定筛选后的reads序列的匹配结果，并进行统计；

4)对确定HPV型别的reads序列采用LDA模型进行HPV分型，最终确认每个reads序列的HPV型别；

步骤4)所述HPV分型包括以下步骤：

g)根据步骤3)的reads分布矩阵文件判断每个样本总体为阴性或阳性，若为阴性，则输出结果；若为阳性，进入步骤h)；

h)逐个HPV型别判断阴性或阳性，即判断每个样本感染的HPV的型别；

所述判断每个样本总体为阴性或阳性包括以下步骤：

a’)预设阈值C，通过训练集计算和分析，调整预设的阈值C；所述通过训练集计算和分析具体包括：基于训练集样本，运用下面公式计算出参数和/>其中N₀为阴性样本量，N₁为阳性样本量：

b’)针对训练集样本观测数据，将训练参数和/>带入到分值计算公式中，得到训练集中每个样本总体的分值，所述分值计算公式为：

d’)将训练参数和/>带入到分值计算公式中，得到测试集中每个样本总体的分值，将该分值与C进行比较，若大于C则判定为阳性，否则判定为阴性分值公式：

f’)输出每个测试样本的判定结果；

所述逐个HPV型别判断阴性或阳性包括：

若该HPV型别的阳性样本数量小于9，则将其余所有具有≥9的阳性样本数量的HPV型别建立的LDA模型用于该HPV型别，取平均结果后，判断每个reads序列样本为阴性或阳性。

2.根据权利要求1所述的分析方法，其特征在于，步骤2)所述分组聚类具体包括：

e)将reads序列按照标签序列和引物序列进行聚类；

3.根据权利要求1所述的分析方法，其特征在于，步骤3)所述HPV参考序列集包括HBB序列集和HPV型别序列集。

4.根据权利要求1所述的分析方法，其特征在于，步骤3)所述统计为将比对结果按照每个样本一行，每种型别一列进行统计，得到reads分布矩阵文件。

5.根据权利要求1所述的分析方法，其特征在于，所述预设的阈值C的范围为0.4～0.6。

6.根据权利要求5所述的分析方法，其特征在于，所述预设的阈值C的范围为0.5。

7.根据权利要求1所述的分析方法，其特征在于，所述总比对上的reads数、HBB reads数和该HPV型别reads数均使用相对值。

8.根据权利要求1所述的分析方法，其特征在于，所述分析方法还包括预处理的步骤。

9.根据权利要求8所述的分析方法，其特征在于，所述预处理的步骤具体包括：对高通量测序技术得到的测序片段进行过滤，除去不合格的序列。

10.根据权利要求9所述的分析方法，其特征在于，所述过滤具体包括：

a)预设不合格碱基的测序质量阈值和比例阈值；

b)当reads序列中碱基的测序质量低于所述测序质量阈值，且低于测序质量阈值的碱基个数占整条序列碱基个数的比例超过所述比例阈值时，将该样本的reads序列判定为不合格序列并加以过滤；否则，进入步骤c)；

11.一种采用权利要求1-10中任一项所述的分析方法进行HPV精确分型的生物信息学分析***，其特征在于，所述***包括：

HPV分型模块：与所述比对统计模块相连，用于对确定HPV型别的reads序列采用LDA模型进行HPV分型，最终确认每个reads序列归属的HPV型别或确定为阴性。

12.根据权利要求11所述的分析***，其特征在于，所述***还包括预处理模块，所述预处理模块用于每个reads序列的过滤，除去不合格的序列。