CN108108592B

CN108108592B - 一种用于遗传变异致病性打分的机器学习模型的构建方法

Info

Publication number: CN108108592B
Application number: CN201711476028.2A
Authority: CN
Inventors: 王玉梅; 刘轩竹; 王乐珩; 李厦戎
Original assignee: Beijing Genedock Technology Co ltd
Current assignee: Beijing Genedock Technology Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2020-06-16
Anticipated expiration: 2037-12-29
Also published as: CN108108592A

Abstract

本发明公开一种用于遗传变异致病性打分的机器学***衡调整；D、对调整后的数据进行初始特征值的筛选；E、筛选后特征值中的非数值特征进行独热编码量化；F、将独热编码量化后的特征值中的缺失值进行填补；G、将填补后的特征值输入到机器学习模型中进行训练，以获取所述致病性机器学习模型。由上，本发明的机器学习模型可以获取高精度、高召回率的打分结果。

Description

一种用于遗传变异致病性打分的机器学习模型的构建方法

技术领域

本发明涉及变异位点致病性打分领域，特别涉及一种用于遗传变异致病性打分的机器学习模型的构建方法。

背景技术

现有构建的变异致病性打分软件的方法，比如孟德尔临床适用的致病性得分***(MCAP)，在人类基因变异数据库(HGMD)数据集上，均只有约57％的数据能得到打分结果。由此可见，在遗传性疾病的变异位点致病性检测中，由于部分变异位点的特征信息的缺失，存在得不到致病性检测结果的现象。

因此，为克服现有的打分工具的致病性打分结果不完整、准确率低的缺陷，目前亟需一种用于遗传变异致病性打分的机器学习模型的构建方法，以构建可以获取高精度、高召回率的打分结果的机器学习模型。

发明内容

有鉴于此，本申请提出一种用于遗传变异致病性打分的机器学习模型的构建方法。通过本申请构建的机器学习模型可以获取高精度、高召回率的打分结果。

本申请提出一种用于遗传变异致病性打分的机器学习模型的构建方法，包括：

A、获取变异数据文件，并将所述文件进行注释；

B、根据注释后的信息筛选出每条变异数据的单转录本；

C、对筛选后的单转录本中的数据进行数据分类平衡调整；

D、对调整后的数据进行初始特征值的筛选；

E、将筛选后特征值中的非数值特征进行独热编码量化；

F、将独热编码量化后的特征值中的缺失值进行填补；

G、将填补后的特征值输入到机器学习模型中进行训练，以获取用于遗传变异致病性打分的机器学习模型。

由上，本申请对注释后的变异位点的缺少的特征数据进行缺失填充，就填充后的无缺失的数据进行训练；通过本申请构建的致病性机器学习模型可以获取高精度、高召回率的打分结果。

优选地，所述步骤B中的单转录本选取的优先级依次为：

选取多个转录本中包含有与某一单一遗传病相关的基因的转录本；

选择与数据库中权威转录本相匹配的转录本；

根据变异结果影响的序列本体论序列信息的优先级，选取对变异结果影响影响最大的转录本；

根据转录本正负链信息，选取其中的正链的转录本。

由上，有利于减少无效信息的干扰。

优选地，所述步骤C包括：

C1、根据筛选得到的单转录本中的注释信息，将其中的变异位点划分为致病位点和良性位点；

C2、按照一指定的致病位点/良性位点的比例，选取一定数量的良性位点，以使训练数据平衡。

由上，通常良性位点的数量要远大于致病位点的数量，为了保证之后的训练模型的效果，按照致病：良性＝1：3的比例，从良性位点中抽样出需要的数量。

优选地，所述步骤D包括：

D1、根据所述数据中的不同的变异基因对应表达的蛋白功能，对所述变异基因与所述单一遗传病之间进行致病相关性分析，并获取相关性显著的基因；

D2、将相关性显著的基因、基因的位置及该基因对应的遗传模式作为初始特征值。

由上，本申请首次提出使用单一遗传病特有的基因遗传特征作为初始特征值，有利于提高该单一遗传病预测的效率和精度。

优选地，所述步骤D还包括：

获取各个变异位点对应的变异结果影响的序列本体论信息，将其作为初始特征值；

由上，例如，同义突变和错义突变对变异结果的影响不同，因此将这一特征也作为初始特征值考虑进去。

所述步骤D还包括：

获取各个变异位点所处的外显子的特征信息，将其作为初始特征值；

由上，由于不同部位的外显子的蛋白功能域不同，稳定性也不同，因此将这一特征也作为初始特征值考虑进去。

所述步骤D还包括：

获取各个变异位点附近的重复序列信息，将其作为初始特征值。

由上，当变异位点附近有重复序列信息，即，变异位点在重复区域内，变异影响可能会小，因此将这一特征也作为初始特征值考虑进去。

所述步骤D还包括：

获取各个变异位点在现有的文献及数据库中的特征信息，将其作为初始特征值。

由上，现有的文献及数据库，例如生物医学论文搜索引擎 (PubMed)收集了目前发表的文章，将目前的研究情况考虑进去。

优选地，所述步骤D还包括：

获取各个变异位点在各种人群中出现的频率信息。

由上，充分考虑各个数据库中各人种的人群变异频率，加入的人群变异数据库信息包括千人基因组(1000Genome)、国家心肺和血液研究所外显子组测序计划(ESP)、人类外显子组整合数据库(ExAc) 及人基因组集合数据库(gnomAD)数据库的各个人种的变异频率信息。

优选地，所述步骤D还包括：

获取各个变异位点的保守性相关的信息。

由上，获取如氨基酸保守性，蛋白结构稳定性，变异对剪切位点影响，基因进化速率等与变异位点保守性相关的信息。因为当变异在保守区域内或者在剪切位点上，对蛋白功能影响会比较大，致病的可能性比较大，所以综合考虑多种保守性及剪切位点。

综上所述，本申请对注释后的变异位点中缺少的特征数据的进行缺失填充，对填充后的无缺失的数据进行训练；且本申请针对性的提取与单一遗传病有关的多方面的有效地特征信息，本申请构建的用于遗传变异致病性打分的机器学习模型可以获取高精度、高召回率的打分结果。克服了现有技术中通常由于使用的数据不针对单一遗传疾病，且由于数据缺失造成的打分结果不完整、准确率低的缺陷。

附图说明

图1为本申请实施例提供的一种用于遗传变异致病性打分的机器学习模型的构建方法的流程图；

图2为本申请实施例提供的对所述用于遗传变异致病性打分的机器学习模型进行测试的流程图。

具体实施方式

下面将结合本申请实施例中的附图对本申请进行说明。

实施例一

如图1所示，本申请实施例提出一种用于遗传变异致病性打分的机器学习模型的构建方法，包括步骤：

S101，获取包含有一单一遗传病的变异信息的变异文件(来源于现有的数据库)，随机选择其中的80％作为训练集(另20％作为测试集)，并将所述训练集中的变异数据进行注释。

将变异数据通过变异影响预测(VEP)工具进行注释，得到变异注释文件。变异注释文件由头信息和变异位点信息组成，在头信息中，有注释各列的含义说明。

S102，根据注释后的信息进行单转录本的筛选；包括：

B1、选取多个转录本中包含有与所述单一遗传病相关的基因的转录本。例如，若该遗传病为遗传性耳聋，则与其相关的基因包括如人γ1肌动蛋白基因(ACTG1)、连接蛋白26基因(GJB2)等基因。因此，在选择转录本时，则优先选取多个转录本中包含有与所述遗传性耳聋相关的上述基因的转录本。

B2、选择与数据库中权威转录本相匹配的转录本；即，选择权威转录本；

B3、根据变异结果影响的序列本体论序列信息的优先级，选取对变异结果影响影响最大的转录本；变异的影响分类(按照变异结果影响的序列本体论(Sequence Ontology)序列信息的优先级转录本消除(transcript_ablation)>剪切受体变异(splice_acceptor_variant)> 剪切供体变异(splice_donor_variant)>……共34级)：影响分类按照顺序，分别表示变异结果影响由高到低，找出影响最大的转录本。

B4、根据转录本正负链信息，选取其中的正链的转录本(根据经验正链较合适)。

由上，按照遗传性耳聋疾病特有特征从多转录本中筛选获得最合适的单转录本信息。后面步骤使用这个单一转录本的所有注释信息。有利于减少无效信息的干扰。

S103，对筛选后的单转录本中的数据进行数据分类平衡调整。包括：

通常良性位点的数量要远大于致病位点的数量，因此，为了保证之后的训练模型的效果，按照致病：良性＝1：3的比例，从良性位点中抽样出需要的数量。

S104，对调整后的数据进行初始特征值的筛选；包括：

由此，本申请首次提出使用单一遗传病特有的基因遗传特征作为初始特征值，包括：基因名称(不同基因对致病性的影响不同)、变异所在的位置(不同位置，对应蛋白的不用功能域，对致病性的影响不同)、遗传模式(包括常染色体显性、常染色体隐性、X染色体连锁、线粒体相关，不同的遗传模式下变异的影响也是不同)作为初始特征值，有利于提高该单一遗传病预测的效率和精度。例如，对于筛选遗传性耳聋，其主要的对应基因名称及基因内位置信息为ACTG1 基因的624位置，遗传性耳聋ACTG1基因为常染色体显性遗传(autosomal dominant,AD)。

其中，所述S104还包括：

获取各个变异位点对应的变异结果影响的序列本体论信息，将其作为初始特征值；其中，例如，同义突变和错义突变对变异结果的影响不同，因此将这一特征也作为初始特征值考虑进去。本申请首次提出使用变异位点的该特征，有利于使得构建的机器学习模型打分更加准确。

其中，所述S104还包括：

获取各个变异位点所处的外显子的特征信息，将其作为初始特征值。例如获取变异位点所处的的外显子的位置特征信息，如是处于外显子边缘或中间位置(如共5个外显子，处在第2个外显子上，为外显子中间位置)，由于不同部位的外显子的蛋白功能域不同，稳定性也不同，因此将这一特征也作为初始特征值考虑进去。本申请首次提出使用变异位点的该特征，有利于使得构建的机器学习模型打分更加准确。

其中，所述S104还包括：

由于当变异位点附近有重复序列信息，即，变异位点在重复区域内，变异影响可能会小，因此将这一特征也作为初始特征值考虑进去。本申请首次提出使用变异位点的该特征，有利于使得构建的机器学习模型打分更加准确。

其中，所述S104还包括：

获取各个变异位点在现有的文献及数据库中的特征信息，将其作为初始特征值。由上，现有的文献及数据库，例如生物医学论文搜索引擎(PubMed)收集了目前发表的文章，将目前的研究情况考虑进去。

其中，所述S104还包括：

获取各个变异位点在各种人群中出现的频率信息。充分考虑各个数据库中各人种的人群变异频率，加入的人群变异数据库信息包括千人基因组(1000Genome)、国家心肺和血液研究所外显子组测序计划(ESP)、人类外显子组整合数据库(ExAc)及人基因组集合数据库(gnomAD)数据库的各个人种的变异频率信息。

其中，所述S104还包括：

获取各个变异位点的保守性相关的信息。如氨基酸保守性，蛋白结构稳定性，变异对剪切位点影响，基因进化速率等。将这些特征值的数据提取出，按照位点进行保存：因为当变异在保守区域内或者在剪切位点上，对蛋白功能影响会比较大，致病的可能性比较大，所以综合考虑多种保守性及剪切位点。

S105，将筛选后特征值中的非数值特征进行独热编码量化。

为了充分利用非数值特征，按照变异结果(Consequence)列表、单一遗传病的基因名称和位置、遗传模式及外显子信息进行增维，如 35种Consequence结果，就增维为35个特征值，当结果中有这一特征值出现，则值取1否则取0。

S106，将独热编码量化后的特征值中的缺失值进行填补。

通过hot-deck算法程序将每个变异位点的前述步骤中的各项特征中的缺失的值进行填补，例如，对于某一变异位点，缺少其与氨基酸保守性有关的特征数据等，则通过hot-deck算法程序将其填补。

S107，将填补后的特征值输入到机器学习模型中进行训练，以获取所述针对单一遗传病的变异位点致病性打分的机器学习模型。本发明主要使用的机器学习模型包括：逻辑回归(LR)、支持向量机 (SVM)、随机森林(RandomForest)、梯度提升决策树(GBDT) 模型、神经网络模型。接收者操作特征曲线(ROC)显示，5种模型的结果均能达到0.9以上的曲线下面积(AUC)。模型训练完成获得 5种用于遗传变异致病性打分的机器学习模型。

实施例二

如图2所示，本申请该实施例还对上述的构建的用于遗传变异致病性打分的机器学习模型进行了测试，包括步骤：

S201，将S101中剩余的20％的变异数据文件作为测试集，并将所述测试集中的数据进行注释。

S202，根据注释后的信息筛选出每条变异数据的单转录本。

S203，进行初始特征值的筛选。

S204，将筛选后特征值中的非数值特征进行独热编码量化。

S205，将独热编码量化后的特征值中的缺失值进行填补。

其中S202、S203-S205的具体步骤分别与S102、S104-S106相似，在此不再赘述。

S206，将填补后的特征值输入到实施例一S107中获取的针对单一遗传病的变异位点致病性打分的机器学习模型中(可随意选择实施例一中获取的5种用于遗传变异致病性打分的机器学习模型进行打分)，以获取预测打分结果。

本申请的有益效果是，不同于其他工具对某些数据得不到打分，由于做了特征填补工作，没有抛弃有缺失的数据，对于输入的待测数据，能得到100％的数据的预测打分。对比其他工具较低的准确率(以MCAP为例，32％)，本发明能在保持召回率的优势下得到90％以上的精度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于遗传变异致病性打分的机器学习模型的构建方法，其特征在于，包括：

A、获取包含有单一遗传病的变异信息的变异数据文件，并将所述文件进行注释；

B、根据注释后的信息筛选出每条变异数据的单转录本；

C、对筛选后的单转录本中的数据进行数据分类平衡调整；

D、对调整后的数据进行初始特征值的筛选；

E、将筛选后特征值中的非数值特征进行独热编码量化；

F、将独热编码量化后的特征值中的缺失值进行填补；

G、将填补后的特征值输入到机器学习模型中进行训练，以获取用于遗传变异致病性打分的机器学习模型；

其中，所述步骤B中的单转录本选取的优先级依次为：

选择与数据库中权威转录本相匹配的转录本；

根据转录本正负链信息，选取其中的正链的转录本。

2.根据权利要求1所述的方法，其特征在于，所述步骤C包括：

C1、根据所述单一遗传病相关的文献及数据库，将其中的变异位点划分为致病位点和良性位点；

C2、按照一指定的致病位点/良性位点的比例，选取一定数量的良性位点，以使训练数据平衡；

其中，所述文献及数据库，来源于至少包括以下其一：生物医学论文搜索引擎PubMed、千人基因组1000Genome、国家心肺和血液研究所外显子组测序计划ESP、人类外显子组整合数据库ExAc及人基因组集合数据库gnomAD。

3.根据权利要求1-2任一项所述的方法，其特征在于，所述步骤D包括：

4.根据权利要求3所述的方法，其特征在于，所述步骤D还包括至少以下其一：

获取各个变异位点附近的重复序列信息，将其作为初始特征值；

获取各个变异位点在现有的文献及数据库中的特征信息，将其作为初始特征值；

5.根据权利要求4所述的方法，其特征在于，所述步骤D还包括：

获取各个变异位点在各种人群中出现的频率信息。

6.根据权利要求5所述的方法，其特征在于，所述步骤D还包括：

获取各个变异位点的保守性相关的信息。