CN108363902A

CN108363902A - 一种致病遗传变异的精确预测方法

Info

Publication number: CN108363902A
Application number: CN201810088147.9A
Authority: CN
Inventors: 李其刚; 赵科研; 马欣
Original assignee: Chengdu Tchien Biotechnology Co Ltd
Current assignee: Chengdu Tchien Biotechnology Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-08-03
Anticipated expiration: 2038-01-30
Also published as: CN108363902B

Abstract

本发明公开了一种致病遗传变异的精确预测方法，将已知致病变异分成两类：数据库变异和训练集阳性变异，数据库变异得到ACMG指南中的部分证据，通过随机抽取方法模拟患者的训练集阳性遗传变异数据和相应的表型数据，计算指南相关的特征，利用基于ERIC的计算方法计算表型相关的特征，结合现有的跟致病性判断相关的特征，利用机器学习算法，实现综合考虑基因型数据和表型数据进行的变异致病性预测；该方法解决了实际场景中存在临床表型数据不完整、带有噪音以及描述不准确导致无法进行变异致病性精确预测的问题。

Description

一种致病遗传变异的精确预测方法

技术领域

本发明涉及一种预测方法，具体涉及一种致病遗传变异的精确预测方法。

背景技术

罕见病遗传预测是指从患者基因组中找到能够解释患者临床表型的致病遗传变异的过程。能否精确快速地进行遗传预测关系着患者的后期治疗、护理甚至生命。但精确预测致病遗传变异的难点很大，实际场景中，存在临床表型数据不完整、带有噪音以及描述不准确的一系列问题导致无法进行变异致病性精确预测。

发明内容

针对现有技术中的上述不足，本发明提供的一种致病遗传变异的精确预测方法，解决了实际场景中存在临床表型数据不完整、带有噪音以及描述不准确导致无法进行变异致病性精确预测的问题。

为了达到上述发明目的，本发明采用的技术方案为：

一种致病遗传变异的精确预测方法，包括如下步骤：

S1：收集已经报道和证实的致病变异，并根据发现时间的先后将已知致病变异分成两类：数据库变异和训练集阳性变异；

S2：根据步骤S1中得到的数据库变异得到ACMG指南中的证据；

S3：根据步骤S1中得到的训练集阳性变异，通过随机抽取方法模拟患者的遗传变异数据和相应的表型数据；

S4：根据步骤S2得到的ACMG指南中的证据计算模拟遗传变异数据，得到ACMG指南相关的特征，实现指南相关的特征提炼；

S5：利用基于ERIC的计算方法来计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性，得到表型相关的特征，实现表型相关的特征提炼；

S6：根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征，结合现有的跟致病性判断相关的特征，利用机器学习算法，实现综合考虑基因型数据和表型数据的变异致病性预测。

本发明的有益效果为：

基于指南的特征提高了预测结果的可解释性和准确性；表型的随机抽取更真实的模拟了临床表型的复杂性，提高了预测方法的可靠性和临床实用性；引入的基于ERIC的表型相似性计算方法使预测方法能更好的抵抗表型不完整、不准确和存在噪音带来的不确定性，进一步提高了预测方法的准确性。

进一步地，步骤S3中模拟患者的遗传变异数据和相应的表型数据的随机抽取方法，包括如下步骤：

S3-1：从来自非罕见病患者的群体变异中随机抽取W个阴性变异，***来自训练集阳性变异中的1个已知致病变异，将W个阴性变异和1个阳性致病变异构成患者的模拟遗传变异数据；

S3-2：从阳性致病变异所在基因的已知表型中随机抽取a个表型，然后随机抽取b个表型并进行不精确化处理，最后随机抽取c个无关的噪音表型，模拟出患者的a+b+c个表型，构成患者的表型数据；

S3-3：重复步骤S3-1至S3-2，模拟所有患者的遗传变异数据和相应的表型数据。

上述进一步方案的有益效果为：

表型的随机抽取、不精确化和噪音处理，还原了临床表型的真实性，提高了预测方法的可靠性和临床实用性。

进一步地，步骤S5中，计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性所用计算公式为：

式中t₁、t₂为模拟患者两种不同临床表型；T₁为模拟患者表型集合；T₂为一个基因的已知表型集合；sim(t₁,t₂)为表型t₁和t₂之间的相似度。

进一步地，计算表型间的相似度sim(t₁,t₂)所用计算公式为：

sim(t₁,t₂)＝2IC(t_MICA)-min(IC(t₁),IC(t₂))

式中t_MICA为表型t₁和t₂的最大信息量共同祖先节点；IC(t_MICA)为两个表型t₁和t₂共同的祖先t_MICA的信息量；IC(t₁)和IC(t₂)分别为表型t₁和t₂的信息量。

进一步地，计算模拟患者表型t的信息量IC(t)所用计算公式为：

IC(t)＝log(N/N_t)

式中N为基因总数；N_t为导致表型t的基因总数。

上述进一步方案的有益效果为：

基于ERIC的表型相似性计算方法更精确，能有效的抵抗不精确和噪音表型的影响，提高了预测方法的准确性。

进一步地，步骤S6中，利用机器学习算法中的GBDT模型，实现综合考虑基因型数据和表型数据的变异致病性预测。

上述进一步方案的有益效果为：

GBDT模型是一种非线性模型，相比线性模型能更好的整合来自众多特征变量的信息，提高了预测方法的准确性和实用性。

附图说明

图1为一种致病遗传变异的精确预测方法流程图。

图2为测试集变异(2016-2017新发现变异)预测情况图。

图3为不同表型抽样模式下不同方法的排名情况图。

图4为不同方法在真实临床数据EJHG2017致病变异上的排名情况图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

本发明实施例中，一种致病遗传变异的精确预测方法，如图1所示，包括如下步骤：

S1：从ClinVar数据库收集已经被发现和证实的致病变异，再根据发现时间分成三类：数据库变异(2013年之前发现的)，训练集阳性变异(2013到2015年)，测试集阳性变异(2016年-2017年6月)；

S2：基于数据库变异得到ACMG指南得到每个证据的判别依据；

S3：根据步骤S1中得到的训练集阳性变异，通过随机抽取方法模拟1万个患者的遗传变异数据和相应的表型数据；

随机抽取方法，包括如下步骤：

S3-3：重复步骤S3-1至S3-2，模拟1万个患者的遗传变异数据和相应的表型数据。

计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性所用计算公式为：

计算表型间的相似度sim(t₁,t₂)所用计算公式为：

sim(t₁,t₂)＝2IC(t_MICA)-min(IC(t₁),IC(t₂))

计算模拟患者表型t的信息量IC(t)所用计算公式为：

IC(t)＝log(N/N_t)

式中N为基因总数；N_t为导致表型t的基因总数。

S6：根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征，结合现有的其它对预测致病变异有帮助的数据，比如CADD、PhyloP等，作为补充特征，得到每个模拟遗传变异在各个维度的特征，再利用机器学习算法中的GBDT模型，实现综合考虑基因型数据和表型数据的变异致病性预测；将测试集阳性变异进行步骤S3至S6，实现综合考虑基因型数据和表型数据的变异致病性预测，用于评价本预测方法和其它方法的效果。

实施例：为了展示本方法的高准确性，比较本方法和其它现有方法在2016年到2017年发现的830个致病变异构成的测试数据上的表现，如图2所示。目前行业常用的方法有一大类只单纯使用了基因型(Genotype Only)的数据信息来预测致病性，比如MCAP，CADD，MutationTaster。这些方法主要基于基因序列在进化上的保守性和对蛋白编码氨基酸的功能影响程度的计算来预测致病性。从图2可以看出，这类方法的准确度比同时考虑基因型和表型的方法(Exomiser)要低20％以上。结果表明本发明提供的方法比其它方法具有很明显的提高，比同时考虑基因型和表型的方法(Exomiser)提高了30％以上。而且发现单纯使用表型特征(Xrare_phenotype)和单纯使用指南证据特征(Xrare_ACMG)都具有很好的表现，说明引入的新的表型度量方法和基于指南的特征提高了模型精确度。从图3可以发现，在表型信息缺失，不精确和存在表型噪音时，新的表型相似度度量方法的表现明显跟好。为了进一步评价预测方法跟其他方法以及专家导向型方法(Clinically-Driven)分析的结果间的差异，用真实的临床病历和基因数据来比较方法的表现。使用了2017年发表的临床专家验证过的54个致病位点作为测试，图4结果表明GBDT模型明显比专家导向型方法(Clinically-Driven)效果还要明显。

本发明的有益效果为：

基于指南的特征提高了预测结果的可解释性和准确性；表型的随机抽取、不精确化和噪音处理，还原了临床表型的真实性，提高了预测方法的可靠性和临床实用性；引入的基于ERIC的表型相似性计算方法使得预测方法能更好的抵抗表型不完整、不准确和存在噪音带来的不确定性，从而提高了预测方法的准确性；采用非线性的GBDT模型进一步提高了预测方法的准确性和实用性。

Claims

1.一种致病遗传变异的精确预测方法，其特征在于，包括如下步骤：

S2：根据步骤S1中得到的数据库变异得到ACMG指南中的证据；

S5：利用基于ERIC的计算方法计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性，得到表型相关的特征，实现表型相关的特征提炼；

2.根据权利要求1所述的预测方法，其特征在于，所述步骤S3中模拟患者的遗传变异数据和相应的表型数据的随机抽取方法，包括如下步骤：

3.根据权利要求1所述的预测方法，其特征在于，所述步骤S5中，计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性所用计算公式为：

4.根据权利要求3所述的预测方法，其特征在于，计算表型间的相似度sim(t₁,t₂)所用计算公式为：

sim(t₁,t₂)＝2IC(t_MICA)-min(IC(t₁),IC(t₂))

5.根据权利要求4所述的预测方法，其特征在于，计算模拟患者表型t的信息量IC(t)所用计算公式为：

IC(t)＝log(N/N_t)

式中N为基因总数；N_t为导致表型t的基因总数。

6.根据权利要求1所述的预测方法，其特征在于，所述步骤S6中，利用机器学习算法中的GBDT模型，实现综合考虑基因型数据和表型数据的变异致病性预测。