CN108363902A - 一种致病遗传变异的精确预测方法 - Google Patents

一种致病遗传变异的精确预测方法 Download PDF

Info

Publication number
CN108363902A
CN108363902A CN201810088147.9A CN201810088147A CN108363902A CN 108363902 A CN108363902 A CN 108363902A CN 201810088147 A CN201810088147 A CN 201810088147A CN 108363902 A CN108363902 A CN 108363902A
Authority
CN
China
Prior art keywords
variation
phenotype
data
pathogenic
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810088147.9A
Other languages
English (en)
Other versions
CN108363902B (zh
Inventor
李其刚
赵科研
马欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Tchien Biotechnology Co Ltd
Original Assignee
Chengdu Tchien Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Tchien Biotechnology Co Ltd filed Critical Chengdu Tchien Biotechnology Co Ltd
Priority to CN201810088147.9A priority Critical patent/CN108363902B/zh
Publication of CN108363902A publication Critical patent/CN108363902A/zh
Application granted granted Critical
Publication of CN108363902B publication Critical patent/CN108363902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种致病遗传变异的精确预测方法,将已知致病变异分成两类:数据库变异和训练集阳性变异,数据库变异得到ACMG指南中的部分证据,通过随机抽取方法模拟患者的训练集阳性遗传变异数据和相应的表型数据,计算指南相关的特征,利用基于ERIC的计算方法计算表型相关的特征,结合现有的跟致病性判断相关的特征,利用机器学习算法,实现综合考虑基因型数据和表型数据进行的变异致病性预测;该方法解决了实际场景中存在临床表型数据不完整、带有噪音以及描述不准确导致无法进行变异致病性精确预测的问题。

Description

一种致病遗传变异的精确预测方法
技术领域
本发明涉及一种预测方法,具体涉及一种致病遗传变异的精确预测方法。
背景技术
罕见病遗传预测是指从患者基因组中找到能够解释患者临床表型的致病遗传变异的过程。能否精确快速地进行遗传预测关系着患者的后期治疗、护理甚至生命。但精确预测致病遗传变异的难点很大,实际场景中,存在临床表型数据不完整、带有噪音以及描述不准确的一系列问题导致无法进行变异致病性精确预测。
发明内容
针对现有技术中的上述不足,本发明提供的一种致病遗传变异的精确预测方法,解决了实际场景中存在临床表型数据不完整、带有噪音以及描述不准确导致无法进行变异致病性精确预测的问题。
为了达到上述发明目的,本发明采用的技术方案为:
一种致病遗传变异的精确预测方法,包括如下步骤:
S1:收集已经报道和证实的致病变异,并根据发现时间的先后将已知致病变异分成两类:数据库变异和训练集阳性变异;
S2:根据步骤S1中得到的数据库变异得到ACMG指南中的证据;
S3:根据步骤S1中得到的训练集阳性变异,通过随机抽取方法模拟患者的遗传变异数据和相应的表型数据;
S4:根据步骤S2得到的ACMG指南中的证据计算模拟遗传变异数据,得到ACMG指南相关的特征,实现指南相关的特征提炼;
S5:利用基于ERIC的计算方法来计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性,得到表型相关的特征,实现表型相关的特征提炼;
S6:根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征,结合现有的跟致病性判断相关的特征,利用机器学习算法,实现综合考虑基因型数据和表型数据的变异致病性预测。
本发明的有益效果为:
基于指南的特征提高了预测结果的可解释性和准确性;表型的随机抽取更真实的模拟了临床表型的复杂性,提高了预测方法的可靠性和临床实用性;引入的基于ERIC的表型相似性计算方法使预测方法能更好的抵抗表型不完整、不准确和存在噪音带来的不确定性,进一步提高了预测方法的准确性。
进一步地,步骤S3中模拟患者的遗传变异数据和相应的表型数据的随机抽取方法,包括如下步骤:
S3-1:从来自非罕见病患者的群体变异中随机抽取W个阴性变异,***来自训练集阳性变异中的1个已知致病变异,将W个阴性变异和1个阳性致病变异构成患者的模拟遗传变异数据;
S3-2:从阳性致病变异所在基因的已知表型中随机抽取a个表型,然后随机抽取b个表型并进行不精确化处理,最后随机抽取c个无关的噪音表型,模拟出患者的a+b+c个表型,构成患者的表型数据;
S3-3:重复步骤S3-1至S3-2,模拟所有患者的遗传变异数据和相应的表型数据。
上述进一步方案的有益效果为:
表型的随机抽取、不精确化和噪音处理,还原了临床表型的真实性,提高了预测方法的可靠性和临床实用性。
进一步地,步骤S5中,计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性所用计算公式为:
式中t1、t2为模拟患者两种不同临床表型;T1为模拟患者表型集合;T2为一个基因的已知表型集合;sim(t1,t2)为表型t1和t2之间的相似度。
进一步地,计算表型间的相似度sim(t1,t2)所用计算公式为:
sim(t1,t2)=2IC(tMICA)-min(IC(t1),IC(t2))
式中tMICA为表型t1和t2的最大信息量共同祖先节点;IC(tMICA)为两个表型t1和t2共同的祖先tMICA的信息量;IC(t1)和IC(t2)分别为表型t1和t2的信息量。
进一步地,计算模拟患者表型t的信息量IC(t)所用计算公式为:
IC(t)=log(N/Nt)
式中N为基因总数;Nt为导致表型t的基因总数。
上述进一步方案的有益效果为:
基于ERIC的表型相似性计算方法更精确,能有效的抵抗不精确和噪音表型的影响,提高了预测方法的准确性。
进一步地,步骤S6中,利用机器学习算法中的GBDT模型,实现综合考虑基因型数据和表型数据的变异致病性预测。
上述进一步方案的有益效果为:
GBDT模型是一种非线性模型,相比线性模型能更好的整合来自众多特征变量的信息,提高了预测方法的准确性和实用性。
附图说明
图1为一种致病遗传变异的精确预测方法流程图。
图2为测试集变异(2016-2017新发现变异)预测情况图。
图3为不同表型抽样模式下不同方法的排名情况图。
图4为不同方法在真实临床数据EJHG2017致病变异上的排名情况图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
本发明实施例中,一种致病遗传变异的精确预测方法,如图1所示,包括如下步骤:
S1:从ClinVar数据库收集已经被发现和证实的致病变异,再根据发现时间分成三类:数据库变异(2013年之前发现的),训练集阳性变异(2013到2015年),测试集阳性变异(2016年-2017年6月);
S2:基于数据库变异得到ACMG指南得到每个证据的判别依据;
S3:根据步骤S1中得到的训练集阳性变异,通过随机抽取方法模拟1万个患者的遗传变异数据和相应的表型数据;
随机抽取方法,包括如下步骤:
S3-1:从来自非罕见病患者的群体变异中随机抽取W个阴性变异,***来自训练集阳性变异中的1个已知致病变异,将W个阴性变异和1个阳性致病变异构成患者的模拟遗传变异数据;
S3-2:从阳性致病变异所在基因的已知表型中随机抽取a个表型,然后随机抽取b个表型并进行不精确化处理,最后随机抽取c个无关的噪音表型,模拟出患者的a+b+c个表型,构成患者的表型数据;
S3-3:重复步骤S3-1至S3-2,模拟1万个患者的遗传变异数据和相应的表型数据。
S4:根据步骤S2得到的ACMG指南中的证据计算模拟遗传变异数据,得到ACMG指南相关的特征,实现指南相关的特征提炼;
S5:利用基于ERIC的计算方法来计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性,得到表型相关的特征,实现表型相关的特征提炼;
计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性所用计算公式为:
式中t1、t2为模拟患者两种不同临床表型;T1为模拟患者表型集合;T2为一个基因的已知表型集合;sim(t1,t2)为表型t1和t2之间的相似度。
计算表型间的相似度sim(t1,t2)所用计算公式为:
sim(t1,t2)=2IC(tMICA)-min(IC(t1),IC(t2))
式中tMICA为表型t1和t2的最大信息量共同祖先节点;IC(tMICA)为两个表型t1和t2共同的祖先tMICA的信息量;IC(t1)和IC(t2)分别为表型t1和t2的信息量。
计算模拟患者表型t的信息量IC(t)所用计算公式为:
IC(t)=log(N/Nt)
式中N为基因总数;Nt为导致表型t的基因总数。
S6:根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征,结合现有的其它对预测致病变异有帮助的数据,比如CADD、PhyloP等,作为补充特征,得到每个模拟遗传变异在各个维度的特征,再利用机器学习算法中的GBDT模型,实现综合考虑基因型数据和表型数据的变异致病性预测;将测试集阳性变异进行步骤S3至S6,实现综合考虑基因型数据和表型数据的变异致病性预测,用于评价本预测方法和其它方法的效果。
实施例:为了展示本方法的高准确性,比较本方法和其它现有方法在2016年到2017年发现的830个致病变异构成的测试数据上的表现,如图2所示。目前行业常用的方法有一大类只单纯使用了基因型(Genotype Only)的数据信息来预测致病性,比如MCAP,CADD,MutationTaster。这些方法主要基于基因序列在进化上的保守性和对蛋白编码氨基酸的功能影响程度的计算来预测致病性。从图2可以看出,这类方法的准确度比同时考虑基因型和表型的方法(Exomiser)要低20%以上。结果表明本发明提供的方法比其它方法具有很明显的提高,比同时考虑基因型和表型的方法(Exomiser)提高了30%以上。而且发现单纯使用表型特征(Xrare_phenotype)和单纯使用指南证据特征(Xrare_ACMG)都具有很好的表现,说明引入的新的表型度量方法和基于指南的特征提高了模型精确度。从图3可以发现,在表型信息缺失,不精确和存在表型噪音时,新的表型相似度度量方法的表现明显跟好。为了进一步评价预测方法跟其他方法以及专家导向型方法(Clinically-Driven)分析的结果间的差异,用真实的临床病历和基因数据来比较方法的表现。使用了2017年发表的临床专家验证过的54个致病位点作为测试,图4结果表明GBDT模型明显比专家导向型方法(Clinically-Driven)效果还要明显。
本发明的有益效果为:
基于指南的特征提高了预测结果的可解释性和准确性;表型的随机抽取、不精确化和噪音处理,还原了临床表型的真实性,提高了预测方法的可靠性和临床实用性;引入的基于ERIC的表型相似性计算方法使得预测方法能更好的抵抗表型不完整、不准确和存在噪音带来的不确定性,从而提高了预测方法的准确性;采用非线性的GBDT模型进一步提高了预测方法的准确性和实用性。

Claims (6)

1.一种致病遗传变异的精确预测方法,其特征在于,包括如下步骤:
S1:收集已经报道和证实的致病变异,并根据发现时间的先后将已知致病变异分成两类:数据库变异和训练集阳性变异;
S2:根据步骤S1中得到的数据库变异得到ACMG指南中的证据;
S3:根据步骤S1中得到的训练集阳性变异,通过随机抽取方法模拟患者的遗传变异数据和相应的表型数据;
S4:根据步骤S2得到的ACMG指南中的证据计算模拟遗传变异数据,得到ACMG指南相关的特征,实现指南相关的特征提炼;
S5:利用基于ERIC的计算方法计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性,得到表型相关的特征,实现表型相关的特征提炼;
S6:根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征,结合现有的跟致病性判断相关的特征,利用机器学习算法,实现综合考虑基因型数据和表型数据的变异致病性预测。
2.根据权利要求1所述的预测方法,其特征在于,所述步骤S3中模拟患者的遗传变异数据和相应的表型数据的随机抽取方法,包括如下步骤:
S3-1:从来自非罕见病患者的群体变异中随机抽取W个阴性变异,***来自训练集阳性变异中的1个已知致病变异,将W个阴性变异和1个阳性致病变异构成患者的模拟遗传变异数据;
S3-2:从阳性致病变异所在基因的已知表型中随机抽取a个表型,然后随机抽取b个表型并进行不精确化处理,最后随机抽取c个无关的噪音表型,模拟出患者的a+b+c个表型,构成患者的表型数据;
S3-3:重复步骤S3-1至S3-2,模拟所有患者的遗传变异数据和相应的表型数据。
3.根据权利要求1所述的预测方法,其特征在于,所述步骤S5中,计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性所用计算公式为:
式中t1、t2为模拟患者两种不同临床表型;T1为模拟患者表型集合;T2为一个基因的已知表型集合;sim(t1,t2)为表型t1和t2之间的相似度。
4.根据权利要求3所述的预测方法,其特征在于,计算表型间的相似度sim(t1,t2)所用计算公式为:
sim(t1,t2)=2IC(tMICA)-min(IC(t1),IC(t2))
式中tMICA为表型t1和t2的最大信息量共同祖先节点;IC(tMICA)为两个表型t1和t2共同的祖先tMICA的信息量;IC(t1)和IC(t2)分别为表型t1和t2的信息量。
5.根据权利要求4所述的预测方法,其特征在于,计算模拟患者表型t的信息量IC(t)所用计算公式为:
IC(t)=log(N/Nt)
式中N为基因总数;Nt为导致表型t的基因总数。
6.根据权利要求1所述的预测方法,其特征在于,所述步骤S6中,利用机器学习算法中的GBDT模型,实现综合考虑基因型数据和表型数据的变异致病性预测。
CN201810088147.9A 2018-01-30 2018-01-30 一种致病遗传变异的精确预测方法 Active CN108363902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810088147.9A CN108363902B (zh) 2018-01-30 2018-01-30 一种致病遗传变异的精确预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810088147.9A CN108363902B (zh) 2018-01-30 2018-01-30 一种致病遗传变异的精确预测方法

Publications (2)

Publication Number Publication Date
CN108363902A true CN108363902A (zh) 2018-08-03
CN108363902B CN108363902B (zh) 2022-02-25

Family

ID=63007672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810088147.9A Active CN108363902B (zh) 2018-01-30 2018-01-30 一种致病遗传变异的精确预测方法

Country Status (1)

Country Link
CN (1) CN108363902B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493917A (zh) * 2018-09-02 2019-03-19 上海市儿童医院 一种基因突变有害性预测值的害阶位计算方法
CN111862091A (zh) * 2020-08-05 2020-10-30 昆山杜克大学 一种基于表型测量早期发现综合征的***
CN112863605A (zh) * 2021-02-03 2021-05-28 中国人民解放军总医院第七医学中心 一种确定智力障碍基因的平台、方法、计算机设备和介质
CN112951324A (zh) * 2021-02-05 2021-06-11 广州医科大学 一种基于欠采样的致病同义突变预测方法
CN113241118A (zh) * 2021-07-12 2021-08-10 法玛门多(常州)生物科技有限公司 一种基因突变有害性预测的方法
CN114300036A (zh) * 2021-12-29 2022-04-08 深圳华大基因股份有限公司 遗传变异致病性预测方法、装置、存储介质及计算机设备
CN116343913A (zh) * 2023-03-15 2023-06-27 昆明市延安医院 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016123692A1 (en) * 2015-02-04 2016-08-11 The University Of British Columbia Methods and devices for analyzing particles
CN106980749A (zh) * 2017-02-21 2017-07-25 成都奇恩生物科技有限公司 疾病的快速辅助定位方法
CN107169310A (zh) * 2017-03-20 2017-09-15 上海基银生物科技有限公司 一种基因检测知识库构建方法及***
CN107341366A (zh) * 2017-07-19 2017-11-10 西安交通大学 一种利用机器学习预测复杂疾病易感位点的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016123692A1 (en) * 2015-02-04 2016-08-11 The University Of British Columbia Methods and devices for analyzing particles
CN106980749A (zh) * 2017-02-21 2017-07-25 成都奇恩生物科技有限公司 疾病的快速辅助定位方法
CN107169310A (zh) * 2017-03-20 2017-09-15 上海基银生物科技有限公司 一种基因检测知识库构建方法及***
CN107341366A (zh) * 2017-07-19 2017-11-10 西安交通大学 一种利用机器学习预测复杂疾病易感位点的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493917A (zh) * 2018-09-02 2019-03-19 上海市儿童医院 一种基因突变有害性预测值的害阶位计算方法
CN111862091A (zh) * 2020-08-05 2020-10-30 昆山杜克大学 一种基于表型测量早期发现综合征的***
CN112863605A (zh) * 2021-02-03 2021-05-28 中国人民解放军总医院第七医学中心 一种确定智力障碍基因的平台、方法、计算机设备和介质
CN112951324A (zh) * 2021-02-05 2021-06-11 广州医科大学 一种基于欠采样的致病同义突变预测方法
CN113241118A (zh) * 2021-07-12 2021-08-10 法玛门多(常州)生物科技有限公司 一种基因突变有害性预测的方法
CN114300036A (zh) * 2021-12-29 2022-04-08 深圳华大基因股份有限公司 遗传变异致病性预测方法、装置、存储介质及计算机设备
CN116343913A (zh) * 2023-03-15 2023-06-27 昆明市延安医院 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法
CN116343913B (zh) * 2023-03-15 2023-11-14 昆明市延安医院 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法

Also Published As

Publication number Publication date
CN108363902B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN108363902A (zh) 一种致病遗传变异的精确预测方法
CN108777873A (zh) 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN111785328B (zh) 基于门控循环单元神经网络的冠状病毒序列识别方法
CN107730131B (zh) 一种众包软件开发者的能力预测及推荐方法、装置
CN105279397A (zh) 一种识别蛋白质相互作用网络中关键蛋白质的方法
JP6807909B2 (ja) データ評価方法、装置、機器及び読み取り可能な記憶媒体
CN105786898B (zh) 一种领域本体的构建方法和装置
CN110263934A (zh) 一种人工智能数据标注方法和装置
CN115631789B (zh) 一种基于泛基因组的群体联合变异检测方法
CN109979531A (zh) 一种基因变异识别方法、装置和存储介质
CN115798022A (zh) 一种基于特征提取的人工智能识别方法
CN109856494A (zh) 一种基于支持向量机的变压器故障诊断方法
CN115081515A (zh) 能效评价模型构建方法、装置、终端及存储介质
CN113889252A (zh) 基于生命体征大数据聚类核心算法和区块链的远程互联网大数据智慧医疗***
CN116596395B (zh) 用于工程项目测评单位指导及检测的运行质控平台
CN113253709A (zh) 一种适用于轨道交通车辆健康诊断方法及装置
CN111091194B (zh) 一种基于cavwnb_kl算法的操作***识别方法
CN113011164A (zh) 数据质量检测方法、装置、电子设备及介质
CN110489602B (zh) 知识点能力值预估方法、***、设备及介质
CN110070120B (zh) 基于判别采样策略的深度度量学习方法及***
CN114048320B (zh) 一种基于课程学习的多标签国际疾病分类训练方法
CN113889274B (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
CN109145554A (zh) 一种基于支持向量机的击键特征异常用户识别方法及***
CN110309727A (zh) 一种建筑识别模型的建立、建筑识别方法和装置
CN115831219A (zh) 一种质量预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant