CN108108592B - 一种用于遗传变异致病性打分的机器学习模型的构建方法 - Google Patents
一种用于遗传变异致病性打分的机器学习模型的构建方法 Download PDFInfo
- Publication number
- CN108108592B CN108108592B CN201711476028.2A CN201711476028A CN108108592B CN 108108592 B CN108108592 B CN 108108592B CN 201711476028 A CN201711476028 A CN 201711476028A CN 108108592 B CN108108592 B CN 108108592B
- Authority
- CN
- China
- Prior art keywords
- information
- variation
- data
- machine learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种用于遗传变异致病性打分的机器学***衡调整;D、对调整后的数据进行初始特征值的筛选;E、筛选后特征值中的非数值特征进行独热编码量化;F、将独热编码量化后的特征值中的缺失值进行填补;G、将填补后的特征值输入到机器学习模型中进行训练,以获取所述致病性机器学习模型。由上,本发明的机器学习模型可以获取高精度、高召回率的打分结果。
Description
技术领域
本发明涉及变异位点致病性打分领域,特别涉及一种用于遗传变异致病性打分的机器学习模型的构建方法。
背景技术
现有构建的变异致病性打分软件的方法,比如孟德尔临床适用的致病性得分***(MCAP),在人类基因变异数据库(HGMD)数据集上,均只有约57%的数据能得到打分结果。由此可见,在遗传性疾病的变异位点致病性检测中,由于部分变异位点的特征信息的缺失,存在得不到致病性检测结果的现象。
因此,为克服现有的打分工具的致病性打分结果不完整、准确率低的缺陷,目前亟需一种用于遗传变异致病性打分的机器学习模型的构建方法,以构建可以获取高精度、高召回率的打分结果的机器学习模型。
发明内容
有鉴于此,本申请提出一种用于遗传变异致病性打分的机器学习模型的构建方法。通过本申请构建的机器学习模型可以获取高精度、高召回率的打分结果。
本申请提出一种用于遗传变异致病性打分的机器学习模型的构建方法,包括:
A、获取变异数据文件,并将所述文件进行注释;
B、根据注释后的信息筛选出每条变异数据的单转录本;
C、对筛选后的单转录本中的数据进行数据分类平衡调整;
D、对调整后的数据进行初始特征值的筛选;
E、将筛选后特征值中的非数值特征进行独热编码量化;
F、将独热编码量化后的特征值中的缺失值进行填补;
G、将填补后的特征值输入到机器学习模型中进行训练,以获取用于遗传变异致病性打分的机器学习模型。
由上,本申请对注释后的变异位点的缺少的特征数据进行缺失填充,就填充后的无缺失的数据进行训练;通过本申请构建的致病性机器学习模型可以获取高精度、高召回率的打分结果。
优选地,所述步骤B中的单转录本选取的优先级依次为:
选取多个转录本中包含有与某一单一遗传病相关的基因的转录本;
选择与数据库中权威转录本相匹配的转录本;
根据变异结果影响的序列本体论序列信息的优先级,选取对变异结果影响影响最大的转录本;
根据转录本正负链信息,选取其中的正链的转录本。
由上,有利于减少无效信息的干扰。
优选地,所述步骤C包括:
C1、根据筛选得到的单转录本中的注释信息,将其中的变异位点划分为致病位点和良性位点;
C2、按照一指定的致病位点/良性位点的比例,选取一定数量的良性位点,以使训练数据平衡。
由上,通常良性位点的数量要远大于致病位点的数量,为了保证之后的训练模型的效果,按照致病:良性=1:3的比例,从良性位点中抽样出需要的数量。
优选地,所述步骤D包括:
D1、根据所述数据中的不同的变异基因对应表达的蛋白功能,对所述变异基因与所述单一遗传病之间进行致病相关性分析,并获取相关性显著的基因;
D2、将相关性显著的基因、基因的位置及该基因对应的遗传模式作为初始特征值。
由上,本申请首次提出使用单一遗传病特有的基因遗传特征作为初始特征值,有利于提高该单一遗传病预测的效率和精度。
优选地,所述步骤D还包括:
获取各个变异位点对应的变异结果影响的序列本体论信息,将其作为初始特征值;
由上,例如,同义突变和错义突变对变异结果的影响不同,因此将这一特征也作为初始特征值考虑进去。
所述步骤D还包括:
获取各个变异位点所处的外显子的特征信息,将其作为初始特征值;
由上,由于不同部位的外显子的蛋白功能域不同,稳定性也不同,因此将这一特征也作为初始特征值考虑进去。
所述步骤D还包括:
获取各个变异位点附近的重复序列信息,将其作为初始特征值。
由上,当变异位点附近有重复序列信息,即,变异位点在重复区域内,变异影响可能会小,因此将这一特征也作为初始特征值考虑进去。
所述步骤D还包括:
获取各个变异位点在现有的文献及数据库中的特征信息,将其作为初始特征值。
由上,现有的文献及数据库,例如生物医学论文搜索引擎 (PubMed)收集了目前发表的文章,将目前的研究情况考虑进去。
优选地,所述步骤D还包括:
获取各个变异位点在各种人群中出现的频率信息。
由上,充分考虑各个数据库中各人种的人群变异频率,加入的人群变异数据库信息包括千人基因组(1000Genome)、国家心肺和血液研究所外显子组测序计划(ESP)、人类外显子组整合数据库(ExAc) 及人基因组集合数据库(gnomAD)数据库的各个人种的变异频率信息。
优选地,所述步骤D还包括:
获取各个变异位点的保守性相关的信息。
由上,获取如氨基酸保守性,蛋白结构稳定性,变异对剪切位点影响,基因进化速率等与变异位点保守性相关的信息。因为当变异在保守区域内或者在剪切位点上,对蛋白功能影响会比较大,致病的可能性比较大,所以综合考虑多种保守性及剪切位点。
综上所述,本申请对注释后的变异位点中缺少的特征数据的进行缺失填充,对填充后的无缺失的数据进行训练;且本申请针对性的提取与单一遗传病有关的多方面的有效地特征信息,本申请构建的用于遗传变异致病性打分的机器学习模型可以获取高精度、高召回率的打分结果。克服了现有技术中通常由于使用的数据不针对单一遗传疾病,且由于数据缺失造成的打分结果不完整、准确率低的缺陷。
附图说明
图1为本申请实施例提供的一种用于遗传变异致病性打分的机器学习模型的构建方法的流程图;
图2为本申请实施例提供的对所述用于遗传变异致病性打分的机器学习模型进行测试的流程图。
具体实施方式
下面将结合本申请实施例中的附图对本申请进行说明。
实施例一
如图1所示,本申请实施例提出一种用于遗传变异致病性打分的机器学习模型的构建方法,包括步骤:
S101,获取包含有一单一遗传病的变异信息的变异文件(来源于现有的数据库),随机选择其中的80%作为训练集(另20%作为测试集),并将所述训练集中的变异数据进行注释。
将变异数据通过变异影响预测(VEP)工具进行注释,得到变异注释文件。变异注释文件由头信息和变异位点信息组成,在头信息中,有注释各列的含义说明。
S102,根据注释后的信息进行单转录本的筛选;包括:
B1、选取多个转录本中包含有与所述单一遗传病相关的基因的转录本。例如,若该遗传病为遗传性耳聋,则与其相关的基因包括如人γ1肌动蛋白基因(ACTG1)、连接蛋白26基因(GJB2)等基因。因此,在选择转录本时,则优先选取多个转录本中包含有与所述遗传性耳聋相关的上述基因的转录本。
B2、选择与数据库中权威转录本相匹配的转录本;即,选择权威转录本;
B3、根据变异结果影响的序列本体论序列信息的优先级,选取对变异结果影响影响最大的转录本;变异的影响分类(按照变异结果影响的序列本体论(Sequence Ontology)序列信息的优先级转录本消除(transcript_ablation)>剪切受体变异(splice_acceptor_variant)> 剪切供体变异(splice_donor_variant)>……共34级):影响分类按照顺序,分别表示变异结果影响由高到低,找出影响最大的转录本。
B4、根据转录本正负链信息,选取其中的正链的转录本(根据经验正链较合适)。
由上,按照遗传性耳聋疾病特有特征从多转录本中筛选获得最合适的单转录本信息。后面步骤使用这个单一转录本的所有注释信息。有利于减少无效信息的干扰。
S103,对筛选后的单转录本中的数据进行数据分类平衡调整。包括:
C1、根据筛选得到的单转录本中的注释信息,将其中的变异位点划分为致病位点和良性位点;
C2、按照一指定的致病位点/良性位点的比例,选取一定数量的良性位点,以使训练数据平衡。
通常良性位点的数量要远大于致病位点的数量,因此,为了保证之后的训练模型的效果,按照致病:良性=1:3的比例,从良性位点中抽样出需要的数量。
S104,对调整后的数据进行初始特征值的筛选;包括:
D1、根据所述数据中的不同的变异基因对应表达的蛋白功能,对所述变异基因与所述单一遗传病之间进行致病相关性分析,并获取相关性显著的基因;
D2、将相关性显著的基因、基因的位置及该基因对应的遗传模式作为初始特征值。
由此,本申请首次提出使用单一遗传病特有的基因遗传特征作为初始特征值,包括:基因名称(不同基因对致病性的影响不同)、变异所在的位置(不同位置,对应蛋白的不用功能域,对致病性的影响不同)、遗传模式(包括常染色体显性、常染色体隐性、X染色体连锁、线粒体相关,不同的遗传模式下变异的影响也是不同)作为初始特征值,有利于提高该单一遗传病预测的效率和精度。例如,对于筛选遗传性耳聋,其主要的对应基因名称及基因内位置信息为ACTG1 基因的624位置,遗传性耳聋ACTG1基因为常染色体显性遗传(autosomal dominant,AD)。
其中,所述S104还包括:
获取各个变异位点对应的变异结果影响的序列本体论信息,将其作为初始特征值;其中,例如,同义突变和错义突变对变异结果的影响不同,因此将这一特征也作为初始特征值考虑进去。本申请首次提出使用变异位点的该特征,有利于使得构建的机器学习模型打分更加准确。
其中,所述S104还包括:
获取各个变异位点所处的外显子的特征信息,将其作为初始特征值。例如获取变异位点所处的的外显子的位置特征信息,如是处于外显子边缘或中间位置(如共5个外显子,处在第2个外显子上,为外显子中间位置),由于不同部位的外显子的蛋白功能域不同,稳定性也不同,因此将这一特征也作为初始特征值考虑进去。本申请首次提出使用变异位点的该特征,有利于使得构建的机器学习模型打分更加准确。
其中,所述S104还包括:
获取各个变异位点附近的重复序列信息,将其作为初始特征值。
由于当变异位点附近有重复序列信息,即,变异位点在重复区域内,变异影响可能会小,因此将这一特征也作为初始特征值考虑进去。本申请首次提出使用变异位点的该特征,有利于使得构建的机器学习模型打分更加准确。
其中,所述S104还包括:
获取各个变异位点在现有的文献及数据库中的特征信息,将其作为初始特征值。由上,现有的文献及数据库,例如生物医学论文搜索引擎(PubMed)收集了目前发表的文章,将目前的研究情况考虑进去。
其中,所述S104还包括:
获取各个变异位点在各种人群中出现的频率信息。充分考虑各个数据库中各人种的人群变异频率,加入的人群变异数据库信息包括千人基因组(1000Genome)、国家心肺和血液研究所外显子组测序计划(ESP)、人类外显子组整合数据库(ExAc)及人基因组集合数据库(gnomAD)数据库的各个人种的变异频率信息。
其中,所述S104还包括:
获取各个变异位点的保守性相关的信息。如氨基酸保守性,蛋白结构稳定性,变异对剪切位点影响,基因进化速率等。将这些特征值的数据提取出,按照位点进行保存:因为当变异在保守区域内或者在剪切位点上,对蛋白功能影响会比较大,致病的可能性比较大,所以综合考虑多种保守性及剪切位点。
S105,将筛选后特征值中的非数值特征进行独热编码量化。
为了充分利用非数值特征,按照变异结果(Consequence)列表、单一遗传病的基因名称和位置、遗传模式及外显子信息进行增维,如 35种Consequence结果,就增维为35个特征值,当结果中有这一特征值出现,则值取1否则取0。
S106,将独热编码量化后的特征值中的缺失值进行填补。
通过hot-deck算法程序将每个变异位点的前述步骤中的各项特征中的缺失的值进行填补,例如,对于某一变异位点,缺少其与氨基酸保守性有关的特征数据等,则通过hot-deck算法程序将其填补。
S107,将填补后的特征值输入到机器学习模型中进行训练,以获取所述针对单一遗传病的变异位点致病性打分的机器学习模型。本发明主要使用的机器学习模型包括:逻辑回归(LR)、支持向量机 (SVM)、随机森林(RandomForest)、梯度提升决策树(GBDT) 模型、神经网络模型。接收者操作特征曲线(ROC)显示,5种模型的结果均能达到0.9以上的曲线下面积(AUC)。模型训练完成获得 5种用于遗传变异致病性打分的机器学习模型。
实施例二
如图2所示,本申请该实施例还对上述的构建的用于遗传变异致病性打分的机器学习模型进行了测试,包括步骤:
S201,将S101中剩余的20%的变异数据文件作为测试集,并将所述测试集中的数据进行注释。
S202,根据注释后的信息筛选出每条变异数据的单转录本。
S203,进行初始特征值的筛选。
S204,将筛选后特征值中的非数值特征进行独热编码量化。
S205,将独热编码量化后的特征值中的缺失值进行填补。
其中S202、S203-S205的具体步骤分别与S102、S104-S106相似,在此不再赘述。
S206,将填补后的特征值输入到实施例一S107中获取的针对单一遗传病的变异位点致病性打分的机器学习模型中(可随意选择实施例一中获取的5种用于遗传变异致病性打分的机器学习模型进行打分),以获取预测打分结果。
本申请的有益效果是,不同于其他工具对某些数据得不到打分,由于做了特征填补工作,没有抛弃有缺失的数据,对于输入的待测数据,能得到100%的数据的预测打分。对比其他工具较低的准确率(以MCAP为例,32%),本发明能在保持召回率的优势下得到90%以上的精度。
综上所述,本申请对注释后的变异位点中缺少的特征数据的进行缺失填充,对填充后的无缺失的数据进行训练;且本申请针对性的提取与单一遗传病有关的多方面的有效地特征信息,本申请构建的用于遗传变异致病性打分的机器学习模型可以获取高精度、高召回率的打分结果。克服了现有技术中通常由于使用的数据不针对单一遗传疾病,且由于数据缺失造成的打分结果不完整、准确率低的缺陷。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种用于遗传变异致病性打分的机器学习模型的构建方法,其特征在于,包括:
A、获取包含有单一遗传病的变异信息的变异数据文件,并将所述文件进行注释;
B、根据注释后的信息筛选出每条变异数据的单转录本;
C、对筛选后的单转录本中的数据进行数据分类平衡调整;
D、对调整后的数据进行初始特征值的筛选;
E、将筛选后特征值中的非数值特征进行独热编码量化;
F、将独热编码量化后的特征值中的缺失值进行填补;
G、将填补后的特征值输入到机器学习模型中进行训练,以获取用于遗传变异致病性打分的机器学习模型;
其中,所述步骤B中的单转录本选取的优先级依次为:
选取多个转录本中包含有与某一单一遗传病相关的基因的转录本;
选择与数据库中权威转录本相匹配的转录本;
根据变异结果影响的序列本体论序列信息的优先级,选取对变异结果影响影响最大的转录本;
根据转录本正负链信息,选取其中的正链的转录本。
2.根据权利要求1所述的方法,其特征在于,所述步骤C包括:
C1、根据所述单一遗传病相关的文献及数据库,将其中的变异位点划分为致病位点和良性位点;
C2、按照一指定的致病位点/良性位点的比例,选取一定数量的良性位点,以使训练数据平衡;
其中,所述文献及数据库,来源于至少包括以下其一:生物医学论文搜索引擎PubMed、千人基因组1000Genome、国家心肺和血液研究所外显子组测序计划ESP、人类外显子组整合数据库ExAc及人基因组集合数据库gnomAD。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述步骤D包括:
D1、根据所述数据中的不同的变异基因对应表达的蛋白功能,对所述变异基因与所述单一遗传病之间进行致病相关性分析,并获取相关性显著的基因;
D2、将相关性显著的基因、基因的位置及该基因对应的遗传模式作为初始特征值。
4.根据权利要求3所述的方法,其特征在于,所述步骤D还包括至少以下其一:
获取各个变异位点对应的变异结果影响的序列本体论信息,将其作为初始特征值;
获取各个变异位点所处的外显子的特征信息,将其作为初始特征值;
获取各个变异位点附近的重复序列信息,将其作为初始特征值;
获取各个变异位点在现有的文献及数据库中的特征信息,将其作为初始特征值;
其中,所述文献及数据库,来源于至少包括以下其一:生物医学论文搜索引擎PubMed、千人基因组1000Genome、国家心肺和血液研究所外显子组测序计划ESP、人类外显子组整合数据库ExAc及人基因组集合数据库gnomAD。
5.根据权利要求4所述的方法,其特征在于,所述步骤D还包括:
获取各个变异位点在各种人群中出现的频率信息。
6.根据权利要求5所述的方法,其特征在于,所述步骤D还包括:
获取各个变异位点的保守性相关的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711476028.2A CN108108592B (zh) | 2017-12-29 | 2017-12-29 | 一种用于遗传变异致病性打分的机器学习模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711476028.2A CN108108592B (zh) | 2017-12-29 | 2017-12-29 | 一种用于遗传变异致病性打分的机器学习模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108108592A CN108108592A (zh) | 2018-06-01 |
CN108108592B true CN108108592B (zh) | 2020-06-16 |
Family
ID=62214763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711476028.2A Active CN108108592B (zh) | 2017-12-29 | 2017-12-29 | 一种用于遗传变异致病性打分的机器学习模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108592B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036556B (zh) * | 2018-08-29 | 2021-06-04 | 王雁 | 一种基于机器学习诊断圆锥角膜病例的方法 |
CN109616155B (zh) * | 2018-11-19 | 2023-04-18 | 江苏科技大学 | 一种编码区域遗传变异致病性分类的数据处理***与方法 |
CN109657731A (zh) * | 2018-12-28 | 2019-04-19 | 长沙理工大学 | 一种微滴数字pcr仪抗干扰分类方法 |
CN110033860B (zh) * | 2019-02-27 | 2021-02-26 | 杭州贝安云科技有限公司 | 一种基于机器学习的遗传代谢病检出率提升方法 |
CN111192625B (zh) * | 2019-12-31 | 2021-05-04 | 中南大学湘雅医院 | 基于帕金森病基因组学关联模型的管理方法及装置 |
CN111816304A (zh) * | 2020-07-22 | 2020-10-23 | 北京聚道科技有限公司 | 一种遗传性疾病辅助决策的建立方法和*** |
CN112951324A (zh) * | 2021-02-05 | 2021-06-11 | 广州医科大学 | 一种基于欠采样的致病同义突变预测方法 |
CN114496080A (zh) * | 2022-01-17 | 2022-05-13 | 中国人民解放军总医院第一医学中心 | 耳聋致病性基因的筛查方法、装置、存储介质及服务器 |
CN117238365A (zh) * | 2023-08-24 | 2023-12-15 | 深圳爱湾医学检验实验室 | 基于高通量测序技术的新生儿遗传病早筛方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7244432B2 (en) * | 2004-12-08 | 2007-07-17 | University Of Maryland Biotechnology Institute | Infectious bursal disease virus (IBDV) variant from Georgia |
CN103270176A (zh) * | 2011-01-31 | 2013-08-28 | 索元生物医药(杭州)有限公司 | 发现药物基因组生物标志物的方法 |
CN105473741A (zh) * | 2013-06-21 | 2016-04-06 | 塞昆纳姆股份有限公司 | 用于遗传变异的非侵入性评估的方法和过程 |
CN106156538A (zh) * | 2016-06-29 | 2016-11-23 | 天津诺禾医学检验所有限公司 | 一种全基因组变异数据的注释方法和注释*** |
CN106960122A (zh) * | 2017-03-17 | 2017-07-18 | 晶能生物技术(上海)有限公司 | 基因突变引起的遗传疾病预测方法及装置 |
CN107341366A (zh) * | 2017-07-19 | 2017-11-10 | 西安交通大学 | 一种利用机器学习预测复杂疾病易感位点的方法 |
-
2017
- 2017-12-29 CN CN201711476028.2A patent/CN108108592B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7244432B2 (en) * | 2004-12-08 | 2007-07-17 | University Of Maryland Biotechnology Institute | Infectious bursal disease virus (IBDV) variant from Georgia |
CN103270176A (zh) * | 2011-01-31 | 2013-08-28 | 索元生物医药(杭州)有限公司 | 发现药物基因组生物标志物的方法 |
CN105473741A (zh) * | 2013-06-21 | 2016-04-06 | 塞昆纳姆股份有限公司 | 用于遗传变异的非侵入性评估的方法和过程 |
CN106156538A (zh) * | 2016-06-29 | 2016-11-23 | 天津诺禾医学检验所有限公司 | 一种全基因组变异数据的注释方法和注释*** |
CN106960122A (zh) * | 2017-03-17 | 2017-07-18 | 晶能生物技术(上海)有限公司 | 基因突变引起的遗传疾病预测方法及装置 |
CN107341366A (zh) * | 2017-07-19 | 2017-11-10 | 西安交通大学 | 一种利用机器学习预测复杂疾病易感位点的方法 |
Non-Patent Citations (1)
Title |
---|
基于第二代测序技术的人类基因组***/缺失变异检测算法评估及检测平台搭建;任永永 等;《中国优秀硕士学位论文全文数据库基础科学辑》;20160115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108108592A (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108592B (zh) | 一种用于遗传变异致病性打分的机器学习模型的构建方法 | |
Kim et al. | Inference of the distribution of selection coefficients for new nonsynonymous mutations using large samples | |
Bastian et al. | Bgee: integrating and comparing heterogeneous transcriptome data among species | |
Griswold et al. | Time to the most recent common ancestor and divergence times of populations of common chaffinches (Fringilla coelebs) in Europe and North Africa: insights into Pleistocene refugia and current levels of migration | |
KR20210031708A (ko) | 세포 분석 방법 | |
CN106446597B (zh) | 多物种特征选择及鉴定未知基因的方法 | |
CN111883210B (zh) | 基于临床特征和序列变异的单基因病名称推荐方法及*** | |
WO2006004182A9 (ja) | 配列予測システム | |
Oldeschulte et al. | Annotated draft genome assemblies for the Northern Bobwhite (Colinus virginianus) and the Scaled Quail (Callipepla squamata) reveal disparate estimates of modern genome diversity and historic effective population size | |
Hibsh et al. | De novo transcriptome assembly databases for the central nervous system of the medicinal leech | |
CN108897986A (zh) | 一种基于蛋白质信息的基因组序列拼接方法 | |
Burban et al. | Evidence for low-level hybridization between two allochronic populations of the pine processionary moth, Thaumetopoea pityocampa (Lepidoptera: Notodontidae) | |
Whitehouse et al. | Timesweeper: accurately identifying selective sweeps using population genomic time series | |
Smith et al. | Using all gene families vastly expands data available for phylogenomic inference | |
Langer et al. | REforge associates transcription factor binding site divergence in regulatory elements with phenotypic differences between species | |
Pometti et al. | Spatial genetic structure within populations and management implications of the South American species Acacia aroma (Fabaceae) | |
Heraghty et al. | Whole genome analyses reveal weak signatures of population structure and environmentally associated local adaptation in an important North American pollinator, the bumble bee Bombus vosnesenskii | |
Seetharam et al. | Maximizing prediction of orphan genes in assembled genomes | |
Ryazansky et al. | The chromosome-scale genome assembly for the West Nile vector Culex quinquefasciatus uncovers patterns of genome evolution in mosquitoes | |
CN108710781B (zh) | 一种遗传突变的排序方法及装置 | |
CN103310128B (zh) | 考虑种子片段的长度的碱基序列处理***及方法 | |
Libro et al. | First brain de novo transcriptome of the Tyrrhenian tree frog, Hyla sarda, for the study of dispersal behavior | |
Byerly et al. | Museum genomics provide evidence for persistent genetic differentiation in a threatened seabird species in the Western Atlantic | |
Gauthier et al. | Museomics reveals evolutionary history of Oreina alpine leaf beetles (Coleoptera: Chrysomelidae) | |
JP2019532410A5 (zh) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |