CN117637033A - 一种基于遗传知识库的新致病基因位点机器学习挖掘方法 - Google Patents

一种基于遗传知识库的新致病基因位点机器学习挖掘方法 Download PDF

Info

Publication number
CN117637033A
CN117637033A CN202311635350.0A CN202311635350A CN117637033A CN 117637033 A CN117637033 A CN 117637033A CN 202311635350 A CN202311635350 A CN 202311635350A CN 117637033 A CN117637033 A CN 117637033A
Authority
CN
China
Prior art keywords
database
machine learning
phenotype
mining
genetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311635350.0A
Other languages
English (en)
Inventor
马旭
蔡瑞琨
曹宗富
殷哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Science And Technology National Health Commission
Original Assignee
Institute Of Science And Technology National Health Commission
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Science And Technology National Health Commission filed Critical Institute Of Science And Technology National Health Commission
Priority to CN202311635350.0A priority Critical patent/CN117637033A/zh
Publication of CN117637033A publication Critical patent/CN117637033A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于遗传知识库的新致病基因位点机器学习挖掘方法:采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;根据输入数据建立机器学习挖掘的表型数据库、第一基因变异数据库;根据代谢通路数据库和生物数据库建立机器学习挖掘的注释数据库;基于注释数据库和表型数据库为第二基因变异数据库的变异位点进行注释,建立机器学习挖掘的模型特征知识库;基于模型特征知识库建立机器学习挖掘的深度挖掘模型;基于深度挖掘模型,依据疾病名称或表型从第一基因变异数据库中预测机器学习挖掘的相关基因。本申请以模型特征知识库中致病的基因变异信息为特征建立深度挖掘模型,预测致病变异,根据表型信息、遗传模式判断(致病)相关基因。

Description

一种基于遗传知识库的新致病基因位点机器学习挖掘方法
技术领域
本发明涉及疾病诊疗技术领域,更为具体来说,本发明涉及一种基于遗传知识库的新致病基因位点机器学习挖掘方法。
背景技术
在本世纪初人类基因组计划完成后,人类对基因与疾病/表型关联研究不断深入,相关的知识库不断扩充与完善,随之开发出了众多表型驱动的遗传病致病基因/变异排序方法。这些方法主要是以患者表型信息和基因型信息(高通量测序数据)作为输入,预测基因型信息中的致病变异,并对其进行排序,推荐候选致病基因/变异列表,提高致病基因/变异筛查与鉴定效率。常用的工具主要有:Phen-Gen和PhenIX通过计算表型相似度,比较分析患者疾病表型与数据库中先验知识来识别致病基因/变异;后来开发的PHIVE、Exomiser和Phevor增加了跨物种表型、蛋白质相互作用网络以及多个生物医学本体(GO)等知识库信息。近几年,在方法学上的创新,DeepPVP和Xrare将机器学习算法用于预测模型中,AMELIE和LIRICAL则使用了各种语义挖掘和统计方法来优先考虑候选致病性变异。Xiao Yuan等人对这些软件进行了***性的评测研究,评估结果中表现最为优异的两种方法是AMELIE和LIRICAL,能够为约80%-90%的病例将致病基因排在前50位。
现在预测致病基因和变异的软件和工具,无论是从可以利用的知识库资源,还是从算法优化的角度,都得到了很好的开发,取得了一定的效果。但是也存在两个有待解决的问题:1)现有工具主要集中在对单个样本或家系样本的基因型数据进行分析,对大量样本数据的大数据分析尚不友好。2)现有工具主要利用了多种数据库作为先验知识,在已知与疾病/表型相关的候选致病基因列表中搜索致病变异效果显著,而在未知致病基因情况下找新的致病基因/变异性能尚需提升,以至依然有很多疾病的诊断率偏低。
发明内容
本申请实施例提供了一种基于遗传知识库的新致病基因位点机器学习挖掘方法。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种基于遗传知识库的新致病基因位点机器学习挖掘方法,该方法包括:
采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;
根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;
将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;
基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;
基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。
根据一种优选实施方式,所述采集机器学习挖掘的输入数据,包括:
采集机器学习挖掘的表型数据和基因型测序数据;
将所述表型数据和所述基因型测序数据作为所述机器学习挖掘的输入数据。
根据一种优选实施方式,所述将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库,包括:
将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的疾病-通路关系谱、基因-基因相互作用关系谱、基因-通路关系谱和通路-表型关系谱;
将所述疾病-通路关系谱、所述基因-基因相互作用关系谱、所述基因-通路关系谱和所述通路-表型关系谱作为所述机器学习挖掘的注释数据库。
根据一种优选实施方式,所述基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库,包括:
基于所述注释数据库和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征;
根据所述基因变异特征,建立所述机器学习挖掘的模型特征知识库。
根据一种优选实施方式,所述基于所述注释数据库和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征,包括:
基于所述注释数据库,建立所述机器学习挖掘的表型-疾病-通路-基因型总关系谱;
基于所述表型-疾病-通路-基因型总关系谱和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征。
根据一种优选实施方式,所述基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因,包括:
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的其它物种与表型相关基因、已知人类致病基因、以及待挖掘人类新基因;
将所述其它物种与表型相关基因、所述已知人类致病基因、以及所述待挖掘人类新基因作为所述机器学习挖掘的相关基因。
第二方面,本申请实施例提供了一种基于遗传知识库的新致病基因位点机器学习挖掘装置,该装置包括:
数据采集模块,用于采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;
数据库建立模块,用于根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;
信息整合模块,用于将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;
知识库建立模块,用于基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;
模型建立模块,用于基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;
挖掘模块,用于基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。
根据一种优选实施方式,所述挖掘模块,具体用于:
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的其它物种与表型相关基因、已知人类致病基因、以及待挖掘人类新基因;
将所述其它物种与表型相关基因、所述已知人类致病基因、以及所述待挖掘人类新基因作为所述机器学习挖掘的相关基因。
第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,所述基于遗传知识库的新致病基因位点机器学习挖掘方法,首先采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;然后将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;其次基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;最后基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。现有工具主要利用了多种数据库作为先验知识,因此在已知与疾病/表型相关候选(致病)基因列表中搜索致病变异效果显著,但尚未能有效地挖掘新的致病基因,因此依然有很多疾病的诊断率偏低。实际上,很大比例的数据尚未在已知致病基因中找到致病变异。本申请以模型特征知识库中明确致病的基因变异信息为特征,建立深度挖掘模型,为尚未找到致病变异的数据预测致病变异,并且根据表型信息、遗传模式判断(致病)相关基因。提高了遗传病的致病变异检出率。
在本申请实施例中,所述基于遗传知识库的新致病基因位点机器学习挖掘方法,首先采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;然后将所述代谢通路数据库和所述生物数据库进行整合,获取所述机器学习挖掘的注释数据;。其次基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;最后基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。由于目前的致病基因/变异分析工具主要集中在对单个样本或家系样本的基因型数据进行分析,对多中心或大项目组积累的大量样本数据的分析尚不友好;本申请针对多种复杂遗传疾病的散发病例数据,开发批量分析和注释基因型的基因型注释***,并且注释内容涵盖多维度知识库信息,包括其他模式生物信息、通路信息和蛋白质相互作用信息等。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种基于遗传知识库的新致病基因位点机器学习挖掘方法的流程示意图;
图2是本申请实施例提供的一种基于遗传知识库的新致病基因位点机器学习挖掘方法的整体流程示意图;
图3是本申请实施例提供的一种基于遗传知识库的新致病基因位点机器学习挖掘装置的装置示意图;
图4是本申请实施例提供的一种终端示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的***和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面将结合附图1和附图2,对本申请实施例提供的一种基于遗传知识库的新致病基因位点机器学习挖掘方法进行详细介绍。
请参见图1和2,为本申请实施例提供了一种基于遗传知识库的新致病基因位点机器学习挖掘方法的流程示意图。如图1和2所示,本申请实施例的方法可以包括以下步骤:
孟德尔在150年前首次提出了单基因和单基因遗传的概念,到上世纪初,人们发现人类的某些疾病在家族中遵循孟德尔分离规律,是因为单基因缺陷造成的。孟德尔遗传性疾病影响着全世界约8%的人口。至今,人类孟德尔遗传数据库(OMIM,www.omim.org)中搜录了单基因疾病与性状6000多种,而与这些表型相关的基因仅有4000多个,复杂疾病表型692种,其易感性相关基因503个,还有众多疾病与性状未找到或未找全致病基因。在整个科学界的不懈努力下,每年都会发现新的基因与疾病相关联。由于遗传性疾病表现的异质性程度也在增加,疾病的遗传背景复杂性远没有得到解释。
随着高通量测序(NGS)技术的发展,它已经逐步成为了遗传病基因诊断的主要手段。基于NGS技术的诊断性外显子组测序(DES)和诊断性基因组测序(DGS)分析可能发现遗传病的致病基因/变异,相比传统的基因逐一筛查方法,不需要关于特定候选基因的任何信息,而且更加快速经济。从分析的角度来看,NGS检测出的变异绝对数量大,从中发现致病变异是一项重大挑战。用全外显子组测序(WES)技术获得的每个基因组通常可以识别出约20000个单核苷酸变异(SNVs),虽然识别有害变异先需经过过滤和筛选,但是最终估计仍会剩下100-200个潜在的致病变异。据估计,人类平均会携带约100个能导致蛋白质编码基因丧失功能的突变,但这些突变并不一定都会引起疾病相关的表型,因此,分析大量的测序数据,从潜在的致病变异中,找到与疾病表型相关的致病基因/变异,是基于NGS技术研究遗传性疾病致病机理的一个瓶颈,是将高通量测序技术应用于临床诊断的一个关键点。目前,各种疾病组的DES诊断率都在10%到50%之间,新致病基因/变异的挖掘仍然是一个挑战。
本申请提供的一种基于遗传知识库的新致病基因位点机器学习挖掘方法,可应用于单基因遗传病的精准诊疗,以及产前诊断等领域,用于针对高通量测序数据的新致病性基因位点(即相关基因)的发现,有助于提高遗传病的致病变异检出率。
S100,采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库,包括:
采集机器学习挖掘的表型数据和基因型测序数据;将所述表型数据和所述基因型测序数据作为所述机器学习挖掘的输入数据。
在本申请实施例中,对样本的表型进行采集,获取表型数据。采集一个复杂遗传病样本的高通量测序数据(即单个样本)、一个遗传家系(即家系样本)、或者一些表型相近的遗传病散发病例数据(即多个散发样本),获取基因型测序数据。
在本申请实施例中,涉及到遗传生物信息知识库模块:
代谢通路数据库和生物数据库的采集可以为:梳理KEGG pathway,Wikipathway,REACTOME,Pathway Interaction Database等代谢通路知识库,小鼠基因组数据库(MGD)、Knockout Mouse Project(KOMP)和国际小鼠表型协会(IMPC)等模式生物数据库。
S200,根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库。
在本申请实施例中,提取复杂遗传病病例中的HPO标准化表型,为每一个入组的高通量测序数据(即基因型测序数据)建立标准化表型数据库。
将汇总的基因型测序数据进行解读,获得其变异位点数据,从而根据所述变异位点数据建立第一基因变异数据库。
在本申请实施例中,涉及到遗传生物信息知识库模块:
(第一)基因变异数据库和表型数据库的获取方式还可以为:梳理Clinvar、ClinGen、HGMD、OrphaNet、UniProt、Omim、HPO、1000G、dbSNP、"女娲"(NyuWa)中国人群基因组资源库等(第一)基因变异数据库和表型知识库。(第一)基因变异数据库和表型数据库,结合代谢通路数据库和生物数据库可以建立多维度多水平知识库融合体系。基于Monarch数据库构建出表型/疾病名-代谢通路-基因-基因相互作用数据库,包含了人类及其他模式生物中直系同源基因信息,用以构建疾病候选致病基因库。
S300,将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库。
在本申请实施例中,S300包括:将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的疾病-通路关系谱、基因-基因相互作用关系谱、基因-通路关系谱和通路-表型关系谱;涉及到的物种包括人类、小鼠、黄牛、线虫、中华田园犬、斑马鱼、黑腹果蝇、原鸡、褐家鼠、野猪和热带爪蟾。将所述疾病-通路关系谱、所述基因-基因相互作用关系谱、所述基因-通路关系谱和所述通路-表型关系谱作为所述机器学习挖掘的注释数据库。
S400,基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库。
S400包括:基于所述注释数据库和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征;根据所述基因变异特征,建立所述机器学习挖掘的模型特征知识库,即特征数据库。
其中,基于所述注释数据库和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征包括:基于所述注释数据库中各关系谱,采用python语言构建字典容器的方案,利用各关系谱之间的关键词,建立所述机器学习挖掘的表型-疾病-通路-基因型总关系谱;基于所述表型-疾病-通路-基因型总关系谱和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征。
在本申请实施例中,复杂遗传病基因型注释模块:利用复杂遗传病基因型注释***,注释数据库和表型数据库对所述第二基因变异数据库内的每一个变异位点进行注释,注释内容包括相应的遗传变异信息(即变异的类型、变异在各人群中出现的频率、变异是否在与这个疾病相关的基因上)、变异预测软件分值、基于表型提取的“表型-代谢通路-基因型-基因相互作用”信息。这些注释内容后续提取出来,作为基因变异特征(能够决定变异是否致病的属性)被机器学习的深度挖掘模型用来评价变异是否为疾病的致病变异,即深度挖掘模型通过机器学习综合判断这些基因变异特征的值,输出是否为致病基因/变异。
在本申请实施例中,基于上一复杂遗传病基因型注释模块注释出的信息,提取基因变异特征,包括但不限于:变异在各人群中出现的频率、变异预测软件评分、代谢通路相关基因、基因相互作用、样本表型相似度分值等。
在本申请实施例中,复杂遗传病基因型注释***的开发:将单个样本、家系样本或者多个散发样本汇总后的数据进行解读分析,基于vep注释软件,融入“表型/疾病相关候选基因”注释信息,对第二基因变异数据库中出现的每个变异,注释出的信息(即变异位点数据)包括遗传变异信息(即变异位置、变异所在的基因和变异类型)、基因的OMIM信息、变异在各人群中出现的频率信息、变异预测软件分值,以及基因是否出现在“表型/疾病相关候选基因”列表中。
在本申请实施例中,基于所述注释数据库建立的所述表型-疾病-通路-基因型总关系谱和表型数据库作为所述机器学习挖掘的深度挖掘模型特征的来源,建立模型特征知识库。
人类复杂遗传病新基因深度挖掘智能挖掘模块为:S500,基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型。所述深度挖掘模型用于挖掘与其表型匹配的候选基因变异。
在本申请实施例中,复杂遗传病新基因深度挖掘算法和(复杂遗传病新基因深度挖掘)工具的开发:
基于“复杂遗传病基因型注释***”中注释出的信息,筛选在“表型/疾病相关候选基因”列表中的基因变异,提取深度挖掘算法的特征,在机器学习中,特征是被观测对象的一个独立可观测的属性或者特点,此处的特征是变异的各种特性,所述特征包括但不限于:1)变异的类型(在基因的外显子区域还是内含子区域,是同义突变还是错义突变等)、2)变异在各人群中出现的频率(在正常人群中出现的频率越低,致病的概率越大)、3)变异各种预测软件分值即预测变异是否致病的软件给与的分值,等注释信息。其分值综合考虑了可以评价这个变异是致病变异的可能性。“综合考虑”是人脑完成的复杂判断,可以用机器学习的深度挖掘模型代替。
在本申请实施例中,深度挖掘算法使用支持向量机算法(SVM),这是常用的一种机器学***面,使向量可分。特点是分类思想简单,可以选用多种核函数解决非线性分类问题,将样本与决策面的间隔最大化,但同时对参数和核函数的选择比较敏感。在正负样本不均衡的情况下,经过SMOTE算法过抽样的数据,则采用SVM二分类算法,对阳性和阴性变异进行二分类判定。采用五折交叉验证进行算法评估。用新基因深度挖掘算法模型(即深度挖掘模型)和工具,对致病变异不明样本基因变异数据库进行挖掘,预测与其表型匹配的候选基因,即待挖掘人类新基因。
所述深度挖掘算法的特征即为基因变异特征,即模型特征知识库内特征,用于形成深度挖掘算法,(复杂遗传病新基因)深度挖掘算法存在于所述深度挖掘模型内部,所述深度挖掘模型通过所述复杂遗传病新基因深度挖掘工具实施工作。
S600,基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。S600包括:
所述相关基因即表型/疾病相关候选基因的提取:基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的其它物种与表型相关基因、已知人类致病基因、以及待挖掘人类新基因;将所述其它物种与表型相关基因、所述已知人类致病基因、以及所述待挖掘人类新基因作为所述机器学习挖掘的相关基因。
综上,如图2所示:将所述代谢通路数据库和所述生物数据库进行整合(整合的数据库来源于网络公共数据库),建立所述机器学习挖掘的注释数据库;
采集机器学习挖掘的输入数据(包括对样本的表型进行采集和变异位点的数据);根据所述输入数据,建立所述机器学习挖掘的表型数据库、基因变异数据库(即本申请的第一基因变异数据库);
利用复杂遗传病表型-代谢通路和基因型挖掘工具,根据表型数据库从注释数据库中挖掘出与表型/疾病相关候选基因;
将复杂遗传病致病变异金标准数据库中明确的致病变异位点和对照数据库中明确不致病的对照变异位点,以及通过所述注释数据库和表型数据库确定的表型/疾病相关候选基因在复杂遗传病基因型注释***进行注释输出基因变异特征,根据基因变异特征建立模型特征知识库;本申请第二基因变异数据库即为复杂遗传病致病变异金标准数据库和对照数据库;
基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从第一基因变异数据库中预测出所述机器学习挖掘的相关(致病)基因。
综上所述,本申请提供的一种基于遗传知识库的新致病基因位点机器学习挖掘方法,可以针对单样本、家系样本和批量散发病例样本的多种形式数据,根据样本的疾病表型实现为高通量测序数据的变异位点进行注释,并提取相应注释信息作为深度挖掘模型的特征,构建机器学习模型(即深度挖掘模型),挖掘出与样本表型匹配的致病基因变异位点(即相关基因)。本申请有助于提高遗传病的致病变异检出率,为遗传病的个性化诊疗提供理论依据。
在本申请实施例中,所述基于遗传知识库的新致病基因位点机器学习挖掘方法,首先采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;然后将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;其次基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;最后基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。现有工具主要利用了多种数据库作为先验知识,因此在已知与疾病/表型相关的候选致病基因列表中搜索致病变异效果显著,但尚未能有效地挖掘新的致病基因,因此依然有很多疾病的诊断率偏低。实际上,很大比例的数据尚未在已知致病基因中找到致病变异。本申请以模型特征知识库中明确致病的基因变异信息为特征,建立深度挖掘模型,为尚未找到致病变异的数据预测致病变异,并且根据表型信息、遗传模式判断(致病)相关基因。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图3,其示出了本发明一个示例性实施例提供的一种基于遗传知识库的新致病基因位点机器学习挖掘装置的结构示意图。该装置包括:数据采集模块10、数据库建立模块20、信息整合模块30、知识库建立模块40、模型建立模块50和挖掘模块60。
数据采集模块10,用于采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;
数据库建立模块20,用于根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;
信息整合模块30,用于将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;
知识库建立模块40,用于基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;
模型建立模块50,用于基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;
挖掘模块60,用于基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。
根据一种优选实施方式,所述挖掘模块60,具体用于:
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的其它物种与表型相关基因、已知人类致病基因、以及待挖掘人类新基因;
将所述其它物种与表型相关基因、所述已知人类致病基因、以及所述待挖掘人类新基因作为所述机器学习挖掘的相关基因。
需要说明的是,上述实施例提供的基于遗传知识库的新致病基因位点机器学习挖掘装置在执行基于遗传知识库的新致病基因位点机器学习挖掘方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于遗传知识库的新致病基因位点机器学习挖掘装置与基于遗传知识库的新致病基因位点机器学习挖掘方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
所述基于遗传知识库的新致病基因位点机器学习挖掘装置,首先采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;然后将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;其次基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;最后基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。本申请以模型特征知识库中明确致病的基因变异信息为特征,建立深度挖掘模型,为尚未找到致病变异的数据预测致病变异,并且根据表型信息、遗传模式判断(致病)相关基因。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的基于遗传知识库的新致病基因位点机器学习挖掘方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的基于遗传知识库的新致病基因位点机器学习挖掘方法。
请参见图4,为本申请实施例提供了一种终端的结构示意图。如图4所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004根据一种优选实施方式可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个终端1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行终端1000的各种功能和处理数据。根据一种优选实施方式,处理器1001可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics ProcessingUnit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。根据一种优选实施方式,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005根据一种优选实施方式还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及基于遗传知识库的新致病基因位点机器学习挖掘应用程序。
在图4所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的基于遗传知识库的新致病基因位点机器学习挖掘应用程序,并具体执行以下操作:
采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;
根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;
将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;
基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;
基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。
在一个实施例中,处理器1001在执行所述采集机器学习挖掘的输入数据时,具体执行以下操作:
采集机器学习挖掘的表型数据和基因型测序数据;
将所述表型数据和所述基因型测序数据作为所述机器学习挖掘的输入数据。
在一个实施例中,处理器1001在执行所述将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库时,具体执行以下操作:
将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的疾病-通路关系谱、基因-基因相互作用关系谱、基因-通路关系谱和通路-表型关系谱;
将所述疾病-通路关系谱、所述基因-基因相互作用关系谱、所述基因-通路关系谱和所述通路-表型关系谱作为所述机器学习挖掘的注释数据库。
在一个实施例中,处理器1001在执行所述基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库时,具体执行以下操作:
基于所述注释数据库和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征;
根据所述基因变异特征,建立所述机器学习挖掘的模型特征知识库。
在一个实施例中,处理器1001在执行所述基于所述注释数据库和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征时,具体执行以下操作:
基于所述注释数据库,建立所述机器学习挖掘的表型-疾病-通路-基因型总关系谱;
基于所述表型-疾病-通路-基因型总关系谱和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征。
在一个实施例中,处理器1001在执行所述基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因时,具体执行以下操作:
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的其它物种与表型相关基因、已知人类致病基因、以及待挖掘人类新基因;
将所述其它物种与表型相关基因、所述已知人类致病基因、以及所述待挖掘人类新基因作为所述机器学习挖掘的相关基因。
所述基于遗传知识库的新致病基因位点机器学习挖掘方法,首先采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;然后将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;其次基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;最后基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。本申请以模型特征知识库中明确致病的基因变异信息为特征,建立深度挖掘模型,为尚未找到致病变异的数据预测致病变异,并且根据表型信息、遗传模式判断(致病)相关基因。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种基于遗传知识库的新致病基因位点机器学习挖掘方法,其特征在于,包括以下步骤:
采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;
根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;
将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;
基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;
基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。
2.根据权利要求1所述的基于遗传知识库的新致病基因位点机器学习挖掘方法,其特征在于,所述采集机器学习挖掘的输入数据,包括:
采集机器学习挖掘的表型数据和基因型测序数据;
将所述表型数据和所述基因型测序数据作为所述机器学习挖掘的输入数据。
3.根据权利要求1所述的基于遗传知识库的新致病基因位点机器学习挖掘方法,其特征在于,所述将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库,包括:
将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的疾病-通路关系谱、基因-基因相互作用关系谱、基因-通路关系谱和通路-表型关系谱;
将所述疾病-通路关系谱、所述基因-基因相互作用关系谱、所述基因-通路关系谱和所述通路-表型关系谱作为所述机器学习挖掘的注释数据库。
4.根据权利要求1所述的基于遗传知识库的新致病基因位点机器学习挖掘方法,其特征在于,所述基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库,包括:
基于所述注释数据库和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征;
根据所述基因变异特征,建立所述机器学习挖掘的模型特征知识库。
5.根据权利要求4所述的基于遗传知识库的新致病基因位点机器学习挖掘方法,其特征在于,所述基于所述注释数据库和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征,包括:
基于所述注释数据库,建立所述机器学习挖掘的表型-疾病-通路-基因型总关系谱;
基于所述表型-疾病-通路-基因型总关系谱和所述表型数据库,为所述第二基因变异数据库中的变异位点进行注释,提取所述机器学习挖掘的基因变异特征。
6.根据权利要求1所述的基于遗传知识库的新致病基因位点机器学习挖掘方法,其特征在于,所述基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因,包括:
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的其它物种与表型相关基因、已知人类致病基因、以及待挖掘人类新基因;
将所述其它物种与表型相关基因、所述已知人类致病基因、以及所述待挖掘人类新基因作为所述机器学习挖掘的相关基因。
7.一种基于遗传知识库的新致病基因位点机器学习挖掘装置,其特征在于,包括:
数据采集模块,用于采集机器学习挖掘的输入数据、代谢通路数据库和生物数据库;
数据库建立模块,用于根据所述输入数据,建立所述机器学习挖掘的表型数据库、第一基因变异数据库;
信息整合模块,用于将所述代谢通路数据库和所述生物数据库进行整合,建立所述机器学习挖掘的注释数据库;
知识库建立模块,用于基于所述注释数据库和所述表型数据库,为第二基因变异数据库中的变异位点进行注释,建立所述机器学习挖掘的模型特征知识库;
模型建立模块,用于基于所述模型特征知识库,建立所述机器学习挖掘的深度挖掘模型;
挖掘模块,用于基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的相关基因。
8.根据权利要求7所述的新致病基因位点机器学习挖掘装置,其特征在于,所述挖掘模块,具体用于:
基于所述深度挖掘模型,依据待分析的疾病名称或表型,从所述第一基因变异数据库中预测出所述机器学习挖掘的其它物种与表型相关基因、已知人类致病基因、以及待挖掘人类新基因;
将所述其它物种与表型相关基因、所述已知人类致病基因、以及所述待挖掘人类新基因作为所述机器学习挖掘的相关基因。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-6任意一项的方法步骤。
10.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-6任意一项的方法步骤。
CN202311635350.0A 2023-12-01 2023-12-01 一种基于遗传知识库的新致病基因位点机器学习挖掘方法 Pending CN117637033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311635350.0A CN117637033A (zh) 2023-12-01 2023-12-01 一种基于遗传知识库的新致病基因位点机器学习挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311635350.0A CN117637033A (zh) 2023-12-01 2023-12-01 一种基于遗传知识库的新致病基因位点机器学习挖掘方法

Publications (1)

Publication Number Publication Date
CN117637033A true CN117637033A (zh) 2024-03-01

Family

ID=90031772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311635350.0A Pending CN117637033A (zh) 2023-12-01 2023-12-01 一种基于遗传知识库的新致病基因位点机器学习挖掘方法

Country Status (1)

Country Link
CN (1) CN117637033A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238365A (zh) * 2023-08-24 2023-12-15 深圳爱湾医学检验实验室 基于高通量测序技术的新生儿遗传病早筛方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238365A (zh) * 2023-08-24 2023-12-15 深圳爱湾医学检验实验室 基于高通量测序技术的新生儿遗传病早筛方法及装置

Similar Documents

Publication Publication Date Title
Argelaguet et al. Computational principles and challenges in single-cell data integration
US10127353B2 (en) Method and systems for querying sequence-centric scientific information
Angermueller et al. Deep learning for computational biology
Lægreid et al. Predicting gene ontology biological process from temporal gene expression patterns
CN109072309B (zh) 癌症进化检测和诊断
US10275711B2 (en) System and method for scientific information knowledge management
AU2021269351A1 (en) Deep learning-based techniques for pre-training deep convolutional neural networks
CN117637033A (zh) 一种基于遗传知识库的新致病基因位点机器学习挖掘方法
Masoudi-Nejad et al. RETRACTED ARTICLE: Candidate gene prioritization
D’Agaro Artificial intelligence used in genome analysis studies
Beier et al. Panakeia-a universal tool for bacterial pangenome analysis
Wang et al. An efficient gene bigdata analysis using machine learning algorithms
US20190042697A1 (en) Computer-implemented methods for automated analysis and prioritization of variants in datasets
Groth et al. Phenotype data: a neglected resource in biomedical research?
WO2021254585A1 (en) Method and system for detection and classification of clinically relevant structural genomic variations
Kumbier et al. Signed iterative random forests to identify enhancer-associated transcription factor binding
Keerthana et al. UNLOCKING GENETIC INSIGHTS: EXPLORING THE POTENTIAL OF AI SYSTEMS IN GENE ANALYSIS
WO2023136297A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US20230386612A1 (en) Determining comparable patients on the basis of ontologies
KR20180090680A (ko) 유전체 분석 시스템
van Beek Channeling the data flood: handling large-scale biomolecular measurements in silico
TW201633195A (zh) 基因型推定裝置、方法、及記憶媒體
Minárik et al. Zuzana Pös, Ondrej Pös, Werner Krampl, Erika Tomková 5, Michaela Hýblová 5, 6
Dou et al. Monopogen: single nucleotide variant calling from single cell sequencing
Vajjhala USING INTERPRETABLE MACHINE LEARNING TO FIND NOVEL GENES USEFUL FOR DISCRIMINATING TUMOR AND NON-TUMOR BREAST CANCER SAMPLES

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination