CN116564408B - 基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质 - Google Patents

基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN116564408B
CN116564408B CN202310486650.0A CN202310486650A CN116564408B CN 116564408 B CN116564408 B CN 116564408B CN 202310486650 A CN202310486650 A CN 202310486650A CN 116564408 B CN116564408 B CN 116564408B
Authority
CN
China
Prior art keywords
gene
graph
knowledge
synthetic lethal
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310486650.0A
Other languages
English (en)
Other versions
CN116564408A (zh
Inventor
郑杰
张可
刘勇
吴敏
冯艺苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ShanghaiTech University
Original Assignee
ShanghaiTech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ShanghaiTech University filed Critical ShanghaiTech University
Priority to CN202310486650.0A priority Critical patent/CN116564408B/zh
Publication of CN116564408A publication Critical patent/CN116564408A/zh
Application granted granted Critical
Publication of CN116564408B publication Critical patent/CN116564408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioethics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质,所述方法包括:获取合成致死知识图谱和已知合成致死基因对;将合成致死知识图谱和由已知合成致死基因对所构成的合成致死图合并生成对应的异构图,以基于异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型;基于一多分类损失函数来训练优化预测模型。本发明在无需采样邻居的前提下充分利用KG的结构预测SL关系并对预测过程进行解释,将SL预测问题定义为搭档基因的推荐问题。实验表明,在三种数据划分场景下,KR4SL在NDCG,Precision和Recall上的表现和均优于所有的基线模型。

Description

基于知识图谱推理的合成致死基因对预测方法、装置、设备及 介质
技术领域
本申请涉及生物信息技术领域,特别是涉及基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质。
背景技术
在癌症中包含着许多重要的基因相互作用关系。因此,鉴定基因相互作用对于发现抗癌药物靶点非常关键。合成致死(Synthetic lethality,SL)是一种基因相互作用关系,即单独一个基因的失活并不影响细胞的活力,而两个基因同时失活会导致细胞死亡。基因之间的合成致死关系提供了一种有前途的癌症治疗策略。通过靶向在正常细胞中非必需但与具有癌症特异性改变的基因合成致死的基因,可以选择性地杀死癌细胞而不损害正常细胞。目前已经开发了一些用于大规模SL筛选的湿实验室技术,例如RNA干扰和CRISPR。然而这些技术存在高成本、脱靶效应和基因敲除不成功等问题。为了解决这些问题并加快基于SL的药物靶点发现,过去十年来开发了许多用于SL预测和分析的生物信息学方法。
现有的预测SL的计算方法可分为三类:统计推断、基于网络的方法和有监督的机器学习方法。统计方法基于预定义假设或规则挖掘SL基因对。基于网络的方法通过构建生物网络并分析网络中基因的拓扑特征来预测SL关系。这两类方法具有良好的可解释性,但手动选择假设或拓扑特征比较主观而且无法利用已知的SL对。有监督的机器学习方法大多缺乏可解释性方面,SL的机制往往不清楚。将先验知识以知识图谱(Knowledge graph,KG)纳入有监督的模型中可以提高其可解释性。目前基于KG的方法通常会随机采样邻居并且基于节点嵌入的相似性做预测,这样可能无法找到KG中对预测真正重要的特征,即会使得一些重要的先验知识被忽略,这使得KG的结构信息无法得到充分利用并且模型的预测也无法得到很好的解释。
因此,亟需开发一种基于KG的可解释预测模型,充分利用KG的语义结构进行SL预测并且给出对预测结果的解释。基于知识图谱推理的方法利用两节点之间路径的连通性来推理两节点的关系,其中重要的路径可以作为对两节点预测的解释。关系路径是一种特殊的由KG中的边关系构成的序列,由两节点间所有可能的关系路径构成的有向图叫做关系有向图。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质,用于解决如何基于KG的可解释预测模型,充分利用KG的语义结构进行SL预测并且给出对预测结果的解释。
为实现上述目的及其他相关目的,本申请的第一方面提供一种基于知识图谱推理的合成致死基因对预测方法,包括:获取合成致死知识图谱和已知合成致死基因对;将所述合成致死知识图谱和由所述已知合成致死基因对所构成的合成致死图合并生成对应的异构图,以基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型;基于一多分类损失函数来训练优化所述预测模型。
于本申请的第一方面的一些实施例中,所述方法还包括:在从SynLethDB合成致死数据库中提取得到合成致死知识图谱和已知合成致死基因对后,从所述合成致死知识图谱中选取与基因调控机制相关联的若干种实体和若干种种边关系;并且,基于预设数据集对所述边关系进行扩充以得到扩充后的合成致死知识图谱。
于本申请的第一方面的一些实施例中,基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型,其包括:基于所述合成致死知识图谱为起始基因同为所述预设起始基因的所有基因对构建关系有向图;基于所述关系有向图计算从起始基因传播到知识图谱中各层各节点的语义信息表示;基于从起始基因传播到知识图谱中各层各节点的语义信息表示,计算各层邻居节点中的候选搭档基因,计算各所述候选搭档基因与所述起始基因之间的配对可能性,并挑选其中配对可能性大的若干个候选搭档基因作为所述起始基因的搭档基因。
于本申请的第一方面的一些实施例中,基于所述合成致死知识图谱为起始基因同为所述预设起始基因的所有基因对构建关系有向图,其包括:
定义起始基因gq和异构图G;起始基因gq和异构图中某个节点的K跳关系有向图为/>从起始基因gq出发,在异构图G中寻找起始基因gq的所有邻居节点,得到的子图记作/>基于子图/>为每一个邻居节点寻找所有的邻居,如此递归地搜索K轮得到子图/>子图/>是起始基因gq和第K层的所有节点/>的K跳关系有向图的并集;在第K轮的所有节点中,将所有的基因节点作为起始基因gq的SL候选搭档基因。
于本申请的第一方面的一些实施例中,基于所述关系有向图计算从起始基因传播到知识图谱中各层各节点的语义信息表示,其包括:基于知识图谱中上一层的关系有向图来构建当前层的关系有向图,以将语义信息从上一层传播到当前层;通过注意力机制来聚合所有传播到同一目标节点的消息;基于门控循环单元优化从知识图谱中的上一层到当前层的所有边的序列信息。
于本申请的第一方面的一些实施例中,所述基于知识图谱中上一层的关系有向图来构建当前层的关系有向图,以将语义信息从上一层传播到当前层,其包括:定义是从起始基因gq传播到目标节点ei的语义信息;对于从第(K-1)步到第K步的某个三元组(ei,rio,eo),从节点ei传播到节点eo的语义信息为:/>其中,是rio在第k层的嵌入表示,Ti和To分别是ei和eo的文本表示,/>是一个可学习的参数,表示从起始基因gq到第(K-1)层节点ei的语义信息。
于本申请的第一方面的一些实施例中,所述通过注意力机制来聚合所有传播到同一目标节点的消息被表示为:其中,是起始基因gq和异构图中节点eo的K跳关系有向图;/>是对于三元组(ei,rio,eo)的注意力系数;/> 都是可学习的参数。
于本申请的第一方面的一些实施例中,所述基于门控循环单元优化从知识图谱中的上一层到当前层的所有边的序列信息,其包括使用一个GRU(Gated Recurrent Unit)门控循环单元来进一步强化从第(K-1)步到第K步的所有边的序列信息,包括:
其中,都是可学习的参数;/>代表了从gq经过k步传播到eo的语义信息表示;/>表示在经过GRU之前从gq传播到eo的语义表示;/>都是可学习的参数,rk、fk分别表示重置门和更新门,nk表示经过GRU后更新过的值。
于本申请的第一方面的一些实施例中,所述多分类损失函数为:
其中,/>是所有参与训练的基因对,/>是其中所有以gq为起始基因的基因对;/>表示经过指数变换的gq和gp这对基因的打分。
为实现上述目的及其他相关目的,本申请的第二方面提供一种基于知识图谱推理的合成致死基因对预测装置,包括:数据获取模块,用于获取合成致死知识图谱和已知合成致死基因对;模型构建模块,用于将所述合成致死知识图谱和由所述已知合成致死基因对所构成的合成致死图合并生成对应的异构图,以基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型;模型训练模块,用于基于一多分类损失函数来训练优化所述预测模型。
为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于知识图谱推理的合成致死基因对预测方法。
为实现上述目的及其他相关目的,本申请的第四方面提供一种计算机设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述计算机设备执行所述基于知识图谱推理的合成致死基因对预测方法。
如上所述,本申请的基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质,具有以下有益效果:本发明在无需采样邻居的前提下充分利用KG的结构预测SL关系并对预测过程进行解释,将SL预测问题定义为搭档基因的推荐问题,即给定SL基因对中的一个起始基因,模型所有可能的基因打分,选择分数最靠前的若干个作为预测的搭档基因。实验表明,在三种数据划分场景下,KR4SL在NDCG,Precision和Recall上的表现和均优于所有的基线模型。
附图说明
图1显示为本申请一实施例中的一种基于知识图谱推理的合成致死基因对预测方法的流程示意图。
图2显示为本申请一实施例中基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型的流程示意图。
图3A显示为本申请一实施例中实验过程中的异构图的示意图。
图3B显示为本申请一实施例中实验过程中的语义信息编码器(Semanticinformation encoder)的结构示意图。
图3C显示为本申请一实施例中实验过程中解码器(scoring decoder)的结构示意图。
图3D显示为本申请一实施例中节点ATM和节点TP53构成合成致死基因对的示意图。
图4A显示为本申请一实施例中在直推式场景的三类指标上的表现情况。
图4B显示为本申请一实施例中在归纳式场景的三类指标上的表现情况。
图5显示为本申请一实施例中合成致死基因对预测装置的结构示意图。
图6显示为本申请一实施例中计算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
为解决上述背景技术中的问题,本发明提供基于知识图谱推理的合成致死基因对预测方法、***、终端及介质,旨在无需采样邻居的前提下充分利用KG的结构预测SL关系并对预测过程进行解释。KR4SL将SL预测问题定义为搭档基因的推荐问题,即给定SL基因对中的起始基因,模型所有可能的基因打分,选择分数最靠前的若干个作为预测的搭档基因。并且实验表明,在三种数据划分场景下,KR4SL在NDCG、Precision和Recall等指标上的表现均优于所有的基线模型。
简言之,本发明可以有效地为多个基因对构建关系有向图并在这些图上做推理,预测潜在的SL搭档基因并做出解释。具体来说:首先,对于有相同起始基因的多个基因对,模型会同时为这些基因对构建关系有向图而无需随机采样邻居,并从起始基因开始在这些图中进行推理。其次,在每一层的推理过程中,将关系有向图的结构信息和图中实体的文本语义信息相结合作为要传播的语义信息,并通过学习关系有向图中关系路径的序列信息来进一步增强语义信息。最后,采用注意力机制进行信息聚合,并在模型训练完以后选择权重高的路径作为解释。
为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
在对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释:
<1>合成致死(Synthetic Lethality,SL):是指两个非致死性基因同时失活从而导致细胞死亡的现象,可以定义为当A基因和B基因中任何一个基因发生突变还有生存能力,但是当两个基因同时发生突变就会引起死亡。
<2>湿实验室(Wet-Lab):是指基于实验药剂的传统实验,相对概念干实验室(Dry-Lab)是指基于电脑的模拟实验。
本发明实施例提供基于知识图谱推理的合成致死基因对预测方法、基于知识图谱推理的合成致死基因对预测方法的***、以及存储用于实现基于知识图谱推理的合成致死基因对预测方法的可执行程序的存储介质。就基于知识图谱推理的合成致死基因对预测方法的实施而言,本发明实施例将对基于知识图谱推理的合成致死基因对预测的示例性实施场景进行说明。
如图1所示,展示了本发明实施例中的一种基于知识图谱推理的合成致死基因对预测方法的流程示意图。本实施例中的基于知识图谱推理的合成致死基因对预测方法主要包括如下各步骤:
步骤S1:获取合成致死知识图谱和已知合成致死基因对。
于本发明实施例中,从SynLethDB合成致死数据库中提取得到合成致死知识图谱和已知合成致死基因对。需说明的是,SynLethDB是一个关于合成致死的数据库,一直被视作金标准的数据而被广泛使用;SynLethDB2.0包含了涉及5个物种的共50868个SL基因对和一个针对SL基因对的知识图谱(SynLethKG)。本发明实施例利用涉及9746个基因的35374对基因对作为标签数据,SynLethKG中包含11种关系和27种实体。
较为优选地,在从SynLethDB合成致死数据库中提取得到合成致死知识图谱和已知合成致死基因对后,从所述合成致死知识图谱中选取与基因调控机制相关联的若干种实体和若干种种边关系;并基于预设数据集对所述边关系进行扩充以得到扩充后的合成致死知识图谱。
举例来说,可从合成致死知识图谱(SynLethKG)中选取与基因调控机制相关联的3种实体和4种边关系,利用Ontoprotein数据集将4种边关系扩充到32种边关系,最终得到一个由3种类型的42547个节点和32种类型的381761条边构成的知识图谱。
应理解的是,上述3种实体分别是基因、基因本体论和通路。基因调控可以分为4个层次:1级基因调控以负反馈调控为代表,受底物或产物浓度调控;2级基因调控是链式调控,受到信号分子调控;3级基因调控是一对多调控,以转录因子为代表,一个节点调控几十上百个靶标;4级基因调控是程序调控,是基因组级别时间相关调控,通过改变表现组控制转录组。
在一些示例中,所述方法还包括基于预训练的语言模型提取所述知识图谱中每个节点的文本表示,具体的提取过程包括:将所述知识图谱中各节点的文字描述作为输入参数,利用生物医学语料库中预训练的基于BERT的语言模型CODER为每个节点提取文本表示,以此丰富其语义信息。
步骤S2:将所述合成致死知识图谱和由所述已知合成致死基因对所构成的合成致死图合并生成对应的异构图,以基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型。
需说明的是,异构图中可以有不同类型的节点和边,这些不同类型的节点和边具有独立的ID空间和特征。一个异构图通常由一系列子图构成,一个子图对应一种关系,每个关系由一个字符串三元组定义(源节点类型、边类型、目标节点类型)。
在一些示例中,基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型,其过程如图2所示:
步骤S21:基于所述合成致死知识图谱为起始基因同为所述预设起始基因的所有基因对构建关系有向图。
具体而言,定义起始基因gq和异构图G;起始基因gq和异构图中某个节点的K跳关系有向图为/>从起始基因gq出发,在异构图G中寻找起始基因gq的所有邻居节点,得到的子图记作/>基于子图/>为每一个邻居节点寻找所有的邻居,如此递归地搜索K轮得到子图/>子图/>是起始基因gq和第K层的所有节点/>的K跳关系有向图的并集;在第K轮的所有节点中,将所有的基因节点作为起始基因gq的SL候选搭档基因。
步骤S22:基于所述关系有向图计算从起始基因传播到知识图谱中各层各节点的语义信息表示。具体过程如下所示:
步骤S22a:基于知识图谱中上一层的关系有向图来构建当前层的关系有向图,以将语义信息从上一层传播到当前层。
以基于第(K-1)步的关系有向图来构建第K步的关系有向图/>为例进行说明:定义/>是从起始基因gq传播到目标节点ei的语义信息;对于从第(K-1)步到第K步的某个三元组(ei,rio,eo),从节点ei传播到节点eo的语义信息为:
其中,是rio在第k层的嵌入表示,Ti和To分别是ei和eo的文本表示,/>是一个可学习的参数,/>表示从起始基因gq到第(K-1)层节点ei的语义信息。
步骤S22b:通过注意力机制来聚合所有传播到同一目标节点的消息。
具体而言,通过注意力机制来聚合所有传播到同一目标节点的消息被表示为:
其中,是起始基因gq和异构图中节点eo的K跳关系有向图;/>是对于三元组(ei,rio,eo)的注意力系数,即/> 和/>都是可学习的参数。
步骤S22c:基于门控循环单元优化从知识图谱中的上一层到当前层的所有边的序列信息。
具体而言,使用一个GRU(Gated Recurrent Unit)门控循环单元来进一步强化从第(K-1)步到第K步的所有边的序列信息,包括:
其中,都是可学习的参数;/>代表了从gq经过k步传播到eo的语义信息表示;/>表示在经过GRU之前从gq传播到eo的语义表示;/>都是可学习的参数,rk、fk分别表示重置门和更新门,nk表示经过GRU后更新过的值。
步骤S23:基于从起始基因传播到知识图谱中各层各节点的语义信息表示,计算各层邻居节点中的候选搭档基因,计算各所述候选搭档基因与所述起始基因之间的配对可能性,并挑选其中配对可能性大的若干个候选搭档基因作为所述起始基因的搭档基因。
在经过K层的消息传递以后,可以挑选出第K层邻居节点中的所有基因节点作为候选的搭档基因。举例来说,节点gp是gq的第K层邻居节点中一个基因节点,那么gp就是gq的一个候选搭档基因,可以通过一个全连接层为gp计算最终的分数:
其中,Wff和bff都是可学习的参数;这个分数反映了gp成为gq搭档基因的可能性,分数越大,成为搭档基因的可能性越高。将所有候选基因的得分按照降序排列后,选取前N个作为gq搭档基因。
步骤S3:基于一多分类损失函数来训练优化所述预测模型。
本发明实施例中的多分类损失函数表示如下:
其中,是所有参与训练的基因对,/>是其中所有以gq为起始基因的基因对;表示经过指数变换的gq和gp这对基因的打分。
为便于本领域技术人员进一步了解本发明的技术特点及技术效果,下文将结合实验过程及实验结果来对本发明做更详实的解释说明。
图3A展示了实验过程中的已知合成致死基因对所构成的合成致死图(Known SLgraph)和合成致死知识图谱(KG)合并生成所得的异构图。其中,节点DNA damage response是指DNA损伤反应,是生物的基本生理机制之一,这一机制旨在保护生物的基因组。节点DNArepair是DNA修复,是细胞对DNA受损伤后的一种反应;节点BRCA1是直接与遗传性乳腺癌有关的基因;节点cell cycle是细胞周期,是指细胞从一次***完成开始到下一次***结束所经历的全过程;Apoptotic process是指细胞凋亡过程;节点ABL1是原癌基因;节点CDK6是细胞***蛋白激酶6;节点ATM是共济失调毛细血管扩张突变基因;节点CDK1是细胞周期蛋白依赖性激酶1;节点TP53是肿瘤抑制基因。
图3B展示了实验过程中语义信息编码器(Semantic information encoder)的结构示意图。从一个起始基因开始,在异构图中递归的寻找多层的邻居节点,并将最后一层的节点中的基因节点作为候选搭档基因。在从第k-1步到第k步的过程中,首先利用异构图上的结构信息和KG中实体的文本信息计算每条边上传播的语义信息,再对具有相同目标节点的三元组进行注意力消息聚合(Attentive Aggregation),最后通过一个GRU来强化序列信息,得到第k层的语义信息表示。
图3C展示了实验过程中解码器(scoring decoder)的结构示意图。对于第K层的每个候选基因节点,使用一个全连接层(Feed-forward,FF)得到最终的打分。将这些打分按照降序排列后,选取前N个作为搭档基因。
图3D展示了最后的解释,以DNA修复为例:节点ATM对于节点TP53而言是一个新的搭档基因,因为节点ATM和已知SL搭档基因(ABL1和BRCA1)都参与了生物过程(即DNA修复)。
实验场景设置如下:为了评估模型的性能,设置了两种实验场景。
直推式场景:给定已知的SL图和合成致死知识图谱KG,推断未知的SL基因对(或SL关系)。在这种情况下,按基因对来划分数据集,测试集中的基因可能存在于训练集中。
归纳式场景:测试时的所有基因未在训练时见过。在这种情况下,按基因来划分数据集,训练集涉及的基因集和测试集涉及的基因集互不相交,并且训练用的异构图和测试用的异构图中,所涉及的基因集也互不相交。这种设置可以进一步检查模型的泛化能力。
实验对比结果如图4A和4B所示:本发明实施例提供的基于知识图谱推理的合成致死基因对预测方法(下述简称为KR4SL)在两个场景的三类指标上(NDCG@N,Precision@N和Recall@N,N=10,20,50)均优于现有的基本模型,尤其是在归纳式场景中。表格中每个值是训练五次的结果,每列最好的结果用粗体标出,“-”表示该值是0。
上文,对本发明中的基于知识图谱推理的合成致死基因对预测方法的实施过程及原理做了详尽的解释。下文,将针对基于知识图谱推理的合成致死基因对预测装置、设备及介质做进一步的说明。
如图5所示,展示了本发明实施例中的一种基于知识图谱推理的合成致死基因对预测装置的结构示意图。本发明实施例中的合成致死基因对预测装置500包括:数据获取模块501、模型构建模块502及模型训练模块503。
数据获取模块501用于获取合成致死知识图谱和已知合成致死基因对。模型构建模块502用于将所述合成致死知识图谱和由所述已知合成致死基因对所构成的合成致死图合并生成对应的异构图,以基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型。模型训练模块503用于基于一多分类损失函数来训练优化所述预测模型。
在一些示例中,所述数据获取模块501在从SynLethDB合成致死数据库中提取得到合成致死知识图谱和已知合成致死基因对后,从所述合成致死知识图谱中选取与基因调控机制相关联的若干种实体和若干种种边关系;并且,基于预设数据集对所述边关系进行扩充以得到扩充后的合成致死知识图谱。
在一些示例中,所述模型构建模块502基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型,其过程具体包括:基于所述合成致死知识图谱为起始基因同为所述预设起始基因的所有基因对构建关系有向图;基于所述关系有向图计算从起始基因传播到知识图谱中各层各节点的语义信息表示;基于从起始基因传播到知识图谱中各层各节点的语义信息表示,计算各层邻居节点中的候选搭档基因,计算各所述候选搭档基因与所述起始基因之间的配对可能性,并挑选其中配对可能性大的若干个候选搭档基因作为所述起始基因的搭档基因。
在一些示例中,基于所述合成致死知识图谱为起始基因同为所述预设起始基因的所有基因对构建关系有向图,其包括:定义起始基因gq和异构图G;起始基因gq和异构图中某个节点的K跳关系有向图为/>从起始基因gq出发,在异构图G中寻找起始基因gq的所有邻居节点,得到的子图记作/>基于子图/>为每一个邻居节点寻找所有的邻居,如此递归地搜索K轮得到子图/>子图/>是起始基因gq和第K层的所有节点/>的K跳关系有向图的并集;在第K轮的所有节点中,将所有的基因节点作为起始基因gq的SL候选搭档基因。
在一些示例中,基于所述关系有向图计算从起始基因传播到知识图谱中各层各节点的语义信息表示,其包括:基于知识图谱中上一层的关系有向图来构建当前层的关系有向图,以将语义信息从上一层传播到当前层;通过注意力机制来聚合所有传播到同一目标节点的消息;基于门控循环单元优化从知识图谱中的上一层到当前层的所有边的序列信息。
在一些示例中,所述基于知识图谱中上一层的关系有向图来构建当前层的关系有向图,以将语义信息从上一层传播到当前层,其包括:定义是从起始基因gq传播到目标节点ei的语义信息;对于从第(K-1)步到第K步的某个三元组(ei,rio,eo),从节点ei传播到节点eo的语义信息为:/>其中,/>是rio在第k层的嵌入表示,Ti和To分别是ei和eo的文本表示,/>是一个可学习的参数。
在一些示例中,所述通过注意力机制来聚合所有传播到同一目标节点的消息被表示为:
其中,/>是起始基因gq和异构图中节点eo的K跳关系有向图;/>是对于三元组(ei,rio,eo)的注意力系数; 和/>都是可学习的参数。
在一些示例中,所述基于门控循环单元优化从知识图谱中的上一层到当前层的所有边的序列信息,其包括使用一个GRU(Gated Recurrent Unit)门控循环单元来进一步强化从第(K-1)步到第K步的所有边的序列信息,包括:
其中,都是可学习的参数;/>代表了从gq经过k步传播到eo的语义信息表示。
在一些示例中,所述模型训练模块503使用的多分类损失函数为:
其中,/>是所有参与训练的基因对,/>是其中所有以gq为起始基因的基因对;/>表示经过指数变换的gq和gp这对基因的打分。
需要说明的是:上述实施例提供的基于知识图谱推理的合成致死基因对预测装置在进行基于知识图谱推理的合成致死基因对预测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的基于知识图谱推理的合成致死基因对预测装置与基于知识图谱推理的合成致死基因对预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例提供的基于知识图谱推理的合成致死基因对预测方法可以采用终端侧或服务器侧实施,就基于知识图谱推理的合成致死基因对预测终端的硬件结构而言,请参阅图5,为本发明实施例提供的基于知识图谱推理的合成致死基因对预测终端500的一个可选的硬件结构示意图,该终端500可以是移动电话、计算机设备、平板设备、个人数字处理设备、工厂后台处理设备等。基于知识图谱推理的合成致死基因对预测终端500包括:至少一个处理器501、存储器502、至少一个网络接口504和用户接口506。装置中的各个组件通过总线***505耦合在一起。可以理解的是,总线***505用于实现这些组件之间的连接通信。总线***505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线***。
其中,用户接口506可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。
可以理解,存储器502可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous StaticRandomAccess Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。
本发明实施例中的存储器502用于存储各种类别的数据以支持基于知识图谱推理的合成致死基因对预测终端500的操作。这些数据的示例包括:用于在基于知识图谱推理的合成致死基因对预测终端500上操作的任何可执行程序,如操作***5021和应用程序5022;操作***5021包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022可以包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例提供的基于知识图谱推理的合成致死基因对预测方法可以包含在应用程序5022中。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器501可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的配件优化方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,基于知识图谱推理的合成致死基因对预测终端400可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable LogicDevice),用于执行前述方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
于本申请提供的实施例中,所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外,任何连接都可以适当地称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术,从网站、服务器或其它远程源发送的,则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而,应当理解的是,计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质,而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘则用激光来光学地复制数据。
综上所述,本申请提供基于知识图谱推理的合成致死基因对预测方法、装置、终端及介质,本发明在无需采样邻居的前提下充分利用KG的结构预测SL关系并对预测过程进行解释,将SL预测问题定义为搭档基因的推荐问题,即给定SL基因对中的一个起始基因,模型所有可能的基因打分,选择分数最靠前的若干个作为预测的搭档基因。实验表明,在三种数据划分场景下,KR4SL在NDCG,Precision和Recall上的表现和均优于所有的基线模型。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (11)

1.一种基于知识图谱推理的合成致死基因对预测方法,其特征在于,包括:
获取合成致死知识图谱和已知合成致死基因对;
将所述合成致死知识图谱和由所述已知合成致死基因对所构成的合成致死图合并生成对应的异构图,以基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型;
基于一多分类损失函数来训练优化所述预测模型;
其中,基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型,其包括:基于所述合成致死知识图谱为起始基因同为所述预设起始基因的所有基因对构建关系有向图;基于所述关系有向图计算从起始基因传播到知识图谱中各层各节点的语义信息表示;基于从起始基因传播到知识图谱中各层各节点的语义信息表示,计算各层邻居节点中的候选搭档基因,计算各所述候选搭档基因与所述起始基因之间的配对可能性,并挑选其中配对可能性大的若干个候选搭档基因作为所述起始基因的搭档基因。
2.根据权利要求1所述的基于知识图谱推理的合成致死基因对预测方法,其特征在于,所述方法还包括:在从SynLethDB合成致死数据库中提取得到合成致死知识图谱和已知合成致死基因对后,从所述合成致死知识图谱中选取与基因调控机制相关联的若干种实体和若干种种边关系;并且,基于预设数据集对所述边关系进行扩充以得到扩充后的合成致死知识图谱。
3.根据权利要求1所述的基于知识图谱推理的合成致死基因对预测方法,其特征在于,基于所述合成致死知识图谱为起始基因同为所述预设起始基因的所有基因对构建关系有向图,其包括:
定义起始基因gq和异构图G;起始基因gq和异构图中某个节点的K跳关系有向图为从起始基因gq出发,在异构图G中寻找起始基因gq的所有邻居节点,得到的子图记作基于子图/>为每一个邻居节点寻找所有的邻居,如此递归地搜索K轮得到子图/>子图/>是起始基因gq和第K层的所有节点/>的K跳关系有向图的并集;
在第K轮的所有节点中,将所有的基因节点作为起始基因gq的SL候选搭档基因。
4.根据权利要求1所述的基于知识图谱推理的合成致死基因对预测方法,其特征在于,基于所述关系有向图计算从起始基因传播到知识图谱中各层各节点的语义信息表示,其包括:
基于知识图谱中上一层的关系有向图来构建当前层的关系有向图,以将语义信息从上一层传播到当前层;
通过注意力机制来聚合所有传播到同一目标节点的消息;
基于门控循环单元优化从知识图谱中的上一层到当前层的所有边的序列信息。
5.根据权利要求4所述的基于知识图谱推理的合成致死基因对预测方法,其特征在于,所述基于知识图谱中上一层的关系有向图来构建当前层的关系有向图,以将语义信息从上一层传播到当前层,其包括:定义是从起始基因gq传播到目标节点ei的语义信息;对于从第(K-1)步到第K步的某个三元组(ei,rio,eo),从节点ei传播到节点eo的语义信息为:其中,/>是rio在第k层的嵌入表示,Ti和To分别是ei和eo的文本表示,/>是一个可学习的参数,/>表示从起始基因gq到第(K-1)层节点ei的语义信息。
6.根据权利要求4所述的基于知识图谱推理的合成致死基因对预测方法,其特征在于,所述通过注意力机制来聚合所有传播到同一目标节点的消息被表示为:
其中,是起始基因gq和异构图中节点eo的K跳关系有向图;/>是对于三元组(ei,rio,eo)的注意力系数;/>
和/>都是可学习的参数。
7.根据权利要求4所述的基于知识图谱推理的合成致死基因对预测方法,其特征在于,所述基于门控循环单元优化从知识图谱中的上一层到当前层的所有边的序列信息,其包括使用一个GRU(Gated Recurrent Unit)门控循环单元来进一步强化从第(K-1)步到第K步的所有边的序列信息,包括:
其中,都是可学习的参数;/>代表了从gq经过k步传播到eo的语义信息表示;/>表示在经过GRU之前从gq传播到eo的语义表示;/>都是可学习的参数,rk、fk分别表示重置门和更新门,nk表示经过GRU后更新过的值。
8.根据权利要求1所述的基于知识图谱推理的合成致死基因对预测方法,其特征在于,所述多分类损失函数为:
其中,是所有参与训练的基因对,/>是其中所有以gq为起始基因的基因对;/>表示经过指数变换的gq和gp这对基因的打分。
9.一种基于知识图谱推理的合成致死基因对预测装置,其特征在于,包括:
数据获取模块,用于获取合成致死知识图谱和已知合成致死基因对;
模型构建模块,用于将所述合成致死知识图谱和由所述已知合成致死基因对所构成的合成致死图合并生成对应的异构图,以基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型;其中,基于所述异构图及预设起始基因构建得到一用于预测所述预设起始基因的若干个搭档基因的预测模型,其包括:基于所述合成致死知识图谱为起始基因同为所述预设起始基因的所有基因对构建关系有向图;基于所述关系有向图计算从起始基因传播到知识图谱中各层各节点的语义信息表示;基于从起始基因传播到知识图谱中各层各节点的语义信息表示,计算各层邻居节点中的候选搭档基因,计算各所述候选搭档基因与所述起始基因之间的配对可能性,并挑选其中配对可能性大的若干个候选搭档基因作为所述起始基因的搭档基因;
模型训练模块,用于基于一多分类损失函数来训练优化所述预测模型。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述基于知识图谱推理的合成致死基因对预测方法。
11.一种计算机设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述计算机设备执行如权利要求1至8中任一项所述基于知识图谱推理的合成致死基因对预测方法。
CN202310486650.0A 2023-04-28 2023-04-28 基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质 Active CN116564408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310486650.0A CN116564408B (zh) 2023-04-28 2023-04-28 基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310486650.0A CN116564408B (zh) 2023-04-28 2023-04-28 基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116564408A CN116564408A (zh) 2023-08-08
CN116564408B true CN116564408B (zh) 2024-03-01

Family

ID=87487277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310486650.0A Active CN116564408B (zh) 2023-04-28 2023-04-28 基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116564408B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116355B (zh) * 2023-08-30 2024-02-20 中国农业科学院农业信息研究所 一种优异多效基因的挖掘方法、装置、设备及介质
CN117079712B (zh) * 2023-08-30 2024-02-20 中国农业科学院农业信息研究所 一种通路基因簇的挖掘方法、装置、设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN113010691A (zh) * 2021-03-30 2021-06-22 电子科技大学 一种基于图神经网络的知识图谱推理关系预测方法
CN113626612A (zh) * 2021-08-13 2021-11-09 第四范式(北京)技术有限公司 一种基于知识图谱推理的预测方法和***
EP3913543A2 (en) * 2020-12-21 2021-11-24 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training multivariate relationship generation model, electronic device and medium
CN113987203A (zh) * 2021-10-27 2022-01-28 湖南大学 一种基于仿射变换与偏置建模的知识图谱推理方法与***
CN114595344A (zh) * 2022-05-09 2022-06-07 北京市农林科学院信息技术研究中心 面向农作物品种管理的知识图谱构建方法及装置
CN114969369A (zh) * 2022-05-30 2022-08-30 大连民族大学 基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法
CN115240778A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
CN115240777A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质
WO2022222037A1 (zh) * 2021-04-20 2022-10-27 中国科学院深圳先进技术研究院 一种基于图神经网络推理的可解释推荐方法
WO2023065545A1 (zh) * 2021-10-19 2023-04-27 平安科技(深圳)有限公司 风险预测方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210174906A1 (en) * 2019-12-06 2021-06-10 Accenture Global Solutions Limited Systems And Methods For Prioritizing The Selection Of Targeted Genes Associated With Diseases For Drug Discovery Based On Human Data
US20220207343A1 (en) * 2020-12-22 2022-06-30 International Business Machines Corporation Entity disambiguation using graph neural networks

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
EP3913543A2 (en) * 2020-12-21 2021-11-24 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training multivariate relationship generation model, electronic device and medium
CN113010691A (zh) * 2021-03-30 2021-06-22 电子科技大学 一种基于图神经网络的知识图谱推理关系预测方法
WO2022222037A1 (zh) * 2021-04-20 2022-10-27 中国科学院深圳先进技术研究院 一种基于图神经网络推理的可解释推荐方法
CN113626612A (zh) * 2021-08-13 2021-11-09 第四范式(北京)技术有限公司 一种基于知识图谱推理的预测方法和***
WO2023065545A1 (zh) * 2021-10-19 2023-04-27 平安科技(深圳)有限公司 风险预测方法、装置、设备及存储介质
CN113987203A (zh) * 2021-10-27 2022-01-28 湖南大学 一种基于仿射变换与偏置建模的知识图谱推理方法与***
CN114595344A (zh) * 2022-05-09 2022-06-07 北京市农林科学院信息技术研究中心 面向农作物品种管理的知识图谱构建方法及装置
CN114969369A (zh) * 2022-05-30 2022-08-30 大连民族大学 基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法
CN115240778A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
CN115240777A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Predicting Synthetic Lethality in Human Cancers via Multi-Graph Ensemble Neural Network;Mincai Lai 等;《2021 43rd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC)》;全文 *
一种面向临床领域时序知识图谱的链接预测模型;陈德华;殷苏娜;乐嘉锦;王梅;潘乔;朱立峰;;计算机研究与发展(第12期);全文 *
基于混合增强智能的知识图谱推理技术研究;杨瑞达;林欣;杨燕;贺樑;窦亮;计算机应用与软件(第06期);全文 *

Also Published As

Publication number Publication date
CN116564408A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN116564408B (zh) 基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质
CN107391512B (zh) 知识图谱预测的方法和装置
US20160321357A1 (en) Discovery informatics system, method and computer program
US11514498B2 (en) System and method for intelligent guided shopping
CN107784598A (zh) 一种网络社区发现方法
Wang et al. A heterogeneous network-based method with attentive meta-path extraction for predicting drug–target interactions
Bianchini et al. Deep learning in science
Zarei et al. Detecting community structure in complex networks using genetic algorithm based on object migrating automata
Zhou et al. Summarisation of weighted networks
Price et al. Survey: Enhancing protein complex prediction in PPI networks with GO similarity weighting
CN110610763A (zh) 基于katz模型的代谢物与疾病关联关系预测方法
Sun et al. A graph neural network-based interpretable framework reveals a novel DNA fragility–associated chromatin structural unit
Di Mauro et al. Bandit-based Monte-Carlo structure learning of probabilistic logic programs
Okay et al. Interpretable machine learning: a case study of healthcare
Ji et al. HAM-FMD: mining functional modules in protein–protein interaction networks using ant colony optimization and multi-agent evolution
Fu et al. HGECDA: a heterogeneous graph embedding model for CircRNA-disease association prediction
WO2022186932A1 (en) Decision tree native to graph database
Lei et al. ABC and IFC: Modules detection method for PPI network
Nakajima et al. Exact and heuristic methods for network completion for time‐varying genetic networks
Ouyang et al. Hgclamir: Hypergraph contrastive learning with attention mechanism and integrated multi-view representation for predicting mirna-disease associations
Liu Driving model of innovation of business model based on cloud computing
Deng et al. Neural‐augmented two‐stage Monte Carlo tree search with over‐sampling for protein folding in HP Model
Shamami et al. Community Detection on a Modified Adjacency Matrix: A Novel Network Approach in Drug-Drug Interaction
Sousa et al. Explaining protein–protein interactions with knowledge graph-based semantic similarity
Lin et al. Inference of gene predictor set using Boolean satisfiability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant