CN113470741B

CN113470741B - 药物靶标关系预测方法、装置、计算机设备及存储介质

Info

Publication number: CN113470741B
Application number: CN202110857945.5A
Authority: CN
Inventors: 叶青; 杨子翊; 张胜誉; 侯廷军
Original assignee: Zhejiang University ZJU; Tencent Technology Shenzhen Co Ltd
Current assignee: Zhejiang University ZJU; Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2023-07-18
Anticipated expiration: 2041-07-28
Also published as: CN113470741A

Abstract

本申请实施例公开了一种药物靶标关系预测方法、装置、计算机设备及存储介质，属于机器学习技术领域。该方法包括：确定目标药物分子以及目标蛋白质；获取目标药物分子对应的目标药物标识以及目标蛋白质对应的目标蛋白标识；基于目标药物标识、目标蛋白标识以及知识图谱进行相互作用关系预测，得到关系预测结果。通过引入至少一种组学数据，结合已知的药物靶标相互作用对形成知识图谱，基于知识图谱进行药物靶标关系预测，丰富了关系预测的信息来源，弥补了仅依靠已知的药物蛋白相互作用等先验知识进行关系预测的不足，提高了对药物分子和蛋白质之间相互关系的预测准确率。

Description

药物靶标关系预测方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及机器学习技术领域，特别涉及一种药物靶标关系预测方法、装置、计算机设备及存储介质。

背景技术

药物-靶标相互作用(Drug-Target Interaction，DTI)预测是药物发现的一个重要研究领域，在药物虚拟筛选、老药新用以及药物的毒副作用研究等新药开发环节起着至关重要的作用。由于受到精度、通量和成本的制约，基于生物实验的传统药物靶标验证方法通常难以展开，因此通过计算模拟的方法预测药物靶标的相互作用能够减少新药研制的盲目性并降低研发成本。

相关技术中，用于预测药物靶标相互作用的神经网络模型主要包括基于描述符的药物靶标相互作用预测模型、基于深度学习的端到端药物靶标相互作用预测模型，以及基于组学信息的药物靶标相互作用预测模型。

然而，相关技术中基于机器学习的药物靶标预测模型都极其依赖于先验知识，当存在药物或蛋白的冷启动情况时，模型预测性能会大幅下降。

发明内容

本申请实施例提供了一种药物靶标关系预测方法、装置、计算机设备及存储介质，能够提高药物靶标相互作用预测的准确率。所述技术方案如下：

一方面，本申请实施例提供了一种药物靶标关系预测方法，所述方法包括：

确定目标药物分子以及目标蛋白质；

获取所述目标药物分子对应的目标药物标识以及所述目标蛋白质对应的目标蛋白标识，其中，药物标识用于指示药物分子在知识图谱中对应的节点，蛋白标识用于指示蛋白质在所述知识图谱中对应的节点，所述知识图谱是以已知的药物靶标作用对以及至少一种组学信息中的实体为节点，以实体之间的关系为边的异构图；

基于所述目标药物标识、所述目标蛋白标识以及所述知识图谱进行相互作用关系预测，得到关系预测结果，所述关系预测结果用于表征所述目标药物分子与所述目标蛋白质之间的相互作用关系。

另一方面，本申请实施例提供了一种药物靶标关系预测方法，所述方法包括：

获取知识图谱，所述知识图谱是以样本信息中的实体为节点，以实体之间的关系为边的异构图，所述样本信息包括样本药物靶标作用对以及至少一种组学信息；

将所述知识图谱对应的知识图谱表征、样本药物标识以及样本蛋白标识输入关系预测模型，得到样本预测结果，所述样本药物标识用于指示样本药物分子在知识图谱中对应的节点，所述样本蛋白标识用于指示样本蛋白质在所述知识图谱中对应的节点，所述样本结构信息包含药物分子的分子指纹以及蛋白质的描述符，所述样本预测结果为存在相互作用关系的药物靶标作用对；

基于所述样本预测结果以及样本关系标注训练所述关系预测模型，所述样本关系标注用于表征所述样本药物分子与所述样本蛋白质之间的相关作用关系。

另一方面，本申请实施例提供了一种药物靶标关系预测装置，所述装置包括：

第一确定模块，用于确定目标药物分子以及目标蛋白质；

第一获取模块，用于获取所述目标药物分子对应的目标药物标识以及所述目标蛋白质对应的目标蛋白标识，其中，药物标识用于指示药物分子在知识图谱中对应的节点，蛋白标识用于指示蛋白质在所述知识图谱中对应的节点，所述知识图谱是以已知的药物靶标作用对以及至少一种组学信息中的实体为节点，以实体之间的关系为边的异构图；

第一预测模块，用于基于所述目标药物标识、所述目标蛋白标识以及所述知识图谱进行相互作用关系预测，得到关系预测结果，所述关系预测结果用于表征所述目标药物分子与所述目标蛋白质之间的相互作用关系。

第二获取模块，用于获取知识图谱，所述知识图谱是以样本信息中的实体为节点，以实体之间的关系为边的异构图，所述样本信息包括样本药物靶标作用对以及至少一种组学信息；

第二预测模块，用于将所述知识图谱对应的知识图谱表征、样本药物标识以及样本蛋白标识输入关系预测模型，得到样本预测结果，所述样本药物标识用于指示样本药物分子在知识图谱中对应的节点，所述样本蛋白标识用于指示样本蛋白质在所述知识图谱中对应的节点，所述样本结构信息包含药物分子的分子指纹以及蛋白质的描述符，所述样本预测结果为存在相互作用关系的药物靶标作用对；

训练模块，用于基于所述样本预测结果以及样本关系标注训练所述关系预测模型，所述样本关系标注用于表征所述样本药物分子与所述样本蛋白质之间的相关作用关系。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器；所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的药物靶标关系预测方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的药物靶标关系预测方法。

本申请实施例提供的技术方案至少包括以下有益效果：

本申请实施例中，通过引入异构信息，如基因组学、蛋白组学和药理学等至少一种与药物、蛋白相关的组学数据，同时结合已知的药物靶标相互作用对形成知识图谱，基于知识图谱进行药物靶标关系预测，丰富了关系预测的信息来源，弥补了仅依靠已知的药物蛋白相互作用等先验知识进行关系预测的不足，提高了对药物分子和蛋白质之间相互关系的预测准确率。

附图说明

图1是本申请一个示例性实施例提供的药物靶标关系预测方法的流程图；

图2是本申请一个示例性实施例提供的知识图谱的示意图；

图3是本申请另一个示例性实施例提供的药物靶标关系预测方法的流程图；

图4是本申请另一个示例性实施例提供的药物靶标关系预测方法的流程图；

图5是本申请一个示例性实施例提供的药物靶标关系预测框架的示意图；

图6是本申请另一个示例性实施例提供的药物靶标关系预测方法的流程图；

图7是本申请另一个示例性实施例提供的药物靶标关系预测方法的流程图；

图8是本申请一个示例性实施例提供的划分训练测试集以及构建负样本的示意图；

图9是本申请一个示例性实施例提供的三种方法在DTINet数据集上的预测效果示意图；

图10是本申请一个示例性实施例提供的三种方法在Yamanishi_08数据集上的预测效果示意图；

图11是本申请一个示例性实施例提供的药物靶标关系装置的结构框图；

图12是本申请另一个示例性实施例提供的药物靶标关系装置的结构框图；

图13是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

知识图谱(Knowledge Graph，KG)：以结构化三元组的形式存储现实世界中的实体以及实体之间的关系，表示为KG＝(ε，r，s)，其中ε表示实体集合，r表示关系集合，s表示知识图谱中三元组的集合。三元组通常描述一个特定领域中的事实，由头实体、尾实体和描述这两个实体之间的关系组成。

知识图谱表征(Knowledge Graph Embedding，KGE)：是将知识图谱中的实体和关系表示为低维连续的实体向量，即Embedding，可以应用于知识图谱补全，关系预测等下游任务，因此受到广泛关注。

神经因子分解机(Neural Factorization Machines，NFM)：因子分解机与神经网络的结合模型，能够捕获特征之间的高阶交互信息，使得模型在输入极其稀疏，而且特征组合对于预测结果非常重要的时候，得到更好的预测效果。

药物靶标相互作用预测(Drug-Target Interaction，DTI)：药物靶标之间的相互作用是药物发现的一个重要研究领域，在药物虚拟筛选，老药新用，药物的毒副作用研究等新药开发环节起着至关重要的作用。然而，受到精度、通量和成本的制约，基于生物实验的传统药物靶标验证方法通常难以展开。因此，通过计算模拟的方法来预测药物靶标的相互作用是非常必要的，有助于缩短新药研制时间,减少新药研制的盲目性并降低研发成本。

相关技术中对药物靶标相互作用的预测方法主要存在三种。

一种是基于描述符的药物靶标相互作用预测方法，传统的药物靶标相互作用预测模型，以药物分子的分子描述符(或分子指纹)以及蛋白的描述符作为输入，基于不同的机器学习方法，构建相应的预测模型，例如支持向量机(Support Vector Machine,SVM)，随机森林(Random Forest,RF),极限梯度提升(eXtreme Gradient Boosting，XGBoost)，深度神经网络(Deep Neural Networks,DNN)等机器学习方法都被广泛地应用于构建药物靶标相互作用预测模型。

一种是基于深度学习的端到端的药物靶标相互作用预测方法，该方法与基于描述符的药物靶标相互作用预测模型不同，其采用分子图或化学结构作为模型输入，通过分子编码器，如卷积神经网络(Convolutional Neural Networks,CNN)、消息传递神经网络(Message Passing Neural Network，MPNN)，将化合物和蛋白质的输入映射到一维的表征向量，然后根据不同的夏有任务目标，通过前馈神经网络对初始的表征向量进行更新，但这类方法需要大量数据进行训练以保证稳定的泛化能力，因此在数据量不充分的时候表现并不理想。

第三种是基于组学信息的药物靶标相互作用预测方法，由于药物与靶标蛋白的结合通常是高度特异性的，在一个药物-靶标蛋白关联矩阵中，真正存在相互作用的活性数据相对于非活性数据是极其有限的，此外，受限于实验成本的制约，已知的活性数据和非活性数据在整个药物-靶标蛋白关联矩阵中也是极其有限的，因此相关技术中的药物靶标相互作用数据集都存在高度的稀疏性和不平衡性。为了提高模型在高度稀疏的数据集上的预测精度，可以考虑引入基因组学、蛋白组学和药理学等异构数据。这类数据的建模方法在基于网络的化学基因组学方法中比较常见，但如何***且高效地整合大规模异构数据是当前的研究难点。已经有研究提出通过随机游走，图卷积等方法对异构数据进行建模提取药物和蛋白等功能信息，并通过矩阵分解，神经网络等方法去除噪声，以提高预测准确率。

相关技术对于药物靶标关系的预测方法存在两个潜在的局限性。首先，无论是基于描述符的药物靶标相互作用预测模型还是基于深度学习的端到端方法，都极其依赖于先验知识，即已知的药物蛋白相互作用，因此，当存在药物或蛋白的冷启动情况，即关于该药物分子或蛋白质的相关活性数据很少时，上述方法的预测性能和稳健性会大幅下降。而丰富的组学数据相当于从侧面补充了部分先验知识，因此，将相关的组学数据引入药物靶标相互作用预测模型的构建有望解决冷启动的问题。目前已经有一些基于网络的方法将组学数据引入药物靶标相互作用预测模型，但大量不同类型节点和边引入使得异构网络的噪声增加，因此，如何***且高效地整合大规模异构数据是当前的研究难点。此外，对于基于网络的化学基因组学方法，尽管这类方法是目前整合组学数据的主要方法，但其输入主要依赖于相似性的计算，即药物分子之间的相似性和蛋白质之间的相似性，而对于很大一部分组学数据而言，其相似性的计算并没有一个统一的界定，因此对于这部分组学数据的整合是较为复杂和困难的。

下面对本申请实施例提供的药物靶标关系预测方法的应用场景进行示意性说明。

1.老药新用

通过发现已上市药物的新治疗靶点，可以发现药物新的适应症，即老药新用，也成为药物重定向。因为该类药物已经经过安全性评价，因此再次开发的风险和成本均会大幅度降低。当利用本申请实施例提供的药物靶标关系预测方法进行老药新用的研究时，用户可以根据研究方向，将需要研究的药物分子以及蛋白质(例如研究药物分子a与用于治疗的蛋白质A、蛋白质B和蛋白质C之间是否存在相互作用)输入预测模型，计算机设备基于知识图谱对用户输入的药物分子以及蛋白质之间的相互作用关系进行预测，从而针对上市药物进行快速、大规模的虚拟筛选，降低实验测试的经济成本和时间成本。

2.药物作用机制的阐明

化学分子在靶点蛋白上的活性验证是现代药物发现的关键步骤，但仍有部分通过表型筛选得到的药物，以及从海洋或植物提取到的具有生物活性的天然产物的靶点是未知的，极大阻碍了活性化学分子在药物开发环节的推进以及临床的使用，例如中成药的国际化。因此，通过利用本申请实施例提供的药物靶标关系预测方法，用户可以将新药相关的信息(例如已知的靶点蛋白、药物分子的描述符以及相关的组学信息等)输入计算机设备，使得计算机设备更新知识图谱，并基于更新后的知识图谱预测该药物分子对应的可能存在相互作用关系的靶标蛋白，能够预测活性分子的潜在作用靶点，很大程度上减小实验验证的靶标蛋白范围。

3.药物副作用的预测

药物的副作用是新药在临床试验中失败的主要原因，并且副作用会限制药物的临床使用范围。副作用的产生主要是由于一种药物分子往往能够与多个蛋白靶标产生相互作用，当药物分子与非治疗靶点产生相互作用时就有可能存在毒副作用，即脱靶效应。利用本申请实施例提供的药物靶标关系预测方法，用户可以输入需要研究的药物分子以及蛋白质(例如研究药物分子b与非治疗靶点的蛋白质A和蛋白质B之间是否存在相互作用关系)，计算机设备基于知识图谱对输入的药物分子与蛋白质之间的关系进行预测，可以对新发现的活性化学分子、已上市的药物进行靶标预测，发现其潜在的可结合靶点以及可能产生的副作用，加速新药发现环节中的安全性评价，提前规避潜在毒副作用所造成的经济损失。

图1示出了本申请一个示例性实施例提供的药物靶标关系预测方法的流程图，该方法包括如下步骤。

步骤101，确定目标药物分子以及目标蛋白质。

在一种可能的实施方式中，当用户需要预测特定的药物分子与蛋白质之间的相互作用关系时，通过输入操作输入用于指示目标药物分子以及目标蛋白质的信息(例如目标药物分子与目标蛋白质的名称、分子结构等)，计算机设备基于该操作确定此次预测中的目标药物分子以及目标蛋白质。

示意性的，响应于接收到输入操作，并且从该输入操作中获取到药物分子a、药物分子b以及蛋白质A和蛋白质B，则计算机设备将药物分子a和药物分子b确定为目标药物分子，并将蛋白质A和蛋白质B确定为目标蛋白质，进而预测药物分子a与蛋白质A、蛋白质B之间的相互作用关系，以及药物分子b与蛋白质A、蛋白质B之间的相互作用关系。

步骤102，获取目标药物分子对应的目标药物标识以及目标蛋白质对应的目标蛋白标识。

其中，药物标识用于指示药物分子在知识图谱中对应的节点，蛋白标识用于指示蛋白质在知识图谱中对应的节点，知识图谱是以已知的药物靶标作用对以及至少一种组学信息中的实体为节点，以实体之间的关系为边的异构图。相比于相关技术中基于已知的药物靶标相互作用对以及药物和蛋白的传统描述符进行关系预测的方法，本申请则是依据已知的药物靶标相互作用对以及知识图谱中丰富的组学信息，药物靶标相互作用对以及知识图谱中的药物分子与蛋白质采用统一的标识代替。

在一种可能的实施方式中，计算机设备中预先存储有知识图谱，该知识图谱由药物与蛋白相关信息中的实体以及实体关系组成。

示意性的，图2示出了一种知识图谱的示意图。该知识图谱是由大量三元组组成的无向图，其中包含了药物与蛋白、药物与药物、药物与疾病、蛋白与蛋白、蛋白与疾病以及其它类型的关系，计算机设备获取并存储上述各个关系对，构建知识图谱。

步骤103，基于目标药物标识、目标蛋白标识以及知识图谱进行相互作用关系预测，得到关系预测结果。

其中，关系预测结果用于表征目标药物分子与目标蛋白质之间的相互作用关系。知识图谱是以结构化三元组的形式存储现实世界中的实体以及实体之间的关系，本申请实施例中的知识图谱由药物靶标相互作用对以及与药物或靶标蛋白相关的组学信息构成，例如基因组学、药理学、蛋白组学等。

计算机设备基于目标药物标识以及目标蛋白标识确定其在知识图谱中的相应节点，进而确定与目标药物分子和目标蛋白质相关的药物靶标相互作用对以及组学信息，并利用从知识图谱中获取到的信息进行关系预测，最终输出关系预测结果。

例如，计算机设备确定药物分子a与蛋白质B之间存在相互作用的概率为90％，则确定蛋白质B为药物分子a的靶标蛋白，二者之间存在相互作用，若确定药物分子a与蛋白质A之间存在相互作用的概率为5％，则确定蛋白质A并非药物分子a的靶标蛋白，二者之间不存在相互作用。用户可以根据计算机设备的输出结果进行药物靶标相互作用的研究。

在另一种可能的实施方式中，当用户需要研究某新型药物分子或新发现的蛋白质，知识图谱中并未存储其相关信息，则用户可以通过输入已知的相关信息更新知识图谱，使计算机设备基于更新后的知识图谱进行关系预测。

综上所述，本申请实施例中，通过引入异构信息，如基因组学、蛋白组学和药理学等至少一种与药物、蛋白相关的组学数据，同时结合已知的药物靶标相互作用对形成知识图谱，基于知识图谱进行药物靶标关系预测，丰富了关系预测的信息来源，弥补了仅依靠已知的药物蛋白相互作用等先验知识进行关系预测的不足，提高了对药物分子和蛋白质之间相互关系的预测准确率。

图3示出了本申请另一个示例性实施例提供的药物靶标关系预测方法的流程图，该方法包括如下步骤。

步骤301，确定目标药物分子以及目标蛋白质。

步骤302，获取目标药物分子对应的目标药物标识以及目标蛋白质对应的目标蛋白标识。

步骤301至步骤302的具体实施方式可以参考上述步骤101至步骤102，本申请实施例在此不再赘述。

步骤303，对知识图谱中的三元组进行表征提取，得到知识图谱表征。

其中，三元组由第一实体、第二实体以及实体关系组成，知识图谱表征以向量的形式表征知识图谱中的节点和边。

知识图谱表征是将知识图谱中的实体和关系表示为低维连续的实体向量，以使得神经网络模型能够获取并识别知识图谱中的信息。

在一种可能的实施方式中，本申请实施例采用双线性模型(DisMult)生成知识图谱表征。DisMult是基于张量分解的知识图谱表示学习方法，DisMult模型将实体用向量表示，将关系用对角矩阵表示以降低模型复杂度，该关系矩阵对潜在因素之间的成对交互作用进行建模，其评分函数是一个双线性函数，表示为F＝<r_p，e_s，e_o>，其中r_p为关系表征向量的集合，e_s为头实体表征向量的集合，e_o为尾实体表征向量的集合。计算机设备利用DisMult模型将知识图谱中的实体和实体关系以稠密向量的方式提取出来。

示意性的，计算机设备通过对知识图谱中的三元组[drugA，drug-target，proteinA]、[drugA，drug-drug，drugB]进行表征提取，得到用于表示节点drugA和proteinA的表征向量drugA[0.2，0.5，-0.9，…，0.7]以及proteinA[0.7，0.5，-0.9，…，0.7]。

步骤304，将目标药物标识、目标蛋白标识以及知识图谱表征输入关系预测模型，得到关系预测结果。

计算机设备利用训练完成的关系预测模型，将目标药物标识、目标蛋白标识以及知识图谱表征作为模型输入，得到模型输出的关系预测结果。该模型能够基于模型输入，确定各个目标药物分子与各个目标蛋白质之间存在相互作用关系的概率。

在一种可能的实施方式中，关系预测模型包含嵌入层(Embedding层)、特征交叉池化层(Bi-Interaction层)、隐藏层和预测层，步骤304还包括如下步骤：

步骤304a，将目标药物标识和目标蛋白标识输入嵌入层，得到目标药物标识对应的药物标识向量以及目标蛋白标识对应的蛋白标识向量。

关系预测模型的Embedding层用于将输入的目标药物标识以及目标蛋白标识转化为向量，使关系预测模型能够识别目标药物分子以及目标蛋白质，并基于标识从知识图谱中获取相关信息进行预测。

例如，目标药物分子对应的药物标识(drug Identity Document，drug ID)为20，计算机设备将该drug ID输入Embedding层，得到Embedding层输出的连续向量(即药物标识向量)[0.2，0.5，-0.9，…，0.7]。

步骤304b，将药物标识向量以及蛋白标识向量输入特征交叉池化层进行池化操作，得到第一关系预测向量。

关系预测模型的BI-Interaction层用于通过池化操作(pooling operation)将一对药物分子与蛋白质的表征向量转化为一个用于表示相互作用的连续向量，即将一对药物标识向量与蛋白标识向量转化为第一关系预测向量。

示意性的，当用户输入两个目标药物分子以及三个目标蛋白质时，计算机设备通过BI-Interaction层对两个药物标识向量与三个蛋白标识向量进行配对以及向量转化，得到6个用于表示目标药物分子与目标蛋白质之间相互关系的第一关系预测向量。

步骤304c，将第一关系预测向量以及知识图谱表征输入隐藏层进行向量更新，得到第二关系预测向量。

本申请实施例是通过利用知识图谱整合药物蛋白相关的组学信息，进而基于知识图谱进行药物蛋白相互作用关系预测的，因此还需要将知识图谱对应的知识图谱表征输入关系预测模型，以使关系预测模型基于知识图谱对第一关系预测向量进行优化，得到更精确、准确率更高的第二关系预测向量。

示意性的，关系预测模型的隐藏层由至少两层全连接神经网络组成，计算机设备通过多层全连接神经网络整合输入信息，得到第二关系预测向量。

在一种可能的实施方式中，由于知识图谱中涵盖了大量的异构信息，直接将提取到的知识图谱表征作为隐藏层的输入会导致网络噪声较大、模型输入较为稀疏，因此为了提高模型性能，去除复杂生物网络中的噪声，计算机设备在将知识图谱表征输入隐藏层之前，通过主成分分析(Principal Component Analysis，PCA)对知识图谱表征进行降噪处理，进而将降噪处理后的知识图谱表征输入隐藏层进行关系预测。

步骤304d，将第二关系预测向量输入预测层，得到模型预测结果。

关系预测模型中最后的神经网络层为预测层，该预测层用于将隐藏层输出的第二关系预测向量转化为最终的预测分数，即将第二关系预测向量转化为表示相互作用概率的分数，例如，对于目标药物分子a、目标药物分子b以及目标蛋白质A、目标蛋白质B的关系预测，最终关系预测模型输出目标药物分子a与目标蛋白质A对应的相互作用概率、目标药物分子a与目标蛋白质B对应的相互作用概率、目标药物分子b与目标蛋白质A对应的相互作用概率，以及目标药物分子b与目标蛋白质B对应的相互作用概率，用户可以根据预测层的输出概率确定相互之间存在作用关系的目标药物分子与目标蛋白质。

本申请实施例中，通过将知识图谱转化为低维的知识图谱表征，相比于相关技术中基于相似计算整合组学数据的方法，无需进行节点间的相似性计算即可简单高效地整合不同来源的组学数据，提高了关系预测的效率，减少计算量。并且利用关系预测模型获取知识图谱表征，基于知识图谱中的组学信息对关系预测向量进行向量优化，提高了关系预测结果的准确性。

上述实施例示出了在基于先验知识的基础上，利用知识图谱引入相关的组学信息进行药物靶标相互作用预测，相比于相关技术中仅依靠描述符等结构信息进行相互作用预测的方式，能够补充先验知识的不足。在一种可能的实施方式中，本申请实施例中的关系预测模型既能够基于知识图谱中的组学信息又能够结合描述符等结构信息优化关系预测向量，保证数据来源的多样性和完整性，提高预测准确率。图4示出了本申请另一个示例性实施例提供的药物靶标关系预测方法的流程图，该方法包括如下步骤。

步骤401，确定目标药物分子以及目标蛋白质。

步骤401的具体实施方式可以参考上述步骤101，本申请实施例在此不再赘述。

步骤402，将目标药物分子以及目标蛋白质对应的目标结构信息转化为目标结构向量。

其中，目标结构信息包含目标药物分子的目标分子指纹以及目标蛋白质的目标描述符，目标结构向量包括目标分子指纹对应的分子指纹向量以及目标描述符对应的描述符向量。

在一种可能的实施方式中，计算机设备获取目标药物分子以及目标蛋白质的目标结构信息，其中，结构信息包含药物分子的描述符(例如分子指纹)与蛋白质的描述符，并将目标结构信息转化为目标结构向量。例如，计算机设备通过计算机编程语言(Python)计算目标药物分子A的分子指纹，得到对应的目标结构向量[0，0，1，…，1]。

步骤403，响应于知识图谱中不包含目标药物分子或目标蛋白质，获取补充信息。

其中，补充信息包含目标药物分子对应的药物靶标作用对以及组学信息，或目标蛋白质对应的药物靶标作用对以及组学信息。

在一种可能的实施方式中，用户可能想要研究某种新型药物与已知蛋白之间的相互作用关系，或者研究目标药物是否与新发现的蛋白质之间存在相互作用，此时目标药物分子或目标蛋白质可能不存在于知识图谱中，需要用户输入相关的补充信息，例如与目标药物分子或目标蛋白质相关的已知药物靶标相互作用对、相关的组学信息以及对应的结构信息等。

步骤404，基于补充信息更新知识图谱。

计算机设备在检测到目标药物分子或目标蛋白质不存在于已有的知识图谱中时，基于补充信息更新知识图谱。

可选的，计算机设备基于更新后的知识图谱进行关系预测，或者在补充信息较多的情况下对知识图谱重新进行模型训练，并基于训练后的知识图谱进行关系预测。

步骤405，获取目标药物分子对应的目标药物标识以及目标蛋白质对应的目标蛋白标识。

步骤406，对知识图谱中的三元组进行表征提取，得到知识图谱表征。

步骤405至步骤406的具体实施方式可以参考上述步骤302至步骤303，本申请实施例在此不再赘述。

步骤407，基于目标药物标识、目标蛋白标识、知识图谱以及目标结构向量进行相互作用关系预测，得到关系预测结果。

在一种可能的实施方式中，计算机设备基于关系预测模型的Embedding层和BI-Interaction层，得到表征目标药物分子与目标蛋白质之间相互作用关系的第一关系预测向量，进而将第一关系预测向量与知识图谱表征、目标结构向量输入隐藏层，通过隐藏层对上述三种输入信息进行整合，即基于知识图谱和分子与蛋白的描述符，对第一关系预测向量进行优化和更新，得到第二关系预测向量，进而基于整合了知识图谱表征和分子指纹、蛋白描述符的第二关系预测向量得到关系预测结果。

本申请实施例中，在引入知识图谱中的组学信息的基础上，结合传统描述符等结构信息作为模型输入，整合上述两种信息优化关系预测向量，保证数据来源的多样性和完整性，提高预测准确率。

在一种可能的实施方式中，关系预测模型为NFM，本申请实施例提供了一种药物靶标相互作用关系的预测框架，基于知识图谱的药物靶标相互作用预测框架(KnowledgeGraph Embedding-Neural Factorization Machines，KGE-NFM)。图5示出了该预测框架的示意图，左侧是从数据库中的生物信息(药物靶标相互作用信息、组学信息等)得到KGE的过程，其中KGE作为异构数据输入右侧的NFM模型，值得一提的是，由于目前的KG中只能体现哪些节点之间存在联系，无法对节点关系的类型就进行区分，因此后续NFM的输入数据中只包含节点对应的知识图谱表征。右侧是基于知识图谱表征、传统描述符信息以及目标药物标识和目标蛋白标识进行药物靶标关系预测的过程，计算机设备首先将目标药物标识和目标蛋白标识输入Embedding层，分别得到药物标识向量以及蛋白标识向量，然后将Embedding层输出的药物标识向量以及蛋白标识向量输入BI-Interaction层，通过池化操作得到用于表示相互作用的连续向量，即第一关系预测向量，再将第一关系预测向量、知识图谱表征以及目标结构向量(图中所示的分子指纹向量和蛋白描述符向量)共同输入隐藏层，基于知识图谱表征以及目标结构向量对第一关系预测向量进行向量优化，得到第二关系预测向量，最终将第二关系预测向量输入预测层得到关系预测结果。

可选的，本申请实施例提供的预测框架不仅仅局限于KGE-NFM，还可以采用其它分类器替代NFM进行关系预测，例如基于KGE与随机森林模型(Random Forest，RF)的预测框架KGE-RF。

上述各个实施例示出了利用基于知识图谱的预测框架进行药物靶标关系预测预测的过程，在实际应用之前，还需要对该框架进行训练。图6示出了本申请一个示例性实施例提供的药物靶标关系预测方法的流程图，该方法包括如下步骤。

步骤601，获取知识图谱，知识图谱是以样本信息中的实体为节点，以实体之间的关系为边的异构图，样本信息包括样本药物靶标作用对以及至少一种组学信息。

知识图谱是以已知的药物靶标作用对以及至少一种组学信息中的实体为节点，以实体之间的关系为边的异构图。在搭建预测框架时，开发人员将数据库中的样本信息以三元组的形式存储在计算机设备中，计算机设备基于获取到的三元组构建知识图谱。模型训练阶段的知识图谱同样可以在模型应用阶段使用。

步骤602，将知识图谱对应的知识图谱表征、样本药物标识以及样本蛋白标识输入关系预测模型，得到样本预测结果。

其中，样本药物标识用于指示样本药物分子在知识图谱中对应的节点，样本蛋白标识用于指示样本蛋白质在知识图谱中对应的节点，样本结构信息包含药物分子的分子指纹以及蛋白质的描述符，样本预测结果为存在相互作用关系的药物靶标作用对。

知识图谱表征是将知识图谱汇总的实体和实体关系表示为低维连续的实体向量，以使得神经网络模型能够获取并识别知识图谱中的信息。计算机设备对知识图谱中样本信息对应的三元组进行表征提取，得到知识图谱表征。示意性的，本申请实施例中，计算机设备将样本信息对应的三元组输入DisMult模型，得到模型输出的表征向量，即知识图谱表征。

在一种可能的实施方式中，关系预测模型基于模型输入(知识图谱表征、样本药物标识以及样本蛋白标识)对各个样本药物分子与各个蛋白质之间的相互作用关系进行预测，得到样本预测结果，该样本预测结果用于指示相应的样本药物分子与样本蛋白质之间存在相互作用关系的概率。

步骤603，基于样本预测结果以及样本关系标注训练关系预测模型。

样本关系标注用于表征样本药物分子与样本蛋白质之间的相关作用关系。

在一种可能的实施方式中，模型训练的样本为样本药物靶标相互作用对，且各个样本药物靶标相互作用对携带有样本关系标注，该样本关系标注用于指示对应的样本药物靶标相互作用对之间是否存在相互作用关系和/或相互作用关系的类型。例如，对于作为正样本的药物A-靶标蛋白a，其对应的样本关系标注为1，即存在相互作用关系的概率为1；对于作为负样本的药物A-靶标蛋白b，其对应的样本关系标注为0，即存在相互作用关系的概率为0。

计算机设备通过获取关系预测模型在当前一轮训练后得到的样本预测结果，计算当前一轮训练的模型损失，再基于模型损失优化模型参数，迭代训练直至模型收敛。

综上所述，本申请实施例中，通过知识图谱对基因组学、蛋白组学和药理学等可利用的异构数据进行建模，无需节点间的相似性计算即可实现基于组学信息训练关系预测模型，简单高效地整合了组学数据，提高了预测模型高精度、高稳定性的预测性能。

上述实施例示出了利用知识图谱整合不同来源的组学信息进行模型训练的过程，在一种可能的实施方式中，本申请实施例在知识图谱的基础上引入了对药物和蛋白结构信息的传统表征方式(描述符)，进一步保证模型的预测性能。图7示出了本申请另一个示例性实施例提供的药物靶标关系预测方法的流程图，该方法包括如下步骤。

步骤701，基于预测场景，确定至少两种训练测试集的划分方式，不同预测场景对应的划分方式不同。

实际药物研究过程中，研究目的的不同导致了不同的药物靶标关系预测场景，例如研究某种已知的药物分子是否对靶标蛋白以外其它的蛋白质产生作用，即在现有的知识图谱中药物分子与蛋白质均已知，或者研究某种新型药物分子的药物作用机制，即在现有的知识图谱中蛋白质已知而药物分子未知。因此为了应对各种不同的预测场景，本申请实施例提供了至少两种训练集和测试集的划分方式以测试真实情况下模型的预测性能。

在一种可能的实施方式中，计算机设备中预设有至少两种预测场景以及各个预测场景对应的训练测试集的划分方式，计算机设备按照划分方式，分别针对各个预测场景划分测试集和训练集。

步骤702，按照划分方式对样本药物靶标作用对进行划分，得到各个预测场景对应的训练集和测试集。

在一种可能的实施方式中，本申请实施例示出三种实际应用场景，即热启动(warmstart)、药物的冷启动(cold start for drugs)以及蛋白的冷启动(cold start forproteins)，步骤702包括如下步骤：

步骤702a，响应于预测场景为热启动场景，将样本药物靶标作用对划分为第一训练集和第一测试集，第一测试集中的样本药物分子和样本蛋白质属于第一训练集。

对于热启动场景，其预测时的药物分子和蛋白质均存在于知识图谱中，因此计算机设备可以将数据库中全部的样本药物靶标作用对确定为训练集，然后按照一定的测试训练比(例如测试集：训练集为1：10)，从数据库中随机抽取样本药物靶标作用对确定为测试集。

步骤702b，响应于预测场景为药物冷启动场景，将样本药物靶标作用对划分为第二训练集和第二测试集，第二测试集中的样本蛋白质属于第二训练集。

对于药物的冷启动场景，其预测时的药物分子应当不存在于知识图谱中，因此计算机设备按照一定的测试训练比，从样本靶标作用对中提取出某几种药物分子对应的所有的作用对作为测试集，其余数据划分为训练集。

步骤702c，响应于预测场景为蛋白冷启动场景，将样本药物靶标作用对划分第三训练集和第三测试集，第三测试集中的样本药物分子属于第三训练集。

对于蛋白的冷启动场景，其预测时的蛋白质应当不存在于知识图谱中，因此计算机设备按照一定的测试训练比，从样本靶标作用对中提取出某几种靶标蛋白对应的所有的作用对作为测试集，其余数据划分为训练集。

由于模型的训练还需要负样本起到对照作用，在一种可能的实施方式中，计算机设备基于数据库进行样本数据的划分，得到的是测试集和训练集中的正样本，此后还需构建负样本完善测试集和训练集，步骤702还包括如下步骤：

步骤702d，按照划分方式对样本药物靶标作用对进行划分，得到训练集和测试集中的正样本。

在一种可能的实施方式中，计算机设备按照上述方式将数据库中的药物靶标作用对划分为训练集和测试集，得到的仅仅为训练集和测试集中的正样本，计算机设备还需基于训练集与测试集中的正样本，进行负样本构建。

步骤702e，将正样本中的药物分子分别与蛋白质组成关系对，得到关系对集合。

计算机设备将数据库中的n种蛋白质与m中药物分子进行配对，得到n*m个关系对，即关系对集合，该关系对中包含正样本。例如，对于包含药物分子a、药物分子b、蛋白质A、蛋白质B、蛋白质C的数据库，计算机设备进行配对，得到关系对集合，即药物分子a-蛋白质A、药物分子a-蛋白质B、药物分子a-蛋白质C、药物分子b-蛋白质A、药物分子b-蛋白质B和药物分子b-蛋白质C。

步骤702f，按照正负样本比，从关系对集合中抽取候选关系对。

在一种可能的实施方式中，计算机设备中预先设置有正负样本比(例如正样本：负样本为1:10)，按照该正负样本比从关系对集合中抽取候选关系对，进而基于候选关系对确定负样本。

步骤702g，过滤候选关系对中的正样本以及重复项，得到训练集和测试集中的负样本。

由于计算机设备进行配对得到的关系对集合中，可能包含重复的药物蛋白作用对，且包含有所有的正样本，因此计算机设备随机抽取到的候选关系对中可能存在正样本和重复项，计算机设备通过过滤候选关系对中的正样本以及重复项，得到训练集和测试集中的负样本。

在另一种可能的实施方式中，计算机设备在生成关系对集合后，首先过滤其中的正样本和重复项，然后从剩余的关系对中按照正负样本比随机抽取负样本。

如图8所示，其示出了一种划分测试集与训练集，以及构建负样本的示意图。计算机设备首先对DTI数据库中的药物蛋白作用对按照三种预测场景进行划分，得到不同场景的训练集和测试集，然后基于各个训练集和测试集中的正样本，进行负样本的构建。可选的，计算机设备按照预设顺序依次对各个预测场景进行模型训练。

步骤703，获取知识图谱，知识图谱是以样本信息中的实体为节点，以实体之间的关系为边的异构图，样本信息包括样本药物靶标作用对以及至少一种组学信息。

在一种可能的实施方式中，知识图谱中包含的药物靶标作用对为训练集中的正样本。步骤703的具体实施方式可以参考上述步骤601，本申请实施例在此不再赘述。

步骤704，对知识图谱中的三元组进行表征提取，得到知识图谱表征。

其中，三元组由第一实体、第二实体以及实体关系组成，知识图谱表征以向量的形式表征知识图谱中的节点和边。计算机设备对知识图谱中样本信息对应的三元组进行表征提取，得到知识图谱表征。示意性的，本申请实施例中，计算机设备将样本信息对应的三元组输入DisMult模型，得到模型输出的表征向量，即知识图谱表征。

步骤705，将样本药物分子以及样本蛋白质对应的样本结构信息转化为样本结构向量。

其中，样本结构信息包含样本药物分子的样本分子指纹，以及样本蛋白质的样本描述符，样本结构向量包括样本分子指纹对应的分子指纹向量以及样本描述符对应的描述符向量。

在一种可能的实施方式中，计算机设备获取样本药物分子以及样本蛋白质的样本结构信息，其中，结构信息包含药物分子的描述符(例如分子指纹)与蛋白质的描述符，并将样本结构信息转化为样本结构向量。例如，计算机设备通过计算机编程语言(Python)计算样本药物分子A的分子指纹，得到对应的样本结构向量[0，0，1，…，1]。

步骤706，将知识图谱表征、样本药物标识、样本蛋白标识以及样本结构向量输入关系预测模型，得到样本预测结果。

在一种可能的实施方式中，关系预测模型包含嵌入层(Embedding层)、特征交叉池化层(Bi-Interaction层)、隐藏层和预测层，其中Embedding层用于将输入的样本药物标识以及样本蛋白标识转化为向量(包含药物标识向量和蛋白标识向量)；BI-Interaction层用于通过池化操作将一对药物分子与蛋白质的表征向量转化为一个用于表示相互作用的连续向量，即将一对药物标识向量与蛋白标识向量转化为第一样本预测向量；计算机设备基于关系预测模型的Embedding层和BI-Interaction层，得到表征样本药物分子与样本蛋白质之间相互作用关系的第一样本预测向量，进而将第一样本预测向量与知识图谱表征、样本结构向量输入隐藏层，通过隐藏层对上述三种输入信息进行整合，即基于知识图谱和分子与蛋白的描述符，对第一样本关系预测向量进行优化和更新，得到第二样本预测向量，进而基于整合了知识图谱表征和分子指纹、蛋白描述符的第二样本预测向量得到样本预测结果。

步骤707，基于目标训练集的样本预测结果以及样本关系标注训练关系预测模型，目标训练集为当前预测场景对应的训练集。

计算机设备通过获取关系预测模型在当前一轮训练后得到的样本预测结果，计算当前一轮训练的模型损失，再基于模型损失优化模型参数，迭代训练直至模型收敛。其中目标训练集为当前预测场景对应的训练集，计算机设备按照预设顺序(或随机顺序)，完成对各个预测场景的训练过程。

步骤708，基于目标测试集的样本预测结果以及样本关系标注对关系预测模型进行测试，目标测试集为当前预测场景对应的测试集。

在一种可能的实施方式中计算机设备完成模型训练后，利用测试集对各个预测场景进行测试，以检验模型在不同场景中的预测性能。

示意性的，图9示出了采用不同的关系预测模型进行药物靶标关系预测的实验结果对比，其中药物靶标相互作用预测网络(Drug-Target Interaction Net，DTINet)、RF、MPNN-CNN以及NFM均为相关技术中已有的关系预测模型，从图中可以看出，对于热启动、药物的冷启动以及蛋白的冷启动三种场景，无论是从接受者操作特征曲线下面积(AreaUnder the Receiver Operating Characteristic curve，AUROC)还是准确率—召回率曲线下的面积(Area Under Precision-Recall curve，AUPR)，本申请提供的预测架构表现更优。在另一种可能的实施方式中，通过对本申请提供的预测架构进行变形，去除知识图谱中的冗余节点得到KGE-NFM_s，以及以RF作为DTI的分类器得到的KGE-RF，其表现同样优于相关技术中的几种模型，因此证明基于知识图谱的药物靶标关系预测的准确率相比于传统预测方法，其预测性能得到大幅度提升。

本申请实施例中，在基于知识图谱的信息表征的基础上，加入了药物和蛋白结构信息的传统表征方式，同时针对不同类型的现实预测场景，分别设计训练集和数据集的划分方式，使得模型的训练过程也能够贴合真实应用场景，进一步保证了关系预测模型在稀疏数据集上高精度、高稳定性的药物靶标关系预测性能。

图11是本申请一个示例性实施例提供的药物靶标关系预测装置的结构框图，该装置包括：

第一确定模块1101，用于确定目标药物分子以及目标蛋白质；

第一获取模块1102，用于获取所述目标药物分子对应的目标药物标识以及所述目标蛋白质对应的目标蛋白标识，其中，药物标识用于指示药物分子在知识图谱中对应的节点，蛋白标识用于指示蛋白质在所述知识图谱中对应的节点，所述知识图谱是以已知的药物靶标作用对以及至少一种组学信息中的实体为节点，以实体之间的关系为边的异构图；

第一预测模块1103，用于基于所述目标药物标识、所述目标蛋白标识以及所述知识图谱进行相互作用关系预测，得到关系预测结果，所述关系预测结果用于表征所述目标药物分子与所述目标蛋白质之间的相互作用关系。

可选的，所述第一预测模块1103，包括：

提取单元，用于对所述知识图谱中的三元组进行表征提取，得到知识图谱表征，所述三元组由第一实体、第二实体以及实体关系组成，所述知识图谱表征以向量的形式表征所述知识图谱中的节点和边；

第一预测单元，用于将所述目标药物标识、所述目标蛋白标识以及所述知识图谱表征输入关系预测模型，得到所述关系预测结果。

可选的，所述关系预测模型包含嵌入层、特征交叉池化层、隐藏层和预测层；

所述第一预测单元，还用于：

将所述目标药物标识和所述目标蛋白标识输入所述嵌入层，得到所述目标药物标识对应的药物标识向量以及所述目标蛋白标识对应的蛋白标识向量；

将所述药物标识向量以及所述蛋白标识向量输入所述特征交叉池化层进行池化操作，得到第一关系预测向量；

将所述第一关系预测向量以及所述知识图谱表征输入所述隐藏层进行向量更新，得到第二关系预测向量；

将所述第二关系预测向量输入所述预测层，得到所述模型预测结果。

可选的，装置还包括：

第一转化模块，用于将所述目标药物分子以及所述目标蛋白质对应的目标结构信息转化为目标结构向量，所述目标结构信息包含所述目标药物分子的目标分子指纹以及所述目标蛋白质的目标描述符，所述目标结构向量包括所述目标分子指纹对应的分子指纹向量以及所述目标描述符对应的描述符向量；

所述第一预测模块1103，包括：

第二预测单元，用于基于所述目标药物标识、所述目标蛋白标识、所述知识图谱以及所述目标结构向量进行相互作用关系预测，得到所述关系预测结果。

可选的，所述装置还包括：

第三获取模块，用于响应于所述知识图谱中不包含所述目标药物分子或所述目标蛋白质，获取补充信息，所述补充信息包含所述目标药物分子对应的药物靶标作用对以及组学信息，或所述目标蛋白质对应的药物靶标作用对以及组学信息；

更新模块，用于基于所述补充信息更新所述知识图谱。

可选的，所述关系预测模型为神经因子分解机NFM。

图12是本申请一个示例性实施例提供的药物靶标关系预测装置的结构框图，该装置包括：

第二获取模块1201，用于获取知识图谱，所述知识图谱是以样本信息中的实体为节点，以实体之间的关系为边的异构图，所述样本信息包括样本药物靶标作用对以及至少一种组学信息；

第二预测模块1202，用于将所述知识图谱对应的知识图谱表征、样本药物标识以及样本蛋白标识输入关系预测模型，得到样本预测结果，所述样本药物标识用于指示样本药物分子在知识图谱中对应的节点，所述样本蛋白标识用于指示样本蛋白质在所述知识图谱中对应的节点，所述样本结构信息包含药物分子的分子指纹以及蛋白质的描述符，所述样本预测结果为存在相互作用关系的药物靶标作用对；

训练模块1203，用于基于所述样本预测结果以及样本关系标注训练所述关系预测模型，所述样本关系标注用于表征所述样本药物分子与所述样本蛋白质之间的相关作用关系。

可选的，所述方法还包括：

提取模块，用于对所述知识图谱中的三元组进行表征提取，得到所述知识图谱表征，所述三元组由第一实体、第二实体以及实体关系组成，所述知识图谱表征以向量的形式表征所述知识图谱中的节点和边。

可选的，所述装置还包括：

第二转化模块，用于将所述样本药物分子以及所述样本蛋白质对应的样本结构信息转化为样本结构向量，所述样本结构信息包含所述样本药物分子的样本分子指纹，以及所述样本蛋白质的样本描述符，所述样本结构向量包括所述样本分子指纹对应的分子指纹向量以及所述样本描述符对应的描述符向量；

所述第二预测模块1202，包括：

第三预测单元，用于将所述知识图谱表征、所述样本药物标识、所述样本蛋白标识以及所述样本结构向量输入所述关系预测模型，得到所述样本预测结果。

可选的，所述装置还包括：

第二确定模块，用于基于预测场景，确定至少两种训练测试集的划分方式，不同预测场景对应的划分方式不同；

划分模块，用于按照所述划分方式对所述样本药物靶标作用对进行划分，得到各个预测场景对应的训练集和测试集；

所述训练模块1203，包括：

训练单元，用于基于目标训练集的所述样本预测结果以及所述样本关系标注训练所述关系预测模型，所述目标训练集为当前预测场景对应的训练集；

所述装置还包括：

测试模块，用于基于目标测试集的所述样本预测结果以及所述样本关系标注对所述关系预测模型进行测试，所述目标测试集为所述当前预测场景对应的测试集。

可选的，所述划分模块，包括：

第一划分单元，用于响应于所述预测场景为热启动场景，将所述样本药物靶标作用对划分为第一训练集和第一测试集，所述第一测试集中的样本药物分子和样本蛋白质属于所述第一训练集；

第二划分单元，用于响应于所述预测场景为药物冷启动场景，将所述样本药物靶标作用对划分为第二训练集和第二测试集，所述第二测试集中的样本蛋白质属于所述第二训练集；

第三划分单元，用于响应于所述预测场景为蛋白冷启动场景，将所述样本药物靶标作用对划分第三训练集和第三测试集，所述第三测试集中的样本药物分子属于所述第三训练集。

可选的，所述划分模块，包括：

第四划分单元，用于按照所述划分方式对所述样本药物靶标作用对进行划分，得到所述训练集和测试集中的正样本；

第一生成单元，用于将所述正样本中的药物分子分别与蛋白质组成关系对，得到关系对集合；

第二生成单元，用于按照正负样本比，从所述关系对集合中抽取候选关系对；

第三生成单元，用于过滤所述候选关系对中的所述正样本以及重复项，得到所述训练集和所述测试集中的负样本。

请参考图13，其示出了本申请一个实施例提供的计算机设备的结构示意图。具体来讲：

所述计算机设备1300包括中央处理单元(Central Processing Unit，CPU)1301、包括随机存取存储器(Random Access Memory，RAM)1302和只读存储器(Read OnlyMemory，ROM)1303的***存储器1304，以及连接***存储器1304和中央处理单元1301的***总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(Input/Output，I/O)控制器1306，和用于存储操作***1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出***1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到***总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出***1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到***总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存或其他固态存储其技术，CD-ROM、数字视频光盘(Digital Video Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1304和大容量存储设备1307可以统称为存储器。

根据本申请的各种实施例，所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述***总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机***(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述多方安全计算方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的药物靶标关系预测方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的药物靶标关系预测方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种药物靶标关系预测方法，其特征在于，所述方法包括：

确定目标药物分子以及目标蛋白质；

将所述目标药物分子以及所述目标蛋白质对应的目标结构信息转化为目标结构向量，所述目标结构信息包含所述目标药物分子的目标分子指纹以及所述目标蛋白质的目标描述符，所述目标结构向量包括所述目标分子指纹对应的分子指纹向量以及所述目标描述符对应的描述符向量；

基于所述目标药物标识、所述目标蛋白标识、所述知识图谱以及所述目标结构向量进行相互作用关系预测，得到关系预测结果，所述关系预测结果用于表征所述目标药物分子与所述目标蛋白质之间的相互作用关系。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标药物标识、所述目标蛋白标识、所述知识图谱以及所述目标结构向量进行相互作用关系预测，得到关系预测结果，包括：

对所述知识图谱中的三元组进行表征提取，得到知识图谱表征，所述三元组由第一实体、第二实体以及实体关系组成，所述知识图谱表征以向量的形式表征所述知识图谱中的节点和边；

将所述目标药物标识、所述目标蛋白标识、所述知识图谱表征以及所述目标结构向量输入关系预测模型，得到所述关系预测结果。

3.根据权利要求2所述的方法，其特征在于，所述关系预测模型包含嵌入层、特征交叉池化层、隐藏层和预测层；

所述将所述目标药物标识、所述目标蛋白标识、所述知识图谱表征以及所述目标结构向量输入关系预测模型，得到所述关系预测结果，包括：

将所述第一关系预测向量、所述知识图谱表征以及所述目标结构向量输入所述隐藏层进行向量更新，得到第二关系预测向量；

4.根据权利要求1至3任一所述的方法，其特征在于，所述确定目标药物分子以及目标蛋白质之后，所述方法还包括：

响应于所述知识图谱中不包含所述目标药物分子或所述目标蛋白质，获取补充信息，所述补充信息包含所述目标药物分子对应的药物靶标作用对以及组学信息，或所述目标蛋白质对应的药物靶标作用对以及组学信息；

基于所述补充信息更新所述知识图谱。

5.一种药物靶标关系预测方法，其特征在于，所述方法包括：

将样本药物分子以及样本蛋白质对应的样本结构信息转化为样本结构向量，所述样本结构信息包含所述样本药物分子的样本分子指纹，以及所述样本蛋白质的样本描述符，所述样本结构向量包括所述样本分子指纹对应的分子指纹向量以及所述样本描述符对应的描述符向量；

将所述知识图谱对应的知识图谱表征、样本药物标识、样本蛋白标识以及所述样本结构向量输入关系预测模型，得到样本预测结果，所述样本药物标识用于指示样本药物分子在知识图谱中对应的节点，所述样本蛋白标识用于指示样本蛋白质在所述知识图谱中对应的节点，所述样本预测结果为存在相互作用关系的药物靶标作用对；

6.根据权利要求5所述的方法，其特征在于，所述获取知识图谱之后，所述方法包括：

对所述知识图谱中的三元组进行表征提取，得到所述知识图谱表征，所述三元组由第一实体、第二实体以及实体关系组成，所述知识图谱表征以向量的形式表征所述知识图谱中的节点和边。

7.根据权利要求5或6所述的方法，其特征在于，所述获取知识图谱之前，所述方法还包括：

基于预测场景，确定至少两种训练测试集的划分方式，不同预测场景对应的划分方式不同；

按照所述划分方式对所述样本药物靶标作用对进行划分，得到各个预测场景对应的训练集和测试集；

所述基于所述样本预测结果以及样本关系标注训练所述关系预测模型，包括：

基于目标训练集的所述样本预测结果以及所述样本关系标注训练所述关系预测模型，所述目标训练集为当前预测场景对应的训练集；

所述方法还包括：

基于目标测试集的所述样本预测结果以及所述样本关系标注对所述关系预测模型进行测试，所述目标测试集为所述当前预测场景对应的测试集。

8.根据权利要求7所述的方法，其特征在于，所述按照所述划分方式对所述样本药物靶标作用对进行划分，得到各个预测场景对应的训练集和测试集，包括：

响应于所述预测场景为热启动场景，将所述样本药物靶标作用对划分为第一训练集和第一测试集，所述第一测试集中的样本药物分子和样本蛋白质属于所述第一训练集；

响应于所述预测场景为药物冷启动场景，将所述样本药物靶标作用对划分为第二训练集和第二测试集，所述第二测试集中的样本蛋白质属于所述第二训练集；

响应于所述预测场景为蛋白冷启动场景，将所述样本药物靶标作用对划分第三训练集和第三测试集，所述第三测试集中的样本药物分子属于所述第三训练集。

9.根据权利要求7所述的方法，其特征在于，所述按照所述划分方式对所述样本药物靶标作用对进行划分，得到各个预测场景对应的训练集和测试集，包括：

按照所述划分方式对所述样本药物靶标作用对进行划分，得到所述训练集和测试集中的正样本；

将所述正样本中的药物分子分别与蛋白质组成关系对，得到关系对集合；

按照正负样本比，从所述关系对集合中抽取候选关系对；

过滤所述候选关系对中的所述正样本以及重复项，得到所述训练集和所述测试集中的负样本。

10.一种药物靶标关系预测装置，其特征在于，所述装置包括：

第一确定模块，用于确定目标药物分子以及目标蛋白质；

第一预测模块，用于基于所述目标药物标识、所述目标蛋白标识、所述知识图谱以及所述目标结构向量进行相互作用关系预测，得到关系预测结果，所述关系预测结果用于表征所述目标药物分子与所述目标蛋白质之间的相互作用关系。

11.一种药物靶标关系预测装置，其特征在于，所述装置包括：

第二转化模块，用于将样本药物分子以及样本蛋白质对应的样本结构信息转化为样本结构向量，所述样本结构信息包含所述样本药物分子的样本分子指纹，以及所述样本蛋白质的样本描述符，所述样本结构向量包括所述样本分子指纹对应的分子指纹向量以及所述样本描述符对应的描述符向量；

第二预测模块，用于将所述知识图谱对应的知识图谱表征、样本药物标识、样本蛋白标识以及所述样本结构向量输入关系预测模型，得到样本预测结果，所述样本药物标识用于指示样本药物分子在知识图谱中对应的节点，所述样本蛋白标识用于指示样本蛋白质在所述知识图谱中对应的节点，所述样本预测结果为存在相互作用关系的药物靶标作用对；

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一所述的药物靶标关系预测方法，或权利要求5至9任一所述的药物靶标关系预测方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至4任一所述的药物靶标关系预测方法，或权利要求5至9任一所述的药物靶标关系预测方法。