CN113223655A

CN113223655A - 基于变分自编码器的药物-疾病关联预测方法

Info

Publication number: CN113223655A
Application number: CN202110496613.9A
Authority: CN
Inventors: 鱼亮; 陈生建
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-08-06
Anticipated expiration: 2041-05-07
Also published as: CN113223655B

Abstract

本发明提出了一种基于变分自编码器的药物‑疾病关联预测方法，主要解决现有技术预测药物‑疾病关联精度较低的问题，包括如下步骤：(1)构建药物‑疾病关联矩阵A和疾病‑药物关联矩阵B；(2)构建药物特征矩阵C和疾病特征矩阵D；(3)搭建基于变分自编码器的药物‑疾病关联预测模型H；(4)对基于变分自编码器的药物‑疾病关联预测模型H进行迭代训练；(5)获取药物‑疾病关联预测结果Y。本发明降低了噪音和数据缺失对预测结果的影响，充分提取了复杂数据的隐含信息，有效提高了药物‑疾病关联预测的精度，可用于药物重定位的药物候选。

Description

基于变分自编码器的药物-疾病关联预测方法

技术领域

本发明属于生物信息学技术领域，涉及一种药物-疾病关联预测方法，具体涉及一种基于变分自编码器的药物-疾病关联预测方法，可用在药物重定位中为现有药物的新治疗用途提供候选推荐。

背景技术

药物重定位目的是为了确定已有药物的新用途，相对于传统药物研究，大大降低了风险，节省了成本和时间，因此药物重定位受到广泛关注，2013年上市的84种药品中，现有药品的新适应症占了20％。近年来，各国非贸易组织、学术机构和政府对药物重定位方面的研究越来越重视，并对其提供了大量资金支持。例如，美国国家推进转化科学中心和英国医学研究理事会已经在药物重定位领域启动了多种大型的资助项目，目标是将已经经过医药工业重大研究和开发的药物分子扩展到更多的新的适应症。此外，美国食品和药物管理局FDA也创建了多个公共数据库专门为计算药物的重定位服务，这些数据为药物重定位提供了很多帮助。

药物-疾病相关性的鉴定可以为药物的发现和药物的重新定位提供重要的信息。因为手工调查是耗时的，随着高通量技术的发展和数据库的不断更新，提出了大量的计算方法。

在2016年，Luo等人在《Bioinformatics》上发表了论文“Drug repositioningbased on comprehensive similarity measures and Bi-Random walk algorithm”，公开了一种基于全面相似度测量和双向随机游走的药物-疾病关联预测方法MBIRW，该方法基于相似药物通常与相似疾病相关，反之亦然的假设，利用一些综合的相似度量和双向随机游走算法来识别给定药物的潜在新适应症。通过将药物或疾病特征信息与已知的药物-疾病关联信息相结合，建立了综合相似度量方法来计算药物和疾病的相似度。然后构建药物相似网络和疾病相似网络，并将它们整合到已知药物与疾病相互作用的异构网络中。基于药物-疾病异构网络，采用双向随机游走算法来预测新的潜在药物-疾病关联。

Luo等人于2018年在《Bioinformatics》上发表了论文“Computational DrugRepositioning using Low-Rank Matrix Approximation and Randomized Algorithms”，公开了一种使用低秩矩阵近似和随机算法的药物-疾病关联预测方法DRRS，该方法通过整合药物和疾病的相关数据信息来预测新的药物适应症。首先，通过整合药物-药物、疾病-疾病和药物-疾病网络，构建异质药物-疾病相互作用网络。异质网络用一个大的药物-疾病邻接矩阵来表示，其条目包括药物对、疾病对、已知的药物-疾病相互作用对和未知的药物-疾病对。然后，针对未知药物-疾病对，采用快速奇异值阈值SVT算法，利用预测的未知药物-疾病对得分来补全药物-疾病邻接矩阵。

然而，上述的算法是在默认无噪声环境下运行的，且对稀疏数据的处理能力不够好，即抗干扰能力较弱，同时上述的算法难以学习到复杂数据的深层次信息，无法充分提取复杂数据的的隐含信息。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种基于变分自编码器的药物-疾病关联预测方法，旨在解决现有技术预测药物-疾病关联精度较低的问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B：

(1a)从数据库中获取与M种药物S＝{S₁,S₂,...,S_m,...,S_M}存在关联的N种疾病T＝{T₁,T₂,...,T_n,...,T_N}的K条药物-疾病关联数据E＝{E₁,E₂,...,E_k,...,E_K}，每种药物S_m至少与一种疾病关联，且每种疾病T_n至少与一种药物关联，其中，K≥1000，M≥100，N≥200，S_m表示第m种药物，T_n表示第n种疾病，1≤m≤M，1≤n≤N，E_k表示第k条药物-疾病关联；

(1b)构建大小为M×N且第m行第n列元素A_mn的值为0或1的药物-疾病关联矩阵A，并对A进行转置，得到疾病-药物关联矩阵B，其中，A_mn的值为0时表示A_mn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中，A_mn的值为1时表示A_mn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中；

(2)构建药物特征矩阵C和疾病特征矩阵D：

(2a)从数据库中获取与M种药物S＝{S₁,S₂,...,S_m,...,S_M}存在关联的P种基因G＝{G₁,G₂,...,G_p,...,G_P}的Q条药物-基因关联数据R＝{R₁,R₂,...,R_q,...,R_Q}，每种药物S_m至少与一种基因关联，且每种基因G_p至少与一种药物关联；构建大小为M×P且第m行第p列元素C′_mp的值为0或1的药物-基因关联矩阵C′，其中，C′_mp的值为0时表示C′_mp对应的第m种药物和第p种基因的关联不在药物-基因关联数据R中，C′_mp的值为1时表示C′_mp对应的第m种药物和第p种基因的关联在药物-基因关联数据R中，P≥200，Q≥1000，1≤m≤M，1≤p≤P，G_p表示第p种基因，R_q表示第q条药物-基因关联；

(2b)从数据库中获取与N种疾病T＝{T₁,T₂,...,T_n,...,T_N}存在关联的O种基因G＝{G₁,G₂,...,G_o,...,G_O}的J条疾病-基因关联数据U＝{U₁,U₂,...,U_j,...,U_J}，每种疾病T_n至少与一种基因关联，且每种基因G_o至少与一种疾病关联；构建大小为N×O且第n行第o列元素D′_no的值为0或1的疾病-基因关联矩阵D′，其中，D′的值为0时表示D′_no对应的第n种疾病和第o种基因的关联不在疾病-基因关联数据U中，D′的值为1时表示D′_no对应的第n种疾病和第o种基因的关联在疾病-基因关联数据U中，O≥200，J≥1000，1≤n≤N，1≤o≤O，U_j表示第j条疾病-基因关联；

(2c)对大小为M×P的C′和大小为N×O的D′分别进行降维，得到大小为M×V的药物特征矩阵C和大小为N×W的疾病特征矩阵D，其中，C中的每一行为该行药物的特征，D中的每一行为该行疾病的特征，1≤V≤P，1≤W≤O；

(3)搭建基于变分自编码器的药物-疾病关联预测模型H：

(3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构：

构建包括并行排列的第一变分自编码器f¹和第二变分自编码器f²的药物-疾病关联预测模型H，其中，第一变分自编码器f¹采用包括顺次连接的第一编码器f_e ¹、第一隐变量层f_z ¹和第一解码器f_d ¹的神经网络，f_e ¹包括多个全连接层和一个均值方差层，f_z ¹的输出端连接有第一数据融合模块，f_d ¹包括多个全连接层和一个sigmoid激活函数输出层，f¹的权值参数为

；第二变分自编码器f²包括顺次连接的第二编码器f_e ²、第二隐变量层f_z ²和第二解码器f_d ²，f_e ²包括多个全连接层和一个均值方差层，f_z ²的输出端连接有第二数据融合模块，f_d ²包括多个全连接层和一个sigmoid激活函数输出层，f²的权值参数为

；

(3b)定义第一变分自编码器f¹的损失函数Loss1和第二变分自编码器f²的损失函数Loss2：

其中，x表示f¹的输入数据，

表示f¹的预测结果，

L_re表示f¹的重构损失，PO_x表示x中值为1的元素集合，PO_x＝{x_i|x_i＝1,1≤i≤N}，NP_x表示x中值为0的元素集合，NP_x＝{x_j|x_j＝0,1≤j≤N}，x_i和x_j分别表示x的第i个和第j个元素，β表示非正例损失衰减因子，非正例表示当前关联不在已知关联中，β∈[0,1]；

表示均值为μ_x方差为

的正态分布，N(0,1)表示标准正太分布，

表示

和N(0,1)的相对熵，

μ_x和δ_x分别表示f¹输入为x时f_e ¹的输出，α表示相对熵损失衰减因子，α∈[0,1]；y表示f²的输入数据，

表示f²的预测结果，

(4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练：

(4a)初始化迭代次数为i，最大迭代次数为I，I≥300，第i次迭代第一变分自编码器f¹的权值参数为

和第二变分自编码器f²的权值参数为

并令i＝0，

(4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f¹的输入，第一编码器f_e ¹对A进行逐行编码，第一隐变量层f_z ¹对f_e ¹编码的均值

和方差

所构成的正态分布

进行采样，第一数据融合模块对f_z ¹所采集的维度为V的隐变量

与药物特征C中对应行的药物c进行相加融合，第一解码器f_d ¹对第一数据融合模块的融合结果

进行解码，得到预测的药物-疾病关联矩阵

(4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f²的输入，第二编码器f_e ²对B进行逐行编码，第二隐变量层f_z ²对f_e ²编码的均值

和方差

所构成的正太分布

进行采样，第二数据融合模块对f_z ²所采集的维度为W的隐变量

与药物特征D中对应行的药物d进行相加融合，第二解码器f_d ²对第二数据融合模块的融合结果

进行解码，得到预测的疾病-药物关联矩阵

(4d)采用损失函数Loss1，并通过

A和

计算H中的第一变分自编码器f¹的损失值L1_i，同时采用损失函数Loss2并通过

B和

计算H中的第二变分自编码器f²的损失值L2_i；

(4e)采用反向传播方法，并通过L1_i计算f¹的参数梯度，然后采用梯度下降算法通过f¹的参数梯度对f¹的权值参数

进行更新；同时采用反向传播方法，并通过L2_i计算f²的参数梯度，然后采用梯度下降算法通过f²的参数梯度对f²的权值参数

进行更新；

(4f)判断i≥I是否成立，若是，得到训练好的药物-疾病关联预测模型H′，否则，令i＝i+1，并执行步骤(4b)；

(5)获取药物-疾病关联预测结果Y：

将药物-疾病关联矩阵A和药物特征C作为训练好的药物-疾病关联预测模型H′中的第一变分自编码器f¹的输入进行前向传播，得到f¹预测的药物-疾病关联集Y¹，同时将疾病-药物关联矩阵B和疾病特征D作为训练好的药物-疾病关联预测模型H′中的第二变分自编码器f²的输入进行前向传播，得到f²预测的药物-疾病关联集Y²，Y¹与Y²的交集Y＝Y¹∩Y²即为药物-疾病关联预测结果，其中∩表示交集。

本发明与现有技术相比，具有以下优点：

1.本发明所构建的基于变分自编码器的药物-疾病关联预测模型包括两个并行排列的变分自编码器和两个数据融合模块，在对该模型进行迭代训练以及获取药物-疾病关联结果的过程中，两个数据融合模块融合了与药物和疾病相关的多种信息，充分提取了复杂数据的隐含信息，与现有技术相比，有效提高了药物-疾病关联的预测精度。

2.本发明所构建的药物-疾病关联预测模型学习到的是数据的分布而非数据唯一的特征表示，这样可以降低噪音和数据的缺失对预测结果的影响，与现在技术相比，进一步提高了药物-疾病关联的预测精度。

附图说明

图1是本发明的实现流程图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述，以下结合附图和具体实施例，对本发明作进一步详细描述，需要说明的是，本发明不属于专利法第25条规定的不授予专利权的客体，同时也符合专利法第二条第二款的规定：

参照图1，本实例包括如下步骤：

步骤1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B：

步骤1a)从数据库中获取与M种药物S＝{S₁,S₂,...,S_m,...,S_M}存在关联的N种疾病T＝{T₁,T₂,...,T_n,...,T_N}的K条药物-疾病关联数据E＝{E₁,E₂,...,E_k,...,E_K}，每种药物S_m至少与一种疾病关联，且每种疾病T_n至少与一种药物关联，本实例中，K＝2352，M＝663，N＝409，S_m表示第m种药物，T_n表示第n种疾病，1≤m≤M，1≤n≤N，E_k表示第k条药物-疾病关联；

步骤1b)构建大小为M×N且第m行第n列元素A_mn的值为0或1的药物-疾病关联矩阵A，并对A进行转置，得到疾病-药物关联矩阵B，其中，A_mn的值为0时表示A_mn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中，A_mn的值为1时表示A_mn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中。

步骤2)构建药物特征矩阵C和疾病特征矩阵D：

本实例的药物特征矩阵C和疾病特征矩阵C是基于药物相似性矩阵C′和疾病相似性矩阵D′来得到；药物相似性矩阵C′和疾病相似性矩阵D′是直接从Luo等人于2016年在《Bioinformatics》上发表的论文“Drug repositioning based on comprehensivesimilarity measures and Bi-Random walk algorithm”中得到的，C′的大小是663×663，D′的大小是409×409，本实例用主成分分析分别把C′和D′降维到大小为663×10和409×10；降维采用主成分分析方法，实现步骤为：

步骤2a)对大小为663×663的药物相似性矩阵C′中每一列都减去该列的均值，同时对大小为409×409的疾病相似性矩阵D′中每一列都减去该列的均值，得到数据中心化后的药物相似性矩阵C′₁和疾病相似性矩阵D′₁；

步骤2b)分别求C′₁和D′₁的各列之间的协方差，得到大小为663×663的协方差矩阵

和大小为409×409的协方差矩阵

步骤2c)对

和

分别进行特征值分解，得到

的663个特征值和663个特征向量以及

的409个特征值和409个特征向量；

步骤2d)按照由大到小的顺序对

的663个特征值进行排列，并选取前10个特征值，然后将

的663个特征向量中与这10个特征值对应的特征向量分别作为列向量，组成特征向量矩阵

与C′₁的积即为大小为663×10的药物特征矩阵C，同时按照由大到小的顺序对

的409个特征值进行排列，并选取前10个特征值，然后将

的409个特征向量中与这10个特征值对应的特征向量分别作为列向量，组成特征向量矩阵

与D′₁的积即为大小为409×10的疾病特征矩阵D。

步骤3)搭建基于变分自编码器的药物-疾病关联预测模型H：

步骤3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构：

构建包括并行排列的第一变分自编码器f¹和第二变分自编码器f²，以及第一数据融合模块和第二数据融合模块的药物-疾病关联预测模型H，其中，第一变分自编码器f¹包括顺次连接的第一编码器f_e ¹、第一隐变量层f_z ¹和第一解码器f_d ¹，f_e ¹包括多个全连接层和一个均值方差层，f_d ¹包括多个全连接层和一个sigmoid激活函数输出层，f¹的权值参数为

第二变分自编码器f²包括顺次连接的第二编码器f_e ²、第二隐变量层f_z ²和第二解码器f_d ²，f_e ²包括多个全连接层和一个均值方差层，f_d ²包括多个全连接层和一个sigmoid激活函数输出层，f²的权值参数为

第一数据融合模块的输出与f_z ¹的输出相连，第二数据融合模块的输出与f_z ²的输出相连；

所述的第一编码器f_e ¹包括一个全连接层和一个均值方差层，全连接层的输入维度是663，输出维度是50，均值方差层分为并行的两部分，一部分将前层的输出作为输入，连接一个全连接层，输出作为均值，该部分的输入和输出维度分别为50和10，另一部分为也是将前层的输出作为输入，连接另一个全连接层，输出作为方差，该部分的输入和输出维度分别为50和10；第二编码器f_e ²包括一个全连接层和一个均值方差层，全连接层的输入维度是409，输出维度是50，均值方差层分为并行的两部分，一部分将前层的输出作为输入，连接一个全连接层，输出作为均值，该部分的输入和输出维度分别为50和10，另一部分为也是将前层的输出作为输入，连接另一个全连接层，输出作为方差，该部分的输入和输出维度分别为50和10；

所述的第一解码器f_d ¹包括一个全连接层和一个sigmoid激活函数输出层，全连接层的输入维度是10，输出维度是50，sigmoid激活函数输出层的输入维度是50，输出维度是663；第二解码器f_d ²包括一个全连接层和一个sigmoid激活函数输出层，全连接层的输入维度是10，输出维度是50，sigmoid激活函数输出层的输入维度是50，输出维度是409；

本发明所构建的基于变分自编码器的药物-疾病关联预测模型包括两个并行排列的变分自编码器和两个数据融合模块，在对该模型进行迭代训练以及获取药物-疾病关联结果的过程中，两个数据融合模块融合了与药物和疾病相关的多种信息，充分的提取了复杂数据中的隐含信息，同时本发明所构建的药物-疾病关联预测模型学习到的是数据的分布而非数据唯一的特征表示，这样可以降低噪音和数据的缺失对预测结果的影响。

步骤3b)定义第一变分自编码器f¹的损失函数Loss1和第二变分自编码器f²的损失函数Loss2：

其中，x表示f¹的输入数据，

表示f¹的预测结果，

L_re表示f¹的重构损失，P表示x中值为1的元素集合，P＝{x_i|x_i＝1,1≤i≤N}，NP表示x中值为0的元素集合，NP＝{x_j|x_j＝0,1≤j≤N}，x_i和x_j分别表示x的第i个和第j个元素，β表示非正例损失衰减因子，非正例表示当前关联不在已知关联中，β∈[0,1]；

表示均值为μ_x方差为

的正态分布，N(0,1)表示标准正太分布，

表示

和N(0,1)的相对熵，

表示f²的预测结果，

步骤4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练：

步骤4a)初始化迭代次数为i，最大迭代次数为I，I＝350，第i次迭代第一变分自编码器f¹的权值参数为

和第二变分自编码器f²的权值参数为

并令i＝0，

步骤4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f¹的输入，第一编码器f_e ¹对A进行逐行编码，第一隐变量层f_z ¹对f_e ¹编码的均值

和方差

所构成的正态分布

进行采样，第一数据融合模块对f_z ¹所采集的维度为10的隐变量

进行解码，得到预测的药物-疾病关联矩阵

所述的第一编码器f_e ¹对A进行逐行编码在本实例中，是每次选取8个药物进行编码，即最小批次minibatch＝8；所述的对正态分布

进行采样，实例中并不是直接在

中采样一个

因为无法反向传播计算采样的梯度，这将导致模型无法训练，所以采取的解决办法是先在标准正太分布N(0,1)中采样得到ε₁，然后通过公式

计算得到

步骤4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f²的输入，第二编码器f_e ²对B进行逐行编码，第二隐变量层f_z ²对f_e ²编码的均值

和方差

所构成的正太分布

进行采样，第二数据融合模块对f_z ²所采集的维度为10的隐变量

进行解码，得到预测的疾病-药物关联矩阵

所述的第二编码器f_e ²对B进行逐行编码在本实例中，是每次选取8个疾病进行编码，即最小批次minibatch＝8；所述的对正态分布

进行采样，实例中并不是直接在

中采样一个

因为无法反向传播计算采样的梯度，这将导致模型无法训练，所以采取的解决办法是先在标准正太分布N(0,1)中采样得到ε₂，然后通过公式

计算得到

步骤4d)采用损失函数Loss1，并通过

A和

B和

计算H中的第二变分自编码器f²的损失值L2_i；

步骤4e)采用反向传播方法，并通过L1_i计算f¹的参数梯度，然后采用梯度下降算法通过f¹的参数梯度对f¹的权值参数

进行更新；

和

的更新公式为：

其中：

和

分别表示f¹和f²更新后的权值参数，

和

分别表示f¹和f²更新前的权值参数，

和

分别表示f¹和f²的学习步长，

和

分别表示f¹和f²的权值参数梯度。

步骤4f)判断i≥I是否成立，若是，得到训练好的药物-疾病关联预测模型H′，否则，令i＝i+1，并执行步骤(4b)。

步骤5)获取药物-疾病关联预测结果Y：

对第一变分自编码器f¹和第二变分自编码器f²的预测结果Y¹和Y²取交集，可以有效降低Y中药物-疾病关联的假阳性比例。

以下通过仿真实验对本发明的技术效果作进一步说明：

1.仿真条件和内容：

仿真实验在Intel(R)Core(TM)i5-7300HQ CPU、主频2.50GHz，内存8G，Pycharm平台上的Python 3.6.5结合tensorflow1.0进行，所使用的数据集是Luo等人于2016年在《Bioinformatics》上发表的论文“Drug repositioning based on comprehensivesimilarity measures and Bi-Random walk algorithm”中提出的Cdatasets数据集。

对本发明的预测精度进行仿真，并结合对比文件中所给出的预测精度进行对比，其结果如表1所示，表1中的现有技术1为Luo等人于2016年在《Bioinformatics》上发表的论文“Drug repositioning based on comprehensive similarity measures and Bi-Random walk algorithm”提出了一种基于全面相似度测量和双向随机游走的药物重定位方法MBIRW，表1中的现有技术2为Luo等人于2018年在《Bioinformatics》上发表的论文“Computational Drug Repositioning using Low-Rank Matrix Approximation andRandomized Algorithms”提出了一种使用低秩矩阵近似和随机算法的药物重定位方法DRRS。

2.仿真结果分析：

表征药物-疾病关联预测精度采用的评价指标包括AUC和AUPR。

(1)AUC(Area under curve)是ROC曲线(receiver operating characteristiccurve)下的面积，ROC曲线的横坐标是假正类率FPR(False Positive Rate)，纵坐标是真正类率TPR(True Positive Rate)，FPR＝FP/(TN+FP)，TPR＝TP/(TP+FN)，其中，FP表示实际是负例但模型错误预测为正例的样本数，TN表示实际是负例且模型正确预测为负例的样本数，TP表示实际是正例且模型正确预测为正例的样本数，FN表示实际是正例但模型错误预测为负例的样本数。

(2)AUPR(Area Under Precision-Recall Curve)是PR曲线(Precision-RecallCurve)下的面积，PR曲线的纵坐标轴是查准率(Precision)，PR曲线的横坐标轴是查全率(Recall)，Precision＝TP/(TP+FP)，Recall＝TP/(TP+FN)。

本发明与两种现有技术在Cdatasets数据集上的AUC值和AUPR值的对比结果如表1所示。

表1现有技术与本发明在预测精度上的对比结果

结合表可以看出，本发明在AUC值和AUPR值这两个指标上均高于现有技术，证明本发明方法有效的提高了药物-疾病关联预测的精度。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于变分自编码器的药物-疾病关联预测方法，其特征在于，包括如下：

(1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B：

(2)构建药物特征矩阵C和疾病特征矩阵D：

(3)搭建基于变分自编码器的药物-疾病关联预测模型H：

(3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构：

第二变分自编码器f²包括顺次连接的第二编码器f_e ²、第二隐变量层f_z ²和第二解码器f_d ²，f_e ²包括多个全连接层和一个均值方差层，f_z ²的输出端连接有第二数据融合模块，f_d ²包括多个全连接层和一个sigmoid激活函数输出层，f²的权值参数为

其中，x表示f¹的输入数据，

表示f¹的预测结果，

表示均值为μ_x方差为

的正态分布，N(0,1)表示标准正太分布，

表示

和N(0,1)的相对熵，

表示f²的预测结果，

和第二变分自编码器f²的权值参数为

并令i＝0，

(4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f¹的输入，第一编码器f_e ¹对A进行逐行编码，第一隐变量层f_z ¹对f_e ¹编码的均值μ_{f1_i}和方差

所构成的正态分布

进行解码，得到预测的药物-疾病关联矩阵

和方差

所构成的正太分布

进行解码，得到预测的疾病-药物关联矩阵

(4d)采用损失函数Loss1，并通过

A和

B和

计算H中的第二变分自编码器f²的损失值L2_i；

进行更新；

(5)获取药物-疾病关联预测结果Y：

2.根据权利要求1中所述的基于变分自编码器的药物-疾病关联预测方法，其特征在于，步骤(2c)所述的对大小为M×P的C′和大小为N×O的D′分别进行降维，采用主成分分析方法，实现步骤为：

(2c1)对大小为M×P的药物-基因关联矩阵C′中每一列都减去该列的均值，同时对大小为N×O的疾病-基因关联矩阵D′中每一列都减去该列的均值，得到数据中心化后的药物-基因关联矩阵C′₁和疾病-基因关联矩阵D′₁；

(2c2)分别求C′₁和D′₁的各列之间的协方差，得到大小为P×P的协方差矩阵

和大小为O×O的协方差矩阵

(2c3)对

和

分别进行特征值分解，得到

的P个特征值和P个特征向量以及

的O个特征值和O个特征向量；

(2c4)按照由大到小的顺序对

的P个特征值进行排列，并选取前V个特征值，然后将

的P个特征向量中与这V个特征值对应的特征向量分别作为列向量，组成特征向量矩阵

与C₁′的积即为大小为M×V的药物特征矩阵C，同时按照由大到小的顺序对

的O个特征值进行排列，并选取前W个特征值，然后将

的O个特征向量中与这W个特征值对应的特征向量分别作为列向量，组成特征向量矩阵

与D′₁的积即为大小为M×W的疾病特征矩阵D。

3.根据权利要求1中所述的基于变分自编码器的药物-疾病关联预测方法，其特征在于，步骤(3a)所述的搭建基于变分自编码器的药物-疾病关联预测模型H结构，其中，第一编码器f_e ¹中的均值方差层包括权值参数不同且并行排布的两个全连接层，这两个全连接层的输出分别作为均值和方差；第二编码器f_e ²中的均值方差层包括权值参数不同且并行排布的两个全连接层，这两个全连接层的输出分别作为均值和方差。

4.根据权利要求1中所述的基于变分自编码器的药物-疾病关联预测方法，其特征在于，步骤(4e)中所述的采用梯度下降算法通过f¹的参数梯度对f¹的权值参数