CN113223655A - 基于变分自编码器的药物-疾病关联预测方法 - Google Patents
基于变分自编码器的药物-疾病关联预测方法 Download PDFInfo
- Publication number
- CN113223655A CN113223655A CN202110496613.9A CN202110496613A CN113223655A CN 113223655 A CN113223655 A CN 113223655A CN 202110496613 A CN202110496613 A CN 202110496613A CN 113223655 A CN113223655 A CN 113223655A
- Authority
- CN
- China
- Prior art keywords
- drug
- disease
- encoder
- association
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Bioethics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Medicinal Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提出了一种基于变分自编码器的药物‑疾病关联预测方法,主要解决现有技术预测药物‑疾病关联精度较低的问题,包括如下步骤:(1)构建药物‑疾病关联矩阵A和疾病‑药物关联矩阵B;(2)构建药物特征矩阵C和疾病特征矩阵D;(3)搭建基于变分自编码器的药物‑疾病关联预测模型H;(4)对基于变分自编码器的药物‑疾病关联预测模型H进行迭代训练;(5)获取药物‑疾病关联预测结果Y。本发明降低了噪音和数据缺失对预测结果的影响,充分提取了复杂数据的隐含信息,有效提高了药物‑疾病关联预测的精度,可用于药物重定位的药物候选。
Description
技术领域
本发明属于生物信息学技术领域,涉及一种药物-疾病关联预测方法,具体涉及一种基于变分自编码器的药物-疾病关联预测方法,可用在药物重定位中为现有药物的新治疗用途提供候选推荐。
背景技术
药物重定位目的是为了确定已有药物的新用途,相对于传统药物研究,大大降低了风险,节省了成本和时间,因此药物重定位受到广泛关注,2013年上市的84种药品中,现有药品的新适应症占了20%。近年来,各国非贸易组织、学术机构和政府对药物重定位方面的研究越来越重视,并对其提供了大量资金支持。例如,美国国家推进转化科学中心和英国医学研究理事会已经在药物重定位领域启动了多种大型的资助项目,目标是将已经经过医药工业重大研究和开发的药物分子扩展到更多的新的适应症。此外,美国食品和药物管理局FDA也创建了多个公共数据库专门为计算药物的重定位服务,这些数据为药物重定位提供了很多帮助。
药物-疾病相关性的鉴定可以为药物的发现和药物的重新定位提供重要的信息。因为手工调查是耗时的,随着高通量技术的发展和数据库的不断更新,提出了大量的计算方法。
在2016年,Luo等人在《Bioinformatics》上发表了论文“Drug repositioningbased on comprehensive similarity measures and Bi-Random walk algorithm”,公开了一种基于全面相似度测量和双向随机游走的药物-疾病关联预测方法MBIRW,该方法基于相似药物通常与相似疾病相关,反之亦然的假设,利用一些综合的相似度量和双向随机游走算法来识别给定药物的潜在新适应症。通过将药物或疾病特征信息与已知的药物-疾病关联信息相结合,建立了综合相似度量方法来计算药物和疾病的相似度。然后构建药物相似网络和疾病相似网络,并将它们整合到已知药物与疾病相互作用的异构网络中。基于药物-疾病异构网络,采用双向随机游走算法来预测新的潜在药物-疾病关联。
Luo等人于2018年在《Bioinformatics》上发表了论文“Computational DrugRepositioning using Low-Rank Matrix Approximation and Randomized Algorithms”,公开了一种使用低秩矩阵近似和随机算法的药物-疾病关联预测方法DRRS,该方法通过整合药物和疾病的相关数据信息来预测新的药物适应症。首先,通过整合药物-药物、疾病-疾病和药物-疾病网络,构建异质药物-疾病相互作用网络。异质网络用一个大的药物-疾病邻接矩阵来表示,其条目包括药物对、疾病对、已知的药物-疾病相互作用对和未知的药物-疾病对。然后,针对未知药物-疾病对,采用快速奇异值阈值SVT算法,利用预测的未知药物-疾病对得分来补全药物-疾病邻接矩阵。
然而,上述的算法是在默认无噪声环境下运行的,且对稀疏数据的处理能力不够好,即抗干扰能力较弱,同时上述的算法难以学习到复杂数据的深层次信息,无法充分提取复杂数据的的隐含信息。
发明内容
本发明的目的在于针对上述现有技术的不足,提出了一种基于变分自编码器的药物-疾病关联预测方法,旨在解决现有技术预测药物-疾病关联精度较低的问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B:
(1a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的N种疾病T={T1,T2,...,Tn,...,TN}的K条药物-疾病关联数据E={E1,E2,...,Ek,...,EK},每种药物Sm至少与一种疾病关联,且每种疾病Tn至少与一种药物关联,其中,K≥1000,M≥100,N≥200,Sm表示第m种药物,Tn表示第n种疾病,1≤m≤M,1≤n≤N,Ek表示第k条药物-疾病关联;
(1b)构建大小为M×N且第m行第n列元素Amn的值为0或1的药物-疾病关联矩阵A,并对A进行转置,得到疾病-药物关联矩阵B,其中,Amn的值为0时表示Amn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中,Amn的值为1时表示Amn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中;
(2)构建药物特征矩阵C和疾病特征矩阵D:
(2a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的P种基因G={G1,G2,...,Gp,...,GP}的Q条药物-基因关联数据R={R1,R2,...,Rq,...,RQ},每种药物Sm至少与一种基因关联,且每种基因Gp至少与一种药物关联;构建大小为M×P且第m行第p列元素C′mp的值为0或1的药物-基因关联矩阵C′,其中,C′mp的值为0时表示C′mp对应的第m种药物和第p种基因的关联不在药物-基因关联数据R中,C′mp的值为1时表示C′mp对应的第m种药物和第p种基因的关联在药物-基因关联数据R中,P≥200,Q≥1000,1≤m≤M,1≤p≤P,Gp表示第p种基因,Rq表示第q条药物-基因关联;
(2b)从数据库中获取与N种疾病T={T1,T2,...,Tn,...,TN}存在关联的O种基因G={G1,G2,...,Go,...,GO}的J条疾病-基因关联数据U={U1,U2,...,Uj,...,UJ},每种疾病Tn至少与一种基因关联,且每种基因Go至少与一种疾病关联;构建大小为N×O且第n行第o列元素D′no的值为0或1的疾病-基因关联矩阵D′,其中,D′的值为0时表示D′no对应的第n种疾病和第o种基因的关联不在疾病-基因关联数据U中,D′的值为1时表示D′no对应的第n种疾病和第o种基因的关联在疾病-基因关联数据U中,O≥200,J≥1000,1≤n≤N,1≤o≤O,Uj表示第j条疾病-基因关联;
(2c)对大小为M×P的C′和大小为N×O的D′分别进行降维,得到大小为M×V的药物特征矩阵C和大小为N×W的疾病特征矩阵D,其中,C中的每一行为该行药物的特征,D中的每一行为该行疾病的特征,1≤V≤P,1≤W≤O;
(3)搭建基于变分自编码器的药物-疾病关联预测模型H:
(3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构:
构建包括并行排列的第一变分自编码器f1和第二变分自编码器f2的药物-疾病关联预测模型H,其中,第一变分自编码器f1采用包括顺次连接的第一编码器fe 1、第一隐变量层fz 1和第一解码器fd 1的神经网络,fe 1包括多个全连接层和一个均值方差层,fz 1的输出端连接有第一数据融合模块,fd 1包括多个全连接层和一个sigmoid激活函数输出层,f1的权值参数为;第二变分自编码器f2包括顺次连接的第二编码器fe 2、第二隐变量层fz 2和第二解码器fd 2,fe 2包括多个全连接层和一个均值方差层,fz 2的输出端连接有第二数据融合模块,fd 2包括多个全连接层和一个sigmoid激活函数输出层,f2的权值参数为;
(3b)定义第一变分自编码器f1的损失函数Loss1和第二变分自编码器f2的损失函数Loss2:
其中,x表示f1的输入数据,表示f1的预测结果,Lre表示f1的重构损失,POx表示x中值为1的元素集合,POx={xi|xi=1,1≤i≤N},NPx表示x中值为0的元素集合,NPx={xj|xj=0,1≤j≤N},xi和xj分别表示x的第i个和第j个元素,β表示非正例损失衰减因子,非正例表示当前关联不在已知关联中,β∈[0,1];表示均值为μx方差为的正态分布,N(0,1)表示标准正太分布,表示和N(0,1)的相对熵,μx和δx分别表示f1输入为x时fe 1的输出,α表示相对熵损失衰减因子,α∈[0,1];y表示f2的输入数据,表示f2的预测结果,
(4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练:
(4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f1的输入,第一编码器fe 1对A进行逐行编码,第一隐变量层fz 1对fe 1编码的均值和方差所构成的正态分布进行采样,第一数据融合模块对fz 1所采集的维度为V的隐变量与药物特征C中对应行的药物c进行相加融合,第一解码器fd 1对第一数据融合模块的融合结果进行解码,得到预测的药物-疾病关联矩阵
(4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f2的输入,第二编码器fe 2对B进行逐行编码,第二隐变量层fz 2对fe 2编码的均值和方差所构成的正太分布进行采样,第二数据融合模块对fz 2所采集的维度为W的隐变量与药物特征D中对应行的药物d进行相加融合,第二解码器fd 2对第二数据融合模块的融合结果进行解码,得到预测的疾病-药物关联矩阵
(4e)采用反向传播方法,并通过L1i计算f1的参数梯度,然后采用梯度下降算法通过f1的参数梯度对f1的权值参数进行更新;同时采用反向传播方法,并通过L2i计算f2的参数梯度,然后采用梯度下降算法通过f2的参数梯度对f2的权值参数进行更新;
(4f)判断i≥I是否成立,若是,得到训练好的药物-疾病关联预测模型H′,否则,令i=i+1,并执行步骤(4b);
(5)获取药物-疾病关联预测结果Y:
将药物-疾病关联矩阵A和药物特征C作为训练好的药物-疾病关联预测模型H′中的第一变分自编码器f1的输入进行前向传播,得到f1预测的药物-疾病关联集Y1,同时将疾病-药物关联矩阵B和疾病特征D作为训练好的药物-疾病关联预测模型H′中的第二变分自编码器f2的输入进行前向传播,得到f2预测的药物-疾病关联集Y2,Y1与Y2的交集Y=Y1∩Y2即为药物-疾病关联预测结果,其中∩表示交集。
本发明与现有技术相比,具有以下优点:
1.本发明所构建的基于变分自编码器的药物-疾病关联预测模型包括两个并行排列的变分自编码器和两个数据融合模块,在对该模型进行迭代训练以及获取药物-疾病关联结果的过程中,两个数据融合模块融合了与药物和疾病相关的多种信息,充分提取了复杂数据的隐含信息,与现有技术相比,有效提高了药物-疾病关联的预测精度。
2.本发明所构建的药物-疾病关联预测模型学习到的是数据的分布而非数据唯一的特征表示,这样可以降低噪音和数据的缺失对预测结果的影响,与现在技术相比,进一步提高了药物-疾病关联的预测精度。
附图说明
图1是本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述,以下结合附图和具体实施例,对本发明作进一步详细描述,需要说明的是,本发明不属于专利法第25条规定的不授予专利权的客体,同时也符合专利法第二条第二款的规定:
参照图1,本实例包括如下步骤:
步骤1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B:
步骤1a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的N种疾病T={T1,T2,...,Tn,...,TN}的K条药物-疾病关联数据E={E1,E2,...,Ek,...,EK},每种药物Sm至少与一种疾病关联,且每种疾病Tn至少与一种药物关联,本实例中,K=2352,M=663,N=409,Sm表示第m种药物,Tn表示第n种疾病,1≤m≤M,1≤n≤N,Ek表示第k条药物-疾病关联;
步骤1b)构建大小为M×N且第m行第n列元素Amn的值为0或1的药物-疾病关联矩阵A,并对A进行转置,得到疾病-药物关联矩阵B,其中,Amn的值为0时表示Amn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中,Amn的值为1时表示Amn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中。
步骤2)构建药物特征矩阵C和疾病特征矩阵D:
本实例的药物特征矩阵C和疾病特征矩阵C是基于药物相似性矩阵C′和疾病相似性矩阵D′来得到;药物相似性矩阵C′和疾病相似性矩阵D′是直接从Luo等人于2016年在《Bioinformatics》上发表的论文“Drug repositioning based on comprehensivesimilarity measures and Bi-Random walk algorithm”中得到的,C′的大小是663×663,D′的大小是409×409,本实例用主成分分析分别把C′和D′降维到大小为663×10和409×10;降维采用主成分分析方法,实现步骤为:
步骤2a)对大小为663×663的药物相似性矩阵C′中每一列都减去该列的均值,同时对大小为409×409的疾病相似性矩阵D′中每一列都减去该列的均值,得到数据中心化后的药物相似性矩阵C′1和疾病相似性矩阵D′1;
步骤2d)按照由大到小的顺序对的663个特征值进行排列,并选取前10个特征值,然后将的663个特征向量中与这10个特征值对应的特征向量分别作为列向量,组成特征向量矩阵 与C′1的积即为大小为663×10的药物特征矩阵C,同时按照由大到小的顺序对的409个特征值进行排列,并选取前10个特征值,然后将的409个特征向量中与这10个特征值对应的特征向量分别作为列向量,组成特征向量矩阵 与D′1的积即为大小为409×10的疾病特征矩阵D。
步骤3)搭建基于变分自编码器的药物-疾病关联预测模型H:
步骤3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构:
构建包括并行排列的第一变分自编码器f1和第二变分自编码器f2,以及第一数据融合模块和第二数据融合模块的药物-疾病关联预测模型H,其中,第一变分自编码器f1包括顺次连接的第一编码器fe 1、第一隐变量层fz 1和第一解码器fd 1,fe 1包括多个全连接层和一个均值方差层,fd 1包括多个全连接层和一个sigmoid激活函数输出层,f1的权值参数为第二变分自编码器f2包括顺次连接的第二编码器fe 2、第二隐变量层fz 2和第二解码器fd 2,fe 2包括多个全连接层和一个均值方差层,fd 2包括多个全连接层和一个sigmoid激活函数输出层,f2的权值参数为第一数据融合模块的输出与fz 1的输出相连,第二数据融合模块的输出与fz 2的输出相连;
所述的第一编码器fe 1包括一个全连接层和一个均值方差层,全连接层的输入维度是663,输出维度是50,均值方差层分为并行的两部分,一部分将前层的输出作为输入,连接一个全连接层,输出作为均值,该部分的输入和输出维度分别为50和10,另一部分为也是将前层的输出作为输入,连接另一个全连接层,输出作为方差,该部分的输入和输出维度分别为50和10;第二编码器fe 2包括一个全连接层和一个均值方差层,全连接层的输入维度是409,输出维度是50,均值方差层分为并行的两部分,一部分将前层的输出作为输入,连接一个全连接层,输出作为均值,该部分的输入和输出维度分别为50和10,另一部分为也是将前层的输出作为输入,连接另一个全连接层,输出作为方差,该部分的输入和输出维度分别为50和10;
所述的第一解码器fd 1包括一个全连接层和一个sigmoid激活函数输出层,全连接层的输入维度是10,输出维度是50,sigmoid激活函数输出层的输入维度是50,输出维度是663;第二解码器fd 2包括一个全连接层和一个sigmoid激活函数输出层,全连接层的输入维度是10,输出维度是50,sigmoid激活函数输出层的输入维度是50,输出维度是409;
本发明所构建的基于变分自编码器的药物-疾病关联预测模型包括两个并行排列的变分自编码器和两个数据融合模块,在对该模型进行迭代训练以及获取药物-疾病关联结果的过程中,两个数据融合模块融合了与药物和疾病相关的多种信息,充分的提取了复杂数据中的隐含信息,同时本发明所构建的药物-疾病关联预测模型学习到的是数据的分布而非数据唯一的特征表示,这样可以降低噪音和数据的缺失对预测结果的影响。
步骤3b)定义第一变分自编码器f1的损失函数Loss1和第二变分自编码器f2的损失函数Loss2:
其中,x表示f1的输入数据,表示f1的预测结果,Lre表示f1的重构损失,P表示x中值为1的元素集合,P={xi|xi=1,1≤i≤N},NP表示x中值为0的元素集合,NP={xj|xj=0,1≤j≤N},xi和xj分别表示x的第i个和第j个元素,β表示非正例损失衰减因子,非正例表示当前关联不在已知关联中,β∈[0,1];表示均值为μx方差为的正态分布,N(0,1)表示标准正太分布,表示和N(0,1)的相对熵,μx和δx分别表示f1输入为x时fe 1的输出,α表示相对熵损失衰减因子,α∈[0,1];y表示f2的输入数据,表示f2的预测结果,
步骤4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练:
步骤4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f1的输入,第一编码器fe 1对A进行逐行编码,第一隐变量层fz 1对fe 1编码的均值和方差所构成的正态分布进行采样,第一数据融合模块对fz 1所采集的维度为10的隐变量与药物特征C中对应行的药物c进行相加融合,第一解码器fd 1对第一数据融合模块的融合结果进行解码,得到预测的药物-疾病关联矩阵
所述的第一编码器fe 1对A进行逐行编码在本实例中,是每次选取8个药物进行编码,即最小批次minibatch=8;所述的对正态分布进行采样,实例中并不是直接在中采样一个因为无法反向传播计算采样的梯度,这将导致模型无法训练,所以采取的解决办法是先在标准正太分布N(0,1)中采样得到ε1,然后通过公式计算得到
步骤4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f2的输入,第二编码器fe 2对B进行逐行编码,第二隐变量层fz 2对fe 2编码的均值和方差所构成的正太分布进行采样,第二数据融合模块对fz 2所采集的维度为10的隐变量与药物特征D中对应行的药物d进行相加融合,第二解码器fd 2对第二数据融合模块的融合结果进行解码,得到预测的疾病-药物关联矩阵
所述的第二编码器fe 2对B进行逐行编码在本实例中,是每次选取8个疾病进行编码,即最小批次minibatch=8;所述的对正态分布进行采样,实例中并不是直接在中采样一个因为无法反向传播计算采样的梯度,这将导致模型无法训练,所以采取的解决办法是先在标准正太分布N(0,1)中采样得到ε2,然后通过公式计算得到
步骤4e)采用反向传播方法,并通过L1i计算f1的参数梯度,然后采用梯度下降算法通过f1的参数梯度对f1的权值参数进行更新;同时采用反向传播方法,并通过L2i计算f2的参数梯度,然后采用梯度下降算法通过f2的参数梯度对f2的权值参数进行更新;和的更新公式为:
步骤4f)判断i≥I是否成立,若是,得到训练好的药物-疾病关联预测模型H′,否则,令i=i+1,并执行步骤(4b)。
步骤5)获取药物-疾病关联预测结果Y:
将药物-疾病关联矩阵A和药物特征C作为训练好的药物-疾病关联预测模型H′中的第一变分自编码器f1的输入进行前向传播,得到f1预测的药物-疾病关联集Y1,同时将疾病-药物关联矩阵B和疾病特征D作为训练好的药物-疾病关联预测模型H′中的第二变分自编码器f2的输入进行前向传播,得到f2预测的药物-疾病关联集Y2,Y1与Y2的交集Y=Y1∩Y2即为药物-疾病关联预测结果,其中∩表示交集。
对第一变分自编码器f1和第二变分自编码器f2的预测结果Y1和Y2取交集,可以有效降低Y中药物-疾病关联的假阳性比例。
以下通过仿真实验对本发明的技术效果作进一步说明:
1.仿真条件和内容:
仿真实验在Intel(R)Core(TM)i5-7300HQ CPU、主频2.50GHz,内存8G,Pycharm平台上的Python 3.6.5结合tensorflow1.0进行,所使用的数据集是Luo等人于2016年在《Bioinformatics》上发表的论文“Drug repositioning based on comprehensivesimilarity measures and Bi-Random walk algorithm”中提出的Cdatasets数据集。
对本发明的预测精度进行仿真,并结合对比文件中所给出的预测精度进行对比,其结果如表1所示,表1中的现有技术1为Luo等人于2016年在《Bioinformatics》上发表的论文“Drug repositioning based on comprehensive similarity measures and Bi-Random walk algorithm”提出了一种基于全面相似度测量和双向随机游走的药物重定位方法MBIRW,表1中的现有技术2为Luo等人于2018年在《Bioinformatics》上发表的论文“Computational Drug Repositioning using Low-Rank Matrix Approximation andRandomized Algorithms”提出了一种使用低秩矩阵近似和随机算法的药物重定位方法DRRS。
2.仿真结果分析:
表征药物-疾病关联预测精度采用的评价指标包括AUC和AUPR。
(1)AUC(Area under curve)是ROC曲线(receiver operating characteristiccurve)下的面积,ROC曲线的横坐标是假正类率FPR(False Positive Rate),纵坐标是真正类率TPR(True Positive Rate),FPR=FP/(TN+FP),TPR=TP/(TP+FN),其中,FP表示实际是负例但模型错误预测为正例的样本数,TN表示实际是负例且模型正确预测为负例的样本数,TP表示实际是正例且模型正确预测为正例的样本数,FN表示实际是正例但模型错误预测为负例的样本数。
(2)AUPR(Area Under Precision-Recall Curve)是PR曲线(Precision-RecallCurve)下的面积,PR曲线的纵坐标轴是查准率(Precision),PR曲线的横坐标轴是查全率(Recall),Precision=TP/(TP+FP),Recall=TP/(TP+FN)。
本发明与两种现有技术在Cdatasets数据集上的AUC值和AUPR值的对比结果如表1所示。
表1现有技术与本发明在预测精度上的对比结果
结合表可以看出,本发明在AUC值和AUPR值这两个指标上均高于现有技术,证明本发明方法有效的提高了药物-疾病关联预测的精度。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (4)
1.一种基于变分自编码器的药物-疾病关联预测方法,其特征在于,包括如下:
(1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B:
(1a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的N种疾病T={T1,T2,...,Tn,...,TN}的K条药物-疾病关联数据E={E1,E2,...,Ek,...,EK},每种药物Sm至少与一种疾病关联,且每种疾病Tn至少与一种药物关联,其中,K≥1000,M≥100,N≥200,Sm表示第m种药物,Tn表示第n种疾病,1≤m≤M,1≤n≤N,Ek表示第k条药物-疾病关联;
(1b)构建大小为M×N且第m行第n列元素Amn的值为0或1的药物-疾病关联矩阵A,并对A进行转置,得到疾病-药物关联矩阵B,其中,Amn的值为0时表示Amn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中,Amn的值为1时表示Amn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中;
(2)构建药物特征矩阵C和疾病特征矩阵D:
(2a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的P种基因G={G1,G2,...,Gp,...,GP}的Q条药物-基因关联数据R={R1,R2,...,Rq,...,RQ},每种药物Sm至少与一种基因关联,且每种基因Gp至少与一种药物关联;构建大小为M×P且第m行第p列元素C′mp的值为0或1的药物-基因关联矩阵C′,其中,C′mp的值为0时表示C′mp对应的第m种药物和第p种基因的关联不在药物-基因关联数据R中,C′mp的值为1时表示C′mp对应的第m种药物和第p种基因的关联在药物-基因关联数据R中,P≥200,Q≥1000,1≤m≤M,1≤p≤P,Gp表示第p种基因,Rq表示第q条药物-基因关联;
(2b)从数据库中获取与N种疾病T={T1,T2,...,Tn,...,TN}存在关联的O种基因G={G1,G2,...,Go,...,GO}的J条疾病-基因关联数据U={U1,U2,...,Uj,...,UJ},每种疾病Tn至少与一种基因关联,且每种基因Go至少与一种疾病关联;构建大小为N×O且第n行第o列元素D′no的值为0或1的疾病-基因关联矩阵D′,其中,D′的值为0时表示D′no对应的第n种疾病和第o种基因的关联不在疾病-基因关联数据U中,D′的值为1时表示D′no对应的第n种疾病和第o种基因的关联在疾病-基因关联数据U中,O≥200,J≥1000,1≤n≤N,1≤o≤O,Uj表示第j条疾病-基因关联;
(2c)对大小为M×P的C′和大小为N×O的D′分别进行降维,得到大小为M×V的药物特征矩阵C和大小为N×W的疾病特征矩阵D,其中,C中的每一行为该行药物的特征,D中的每一行为该行疾病的特征,1≤V≤P,1≤W≤O;
(3)搭建基于变分自编码器的药物-疾病关联预测模型H:
(3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构:
构建包括并行排列的第一变分自编码器f1和第二变分自编码器f2的药物-疾病关联预测模型H,其中,第一变分自编码器f1采用包括顺次连接的第一编码器fe 1、第一隐变量层fz 1和第一解码器fd 1的神经网络,fe 1包括多个全连接层和一个均值方差层,fz 1的输出端连接有第一数据融合模块,fd 1包括多个全连接层和一个sigmoid激活函数输出层,f1的权值参数为第二变分自编码器f2包括顺次连接的第二编码器fe 2、第二隐变量层fz 2和第二解码器fd 2,fe 2包括多个全连接层和一个均值方差层,fz 2的输出端连接有第二数据融合模块,fd 2包括多个全连接层和一个sigmoid激活函数输出层,f2的权值参数为
(3b)定义第一变分自编码器f1的损失函数Loss1和第二变分自编码器f2的损失函数Loss2:
其中,x表示f1的输入数据,表示f1的预测结果,Lre表示f1的重构损失,POx表示x中值为1的元素集合,POx={xi|xi=1,1≤i≤N},NPx表示x中值为0的元素集合,NPx={xj|xj=0,1≤j≤N},xi和xj分别表示x的第i个和第j个元素,β表示非正例损失衰减因子,非正例表示当前关联不在已知关联中,β∈[0,1];表示均值为μx方差为的正态分布,N(0,1)表示标准正太分布,表示和N(0,1)的相对熵,μx和δx分别表示f1输入为x时fe 1的输出,α表示相对熵损失衰减因子,α∈[0,1];y表示f2的输入数据,表示f2的预测结果,
(4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练:
(4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f1的输入,第一编码器fe 1对A进行逐行编码,第一隐变量层fz 1对fe 1编码的均值μf1_i和方差所构成的正态分布进行采样,第一数据融合模块对fz 1所采集的维度为V的隐变量与药物特征C中对应行的药物c进行相加融合,第一解码器fd 1对第一数据融合模块的融合结果进行解码,得到预测的药物-疾病关联矩阵
(4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f2的输入,第二编码器fe 2对B进行逐行编码,第二隐变量层fz 2对fe 2编码的均值和方差所构成的正太分布进行采样,第二数据融合模块对fz 2所采集的维度为W的隐变量与药物特征D中对应行的药物d进行相加融合,第二解码器fd 2对第二数据融合模块的融合结果进行解码,得到预测的疾病-药物关联矩阵
(4e)采用反向传播方法,并通过L1i计算f1的参数梯度,然后采用梯度下降算法通过f1的参数梯度对f1的权值参数进行更新;同时采用反向传播方法,并通过L2i计算f2的参数梯度,然后采用梯度下降算法通过f2的参数梯度对f2的权值参数进行更新;
(4f)判断i≥I是否成立,若是,得到训练好的药物-疾病关联预测模型H′,否则,令i=i+1,并执行步骤(4b);
(5)获取药物-疾病关联预测结果Y:
将药物-疾病关联矩阵A和药物特征C作为训练好的药物-疾病关联预测模型H′中的第一变分自编码器f1的输入进行前向传播,得到f1预测的药物-疾病关联集Y1,同时将疾病-药物关联矩阵B和疾病特征D作为训练好的药物-疾病关联预测模型H′中的第二变分自编码器f2的输入进行前向传播,得到f2预测的药物-疾病关联集Y2,Y1与Y2的交集Y=Y1∩Y2即为药物-疾病关联预测结果,其中∩表示交集。
2.根据权利要求1中所述的基于变分自编码器的药物-疾病关联预测方法,其特征在于,步骤(2c)所述的对大小为M×P的C′和大小为N×O的D′分别进行降维,采用主成分分析方法,实现步骤为:
(2c1)对大小为M×P的药物-基因关联矩阵C′中每一列都减去该列的均值,同时对大小为N×O的疾病-基因关联矩阵D′中每一列都减去该列的均值,得到数据中心化后的药物-基因关联矩阵C′1和疾病-基因关联矩阵D′1;
3.根据权利要求1中所述的基于变分自编码器的药物-疾病关联预测方法,其特征在于,步骤(3a)所述的搭建基于变分自编码器的药物-疾病关联预测模型H结构,其中,第一编码器fe 1中的均值方差层包括权值参数不同且并行排布的两个全连接层,这两个全连接层的输出分别作为均值和方差;第二编码器fe 2中的均值方差层包括权值参数不同且并行排布的两个全连接层,这两个全连接层的输出分别作为均值和方差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110496613.9A CN113223655B (zh) | 2021-05-07 | 2021-05-07 | 基于变分自编码器的药物-疾病关联预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110496613.9A CN113223655B (zh) | 2021-05-07 | 2021-05-07 | 基于变分自编码器的药物-疾病关联预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223655A true CN113223655A (zh) | 2021-08-06 |
CN113223655B CN113223655B (zh) | 2023-05-12 |
Family
ID=77091888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110496613.9A Active CN113223655B (zh) | 2021-05-07 | 2021-05-07 | 基于变分自编码器的药物-疾病关联预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223655B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114613452A (zh) * | 2022-03-08 | 2022-06-10 | 电子科技大学 | 一种基于药物分类图神经网络的药物重定位方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190244680A1 (en) * | 2018-02-07 | 2019-08-08 | D-Wave Systems Inc. | Systems and methods for generative machine learning |
WO2019231624A2 (en) * | 2018-05-30 | 2019-12-05 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
CN111681718A (zh) * | 2020-06-11 | 2020-09-18 | 湖南大学 | 一种基于深度学习多源异构网络的药物重定位方法 |
CN112071373A (zh) * | 2020-09-02 | 2020-12-11 | 深圳晶泰科技有限公司 | 药物分子筛选方法及*** |
CN112308326A (zh) * | 2020-11-05 | 2021-02-02 | 湖南大学 | 一种基于元路径和双向编码器的生物网络链接预测方法 |
-
2021
- 2021-05-07 CN CN202110496613.9A patent/CN113223655B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190244680A1 (en) * | 2018-02-07 | 2019-08-08 | D-Wave Systems Inc. | Systems and methods for generative machine learning |
WO2019231624A2 (en) * | 2018-05-30 | 2019-12-05 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
CN111681718A (zh) * | 2020-06-11 | 2020-09-18 | 湖南大学 | 一种基于深度学习多源异构网络的药物重定位方法 |
CN112071373A (zh) * | 2020-09-02 | 2020-12-11 | 深圳晶泰科技有限公司 | 药物分子筛选方法及*** |
CN112308326A (zh) * | 2020-11-05 | 2021-02-02 | 湖南大学 | 一种基于元路径和双向编码器的生物网络链接预测方法 |
Non-Patent Citations (5)
Title |
---|
JARADA, TAMER N.1 等: "SNF–CVAE: Computational method to predict drug–disease interactions using similarity network fusion and collective variational autoencoder", 《KNOWLEDGE-BASED SYSTEMS》 * |
刘佳琦;李阳;: "基于信息最大化变分自编码器的孪生神经主题模型", 《计算机应用与软件》 * |
支尧: "基于概率关系自编码器的药靶关系预测研究", 《万方数据库-学位论文库》 * |
李苗苗;: "基于XG-B00ST和多数据源的药物重定位预测", 《软件导刊》 * |
鱼亮 等: "基于组织特异性和直接邻居相似度方法预测疾病–药物关系", 《中国科学:信息科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114613452A (zh) * | 2022-03-08 | 2022-06-10 | 电子科技大学 | 一种基于药物分类图神经网络的药物重定位方法及*** |
CN114613452B (zh) * | 2022-03-08 | 2023-04-28 | 电子科技大学 | 一种基于药物分类图神经网络的药物重定位方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN113223655B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及*** | |
CN114927162A (zh) | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 | |
CN114093425A (zh) | 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN112652355A (zh) | 一种基于深度森林和pu学习的药物-靶标关系预测方法 | |
Kim et al. | Spiked Dirichlet process prior for Bayesian multiple hypothesis testing in random effects models | |
CN111951886A (zh) | 一种基于贝叶斯归纳型矩阵补全的药物重定位预测方法 | |
Wang et al. | A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences | |
CN115472221A (zh) | 一种基于深度学习的蛋白质适应度预测方法 | |
Zhang et al. | protein2vec: predicting protein-protein interactions based on LSTM | |
Wu et al. | Prediction and screening model for products based on fusion regression and xgboost classification | |
CN113223655A (zh) | 基于变分自编码器的药物-疾病关联预测方法 | |
Wang et al. | MVIL6: Accurate identification of IL-6-induced peptides using multi-view feature learning | |
Svirsky et al. | Interpretable deep clustering | |
CN113284627A (zh) | 基于患者表征学习的用药推荐方法 | |
Wayahdi et al. | KNN and XGBoost Algorithms for Lung Cancer Prediction | |
Zhong et al. | Recent advances on the machine learning methods in predicting ncRNA-protein interactions | |
CN116758993A (zh) | 一种集成多组学特征的dna甲基化预测方法 | |
CN111782818A (zh) | 生物医疗知识图谱的构建装置、方法、***及存储器 | |
CN116401369A (zh) | 用于生物制品生产术语的实体识别及分类方法 | |
Zhong et al. | Recent advances on the semi-supervised learning for long non-coding RNA-protein interactions prediction: A review | |
CN115083511A (zh) | 基于图表示学习与注意力的***基因调控特征提取方法 | |
Iraji et al. | Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method | |
Yaman et al. | MachineTFBS: Motif-based method to predict transcription factor binding sites with first-best models from machine learning library | |
CN113223622A (zh) | 基于元路径的miRNA-疾病关联预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |