CN113223655A - 基于变分自编码器的药物-疾病关联预测方法 - Google Patents

基于变分自编码器的药物-疾病关联预测方法 Download PDF

Info

Publication number
CN113223655A
CN113223655A CN202110496613.9A CN202110496613A CN113223655A CN 113223655 A CN113223655 A CN 113223655A CN 202110496613 A CN202110496613 A CN 202110496613A CN 113223655 A CN113223655 A CN 113223655A
Authority
CN
China
Prior art keywords
drug
disease
encoder
association
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110496613.9A
Other languages
English (en)
Other versions
CN113223655B (zh
Inventor
鱼亮
陈生建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110496613.9A priority Critical patent/CN113223655B/zh
Publication of CN113223655A publication Critical patent/CN113223655A/zh
Application granted granted Critical
Publication of CN113223655B publication Critical patent/CN113223655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提出了一种基于变分自编码器的药物‑疾病关联预测方法,主要解决现有技术预测药物‑疾病关联精度较低的问题,包括如下步骤:(1)构建药物‑疾病关联矩阵A和疾病‑药物关联矩阵B;(2)构建药物特征矩阵C和疾病特征矩阵D;(3)搭建基于变分自编码器的药物‑疾病关联预测模型H;(4)对基于变分自编码器的药物‑疾病关联预测模型H进行迭代训练;(5)获取药物‑疾病关联预测结果Y。本发明降低了噪音和数据缺失对预测结果的影响,充分提取了复杂数据的隐含信息,有效提高了药物‑疾病关联预测的精度,可用于药物重定位的药物候选。

Description

基于变分自编码器的药物-疾病关联预测方法
技术领域
本发明属于生物信息学技术领域,涉及一种药物-疾病关联预测方法,具体涉及一种基于变分自编码器的药物-疾病关联预测方法,可用在药物重定位中为现有药物的新治疗用途提供候选推荐。
背景技术
药物重定位目的是为了确定已有药物的新用途,相对于传统药物研究,大大降低了风险,节省了成本和时间,因此药物重定位受到广泛关注,2013年上市的84种药品中,现有药品的新适应症占了20%。近年来,各国非贸易组织、学术机构和政府对药物重定位方面的研究越来越重视,并对其提供了大量资金支持。例如,美国国家推进转化科学中心和英国医学研究理事会已经在药物重定位领域启动了多种大型的资助项目,目标是将已经经过医药工业重大研究和开发的药物分子扩展到更多的新的适应症。此外,美国食品和药物管理局FDA也创建了多个公共数据库专门为计算药物的重定位服务,这些数据为药物重定位提供了很多帮助。
药物-疾病相关性的鉴定可以为药物的发现和药物的重新定位提供重要的信息。因为手工调查是耗时的,随着高通量技术的发展和数据库的不断更新,提出了大量的计算方法。
在2016年,Luo等人在《Bioinformatics》上发表了论文“Drug repositioningbased on comprehensive similarity measures and Bi-Random walk algorithm”,公开了一种基于全面相似度测量和双向随机游走的药物-疾病关联预测方法MBIRW,该方法基于相似药物通常与相似疾病相关,反之亦然的假设,利用一些综合的相似度量和双向随机游走算法来识别给定药物的潜在新适应症。通过将药物或疾病特征信息与已知的药物-疾病关联信息相结合,建立了综合相似度量方法来计算药物和疾病的相似度。然后构建药物相似网络和疾病相似网络,并将它们整合到已知药物与疾病相互作用的异构网络中。基于药物-疾病异构网络,采用双向随机游走算法来预测新的潜在药物-疾病关联。
Luo等人于2018年在《Bioinformatics》上发表了论文“Computational DrugRepositioning using Low-Rank Matrix Approximation and Randomized Algorithms”,公开了一种使用低秩矩阵近似和随机算法的药物-疾病关联预测方法DRRS,该方法通过整合药物和疾病的相关数据信息来预测新的药物适应症。首先,通过整合药物-药物、疾病-疾病和药物-疾病网络,构建异质药物-疾病相互作用网络。异质网络用一个大的药物-疾病邻接矩阵来表示,其条目包括药物对、疾病对、已知的药物-疾病相互作用对和未知的药物-疾病对。然后,针对未知药物-疾病对,采用快速奇异值阈值SVT算法,利用预测的未知药物-疾病对得分来补全药物-疾病邻接矩阵。
然而,上述的算法是在默认无噪声环境下运行的,且对稀疏数据的处理能力不够好,即抗干扰能力较弱,同时上述的算法难以学习到复杂数据的深层次信息,无法充分提取复杂数据的的隐含信息。
发明内容
本发明的目的在于针对上述现有技术的不足,提出了一种基于变分自编码器的药物-疾病关联预测方法,旨在解决现有技术预测药物-疾病关联精度较低的问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B:
(1a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的N种疾病T={T1,T2,...,Tn,...,TN}的K条药物-疾病关联数据E={E1,E2,...,Ek,...,EK},每种药物Sm至少与一种疾病关联,且每种疾病Tn至少与一种药物关联,其中,K≥1000,M≥100,N≥200,Sm表示第m种药物,Tn表示第n种疾病,1≤m≤M,1≤n≤N,Ek表示第k条药物-疾病关联;
(1b)构建大小为M×N且第m行第n列元素Amn的值为0或1的药物-疾病关联矩阵A,并对A进行转置,得到疾病-药物关联矩阵B,其中,Amn的值为0时表示Amn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中,Amn的值为1时表示Amn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中;
(2)构建药物特征矩阵C和疾病特征矩阵D:
(2a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的P种基因G={G1,G2,...,Gp,...,GP}的Q条药物-基因关联数据R={R1,R2,...,Rq,...,RQ},每种药物Sm至少与一种基因关联,且每种基因Gp至少与一种药物关联;构建大小为M×P且第m行第p列元素C′mp的值为0或1的药物-基因关联矩阵C′,其中,C′mp的值为0时表示C′mp对应的第m种药物和第p种基因的关联不在药物-基因关联数据R中,C′mp的值为1时表示C′mp对应的第m种药物和第p种基因的关联在药物-基因关联数据R中,P≥200,Q≥1000,1≤m≤M,1≤p≤P,Gp表示第p种基因,Rq表示第q条药物-基因关联;
(2b)从数据库中获取与N种疾病T={T1,T2,...,Tn,...,TN}存在关联的O种基因G={G1,G2,...,Go,...,GO}的J条疾病-基因关联数据U={U1,U2,...,Uj,...,UJ},每种疾病Tn至少与一种基因关联,且每种基因Go至少与一种疾病关联;构建大小为N×O且第n行第o列元素D′no的值为0或1的疾病-基因关联矩阵D′,其中,D′的值为0时表示D′no对应的第n种疾病和第o种基因的关联不在疾病-基因关联数据U中,D′的值为1时表示D′no对应的第n种疾病和第o种基因的关联在疾病-基因关联数据U中,O≥200,J≥1000,1≤n≤N,1≤o≤O,Uj表示第j条疾病-基因关联;
(2c)对大小为M×P的C′和大小为N×O的D′分别进行降维,得到大小为M×V的药物特征矩阵C和大小为N×W的疾病特征矩阵D,其中,C中的每一行为该行药物的特征,D中的每一行为该行疾病的特征,1≤V≤P,1≤W≤O;
(3)搭建基于变分自编码器的药物-疾病关联预测模型H:
(3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构:
构建包括并行排列的第一变分自编码器f1和第二变分自编码器f2的药物-疾病关联预测模型H,其中,第一变分自编码器f1采用包括顺次连接的第一编码器fe 1、第一隐变量层fz 1和第一解码器fd 1的神经网络,fe 1包括多个全连接层和一个均值方差层,fz 1的输出端连接有第一数据融合模块,fd 1包括多个全连接层和一个sigmoid激活函数输出层,f1的权值参数为
Figure BDA0003054669440000032
;第二变分自编码器f2包括顺次连接的第二编码器fe 2、第二隐变量层fz 2和第二解码器fd 2,fe 2包括多个全连接层和一个均值方差层,fz 2的输出端连接有第二数据融合模块,fd 2包括多个全连接层和一个sigmoid激活函数输出层,f2的权值参数为
Figure BDA0003054669440000033
(3b)定义第一变分自编码器f1的损失函数Loss1和第二变分自编码器f2的损失函数Loss2:
Figure BDA0003054669440000031
Figure BDA0003054669440000041
Figure BDA0003054669440000042
Figure BDA0003054669440000043
其中,x表示f1的输入数据,
Figure BDA0003054669440000044
表示f1的预测结果,
Figure BDA0003054669440000045
Lre表示f1的重构损失,POx表示x中值为1的元素集合,POx={xi|xi=1,1≤i≤N},NPx表示x中值为0的元素集合,NPx={xj|xj=0,1≤j≤N},xi和xj分别表示x的第i个和第j个元素,β表示非正例损失衰减因子,非正例表示当前关联不在已知关联中,β∈[0,1];
Figure BDA0003054669440000046
表示均值为μx方差为
Figure BDA0003054669440000047
的正态分布,N(0,1)表示标准正太分布,
Figure BDA0003054669440000048
表示
Figure BDA0003054669440000049
和N(0,1)的相对熵,
Figure BDA00030546694400000410
μx和δx分别表示f1输入为x时fe 1的输出,α表示相对熵损失衰减因子,α∈[0,1];y表示f2的输入数据,
Figure BDA00030546694400000411
表示f2的预测结果,
Figure BDA00030546694400000412
(4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练:
(4a)初始化迭代次数为i,最大迭代次数为I,I≥300,第i次迭代第一变分自编码器f1的权值参数为
Figure BDA00030546694400000413
和第二变分自编码器f2的权值参数为
Figure BDA00030546694400000414
并令i=0,
Figure BDA00030546694400000415
Figure BDA00030546694400000416
(4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f1的输入,第一编码器fe 1对A进行逐行编码,第一隐变量层fz 1对fe 1编码的均值
Figure BDA00030546694400000417
和方差
Figure BDA00030546694400000418
所构成的正态分布
Figure BDA00030546694400000419
进行采样,第一数据融合模块对fz 1所采集的维度为V的隐变量
Figure BDA00030546694400000420
与药物特征C中对应行的药物c进行相加融合,第一解码器fd 1对第一数据融合模块的融合结果
Figure BDA00030546694400000421
进行解码,得到预测的药物-疾病关联矩阵
Figure BDA00030546694400000422
(4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f2的输入,第二编码器fe 2对B进行逐行编码,第二隐变量层fz 2对fe 2编码的均值
Figure BDA00030546694400000423
和方差
Figure BDA00030546694400000424
所构成的正太分布
Figure BDA00030546694400000425
进行采样,第二数据融合模块对fz 2所采集的维度为W的隐变量
Figure BDA00030546694400000426
与药物特征D中对应行的药物d进行相加融合,第二解码器fd 2对第二数据融合模块的融合结果
Figure BDA0003054669440000051
进行解码,得到预测的疾病-药物关联矩阵
Figure BDA0003054669440000052
(4d)采用损失函数Loss1,并通过
Figure BDA0003054669440000053
A和
Figure BDA0003054669440000054
计算H中的第一变分自编码器f1的损失值L1i,同时采用损失函数Loss2并通过
Figure BDA0003054669440000055
B和
Figure BDA0003054669440000056
计算H中的第二变分自编码器f2的损失值L2i
(4e)采用反向传播方法,并通过L1i计算f1的参数梯度,然后采用梯度下降算法通过f1的参数梯度对f1的权值参数
Figure BDA0003054669440000057
进行更新;同时采用反向传播方法,并通过L2i计算f2的参数梯度,然后采用梯度下降算法通过f2的参数梯度对f2的权值参数
Figure BDA0003054669440000058
进行更新;
(4f)判断i≥I是否成立,若是,得到训练好的药物-疾病关联预测模型H′,否则,令i=i+1,并执行步骤(4b);
(5)获取药物-疾病关联预测结果Y:
将药物-疾病关联矩阵A和药物特征C作为训练好的药物-疾病关联预测模型H′中的第一变分自编码器f1的输入进行前向传播,得到f1预测的药物-疾病关联集Y1,同时将疾病-药物关联矩阵B和疾病特征D作为训练好的药物-疾病关联预测模型H′中的第二变分自编码器f2的输入进行前向传播,得到f2预测的药物-疾病关联集Y2,Y1与Y2的交集Y=Y1∩Y2即为药物-疾病关联预测结果,其中∩表示交集。
本发明与现有技术相比,具有以下优点:
1.本发明所构建的基于变分自编码器的药物-疾病关联预测模型包括两个并行排列的变分自编码器和两个数据融合模块,在对该模型进行迭代训练以及获取药物-疾病关联结果的过程中,两个数据融合模块融合了与药物和疾病相关的多种信息,充分提取了复杂数据的隐含信息,与现有技术相比,有效提高了药物-疾病关联的预测精度。
2.本发明所构建的药物-疾病关联预测模型学习到的是数据的分布而非数据唯一的特征表示,这样可以降低噪音和数据的缺失对预测结果的影响,与现在技术相比,进一步提高了药物-疾病关联的预测精度。
附图说明
图1是本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述,以下结合附图和具体实施例,对本发明作进一步详细描述,需要说明的是,本发明不属于专利法第25条规定的不授予专利权的客体,同时也符合专利法第二条第二款的规定:
参照图1,本实例包括如下步骤:
步骤1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B:
步骤1a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的N种疾病T={T1,T2,...,Tn,...,TN}的K条药物-疾病关联数据E={E1,E2,...,Ek,...,EK},每种药物Sm至少与一种疾病关联,且每种疾病Tn至少与一种药物关联,本实例中,K=2352,M=663,N=409,Sm表示第m种药物,Tn表示第n种疾病,1≤m≤M,1≤n≤N,Ek表示第k条药物-疾病关联;
步骤1b)构建大小为M×N且第m行第n列元素Amn的值为0或1的药物-疾病关联矩阵A,并对A进行转置,得到疾病-药物关联矩阵B,其中,Amn的值为0时表示Amn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中,Amn的值为1时表示Amn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中。
步骤2)构建药物特征矩阵C和疾病特征矩阵D:
本实例的药物特征矩阵C和疾病特征矩阵C是基于药物相似性矩阵C′和疾病相似性矩阵D′来得到;药物相似性矩阵C′和疾病相似性矩阵D′是直接从Luo等人于2016年在《Bioinformatics》上发表的论文“Drug repositioning based on comprehensivesimilarity measures and Bi-Random walk algorithm”中得到的,C′的大小是663×663,D′的大小是409×409,本实例用主成分分析分别把C′和D′降维到大小为663×10和409×10;降维采用主成分分析方法,实现步骤为:
步骤2a)对大小为663×663的药物相似性矩阵C′中每一列都减去该列的均值,同时对大小为409×409的疾病相似性矩阵D′中每一列都减去该列的均值,得到数据中心化后的药物相似性矩阵C′1和疾病相似性矩阵D′1
步骤2b)分别求C′1和D′1的各列之间的协方差,得到大小为663×663的协方差矩阵
Figure BDA0003054669440000061
和大小为409×409的协方差矩阵
Figure BDA0003054669440000062
步骤2c)对
Figure BDA0003054669440000063
Figure BDA0003054669440000064
分别进行特征值分解,得到
Figure BDA0003054669440000065
的663个特征值和663个特征向量以及
Figure BDA0003054669440000066
的409个特征值和409个特征向量;
步骤2d)按照由大到小的顺序对
Figure BDA0003054669440000071
的663个特征值进行排列,并选取前10个特征值,然后将
Figure BDA0003054669440000072
的663个特征向量中与这10个特征值对应的特征向量分别作为列向量,组成特征向量矩阵
Figure BDA0003054669440000073
Figure BDA0003054669440000074
与C′1的积即为大小为663×10的药物特征矩阵C,同时按照由大到小的顺序对
Figure BDA0003054669440000075
的409个特征值进行排列,并选取前10个特征值,然后将
Figure BDA0003054669440000076
的409个特征向量中与这10个特征值对应的特征向量分别作为列向量,组成特征向量矩阵
Figure BDA0003054669440000077
Figure BDA0003054669440000078
与D′1的积即为大小为409×10的疾病特征矩阵D。
步骤3)搭建基于变分自编码器的药物-疾病关联预测模型H:
步骤3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构:
构建包括并行排列的第一变分自编码器f1和第二变分自编码器f2,以及第一数据融合模块和第二数据融合模块的药物-疾病关联预测模型H,其中,第一变分自编码器f1包括顺次连接的第一编码器fe 1、第一隐变量层fz 1和第一解码器fd 1,fe 1包括多个全连接层和一个均值方差层,fd 1包括多个全连接层和一个sigmoid激活函数输出层,f1的权值参数为
Figure BDA0003054669440000079
第二变分自编码器f2包括顺次连接的第二编码器fe 2、第二隐变量层fz 2和第二解码器fd 2,fe 2包括多个全连接层和一个均值方差层,fd 2包括多个全连接层和一个sigmoid激活函数输出层,f2的权值参数为
Figure BDA00030546694400000710
第一数据融合模块的输出与fz 1的输出相连,第二数据融合模块的输出与fz 2的输出相连;
所述的第一编码器fe 1包括一个全连接层和一个均值方差层,全连接层的输入维度是663,输出维度是50,均值方差层分为并行的两部分,一部分将前层的输出作为输入,连接一个全连接层,输出作为均值,该部分的输入和输出维度分别为50和10,另一部分为也是将前层的输出作为输入,连接另一个全连接层,输出作为方差,该部分的输入和输出维度分别为50和10;第二编码器fe 2包括一个全连接层和一个均值方差层,全连接层的输入维度是409,输出维度是50,均值方差层分为并行的两部分,一部分将前层的输出作为输入,连接一个全连接层,输出作为均值,该部分的输入和输出维度分别为50和10,另一部分为也是将前层的输出作为输入,连接另一个全连接层,输出作为方差,该部分的输入和输出维度分别为50和10;
所述的第一解码器fd 1包括一个全连接层和一个sigmoid激活函数输出层,全连接层的输入维度是10,输出维度是50,sigmoid激活函数输出层的输入维度是50,输出维度是663;第二解码器fd 2包括一个全连接层和一个sigmoid激活函数输出层,全连接层的输入维度是10,输出维度是50,sigmoid激活函数输出层的输入维度是50,输出维度是409;
本发明所构建的基于变分自编码器的药物-疾病关联预测模型包括两个并行排列的变分自编码器和两个数据融合模块,在对该模型进行迭代训练以及获取药物-疾病关联结果的过程中,两个数据融合模块融合了与药物和疾病相关的多种信息,充分的提取了复杂数据中的隐含信息,同时本发明所构建的药物-疾病关联预测模型学习到的是数据的分布而非数据唯一的特征表示,这样可以降低噪音和数据的缺失对预测结果的影响。
步骤3b)定义第一变分自编码器f1的损失函数Loss1和第二变分自编码器f2的损失函数Loss2:
Figure BDA0003054669440000081
Figure BDA0003054669440000082
Figure BDA0003054669440000083
Figure BDA0003054669440000084
其中,x表示f1的输入数据,
Figure BDA0003054669440000085
表示f1的预测结果,
Figure BDA0003054669440000086
Lre表示f1的重构损失,P表示x中值为1的元素集合,P={xi|xi=1,1≤i≤N},NP表示x中值为0的元素集合,NP={xj|xj=0,1≤j≤N},xi和xj分别表示x的第i个和第j个元素,β表示非正例损失衰减因子,非正例表示当前关联不在已知关联中,β∈[0,1];
Figure BDA0003054669440000087
表示均值为μx方差为
Figure BDA0003054669440000088
的正态分布,N(0,1)表示标准正太分布,
Figure BDA0003054669440000089
表示
Figure BDA00030546694400000810
和N(0,1)的相对熵,
Figure BDA00030546694400000811
μx和δx分别表示f1输入为x时fe 1的输出,α表示相对熵损失衰减因子,α∈[0,1];y表示f2的输入数据,
Figure BDA00030546694400000812
表示f2的预测结果,
Figure BDA00030546694400000813
步骤4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练:
步骤4a)初始化迭代次数为i,最大迭代次数为I,I=350,第i次迭代第一变分自编码器f1的权值参数为
Figure BDA00030546694400000814
和第二变分自编码器f2的权值参数为
Figure BDA00030546694400000815
并令i=0,
Figure BDA00030546694400000816
步骤4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f1的输入,第一编码器fe 1对A进行逐行编码,第一隐变量层fz 1对fe 1编码的均值
Figure BDA0003054669440000091
和方差
Figure BDA0003054669440000092
所构成的正态分布
Figure BDA0003054669440000093
进行采样,第一数据融合模块对fz 1所采集的维度为10的隐变量
Figure BDA0003054669440000094
与药物特征C中对应行的药物c进行相加融合,第一解码器fd 1对第一数据融合模块的融合结果
Figure BDA0003054669440000095
进行解码,得到预测的药物-疾病关联矩阵
Figure BDA0003054669440000096
所述的第一编码器fe 1对A进行逐行编码在本实例中,是每次选取8个药物进行编码,即最小批次minibatch=8;所述的对正态分布
Figure BDA0003054669440000097
进行采样,实例中并不是直接在
Figure BDA0003054669440000098
中采样一个
Figure BDA0003054669440000099
因为无法反向传播计算采样的梯度,这将导致模型无法训练,所以采取的解决办法是先在标准正太分布N(0,1)中采样得到ε1,然后通过公式
Figure BDA00030546694400000910
计算得到
Figure BDA00030546694400000911
步骤4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f2的输入,第二编码器fe 2对B进行逐行编码,第二隐变量层fz 2对fe 2编码的均值
Figure BDA00030546694400000912
和方差
Figure BDA00030546694400000913
所构成的正太分布
Figure BDA00030546694400000914
进行采样,第二数据融合模块对fz 2所采集的维度为10的隐变量
Figure BDA00030546694400000915
与药物特征D中对应行的药物d进行相加融合,第二解码器fd 2对第二数据融合模块的融合结果
Figure BDA00030546694400000916
进行解码,得到预测的疾病-药物关联矩阵
Figure BDA00030546694400000917
所述的第二编码器fe 2对B进行逐行编码在本实例中,是每次选取8个疾病进行编码,即最小批次minibatch=8;所述的对正态分布
Figure BDA00030546694400000918
进行采样,实例中并不是直接在
Figure BDA00030546694400000919
中采样一个
Figure BDA00030546694400000920
因为无法反向传播计算采样的梯度,这将导致模型无法训练,所以采取的解决办法是先在标准正太分布N(0,1)中采样得到ε2,然后通过公式
Figure BDA00030546694400000921
计算得到
Figure BDA00030546694400000922
步骤4d)采用损失函数Loss1,并通过
Figure BDA00030546694400000923
A和
Figure BDA00030546694400000924
计算H中的第一变分自编码器f1的损失值L1i,同时采用损失函数Loss2并通过
Figure BDA00030546694400000925
B和
Figure BDA00030546694400000926
计算H中的第二变分自编码器f2的损失值L2i
步骤4e)采用反向传播方法,并通过L1i计算f1的参数梯度,然后采用梯度下降算法通过f1的参数梯度对f1的权值参数
Figure BDA0003054669440000101
进行更新;同时采用反向传播方法,并通过L2i计算f2的参数梯度,然后采用梯度下降算法通过f2的参数梯度对f2的权值参数
Figure BDA0003054669440000102
进行更新;
Figure BDA0003054669440000103
Figure BDA0003054669440000104
的更新公式为:
Figure BDA0003054669440000105
Figure BDA0003054669440000106
其中:
Figure BDA0003054669440000107
Figure BDA0003054669440000108
分别表示f1和f2更新后的权值参数,
Figure BDA0003054669440000109
Figure BDA00030546694400001010
分别表示f1和f2更新前的权值参数,
Figure BDA00030546694400001011
Figure BDA00030546694400001012
分别表示f1和f2的学习步长,
Figure BDA00030546694400001013
Figure BDA00030546694400001014
分别表示f1和f2的权值参数梯度。
步骤4f)判断i≥I是否成立,若是,得到训练好的药物-疾病关联预测模型H′,否则,令i=i+1,并执行步骤(4b)。
步骤5)获取药物-疾病关联预测结果Y:
将药物-疾病关联矩阵A和药物特征C作为训练好的药物-疾病关联预测模型H′中的第一变分自编码器f1的输入进行前向传播,得到f1预测的药物-疾病关联集Y1,同时将疾病-药物关联矩阵B和疾病特征D作为训练好的药物-疾病关联预测模型H′中的第二变分自编码器f2的输入进行前向传播,得到f2预测的药物-疾病关联集Y2,Y1与Y2的交集Y=Y1∩Y2即为药物-疾病关联预测结果,其中∩表示交集。
对第一变分自编码器f1和第二变分自编码器f2的预测结果Y1和Y2取交集,可以有效降低Y中药物-疾病关联的假阳性比例。
以下通过仿真实验对本发明的技术效果作进一步说明:
1.仿真条件和内容:
仿真实验在Intel(R)Core(TM)i5-7300HQ CPU、主频2.50GHz,内存8G,Pycharm平台上的Python 3.6.5结合tensorflow1.0进行,所使用的数据集是Luo等人于2016年在《Bioinformatics》上发表的论文“Drug repositioning based on comprehensivesimilarity measures and Bi-Random walk algorithm”中提出的Cdatasets数据集。
对本发明的预测精度进行仿真,并结合对比文件中所给出的预测精度进行对比,其结果如表1所示,表1中的现有技术1为Luo等人于2016年在《Bioinformatics》上发表的论文“Drug repositioning based on comprehensive similarity measures and Bi-Random walk algorithm”提出了一种基于全面相似度测量和双向随机游走的药物重定位方法MBIRW,表1中的现有技术2为Luo等人于2018年在《Bioinformatics》上发表的论文“Computational Drug Repositioning using Low-Rank Matrix Approximation andRandomized Algorithms”提出了一种使用低秩矩阵近似和随机算法的药物重定位方法DRRS。
2.仿真结果分析:
表征药物-疾病关联预测精度采用的评价指标包括AUC和AUPR。
(1)AUC(Area under curve)是ROC曲线(receiver operating characteristiccurve)下的面积,ROC曲线的横坐标是假正类率FPR(False Positive Rate),纵坐标是真正类率TPR(True Positive Rate),FPR=FP/(TN+FP),TPR=TP/(TP+FN),其中,FP表示实际是负例但模型错误预测为正例的样本数,TN表示实际是负例且模型正确预测为负例的样本数,TP表示实际是正例且模型正确预测为正例的样本数,FN表示实际是正例但模型错误预测为负例的样本数。
(2)AUPR(Area Under Precision-Recall Curve)是PR曲线(Precision-RecallCurve)下的面积,PR曲线的纵坐标轴是查准率(Precision),PR曲线的横坐标轴是查全率(Recall),Precision=TP/(TP+FP),Recall=TP/(TP+FN)。
本发明与两种现有技术在Cdatasets数据集上的AUC值和AUPR值的对比结果如表1所示。
表1现有技术与本发明在预测精度上的对比结果
Figure BDA0003054669440000111
结合表可以看出,本发明在AUC值和AUPR值这两个指标上均高于现有技术,证明本发明方法有效的提高了药物-疾病关联预测的精度。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (4)

1.一种基于变分自编码器的药物-疾病关联预测方法,其特征在于,包括如下:
(1)构建药物-疾病关联矩阵A和疾病-药物关联矩阵B:
(1a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的N种疾病T={T1,T2,...,Tn,...,TN}的K条药物-疾病关联数据E={E1,E2,...,Ek,...,EK},每种药物Sm至少与一种疾病关联,且每种疾病Tn至少与一种药物关联,其中,K≥1000,M≥100,N≥200,Sm表示第m种药物,Tn表示第n种疾病,1≤m≤M,1≤n≤N,Ek表示第k条药物-疾病关联;
(1b)构建大小为M×N且第m行第n列元素Amn的值为0或1的药物-疾病关联矩阵A,并对A进行转置,得到疾病-药物关联矩阵B,其中,Amn的值为0时表示Amn对应的第m种药物和第n种疾病的关联不在药物-疾病关联数据E中,Amn的值为1时表示Amn对应的第m种药物和第n种疾病的关联在药物-疾病关联数据E中;
(2)构建药物特征矩阵C和疾病特征矩阵D:
(2a)从数据库中获取与M种药物S={S1,S2,...,Sm,...,SM}存在关联的P种基因G={G1,G2,...,Gp,...,GP}的Q条药物-基因关联数据R={R1,R2,...,Rq,...,RQ},每种药物Sm至少与一种基因关联,且每种基因Gp至少与一种药物关联;构建大小为M×P且第m行第p列元素C′mp的值为0或1的药物-基因关联矩阵C′,其中,C′mp的值为0时表示C′mp对应的第m种药物和第p种基因的关联不在药物-基因关联数据R中,C′mp的值为1时表示C′mp对应的第m种药物和第p种基因的关联在药物-基因关联数据R中,P≥200,Q≥1000,1≤m≤M,1≤p≤P,Gp表示第p种基因,Rq表示第q条药物-基因关联;
(2b)从数据库中获取与N种疾病T={T1,T2,...,Tn,...,TN}存在关联的O种基因G={G1,G2,...,Go,...,GO}的J条疾病-基因关联数据U={U1,U2,...,Uj,...,UJ},每种疾病Tn至少与一种基因关联,且每种基因Go至少与一种疾病关联;构建大小为N×O且第n行第o列元素D′no的值为0或1的疾病-基因关联矩阵D′,其中,D′的值为0时表示D′no对应的第n种疾病和第o种基因的关联不在疾病-基因关联数据U中,D′的值为1时表示D′no对应的第n种疾病和第o种基因的关联在疾病-基因关联数据U中,O≥200,J≥1000,1≤n≤N,1≤o≤O,Uj表示第j条疾病-基因关联;
(2c)对大小为M×P的C′和大小为N×O的D′分别进行降维,得到大小为M×V的药物特征矩阵C和大小为N×W的疾病特征矩阵D,其中,C中的每一行为该行药物的特征,D中的每一行为该行疾病的特征,1≤V≤P,1≤W≤O;
(3)搭建基于变分自编码器的药物-疾病关联预测模型H:
(3a)搭建基于变分自编码器的药物-疾病关联预测模型H结构:
构建包括并行排列的第一变分自编码器f1和第二变分自编码器f2的药物-疾病关联预测模型H,其中,第一变分自编码器f1采用包括顺次连接的第一编码器fe 1、第一隐变量层fz 1和第一解码器fd 1的神经网络,fe 1包括多个全连接层和一个均值方差层,fz 1的输出端连接有第一数据融合模块,fd 1包括多个全连接层和一个sigmoid激活函数输出层,f1的权值参数为
Figure FDA0003054669430000029
第二变分自编码器f2包括顺次连接的第二编码器fe 2、第二隐变量层fz 2和第二解码器fd 2,fe 2包括多个全连接层和一个均值方差层,fz 2的输出端连接有第二数据融合模块,fd 2包括多个全连接层和一个sigmoid激活函数输出层,f2的权值参数为
Figure FDA00030546694300000210
(3b)定义第一变分自编码器f1的损失函数Loss1和第二变分自编码器f2的损失函数Loss2:
Figure FDA0003054669430000021
Figure FDA0003054669430000022
Figure FDA0003054669430000023
Figure FDA0003054669430000024
其中,x表示f1的输入数据,
Figure FDA0003054669430000025
表示f1的预测结果,
Figure FDA0003054669430000026
Lre表示f1的重构损失,POx表示x中值为1的元素集合,POx={xi|xi=1,1≤i≤N},NPx表示x中值为0的元素集合,NPx={xj|xj=0,1≤j≤N},xi和xj分别表示x的第i个和第j个元素,β表示非正例损失衰减因子,非正例表示当前关联不在已知关联中,β∈[0,1];
Figure FDA0003054669430000027
表示均值为μx方差为
Figure FDA0003054669430000028
的正态分布,N(0,1)表示标准正太分布,
Figure FDA0003054669430000031
表示
Figure FDA0003054669430000032
和N(0,1)的相对熵,
Figure FDA0003054669430000033
μx和δx分别表示f1输入为x时fe 1的输出,α表示相对熵损失衰减因子,α∈[0,1];y表示f2的输入数据,
Figure FDA0003054669430000034
表示f2的预测结果,
Figure FDA0003054669430000035
(4)对基于变分自编码器的药物-疾病关联预测模型H进行迭代训练:
(4a)初始化迭代次数为i,最大迭代次数为I,I≥300,第i次迭代第一变分自编码器f1的权值参数为
Figure FDA0003054669430000036
和第二变分自编码器f2的权值参数为
Figure FDA0003054669430000037
并令i=0,
Figure FDA0003054669430000038
(4b)将药物-疾病关联矩阵A和药物特征C作为药物-疾病关联预测模型H中的第一变分自编码器f1的输入,第一编码器fe 1对A进行逐行编码,第一隐变量层fz 1对fe 1编码的均值μf1_i和方差
Figure FDA0003054669430000039
所构成的正态分布
Figure FDA00030546694300000310
进行采样,第一数据融合模块对fz 1所采集的维度为V的隐变量
Figure FDA00030546694300000311
与药物特征C中对应行的药物c进行相加融合,第一解码器fd 1对第一数据融合模块的融合结果
Figure FDA00030546694300000312
进行解码,得到预测的药物-疾病关联矩阵
Figure FDA00030546694300000313
(4c)将疾病-药物关联矩阵B和疾病特征D作为药物-疾病关联预测模型H中的第二变分自编码器f2的输入,第二编码器fe 2对B进行逐行编码,第二隐变量层fz 2对fe 2编码的均值
Figure FDA00030546694300000314
和方差
Figure FDA00030546694300000315
所构成的正太分布
Figure FDA00030546694300000316
进行采样,第二数据融合模块对fz 2所采集的维度为W的隐变量
Figure FDA00030546694300000317
与药物特征D中对应行的药物d进行相加融合,第二解码器fd 2对第二数据融合模块的融合结果
Figure FDA00030546694300000318
进行解码,得到预测的疾病-药物关联矩阵
Figure FDA00030546694300000319
(4d)采用损失函数Loss1,并通过
Figure FDA00030546694300000320
A和
Figure FDA00030546694300000321
计算H中的第一变分自编码器f1的损失值L1i,同时采用损失函数Loss2并通过
Figure FDA00030546694300000322
B和
Figure FDA00030546694300000323
计算H中的第二变分自编码器f2的损失值L2i
(4e)采用反向传播方法,并通过L1i计算f1的参数梯度,然后采用梯度下降算法通过f1的参数梯度对f1的权值参数
Figure FDA00030546694300000324
进行更新;同时采用反向传播方法,并通过L2i计算f2的参数梯度,然后采用梯度下降算法通过f2的参数梯度对f2的权值参数
Figure FDA0003054669430000041
进行更新;
(4f)判断i≥I是否成立,若是,得到训练好的药物-疾病关联预测模型H′,否则,令i=i+1,并执行步骤(4b);
(5)获取药物-疾病关联预测结果Y:
将药物-疾病关联矩阵A和药物特征C作为训练好的药物-疾病关联预测模型H′中的第一变分自编码器f1的输入进行前向传播,得到f1预测的药物-疾病关联集Y1,同时将疾病-药物关联矩阵B和疾病特征D作为训练好的药物-疾病关联预测模型H′中的第二变分自编码器f2的输入进行前向传播,得到f2预测的药物-疾病关联集Y2,Y1与Y2的交集Y=Y1∩Y2即为药物-疾病关联预测结果,其中∩表示交集。
2.根据权利要求1中所述的基于变分自编码器的药物-疾病关联预测方法,其特征在于,步骤(2c)所述的对大小为M×P的C′和大小为N×O的D′分别进行降维,采用主成分分析方法,实现步骤为:
(2c1)对大小为M×P的药物-基因关联矩阵C′中每一列都减去该列的均值,同时对大小为N×O的疾病-基因关联矩阵D′中每一列都减去该列的均值,得到数据中心化后的药物-基因关联矩阵C′1和疾病-基因关联矩阵D′1
(2c2)分别求C′1和D′1的各列之间的协方差,得到大小为P×P的协方差矩阵
Figure FDA0003054669430000042
和大小为O×O的协方差矩阵
Figure FDA0003054669430000043
(2c3)对
Figure FDA0003054669430000044
Figure FDA0003054669430000045
分别进行特征值分解,得到
Figure FDA0003054669430000046
的P个特征值和P个特征向量以及
Figure FDA0003054669430000047
的O个特征值和O个特征向量;
(2c4)按照由大到小的顺序对
Figure FDA0003054669430000048
的P个特征值进行排列,并选取前V个特征值,然后将
Figure FDA0003054669430000049
的P个特征向量中与这V个特征值对应的特征向量分别作为列向量,组成特征向量矩阵
Figure FDA00030546694300000410
Figure FDA00030546694300000411
与C1′的积即为大小为M×V的药物特征矩阵C,同时按照由大到小的顺序对
Figure FDA00030546694300000412
的O个特征值进行排列,并选取前W个特征值,然后将
Figure FDA00030546694300000413
的O个特征向量中与这W个特征值对应的特征向量分别作为列向量,组成特征向量矩阵
Figure FDA00030546694300000414
Figure FDA00030546694300000415
与D′1的积即为大小为M×W的疾病特征矩阵D。
3.根据权利要求1中所述的基于变分自编码器的药物-疾病关联预测方法,其特征在于,步骤(3a)所述的搭建基于变分自编码器的药物-疾病关联预测模型H结构,其中,第一编码器fe 1中的均值方差层包括权值参数不同且并行排布的两个全连接层,这两个全连接层的输出分别作为均值和方差;第二编码器fe 2中的均值方差层包括权值参数不同且并行排布的两个全连接层,这两个全连接层的输出分别作为均值和方差。
4.根据权利要求1中所述的基于变分自编码器的药物-疾病关联预测方法,其特征在于,步骤(4e)中所述的采用梯度下降算法通过f1的参数梯度对f1的权值参数
Figure FDA0003054669430000051
进行更新,以及采用梯度下降算法通过f2的参数梯度对f2的权值参数
Figure FDA0003054669430000052
进行更新,更新公式分别为:
Figure FDA0003054669430000053
Figure FDA0003054669430000054
其中:
Figure FDA0003054669430000055
Figure FDA0003054669430000056
分别表示f1和f2更新后的权值参数,
Figure FDA0003054669430000057
Figure FDA0003054669430000058
分别表示f1和f2更新前的权值参数,
Figure FDA0003054669430000059
Figure FDA00030546694300000510
分别表示f1和f2的学习步长,
Figure FDA00030546694300000511
Figure FDA00030546694300000512
分别表示f1和f2的权值参数梯度。
CN202110496613.9A 2021-05-07 2021-05-07 基于变分自编码器的药物-疾病关联预测方法 Active CN113223655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496613.9A CN113223655B (zh) 2021-05-07 2021-05-07 基于变分自编码器的药物-疾病关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496613.9A CN113223655B (zh) 2021-05-07 2021-05-07 基于变分自编码器的药物-疾病关联预测方法

Publications (2)

Publication Number Publication Date
CN113223655A true CN113223655A (zh) 2021-08-06
CN113223655B CN113223655B (zh) 2023-05-12

Family

ID=77091888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496613.9A Active CN113223655B (zh) 2021-05-07 2021-05-07 基于变分自编码器的药物-疾病关联预测方法

Country Status (1)

Country Link
CN (1) CN113223655B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613452A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种基于药物分类图神经网络的药物重定位方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190244680A1 (en) * 2018-02-07 2019-08-08 D-Wave Systems Inc. Systems and methods for generative machine learning
WO2019231624A2 (en) * 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
CN111681718A (zh) * 2020-06-11 2020-09-18 湖南大学 一种基于深度学习多源异构网络的药物重定位方法
CN112071373A (zh) * 2020-09-02 2020-12-11 深圳晶泰科技有限公司 药物分子筛选方法及***
CN112308326A (zh) * 2020-11-05 2021-02-02 湖南大学 一种基于元路径和双向编码器的生物网络链接预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190244680A1 (en) * 2018-02-07 2019-08-08 D-Wave Systems Inc. Systems and methods for generative machine learning
WO2019231624A2 (en) * 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
CN111681718A (zh) * 2020-06-11 2020-09-18 湖南大学 一种基于深度学习多源异构网络的药物重定位方法
CN112071373A (zh) * 2020-09-02 2020-12-11 深圳晶泰科技有限公司 药物分子筛选方法及***
CN112308326A (zh) * 2020-11-05 2021-02-02 湖南大学 一种基于元路径和双向编码器的生物网络链接预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JARADA, TAMER N.1 等: "SNF–CVAE: Computational method to predict drug–disease interactions using similarity network fusion and collective variational autoencoder", 《KNOWLEDGE-BASED SYSTEMS》 *
刘佳琦;李阳;: "基于信息最大化变分自编码器的孪生神经主题模型", 《计算机应用与软件》 *
支尧: "基于概率关系自编码器的药靶关系预测研究", 《万方数据库-学位论文库》 *
李苗苗;: "基于XG-B00ST和多数据源的药物重定位预测", 《软件导刊》 *
鱼亮 等: "基于组织特异性和直接邻居相似度方法预测疾病–药物关系", 《中国科学:信息科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613452A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种基于药物分类图神经网络的药物重定位方法及***
CN114613452B (zh) * 2022-03-08 2023-04-28 电子科技大学 一种基于药物分类图神经网络的药物重定位方法及***

Also Published As

Publication number Publication date
CN113223655B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及***
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN114093425A (zh) 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN112652355A (zh) 一种基于深度森林和pu学习的药物-靶标关系预测方法
Kim et al. Spiked Dirichlet process prior for Bayesian multiple hypothesis testing in random effects models
CN111951886A (zh) 一种基于贝叶斯归纳型矩阵补全的药物重定位预测方法
Wang et al. A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
Zhang et al. protein2vec: predicting protein-protein interactions based on LSTM
Wu et al. Prediction and screening model for products based on fusion regression and xgboost classification
CN113223655A (zh) 基于变分自编码器的药物-疾病关联预测方法
Wang et al. MVIL6: Accurate identification of IL-6-induced peptides using multi-view feature learning
Svirsky et al. Interpretable deep clustering
CN113284627A (zh) 基于患者表征学习的用药推荐方法
Wayahdi et al. KNN and XGBoost Algorithms for Lung Cancer Prediction
Zhong et al. Recent advances on the machine learning methods in predicting ncRNA-protein interactions
CN116758993A (zh) 一种集成多组学特征的dna甲基化预测方法
CN111782818A (zh) 生物医疗知识图谱的构建装置、方法、***及存储器
CN116401369A (zh) 用于生物制品生产术语的实体识别及分类方法
Zhong et al. Recent advances on the semi-supervised learning for long non-coding RNA-protein interactions prediction: A review
CN115083511A (zh) 基于图表示学习与注意力的***基因调控特征提取方法
Iraji et al. Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method
Yaman et al. MachineTFBS: Motif-based method to predict transcription factor binding sites with first-best models from machine learning library
CN113223622A (zh) 基于元路径的miRNA-疾病关联预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant