CN109325131B - 一种基于生物医学知识图谱推理的药物识别方法 - Google Patents

一种基于生物医学知识图谱推理的药物识别方法 Download PDF

Info

Publication number
CN109325131B
CN109325131B CN201811127803.8A CN201811127803A CN109325131B CN 109325131 B CN109325131 B CN 109325131B CN 201811127803 A CN201811127803 A CN 201811127803A CN 109325131 B CN109325131 B CN 109325131B
Authority
CN
China
Prior art keywords
drug
disease
target
vector
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811127803.8A
Other languages
English (en)
Other versions
CN109325131A (zh
Inventor
杨志豪
桑盛田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201811127803.8A priority Critical patent/CN109325131B/zh
Publication of CN109325131A publication Critical patent/CN109325131A/zh
Application granted granted Critical
Publication of CN109325131B publication Critical patent/CN109325131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种基于生物医学知识图谱推理的药物识别方法,该方法包括以下步骤:S1、下载生物医学文本数据;S2、构造生物医学知识图谱;S3、构造药物‑靶标‑疾病关系数据集;S4、使用图嵌入的方法对图进行表示学习;S5、训练基于长短记忆神经网络的药物发现模型步骤;S6、使用训练好的模型进行药物识别步骤。本发明适用于寻找疾病潜在的治疗药物,不限于疾病和药物的种类;能够有效的从文献中发现治疗疾病的药物,对药物发现领域具有重要的意义。

Description

一种基于生物医学知识图谱推理的药物识别方法
技术领域
本发明涉及数据挖掘方法领域,尤其是一种基于生物医学知识图谱推理的药物识别方法。
背景技术
药物发现(drug discovery)是医药产业发展的核心驱动力,也是社会发展的重要需求。目前主要存在两类药物发现的方法,分别是高通量筛选(High-throughputscreening,HTS)和计算机辅助药物发现方法(computer-aided drug discovery/design,CADD)。然而,尽管药物研发模式和技术有了巨大革新,药物发现依旧是一个十分漫长且耗资巨大的过程,开发一款新药平均需要14年时间,耗资约18亿美元。因此,如何提高药物发现的效率具有重大的理论价值和实用价值。
从已发表的生物医学文献中发现新的药物是一种经济安全的药物发现方法。已发表的生物医学文献中隐含着无法治愈疾病的潜在治疗方法,比如雷诺士病(RaynaudDisease)在1986年以前是一种无法治愈的疾病,Don R.Swanson通过阅读一部分医学文献发现雷诺士病的患者都伴随血粘稠度升高、血脂升高等医学特征;Swanson又通过阅读另一部分医学文献发现食用鱼油(Fish Oil)可以降低血脂、降低血粘稠度等现象。因此Swanson作出了食用鱼油可以治疗雷诺士病的假设,这个结论在两年后被临床试验所验证。因此,使用文本挖掘(literature mining)进行药物发现是一个可行的方法。现有的文本挖掘相关的药物发现方法主要分以下几种:
一、基于共现的方法:该方法主要通过与药物和疾病都相关的中间物质来推断药物和疾病可能存在的关系。
二、基于语义的方法:该方法首先通过关系抽取等技术有选择性的从文献中抽取出药物-实体、疾病-实体关系,再利用已抽取的关系作出药物-疾病关系预测。
三、基于图结构的方法:该方法首先通过抽取得到的实体关系构造一个网络,然后在该网络上使用聚类、分类等机器学习算法进行药物-疾病关系预测。
然而,近年来随着生物医学领域的快速发展,生物医学文献数量呈指数性增加,海量的文献和信息为现有的文本挖掘方法带来了难题。
发明内容
本发明的目的是提供一种能够充分利用现有的海量医学文献进行药物识别,并可辅助药物研发工作的基于生物医学知识图谱推理的药物识别方法。
本发明解决现有技术问题所采用的技术方案:一种基于生物医学知识图谱推理的药物识别方法,包括以下步骤:
S1、下载生物医学文本数据:在医学文献检索***中下载生物医学文献,并将下载得到的生物医学文献全文以字符串的形式存储在本地,得到生物医学文献库;
S2、构造生物医学知识图谱:包括以下步骤:
a1、抽取实体间关系:利用关系抽取工具SemRep从所述生物医学文献库中抽取得到生物实体间关系,并将抽取得到的生物实体间关系以字符串的形式存储在本地;
a2、基于频率的候选实体关系过滤:预设最小频率阈值,并将在步骤a1中得到的生物实体间关系中出现次数小于预设最小频率阈值的生物实体间关系过滤掉,得到用于构造生物医学知识图谱的实体间关系数据集S;
a3、构造生物医学知识图谱:利用步骤a2得到的实体间关系数据集S构造知识图谱;在知识图谱中以实体间关系数据集S中的各个生物实体作为节点,知识图谱中的边为实体间关系数据集S中生物实体间关系,从而得到生物医学知识图谱;
S3、构造药物-靶标-疾病关系数据集:在生物医学知识图谱中,建立药物-靶标-疾病三元关系路径e0r0e1r1e2r2...el-1rl-1el,其中e0,e1,e2,...,el-1,el为生物医学知识图谱中的节点,e0为药物,e1,e2,...,el-1中至少一个为药物e0的靶标,el为疾病,r0,r1,r2,...,rl-1分别为e0,e1,e2,...,el-1,el中相邻节点间的生物实体间关系,l为实体e0到实体el的路径长度,l≥2;
以正例路径数据和负例路径数据构成药物-靶标-疾病关系数据集;所述正例路径的构造方法:对于一个已知的药物-靶标-疾病三元关系,首先通过路径搜索算法构造路径长度为l的训练集πl=ρ(药物→疾病;靶标,l),其中,ρ()为广度优先搜索算法,l≥2,πl为在生物医学知识图谱中以该已知药物为起点,以已知的药物-靶标-疾病三元关系中的疾病为终点且穿过已知的药物-靶标-疾病三元关系中的靶标且长度为l的所有路径;然后使用相同的路径搜索算法构造出长度为2到l的所有路径数据的集合P={π23...πl}作为训练药物发现模型的正例路径数据;所述负例路径的构造方法:对于所述已知的药物-靶标-疾病三元关系,首先通过随机替换的方式将已知的药物-靶标-疾病三元关系中的药物、靶标、疾病分别替换成Therapeutic Target Database数据库中的已知药物、靶标和疾病构造出随机药物-靶标-疾病三元关系:药物’-靶标’-疾病’,并保证该随机药物-靶标-疾病三元关系在Therapeutic Target Database数据库中不存在;然后使用路径搜索算法构造数据集P'={π'2'3...π'l}作为训练药物发现模型的负例路径数据;
S4、使用图嵌入的方法对图进行表示学习:利用图嵌入方法将表示形式为图结构的数据转化成低维空间向量表示的数据,具体方法为:在步骤a3构造的生物医学知识图谱中,使用(s,r,t)表示该生物医学知识图谱中一条边的头结点s、尾节点t及头节点与尾节点之间的关系r,利用图嵌入方法将头节点s、尾节点t及头节点与尾节点之间的关系r分别转化为头节点向量Vs、尾节点向量Vt及头节点与尾节点之间的关系向量Vr,Vs、Vt及Vr的向量长度均为m,m≥2;图嵌入方法的目标函数为
Figure GDA0002806629360000041
其中,d()为距离函数,[]+表示取正数;γ为超参数;(s’,r,t’)为(s,r,t)的负例数据,VS’,Vt’分别为负例数据的头节点向量和尾节点向量,其中负例(s’,r,t’)的构造过程为使用TherapeuticTargetDatabase数据库中的实体s’和t’随机替换(s,r,t)中的头结点s和尾节点t,并保证该头节点s’和尾节点t’在步骤a3构造的生物医学知识图谱中不通过关系r相连,S’为所有负例数据的集合;将所述图嵌入方法的目标函数通过使用梯度下降方法进行优化,最后将更新后得到的向量作为生物医学知识图谱中节点和边的向量表示;
S5、训练基于长短记忆神经网络的药物发现模型步骤:利用长短记忆神经网络对步骤S3构造好的药物-靶标-疾病关系数据集进行有监督学习建模,其具体过程如下:
b1、将药物疾病关系数据集表示为向量形式:使用步骤S4中得到的生物医学知识图谱中节点和边的向量表示对步骤S3构造的药物-靶标-疾病三元关系路径e0r0e1r1e2r2...rl-1el中的每一个实体e0,e1,e2,...,el-1,el和生物实体间关系r0,r1,r2,...,rl-1进行向量表示,使该药物-靶标-疾病三元关系路径转化为m×l维矩阵Pmatrix=e0r0e1r1e2r2...rl-1el,得到药物-靶标-疾病三元关系矩阵;
b2、构造及训练长短记忆神经网络:以药物-靶标-疾病三元关系矩阵Pmatrix=e0r0e1r1e2r2...rl-1el为输入训练长短记忆神经网络:
长短记忆神经网络的构造如下:
Figure GDA0002806629360000051
Figure GDA0002806629360000052
Figure GDA0002806629360000053
Figure GDA0002806629360000054
ct=f⊙ct-1+i⊙g
ht=o⊙tanh(ct)
其中i为输入门向量,f为忘记门向量,o为输出门向量,g为临时状态向量,ct为t时刻细胞激活向量;xt是t时刻输入的实体向量,h为隐层向量,ht为t时刻的隐层向量,⊙是位乘操作,σ为sigmod函数;初始输入时h0=e0
Figure GDA0002806629360000055
和bi,bf,bo,bg为可训练参数;
训练方法:对于给定疾病时候选药物的概率:p(y|Pmatrix)=σ([Whzht+b]),其中Whz为t时刻隐层h与输出层z间的向量,ht为t时刻隐层向量,b为与隐层向量维度相同的向量;定义目标函数为L(θ)=-σlog(p(y|Pmatrix)),其中Pmatrix为药物-靶标-疾病关系路径的矩阵,σ为sigmod函数;并在训练数据上迭代地进行优化,直到所有参数收敛或达到预设的终止条件为止:即损失函数差小于10e-5;输出训练好的参数集合θ,其中θ包括
Figure GDA0002806629360000056
和bi,bf,bo,bg,从而得到长短记忆神经网络模型D(·);
S6、使用训练好的模型进行药物识别步骤:对于给定的疾病,评价潜在药物drugpotential治疗该疾病的可能性的步骤为:首先构造所有起点为drugpotential终点为diseasepotential且穿过targetpotential的路径集Ppotential={ρ(drugpotential→disease;targetpotential)},其中targetpotential为Therapeutic Target Database数据库中的所有药物靶标;然后使用打分函数
Figure GDA0002806629360000057
对药物drugpotential进行打分,根据分值进行降序排列得到在候选药物中的排名,从而识别出对于给定疾病的最优药物选择;其中g(p)表示使用步骤b1将药物-靶标-疾病路径p转化为药物-靶标-疾病三元关系矩阵,D(·)和θ分别为由b2步骤训练得到的长短记忆神经网络模型和对应参数集合。
医学文献检索***以时间检索的方式下载生物医学文献。
所述医学文献检索***为PubMed检索***。
本发明的有益效果在于:本发明具有以下特点:
(1)本发明可通用的在各类生物医学文献中进行药物发现,该方法不局限于某类(些)疾病的药物发现。
(2)本发明可给出药物的作用机制(Mechanism of Action),从而可辅助医学研究人员进一步理解、研究药物-疾病关系,进而辅助药物不良反应预测、精确医疗等领域。
附图说明
图1为本发明总体流程图。
图2为本发明构造的生物医学知识图谱的结构示意图。
图3为本发明训练药物发现模型的逻辑结构示意图。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
图1为本发明一种基于生物医学知识图谱推理的药物识别方法总体流程图。一种基于生物医学知识图谱推理的药物识别方法,包括以下步骤:
S1、下载生物医学文本数据:利用医学文献检索***PubMed以时间检索的方式下载生物医学文献,并将下载得到的生物医学文献全文以字符串的形式存储在本地,得到生物医学文献库;
S2、构造生物医学知识图谱:包括以下步骤:
a1、抽取实体间关系:利用关系抽取工具SemRep从所述生物医学文献库中抽取生物实体间关系,并将抽取得到的生物实体间关系以字符串的形式存储在本地;如表1所示,SemRep从表中所示的文本中抽取出4个实体间关系。其中“|”左边为实体名称,右边为实体的类型。
表1实体间关系抽取示例
Figure GDA0002806629360000071
a2、基于频率的候选实体关系过滤:预设最小频率阈值,并将在步骤a1中得到的生物实体间关系中出现次数小于预设最小频率阈值的生物实体间关系过滤掉,得到用于构造生物医学知识图谱的实体间关系数据集S;
a3、构造生物医学知识图谱:利用步骤a2得到的实体关系数据集S构造知识图谱;如图2所示,在知识图谱中以实体间关系数据集S中的各个生物实体作为节点,其属性包括该实体的语义类型、该语义类型被抽取出的次数及抽取出该实体关系的文档号(PMID号)。知识图谱中的边为实体间关系数据集S中生物实体间关系,其属性包括该关系被抽取出的次数及抽取出该关系的文档号(PMID号),得到生物医学知识图谱;
S3、构造药物-靶标-疾病关系数据集:在生物医学知识图谱中,建立药物-靶标-疾病三元关系路径e0r0e1r1e2r2...el-1rl-1el,其中e0,e1,e2,...,el-1,el为生物医学知识图谱中的节点,e0为药物,e1,e2,...,el-1中至少一个为药物e0的靶标,el为疾病,r0,r1,r2,...,rl-1分别为e0,e1,e2,...,el-1,el中相邻节点间的生物实体间关系,l为实体e0到实体el的路径长度,l≥2;
以正例路径数据和负例路径数据构成药物-靶标-疾病关系数据集;所述正例路径的构造方法:对于一个已知的药物-靶标-疾病三元关系,首先通过路径搜索算法构造路径长度为l的训练集πl=ρ(药物→疾病;靶标,l),其中,ρ()为广度优先搜索算法,l≥2,πl为在生物医学知识图谱中以该已知药物为起点,以已知的药物-靶标-疾病三元关系中的疾病为终点且穿过已知的药物-靶标-疾病三元关系中的靶标且长度为l的所有路径;然后使用相同的路径搜索算法构造出长度为2到l的所有路径数据的集合P={π23...πl}作为训练药物发现模型的正例路径数据;所述负例路径的构造方法:对于所述已知的药物-靶标-疾病三元关系,首先通过随机替换的方式将已知的药物-靶标-疾病三元关系中的药物、靶标、疾病分别替换成Therapeutic Target Database数据库中的已知药物、靶标和疾病构造出随机药物-靶标-疾病三元关系:药物’-靶标’-疾病’,并保证该随机药物-靶标-疾病三元关系在Therapeutic Target Database数据库中不存在;然后使用路径搜索算法构造数据集P'={π'2'3...π'l}作为训练药物发现模型的负例路径数据。
S4、使用图嵌入的方法对图进行表示学习:利用图嵌入方法(Graph Embeddingmethod)将表示形式为图结构的数据转化成低维空间向量表示的数据,具体方法为:在步骤a3构造的生物医学知识图谱中,使用(s,r,t)表示该生物医学知识图谱中一条边的头结点s、尾节点t及头节点与尾节点之间的关系r,利用图嵌入方法将头节点s、尾节点t及头节点与尾节点之间的关系r分别转化为头节点向量Vs、尾节点向量Vt及头节点与尾节点之间的关系向量Vr,Vs、Vt及Vr的向量长度均为m,m≥2;图嵌入方法的目标函数为
Figure GDA0002806629360000081
其中,d()为距离函数,[]+表示取正数;γ为超参数;(s’,r,t’)为(s,r,t)的负例数据,VS’,Vt’分别为负例数据的头节点向量和尾节点向量,其中负例(s’,r,t’)的构造过程为使用Therapeutic Target Database数据库中的实体s’和t’随机替换(s,r,t)中的头结点s和尾节点t,并保证该头节点s’和尾节点t’在步骤a3构造的生物医学知识图谱中不通过关系r相连,S’为所有负例数据的集合;将所述图嵌入方法的目标函数通过使用梯度下降方法进行优化,最后将更新后得到的向量作为生物医学知识图谱中节点和边的向量表示;
S5、训练基于长短记忆神经网络的药物发现模型步骤:利用长短记忆神经网络(LSTM)对步骤S3构造好的药物-靶标-疾病关系数据集进行有监督学习建模,其具体过程如下:
b1、将药物疾病关系数据集表示为向量形式:使用步骤S4中得到的生物医学知识图谱中节点和边的向量表示对步骤S3构造的药物-靶标-疾病三元关系路径e0r0e1r1e2r2...el-1rl-1el中的每一个实体e0,e1,e2,...,el-1,el和生物实体间关系r0,r1,r2,...,rl-1进行向量表示,使该药物-靶标-疾病三元关系路径转化为m×l维矩阵Pmatrix=e0r0e1r1e2r2...rl-1el,得到药物-靶标-疾病三元关系矩阵;
b2、构造及训练长短记忆神经网络:以药物-靶标-疾病三元关系矩阵Pmatrix=e0r0e1r1e2r2...rl-1el为输入训练长短记忆神经网络:
长短记忆神经网络的构造如下:
Figure GDA0002806629360000091
Figure GDA0002806629360000092
Figure GDA0002806629360000093
Figure GDA0002806629360000094
ct=f⊙ct-1+i⊙g
ht=o⊙tanh(ct)
其中i为输入门(input gate)向量,f为忘记门(forget gate)向量,o为输出门(output gate)向量,g为临时状态向量,ct为t时刻细胞(cell)激活向量。xt是t时刻输入的实体向量,h为隐层向量,ht为t时刻的隐层向量,⊙是位乘操作,σ为sigmod函数。初始输入时h0=e0
Figure GDA0002806629360000101
和bi,bf,bo,bg为可训练的向量形式的参数。当模型训练好后,这些参数用于计算输入模型的药物-靶标关系矩阵。
训练方法:对于给定疾病时候选药物的概率:p(y|Pmatrix)=σ([Whzht+b]),其中Whz为t时刻隐层h与输出层z间的向量,ht为t时刻隐层向量,b为与隐层向量维度相同的向量;定义目标函数为L(θ)=-σlog(p(y|Pmatrix)),其中Pmatrix为药物-靶标-疾病关系路径的矩阵,σ为sigmod函数;并在训练数据上迭代地进行优化,直到所有参数收敛或达到预设的终止条件为止:即损失函数差小于10e-5;输出训练好的参数集合θ,其中θ包括
Figure GDA0002806629360000102
和bi,bf,bo,bg,从而得到长短记忆神经网络模型D(·);
S6、使用训练好的模型进行药物识别步骤:对于给定的疾病,评价潜在药物drugpotential治疗该疾病的可能性的步骤为:首先构造所有起点为drugpotential终点为diseasepotential且穿过targetpotential的路径集Ppotential={ρ(drugpotential→disease;targetpotential)},其中targetpotential为Therapeutic Target Database数据库中的所有药物靶标;然后使用打分函数
Figure GDA0002806629360000103
对药物drugpotential进行打分,根据分值进行降序排列得到在候选药物中的排名,从而识别出对于给定疾病的最优药物选择;其中g(p)表示使用步骤b1将药物-靶标-疾病路径p转化为药物-靶标-疾病关系矩阵Pmatrix,D(·)和θ分别为由b2步骤训练得到的长短记忆神经网络模型和对应参数集合,其中,θ包括
Figure GDA0002806629360000104
和bi,bf,bo,bg
如表2所示,对于给定疾病冠心病(cardiovascular disease),本发明的方法发现碘克酸(ioxaglate)可以治疗冠心病(cardiovascular disease),该候选药物的分数为0.57分,在所有候选药物中排名第1。经TTD(Therapeutic Target Database)数据库证实碘克酸(ioxaglate)确实可以治疗冠心病,但其作用机制尚不明确。我们的方法给出其作用机制如表2所示。
表2药物发现示例
Figure GDA0002806629360000111
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (3)

1.一种基于生物医学知识图谱推理的药物识别方法,其特征在于:包括以下步骤:
S1、下载生物医学文本数据:在医学文献检索***中下载生物医学文献,并将下载得到的生物医学文献全文以字符串的形式存储在本地,得到生物医学文献库;
S2、构造生物医学知识图谱:包括以下步骤:
a1、抽取实体间关系:利用关系抽取工具SemRep从所述生物医学文献库中抽取得到生物实体间关系,并将抽取得到的生物实体间关系以字符串的形式存储在本地;
a2、基于频率的候选实体关系过滤:预设最小频率阈值,并将在步骤a1中得到的生物实体间关系中出现次数小于预设最小频率阈值的生物实体间关系过滤掉,得到用于构造生物医学知识图谱的实体间关系数据集S;
a3、构造生物医学知识图谱:利用步骤a2得到的实体间关系数据集S构造知识图谱;在知识图谱中以实体间关系数据集S中的各个生物实体作为节点,知识图谱中的边为实体间关系数据集S中生物实体间关系,从而得到生物医学知识图谱;
S3、构造药物-靶标-疾病关系数据集:在生物医学知识图谱中,建立药物-靶标-疾病三元关系路径e0r0e1r1e2r2...el-1rl-1el,其中e0,e1,e2,...,el-1,el为生物医学知识图谱中的节点,e0为药物,e1,e2,...,el-1中至少一个为药物e0的靶标,el为疾病,r0,r1,r2,...,rl-1分别为e0,e1,e2,...,el-1,el中相邻节点间的生物实体间关系,l为实体e0到实体el的路径长度,l≥2;
以正例路径数据和负例路径数据构成药物-靶标-疾病关系数据集;所述正例路径的构造方法:对于一个已知的药物-靶标-疾病三元关系,首先通过路径搜索算法构造路径长度为l的训练集πl=ρ(药物→疾病;靶标,l),其中,ρ()为广度优先搜索算法,l≥2,πl为在生物医学知识图谱中以该已知药物为起点,以已知的药物-靶标-疾病三元关系中的疾病为终点且穿过已知的药物-靶标-疾病三元关系中的靶标且长度为l的所有路径;然后使用相同的路径搜索算法构造出长度为2到l的所有路径数据的集合P={π23...πl}作为训练药物发现模型的正例路径数据;所述负例路径的构造方法:对于所述已知的药物-靶标-疾病三元关系,首先通过随机替换的方式将已知的药物-靶标-疾病三元关系中的药物、靶标、疾病分别替换成Therapeutic Target Database数据库中的已知药物、靶标和疾病构造出随机药物-靶标-疾病三元关系:药物’-靶标’-疾病’,并保证该随机药物-靶标-疾病三元关系在Therapeutic Target Database数据库中不存在;然后使用路径搜索算法构造数据集P'={π'2,π'3...π'l}作为训练药物发现模型的负例路径数据;
S4、使用图嵌入的方法对图进行表示学习:利用图嵌入方法将表示形式为图结构的数据转化成低维空间向量表示的数据,具体方法为:在步骤a3构造的生物医学知识图谱中,使用(s,r,t)表示该生物医学知识图谱中一条边的头结点s、尾节点t及头节点与尾节点之间的关系r,利用图嵌入方法将头节点s、尾节点t及头节点与尾节点之间的关系r分别转化为头节点向量Vs、尾节点向量Vt及头节点与尾节点之间的关系向量Vr,Vs、Vt及Vr的向量长度均为m,m≥2;图嵌入方法的目标函数为
Figure FDA0002806629350000021
其中,d()为距离函数,[]+表示取正数;γ为超参数;(s’,r,t’)为(s,r,t)的负例数据,VS’,Vt’分别为负例数据的头节点向量和尾节点向量,其中负例(s’,r,t’)的构造过程为使用Therapeutic Target Database数据库中的实体s’和t’随机替换(s,r,t)中的头结点s和尾节点t,并保证该头节点s’和尾节点t’在步骤a3构造的生物医学知识图谱中不通过关系r相连,S’为所有负例数据的集合;将所述图嵌入方法的目标函数通过使用梯度下降方法进行优化,最后将更新后得到的向量作为生物医学知识图谱中节点和边的向量表示;
S5、训练基于长短记忆神经网络的药物发现模型步骤:利用长短记忆神经网络对步骤S3构造好的药物-靶标-疾病关系数据集进行有监督学习建模,其具体过程如下:
b1、将药物疾病关系数据集表示为向量形式:使用步骤S4中得到的生物医学知识图谱中节点和边的向量表示对步骤S3构造的药物-靶标-疾病三元关系路径e0r0e1r1e2r2...rl- 1el中的每一个实体e0,e1,e2,...,el-1,el和生物实体间关系r0,r1,r2,...,rl-1进行向量表示,使该药物-靶标-疾病三元关系路径转化为m×l维矩阵Pmatrix=e0r0e1r1e2r2...rl-1el,得到药物-靶标-疾病三元关系矩阵;
b2、构造及训练长短记忆神经网络:以药物-靶标-疾病三元关系矩阵Pmatrix=e0r0e1r1e2r2...rl-1el为输入训练长短记忆神经网络:
长短记忆神经网络的构造如下:
Figure FDA0002806629350000031
Figure FDA0002806629350000032
Figure FDA0002806629350000033
Figure FDA0002806629350000034
ct=f⊙ct-1+i⊙g
ht=o⊙tanh(ct)
其中i为输入门向量,f为忘记门向量,o为输出门向量,g为临时状态向量,ct为t时刻细胞激活向量;xt是t时刻输入的实体向量,h为隐层向量,ht为t时刻的隐层向量,⊙是位乘操作,σ为sigmod函数;初始输入时h0=e0
Figure FDA0002806629350000041
和bi,bf,bo,bg为可训练参数;
训练方法:对于给定疾病时候选药物的概率:p(y|Pmatrix)=σ([Whzht+b]),其中Whz为t时刻隐层h与输出层z间的向量,ht为t时刻隐层向量,b为与隐层向量维度相同的向量;定义目标函数为L(θ)=-σlog(p(y|Pmatrix)),其中Pmatrix为药物-靶标-疾病关系路径的矩阵,σ为sigmod函数;并在训练数据上迭代地进行优化,直到所有参数收敛或达到预设的终止条件为止:即损失函数差小于10e-5;输出训练好的参数集合θ,其中θ包括
Figure FDA0002806629350000042
和bi,bf,bo,bg,从而得到长短记忆神经网络模型D(·);
S6、使用训练好的模型进行药物识别步骤:对于给定的疾病,评价潜在药物drugpotential治疗该疾病的可能性的步骤为:首先构造所有起点为drugpotential终点为diseasepotential且穿过targetpotential的路径集Ppotential={ρ(drugpotential→disease;targetpotential)},其中targetpotential为Therapeutic Target Database数据库中的所有药物靶标;然后使用打分函数
Figure FDA0002806629350000043
对药物drugpotential进行打分,根据分值进行降序排列得到在候选药物中的排名,从而识别出对于给定疾病的最优药物选择;其中g(p)表示使用步骤b1将药物-靶标-疾病路径p转化为药物-靶标-疾病三元关系矩阵,D(·)和θ分别为由b2步骤训练得到的长短记忆神经网络模型和对应参数集合。
2.根据权利要求1所述的一种基于生物医学知识图谱推理的药物识别方法,其特征在于:医学文献检索***以时间检索的方式下载生物医学文献。
3.根据权利要求1所述的一种基于生物医学知识图谱推理的药物识别方法,其特征在于,所述医学文献检索***为PubMed检索***。
CN201811127803.8A 2018-09-27 2018-09-27 一种基于生物医学知识图谱推理的药物识别方法 Active CN109325131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811127803.8A CN109325131B (zh) 2018-09-27 2018-09-27 一种基于生物医学知识图谱推理的药物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811127803.8A CN109325131B (zh) 2018-09-27 2018-09-27 一种基于生物医学知识图谱推理的药物识别方法

Publications (2)

Publication Number Publication Date
CN109325131A CN109325131A (zh) 2019-02-12
CN109325131B true CN109325131B (zh) 2021-03-02

Family

ID=65265018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811127803.8A Active CN109325131B (zh) 2018-09-27 2018-09-27 一种基于生物医学知识图谱推理的药物识别方法

Country Status (1)

Country Link
CN (1) CN109325131B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609907A (zh) * 2019-09-17 2019-12-24 湖南大学 一种基于随机游走的医药领域知识推理方法
CN110618987A (zh) * 2019-09-18 2019-12-27 宁夏大学 基于肺癌医学大数据的治疗通路关键结点信息处理方法
CN110866190B (zh) * 2019-11-18 2021-05-14 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN111161213B (zh) * 2019-12-09 2022-03-11 浙江大学 一种基于知识图谱的工业产品缺陷图像分类方法
CN111554360A (zh) * 2020-04-27 2020-08-18 大连理工大学 基于生物医学文献和领域知识数据的药物重定位预测方法
EP3905097A1 (de) * 2020-04-30 2021-11-03 Robert Bosch GmbH Vorrichtung und verfahren zum bestimmen eines knowledge graph
CN111696685A (zh) * 2020-06-04 2020-09-22 大连理工大学 面向新冠病毒治疗药物的药物重定位方法及其应用
CN111814460B (zh) * 2020-07-06 2021-02-09 四川大学 基于外部知识的药物相互作用关系抽取方法及***
CN112131399A (zh) * 2020-09-04 2020-12-25 牛张明 基于知识图谱的老药新用分析方法和***
CN112017735B (zh) * 2020-09-04 2023-08-22 平安科技(深圳)有限公司 基于关系抽取及知识推理的药物发现方法、装置及设备
CN113140254B (zh) * 2021-04-28 2023-08-25 厦门大学 元学习药物-靶点相互作用预测***及预测方法
CN113161013A (zh) * 2021-04-29 2021-07-23 中南大学湘雅三医院 一种可解释的基于文献知识图谱的药物不良反应发现方法
CN114255885A (zh) * 2021-12-14 2022-03-29 浙江创邻科技有限公司 一种基于图数据的新药研发管理***及方法
CN114582459B (zh) * 2022-01-27 2023-04-18 中南大学湘雅三医院 基于诊疗数据的信息处理方法、装置、设备及存储介质
CN114582443B (zh) * 2022-02-23 2023-08-18 西北大学 一种基于知识图谱的药物关系抽取方法
CN115662647B (zh) * 2022-12-27 2024-03-12 北京大学第三医院(北京大学第三临床医学院) 一种相似疾病挖掘的方法和应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和***
WO2017122785A1 (en) * 2016-01-15 2017-07-20 Preferred Networks, Inc. Systems and methods for multimodal generative machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和***
WO2017122785A1 (en) * 2016-01-15 2017-07-20 Preferred Networks, Inc. Systems and methods for multimodal generative machine learning
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A renaissance of neural networks in drug discovery;I.I.Baski等;《Expert Opinion Drug Discovery》;20161231;第785-795页 *
Computational prediction of drug–target interactions using chemical biological and network features;D.S.Cao等;《Molecular Informatics》;20141231;第669-681页 *
基于深度学习的药物隐含知识发现研究;李志鹏;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20180415;第E079-54页 *
大型中医药知识图谱构建研究;于彤等;《中国数字医学》;20151231;第80-82页 *

Also Published As

Publication number Publication date
CN109325131A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN109325131B (zh) 一种基于生物医学知识图谱推理的药物识别方法
Pham et al. Deepcare: A deep dynamic memory model for predictive medicine
Zhao et al. EMR-based medical knowledge representation and inference via Markov random fields and distributed representation learning
Frey et al. EHR big data deep phenotyping
Ghadge et al. Intelligent heart attack prediction system using big data
CN114093527B (zh) 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和***
CN107480194B (zh) 多模态知识表示自动学习模型的构建方法及***
López-Cruz et al. Bayesian network modeling of the consensus between experts: An application to neuron classification
Gupta et al. [Retracted] Gene Mutation Classification through Text Evidence Facilitating Cancer Tumour Detection
CN113764112A (zh) 一种在线医疗问答方法
CN112149411B (zh) 一种抗生素临床使用领域本体构建方法
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药***及方法
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN114882970B (zh) 基于预训练模型和分子图的药物相互作用效果预测方法
CN116364299A (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及***
CN115376704A (zh) 一种融合多邻域关联信息的药物-疾病相互作用预测方法
Shrestha Development of a language model for medical domain
CN116206775A (zh) 一种融合多维度特征的药物-靶点相互作用预测方法
CN116340544A (zh) 一种基于知识图谱的中医药古籍可视分析方法与***
Malmasi et al. Comparing information extraction techniques for low-prevalence concepts: the case of insulin rejection by patients
Ahmed et al. Developed third iterative dichotomizer based on feature decisive values for educational data mining
Cannataro et al. Artificial intelligence in bioinformatics: from omics analysis to deep learning and network mining
CN112541065A (zh) 基于表示学习的医学新词发现处理方法
Luu et al. Clinical name entity recognition based on recurrent neural networks
Leiva-Murillo et al. Visualization and prediction of disease interactions with continuous-time hidden markov models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant