CN112308326A - 一种基于元路径和双向编码器的生物网络链接预测方法 - Google Patents

一种基于元路径和双向编码器的生物网络链接预测方法 Download PDF

Info

Publication number
CN112308326A
CN112308326A CN202011226195.3A CN202011226195A CN112308326A CN 112308326 A CN112308326 A CN 112308326A CN 202011226195 A CN202011226195 A CN 202011226195A CN 112308326 A CN112308326 A CN 112308326A
Authority
CN
China
Prior art keywords
protein
drug
disease
network
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011226195.3A
Other languages
English (en)
Other versions
CN112308326B (zh
Inventor
彭绍亮
王小奇
李非
辛彬
肖霞
王红
张兴龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202011226195.3A priority Critical patent/CN112308326B/zh
Publication of CN112308326A publication Critical patent/CN112308326A/zh
Application granted granted Critical
Publication of CN112308326B publication Critical patent/CN112308326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Human Resources & Organizations (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)

Abstract

本发明属于计算机科学领域,公开了一种基于元路径和双向编码器的生物网络链接预测方法。首选构建了多源异构的药物信息网络,同时设计多种语义路径进行序列采样,构成大规模的语义信息库;其次,将深度Transformer编码器与掩码语言模型(masked language model)有机融合设计出深度双向的编码表征模型有效地提取每个节点的低纬表征向量;最后,利用归纳矩阵补全(Inductive matrix completion)技术进行疾病‑蛋白关联关系、蛋白‑药物相互作用、药物‑副作用关联关系等生物链接预测,进而完成从疾病—靶标—药物—副作用的药物研发技术体系。

Description

一种基于元路径和双向编码器的生物网络链接预测方法
技术领域
本发明属于计算机科学领域,涉及人工智能技术应用,具体涉及一种基于元路径和双向编码器的生物网络链接预测方法。
背景技术
针对一组生物医学实体及其已知的相互作用,旨在预测实体之间的其他潜在相互作用(链接)是生物医学领域最重要的任务之一,因此,越来越多的研究者利用计算机技术来预测各种生物医学网络中的潜在相互作用。
在生物医学领域的传统方法已经投入大量精力来开发生物学相关的特征,例如,化学亚结构,基因本体论(gene ontology)和拓扑结构相似性。与此同时,有监督的学习方法和半监督图的推理模型被用来预测潜在的相互作用。这些方法主要基于相似性假设,即具有相似生物特征或结构特征的实体可能具有相似的联系。但是,基于生物学特征的预测方法通常会面临两个问题:(1)生物学特征提取过程成本很高,甚至有些生物特征很难获得,尽管可以通过预处理删除那些没有特征的生物实体,但这通常会导致数据集规模较小,丢失重要的信息,因此在实际应用中并不实用;(2)生物学特征以可能不够精确,无法代表生物医学实体,并且可能无法建立稳定准确的模型。
试图自动学习网络节点的低纬向量的网络表征方法有望解决上述两个问题,并且被广泛应用于生物链路预测中。例如,基于矩阵分解的技术被用于药物-疾病关联的预测;一些研究者提出了流形正则化的矩阵分解技术,通过合并了拉普拉斯正则化以学习更好的药物表示,进而提高药物-药物相互作用的预测,除之之外,也有人提出一些基于随机游走的网络表征方法和基于深度神经网络的表征方法。但是现有方法只关注网络的节点之间的结构特征,而忽略了网络实体之间的语义信息;或者只能捕获较短的结构和元路径,无法深度挖掘网络节点之间的结构和语义关系。
发明内容
为了克服上述技术的不足,本发明提供了一种基于元路径和双向编码器的生物网络链接预测方法。首选构建了多源异构的药物信息网络,同时设计多种元路径进行序列采样,构成大规模的语义信息库;其次,将深度Transformer编码器与掩码语言模型(maskedlanguage model)有机融合设计出深度双向的编码表征模型有效地提取每个节点的低纬表征向量;最后,利用归纳矩阵补全(Inductive matrix completion)技术进行疾病-蛋白关联关系、蛋白-药物相互作用、药物-副作用关联关系等生物链接预测,进而完成从疾病—靶标—药物—副作用的药物研发技术体系。
本发明所采用的技术方案是:
一种基于元路径和双向编码器的生物网络链接预测方法,包括如下步骤:
1)参数初始化,包括:网络序列长度l,节点读书的阈值deg,表征向量维度dim,Transformer 编码器的层数n,语言模型的掩码序列比率k∈(0,1),掩码序列被特殊字符[MASK]替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p′∈(0,1-p);
2)构建药物信息网络和元路径;
3)对网络中的所有节点进行编号xi∈{xi|i=1,2,...,num},其中num代表节点的总个数,并对每个节点xi∈{xi|i=1,2,...,num}根据所述步骤2)的元路径依次进行采样;
4)将所有的语义序列输入深层双向Transformer编码器进行表征学习,获得节点的低维表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制(multi-head self-attention mechanism)和全连接网络;
5)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出每个节点的表征向量
Figure BDA0002763739910000021
转至步骤6),否则转至步骤4);
6)利用归纳矩阵补全方法进行疾病-蛋白关联预测;
7)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测靶标-药物相互作用;
8)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测药物-副作用关联关系。作为本发明的进一步改进,所述步骤2)通过以下步骤实现:
2.1)通过DrugBank、UniProt、HPRD、SIDER、CTD、NDFRT和STRING公开数据库构建包含药物、靶标、疾病和副作用4种节点类型、6种边缘的药物信息网络,并且删除度小于deg的节点,所述6种边缘包括药物-药物相互作用,药物-蛋白相互作用,药物-疾病关联关系,药物-副作用关联关系,蛋白-疾病关联关系,药物-药物结构相似度,蛋白-蛋白序列相似性;
2.2)根据不同的生物通路、药物机理构建23种元路径,分别为:药物-蛋白,药物-蛋白 -药物,药物-蛋白-蛋白,药物-蛋白-疾病,药物-蛋白-蛋白-药物,药物-蛋白-蛋白-疾病,药物-蛋白-药物-蛋白,药物-蛋白-药物-疾病,药物-蛋白-药物-副作用,药物- 蛋白-疾病-蛋白,药物-蛋白-疾病-药物,蛋白-药物-药物,蛋白-药物-蛋白,蛋白- 药物-疾病,蛋白-药物-副作用,蛋白-药物-药物-蛋白,蛋白-药物-药物-疾病,蛋白- 药物-药物-副作用,蛋白-药物-蛋白-蛋白,蛋白-药物-蛋白-疾病,蛋白-药物-疾病- 蛋白,蛋白-药物-疾病-药物,蛋白-药物-副作用-药物;
作为本发明的进一步改进,所述步骤4)通过以下步骤实现:
4.1)对所有的语义序列进行分词,包括去除特殊字符和多余字符、空格分词过程,最后采用掩码语言模型对语义序列进行处理,从所有的语义序列中按掩码比率k随机选取掩码序列,针对每个掩码序列,生成一个随机数rand∈[0,1],如果rand<p,则该序列被替换为[MASK],其中p∈(0,1)为掩码序列被[MASK]替换的概率;如果 p≤rand<p+p′,则从语义序列中随机选则一个序列用来替换该掩码序列,其中 p′∈(0,1-p)是掩码序列被其他序列替换的概率;如果p+p′≤rand<1,则该掩码序列保持不变;
4.2)将每个节点的初始表征向量和位置向量进行叠加记为
Figure BDA0002763739910000034
并输入多头注意力机制学习得到向量
Figure BDA0002763739910000032
并利用残差连接和归一化处理得到
Figure BDA0002763739910000033
其次,利用全连接前馈网络进一步学习,全连接前馈网络也进行残差连接和归一化操作;最终得到节点的低维表征向量。
作为本发明的进一步改进,所述步骤6)通过以下步骤实现:
6.1)计算网络中疾病-蛋白相互关联的个数Ninter,并从疾病-蛋白关联网络中随机选择同样数量的Ninter个负样本,将这些正样本和负样本混合在一起,进行10-折 (10-fold)交叉验证;
6.2)基于归纳矩阵补全模型重构异构网络,并且剔除测试集的网络关联信息,具体操作为:通过公式
Figure BDA0002763739910000031
将节点链接预测转换成优化问题,其中r是6种网络边缘的类型,Pr是6种单网络的邻接矩阵,Zr是要求解的单网络对应的低秩矩阵,Vu和Vw是单网络中节点的特征向量;所述6种网络边缘的类型包括:药物-药物相互作用,药物-蛋白相互作用,药物-疾病关联关系,药物-副作用关联关系,蛋白-疾病关联关系,药物-药物结构相似度,蛋白-蛋白序列相似性;
6.3)基于训练的疾病-蛋白关联关系对应的低秩矩阵,计算测试集中的疾病-靶标关联关系得分。
与现有技术相比,本发明的有益效果是:
本发明首先通过构建不同类型和不同长度的元路径,有机融合了网络节点之间的结构关系和生物通路、药物学机理等语义关系;其次,采用多头注意力机制有效地捕获了不同距离的网络节点之间的依赖性,进而保证了局部和全局的平衡;最后,通过掩码语言模型集成了语义序列的上下文关系,进一步极大地促进了网络表征的能力;此外,通过在链路预测中采用归纳矩阵补全模型,有效地解决了稀疏网络面临的冷启动问题。
附图说明
图1为基于元路径和双向编码器的生物网络链接预测方法流程图;
图2为基于元路径和双向编码器的生物网络链接预测方法的预测结果。
具体实施方式
下面结合附图对本发明进一步说明。
图1给出了本发明实施例提出的一种基于元路径和双向编码器的生物网络链接预测方法流程图。
参照图1,
一种基于元路径和双向编码器的生物网络链接预测方法,包括以下步骤:
1)参数初始化,包括:网络序列长度l,节点读书的阈值deg,表征向量维度dim,Transformer 编码器的层数n,语言模型的掩码序列比率k∈(0,1),掩码序列被特殊字符[MASK]替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p′∈(0,1-p);
2)构建药物信息网络和元路径;
3)对网络中的所有节点进行编号xi∈{xi|i=1,2,...,num},其中num代表节点的总个数,并对每个节点xi∈{xi|i=1,2,...,num}根据所述步骤2)的元路径依次进行采样;
4)将所有的语义序列输入深层双向Transformer编码器进行表征学习,获得节点的低维表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制(multi-head self-attention mechanism)和全连接网络;
5)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出每个节点的表征向量
Figure BDA0002763739910000041
转至步骤6),否则转至步骤4);
6)利用归纳矩阵补全方法进行疾病-蛋白关联预测;
7)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测靶标-药物相互作用;
8)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测药物-副作用关联关系。作为本发明的进一步改进,所述步骤2)通过以下步骤实现:
2.3)通过DrugBank、UniProt、HPRD、SIDER、CTD、NDFRT和STRING公开数据库构建包含药物、靶标、疾病和副作用4种节点类型、6种边缘的药物信息网络,并且删除度小于deg的节点,所述6种边缘包括药物-药物相互作用,药物-蛋白相互作用,药物-疾病关联关系,药物-副作用关联关系,蛋白-疾病关联关系,药物-药物结构相似度,蛋白-蛋白序列相似性;
2.4)根据不同的生物通路、药物机理构建23种元路径,分别为:药物-蛋白,药物-蛋白 -药物,药物-蛋白-蛋白,药物-蛋白-疾病,药物-蛋白-蛋白-药物,药物-蛋白-蛋白-疾病,药物-蛋白-药物-蛋白,药物-蛋白-药物-疾病,药物-蛋白-药物-副作用,药物- 蛋白-疾病-蛋白,药物-蛋白-疾病-药物,蛋白-药物-药物,蛋白-药物-蛋白,蛋白- 药物-疾病,蛋白-药物-副作用,蛋白-药物-药物-蛋白,蛋白-药物-药物-疾病,蛋白- 药物-药物-副作用,蛋白-药物-蛋白-蛋白,蛋白-药物-蛋白-疾病,蛋白-药物-疾病- 蛋白,蛋白-药物-疾病-药物,蛋白-药物-副作用-药物;
作为本发明的进一步改进,所述步骤4)通过以下步骤实现:
4.3)对所有的语义序列进行分词,包括去除特殊字符和多余字符、空格分词过程,最后采用掩码语言模型对语义序列进行处理,从所有的语义序列中按掩码比率k随机选取掩码序列,针对每个掩码序列,生成一个随机数rand∈[0,1],如果rand<p,则该序列被替换为[MASK],其中p∈(0,1)为掩码序列被[MASK]替换的概率;如果 p≤rand<p+p′,则从语义序列中随机选则一个序列用来替换该掩码序列,其中 p′∈(0,1-p)是掩码序列被其他序列替换的概率;如果p+p′≤rand<1,则该掩码序列保持不变;
4.4)将每个节点的初始表征向量和位置向量进行叠加记为
Figure BDA0002763739910000051
并输入多头注意力机制学习得到向量
Figure BDA0002763739910000052
并利用残差连接和归一化处理得到
Figure BDA0002763739910000053
其次,利用全连接前馈网络进一步学习,全连接前馈网络也进行残差连接和归一化操作;最终得到节点的低维表征向量。
作为本发明的进一步改进,所述步骤6)通过以下步骤实现:
6.4)计算网络中疾病-蛋白相互关联的个数Ninter,并从疾病-蛋白关联网络中随机选择同样数量的Ninter个负样本,将这些正样本和负样本混合在一起,进行10-折(10-fold)交叉验证;
6.5)基于归纳矩阵补全模型重构异构网络,并且剔除测试集的网络关联信息,具体操作为:通过公式
Figure BDA0002763739910000061
将节点链接预测转换成优化问题,其中r是6种网络边缘的类型,Pr是6种单网络的邻接矩阵,Zr是要求解的单网络对应的低秩矩阵,Vu和Vw是单网络中节点的特征向量;所述6种网络边缘的类型包括:药物-药物相互作用,药物-蛋白相互作用,药物-疾病关联关系,药物-副作用关联关系,蛋白-疾病关联关系,药物-药物结构相似度,蛋白-蛋白序列相似性;
6.6)基于训练的疾病-蛋白关联关系对应的低秩矩阵,计算测试集中的疾病-靶标关联关系得分。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于元路径和双向编码器的生物网络链接预测方法,其特征在于,包括以下步骤:
1)参数初始化,包括:网络序列长度l,节点读书的阈值deg,表征向量维度dim,Transformer编码器的层数n,语言模型的掩码序列比率k∈(0,1),掩码序列被特殊字符[MASK]替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p′∈(0,1-p);
2)构建药物信息网络和元路径;
3)对网络中的所有节点进行编号xi∈{xi|i=1,2,...,num},其中num代表节点的总个数,并对每个节点xi∈{xi|i=1,2,...,num}根据所述步骤2)的元路径依次进行采样;
4)将所有的语义序列输入深层双向Transformer编码器进行表征学习,获得节点的低维表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制和全连接网络;
5)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出每个节点的表征向量
Figure FDA0002763739900000011
转至步骤6),否则转至步骤4);
6)利用归纳矩阵补全方法进行疾病-蛋白关联预测;
7)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测靶标-药物相互作用;
8)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测药物-副作用关联关系。
2.如权利要求1所述的一种基于元路径和双向编码器的生物网络链接预测方法,其特征在于,所述步骤2)通过以下步骤实现:
2.1)通过DrugBank、UniProt、HPRD、SIDER、CTD、NDFRT和STRING公开数据库构建包含药物、靶标、疾病和副作用4种节点类型、6种边缘的药物信息网络,并且删除度小于deg的节点,所述6种边缘包括药物-药物相互作用,药物-蛋白相互作用,药物-疾病关联关系,药物-副作用关联关系,蛋白-疾病关联关系,药物-药物结构相似度,蛋白-蛋白序列相似性;
2.2)根据不同的生物通路、药物机理构建23种元路径,分别为:药物-蛋白,药物-蛋白-药物,药物-蛋白-蛋白,药物-蛋白-疾病,药物-蛋白-蛋白-药物,药物-蛋白-蛋白-疾病,药物-蛋白-药物-蛋白,药物-蛋白-药物-疾病,药物-蛋白-药物-副作用,药物-蛋白-疾病-蛋白,药物-蛋白-疾病-药物,蛋白-药物-药物,蛋白-药物-蛋白,蛋白-药物-疾病,蛋白-药物-副作用,蛋白-药物-药物-蛋白,蛋白-药物-药物-疾病,蛋白-药物-药物-副作用,蛋白-药物-蛋白-蛋白,蛋白-药物-蛋白-疾病,蛋白-药物-疾病-蛋白,蛋白-药物-疾病-药物,蛋白-药物-副作用-药物。
3.如权利要求1所述的一种基于元路径和双向编码器的生物网络链接预测方法,其特征在于,所述步骤4)通过以下步骤实现:
4.1)对所有的语义序列进行分词,包括去除特殊字符和多余字符、空格分词过程,最后采用掩码语言模型对语义序列进行处理,从所有的语义序列中按掩码比率k随机选取掩码序列,针对每个掩码序列,生成一个随机数rand∈[0,1],如果rand<p,则该序列被替换为[MASK],其中p∈(0,1)为掩码序列被[MASK]替换的概率;如果p≤rand<p+p′,则从语义序列中随机选则一个序列用来替换该掩码序列,其中p′∈(0,1-p)是掩码序列被其他序列替换的概率;如果p+p′≤rand<1,则该掩码序列保持不变;
4.2)将每个节点的初始表征向量和位置向量进行叠加记为
Figure FDA0002763739900000021
并输入多头注意力机制学习得到向量
Figure FDA0002763739900000022
并利用残差连接和归一化处理得到
Figure FDA0002763739900000023
其次,利用全连接前馈网络进一步学习,全连接前馈网络也进行残差连接和归一化操作;最终得到节点的低维表征向量。
4.如权利要求1所述的一种基于元路径和双向编码器的生物网络链接预测方法,其特征在于,所述步骤6)通过以下步骤实现:
6.1)计算网络中疾病-蛋白相互关联的个数Ninter,并从疾病-蛋白关联网络中随机选择同样数量的Ninter个负样本,将这些正样本和负样本混合在一起,进行10-折交叉验证;
6.2)基于归纳矩阵补全模型重构异构网络,并且剔除测试集的网络关联信息,具体操作为:通过公式
Figure FDA0002763739900000024
将节点链接预测转换成优化问题,其中r是6种网络边缘的类型,Pr是6种单网络的邻接矩阵,Zr是要求解的单网络对应的低秩矩阵,Vu和Vw是单网络中节点的特征向量;所述6种网络边缘的类型包括:药物-药物相互作用,药物-蛋白相互作用,药物-疾病关联关系,药物-副作用关联关系,蛋白-疾病关联关系,药物-药物结构相似度,蛋白-蛋白序列相似性;
6.3)基于训练的疾病-蛋白关联关系对应的低秩矩阵,计算测试集中的疾病-靶标关联关系得分。
CN202011226195.3A 2020-11-05 2020-11-05 一种基于元路径和双向编码器的生物网络链接预测方法 Active CN112308326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011226195.3A CN112308326B (zh) 2020-11-05 2020-11-05 一种基于元路径和双向编码器的生物网络链接预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011226195.3A CN112308326B (zh) 2020-11-05 2020-11-05 一种基于元路径和双向编码器的生物网络链接预测方法

Publications (2)

Publication Number Publication Date
CN112308326A true CN112308326A (zh) 2021-02-02
CN112308326B CN112308326B (zh) 2022-12-13

Family

ID=74326187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011226195.3A Active CN112308326B (zh) 2020-11-05 2020-11-05 一种基于元路径和双向编码器的生物网络链接预测方法

Country Status (1)

Country Link
CN (1) CN112308326B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160894A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN113223655A (zh) * 2021-05-07 2021-08-06 西安电子科技大学 基于变分自编码器的药物-疾病关联预测方法
CN113327644A (zh) * 2021-04-09 2021-08-31 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN113611356A (zh) * 2021-07-29 2021-11-05 湖南大学 一种基于自监督图表征学习的药物重定位预测方法
CN114334038A (zh) * 2021-12-31 2022-04-12 杭州师范大学 一种基于异质网络嵌入模型的疾病药物预测方法
CN116504331A (zh) * 2023-04-28 2023-07-28 东北林业大学 基于多模态和多任务的药物副作用的频率分数预测方法
CN116646001A (zh) * 2023-06-05 2023-08-25 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101802164A (zh) * 2007-07-13 2010-08-11 汉迪实验室公司 用于在多个生物样品上进行核酸提取和诊断测试的集成装置
CN102298674A (zh) * 2010-06-25 2011-12-28 清华大学 基于蛋白质网络的药物靶标确定和/或药物功能确定方法
US20170281784A1 (en) * 2016-04-05 2017-10-05 Arvinas, Inc. Protein-protein interaction inducing technology
CN109783618A (zh) * 2018-12-11 2019-05-21 北京大学 基于注意力机制神经网络的药物实体关系抽取方法及***
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN111785320A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于多层网络表示学习的药物靶标相互作用预测方法
CN111814460A (zh) * 2020-07-06 2020-10-23 四川大学 基于外部知识的药物相互作用关系抽取方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101802164A (zh) * 2007-07-13 2010-08-11 汉迪实验室公司 用于在多个生物样品上进行核酸提取和诊断测试的集成装置
CN102298674A (zh) * 2010-06-25 2011-12-28 清华大学 基于蛋白质网络的药物靶标确定和/或药物功能确定方法
US20170281784A1 (en) * 2016-04-05 2017-10-05 Arvinas, Inc. Protein-protein interaction inducing technology
CN109783618A (zh) * 2018-12-11 2019-05-21 北京大学 基于注意力机制神经网络的药物实体关系抽取方法及***
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN111785320A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于多层网络表示学习的药物靶标相互作用预测方法
CN111814460A (zh) * 2020-07-06 2020-10-23 四川大学 基于外部知识的药物相互作用关系抽取方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAILIN CHEN;ZUPING ZHANG;: "Prediction of Drug-Disease Associations for Drug Repositioning Through Drug-miRNA-Disease Heterogeneous Network", 《IEEE ACCESS》 *
邸研哲: ""基于相似性方法的药物—疾病相互作用关系预测"", 《中国优秀硕士学位论文全文数据库(电子期刊)医药卫生科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327644B (zh) * 2021-04-09 2024-05-14 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN113327644A (zh) * 2021-04-09 2021-08-31 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
WO2022222231A1 (zh) * 2021-04-23 2022-10-27 平安科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN113160894B (zh) * 2021-04-23 2023-10-24 平安科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN113160894A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN113223655B (zh) * 2021-05-07 2023-05-12 西安电子科技大学 基于变分自编码器的药物-疾病关联预测方法
CN113223655A (zh) * 2021-05-07 2021-08-06 西安电子科技大学 基于变分自编码器的药物-疾病关联预测方法
CN113611356A (zh) * 2021-07-29 2021-11-05 湖南大学 一种基于自监督图表征学习的药物重定位预测方法
CN114334038A (zh) * 2021-12-31 2022-04-12 杭州师范大学 一种基于异质网络嵌入模型的疾病药物预测方法
CN114334038B (zh) * 2021-12-31 2024-05-14 杭州师范大学 一种基于异质网络嵌入模型的疾病药物预测方法
CN116504331A (zh) * 2023-04-28 2023-07-28 东北林业大学 基于多模态和多任务的药物副作用的频率分数预测方法
CN116646001A (zh) * 2023-06-05 2023-08-25 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN116646001B (zh) * 2023-06-05 2024-05-24 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法

Also Published As

Publication number Publication date
CN112308326B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN112308326B (zh) 一种基于元路径和双向编码器的生物网络链接预测方法
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN112905801B (zh) 基于事件图谱的行程预测方法、***、设备及存储介质
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN114822683A (zh) 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN113988075A (zh) 基于多任务学习的网络安全领域文本数据实体关系抽取法
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN115510242A (zh) 一种中医文本实体关系联合抽取方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
Wang et al. Deep enhanced weakly-supervised hashing with iterative tag refinement
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114138971A (zh) 一种基于遗传算法的极大多标签分类方法
CN111210878A (zh) 一种基于深度学习的药物预测方法
CN117370578A (zh) 一种基于多模态信息进行食品安全知识图谱补全的方法
CN112560487A (zh) 一种基于国产设备的实体关系抽取方法及***
CN117390131A (zh) 一种用于多领域的文本情感分类方法
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱***
CN115762706A (zh) 一种基于深度学习的药物表征方法及存储介质
CN111782964B (zh) 一种社区帖子的推荐方法
Cui et al. Deep hashing with multi-central ranking loss for multi-label image retrieval
Wang et al. Improved fine-grained object retrieval with Hard Global Softmin Loss objective
Puente et al. Predicting COVID-19 Cases using Deep LSTM and CNN Models
CN114841261B (zh) 增量宽度和深度学习的药物反应预测方法、介质和设备
Chen et al. Sampled in Pairs and Driven by Text: A New Graph Embedding Framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant