CN114093422A - 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其*** - Google Patents

一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其*** Download PDF

Info

Publication number
CN114093422A
CN114093422A CN202111393459.9A CN202111393459A CN114093422A CN 114093422 A CN114093422 A CN 114093422A CN 202111393459 A CN202111393459 A CN 202111393459A CN 114093422 A CN114093422 A CN 114093422A
Authority
CN
China
Prior art keywords
mirna
network
gene
information
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111393459.9A
Other languages
English (en)
Other versions
CN114093422B (zh
Inventor
骆嘉伟
欧阳文珏
申聪
蔡洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202111393459.9A priority Critical patent/CN114093422B/zh
Priority claimed from CN202111393459.9A external-priority patent/CN114093422B/zh
Publication of CN114093422A publication Critical patent/CN114093422A/zh
Application granted granted Critical
Publication of CN114093422B publication Critical patent/CN114093422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多关系图卷积网络的miRNA和基因的相互作用的预测方法及其***。本发明所述方法构建了miRNA与基因的异构信息网络,并基于异构网络利用多关系图卷积网络学习节点的网络拓扑特征;同时,利用循环神经网络捕获基因序列的有效特征。最后,将网络拓扑特征和序列特征结合,使用得到的miRNA和基因的嵌入来计算miRNA‑基因对的关联预测得分。本发明的实现过程无需人工构造特征,是结合表示学习,充分利用多关系图卷积网络的优势并挖掘有效的基因序列信息,更好地捕获了miRNA和基因节点的特征表示。且实验结果表明,本发明MRMTI在miRNA和基因的关联预测方面优于其他对比方法,具有良好预测性能。

Description

一种基于多关系图卷积网络的miRNA和基因相互作用的预测 方法及其***
技术领域
本发明涉及深度学习在生物信息学领域的应用,具体涉及预测与miRNA存在相互作用的基因,提供了一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***。
背景技术
MicroRNA(miRNA)是一种长度约为22nt的小型非编码RNA分子,在细胞生长、分化等多种生物过程中发挥重要作用。MiRNA通过结合mRNA的3'UTRs来调节基因的转录后表达,其异常表达可导致靶基因功能异常,进而引发多种复杂疾病。因此,识别miRNA与基因的相互作用对于揭示miRNA的调控机制及其在复杂疾病发生发展中的作用具有重要意义。
相对于耗时且昂贵的传统生物实验方法,计算方法为验证miRNA靶基因相互作用提供了新的助力。早期的计算方法主要基于人工提取的生物学特征。例如,miRanda基于序列互补性、自由能计算和进化守恒对靶基因进行筛选。随着大数据时代生物数据的积累,相关数据库的建设为机器学习方法提供了可靠的数据源,大量机器学习方法被提出,但是这些方法普遍依赖人工提取的特征。
由于表示学习的优势,它被广泛应用于生物信息学任务中。例如,NIMCGCN方法首先通过图卷积网络学习潜在特征表示,然后将其输入矩阵补全模型,得到miRNA和疾病的关联得分。模型IDDkin整合了图卷积网络、图注意力网络和自适应加权的方法,有效地学习图上的潜在表示,从而增强了对激酶抑制剂的预测能力。在miRNA和基因的关系预测技术领域,IMTRBM构建了加权miRNA-target相互作用网络,然后利用受限玻尔兹曼机自动提取特征并进行预测;SG-LSTM生成miRNA和基因的序列和几何嵌入,然后利用LSTM模型预测候选靶标。这些方法取得了优异的性能,说明了网络表示学习能够更好地表示生物特征,并且在关系预测方面存在很大的潜力,也鼓舞了更多的学者在miRNA和基因的相互作用预测任务中应用表示学习。同时,已有研究表明,在异构网络中同时建模结构和关系数据是有益的。
发明内容
本发明的目的是针对如何更为准确预测与miRNA存在相互作用的基因的技术问题,提供一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***。本发明所述方法整合了miRNA相似性网络,基因相似性网络以及miRNA-基因关联网络以构建miRNA与基因的异构信息网络,然后基于异构网络并利用多关系图卷积学习节点的网络拓扑特征;接着将网络拓扑特征和基因特征信息结合,使用得到的miRNA和基因的嵌入来计算miRNA-基因对的关联预测得分,进而提供了一种全新的技术手段来准确预测与miRNA存在相互作用的基因。
一方面,本发明提供的一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法,其包括以下步骤:
步骤S1:构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
步骤S2:构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
其中,所述多关系图卷积网络提取的异构信息网络节点对应miRNA或基因;
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
进一步可选的,所述基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示的过程如下:
确定所述miRNA-基因异构信息网络中网络节点的初始特征;
针对所述多关系图卷积网络中每一层分别执行如下操作更新网络节点的特征表示,最后一层得到的特征表示为网络节点的网络拓扑特征表示;
其中,针对多关系图卷积网络中第l层,网络节点对应的特征表示的更新值的获取过程如下:
基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算来自相邻节点的邻域信息;
基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算网络节点的自循环信息;
将网络节点对应的邻域信息与自循环信息叠加得到给定关系类型r下网络节点对应的传递信息;
整合所有关系类型下的传递信息作为网络节点在第l层对应的特征表示的更新值,将其作为网络节点在第l+1层对应的特征表示。
进一步可选地,来自相邻节点的邻域信息和/或网络节点的自循环信息如下所示:
Figure BDA0003369141790000021
其中,
Figure BDA0003369141790000031
表示在图卷积第l层中传递给网络节点i的邻域信息,
Figure BDA0003369141790000032
表示网络节点i在关系类型r下的邻居节点集合,
Figure BDA0003369141790000033
表示网络节点j在多关系图卷积网络中第l层的特征表示,
Figure BDA0003369141790000034
为归一化常数,
Figure BDA0003369141790000035
表示给定关系类型r的权值矩阵;
Figure BDA0003369141790000036
其中,
Figure BDA0003369141790000037
表示在图卷积第l层中网络节点i的自循环信息,
Figure BDA0003369141790000038
表示网络节点i在多关系图卷积网络中第l层的特征表示,归一化常量
Figure BDA0003369141790000039
Figure BDA00033691417900000310
为邻居节点集合
Figure BDA00033691417900000311
的大小,并使用邻居节点个数表示。
其中,异构网络中包含的关系类型r一般为同类节点之间的相似关系,异类节点之间的相互作用关系,即miRNA与miRNA、基因与基因之间的相似关系以及miRNA和基因之间的相互作用关系;
进一步可选地,整合所有关系类型下的传递信息的公式如下:
Figure BDA00033691417900000312
其中,
Figure BDA00033691417900000313
表示针对网络节点i整合所有关系类型下的传递信息,即作为网络节点i在第l+1层对应的特征表示;σ(·)为ReLU激活函数,
Figure BDA00033691417900000314
为异构网络中的关系类型集合,
Figure BDA00033691417900000315
表示到给定关系类型r下网络节点i对应的传递信息。
进一步可选地,步骤S2中融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因的关联得分的过程,具体是:
将基因的网络拓扑特征表示和基因特征信息进行拼接,利用一个可学习的转换矩阵来对拼接后的特征进行压缩使得其与miRNA嵌入到相同维度的特征空间中;
计算基因对应压缩后的特征和miRNA的网络拓扑特征表示的内积,并作为预测函数的输入值得到miRNA-基因的关联得分。
进一步可选地,所述预测函数表示为:
Figure BDA00033691417900000316
其中,σ为sigmoid函数,
Figure BDA00033691417900000317
为miRNAmi的网络拓扑特征表示,
Figure BDA00033691417900000318
为基因gj经过特征拼接和压缩之后得到的嵌入表示,满足如下:
Figure BDA00033691417900000319
其中,
Figure BDA0003369141790000041
表示与miRNA嵌入维度相同的基因gi的嵌入表示,Wp为转换矩阵,concat(·)表示拼接操作,
Figure BDA0003369141790000042
Figure BDA0003369141790000043
分别表示基因gi的网络拓扑特征表示和基因特征信息。
进一步可选地,步骤S2中所述基因特征信息为基因序列特征。
第二方面,本发明提供一种基于上述miRNA和基因相互作用的预测方法的***,其包括:
miRNA-基因异构信息网络构建模块,用于构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
预测模型构建模块,用于构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
训练模块,用于利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
预测模块,用于利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
第三方面,本发明提供一种电子终端,其包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
所述处理器调用所述计算机程序以实现:
一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的步骤。
第四方面,本发明提供一种可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以实现:
一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的步骤。
有益效果
本发明提供的一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法,其构建了miRNA与基因的异构信息网络,然后基于异构网络,利用多关系图卷积学习节点的网络拓扑特征;接着将网络拓扑特征和基因特征信息结合,使用得到的miRNA和基因的嵌入来计算miRNA-基因对的关联预测得分,进而提供了一种全新的技术手段来准确预测与miRNA存在相互作用的基因,丰富了miRNA和基因相互作用的预测手段,其中,利用多关系图卷积学习节点的网络拓扑特征,能够更为充分地获取到节点在异构图中结构和关系特征,进而提高预测精度。
附图说明
图1为本发明实例所述的MRMTI模型框架示意图。
图2为本发明实例所述的方法与其他方法的ROC曲线展示图。
图3为本发明实施例提供的一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的流程示意图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
实施例1:
如图1所示,本实施例提供的一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法,包括以下步骤:
步骤S1:构建miRNA-基因异构信息网络。其中,整合miRNA相似性网络、基因相似性网络和已知miRNA-基因二分网络得到miRNA-基因异构信息网络。
本实施例中,从miRBase数据库获取miRNA序列,通过整体序列比较算法Needleman-Wunsch计算得到所有miRNA-miRNA对之间的序列相似性分数,对每一个miRNA保留与其最相关的10个邻居节点,即保留相似度评分最高的10条miRNA-miRNA关系数据,进而构建出miRNA相似性网络。应当理解,本发明并不局限于保留10个邻居节点,其他可行的实施例中,可以根据模型效果以及预测精度需求进行适应性调整。
本实施例中,从HumanNet数据库下载基因功能相似性数据,其首先剔除所有小于平均值的功能相似性关系数据和基因-基因网络中度(边数)小于10的节点,然后对每一个基因保留相似度分数最高的10条关系数据,进而构建出基因相似性网络。应当理解,本发明并不局限于保留10条关系数据,其他可行的实施例中,可以根据模型效果以及预测精度需求进行适应性调整。
本实施例中,从miRTarBase数据库下载已知实验验证的人类miRNA-靶基因关联数据,进而构建出已知miRNA-基因二分网络。
其中,将miRNA相似性网络、基因相似性网络和已知miRNA-基因二分网络整合后得到如图1中A部分的miRNA-基因异构信息网络。
本实施例中经过数据预处理,最终构建的异构信息网络包含2546个miRNA和7880个基因之间的18033条miRNA-miRNA关联数据,127772条基因-基因关联数据,以及211111条miRNA-基因相互作用数据。
步骤S2:构建miRNA和基因相互作用的预测模型。其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示;并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因的关联得分。
本实施例中基因特征信息优先选择基因序列特征,其他可行的实施例中,满足预测需求以及精度要求的基础上选择其他基因特征也是可行的,本发明对此不进行具体的限定。
关于基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,本发明利用多关系图卷积编码模块,在miRNA-基因异构信息网络上进行消息传递操作,得到miRNA和基因的网络拓扑特征表示,如图1模块B所示。其具体过程如下:
A:确定所述miRNA-基因异构信息网络中网络节点的初始特征。本实施例中使用one-hot编码作为网络节点的初始特征。
B:针对所述多关系图卷积网络中每一层分别执行如下操作更新网络节点的特征表示,最后一层得到的特征表示为网络节点的网络拓扑特征表示。
其中,针对多关系图卷积网络中第l层,网络节点对应的特征表示的更新值的获取过程如下:
B-1:基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算来自相邻节点的邻域信息,其信息传播规则定义如下:
Figure BDA0003369141790000061
其中,
Figure BDA0003369141790000062
表示在图卷积第l层中传递给网络节点i的邻域信息,
Figure BDA0003369141790000063
表示网络节点i在关系类型r下的邻居节点集合,
Figure BDA0003369141790000064
表示网络节点j在多关系图卷积网络中第l层的特征表示,
Figure BDA0003369141790000065
为归一化常数,
Figure BDA0003369141790000066
表示给定关系类型r的权值矩阵。
B-2:基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算网络节点的自循环信息,定义如下:
Figure BDA0003369141790000067
其中,
Figure BDA0003369141790000068
表示在图卷积第l层中网络节点i的自循环信息,
Figure BDA0003369141790000069
表示网络节点i在多关系图卷积网络中第l层的特征表示,归一化常量
Figure BDA00033691417900000610
B-3:将网络节点对应的邻域信息与自循环信息叠加得到给定关系类型r下网络节点对应的传递信息;
Figure BDA00033691417900000611
式中,
Figure BDA0003369141790000071
表示到给定关系类型r下网络节点i对应的传递信息。
B-4:整合所有关系类型下的传递信息作为网络节点在第l层对应的特征表示的更新值,将其作为网络节点在第l+1层对应的特征表示。
Figure BDA0003369141790000072
其中,
Figure BDA0003369141790000073
表示针对网络节点i整合所有关系类型下的传递信息,即作为网络节点i在第l+1层对应的特征表示;σ(·)为ReLU激活函数,
Figure BDA0003369141790000074
为异构网络中的关系类型集合。
应当理解,上述网络节点的计算过程均适用于miRNA节点和基因节点。
关于基因序列特征的提取,是使用word2vec模型来将基因序列(ATGC碱基序列)转化为实值嵌入,然后利用双向长短期记忆网络进行有效基因序列信息的挖掘,得到基因的序列特征表示,如图1模块C所示。其中,本发明将基因序列转化为实值嵌入的过程,是首先将获取的基因序列切分为k-mer片段,将这些片段视为“词”,然后通过预训练的word2vec模型将它们映射为实值嵌入。其中,word2vec模型以及双向长短期记忆网络均是现有技术,因此对其不进行具体的陈述。
关于融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因的关联得分的过程,其具体实现过程如下:
a:将基因的网络拓扑特征表示和基因特征信息进行拼接。
b:利用一个可学习的转换矩阵来对拼接后的特征进行压缩,使其与miRNA嵌入到相同维度的特征空间中。
其中,特征拼接和压缩过程公式如下:
Figure BDA0003369141790000075
其中,
Figure BDA0003369141790000076
表示与miRNA嵌入维度相同的基因gi的嵌入表示,Wp为转换矩阵,concat(·)表示拼接操作,
Figure BDA0003369141790000077
Figure BDA0003369141790000078
分别表示基因gi的网络拓扑特征表示和基因特征信息。
c:计算基因对应压缩后的特征和miRNA的网络拓扑特征表示的内积,并作为预测函数的输入值得到miRNA-基因的关联得分。
本实施例中选择sigmoid函数为预测函数,具体如下:
Figure BDA0003369141790000079
其中,σ为sigmoid函数,
Figure BDA00033691417900000710
为miRNAmi的网络拓扑特征表示。
由上可知,本发明通过特征融合和预测函数可以得到miRNA-基因的关联得分预测值。进而基于步骤S1中已知miRNA-基因对的关联数据可以进行模型训练与调整。其中,已知miRNA-基因的关联数据为关联得分预测值是同一类数据或者两者可以实现转换。本实施例中,已知的关联数据是表示两者之间有无关联,有则=1,无则=0;关联得分是0-1之间的值,基于划定的阈值,大于该阈值则认为是有关联。
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练。
本实施例中将Hinge损失函数作为预测模型的损失函数,以最小化损失Loss为目标,结合BP算法利用Adam优化器更新模型参数,使得模型随着训练的进行,输出越来越接近正确输入数据。损失函数表达式如下:
Figure BDA0003369141790000081
其中,
Figure BDA0003369141790000082
表示异构网络中的关系类型集合,S+表示正样本集合,S-表示随机采样的负样本集合,负样本与正样本数量一致,
Figure BDA0003369141790000083
Figure BDA0003369141790000084
分别表示正样本和负样本的预测值,amrgin为人为选定的超参数,根据经验设置为0.3。
应当理解,其他可行的实施例中,采用其他损失函数或者其他技术手段来实现模型调整均是可行的,本发明对此不进行具体的限定以及约束。
应当理解,模型的训练过程是基于步骤S1的miRNA-基因异构信息网络数据以及对应的基因特征数据(本实施例中基因序列数据)完成的。如根据已知miRNA-基因对的关联数据确定其关联得分,并按照前述特征融合的方法以及预测函数确定预测模型下对应miRNA-基因对的关联得分预测值,进而依据实际值以及预测值进行模型调整。
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
应当理解,针对未知关联数据的miRNA-基因对,按照前述a-c过程可以计算关联得分。本发明还优选计算出所有未知miRNA-基因对的相关性分数,根据相关性分数从高到低排序,得到潜在的miRNA-基因关联列表。
综上所述,本发明提供了一种基于多关系图嵌入融合基因序列信息的miRNA和基因相互作用预测方法,为避免传统特征提取方法的局限性,本方法在多源异构信息网络上借助多关系图卷积自动提取高质量的网络拓扑特征,同时利用双向长短期记忆网络充分挖掘基因更深层次的序列特征,以端到端的方式训练模型,有助于提高miRNA和基因的关联预测精度,为进一步了解miRNA的调控作用提供有价值的参考。此外,本发明基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,充分考虑到了不同关系类型的差别,最终整合所有关系类型下的传递信息,相较于现有的基于图嵌入方法忽略了异构网络中关系类型的影响情况,本发明可以有效改善现有技术的缺陷,提高预测精度。
实施例2:本实施例提供一种基于上述miRNA和基因相互作用的预测方法的***,其包括:
miRNA-基因异构信息网络构建模块,用于构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
预测模型构建模块,用于构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
训练模块,用于利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
预测模块,用于利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
在一些可行的方式中,预测模型包括多关系图卷积编码模块、基因序列特征提取模块、信息融合和关联分数预测模块。其中,多关系图卷积编码模块用于基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示。基因序列特征提取模块用于提取基因序列特征。信息融合用于融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息。关联分数预测模块用于将融合的特征输入预测函数,得到的输出值作为miRNA-基因对的关联得分。
还应当理解,上述单元模块的具体实现过程参照方法内容,本发明在此不进行具体的赘述,且上述功能模块单元的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
实施例3:
本实施例提供一种电子终端,其包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
所述处理器调用所述计算机程序以实现:
一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的步骤。具体实现:
步骤S1:构建miRNA-基因异构信息网络。
步骤S2:构建miRNA和基因相互作用的预测模型。
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练。
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
各个步骤的具体实现过程请参照前述方法的阐述。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息
实施例4:
本发明提供一种可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以实现:
一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的步骤。具体实现:
步骤S1:构建miRNA-基因异构信息网络。
步骤S2:构建miRNA和基因相互作用的预测模型。
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练。
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
各个步骤的具体实现过程请参照前述方法的阐述。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
结果评估:
将使用本发明所述方法预测得到的结果与真实标签对比,计算真阳性率(TPR)和假阳性率(FPR),绘制ROC曲线并计算ROC曲线下的面积得到AUC值,AUC值越大说明模型的预测性能越好。将本发明所述MRMTI模型与KATZ、SG-LSTM以及LINE方法进行对比。如图2所示,MRMTI模型的AUC值为0.9183,显著高于KATZ(0.8886)、SG-LSTM(0.8581)以及LINE(0.8290)方法,说明了MRMTI模型的预测性能优于其他对比方法,能有效提高miRNA和基因的关系预测精度,提供潜在的miRNA-基因关联列表,具备一定的实用性。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。

Claims (10)

1.一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法,其特征在于:包括以下步骤:
步骤S1:构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
步骤S2:构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
其中,所述多关系图卷积网络提取的异构信息网络节点对应miRNA或基因;
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
2.根据权利要求1所述的方法,其特征在于:所述基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示的过程如下:
确定所述miRNA-基因异构信息网络中网络节点的初始特征;
针对所述多关系图卷积网络中每一层分别执行如下操作更新网络节点的特征表示,最后一层得到的特征表示为网络节点的网络拓扑特征表示;
其中,针对多关系图卷积网络中第l层,网络节点对应的特征表示的更新值的获取过程如下:
基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算来自相邻节点的邻域信息;
基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算网络节点的自循环信息;
将网络节点对应的邻域信息与自循环信息叠加得到给定关系类型r下网络节点对应的传递信息;
整合所有关系类型下的传递信息作为网络节点在第l层对应的特征表示的更新值,将其作为网络节点在第l+1层对应的特征表示。
3.根据权利要求2所述的方法,其特征在于:来自相邻节点的邻域信息和/或网络节点的自循环信息如下所示:
Figure FDA0003369141780000011
其中,
Figure FDA0003369141780000012
表示在图卷积第l层中传递给网络节点i的邻域信息,
Figure FDA0003369141780000013
表示网络节点i在关系类型r下的邻居节点集合,
Figure FDA0003369141780000021
表示网络节点j在多关系图卷积网络中第l层的特征表示,
Figure FDA0003369141780000022
为归一化常数,
Figure FDA0003369141780000023
表示给定关系类型r的权值矩阵;
Figure FDA0003369141780000024
其中,
Figure FDA0003369141780000025
表示在图卷积第l层中网络节点i的自循环信息,
Figure FDA0003369141780000026
表示网络节点i在多关系图卷积网络中第l层的特征表示,归一化常量
Figure FDA0003369141780000027
4.根据权利要求2所述的方法,其特征在于:整合所有关系类型下的传递信息的公式如下:
Figure FDA0003369141780000028
其中,
Figure FDA0003369141780000029
表示针对网络节点i整合所有关系类型下的传递信息,即作为网络节点i在第l+1层对应的特征表示;σ(·)为ReLU激活函数,
Figure FDA00033691417800000210
为异构网络中的关系类型集合,
Figure FDA00033691417800000211
表示到给定关系类型r下网络节点i对应的传递信息。
5.根据权利要求1所述的方法,其特征在于:步骤S2中融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因的关联得分的过程,具体是:
将基因的网络拓扑特征表示和基因特征信息进行拼接,利用一个可学习的转换矩阵来对拼接后的特征进行压缩使得其与miRNA嵌入到相同维度的特征空间中;
计算基因对应压缩后的特征和miRNA的网络拓扑特征表示的内积,并作为预测函数的输入值得到miRNA-基因的关联得分。
6.根据权利要求5所述的方法,其特征在于:所述预测函数表示为:
Figure FDA00033691417800000212
其中,σ为sigmoid函数,
Figure FDA00033691417800000213
为miRNAmi的网络拓扑特征表示,
Figure FDA00033691417800000214
为基因gj经过特征拼接和压缩之后得到的嵌入表示,满足如下:
Figure FDA00033691417800000215
其中,
Figure FDA00033691417800000216
表示与miRNA嵌入维度相同的基因gi的嵌入表示,Wp为转换矩阵,concat(·)表示拼接操作,
Figure FDA00033691417800000217
Figure FDA00033691417800000218
分别表示基因gi的网络拓扑特征表示和基因特征信息。
7.根据权利要求1所述的方法,其特征在于:步骤S2中所述基因特征信息为基因序列特征。
8.一种基于权利要求1-7任一项所述方法的***,其特征在于:包括:
miRNA-基因异构信息网络构建模块,用于构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
预测模型构建模块,用于构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
训练模块,用于利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
预测模块,用于利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
9.一种电子终端,其特征在于:包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
所述处理器调用所述计算机程序以实现:
权利要求1-7任一项所述方法的步骤。
10.一种可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用以实现:
权利要求1-7任一项所述方法的步骤。
CN202111393459.9A 2021-11-23 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其*** Active CN114093422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111393459.9A CN114093422B (zh) 2021-11-23 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111393459.9A CN114093422B (zh) 2021-11-23 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***

Publications (2)

Publication Number Publication Date
CN114093422A true CN114093422A (zh) 2022-02-25
CN114093422B CN114093422B (zh) 2024-06-25

Family

ID=

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223657A (zh) * 2022-09-20 2022-10-21 吉林农业大学 一种药用植物转录调控图谱预测方法
CN116959561A (zh) * 2023-09-21 2023-10-27 北京科技大学 一种基于神经网络模型的基因相互作用预测方法和装置
CN117974340A (zh) * 2024-03-29 2024-05-03 昆明理工大学 结合深度学习分类与图聚类的社交媒体事件检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223657A (zh) * 2022-09-20 2022-10-21 吉林农业大学 一种药用植物转录调控图谱预测方法
CN116959561A (zh) * 2023-09-21 2023-10-27 北京科技大学 一种基于神经网络模型的基因相互作用预测方法和装置
CN116959561B (zh) * 2023-09-21 2023-12-19 北京科技大学 一种基于神经网络模型的基因相互作用预测方法和装置
CN117974340A (zh) * 2024-03-29 2024-05-03 昆明理工大学 结合深度学习分类与图聚类的社交媒体事件检测方法

Similar Documents

Publication Publication Date Title
CN109243538B (zh) 一种预测疾病与LncRNA关联关系的方法及***
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
Park et al. Deep recurrent neural network-based identification of precursor micrornas
CN112270958B (zh) 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN107679367A (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及***
CN112131399A (zh) 基于知识图谱的老药新用分析方法和***
Chakraborty et al. Predicting MicroRNA sequence using CNN and LSTM stacked in Seq2Seq architecture
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
CN110808095B (zh) 诊断结果识别、模型训练的方法、计算机设备及存储介质
CN114999635A (zh) 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法
CN114093422A (zh) 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***
CN114093422B (zh) 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***
CN109147936B (zh) 基于深度学习的非编码rna与疾病之间关联的预测方法
CN115995293A (zh) 一种环状rna和疾病关联预测方法
CN113241123B (zh) 一种融合多种特征识别增强子及其强度的方法、***
CN115810398A (zh) 一种基于多特征融合的tf-dna结合识别方法
CN113539479B (zh) 一种基于相似性约束的miRNA-疾病关联预测方法及***
CN115691817A (zh) 一种基于融合神经网络的LncRNA-疾病关联预测方法
CN116246698A (zh) 基于神经网络的信息提取方法、装置、设备及存储介质
CN115295156A (zh) 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法
Yan et al. DNA-binding protein prediction based on deep transfer learning
CN112885405A (zh) 疾病关联miRNA的预测方法和***
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
CN117095738A (zh) 一种基于聚类的lncRNA-蛋白质相互作用关系的预测方法
Cai et al. Online intervention siamese tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant