CN114093422A - 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其*** - Google Patents
一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其*** Download PDFInfo
- Publication number
- CN114093422A CN114093422A CN202111393459.9A CN202111393459A CN114093422A CN 114093422 A CN114093422 A CN 114093422A CN 202111393459 A CN202111393459 A CN 202111393459A CN 114093422 A CN114093422 A CN 114093422A
- Authority
- CN
- China
- Prior art keywords
- mirna
- network
- gene
- information
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000003993 interaction Effects 0.000 title claims abstract description 33
- 229920002477 rna polymer Polymers 0.000 title description 2
- 239000002679 microRNA Substances 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 19
- 108091070501 miRNA Proteins 0.000 claims abstract description 15
- 238000010276 construction Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 230000000306 recurrent effect Effects 0.000 abstract 1
- 108700011259 MicroRNAs Proteins 0.000 description 61
- 238000000605 extraction Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 108020005345 3' Untranslated Regions Proteins 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 108091030146 MiRBase Proteins 0.000 description 1
- 108091033317 MiRTarBase Proteins 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229940043355 kinase inhibitor Drugs 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000003757 phosphotransferase inhibitor Substances 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多关系图卷积网络的miRNA和基因的相互作用的预测方法及其***。本发明所述方法构建了miRNA与基因的异构信息网络,并基于异构网络利用多关系图卷积网络学习节点的网络拓扑特征;同时,利用循环神经网络捕获基因序列的有效特征。最后,将网络拓扑特征和序列特征结合,使用得到的miRNA和基因的嵌入来计算miRNA‑基因对的关联预测得分。本发明的实现过程无需人工构造特征,是结合表示学习,充分利用多关系图卷积网络的优势并挖掘有效的基因序列信息,更好地捕获了miRNA和基因节点的特征表示。且实验结果表明,本发明MRMTI在miRNA和基因的关联预测方面优于其他对比方法,具有良好预测性能。
Description
技术领域
本发明涉及深度学习在生物信息学领域的应用,具体涉及预测与miRNA存在相互作用的基因,提供了一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***。
背景技术
MicroRNA(miRNA)是一种长度约为22nt的小型非编码RNA分子,在细胞生长、分化等多种生物过程中发挥重要作用。MiRNA通过结合mRNA的3'UTRs来调节基因的转录后表达,其异常表达可导致靶基因功能异常,进而引发多种复杂疾病。因此,识别miRNA与基因的相互作用对于揭示miRNA的调控机制及其在复杂疾病发生发展中的作用具有重要意义。
相对于耗时且昂贵的传统生物实验方法,计算方法为验证miRNA靶基因相互作用提供了新的助力。早期的计算方法主要基于人工提取的生物学特征。例如,miRanda基于序列互补性、自由能计算和进化守恒对靶基因进行筛选。随着大数据时代生物数据的积累,相关数据库的建设为机器学习方法提供了可靠的数据源,大量机器学习方法被提出,但是这些方法普遍依赖人工提取的特征。
由于表示学习的优势,它被广泛应用于生物信息学任务中。例如,NIMCGCN方法首先通过图卷积网络学习潜在特征表示,然后将其输入矩阵补全模型,得到miRNA和疾病的关联得分。模型IDDkin整合了图卷积网络、图注意力网络和自适应加权的方法,有效地学习图上的潜在表示,从而增强了对激酶抑制剂的预测能力。在miRNA和基因的关系预测技术领域,IMTRBM构建了加权miRNA-target相互作用网络,然后利用受限玻尔兹曼机自动提取特征并进行预测;SG-LSTM生成miRNA和基因的序列和几何嵌入,然后利用LSTM模型预测候选靶标。这些方法取得了优异的性能,说明了网络表示学习能够更好地表示生物特征,并且在关系预测方面存在很大的潜力,也鼓舞了更多的学者在miRNA和基因的相互作用预测任务中应用表示学习。同时,已有研究表明,在异构网络中同时建模结构和关系数据是有益的。
发明内容
本发明的目的是针对如何更为准确预测与miRNA存在相互作用的基因的技术问题,提供一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***。本发明所述方法整合了miRNA相似性网络,基因相似性网络以及miRNA-基因关联网络以构建miRNA与基因的异构信息网络,然后基于异构网络并利用多关系图卷积学习节点的网络拓扑特征;接着将网络拓扑特征和基因特征信息结合,使用得到的miRNA和基因的嵌入来计算miRNA-基因对的关联预测得分,进而提供了一种全新的技术手段来准确预测与miRNA存在相互作用的基因。
一方面,本发明提供的一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法,其包括以下步骤:
步骤S1:构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
步骤S2:构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
其中,所述多关系图卷积网络提取的异构信息网络节点对应miRNA或基因;
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
进一步可选的,所述基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示的过程如下:
确定所述miRNA-基因异构信息网络中网络节点的初始特征;
针对所述多关系图卷积网络中每一层分别执行如下操作更新网络节点的特征表示,最后一层得到的特征表示为网络节点的网络拓扑特征表示;
其中,针对多关系图卷积网络中第l层,网络节点对应的特征表示的更新值的获取过程如下:
基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算来自相邻节点的邻域信息;
基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算网络节点的自循环信息;
将网络节点对应的邻域信息与自循环信息叠加得到给定关系类型r下网络节点对应的传递信息;
整合所有关系类型下的传递信息作为网络节点在第l层对应的特征表示的更新值,将其作为网络节点在第l+1层对应的特征表示。
进一步可选地,来自相邻节点的邻域信息和/或网络节点的自循环信息如下所示:
其中,异构网络中包含的关系类型r一般为同类节点之间的相似关系,异类节点之间的相互作用关系,即miRNA与miRNA、基因与基因之间的相似关系以及miRNA和基因之间的相互作用关系;
进一步可选地,整合所有关系类型下的传递信息的公式如下:
其中,表示针对网络节点i整合所有关系类型下的传递信息,即作为网络节点i在第l+1层对应的特征表示;σ(·)为ReLU激活函数,为异构网络中的关系类型集合,表示到给定关系类型r下网络节点i对应的传递信息。
进一步可选地,步骤S2中融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因的关联得分的过程,具体是:
将基因的网络拓扑特征表示和基因特征信息进行拼接,利用一个可学习的转换矩阵来对拼接后的特征进行压缩使得其与miRNA嵌入到相同维度的特征空间中;
计算基因对应压缩后的特征和miRNA的网络拓扑特征表示的内积,并作为预测函数的输入值得到miRNA-基因的关联得分。
进一步可选地,所述预测函数表示为:
进一步可选地,步骤S2中所述基因特征信息为基因序列特征。
第二方面,本发明提供一种基于上述miRNA和基因相互作用的预测方法的***,其包括:
miRNA-基因异构信息网络构建模块,用于构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
预测模型构建模块,用于构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
训练模块,用于利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
预测模块,用于利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
第三方面,本发明提供一种电子终端,其包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
所述处理器调用所述计算机程序以实现:
一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的步骤。
第四方面,本发明提供一种可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以实现:
一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的步骤。
有益效果
本发明提供的一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法,其构建了miRNA与基因的异构信息网络,然后基于异构网络,利用多关系图卷积学习节点的网络拓扑特征;接着将网络拓扑特征和基因特征信息结合,使用得到的miRNA和基因的嵌入来计算miRNA-基因对的关联预测得分,进而提供了一种全新的技术手段来准确预测与miRNA存在相互作用的基因,丰富了miRNA和基因相互作用的预测手段,其中,利用多关系图卷积学习节点的网络拓扑特征,能够更为充分地获取到节点在异构图中结构和关系特征,进而提高预测精度。
附图说明
图1为本发明实例所述的MRMTI模型框架示意图。
图2为本发明实例所述的方法与其他方法的ROC曲线展示图。
图3为本发明实施例提供的一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的流程示意图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
实施例1:
如图1所示,本实施例提供的一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法,包括以下步骤:
步骤S1:构建miRNA-基因异构信息网络。其中,整合miRNA相似性网络、基因相似性网络和已知miRNA-基因二分网络得到miRNA-基因异构信息网络。
本实施例中,从miRBase数据库获取miRNA序列,通过整体序列比较算法Needleman-Wunsch计算得到所有miRNA-miRNA对之间的序列相似性分数,对每一个miRNA保留与其最相关的10个邻居节点,即保留相似度评分最高的10条miRNA-miRNA关系数据,进而构建出miRNA相似性网络。应当理解,本发明并不局限于保留10个邻居节点,其他可行的实施例中,可以根据模型效果以及预测精度需求进行适应性调整。
本实施例中,从HumanNet数据库下载基因功能相似性数据,其首先剔除所有小于平均值的功能相似性关系数据和基因-基因网络中度(边数)小于10的节点,然后对每一个基因保留相似度分数最高的10条关系数据,进而构建出基因相似性网络。应当理解,本发明并不局限于保留10条关系数据,其他可行的实施例中,可以根据模型效果以及预测精度需求进行适应性调整。
本实施例中,从miRTarBase数据库下载已知实验验证的人类miRNA-靶基因关联数据,进而构建出已知miRNA-基因二分网络。
其中,将miRNA相似性网络、基因相似性网络和已知miRNA-基因二分网络整合后得到如图1中A部分的miRNA-基因异构信息网络。
本实施例中经过数据预处理,最终构建的异构信息网络包含2546个miRNA和7880个基因之间的18033条miRNA-miRNA关联数据,127772条基因-基因关联数据,以及211111条miRNA-基因相互作用数据。
步骤S2:构建miRNA和基因相互作用的预测模型。其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示;并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因的关联得分。
本实施例中基因特征信息优先选择基因序列特征,其他可行的实施例中,满足预测需求以及精度要求的基础上选择其他基因特征也是可行的,本发明对此不进行具体的限定。
关于基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,本发明利用多关系图卷积编码模块,在miRNA-基因异构信息网络上进行消息传递操作,得到miRNA和基因的网络拓扑特征表示,如图1模块B所示。其具体过程如下:
A:确定所述miRNA-基因异构信息网络中网络节点的初始特征。本实施例中使用one-hot编码作为网络节点的初始特征。
B:针对所述多关系图卷积网络中每一层分别执行如下操作更新网络节点的特征表示,最后一层得到的特征表示为网络节点的网络拓扑特征表示。
其中,针对多关系图卷积网络中第l层,网络节点对应的特征表示的更新值的获取过程如下:
B-1:基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算来自相邻节点的邻域信息,其信息传播规则定义如下:
B-2:基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算网络节点的自循环信息,定义如下:
B-3:将网络节点对应的邻域信息与自循环信息叠加得到给定关系类型r下网络节点对应的传递信息;
B-4:整合所有关系类型下的传递信息作为网络节点在第l层对应的特征表示的更新值,将其作为网络节点在第l+1层对应的特征表示。
应当理解,上述网络节点的计算过程均适用于miRNA节点和基因节点。
关于基因序列特征的提取,是使用word2vec模型来将基因序列(ATGC碱基序列)转化为实值嵌入,然后利用双向长短期记忆网络进行有效基因序列信息的挖掘,得到基因的序列特征表示,如图1模块C所示。其中,本发明将基因序列转化为实值嵌入的过程,是首先将获取的基因序列切分为k-mer片段,将这些片段视为“词”,然后通过预训练的word2vec模型将它们映射为实值嵌入。其中,word2vec模型以及双向长短期记忆网络均是现有技术,因此对其不进行具体的陈述。
关于融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因的关联得分的过程,其具体实现过程如下:
a:将基因的网络拓扑特征表示和基因特征信息进行拼接。
b:利用一个可学习的转换矩阵来对拼接后的特征进行压缩,使其与miRNA嵌入到相同维度的特征空间中。
其中,特征拼接和压缩过程公式如下:
c:计算基因对应压缩后的特征和miRNA的网络拓扑特征表示的内积,并作为预测函数的输入值得到miRNA-基因的关联得分。
本实施例中选择sigmoid函数为预测函数,具体如下:
由上可知,本发明通过特征融合和预测函数可以得到miRNA-基因的关联得分预测值。进而基于步骤S1中已知miRNA-基因对的关联数据可以进行模型训练与调整。其中,已知miRNA-基因的关联数据为关联得分预测值是同一类数据或者两者可以实现转换。本实施例中,已知的关联数据是表示两者之间有无关联,有则=1,无则=0;关联得分是0-1之间的值,基于划定的阈值,大于该阈值则认为是有关联。
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练。
本实施例中将Hinge损失函数作为预测模型的损失函数,以最小化损失Loss为目标,结合BP算法利用Adam优化器更新模型参数,使得模型随着训练的进行,输出越来越接近正确输入数据。损失函数表达式如下:
应当理解,其他可行的实施例中,采用其他损失函数或者其他技术手段来实现模型调整均是可行的,本发明对此不进行具体的限定以及约束。
应当理解,模型的训练过程是基于步骤S1的miRNA-基因异构信息网络数据以及对应的基因特征数据(本实施例中基因序列数据)完成的。如根据已知miRNA-基因对的关联数据确定其关联得分,并按照前述特征融合的方法以及预测函数确定预测模型下对应miRNA-基因对的关联得分预测值,进而依据实际值以及预测值进行模型调整。
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
应当理解,针对未知关联数据的miRNA-基因对,按照前述a-c过程可以计算关联得分。本发明还优选计算出所有未知miRNA-基因对的相关性分数,根据相关性分数从高到低排序,得到潜在的miRNA-基因关联列表。
综上所述,本发明提供了一种基于多关系图嵌入融合基因序列信息的miRNA和基因相互作用预测方法,为避免传统特征提取方法的局限性,本方法在多源异构信息网络上借助多关系图卷积自动提取高质量的网络拓扑特征,同时利用双向长短期记忆网络充分挖掘基因更深层次的序列特征,以端到端的方式训练模型,有助于提高miRNA和基因的关联预测精度,为进一步了解miRNA的调控作用提供有价值的参考。此外,本发明基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,充分考虑到了不同关系类型的差别,最终整合所有关系类型下的传递信息,相较于现有的基于图嵌入方法忽略了异构网络中关系类型的影响情况,本发明可以有效改善现有技术的缺陷,提高预测精度。
实施例2:本实施例提供一种基于上述miRNA和基因相互作用的预测方法的***,其包括:
miRNA-基因异构信息网络构建模块,用于构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
预测模型构建模块,用于构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
训练模块,用于利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
预测模块,用于利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
在一些可行的方式中,预测模型包括多关系图卷积编码模块、基因序列特征提取模块、信息融合和关联分数预测模块。其中,多关系图卷积编码模块用于基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示。基因序列特征提取模块用于提取基因序列特征。信息融合用于融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息。关联分数预测模块用于将融合的特征输入预测函数,得到的输出值作为miRNA-基因对的关联得分。
还应当理解,上述单元模块的具体实现过程参照方法内容,本发明在此不进行具体的赘述,且上述功能模块单元的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
实施例3:
本实施例提供一种电子终端,其包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
所述处理器调用所述计算机程序以实现:
一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的步骤。具体实现:
步骤S1:构建miRNA-基因异构信息网络。
步骤S2:构建miRNA和基因相互作用的预测模型。
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练。
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
各个步骤的具体实现过程请参照前述方法的阐述。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息
实施例4:
本发明提供一种可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以实现:
一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法的步骤。具体实现:
步骤S1:构建miRNA-基因异构信息网络。
步骤S2:构建miRNA和基因相互作用的预测模型。
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练。
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
各个步骤的具体实现过程请参照前述方法的阐述。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
结果评估:
将使用本发明所述方法预测得到的结果与真实标签对比,计算真阳性率(TPR)和假阳性率(FPR),绘制ROC曲线并计算ROC曲线下的面积得到AUC值,AUC值越大说明模型的预测性能越好。将本发明所述MRMTI模型与KATZ、SG-LSTM以及LINE方法进行对比。如图2所示,MRMTI模型的AUC值为0.9183,显著高于KATZ(0.8886)、SG-LSTM(0.8581)以及LINE(0.8290)方法,说明了MRMTI模型的预测性能优于其他对比方法,能有效提高miRNA和基因的关系预测精度,提供潜在的miRNA-基因关联列表,具备一定的实用性。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。
Claims (10)
1.一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法,其特征在于:包括以下步骤:
步骤S1:构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
步骤S2:构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
其中,所述多关系图卷积网络提取的异构信息网络节点对应miRNA或基因;
步骤S3:利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
步骤S4:利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
2.根据权利要求1所述的方法,其特征在于:所述基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示的过程如下:
确定所述miRNA-基因异构信息网络中网络节点的初始特征;
针对所述多关系图卷积网络中每一层分别执行如下操作更新网络节点的特征表示,最后一层得到的特征表示为网络节点的网络拓扑特征表示;
其中,针对多关系图卷积网络中第l层,网络节点对应的特征表示的更新值的获取过程如下:
基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算来自相邻节点的邻域信息;
基于相关节点在多关系图卷积网络中第l层对应的特征表示,计算网络节点的自循环信息;
将网络节点对应的邻域信息与自循环信息叠加得到给定关系类型r下网络节点对应的传递信息;
整合所有关系类型下的传递信息作为网络节点在第l层对应的特征表示的更新值,将其作为网络节点在第l+1层对应的特征表示。
5.根据权利要求1所述的方法,其特征在于:步骤S2中融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因的关联得分的过程,具体是:
将基因的网络拓扑特征表示和基因特征信息进行拼接,利用一个可学习的转换矩阵来对拼接后的特征进行压缩使得其与miRNA嵌入到相同维度的特征空间中;
计算基因对应压缩后的特征和miRNA的网络拓扑特征表示的内积,并作为预测函数的输入值得到miRNA-基因的关联得分。
7.根据权利要求1所述的方法,其特征在于:步骤S2中所述基因特征信息为基因序列特征。
8.一种基于权利要求1-7任一项所述方法的***,其特征在于:包括:
miRNA-基因异构信息网络构建模块,用于构建miRNA-基因异构信息网络,所述miRNA-基因异构信息网络中包含miRNA-miRNA之间的关系数据、已知miRNA-基因对的关联数据、基因-基因的关系数据;
预测模型构建模块,用于构建miRNA和基因相互作用的预测模型,其中,基于多关系图卷积网络提取异构信息网络节点的网络拓扑特征表示,并针对miRNA-基因对,融合miRNA、基因对应的网络拓扑特征表示以及基因特征信息作为所述预测模型的预测函数的输入值,得到预测函数的输出值作为miRNA-基因对的关联得分;
训练模块,用于利用步骤S1中的miRNA-基因异构信息网络数据对步骤S2中构建的预测模型进行训练;
预测模块,用于利用训练后的预测模型计算未知关联数据的miRNA-基因对的关联得分。
9.一种电子终端,其特征在于:包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
所述处理器调用所述计算机程序以实现:
权利要求1-7任一项所述方法的步骤。
10.一种可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用以实现:
权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111393459.9A CN114093422B (zh) | 2021-11-23 | 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111393459.9A CN114093422B (zh) | 2021-11-23 | 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114093422A true CN114093422A (zh) | 2022-02-25 |
CN114093422B CN114093422B (zh) | 2024-06-25 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223657A (zh) * | 2022-09-20 | 2022-10-21 | 吉林农业大学 | 一种药用植物转录调控图谱预测方法 |
CN116959561A (zh) * | 2023-09-21 | 2023-10-27 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
CN117974340A (zh) * | 2024-03-29 | 2024-05-03 | 昆明理工大学 | 结合深度学习分类与图聚类的社交媒体事件检测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223657A (zh) * | 2022-09-20 | 2022-10-21 | 吉林农业大学 | 一种药用植物转录调控图谱预测方法 |
CN116959561A (zh) * | 2023-09-21 | 2023-10-27 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
CN116959561B (zh) * | 2023-09-21 | 2023-12-19 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
CN117974340A (zh) * | 2024-03-29 | 2024-05-03 | 昆明理工大学 | 结合深度学习分类与图聚类的社交媒体事件检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243538B (zh) | 一种预测疾病与LncRNA关联关系的方法及*** | |
CN111312329B (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
Park et al. | Deep recurrent neural network-based identification of precursor micrornas | |
CN112270958B (zh) | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 | |
CN107679367A (zh) | 一种基于网络节点关联度的共调控网络功能模块识别方法及*** | |
CN112131399A (zh) | 基于知识图谱的老药新用分析方法和*** | |
Chakraborty et al. | Predicting MicroRNA sequence using CNN and LSTM stacked in Seq2Seq architecture | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
CN110808095B (zh) | 诊断结果识别、模型训练的方法、计算机设备及存储介质 | |
CN114999635A (zh) | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 | |
CN114093422A (zh) | 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其*** | |
CN114093422B (zh) | 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其*** | |
CN109147936B (zh) | 基于深度学习的非编码rna与疾病之间关联的预测方法 | |
CN115995293A (zh) | 一种环状rna和疾病关联预测方法 | |
CN113241123B (zh) | 一种融合多种特征识别增强子及其强度的方法、*** | |
CN115810398A (zh) | 一种基于多特征融合的tf-dna结合识别方法 | |
CN113539479B (zh) | 一种基于相似性约束的miRNA-疾病关联预测方法及*** | |
CN115691817A (zh) | 一种基于融合神经网络的LncRNA-疾病关联预测方法 | |
CN116246698A (zh) | 基于神经网络的信息提取方法、装置、设备及存储介质 | |
CN115295156A (zh) | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 | |
Yan et al. | DNA-binding protein prediction based on deep transfer learning | |
CN112885405A (zh) | 疾病关联miRNA的预测方法和*** | |
JP6993250B2 (ja) | コンテンツ特徴量抽出装置、方法、及びプログラム | |
CN117095738A (zh) | 一种基于聚类的lncRNA-蛋白质相互作用关系的预测方法 | |
Cai et al. | Online intervention siamese tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |