CN115101119B - 基于网络嵌入的isoform功能预测*** - Google Patents
基于网络嵌入的isoform功能预测*** Download PDFInfo
- Publication number
- CN115101119B CN115101119B CN202210736865.9A CN202210736865A CN115101119B CN 115101119 B CN115101119 B CN 115101119B CN 202210736865 A CN202210736865 A CN 202210736865A CN 115101119 B CN115101119 B CN 115101119B
- Authority
- CN
- China
- Prior art keywords
- isofam
- network
- gene
- functional
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 169
- 230000006870 function Effects 0.000 claims abstract description 93
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 58
- 238000003559 RNA-seq method Methods 0.000 claims description 21
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 19
- 230000004186 co-expression Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 11
- 230000004931 aggregating effect Effects 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 8
- 239000013604 expression vector Substances 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 abstract description 4
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Physiology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于网络嵌入的isoform功能预测***,通过isoform多组学数据融合,得到更加全面的isoform功能关联网络;通过对isoform进行结构与属性相结合的网络嵌入,使得得到的isoform低维表示可以更好地描述isoform关系;通过对大规模结构化基因本体进行属性层次网络嵌入,可以得到基因本体低维表示,能够有效地降低多示例多标记学习的规模,提高了模型训练效率,减少了计算与时间上的开销,可以更加高效地对isoform的功能进行预测。
Description
技术领域
本发明涉及生物信息学技术领域,特别涉及一种基于网络嵌入的isoform功能预测***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术,并不必然构成现有技术。
isoform(可变剪接异构体)是翻译蛋白质变种的模板,准确地预测isoform的功能,对理解蛋白质变种的功能,对病理研究和药物研究都有着十分重要的意义。因此,如何利用机器学习技术准确地对isoform进行功能预测是当前创新的难点。
发明人发现,目前已有许多基于多示例学习框架的机器学习模型对isoform的功能进行预测;但是,这些现有的预测方法具有一定的局限性,这些方法通常只是利用isoform的序列、RNA-seq数据来直接构建isoform的特征,并没有对isoform的网络结构信息与节点信息进行充分利用,进而限制了这些方法的isoform功能预测能力。
发明内容
为了解决现有技术的不足,本发明提供了一种基于网络嵌入的isoform功能预测***,通过对isoform的多组学数据进行融合,得到isoform功能关联网络,通过网络嵌入学习出有效的isoform低维表示;通过对大规模基因本体标签进行结构与属性结合的网络嵌入来得到基因本体的低维表示,有效提取基因本体标签特征,提高训练的效率,减少训练的时间和计算资源开销;通过多示例多标记学习,对isoform功能进行了更精准和更全面的预测。
为了实现上述目的,本发明采用如下技术方案:
本发明第一方面提供了一种基于网络嵌入的isoform功能预测***。
一种基于网络嵌入的isoform功能预测***,包括:
数据获取模块,被配置为:获取待预测isoform的RNA-seq数据和序列数据、isoform与其从属基因的关联矩阵、isoform从属基因的已知功能标签注释以及基因本体标签的层次结构;
isoform网络嵌入模块,被配置为:通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform嵌入低维表示;
基因本体嵌入模块,被配置为:通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示;
功能预测模块,被配置为:根据isoform嵌入低维表示以及基因本体的低维表示,得到isoform潜在功能注释,将isoform潜在功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,优化得到isoform的功能预测结果。
本发明第二方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
获取待预测isoform的RNA-seq数据和序列数据、isoform与其从属基因的关联矩阵、isoform从属基因的已知功能标签注释以及基因本体标签的层次结构;
通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform嵌入低维表示;
通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示;
根据isoform嵌入低维表示以及基因本体的低维表示,得到isoform潜在功能注释,将isoform潜在功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,优化得到isoform的功能预测结果。
本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:
获取待预测isoform的RNA-seq数据和序列数据、isoform与其从属基因的关联矩阵、isoform从属基因的已知功能标签注释以及基因本体标签的层次结构;
通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform嵌入低维表示;
通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示;
根据isoform嵌入低维表示以及基因本体的低维表示,得到isoform潜在功能注释,将isoform潜在功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,优化得到isoform的功能预测结果。
与现有技术相比,本发明的有益效果是:
1、本发明提供了一种基于网络嵌入的isoform功能预测***,通过网络表示学习对isoform和进行结构和属性相结合的大规模网络嵌入,得到isoform低维表示;对基因本体图结构进行嵌入,得到基因本体低维表示;综合利用isoform与基因本体的信息对isoform功能进行预测,极大的提高了isoform的功能预测精度。
2、本发明提供了一种基于网络嵌入的isoform功能预测***,能够有效地降低多示例多标记学习的规模,提高了模型训练效率,减少了计算与时间上的开销,可以更加高效地对isoform的功能进行预测。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的基于网络嵌入的isoform功能预测***的结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本发明实施例1提供了一种基于网络嵌入的可变剪接异构体功能预测***,包括:
数据获取模块,被配置为:获取待预测isoform的RNA-seq数据和序列数据、isoform与其从属基因的关联矩阵、isoform从属基因的已知功能标签注释以及基因本体标签的层次结构;
isoform网络嵌入模块,被配置为:通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络;将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform的嵌入低维表示;
基因本体嵌入模块,被配置为:通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示;
功能预测模块,被配置为:根据isoform低维表示以及基因本体低维表示,得到isoform潜在功能注释,将isoform功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,最终通过优化得到isoform的功能预测结果。
本实施例中,RNA-seq数据,是指:通过转录组测序得到的反映isoform表达水平的数据;序列数据,是指:isoform翻译得到的蛋白质变种的氨基酸序列数据。
本实施例中,isoform及其从属基因的关联矩阵,是指:每个isoform具有一个基因从属关联向量,向量的长度为所有isoform从属基因的个数,当isoform从属于第i个基因时,则其从属关联向量的第i个元素为1,否则为0。
本实施例中,从属基因的已知功能标签注释,是指:所需预测的isoform所属基因对于功能标签的注释情况,每一个基因具有一个功能注释向量,向量的长度为所有功能标签的数目,当基因具有第i个功能时,其注释向量的第i个元素为1,并且功能标签i在层次有向无环图中的所有祖先标签在该基因注释向量所对应的位置也为1;若不具有第i个功能时,其注释向量的第i个元素为0。
本实施例中,基因本体标签的层次结构,是指:基因本体构成的层次有向无环图结构。
本实施例中,通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,具体包括:
将每个isoform在不同组织上的表达值构成表达向量,通过计算任意两个isoform的表达向量的皮尔逊相关系数得到isoform的共表达网络矩阵;
对任意两个isoform所翻译的氨基酸序列计算序列相似度,并保留每个节点的k个最大近邻节点,得到序列相似度网络矩阵;
通过融合共表达网络和序列相似度网络,构造isoform的功能关联网络。
具体地,对任意两个isoform的共表达网络矩阵对应值和所翻译的氨基酸序列相似度网络矩阵对应值取最大值来得到isoform的功能关联网络矩阵,构造isoform的功能关联网络的公式为:
N=max(Nexp,Nseq)
其中,N为isoform功能关联网络矩阵,Nexp为isoform共表达网络矩阵,Nseq为isoform所翻译的氨基酸序列相似度矩阵。
本实施例中,所述将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform的嵌入低维表示,具体包括:
将isoform所翻译的氨基酸序列通过k-mer方法进行编码,得到每个isoform所翻译的氨基酸序列的8000维的编码数据;
将所有isoform所翻译氨基酸序列的编码数据,以及isoform功能关联网络矩阵输入到图卷积神经网络中,得到所有isoform的嵌入特征矩阵。
具体地,得到isoform的嵌入特征矩阵的公式为:
X=GCN(Θ;XS,N)
其中,X为isoform的嵌入特征矩阵,GCN为图卷积神经网络,Θ为待优化参数,XS为isoform序列编码数据,N为isoform功能关联网络矩阵。
本实施例中,所述通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示,具体包括:
使用图自动编码器中的编码器,对基因本体标签图结构进行编码,得到基因本体标签的嵌入特征;
使用图自动编码器中的解码器,使用基因本体的嵌入特征,重构有向图,并对重构损失进行优化,最终得到最优的基因本体的嵌入特征。
具体地,所述通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示的具体实现方式如下:
S1021:基因本体图结构嵌入。将基因本体标签图结构输入编码器,得到基因本体的嵌入特征,编码公式为:
其中,为基因本体的嵌入特征,Φenc为编码器神经网络,G为基因本体图结构。
S1022:基因本体图结构重构。对经过S1021获得的基因本体的嵌入特征通过解码器神经网络得到重构的有向图,重构公式为:
其中,为重构得到的图结构,Φdec为解码器神经网络,/>为基因本体的嵌入特征。
S1023:优化重构损失。通过求出重构得到的有向图与原始有向图之间的重构损失,使重构损失优化至最小值,得到最优的基因本体的嵌入特征。
本实施例中,所述根据isoform低维表示以及基因本体低维表示,得到isoform潜在功能注释,将isoform功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,最终通过优化得到isoform的功能预测结果,具体包括:
利用基因本体的低维表示将isoform低维表示还原至标签空间,得到isoform潜在功能注释;
通过isoform与其从属基因的关联矩阵,将每个基因所产生的isoform的功能注释聚合到基因层面;
计算聚合的基因层面功能注释与全部基因的已知功能标签注释之间的多示例学习损失;优化多示例学习损失至最小值,得到最优的isoform功能注释作为isoform功能预测结果。
更具体地,所述根据isoform低维表示以及基因本体低维表示,得到isoform潜在功能注释,将isoform功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,最终通过优化得到isoform的功能预测结果;具体实现方式如下:
S1031:将isoform低维表示与S102得到的基因本体低维表示进行点积操作,将isoform特征维度还原到原始标签空间,通过sigmoid函数进行归一化操作,得到每个isoform具有每个功能的可能性,即为isoform潜在功能注释矩阵,计算公式如下:
其中,为isoform潜在功能注释,/>为isoform低维表示,/>为基因本体低维表示。
S1032:通过isoform与其从属基因的关联矩阵,获得每个基因所产生的isoform,并通过最大池化操作将这些isoform的潜在功能注释聚合到基因层面,聚合公式如下:
其中,为聚合得到的第i个基因的功能注释,maxPooling(·)为最大池化操作,为第i个基因所产生的isoform的功能注释矩阵。
S1033:计算S1032得到的聚合的基因层面功能注释与全部基因的已知功能标签注释之间的多示例学习损失,并优化多示例学习损失至最小值,得到最优的isoform功能注释作为isoform功能预测结果,多示例损失的计算公式如下:
其中,为多示例损失值,BCELoss(·)为二分类交叉熵损失函数,/>为聚合得到的基因层面功能注释,Y为全部基因的已知功能标签注释。
综上所述,本发明提出了基于网络嵌入的可变剪接异构体功能预测***,通过对isoform多组学数据进行处理并整合,得到isoform功能关联矩阵;对isoform进行结构结合属性的网络嵌入得到isoform低维表示,对基因本体结构进行网络嵌入得到基因本体的低维表示,能够对isoform基因本体数据进行充分利用,学习出有效的特征,提高isoform功能预测效果;通过isoform和基因本体的低维表示,得到isoform潜在功能注释;通过多示例多标记学习,将isoform层面潜在功能注释聚合到基因层面,并向已知基因功能注释对齐,进而得到最优的isoform功能注释作为预测结果。
实施例2:
本发明实施例2提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
获取待预测isoform的RNA-seq数据和序列数据、isoform与其从属基因的关联矩阵、isoform从属基因的已知功能标签注释以及基因本体标签的层次结构;
通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform嵌入低维表示;
通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示;
根据isoform嵌入低维表示以及基因本体的低维表示,得到isoform潜在功能注释,将isoform潜在功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,优化得到isoform的功能预测结果。
各步骤的详细工作方法与实施例1中的相同,这里不在赘述。
实施例3:
本发明实施例3提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:
获取待预测isoform的RNA-seq数据和序列数据、isoform与其从属基因的关联矩阵、isoform从属基因的已知功能标签注释以及基因本体标签的层次结构;
通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform嵌入低维表示;
通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示;
根据isoform嵌入低维表示以及基因本体的低维表示,得到isoform潜在功能注释,将isoform潜在功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,优化得到isoform的功能预测结果。
各步骤的详细工作方法与实施例1中的相同,这里不在赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于网络嵌入的isoform功能预测***,其特征在于:
包括:
数据获取模块,被配置为:获取待预测isoform的RNA-seq数据和序列数据、isoform与其从属基因的关联矩阵、isoform从属基因的已知功能标签注释以及基因本体标签的层次结构;
isoform网络嵌入模块,被配置为:通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,具体的,通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,包括:
将每个isoform在不同组织上的表达值构成表达向量,通过计算任意两个isoform的表达向量的皮尔逊相关系数得到isoform的共表达网络矩阵;
对任意两个isoform所翻译的氨基酸序列计算序列相似度,并保留每个节点的k个最大近邻节点,得到序列相似度网络矩阵;
通过融合共表达网络和序列相似度网络,构造isoform的功能关联网络;具体的,对任意两个isoform的共表达网络矩阵对应值和所翻译的氨基酸序列相似度网络矩阵对应值取最大值来得到isoform的功能关联网络矩阵,构造isoform的功能关联网络的公式为:
N=max(Nexp,Nseq)
其中,N为isoform功能关联网络矩阵,Nexp为isoform共表达网络矩阵,Nseq为isoform所翻译的氨基酸序列相似度矩阵;
将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform嵌入低维表示;
基因本体嵌入模块,被配置为:通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示;
功能预测模块,被配置为:根据isoform嵌入低维表示以及基因本体的低维表示,得到isoform潜在功能注释,将isoform潜在功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,优化得到isoform的功能预测结果,具体的,利用基因本体的低维表示将isoform低维表示还原至标签空间,得到isoform潜在功能注释;
通过isoform与其从属基因的关联矩阵,将每个基因所产生的isoform的功能注释聚合到基因层面;
计算聚合的基因层面功能注释与全部基因的已知功能标签注释之间的多示例学习损失;优化多示例学习损失至最小值,得到最优的isoform功能注释作为isoform功能预测结果。
2.如权利要求1所述的基于网络嵌入的isoform功能预测***,其特征在于:
isoform及其从属基因的关联矩阵,包括:每个isoform具有一个基因从属关联向量,向量的长度为所有isoform从属基因的个数,当isoform从属于第i个基因时,则其从属关联向量的第i个元素为1,否则为0。
3.如权利要求1所述的基于网络嵌入的isoform功能预测***,其特征在于:
基因本体标签的层次结构,包括:基因本体构成的层次有向无环图结构。
4.如权利要求1所述的基于网络嵌入的isoform功能预测***,其特征在于:
将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform的嵌入低维表示,包括:
将isoform所翻译的氨基酸序列通过k-mer方法进行编码,得到每个isoform所翻译的氨基酸序列的8000维的编码数据;
将所有isoform所翻译氨基酸序列的编码数据,以及isoform功能关联网络矩阵输入到图卷积神经网络中,得到所有isoform的嵌入特征矩阵。
5.如权利要求1所述的基于网络嵌入的isoform功能预测***,其特征在于:
通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示,包括:
使用图自动编码器中的编码器,对基因本体标签图结构进行编码,得到基因本体标签的嵌入特征;
使用图自动编码器中的解码器,使用基因本体的嵌入特征,重构有向图,并对重构损失进行优化,最终得到最优的基因本体的嵌入特征。
6.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如下步骤:
获取待预测isoform的RNA-seq数据和序列数据、isoform与其从属基因的关联矩阵、isoform从属基因的已知功能标签注释以及基因本体标签的层次结构;
通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,具体的,通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,包括:
将每个isoform在不同组织上的表达值构成表达向量,通过计算任意两个isoform的表达向量的皮尔逊相关系数得到isoform的共表达网络矩阵;
对任意两个isoform所翻译的氨基酸序列计算序列相似度,并保留每个节点的k个最大近邻节点,得到序列相似度网络矩阵;
通过融合共表达网络和序列相似度网络,构造isoform的功能关联网络;具体的,对任意两个isoform的共表达网络矩阵对应值和所翻译的氨基酸序列相似度网络矩阵对应值取最大值来得到isoform的功能关联网络矩阵,构造isoform的功能关联网络的公式为:
N=max(Nexp,Nseq)
其中,N为isoform功能关联网络矩阵,Nexp为isoform共表达网络矩阵,Nseq为isoform所翻译的氨基酸序列相似度矩阵;
将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform嵌入低维表示;
通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示;
根据isoform嵌入低维表示以及基因本体的低维表示,得到isoform潜在功能注释,将isoform潜在功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,优化得到isoform的功能预测结果,具体的,利用基因本体的低维表示将isoform低维表示还原至标签空间,得到isoform潜在功能注释;
通过isoform与其从属基因的关联矩阵,将每个基因所产生的isoform的功能注释聚合到基因层面;
计算聚合的基因层面功能注释与全部基因的已知功能标签注释之间的多示例学习损失;优化多示例学习损失至最小值,得到最优的isoform功能注释作为isoform功能预测结果。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如下步骤:
获取待预测isoform的RNA-seq数据和序列数据、isoform与其从属基因的关联矩阵、isoform从属基因的已知功能标签注释以及基因本体标签的层次结构;
通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,具体的,通过isoform的RNA-seq数据以及序列数据进行数据融合得到isoform功能关联网络,包括:
将每个isoform在不同组织上的表达值构成表达向量,通过计算任意两个isoform的表达向量的皮尔逊相关系数得到isoform的共表达网络矩阵;
对任意两个isoform所翻译的氨基酸序列计算序列相似度,并保留每个节点的k个最大近邻节点,得到序列相似度网络矩阵;
通过融合共表达网络和序列相似度网络,构造isoform的功能关联网络;具体的,对任意两个isoform的共表达网络矩阵对应值和所翻译的氨基酸序列相似度网络矩阵对应值取最大值来得到isoform的功能关联网络矩阵,构造isoform的功能关联网络的公式为:
N=max(Nexp,Nseq)
其中,N为isoform功能关联网络矩阵,Nexp为isoform共表达网络矩阵,Nseq为isoform所翻译的氨基酸序列相似度矩阵;
将isoform的序列数据编码为等长的编码数据作为属性数据,通过对isoform功能关联网络和节点属性进行网络嵌入得到isoform嵌入低维表示;
通过对基因本体结构网络结构进行网络嵌入,得到基因本体的低维表示;
根据isoform嵌入低维表示以及基因本体的低维表示,得到isoform潜在功能注释,将isoform潜在功能注释聚合到基因层面,通过多示例多标记学习将基因层面的功能注释向已知功能注释对齐,优化得到isoform的功能预测结果,具体的,利用基因本体的低维表示将isoform低维表示还原至标签空间,得到isoform潜在功能注释;
通过isoform与其从属基因的关联矩阵,将每个基因所产生的isoform的功能注释聚合到基因层面;
计算聚合的基因层面功能注释与全部基因的已知功能标签注释之间的多示例学习损失;优化多示例学习损失至最小值,得到最优的isoform功能注释作为isoform功能预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736865.9A CN115101119B (zh) | 2022-06-27 | 2022-06-27 | 基于网络嵌入的isoform功能预测*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736865.9A CN115101119B (zh) | 2022-06-27 | 2022-06-27 | 基于网络嵌入的isoform功能预测*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115101119A CN115101119A (zh) | 2022-09-23 |
CN115101119B true CN115101119B (zh) | 2024-05-17 |
Family
ID=83293964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210736865.9A Active CN115101119B (zh) | 2022-06-27 | 2022-06-27 | 基于网络嵌入的isoform功能预测*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115101119B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243658A (zh) * | 2020-01-07 | 2020-06-05 | 西南大学 | 一种基于深度学习的生物分子网络构建与优化方法 |
CN113178227A (zh) * | 2021-04-30 | 2021-07-27 | 西安交通大学 | 多组学融合剪接位点的识别方法及***、设备和存储介质 |
CN113223610A (zh) * | 2021-05-27 | 2021-08-06 | 浙江大学 | 疾病蛋白质互作网络整合及挖掘跨疾病作用模块的方法 |
CN113593631A (zh) * | 2021-08-09 | 2021-11-02 | 山东大学 | 一种预测蛋白质-多肽结合位点的方法及*** |
CN113887698A (zh) * | 2021-08-25 | 2022-01-04 | 浙江大学 | 基于图神经网络的整体知识蒸馏方法和*** |
CN114464254A (zh) * | 2021-12-24 | 2022-05-10 | 广州表观生物科技有限公司 | 直接rna测序的多组学分析方法、***、设备及存储介质 |
-
2022
- 2022-06-27 CN CN202210736865.9A patent/CN115101119B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243658A (zh) * | 2020-01-07 | 2020-06-05 | 西南大学 | 一种基于深度学习的生物分子网络构建与优化方法 |
CN113178227A (zh) * | 2021-04-30 | 2021-07-27 | 西安交通大学 | 多组学融合剪接位点的识别方法及***、设备和存储介质 |
CN113223610A (zh) * | 2021-05-27 | 2021-08-06 | 浙江大学 | 疾病蛋白质互作网络整合及挖掘跨疾病作用模块的方法 |
CN113593631A (zh) * | 2021-08-09 | 2021-11-02 | 山东大学 | 一种预测蛋白质-多肽结合位点的方法及*** |
CN113887698A (zh) * | 2021-08-25 | 2022-01-04 | 浙江大学 | 基于图神经网络的整体知识蒸馏方法和*** |
CN114464254A (zh) * | 2021-12-24 | 2022-05-10 | 广州表观生物科技有限公司 | 直接rna测序的多组学分析方法、***、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
A literature review of gene function prediction by modeling gene ontology;Zhao Y. et al;《Front Genet》;20201231;全文 * |
IsoResolve: predicting splice isoform functions by integrating gene and isoform-level features with domain adaptation;HD Li.et al;《 Bioinformatics》;20211231;第37卷(第4期);全文 * |
基于RNA-seq数据的可变剪接异构体功能预测方法研究;王可尧;《中国优秀硕士学位论文全文数据库 基础科学辑》;20200115(第01期);全文 * |
基于多网络融合的药物靶标预测算法研究;李永杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20211215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115101119A (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111755078B (zh) | 药物分子属性确定方法、装置及存储介质 | |
CN111312329B (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
CN112132179A (zh) | 基于少量标注样本的增量学习方法及*** | |
CN113312505B (zh) | 一种基于离散在线哈希学习的跨模态检索方法及*** | |
CN111782804A (zh) | 基于TextCNN同分布文本数据选择方法、***及存储介质 | |
CN116150411A (zh) | 一种基于自适应类相关离散哈希的零样本跨模态检索方法 | |
CN109857892B (zh) | 基于类标传递的半监督跨模态哈希检索方法 | |
Noble et al. | Integrating information for protein function prediction | |
US20220406411A1 (en) | Artificial Intelligence-Based Epigenetics | |
Liu et al. | Integrating sequence and network information to enhance protein-protein interaction prediction using graph convolutional networks | |
CN115101119B (zh) | 基于网络嵌入的isoform功能预测*** | |
CN117312559A (zh) | 基于树结构信息感知的方面级情感四元组抽取方法及*** | |
CN116226698A (zh) | 基于多组学数据整合的细胞类型识别方法、***及设备 | |
CN115861902A (zh) | 无监督的动作迁移和发现方法、***、设备和介质 | |
US11515010B2 (en) | Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures | |
KR20230170680A (ko) | 심층 콘볼루션 신경망들을 사용하여 변이체 병원성을 예측하기 위한 다중 채널 단백질 복셀화 | |
KR20230171930A (ko) | 3차원(3d) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들 | |
CN114120447A (zh) | 一种基于原型对比学习的行为识别方法及***、存储介质 | |
Xu et al. | A structure-induced framework for multi-label feature selection with highly incomplete labels | |
CN114863992B (zh) | 基于组织特异性的玉米可变剪接异构体功能预测*** | |
CN115101120B (zh) | 基于数据融合的玉米可变剪接异构体功能预测*** | |
Zhao et al. | Convolutional Hybrid Kernel Network for in-vitro Transcription Factor Binding Sites | |
US20240112751A1 (en) | Copy number variation (cnv) breakpoint detection | |
Khan et al. | AI and Genomes for Decisions Regarding the Expression of Genes | |
CN117642824A (zh) | 使用三维(3d)蛋白质结构体素根据进化保守性预测变体致病性 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |