CN112185457A - 一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法 - Google Patents

一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法 Download PDF

Info

Publication number
CN112185457A
CN112185457A CN202011085576.4A CN202011085576A CN112185457A CN 112185457 A CN112185457 A CN 112185457A CN 202011085576 A CN202011085576 A CN 202011085576A CN 112185457 A CN112185457 A CN 112185457A
Authority
CN
China
Prior art keywords
training
ppi
model
protein
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011085576.4A
Other languages
English (en)
Inventor
江莹莹
李美晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202011085576.4A priority Critical patent/CN112185457A/zh
Publication of CN112185457A publication Critical patent/CN112185457A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于句嵌入Infersent的模型预测蛋白质‑蛋白质相互作用的方法,其是基于自然语言处理模型Infersent结合基因本体去预测蛋白质‑蛋白质相互作用(Protein‑Protein Interaction,简称PPI)。该方法包括结合GO图结构,得到GO术语词向量;对基因本体论注释(GOA)文件进行筛选提取,生成GO注释公理;在基于句嵌入Infersent的模型上结合GO注释公理与GO术语词向量去训练PPI阳性阴性数据集,最终得到预测PPI的模型。本发明针对现阶段预测PPI准确率与AUC不够高的问题,提出了一种新的预测PPI的方法,提高了预测准确率与AUC。

Description

一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预 测方法
技术领域
本发明涉及生物信息与自然语言处理领域,尤其涉及一种基于基因本体、句嵌入模型在蛋白质-蛋白质相互作用(PPI)预测领域中的应用。
背景技术
蛋白质-蛋白质相互作用(PPI)是许多生物信息学应用程序(例如蛋白质功能和药物发现)的一项基本指标。因此,准确预测蛋白质之间的相互作用将有助于我们理解潜在的分子机制,并显著促进药物的发现。通过基因本体(GO)信息可以较为准确的预测出PPI。先前的基因本体信息预测PPI的大多数研究都是利用信息内容(IC)。最近,一些研究利用自然语言处理领域的词嵌入技术去学习代表GO术语和蛋白质的向量,以此来预测PPI。
基因本体是生物学功能注释的一个标准词汇术语,是一种统一的术语,用于描述跨物种的同源基因及基因产物的功能。本发明利用有监督句嵌入技术捕获GO结构与GO注释信息以预测PPI。将基因本体与强大的自然语言处理技术结合在一起,即使不使用蛋白质序列信息,我们的方法也提供了一条通用的计算流程来预测蛋白质与蛋白质的相互作用。
发明内容
本发明的目的在于提供一种基于句嵌入Infersent模型的蛋白质- 蛋白质相互作用预测方法,其是基于自然语言处理模型Infersent结合基因本体(GO)预测蛋白质-蛋白质相互作用(PPI)。该方法中GO 注释公理的每条记录有相应权重;结合GO注释公理与GO结构公理,在基于句嵌入Infersent的模型上训练PPI阳性阴性数据集,最终得到预测PPI的模型。
为了达到上述目的,本发明通过以下技术方案实现:
一种基于句嵌入Infersent的模型预测蛋白质-蛋白质相互作用的方法,包含以下步骤:
S1、GO的本体被构造成一个图,其中GO术语作为图中的节点, GO术语之间的关系称为边。使用现有的Onto2Vec技术,在GO图结构文件中提取生成GO结构公理,训练GO结构公理,得到GO术语词向量;
S2、筛选提取注释公理:在基因本体论注释(GOA)文件中筛选提取有相应权重的每条GO注释记录,生成GO注释公理;
S3、结合步骤S1中的所述GO注释公理,将PPI阳性阴性数据集的蛋白质逐行替换为注释它的GO术语,得到最终的训练数据;
S4、将Infersent模型改造成InfersentPPI模型,结合步骤S2中的所述GO术语词向量,在InfersentPPI模型上对步骤S3中的所述训练数据进行迭代训练,最终得到预测PPI的模型,输出PPI预测结果。
优选地,所述步骤S1进一步包含以下步骤:S1.1、提取出go.owl 文件中的GO图结构记录,每条GO图结构记录由多个GO唯一标识码与其关系词组成,GO图结构记录组织成文件,得到GO结构公理文件;S1.2、将步骤S1.1中的所述GO结构公理文件逐行输入 Word2vec的skip-gram模型;
S1.3、在skip-gram模型中进行训练,如下:
给定一个序列的训练单词x1,x2,.....,x3,Skip-gram模型的目的是最大化下列公式:
Figure 1
其中c是训练上下文窗口的大小,T是训练词集合的大小,wi是序列中的第i个训练词;
S1.4、训练结束得到GO术语的词向量组织成文件输出;
优选地,所述步骤S2进一步包含以下步骤:S2.1、根据待处理基因本体论注释(GOA)文件的Evidence Code字段内容,对GOA 的每条记录进行筛选,删除Evidence Code字段内容为‘IEA’或’ND’的记录,得到筛选后的GOA文件,提取出筛选后的GOA文件的每一行记录的UniProtKB唯一标识码与GO唯一标识码,得到GO注释记录文件,GO注释记录文件中重复的记录不删除,重复的次数代表这条注释记录的有效引用的数量,可作为对应注释记录的权重;S2.2、提取步骤S1.2中的所述GO注释记录文件的相同UniProtKB唯一标识码以及对应的所有GO唯一标识码,将其集中在同一行,组织成文件,得到GO注释公理文件;
优选地,所述步骤S3进一步包含以下步骤:S3.1、提取出蛋白质-蛋白质相互作用(PPI)阳性阴性数据集每一行记录的一对蛋白质,映射为两个UniProtKB唯一标识码,无法映射为UniProtKB唯一标识码的蛋白质将其所在的蛋白质对进行删除,根据数据集的性质生成对应蛋白质对的属性标签’positive’或’negative’,蛋白质对与属性标签组织成PPI记录文件,该PPI记录文件中每一行的内容是由两个 UniProtKB唯一标识码与属性标签组成;S3.2、利用步骤S1中的所述基因本体注释公理,对步骤S3.1中的所述PPI记录文件的蛋白质逐行替换为注释它的GO唯一标识码,得到训练模型的PPI语料库;
S3.3、步骤S1中的所述PPI语料库,随机选取80%、10%、10%作为训练集、验证集、测试集,作为最终的训练数据。
优选地,所述步骤S4进一步包含以下步骤:S4.1、基于Infersent 模型进行改造,其中Infersent模型的句子编码器设置为卷积神经网络, Infersent模型的分类器设置为二分类,二分类的标签为’positive’与’negative’,得到InfersentPPI模型;S4.2、结合步骤S2中的所述 GO术语的词向量,在步骤S4.1中的所述InfersentPPI模型中对步骤 S3中的所述训练数据进行迭代训练;
优选地,所述步骤S4.2中的迭代训练包含以下步骤:S4.2-1、训练数据的训练集按行提取的两个集合的GO唯一标识码作为句子A 与句子B分别输入两个句子编码器,句子编码器使用的词向量为GO 术语的词向量,句子编码器使用卷积神经网络,生成的句向量u与句向量v就是蛋白质向量u与蛋白质向量v;S4.2-2、利用步骤S4.1中的所述句向量u与句向量v,计算u和v的首尾相连得到(u,v)、计算u和v相乘得到u*v、计算u和v相减得到|u-v|,最后将得到的(u, v,u*v,|u-v|)结果送入一个2分类的分类器,分类器由多个全连接层和一个softmax层组成,最终得到步骤S4.2-1中的所述句子A和句子B的标签’positive’与’negative’的概率分布预测值;S4.2-3、使训练集的标签与步骤S4.2-2中的所述标签’positive’与’negative’的概率分布预测值的误差其最小化;S4.2-4、重复步骤S4.2-1到S4.2-3,直到所有训练集的数据迭代完一次;
S4.2-5、预测PPI的公式如下:
InfersentPPI(a,b)=P(positive)>P(negative)?positive:negative
S4.2-6、在验证集上进行预测,若验证集结果比上一次验证集结果差则停止训练,不保存模型,若验证集结果比上一次验证集结果好,则保存模型,并调整学习率,当学习率低于设置的最小学习率时停止训练,当学习率高于参数设置的最小学习率时重复步骤S4.2-1到 S4.2-4继续下一轮迭代训练,迭代次数达到参数设置的最大迭代次数时,停止训练;S4.3、迭代训练结束,得到了效果最好的预测PPI的模型;
S4.4、步骤S4.3中的所述预测PPI的模型在测试集上进行预测,将测试集的预测结果组织成文件输出;
优选地,步骤S4.1中,所述二分类’positive’是代表PPI阳性,所述二分类’negative’是代表PPI阴性,步骤S4.3中,所述预测PPI是指被基因本体注释过的蛋白质的PPI预测。
与现有技术相比,本发明的有益效果在于:本发明提供的基于句嵌入Infersent的模型预测蛋白质-蛋白质相互作用的方法,借助自然语言处理模型Infersent,结合基因本体论,有效地提升了PPI预测的准确率与AUC。
附图说明
图1是本发明的工作总流程图,分为4个模块:Onto2Vec、筛选提取注释公理、结合处理和InfersentPPI;
图2是本发明的Onto2Vec生成GO向量的具体实施方法;
图3是本发明的筛选提取注释公理的流程示意图;
图4是本发明的InfersentPPI模型的具体实施方法;
图5是本发明的InfersentPPI模型的句子编码器的具体实施方法;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图5所示,本发明提供了一种基于句嵌入Infersent的模型预测蛋白质-蛋白质相互作用的方法(下述以PPI阳性阴性数据为例进行详细说明),该方法包括如下步骤:
步骤S1、GO的本体被构造成一个图,其中GO术语作为图中的节点,GO术语之间的关系(也称为对象属性)称为边,GO常规信息在go.owl文件中可得到。使用现有的Onto2Vec技术,在GO图结构文件go.owl中提取生成GO结构公理,训练GO结构公理,得到GO术语词向量,其中GO结构公理为GO术语(代表每个方面的根术语除外)与另一个GO术语具有子类关系的描述组成;
步骤S2、筛选提取注释公理:在基因本体论注释(GOA)文件中筛选提取有相应权重的每条GO注释记录,生成GO注释公理;
步骤S3、结合步骤S1中的所述GO注释公理,将PPI阳性阴性数据集的蛋白质逐行替换为注释它的GO术语,得到最终的训练数据;
步骤S4、将Infersent模型改造成InfersentPPI模型,结合步骤 S2中的所述GO术语词向量,在InfersentPPI模型上对步骤S3中的所述训练数据进行迭代训练,最终得到预测PPI的模型,输出PPI预测结果。
如图2所示,所述步骤S1进一步包含以下步骤:
S1.1、提取出go.owl文件中的GO图结构记录,每条GO图结构记录由多个GO唯一标识码与GO术语之间的关系词(例如subclassof, DisjointWith)组成,GO图结构记录组织成文件,得到GO结构公理文件,具体示例如表1所示:
表1是GO结构公理文件的内容示例
Figure BDA0002720222190000051
Figure BDA0002720222190000061
S1.2、将步骤S1.1中的所述GO结构公理文件逐行输入 Word2vec的skip-gram模型;
S1.3、在skip-gram模型中进行训练,如下:
给定一个序列的训练单词x1,x2,...,xT,skip-gram模型的目的是最大化下列公式:
Figure BDA0002720222190000062
其中c是训练上下文窗口的大小,T是训练词集合的大小,Wi 是序列中的第i个训练词;
S1.4、训练结束得到GO术语的词向量组织成文件输出;
如图3所示,所述步骤S2进一步包含以下步骤:
S2.1、根据待处理基因本体论注释(GOA)文件的Evidence Code 字段内容,对GOA的每条记录进行筛选。Evidence Code是GO注释的有效证据代码,删除Evidence Code字段内容为‘IEA’或’ND’的记录,得到筛选后的GOA文件。当无法获得有关被注释的基因或基因产物的分子功能、生物学过程或细胞成分的信息时,ND证据代码用于注释。IEA支持的注释最终基于同源性和/或其他实验或序列信息,但通常无法追溯到实验来源。提取出筛选后的GOA文件的每一行记录的UniProtKB唯一标识码与GO唯一标识码,得到GO注释记录文件, GO注释记录文件中重复的记录不删除,重复的次数代表这条注释记录的有效引用的数量,可作为对应注释记录的权重;
具体示例如表2表3所示:
表2是GOA文件的内容示例
Figure BDA0002720222190000063
Figure BDA0002720222190000071
表3是GO注释记录文件的内容示例
UniProtKB ID Relation GO ID
A2P2R3 hasFunction GO:0006047
D6VTK4 hasFunction GO:0000750
D6VTK4 hasFunction GO:0000750
S2.2、提取步骤S1.2中的所述GO注释记录文件的相同 UniProtKB唯一标识码以及对应的所有GO唯一标识码,将其集中在同一行,组织成文件,得到GO注释公理文件;
具体示例如表4所示:
表4是GO注释公理文件的内容示例
UniProtKB ID GO ID
A2P2R3 GO:0006002;GO:0006047
D6VTK4 GO:0000750;GO:0000750
所述步骤S3进一步包含以下步骤:
S3.1、提取出蛋白质-蛋白质相互作用(PPI)阳性阴性数据集每一行记录的一对蛋白质,映射为两个UniProtKB唯一标识码,无法映射为UniProtKB唯一标识码的蛋白质将其所在的蛋白质对进行删除,根据数据集的性质生成对应蛋白质对的属性标签’positive’或’negative’,’positive’指的是PPI阳性、’negative’指的是PPI阴性。蛋白质对与属性标签组织成PPI记录文件,该PPI记录文件中每一行的内容是由两个UniProtKB唯一标识码与属性标签组成;
具体示例如表5所示:
表5是PPI记录文件的内容示例
ProteinA ProteinB Tag
P16649 P14922 positive
P07269 P22035 positive
P53248 P32366 negative
Q08558 P31412 negative
Q06169 P41807 negative
S3.2、利用步骤S1中的所述基因本体注释公理,对步骤S3.1中的所述PPI记录文件的蛋白质逐行替换为注释它的GO唯一标识码,得到训练模型的PPI语料库;
具体示例如表6所示:
表6是PPI语料库的内容示例
Figure BDA0002720222190000081
Figure BDA0002720222190000091
S3.3、步骤S1中的所述PPI语料库,随机选取80%、10%、10%作为训练集、验证集、测试集,作为最终的训练数据。
所述步骤S4进一步包含以下步骤:
S4.1、基于Infersent模型进行改造,其中Infersent模型的句子编码器设置为卷积神经网络,Infersent模型的分类器设置为二分类,二分类的标签为’positive’与’negative’,得到InfersentPPI模型;
S4.2、结合步骤S2中的所述GO术语的词向量,在步骤S4.1中的所述InfersentPPI模型中对步骤S3中的所述训练数据进行迭代训练;
如图4所示,所述步骤S4.2中的迭代训练包含以下步骤:
S4.2-1、训练数据的训练集按行提取的两个集合的GO唯一标识码作为句子A与句子B分别输入两个句子编码器,句子编码器使用的词向量为GO术语的词向量,句子编码器使用卷积神经网络,如图 5所示,生成的句向量u与句向量v就是蛋白质向量u与蛋白质向量v;
S4.2-2、利用步骤S4.1中的所述句向量u与句向量v,计算u和 v的首尾相连得到(u,v)、计算u和v相乘得到u*v、计算u和v相减得到|u-v|,最后将得到的(u,v,u*v,|u-v|)结果送入一个2分类的分类器,分类器由多个全连接层和一个softmax层组成,最终得到步骤S4.2-1中的所述句子A和句子B的标签’positive’与’negative’的概率分布预测值;
S4.2-3、使训练集的标签与步骤S4.2-2中的所述标签’positive’与’negative’的概率分布预测值的误差其最小化;
S4.2-4、重复步骤S4.2-1到S4.2-3,直到所有训练集的数据迭代完一次;
S4.2-5、预测PPI的公式如下:
InfersentPPI(a,b)=P(positive)>P(negative)?positive:negative
例如:InfersentPPI的一次输入为句子a和句子b,及蛋白质A 和蛋白质B的UniProtKB唯一标识码:
句子a:P16649;
句子b:P14922;
然后根据步骤S3.2将蛋白质逐行替换为注释它的GO唯一标识码,得到测试数据是单词集GOs1,单词集GOs2:
GOs1:{GO_0000329,GO_0005739,GO_0005739,GO_0006623,GO _0022857,GO_0055085}
GOs2:{GO_0005783,GO_0006633,GO_0006892,GO_0009922,GO _0009922,GO_0019367,GO_0030148,GO_0030148,GO_0030176,GO_0 030497,GO_0032511,GO_0034625,GO_0034626,GO_0042761,GO_004 2761}
最后根据步骤S4.2中的公式计算文本a和b的P(positive),P(negative) 为0.724和0.276,计算得到InfersentPPI(a,b)=positive.
S4.2-6、在验证集上进行预测,若验证集结果比上一次验证集结果差则停止训练,不保存模型,若验证集结果比上一次验证集结果好,则保存模型,并调整学习率,当学习率低于设置的最小学习率时停止训练,当学习率高于参数设置的最小学习率时重复步骤S4.2-1到 S4.2-4继续下一轮迭代训练,迭代次数达到参数设置的最大迭代次数时,停止训练;
S4.3、迭代训练结束,得到了效果最好的预测PPI的模型;
S4.4、步骤S4.3中的所述预测PPI的模型在测试集上进行预测,将测试集的预测结果组织成文件输出,参数Batch_size=2训练的模型,在测试集上的预测效果最好;
步骤S4.1中,所述二分类’positive’是代表PPI阳性,所述二分类’negative’是代表PPI阴性,步骤S4.3中,所述预测PPI是指被基因本体注释过的蛋白质的PPI预测。
综上所述,本发明提供的基于句嵌入Infersent的模型预测蛋白质 -蛋白质相互作用的方法,借助自然语言处理模型Infersent,结合基因本体论,有效地提升了PPI预测的准确率与AUC。
本发明不仅能够应用于蛋白质,对于其他被本体注释的实例同样可以按此方法实施。此外,自然语言处理模型Infersent的句子编码器也是可以替换的,不会影响整体模型的实施。使用者可以根据需求选择合适的句子编码器。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程不一定是实施本发明所必须的。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (1)

1.一种基于基因本体的蛋白质-蛋白质相互作用预测的方法,其特征在于,包含以下步骤:
S1、GO的本体被构造成一个图,其中GO术语作为图中的节点,GO术语之间的关系称为边。使用Onto2Vec技术,从GO图结构文件go.owl中得到GO术语词向量;
S2、是通过将基因或基因产物与GO术语相关联来创建GO注释;在GOA文件中筛选提取有相应权重的每条GO注释记录,组织生成GO注释公理;
S3、结合步骤S1中的所述GO注释公理,将蛋白质相互作用阳性阴性数据集的蛋白质逐行替换为注释它的GO术语,得到最终的训练数据;
S4、构建基于Infersent的InfersentPPI模型,结合步骤S2中的所述GO术语词向量,在InfersentPPI模型上对步骤S3中的所述训练数据进行迭代训练,最终得到预测PPI的模型,输出PPI预测结果;
所述步骤S1进一步包含以下步骤:
S1.1、取出go.owl文件中的GO图结构记录,每条GO图结构记录由多个GO唯一标识码与其关系词组成,GO图结构记录组织成文件,得到GO结构公理文件;
S1.2、将步骤S1.1中的所述GO结构公理文件逐行输入Word2vec的skip-gram模型;
S1.3、在Skip-gram模型中进行训练,如下:
给定一个序列的训练单词x1,x2,.....,x3,Skip-gram模型的目的是最大化下列公式:
Figure FDA0002720222180000011
其中c是训练上下文窗口的大小,T是训练词集合的大小,wi是序列中的第i个训练词;
S1.4、训练结束得到GO术语的词向量组织成文件输出;
所述步骤S2进一步包含以下步骤:
S2.1、根据待处理基因本体论注释文件的Evidence Code字段内容,对GOA的每条记录进行筛选,删除Evidence Code字段内容为‘IEA’或’ND’的记录,得到筛选后的GOA文件,提取出筛选后的GOA文件的每一行记录的UniProtKB唯一标识码与GO唯一标识码,得到GO注释记录文件,GO注释记录文件中重复的记录不删除,重复的次数代表这条注释记录的有效引用的数量,可作为对应注释记录的权重;
S2.2、提取步骤S1.2中的所述GO注释记录文件的相同UniProtKB唯一标识码以及对应的所有GO唯一标识码,将其集中在同一行,组织成文件,得到GO注释公理文件;
所述步骤S3进一步包含以下步骤:
S3.1、提取出蛋白质-蛋白质相互作用阳性阴性数据集每一行记录的一对蛋白质,映射为两个UniProtKB唯一标识码,无法映射为UniProtKB唯一标识码的蛋白质将其所在的蛋白质对进行删除,根据数据集的性质生成对应蛋白质对的属性标签’positive’或’negative’,蛋白质对与属性标签组织成PPI记录文件,该PPI记录文件中每一行的内容是由两个UniProtKB唯一标识码与属性标签组成;
S3.2、利用步骤S1中的所述基因本体注释公理,对步骤S3.1中的所述PPI记录文件的蛋白质逐行替换为注释它的GO唯一标识码,得到训练模型的PPI语料库;
S3.3、步骤S1中的所述PPI语料库,随机选取80%、10%、10%作为训练集、验证集、测试集,作为最终的训练数据;
所述步骤S4进一步包含以下步骤:
S4.1、基于Infersent模型进行改造,其中Infersent模型的句子编码器设置为卷积神经网络,Infersent模型的分类器设置为二分类,二分类的标签为’positive’与’negative’,’positive’是代表PPI阳性,’negative’是代表PPI阴性,得到InfersentPPI模型;
S4.2、结合步骤S2中的所述GO术语的词向量,在步骤S4.1中的所述InfersentPPI模型中对步骤S3中的所述训练数据进行迭代训练;
所述步骤S4.2中的迭代训练包含以下步骤:
S4.2-1、训练数据的训练集按行提取的两个集合的GO唯一标识码作为句子A与句子B分别输入两个句子编码器,句子编码器使用的词向量为GO术语的词向量,句子编码器使用卷积神经网络,生成的句向量u与句向量v就是蛋白质向量u与蛋白质向量v;
S4.2-2、利用步骤S4.1中的所述句向量u与句向量v,计算u和v的首尾相连得到(u,v)、计算u和v相乘得到u*v、计算u和v相减得到|u-v|,最后将得到的(u,v,u*v,|u-v|)结果送入一个2分类的分类器,分类器由多个全连接层和一个softmax层组成,最终得到步骤S4.2-1中的所述句子A和句子B的标签’positive’与’negative’的概率分布预测值;
S4.2-3、使训练集的标签与步骤S4.2-2中的所述标签’positive’与’negative’的概率分布预测值的误差其最小化;
S4.2-4、重复步骤S4.2-1到S4.2-3,直到所有训练集的数据迭代完一次;
S4.2-5、预测PPI的公式如下:
InfersentPPI(a,b)=P(positive)>P(negative)?positive:negative
S4.2-6、在验证集上进行预测,若验证集结果比上一次验证集结果差则停止训练,不保存模型,若验证集结果比上一次验证集结果好,则保存模型,并调整学习率,当学习率低于设置的最小学习率时停止训练,当学习率高于参数设置的最小学习率时重复步骤S4.2-1到S4.2-4继续下一轮迭代训练,迭代次数达到参数设置的最大迭代次数时,停止训练;
S4.3、迭代训练结束,得到了效果最好的预测PPI的模型,PPI是指被基因本体注释过的蛋白质的PPI;
S4.4、步骤S4.3中的所述预测PPI的模型在测试集上进行预测,将测试集的预测结果组织成文件输出。
CN202011085576.4A 2020-10-12 2020-10-12 一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法 Withdrawn CN112185457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011085576.4A CN112185457A (zh) 2020-10-12 2020-10-12 一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011085576.4A CN112185457A (zh) 2020-10-12 2020-10-12 一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法

Publications (1)

Publication Number Publication Date
CN112185457A true CN112185457A (zh) 2021-01-05

Family

ID=73949329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011085576.4A Withdrawn CN112185457A (zh) 2020-10-12 2020-10-12 一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法

Country Status (1)

Country Link
CN (1) CN112185457A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
CN115565607B (zh) * 2022-10-20 2024-02-23 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备

Similar Documents

Publication Publication Date Title
Varma et al. Snuba: Automating weak supervision to label training data
Baek et al. LncRNAnet: long non-coding RNA identification using deep learning
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN109697285B (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
Nadif et al. Unsupervised and self-supervised deep learning approaches for biomedical text mining
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
CN114450751A (zh) 用于训练机器学习算法以处理生物学相关数据的***和方法、显微镜及经训练的机器学习算法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
Yuan et al. Fast and accurate protein function prediction from sequence through pretrained language model and homology-based label diffusion
Bhattacharyya et al. Prediction and forecasting of persistent kidney problems using machine learning algorithms
CN113591955A (zh) 一种提取图数据的全局信息的方法、***、设备及介质
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
Iqbal et al. A dynamic weighted tabular method for convolutional neural networks
CN112185457A (zh) 一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法
CN117370736A (zh) 一种细粒度情感识别方法、电子设备及存储介质
CN116312915B (zh) 一种电子病历中药物术语标准化关联方法及***
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN117436522A (zh) 生物事件关系抽取方法及癌症主题的大规模生物事件关系知识库构建方法
Zaghir et al. Real-world patient trajectory prediction from clinical notes using artificial neural networks and UMLS-based extraction of concepts
Louati et al. Design and compression study for convolutional neural networks based on evolutionary optimization for thoracic X-Ray image classification
Wang et al. Fusang: a framework for phylogenetic tree inference via deep learning
Ranjan et al. MCWS-transformers: towards an efficient modeling of protein sequences via multi context-window based scaled self-attention
Zhu et al. Uni-Fold MuSSe: De Novo Protein Complex Prediction with Protein Language Models
Phan et al. Deep learning based biomedical NER framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210105