CN108830042B - 一种基于多模态蛋白质序列的特征提取与编码方法及*** - Google Patents

一种基于多模态蛋白质序列的特征提取与编码方法及*** Download PDF

Info

Publication number
CN108830042B
CN108830042B CN201810608670.XA CN201810608670A CN108830042B CN 108830042 B CN108830042 B CN 108830042B CN 201810608670 A CN201810608670 A CN 201810608670A CN 108830042 B CN108830042 B CN 108830042B
Authority
CN
China
Prior art keywords
protein
features
amino acid
feature
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810608670.XA
Other languages
English (en)
Other versions
CN108830042A (zh
Inventor
雷海军
李诗淇
温玉婷
雷柏英
蔡晔
杨张
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201810608670.XA priority Critical patent/CN108830042B/zh
Publication of CN108830042A publication Critical patent/CN108830042A/zh
Application granted granted Critical
Publication of CN108830042B publication Critical patent/CN108830042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态蛋白质序列的特征提取与编码方法及***,方法包括:分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征;对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;将三种高级的特征表达经过级联后再次进行深度多项式网络编码,获得融合后的蛋白质特征。相对于传统的蛋白质特征提取方法中,本发明综合了蛋白质氨基酸系列的多种理化性质,提取到更可靠的蛋白质特征,从而能够更准确的对蛋白质与蛋白质的相互作用进行分析。

Description

一种基于多模态蛋白质序列的特征提取与编码方法及***
技术领域
本发明涉及生物信息学技术领域,尤其涉及的是一种基于多模态蛋白质序列的特征提取与编码方法及***。
背景技术
近年来得益于计算机的存储能力和计算能力的提升,很多专家学者致力于基于计算方法的蛋白质与蛋白质相互作用(Protein and Protein Interactions,PPIs)的研究,而蛋白质通常是以成对的形式发挥功能作用的,因此研究蛋白质与蛋白质相互作用(PPIs)可以对揭示及获取蛋白质功能起到关键的作用,其中如何对于蛋白质进行特征提取是一个热点和难点。
虽然,目前已有许多基于计算方法的特征提取模型应用于蛋白质与蛋白质相互作用的分析,但是大多数蛋白质特征提取方法只考虑了一种蛋白质氨基酸序列的特点,没有综合多种蛋白质氨基酸序列的多种理化性质;并且现有的蛋白质特征提取方法获取的特征都具有高维度和高冗余性的特点,没有对其做进一步的特征选择和特征降维,这导致存高维度冗余的信息。此外,现有技术中都是使用两种特征直接线性组合的方式进行特征结合,没有利用多模态特征融合和多模态特征编码的方式获取到更加充分和高级的特征表达,影响蛋白质分析的准确性与高效性。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于多模态蛋白质序列的特征提取与编码方法及***,旨在解决现有技术中的蛋白质特征提取方法没有综合多种蛋白质氨基酸序列的多种理化性质,容易导致高维度冗余的信息等问题,影响蛋白质分析的准确性与高效性。
本发明解决技术问题所采用的技术方案如下:
一种基于多模态蛋白质序列的特征提取与编码方法,其中,所述方法包括:
步骤A、分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征;
步骤B、对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;
步骤C、将所述三种高级的特征表达经过级联后再次进行深度多项式网络编码,获得融合后的蛋白质特征;所述融合后的蛋白质特征中包含三种模态的蛋白质特征的各自内在的属性以及彼此之间的互联信息。
所述的基于多模态蛋白质序列的特征提取与编码方法,其中,所述步骤C之后还包括:
步骤D、将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解,输出求解结果,所述求解结果用于分析蛋白质与蛋白质的相互作用。
所述的基于多模态蛋白质序列的特征提取与编码方法,其中,所述步骤A具体包括:
步骤A1、基于线性判别分析法对蛋白质氨基酸序列的相对突变率的特征进行提取;
步骤A2、基于连续小波变换对蛋白质氨基酸序列的疏水性的特征进行提取;
步骤A3、基于离散小波变换对蛋白质氨基酸序列的亲水性的特征进行提取。
所述的基于多模态蛋白质序列的特征提取与编码方法,其中,所述步骤A1具体包括:
步骤A11、利用氨基酸评分矩阵代替蛋白质的序列信息,并通过矩阵运算获得蛋白质的高维特征矩阵;
步骤A12、获取所述高维特征矩阵中的特征矢量信息,并使用二维线性判别分析法将所述特征矢量信息整合成一个低维的特征矩阵。
所述的基于多模态蛋白质序列的特征提取与编码方法,其中,所述步骤A2具体包括:
步骤A21、根据氨基酸序列的疏水性指数将蛋白质序列中的每个氨基酸转换成数值的形式;
步骤A22、利用连续小波变换方法对长短不一的数值序列统为一个特征矩阵。
所述的基于多模态蛋白质序列的特征提取与编码方法,其中,所述步骤A3具体包括:
步骤A31、根据氨基酸序列的亲水性指数将蛋白质序列中的每个氨基酸转换成数值的形式;
步骤A32、利用离散小波变换方法对长短不一的数值序列统为一个特征矩阵。
所述的基于多模态蛋白质序列的特征提取与编码方法,其中,所述步骤B和步骤C中的深度多项式网络是经过多次迭代构建而成,并且在每次迭代构建网络层的时候对网络的宽度进行参数设置。
所述的基于多模态蛋白质序列的特征提取与编码方法,其中,所述步骤D中的极限学习机分类器是基于单隐藏层前馈神经网络,并在算法求解过程中采用留一交叉验证的方法选择最优的正则化参数。
一种基于多模态蛋白质序列的特征提取与编码***,其中,所述***包括:
特征提取模块,用于分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征;
第一特征编码模块,用于对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;
第二特征编码模块,用于将所述三种高级的特征表达经过级联后再次进行深度多项式网络编码,获得融合后的蛋白质特征;所述融合后的蛋白质特征中包含三种模态的蛋白质特征的各自内在的属性以及彼此之间的互联信息。
所述的基于多模态蛋白质序列的特征提取与编码***,其中,所述***还包括:
分析模块,用于将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解,输出求解结果,所述求解结果用于分析蛋白质与蛋白质的相互作用。
本发明的有益效果:本发明提取蛋白质序列的不同模态的特征,并通过对不同模态的特征经过两层级联的DPN编码进行融合,获得各个模态特征中各自内在的属性和彼此之间的互联信息,相对于传统的蛋白质特征提取方法中,本发明综合了蛋白质氨基酸系列的多种理化性质,提取到更可靠的蛋白质特征,从而能够更准确的对蛋白质与蛋白质的相互作用进行分析。
附图说明
图1是本发明的基于多模态蛋白质序列的特征提取与编码方法的较佳实施例的流程图。
图2是本发明的基于多模态蛋白质序列的特征提取与编码方法的示意图。
图3是本发明的基于多模态蛋白质序列的特征提取与编码方法中的深度多项式网络编码的示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
为了解决现有技术中的蛋白质特征提取的问题,本发明提供了一种基于多模态蛋白质序列的特征提取与编码方法,具体如图1所示,所述方法包括:
步骤S100、分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征。
步骤S200、对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;
步骤S300、将所述三种高级的特征表达经过级联后再次进行深度多项式网络编码,获得融合后的蛋白质特征;所述融合后的蛋白质特征中包含三种模态的蛋白质特征的各自内在的属性以及彼此之间的互联信息。
具体实施时,如图2中所示,本发明首先对蛋白质序列进行特征提取,然后对提取的特征进行MDPN(多模态深度多项式网络)编码,将融合后的蛋白质特征输入至RELM(极限学习机)分类器,以得到蛋白质与蛋白质之间的相互作用。
具体地,本发明利用蛋白质氨基酸序列所特有的理化性质,如蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性,针对这三种理化性质进行特征提取,从而获得更加全面的蛋白质特征。
蛋白质氨基酸的相对突变率是指一种氨基酸在生命过程中突变成其它19种氨基酸的概率,这揭示了蛋白质之间的进化关系。本发明将最广泛使用的BLOSUM62氨基酸评分矩阵用于代替蛋白质的序列信息。BLOSUM评分矩阵代表了一组可供选择的评分矩阵,广泛应用于序列比对算法中。BLOSUM矩阵是基于蛋白质模块数据库Blocks中蛋白质序列的高度保守片段的对齐比较而得到的,BLOSUM62是最常用的替代矩阵,62是指蛋白质序列的平均相似度为62%的Blocks构建的打分矩阵。假设一个蛋白质序列的长度为N,表示为P=(p1,p2,...,pN),转换成大小为N×20的替换矩阵,再经过矩阵乘法转换为20×20的高维特征矩阵HP。蛋白质的高维特征矩阵HP矩阵获取公式如下:
HP(i,j)=[B(P(i),j)]′×[B(P(i),j)]i=1,2,...,N,j=1,2,...,20,
其中B表示20×20的BLOSUM62矩阵,B(i,j)表示氨基酸i在进化过程中突变成氨基酸j的占比。上述公式可以得到每个原始蛋白质序列被转换为长度400的特征矢量,那么一个蛋白质对就被转换为长度800的特征矢量。
对于长度800的特征矢量,在长度不一的蛋白质对中,蛋白质序列的长度从几十到几万不等。为了获得更加有效的蛋白质特征表达,降低噪声的干扰,本发明将使用二维线性判别分析法2DLDA将长度800的特征矢量信息整合为一个低维度的特征矩阵BP。二维线性判别分析法(Two-dimensional linear discriminant,2DLDA)是为了解决一维线性判别法(Linear Discriminant Analysis,LDA)的一些算法中的缺陷而提出的。LDA算法就是将高维度的数据经过子空间学习后映射到低维度的空间中,最优的投影空间可以通过散列矩阵的特征值分解计算得到,但是LDA在求解过程中存在奇异性问题而受到限制,在许多问题中都不能够得到正确求解。为了解决这个问题本发明采用LDA算法2DLDA,典型的LDA和2DLDA的主要区别在于数据表示的形式,LDA是由向量表示,2DLDA是由矩阵表示,也就是将数据在二维空间中进行投影。
将长度800的特征矢量的蛋白质对HPI(I=1,2,...,N),其中I表示蛋白质对的数量,并分为k个类,那么2DLDA算法可以找到HPI两个投影变换矩阵:L∈φr×p和R∈φc×q将高维空间的结构信息在低维空间上的得到保留,并保留为BPI∈φp×q,公式如下表示:
BPI(p,q)=LT(r,p)×HPI(r,c)×R(c,q)I=1,2,...,N.
子空间学习通过类内散列矩阵Fw和类间散列矩阵Fb两个变量进行相互约束求解出最优的映射变换矩阵L和R。当Fw求得最小值,Fb求得最大值时,那么L和R求得最优。基于一个自然的Frobenius范数的矩阵之间的相似性评价准则下,Fw和Fb有以下公式:
Figure BDA0001695003770000071
Figure BDA0001695003770000072
其中,
Figure BDA0001695003770000074
是指1≤i≤k中第i类别的平均值,
Figure BDA0001695003770000073
是指全局平均值。通过迭代算法求解Fw和Fb,经过40次的迭代后,将高维特征矩阵HP(r=20,c=40)降低到低维度的特征矩阵BP为49(r=7,c=7)。
进一步地,蛋白质氨基酸的疏水性特征是影响蛋白质结构稳定的因素之一,特别是在维持和稳定蛋白质构象中,氨基酸残基的亲疏水性是主要作用力,会影响蛋白质与蛋白质相互作用。在蛋白质特征提取中将氨基酸的疏水性特性作为一种特征提取方法,可以提取出更多蛋白质序列的有效信息,对后续的特征融合、编码起到重要作用。如表1所示,根据氨基酸疏水性指数将蛋白质序列中的每个氨基酸转换成数值的形式,在此基础之上,为了提取出真正有效的蛋白质特征,本发明将利用连续小波变换方法(Continuous WaveletTransform,CWT)对长短不一的数值序列统一为一个特征向量。
Figure BDA0001695003770000081
表1
连续小波变换方法可以将连续时间函数分解成很多个小波,构建一个具有很好的频域和时域局部化的信息。它的核心思想可以认为是将空间信息进行分解,在分解过程中,将输入信号变换为低频信息和高频信息,下一步又将低频信息和高频信息分别分解为两个部分,如此反复,直到满足假设的条件为止。本发明将通过疏水性指数(AAIndex)替代相应的1×N值的氨基酸序列,利用CWT算法将不同长度转化为统一大小特征矩阵(CP)。较佳地,用于特征提取的CWT公式可以表示如下:
Figure BDA0001695003770000082
CP(a,b)=CWT(a,b)×CWT(a,b)′a=1...n,b=1...n。
其中P=(p1,p2...,pN)指长度为N的氨基酸序列,A表示1×20的AAindex替换矩阵,φ(t)是指小波函数,a是尺度参数,b是平移参数。在本发明中经过实验验证设置a=5,b=5来表达蛋白质序列的特征。根据CWT,每个不同长度的原始氨基酸序列被转换成25个特征系数的大小。最后一个蛋白质对由两个具有50个特征系数(CP)的蛋白质序列组成。
进一步地,在蛋白质结构的研究中亲水性指数是很重要的因素,会影响蛋白质与蛋白质相互作用。如表2所示,根据氨基酸疏水性指数将蛋白质序列中的每个氨基酸转换成数值的形式,在此基础之上,为了提取出真正有效的蛋白质特征,本发明将利用离散小波变换(Discrete Wavelet Transform,DWT)对长短不一的数值序列统一为一个特征向量。
Figure BDA0001695003770000091
表2
DWT就是指离散的输入输出,将输出的尺度参数和平移参数进行离散化。信号经过离散小波变换时,是将信号一部分通过一个高通滤波器得到信号的高频信息,一部分通过低通滤波器信号的低频信息。DWT函数的定义如下:
Figure BDA0001695003770000092
其中,a表示尺度参数,b表示平移参数,ψ(t)表示小波函数,f(t)作为蛋白质氨基酸序列。离散小波变换后的特征中包含近似参数和细节参数。近似参数保存了大部分的低频信息,而细节参数保存了少部分的高频信息。本发明选择18个近似参数代表每个蛋白质特征的大部分信息,8个细节参数代表每个蛋白质特征的细节信息。最后一个蛋白质对由两个具有52维(DP)的特征矩阵组成。
在提取到三种模态的蛋白质特征之后,将提取出来的蛋白质特征进行多模态的深度多项式网络编码。如图2中的示意图所示,本发明的多模态的深度多项式网络算法包含两个阶段,第一个阶段是把上述提取到的三种模态的蛋白质特征分别进行深度多项式网络编码获得高级的特征表达,第二阶段是将第一阶段的三种高级的特征表达经过级联后再进行深度多项式网络编码获取到更高级的特征表达,即融合后的蛋白质特征。
具体地,如图3中所示,其中图3(a)展示了4层深度多项式网络。假设输入训练样本表示为{(x1,y1),...,(xm,ym)},权值系数为(w1,w2,...,wm)和m次多项式为p1,p2,...,pm,如果训练样本是确定和有限的,就能得到m个多项式p1,p2,...,pm的网络,然后根据目标输出训练出一个简单的线性分类器。即对任意的样本表示为:
Figure BDA0001695003770000101
对于1阶多项式可以表示为:
{(<w,[1x1]>,...,<w,[1xm]>):w∈Rm+1};
利用奇异值分解法求得m+1个维度的向量w1,w2,...,wm+1,然后得到线性变换的矩阵W,将[1 X]映射到构造基上。使得
Figure BDA0001695003770000102
的每一列都是线性独立的,如此构造出第一层网络F1。由构建的第一层网络表明矩阵
Figure BDA0001695003770000103
Figure BDA0001695003770000104
涵盖了2阶多项式可获得的所有可能值。因此,为了得到2阶多项式的构造基,只需要找到
Figure BDA0001695003770000109
中的子集F2就足够了,也就是说增广矩阵[F F2]的每一列都是来自
Figure BDA0001695003770000107
线性独立的列。通过从第一层网络构建第二层网络的过程,可以扩展到构建第三层,第四层,…,第z层网络。对于任何z阶多项式可以由1阶、2阶,…,(z-1)阶表示。因此,
Figure BDA0001695003770000108
矩阵为:
Figure BDA0001695003770000105
其中[F Fz],是来自
Figure BDA0001695003770000106
的子集。
但是,深度多项式网络算法存在两个挑战:第一,网络随着样本集的增大而增大。第二,网络太深和太大很容易造成过拟合。Fz是来自增广矩阵
Figure BDA0001695003770000111
列空间中的子集[F Fz]的列。因此如果
Figure BDA0001695003770000112
很大,那么|Fz|也可能会大,造成各层有许多新的节点。因此,本发明在求解时放弃求解完全的
Figure BDA0001695003770000113
,而是寻求“大约”的解,利用有界的部分构造基产生一个宽度小的网络层,也就是在每次迭代构建网络层的时候对网络的宽度进行参数设置。值得注意的是,第一层网络相当于主成分分析法进行特征编码,通过线性变换将增广矩阵[1,X]变换成前K个奇异向量。在下一层构建网络中,采用一个标准的正交最小二乘法算法来迭代选择
Figure BDA0001695003770000114
中最相关的列。
图3(b)是多模态线性组合的深度多项式网络示意图,从图3(b)中可以看到将三种蛋白质特征经过线性组合后输入到基本DPN进一步编码。但是多特征的线性组合可能忽略了每个特征的自身属性,没有考虑到不同模态之间的关联信息,而单个DPN编码也可能会忽视不同模态之间的互补信息。因此,为了获取多个特征之间的互补信息,本发明采用图3(c)的多模态深度多项式网络,通过两层级联的DPN编码对三种蛋白质特征进行融合,它可以融合不同的特征矩阵,进一步提高特征表示,从而获得融合后的蛋白质特征。具体地,本发明首先第一阶段是将每种特征分别进行DPN编码获得高级特征表示,然后第二阶段是将上一阶段的编码特征进行级联后再次进行DNP编码,最终获取到三种模态的蛋白质特征中各自内在的属性和彼此之间的互联信息。MDPN(多模态深度多项式网络)编码体现了多模态之间的互补性和多模态间高度的非线性关系,可以大大提高本发明特征提取的可靠性。在蛋白质与蛋白质相互作用的研究中利用BP、CP和DP的蛋白质模态特征进行两层级联的DPN编码,获得高层次特征的表示(融合后的蛋白质特征)。与以往的特征提取方法相比,MDPN方法结合三种模态的蛋白质特征的共同和互补信息。通过迭代构建每一层网络可以减少噪声并获得有效信息,从而为获取到蛋白质与蛋白质之间的相互作用的分析提供更为有效的数据支持,更有利于分析蛋白质的功能。较佳地,由于蛋白质数据集较小,每个模态的特征尺寸也相对较小,所以每个基本DPN构建了两层网络,并要对每一层网络进行宽度的设置。
进一步地,本发明的基于多模态蛋白质序列的特征提取与编码方法还包括:将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解,输出求解结果,所述求解结果用于分析蛋白质与蛋白质的相互作用。
具体地,极限学习机是基于单隐藏层前馈神经网络,只需要随机的初始化隐藏层的节点数就可以确定输出权重值。假设N个样本集m种类别数据表示为
Figure BDA0001695003770000121
输入表示为xj=[xj1,xj2,...,xjn]T∈Rn,期望输出表示为tj=[tj1,tj2,...,tjn]T∈Rm。具有n个隐藏节点和激活函数为g(x)的样本集定义为:
Figure BDA0001695003770000122
其中bi表示第i个隐藏节点的偏置,wi表示第i个隐藏节点连接到输出节点的权重,βi=[βi1,βi2,...,βim]T表示第i个隐藏节点和输出节点的权向量,oj表示实际的输出。极限学习机的目标函数为
Figure BDA0001695003770000123
求解下述公式的最小值,minβ||Hβ-T||F
其中:
Figure BDA0001695003770000131
其中H表示隐藏层输出矩阵。一般情况下,正则化最小二乘法被提出来求解的最优解如下:
Figure BDA0001695003770000132
其中λ表示正则化参数,用于平衡训练误差,影响算法的性能。因此,本发明将采用留一法来确定最优正则化λ。留一法意味着数据集被分成N个不同的样本,N-1个训练集作为训练集,剩下一个样本作为测试样本。为了降低计算复杂度,本发明采用了预测残差平方和(predicted residual sum of squares,PRESS)的统计方法,该方法有效地计算了线性模型的均方误差(mean square error,MSE),不用重新计算每个正则化参数λ的伪逆,并且利于奇异值分解来求解隐藏层输出矩阵H正则化后的HAT矩阵(被表示为HATr)。基于MSE的PRESS的计算公式为:
Figure BDA0001695003770000133
其中H=UDVT是H的奇异值分解,D是对角矩阵。
1)如果L≤N,HATr可以表示为:
HATr=H(HTH+λI)-1HT=H(VDUTUDVT+λI)-1HT=HV(D2+λI)-1VTHT
由上述MSEPRESS和此HATr的公式求得最优正则化参数λopt,相应的最优输出权重矩阵
Figure BDA0001695003770000141
为:
Figure BDA0001695003770000142
2)如果L≥N,HATr可以表示为:
HATr=HHT(HHT+λI)-1=HHT(UDVTVDVUT+λI)-l=HHTU(D2+λI)-1UT
由式MSEPRESS和次HATr求得最优正则化参数λopt,相应的最优输出权重矩阵
Figure BDA0001695003770000143
为:
Figure BDA0001695003770000144
以上就是通过留一交叉验证法对极限学习机求解的过程。极限学习机的主要优点是在算法执行过程中几乎不需要人为干预,通过将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解,输出求解结果,所述求解结果用于分析蛋白质与蛋白质的相互作用,从可以对蛋白质与蛋白质之间的相互作用进行预测,以便对蛋白质的功能进行更好的分析。
综上所述,本发明公开了一种基于多模态蛋白质序列的特征提取与编码方法及***,方法包括:分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征;对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;将三种高级的特征表达经过级联后再次进行深度多项式网络编码,获得融合后的蛋白质特征。相对于传统的蛋白质特征提取方法中,本发明综合了蛋白质氨基酸系列的多种理化性质,提取到更可靠的蛋白质特征,从而能够更准确的对蛋白质与蛋白质的相互作用进行分析。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于多模态蛋白质序列的特征提取与编码方法,其特征在于,所述方法包括:
步骤A、分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征;
步骤B、对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;
步骤C、将所述三种高级的特征表达经过级联后再次进行深度多项式网络编码,获得融合后的蛋白质特征;所述融合后的蛋白质特征中包含三种模态的蛋白质特征的各自内在的属性以及彼此之间的互联信息。
2.根据权利要求1所述的基于多模态蛋白质序列的特征提取与编码方法,其特征在于,所述步骤C之后还包括:
步骤D、将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解,输出求解结果,所述求解结果用于分析蛋白质与蛋白质的相互作用。
3.根据权利要求1所述的基于多模态蛋白质序列的特征提取与编码方法,其特征在于,所述步骤A具体包括:
步骤A1、基于线性判别分析法对蛋白质氨基酸序列的相对突变率的特征进行提取;
步骤A2、基于连续小波变换对蛋白质氨基酸序列的疏水性的特征进行提取;
步骤A3、基于离散小波变换对蛋白质氨基酸序列的亲水性的特征进行提取。
4.根据权利要求3所述的基于多模态蛋白质序列的特征提取与编码方法,其特征在于,所述步骤A1具体包括:
步骤A11、利用氨基酸评分矩阵代替蛋白质的序列信息,并通过矩阵运算获得蛋白质的高维特征矩阵;
步骤A12、获取所述高维特征矩阵中的特征矢量信息,并使用二维线性判别分析法将所述特征矢量信息整合成一个低维的特征矩阵。
5.根据权利要求3所述的基于多模态蛋白质序列的特征提取与编码方法,其特征在于,所述步骤A2具体包括:
步骤A21、根据氨基酸序列的疏水性指数将蛋白质序列中的每个氨基酸转换成数值的形式;
步骤A22、利用连续小波变换方法对长短不一的数值序列统为一个特征矩阵。
6.根据权利要求3所述的基于多模态蛋白质序列的特征提取与编码方法,其特征在于,所述步骤A3具体包括:
步骤A31、根据氨基酸序列的亲水性指数将蛋白质序列中的每个氨基酸转换成数值的形式;
步骤A32、利用离散小波变换方法对长短不一的数值序列统为一个特征矩阵。
7.根据权利要求1所述的基于多模态蛋白质序列的特征提取与编码方法,其特征在于,所述步骤B和步骤C中的深度多项式网络是经过多次迭代构建而成,并且在每次迭代构建网络层的时候对网络的宽度进行参数设置。
8.根据权利要求2所述的基于多模态蛋白质序列的特征提取与编码方法,其特征在于,所述步骤D中的极限学习机分类器是基于单隐藏层前馈神经网络,并在算法求解过程中采用留一交叉验证的方法选择最优的正则化参数。
9.一种基于多模态蛋白质序列的特征提取与编码***,其特征在于,所述***包括:
特征提取模块,用于分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征;
第一特征编码模块,用于对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;
第二特征编码模块,用于将所述三种高级的特征表达经过级联后再次进行深度多项式网络编码,获得融合后的蛋白质特征;所述融合后的蛋白质特征中包含三种模态的蛋白质特征的各自内在的属性以及彼此之间的互联信息。
10.根据权利要求9所述的基于多模态蛋白质序列的特征提取与编码***,其特征在于,所述***还包括:
分析模块,用于将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解,输出求解结果,所述求解结果用于分析蛋白质与蛋白质的相互作用。
CN201810608670.XA 2018-06-13 2018-06-13 一种基于多模态蛋白质序列的特征提取与编码方法及*** Active CN108830042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810608670.XA CN108830042B (zh) 2018-06-13 2018-06-13 一种基于多模态蛋白质序列的特征提取与编码方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810608670.XA CN108830042B (zh) 2018-06-13 2018-06-13 一种基于多模态蛋白质序列的特征提取与编码方法及***

Publications (2)

Publication Number Publication Date
CN108830042A CN108830042A (zh) 2018-11-16
CN108830042B true CN108830042B (zh) 2021-09-21

Family

ID=64141321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810608670.XA Active CN108830042B (zh) 2018-06-13 2018-06-13 一种基于多模态蛋白质序列的特征提取与编码方法及***

Country Status (1)

Country Link
CN (1) CN108830042B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164507A (zh) * 2019-05-31 2019-08-23 郑州大学第一附属医院 一种蛋白质相似度及相似蛋白质的确定方法和***
CN110706739B (zh) * 2019-08-26 2021-10-29 浙江工业大学 一种基于多模态内外交叉的蛋白质构象空间采样方法
CN113537409B (zh) * 2021-09-13 2022-01-25 烟台双塔食品股份有限公司 一种豌豆蛋白数据特征提取方法
CN114743591A (zh) * 2022-03-14 2022-07-12 中国科学院深圳理工大学(筹) 一种mhc可结合肽链的识别方法、装置及终端设备
CN115293244B (zh) * 2022-07-15 2023-08-15 北京航空航天大学 一种基于信号处理及数据约简的智能电网虚假数据注入攻击检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6317853A (ja) * 1986-07-09 1988-01-25 Takeda Chem Ind Ltd 2−メトキシメチレン−3,3−ジメトキシプロパンニトリルの製造法
CN102819693A (zh) * 2012-08-17 2012-12-12 中国人民解放军第三军医大学第二附属医院 一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法
CN107506613A (zh) * 2017-08-29 2017-12-22 浙江工业大学 一种基于复合结构特征的多模态蛋白质构象空间优化方法
KR20180050096A (ko) * 2016-11-04 2018-05-14 연세대학교 산학협력단 신항원 탐지 방법 및 이를 이용한 신항원 탐지 디바이스

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6317853A (ja) * 1986-07-09 1988-01-25 Takeda Chem Ind Ltd 2−メトキシメチレン−3,3−ジメトキシプロパンニトリルの製造法
CN102819693A (zh) * 2012-08-17 2012-12-12 中国人民解放军第三军医大学第二附属医院 一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法
KR20180050096A (ko) * 2016-11-04 2018-05-14 연세대학교 산학협력단 신항원 탐지 방법 및 이를 이용한 신항원 탐지 디바이스
CN107506613A (zh) * 2017-08-29 2017-12-22 浙江工业大学 一种基于复合结构特征的多模态蛋白质构象空间优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"蛋白质相互作用预测方法的研究";史明光;《中国优秀博士学位论文全文数据库基础科学辑》;20091015;第A006-24页 *

Also Published As

Publication number Publication date
CN108830042A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108830042B (zh) 一种基于多模态蛋白质序列的特征提取与编码方法及***
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
JP5144123B2 (ja) 情報処理方法、情報処理装置
Lei et al. Protein–protein interactions prediction via multimodal deep polynomial network and regularized extreme learning machine
US20220036182A1 (en) Method and apparatus for synthesizing target products by using neural networks
CN110717519B (zh) 训练、特征提取、分类方法、设备及存储介质
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及***
JP2012507793A (ja) 複雑度正規化パターンの表現、探索、及び圧縮
CN116486900B (zh) 基于深度模态数据融合的药物靶标亲和度预测方法
CN115147655A (zh) 油气集输监控***及其方法
Yin et al. Batude: Budget-aware neural network compression based on tucker decomposition
CN110990580A (zh) 知识图谱的构建方法、构建装置、计算机设备及存储介质
Wang et al. Time-weighted kernel-sparse-representation-based real-time nonlinear multimode process monitoring
CN115861767A (zh) 一种用于图像分类的神经网络联合量化方法
Xin et al. Exploring algorithmic limits of matrix rank minimization under affine constraints
CN112541541B (zh) 基于多元素分层深度融合的轻量级多模态情感分析方法
CN110941542B (zh) 基于弹性网络的序列集成高维数据异常检测***及方法
CN112734025B (zh) 基于固定基正则化的神经网络参数稀疏化方法
CN112348164A (zh) 用残差变分自编码器无监督解纠缠表示学习的装置和***
Zare et al. A Novel multiple kernel-based dictionary learning for distributive and collective sparse representation based classifiers
CN115457638A (zh) 模型训练方法、数据检索方法、装置、设备及存储介质
Mitz et al. Symmetric rank-one updates from partial spectrum with an application to out-of-sample extension
Kim et al. Extension of pQSAR: Ensemble model generated by random forest and partial least squares regressions
Wang et al. Scalar quantization as sparse least square optimization
CN114492165A (zh) 基于亲缘选育方法的参数优化方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant