CN105930687A

CN105930687A - 一种可在细菌全基因组水平预测外膜蛋白质的方法

Info

Publication number: CN105930687A
Application number: CN201610228308.0A
Authority: CN
Inventors: 邹凌云; 陈抗; 钟蔚
Original assignee: Third Military Medical University TMMU
Current assignee: Third Military Medical University TMMU
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2016-09-07

Abstract

本发明公开了一种可在细菌全基因组水平预测外膜蛋白的方法，该方法为：利用分组重量编码算法，计算蛋白质序列特征，采用特征选择技术提取特征向量，建立基于支持向量机的分类器，对外膜蛋白质和非外膜蛋白质进行分类，通过web服务器，接受用户输入的蛋白质序列，预测其是否为一个外膜蛋白。本发明为细菌基因组内外膜蛋白质的计算机筛选提供了有效工具，在训练数据集上区分外膜蛋白质和非外膜蛋白的敏感性、特异性、总预测精度和马氏相关系数分别达到95.2％、96.1％、95.9％和0.874，在13个物种基因组内预测外膜蛋白质的结果中体现出极高的敏感性，可应用于新的细菌基因组外膜蛋白质的筛选、鉴定和功能研究。

Description

一种可在细菌全基因组水平预测外膜蛋白质的方法

技术领域

本发明属于预测革兰阴性菌外膜蛋白质的技术领域，尤其涉及一种可在细菌全基因组水平预测其外膜蛋白质的方法。

背景技术

革兰阴性细菌外膜上分布大量beta-barrel形状的跨膜蛋白质，其中的一些蛋白质是细菌入侵宿主细胞的功能蛋白，也是宿主免疫***清除细菌的靶向识别蛋白，介导多种疾病的产生，同时也能激活机体的免疫机制来对抗细菌的感染。

当前，在新的细菌基因组内鉴定外膜蛋白主要通过实验完成。

然而，使用实验方法对外膜蛋白进行鉴定，需要耗费大量的人力物力，成本高，效率低。一个新的细菌基因组往往编码几千个蛋白质，使用传统实验方法对其中的外膜蛋白质进行一一鉴定，是一件极其困难的事情。因此，使用计算机来进行生物信息学预测，可自动化实现，速度快，成本低，是解决在细菌全基因组内鉴别外膜蛋白质的有效途径。

因此，如何建立一种准确快速的生物信息学预测和识别算法，成为当前这一领域需要解决的主要问题。

发明内容

本发明的目的在于提供一种可在细菌全基因组水平预测其外膜蛋白质的方法，旨在解决目前在新的细菌基因组内鉴定外膜蛋白主要通过实验完成，造成耗费大量的人力物力，成本高，效率低的问题。

本发明是这样实现的，一种可在细菌全基因组水平预测外膜蛋白质的方法，该可在细菌全基因组水平预测外膜蛋白质的方法为：

利用分组重量编码算法，计算蛋白质序列特征，提取特征向量，建立基于支持向量机的分类器，对外膜蛋白质和非外膜蛋白质进行分类，通过web服务器，接受用户输入的蛋白质序列，预测用户输入的蛋白质序列是否为一个外膜蛋白。

进一步，该可在细菌全基因组水平预测外膜蛋白质的方法具体包括以下步骤：

步骤一、用户登录web服务器主页，在文本框内输入待预测的细菌蛋白质序列；

步骤二、服务器JSP程序获取用户输入的蛋白序列，并在前台生成结果输出页，不断刷新；

步骤三、JSP程序建立结果保存目录，并调用Matlab来运行核心预测程序，计算蛋白质序列分组重量编码特征和氨基酸组成特征；

步骤四、Matlab程序将多类特征依据预设方式进行选择和组合，产生一个蛋白质特征向量；

步骤五、Matlab程序调用libSVM程序，使用事先训练好的模型，预测蛋白质是外膜蛋白的似然率；

步骤六、根据SVM预测结果判断其是否为一个外膜蛋白，以HTML格式保存到结果目录；

步骤七、负责结果输出的JSP程序不断查询结果保存目录，确认结果文件是否生成；

步骤八、一旦结果生成，则JSP程序将蛋白序列和判断结果均显示在前台网页。

进一步，所述分组重量编码算法即EBGW算法为：

蛋白质序列视为20种氨基酸残基组成的字符串，从氨基酸的疏水性、电荷性质方面分为四组：中性非极性氨基酸G1＝{G,A,V，L,I,M，P,F，W}；中性极性氨基酸G2＝{Q,N,S,T，Y，C}；酸性带负电荷的氨基酸G3＝{D,E}；碱性带正电荷的氨基酸G4＝{H,K,R}，两两组合，组合方式为：{G1,G2}和{G3,G4}、{G1,G3}和{G2,G4}、{G1,G4}和{G2,G3}，设A＝s₁,s₂,s₃,…,s_n是一条长度为n的蛋白质序列，通过定义以下三个映射，将序列A转化为三条0-1进制序列：

Tⁱ(n)＝S_i(s₁)，S_i(s₂)…S_i(s_n)(i＝1，2，3)

其中，

S_{1} (s_{j}) = \{\begin{matrix} 1 & i f & s_{j} &Element; {G 1, G 2} \\ 0 & i f & s_{j} &Element; {G 3, G 4} \end{matrix}\}, j = (1, 2, ... n)

S_{2} (s_{j}) = \{\begin{matrix} 1 & i f & s_{j} &Element; {G 1, G 3} \\ 0 & i f & s_{j} &Element; {G 2, G 4} \end{matrix}\}, j = (1, 2, ... n)

S_{3} (s_{j}) = \{\begin{matrix} 1 & i f & s_{j} &Element; {G 1, G 4} \\ 0 & i f & s_{j} &Element; {G 2, G 3} \end{matrix}\}, j = (1, 2, ... n)

记(i＝1,2,3)，称T¹，T²，T³分别为序列A的1-特征序列、2-特征序列、3-特征序列，对于任意一条特征序列，定义该序列中“1”出现的次数为该序列的重量，重量是与序列长度相关的一个量，进一步定义正规重量为该序列中“1”出现的频率，对于长度为n的特征序列T，其正规重量为W(n)＝p/n，其中p为序列中“1”出现的次数，取一个正整数L，将特征序列T划分为L条长度递增的子序列，记为其中表示取整运算；分别计算每条子序列的正规重量，记为得到一个L维的向量，将长度为n的蛋白质序列编码成为一个L维的向量，将T¹，T²，T³三条特征序列向量组合在一起，得到一个3L维的向量，记为[W¹,W²,W³]＝[w₁,w₂,…,w_3L]，称3L维的向量为序列分组重量特征向量；计算蛋白质A序列中20种氨基酸的含量，得到一个20维的向量，其中f_i表示第i种氨基酸残基在序列中的含量，为氨基酸组成特征向量；将分组重量特征和氨基酸组成特征进行组合，将一条蛋白质序列编码为一个3L+20维的向量：

X＝[w₁,w₂,…,w_3L,f₁,f₂,…,f₂₀]。

进一步，所述分组重量编码算法即EBGW算法中对于一条蛋白质序列，分组重量编码特征反映不同性质的残基在序列不同区域出现的频率，氨基酸组成特征反映不同类型的残基在整个序列中出现的频率。

进一步，计算蛋白质序列特征的web服务器后台JSP程序，将用户输入的蛋白质序列输入matlab脚本程序，matlab脚本程序依据分组重量编码算法，采用预先设定的参数，从蛋白质序列中计算160维分组重量编码特征，并同时计算氨基酸组成特征，将二类特征进行不同方式的组合，得到一个组合的特征向量。

进一步，所述提取特征向量方法为：使用F-score得分和反向特征选择算法挑选有效特征，将挑选出来的有效特征转换成一个多维特征向量。

进一步，所述建立基于支持向量机(SVM)的分类器，对外膜蛋白质和非外膜蛋白质进行分类的方法为：利用libSVM3.12建立基于SVM的分类器并将多维的特征向量输入，SVM分类器包括利用数据挖据技术建立的外膜蛋白和非外膜蛋白训练数据集，以及根据SVM算法建立并使用训练数据训练好的分类模型，核函数，参数。

进一步，所述使用F-score得分来筛选有效特征方法为：对于一个给定的m维训练向量X_k，k＝1,2,…,m，若阳性和阴性的训练样本数量分别为n+和n-，则第i个特征的F-score值计算公式为：

F (i) = \frac{{({\overset{&OverBar;}{x}}_{i}^{(+)} - {\overset{&OverBar;}{x}}_{i})}^{2} + {({\overset{&OverBar;}{x}}_{i}^{(-)} - {\overset{&OverBar;}{x}}_{i})}^{2}}{\frac{1}{n_{+} - 1} Σ_{k = 1}^{n_{+}} {(x_{k, i}^{(+)} - {\overset{&OverBar;}{x}}_{i}^{(+)})}^{2} + \frac{1}{n_{-} - 1} Σ_{k = 1}^{n_{-}} {(x_{k, i}^{(-)} - {\overset{&OverBar;}{x}}_{i}^{(-)})}^{2}}

这里，分别为第i个特征值的均值、正样本均值、负样本均值，x_k,i ⁽⁺⁾表示第k个阳性样本的第i个特征值，x_k,i ^(-)表示第k个阴性样本的第i个特征值，分子指出阳性数据集和阴性数据集之间的差别，而分母指出两个数据集中每两个数据之间的差别。

进一步，所述使用反向特征选择算法挑选有效特征方法为：进行有效特征选择时，使用反向选择方法，首先使用全部特征来训练分类模型，每次进行选择时，在当前特征向量中去掉F-score值最小的特征并重新进行训练和测试；测试中分类效果包括分类效果提高和分类效果降低，分类效果提高则舍弃当前特征值，分类效果降低则保留当前特征值，重复这一步骤，直到预测性能无法继续提高，以此时的结果作为最终选择。

进一步，所述根据SVM算法建立并使用训练数据训练好的分类模型，核函数，参数中分类模型的构建方法为：

首先收集样本序列，并采用BLAST算法去除冗余序列，得到外膜蛋白质序列和非外膜蛋白质序列作为训练数据集，去除冗余序列后的每一条蛋白质序列之间的序列相似度不超过25％，训练SVM分类模型时，SVM核函数选择RBF核函数，惩罚因子参数使用网格搜索和十倍交叉验证测试来确定，SVM分类模型使用libSVM中的SVMtrain程序进行训练，使用敏感性、特异性、总预测精度和马氏相关系数综合评价预测性能，最终从测试结果中选择马氏相关系数最优的特征组合方式和模型参数，将性能最优的模型作为最终模型输出保存。

本发明是生物信息学方法在细菌外膜蛋白质预测领域的一个应用，其核心思想是提出了一种结合分组重量编码和氨基酸组成的蛋白质序列特征挖掘方法，并结合机器学***行的beta折叠，如果能够提取其中的序列特征，并依此建立序列分类算法，就可以在各类蛋白质序列中识别这类外膜蛋白质。本发明基于上述思想，将信息学中使用的分组重量编码技术(EBGW)应用于蛋白质序列信息提取，计算EBGW和氨基酸组成两类特征，并且设计了一种基于F-Score方程的特征选择方法，通过该方法从组合特征向量中选择最有效的特征子集；此外，采用在模式识别和机器学习领域表现出优异性能的支持向量机算法来建立分类模型，采用ROC曲线确定最佳分组数量，采用网格搜索确定最佳SVM核函数和参数；使用数据库检索和文献挖掘方法建立标准训练和测试数据集，使用BLAST同源比对技术去除数据冗余，使用敏感性、特异性、预测精度和马氏相关系数等多个指标来衡量预测性能，通过大量性能测试建立优化好的SVM分类模型，可以对任意未知的蛋白质序列进行预测，给出其是一个外膜蛋白质的似然率。该程序通过web服务器的方式，接受用户输入的细菌基因组蛋白质序列，预测其是否为一个外膜蛋白，并且具有很高的预测准确度。

建立了包含208条外膜蛋白、879条非外膜蛋白的无冗余训练数据集，在训练数据集上使用十倍交叉验证测试检验本发明的性能，结果显示，该方法区分外膜蛋白质和非外膜蛋白之的敏感性、特异性、总预测精度和马氏相关系数分别达到95.2％、96.1％、95.9％和0.874，预测性能超过了国内外研究者提出的其它方法。此外，使用该预测工具在13个物种全基因组蛋白质中进行进行计算和预测，在革兰阴性菌基因组内，据估计大约有1.5％到3％的蛋白质为外膜蛋白。模型在4个革兰阴性菌基因组中预测的外膜蛋白的比例与这一估计相符，这其中包括52条包含在208个训练样本中的外膜蛋白，以及212条新预测到的外膜蛋白。还在具备外膜结构的聚球蓝藻细菌基因组内预测到21个外膜蛋白，表明预测模型的敏感性比较高。在不存在外膜蛋白质的2个古细菌和4个革兰阳性菌基因组内，一共预测到0.24％的外膜蛋白(37/15616)，这一比例远低于在革兰阴性菌中的数量，表明预测模型具有很好的特异性。此外，在真核物种中的预测结果显示该预测模型也能够发现其中的外膜蛋白，如在酵母中预测到了6个阳性结果，其中4个为已知的线粒体外膜蛋白，其中包括两个VDAC异构体蛋白。此外，在人类基因组中预测到31个外膜蛋白，其中13个为已知的线粒体外膜蛋白，18个为假阳性结果，表明在与细菌差异较大的人类基因组内，预测模型的特异性降低，但是仍然保持了较好的敏感性。

本发明可以广泛应用于鉴定细菌外膜蛋白质的相关研究。细菌外膜蛋白质是参与细菌致病的重要分子，是众多抗菌药物的作用靶标。利用本发明及其提供的web预测服务器，可以快速预测新的细菌基因组内的外膜蛋白质，获得一个数据量很小的外膜蛋白质候选对象，用于实验鉴定或者其他用途，从而加速细菌基因组外膜蛋白质的鉴定过程。

附图说明

图1是本发明提供的可在细菌全基因组水平预测外膜蛋白质的方法具体步骤流程图。

图2是本发明提供的可在细菌全基因组水平预测外膜蛋白质的算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作进一步描述。

一种可在细菌全基因组水平预测外膜蛋白质的方法，该可在细菌全基因组水平预测外膜蛋白质的方法为：

如图1所示：该可在细菌全基因组水平预测外膜蛋白质的方法具体包括以下步骤：

S101：用户登录web服务器主页，在文本框内输入待预测的细菌蛋白质序列；

S102：服务器JSP程序获取用户输入的蛋白序列，并在前台生成结果输出页，不断刷新；

S103：JSP程序建立结果保存目录，并调用Matlab来运行核心预测程序，计算蛋白质序列分组重量编码特征、氨基酸组成特征；

S104：Matlab程序将多类特征依据预设方式进行选择和组合，产生一个蛋白质特征向量；

S105：Matlab程序调用libSVM程序，使用事先训练好的模型，预测蛋白质是外膜蛋白的似然率；

S106：根据SVM预测结果判断其是否为一个外膜蛋白，以HTML格式保存到结果目录；

S107：负责结果输出的JSP程序不断查询结果保存目录，确认结果文件是否生成；

S108：一旦结果生成，则JSP程序将蛋白序列和判断结果均显示在前台网页。

进一步，所述分组重量编码算法即EBGW算法为：

Tⁱ(n)＝S_i(s₁)，S_i(s₂)···S_i(s_n)(i＝1，2，3)

其中，

S_{1} (s_{j}) = \{\begin{matrix} 1 & i f & s_{j} &Element; {G 1, G 2} \\ 0 & i f & s_{j} &Element; {G 3, G 4} \end{matrix}\}, j = (1, 2, ... n)

S_{2} (s_{j}) = \{\begin{matrix} 1 & i f & s_{j} &Element; {G 1, G 3} \\ 0 & i f & s_{j} &Element; {G 2, G 4} \end{matrix}\}, j = (1, 2, ... n)

S_{3} (s_{j}) = \{\begin{matrix} 1 & i f & s_{j} &Element; {G 1, G 4} \\ 0 & i f & s_{j} &Element; {G 2, G 3} \end{matrix}\}, j = (1, 2, ... n)

记(i＝1,2,3)，称T¹，T²，T³分别为序列A的1-特征序列、2-特征序列、3-特征序列，对于任意一条特征序列，定义该序列中“1”出现的次数为该序列的重量，重量是与序列长度相关的一个量，进一步定义正规重量为该序列中“1”出现的频率，对于长度为n的特征序列T，其正规重量为W(n)＝p/n，其中p为序列中“1”出现的次数，取一个正整数L，将特征序列T划分为L条长度递增的子序列，记为其中表示取整运算；分别计算每条子序列的正规重量，记为得到一个L维的向量，将长度为n的蛋白质序列编码成为一个L维的向量，将T¹，T²，T³三条特征序列向量组合在一起，得到一个3L维的向量，记为[W¹,W²,W³]＝[w₁,w₂,…,w_3L]，称3L维的向量为序列分组重量特征向量；

计算蛋白质A序列中20种氨基酸的含量，得到一个20维的向量，其中f_i表示第i种氨基酸残基在序列中的含量，为氨基酸组成特征向量；将分组重量特征和氨基酸组成特征进行组合，将一条蛋白质序列编码为一个3L+20维的向量：

X＝[w₁,w₂,…,w_3L,f₁,f₂,…,f₂₀]。

进一步，计算蛋白质序列特征的web服务器后台JSP程序，将用户输入的的蛋白质序列输入matlab程序，matlab程序依据分组重量编码算法，采用预先设定的参数，从蛋白质序列中计算160维分组重量编码特征，并同时计算氨基酸组成特征，将二类特征进行不同方式的组合，得到一个组合的特征向量。

进一步，所述建立基于支持向量机的分类器，对外膜蛋白质和非外膜蛋白质进行分类的方法为：利用libSVM3.12建立基于支持向量机的SVM分类器并将特征向量输入，SVM分类器包括利用数据挖据技术建立的外膜蛋白和非外膜蛋白训练数据集，以及根据SVM算法建立并使用训练数据训练好的分类模型，核函数，参数。

F (i) = \frac{{({\overset{&OverBar;}{x}}_{i}^{(+)} - {\overset{&OverBar;}{x}}_{i})}^{2} + {({\overset{&OverBar;}{x}}_{i}^{(-)} - {\overset{&OverBar;}{x}}_{i})}^{2}}{\frac{1}{n_{+} - 1} Σ_{k = 1}^{n_{+}} {(x_{k, i}^{(+)} - {\overset{&OverBar;}{x}}_{i}^{(+)})}^{2} + \frac{1}{n_{-} - 1} Σ_{k = 1}^{n_{-}} {(x_{k, i}^{(-)} - {\overset{&OverBar;}{x}}_{i}^{(-)})}^{2}}

使用数据库搜索、序列比对和文献挖掘手段收集样本序列，并采用BLAST算法去除冗余序列，得到208个外膜蛋白质序列，879条非外膜蛋白质序列作为训练数据集，其中的每一条蛋白质序列之间的序列相似度不超过25％，训练SVM分类模型时，SVM核函数选择RBF核函数，惩罚因子参数使用网格搜索和十倍交叉验证测试来确定，SVM分类模型使用libSVM中的SVMtrain程序进行训练，使用敏感性、特异性、总预测精度和马氏相关系数综合评价预测性能，最终从测试结果中选择马氏相关系数最优的特征组合方式和模型参数，将性能最优的模型作为最终模型输出保存。

在训练数据集上使用时十倍交叉验证测试检验本发明的性能，结果显示，该方法区分外膜蛋白质和非外膜蛋白之的敏感性、特异性、总预测精度和马氏相关系数分别达到95.2％、96.1％、95.9％和0.874，预测性能超过了国内外研究者提出的其它方法。此外，使用该预测工具在13个物种全基因组蛋白质中进行进行计算和预测，结果如下表所示。在革兰阴性菌基因组内，据估计大约有1.5％到3％的蛋白质为外膜蛋白。模型在4个革兰阴性菌基因组中预测的外膜蛋白的比例与这一估计相符，这其中包括52个包含在208个训练样本中的外膜蛋白，以及212条新预测到的外膜蛋白。还在具备外膜结构的聚球蓝藻细菌基因组内预测到21个外膜蛋白，表明预测模型的敏感性比较高。在不存在外膜蛋白质的2个古细菌和4个革兰阳性菌基因组内，一共预测到0.24％的外膜蛋白(37/15616)，这一比例远低于在革兰阴性菌中的预测结果，表明预测模型具有很好的特异性。此外，在真核物种中的预测结果显示该预测模型也能够发现其中的外膜蛋白，如在酵母中预测到了6个阳性结果，其中4个为已知的线粒体外膜蛋白，其中包括两个VDAC异构体蛋白。此外，在人类基因组中预测到31个外膜蛋白，其中13个为已知的线粒体外膜蛋白，18个为假阳性结果，表明在与细菌差异较大的人类基因组内，预测模型的特异性降低，但是仍然保持了较好的敏感性。

表1在13个物种基因组内预测外膜蛋白的结果

下面结合总体设计及具体实施例对本发明的应用原理作进一步描述。

二、总体设计

2.1web预测服务器的工作环境

该web服务器操作***为CentOS Linux 5.11，JSP支持环境为apache-tomcat-8.0.30。网页代码使用JSP和HTML编写，核心程序使用matlab编写，程序内集成LibSVM3.12，Matlab编译版本为R2011b。该web服务器主要内容包括：介绍web服务器的基本功能和应用背景知识的Read Me、下载本算法所使用的训练数据集的Data、引用参考文献信息的Citation和提供联系方式的Contacts。

2.3程序运行原理

服务器后台的JSP程序，将前台网页提交的蛋白质序列输入matlab程序，该程序依据预先设定的参数，使用EBGW算法，从蛋白质序列中计算160维分组重量编码特征，并同时计算氨基酸组成特征，使用特征选择算法挑选有效特征，将这些特征转换成一个特征向量，将该特征向量输入支持向量机分类器(利用libSVM3.12建立的分类器，包括根据训练数据集建立的分类模型，核函数，参数等)，SVM分类器将输出判别结果，保存到本地磁盘。最后，JSP网页不断查询该数据保存目录，一旦结果计算完毕，则将预测结果输出到前台网页。用户通过前台网页可以查看蛋白质是否预测为一个外膜蛋白质。

三、程序使用说明

3.1主要功能

该程序可以对输入的革兰阴性细菌基因组蛋白质序列，对其进行分组重量编码，并自动提取特征子集，利用内置的支持向量机算法判别其是否为一个外膜蛋白质。一次可以输入一个不小于50个氨基酸残基的蛋白质序列。该方法不需要任何已知的蛋白质结构或功能信息，是一种应用非常方便的Denovo预测方法。

3.2预测性能

预测细菌基因组内外膜蛋白质的敏感性达到95.2％，总体准确率达到95.9％，优于国内外已经报道的其他预测算法。

3.3使用方法和步骤

1)登陆web服务器。该程序的web服务器网址：

http://202.202.232.206/EBGW_OMP；

或者：http://bioinfo.tmmu.edu.cn/EBGW_OMP,，

主页除了序列输入文本框意外，还包括四个方面功能：

1.Read Me：介绍了本工具的基本功能和应用背景知识。

2.Data：可以下载本算法所使用的训练数据集。

3.Citation：引用参考文献信息

4.Contacts：本项目的联系方式。

2)输入蛋白质序列，

进入主页，在页面上的文本框内输入待预测的蛋白质序列(要求仅仅输入序列，不包含其他任何信息)。输入序列以后，点击“Submit”即可完成提交。等待服务器计算完成，预测结果将显示在该网页上。期间，网页会自动刷新。

3)计算

提交的序列将转到服务器后台，完成序列特征计算和SVM分类器判别，用户需要等待结果计算完成。

4)预测结果查看

计算完成以后，在网页上会自动显示预测结果的链接，点击链接即可查看预测结果。

其中，“Your input sequence”显示用户输入的蛋白质序列；在蛋白质序列信息后面一行提示了预测结果，例如“The protein is an Outer Membrane Protein”表面该蛋白质预测为一个外膜蛋白；若提示“The protein is NOT an Outer Membrane Protein”，则提示该蛋白质预测为一个非外膜蛋白质。

3.4程序文件说明

predict.jsp:后台获取蛋白质序列并提交到计算程序的JSP程序；

result.jsp:后台获取预测结果发送到前台网页显示的JSP程序；

matlabcode目录：计算程序的核心matlab代码；其中核心程序为ebgwaa_predict.m，其功能为计算蛋白质序列特征并调用libSVM进行预测；

libSVM目录：libSVM3.12程序；

dataset目录：由实验验证的细菌外膜蛋白质和非外膜蛋白质序列构成的训练数据集。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，该可在细菌全基因组水平预测外膜蛋白质的方法为：

利用分组重量编码算法，计算蛋白质序列特征，提取特征向量，建立基于支持向量机的分类器，对外膜蛋白质和非外膜蛋白质进行分类，通过web服务器，接受用户输入的细菌基因组编码的蛋白质序列，预测用户输入的蛋白质序列是否为一个外膜蛋白。

2.如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，该可在细菌全基因组水平预测外膜蛋白质的方法具体包括以下步骤：

步骤三、JSP程序建立结果保存目录，并调用Matlab来运行核心预测程序，计算蛋白质序列分组重量编码特征、氨基酸组成特征；

步骤四、Matlab程序将多类特征依据预设方式进行特征选择和组合，产生一个蛋白质特征向量；

3.如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，所述分组重量编码算法即EBGW算法为：

Tⁱ(n)＝S_i(s₁)，S_i(S₂)…S_i(s_n)(i＝1，2，3)

其中，

S_{1} (s_{j}) = \{\begin{matrix} 1 & \begin{matrix} i f & s_{j} &Element; {G 1, G 2} \end{matrix} \\ 0 & \begin{matrix} i f & s_{j} &Element; {G 3, G 4} \end{matrix} \end{matrix}\}, j = (1, 2, ... n)

S_{2} (s_{j}) = \{\begin{matrix} 1 & \begin{matrix} i f & s_{j} &Element; {G 1, G 3} \end{matrix} \\ 0 & \begin{matrix} i f & s_{j} &Element; {G 2, G 4} \end{matrix} \end{matrix}\}, j = (1, 2, ... n)

S_{3} (s_{j}) = \{\begin{matrix} 1 & \begin{matrix} i f & s_{j} &Element; {G 1, G 4} \end{matrix} \\ 0 & \begin{matrix} i f & s_{j} &Element; {G 2, G 3} \end{matrix} \end{matrix}\}, j = (1, 2, ... n)

X＝[w₁,w₂,…,w_3L,f₁,f₂,…,f₂₀]。

4.如权利要求3所述的可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，所述分组重量编码算法即EBGW算法中对于一条蛋白质序列，分组重量编码特征反映不同性质的残基在序列不同区域出现的频率，氨基酸组成特征反映不同类型的残基在整个序列中出现的频率。

5.如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，web服务器后台的JSP程序，将用户输入的的蛋白质序列输入matlab脚本程序，matlab脚本程序依据分组重量编码算法，采用预先设定的参数，从蛋白质序列中计算160维分组重量编码特征，并同时计算氨基酸组成特征，将二类特征进行不同方式的组合，得到一个组合的特征向量。

6.如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，所述提取特征向量方法为：使用F-score得分和反向特征选择算法挑选有效特征，将挑选出来的有效特征转换成一个多维的特征向量。

7.如权利要求1所述的可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，所述建立基于支持向量机的分类器，对外膜蛋白质和非外膜蛋白质进行分类的方法为：

利用libSVM3.12建立基于支持向量机的SVM分类器并将多维特征向量输入，SVM分类器包括外膜蛋白和非外膜蛋白训练数据集，以及根据SVM算法建立并使用训练数据集训练好的分类模型、核函数、参数。

8.如权利要求6所述的可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，所述使用F-score得分筛选有效特征方法为：

对于一个给定的m维训练向量X_k，k＝1,2,…,m，若阳性和阴性的训练样本数量分别为n+和n-，则第i个特征的F-score值计算公式为：

F (i) = \frac{{({\overset{&OverBar;}{x}}_{i}^{(+)} - {\overset{&OverBar;}{x}}_{i})}^{2} + {({\overset{&OverBar;}{x}}_{i}^{(-)} - {\overset{&OverBar;}{x}}_{i})}^{2}}{\frac{1}{n_{+} - 1} Σ_{k = 1}^{n_{+}} {(x_{k, i}^{(+)} - {\overset{&OverBar;}{x}}_{i}^{(+)})}^{2} + \frac{1}{n_{-} - 1} Σ_{k = 1}^{n_{-}} {(x_{k, i}^{(-)} - {\overset{&OverBar;}{x}}_{i}^{(-)})}^{2}}

9.如权利要求6所述的可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，所述使用反向特征选择算法挑选有效特征方法为：

进行有效特征选择时，使用反向选择方法，首先使用全部特征来训练分类模型，每次进行选择时，在当前特征向量中去掉F-score值最小的特征并重新进行训练和测试；测试中分类效果包括分类效果提高和分类效果降低，测试中分类效果为分类效果提高时则舍弃当前特征值，测试中分类效果为分类效果降低时则保留当前特征值，重复这一步骤，直到预测性能无法继续提高，以此时的结果作为最终选择。

10.如权利要求7所述的可在细菌全基因组水平预测外膜蛋白质的方法，其特征在于，所述根据SVM算法建立并使用训练数据训练好的分类模型，核函数，参数中分类模型的构建方法为：

首先从公开的数据库和文献中收集样本序列，并采用BLAST算法去除冗余序列，得到外膜蛋白质序列和非外膜蛋白质序列作为训练数据集，去除冗余序列后的每一条蛋白质序列之间的序列相似度不超过25％，训练SVM分类模型时，SVM核函数选择RBF核函数，惩罚因子参数使用网格搜索和十倍交叉验证测试来确定，SVM分类模型使用libSVM中的SVMtrain程序进行训练，使用敏感性、特异性、总预测精度和马氏相关系数综合评价预测性能，最终从测试结果中选择马氏相关系数最优的特征组合方式和模型参数，将性能最优的模型作为最终模型输出保存。