CN107622182B

CN107622182B - 蛋白质局部结构特征的预测方法及***

Info

Publication number: CN107622182B
Application number: CN201710660908.9A
Authority: CN
Inventors: 邓磊
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-08-04
Filing date: 2017-08-04
Publication date: 2020-10-09
Anticipated expiration: 2037-08-04
Also published as: CN107622182A

Abstract

本发明涉及生物信息学领域，公开一种蛋白质局部结构特征的预测方法及***，以利用深度学习技术来提高预测准确度，为蛋白质的三级结构预测提供关键的参考信息，解决由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下问题。本发明方法统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入，训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型，并将dropout方法应用在整个网络的隐藏层中，随机的让隐藏层中的某些神经元不工作以降低模型的过拟合；并通过训练集优化训练模型的权重参数，使得所构造的损失函数的值达到最小，进而根据训练好的网络模型相应进行蛋白质序列中各残基的溶剂可及性或残基接触数预测。

Description

蛋白质局部结构特征的预测方法及***

技术领域

本发明涉及生物信息学领域，尤其涉及一种蛋白质局部结构特征的预测方法及***。

背景技术

蛋白质是一切生命活动的物质基础，参与体内主要的生理活动。人体内的酶、激素、抗体等活性物质都是由蛋白质构成。因此，了解蛋白质的功能对理解体内蛋白质作用机理有着非常重要的意义。然而，蛋白质的功能和蛋白质分子的空间结构有着非常紧密的联系。不同的蛋白质，正是因为其具有不同的空间结构，因此显示出不同的理化特性和生理功能。因此，理解蛋白质的空间结构有利于对蛋白质功能和作用机理的理解。

随着生物测序技术的迅猛发展，已知序列的蛋白质数量远远高于已知结构的蛋白质数量。直接从一维的氨基酸序列预测蛋白质的三级结构是目前生物信息领域的一个非常具有挑战性的问题。解决这个问题的有效途径是首先预测蛋白质的局部结构。例如，蛋白质二级结构、蛋白质溶剂可及性、残基接触数、蛋白质骨架扭转角等等。

蛋白质溶剂可及性是研究最多和用途最广泛的结构特征之一。预测蛋白质溶剂可及性有助于精确的预测蛋白质的三维结构和加深对蛋白质功能的理解。除此之外，蛋白质溶剂可及性对蛋白质结构域识别、折叠域识别、结合域识别等方面都提供了重要的信息。

在对溶剂可及性的研究中，一般把它当成是一个分类问题，即对一个给定的残基，计算出相对溶剂可及表面积。如果相对溶剂可及性大于某个状态阈值，就将其分为一类。根据给定的状态阈值不同，可以分为二状态分类(暴露或隐藏)或三状态分类(暴露、中间或隐藏)问题。

与蛋白质溶剂可及性类似，残基接触数是另外一种重要的结构特征。残基接触数是指蛋白质序列中，一个残基与其他残基相互接触的数目。如果两个残基的C_β原子(甘氨酸为C_α原子)之间的距离小于一个给定的阈值，这个阈值一般为6到

就认为这两个残基是相互接触的。如果一个蛋白质序列中每个残基的接触数都是已知的，那么这个蛋白质可能的空间构象也能被限定。因此，预测残基的接触数对从头预测法预测蛋白质结构提供了非常关键的信息。

发明内容

本发明目的在于公开一种蛋白质局部结构特征的预测方法及***，以利用深度学习技术的优势来提高预测准确度，进而为蛋白质的三级结构预测提供关键的参考信息，从而解决由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下的问题。

为实现上述目的，本发明公开了一种蛋白质局部结构特征的预测方法，包括：

从蛋白质数据库中提取序列，组成训练集和独立测试集；

计算样本集中的每个蛋白质序列中各残基的溶剂可及性；

统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入，所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型，并将dropout方法应用在整个网络的隐藏层中，随机的让隐藏层中的某些神经元不工作以降低模型的过拟合；

通过训练集优化所述训练模型的权重参数，使得下述的损失函数的值达到最小，所述损失函数为：

其中，m为样本数，W是整个网络的连接权重矩阵，W_ji ^(l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值；b是偏置项，是一个向量；s是某一隐藏层的神经元个数，s_l是指第l层的神经元个数；x⁽ⁱ⁾和y⁽ⁱ⁾分别是训练集中对应的一组实测的输入和输出，h_W,b(x⁽ⁱ⁾)是神经网络的拟合函数；n_l表示网络的层数；λ是权重衰减参数；β控制稀疏性惩罚因子的权重；ρ是稀疏性参数，为了能用最少的隐藏单元来表示输入层的特征，限制

且

是指第l层第j个神经元的输出值；

根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测。

优选地，上述权重衰减参数取值为0.003，稀疏性参数取值为0.2。本发明中，根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测具体包括：

将蛋白质溶剂可及性预测结果分类为暴露、中间或隐藏共三个状态，对每一个蛋白质残基，将进行特征编码之后的向量记为x，预测的类标记为y，因此y∈{1,2,3}，y的概率值可以表示为：

p(y|x；W,b)＝sigmoid(Wx+b)

其中，sigmoid函数为神经网络输出层的分类器；

根据各状态的概率分布情况，选取概率最大的值作为最后的预测值。

本发明中，上述方法同样可用于预测残基接触数，具体包括：

从蛋白质数据库中提取序列，组成训练集和独立测试集；

计算样本集中的每个蛋白质序列中各残基的残基接触数；

其中，m为样本数，W是整个网络的连接权重矩阵，W_ji ^(l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值；b是偏置项，是一个向量；s是某一隐藏层的神经元个数，s_l是指第l层的神经元个数；x⁽ⁱ⁾和y⁽ⁱ⁾分别是训练集中对应的一组实测的输入和输出，h_W,b(x⁽ⁱ⁾)是神经网络的拟合函数；n_l表示网络的层数；λ是权重衰减参数；β是控制稀疏性惩罚因子的权重或称为稀疏性参数；ρ是稀疏性参数，为了能用最少的隐藏单元来表示输入层的特征，限制

且

是指第l层第j个神经元的输出值；

根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测。

优选地，上述权重衰减参数取值为0.003，稀疏性参数取值为0.2。本发明中，根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测包括：

考虑到绝大多数的残基接触数是小于或等于14，将残基接触数当作一个15状态的分类问题，因此y∈{0,1,…,14}；y的概率值可以表示为：

p(y|x；W,b)＝sigmoid(Wx+b)

其中，sigmoid函数为神经网络输出层的分类器；

与上述方法相对应的，本发明可针对上述方法分别开发一套针对残基溶剂可及性和/或残基接触数等局部结构特征进行预测的执行***。

本发明具有以下有益效果：

采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型，并将dropout方法应用在整个网络的隐藏层中，随机的让隐藏层中的某些神经元不工作以降低模型的过拟合；降低了数据处理复杂度的同时确保了数据处理的精度。而且，通过引入更多的蛋白质序列的特征，即扩大特征序列的覆盖度，如引入一些诸如蛋白质的固有不规则、蛋白质骨架扭转角等新的结构特征，可进一步提高预测的整体性能。

综上，本发明方法及***，是一种完全基于序列的蛋白质溶剂可及性和残基接触数预测方法。它能够预测未知同源结构的溶剂可及性和接触数，有效提高了预测的覆盖度，利用改进的深度学习技术的优势，显著的提高了预测准确度。为蛋白质的三级结构预测提供了非常关键的信息，从而有效的解决了由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下的问题。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的处理流程示意图；

图2本发明实施例训练模型示意图；

图3是本发明实施例方法在溶剂可及性预测结果与其他方法的对比图；

图4是本发明实施例方法在残基接触数预测结果与其他方法的对比图；

图5是本发明实施例采用从CASP11数据集中抽取的蛋白组氨酸磷酸酶(histidinol-phosphate aminotransferase protein)作为案例，对其进行预测的结果示意图；其中，这个蛋白质中的A链由376个残基组成，黑色虚线代表观测值，灰色实线代表预测值。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

本实施例公开一种蛋白质局部结构特征的预测方法，参照图1，首先是数据准备阶段，从蛋白质数据库中提取所有属于单体、球形、非膜结构的蛋白质序列组成训练数据集。接下来是特征编码阶段，即将蛋白质序列文本中的字符串转化成数值特征，通过不同的软件和程序可以编码出不同的特征，本发明将所有的原始特征分为三大类：序列进化谱、预测的相关结构属性和氨基酸理化性质，然后将所有的特征组合在一起作为模型的原始输入。最后是模型的训练和预测阶段，将第二阶段编码出来的数值作为输入，训练栈式稀疏自编码神经网络(SSAE-DNN)。对于给定的已知序列的蛋白质，可以使用训练好的SSAE-DNN模型预测最终的结果，通过与实验值进行比较，来评估模型的预测性能。

更具体的，上述方法可进一步细分为如下关键步骤：

步骤S1、从蛋白质数据库中提取序列，组成训练集和独立测试集。

该步骤即确定数据集，包括训练集和测试集。从蛋白质数据库(PDB，Protein DataBank)中提取所有属于单体、球形、非膜结构的蛋白质序列，去除序列相似性，可得到5719个蛋白质序列组成训练集。从CASP11数据库中提取所有已知序列的蛋白质，去除冗余性，得到69个蛋白质序列组成独立测试集。

步骤S2、计算样本集中的每个蛋白质序列中各残基的溶剂可及性。蛋白质的溶剂可及性(solvent accessibility)主要描述蛋白质的分子是暴露在外，还是隐藏在内的。其中，每个分子与水的接触面积就可认为是溶剂可及性面积，如果和水分子接触面积较大，则认为是暴露的(exposed)，从蛋白质的pdb文件中可以直接读出蛋白质序列中每个分子的溶剂可及性面积(ACC)。

本实施例中，将蛋白质溶剂可及性分类为暴露、中间或隐藏共三个状态。

步骤S3、统一构造样本集中各蛋白质序列的特征序列以作为训练模型(对应图1中的SSAE-DNN模型)的输入，所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型，并将dropout方法应用在整个网络的隐藏层中，随机的让隐藏层中的某些神经元不工作以降低模型的过拟合。

统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入及对应如图1所示的第二阶段的序列特征编码，即对从数据库中提取的蛋白质序列进行特征编码，通过使用不同的软件和程序编码出不同的数值特征，然后对特征进行归一化和窗口滑动。

本实施例中，栈式自编码神经网络的思想是先对多层神经网络一层一层的单独训练，每一层的训练都可以看成是一个自编码的过程，将前一层训练得到的输出单元作为后一层的输入神经元；通过反复试验，当隐藏层数为3时，无论是对溶剂可及性预测还是残基接触数预测，都能达到最佳的预测性能。

步骤S4、通过训练集优化所述训练模型的权重参数，使得下述的损失函数的值达到最小，所述损失函数为：

且

是指第l层第j个神经元的输出值。

在该步骤中，参照图2，自编码神经网络(Auto-encoder)是一种无监督学习算法，它使用了反向传播算法，并让目标值等于输入值。让隐藏层的神经元数目小于输入数据的个数，这样迫使隐藏层去学习输入数据，可以看作是对输入数据的压缩表示。在这个网络中，输出层中各个神经元的输出值是输入层中相应值的近似表达，因此隐藏层中的神经元就可以近似的代表输入数据的信息。一般将隐藏层中神经元的数目设置的比输入层中输入单元的数量要少，这样能够压缩信息并不会使信息量减少，从而达到降维的目的。优选的，本实施例中，当权重衰减参数取值为0.003、稀疏性参数取值为0.2时的预测性能最好。3个隐藏层的神经元个数优选的分布情况分别为500、300和200。

步骤S5、根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测。

与上述步骤S2中的分类相对应的，该步骤将蛋白质溶剂可及性预测结果分类为暴露、中间或隐藏共三个状态，对每一个蛋白质残基，将进行特征编码之后的向量记为x，预测的类标记为y，因此y∈{1,2,3}，y的概率值可以表示为：

p(y|x；W,b)＝sigmoid(Wx+b)

其中，sigmoid函数为神经网络输出层的分类器；然后根据各状态的概率分布情况，选取概率最大的值作为最后的预测值。

当用本发明方法对残基接触数进行预测时，上述步骤S2被替换为“计算样本集中的每个蛋白质序列中各残基的残基接触数”，在具体计算时，序列中第i个残基的C_β原子和第j个残基的C_β原子之间的欧几里得距离小于距离阈值则将残基接触数记为1，遍历整个蛋白质序列长度得到各残基最终累加的残基接触数；当所述蛋白质序列为甘氨酸时，所述C_β原子被替换为C_α原子。同时，上述步骤S5被替换为“根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测”，且考虑到绝大多数的残基接触数是小于14，将残基接触数当作一个15状态的分类问题，因此y∈{0,1,…,14}；y的概率值可以表示为：

p(y|x；W,b)＝sigmoid(Wx+b)

然后根据各状态的概率分布情况，选取概率最大的值作为最后的预测值。

【有效性验证】

参照附图3至图5，本发明方法(对应图中的DeepSacon)分别在训练集和独立测测试集上与其它蛋白质结构特征预测方法进行了比较。训练集由5719个蛋白质链组成，独立测试集从CASP11数据集中获得，由69个蛋白质链组成。首先将DeepSacon与传统的机器学习方法进行比较，本发明选择了与两个经典的模型——支持向量机(SVM)和常规神经网络(NN)方法，在相同的数据集上对这些方法建模，训练参数并做比较。表1显示不同方法在训练集和测试集上的预测精度：

表1：

从表1中可以看出，DeepSacon方法在训练集和独立测试集上都比SVM和NN的预测精度高。对于残基接触数的预测，在独立测试集上，DeepSacon获得了0.31的15-状态预测精度和0.74的PCC。进一步，在Yuan的数据集上，本发明比较了Kinjos的方法和Yuan的方法，实验结果表明，DeepSacon方法获得和0.69的PCC，显著的超过了Kinjos的方法(0.63的PCC)和Yuan的方法(0.64的PCC)。

对于溶剂可及性的预测，本发明与其他的溶剂可及性方法(SPINE-X，SANN，Accpro5和AcconPred)在独立测试集上进行比较。表2显示了不同的方法在CASP11上的预测性能。

方法	SPINE-X	SANN	ACCpro5	AcconPred	DeepSacon
						3分类精度	0.57	0.61	0.58	0.64	0.68

此外，参照图3至图5，图3是本实施例(DeepSacon)与AcconPred方法对3状态溶剂可及性在不同类型特征之间的性能比较，图4是本实施例(DeepSacon)与AcconPred方法对15状态残基接触数在不同类型特征之间的性能比较，图5是A链由376个残基组成的蛋白组氨酸磷酸酶案例说明；由图示对比试验数据可知，本实施例方法利用改进的深度学习技术的优势，显著的提高了预测准确度。

与上述方法相对应的，本领域技术人员可针对上述方法分别开发一套针对残基溶剂可及性和残基接触数金字那个结构特征预测的执行***。

综上，本实施例所公开的蛋白质局部结构特征的预测方法及***，具有以下有益效果：

藉此，本发明方法及***，是一种完全基于序列的蛋白质溶剂可及性和残基接触数预测方法。它能够预测未知同源结构的溶剂可及性和接触数，有效提高了预测的覆盖度，利用改进的深度学习技术的优势，显著的提高了预测准确度。为蛋白质的三级结构预测提供了非常关键的信息，从而有效的解决了由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下的问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种蛋白质局部结构特征的预测方法，其特征在于，包括：

从蛋白质数据库中提取序列，组成训练集和独立测试集；

计算样本集中的每个蛋白质序列中各残基的溶剂可及性；

且

是指第l层第j个神经元的输出值；

根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测，包括：

将蛋白质溶剂可及性预测结果分类为暴露、中间或隐藏共三个状态，对每一个蛋白质残基，将进行特征编码之后的向量记为x，预测的类标记为y，因此y∈{1,2,3}，y的概率值表示为：

p(y|x；W,b)＝sigmoid(Wx+b)

其中，sigmoid函数为神经网络输出层的分类器；

2.根据权利要求1所述的蛋白质局部结构特征的预测方法，其特征在于，所述权重衰减参数取值为0.003，稀疏性参数取值为0.2。

3.一种执行上述权利要求1至2任一所述方法的蛋白质局部结构特征的预测***。

4.一种蛋白质局部结构特征的预测方法，其特征在于，包括：

从蛋白质数据库中提取序列，组成训练集和独立测试集；

计算样本集中的每个蛋白质序列中各残基的残基接触数；

且

是指第l层第j个神经元的输出值；

根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测，包括：

考虑到绝大多数的残基接触数是小于或等于14，将残基接触数当作一个15状态的分类问题，因此y∈{0,1,…,14}；y的概率值表示为：

p(y|x；W,b)＝sigmoid(Wx+b)

其中，sigmoid函数为神经网络输出层的分类器；

5.根据权利要求4所述的蛋白质局部结构特征的预测方法，其特征在于，所述权重衰减参数取值为0.003，稀疏性参数取值为0.2。

6.根据权利要求4或5所述的蛋白质局部结构特征的预测方法，其特征在于，在计算样本集中的每个蛋白质序列中各残基的残基接触数时，序列中第i个残基的C_β原子和第j个残基的C_β原子之间的欧几里得距离小于距离阈值则将残基接触数记为1，遍历整个蛋白质序列长度得到各残基最终累加的残基接触数；当所述蛋白质序列为甘氨酸时，所述C_β原子被替换为C_α原子。

7.一种执行上述权利要求4至6任一所述方法的蛋白质局部结构特征的预测***。