CN106446602A

CN106446602A - 蛋白质分子中rna结合位点的预测方法及***

Info

Publication number: CN106446602A
Application number: CN201610804573.9A
Authority: CN
Inventors: 邓磊; 阮俊; 刘帝伟
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-09-06
Filing date: 2016-09-06
Publication date: 2017-02-22

Abstract

本发明公开一种蛋白质分子中RNA结合位点的预测方法及***，以有效预测RNA和蛋白质结合位点，解决生物实验的成本昂贵和实验周期长等问题。本发明公开的预测方法包括：选取样本集；对RNA蛋白质复合物的特征进行编码；以目标类别与候选特征之间的最大相关，以及候选特征与已经选出特征之间的最小冗余为规则筛选特征，并对筛选出的特征进行排序，使用增量特征选择方法确定最佳的特征数和最优的特征集；使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型，对各子模型所对应的基分类器进行加权融合，产生联合后的结果分类器；将要测试的数据输入结果分类器，通过各子模型的投票获取最终的预测结果。

Description

蛋白质分子中RNA结合位点的预测方法及***

技术领域

本发明涉及生物信息技术领域，尤其涉及一种蛋白质分子中RNA结合位点的预测方法及***。

背景技术

蛋白质和RNA(核糖核酸)是生命化合物中最重要的两种生物大分子。蛋白质和RNA间的相互作用在很多重要的生命活动中扮演着不可或缺的角色，比如蛋白质合成，转录(转录是遗传信息由DNA转换到RNA的过程)后的修改,调节基因表达以及许多病毒的复制和组装。取得关于蛋白质RNA相互作用残基的信息有助于理解许多和蛋白质RNA相互作用有关的很多生物学活动的机制和功能。此外，识别蛋白质RNA相互作用位点会对基于RNA的药物设计有着直接的帮助。因此，近几年预测RNA绑定的蛋白质以及它们相互作用的残基引起了广泛的关注。

过去的几年里，已经有很多研究从结构或者是序列来分析和预测了蛋白质RNA混合体中蛋白质和RNA之间相互作用残基。基于很多不同的特征，多种机器学习算法已经被应用到这个问题上了，比如基于不同特征的神经网络分类器，支持向量机模型和朴素贝叶斯分类器等。

发明内容

本发明目的在于公开一种蛋白质分子中RNA结合位点的预测方法及***，以有效预测RNA和蛋白质结合位点，解决生物实验的成本昂贵和实验周期长等问题。

为实现上述目的，本发明公开一种蛋白质分子中RNA结合位点的预测方法，包括：

选取训练样本集和检验样本集；

对RNA蛋白质复合物的特征进行编码；

以目标类别与候选特征之间的最大相关，以及候选特征与已经选出特征之间的最小冗余为规则筛选特征，并对筛选出的特征进行排序，使用增量特征选择方法确定最佳的特征数和最优的特征集；

使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型，对各子模型所对应的基分类器进行加权融合，产生联合后的结果分类器；

将要测试的数据输入结果分类器，通过各子模型的投票获取最终的预测结果。

为实现上述目的，本发明还公开一种蛋白质分子中RNA结合位点的预测***，包括：

数据库，用于选取并存储训练样本集和检验样本集；

第一处理模块，用于对RNA蛋白质复合物的特征进行编码；

第二处理模块，用于以目标类别与候选特征之间的最大相关，以及候选特征与已经选出特征之间的最小冗余为规则筛选特征，并对筛选出的特征进行排序，使用增量特征选择方法确定最佳的特征数和最优的特征集；

第三处理模块，用于使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型，对各子模型所对应的基分类器进行加权融合，产生联合后的结果分类器；

第四处理模块，将要测试的数据输入结果分类器，通过各子模型的投票获取最终的预测结果。

本发明具有以下有益效果：

通过mRMR-IFS筛选特征，保留主要的影响特征，减少噪声特征对预测准确性的影响，显著提高了蛋白质RNA结合位点预测的准确性，解决了生物实验成本昂贵和实验周期长等问题。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的公开的蛋白质分子中RNA结合位点的预测方法流程图；

图2是来获取蛋白质链和创建每个数据集的方法示意图；

图3是各类特征的重要性比较，基于RBP170数据集对各类特征按最大相关及最小冗余特性进行排序，并统计前N个特征中各类特征所占的数量，数量越大，其对模型的影响程度越大；特征种类包括三大类，即位点特征，欧式距离特征，Voronoi结构特征；

图4为RBP170数据集上的mRMR-IFS曲线，包括MCC和AUC值，当MCC与AUC的均值最大时，模型的性能最好，在该图示中，位置在上的曲线为AUC曲线，位置在下的曲线为MCC曲线；

图5为在RBP170数据集上不同分类器的ROC曲线；

图6为在独立测试集RBP101上不同分类器的ROC曲线；

图7为模型预测的RNA结合位点与真实的RNA结合位点之间的对比，其中，图(a)左右分别是旋转180度的真实结合位点图示，图(b)是对应图(a)的预测结合位点图示。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

本实施例公开一种蛋白质分子中RNA结合位点的预测方法，如图1所示，包括：

步骤S1、选取训练样本集和检验样本集。

可选的，如图2所示，本实施例中的样本集可以采用公开的PDB(Protein DataBank)数据库，该训练样本集可以采用其中的数据库RBP170，独立的检验样本集可以采用其中的数据库RBP101。其中训练样本主要用来学习训练，检验样本主要用于测试检验。

步骤S2、对RNA蛋白质复合物的特征进行编码。

可选的，本实施例可以将基于序列的特征：如物理化学特征、侧链环境、特异位点得分矩阵、进化保守型得分、无序度、局部结构熵等；以及基于结构的特征：如相对溶剂可及面积、二级结构、相互作用倾向、原子和残基接触、实体统计赝势、Voronoi触点和势、地形指数与SCE评分、和结构邻居结合得到了63个位点特征，63个Euclidean特征(即欧式距离特征)以及63个Voronoi结构特征。如图3所示的各类特征的重要性比较，其中，基于RBP170数据集对各类特征按最大相关及最小冗余特性进行排序，并统计前N个特征中各类特征所占的数量，数量越大，其对模型的影响程度越大；特征种类包括三大类，即位点特征，欧式距离特征，Voronoi结构特征。

步骤S3、以目标类别与候选特征之间的最大相关，以及候选特征与已经选出特征之间的最小冗余为规则筛选特征，并对筛选出的特征进行排序，使用增量特征选择(IFS)方法确定最佳的特征数和最优的特征集。

该步骤中，候选特征同上，可以包括基于序列的特征和基于结构的特征；其中：

基于序列的特征包括：物理化学特征，侧链环境，特异位点得分矩阵，进化保守型得分，无序度，局部结构熵；

基于结构的特征包括：相对溶剂可及面积，二级结构，相互作用倾向，原子和残基接触，实体统计赝势，Voronoi触点和势，地形指数与SCE评分，并考虑和结构邻居的结合。

该步骤S3中，即通过最大相关最小冗余(mRMR)筛选特征，可选的，提取特征时所使用的最大相关及最小冗余以互信息MI来度量，定义为：

其中x和y是两个随机变量，p(x,y)是两个随机变量的联合密度函数，p(x),p(y)是x,y的边缘分布，所提取的特征列表为：F＝{f₁,f₂,...,f_i)，其中1≤i≤n。

进一步的，在该步骤S3中，确定最佳的特征数和最优的特征集可以按特征的最大相关及最小冗余对特征进行排名，并绘制mRMR-IFS曲线，然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小；其中该mRMR-IFS曲线以MCC(马氏相关系数)值和AUC(Area under Curve)值作为y坐标，以特征数目Fi的下标i作为x坐标轴，i＝1,2,...,n。如图4所示，该特征集的优选数目可设置为180。

步骤S4、使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型，对各子模型所对应的基分类器进行加权融合，产生联合后的结果分类器。

该步骤即训练迭代决策树模型。在该步骤S4中，可以通过Boosting技术予以实现。其中，通过Boosting框架对训练样本集的操作,得到不同的训练样本子集，用该样本子集去训练生成基分类器；每得到一个样本集就用该基分类算法在该样本集上产生一个基分类器，这样在给定训练轮数n后，就可产生n个基分类器，然后Boosting框架算法将这n个基分类器进行加权融合，产生一个最后的结果分类器，在这n个基分类器中，每个单个的分类器的识别率不一定很高，但他们联合后的结果有很高的识别率，这样便提高了该弱分类算法的识别率。例如：使用Boosting技术建模时，第一次迭代每个样本被选入训练样本集的概率或者说其权重相同，模型建立完毕，重新调整各样本的权重，使它们进行第二次迭代，此次权重调整的原则是：上次未能正确预测的样本权重增大，上次正确预测的样本权重减小；第三次迭代重复第二次迭代，以此类推；其中，样本权重越大，其被选入训练样本集的可能性越大；由于对预测结果模棱两可的样本往往位于边界处，故多次迭代后，边界处的样本权重显著性增大。

优选的，本实施例所采用的迭代决策树算法如下：

输入：

数据集：

损失函数：L(y,Θ_(x))；

迭代次数＝M；

输出：

1)、初始化

2)、从m＝1到M，重复步骤3)到6)；

3)、计算损失函数的负梯度作为残差值；

4)、通过使用输入x的Logistic函数找到一个合适的分类模型，并得到βh(x；α)的估计α^m；

5)、通过最小化L(y_i,Θ_m-1(x_i)+βh(x_i,α_m))得到估计β_m；

6)、更新Θ_m(x)＝Θ_m-1(x)+β_mh(x；α_m)；

7)、返回

步骤S5、将要测试的数据输入结果分类器，通过各子模型的投票获取最终的预测结果。与上述Boosting技术对应的，在投票阶段，由于经过K次迭代而产生的K个模型；Boosting采用加权投票方式，不同模型按其误差大小确定权重；通常，误差大的权重小，误差小的权重大。权重大的对结果影响大，权重小的对结果影响小。这样经过K个模型的加权投票结果，是最为稳健的。

采用本发明的上述方法分别在RBP170数据集及独立测试集RBP101上所确定的分类器的ROC曲线与其他分类器的对比如图5及图6，其中，PredRBR AUC所对应的曲线为本发明的实验结果，相比于其他分类器，具有更好的实验结果。

依托上述步骤，如图7所示，以NusB-NusE-BoxA RNA复合体为对象，本案申请人研究了NusB上的RNA捆绑残基(3R2C:A)，通过对TP(正确的肯定数目)、FN(漏报，没有找到正确匹配的数目)、FP(误报，没有的匹配不正确)、TN(正确拒绝的非匹配数目)的统计，对其结合位点整个预测的准确性ACC是0.88，和通过X射线晶体衍射或者核磁共振等方法实验实际测出的RNA结合位点相比较，预测结果非常准确。其中，三联NusB-Nus-BoxA RNA复合体(PDB代码为3R2C)是启动进行的转录抗终止作用所需的整个抗终止复合体，对解释关键蛋白质-蛋白质和蛋白质-RNA相互作用具有重要意义。

综上，本实施例公开的蛋白质分子中RNA结合位点的预测方法，能综合考虑了结构特征，序列特征，以及邻居特征，能有效的考虑各种可能对预测结果产生影响的因素，并进一步通过mRMR-IFS筛选特征，从而保留主要的影响特征，减少噪声特征对预测准确性的影响，本发明可以显著提高蛋白质RNA结合位点预测的准确性，解决了生物实验成本昂贵和实验周期长的问题。

实施例2

与上述方法实施例相对应的，本实施例公开一种蛋白质分子中RNA结合位点的预测***，包括：

数据库，用于选取并存储训练样本集和检验样本集；

第一处理模块，用于对RNA蛋白质复合物的特征进行编码；

优选的，所述候选特征包括基于序列的特征和基于结构的特征；其中：

优选的，该***提取特征时所使用的最大相关及最小冗余以互信息MI来度量，定义为：

优选的，该***确定最佳的特征数和最优的特征集包括：按特征的最大相关及最小冗余对特征进行排名，并绘制mRMR-IFS曲线，然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小；其中mRMR-IFS曲线以MCC值和AUC值作为y坐标轴，以特征数目Fi的下标i作为x坐标轴，i＝1,2,...,n。

优选的，上述***所采用的迭代决策树算法如下：

输入：

数据集：

损失函数：L(y,Θ_(x))；

迭代次数＝M；

输出：

1)、初始化

2)、从m＝1到M，重复步骤3)到6)；

3)、计算损失函数的负梯度作为残差值；

4)、通过使用输入x的Logistic函数找到一个合适的分类模型，并得到βh(x；α)的估计α_m；

5)、通过最小化L(y_i,Θ_m-1(x_i)+βh(x_i,α_m))得到估计β_m；

6)、更新Θ_m(x)＝Θ_m-1(x)+β_mh(x；α_m)；

7)、返回

同理，本实施例公开的蛋白质分子中RNA结合位点的预测***，其能综合考虑了结构特征，序列特征，以及邻居特征，能有效的考虑各种可能对预测结果产生影响的因素，并进一步通过mRMR-IFS筛选特征，从而保留主要的影响特征，减少噪声特征对预测准确性的影响，本发明可以显著提高蛋白质RNA结合位点预测的准确性，解决了生物实验成本昂贵和实验周期长的问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种蛋白质分子中RNA结合位点的预测方法，其特征在于，包括：

选取训练样本集和检验样本集；

对RNA蛋白质复合物的特征进行编码；

2.根据权利要求1所述的蛋白质分子中RNA结合位点的预测方法，其特征在于，所述候选特征包括基于序列的特征和基于结构的特征；其中：

3.根据权利要求1所述的蛋白质分子中RNA结合位点的预测方法，其特征在于，提取特征时所使用的最大相关及最小冗余以互信息MI来度量，定义为：

I (x, y) - &Integral; &Integral; p (x, y) l o g \frac{p (x, y)}{p (x) p (y)} d x d y

4.根据权利要求3所述的蛋白质分子中RNA结合位点的预测方法，其特征在于，所述确定最佳的特征数和最优的特征集包括：

按特征的最大相关及最小冗余对特征进行排名，并绘制mRMR-IFS曲线，然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小；

其中mRMR-IFS曲线以MCC值和AUC值作为y坐标轴，以特征数目Fi的下标i作为x坐标轴，i＝1,2,...,n。

5.根据权利要求1至4任一所述的蛋白质分子中RNA结合位点的预测方法，其特征在于，所述迭代决策树算法包括：

输入：

数据集：D＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)},x_i∈x,y_i∈{-1,+1}；

损失函数：L(y,Θ_(x))；

迭代次数＝M；

输出：

1)、初始化

2)、从m＝1到M，重复步骤3)到6)；

3)、计算损失函数的负梯度作为残差值；

r_{i} = - [\frac{\partial L (y_{i}, Θ (x_{i}))}{\partial Θ (x_{i})}] Θ (x) = Θ_{m - 1} (x), i = {1, ..., M};

5)、通过最小化L(y_i,Θ_m-1(x_i)+βh(x_i,α_m))得到估计β_m；

6)、更新Θ_m(x)＝Θ_m-1(x)+β_mh(x；α_m)；

7)、返回

6.一种蛋白质分子中RNA结合位点的预测***，其特征在于，包括：

数据库，用于选取并存储训练样本集和检验样本集；

第一处理模块，用于对RNA蛋白质复合物的特征进行编码；

7.根据权利要求6所述的蛋白质分子中RNA结合位点的预测***，其特征在于，所述候选特征包括基于序列的特征和基于结构的特征；其中：

8.根据权利要求6所述的蛋白质分子中RNA结合位点的预测***，其特征在于，提取特征所使用的最大相关及最小冗余以互信息MI来度量，定义为：

I (x, y) - &Integral; &Integral; p (x, y) l o g \frac{p (x, y)}{p (x) p (y)} d x d y

9.根据权利要求8所述的蛋白质分子中RNA结合位点的预测***，其特征在于，所述确定最佳的特征数和最优的特征集包括：

按特征的最大相关及最小冗余对特征进行排名，并绘制mRMR-IFS曲线，然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小；其中mRMR-IFS曲线以MCC值和AUC值作为y坐标轴，以特征数目Fi的下标i作为x坐标轴，i＝1,2,...,n。

10.根据权利要求6至9任一所述的蛋白质分子中RNA结合位点的预测***，其特征在于，所述迭代决策树算法包括：

输入：

损失函数：L(y,Θ_(x))；

迭代次数＝M；

输出：

1)、初始化

2)、从m＝1到M，重复步骤3)到6)；

3)、计算损失函数的负梯度作为残差值；

r_{i} = - [\frac{\partial L (y_{i}, Θ (x_{i}))}{\partial Θ (x_{i})}] Θ (x) = Θ_{m - 1} (x), i = {1, ..., M};

5)、通过最小化L(y_i,Θ_m-1(x_i)+βh(x_i,α_m))得到估计β_m；

6)、更新Θ_m(x)＝Θ_m-1(x)+β_mh(x；α_m)；

7)、返回