CN109448787B

CN109448787B - 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法

Info

Publication number: CN109448787B
Application number: CN201811187766.XA
Authority: CN
Inventors: 聂仁灿; 阮小利; 周冬明; 贺康建; 李华光
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2021-10-08
Anticipated expiration: 2038-10-12
Also published as: CN109448787A

Abstract

本发明公开一种基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法，涉及生物及信息技术领域。所述基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法首先对蛋白质序列的进化信息采用Z‑SoftMax函数去规范化位置特异性得分矩阵；其次采用提出的SC‑PSSM‑C和SC‑PSSM‑R分别对位置特异性得分矩阵进行不同方向不同跳跃间隔下的特征提取，固定PSSM的长度；再利用改进的最大信息系数算法对融合后的特征进行特征选择，最后采用优化参数后的W‑SVM分类器进行最终的分类预测。本发明具有能弥补传统特征提取的局限性和单一性，提高了蛋白质亚核定位的能力。

Description

基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法

技术领域

本发明涉及生物及信息技术领域，具体的涉及一种基于改进 PSSM进行特征提取与融合的蛋白质亚核定位方法。

背景技术

随着人类基因组测序技术的普及及提高，使得蛋白质序列大量产生。在最近20年，对新测得序列的蛋白质功能的掌握则成为生物信息学研究的热点之一。蛋白质的功能取决于它所在细胞中的位置，确定蛋白质亚细胞定位被认为是了解其功能的重要步骤。蛋白质亚核定位信息能为疾病的预防、诊断与治疗提供重要的线索。传统通过大量重复的生物学实验方法获取蛋白质亚核定位信息需消耗大量的时间与金钱，近年来，随着计算机科学快速地发展，利用机器学习的方法研究蛋白质亚核定位成为生物信息学研究的一个热点，且能克服传统方法研发代价高且预测速度慢的缺点。

目前，蛋白质亚细胞定位预测研究的关键部分是特征信息的提取和分类算法模型的构建。大量已发表的论文的实验表明，采用进化信息对蛋白质进行特征提取时对亚核的定位预测有重要的作用，怎样把提取有序序列的有效进化信息转换为固定维度的有效特征向量是目前研究的难点。目前基于进化信息进行改进的较有效的算法主要有 2009年DongQ和Zhou S提出的PSSM-CC，2015年Jing Chen提出的“A multiple information fusionmethod for predicting subcellular locations of two different types ofbacterial protein simultaneously”及2016年由东京大学、澳大利亚格里菲斯大学及南太平洋大学联合提出的k-separated-bigrams-PSSM算法等。

综上所述，现有技术存在的技术问题在于：这些模型虽然提供了更多关于氨基酸相互作用的蛋白质序列信息，但仍然局限于某列或某行，或间隔可变的某两列或某两行中的有效判别信息；提取特征太过于单一，不足以表达蛋白质序列的整体特征。有效特征的提取将影响分类器的分类结果，蛋白质组学数据中的样本一般具有高维特征的特点，如何对数据有效的进行特征选择、去除不相关特征及缓解“维度灾难”在目前仍存在着一定的挑战；其次蛋白质组学中的数据集存在着不平衡问题，例如Mutipass膜蛋白数据集等，数据集的不平衡导致样本数较小的类预测精度偏低，不平衡问题已经成为蛋白质组学中的一个难点和重点研究内容。在总结前人工作的基础对现有问题进行进一步的研究，提出新型的机器学习方法，使得在最终的结果中，少数类的预测准确率可以达到和多数类准确率相似的结果，从而提高整体的识别效果。

发明内容

针对现有技术存在的上述问题，提供一种基于改进位置特异性得分矩阵(Position Specificity Score Matrix,PSSM)进行特征提取与融合的蛋白质亚核定位方法，提供了一种新的特征提取和融合方法来提高亚核蛋白质的预测识别率，提出了基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法。

为实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现：

基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法，包括以下步骤：

步骤1：获取蛋白质数据集，并确定所获取的数据集是单标签还是多标签问题，针对单标签，将数据集转化为标准的.fata格式，并对所有样本的类别进行标注；

步骤2：将迭代参数设置为3，对每次蛋白质进行比对搜索时的 E-value值设置为0.001,计算每条数据的PSSM矩阵；

步骤3：对步骤2得到的特征分别采用不同得特征表达构建特征集合，提取更丰富的互补信息；

步骤4：针对步骤3所获取的特征采用改进的最大信息系数进行特征的选择；

步骤5：判断步骤4得到的特征集合是否是一个平衡数据集，如判断为平衡数据集则跳过此步骤，如不平衡则进行采样处理；

平衡数据集通过设置判断每类的差值；

步骤6：针对步骤4得到的数据集构建分类模型。

进一步的，所述步骤1对所获取的数据集根据每条数据的长度设置相应的阈值进行数据筛选，阈值长度大于50。

进一步的，所述计算每条数据的PSSM矩阵，每条蛋白质用P表示，其中P＝[P1,P2,...,P20]，Pj＝[P1j,P2j,...PLj](j＝1,2,...20),L 代表每条蛋白质的长度。

进一步的，所述对步骤2得到的特征分别采用不同得特征表达构建特征集合，包括以下步骤：

对步骤2处理的PSSM进行维度统一化，其公式为：

其中c表示类别数，x表示原始PSSM矩阵的值；

对维度统一化的数据集进行标准化处理，其公式为:z＝(x-μ)/ σ，其中x是经步骤3.1处理后相对应的值，μ为平均数，σ为标准差；

对处理后的数据集进行SC-PSSM-R算法的特征提取，其公式为：

其中

当r＝0时，表示是两个相邻的两个肽，当r＝1时，表示距离间隔为1的两个肽，依次类推；

对维度统一化的数据集标准化处理好的数据集进行列方向特征的提取，其公式为：

上述公式可扩展为公式为：

，其中

代表所在两个肽所对应位置特异性得分矩阵所对应值的差值；

设权重以步长为0.01对融合的不同方向不同跳跃间隔下的得分特异性进化信息进行遍历，寻求最好的特征集合，分析不同权重下特征的初步融合效果。

进一步的，所述对获取的特征采用改进的最大信息系数进行特征的选择，包括以下步骤：

通过对得到最大信息系数通过打分进行有序排列，分析各个不同数据集的打分情况置不同的阈值，并选取相应的特征；

将得到的特征进行再一次的最大信息系数运算，不同于上述对得到对应的打分作为特征的权重形成新的特征集合。

进一步的，所述对步骤4得到的数据集构建分类模型，包括以下步骤：

针对不同数据集的特征训练不同参数的分类模型，通过先全局再局部的参数寻优方法进行参数优化；

将处理后的蛋白质测试集数据放入对应训练好的分类模型中进行最终的分类预测。

本发明的有益效果为：本发明是基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法；首先对获得的蛋白质数据集进行预处理并计算所获取此数据集的位置特异性得分矩阵，其次对得到位置特异性得分矩阵的PSSM矩阵进行Z-Softmax函数规范化处理，避免传统方法处理时产生的Nall数据；接着对处理后的PSSM矩阵的行和列分别通过设置不同的间隔跳跃值r进行局部与全局的特征的提取，既SC-PSSM-R和SC-PSSM-L算法；然后采用改进后的最大信息系数先后两次对加权融合后的SC-PSSM-R和SC-PSSM-L特征矩阵进行特征的选择和打分加权；最后通过训练优化参数后的分类器进行最终的预测评估。本发明提出的基于PSSM改进的特征提取和融合的蛋白质亚核定位研究方法，不仅能提取位置得分特异矩阵在不同方向不同跳跃间隔下的有效特征，增强有效信息之间的互补性，且采用改进的特征选择方法去除冗余。特征提取是分类的前提，有效的特征提取能提高分类器的识别率。该方法相比传统基于PSSM打分矩阵能提取更丰富更有效的蛋白质特征。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法的整体流程图；

图2为本发明实施例所述基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法的实施流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

如图1-2所示

一种基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法，包括以下步骤：

步骤1：获取蛋白质数据集，确定所获取的数据集是单标签还是多标签问题(本发明主要针对单标签问题)，并将数据集转化为标准的.fata格式，且对所有样本所在的类别进行标注。

步骤1中对所获取的数据集根据每条数据的长度设置阈值(一般长度大于50)进行数据筛选。

步骤2:将迭代参数设置为3，对每次蛋白质进行比对搜索时的 E-value值设置为0.001,计算每条数据的PSSM矩阵。每条蛋白质用 P表示，其中P＝[P1,P2,...,P20]，Pj＝[P1j,P2j,...PLj] (j＝1,2,...20),L代表每条蛋白质的长度。

步骤3:将步骤2得到的位置打分矩阵分别进行转换，分别提取相应特征构建特征集合。

步骤3的第一步为：处理步骤2得到的PSSM使其维度统一化，其公式为：

其中c表示类别数，x表示原始PSSM矩阵的值。

第二步为：对第一步维度统一化的数据集进行标准化处理，其公式为:z＝(x-μ)/σ。其中x是经步骤3.1处理后的值，μ为平均数，σ为标准差。

第三步为：对第二步处理好的数据集进行SC-PSSM-R算法的特征提取。其公式为：

其中 (m,n＝1,2,...20),其中

当r＝0时，表示是两个相邻的肽，当r＝1时，表示距离间隔为1 的两个肽，依次类推。

第四步：对步骤3第二步中处理好的数据集进行列方向特征的提取，其公式为：

公式可扩展为公式为：

其中

代表所在两个肽所对应位置特异性得分矩阵所对应值的差值。其中r同步骤上述步骤所表示相同的含义。

步骤3的第五步：设权重以步长为0.01对融合的不同方向不同跳跃间隔下的得分特异性进化信息进行遍历，寻求最好的特征集合。如附图2所示，不断对权重进行更新，且分析不同权重不同下特征初步融合的效果，通过对比选出最优的CRC-PSSM特征集合。

步骤4：针对步骤3第五步中所选的特征采用改进的最大信息系数进行特征的选择；

第一步：通过对步骤4得到最大信息系数通过打分进行有序排列，分析每个特征的打分分布情况，针对不同数据集设置不同的阈值，选取相应的特征。

第二步：将第一步得到的特征进行再一次的最大信息系数运算，不同于第一步是对得到对应的打分作为特征的权重，作为新的特征进行运算。

步骤5：判断步骤4的第二步得到的特征集合是否是一个平衡数据集(通过设置类差异阈值判断每类的差值是否在此范围之外)，如判断为平衡数据集则跳过此步骤，如不平衡则进行采样处理。

步骤6：针对步骤4得到的数据集构建分类模型。

对不同数据集的特征训练不同参数的分类模型，通过先全局再局部的参数寻优方法进行参数优化。

将上述步骤中构造的分类模型应用到蛋白质亚细胞定位当中。

实施例2

本发明基于公开的凋亡蛋白质数据集ZD98进行实验验证。其中 ZD98由Zhou andDoctor于2003年建立，该数据集包含4个亚细胞位置的凋亡蛋白序列，分别为cytoplasmicproteins(CY),plasma membrane-bound proteins(ME),mitochondrial proteins(MI)andother proteins(OTHER)。表一中OA代表总体的正确识别率。表一结果严格按照上述特征提取方法和融合策略进行特征的融合，在特征选择方面目前只是采用了传统的线性判别分析算法进行降维，结果就已经优于传统的特征提取方法。从表1中可以看出，本文算法在这些评价客观指标上的数值比其他算法较为有效。

表1基于不同融合方法所得融合结果图

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。