CN111081311A - 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法 - Google Patents

基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法 Download PDF

Info

Publication number
CN111081311A
CN111081311A CN201911365158.8A CN201911365158A CN111081311A CN 111081311 A CN111081311 A CN 111081311A CN 201911365158 A CN201911365158 A CN 201911365158A CN 111081311 A CN111081311 A CN 111081311A
Authority
CN
China
Prior art keywords
malonylation
protein
sequence
amino acid
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911365158.8A
Other languages
English (en)
Inventor
于彬
崔晓文
王明辉
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Science and Technology
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN201911365158.8A priority Critical patent/CN111081311A/zh
Publication of CN111081311A publication Critical patent/CN111081311A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于深度学***均值、K近邻得分和BLOSUM62矩阵特征提取算法,把蛋白质序列的字符信息转化成数值向量并融合,得到特征空间,充分考虑到各潜在特征对于预测结果的影响。使用线性卷积神经网络计算得到丙二酰化位点特异性特征,通过最大池化层来选择相关特征并且降低特征维数,结合多层深度神经网络对丙二酰化位点和非丙二酰化位点进行分类,构建蛋白质丙二酰化位点预测模型DeepMal,使用10折交叉验证和独立测试数据集评估预测性能。模型DeepMal在评价指标上都取得显著的提高,有助于进一步促进深度学习在蛋白质功能预测中的应用。

Description

基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法
技术领域
本发明涉及生物信息技术领域,具体涉及一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法。
背景技术
丙二酰化作为一种重要的蛋白质翻译后修饰位点,于2011年被首次发现发生在赖氨酸上的一种进化保守的蛋白质翻译后修饰类型,它的发生依赖于丙二酰辅酶A将丙二酰基团添加到赖氨酸并将其电荷从+1更改为-1。这一变化有可能破坏赖氨酸与其他氨基酸的静电相互作用并改变蛋白质结构,甚至可能影响其与靶蛋白的结合,已经被证实存在于多种代谢途径中,比如葡糖糖和脂肪酸代谢、脂肪酸合成和氧化、线粒体功能受损,还与肌肉收缩、心肌缺血和下丘脑对食欲的调控、糖尿病、癌症有关。鉴于丙二酰化的重要性,准确识别蛋白质中的丙二酰化位点是非常重要的,其可以为生物医学研究提供有用的信息,从而更好地了解分子功能。目前,实验方法存在时间和仪器上的成本限制,并且实验的难度比较大。因此,开发一种能够准确的鉴定出丙二酰化位点的计算方法是有必要的。
近来,已经有一些发表的论文通过使用机器学习方法来预测蛋白质丙二酰化位点。Xu等人提出蛋白质丙二酰化位点预测器Mal-Lys,基于序列信息k-grams,position-specific amino acidpropensity和物理化学信息AAIndex特征提取方法把蛋白质字符信息转化成数值向量,采用最大相关最小冗余选择最优特征子集,支持向量机作为分类器,通过留一法,6-,8-和10-fold cross-validations进行验证。Wang等人开发物种特异性丙二酰化位点分类器MaloPred,采用氨基酸组成,二元编码,分组重量编码,Knearestneighbors和位置特异性得分矩阵把字符信息转换为数值向量,信息增益选取最优特征子集,然后输入到支持向量机进行分类,通过独立测试验证在E.coli,M.musculus和H.sapiens上AUC值分别0.755,0.827和0.871。Zhang等人开发蛋白质丙二酰化位点预测器kmal-sp,采用11种特征提取方法提取蛋白质序列信息,物理化学性质和进化信息,用GainRatio选取最优特征子集,集成随机森林,支持向量机,K-nearest neighbor,逻辑回归和Light Gradient Boosting Machine机器学习方法进行分类。Du等人基于序列特征和功能注释特征把蛋白质字符信息转化成数值特征向量,选取径向基为核函数的SVM来构建蛋白质丙二酰化预测模型。Xiang等人采用伪氨基酸组成提取蛋白质特征,选取径向基为核函数的nu-SVM为分类器来构建预测模型,通过留一法测试,训练数据集的的准确率为0.7733,独立测试数据集的的准确率为0.8889。Taherzadeh等人构建蛋白质丙二酰化预测器SPRINT-Ma,采用二元编码,位置特异性得分矩阵,AAindex,可及表面积,二级结构,Half-sphere exposure和Intrinsically disordered region提取蛋白质特征,径向基核函数的SVM进行分类,通过10-fold cross validation和独立测试验证,在M.musculus和H.sapiens数据集上AUC values分别为0.74和0.76,MCC值分别为0.213和0.20。Chen等人使用EAAC,AAindex和one-hot编码方法,整合深度学习long short-term memory with wordembedding(LSTMwe)和随机森林构建丙二酰化位点分类器LEMP。
尽管上述方法产生了令人鼓舞的结果并刺激了丙二酰化位点的预测研究,但这些方法还存在一些不足,
i)现有方法仅利用了有限的特征,其他潜在特征对预测结果也会产生影响。
ii)模型构建中冗余特征会降低预测性能。
发明内容
本发明的目的在于针对现有计算识别方法的不足,提供一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,该方法基于深度学习网络对蛋白质丙二酰化位点和非丙二酰化位点进行分类,预测准确率高。
为解决上述的技术问题,本发明采用以下技术方案:一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于包括如下步骤:
1)收集数据:从蛋白质数据库和相关文献中收集实验验证的赖氨酸丙二酰化位点数据;
2)特征编码:提取正负样本蛋白质的序列信息,物理化学性质和进化信息,对正负样本进行多种特征提取;
3)特征融合:将提取的多种蛋白质特征信息融合,得到特征空间;
4)构建预测模型:将融合特征输入到深度神经网络中,进行预测丙二酰化位点和非丙二酰化位点;利用交叉验证进行训练,结合评价指标对预测结果进行评价,评估模型的预测性能和鲁棒性;构建E.coli、H.sapiens和M.musculus数据集上蛋白质丙二酰化位点的预测模型DeepMal;
5)丙二酰化位点预测:获取待分析蛋白质的序列作为独立测试数据集,输入步骤4)中的预测模型DeepMal中,得到丙二酰化位点预测结果并输出。
更进一步的技术方案是所述步骤1)中的赖氨酸丙二酰化位点数据来自数据集E.coli、H.sapiens和M.musculus,每条蛋白质序列窗口大小为25。
更进一步的技术方案是所述步骤1)中正样本是经实验验证标记的丙二酰化位点的数据标记样本;负样本是从与正样本相同的蛋白质中随机挑选出与正样本数量相同但未标记的丙二酰化位点的数据标记样本。
更进一步的技术方案是所述步骤2)特征提取采用Enhanced amino acidcomposition、Enhanced grouped amino acid composition、Dipeptide deviation fromexpected mean、K nearest neighbors和BLOSUM62矩阵进行特征提取,其中
2-1)Enhanced amino acid composition:从每条蛋白质序列的N-末端连续滑动到C-末端,计算固定长度子序列的氨基酸出现频率,通常用于编码长度相等的蛋白质序列;EAAC特征提取计算公式为:
Figure BDA0002338202920000031
其中,N(t,win)是滑动窗口win中氨基酸类型t的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到420维特征向量;
2-2)Enhanced grouped amino acid composition:将20种氨基酸划分为五类,包括脂族基团(g1:GAVLMI),芳族基团(g2:FYW),正电荷基团(g3:KRH),负电荷基团(g4:DE)和不带电荷基团(g5:STCPNQ),其计算公式如下:
Figure BDA0002338202920000032
其中,N(g,win)是滑动窗口win中g组氨基酸的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到105维特征向量;
2-3)Dipeptide deviation from expected mean:通过计算二肽组成(DC),理论平均值(TM)和理论方差(TV)三个参数来构建400维的DDE特征向量,其计算公式如下:
Figure BDA0002338202920000033
其中,Nrs是氨基酸对rs的个数,N是蛋白质序列的长度;
Figure BDA0002338202920000034
其中,Cr是编码第一个氨基酸的密码子数,Cs是编码第二个氨基酸的密码子数,CN是可能的密码子总数;
Figure BDA0002338202920000035
Figure BDA0002338202920000036
2-4)Knearest neighbors:利用局部序列聚类信息预测丙二酰化位点,聚类信息即通过将一个蛋白质序列片段比对正负数据合并的比对集序列,通过KNN算法提取蛋白质序列聚类特征,详细描述如下:
2-4-1)根据局部序列相似性分别在正数据集和负数据集中找到其KNN特征:对于两个本地序列s1和s2,距离Dist(s1,s2)定义为:
Figure BDA0002338202920000041
其中p表示蛋白质序列片段中中心位点的侧翼残基数,i表示序列片段中氨基酸的所在位置;Sim是氨基酸相似性打分矩阵,用BLOSUM62矩阵来代替
Figure BDA0002338202920000042
其中a和b是两个氨基酸,M是BLOSUM62替换矩阵,max{M}/min{M}为BLOSUM62替换矩阵中的最大/最小数;
2-4-2)提取相应的KNN特征:通过结合正负样本形成一个比对数据集,计算从蛋白质序列到比对数据集集的平均距离,对计算的距离进行排序,然后选择KNN参数,计算KNN分数,即KNN中正样本(丙二酰化位点)的百分比,要获得多个特征,选择不同的k值,得到KNN特征,k取2,4,8,16,32,64,得到6维特征向量;
2-5)BLOSUM62:建立在氨基酸序列的比对上,两个肽序列之间的同一性不超过62%,基于BLOSUM62中20个氨基酸的取代分数,窗口长度为25个氨基酸的片段序列编码为500维的特征向量。
更进一步的技术方案是所述步骤3)中将提取的多种蛋白质特征进行融合后,蛋白质序列字符信息转化成序列信息,每条蛋白质序列得到1431维的特征向量。
更进一步的技术方案是所述步骤4)中的深度神经网络依次由卷积层、Dropout层、全连接深度神经网络层、输出层构成,卷积层中嵌入有最大池化层;
其中,卷积层,由多个大小为3*3的卷积核组成,线性整流函数ReLU为激活函数,每个卷积核对输入特征向量进行卷积运算,得到丙二酰化位点相关显著特征;
最大池化层,来选择最大相关特征并且降低特征维数;
Dropout层,随机丢弃一些神经元及它们的连接,阻止某些特征的协同作用防止过拟合,从而提高模型的泛化性能;
全连接深度神经网络层,对来自卷积层和池化层的特征进行学习,线性整流函数ReLU为激活函数;
输出层,使用Softmax函数激活非线性转换,输出值为丙二酰化位点和非丙二酰化位点的概率值。
与现有技术相比,本发明的有益效果是:
采用增强氨基酸组成(EAAC)、分组增强氨基酸组成(EGAAC)、二肽偏离预期平均值(DEE)、K近邻得分(KNN)和BLOSUM62矩阵特征提取算法,把蛋白质序列的字符信息转化成数值向量并融合,得到特征空间,充分考虑到各潜在特征对于预测结果的影响。
使用线性卷积神经网络计算得到丙二酰化位点特异性特征,通过最大池化层来选择相关特征并且降低特征维数,结合多层深度神经网络对丙二酰化位点和非丙二酰化位点进行分类,构建蛋白质丙二酰化位点预测模型DeepMal,使用10折交叉验证和独立测试数据集评估预测性能。
与其他最先进的模型相比,模型DeepMal在评价指标上都取得显著的提高。从t-SNE可视化中,发现DeepMal可以生成强大的区分特征,以区分蛋白质序列中的丙二酰化位点与非丙二酰化位点。此外,本发明有助于进一步促进深度学习在生物信息学研究中的应用,尤其是蛋白质功能预测。
附图说明
图1为本发明基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法的流程图。
图2为本发明中3个数据集特征的t-SNE可视化图,其中图A,B和C图分别是训练数据集E.coli,H.sapiens和M.musculus的原始序列特征,图D,E和F图分别是DeepMal中全连接神经网络的第二层提取的抽象特征,图G,H和I图分别是DeepMal中全连接神经网络的第三层提取的抽象特征。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,如图1所示,包括如下步骤:
1)收集数据:从蛋白质数据库和相关文献中收集实验验证的赖氨酸丙二酰化位点数据。
本发明中使用经实验验证的赖氨酸丙二酰化数据集主要来自论文(Zhang YJ,XieRP,Wang JW,et al.Computational analysis and prediction of lysine malonylationsites by exploiting informative features in an integrative machine-learningframework.BriefBioinform 2018:1-15),该数据集包括来自595个大肠杆菌蛋白质的1746个Kmal位点,来自M.musculus的1174种蛋白质的3435个Kmal位点和来自1660种蛋白质的4579个Kmal位点在H.sapiens中。
经过随机选取,最终训练集E.coli包含1453个正样本和1453个负样本,M.musculus包含2606个正样本和2606个负样本,H.sapiens包含3585个正样本和3585个负样本。独立测试集E.coli包含100个正样本和100个负样本,M.musculus包含600个正样本和600个负样本,H.sapiens包含300个正样本和300个负样本。每条蛋白质序列窗口大小为25,赖氨酸(K)位于序列片段中心。其中正样本是经实验验证标记的丙二酰化位点的数据标记样本;负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未标记的丙二酰化位点的数据标记样本。
2)特征编码:提取正负样本蛋白质的序列信息,物理化学性质和进化信息,对正负样本进行多种特征提取,提取方法有Enhanced amino acid composition、Enhancedgrouped amino acid composition、Dipeptide deviation from expected mean、Knearest neighbors和BLOSUM62矩阵。
2-1)Enhanced amino acid composition:从每条蛋白质序列的N-末端连续滑动到C-末端,计算固定长度子序列的氨基酸出现频率,通常用于编码长度相等的蛋白质序列;EAAC特征提取计算公式为:
Figure BDA0002338202920000061
其中,N(t,win)是滑动窗口win中氨基酸类型t的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到420维特征向量;
2-2)Enhanced grouped amino acid composition:将20种氨基酸划分为五类,包括脂族基团(g1:GAVLMI),芳族基团(g2:FYW),正电荷基团(g3:KRH),负电荷基团(g4:DE)和不带电荷基团(g5:STCPNQ),其计算公式如下:
Figure BDA0002338202920000062
其中,N(g,win)是滑动窗口win中g组氨基酸的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到105为向量;
2-3)Dipeptide deviation from expected mean:通过计算二肽组成(DC),理论平均值(TM)和理论方差(TV)三个参数来构建400维的DDE特征向量,其计算公式如下:
Figure BDA0002338202920000071
其中,Nrs是氨基酸对rs的个数,N是蛋白质序列的长度;
Figure BDA0002338202920000072
其中,Cr是编码第一个氨基酸的密码子数,Cs是编码第二个氨基酸的密码子数,CN是可能的密码子总数;
Figure BDA0002338202920000073
Figure BDA0002338202920000074
2-4)Knearest neighbors:利用局部序列聚类信息预测丙二酰化位点,聚类信息即通过将一个蛋白质序列片段比对正负数据合并的比对集序列,通过KNN算法提取蛋白质序列聚类特征,详细描述如下:
2-4-1)根据局部序列相似性分别在正数据集和负数据集中找到其KNN特征:对于两个本地序列s1和s2,距离Dist(s1,s2)定义为:
Figure BDA0002338202920000075
其中p表示蛋白质序列片段中中心位点的侧翼残基数,i表示序列片段中氨基酸的所在位置;Sim是氨基酸相似性打分矩阵,用BLOSUM62矩阵来代替
Figure BDA0002338202920000076
其中a和b是两个氨基酸,M是BLOSUM62替换矩阵,max{M}/min{M}为BLOSUM62替换矩阵中的最大/最小数;
2-4-2)提取相应的KNN特征:通过结合正负样本形成一个比对数据集,计算从蛋白质序列到比对数据集集的平均距离,对计算的距离进行排序,然后选择KNN参数,计算KNN分数,即KNN中正样本的百分比,要获得多个特征,选择不同的k值,得到KNN特征,k取2,4,8,16,32,64,得到6维特征向量;
2-5)BLOSUM62:建立在氨基酸序列的比对上,两个肽序列之间的同一性不超过62%,基于BLOSUM62中20个氨基酸的取代分数,窗口长度为25个氨基酸的片段序列编码为500维的特征向量。
3)特征融合:将提取的多种蛋白质特征信息融合,得到特征空间All。将提取的多种蛋白质特征进行融合后,蛋白质序列字符信息转化成序列信息,每条蛋白质序列得到1431维的特征向量。
4)构建预测模型:将融合特征输入到深度神经网络中,进行预测丙二酰化位点和非丙二酰化位点;利用交叉验证进行训练,结合评价指标对预测结果进行评价,评估模型的预测性能和鲁棒性;构建E.coli、H.sapiens和M.musculus数据集上蛋白质丙二酰化位点的预测模型DeepMal。
深度神经网络依次由卷积层、Dropout层、全连接深度神经网络层、输出层构成,卷积层中嵌入有最大池化层,如图1所示。
其中,卷积层,由多个大小为3*3的卷积核组成,线性整流函数ReLU为激活函数,负值设置为零,每个卷积核对输入特征向量进行卷积运算,得到丙二酰化位点相关显著特征。具体地,给定输入样本X,CNN中的卷积运算表示如下:
Figure BDA0002338202920000081
Relu(x)=max(0,x) (10)
其中,M是滑动窗口的大小,N是输入通道的数量,
Figure BDA0002338202920000082
是第k个卷积核的权重矩阵,大小是M*N。
为了降低卷积层输出的特征向量,减小网络中运算的维数,在卷积层中嵌入最大池化层。使用2*2的滤波器,步长为2,对数据进行最大池化,在窗口内选取最大特征值。
Dropout层,随机丢弃一些神经元及它们的连接,阻止某些特征的协同作用防止过拟合,从而提高模型的泛化性能,提高模型的预测性能。Dropout机制的随机删除率为0.2。
全连接深度神经网络层,对来自卷积层和池化层的特征进行学习,线性整流函数ReLU为激活函数。
输出层,使用Softmax函数激活非线性转换,输出值为丙二酰化位点和非丙二酰化位点的概率值。softmax分类函数
Figure BDA0002338202920000083
其中ok是第k个神经元的输出,表示观察到k类概率,yk是先前隐藏层的关联线性输出。
具体地,对于上述所有层,采用ReLU函数作为激活函数以避免在训练过程期间的梯度扩散。当网络足够深时,损失函数的梯度将非常小,有效地防止了权重的变化。此外,为了提高模型的泛化能力,在第二层添加dropout层,模型会随机地使某一层神经元失活,失活概率为p,从而提高模型的分类性能并避免过度拟合问题。
预测模型DeepMal的架构和超参数的设置如表1。尺寸栏描述卷积层的核大小,最大池化层和完全连接层的大小。
表1
Figure BDA0002338202920000091
5)丙二酰化位点预测:获取待分析蛋白质的序列作为独立测试数据集,输入步骤4)中的预测模型DeepMal中,得到丙二酰化位点预测结果并输出。
6)模型评估及验证
6-1)评估方法及标准:在统计预测中,通常采用刀切法、独立样本检验和K折交叉验证来评估模型的有效性。本文在训练数据集上采用十折交叉验证方法来训练模型,使用独立数据集来评估模型的预测性能。为了评估所提出的模型的预测性能,采用敏感性(Sensitivity,Sn),特异性(Specificity,Sp),精准率(Precision,PRE),准确率(Accuracy,Acc)和马氏相关系数(MCC)作为评价指标,马氏相关系数反映预测模型的稳定性,五个评价指标定义如下:
Figure BDA0002338202920000101
Figure BDA0002338202920000102
Figure BDA0002338202920000103
Figure BDA0002338202920000104
Figure BDA0002338202920000105
其中TP代表真阳性的数量,FP代表假阳性的数量,TN代表真阴性的数量,FN代表假阴性的数量。此外,ROC是基于敏感性Sn和特异性Sp的曲线,AUC是ROC曲线下的面积,作为度量预测模型鲁棒性的指标,AUC值越接近于1,模型预测性能越好。
6-2)为验证预测模型DeepMal的准确性,将通过EAAC、EGAAC、DDE、KNN和BLOSUM62把字符信息转化为数值向量,融合特征后得到1431维的特征向量。将融合后的特征向量输入到以径向基核函数的SVM,XGBoost,DL-1,深度神经网络(DNN),递归神经网络(RNN)和DeepMal学习框架进行特征学习和预测,通过十折交叉验证,得到其在数据集E.coli、M.musculus和H.sapiens上的预测结果,如表2所示。
表2在数据集E.coli、M.musculus和H.sapiens的不同方法的预测结果
Figure BDA0002338202920000106
Figure BDA0002338202920000111
由表2可以看出,对于数据集E.coli,构建的DeepMal预测模型性能表现最好,ACC,Sn,Sp,MCC和AUC分别为0.9301,0.9171,0.9431,0.8607和0.9513,其ACC,Sn,Sp,MCC和AUC值都高于其他分类算法。DeepMal模型的预测准确率比DL-1,XGBoost,SVM,DNN和RNN分别高3.50%,28.83%,31.10%,10.04%和7.19%。DeepMal模型的MCC值比DL-1,XGBoost,SVM,DNN和RNN分别高6.77%,57.67%,62.15%,17.10%和13.35%。
数据集H.sapiens上,我们采用的预测模型DeepMal,ACC,Sn,Sp,MCC和AUC分别为0.9092,0.9161,0.9022,0.8186和0.9447。DeepMal模型的预测准确率比DL-1,XGBoost,SVM,DNN和RNN分别高4.42%,21.92%,26.59%,5.45%和5.91%。对AUC值而言,DeepMal模型比DL-1,XGBoost,SVM,DNN和RNN分别高2.84%,17.73%,24.67%,2.21%和4.16%。
在数据集M.musculus上,我们构建的预测模型DeepMal对蛋白质丙二酰化位点的预测性能最优,远远超过SVM,XGBoost,DL-1,DNN和RNN。DeepMal分类算法的ACC,Sn,Sp,MCC和AUC分别为0.9193,0.9230,0.9157,0.8405和0.9534。就预测准确率而言,模型DeepMal比DL-1,XGBoost,SVM,DNN和RNN分别高3.02%,22.44%,27.81%,4.24%和5.79%。模型DeepMal的Sn值,Sp值比DL-1分别高4.91%,1.15%。对AUC值来说,模型DeepMal比DL-1,XGBoost,SVM,DNN和RNN分别高2.52%,18.12%,25.32%,18.64%和3.35%。
综上,模型DeepMal能够更好地区分蛋白质丙二酰化位点和非丙二酰化位点,取得最好的预测性能。
6-3)可视化验证
对DeepMal所提取的特征以及原始的蛋白质序列进行可视化。为了直观地观察丙二酰化和非丙二酰化的区别,这里使用了一种流行的可视化算法t-SNE对特征向量进行可视化,我们将高维特征压缩到二维空间中,将数值归一化为-1到1。在数据集E.coli,H.sapiens和M.musculus上,分别将原始序列特征和通过DeepMal提取的抽象特征,通过t-SNE可视化,如图3所示。
在训练数据集E.coli,H.sapiens和M.musculus上对原始序列特征和DeepMal提取的不同层的抽象特征用t-SNE进行可视化。
由图3A,图3B和图3C可以看出,通过原始序列的特征提取,很难将丙二酰化位点与非丙二酰化位点区分开来,而通过DeepMal的抽象表示,由图3D,图3E,图3F,图3G,图3H和图3I可以看出我们更容易对丙二酰化位点和非丙二酰化位点进行分类。通过t-SNE的可视化,我们证明了原始蛋白质的序列可以通过DeepMal生成的非线性转换映射到有意义的表示,这有助于进一步分析丙二酰化位点。
6-4)为了对比预测模型,评估模型的鲁棒性以及预测性能,利用独立测试集进行验证。表4详细列出本文方法与其它预测方法在E.coli、H.sapiens和M.musculus上的比较结果。
表3不同方法在E.coli,H.sapiens和M.musculus独立测试数据集上预测结果的比较
Figure BDA0002338202920000121
从表4可以看出,对于E.coli数据集,模型DeepMal的PRE,Sn,Sp,AUC,ACC和MCC分别为0.971,0.950,0.980,0.974,0.965和0.931。DeepMal的预测准确率为0.965,比预测方法kmal-sp高12%,比MaloPred方法高18.5%,模型的总体预测准确率明显提高。另外,就评价指标MCC而言,预测模型DeepMal达到0.931,比kmal-sp和MaloPred分别高24.1%和37%。
对于H.sapiens数据集,模型DeepMal的PRE,Sn,Sp,AUC,ACC和MCC分别为0.952,0.967,0.943,0.956,0.955和0.910。DeepMal的预测准确率为0.955,比其它预测方法高9.5%-12.8%,模型的预测准确率明显高于其它的方法。同时,在评价指标Sn方面,DeepMal达到0.967,相比于kmal-sp和MaloPred超过11.8%和13.8%。DeepMal的AUC值0.956,比kmal-sp和MaloPred分别高1.2%和2.4%。
对于M.musculus数据集,本文方法DeepMal的预测准确率为0.945,高于其它预测方法11.2%-14.3%,PRE,Sn,Sp,AUC和MCC分别为0.945,0.947,0.943,0.944和0.890。此外,DeepMal的Sp比kmal-sp和MaloPred分别高10.6%和13.6%。,因此,模型DeepMal具有很好的预测性能和鲁棒性,有助于进一步促进深度学习在生物信息学研究中的应用,尤其是蛋白质功能预测。
尽管这里参照本发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开、附图和权利要求的范围内,可以对模型进行多种变形和改进。除了对模型的变形和改进外,对于本领域技术人员来说,其他的用途也将是明显的。

Claims (6)

1.一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于包括如下步骤:
1)收集数据:从蛋白质数据库和相关文献中收集实验验证的赖氨酸丙二酰化位点数据;
2)特征编码:提取正负样本蛋白质的序列信息,物理化学性质和进化信息,对正负样本进行多种特征提取;
3)特征融合:将提取的多种蛋白质特征信息融合,得到特征空间;
4)构建预测模型:将融合特征输入到深度神经网络中,进行预测丙二酰化位点和非丙二酰化位点;利用交叉验证进行训练,结合评价指标对预测结果进行评价,评估模型的预测性能和鲁棒性;构建E.coli、H.sapiens和M.musculus数据集上蛋白质丙二酰化位点的预测模型DeepMal;
5)丙二酰化位点预测:获取待分析蛋白质的序列作为独立测试数据集,输入步骤4)中的预测模型DeepMal中,得到丙二酰化位点预测结果并输出。
2.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤1)中的赖氨酸丙二酰化位点数据来自数据集E.coli、H.sapiens和M.musculus,每条蛋白质序列窗口大小为25。
3.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤1)中正样本是经实验验证标记的丙二酰化位点的数据标记样本;负样本是从与正样本相同的蛋白质中随机挑选出与正样本数量相同但未标记的丙二酰化位点的数据标记样本。
4.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤2)特征提取采用Enhanced amino acid composition、Enhanced groupedamino acid composition、Dipeptide deviation from expected mean、K nearestneighbors和BLOSUM62矩阵进行特征提取,其中
2-1)Enhanced amino acid composition:从每条蛋白质序列的N-末端连续滑动到C-末端,计算固定长度子序列的氨基酸出现频率,通常用于编码长度相等的蛋白质序列;EAAC特征提取计算公式为:
Figure FDA0002338202910000011
t∈{A,C,D,...,Y},win∈{windowl,window 2,...,win dow L}
其中,N(t,win)是滑动窗口win中氨基酸类型t的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到420维特征向量;
2-2)Enhanced grouped amino acid composition:将20种氨基酸划分为五类,包括脂族基团(g1:GAVLMI),芳族基团(g2:FYW),正电荷基团(g3:KRH),负电荷基团(g4:DE)和不带电荷基团(g5:STCPNQ),其计算公式如下:
Figure FDA0002338202910000021
g∈{g1,g2,g3,g4,g5},win∈{window1,window2,…,windowL}
其中,N(g,win)是滑动窗口win中g组氨基酸的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到105维特征向量;
2-3)Dipeptide deviation from expected mean:通过计算二肽组成(DC),理论平均值(TM)和理论方差(TV)三个参数来构建400维的DDE特征向量,其计算公式如下:
Figure FDA0002338202910000022
r,s∈{A,C,D,…,Y}
其中,Nrs是氨基酸对rs的个数,N是蛋白质序列的长度;
Figure FDA0002338202910000023
其中,Cr是编码第一个氨基酸的密码子数,Cs是编码第二个氨基酸的密码子数,CN是可能的密码子总数;
Figure FDA0002338202910000024
Figure FDA0002338202910000025
2-4)K nearest neighbors:利用局部序列聚类信息预测丙二酰化位点,聚类信息即通过将一个蛋白质序列片段比对正负数据合并的比对集序列,通过KNN算法提取蛋白质序列聚类特征,详细描述如下:
2-4-1)根据局部序列相似性分别在正数据集和负数据集中找到其KNN特征:对于两个本地序列s1和s2,距离Dist(s1,s2)定义为:
Figure FDA0002338202910000026
其中p表示蛋白质序列片段中中心位点的侧翼残基数,i表示序列片段中氨基酸的所在位置;Sim是氨基酸相似性打分矩阵,用BLOSUM62矩阵来代替
Figure FDA0002338202910000027
其中a和b是两个氨基酸,M是BLOSUM62替换矩阵,max{M}/min{M}为BLOSUM62替换矩阵中的最大/最小数;
2-4-2)提取相应的KNN特征:通过结合正负样本形成一个比对数据集,计算从蛋白质序列到比对数据集集的平均距离,对计算的距离进行排序,然后选择KNN参数,计算KNN分数,即KNN中正样本的百分比,要获得多个特征,选择不同的k值,得到KNN特征,k取2,4,8,16,32,64,得到6维特征向量;
2-5)BLOSUM62:建立在氨基酸序列的比对上,两个肽序列之间的同一性不超过62%,基于BLOSUM62中20个氨基酸的取代分数,窗口长度为25个氨基酸的片段序列编码为500维的特征向量。
5.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤3)中将提取的多种蛋白质特征进行融合后,蛋白质序列字符信息转化成序列信息,每条蛋白质序列得到1431维的特征向量。
6.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤4)中的深度神经网络依次由卷积层、Dropout层、全连接深度神经网络层、输出层构成,卷积层中嵌入有最大池化层;
其中,卷积层,由多个大小为3*3的卷积核组成,线性整流函数ReLU为激活函数,每个卷积核对输入特征向量进行卷积运算,得到丙二酰化位点相关显著特征;
最大池化层,来选择最大相关特征并且降低特征维数;
Dropout层,随机丢弃一些神经元及它们的连接,阻止某些特征的协同作用防止过拟合,从而提高模型的泛化性能;
全连接深度神经网络层,对来自卷积层和池化层的特征进行学习,线性整流函数ReLU为激活函数;
输出层,使用Softmax函数激活非线性转换,输出值为丙二酰化位点和非丙二酰化位点的概率值。
CN201911365158.8A 2019-12-26 2019-12-26 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法 Pending CN111081311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911365158.8A CN111081311A (zh) 2019-12-26 2019-12-26 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911365158.8A CN111081311A (zh) 2019-12-26 2019-12-26 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法

Publications (1)

Publication Number Publication Date
CN111081311A true CN111081311A (zh) 2020-04-28

Family

ID=70318176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911365158.8A Pending CN111081311A (zh) 2019-12-26 2019-12-26 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法

Country Status (1)

Country Link
CN (1) CN111081311A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785321A (zh) * 2020-06-12 2020-10-16 浙江工业大学 一种基于深度卷积神经网络的dna绑定残基预测方法
CN112420127A (zh) * 2020-10-26 2021-02-26 大连民族大学 基于二级结构和多模型融合的非编码rna与蛋白质相互作用预测方法
CN112599186A (zh) * 2020-12-30 2021-04-02 兰州大学 基于多深度学习模型共识的化合物靶蛋白绑定预测方法
CN112820350A (zh) * 2021-03-18 2021-05-18 湖南工学院 基于迁移学习的赖氨酸丙酰化预测方法和***
CN112863597A (zh) * 2021-03-11 2021-05-28 同济大学 基于卷积门控递归神经网络的rna基元位点预测方法及***
CN113537409A (zh) * 2021-09-13 2021-10-22 烟台双塔食品股份有限公司 一种豌豆蛋白数据特征提取方法
CN113555064A (zh) * 2021-07-19 2021-10-26 江南大学 一种基于多角度编码和特征选择的dna结合蛋白识别方法
CN113764043A (zh) * 2021-09-10 2021-12-07 东北林业大学 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备
CN113782094A (zh) * 2021-09-06 2021-12-10 中科曙光国际信息产业有限公司 修饰位点的预测方法、装置、计算机设备和存储介质
CN114317466A (zh) * 2022-01-04 2022-04-12 中山大学附属第三医院 一种突变acc1蛋白及其用途
CN114743591A (zh) * 2022-03-14 2022-07-12 中国科学院深圳理工大学(筹) 一种mhc可结合肽链的识别方法、装置及终端设备
WO2022188785A1 (zh) * 2021-03-08 2022-09-15 中国科学院上海营养与健康研究所 融合深度学习模型的单细胞转录组计算分析方法和***
CN115116559A (zh) * 2022-06-21 2022-09-27 北京百度网讯科技有限公司 氨基酸中原子坐标的确定及训练方法、装置、设备和介质
CN117352043A (zh) * 2023-12-06 2024-01-05 江苏正大天创生物工程有限公司 基于神经网络的蛋白设计方法及***
CN116978445B (zh) * 2023-08-03 2024-03-26 北京师范大学珠海校区 一种天然产物的结构预测***、预测方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190018019A1 (en) * 2017-07-17 2019-01-17 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning
CN110488020A (zh) * 2019-08-09 2019-11-22 山东大学 一种蛋白质糖化位点鉴定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190018019A1 (en) * 2017-07-17 2019-01-17 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning
CN110488020A (zh) * 2019-08-09 2019-11-22 山东大学 一种蛋白质糖化位点鉴定方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
VIJAYAKUMAR SARAVANAN: "Harnessing Computational Biology for Exact Linear B-Cell Epitope Prediction A Novel Amino Acid Composition-Based Feature Descriptor", OMICS :A JOURNAL OF INTEGRATIVE BIOLOGY, vol. 19, no. 10, pages 648 - 658 *
谢若鹏: "基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测", 《中国优秀硕士学位论文全文数据库》 *
谢若鹏: "基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测", 《中国优秀硕士学位论文全文数据库》, 15 December 2019 (2019-12-15), pages 1 - 38 *
谢若鹏: "基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测", 中国优秀硕士学位论文全文数据库, no. 12, pages 1 - 73 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785321A (zh) * 2020-06-12 2020-10-16 浙江工业大学 一种基于深度卷积神经网络的dna绑定残基预测方法
CN111785321B (zh) * 2020-06-12 2022-04-05 浙江工业大学 一种基于深度卷积神经网络的dna绑定残基预测方法
CN112420127A (zh) * 2020-10-26 2021-02-26 大连民族大学 基于二级结构和多模型融合的非编码rna与蛋白质相互作用预测方法
CN112599186A (zh) * 2020-12-30 2021-04-02 兰州大学 基于多深度学习模型共识的化合物靶蛋白绑定预测方法
CN112599186B (zh) * 2020-12-30 2022-09-27 兰州大学 基于多深度学习模型共识的化合物靶蛋白绑定预测方法
WO2022188785A1 (zh) * 2021-03-08 2022-09-15 中国科学院上海营养与健康研究所 融合深度学习模型的单细胞转录组计算分析方法和***
CN112863597A (zh) * 2021-03-11 2021-05-28 同济大学 基于卷积门控递归神经网络的rna基元位点预测方法及***
CN112820350B (zh) * 2021-03-18 2022-08-09 湖南工学院 基于迁移学习的赖氨酸丙酰化预测方法和***
CN112820350A (zh) * 2021-03-18 2021-05-18 湖南工学院 基于迁移学习的赖氨酸丙酰化预测方法和***
CN113555064A (zh) * 2021-07-19 2021-10-26 江南大学 一种基于多角度编码和特征选择的dna结合蛋白识别方法
CN113782094A (zh) * 2021-09-06 2021-12-10 中科曙光国际信息产业有限公司 修饰位点的预测方法、装置、计算机设备和存储介质
CN113764043A (zh) * 2021-09-10 2021-12-07 东北林业大学 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备
CN113537409A (zh) * 2021-09-13 2021-10-22 烟台双塔食品股份有限公司 一种豌豆蛋白数据特征提取方法
CN114317466A (zh) * 2022-01-04 2022-04-12 中山大学附属第三医院 一种突变acc1蛋白及其用途
CN114317466B (zh) * 2022-01-04 2023-10-27 中山大学附属第三医院 一种突变acc1蛋白及其用途
CN114743591A (zh) * 2022-03-14 2022-07-12 中国科学院深圳理工大学(筹) 一种mhc可结合肽链的识别方法、装置及终端设备
CN115116559A (zh) * 2022-06-21 2022-09-27 北京百度网讯科技有限公司 氨基酸中原子坐标的确定及训练方法、装置、设备和介质
CN116978445B (zh) * 2023-08-03 2024-03-26 北京师范大学珠海校区 一种天然产物的结构预测***、预测方法及设备
CN117352043A (zh) * 2023-12-06 2024-01-05 江苏正大天创生物工程有限公司 基于神经网络的蛋白设计方法及***
CN117352043B (zh) * 2023-12-06 2024-03-05 江苏正大天创生物工程有限公司 基于神经网络的蛋白设计方法及***

Similar Documents

Publication Publication Date Title
CN111081311A (zh) 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法
CN111063393B (zh) 基于信息融合和深度学习的原核生物乙酰化位点预测方法
Yu et al. Prediction of protein–protein interactions based on elastic net and deep forest
CN111161793B (zh) 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN111210871B (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
Ahmed et al. ACP-MHCNN: an accurate multi-headed deep-convolutional neural network to predict anticancer peptides
Fu et al. ACEP: improving antimicrobial peptides recognition through automatic feature fusion and amino acid embedding
Hu et al. Deep learning frameworks for protein–protein interaction prediction
Abdulrahman et al. Comparative study for 8 computational intelligence algorithms for human identification
Wang et al. DeepMal: Accurate prediction of protein malonylation sites by deep neural networks
Khan et al. Gene transformer: Transformers for the gene expression-based classification of lung cancer subtypes
Waseem et al. On the feature selection methods and reject option classifiers for robust cancer prediction
Wei et al. Neurotis: Enhancing the prediction of translation initiation sites in mrna sequences via a hybrid dependency network and deep learning framework
Alexos et al. Prediction of pain in knee osteoarthritis patients using machine learning: Data from Osteoarthritis Initiative
Huang et al. 6mA-Pred: identifying DNA N6-methyladenine sites based on deep learning
Chen et al. DeepGly: A deep learning framework with recurrent and convolutional neural networks to identify protein glycation sites from imbalanced data
Hattori et al. A deep bidirectional long short-term memory approach applied to the protein secondary structure prediction problem
Wang et al. Enhancer-FRL: Improved and robust identification of enhancers and their activities using feature representation learning
Ding et al. iT3SE‐PX: Identification of Bacterial Type III Secreted Effectors Using PSSM Profiles and XGBoost Feature Selection
Li et al. Exploring Feature Selection With Limited Labels: A Comprehensive Survey of Semi-Supervised and Unsupervised Approaches
Arora et al. N-semble-based method for identifying Parkinson’s disease genes
CN117334251A (zh) 一种用于识别SARS-CoV-2感染的磷酸化位点的深度学习方法
Yeh et al. Ego-network transformer for subsequence classification in time series data
Bustamam et al. Performance of multivariate mutual information and autocorrelation encoding methods for the prediction of protein-protein interactions
Wang et al. RPI-GGCN: Prediction of RNA–Protein Interaction Based on Interpretability Gated Graph Convolution Neural Network and Co-Regularized Variational Autoencoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination