CN109448787B - 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法 - Google Patents

基于改进pssm进行特征提取与融合的蛋白质亚核定位方法 Download PDF

Info

Publication number
CN109448787B
CN109448787B CN201811187766.XA CN201811187766A CN109448787B CN 109448787 B CN109448787 B CN 109448787B CN 201811187766 A CN201811187766 A CN 201811187766A CN 109448787 B CN109448787 B CN 109448787B
Authority
CN
China
Prior art keywords
pssm
protein
features
improved
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811187766.XA
Other languages
English (en)
Other versions
CN109448787A (zh
Inventor
聂仁灿
阮小利
周冬明
贺康建
李华光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201811187766.XA priority Critical patent/CN109448787B/zh
Publication of CN109448787A publication Critical patent/CN109448787A/zh
Application granted granted Critical
Publication of CN109448787B publication Critical patent/CN109448787B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法,涉及生物及信息技术领域。所述基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法首先对蛋白质序列的进化信息采用Z‑SoftMax函数去规范化位置特异性得分矩阵;其次采用提出的SC‑PSSM‑C和SC‑PSSM‑R分别对位置特异性得分矩阵进行不同方向不同跳跃间隔下的特征提取,固定PSSM的长度;再利用改进的最大信息系数算法对融合后的特征进行特征选择,最后采用优化参数后的W‑SVM分类器进行最终的分类预测。本发明具有能弥补传统特征提取的局限性和单一性,提高了蛋白质亚核定位的能力。

Description

基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法
技术领域
本发明涉及生物及信息技术领域,具体的涉及一种基于改进 PSSM进行特征提取与融合的蛋白质亚核定位方法。
背景技术
随着人类基因组测序技术的普及及提高,使得蛋白质序列大量产生。在最近20年,对新测得序列的蛋白质功能的掌握则成为生物信息学研究的热点之一。蛋白质的功能取决于它所在细胞中的位置,确定蛋白质亚细胞定位被认为是了解其功能的重要步骤。蛋白质亚核定位信息能为疾病的预防、诊断与治疗提供重要的线索。传统通过大量重复的生物学实验方法获取蛋白质亚核定位信息需消耗大量的时间与金钱,近年来,随着计算机科学快速地发展,利用机器学习的方法研究蛋白质亚核定位成为生物信息学研究的一个热点,且能克服传统方法研发代价高且预测速度慢的缺点。
目前,蛋白质亚细胞定位预测研究的关键部分是特征信息的提取和分类算法模型的构建。大量已发表的论文的实验表明,采用进化信息对蛋白质进行特征提取时对亚核的定位预测有重要的作用,怎样把提取有序序列的有效进化信息转换为固定维度的有效特征向量是目前研究的难点。目前基于进化信息进行改进的较有效的算法主要有 2009年DongQ和Zhou S提出的PSSM-CC,2015年Jing Chen提出的“A multiple information fusionmethod for predicting subcellular locations of two different types ofbacterial protein simultaneously”及2016年由东京大学、澳大利亚格里菲斯大学及南太平洋大学联合提出的k-separated-bigrams-PSSM算法等。
综上所述,现有技术存在的技术问题在于:这些模型虽然提供了更多关于氨基酸相互作用的蛋白质序列信息,但仍然局限于某列或某行,或间隔可变的某两列或某两行中的有效判别信息;提取特征太过于单一,不足以表达蛋白质序列的整体特征。有效特征的提取将影响分类器的分类结果,蛋白质组学数据中的样本一般具有高维特征的特点,如何对数据有效的进行特征选择、去除不相关特征及缓解“维度灾难”在目前仍存在着一定的挑战;其次蛋白质组学中的数据集存在着不平衡问题,例如Mutipass膜蛋白数据集等,数据集的不平衡导致样本数较小的类预测精度偏低,不平衡问题已经成为蛋白质组学中的一个难点和重点研究内容。在总结前人工作的基础对现有问题进行进一步的研究,提出新型的机器学习方法,使得在最终的结果中,少数类的预测准确率可以达到和多数类准确率相似的结果,从而提高整体的识别效果。
发明内容
针对现有技术存在的上述问题,提供一种基于改进位置特异性得分矩阵(Position Specificity Score Matrix,PSSM)进行特征提取与融合的蛋白质亚核定位方法,提供了一种新的特征提取和融合方法来提高亚核蛋白质的预测识别率,提出了基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法,包括以下步骤:
步骤1:获取蛋白质数据集,并确定所获取的数据集是单标签还是多标签问题,针对单标签,将数据集转化为标准的.fata格式,并对所有样本的类别进行标注;
步骤2:将迭代参数设置为3,对每次蛋白质进行比对搜索时的 E-value值设置为0.001,计算每条数据的PSSM矩阵;
步骤3:对步骤2得到的特征分别采用不同得特征表达构建特征集合,提取更丰富的互补信息;
步骤4:针对步骤3所获取的特征采用改进的最大信息系数进行特征的选择;
步骤5:判断步骤4得到的特征集合是否是一个平衡数据集,如判断为平衡数据集则跳过此步骤,如不平衡则进行采样处理;
平衡数据集通过设置判断每类的差值;
步骤6:针对步骤4得到的数据集构建分类模型。
进一步的,所述步骤1对所获取的数据集根据每条数据的长度设置相应的阈值进行数据筛选,阈值长度大于50。
进一步的,所述计算每条数据的PSSM矩阵,每条蛋白质用P表示,其中P=[P1,P2,...,P20],Pj=[P1j,P2j,...PLj](j=1,2,...20),L 代表每条蛋白质的长度。
进一步的,所述对步骤2得到的特征分别采用不同得特征表达构建特征集合,包括以下步骤:
对步骤2处理的PSSM进行维度统一化,其公式为:
Figure BDA0001826683820000041
其中c表示类别数,x表示原始PSSM矩阵的值;
对维度统一化的数据集进行标准化处理,其公式为:z=(x-μ)/ σ,其中x是经步骤3.1处理后相对应的值,μ为平均数,σ为标准差;
对处理后的数据集进行SC-PSSM-R算法的特征提取,其公式为:
Figure BDA0001826683820000042
其中
Figure BDA0001826683820000043
当r=0时,表示是两个相邻的两个肽,当r=1时,表示距离间隔为1的两个肽,依次类推;
对维度统一化的数据集标准化处理好的数据集进行列方向特征的提取,其公式为:
Figure BDA0001826683820000044
上述公式可扩展为公式为:
Figure BDA0001826683820000045
,其中
Figure BDA0001826683820000046
代表所在两个肽所对应位置特异性得分矩阵所对应值的差值;
设权重以步长为0.01对融合的不同方向不同跳跃间隔下的得分特异性进化信息进行遍历,寻求最好的特征集合,分析不同权重下特征的初步融合效果。
进一步的,所述对获取的特征采用改进的最大信息系数进行特征的选择,包括以下步骤:
通过对得到最大信息系数通过打分进行有序排列,分析各个不同数据集的打分情况置不同的阈值,并选取相应的特征;
将得到的特征进行再一次的最大信息系数运算,不同于上述对得到对应的打分作为特征的权重形成新的特征集合。
进一步的,所述对步骤4得到的数据集构建分类模型,包括以下步骤:
针对不同数据集的特征训练不同参数的分类模型,通过先全局再局部的参数寻优方法进行参数优化;
将处理后的蛋白质测试集数据放入对应训练好的分类模型中进行最终的分类预测。
本发明的有益效果为:本发明是基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法;首先对获得的蛋白质数据集进行预处理并计算所获取此数据集的位置特异性得分矩阵,其次对得到位置特异性得分矩阵的PSSM矩阵进行Z-Softmax函数规范化处理,避免传统方法处理时产生的Nall数据;接着对处理后的PSSM矩阵的行和列分别通过设置不同的间隔跳跃值r进行局部与全局的特征的提取,既SC-PSSM-R和SC-PSSM-L算法;然后采用改进后的最大信息系数先后两次对加权融合后的SC-PSSM-R和SC-PSSM-L特征矩阵进行特征的选择和打分加权;最后通过训练优化参数后的分类器进行最终的预测评估。本发明提出的基于PSSM改进的特征提取和融合的蛋白质亚核定位研究方法,不仅能提取位置得分特异矩阵在不同方向不同跳跃间隔下的有效特征,增强有效信息之间的互补性,且采用改进的特征选择方法去除冗余。特征提取是分类的前提,有效的特征提取能提高分类器的识别率。该方法相比传统基于PSSM打分矩阵能提取更丰富更有效的蛋白质特征。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法的整体流程图;
图2为本发明实施例所述基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法的实施流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
如图1-2所示
一种基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法,包括以下步骤:
步骤1:获取蛋白质数据集,确定所获取的数据集是单标签还是多标签问题(本发明主要针对单标签问题),并将数据集转化为标准的.fata格式,且对所有样本所在的类别进行标注。
步骤1中对所获取的数据集根据每条数据的长度设置阈值(一般长度大于50)进行数据筛选。
步骤2:将迭代参数设置为3,对每次蛋白质进行比对搜索时的 E-value值设置为0.001,计算每条数据的PSSM矩阵。每条蛋白质用 P表示,其中P=[P1,P2,...,P20],Pj=[P1j,P2j,...PLj] (j=1,2,...20),L代表每条蛋白质的长度。
步骤3:将步骤2得到的位置打分矩阵分别进行转换,分别提取相应特征构建特征集合。
步骤3的第一步为:处理步骤2得到的PSSM使其维度统一化,其公式为:
Figure BDA0001826683820000081
其中c表示类别数,x表示原始PSSM矩阵的值。
第二步为:对第一步维度统一化的数据集进行标准化处理,其公式为:z=(x-μ)/σ。其中x是经步骤3.1处理后的值,μ为平均数,σ为标准差。
第三步为:对第二步处理好的数据集进行SC-PSSM-R算法的特征提取。其公式为:
Figure BDA0001826683820000082
其中 (m,n=1,2,...20),其中
Figure BDA0001826683820000083
当r=0时,表示是两个相邻的肽,当r=1时,表示距离间隔为1 的两个肽,依次类推。
第四步:对步骤3第二步中处理好的数据集进行列方向特征的提取,其公式为:
Figure BDA0001826683820000084
公式可扩展为公式为:
Figure BDA0001826683820000085
其中
Figure BDA0001826683820000086
代表所在两个肽所对应位置特异性得分矩阵所对应值的差值。其中r同步骤上述步骤所表示相同的含义。
步骤3的第五步:设权重以步长为0.01对融合的不同方向不同跳跃间隔下的得分特异性进化信息进行遍历,寻求最好的特征集合。如附图2所示,不断对权重进行更新,且分析不同权重不同下特征初步融合的效果,通过对比选出最优的CRC-PSSM特征集合。
步骤4:针对步骤3第五步中所选的特征采用改进的最大信息系数进行特征的选择;
第一步:通过对步骤4得到最大信息系数通过打分进行有序排列,分析每个特征的打分分布情况,针对不同数据集设置不同的阈值,选取相应的特征。
第二步:将第一步得到的特征进行再一次的最大信息系数运算,不同于第一步是对得到对应的打分作为特征的权重,作为新的特征进行运算。
步骤5:判断步骤4的第二步得到的特征集合是否是一个平衡数据集(通过设置类差异阈值判断每类的差值是否在此范围之外),如判断为平衡数据集则跳过此步骤,如不平衡则进行采样处理。
步骤6:针对步骤4得到的数据集构建分类模型。
对不同数据集的特征训练不同参数的分类模型,通过先全局再局部的参数寻优方法进行参数优化。
将上述步骤中构造的分类模型应用到蛋白质亚细胞定位当中。
实施例2
本发明基于公开的凋亡蛋白质数据集ZD98进行实验验证。其中 ZD98由Zhou andDoctor于2003年建立,该数据集包含4个亚细胞位置的凋亡蛋白序列,分别为cytoplasmicproteins(CY),plasma membrane-bound proteins(ME),mitochondrial proteins(MI)andother proteins(OTHER)。表一中OA代表总体的正确识别率。表一结果严格按照上述特征提取方法和融合策略进行特征的融合,在特征选择方面目前只是采用了传统的线性判别分析算法进行降维,结果就已经优于传统的特征提取方法。从表1中可以看出,本文算法在这些评价客观指标上的数值比其他算法较为有效。
表1基于不同融合方法所得融合结果图
Figure BDA0001826683820000101
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.一种基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法,其特征在于:包括以下步骤:
步骤1:获取蛋白质数据集,并确定所获取的数据集是单标签还是多标签问题,针对单标签,将数据集转化为标准的.fata格式,并对所有样本的类别进行标注;
步骤2:将迭代参数设置为3,对每次蛋白质进行比对搜索时的E-value值设置为0.001,计算每条数据的PSSM矩阵;
步骤3:对步骤2得到的特征分别采用不同得特征表达构建特征集合,提取更丰富的互补信息;
步骤4:针对步骤3所获取的特征采用改进的最大信息系数进行特征的选择,得到特征集合;
步骤5:通过设置类差异阈值判断每类的差值,判断步骤4得到的特征集合是否是一个平衡数据集,如判断为平衡数据集则跳过此步骤,如不平衡则进行采样处理;
步骤6:针对步骤4得到的数据集构建分类模型;
所述对步骤2得到的特征分别采用不同得特征表达构建特征集合,包括以下步骤:
对步骤2处理的PSSM进行维度统一化,其公式为:
Figure FDA0003221405180000011
其中c表示类别数,x表示原始PSSM矩阵的值;
对维度统一化的数据集进行标准化处理,其公式为:z=(x-μ)/σ,其中x是经过维度统一化处理后相对应的值,μ为平均数,σ为标准差;
对标准化处理后的数据集进行SC-PSSM-R算法的特征提取,其公式为:
Figure FDA0003221405180000021
Figure FDA0003221405180000022
其中
Figure FDA0003221405180000023
当r=0时,表示是两个相邻的两个肽,当r=1时,表示距离间隔为1的两个肽,依次类推;
对维度统一化的数据集标准化处理好的数据集进行列方向特征的提取,其公式为:
Figure FDA0003221405180000024
上述公式可扩展为公式为:
Figure FDA0003221405180000025
,其中
Figure FDA0003221405180000026
代表所在两个肽所对应位置特异性得分矩阵所对应值的差值;
设权重以步长为0.01对融合的不同方向不同跳跃间隔下的得分特异性进化信息进行遍历,寻求最好的特征集合,分析不同权重下特征的初步融合效果。
2.如权利要求1所述的基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法,其特征在于:所述步骤1对所获取的数据集根据每条数据的长度设置相应的阈值进行数据筛选,阈值长度大于50。
3.如权利要求1所述的基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法,其特征在于:所述计算每条数据的PSSM矩阵,每条蛋白质用P表示,其中P=[P1,P2,...,P20],Pj=[P1j,P2j,...PLj](j=1,2,...20),L代表每条蛋白质的长度。
4.如权利要求1所述的基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法,其特征在于:针对步骤3所获取的特征采用改进的最大信息系数进行特征的选择,包括以下步骤:
第一步:通过对得到最大信息系数通过打分进行有序排列,分析各个不同数据集的打分情况置不同的阈值,并选取相应的特征;
第二步:将得到的特征进行再一次的最大信息系数运算,不同于第一步对得到对应的打分作为特征的权重形成新的特征集合。
5.如权利要求1所述的基于改进PSSM进行特征提取与融合的蛋白质亚核定位方法,其特征在于:所述对步骤4得到的数据集构建分类模型,包括以下步骤:
针对不同数据集的特征训练不同参数的分类模型,通过先全局再局部的参数寻优方法进行参数优化;
将处理后的蛋白质测试集数据放入对应训练好的分类模型中进行最终的分类预测。
CN201811187766.XA 2018-10-12 2018-10-12 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法 Expired - Fee Related CN109448787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811187766.XA CN109448787B (zh) 2018-10-12 2018-10-12 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811187766.XA CN109448787B (zh) 2018-10-12 2018-10-12 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法

Publications (2)

Publication Number Publication Date
CN109448787A CN109448787A (zh) 2019-03-08
CN109448787B true CN109448787B (zh) 2021-10-08

Family

ID=65546092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811187766.XA Expired - Fee Related CN109448787B (zh) 2018-10-12 2018-10-12 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法

Country Status (1)

Country Link
CN (1) CN109448787B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390995B (zh) * 2019-07-01 2022-03-11 上海交通大学 α螺旋跨膜蛋白质拓扑结构预测方法及装置
CN110827923B (zh) * 2019-11-06 2021-03-02 吉林大学 基于卷积神经网络的***蛋白质的预测方法
CN112242179A (zh) * 2020-09-09 2021-01-19 天津大学 一种识别膜蛋白类型方法
CN113724779B (zh) * 2021-09-02 2022-06-17 东北林业大学 基于机器学习技术的SNAREs蛋白识别方法、***、存储介质及设备
CN113764043B (zh) * 2021-09-10 2022-05-20 东北林业大学 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备
CN116130005B (zh) * 2023-01-30 2023-06-16 深圳新合睿恩生物医疗科技有限公司 多表位疫苗的串联设计方法及装置、设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794351A (zh) * 2010-03-09 2010-08-04 哈尔滨工业大学 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法
CN105046103A (zh) * 2015-07-03 2015-11-11 景德镇陶瓷学院 一种新的融合遗传信息的蛋白质序列表示方法
CN108595909A (zh) * 2018-03-29 2018-09-28 山东师范大学 基于集成分类器的ta蛋白靶向预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10448588B2 (en) * 2013-03-15 2019-10-22 Syngenta Participations Ag Haploid induction compositions and methods for use therefor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794351A (zh) * 2010-03-09 2010-08-04 哈尔滨工业大学 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法
CN105046103A (zh) * 2015-07-03 2015-11-11 景德镇陶瓷学院 一种新的融合遗传信息的蛋白质序列表示方法
CN108595909A (zh) * 2018-03-29 2018-09-28 山东师范大学 基于集成分类器的ta蛋白靶向预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Prediction of Protein Structural Classes for Low-Similarity Sequences Based on Consensus Sequence and Segmented PSSM;Yunyun Liang;《Computational and Mathematical Methods in Medicine》;20151215;1-9 *
基于特征融合和降维算法的蛋白质亚核定位研究;刘树慧;《中国优秀硕士学位论文全文数据库基础科学辑》;20170215(第02期);第1.1.2节、1.4节、2.1.4节 *
效应蛋白数据库的构建及预测方法研究;安怡;《中国优秀硕士学位论文全文数据库信息科技辑》;20180215(第02期);I138-1075 *

Also Published As

Publication number Publication date
CN109448787A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109448787B (zh) 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
Bock et al. Whole-proteome interaction mining
CN107463795A (zh) 一种识别酪氨酸翻译后修饰位点的预测算法
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
CN113488104B (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及***
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN112489723B (zh) 基于局部进化信息的dna结合蛋白预测方法
CN112116950B (zh) 基于深度度量学习的蛋白质折叠识别方法
CN112201300A (zh) 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN115206437A (zh) 一种线粒体效应分子的智能筛选体系及其构建方法和应用
CN113053461B (zh) 一种基于靶标的基因簇定向挖掘方法
CN107301323B (zh) 一种与银屑病相关的分类模型的构建方法
CN113823356A (zh) 一种甲基化位点识别方法及装置
CN118038995A (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及***
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
CN116343915A (zh) 生物序列集成分类器的构建方法及生物序列预测分类方法
CN111128300A (zh) 基于突变信息的蛋白相互作用影响判断方法
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
CN115240775A (zh) 基于stacking集成学习策略的Cas蛋白预测方法
KR102166070B1 (ko) 유전자 가위 효과를 분석하는 방법 및 장치
CN114300036A (zh) 遗传变异致病性预测方法、装置、存储介质及计算机设备
JP3936851B2 (ja) クラスタリング結果評価方法及びクラスタリング結果表示方法
CN113764031A (zh) 一种跨组织/物种rna中n6甲基腺苷位点的预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211008