CN114512188B - 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 - Google Patents

基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 Download PDF

Info

Publication number
CN114512188B
CN114512188B CN202210274125.8A CN202210274125A CN114512188B CN 114512188 B CN114512188 B CN 114512188B CN 202210274125 A CN202210274125 A CN 202210274125A CN 114512188 B CN114512188 B CN 114512188B
Authority
CN
China
Prior art keywords
position specificity
matrix
protein sequence
score
dna binding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210274125.8A
Other languages
English (en)
Other versions
CN114512188A (zh
Inventor
冉坤
彭绍亮
赵雄君
潘亮
王练
刘文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210274125.8A priority Critical patent/CN114512188B/zh
Publication of CN114512188A publication Critical patent/CN114512188A/zh
Application granted granted Critical
Publication of CN114512188B publication Critical patent/CN114512188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,包括:S1、参数初始化;S2、构建DNA结合蛋白序列信息;S3、采用位置特异性得分矩阵表示蛋白质序列;S4、对位置特异性得分矩阵进行归一化,得到改进后的位置特异性得分矩阵;S5、输入卷积神经网络;S6、将卷积神经网络的输出结果输入至双向长短时记忆网络;S7、采用时间分布稠密层对不同存储单元生成的隐藏特征进行加权;S8、将稠密层的输出输入到Flatten层;S9、将改进后的位置特异性得分矩阵输入随机森林模型得到对特定蛋白质序列的决策结果;S10、将步骤S8的输出和步骤S9的决策结果输入评分层,按照设定的权重进行最终的预测评分。本发明提高了预测的性能和准确率。

Description

基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别 方法
技术领域
本发明涉及生物学信息学和计算机融合技术领域,更具体地说,特别涉及一种基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法。
背景技术
DNA结合蛋白(DBPs)是一种重要的蛋白质,在多种生物过程中发挥着重要作用,如DNA复制、转录控制、染色质稳定性和修饰、表观遗传调控、转录后基因调控、选择性剪接、翻译等。它们对某些疾病有重要作用,如癌症、髓系白血病。此外,DNA结合蛋白也可以与DNA结合,这也在基因表达中发挥重要作用,准确识别DNA结合蛋白具有重要意义。
实验技术可以准确识别DNA结合蛋白,如染色质免疫沉淀微阵列、x射线晶体学和过滤结合分析,但这些方法昂贵且耗时。特别是在后基因时代,计算方法成本低廉,是实验技术的良好补充。近年来,基于机器学习算法的计算方法因其令人鼓舞的性能而受到广泛关注。给定一个蛋白质序列作为输入,基于机器学习的方法自动预测该蛋白质序列是否与DNA结合被证明是有效的。
因此,提高模型对DNA结合蛋白识别的准确率是十分有意义的,并利用这些知识发现潜在的DNA复制、转录等重要作用及其作用机理是具有非常重要的科学意义。
发明内容
本发明的目的在于提供一种基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,以克服现有技术所存在的缺陷。
为了达到上述目的,本发明采用的技术方案如下:
基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,包括以下步骤:
S1、参数初始化,包括设置网络输入维度dim,网络序列长度l,卷积神经网络第一个卷积层的过滤器数量和大小设置为n1和size1,第二个卷积层的过滤器数量和大小设置为n2和size2,最大池化层的池化核大小为size3,设置双向长短时记忆网络的神经元数量为n3,设置全连接层的节点数量设置为n4,设置最终的DNA结合蛋白的预测评分为scoreDBP,神经网络预测结果为score1,随机森林预测结果为score2,神经网络预测结果所占的权重为w1,随机森林预测结果所占权重为w2
S2、构建DNA结合蛋白序列信息;
S3、对于给定的蛋白质序列S,采用位置特异性得分矩阵表示蛋白质序列为S1S2...SL,其中,Si(1≤i≤L)表示出现在S中第i位的氨基酸,L为S的长度;
S4、对位置特异性得分矩阵进行归一化,并将归一化后的矩阵分解为n个子矩阵,计算所有子矩阵的局部位置特异性得分矩阵特征,将蛋白质序列表示为特定维数的特征载体,得到改进后的位置特异性得分矩阵;
S5、将改进后的位置特异性得分矩阵输入卷积神经网络,并顺序堆叠两个卷积层,上一层的输出作为下一层的输入,卷积层采用ReLU作为激活函数;
S6、将所述卷积神经网络的输出结果输入至所述双向长短时记忆网络,并采用ReLU作为激活函数;
S7、采用时间分布稠密层对不同存储单元生成的隐藏特征进行加权;
S8、将稠密层的输出输入到Flatten层,并将结果变成一维数据,再输入到全连接层,得到输出,该输出的节点采用sigmoid作为激活函数;
S9、将步骤S4得到的改进后的位置特异性得分矩阵输入随机森林模型,通过随机森林决策树得到对特定蛋白质序列的决策结果;
S10、将步骤S8的输出和步骤S9的决策结果输入评分层,按照设定的权重进行最终的预测评分,该预测评分相当于一个置信度,评分越高则识别正确的可能性越高。
进一步地,所述步骤S2具体包括:
S20、从经过注释的蛋白质序列数据库Swiss-Prot中获得基因分类术语DNA-binding注释的蛋白质作为阳性样本S+
S21、从经过注释的蛋白质序列数据库Swiss-Prot中收集与基因分类术语DNA-binding注释无关的蛋白质作为阴性样本S
S22、在所述阳性样本S+和阴性样本S中去除长度小于设定值的蛋白质;
S23、去除所述阳性样本S+和阴性样本S中截断阈值为第一设定值、覆盖率为第二设定值序列长度的同源蛋白。
进一步地,所述步骤S21中的阴性样本S选择结构已知的蛋白质。
进一步地,所述步骤S23具体采用CD-HIT和BLASTClust去除所述阳性样本S+和阴性样本S中截断阈值为0.35、覆盖率为90%序列长度的同源蛋白。
进一步地,所述步骤S3中设定e-value阈值为0.001和迭代次数10,通过PSI-BLAST生成相应的位置特异性得分矩阵。
进一步地,所述步骤S4具体包括:
S40、将位置特异性得分矩阵分割为n个子矩阵,前n-1个子矩阵有L/n行和20列,最后一个子矩阵有L-(n-1)*L/n行和20列,每个子矩阵保留了位置特异性得分矩阵中包含的进化信息,其中n≥1;
S41、计算每个子矩阵的局部位置特异性得分矩阵特征,前n-1个子矩阵通过合并进化信息计算出20个局部特征,最后一个子矩阵由前n-1个子矩阵的值计算得到。
进一步地,所述步骤S9具体包括:
S90、对步骤S4得到改进后的位置特异性得分矩阵进行有放回的抽样,得到多个样本集;
S91、从候选的特征中随机抽取m个特征作为当前节点下决策的备选特征,并在所述备选特征中选择划分训练样本特征,用每个样本集作为训练样本构造决策树,单个决策树在产生样本集和确定特征后,使用CART算法计算,不剪枝;
S92、在得到设定数目的决策树后,采用随机森林方法对所述决策树的输出进行投票,以得票最多的类作为随机森林的决策。
进一步地,所述步骤S90具体为每次从原来的n1个训练样本中有放回的随机抽取n2个样本。
进一步地,所述步骤S10具体包括:
S100、分别获取步骤S8的输出DNA结合蛋白的预测评分score1和步骤S9的决策结果DNA结合蛋白的预测评分score2
S110、按照不同的权重w1和w2计算最终的预测评分,计算公式如下:
scoreDBP=score1*w1+score2*w2
与现有技术相比,本发明的优点在于:本发明提供的一种基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,通过构建DNA结合蛋白的阳性样本和阴性样本,提高预测精度;其次通过卷积神经网络、双向长短时记忆网络以及随机森林模型,学习到DNA结合蛋白的空间序列信息和时间序列信息,改进PSSM矩阵,提高DNA结合蛋白的识别性能;最后,通过设置不同的权重,对神经网络和随机森林的模型进行加权,得到最终的预测评分,提高了预测的性能和准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法的流程图。
图2是本发明基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法的神经网络结构图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
参阅图1所示,本实施例公开了一种基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,包括以下步骤:
步骤S1、参数初始化,包括设置网络输入维度dim,网络序列长度l,卷积神经网络第一个卷积层的过滤器数量和大小设置为n1和size1,第二个卷积层的过滤器数量和大小设置为n2和size2,最大池化层的池化核大小为size3,设置双向长短时记忆网络的神经元数量为n3,设置全连接层的节点数量设置为n4,设置最终的DNA结合蛋白的预测评分为scoreDBP,神经网络预测结果为score1,随机森林预测结果为score2,神经网络预测结果所占的权重为w1,随机森林预测结果所占权重为w2
步骤S2、构建DNA结合蛋白序列信息。
具体的,该步骤具体包括:
步骤S20、从经过注释的蛋白质序列数据库Swiss-Prot中获得基因分类术语DNA-binding注释的蛋白质作为阳性样本S+
步骤S21、从经过注释的蛋白质序列数据库Swiss-Prot中收集与基因分类术语DNA-binding注释无关的蛋白质作为阴性样本S,为了保证阴性样本的质量,阴性样本S选择结构已知的蛋白质。
步骤S22、在阳性样本S+和阴性样本S中去除长度小于设定值(本实施例选为40)的蛋白质。
步骤S23、去除阳性样本S+和阴性样本S中截断阈值为第一设定值(0.35)、覆盖率为第二设定值(90%)序列长度的同源蛋白,本实施例采用CD-HIT和BLASTClust方法去除。
步骤S3、对于给定的蛋白质序列S,采用位置特异性得分矩阵(PSSM)表示蛋白质序列为S1S2...SL,其中,Si(1≤i≤L)表示出现在S中第i位的氨基酸,L为S的长度。
本实施例中,设定e-value阈值为0.001和迭代次数10,通过PSI-BLAST生成相应的位置特异性得分矩阵。
步骤S4、对位置特异性得分矩阵(PSSM)进行归一化,并将归一化后的矩阵分解为n个子矩阵,计算所有子矩阵的局部位置特异性得分矩阵特征,将蛋白质序列表示为特定维数的特征载体,得到改进后的位置特异性得分矩阵IMPPSSM={x|x=normalization(PSSM(i),0<i<n+1}。
具体的,本实施例中步骤S4具体包括:
步骤S40、将位置特异性得分矩阵分割为n个子矩阵,前n-1个子矩阵有L/n行和20列,最后一个子矩阵有L-(n-1)*L/n行和20列,每个子矩阵保留了位置特异性得分矩阵(PSSM)中包含的进化信息,其中n≥1。
步骤S41、计算每个子矩阵的局部位置特异性得分矩阵特征,前n-1个子矩阵通过合并进化信息计算出20个局部特征,最后一个子矩阵由前n-1个子矩阵的值计算得到。
步骤S5、将改进后的位置特异性得分矩阵(IMPPSSM)输入卷积神经网络,并顺序堆叠两个卷积层,上一层的输出作为下一层的输入,卷积层采用ReLU作为激活函数。
步骤S6、将卷积神经网络的输出结果输入至所述双向长短时记忆网络,并采用ReLU作为激活函数。
步骤S7、在双向长短时记忆网络之后,采用时间分布稠密层对不同存储单元生成的隐藏特征进行加权。
步骤S8、将稠密层的输出输入到Flatten层,并将结果变成一维数据,再输入到全连接层,得到输出,该输出的节点采用sigmoid作为激活函数。
步骤S9、将步骤S4得到的改进后的位置特异性得分矩阵输入随机森林模型,通过随机森林决策树得到对特定蛋白质序列的决策结果。
具体的,该步骤S9具体包括:
步骤S90、对步骤S4得到改进后的位置特异性得分矩阵进行有放回的抽样,得到多个样本集,具体为:具体为每次从原来的n1个训练样本中有放回的随机抽取n2个样本(包括可能重复样本)。
步骤S91、从候选的特征中随机抽取m个特征作为当前节点下决策的备选特征,并在所述备选特征中选择划分训练样本特征,用每个样本集作为训练样本构造决策树,单个决策树在产生样本集和确定特征后,使用CART算法计算,不剪枝;
步骤S92、在得到设定数目的决策树后,采用随机森林方法对所述决策树的输出进行投票,以得票最多的类作为随机森林的决策。
步骤S10、将步骤S8的输出和步骤S9的决策结果输入评分层,按照设定的权重进行最终的预测评分。
具体的,步骤S10具体包括:
步骤S100、分别获取步骤S8的输出DNA结合蛋白的预测评分score1和步骤S9的决策结果DNA结合蛋白的预测评分score2
步骤S110、按照不同的权重w1和w2计算最终的预测评分,计算公式如下:
scoreDBP=score1*w1+score2*w2
本发明通过构建DNA结合蛋白的阳性样本和阴性样本,提高预测精度;其次通过卷积神经网络、双向长短时记忆网络以及随机森林模型,学习到DNA结合蛋白的空间序列信息和时间序列信息,改进PSSM矩阵,提高DNA结合蛋白的识别性能;最后,通过设置不同的权重,对神经网络和随机森林的模型进行加权,得到最终的预测评分,提高了预测的性能和准确率。
虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。

Claims (9)

1.基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,其特征在于,包括以下步骤:
S1、参数初始化,包括设置网络输入维度dim,网络序列长度l,卷积神经网络第一个卷积层的过滤器数量和大小设置为n1和size1,第二个卷积层的过滤器数量和大小设置为n2和size2,最大池化层的池化核大小为size3,设置双向长短时记忆网络的神经元数量为n3,设置全连接层的节点数量设置为n4,设置最终的DNA结合蛋白的预测评分为scoreDBP,神经网络预测结果为score1,随机森林预测结果为score2,神经网络预测结果所占的权重为w1,随机森林预测结果所占权重为w2
S2、构建DNA结合蛋白序列信息;
S3、对于给定的蛋白质序列S,采用位置特异性得分矩阵表示蛋白质序列为S1S2...SL,其中,Si(1≤i≤L)表示出现在S中第i位的氨基酸,L为S的长度;
S4、对位置特异性得分矩阵进行归一化,并将归一化后的矩阵分解为n个子矩阵,计算所有子矩阵的局部位置特异性得分矩阵特征,将蛋白质序列表示为特定维数的特征载体,得到改进后的位置特异性得分矩阵;
S5、将改进后的位置特异性得分矩阵输入卷积神经网络,并顺序堆叠两个卷积层,上一层的输出作为下一层的输入,卷积层采用ReLU作为激活函数;
S6、将所述卷积神经网络的输出结果输入至所述双向长短时记忆网络,并采用ReLU作为激活函数;
S7、采用时间分布稠密层对不同存储单元生成的隐藏特征进行加权;
S8、将稠密层的输出输入到Flatten层,并将结果变成一维数据,再输入到全连接层,得到输出,该输出的节点采用sigmoid作为激活函数;
S9、将步骤S4得到的改进后的位置特异性得分矩阵输入随机森林模型,通过随机森林决策树得到对特定蛋白质序列的决策结果;
S10、将步骤S8的输出和步骤S9的决策结果输入评分层,按照设定的权重进行最终的预测评分。
2.根据权利要求1所述的基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,其特征在于,所述步骤S2具体包括:
S20、从经过注释的蛋白质序列数据库Swiss-Prot中获得基因分类术语DNA-binding注释的蛋白质作为阳性样本S+
S21、从经过注释的蛋白质序列数据库Swiss-Prot中收集与基因分类术语DNA-binding注释无关的蛋白质作为阴性样本S
S22、在所述阳性样本S+和阴性样本S中去除长度小于设定值的蛋白质;
S23、去除所述阳性样本S+和阴性样本S中截断阈值为第一设定值、覆盖率为第二设定值序列长度的同源蛋白。
3.根据权利要求2所述的基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,其特征在于,所述步骤S21中的阴性样本S选择结构已知的蛋白质。
4.根据权利要求2所述的基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,其特征在于,所述步骤S23具体采用CD-HIT和BLASTClust去除所述阳性样本S+和阴性样本S中截断阈值为0.35、覆盖率为90%序列长度的同源蛋白。
5.根据权利要求1所述的基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,所述步骤S3中设定e-value阈值为0.001和迭代次数10,通过PSI-BLAST生成相应的位置特异性得分矩阵。
6.根据权利要求1所述的基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,其特征在于,所述步骤S4具体包括:
S40、将位置特异性得分矩阵分割为n个子矩阵,前n-1个子矩阵有L/n行和20列,最后一个子矩阵有L-(n-1)*L/n行和20列,每个子矩阵保留了位置特异性得分矩阵中包含的进化信息,其中n≥1;
S41、计算每个子矩阵的局部位置特异性得分矩阵特征,前n-1个子矩阵通过合并进化信息计算出20个局部特征,最后一个子矩阵由前n-1个子矩阵的值计算得到。
7.根据权利要求1所述的基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,其特征在于,所述步骤S9具体包括:
S90、对步骤S4得到改进后的位置特异性得分矩阵进行有放回的抽样,得到多个样本集;
S91、从候选的特征中随机抽取m个特征作为当前节点下决策的备选特征,并在所述备选特征中选择划分训练样本特征,用每个样本集作为训练样本构造决策树,单个决策树在产生样本集和确定特征后,使用CART算法计算,不剪枝;
S92、在得到设定数目的决策树后,采用随机森林方法对所述决策树的输出进行投票,以得票最多的类作为随机森林的决策。
8.根据权利要求7所述的基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,其特征在于,所述步骤S90具体为每次从原来的n1个训练样本中有放回的随机抽取n2个样本。
9.根据权利要求1所述的基于改进蛋白质序列位置特异性矩阵的DNA结合蛋白识别方法,其特征在于,所述步骤S10具体包括:
S100、分别获取步骤S8的输出DNA结合蛋白的预测评分score1和步骤S9的决策结果DNA结合蛋白的预测评分score2
S110、按照不同的权重w1和w2计算最终的预测评分,计算公式如下:
scoreDBP=score1*w1+score2*w2
CN202210274125.8A 2022-03-20 2022-03-20 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 Active CN114512188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210274125.8A CN114512188B (zh) 2022-03-20 2022-03-20 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210274125.8A CN114512188B (zh) 2022-03-20 2022-03-20 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法

Publications (2)

Publication Number Publication Date
CN114512188A CN114512188A (zh) 2022-05-17
CN114512188B true CN114512188B (zh) 2024-04-05

Family

ID=81553408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210274125.8A Active CN114512188B (zh) 2022-03-20 2022-03-20 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法

Country Status (1)

Country Link
CN (1) CN114512188B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808975A (zh) * 2016-03-14 2016-07-27 南京理工大学 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法
CN111785321A (zh) * 2020-06-12 2020-10-16 浙江工业大学 一种基于深度卷积神经网络的dna绑定残基预测方法
CN112489723A (zh) * 2020-12-01 2021-03-12 南京理工大学 基于局部进化信息的dna结合蛋白预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3100607A1 (en) * 2018-05-23 2019-11-28 Envisagenics, Inc. Systems and methods for analysis of alternative splicing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808975A (zh) * 2016-03-14 2016-07-27 南京理工大学 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法
CN111785321A (zh) * 2020-06-12 2020-10-16 浙江工业大学 一种基于深度卷积神经网络的dna绑定残基预测方法
CN112489723A (zh) * 2020-12-01 2021-03-12 南京理工大学 基于局部进化信息的dna结合蛋白预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于特征融合的DNA-蛋白质结合位点预测;薛广富;;科学技术创新;20200605(第16期);全文 *

Also Published As

Publication number Publication date
CN114512188A (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Hesami et al. Machine learning: its challenges and opportunities in plant system biology
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN111933212A (zh) 一种基于机器学习的临床组学数据处理方法及装置
JP2024524795A (ja) グラフニューラルネットワークに基づく遺伝子表現型予測
CN112102899A (zh) 一种分子预测模型的构建方法和计算设备
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
Yu et al. SANPolyA: a deep learning method for identifying Poly (A) signals
CN114743600A (zh) 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法
Wang et al. A brief review of machine learning methods for RNA methylation sites prediction
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN114783526A (zh) 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法
Yan et al. A review about RNA–protein-binding sites prediction based on deep learning
Luo et al. A Caps-UBI model for protein ubiquitination site prediction
CN114512188B (zh) 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法
CN116705192A (zh) 基于深度学习的药物虚拟筛选方法及装置
WO2023148684A1 (en) Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
CN115691661A (zh) 一种基于图聚类的基因编码育种预测方法和装置
Durge et al. Heuristic analysis of genomic sequence processing models for high efficiency prediction: A statistical perspective
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法
Cheng et al. CapBind: Prediction of transcription factor binding sites based on capsule network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant