CN106845149A - 一种新的基于基因本体信息的蛋白质序列表示方法 - Google Patents

一种新的基于基因本体信息的蛋白质序列表示方法 Download PDF

Info

Publication number
CN106845149A
CN106845149A CN201710071092.6A CN201710071092A CN106845149A CN 106845149 A CN106845149 A CN 106845149A CN 201710071092 A CN201710071092 A CN 201710071092A CN 106845149 A CN106845149 A CN 106845149A
Authority
CN
China
Prior art keywords
protein
information
gene ontology
label
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710071092.6A
Other languages
English (en)
Other versions
CN106845149B (zh
Inventor
肖绚
程翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai simudi Medical Information Technology Co.,Ltd.
Original Assignee
Jingdezhen Ceramic Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdezhen Ceramic Institute filed Critical Jingdezhen Ceramic Institute
Priority to CN201710071092.6A priority Critical patent/CN106845149B/zh
Publication of CN106845149A publication Critical patent/CN106845149A/zh
Application granted granted Critical
Publication of CN106845149B publication Critical patent/CN106845149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种新的基于基因本体信息的蛋白质序列表示方法,首先使用BLAST程序搜索Swiss‑Prot数据库找到蛋白质序列P所有的相似蛋白质序列,将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息;然后在基因本体库中搜寻P蛋白质所具有的标注基因本体信息;根据预测问题具有的M个标签,将P蛋白质定义为M个元素的离散向量。本方法通过将序列集中的蛋白质GO信息,融合成新的蛋白质P的向量描述,使得采用GO方法维度大大降低,用于蛋白质亚细胞多标签定位预测和抗菌肽功能多标签预测中,能明显提高相关预测器的预测成功率,具有广阔的运用前景。

Description

一种新的基于基因本体信息的蛋白质序列表示方法
技术领域
本发明涉及生物信息学、蛋白质伪氨基酸成分和传统的蛋白质序列分析技术领域,尤其涉及一种新的基于基因本体信息的蛋白质序列表示方法。
背景技术
随着近二十年来测序技术的进步,生物信息学进入到后基因组时代。如何分析数以亿计的基因组序列,如蛋白质工作于哪些亚细胞、具有何种功能、具有什么样的二级结构、三级结构和四级结构,这些基因又是如何使生命体具有活性,哪些蛋白质可能是潜在的药物靶标等一系列的问题的答案,是当前研究的热点。
由于上述问题采用生物实验技术存在费时费力的原因,生物信息学近年得到了极大发展,一系列在线预测器面世。虽然这些预测器所预测的结果还需要生物实验进行验证,但预测的结果对生物学家还是具有很大的帮助,如缩小实验的范围,对基因药物设计进行辅助作用等。
这些预测器有些是基于序列信息的,有些是基于结构信息,还有些是基于最新的测序信息。基于序列信息的预测器的预测效果一般比基于结构信息的低,但其所需信息大都存在所以得到极大的发展。在基于序列信息的预测器中大都采用伪氨基酸成分来描述蛋白质序列,这些伪氨基酸成分如:二联体成分、三联体成分、灰色理论因子、复杂度因子等有的能很好的描述蛋白质序列局部氨基酸顺序信息,有的能很好的描述蛋白质序列的全局氨基酸顺序信息,对基于序列的蛋白质结构和功能分类预测都起到了积极作用。
近年随着基因本体论的出现,它已经成为生物信息领域中一个极为重要的方法和工具,极大的加深了我们对生物数据的整合和利用。采用基因本体(Go Ontology)信息对蛋白质结构和功能进行预测比其它方法如功能域和伪氨基酸成分预测效果都要好。基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个方面:1)细胞组分;2)分子功能;3)生物过程。基因本体库中所含有的术语也从几千增加到5万多。基因本体是一个有向无环图型的本体,目前GO中使用了is_a、part_of和regulates三种关系。基于基因本体信息进行相关预测的方法中常用的是采用0-1离散向量法,蛋白质序列如果含有每个基因本体则这个向量对应的元素为1,如果没有则为0。这种方法仅仅是简单的计算了有无信息,有些学者对此进行了改进,计算出某个蛋白质中具体基因本体出现的次数,这样就将0-1离散向量改为整数向量,增加了频次信息。上述这些方法由于基因本体库中的词汇的增加,会造成维数灾难。为此有些学者针对所预测问题与基因本体的相关性,并不采用所有基因本体所有的词库,而是采用部分,这样就减少了离散向量的维度,去掉了些无关信息。
除了采用离散向量方法,还有基于基因本体的语义相似度算法,主要包括基因本体同一分支中的术语相似度计算法和基因本体跨分支术语相似度算法,这些对基因功能分析、比较和预测等生物学研究热门领域具有非常重要的意义。但由于基因本体术语的急剧增加,这些算法的复杂度和计算时间也增加。
上述方法都是基于对基因本体进行简单的求和统计或者进行相似性计算,但由于并不是所有的蛋白质在GO数据库中都有相关的信息,这是基于GO信息方法的缺陷,为此本发明将GO信息与其他相似蛋白质GO信息相融合,并针对所预测问题的分类数量,降低GO描述向量方法的维度,设计出一种新的基于GO信息的蛋白质序列描述方法对基于序列信息的蛋白质功能和结构类型预测等提供帮助。
发明内容
本发明要解决的技术问题是提供一种新的基于基因本体信息的蛋白质序列表示方法,旨在通过其他蛋白质GO信息,融合成新的蛋白质P的向量描述,以解决蛋白质亚细胞对标签定位预测率较低的问题。
为解决以上技术问题,本发明的技术方案是:一种新的基于基因本体信息的蛋白质序列表示方法,其特征在于包括以下步骤:
(1)使用BLAST程序搜索Swiss-Prot数据库找到蛋白质序列P所有的相似蛋白质序列;
(2)将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息,GO数据库网站为http://www.geneontology.org/;
(3)在基因本体库中搜寻P蛋白质所具有的标注基因本体信息,如果P蛋白质没有相关信息,则按照与P蛋白质相似度的高低,依次搜寻相似蛋白质序列的GO信息,直到找到至少一个GO本体信息作为P蛋白质的GO信息,表示为
(4)假设P蛋白质功能或者其它预测问题具有M个标签,分别表示为A1,A2,…,AM,将P蛋白质定义为M个元素的离散向量,如下式所示:
δ1表示P蛋白质属于第一个标签的概率,δ2表示P蛋白质属于第二个标签的概率,依次类推,δM表示P蛋白质属于第M个标签的概率,它们初始值都为0;
δi(i=1,2,…,M)的计算方法如下:
依次对P蛋白质所含有GO信息在训练数据集中找到对应的蛋白质,如在训练集中有n个蛋白质含有信息的蛋白质,分别为P1、P2、…、Pn,假设P1所属的标签为Ai和Aj,则δi和δj分别加1,P2具有标签为Ar、At、Ay,则δr、δt、δy分别加1,直至将P蛋白质所具有的GO信息按照上述方法计算完毕,这样就得到了含有GO信息的蛋白质描述新方法。
所述方法用于蛋白质亚细胞多标签定位预测中,相关预测器预测绝对成功率提高5~10%。
本发明提出的方法与现有GO信息方法相比,具有维数大大降低,现有方法维数达到上万,而采用本方法,维数与所预测的标签数一样,一般也就几十维,如果所预测的蛋白质没有GO信息,则采用其最相似的蛋白质GO信息,扩大了GO信息方法使用的范围。本方法用于蛋白质亚细胞多标签定位预测和抗菌肽功能多标签预测中,能明显提高相关预测器的预测成功率,具有广阔的运用前景。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,此处例子为预测动物蛋白质亚细胞多标签预测算法。
采用本发明新的基于基因本体信息的蛋白质序列表示方法,具体步骤如下:
1)使用BLAST程序搜索Swiss-Prot数据库找到蛋白质序列P所有的相似蛋白质序列。
可以将蛋白质P直接输入到Swiss-Prot数据库BLAST工具网页上,其网址为http://www.uniprot.org/blast/,BLAST运行参数为默认,也可以在NCBI上下载BLAST进行本地配置,本机配置版本:blast-2.2.28+,在蛋白质数据库Swiss-Prot中下载所有蛋白质序列;如输入蛋白质Q63564,可以得到按照相似度高低排列的一系列相似蛋白质Q8BG39、A0A091DVS5、HOVBF0…。
2)将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息,GO数据库网站为http://www.geneontology.org/;
如蛋白质Q63564具有的GO信息为(GO: 0001669, GO: 0016021,GO:0022857,GO:0030054,GO:0030672,GO:0043195,GO:0055085)。
(3)在基因本体库中搜寻P蛋白质所具有的标注基因本体信息,如果P蛋白质没有相关信息,则按照与P蛋白质相似度的高低,依次搜寻相似蛋白质序列的GO信息,直到找到至少一个GO本体信息作为P蛋白质的GO信息,表示为
由于Q63564在数据库中已经有其基因本体信息,如果其没有可以按照第一步得到的相似度高的序列顺序,依次寻找Q8BG39、A0A091DVS5、HOVBF0…这些序列的基因本体信息作为Q63564序列的本体信息。
(4)现有数据库中动物蛋白质亚细胞多标签预测中,亚细胞为20种,P蛋白质亚细胞定位具有20个标签,分别表示为A1,A2,…,A20,将P蛋白质定义为20个元素的离散向量,如下式所示:
δ1表示P蛋白质属于第一个标签的概率,δ2表示P蛋白质属于第二个标签的概率,依次类推,δ20表示P蛋白质属于第20个标签的概率,它们初始值都为0;
δi(i=1,2,…,20)的计算方法如下:
依次对P蛋白质Q63564所含有GO信息(GO: 0001669, GO: 0016021,GO:0022857,GO:0030054,GO:0030672,GO:0043195,GO:0055085 )在训练数据集中找到含有这些GO信息的蛋白质,如在训练集中含有基因本体GO:0001669的蛋白质为Q29108、Q32PB3、Q6AXZ6、Q29016、Q63053、A0JN61、P79136、Q63053、P79136、Q29016、Q6AXZ6、Q32PB3、Q29108、Q63053,分别为P1、P2、…、P14,P1Q29108所属的标签为1,则δ1加1,P2Q32PB3具有的标签为1、2和18,所以δ1、δ2和δ18分别加1,P3Q6AXZ6具有标签为1,则δ1加1,P4Q29016具有标签1,则δ1加1,P5Q63053具有标签2、5、6、7、9、18、20,则,δ2、δ5、δ6、δ7、δ9、δ18、δ20分别加1,P6A0JN61具有的标签为2和18,则δ2和δ18加1,直至将P蛋白质Q63564所具有的GO信息按照上述方法计算完毕,这样就得到了含有GO信息的蛋白质Q63564描述新方法。
所述方法用于蛋白质亚细胞多标签定位预测中,相关预测器预测绝对成功率提高8%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种新的基于基因本体信息的蛋白质序列表示方法,其特征在于包括以下步骤:
(1)使用BLAST程序搜索Swiss-Prot数据库找到蛋白质序列P所有的相似蛋白质序列;
(2)将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息,GO数据库网站为http://www.geneontology.org/;
(3)在基因本体库中搜寻P蛋白质所具有的标注基因本体信息,如果P蛋白质没有相关信息,则按照与P蛋白质相似度的高低,依次搜寻相似蛋白质序列的GO信息,直到找到至少一个GO本体信息作为P蛋白质的GO信息,表示为
(4)假设P蛋白质功能或者其它预测问题具有M个标签,分别表示为A1,A2,…,AM,将P蛋白质定义为M个元素的离散向量,如下式所示:
δ1表示P蛋白质属于第一个标签的概率,δ2表示P蛋白质属于第二个标签的概率,依次类推,δM表示P蛋白质属于第M个标签的概率,它们初始值都为0;
δi(i=1,2,…,M)的计算方法如下:
依次对P蛋白质所含有GO信息在训练数据集中找到对应的蛋白质,如在训练集中有n个蛋白质含有信息的蛋白质,分别为P1、P2、…、Pn,假设P1所属的标签为Ai和Aj,则δi和δj分别加1,P2具有标签为Ar、At、Ay,则δr、δt、δy分别加1,直至将P蛋白质所具有的GO信息按照上述方法计算完毕,这样就得到了含有GO信息的蛋白质描述新方法。
2.根据权利要求1所述的基于基因本体信息的蛋白质序列表示方法,其特征在于:所述方法用于蛋白质亚细胞多标签定位预测中,相关预测器预测绝对成功率提高5~10%。
CN201710071092.6A 2017-02-09 2017-02-09 一种基于基因本体信息的蛋白质序列表示方法 Active CN106845149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710071092.6A CN106845149B (zh) 2017-02-09 2017-02-09 一种基于基因本体信息的蛋白质序列表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710071092.6A CN106845149B (zh) 2017-02-09 2017-02-09 一种基于基因本体信息的蛋白质序列表示方法

Publications (2)

Publication Number Publication Date
CN106845149A true CN106845149A (zh) 2017-06-13
CN106845149B CN106845149B (zh) 2019-04-09

Family

ID=59122266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710071092.6A Active CN106845149B (zh) 2017-02-09 2017-02-09 一种基于基因本体信息的蛋白质序列表示方法

Country Status (1)

Country Link
CN (1) CN106845149B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091874A (zh) * 2019-12-20 2020-05-01 东软集团股份有限公司 蛋白质特征构建方法、装置、设备、存储介质及程序产品
CN112201300A (zh) * 2020-10-23 2021-01-08 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046103A (zh) * 2015-07-03 2015-11-11 景德镇陶瓷学院 一种新的融合遗传信息的蛋白质序列表示方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046103A (zh) * 2015-07-03 2015-11-11 景德镇陶瓷学院 一种新的融合遗传信息的蛋白质序列表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XUAN XIAO ET AL: "A Multi-Label Classifier for Predicting the Subcellular Localization of Gram-Negative Bacterial Proteins with Both Single and Multiple Sites", 《PLOS ONE》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091874A (zh) * 2019-12-20 2020-05-01 东软集团股份有限公司 蛋白质特征构建方法、装置、设备、存储介质及程序产品
CN111091874B (zh) * 2019-12-20 2024-01-19 东软集团股份有限公司 蛋白质特征构建方法、装置、设备、存储介质及程序产品
CN112201300A (zh) * 2020-10-23 2021-01-08 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN112201300B (zh) * 2020-10-23 2022-05-13 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
CN115565607B (zh) * 2022-10-20 2024-02-23 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备

Also Published As

Publication number Publication date
CN106845149B (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
Charoenkwan et al. BERT4Bitter: a bidirectional encoder representations from transformers (BERT)-based model for improving the prediction of bitter peptides
Rawi et al. PaRSnIP: sequence-based protein solubility prediction using gradient boosting machine
Ahmad et al. Deep-AntiFP: Prediction of antifungal peptides using distanct multi-informative features incorporating with deep neural networks
Woerner et al. Forensic human identification with targeted microbiome markers using nearest neighbor classification
Naseer et al. Sequence-based identification of arginine amidation sites in proteins using deep representations of proteins and PseAAC
Johnson et al. LAmbDA: label ambiguous domain adaptation dataset integration reduces batch effects and improves subtype detection
CN111401534B (zh) 一种蛋白质性能预测方法、装置和计算设备
US20100153400A1 (en) Systems and methods for rational selection of context sequences and sequence templates
CN106845149A (zh) 一种新的基于基因本体信息的蛋白质序列表示方法
Alonso-Alemany et al. Further steps in TANGO: improved taxonomic assignment in metagenomics
Wang et al. Incorporating deep learning with word embedding to identify plant ubiquitylation sites
Hussain sAMP-PFPDeep: Improving accuracy of short antimicrobial peptides prediction using three different sequence encodings and deep neural networks
Liu et al. Predicting the multi-label protein subcellular localization through multi-information fusion and MLSI dimensionality reduction based on MLFE classifier
US20240087674A1 (en) Function guided in silico protein design
Zhang et al. FocusNet: Classifying better by focusing on confusing classes
Hu et al. Drugormerdti: Drug graphormer for drug–target interaction prediction
Richard et al. ChatNT: A Multimodal Conversational Agent for DNA, RNA and Protein Tasks
Wang et al. Motif discovery via convolutional networks with K-mer embedding
Pavan-Kumar et al. Molecular phylogeny of elasmobranchs
Zomaya Algorithmic and artificial intelligence methods for protein bioinformatics
Hu et al. Improving Protein-Protein Interaction Prediction Using Protein Language Model and Protein Network Features
Chen et al. The role and future prospects of artificial intelligence algorithms in peptide drug development
Zimmermann Backbone dihedral angle prediction
Trivodaliev et al. Deep Learning the Protein Function in Protein Interaction Networks
Kazm et al. Transformer Encoder with Protein Language Model for Protein Secondary Structure Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210818

Address after: 200000 room jt2132, floor 2, building 39, No. 52, Chengliu Road, Jiading District, Shanghai

Patentee after: Shanghai simudi Medical Information Technology Co.,Ltd.

Address before: 333001 Tao Yang South Road, new Pearl River plant, Jingdezhen, Jiangxi 27

Patentee before: JINGDEZHEN CERAMIC INSTITUTE

TR01 Transfer of patent right