CN103810200B - 开放式蛋白质鉴定的数据库搜索方法及其*** - Google Patents
开放式蛋白质鉴定的数据库搜索方法及其*** Download PDFInfo
- Publication number
- CN103810200B CN103810200B CN201210451907.0A CN201210451907A CN103810200B CN 103810200 B CN103810200 B CN 103810200B CN 201210451907 A CN201210451907 A CN 201210451907A CN 103810200 B CN103810200 B CN 103810200B
- Authority
- CN
- China
- Prior art keywords
- protein
- sequence
- mass
- mass spectrogram
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明有关于一种开放式蛋白质鉴定的数据库搜索方法及其***,其中该方法包括:步骤1,输入蛋白质序列,模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表,并根据该肽序列数据表建立索引文件;步骤2,输入质谱图,对每张质谱图,提取谱峰生成查询集合,查询所述索引文件,得到序列集合;步骤3,对每张质谱图及其对应的序列集合,根据修饰组合,生成候选肽段并打分;步骤4,对打分结果进行整合,并进行肽段到蛋白质的推断,得到鉴定结果。本发明允许用户不指定酶切和修饰的类型,或指定其中的任意类型进行蛋白质鉴定,用于解决任意类型的酶切和修饰的鉴定问题。
Description
技术领域
本发明涉及生物信息领域,特别是涉及一种开放式蛋白质鉴定的数据库搜索方法及其***。
背景技术
蛋白质组学研究是指在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平、翻译后修饰研究以及蛋白质之间的互相作用等等。作为该领域的关键技术,生物质谱技术近年来发展十分迅速。利用质谱数据进行蛋白质的定性、定量分析,成为蛋白质组学研究的核心内容之一。其中,数据库搜索方法是蛋白质组学中质谱数据解析的主要方法。
蛋白质组数据的形成过程比较复杂。蛋白质受到生物酶的作用分解,形成的许多子片段叫做肽或肽段。为了让质谱仪检测到,就要通过酶切的方式,将比较长的蛋白质水解为较短的序列(肽)。根据酶的不同,酶切分为特异性酶切、半特异酶切和非特异酶切。此外,大多数蛋白质在翻译形成后,会在蛋白质中的某些氨基酸上增加某种功能团,或增加了其他的蛋白质或肽,或改变了氨基酸的化学性质或结构,这一过程被称为发生了化学修饰。不同的修饰可以发生在肽段或蛋白质的N末端(肽段合成的起始端,通常为字面上的左端)或C末端(肽段合成的终止端,通常为字面上的右端),或某些特定的氨基酸上。修饰可以改变氨基酸的化学性质,引起蛋白质结构的改变,扩充蛋白质的功能。很多蛋白质的重要生物活性都是在发生修饰之后才具有的。通常人们在使用数据库搜索软件时,会指定特异性酶切或半特异性酶切,以及几种常见的修饰类型进行蛋白质检索,这种搜索方式叫做限定式搜索。与之对应的非限定式搜索,或者说开放式搜索方式,则是在搜索过程中允许任意酶切和修饰类型。
目前的蛋白质鉴定软件运行速度大多较慢。在数据规模日趋增大的形势下,这一缺点体现得尤为明显。目前的质谱仪每秒钟可以产生10~20张质谱图,而蛋白质鉴定软件常规情况下每秒钟只能处理不到10张。如果考虑到翻译后修饰、酶切特异性等因素影响,那么搜索速度将会进一步大幅降低。例如,对于非特异性酶切方式,由于其巨大的时间和空间开销,当前的实际蛋白质鉴定中都会选择尽量避开这种鉴定;此外,目前的修饰数据库中约有1,000多种修饰,而目前的数据库搜索引擎大多无法同时支持如此多的修饰类型,更无法有效支持任意酶切与修饰类型的肽段的搜索。鉴定速度不高直接影响到对质谱数据的全面、细致分析。在目前的蛋白质组实验中,质谱仪产生的大部分质谱图不能有效解析,质谱图解析率只有10%到30%,一个重要原因就是肽序列的各种酶切方式均有可能存在,同时蛋白质中存在未知或未预料到的修饰,因而搜索引擎无法找到正确的候选肽,影响了后续的鉴定过程。因此,实现有效的开放式搜索方法,对蛋白质鉴定的速度和精度均有重要的意义。通过本发明提供的数据库搜索方法,可以使质谱图解析率达到60%-80%,大大超过现有水平。
发明内容
本发明的目的在于提供一种开放式蛋白质鉴定数据库搜索方法及其***,用于允许用户不指定酶切和修饰的类型,或指定其中的任意类型进行蛋白质鉴定,用于解决任意类型的酶切和修饰的鉴定问题。
为了实现上述目的,本发明提供一种开放式蛋白质鉴定的数据库搜索方法,其特征在于,包括:
步骤1,输入蛋白质序列,模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表,并根据该肽序列数据表建立索引文件;
步骤2,输入质谱图,对每张质谱图,提取谱峰生成查询集合,查询所述索引文件,得到序列集合;
步骤3,对每张质谱图及其对应的序列集合,根据修饰组合,生成候选肽段并打分;
步骤4,对打分结果进行整合,并进行肽段到蛋白质的推断,得到鉴定结果。
所述的方法,其中,所述步骤1中,包括:
步骤11,读取蛋白质数据库文件,获取蛋白质序列及名称;
步骤12,遍历蛋白质序列,按照非特异性酶切的方式模拟切分每条蛋白质序列为多个子序列;
步骤13,对每个质量值设定一个计数器并初始化为0,该计数器统计每个质量值对应的子序列数目;对每条子序列质量值对应的计数器加1;开辟一数组以存储所有的子序列;以及
步骤14,按照非特异性酶切的方式遍历蛋白质序列,将生成的每条子序列存储到数组中,以使数组中的所有元素按照质量升序排列,生成索引文件。
所述的方法,其中,所述步骤11中,包括:
当蛋白质数据库文件大于设置的单批次处理规模上限时,将该蛋白质数据库文件按照该单批次处理规模上限划分成多个子块,每一个子块对全部质谱图完成索引文件获取和查询,然后处理下一个子块,直到所有子块处理完毕。
所述的方法,其中,所述步骤2中,包括:
步骤21,读入质谱数据文件,获取质谱图,对每一张质谱图进行预处理,挑选谱峰;以及
步骤22,对每一张质谱图,基于挑选出的谱峰,生成查询集合,检索蛋白质数据库,进行第一次打分,存储分数较高的序列片段。
所述的方法,其中,所述步骤22中,包括:
对于每一个查询,根据质量值及对应的N端或C端,检索蛋白质数据库中的序列片段;
对于蛋白质数据库中的序列片段,包括N端片段和C端片段进行打分,分别存储分数较高的序列片段。
所述的方法,其中,所述步骤3中,包括:
步骤31,对序列片段进行判断,若该序列片段为N端片段,则对该序列片段的C端确认边界;否则对该序列片段的N端确认边界;
步骤32,计算所确认边界的肽段与质谱图的母离子的质量差,并将该质量差当作修饰质量查询修饰数据库;若存在合适的修饰,则生成修饰肽段;以及
步骤33,对质谱图与该修饰肽段进行打分。
所述的方法,其中,所述步骤33中,包括:
当蛋白质数据库文件大于设置的单批次处理规模上限时,将当前得到的质谱图、候选肽及打分信息输入中间文件。
所述的方法,其中,所述步骤4中,包括:
步骤41,收集所有质谱图对应的候选肽结果,进行候选肽的E-value值计算,并存储排名最高的结果;以及
步骤42,根据排名最高的结果,对每一个肽段查找其对应的蛋白质信息,生成鉴定结果。
为了实现上述目的,本发明提供一种开放式蛋白质鉴定的数据库搜索***,其特征在于,包括:
索引文件获取模块,用于输入蛋白质序列,模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表,并根据该肽序列数据表建立索引文件;
查询结果获取模块,连接索引文件获取模块,用于输入质谱图,对每张质谱图,提取谱峰生成查询集合,查询所述索引文件,得到序列集合;
候选肽段生成模块,连接查询结果获取模块,用于对每张质谱图及其对应的序列集合,根据修饰组合,生成候选肽段并打分;
鉴定结果获取模块,连接候选肽段生成模块,用于对打分结果进行整合,并进行肽段到蛋白质的推断,得到鉴定结果。
所述的***,其中,所述索引文件获取模块包括:
文件读取模块,用于读取蛋白质数据库文件,获取蛋白质序列及名称;
序列切分模块,连接文件读取模块,用于遍历蛋白质序列,并按照非特异性酶切的方式模拟切分每一条蛋白质序列为多个子序列,每条子序列满足指定质量值和长度的上下界限限制;
参数处理模块,连接序列切分模块,用于对每个质量值设定一个计数器并初始化为0,该计数器统计对每个质量值对应的子序列数目;对每个子序列,将其质量值对应的计数器加1;开辟一个数组以存储所有的子序列;以及
序列处理模块,连接文件读取模块和参数处理模块,用于按照非特异性酶切的方式遍历蛋白质序列;将生成的每条子序列存储到数组中,以使数组中的所有元素按照质量升序排列,生成索引文件。
所述的***,其中,所述文件读取模块,还用于当蛋白质数据库文件大于设置的单批次处理规模上限时,将该蛋白质数据库文件按照该单批次处理规模上限划分成多个子块,每一个子块对全部质谱图完成索引文件获取和查询,然后处理下一个子块,直到所有子块处理完毕。
所述的***,其中,所述查询结果获取模块包括:
预处理模块,用于读入质谱数据文件,获取质谱图,对每一张质谱图进行预处理,挑选一定数目的谱峰;以及
质谱图处理模块,用于对每一张质谱图,基于挑选出的谱峰,生成查询集合,检索蛋白质数据库,进行第一次打分,存储分数较高的序列片段。
所述的***,其中,所述质谱图处理模块,还用于对每一个查询,根据质量值及对应的N端或C端,检索蛋白质数据库中的序列片段;对于蛋白质数据库中的序列片段,包括N端片段和C端片段进行打分,分别存储分数较高的序列片段。
所述的***,其中,所述候选肽段生成模块包括:
边界确认模块,用于对序列片段进行判断,若该序列片段为N端片段,则对该序列片段的C端确认边界;否则对该序列片段的N端确认边界;
肽段处理模块,连接边界确认模块,用于将确定边界的肽段与质谱图的母离子的质量差作为可能的修饰质量,如果存在合适的修饰,则生成修饰肽段;以及
信息打分模块,连接肽段处理模块,用于将质谱图与该修饰肽段进行打分。
所述的***,其中,所述信息打分模块,还用于当蛋白质数据库文件大于设置的单批次处理规模上限时,将当前得到的质谱图、候选肽及打分信息输入中间文件。
所述的***,其中,所述鉴定结果获取模块包括:
计算排名模块,用于收集所有质谱图对应的候选肽结果,进行候选肽的E-value值计算,并存储排名最高结果;以及
结果生成模块,连接计算排名模块,用于对排名最高的结果,对每一个肽段查找其对应的蛋白质信息,生成鉴定结果。
与现有技术相比,本发明的有益技术效果是:
1)按照非特异酶切的方式组织数据库,生成索引文件,方便数据库检索。
2)将质谱图中的谱峰转化为查询集合,检索数据库索引,提高了检索速度。
3)有效地支持发生任意酶切及修饰类型的肽段的查询,提高数据库检索的规模,提高质谱图的解析率。
附图说明
图1为本发明的开放式蛋白质鉴定数据库搜索方法的流程图;
图2为本发明的开放式蛋白质鉴定数据库搜索***的结构图。
具体实施方式
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
如图1所示,为本发明的开放式蛋白质鉴定数据库搜索方法的流程图。该流程的具体步骤如下:
步骤101,设定必要的搜索参数。
步骤102,输入蛋白质序列,按照指定类型的酶切方式模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表。在此基础上建立索引文件。
步骤103,输入质谱图,对每张质谱图,提取一定数目的谱峰生成查询集合,然后查询步骤101中所述的索引文件,得到查询结果。该查询结果为序列片段,即相对可信的部分序列集合。
步骤104,对每张质谱图及其对应的查询结果,进行边界的确认,并考虑可能的修饰组合,生成最终的候选肽段并打分。
步骤105,对打分结果进行整合,并进行肽段到蛋白质的推断,最后将全部鉴定结果输出至文件。
上述步骤102中,包括:按照指定的文件路径,读取蛋白质序列及名称。按照质量值限制,对每一个质量设置一个计数器并初始化为0。按照指定的酶切类型(非特异性酶切的方式),将每条蛋白质序列切分成子序列,该计数器统计每个可能的质量值对应的子序列数目,同时对每条子序列质量对应的计数器值增加1。遍历完毕后,得到每一个质量值对应的子序列数目。开辟一个数组A,使之能够容纳所有子序列,然后再次将蛋白质序列按照指定的酶切类型生成子序列,并按照计数器的值,将子序列存储到A的相应位置。这样,所有子序列被按照质量由小到大排序。然后,生成索引文件,存储每个质量值m对应的A中第一个质量值大于或等于m的元素下标。
每条子序列满足指定质量值和长度的上下界限限制。每个子序列都会有一个质量值,比如100,128,356等等。“每个可能的质量值”是指满足限制,比如从200到10000之间所有的值。计数器的作用是统计每种质量值对应的子序列数目。
上述步骤102中,若蛋白质数据库文件大于限定的单批次处理规模上限,则将此文件按照处理规模上限划分成若干子块,每一个子块完成步骤103和104,然后处理下一个子块,直到所有子块处理完毕。最后进行步骤105。
上述步骤103中,包括:
步骤1031,读入质谱数据文件,获取质谱图,并对每一张质谱图进行预处理,挑选一定数目的谱峰。
步骤1032,对每一张质谱图,基于挑选出的谱峰,生成查询集合。
步骤1033,检索蛋白质数据库,进行第一次打分,存储分数较高的若干序列片段。
上述步骤1031,包括:按照参数中指定的质谱图路径读入质谱图,对于每张质谱图进行预处理,去除同位素峰、噪音峰、中性丢失峰等干扰谱峰,然后在其中挑选指定数目的最高的k个谱峰。
上述步骤1032中,包括:对于每个谱峰,生成若干个查询,包括:1)谱峰对应为肽段N端部分时的质量值;2)谱峰对应为肽段C端部分时的质量值;3)互补谱峰对应为肽段N端部分时的质量值;4)互补谱峰对应为肽段C端部分时的质量值。最后,对于这张质谱图,将所有谱峰生成的所有查询组成一个统一的查询集合。
上述步骤1033中,包括:建立两个数组SN和SC,分别存放N端子序列片段起始位置计数,以及C端子序列片段终止位置计数。两个数组的大小均为蛋白质序列的总长度。对于步骤1032生成的查询集合中的每个查询q,其质量值为m,按照指定的参数,计算其质量的下界m1和上界m2,按照步骤102中生成的索引文件,查询到质量值在m1与m2中的所有子序列集合。
如果该查询q对应了肽段的N端部分,则将数组SN中,对应到其所有子序列的起始位置,计数加1;否则,则将数组SC中,对应到其所有子序列的起始位置,计数加1。
分别遍历两个数组,并从中取出k个计数较高的值及其对应的位置,作为查询到的候选结果集合。
上述步骤104中,包括:
步骤1041,对步骤103生成的片段,如果其为N端片段,则对其C端确认边界;否则对其N端确认边界。
步骤1042,对确定边界的肽段,计算其与质谱图的母离子的质量差,并将该质量差当作修饰质量查询修饰数据库。如果存在合适的修饰,则生成修饰肽段。
步骤1043,对质谱图与该修饰肽段进行打分,并保存排名前n的肽段信息。
上述步骤1041中,包括:对步骤103生成的片段,如果其为N端片段,则枚举其所有可能的C端边界,这种可能受到预先指定的母离子差值d的限制,使得当前N端与C端之间形成的肽段的质量与母离子的质量差的绝对值不超过d;如果该片段为C端片段,则同样枚举其所有可能的N端边界。这样可以生成所有的满足条件的肽段,它们的N端和C端均为确定的。
上述步骤1042中,包括:步骤1041中确定边界的肽段,将它与质谱图的母离子的质量差作为可能的修饰质量,查询指定的修饰类型数据库;如果存在合适的修饰,即修饰的质量与上述质量差的差值不超过给定的误差值,则寻找该修饰在肽段上所有可能的发生位置,将其加入肽段,生成修饰肽段。
上述步骤1043中,包括:对于每个修饰肽段,将当前处理的质谱图与该修饰肽段进行肽-谱匹配打分。在这个过程中,随时保存打分最高的前n个肽段的信息。
上述步骤105中,包括:对于每个质谱图及其对应的候选肽段,根据它们的匹配分值计算E-value值,并把所有结果输出到一个指定位置的文本文件中。
E-value的计算方法:随机生成一定数量(比如5000)个肽段,与质谱图进行打分,将所有分值进行背景分布的拟合。然后,计算每个候选肽段结果的分数在上述背景分布中的位置,计算该分数发生的p-value值。然后将该p-value值乘以质谱图的候选肽段数目,得到e-value值。
上述步骤105中,包括:若蛋白质数据库文件大于限定的单批次处理规模上限,则先对每一个子块的鉴定结果进行合并,比如,数据库被分成了e个子块,对于每张谱S,它在每个数据库子块内均得到n个候选肽段,则先要合并这en个结果,并取出整体上打分最高的n个结果,再进行步骤105的操作。
如图2所示,为本发明的开放式蛋白质鉴定数据库搜索***的结构图。该***200为与图1所述开放式蛋白质鉴定数据库搜索方法对应的结构图,图1所述的方法内容同样适应于图2,该***200包括:索引文件获取模块10、查询结果获取模块20、候选肽段生成模块30。
索引文件获取模块10,用于输入蛋白质序列,按照指定类型的酶切方式模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表。在此基础上建立索引文件。
查询结果获取模块20,连接索引文件获取模块10,用于输入质谱图,对每张质谱图,提取一定数目的谱峰生成查询集合,然后查询索引文件,得到相对可信的部分序列集合。
候选肽段生成模块30,连接查询结果获取模块20,用于对每张质谱图及其对应的查询结果,考虑可能的修饰组合,生成最终的候选肽段并打分。
鉴定结果获取模块40,连接候选肽段生成模块30,用于对结果进行整合,并进行肽段到蛋白质的推断,最后将全部鉴定结果输出至文件。
进一步地,上述索引文件获取模块10,包括:
文件读取模块11,用于读取蛋白质数据库文件,将蛋白质序列及名称读入内存。
序列切分模块12,连接文件读取模块11,用于遍历蛋白质序列,并按照非特异性酶切的方式模拟切分每一条蛋白质序列为若干子序列。每条子序列满足指定质量值和长度的上下界限限制。
参数处理模块13,连接序列切分模块12,用于对每个质量值,设定一个计数器并初始化为0。这些计数器将对每个可能的质量值统计其相应的子序列数目;对于每个序列,将其质量值对应的计数器加1;开辟一个数组A,用于存储所有的子序列。
序列处理模块14,连接文件读取模块11和参数处理模块13,用于再次按照非特异性酶切的方式遍历蛋白质序列;将生成的每条子序列存储到数组A中的适当位置,保证最终生成A中的所有元素按照质量升序排列,生成索引文件。
进一步地,上述查询结果获取模块20,包括:
预处理模块21,用于读入质谱数据文件,并对每一张质谱图进行预处理,挑选一定数目的谱峰。
质谱图处理模块22,用于对每一张质谱图,基于挑选出的谱峰,生成查询集合,检索蛋白质数据库,进行第一次打分,存储分数较高的若干序列片段。
进一步地,上述预处理模块21,还用于对每一张质谱图进行预处理时,去掉同位素谱峰、噪音谱峰、中性丢失峰等不相关的谱峰。
进一步地,上述预处理模块21,还用于对不相关的谱峰,按照设定的参数值,挑选一定数目的谱峰。
进一步地,上述质谱图处理模块22,还用于对于每张质谱图,基于生成的每一根谱峰,生成若干个查询,包括:1)谱峰对应为肽段N端部分时的质量值;2)谱峰对应为肽段C端部分时的质量值;3)互补谱峰对应为肽段N端部分时的质量值;4)互补谱峰对应为肽段C端部分时的质量值。
进一步地,上述质谱图处理模块22,还用于对于每一个查询,根据其质量值及对应的N端或C端,检索数据库中的合适的序列片段。
进一步地,上述质谱图处理模块22,还用于对于数据库中的序列片段,包括N端片段和C端片段进行打分,分别存储分数较高的若干片段。
进一步地,上述候选肽段生成模块30,包括:
边界确认模块31,用于对生成的片段,如果其为N端片段,则对其C端确认边界;否则对其N端确认边界。
肽段处理模块32,连接边界确认模块31,用于对确定边界的肽段,将它与质谱图的母离子的质量差作为可能的修饰质量,如果存在合适的修饰,则生成修饰肽段。
信息打分模块33,连接肽段处理模块32,用于将质谱图与该修饰肽段进行打分。
进一步地,上述文件读取模块11,还用于当蛋白质数据库文件大于限定的单批次处理规模上限时,将此文件按照处理规模上限划分成若干子块,每一个子块对全部质谱图完成索引文件获取和查询,然后处理下一个子块,直到所有子块处理完毕。
进一步地,上述信息打分模块33,还用于当蛋白质数据库文件大于限定的单批次处理规模上限时,将当前得到的质谱图、候选肽及打分等结果信息输入中间文件。
进一步地,上述鉴定结果获取模块40,包括:
计算排名模块41,用于收集所有质谱图对应的候选肽结果,进行候选肽的E-value值计算,并存储排名最高的若干结果。
结果生成模块42,连接计算排名模块41,用于对排名最高的若干结果,对每一个肽段查找其对应的蛋白质信息,生成最终的结果文件。
下面结合一具体实施例对本发明的技术方案作进一步详细的描述:
(1).本方法用于常规的质谱数据鉴定,需要首先给出一些必要的搜索参数,例如:
a)数据库文件,即蛋白质的列表,包含一些待检索的蛋白质名称及序列信息。
b)串联谱图文件,包括多张串联质谱图(也叫二级质谱图)。通常,一次实验有数千到数百万规模不等。每张质谱图一般对应一个肽段,即由一个肽段碎裂形成的。质谱图记载了肽段的母离子,也就是肽段本身的质量信息,同时,也包括它在质谱仪里经过碎裂形成的所有离子的质荷比及离子强度信息。
c)输入、输出的路径,线程数目等程序运行时需要的必备信息。
(2).蛋白质需要进行理论酶切,形成若干子序列。例如,对于蛋白质序列AEHVAEADK,每个字母代表一个氨基酸,它可以形成45个子序列,每个子序列有质量和位置信息。
(3).对所有蛋白形成的所有子序列按质量进行排序,并存储到一个大的肽序列数据表中。目的是给定一个质量,以及具体的误差范围,找到所有符合这个质量范围的子序列。例如,氨基酸A、E、H、V、D、K的质量分别是71,129,137,99,115和128;如果给定一个质量200,误差范围为[-1,1],那么质量在[199,201]范围内的子序列有:AE(蛋白质中第一个位置)、AE(蛋白质中的第五个位置)与EA(蛋白质中的第六个位置)。由于片段都排好序了,所以是容易查找到符合质量要求的片段的。进一步,创建质量到位置的索引,即存储所有可能的质量值;对每一个可能的质量值,将其关联到肽序列数据表中,第一个比它大或者和它相等的片段的位置上。
(4).对于给定的每一个质谱图,其中有数百个谱峰。根据同位素峰信息、强度信息等,提取出一定数目的谱峰,一般为10–30个,生成查询集合。
(5).查询集合的形成,一般是把每个谱峰生成四个不同的查询。具体如下:对于一个谱峰,它的离子类型未知,可能是N端的碎片,也可能是C端的碎片。如果有一个肽段AEHVK,它碎裂形成质谱图S。那么对于质谱图S中的某个谱峰,它可能是该肽段碎裂后的N端部分,例如AEH,也可能是C端部分,如VK。在肽段鉴定出之前,是不清楚谱峰的具体身份的。所以,假想它为两种可能:如果它是N端的碎片,那么按照N端碎裂的规则,计算它碎裂前对应的质量(碎裂后形成的离子与不带电的中性片段质量之间有固定的差值,不同的离子不同);C端亦然。
(6).同时,由于母离子信息的存在,可以得到下面的查询:假定某个谱峰是N端碎片,同时又知道母离子即整个肽段的质量,那么,就把母离子减去这个碎片的值,当作可能的一个C端碎片去查询。例如AEHVK碎裂形成的谱图。其中AEH形成了一个谱峰。那么,可以根据这个谱峰推算出VK的质量,尽管VK这个片段有可能没有在谱图中形成谱峰(由于肽段性质、测量误差等,会有这种情况)。这样查询会更完善。这样做对于修饰肽段的检索有很大好处。比如,AEH上面可能存在某种修饰,不清楚其质量。但是用母离子减去它的质量时,得到的是另一端的质量,它有可能是不含修饰的,也就是说,是真正的VK的质量。
(7).同理,对于C端碎片也是如此。这样就有了上述4个查询。每个查询包括质量,同时也有对应的质量误差范围,以及它是N端还是C端的修饰。质量误差范围一般是事先指定好的参数,它与质谱仪的性能密切相关。
(8).利用所有的查询去检索(3)中的索引,对于N端的查询检索到的所有子序列,统计它们对应到的N端位置的出现频率;对于C端的查询,统计C端位置的出现频率。这样,对于蛋白中的每个位置,可以得到每个位置对应多少个查询。将对应查询比较多的位置(N端和C端分别来看)提取出来,作为可能的候选肽段出现的位置,进行后续处理。
(9).对于每个提取出的位置,也就是中间的结果,以N端位置为例,它代表了一个可能的肽段,以当前位置为N端,但是C端还不确定。此时枚举所有可能的C端。由于母离子限制,比如母离子是1000,而不允许母离子的差值超过300,那么就把所有的使得肽段N和C端质量差在[700,1300]之间的片段拿出来,作为备选的肽段。
(10).对于每一个备选的肽段,它和母离子的质量差值作为一个可能的修饰值,到修饰数据库中进行检索,判断有无质量一致的修饰。把所有这样的修饰拿出来,加到该肽段上(一个修饰一般只发生在特定的位置,如NC端;或者特定的氨基酸,如C、K上。这里只考虑修饰的所有合法位置)。这时候生成的肽段叫做修饰肽段。
(11).将该谱图与每一个修饰肽段打分。将打分最高的一些修饰肽段保留下来,作为最终结果输出。
本发明提供了一种开放式蛋白质鉴定的数据库搜索方法及其***,可允许用户不指定酶切和修饰的类型,或指定其中的任意类型进行蛋白质鉴定,用于解决任意类型的酶切和修饰的鉴定问题。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (11)
1.一种开放式蛋白质鉴定的数据库搜索方法,其特征在于,包括:
步骤1,输入蛋白质序列,模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表,并根据该肽序列数据表建立索引文件;
步骤2,输入质谱图,对每张质谱图,提取谱峰生成查询集合,查询所述索引文件,得到序列集合;
步骤3,对每张质谱图及其对应的序列集合,根据修饰组合,生成候选肽段并打分;
步骤4,对打分结果进行整合,并进行肽段到蛋白质的推断,得到鉴定结果;
所述步骤1中,包括:
步骤11,读取蛋白质数据库文件,获取蛋白质序列及名称;
步骤12,遍历蛋白质序列,按照非特异性酶切的方式模拟切分每条蛋白质序列为多个子序列;
步骤13,对每个质量值设定一个计数器并初始化为0,该计数器统计每个质量值对应的子序列数目;对每条子序列质量值对应的计数器加1;开辟一数组以存储所有的子序列;以及
步骤14,按照非特异性酶切的方式遍历蛋白质序列,将生成的每条子序列存储到数组中,以使数组中的所有元素按照质量升序排列,生成索引文件;
所述步骤2中,包括:
步骤21,读入质谱数据文件,获取质谱图,对每一张质谱图进行预处理,挑选谱峰;以及
步骤22,对每一张质谱图,基于挑选出的谱峰,生成查询集合,检索蛋白质数据库,进行第一次打分,存储分数较高的序列片段;
所述步骤22中,包括:
对于每一个查询,根据质量值及对应的N端或C端,检索蛋白质数据库中的序列片段;
对于蛋白质数据库中的序列片段,包括N端片段和C端片段进行打分,分别存储分数较高的序列片段。
2.根据权利要求1所述的方法,其特征在于,所述步骤11中,包括:
当蛋白质数据库文件大于设置的单批次处理规模上限时,将该蛋白质数据库文件按照该单批次处理规模上限划分成多个子块,每一个子块对全部质谱图完成索引文件获取和查询,然后处理下一个子块,直到所有子块处理完毕。
3.根据权利要求1所述的方法,其特征在于,所述步骤3中,包括:
步骤31,对序列片段进行判断,若该序列片段为N端片段,则对该序列片段的C端确认边界;否则对该序列片段的N端确认边界;
步骤32,计算所确认边界的肽段与质谱图的母离子的质量差,并将该质量差当作修饰质量查询修饰数据库;若存在合适的修饰,则生成修饰肽段;以及
步骤33,对质谱图与该修饰肽段进行打分。
4.根据权利要求3所述的方法,其特征在于,所述步骤33中,包括:
当蛋白质数据库文件大于设置的单批次处理规模上限时,将当前得到的质谱图、候选肽及打分信息输入中间文件。
5.根据权利要求1、2、3或4所述的方法,其特征在于,所述步骤4中,包括:
步骤41,收集所有质谱图对应的候选肽结果,进行候选肽的E-value值计算,并存储排名最高的结果;以及
步骤42,根据排名最高的结果,对每一个肽段查找其对应的蛋白质信息,生成鉴定结果。
6.一种开放式蛋白质鉴定的数据库搜索***,其特征在于,包括:
索引文件获取模块,用于输入蛋白质序列,模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表,并根据该肽序列数据表建立索引文件;
查询结果获取模块,连接索引文件获取模块,用于输入质谱图,对每张质谱图,提取谱峰生成查询集合,查询所述索引文件,得到序列集合;
候选肽段生成模块,连接查询结果获取模块,用于对每张质谱图及其对应的序列集合,根据修饰组合,生成候选肽段并打分;
鉴定结果获取模块,连接候选肽段生成模块,用于对打分结果进行整合,并进行肽段到蛋白质的推断,得到鉴定结果;
所述查询结果获取模块包括:
预处理模块,用于读入质谱数据文件,获取质谱图,对每一张质谱图进行预处理,挑选一定数目的谱峰;以及
质谱图处理模块,用于对每一张质谱图,基于挑选出的谱峰,生成查询集合,检索蛋白质数据库,进行第一次打分,存储分数较高的序列片段;
所述质谱图处理模块,还用于对每一个查询,根据质量值及对应的N端或C端,检索蛋白质数据库中的序列片段;对于蛋白质数据库中的序列片段,包括N端片段和C端片段进行打分,分别存储分数较高的序列片段。
7.根据权利要求6所述的***,其特征在于,所述索引文件获取模块包括:
文件读取模块,用于读取蛋白质数据库文件,获取蛋白质序列及名称;
序列切分模块,连接文件读取模块,用于遍历蛋白质序列,并按照非特异性酶切的方式模拟切分每一条蛋白质序列为多个子序列,每条子序列满足指定质量值和长度的上下界限限制;
参数处理模块,连接序列切分模块,用于对每个质量值设定一个计数器并初始化为0,该计数器统计对每个质量值对应的子序列数目;对每个子序列,将其质量值对应的计数器加1;开辟一个数组以存储所有的子序列;以及
序列处理模块,连接文件读取模块和参数处理模块,用于按照非特异性酶切的方式遍历蛋白质序列;将生成的每条子序列存储到数组中,以使数组中的所有元素按照质量升序排列,生成索引文件。
8.根据权利要求7所述的***,其特征在于,所述文件读取模块,还用于当蛋白质数据库文件大于设置的单批次处理规模上限时,将该蛋白质数据库文件按照该单批次处理规模上限划分成多个子块,每一个子块对全部质谱图完成索引文件获取和查询,然后处理下一个子块,直到所有子块处理完毕。
9.根据权利要求6、7或8所述的***,其特征在于,所述候选肽段生成模块包括:
边界确认模块,用于对序列片段进行判断,若该序列片段为N端片段,则对该序列片段的C端确认边界;否则对该序列片段的N端确认边界;
肽段处理模块,连接边界确认模块,用于将确定边界的肽段与质谱图的母离子的质量差作为可能的修饰质量,如果存在合适的修饰,则生成修饰肽段;以及
信息打分模块,连接肽段处理模块,用于将质谱图与该修饰肽段进行打分。
10.根据权利要求9所述的***,其特征在于,所述信息打分模块,还用于当蛋白质数据库文件大于设置的单批次处理规模上限时,将当前得到的质谱图、候选肽及打分信息输入中间文件。
11.根据权利要求6、7、8或10所述的***,其特征在于,所述鉴定结果获取模块包括:
计算排名模块,用于收集所有质谱图对应的候选肽结果,进行候选肽的E-value值计算,并存储排名最高结果;以及
结果生成模块,连接计算排名模块,用于对排名最高的结果,对每一个肽段查找其对应的蛋白质信息,生成鉴定结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210451907.0A CN103810200B (zh) | 2012-11-12 | 2012-11-12 | 开放式蛋白质鉴定的数据库搜索方法及其*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210451907.0A CN103810200B (zh) | 2012-11-12 | 2012-11-12 | 开放式蛋白质鉴定的数据库搜索方法及其*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103810200A CN103810200A (zh) | 2014-05-21 |
CN103810200B true CN103810200B (zh) | 2016-03-30 |
Family
ID=50706983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210451907.0A Active CN103810200B (zh) | 2012-11-12 | 2012-11-12 | 开放式蛋白质鉴定的数据库搜索方法及其*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103810200B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104950000B (zh) * | 2014-03-27 | 2017-09-22 | 丹东东方测控技术股份有限公司 | 一种适用于中子活化元素分析的峰位置相近能谱寻找方法 |
CN104134015B (zh) * | 2014-07-25 | 2017-05-03 | 中国科学院计算技术研究所 | 一种蛋白质翻译后修饰的定位方法及*** |
CN104182658B (zh) * | 2014-08-06 | 2017-05-03 | 中国科学院计算技术研究所 | 一种串联质谱谱图鉴定方法 |
CN105117620B (zh) * | 2015-07-27 | 2018-03-02 | 清华大学深圳研究生院 | 蛋白质组数据库及其应用 |
CN110277136A (zh) * | 2019-07-05 | 2019-09-24 | 湖南大学 | 蛋白质序列数据库并行搜索鉴定方法与装置 |
CN111243679B (zh) * | 2020-01-15 | 2023-03-31 | 重庆邮电大学 | 微生物群落物种多样性数据的存储检索方法 |
CN111524549B (zh) * | 2020-03-31 | 2023-04-25 | 中国科学院计算技术研究所 | 一种基于离子索引的整体蛋白质鉴定方法 |
CN112185460B (zh) * | 2020-09-23 | 2022-07-08 | 谱度众合(武汉)生命科技有限公司 | 一种异构数据不依赖型蛋白质组学质谱分析***及方法 |
CN114694743A (zh) * | 2020-12-11 | 2022-07-01 | 深圳吉诺因生物科技有限公司 | 基于表位保守性的免疫多肽组鉴定方法 |
WO2024000077A1 (en) * | 2022-06-30 | 2024-01-04 | Yyz Pharmatech Inc. | Systems and methods for identifying peptides |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042377A (zh) * | 2006-03-20 | 2007-09-26 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种用于含组氨酸肽段富集与测序的方法和试剂盒 |
CN101714187A (zh) * | 2008-10-07 | 2010-05-26 | 中国科学院计算技术研究所 | 一种规模化蛋白质鉴定中的索引加速方法及相应的*** |
CN102411679A (zh) * | 2010-09-26 | 2012-04-11 | 中国科学院计算技术研究所 | 一种蛋白质鉴定的大规模分布式并行加速方法及其*** |
CN102411680A (zh) * | 2010-09-26 | 2012-04-11 | 中国科学院计算技术研究所 | 一种蛋白质鉴定的大规模分布式并行加速方法及其*** |
CN102411666A (zh) * | 2010-09-26 | 2012-04-11 | 中国科学院计算技术研究所 | 一种蛋白质鉴定的大规模分布式并行加速方法及其*** |
-
2012
- 2012-11-12 CN CN201210451907.0A patent/CN103810200B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042377A (zh) * | 2006-03-20 | 2007-09-26 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种用于含组氨酸肽段富集与测序的方法和试剂盒 |
CN101714187A (zh) * | 2008-10-07 | 2010-05-26 | 中国科学院计算技术研究所 | 一种规模化蛋白质鉴定中的索引加速方法及相应的*** |
CN102411679A (zh) * | 2010-09-26 | 2012-04-11 | 中国科学院计算技术研究所 | 一种蛋白质鉴定的大规模分布式并行加速方法及其*** |
CN102411680A (zh) * | 2010-09-26 | 2012-04-11 | 中国科学院计算技术研究所 | 一种蛋白质鉴定的大规模分布式并行加速方法及其*** |
CN102411666A (zh) * | 2010-09-26 | 2012-04-11 | 中国科学院计算技术研究所 | 一种蛋白质鉴定的大规模分布式并行加速方法及其*** |
Also Published As
Publication number | Publication date |
---|---|
CN103810200A (zh) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103810200B (zh) | 开放式蛋白质鉴定的数据库搜索方法及其*** | |
CN102495127B (zh) | 一种基于概率统计模型的蛋白质二级质谱鉴定方法 | |
CN101871945B (zh) | 一种利用质谱图库鉴定蛋白质及其修饰的方法 | |
CN110277136A (zh) | 蛋白质序列数据库并行搜索鉴定方法与装置 | |
CN104076115B (zh) | 基于峰强度识别能力的蛋白质二级质谱鉴定方法 | |
CN106841494B (zh) | 基于uplc‑qtof的植物差异性代谢物快速筛选方法 | |
Song et al. | Assessment and refinement of sample preparation methods for deep and quantitative plant proteome profiling | |
Yu et al. | Maximizing the sensitivity and reliability of peptide identification in large‐scale proteomic experiments by harnessing multiple search engines | |
CN110838340A (zh) | 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 | |
O'Bryon et al. | Flying blind, or just flying under the radar? The underappreciated power of de novo methods of mass spectrometric peptide identification | |
CN104034792A (zh) | 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法 | |
CN104182658B (zh) | 一种串联质谱谱图鉴定方法 | |
Evangelista et al. | Assessing support for Blaberoidea phylogeny suggests optimal locus quality | |
Ahrné et al. | An improved method for the construction of decoy peptide MS/MS spectra suitable for the accurate estimation of false discovery rates | |
CN104215729B (zh) | 串联质谱数据母离子检测模型训练方法及母离子检测方法 | |
CN107578210A (zh) | 合同审批流程的自动化测试方法及装置 | |
CN106021474B (zh) | 一种确定smiles表达式之间是否具有子结构关系的方法 | |
CN108920898A (zh) | 一种快速分析真核生物蛋白质基因组学数据的方法 | |
CN111709775A (zh) | 一种房产价格评估方法、装置、电子设备及存储介质 | |
CN109710240A (zh) | 流程图分解方法及*** | |
CN104536877A (zh) | 一种基于混合策略的测试数据生成方法 | |
CN110349621B (zh) | 肽段-谱图匹配可信度检验方法、***、存储介质及装置 | |
CN103678950B (zh) | 一种开放式蛋白质鉴定的分布式加速方法及其*** | |
Yan et al. | NovoHCD: de novo peptide sequencing from HCD spectra | |
KR101311412B1 (ko) | 당 동정을 위한 새로운 생물정보처리 분석 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |