CN106872554B - 基于模糊判别和逻辑推理的蛋白酶解液的分析方法 - Google Patents
基于模糊判别和逻辑推理的蛋白酶解液的分析方法 Download PDFInfo
- Publication number
- CN106872554B CN106872554B CN201510919595.5A CN201510919595A CN106872554B CN 106872554 B CN106872554 B CN 106872554B CN 201510919595 A CN201510919595 A CN 201510919595A CN 106872554 B CN106872554 B CN 106872554B
- Authority
- CN
- China
- Prior art keywords
- ion
- peptide fragment
- spectrogram
- peptide
- fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6848—Methods of protein analysis involving mass spectrometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2570/00—Omics, e.g. proteomics, glycomics or lipidomics; Methods of analysis focusing on the entire complement of classes of biological molecules or subsets thereof, i.e. focusing on proteomes, glycomes or lipidomes
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Urology & Nephrology (AREA)
- Immunology (AREA)
- Biomedical Technology (AREA)
- Hematology (AREA)
- Cell Biology (AREA)
- Medicinal Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Microbiology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Food Science & Technology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种基于模糊判别和逻辑推理的蛋白酶解液的分析方法。本发明涉及一种基于模糊判别和逻辑推理的肽段‑二级质谱(MS/MS)图匹配分析方法。该算法以Logistics函数来模拟人对谱图质量的模糊判断,以矩阵内积计算方案实现人对肽段序列的逻辑推导。经过Null‑test测试,该算法与现有算法/软件(Mascot、Morpheus、Pfind、MaxQuant)比较,发现本发明的算法能通过Null‑test,智能性比对照方法要高。该算法并不使用常规的离子空间来描述质谱数据匹配情况,使用的是肽段信息空间进行与质谱谱图的匹配运算。
Description
技术领域
本发明为蛋白质组学中判断候选肽段与二级质谱(MS/MS)图匹配程度的打分分析方法,用以对具体蛋白质序列库中所有候选肽段与实验从蛋白酶解液中采集的MS/MS谱图进行匹配打分,最终判别酶解液中存在哪些肽段。
背景技术
目前,Shotgun方案是蛋白质组学研究从复杂体系中大量鉴定存在的蛋白质的重要方法。Shotgun策略通过将研究体系中的蛋白经蛋白酶水解之后,获得肽段,再从目标蛋白库进行匹配打分。打分算法的性能,决定了鉴定结果可靠程度。已有的打分算法或者基于概率模型,或者基于肽段的离子空间,或者有更为复杂的评价策略,经过人工甄别,会发现已有算法的鉴定结果假阳性依然偏高,会在根源上影响蛋白质组学的研究结果。本发明从模拟人工解析谱图的角度出发,开发出模拟人类模糊判断与逻辑推理的新打分算法,以达到人工解谱的稳健性与可靠性。
发明内容
为避免使用人工方法对几万个打分结果进行一一甄别优劣,测试比较方案使用Null-test方案。Null-test通过随机策略构造含有上万个随机序列蛋白的目标蛋白库,通过基于反库的Target-Decoy方案进行搜库匹配。在设定FDR(False Discovery Rate)为20%的情况下,如果算法鉴定到的肽段为0或者1个,则算法能通过Null-test测试,性能稳健,具有一定的智能性;如果算法鉴定到的肽段大于1个,则说明算法在区分两个同为随机库的同性质序列库(随机库的反库依然为随机库),算法过拟合,假阳性结果比较高。
技术方案:
基于模糊判别和逻辑推理的蛋白酶解液的分析方法,
依据Shotgun Proteomics的要求,将蛋白酶解液进行二级质谱(MS/MS)分析,获大于或者等于一张的MS/MS二级质谱图;对已有的目标蛋白数据库(Target数据库)中所有的蛋白序列进行反序得到Decoy数据库,将两个数据库中的蛋白序列按照上述蛋白酶解液的获得过程进行模拟酶切,获得候选的肽段序列库;对于具体的一张MS/MS质谱图,按照设定的质量误差0-50ppm,根据母离子的质量数从肽段序列库中筛选出候选的若干个肽段,如果筛选得到的肽段数目为0,则该MS/MS质谱图无效;如果筛选得到的肽段数目大于等于1为有效质谱图,则按照下述的打分方法计算肽段于二级质谱图的得分,得分最高的肽段为这张质谱图的最佳匹配肽段;对其它MS/MS质谱图进行上述打分操作,把所有的最佳“肽段-质谱图”匹配结果按照得分从大到小排列,预设FDR(False Discover Rate)值为0-5%,则能够计算出得分的截断值,则大于该得值的Target数据库的肽段就存在于蛋白酶解液中;
在肽段鉴定过程中通过一级质谱母离子确定其于蛋白序列数据库中对应质量下的候选肽段序列S,对S与二级质谱的匹配程度进行打分;
打分过程如下:
1)计算MS/MS二级谱图的肽段离子碎片有效比率指标u,处理无同位素标记谱图时:u=(与候选肽段匹配的肽段离子碎片峰强度信号总和)/(当前谱图峰强度信号总和);或,处理有同位素标记谱图时:u=(与候选肽段匹配的有效标记肽段离子碎片峰强度信号总和)/(当前谱图有效标记峰强度信号总和),通过Logistics公式1转换为模拟人对谱图质量的模糊评价指标w;
2)将序列S中的离子碎片所包含的序列信息进行编码,默认方式为:记肽段长度为n,n为大于等于2的正整数,肽段序列按照从氨基端(N端)到羧基端(C端)由上到下排列,并且与下文列向量对应;
肽段b离子编码方式为:如果存在b1离子,b1离子对应规格n*1的列向量,第一位为1,其余位置为0;如果存在b2离子,b2离子则第一到第二位为1,其余位置为0;如此类推,如果存在bn-1离子,bn-1离子则对应长度为n的列向量中的第一位到n-1位中全为1,剩下位置为0;
对y离子编码的方式为:如果存在y-1离子,y1离子对应长度为n的列向量中的最后一位为1,其余位置为0;如果存在y2离子,y2离子对应长度为n的列向量中最后一位到倒数第二为1,其余位置为0;如此类推,如果存在yn-1离子,yn-1离子对应长度为n的列向量的最后一位到第2位为1,其余位置为0;
其余类型的N端离子按b离子编码方式编码,其余C端离子按y离子编码的方式进行编码;最终沿着行向将上述得到的列向量合并成信息表达矩阵C;
3)按公式2对信息表达矩阵C进行矩阵内积计算,获得信息表达矩阵X;内积计算实现了同一离子自证存在、同端(例如C端)长离子证明短离子存在、a-y、b-y等不同端(C端、N端)离子握手证明等逻辑推理功能;
4)对X矩阵中所有元素进行求和再除以肽段长度n,则能得到肽段表达的校验信息总和;并且以p表示质谱图中互补离子的对数,代表互补信息的量,p为大于等于0的正整数;最终,将校验信息总和与互补信息的量的加和后再与模糊判别指标w相乘,则得到本算法的对候选肽段S与MS/MS谱图匹配的得分score(公式3);
所述的内积计算功能包括三个逻辑推理功能:同一离子自我证明、同端长离子证明同端短离子存在、不同端离子握手证明。
该算法以Logistics函数来模拟人对谱图质量的模糊判断,以矩阵内积计算方案实现人对肽段序列的逻辑推导。经过Null-test测试,该算法与现有算法/软件(Mascot、Morpheus、Pfind、MaxQuant)比较,发现本发明的算法能通过Null-test,智能性比对照方法要高。该算法并不使用常规的离子空间来描述质谱数据匹配情况,使用的是肽段信息空间进行与质谱谱图的匹配运算。
本发明具有如下优点:
1.本发明能通过Null-test,结果较优,算法本身具有一定的智能。
2.本发明使用的是肽段信息编码方案,并不使用传统的离子空间方案。
本发明能判别出大量的错误匹配结果(得分为0),具有较强的分辨能力。
附公式说明:
公式1为将谱图质量指标转换成模糊评价的Logistics公式。
公式2为矩阵内积运算。
公式3为本发明的打分函数完整形式。
公式1
X=CTC
公式2
公式3
附图说明
图1为肽段信息的编码方案。
图2为通过矩阵内积实现的三种逻辑推理方案。
具体实施方式
下面通过实施例对本发明提供的方法进行详述,但不以任何形式限制本发明。
实施例1:
使用Thermo Scientific Q Exactive质谱采集到的人类肝癌细胞酶解液数据对打分算法进行验证。该数据中包含77979张二级质谱图。在一级谱容差为10ppm、二级谱容差为20ppm、FDR设定为1%的条件下,本发明的打分分析方法能鉴定到14909个PSM(Peptide-Spectrum Match),8813条唯一肽段,1752个蛋白。同类型软件,Morpheus鉴定到14903个PSM,9038条唯一肽段,1880个蛋白;Mascot鉴定到16648个PSM,10247个唯一肽段,1975个蛋白。本发明中的方法性能与现阶段软件相当。
图1演示了其中一个长度为6,并且a、b、y离子都被质谱采集到的肽段编码方式。图2,则演示了长度为6的肽段中,通过矩阵内积实现的同一离子自证存在、同端(例如C端)长离子证明短离子存在、a-y、b-y等不同端(C端、N端)离子握手证明等逻辑推理功能。
实施例2:
使用Null-test方案,随机生成序列长度在100~1000的随机蛋白,一共12000个蛋白,构成Null库与它对应的反库,设置FDR为20%。本发明的算法在上述Null库中与条件下匹配到1条肽段,通过Null-test测试。Mascot匹配到2条肽段,不能通过Null-test测试;Morpheus和Pfind分别匹配到6条肽段,不能通过Null-test测试;MaxQuant匹配到33条肽段,同样不能通过Null-test测试。由此证明,本专利发明算法确实具有智能,并且结果更加可靠、稳健。
Claims (2)
1.基于模糊评价和逻辑推理的蛋白酶解液的分析方法,是基于模糊评价和逻辑推理的分析蛋白酶解液中肽段-二级质谱(MS/MS)图匹配关系的方法,其特征在于:
依据Shotgun Proteomics的要求,将蛋白酶解液进行二级质谱(MS/MS)分析,获大于或者等于一张的MS/MS二级质谱图;对已有的目标蛋白数据库(Target数据库)中所有的蛋白序列进行反序得到Decoy数据库,将两个数据库中的蛋白序列按照上述蛋白酶解液的获得过程进行模拟酶切,获得候选的肽段序列库;对于具体的一张MS/MS质谱图,按照设定的质量误差0-50ppm,根据母离子的质量数从肽段序列库中筛选出候选的若干个肽段,如果筛选得到的肽段数目为0,则该MS/MS质谱图无效;如果筛选得到的肽段数目大于等于1为有效质谱图,则按照下述的打分方法计算肽段于二级质谱图的得分,得分最高的肽段为这张质谱图的最佳匹配肽段;对其它MS/MS质谱图进行打分操作,把所有的最佳“肽段-质谱图”匹配结果按照得分从大到小排列,预设FDR(False Discover Rate)值为0-5%,则能够计算出得分的截断值,则大于该截断值的Target数据库的肽段就存在于蛋白酶解液中;
所述的打分方法是针对通过一级质谱母离子确定其于蛋白序列数据库中对应质量下的候选肽段序列S,对S与二级质谱的匹配程度进行打分;包括计算模糊评价指标w,生成信息表达矩阵C,对信息表达矩阵C进行矩阵内积计算获得信息表达矩阵X,将校验信息总和与互补信息的量p加和后再与模糊评价指标w相乘得到最终得分score;
所述的计算模糊评价指标w的方案为:计算MS/MS二级谱图的肽段离子碎片有效信号比率指标u,处理无同位素标记谱图时:u=(与候选肽段匹配的肽段离子碎片峰强度信号总和)/(当前谱图峰强度信号总和);或,处理有同位素标记谱图时:u=(与候选肽段匹配的有效标记肽段离子碎片峰强度信号总和)/(当前谱图有效标记峰强度信号总和),通过Logistics公式1转换为模拟人对谱图质量的模糊评价指标w;
公式1;
所述的生成信息表达矩阵C过程为:将序列S中的离子碎片所包含的序列信息进行编码,默认方式为:记肽段长度为n,n为大于等于2的正整数,肽段序列按照从氨基端(N端)到羧基端(C端)由上到下排列,并且与下文列向量对应;
肽段b离子编码方式为:如果存在b1离子,b1离子对应规格n*1的列向量,第一位为1,其余位置为0;如果存在b2离子,b2离子则第一到第二位为1,其余位置为0;如此类推,如果存在bn-1离子, bn-1离子则对应长度为n的列向量中的第一位到n-1位中全为1,剩下位置为0;
对y离子编码的方式为:如果存在y1离子,y1离子对应长度为n的列向量中的最后一位为1,其余位置为0;如果存在y2离子,y2离子对应长度为n的列向量中最后一位到倒数第二位为1,其余位置为0;如此类推,如果存在yn-1离子,yn-1离子对应长度为n的列向量的最后一位到第2位为1,其余位置为0;
其余类型的N端离子按b离子编码方式编码,其余C端离子按y离子编码的方式进行编码;最终沿着行向将上述得到的列向量合并成信息表达矩阵C;
所述的信息表达矩阵X的计算方法为:按公式2对信息表达矩阵C进行矩阵内积计算,获得信息表达矩阵X;
公式2;
所述的最终得分score的计算方法为:对X矩阵中所有元素进行求和再除以肽段长度n,则能得到肽段表达的校验信息总和;并且以p表示质谱图中互补离子的对数,代表互补信息的量,p为大于等于0的正整数;最终,将校验信息总和与互补信息的量的加和后再与模糊评价指标w相乘,则得到本算法的对候选肽段S与MS/MS谱图匹配的得分score;
公式3。
2.按照权利要求1所述的分析方法,其特征在于:所述的内积计算功能包括三个逻辑推理功能:同一离子自我证明、同端长离子证明同端短离子存在、不同端离子握手证明。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510919595.5A CN106872554B (zh) | 2015-12-13 | 2015-12-13 | 基于模糊判别和逻辑推理的蛋白酶解液的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510919595.5A CN106872554B (zh) | 2015-12-13 | 2015-12-13 | 基于模糊判别和逻辑推理的蛋白酶解液的分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106872554A CN106872554A (zh) | 2017-06-20 |
CN106872554B true CN106872554B (zh) | 2019-06-11 |
Family
ID=59177269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510919595.5A Active CN106872554B (zh) | 2015-12-13 | 2015-12-13 | 基于模糊判别和逻辑推理的蛋白酶解液的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106872554B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103245714A (zh) * | 2013-03-25 | 2013-08-14 | 暨南大学 | 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法 |
CN103852513A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算技术研究所 | 一种基于hcd与etd质谱图的肽段从头测序方法及*** |
CN104034792A (zh) * | 2014-06-26 | 2014-09-10 | 云南民族大学 | 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法 |
-
2015
- 2015-12-13 CN CN201510919595.5A patent/CN106872554B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103852513A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算技术研究所 | 一种基于hcd与etd质谱图的肽段从头测序方法及*** |
CN103245714A (zh) * | 2013-03-25 | 2013-08-14 | 暨南大学 | 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法 |
CN104034792A (zh) * | 2014-06-26 | 2014-09-10 | 云南民族大学 | 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法 |
Non-Patent Citations (2)
Title |
---|
A Bayesian Approach to Protein Inference Problem in Shotgun Proteomics;YONG FUGA LI 等;《JOURNAL OF COMPUTATIONAL BIOLOGY》;20091231;全文 * |
Protein Analysis by Shotgun/Bottom-up Proteomics;Yaoyang Zhang 等;《chemical reviews》;20131231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN106872554A (zh) | 2017-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lemer et al. | Protein structure prediction by threading methods: evaluation of current techniques | |
CN102495127B (zh) | 一种基于概率统计模型的蛋白质二级质谱鉴定方法 | |
Colak et al. | Automated McIntosh-based classification of sunspot groups using MDI images | |
CN109902018B (zh) | 一种智能驾驶***测试案例的获取方法 | |
CN108629326A (zh) | 目标体的动作行为识别方法及装置 | |
CN105527359B (zh) | 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法 | |
CN105740790B (zh) | 基于多核字典学习的彩色人脸识别方法 | |
Harvey et al. | Phylogenetic extinction rates and comparative methodology | |
Wang et al. | Radial basis function neural network ensemble for predicting protein-protein interaction sites in heterocomplexes | |
Peters et al. | Why is the biological hydrophobicity scale more accurate than earlier experimental hydrophobicity scales? | |
Yilmaz et al. | Sequence-to-sequence translation from mass spectra to peptides with a transformer model | |
CN113762417A (zh) | 基于深度迁移的对hla抗原呈递预测***的增强方法 | |
CN115312118A (zh) | 一种基于图神经网络的单序列蛋白质接触图预测方法 | |
Heinze-Deml et al. | Think before you act: A simple baseline for compositional generalization | |
CN106872554B (zh) | 基于模糊判别和逻辑推理的蛋白酶解液的分析方法 | |
Polewski et al. | Free Shape Context descriptors optimized with genetic algorithm for the detection of dead tree trunks in ALS point clouds | |
Jessen et al. | Extractin information from two‐dimensional electrophoresis gels by partial least squares regression | |
CN108805280A (zh) | 一种图像检索的方法和装置 | |
CN102509029A (zh) | 人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法 | |
CN109508582A (zh) | 遥感影像的识别方法及装置 | |
Fang et al. | Application of genetic algorithm (GA) trained artificial neural network to identify tomatoes with physiological diseases | |
CN107729719B (zh) | 一种从头测序方法 | |
CN1769891A (zh) | 一种使用串联质谱数据鉴定肽的方法 | |
CN106650284B (zh) | 一种疾病康复评价*** | |
CN115620818A (zh) | 一种基于自然语言处理的蛋白质质谱肽段验证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |