WO2011000991A1 - Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas - Google Patents

Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas Download PDF

Info

Publication number
WO2011000991A1
WO2011000991A1 PCT/ES2010/070445 ES2010070445W WO2011000991A1 WO 2011000991 A1 WO2011000991 A1 WO 2011000991A1 ES 2010070445 W ES2010070445 W ES 2010070445W WO 2011000991 A1 WO2011000991 A1 WO 2011000991A1
Authority
WO
WIPO (PCT)
Prior art keywords
meta
engines
engine
peptide
scores
Prior art date
Application number
PCT/ES2010/070445
Other languages
English (en)
French (fr)
Inventor
Juan Pablo ALBAR RAMÍREZ
Antonio RAMOS FERNÁNDEZ
Original Assignee
Consejo Superior De Investigaciones Científicas
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior De Investigaciones Científicas filed Critical Consejo Superior De Investigaciones Científicas
Priority to US13/381,438 priority Critical patent/US9354236B2/en
Priority to DK10793643.7T priority patent/DK2450815T3/da
Priority to ES10793643T priority patent/ES2432677T3/es
Priority to EP10793643.7A priority patent/EP2450815B1/en
Publication of WO2011000991A1 publication Critical patent/WO2011000991A1/es

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention falls within the field of large-scale protein identification and structural characterization methods by mass spectrometry techniques.
  • Proteomics is one of the sciences of the post-genomic era that has a greater impact on modern biotechnology, since it includes the identification and quantification of large amounts of proteins in extremely complex matrices (biological fluids, tissues or cell cultures, among others) .
  • MS / MS tandem mass spectrometry
  • the present invention comprises a combined search method using multiple engines (defined hereinafter as meta-search) oriented to the solution of this inconvenience, as well as to the optimization of the spectral analysis techniques obtained by MS / MS.
  • This method also provides a generalized scoring criterion (which we define as meta-scoring) of the results obtained by the different database engines used, through a sufficiently robust statistical modeling that allows obtaining a unique spectrum-peptide assignment.
  • Another application of this field of the technique is the implementation of the search methods in peptide and protein analysis devices that combine both hardware and software, and are sold autonomously as "plug-and-play" workstations or as servers that allow to be used simultaneously by multiple users.
  • An example of this type of devices would be the Sorcerer 2 workstation, marketed by the company Sage-N Research, Inc., or the configurable server distributed in a joint way with M BM and Thermo Electron Corporation. Said devices also do not integrate, to date, the simultaneous use of several engines through a meta-search method.
  • the meta-search method and its meta-scoring system add additional information that cannot be obtained by searching with a single engine.
  • concordance parameters defined as the number of other search engines that have provided the same candidate peptide as a given engine.
  • concordance parameters are not contemplated in the method proposed in Reference [4], losing a valuable part of the information due to its absence, which contributes significantly to the increase in the number of identified peptides.
  • the claimed method is flexible enough to incorporate other sources of additional information to the motor concordance, such as filtering by means of the mass error of the precursor ion of the sequence (defined as the difference between the theoretical mass of a Peptide ion and the measurement of the mass obtained by the spectrometer, either using its molecular mass or its mass / charge ratio, m / Z), the error in retention time (defined as the characteristic retention time during separation chromatographic), the prediction error of the isoelectric point (similar to the previous factor, when the peptides are fractionated using isoelectric focusing techniques), the ionic mobility (in the mass spectrometers that incorporate this type of analysis, based on the ionic accumulation of chemical species under the action of an electric field), the specificity of the enzymatic digestion used (ie d ie, the characteristics of protein segmentation depending on the type
  • the present invention is based on a meta-search method using the spectrum-peptide assignment results obtained in different search engines on hybrid target / decoy databases, which contain a 1: 1 ratio of real proteins to false proteins. Said false proteins are usually obtained by inverting the sequence of each of the real proteins.
  • the method Results analysis in each of the engines studied separately is performed using the technique developed by Ramos-Fernández et al [6] (developed for searches using a single engine), based on the use of generalized Lambda distributions (GLD's).
  • GLD's are functions of four extremely flexible parameters that can represent with great precision the majority of the most important families of continuous probability distributions used in statistical histogram modeling.
  • the GLD's model (described in, for example, the work of Karian et al [6]) has not previously been used to perform combined searches in multiple sequence database engines, and provides the theoretical framework of the statistical model on the which operates the meta-search and meta-scoring method claimed here.
  • the invention claimed herein is presented as a method that can be implemented automatically, providing objective criteria that allow the choice of the GLD that best suits the observed results, without the need for personally supervise each of the candidate models.
  • An object of the present invention is to provide a generalized method for the identification of peptides and proteins from tandem mass spectrometry data.
  • Another object of the present invention is to provide a meta-search engine in which the candidate peptides are obtained from multiple search engines in sequence databases.
  • a search is performed using at least two search engines in sequence databases (meta-search) and can be extended for the analysis of any number of engines. This generates additional information that cannot be obtained by searching with a single engine.
  • Candidate peptides are classified in each search engine to build a model of generalized Lambda distributions (GLD's). This achieves a completely general theoretical support, applicable to an arbitrary number of search engines.
  • GLD's generalized Lambda distributions
  • the meta-scoring system includes the presence of concordance parameters that provide information on the coincidence of sequence-peptide assignments in multiple engines. This results in obtaining greater analysis information, which contributes significantly to the increase in the number of peptides identified.
  • the integration of the data of the multiple search engines is carried out by means of a meta-scoring system based on generalized Lambda distributions (GLD's) and generalized p-values.
  • a meta-scoring system based on generalized Lambda distributions (GLD's) and generalized p-values.
  • a generalized error rate is estimated, either by means of the false detection rate (usually named by its English term, “false discovery rate”, or FDR, and defined in the detailed description of the invention), either by means of the lure impact rate (designated by its English term, “decoy hit rate” or DHR, and defined in the detailed description of the invention), by means of the probability of obtaining at least one false positive (called this rate as “Familywise error rate", FWER, and defined in the detailed description of the invention) or by means of any other statistical measure of the error in the identification. It is thus possible to provide a success estimator in the peptide-sequence assignments for a given data set.
  • the p-values corresponding to the allocation of precursor proteins of the data sets are calculated, as well as the FDR and DHR error rates of said proteins.
  • a unique set of data on the aggregated information of all search engines on the precursor protein of the detected peptides is achieved.
  • a different weight coefficient is assigned to each engine during the meta-scoring phase, this being established a priori or calculated based on factors such as the tendency to match some of the engines selected (for example, using similar algorithms that produce results overlapping), that some of the engines have a much higher performance than the rest, or any other situation in which it is desired to perform an asymmetric weighting between the different sources used. This incorporates the possibility of favoring the value of the information obtained by some engines over others.
  • a relationship is established between the meta-score calculated for a spectrum-peptide assignment and the characteristics of the candidate peptide sequence, such as its length, presence or absence of sub-sequences or structural motifs , as well as the concordance of the sequence of the peptide with what is expected from the mechanism of cutting the chemical agent used in the digestion of proteins. It is thus possible to incorporate into the meta-scoring method those expected factors in the sequences obtained, depending on the characteristics of the experiment analyzed, to improve the discrimination between correct and incorrect assignments.
  • the meta-search method is integrated into a device for the analysis of Results of tandem mass spectrometry, comprising the mechanical, electromagnetic, electronic or computer means made in the form of hardware and / or software, these being oriented to form a data analysis system for the identification of peptides and proteins.
  • Figure 1 is a schematic diagram of the metasearch method described in the present invention. It represents the search for MS / MS sequences on sets of spectra 1 through the use of multiple search engines M available on the market on hybrid target / decoy databases 2.
  • the x scores associated with the decoy results are classified by the state of charge of the precursor ion and are represented as probability densities and, adjusting to a GLD model and calculating its p-values.
  • the p-values obtained are plotted against their relative frequency x '.
  • the GLD model used to represent the distribution of the meta-scores x "as probability densities y, performed during the calculation phase of meta-score 3 described by the present invention.
  • the meta-search method claimed in the present invention comprises the following steps:
  • MS / MS Search The search in the MS / MS databases is carried out through the search engines used in the meta-search process. The list of spectral peaks is used as input of the system, determining the parameters of each motor of search according to a common scheme, fixing the precursor mass tolerance and the mass tolerance of the fragment ion (that is, the tolerated errors in the values of the calculated masses), the specificity of the enzymatic digestion (that is, the type of fragmentation produced by the enzyme used to digest proteins), or any other parameters depending on the engine used and the data set analyzed.
  • GLD GLD Adjustments
  • a model based on generalized Lambda distributions (GLD's) is used to model the distribution of spectrum-peptide correlation scores.
  • the generalized Lambda function can be defined by its percentile distribution:
  • Parameters ⁇ ⁇ ⁇ 2 are, respectively, the location parameters (understood as the displacement of the distribution in the abscissa axis) and of scale (which determines the height of
  • I a modeling of the GLDs from the observed histograms of data requires the conversion of the data points into a relative scale frequency , the calculation of the value of Q (y) for all points and the grouping of data points according to that value.
  • the percentile method described in Reference [7] employs the percentile method described in Reference [7], in which four statistical samples used as estimators of the distribution parameters are calculated.
  • the GLD that best fits the observed data is selected as the one that minimizes the contemplated error indicator, defined the latter through the expression
  • y is the value observed in the i-th box of the histogram of scores (with K boxes) and f, is the value predicted by the GLD model under consideration (probability density), similar to an adjustment for least squares.
  • DHR decoy impact rate
  • varies depending on the type of sequence database used. For hybrid target / decoy databases with inverted sequence, ⁇ is equal to 2.
  • FWER Framilywise error rate
  • FWER 1 I - (I -P /, (6) where pi is the ith best p-value, from among N p-values obtained.
  • p are the p-values of the candidate ions calculated in the corresponding GLD models.
  • the value of the protein score can also be defined as the sum of the peptide meta-scores.
  • the FDR and DHR values are calculated in the manner described in the previous point for each similarity group (defined this term as the set of proteins that share at least one identified peptide), taking as p-value the P-value of smaller protein within the group.
  • MS / MS spectra are assigned to peptide sequences through use of multiple sequence search engines (meta-search). Current examples of these engines are, for example, the applications MASCOT (distributed by Matrix Science Inc.), XITANDEM (distributed by The Global Proteome Machine Organization and Labkey), OMSSA (distributed by the National Center for Biotechnology Information), PHENYX (distributed by Geneva Bioinformatics) or InsPect (distributed by the Center for Computational Mass Spectrometry), among others.
  • MASCOT distributed by Matrix Science Inc.
  • XITANDEM distributed by The Global Proteome Machine Organization and Labkey
  • OMSSA distributed by the National Center for Biotechnology Information
  • PHENYX distributed by Geneva Bioinformatics
  • InsPect distributed by the Center for Computational Mass Spectrometry
  • a table is constructed containing the maximum score obtained by each search engine for each MS / MS spectrum in the data set.
  • the variable p Jk is the p-value calculated by means of the GLD model corresponding to a given search engine k, associated with a candidate peptide.
  • the GLD distribution function (1-p Jk , 0, 0.2142, 0.1488, 0.1488) is the value of the percentile function (defined as the inverse function of the cumulative distribution) of the GLD in the p-value Jk , so approximately a normal distribution is obtained, as long as the p-values are distributed evenly.
  • a ⁇ defined as the search engine matching parameter, indicates the number of other search engines that have provided the same candidate peptide as the / c-th engine, for the ith spectrum.
  • is a coefficient whose value has to be optimized specifically in each data set, selecting that value that maximizes the number of spectra recovered for a given DHR value.
  • the optimum value of the concordance coefficient can also be estimated by a different numerical method, using a more complex formulation to subsidize the concordance. between engines, instead of assuming a linear dependence between the number of concordance and the magnitude of the bonus.
  • n accessory parameters xi, ... x n representing the contribution of n additional sources of information are defined, said sources of additional information comprising one or more of the following:
  • Retention time error absolute error of the retention time of the fragmentation spectrum under consideration, in absolute value. It is applied when the data has been obtained by reverse phase chromatography (RPC) techniques coupled to mass spectrometry.
  • RPC reverse phase chromatography
  • Fraction retention time error absolute retention time error (in the previous peptide fractionation stage) of the fragmentation spectrum under consideration, in absolute value. It is applied when the data has been obtained by fractionation of peptides by any suitable biochemical method (ion exchange, reverse phase at basic pH, isoelectric focusing, etc.) prior to Ia Reverse phase phase chromatog coupled to mass spectrometry.
  • the observed value for each spectrum can be the retention time at which each fraction has been obtained, if a measurement of this value is available, or simply the fraction number (which, in fact, is an order transformation of the previous value) .
  • Number of internal targets Number of cut sites of the enzyme or chemical agent that contains the candidate peptide sequence.
  • a binary variable is defined for each value of the number of internal targets observed in the experiment, whose value is 1 if this number coincides with the number of internal targets of the candidate peptide sequence, and 0 in any other case.
  • Number of specific ends Number of ends of the candidate peptide sequence whose sequence is compatible with the expected behavior of the chemical agent or enzyme that generated the peptides.
  • a binary variable is defined for each value of the number of specific ends observed in the experiment, whose value is 1 if this number coincides with the number of specific ends of the candidate peptide sequence, and 0 in any other case.
  • Alternative forms-isotopic marks Number of configurations of stable isotopic marks with which the sequence of the candidate peptide in the candidate has been detected (provided by the engine as the best candidate for a given spectrum) experiment, when the data comes from stable isotope tiling experiments (-SILE).
  • Electric charge of the precursor ion a binary variable is defined for each electric charge value observed in the experiment, whose value is 1 if the electric charge of the precursor ion is equal to said electric charge, and 0 in any other case. It is used to favor or penalize forms of electric charge for which the performance of a given motor is especially good or bad.
  • - Fragmentation mechanism a binary variable is defined for each ion fragmentation mechanism used in the experiment, whose value is 1 if the spectrum under consideration has been obtained through said fragmentation mechanism, and 0 in any other case. It is used to favor or penalize fragmentation mechanisms for which the performance of a given engine is especially good or bad.
  • - Delta score and supplementary scores a generic delta score for all engines is defined as the score awarded by the engine to a candidate peptide sequence minus the highest score observed among the other candidates for the same spectrum with a lower score. This score is similar to supplementary differential scores usually called 'delta', which some engines like SEQUEST provide.
  • MQscore medianPRMscore, totalPRMscore, fractionB and fractionY provided by the Inspect engine along with their main score
  • Precursor protein Complete experiment: It establishes a relationship between the number of peptides with which the precursor protein (among all the spectra of the experiment) of a particular candidate peptide sequence has been identified and the length of said protein sequence . For this, proteins are ordered first from highest to lowest number of peptides identified, and secondly by decreasing length of protein; The relative ranking in both cases is then used to generate, by means of a normalized standardized inverse function, variables that follow a standardized normal distribution. The difference between these two variables is taken as the protein score.
  • Precursor protein (clustering) the number k t of different fractions of the experiment in which peptides of the precursor protein of the candidate peptide sequence in question are counted.
  • the number of random samples R in which k s takes a value greater than k t is counted, and the source of grouping information of the precursor protein is defined as R / K. It can be used when a protein fractionation has been carried out, by any suitable biochemical technique, prior to the generation of the peptides to be analyzed by mass spectrometry.
  • the extended score of the / -th candidate provided for the ith spectrum by the / c-th engine is defined as:
  • s IJk GLD (1 - p IJk , 0, 0.2142, 0.1488, 0.1488) + ⁇ 1 x 1lJk + ... + ⁇ n x n ⁇ Jk + 7 A IJk ) (9) where, p J / f is calculated as described above for all candidates of each engine based on the score provided by said engine, the coefficients /3i,.../3 n and / are optimized by any mathematical method of optimization in several dimensions, for example maximizing the number of spectra or peptides recovered by fixing a certain DHR threshold.
  • the highest / lowest value of s, the / best candidates of the K engines are reordered and the index is reassigned / in order to recalculate the values A j k-
  • the goal is defined -score of the jth spectrum as:
  • the concordance parameter is defined in its weighted form as follows:
  • a is the matrix of binary variables of size KxK that indicates which of the K engines provide the same candidate peptide as the / c-th motor, and w a matrix with coefficients of concordance between engines. Note that setting to 1 all the values of
  • the value of these coefficients could be calculated, for example, from the concordance frequencies between engines observed in decoy peptides, or
  • a different weight coefficient is assigned to each engine during the meta-scoring phase, this being established a priori or calculated, so that the possibility of favoring the results obtained by some engines over others, if the particularities of the experiment analyzed required.
  • the value of these coefficients could be calculated analogously to those described above.
  • a fifth preferred embodiment of the invention after generating meta-scores from each engine, an order of integration of additional information sources is established, so that, for a given engine, a single source of information is incorporated in addition to the meta-score, ignoring the information of agreement with other engines of the equation 9, and its coefficient ⁇ is optimized by means of a numerical method of optimization in a single dimension. After obtaining a new meta-score through this process, a new source of information is taken. This process is repeated until all additional sources of information have been incorporated into the meta-score.
  • the advantage of this meta-scoring process by incorporating additional sources of information in stages is that it has the theoretical properties necessary to eliminate possible correlations between additional sources of information. After updating the meta-scores of all engines, the concordance information is incorporated, using the methods described in equations 8 or 9, and then the method described in equation 10.
  • an order of integration of the different search engines is established, so that the process begins with two engines (preferably those two that provide the greatest sensitivity, for example defined as the number of identifications to a certain error rate) and equations 8 or 9 and equation 10 are applied.
  • the result of this process is treated as if it were a new 'consensus'engine; this result is then taken together with the third engine and equations 8 or 9 and equation 10 are applied.
  • the process is repeated until all the engines have been incorporated into the 'consensus', preferably in decreasing order of sensitivity of these.
  • the advantage of this stage meta-scoring process is that it enjoys the theoretical properties necessary to eliminate possible correlations between engines.
  • the meta-search method and its meta-scoring system add additional information that cannot be obtained by searching with a single engine.
  • the claimed method allows incorporating other sources of additional information to the engine concordance, such as the precursor peptide mass error, the error in the time of retention, the specificity of the enzymatic digestion or the concordance with the de novo sequencing of the information. This flexibility allows the meta-search method to integrate data using different sample preparations, protein digestion methods and ion fragmentation mechanisms.
  • the SKHep-LA-I experiment is based on the enrichment of peptides that are ligands natural molecules of the major histocompatibility complex type I (MHC-I).
  • MHC-I major histocompatibility complex type I
  • the peptides are purified from cells of the Sk-Hep line, which express class I alleles HLA-A * 0201, HLA-A * 2402, HLA-B * 3502 and HLA-BM403. These peptides are generated by a process of natural digestion inside the cell, attached to MHC molecules and transported to the cell surface, where they are presented to the cells of the immune system.
  • the different alleles of the genes encoding MHC proteins may have a repertoire of different ligand peptides, with slightly different structural properties. It is believed that some of these alleles are associated with autoimmune diseases, so that automated tools for large-scale characterization of repertoires of MHC molecules (either type I or II) is of remarkable biomedical interest.
  • the HLA CID-ETD experiment is a replica of the previous experiment, unlike that MS / MS spectra were acquired using two different fragmentation mechanisms known by its acronym in English as CID (collision-induced dissociation) and ETD (electron transfer dissociation) .
  • the ABRF2010 phosphopeptide experiment corresponds to the analysis, also generating both CID and ETD spectra, of phosphopeptides enriched by IMAC (immobilized metal affinity chromatography) chromatography, from a sample of human proteins provided by the Association of Biomolecular Research Facilites (ABRF).
  • Phosphorylation is a post-translational modification of great importance in intracellular signaling processes, so that the results of phosphopeptide identification by mass spectrometry shown here are of great relevance in the field of biomedical and biotechnological research, both basic and applied.
  • the Ecoli SILE-SILAC experiment corresponds to the analysis of a sample from two populations of Esche ⁇ chia coli bacteria marked in culture with different isotopic forms of the amino acid lysine (native form or heavy form 13Cx6, 15Nx2, +8 Da) using the SILAC technique (Stable Isotopic Labelling by Amino acids in cell Culture), whose protein extracts were fractionated by polyacrylamide gel electrophoresis before digestion with trypsin.
  • the experiment "Serum Frac. RP-basic pH” corresponds to the analysis of a sample of human serum for which, after the trypsin digestion of the protein extract, the peptides obtained were fractionated by reverse phase chromatography at basic pH (approximately 10, 9).
  • Table 2 shows the results of the meta scoring process incorporating none, one or more sources of additional information by stages, as well as using data from a single engine or several engines by stages and using concordance information.
  • all the additional sources of information described contribute to increasing the efficiency of the meta-scoring process, judging by the notable increase in the number of spectrum-sequence assignments recovered at a given error rate value, especially when They use several of these additional sources of information in combination.
  • the described method allows to optimally use and continue extracting information from said sources even in cases where the engine already uses these sources in its scoring system, such as MASCOT, which internally uses the error in the value m / z of the precursor ion to calculate its scores (see data referring to the Serum fraction. Basic pH experiment), as well as easily incorporate delta scores and supplementary scores provided by the engine in addition to the main score (see ABRF2010 phosphopeptide experiment, engine data Inspect, and experiment Serum fraction, basic pH, MASCOT engine data). Under these conditions, the efficiency of the process is even greater when information from several engines is used instead of a single engine, as clearly observed for the HLA CID-ETD and phosphopeptide ABRF2010 experiments.
  • Table 2 Comparison between modeling results through the use of a single engine or a combination of stages of several engines (using concordance information), from data generated by a single fragmentation mechanism or by several mechanisms, incorporating by stages one, none or several additional sources of information to the meta-scoring process.
  • the indices used are the same as in Table 1, to which P (PHENYX) is added.
  • Process performance is indicated as the number of spectrum-sequence assignments recovered in exceeding a given error rate measured as DHR (0.01, 0.05 and 0.1).
  • DHR 0.01, 0.05 and 0.1

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Cell Biology (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

La presente invención se refiere a un método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas empleando múltiples motores de búsqueda, caracterizado porque: a) se modelizan las puntuaciones calculadas en cada motor; b) se incluye la presencia de parámetros de concordancia; c) se modeliza la distribución de meta-puntuaciones mediante funciones de distribución; d) se construyen las puntuaciones del péptido y de la proteína precursora. Entre las principales ventajas que presenta la invención, cabe citar su flexibilidad para ser aplicada a un número arbitrario de motores, el empleo de parámetros de concordancia que agregan de información adicional no disponible con un solo motor, el aumento del número de péptidos- proteínas identificados o su versatilidad para incorporar otras fuentes de información adicionales, en función del tipo de experimento analizado.

Description

MÉTODO DE IDENTIFICACIÓN DE PÉPTIDOS Y PROTEÍNAS A PARTIR DE DATOS DE ESPECTROMETRÍA DE MASAS
CAMPO DE LA INVENCIÓN
La presente invención se inscribe dentro del campo de los métodos de identificación y caracterización estructural de proteínas a gran escala mediante técnicas de espectrometría de masas. ANTECEDENTES DE LA INVENCIÓN
La Proteómica es una de las ciencias de Ia era post-genómica que posee un mayor impacto en Ia biotecnología moderna, pues comprende Ia identificación y cuantificación de grandes cantidades de proteínas en matrices extremadamente complejas (fluidos biológicos, tejidos o cultivos celulares, entre otras). Actualmente, las técnicas de mayor éxito y relevancia académica e industrial empleadas en proteómica son aquéllas basadas en espectrometría de masas en tándem (MS/MS), que consisten en Ia extracción de las proteínas de Ia muestra a analizar, Ia digestión de dichas proteínas con enzimas u otros agentes químicos para obtener péptidos (más fáciles de analizar), separar dichos péptidos habitualmente mediante técnicas cromatográficas, e introducirlos en un espectrómetro de masas en forma ionizada para medir su masa y fragmentarlos dentro del espectrómetro con el objetivo de obtener información estructural, de modo que permita Ia identificación de las proteínas conformadas por los péptidos analizados.
La investigación actual en Proteómica basada en espectrometría de masas en tándem comprende Ia generación de grandes volúmenes de datos que contienen típicamente entre miles y millones de espectros de masas. Dichos espectros son asignados a secuencias de péptidos registradas en bases de datos, empleando programas informáticos denominados motores de búsqueda. En el desarrollo histórico de Ia Proteómica basada en MS/MS, dado el alto número de espectros involucrados en los análisis, Ia validación manual de Ia correspondencia espectro-péptido se ha convertido en poco tiempo en impracticable, por Io que se ha hecho necesario el desarrollo de procedimientos automáticos no manejados por el usuario, que permitan identificar los péptidos analizados, así como descartar las correspondencias espurias (conocidas como falsas detecciones o falsos positivos). Estos procedimientos comprenden el empleo de algoritmos basados en sistemas de puntuación estadística para clasificar cada espectro analizado en una muestra, de forma que, cuanto mayor sea Ia puntuación obtenida, mayor es Ia probabilidad de que Ia asignación espectro-péptido sea Ia correcta.
Actualmente, las diferencias existentes entre los distintos motores de búsqueda del mercado se derivan del pre-procesado y Ia normalización de los espectros MS/MS analizados, como consecuencia del empleo de distintos modelos estadísticos y métodos numéricos en el sistema de puntuación de cada motor. Estas diferencias suponen el principal problema a Ia hora de analizar espectros MS/MS empleando múltiples motores de búsqueda, ya que algunas secuencias de péptidos identificadas correctamente en alguno de los motores, pueden no serlo en otros. Éste es un hecho ampliamente conocido por los espectrometristas experimentados. La presente invención comprende un método de búsqueda combinada empleando múltiples motores (definida de aquí en adelante como meta-búsqueda) orientado a Ia solución de este inconveniente, así como a Ia optimización de las técnicas de análisis de los espectros obtenidos mediante MS/MS. Dicho método proporciona también un criterio generalizado de puntuación (que definimos como meta-puntuación) de los resultados obtenidos por los distintos motores de bases de datos empleados, mediante una modelización estadística suficientemente robusta que permita obtener una asignación espectro- péptido única.
A pesar de los beneficios potenciales que posee un método de meta- búsqueda con múltiples motores, pocos son hasta Ia fecha los intentos que se han realizado en esta dirección. Entre los más relevantes, cabe citar los trabajos desarrollados por Rohrbough et al [1], Higgs et al [2], Searle et al [3] y Alves et al [4]. Por otra parte, dentro de estado de Ia técnica relacionado con Ia investigación en proteómica, sí es más abundante Ia existencia de productos comerciales con opciones de búsqueda comparativa (Io que difiere del concepto de meta-búsqueda) utilizando varios motores que presentan algunas aplicaciones informáticas del mercado, tales como Ia opción "InChorus" del motor de búsqueda PEAKS (distribuido por Bioinformatics Solutions Inc.), el sistema de análisis de datos Rosetta Elucidator (distribuido por Rosetta Biosoftware), Ia plataforma de análisis Proteome Discoverer (distribuida por Thermo Fisher Scientific Inc.) o el motor Phenyx, distribuido por Geneva Bioinformatics SA.
Otra aplicación de este campo de Ia técnica es Ia implementación de los métodos de búsqueda en dispositivos de análisis de péptidos y proteínas que combinan tanto hardware como software, y son comercializados de forma autónoma como estaciones de trabajo "plug- and-play" o como servidores que permiten ser empleados simultáneamente por múltiples usuarios. Un ejemplo de este tipo de dispositivos sería Ia estación de trabajo Sorcerer 2, comercializada por Ia empresa Sage-N Research, Inc., o el servidor configurable distribuido de form a co nj u n ta po r I B M y Thermo Electron Corporation. Dichos dispositivos tampoco integran, hasta Ia fecha, el uso simultáneo de varios motores mediante un método de meta-búsqueda.
Si bien Ia presente invención comparte algunos planteamientos y objetivos con cada una de las técnicas anteriormente citadas, es el único de todos los métodos que presenta el siguiente conjunto de ventajas:
- El método de meta-búsqueda y su sistema de meta-puntuación agrega información adicional que no puede ser obtenida mediante Ia búsqueda con un solo motor.
- Emplea una modelización estadística robusta que permite Ia elección de una única combinación de secuencia de péptidos, carga eléctrica y composición química por espectro (a diferencia de los métodos empleados por PEAKS, Rosetta Elucidator, Proteome Discoverer y Phenyx, que únicamente usan los resultados de múltiples motores con fines comparativos, sin Ia posibilidad de utilizar una estadística común y un sistema común de meta-puntuación).
- Es un método completamente generalizable para el empleo de cualquier número de motores de búsqueda (a diferencia de los métodos propuestos en las Referencias [1] y [2], cuya generalización a más de dos motores no resulta factible).
- Emplea un método estándar aplicable a los resultados de cualquier motor de búsqueda para obtener las funciones de distribución estadística, a diferencia del método descrito en Ia Referencia [3] y su implementación comercial en Ia aplicación Scaffold (distribuida por Proteome Software Inc.), cuya extensión a más de los tres motores estudiados necesitaría encontrar una distribución satisfactoria para cada nuevo motor de búsqueda utilizado.
- Integra en su formulación el empleo de parámetros de concordancia, definidos como el número de otros motores de búsqueda que han proporcionado el mismo péptido candidato que un motor dado. El empleo de parámetros de concordancia no se contempla en el método planteado en Ia Referencia [4], perdiéndose a causa de su ausencia una parte valiosa de Ia información, que contribuye sensiblemente al incremento del número péptidos identificados.
- Optimiza automáticamente los valores de todos los parámetros que participan en el proceso mediante modelado estadístico, sin necesidad de definir ningún tipo de filtro o mecanismo de puntuación arbitrario o prefijar valores para los coeficientes de éstos, a diferencia de métodos basados en múltiples filtros arbitrarios o mecanismos de puntuación predefinidos descritos en las referencias [4] y [5].
- En cuanto a Ia detección de proteínas, se emplea un método estadístico riguroso, no sesgado, que emplea un filtrado definido por las tasas de error en las asignaciones secuencia-péptido. - Adicional mente, el método reivindicado es suficientemente flexible como para incorporar otras fuentes de información adicionales a Ia concordancia del motor, tales como el filtrado mediante el error de masa del ion precursor de Ia secuencia (definido como Ia diferencia entre Ia masa teórica de un ion de péptido y Ia medición de Ia masa obtenida por el espectrómetro, ya sea utilizando su masa molecular o su relación masa/carga, m/Z), el error en el tiempo de retención (definido como el tiempo característico de retención durante Ia separación cromatográfica), el error de predicción del punto isoeléctrico (similar al factor anterior, cuando los péptidos se fraccionan utilizando técnicas de separación por isoelectroenfoque), Ia movilidad iónica (en los espectrómetros de masas que incorporan ese tipo de análisis, basado en Ia acumulación iónica de especies químicas bajo Ia acción de un campo eléctrico), Ia especificidad de Ia digestión enzimática empleada (es decir, las características de Ia segmentación de las proteínas en función del tipo de enzimas empleados para su digestión), Ia detección de múltiples patrones isotópicos para un mismo péptido (habitual en experimentos de marcado isotópico estable empleados en aplicaciones de proteómica cuantitativa) o Ia concordancia con Ia secuenciación obtenida por MS/MS sin el uso de un motor de búsqueda (conocida como secuenciación de novo de Ia información). Esta flexibilidad permite al método de meta-búsqueda Ia integración de datos empleando diferentes preparaciones de muestras, distintos métodos de digestión de proteínas y diversos mecanismos de fragmentación de iones, Io que Io convierten en una herramienta adecuada para Ia identificación a gran escala de proteínas.
La presente invención se basa en un método de meta-búsqueda empleando los resultados de asignación espectro-péptido obtenidos en diferentes motores de búsqueda sobre bases de datos híbridas diana/señuelo, que contienen una proporción 1 :1 de proteínas reales frente a proteínas falsas. Dichas proteínas falsas se obtienen habitualmente invirtiendo Ia secuencia de cada una de las proteínas reales. Como paso previo a Ia asignación de meta-resultados, el método de análisis de resultados en cada uno de los motores estudiados por separado se realiza mediante Ia técnica desarrollada por Ramos- Fernández et al [6] (desarrollada para búsquedas empleando un único motor), basada en el uso de distribuciones Lambda generalizadas (GLD's). Dichas GLD's son funciones de cuatro parámetros extremadamente flexibles que pueden representar con gran precisión Ia mayoría de las familias más importantes de distribuciones de probabilidad continuas empleadas en modelización estadística de histogramas. El modelo de GLD's (descrito en, por ejemplo, el trabajo de Karian et al [6]) no ha sido previamente empleado para realizar búsquedas combinadas en múltiples motores de bases de datos de secuencias, y proporciona el marco teórico del modelo estadístico sobre el que opera el método de meta-búsqueda y meta-puntuación aquí reivindicado. A diferencia del modelo de Ia Referencia [7], Ia invención aquí reivindicada se presenta como un método que pueda ser implementado de forma automática, suministrando criterios objetivos que permitan Ia elección de Ia GLD que mejor se adapte a los resultados observados, sin necesidad de supervisar personalmente cada uno de los modelos candidatos. REFERENCIAS
[1] Rohrbough, J. G., Breci, L., Merchant, N., Miller, S., Haynes, P.A.
(2006). "Verification of single-peptide protein identifications by the application of complementary datábase search programs". J. Biomol. Tech. 5, 327-332.
[2] Higgs, R.E., Knierman, M. D., Freeman A.B., Gelbert, L. M., Patil,
ST. , Hale, J. E. (2007). "Estimating the statistical significance of peptide identifications from shotgun proteomics experiments". J. Proteome Res. 6,
1758-1767.
[3] Searle B. C1 Turner M., Nesvizhskii A. (2008). "Improving sensitivity by combining results from múltiple MS/MS search methodologies". J. Proteome Res. 7, 245-253. [4] Alves, G., Wu, W.W., Wang, G., Shen, R.-F., Yu, Y.-K. (2008). "Enhancing peptide identification confidence by combining search methods". J. Proteome Res. 8, 3102-3113.
[5] Yu W., Taylor J. A., Davis M. T., Bonilla L. E., Lee K. A., Auger P. L., Farnsworth C. C1 Welcher A. A., Patternson S. D. (2010) "Maximizing the sensivity and reliability of peptide identification in large-scale proteomic experiments by harnessing múltiple search engines". Proteomics 10,
1 172-1189.
[6] Ramos-Fernández, A., Paradela, A., Navajas, R., Albar, J. P. (2008). "Generalized method for probability-based peptide and protein identification from tándem mass spectrometry data and sequence datábase searching". Mol. CeII. Proteomics 7, 1748-1754.
[7] Karian Z.A., Dudewicz, EJ. (2000) "Fitting statistical distributions: the Generalized Lambda Distribution and Generalized Bootstrap methods". Chapman and Hall/CRC.
SUMARIO DE LA INVENCIÓN
Un objeto de Ia presente invención es proporcionar un método generalizado para Ia identificación de péptidos y proteínas a partir de datos de espectrometría de masas en tándem.
Otro objeto de Ia presente invención es proporcionar un motor de meta-búsqueda en el cual los péptidos candidatos se obtienen a partir de múltiples motores de búsqueda en bases de datos de secuencias.
Éstos y otros objetos se consiguen mediante un método en el que:
- Se realiza una búsqueda empleando, al menos, dos motores de búsqueda en bases de datos de secuencias (meta-búsqueda) y que puede ser extendido para el análisis de cualquier número de motores. Con ello se genera información adicional que no puede ser obtenida mediante Ia búsqueda con un solo motor.
- Se clasifican los péptidos candidatos en cada motor de búsqueda para construir un modelo de distribuciones Lambda generalizadas (GLD's). Se consigue con ello un soporte teórico completamente general, aplicable a un número arbitrario de motores de búsqueda.
- Se integran los datos de los múltiples motores de búsqueda mediante un sistema de meta-puntuación basado en distribuciones generalizadas de probabilidad y valores-p generalizados (definidos estos últimos como los valores de probabilidad de que una determinada detección secuencia-péptido se haya producido de forma aleatoria). Se consigue con ello una modelización estadística robusta que permite Ia elección de una única combinación secuencia de péptidos, carga eléctrica y composición química, por espectro.
- El sistema de meta-puntuación incluye Ia presencia de parámetros de concordancia que proporcionan información sobre Ia coincidencia de asignaciones secuencia-péptido en múltiples motores. Se consigue con ello obtener una mayor información de análisis, que contribuye sensiblemente al incremento del número de péptidos identificados.
En una realización preferente de Ia presente invención, Ia integración de los datos de los múltiples motores de búsqueda se lleva a cabo mediante un sistema de meta-puntuación basado en distribuciones Lambda generalizadas (GLD's) y valores-p generalizados. Se consigue con ello una distribución única de meta-puntuaciones, así como un sistema de clasificación de asignación secuencia-péptido que integra los datos de todos los motores de búsqueda utilizados, proporcionando información agregada no disponible mediante el uso de un único motor.
En una realización preferente de Ia presente invención se estima una tasa de error generalizada, bien por medio de Ia tasa de falsa detección (nombrada habitualmente por su término inglés, "false discovery rate", o FDR, y definida en Ia descripción detallada de Ia invención), bien por medio de Ia tasa de impacto en señuelo (designada por su término inglés, "decoy hit rate" o DHR, y definida en Ia descripción detallada de Ia invención), por medio de Ia probabilidad de obtener al menos un falso positivo (denominada esta tasa como "Familywise error rate", FWER, y definida en Ia descripción detallada de Ia invención) o por medio de cualquier otra medida estadística del error en Ia identificación. Se consigue con ello facilitar un estimador del acierto en las asignaciones péptido-secuencia para un conjunto de datos dado.
En una realización preferente de Ia presente invención, se calculan los valores-p correspondientes a Ia asignación de proteínas precursoras de los conjuntos de datos, así como las tasas de error FDR y DHR de dichas proteínas. Se consigue con ello un conjunto único de datos sobre Ia información agregada de todos los motores de búsqueda sobre Ia proteína precursora de los péptidos detectados.
En una realización preferente de Ia presente invención, se asigna un coeficiente de peso distinto a cada motor durante Ia fase de meta- puntuación, siendo éste establecido a priori o calculado en función de factores tales como Ia tendencia a Ia concordancia de algunos de los motores seleccionados (por emplear, por ejemplo, algoritmos similares que produzcan solapamiento de resultados), que alguno de los motores posea un rendimiento muy superior al resto, o cualquier otra situación en Ia que se desee efectuar una ponderación asimétrica entre las distintas fuentes empleadas. Con ello se incorpora Ia posibilidad de favorecer el valor de Ia información obtenida por unos motores sobre otros.
En una realización preferente de Ia presente invención, se establece una relación entre Ia meta-puntuación calculada para una asignación espectro-péptido y las características de Ia secuencia del péptido candidato, tales como su longitud, presencia o ausencia de sub- secuencias o motivos estructurales, así como Ia concordancia de Ia secuencia del péptido con Io esperado a partir del mecanismo de corte del agente químico utilizado en Ia digestión de las proteínas. Se consigue con ello incorporar al método de meta-puntuación aquellos factores esperables en las secuencias obtenidas, en función del las características de experimento analizado, para mejorar Ia discriminación entre asignaciones correctas e incorrectas.
En una realización preferente de Ia presente invención, se integra el método de meta-búsqueda en un dispositivo destinado al análisis de resultados de espectrometría de masas en tándem, que comprenda los medios mecánicos, electromagnéticos, electrónicos o informáticos realizados en forma de hardware y/o software, estando éstos orientados a conformar un sistema de análisis de datos para Ia identificación de péptidos y proteínas.
Otras características y ventajas de Ia presente invención se desprenderán de Ia descripción detallada que sigue y de una realización ilustrativa de su objeto en relación con Ia figura que Io acompaña. DESCRIPCIÓN DE LAS FIGURAS
La Figura 1 es un diagrama esquemático del método de meta- búsqueda descrito en Ia presente invención. En él se representa Ia búsqueda de secuencias MS/MS sobre conjuntos de espectros 1 mediante el uso de múltiples motores de búsqueda M disponibles en el mercado sobre bases de datos híbridas diana/señuelo 2. Las puntuaciones x asociadas a los resultados señuelo se clasifican por el estado de carga del ion precursor y se representan como densidades de probabilidad y, ajustándose a un modelo GLD y calculando sus valores-p V. Los valores-p V obtenidos se representan frente a su frecuencia relativa x'. Se incluye también el modelo GLD utilizado para representar Ia distribución de las meta-puntuaciones x" como densidades de probabilidad y, realizada durante Ia fase de cálculo de meta-puntuación 3 descrito por Ia presente invención.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
El método de meta-búsqueda reivindicado en Ia presente invención comprende las siguientes etapas:
1. Búsqueda MS/MS: La búsqueda en las bases de datos MS/MS se realiza por medio de los motores de búsqueda empleados en el proceso de meta-búsqueda. La lista de picos de los espectros se emplea como input del sistema, determinando los parámetros de cada motor de búsqueda de acuerdo a un esquema común, fijando Ia tolerancia de masa precursora y Ia tolerancia de masa del ion fragmento (es decir, los errores tolerados en los valores de las masas calculadas), Ia especificidad de Ia digestión enzimática (es decir, el tipo de fragmentación producida por el enzima empleado para digerir las proteínas), o cualesquiera otros parámetros en función del motor empleado y el conjunto de datos analizado.
2. Ajustes GLD: Se emplea un modelo basado en distribuciones Lambda generalizadas (GLD's) para modelizar las distribuciones de puntuación de correspondencias espectro-péptido. La función Lambda generalizada puede definirse mediante su distribución percentil:
Q(y) = Q(y,λ1234 ) = λ1 , (1 )
Figure imgf000012_0001
donde 0 < y < 1. Los parámetrosλ^ λ2 son, respectivamente, los parámetros de localización (entendido como el desplazamiento de Ia distribución en el eje de abscisas) y de escala (que determina Ia altura de
Ia distribución), y A3 y A4 determinan, respectivamente, Ia asimetría de Ia distribución (respecto a un eje vertical) y su curtosis (definida como el grado de concentración en torno al pico máximo). Una descripción adecuada de las restricciones necesarias en estos parámetros para proporcionar GLD's válidas puede encontrarse, por ejemplo, en Ia Referencia [7]. A partir de Ia función percentil, Ia densidad de probabilidad en x = Q(y) se obtiene como f(χ) = ^ / 2)
A3yλ3 + λ4(1 - y)λ-1
Dado q ue y se defi ne como I a probab il idad de q u ex≤Q(y) , I a modelización de las GLD's a partir de los histogramas de datos observados requiere Ia conversión de los puntos de datos en una frecuencia de escala relativa, el cálculo del valor de Q(y) para todos los puntos y el agrupamiento de los puntos de datos de acuerdo a dicho valor. Con el objetivo de ajustar las GLD's a los histogramas de datos, se emplea el método de percentiles descrito en Ia Referencia [7], en el que se calculan cuatro muestras estadísticas empleadas como estimadores de los parámetros de Ia distribución. De entre todos los conjuntos de parámetros (A11 A21 A31 A4) compatibles con el conjunto de estimadores obtenidos para cada histograma, se selecciona Ia GLD que mejor se ajusta a los datos observados como aquélla que minimiza el indicador de error contemplado, definido este último por medio de Ia expresión
∑(y, - f, )2 > (3) ι=1
donde y, es el valor observado en Ia i-ésima casilla del histograma de puntuaciones (con K casillas) y f, es el valor que predice el modelo GLD en consideración (densidad de probabilidad), de forma similar a un ajuste por mínimos cuadrados.
3. Estimación de valores-p y de tasas de error en Ia identificación de péptidos: Como consecuencia de que no existe una expresión cerrada para Ia función de probabilidad del tipo y = F(x), el conjunto de los valores- p asociados a cada punto de los datos se calcula numéricamente. Dado un conjunto de valores-p asociados a los péptidos y clasificados en orden ascendente, Ia proporción esperada de observaciones de datos que superan un umbral de valor-p p, depende del volumen de los datos, así como del número i de puntos que poseen igual o mayor valor-p. Esta cantidad, denominada como tasa de falsa detección (FDR), da una medida del error esperado:
FDR1 = -^ . (4)
Las tasas de error también pueden ser estimadas mediante búsquedas en bases de datos de secuencias híbridas diana/señuelo, contando el número de impactos señuelo que superan un determinado umbral de valor-p. Este valor, calculado a partir de Ia proporción de identificaciones señuelo observadas entre todas las identificaciones realizadas para un filtro dado, se denomina tasa de impacto en señuelo (DHR) y se define como DHR1 = ^L , (5) donde D1 es el número de asignaciones a péptidos señuelo con un valor-p igual o inferior a p,. El parámetro α varía en función del tipo de base de datos de secuencias empleada. Para bases de datos híbridas diana/señuelo con secuencia invertida, α es igual a 2.
Otras realizaciones de Ia presente invención pueden incluir el uso de otras medidas de estimación del error como, por ejemplo, Ia probabilidad proporcionada por Ia "Familywise error rate" (FWER), definida como
FWER1 = I - (I -P/ , (6) donde pi es el i-ésimo mejor valor-p, de entre N valores-p obtenidos.
4. Cálculo de los valores-p y puntuaciones de identificación de proteínas y tasas de error: Las asignaciones secuencia-péptido se agrupan dentro de una secuencia de proteína precursora. De los valores- p de un número h dado de iones candidatos, asignados a una proteína dada, el valor de Ia puntuación de Ia proteína se define como
Figure imgf000014_0001
donde p, son los valores-p de los iones candidatos calculados en los modelos GLD correspondientes. Opcionalmente, el valor de Ia puntuación de Ia proteína también puede definirse como Ia suma de las meta- puntuaciones de péptido. Del mismo modo, los valores de las FDR y DHR se calculan de Ia forma descrita en el punto anterior para cada grupo de similitud (definido este término como el conjunto de proteínas que comparten al menos un péptido identificado), tomando como valor-p el valor-p de proteína más pequeño dentro del grupo.
5. Integración de datos de múltiples motores de búsqueda y cálculo de meta-puntuaciones: La estrategia de integración de datos de múltiples motores de búsqueda se representa esquemáticamente en Ia Figura 1. Los espectros MS/MS se asignan a secuencias de péptidos mediante el uso de múltiples motores de búsqueda de secuencias (meta-búsqueda). Ejemplos actuales de estos motores son, por ejemplo, las aplicaciones MASCOT (distribuido por Matrix Science Inc.), XITANDEM (distribuido por The Global Proteome Machine Organization y por Labkey), OMSSA (distribu ido por el National Center for Biotechnology Information), PHENYX (distribuido por Geneva Bioinformatics) o InsPect (distribuido por el Center for Computacional Mass Spectrometry), entre otros. Tras Ia asignación de secuencias a los péptidos candidatos, se ajustan las GLD's y se calculan todos los valores-p con sus correspondientes puntuaciones, del modo descrito en los puntos anteriores. En una realización preferente de Ia presente invención se construye una tabla que contenga Ia máxima puntuación obtenida por cada motor de búsqueda para cada espectro MS/MS en el conjunto de datos. Con esta información, se define Ia meta- puntuación de un espectro) dado de un conjunto de datos como
Sj = arg max(GLD(1-pJk, 0, 0.2142, 0.1488, 0.1488) + βAJk) , (8)
k
donde se toma el valor de k que maximiza el valor de Ia puntuación Sj para un espectro dado. La variable pJk es el valor-p calculado por medio del modelo GLD correspondiente a un motor de búsqueda k dado, asociado a un péptido candidato. La función de distribución GLD(1-pJk, 0, 0.2142, 0.1488, 0.1488) es el valor de Ia función percentil (definida como Ia función inversa de Ia distribución acumulada) de Ia GLD en el valor-p pJk, de forma que se obtenga aproximadamente una distribución normal, siempre y cuando los valores-p se distribuyan uniformemente. A^, definido como el parámetro de concordancia del motor de búsqueda, indica el número de otros motores de búsqueda que han proporcionado el mismo péptido candidato que el /c-ésimo motor, para el y-ésimo espectro. Por último, β es un coeficiente cuyo valor ha de ser optimizado específicamente en cada conjunto de datos, seleccionando aquel valor que maximice el número de espectros recuperados para un valor dado de Ia DHR. El valor óptimo del coeficiente de concordancia también puede ser estimado mediante un método numérico distinto, empleando una formulación más compleja para bonificar Ia concordancia entre motores, en lugar de asumir una dependencia lineal entre el número de concordancia y Ia magnitud de Ia bonificación.
En una segunda realización preferente de Ia invención se lleva cabo un procedimiento por el cual, para un espectro dado ), en lugar de tomar el mejor candidato de cada motor, se toman los / mejores candidatos, ordenados de mayor a menor puntuación (/=1 ,...,/).
Posteriormente se define un parámetro de concordancia extendido AJk, que designa el número de otros motores (/c=1 ,...,K) que proporcionan como mejor candidato (/=1 ) el mismo péptido que el /-ésimo candidato del /c-ésimo motor. Se define, adicionalmente, una serie de n parámetros accesorios xi,...xn que representan Ia contribución de n fuentes de información adicionales, comprendiendo dichas fuentes de información adicional una o más de las siguientes:
a) Fuentes de información relacionadas con las características fisicoquímicas de las secuencias de péptidos candidato:
- Error del valor m/z del ion precursor: error absoluto de medición de Ia relación masa/carga del ion precursor del espectro de fragmentación en consideración, en valor absoluto, dada una secuencia de péptido candidato. El cálculo del valor esperado de Ia relación masa/carga del ion precursor es trivial a partir de Ia secuencia del péptido candidato y Ia carga estimada del ion precursor.
- Error del tiempo de retención: error absoluto del tiempo de retención del espectro de fragmentación en consideración, en valor absoluto. Se aplica cuando los datos han sido obtenidos mediante técnicas de cromatografía de fase reversa (RPC) acoplada a espectrometría de masas.
- Error del tiempo retención del fraccionamiento: error absoluto del tiempo de retención (en Ia etapa de fraccionamiento previo de péptidos) del espectro de fragmentación en consideración, en valor absoluto. Se aplica cuando los datos han sido obtenidos mediante fraccionamiento de péptidos por cualquier método bioquímico adecuado (intercambio iónico, fase reversa a pH básico, isoelectroenfoque, etc.) previo a Ia cromatog rafia de fase reversa acoplada a espectrometría de masas. El valor observado para cada espectro puede ser el tiempo de retención al que se ha obtenido cada fracción, si se dispone una medición de este valor, o simplemente el número de fracción (que, de hecho, es una transformación de orden del valor anterior).
b) Fuentes de información relacionadas con el comportamiento esperado del agente químico u enzima que ha generado los péptidos analizados mediante espectrometría de masas:
- Número de dianas internas: Número de sitios de corte del enzima u agente químico que contiene Ia secuencia del péptido candidato. Se define una variable binaria por cada valor de número de dianas internas observado en el experimento, cuyo valor es 1 si Ia este número coincide con el número de dianas internas de Ia secuencia del péptido candidato, y 0 en cualquier otro caso.
- Número de extremos específicos: Número de extremos de Ia secuencia del péptido candidato cuya secuencia es compatible con el comportamiento esperado del agente químico u enzima que ha generado los péptidos. Se define una variable binaria por cada valor de número de extremos específicos observado en el experimento, cuyo valor es 1 si Ia este número coincide con el número de extremos específicos de Ia secuencia del péptido candidato, y 0 en cualquier otro caso.
c) Fuentes de información relacionadas con Ia generación de múltiples espectros por parte de un mismo péptido:
- Formas alternativas-carga eléctrica: Número de cargas eléctricas distintas con las que ha sido detectada (proporcionada por el motor como mejor candidato para un determinado espectro) Ia secuencia del péptido candidato en el experimento. La disparidad de cargas eléctricas de un determinado péptido depende del mecanismo de ionización.
Formas alternativas-marcas isotópicas: Número de configuraciones de marcas isotópicas estables con las que ha sido detectada (proporcionada por el motor como mejor candidato para un determinado espectro) Ia secuencia del péptido candidato en el experimento, cuando los datos provienen de experimentos de mareaje isotópico estable {stable isotope labelling, -SILE).
- Formas alternativas-modificaciones químicas: Número de formas de modificación química con las que ha sido detectada (proporcionada por el motor como mejor candidato para un determinado espectro) Ia secuencia del péptido candidato en el experimento, cuando los péptidos pueden sufrir modificaciones químicas durante el proceso de análisis, sean dichas modificaciones inducidas por el usuario o no.
- Formas alternativas-mecanismos de fragmentación: Número de mecanismos de fragmentación de iones que han generado espectros mediante los cuales ha sido detectada (proporcionada por el motor como mejor candidato para un determinado espectro) Ia secuencia del péptido candidato en el experimento, cuando el experimento combina datos obtenidos utilizando distintos mecanismos de fragmentación (por ejemplo, colisión inducida por disociación (CID) o disociación por transferencia de electrones (ETD)).
d) Fuentes de información relacionadas con características específicas de los motores o del rendimiento de éstos en función del tipo de datos:
- Carga eléctrica del ion precursor: se define una variable binaria por cada valor de carga eléctrica observada en el experimento, cuyo valor es 1 si Ia carga eléctrica del ion precursor es igual a dicha carga eléctrica, y 0 en cualquier otro caso. Se utiliza para favorecer o penalizar formas de carga eléctrica para las que el rendimiento de un motor determinado es especialmente bueno o malo.
- Mecanismo de fragmentación: se define una variable binaria por cada mecanismo de fragmentación de iones utilizado en el experimento, cuyo valor es 1 si Ia el espectro en consideración ha sido obtenido mediante dicho mecanismo de fragmentación, y 0 en cualquier otro caso. Se utiliza para favorecer o penalizar mecanismos de fragmentación para los que el rendimiento de un motor determinado es especialmente bueno o malo. - Puntuación delta y puntuaciones suplementarias: se define una puntuación delta genérica para todos los motores como Ia puntuación otorgada por el motor a una secuencia de péptido candidato menos Ia mayor puntuación observada entre el resto de candidatos para el mismo espectro con puntuación menor. Esta puntuación es similar a puntuaciones diferenciales suplementarias habitualmente llamadas 'delta', que proporcionan algunos motores como SEQUEST. Se define como puntuación suplementaria cualquier cantidad que es susceptible de ser utilizada como puntuación y que es proporcionada por el motor junto con Ia puntuación principal, aunque generalmente resulta mucho menos informativa que ésta. Por ejemplo, pueden definirse como tales las variables medianPRMscore, totalPRMscore, fractionB y fractionY proporcionadas por el motor Inspect junto con su puntuación principal, llamada MQscore.
e) Fuentes de información relacionadas con Ia proteína precursora de los péptidos candidatos:
- Proteína precursora (experimento completo): Establece una relación entre el número de péptidos con los que ha sido identificada Ia proteína precursora (de entre todos los espectros del experimento) de una determinada secuencia de péptido candidato y Ia longitud de Ia secuencia de dicha proteína. Para ello se ordenan las proteínas en primer lugar de mayor a menor número de péptidos identificados, y en segundo lugar por longitud decreciente de proteína; a continuación se utiliza el ranking relativo en ambos casos para generar, mediante una función normal estandarizada inversa, variables que siguen una distribución normal estandarizada. Se toma como puntuación de proteína Ia diferencia de estas dos variables.
- Proteína precursora (fracción de experimento): Igual que Ia anterior, pero se cuenta el número de péptidos de Ia misma proteína de entre los espectros de una determinada fracción del experimento, y no de todo el experimento. Puede utilizarse cuando se ha efectuado un fraccionamiento de proteínas, mediante cualquier técnica bioquímica adecuada, de forma previa a Ia generación de los péptidos a analizar por espectrometría de masas.
- Proteína precursora (agrupamiento): se cuenta el número kt de fracciones distintas del experimento en las que aparecen péptidos de Ia proteína precursora de Ia secuencia de péptido candidato en cuestión. Se toma un elevado número K de muestras aleatorias (por ejemplo, K=1000) de péptidos identificados en el experimento de tamaño N, donde N es el número de péptidos identificados procedentes de Ia proteína precursora, y se cuenta el número ks de fracciones distintas de las que proceden los péptidos de dicha muestra. Se cuenta el número de muestras aleatorias R en las que ks toma un valor superior a kt, y se define Ia fuente de información de agrupamiento de Ia proteína precursora como R/K. Puede utilizarse cuando se ha efectuado un fraccionamiento de proteínas, mediante cualquier técnica bioquímica adecuada, de forma previa a Ia generación de los péptidos a analizar por espectrometría de masas.
Es posible, adicionalmente, utilizar transformaciones numéricas de las fuentes de información adicionales citadas, ya sean transformaciones de orden, transformaciones no lineales, categorías arbitrarias basadas en rangos de valores, probabilidades o densidades de probabilidad calculadas a partir de estas fuentes de información ad icionales, sustituyendo a éstas o en combinación con éstas, utilizando dichas transformaciones también como fuentes de información adicionales.
Una vez determinadas cuáles son las fuentes de información empleadas, se define Ia puntuación extendida del /-ésimo candidato proporcionado para el y-ésimo espectro por el /c-ésimo motor como:
sIJk = GLD(1 - pIJk, 0, 0.2142, 0.1488, 0.1488) + β1x1lJk + ... + βnxnιJk + 7AIJk ) (9) donde, pJ/f se calcula como se ha descrito anteriormente para todos los candidatos de cada motor a partir de Ia puntuación proporcionada por dicho motor, los coeficientes /3i,.../3n y / se optimizan mediante cualquier método matemático de optimización en varias dimensiones, por ejemplo maximizando el número de espectros o péptidos recuperados fijando un determinado umbral de DHR. En cada iteración del método de optimización se reordenan de mayor a menor valor de s,^ los / mejores candidatos de los K motores y se les reasigna el índice / con el objetivo de recalcular los valores Ajk- Finalmente, se define Ia meta-puntuación del j- ésimo espectro como:
S^ arg max^) (10) donde ij, y k son número enteros, tomando como péptido candidato para el y-ésimo espectro el /-ésimo candidato del /c-ésimo motor, tal que los valores de / y k maximicen el valor de Sj.
En una tercera realización preferente de Ia invención, se define el parámetro de concordancia en su forma ponderada de Ia siguiente manera:
k
A,Jk = ∑wklaIJkl , (1 1 )
1=1 , l≠k
donde a es Ia matriz de variables binarias de tamaño KxK que indica cuáles de entre los K motores proporcionan el mismo péptido candidato que el /c-ésimo motor, y w una matriz con coeficientes de peso de las concordancias entre motores. Nótese que fijando a 1 todos los valores de
Ia matriz w se obtiene Ia meta-puntuación de Ia ecuación 9, y fijando /=1 además, se obtiene Ia meta-puntuación de Ia ecuación 8. El valor de estos coeficientes podría calcularse, por ejemplo, a partir de las frecuencias de concordancia entre motores observadas en los péptidos señuelo, o bien
1 asumiendo un mismo valor inicial para todos ellos (p.ej., — ; r ), y
K(K - 1 ) optimizando a continuación dichos valores según Io descrito para Ia ecuación 9.
En una cuarta realización preferente de Ia invención, se asigna un coeficiente de peso distinto a cada motor durante Ia fase de meta- puntuación, siendo éste establecido a priori o calculado, de modo que se pueda incorporar Ia posibilidad de favorecer los resultados obtenidos por unos motores sobre otros, si las particularidades del experimento analizado lo requiriesen. El valor de estos coeficientes podría calcularse de modo análogo a los descritos anteriormente.
En una quinta realización preferente de Ia invención, tras haber generado meta-puntuaciones a partir de cada motor, se establece un orden de integración de las fuentes de información adicionales, de modo que, para un determinado motor, se incorpora una sola fuente de información adicional a Ia meta-puntuación, ignorando Ia información de concordancia con otros motores de Ia ecuación 9, y se optimiza su coeficiente β mediante un método numérico de optimización en una sola dimensión. Tras obtener una nueva meta-puntuación mediante este proceso, se toma una nueva fuente de información. Se repite este proceso hasta que todas las fuentes de información adicionales han sido incorporadas a Ia meta-puntuación. La ventaja de este proceso de meta- puntuación incorporando fuentes adicionales de información por etapas es que goza de las propiedades teóricas necesarias para eliminar posibles correlaciones entre fuentes adicionales de información. Tras actualizar las meta-puntuaciones de todos los motores, se incorpora Ia información de concordancia, utilizando los métodos descritos en las ecuaciones 8 o 9, y a continuación el método descrito en Ia ecuación 10.
En una sexta realización preferente de Ia invención, se establece un orden de integración de los distintos motores de búsqueda, de modo que el proceso empieza con dos motores (preferentemente aquellos dos que proporcionan Ia mayor sensibilidad, por ejemplo definida como el número de identificaciones a una determinada tasa de error) y se aplican las ecuaciones 8 o 9 y Ia ecuación 10. El resultado de este proceso se trata como si fuese un nuevo motor 'consenso'; se toma entonces este resultado junto con el tercer motor y se aplican las ecuaciones 8 o 9 y Ia ecuación 10. El proceso se repite hasta que han sido incorporados al 'consenso' todos Io motores, preferentemente por orden decreciente de sensibilidad de éstos. La ventaja de este proceso de meta-puntuación por etapas es que goza de las propiedades teóricas necesarias para eliminar posibles correlaciones entre motores. Después de que las secuencias de los péptidos candidatos han sido asignadas a todos los espectros MS/MS, se elimina Ia redundancia, manteniendo, para cada combinación de secuencia de péptido, carga eléctrica y patrón de estructura química, aquélla que posee Ia mayor meta-puntuación. Posteriormente, se obtiene una distribución única de meta-puntuación para cada conjunto de datos, ya que las meta- puntuaciones son independientes del estado de carga del ion precursor. A partir de los valores-p obtenidos del modo descrito en los puntos anteriores, se pueden calcular tanto las tasas de error FDR y DHR (en los dos niveles, péptido y proteína), como los valores-p para proteínas.
Entre las ventajas del método de meta-búsqueda descrito por Ia presente invención respecto a otros métodos de búsqueda de secuencias conocidos, cabe señalar los siguientes:
- Es un método completamente generalizable para su aplicación a cualquier número de motores de búsqueda.
- Emplea un método estándar para obtener las funciones de distribución estadística, aplicable a los resultados de cualquier motor de búsqueda.
- Emplea una modelización estadística robusta que permite Ia elección de una única combinación secuencia de péptidos, estado de carga y patrón de estructura química por espectro.
- El método de meta-búsqueda y su sistema de meta-puntuación agrega información adicional que no puede ser obtenida mediante Ia búsqueda con un solo motor.
- Integra en su formulación el empleo de parámetros de concordancia, definidos como el número de otros motores de búsqueda que han proporcionado el mismo péptido candidato que un motor dado.
- En cuanto a Ia detección de proteínas, se emplea un método estadístico riguroso, no sesgado, que emplea un filtrado FDR.
- Adicionalmente, el método reivindicado permite incorporar otras fuentes de información adicionales a Ia concordancia del motor, tales como el error de masa del péptido precursor, el error en el tiempo de retención, Ia especificidad de Ia digestión enzimática o Ia concordancia con Ia secuenciación de novo de Ia información. Esta flexibilidad permite al método de meta-búsqueda Ia integración de datos empleando diferentes preparaciones de muestras, métodos de digestión de proteínas y mecanismos de fragmentación de iones.
- A modo de ejemplo, se incluyen aquí los resultados de los ensayos realizados mediante el método reivindicado por Ia presente invención (ver Tabla 1 a-1f) y Tabla 2a-2d)), para las muestras de datos de acceso público RaftFIow (disponible en el repositorio de internet SourceForge), PAe000038-39 (disponible en Ia página web PeptideAtlas), PAe000114 (también en PeptideAtlas), ¡PRG2008 (del Association of Biomolecular Resource Facilities Proteome Informatics Research Group), evaluado para dos conjuntos de parámetros de búsqueda distintos (y distinguidos por los nombres ¡PRG2008 e ¡PRG2008-NE). La descripción detallada de estos conjuntos de datos y de sus experimentos asociados puede consultarse en Ia Referencia [6]. Adicionalmente, se incluyen los resultados a nivel péptido de los siguientes experimentos llevados a cabo en el Laboratorio de Proteómica del Centro Nacional de Biotecnología, Consejo Superior de Investigaciones Científicas: El experimento SKHep- LA-I se basa en el enriquecimiento de péptidos que son ligandos naturales de las moléculas del complejo mayor de histocompatibilidad de tipo I (MHC-I). En dicho experimento se purifican los péptidos a partir de células de Ia línea Sk-Hep, que expresan los alelos de clase I HLA- A*0201 , HLA-A*2402, HLA-B*3502 y HLA-BM403. Estos péptidos son generados por un proceso de digestión natural en el interior de Ia célula, unidos a moléculas de MHC y transportados a Ia superficie celular, donde son presentados a las células del sistema inmunitario. Los distintos alelos de los genes que codifican las proteínas MHC pueden tener un repertorio de péptidos ligandos distintos, con propiedades estructurales ligeramente diferentes. Se cree que algunos de estos alelos están asociados a enfermedades autoinmunes, por Io que disponer de herramientas automatizadas para Ia caracterización a gran escala de repertorios de moléculas MHC (ya sean de tipo I o II) es de notable interés biomédico. El experimento HLA CID-ETD es una réplica del experimento anterior, a diferencia de que se adquirieron espectros MS/MS utilizando dos mecanismos de fragmentación distintos conocidos por sus siglas en inglés como CID (collision-induced dissociation) y ETD (electrón transfer dissociation). El experimento fosfopéptidos ABRF2010 corresponde al análisis, también generando tanto espectros CID como ETD, de fosfopéptidos enriquecidos mediante cromatografía IMAC (immobilized metal affinity chromatography), a partir de una muestra de proteínas humanas proporcionada por Ia Association of Biomolecular Research Facilites (ABRF). La fosforilación es una modificación post-traduccional de gran importancia en procesos de señalización intracelular, por Io que los resultados de identificación de fosfopéptidos mediante espectrometría de masas aquí mostrados son de gran relevancia en el ámbito de Ia investigación biomédica y biotecnológica tanto básica como aplicada. El experimento Ecoli SILE-SILAC corresponde al análisis de una muestra proveniente de dos poblaciones de bacterias Escheήchia coli marcadas en cultivo con distintas formas isotópicas del aminoácido lisina (forma nativa o forma pesada 13Cx6, 15Nx2, +8 Da) mediante Ia técnica SILAC (Stable Isotopic Labelling by Amino acids in cell Culture), cuyos extractos proteicos se fraccionaron mediante electroforesis en gel de poliacrilamida antes de su digestión con tripsina. El experimento "Suero Frac. RP-pH básico" corresponde al análisis de una muestra de suero humano para Ia que, tras Ia digestión con tripsina del extracto proteico, se fraccionaron los péptidos obtenidos mediante cromatografía de fase reversa a pH básico (aproximadamente 10,9).
El tratamiento de los datos de los diferentes experimentos se ha realizado mediante el uso conjunto de los cuatro motores de búsqueda InsPect, MASCOT, XITANDEM (utilizado este último en dos versiones de puntuación, clásica y "k-score") y OMSSA. Los resultados obtenidos por medio del método de meta-búsqueda reivindicado por Ia presente invención se resumen en las Tablas 1 y 2. Para Ia mayoría de los conjuntos de datos empleados, el sistema de meta-puntuación combinada de todos los motores de búsqueda, empleando los valores-p obtenidos mediante modelización GLD, proporciona un incremento sustancial del número de péptidos identificados, comparado con el resultado obtenido individualmente en cualquiera de los motores considerados. Para el caso del experimento PAe000114, dado que está claramente dominado por el resultado del motor InsPect, se incluyen también, a modo de comparación, los resultados de Ia meta-búsqueda excluyendo dicho motor. La combinación del resto de los motores, incluyendo Ia información de concordancia, proporcionó una eficiencia 19% superior a Ia obtenida por OMSSA individualmente, y una eficiencia aún mayor en el resto de motores. En general, el empleo de Ia información de concordancia mejora Ia sensibilidad de todos los experimentos, incrementando entre un 9% y un 26% el número de péptidos correctamente identificados (con una FDR < 0.05 sobre un conjunto no redundante). Respecto a Ia detección de proteínas, el número de identificaciones con dicho umbral de error, aumenta entre un 6% y un 60% después de su clasificación mediante meta-puntuación. En Ia Tabla 2(a-d) se muestran los resultados del proceso de meta puntuación incorporando ninguna, una o varias fuentes de información adicional por etapas, así como utilizando datos de un solo motor o de varios motores por etapas y utilizando información de concordancia. Como puede observarse, todas las fuentes de información adicionales descritas contribuyen a incrementar Ia eficacia del proceso de meta-puntuación, a juzgar por el notable incremento en el número de asignaciones espectro-secuencia recuperadas a un determinado valor de tasa de error, especialmente cuando se utilizan varias de éstas fuentes de información adicionales en combinación. Nótese que algunas de estas fuentes de información adicional se basan en peculiaridades referentes al diseño experimental que ningún motor de búsqueda es capaz de incorporar a sus sistema de puntuación, como desviaciones en los valores esperados de tiempo de retención, tiempo de retención durante el fraccionamiento de péptidos previo al análisis mediante espectrometría de masas (experimento Suero frac. pH básico), fraccionamiento previo de proteína (experimento SILE-SILAC), formas alternativas de carga, marcas isotópicas (experimento SILE-SILAC) o mecanismos de fragmentación (experimentos HLA CID-ETD y fosfopéptidos ABRF2010.), etc. Además, el método descrito permite utilizar de forma óptima y seguir extrayendo información de dichas fuentes incluso en casos en los que el motor ya utiliza dichas fuentes en su sistema de puntuación, como es el caso de MASCOT, que internamente utiliza el error en el valor m/z del ion precursor para calcular sus puntuaciones (ver datos referentes al experimento Suero frac. pH básico), así como incorporar fácilmente puntuaciones delta y puntuaciones suplementarias proporcionadas por Ie motor además de Ia puntuación principal (ver experimento fosfopéptidos ABRF2010, datos del motor Inspect, y experimento Suero frac. pH básico, datos del motor MASCOT). En estas condiciones, Ia eficacia del proceso es aún mayor cuando se utiliza información de varios motores en lugar de un solo motor, tal y como se observa claramente para los experimentos HLA CID-ETD y fosfopéptidos ABRF2010.
TABLAS DE RESULTADOS:
Tabla 1 (a continuación): Comparación entre resultados de modelización mediante el uso de un único motor para diferentes experimentos y los resultados empleando el método de meta búsqueda. Los índices empleados son: I, InsPect; K, X-TANDEM con "k-score"; M, MASCOT; O, OMSSA; T, XITANDEM clásico. Las listas entre comas corresponden al uso de múltiples motores. "Concord." indica si se ha tenido en cuenta Ia información de concordancia. "N0 Pépt." indica el número de correspondencias de péptidos no redundantes obtenidas para el filtro FDR (o DHR, en su caso) dado. "N0 Prot." indica el numero de grupos de agregación de proteínas obtenidos para el filtro FDR (o DHR, en su caso) dado, "n/a" indica "no aplicable".
Figure imgf000028_0001
Figure imgf000029_0001
Tabla 2 (a continuación): Comparación entre resultados de modelización mediante el uso de un único motor o una combinación por etapas de varios motores (utilizando información de concordancia), a partir de datos generados mediante único mecanismo de fragmentación o mediante varios mecanismos, incorporando por etapas una, ninguna o varias fuentes de información adicionales al proceso de meta-puntuación. Los índices empleados son los mismos que en Ia tabla 1 , a los que se añade P (PHENYX). El rendimiento del proceso se indica como el número de asignaciones espectro-secuencia recuperadas in superar una determinada tasa de error medida como DHR (0,01 , 0,05 y 0,1 ). Para las fuentes de información adicionales, TODAS' indica que se incorporaron todas las fuentes de información descritas que se encontraban disponibles en esos datos; 'NINGUNA' indica que no se utilizaron fuentes de información adicionales.
Figure imgf000029_0002
Figure imgf000030_0001
Figure imgf000030_0002
Figure imgf000030_0003

Claims

REIVINDICACIONES
1.- Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas y búsqueda en bases de datos de secuencias empleando, al menos, dos motores diferentes de búsqueda, en el que se obtienen modelos de distribución de puntuaciones asignadas por cada uno de dichos motores y se asigna un valor de probabilidad y/o una tasa de error a partir de estos modelos a cada puntuación, caracterizado porque:
a) Se modelizan las puntuaciones calculadas en cada motor por medio de funciones de distribución, calculando los valores de probabilidad de las asignaciones espectro-péptido.
b) Se calcula el grado de coincidencia entre los distintos motores utilizados, mediante parámetros de concordancia de las identificaciones péptido-secuencia.
c) Se modeliza Ia distribución de meta-puntuaciones mediante funciones de distribución que incluyen Ia presencia de los parámetros de concordancia, obteniendo los valores de probabilidad, tasas de error o cualesquiera otras medidas mediante las cuales se obtenga una clasificación estadística de las asignaciones péptido-secuencia, para el conjunto de todos los motores de búsqueda utilizados.
d) Opcionalmente, se construyen las puntuaciones del péptido y de Ia proteína precursora a partir de las probabilidades obtenidas en el punto c).
2.- Método según Ia reivindicación 1 , caracterizado porque las bases de datos de secuencias utilizadas son bases de datos híbridas diana/señuelo y donde, opcionalmente, las funciones de distribución empleadas para obtener las probabilidades y las puntuaciones de cada motor por separado, son distribuciones Lambda generalizadas (GLD's).
3.- Método según cualquiera de las reivindicaciones 1 -2, caracterizado porque Ia tasa de error empleada viene dada por Ia tasa de falsa detección (FDR).
4.- Método según cualquiera de las reivindicaciones 1 -2, caracterizado porque Ia tasa de error empleada viene dada por Ia tasa de impacto en señuelo (DHR), por Ia probabilidad de obtener al menos un falso positivo (FWER) o por cualesquiera otras cantidades estadísticas que den una medida del error de precisión en las asignaciones obtenidas.
5.- Método según cualquiera de las reivindicaciones 1 -4, caracterizado porque se asume que las meta-puntuaciones, calculadas para el conjunto de los motores de búsqueda, siguen una distribución Lambda generalizada (GLD) a partir de Ia cual se obtiene una probabilidad.
6.- Método seg ú n cualq u iera de l as reivind icaciones 1 -4, caracterizado porque se asume que las meta-puntuaciones, calculadas para el conjunto de los motores de búsqueda, siguen una distribución diferente a una función Lambda generalizada (GLD), ya sea representada mediante una función analítica o calculada numéricamente.
7.- Método segú n cualq u iera de las reivind icaciones 1 -6, caracterizado porque se asigna un coeficiente de peso distinto a cada motor durante Ia fase de meta-puntuación, siendo éste establecido a priori o calculado en función de cualquier característica de los motores y/o las bases de datos de secuencias empleados, por Ia cual se desee favorecer los resultados de unos motores frente a otros.
8.- Método según cualquiera de las reivindicaciones 1 -7, caracterizado porque se establece una relación entre Ia meta-puntuación calculada para una asignación espectro-péptido y las características de Ia secuencia del péptido candidato, tales como su longitud, presencia o ausencia de sub-secuencias o motivos estructurales, o concordancia de Ia secuencia del péptido con Io esperado a partir del mecanismo de corte del agente químico utilizado en Ia digestión de las proteínas.
9.- Método segú n cualq u iera de las reivindicaciones 1 -8, caracterizado porque se establece una relación entre Ia meta-puntuación calculada para una asignación espectro-péptido y otras variables medibles, como el error observado en Ia medición de Ia masa del precursor, Ia movilidad iónica, Ia predicción del tiempo de retención durante Ia separación cromatográfica, Ia predicción del punto isoeléctrico en una posible separación por isoelectroenfoque, o medidas similares obtenidas a partir de variantes de estas técnicas, o transformaciones de dichas medidas.
10.- Método según Ia reivindicación 9, caracterizado porque se obtiene, para cada espectro, las mejores puntuaciones de cada uno de los motores, se somete a dichas puntuaciones a meta-puntuación, utilizando una o más de las siguientes fuentes de información adicionales:
- relacionadas con las características fisicoquímicas de las secuencias de péptidos candidato, tales como el error del valor m/z del ion precursor, el error del tiempo de retención o el error del tiempo retención del fraccionamiento;
- relacionadas con el comportamiento esperado del agente químico u enzima que ha generado los péptidos analizados mediante espectrometría de masas, tales como el número de dianas internas o el número de extremos específicos;
- relacionadas con Ia generación de múltiples espectros por parte de un mismo péptido, tales como las formas alternativas de carga eléctrica, las marcas isotópicas, las modificaciones químicas o los mecanismos de fragmentación; - relacionadas con características específicas de los motores o del rendimiento de éstos en función del tipo de datos, tales como Ia carga eléctrica del ion precursor, el mecanismo de fragmentación, las puntuaciones delta o las puntuaciones suplementarias;
- relacionadas con Ia proteína precursora de los péptidos candidatos, tales como Ia proteína precursora en un experimento completo, Ia proteína precursora en una fracción de experimento o Ia proteína precursora por agrupamiento;
y se reordenan las meta-puntuaciones de cada motor, tomando Ia mejor meta-puntuación de cada motor para completar Ia fase de meta- puntuación.
11.- Método según Ia reivindicación 10, caracterizado porque se utilizan transformaciones numéricas de las fuentes de información adicionales, ya sean transformaciones de orden, transformaciones no lineales o densidades de probabilidad calculadas a partir de estas fuentes de información adicionales, ya sea sustituyendo a éstas o en combinación con éstas, utilizando dichas transformaciones como fuentes de información adicionales.
12.- Método según cualquiera de las reivindicaciones 1 -11 , caracterizado porque se hace uso de parámetros de concordancia extendidos, definidos como el número de otros motores que proporcionan, como mejor candidato, el mismo péptido que uno de los candidatos dados proporcionado por un motor.
13.- Método según cualquiera de las reivindicaciones 1 -12, caracterizado porque se define el parámetro de concordancia en su forma ponderada mediante el uso de coeficientes de peso.
14.- Método según cualquiera de las reivindicaciones 1 -13, caracterizado porque distintas búsquedas efectuadas sobre Ia misma colección de espectros utilizando distintas combinaciones de parámetros configurables del mismo motor se tratan como búsquedas efectuadas por motores distintos.
15.- Método según cualqu iera de las reivind icaciones 1 -14, caracterizado porque se establece una relación entre Ia meta-puntuación calculada para una asignación espectro-péptido e información estructural obtenida mediante interpretación de novo del espectro MS/MS.
16.- Método según cualquiera de las reivindicaciones 10-11 , caracterizado porque las fuentes de información adicionales para cada motor se integran por etapas en el proceso de meta-puntuación, generando meta-puntuaciones a partir de cada motor y estableciendo un orden de integración de dichas fuentes de información adicionales, de modo que para un determinado motor se incorpora una sola fuente de información adicional a Ia meta-puntuación, ignorando Ia información de concordancia con otros motores, y se obtiene una nueva meta- puntuación, repitiendo este proceso hasta que todas las fuentes de información adicionales han sido incorporadas a Ia meta-puntuación e incorporando posteriormente Ia información de concordancia.
17.- Método seg ú n cualq u iera de las reivindicaciones 1 -16, caracterizado porque los distintos motores se integran por etapas en el proceso de meta-puntuación, estableciendo un orden de integración de los distintos motores de búsqueda, comenzando con Ia integración de dos motores, y tratando Ia meta-puntuación de este proceso como un nuevo motor 'consenso'; posteriormente se toma este resultado y se integra con un tercer motor, repitiendo el proceso sucesivamente hasta que han sido incorporados al 'consenso' todos los motores empleados.
18.- Dispositivo destinado al análisis de resultados de espectrometría de masas en tándem, comprendiendo dicho dispositivo medios mecánicos, electromagnéticos, electrónicos e informáticos realizados en forma de hardware y/o software, y estando dichos medios orientados a conformar un sistema de análisis de datos para Ia identificación de péptidos y proteínas, caracterizado porque implementa un método según cualquiera de las reivindicaciones 1 -17.
PCT/ES2010/070445 2009-07-01 2010-06-30 Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas WO2011000991A1 (es)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US13/381,438 US9354236B2 (en) 2009-07-01 2010-06-30 Method for identifying peptides and proteins from mass spectrometry data
DK10793643.7T DK2450815T3 (da) 2009-07-01 2010-06-30 Fremgangsmåde til at identificere peptider og proteiner ud fra massespektrometri-data
ES10793643T ES2432677T3 (es) 2009-07-01 2010-06-30 Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas
EP10793643.7A EP2450815B1 (en) 2009-07-01 2010-06-30 Method for identifying peptides and proteins according to mass spectrometry data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ES200930402 2009-07-01
ES200930402 2009-07-01

Publications (1)

Publication Number Publication Date
WO2011000991A1 true WO2011000991A1 (es) 2011-01-06

Family

ID=43410520

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/ES2010/070445 WO2011000991A1 (es) 2009-07-01 2010-06-30 Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas

Country Status (5)

Country Link
US (1) US9354236B2 (es)
EP (1) EP2450815B1 (es)
DK (1) DK2450815T3 (es)
ES (1) ES2432677T3 (es)
WO (1) WO2011000991A1 (es)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105823883A (zh) * 2015-11-19 2016-08-03 云南民族大学 基于泊松分布模型的蛋白质二级质谱鉴定方法
CN111524549A (zh) * 2020-03-31 2020-08-11 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11094399B2 (en) * 2011-01-11 2021-08-17 Shimadzu Corporation Method, system and program for analyzing mass spectrometoric data
US10446376B2 (en) 2012-12-20 2019-10-15 Dh Technologies Development Pte. Ltd. Compound identification using multiple spectra at different collision energies
CN104798174B (zh) * 2012-12-20 2017-09-08 Dh科技发展私人贸易有限公司 用于使用多个光谱以不同碰撞能量进行化合物识别的***、方法及设备
WO2014106833A1 (en) * 2013-01-07 2014-07-10 Singapore Health Services Pte Ltd A process for identification of biomarkers for keratoconus progression
CN103439441B (zh) * 2013-08-26 2015-04-15 中国科学院数学与***科学研究院 一种基于子集错误率估计的肽鉴定方法
US9720001B2 (en) * 2014-05-21 2017-08-01 Thermo Finnigan Llc Methods for mass spectrometric biopolymer analysis using optimized weighted oligomer scheduling
EP3311152A4 (en) * 2015-06-18 2019-02-27 DH Technologies Development PTE. Ltd. PROBABILITY-BASED SUCCESSORIES FOR LIBRARIES (PROLS)
KR20200105497A (ko) * 2017-12-29 2020-09-07 노틸러스 바이오테크놀로지, 인크. 단백질 식별을 위한 디코딩 접근법
CN108388774B (zh) * 2018-01-17 2021-07-23 中国石油大学(华东) 一种多肽谱匹配数据的在线分析方法
EP3598135A1 (en) * 2018-07-20 2020-01-22 Univerzita Palackého v Olomouci Method of identification of entities from mass spectra
US11211236B2 (en) * 2019-05-30 2021-12-28 Thermo Finnigan Llc Operating a mass spectrometer utilizing a promotion list
WO2020260419A1 (en) * 2019-06-24 2020-12-30 Universidad Del Pais Vasco-Euskal Herriko Unibersitatea Protein probability model
CN111883214B (zh) * 2019-07-05 2023-06-16 深圳数字生命研究院 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置
US11309061B1 (en) * 2021-07-02 2022-04-19 The Florida International University Board Of Trustees Systems and methods for peptide identification

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004013635A2 (en) * 2002-07-29 2004-02-12 Geneva Bioinformatics S.A. System and method for scoring peptide matches

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004013635A2 (en) * 2002-07-29 2004-02-12 Geneva Bioinformatics S.A. System and method for scoring peptide matches

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
ALVES, G. ET AL.: "Enhancing peptide identification confidence by combining search methods", JOURNAL OF PROTEOME RESEARCH., vol. 7, no. 8, 18 June 2008 (2008-06-18), pages 3102 - 3113, XP008150673 *
ALVES, G., WU, WW, WANG, G., SHEN, R.-F., YU, Y.-K.: "Enhancing confidence peptide identification by combining search methods", J. PROTEOME RES, vol. 8, 2008, pages 3102 - 3113, XP008150673, DOI: doi:10.1021/pr700798h
BC SEARLE, M. TURNER, A. NESVIZHSKII: "Improving sensitivity by Combining results from multiple MS / MS Search Methodologies", J. PROTEOME RES, vol. 7, 2008, pages 245 - 253
HIGGS, RE, KNIERMAN, MD, FREEMAN AB, GELBERT, LM, PATIL, ST, HALE, JE: "Estimating the Statistical Significance of Peptide Identifications from shotgun proteomics experiments", J. PROTEOME RES, vol. 6, 2007, pages 1758 - 1767
KARIAN ZA, DUDEWICZ, EJ: "Fitting statistical distributions: the Generalized Lambda Distribution and Generalized Bootstrap Methods", 2000, CHAPMAN AND HALL / CRC
RAMOS-FERNANDEZ, A. ET AL.: "Generalized method for probability-based peptide and protein identification from tandem mass spectrometry data and sequence database searching", MOLECULAR & CELLULAR PROTEOMICS., vol. 7, no. 9, 1 September 2008 (2008-09-01), pages 1748 - 1754, XP008150671 *
RAMOS-FERNANDEZ, A. PARADELA, A., NAVAJAS, R., ALBAR, JP: "Generalized method for probability-based peptide and protein identification from tandem mass spectrometry data and sequence database searching", MOL. CELL. PROTEOMICS, vol. 7, 2008, pages 1748 - 1754, XP008150671, DOI: doi:10.1074/mcp.M800122-MCP200
ROHRBOUGH, J.G. ET AL.: "Verification of single- peptide protein identifications by the application of complementary database search algorithms", JOURNAL OF BIOMOLECULAR TECHNIQUES., vol. 17, no. 5, 1 December 2006 (2006-12-01), pages 327 - 332, XP008150672 *
ROHRBOUGH, JG, BRESCIA, L., MERCHANT, N., MILLER, S., HAYNES, PA: "Verification of single-peptide protein identifications by the application of complementary database search programs", J. BIOMOL. TECH, vol. 5, 2006, pages 327 - 332, XP008150672
See also references of EP2450815A4
YU W., TAYLOR JA, DAVIS MT, BONILLA LE, LEE KA, AUGER PL, FARNSWORTH CC, WELCHER AA, PATTERNSON SD: "Maximizing the sensivity and reliability of peptide identification in large-scale proteomic experiments by Harnessing multiple search engines", PROTEOMICS, vol. 10, 2010, pages 1172 - 1189

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105823883A (zh) * 2015-11-19 2016-08-03 云南民族大学 基于泊松分布模型的蛋白质二级质谱鉴定方法
CN111524549A (zh) * 2020-03-31 2020-08-11 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法
CN111524549B (zh) * 2020-03-31 2023-04-25 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法

Also Published As

Publication number Publication date
DK2450815T3 (da) 2013-11-11
EP2450815A1 (en) 2012-05-09
EP2450815B1 (en) 2013-08-07
ES2432677T3 (es) 2013-12-04
US9354236B2 (en) 2016-05-31
US20120191685A1 (en) 2012-07-26
EP2450815A4 (en) 2012-06-20

Similar Documents

Publication Publication Date Title
ES2432677T3 (es) Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas
CA2493956A1 (en) System and method for scoring peptide matches
Curran et al. Computer aided manual validation of mass spectrometry-based proteomic data
Vitorino et al. De novo sequencing of proteins by mass spectrometry
Cerqueira et al. MUDE: a new approach for optimizing sensitivity in the target-decoy search strategy for large-scale peptide/protein identification
Zeng et al. MSTracer: A Machine Learning Software Tool for Peptide Feature Detection from Liquid Chromatography–Mass Spectrometry Data
Polacco et al. Discovering mercury protein modifications in whole proteomes using natural isotope distributions observed in liquid chromatography-tandem mass spectrometry
Koh et al. EBprot: Statistical analysis of labeling‐based quantitative proteomics data
Dorl et al. PhoStar: identifying tandem mass spectra of phosphorylated peptides before database search
Wu et al. A new estimation of protein-level false discovery rate
Wan et al. ComplexQuant: high-throughput computational pipeline for the global quantitative analysis of endogenous soluble protein complexes using high resolution protein HPLC and precision label-free LC/MS/MS
JP7218019B2 (ja) 質量スペクトルからの存在物の同定の方法
Sun et al. BPDA2d—a 2D global optimization-based Bayesian peptide detection algorithm for liquid chromatograph–mass spectrometry
Alves et al. Robust accurate identification of peptides (RAId): deciphering MS2 data using a structured library search with de novo based statistics
Mun et al. Accurate precursor mass assignment improves peptide identification in data-independent acquisition mass spectrometry
Park et al. Human plasma proteome analysis by reversed sequence database search and molecular weight correlation based on a bacterial proteome analysis
Shao et al. Denoising peptide tandem mass spectra for spectral libraries: a Bayesian approach
Ravikumar et al. Resources for assignment of phosphorylation sites on peptides and proteins
Fridman et al. The probability distribution for a random match between an experimental-theoretical spectral pair in tandem mass spectrometry
Bessant Proteome informatics
Ivakhno et al. Quantitative proteomics and its applications for systems biology
Hamady et al. Key challenges in proteomics and proteoinformatics
Brosch et al. Scoring and validation of tandem MS peptide identification methods
Gandhi et al. Apex Peptide Elution Chain Selection: A New Strategy for Selecting Precursors in 2D-LC− MALDI-TOF/TOF Experiments on Complex Biological Samples
Zhang et al. Accurate prediction of protein dihedral angles through conditional random field

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10793643

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2010793643

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13381438

Country of ref document: US