WO2011000991A1

WO2011000991A1 - Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas

Info

Publication number: WO2011000991A1
Application number: PCT/ES2010/070445
Authority: WO
Inventors: Juan Pablo ALBAR RAMÍREZ; Antonio RAMOS FERNÁNDEZ
Original assignee: Consejo Superior De Investigaciones Científicas
Priority date: 2009-07-01
Filing date: 2010-06-30
Publication date: 2011-01-06
Also published as: DK2450815T3; EP2450815A1; EP2450815B1; ES2432677T3; US9354236B2; US20120191685A1; EP2450815A4

Abstract

La presente invención se refiere a un método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas empleando múltiples motores de búsqueda, caracterizado porque: a) se modelizan las puntuaciones calculadas en cada motor; b) se incluye la presencia de parámetros de concordancia; c) se modeliza la distribución de meta-puntuaciones mediante funciones de distribución; d) se construyen las puntuaciones del péptido y de la proteína precursora. Entre las principales ventajas que presenta la invención, cabe citar su flexibilidad para ser aplicada a un número arbitrario de motores, el empleo de parámetros de concordancia que agregan de información adicional no disponible con un solo motor, el aumento del número de péptidos- proteínas identificados o su versatilidad para incorporar otras fuentes de información adicionales, en función del tipo de experimento analizado.

Description

MÉTODO DE IDENTIFICACIÓN DE PÉPTIDOS Y PROTEÍNAS A PARTIR DE DATOS DE ESPECTROMETRÍA DE MASAS

CAMPO DE LA INVENCIÓN

La presente invención se inscribe dentro del campo de los métodos de identificación y caracterización estructural de proteínas a gran escala mediante técnicas de espectrometría de masas. ANTECEDENTES DE LA INVENCIÓN

La Proteómica es una de las ciencias de Ia era post-genómica que posee un mayor impacto en Ia biotecnología moderna, pues comprende Ia identificación y cuantificación de grandes cantidades de proteínas en matrices extremadamente complejas (fluidos biológicos, tejidos o cultivos celulares, entre otras). Actualmente, las técnicas de mayor éxito y relevancia académica e industrial empleadas en proteómica son aquéllas basadas en espectrometría de masas en tándem (MS/MS), que consisten en Ia extracción de las proteínas de Ia muestra a analizar, Ia digestión de dichas proteínas con enzimas u otros agentes químicos para obtener péptidos (más fáciles de analizar), separar dichos péptidos habitualmente mediante técnicas cromatográficas, e introducirlos en un espectrómetro de masas en forma ionizada para medir su masa y fragmentarlos dentro del espectrómetro con el objetivo de obtener información estructural, de modo que permita Ia identificación de las proteínas conformadas por los péptidos analizados.

La investigación actual en Proteómica basada en espectrometría de masas en tándem comprende Ia generación de grandes volúmenes de datos que contienen típicamente entre miles y millones de espectros de masas. Dichos espectros son asignados a secuencias de péptidos registradas en bases de datos, empleando programas informáticos denominados motores de búsqueda. En el desarrollo histórico de Ia Proteómica basada en MS/MS, dado el alto número de espectros involucrados en los análisis, Ia validación manual de Ia correspondencia espectro-péptido se ha convertido en poco tiempo en impracticable, por Io que se ha hecho necesario el desarrollo de procedimientos automáticos no manejados por el usuario, que permitan identificar los péptidos analizados, así como descartar las correspondencias espurias (conocidas como falsas detecciones o falsos positivos). Estos procedimientos comprenden el empleo de algoritmos basados en sistemas de puntuación estadística para clasificar cada espectro analizado en una muestra, de forma que, cuanto mayor sea Ia puntuación obtenida, mayor es Ia probabilidad de que Ia asignación espectro-péptido sea Ia correcta.

Actualmente, las diferencias existentes entre los distintos motores de búsqueda del mercado se derivan del pre-procesado y Ia normalización de los espectros MS/MS analizados, como consecuencia del empleo de distintos modelos estadísticos y métodos numéricos en el sistema de puntuación de cada motor. Estas diferencias suponen el principal problema a Ia hora de analizar espectros MS/MS empleando múltiples motores de búsqueda, ya que algunas secuencias de péptidos identificadas correctamente en alguno de los motores, pueden no serlo en otros. Éste es un hecho ampliamente conocido por los espectrometristas experimentados. La presente invención comprende un método de búsqueda combinada empleando múltiples motores (definida de aquí en adelante como meta-búsqueda) orientado a Ia solución de este inconveniente, así como a Ia optimización de las técnicas de análisis de los espectros obtenidos mediante MS/MS. Dicho método proporciona también un criterio generalizado de puntuación (que definimos como meta-puntuación) de los resultados obtenidos por los distintos motores de bases de datos empleados, mediante una modelización estadística suficientemente robusta que permita obtener una asignación espectro- péptido única.

A pesar de los beneficios potenciales que posee un método de meta- búsqueda con múltiples motores, pocos son hasta Ia fecha los intentos que se han realizado en esta dirección. Entre los más relevantes, cabe citar los trabajos desarrollados por Rohrbough et al [1], Higgs et al [2], Searle et al [3] y Alves et al [4]. Por otra parte, dentro de estado de Ia técnica relacionado con Ia investigación en proteómica, sí es más abundante Ia existencia de productos comerciales con opciones de búsqueda comparativa (Io que difiere del concepto de meta-búsqueda) utilizando varios motores que presentan algunas aplicaciones informáticas del mercado, tales como Ia opción "InChorus" del motor de búsqueda PEAKS (distribuido por Bioinformatics Solutions Inc.), el sistema de análisis de datos Rosetta Elucidator (distribuido por Rosetta Biosoftware), Ia plataforma de análisis Proteome Discoverer (distribuida por Thermo Fisher Scientific Inc.) o el motor Phenyx, distribuido por Geneva Bioinformatics SA.

Otra aplicación de este campo de Ia técnica es Ia implementación de los métodos de búsqueda en dispositivos de análisis de péptidos y proteínas que combinan tanto hardware como software, y son comercializados de forma autónoma como estaciones de trabajo "plug- and-play" o como servidores que permiten ser empleados simultáneamente por múltiples usuarios. Un ejemplo de este tipo de dispositivos sería Ia estación de trabajo Sorcerer 2, comercializada por Ia empresa Sage-N Research, Inc., o el servidor configurable distribuido de form a co nj u n ta po r I B M y Thermo Electron Corporation. Dichos dispositivos tampoco integran, hasta Ia fecha, el uso simultáneo de varios motores mediante un método de meta-búsqueda.

Si bien Ia presente invención comparte algunos planteamientos y objetivos con cada una de las técnicas anteriormente citadas, es el único de todos los métodos que presenta el siguiente conjunto de ventajas:

- El método de meta-búsqueda y su sistema de meta-puntuación agrega información adicional que no puede ser obtenida mediante Ia búsqueda con un solo motor.

- Emplea una modelización estadística robusta que permite Ia elección de una única combinación de secuencia de péptidos, carga eléctrica y composición química por espectro (a diferencia de los métodos empleados por PEAKS, Rosetta Elucidator, Proteome Discoverer y Phenyx, que únicamente usan los resultados de múltiples motores con fines comparativos, sin Ia posibilidad de utilizar una estadística común y un sistema común de meta-puntuación).

- Es un método completamente generalizable para el empleo de cualquier número de motores de búsqueda (a diferencia de los métodos propuestos en las Referencias [1] y [2], cuya generalización a más de dos motores no resulta factible).

- Emplea un método estándar aplicable a los resultados de cualquier motor de búsqueda para obtener las funciones de distribución estadística, a diferencia del método descrito en Ia Referencia [3] y su implementación comercial en Ia aplicación Scaffold (distribuida por Proteome Software Inc.), cuya extensión a más de los tres motores estudiados necesitaría encontrar una distribución satisfactoria para cada nuevo motor de búsqueda utilizado.

- Integra en su formulación el empleo de parámetros de concordancia, definidos como el número de otros motores de búsqueda que han proporcionado el mismo péptido candidato que un motor dado. El empleo de parámetros de concordancia no se contempla en el método planteado en Ia Referencia [4], perdiéndose a causa de su ausencia una parte valiosa de Ia información, que contribuye sensiblemente al incremento del número péptidos identificados.

- Optimiza automáticamente los valores de todos los parámetros que participan en el proceso mediante modelado estadístico, sin necesidad de definir ningún tipo de filtro o mecanismo de puntuación arbitrario o prefijar valores para los coeficientes de éstos, a diferencia de métodos basados en múltiples filtros arbitrarios o mecanismos de puntuación predefinidos descritos en las referencias [4] y [5].

- En cuanto a Ia detección de proteínas, se emplea un método estadístico riguroso, no sesgado, que emplea un filtrado definido por las tasas de error en las asignaciones secuencia-péptido. - Adicional mente, el método reivindicado es suficientemente flexible como para incorporar otras fuentes de información adicionales a Ia concordancia del motor, tales como el filtrado mediante el error de masa del ion precursor de Ia secuencia (definido como Ia diferencia entre Ia masa teórica de un ion de péptido y Ia medición de Ia masa obtenida por el espectrómetro, ya sea utilizando su masa molecular o su relación masa/carga, m/Z), el error en el tiempo de retención (definido como el tiempo característico de retención durante Ia separación cromatográfica), el error de predicción del punto isoeléctrico (similar al factor anterior, cuando los péptidos se fraccionan utilizando técnicas de separación por isoelectroenfoque), Ia movilidad iónica (en los espectrómetros de masas que incorporan ese tipo de análisis, basado en Ia acumulación iónica de especies químicas bajo Ia acción de un campo eléctrico), Ia especificidad de Ia digestión enzimática empleada (es decir, las características de Ia segmentación de las proteínas en función del tipo de enzimas empleados para su digestión), Ia detección de múltiples patrones isotópicos para un mismo péptido (habitual en experimentos de marcado isotópico estable empleados en aplicaciones de proteómica cuantitativa) o Ia concordancia con Ia secuenciación obtenida por MS/MS sin el uso de un motor de búsqueda (conocida como secuenciación de novo de Ia información). Esta flexibilidad permite al método de meta-búsqueda Ia integración de datos empleando diferentes preparaciones de muestras, distintos métodos de digestión de proteínas y diversos mecanismos de fragmentación de iones, Io que Io convierten en una herramienta adecuada para Ia identificación a gran escala de proteínas.

La presente invención se basa en un método de meta-búsqueda empleando los resultados de asignación espectro-péptido obtenidos en diferentes motores de búsqueda sobre bases de datos híbridas diana/señuelo, que contienen una proporción 1 :1 de proteínas reales frente a proteínas falsas. Dichas proteínas falsas se obtienen habitualmente invirtiendo Ia secuencia de cada una de las proteínas reales. Como paso previo a Ia asignación de meta-resultados, el método de análisis de resultados en cada uno de los motores estudiados por separado se realiza mediante Ia técnica desarrollada por Ramos- Fernández et al [6] (desarrollada para búsquedas empleando un único motor), basada en el uso de distribuciones Lambda generalizadas (GLD's). Dichas GLD's son funciones de cuatro parámetros extremadamente flexibles que pueden representar con gran precisión Ia mayoría de las familias más importantes de distribuciones de probabilidad continuas empleadas en modelización estadística de histogramas. El modelo de GLD's (descrito en, por ejemplo, el trabajo de Karian et al [6]) no ha sido previamente empleado para realizar búsquedas combinadas en múltiples motores de bases de datos de secuencias, y proporciona el marco teórico del modelo estadístico sobre el que opera el método de meta-búsqueda y meta-puntuación aquí reivindicado. A diferencia del modelo de Ia Referencia [7], Ia invención aquí reivindicada se presenta como un método que pueda ser implementado de forma automática, suministrando criterios objetivos que permitan Ia elección de Ia GLD que mejor se adapte a los resultados observados, sin necesidad de supervisar personalmente cada uno de los modelos candidatos. REFERENCIAS

[1] Rohrbough, J. G., Breci, L., Merchant, N., Miller, S., Haynes, P.A.

(2006). "Verification of single-peptide protein identifications by the application of complementary datábase search programs". J. Biomol. Tech. 5, 327-332.

[2] Higgs, R.E., Knierman, M. D., Freeman A.B., Gelbert, L. M., Patil,

ST. , Hale, J. E. (2007). "Estimating the statistical significance of peptide identifications from shotgun proteomics experiments". J. Proteome Res. 6,

1758-1767.

[3] Searle B. C₁ Turner M., Nesvizhskii A. (2008). "Improving sensitivity by combining results from múltiple MS/MS search methodologies". J. Proteome Res. 7, 245-253. [4] Alves, G., Wu, W.W., Wang, G., Shen, R.-F., Yu, Y.-K. (2008). "Enhancing peptide identification confidence by combining search methods". J. Proteome Res. 8, 3102-3113.

[5] Yu W., Taylor J. A., Davis M. T., Bonilla L. E., Lee K. A., Auger P. L., Farnsworth C. C₁ Welcher A. A., Patternson S. D. (2010) "Maximizing the sensivity and reliability of peptide identification in large-scale proteomic experiments by harnessing múltiple search engines". Proteomics 10,

1 172-1189.

[6] Ramos-Fernández, A., Paradela, A., Navajas, R., Albar, J. P. (2008). "Generalized method for probability-based peptide and protein identification from tándem mass spectrometry data and sequence datábase searching". Mol. CeII. Proteomics 7, 1748-1754.

[7] Karian Z.A., Dudewicz, EJ. (2000) "Fitting statistical distributions: the Generalized Lambda Distribution and Generalized Bootstrap methods". Chapman and Hall/CRC.

SUMARIO DE LA INVENCIÓN

Un objeto de Ia presente invención es proporcionar un método generalizado para Ia identificación de péptidos y proteínas a partir de datos de espectrometría de masas en tándem.

Otro objeto de Ia presente invención es proporcionar un motor de meta-búsqueda en el cual los péptidos candidatos se obtienen a partir de múltiples motores de búsqueda en bases de datos de secuencias.

Éstos y otros objetos se consiguen mediante un método en el que:

- Se realiza una búsqueda empleando, al menos, dos motores de búsqueda en bases de datos de secuencias (meta-búsqueda) y que puede ser extendido para el análisis de cualquier número de motores. Con ello se genera información adicional que no puede ser obtenida mediante Ia búsqueda con un solo motor.

- Se clasifican los péptidos candidatos en cada motor de búsqueda para construir un modelo de distribuciones Lambda generalizadas (GLD's). Se consigue con ello un soporte teórico completamente general, aplicable a un número arbitrario de motores de búsqueda.

- Se integran los datos de los múltiples motores de búsqueda mediante un sistema de meta-puntuación basado en distribuciones generalizadas de probabilidad y valores-p generalizados (definidos estos últimos como los valores de probabilidad de que una determinada detección secuencia-péptido se haya producido de forma aleatoria). Se consigue con ello una modelización estadística robusta que permite Ia elección de una única combinación secuencia de péptidos, carga eléctrica y composición química, por espectro.

- El sistema de meta-puntuación incluye Ia presencia de parámetros de concordancia que proporcionan información sobre Ia coincidencia de asignaciones secuencia-péptido en múltiples motores. Se consigue con ello obtener una mayor información de análisis, que contribuye sensiblemente al incremento del número de péptidos identificados.

En una realización preferente de Ia presente invención, Ia integración de los datos de los múltiples motores de búsqueda se lleva a cabo mediante un sistema de meta-puntuación basado en distribuciones Lambda generalizadas (GLD's) y valores-p generalizados. Se consigue con ello una distribución única de meta-puntuaciones, así como un sistema de clasificación de asignación secuencia-péptido que integra los datos de todos los motores de búsqueda utilizados, proporcionando información agregada no disponible mediante el uso de un único motor.

En una realización preferente de Ia presente invención se estima una tasa de error generalizada, bien por medio de Ia tasa de falsa detección (nombrada habitualmente por su término inglés, "false discovery rate", o FDR, y definida en Ia descripción detallada de Ia invención), bien por medio de Ia tasa de impacto en señuelo (designada por su término inglés, "decoy hit rate" o DHR, y definida en Ia descripción detallada de Ia invención), por medio de Ia probabilidad de obtener al menos un falso positivo (denominada esta tasa como "Familywise error rate", FWER, y definida en Ia descripción detallada de Ia invención) o por medio de cualquier otra medida estadística del error en Ia identificación. Se consigue con ello facilitar un estimador del acierto en las asignaciones péptido-secuencia para un conjunto de datos dado.

En una realización preferente de Ia presente invención, se calculan los valores-p correspondientes a Ia asignación de proteínas precursoras de los conjuntos de datos, así como las tasas de error FDR y DHR de dichas proteínas. Se consigue con ello un conjunto único de datos sobre Ia información agregada de todos los motores de búsqueda sobre Ia proteína precursora de los péptidos detectados.

En una realización preferente de Ia presente invención, se asigna un coeficiente de peso distinto a cada motor durante Ia fase de meta- puntuación, siendo éste establecido a priori o calculado en función de factores tales como Ia tendencia a Ia concordancia de algunos de los motores seleccionados (por emplear, por ejemplo, algoritmos similares que produzcan solapamiento de resultados), que alguno de los motores posea un rendimiento muy superior al resto, o cualquier otra situación en Ia que se desee efectuar una ponderación asimétrica entre las distintas fuentes empleadas. Con ello se incorpora Ia posibilidad de favorecer el valor de Ia información obtenida por unos motores sobre otros.

En una realización preferente de Ia presente invención, se establece una relación entre Ia meta-puntuación calculada para una asignación espectro-péptido y las características de Ia secuencia del péptido candidato, tales como su longitud, presencia o ausencia de sub- secuencias o motivos estructurales, así como Ia concordancia de Ia secuencia del péptido con Io esperado a partir del mecanismo de corte del agente químico utilizado en Ia digestión de las proteínas. Se consigue con ello incorporar al método de meta-puntuación aquellos factores esperables en las secuencias obtenidas, en función del las características de experimento analizado, para mejorar Ia discriminación entre asignaciones correctas e incorrectas.

En una realización preferente de Ia presente invención, se integra el método de meta-búsqueda en un dispositivo destinado al análisis de resultados de espectrometría de masas en tándem, que comprenda los medios mecánicos, electromagnéticos, electrónicos o informáticos realizados en forma de hardware y/o software, estando éstos orientados a conformar un sistema de análisis de datos para Ia identificación de péptidos y proteínas.

Otras características y ventajas de Ia presente invención se desprenderán de Ia descripción detallada que sigue y de una realización ilustrativa de su objeto en relación con Ia figura que Io acompaña. DESCRIPCIÓN DE LAS FIGURAS

La Figura 1 es un diagrama esquemático del método de meta- búsqueda descrito en Ia presente invención. En él se representa Ia búsqueda de secuencias MS/MS sobre conjuntos de espectros 1 mediante el uso de múltiples motores de búsqueda M disponibles en el mercado sobre bases de datos híbridas diana/señuelo 2. Las puntuaciones x asociadas a los resultados señuelo se clasifican por el estado de carga del ion precursor y se representan como densidades de probabilidad y, ajustándose a un modelo GLD y calculando sus valores-p V. Los valores-p V obtenidos se representan frente a su frecuencia relativa x'. Se incluye también el modelo GLD utilizado para representar Ia distribución de las meta-puntuaciones x" como densidades de probabilidad y, realizada durante Ia fase de cálculo de meta-puntuación 3 descrito por Ia presente invención.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

El método de meta-búsqueda reivindicado en Ia presente invención comprende las siguientes etapas:

1. Búsqueda MS/MS: La búsqueda en las bases de datos MS/MS se realiza por medio de los motores de búsqueda empleados en el proceso de meta-búsqueda. La lista de picos de los espectros se emplea como input del sistema, determinando los parámetros de cada motor de búsqueda de acuerdo a un esquema común, fijando Ia tolerancia de masa precursora y Ia tolerancia de masa del ion fragmento (es decir, los errores tolerados en los valores de las masas calculadas), Ia especificidad de Ia digestión enzimática (es decir, el tipo de fragmentación producida por el enzima empleado para digerir las proteínas), o cualesquiera otros parámetros en función del motor empleado y el conjunto de datos analizado.

2. Ajustes GLD: Se emplea un modelo basado en distribuciones Lambda generalizadas (GLD's) para modelizar las distribuciones de puntuación de correspondencias espectro-péptido. La función Lambda generalizada puede definirse mediante su distribución percentil:

Q(y) = Q(y,λ₁;λ₂;λ₃;λ₄ ) = λ₁ , (1 )

donde 0 < y < 1. Los parámetrosλ^ λ₂ son, respectivamente, los parámetros de localización (entendido como el desplazamiento de Ia distribución en el eje de abscisas) y de escala (que determina Ia altura de

Ia distribución), y A₃ y A₄ determinan, respectivamente, Ia asimetría de Ia distribución (respecto a un eje vertical) y su curtosis (definida como el grado de concentración en torno al pico máximo). Una descripción adecuada de las restricciones necesarias en estos parámetros para proporcionar GLD's válidas puede encontrarse, por ejemplo, en Ia Referencia [7]. A partir de Ia función percentil, Ia densidad de probabilidad en x = Q(y) se obtiene como f(χ) = ^ ^/ ₂)

A₃y^λ3 ₊ λ₄(1 - y)^λ-¹

Dado q ue y se defi ne como I a probab il idad de q u ex≤Q(y) , I a modelización de las GLD's a partir de los histogramas de datos observados requiere Ia conversión de los puntos de datos en una frecuencia de escala relativa, el cálculo del valor de Q(y) para todos los puntos y el agrupamiento de los puntos de datos de acuerdo a dicho valor. Con el objetivo de ajustar las GLD's a los histogramas de datos, se emplea el método de percentiles descrito en Ia Referencia [7], en el que se calculan cuatro muestras estadísticas empleadas como estimadores de los parámetros de Ia distribución. De entre todos los conjuntos de parámetros (A₁₁ A₂₁ A₃₁ A₄) compatibles con el conjunto de estimadores obtenidos para cada histograma, se selecciona Ia GLD que mejor se ajusta a los datos observados como aquélla que minimiza el indicador de error contemplado, definido este último por medio de Ia expresión

∑(y, - f, )² > (3) ι=1

donde y, es el valor observado en Ia i-ésima casilla del histograma de puntuaciones (con K casillas) y f, es el valor que predice el modelo GLD en consideración (densidad de probabilidad), de forma similar a un ajuste por mínimos cuadrados.

3. Estimación de valores-p y de tasas de error en Ia identificación de péptidos: Como consecuencia de que no existe una expresión cerrada para Ia función de probabilidad del tipo y = F(x), el conjunto de los valores- p asociados a cada punto de los datos se calcula numéricamente. Dado un conjunto de valores-p asociados a los péptidos y clasificados en orden ascendente, Ia proporción esperada de observaciones de datos que superan un umbral de valor-p p, depende del volumen de los datos, así como del número i de puntos que poseen igual o mayor valor-p. Esta cantidad, denominada como tasa de falsa detección (FDR), da una medida del error esperado:

FDR₁ = -^ . (4)

Las tasas de error también pueden ser estimadas mediante búsquedas en bases de datos de secuencias híbridas diana/señuelo, contando el número de impactos señuelo que superan un determinado umbral de valor-p. Este valor, calculado a partir de Ia proporción de identificaciones señuelo observadas entre todas las identificaciones realizadas para un filtro dado, se denomina tasa de impacto en señuelo (DHR) y se define como DHR₁ = ^^L , (5) donde D₁ es el número de asignaciones a péptidos señuelo con un valor-p igual o inferior a p,. El parámetro α varía en función del tipo de base de datos de secuencias empleada. Para bases de datos híbridas diana/señuelo con secuencia invertida, α es igual a 2.

Otras realizaciones de Ia presente invención pueden incluir el uso de otras medidas de estimación del error como, por ejemplo, Ia probabilidad proporcionada por Ia "Familywise error rate" (FWER), definida como

FWER₁ = I - (I -P/ , (6) donde pi es el i-ésimo mejor valor-p, de entre N valores-p obtenidos.

4. Cálculo de los valores-p y puntuaciones de identificación de proteínas y tasas de error: Las asignaciones secuencia-péptido se agrupan dentro de una secuencia de proteína precursora. De los valores- p de un número h dado de iones candidatos, asignados a una proteína dada, el valor de Ia puntuación de Ia proteína se define como

donde p, son los valores-p de los iones candidatos calculados en los modelos GLD correspondientes. Opcionalmente, el valor de Ia puntuación de Ia proteína también puede definirse como Ia suma de las meta- puntuaciones de péptido. Del mismo modo, los valores de las FDR y DHR se calculan de Ia forma descrita en el punto anterior para cada grupo de similitud (definido este término como el conjunto de proteínas que comparten al menos un péptido identificado), tomando como valor-p el valor-p de proteína más pequeño dentro del grupo.

5. Integración de datos de múltiples motores de búsqueda y cálculo de meta-puntuaciones: La estrategia de integración de datos de múltiples motores de búsqueda se representa esquemáticamente en Ia Figura 1. Los espectros MS/MS se asignan a secuencias de péptidos mediante el uso de múltiples motores de búsqueda de secuencias (meta-búsqueda). Ejemplos actuales de estos motores son, por ejemplo, las aplicaciones MASCOT (distribuido por Matrix Science Inc.), XITANDEM (distribuido por The Global Proteome Machine Organization y por Labkey), OMSSA (distribu ido por el National Center for Biotechnology Information), PHENYX (distribuido por Geneva Bioinformatics) o InsPect (distribuido por el Center for Computacional Mass Spectrometry), entre otros. Tras Ia asignación de secuencias a los péptidos candidatos, se ajustan las GLD's y se calculan todos los valores-p con sus correspondientes puntuaciones, del modo descrito en los puntos anteriores. En una realización preferente de Ia presente invención se construye una tabla que contenga Ia máxima puntuación obtenida por cada motor de búsqueda para cada espectro MS/MS en el conjunto de datos. Con esta información, se define Ia meta- puntuación de un espectro) dado de un conjunto de datos como

S_j = arg max(GLD(1-p_Jk, 0, 0.2142, 0.1488, 0.1488) + βA_Jk) , (8)

k

donde se toma el valor de k que maximiza el valor de Ia puntuación S_j para un espectro dado. La variable p_Jk es el valor-p calculado por medio del modelo GLD correspondiente a un motor de búsqueda k dado, asociado a un péptido candidato. La función de distribución GLD(1-p_Jk, 0, 0.2142, 0.1488, 0.1488) es el valor de Ia función percentil (definida como Ia función inversa de Ia distribución acumulada) de Ia GLD en el valor-p p_Jk, de forma que se obtenga aproximadamente una distribución normal, siempre y cuando los valores-p se distribuyan uniformemente. A^, definido como el parámetro de concordancia del motor de búsqueda, indica el número de otros motores de búsqueda que han proporcionado el mismo péptido candidato que el /c-ésimo motor, para el y-ésimo espectro. Por último, β es un coeficiente cuyo valor ha de ser optimizado específicamente en cada conjunto de datos, seleccionando aquel valor que maximice el número de espectros recuperados para un valor dado de Ia DHR. El valor óptimo del coeficiente de concordancia también puede ser estimado mediante un método numérico distinto, empleando una formulación más compleja para bonificar Ia concordancia entre motores, en lugar de asumir una dependencia lineal entre el número de concordancia y Ia magnitud de Ia bonificación.

En una segunda realización preferente de Ia invención se lleva cabo un procedimiento por el cual, para un espectro dado ), en lugar de tomar el mejor candidato de cada motor, se toman los / mejores candidatos, ordenados de mayor a menor puntuación (/=1 ,...,/).

Posteriormente se define un parámetro de concordancia extendido A_Jk, que designa el número de otros motores (/c=1 ,...,K) que proporcionan como mejor candidato (/=1 ) el mismo péptido que el /-ésimo candidato del /c-ésimo motor. Se define, adicionalmente, una serie de n parámetros accesorios xi,...x_n que representan Ia contribución de n fuentes de información adicionales, comprendiendo dichas fuentes de información adicional una o más de las siguientes:

a) Fuentes de información relacionadas con las características fisicoquímicas de las secuencias de péptidos candidato:

- Error del valor m/z del ion precursor: error absoluto de medición de Ia relación masa/carga del ion precursor del espectro de fragmentación en consideración, en valor absoluto, dada una secuencia de péptido candidato. El cálculo del valor esperado de Ia relación masa/carga del ion precursor es trivial a partir de Ia secuencia del péptido candidato y Ia carga estimada del ion precursor.

- Error del tiempo de retención: error absoluto del tiempo de retención del espectro de fragmentación en consideración, en valor absoluto. Se aplica cuando los datos han sido obtenidos mediante técnicas de cromatografía de fase reversa (RPC) acoplada a espectrometría de masas.

- Error del tiempo retención del fraccionamiento: error absoluto del tiempo de retención (en Ia etapa de fraccionamiento previo de péptidos) del espectro de fragmentación en consideración, en valor absoluto. Se aplica cuando los datos han sido obtenidos mediante fraccionamiento de péptidos por cualquier método bioquímico adecuado (intercambio iónico, fase reversa a pH básico, isoelectroenfoque, etc.) previo a Ia cromatog rafia de fase reversa acoplada a espectrometría de masas. El valor observado para cada espectro puede ser el tiempo de retención al que se ha obtenido cada fracción, si se dispone una medición de este valor, o simplemente el número de fracción (que, de hecho, es una transformación de orden del valor anterior).

b) Fuentes de información relacionadas con el comportamiento esperado del agente químico u enzima que ha generado los péptidos analizados mediante espectrometría de masas:

- Número de dianas internas: Número de sitios de corte del enzima u agente químico que contiene Ia secuencia del péptido candidato. Se define una variable binaria por cada valor de número de dianas internas observado en el experimento, cuyo valor es 1 si Ia este número coincide con el número de dianas internas de Ia secuencia del péptido candidato, y 0 en cualquier otro caso.

- Número de extremos específicos: Número de extremos de Ia secuencia del péptido candidato cuya secuencia es compatible con el comportamiento esperado del agente químico u enzima que ha generado los péptidos. Se define una variable binaria por cada valor de número de extremos específicos observado en el experimento, cuyo valor es 1 si Ia este número coincide con el número de extremos específicos de Ia secuencia del péptido candidato, y 0 en cualquier otro caso.

c) Fuentes de información relacionadas con Ia generación de múltiples espectros por parte de un mismo péptido:

- Formas alternativas-carga eléctrica: Número de cargas eléctricas distintas con las que ha sido detectada (proporcionada por el motor como mejor candidato para un determinado espectro) Ia secuencia del péptido candidato en el experimento. La disparidad de cargas eléctricas de un determinado péptido depende del mecanismo de ionización.

Formas alternativas-marcas isotópicas: Número de configuraciones de marcas isotópicas estables con las que ha sido detectada (proporcionada por el motor como mejor candidato para un determinado espectro) Ia secuencia del péptido candidato en el experimento, cuando los datos provienen de experimentos de mareaje isotópico estable {stable isotope labelling, -SILE).

- Formas alternativas-modificaciones químicas: Número de formas de modificación química con las que ha sido detectada (proporcionada por el motor como mejor candidato para un determinado espectro) Ia secuencia del péptido candidato en el experimento, cuando los péptidos pueden sufrir modificaciones químicas durante el proceso de análisis, sean dichas modificaciones inducidas por el usuario o no.

- Formas alternativas-mecanismos de fragmentación: Número de mecanismos de fragmentación de iones que han generado espectros mediante los cuales ha sido detectada (proporcionada por el motor como mejor candidato para un determinado espectro) Ia secuencia del péptido candidato en el experimento, cuando el experimento combina datos obtenidos utilizando distintos mecanismos de fragmentación (por ejemplo, colisión inducida por disociación (CID) o disociación por transferencia de electrones (ETD)).

d) Fuentes de información relacionadas con características específicas de los motores o del rendimiento de éstos en función del tipo de datos:

- Carga eléctrica del ion precursor: se define una variable binaria por cada valor de carga eléctrica observada en el experimento, cuyo valor es 1 si Ia carga eléctrica del ion precursor es igual a dicha carga eléctrica, y 0 en cualquier otro caso. Se utiliza para favorecer o penalizar formas de carga eléctrica para las que el rendimiento de un motor determinado es especialmente bueno o malo.

- Mecanismo de fragmentación: se define una variable binaria por cada mecanismo de fragmentación de iones utilizado en el experimento, cuyo valor es 1 si Ia el espectro en consideración ha sido obtenido mediante dicho mecanismo de fragmentación, y 0 en cualquier otro caso. Se utiliza para favorecer o penalizar mecanismos de fragmentación para los que el rendimiento de un motor determinado es especialmente bueno o malo. - Puntuación delta y puntuaciones suplementarias: se define una puntuación delta genérica para todos los motores como Ia puntuación otorgada por el motor a una secuencia de péptido candidato menos Ia mayor puntuación observada entre el resto de candidatos para el mismo espectro con puntuación menor. Esta puntuación es similar a puntuaciones diferenciales suplementarias habitualmente llamadas 'delta', que proporcionan algunos motores como SEQUEST. Se define como puntuación suplementaria cualquier cantidad que es susceptible de ser utilizada como puntuación y que es proporcionada por el motor junto con Ia puntuación principal, aunque generalmente resulta mucho menos informativa que ésta. Por ejemplo, pueden definirse como tales las variables medianPRMscore, totalPRMscore, fractionB y fractionY proporcionadas por el motor Inspect junto con su puntuación principal, llamada MQscore.

e) Fuentes de información relacionadas con Ia proteína precursora de los péptidos candidatos:

- Proteína precursora (experimento completo): Establece una relación entre el número de péptidos con los que ha sido identificada Ia proteína precursora (de entre todos los espectros del experimento) de una determinada secuencia de péptido candidato y Ia longitud de Ia secuencia de dicha proteína. Para ello se ordenan las proteínas en primer lugar de mayor a menor número de péptidos identificados, y en segundo lugar por longitud decreciente de proteína; a continuación se utiliza el ranking relativo en ambos casos para generar, mediante una función normal estandarizada inversa, variables que siguen una distribución normal estandarizada. Se toma como puntuación de proteína Ia diferencia de estas dos variables.

- Proteína precursora (fracción de experimento): Igual que Ia anterior, pero se cuenta el número de péptidos de Ia misma proteína de entre los espectros de una determinada fracción del experimento, y no de todo el experimento. Puede utilizarse cuando se ha efectuado un fraccionamiento de proteínas, mediante cualquier técnica bioquímica adecuada, de forma previa a Ia generación de los péptidos a analizar por espectrometría de masas.

- Proteína precursora (agrupamiento): se cuenta el número k_t de fracciones distintas del experimento en las que aparecen péptidos de Ia proteína precursora de Ia secuencia de péptido candidato en cuestión. Se toma un elevado número K de muestras aleatorias (por ejemplo, K=1000) de péptidos identificados en el experimento de tamaño N, donde N es el número de péptidos identificados procedentes de Ia proteína precursora, y se cuenta el número k_s de fracciones distintas de las que proceden los péptidos de dicha muestra. Se cuenta el número de muestras aleatorias R en las que k_s toma un valor superior a k_t, y se define Ia fuente de información de agrupamiento de Ia proteína precursora como R/K. Puede utilizarse cuando se ha efectuado un fraccionamiento de proteínas, mediante cualquier técnica bioquímica adecuada, de forma previa a Ia generación de los péptidos a analizar por espectrometría de masas.

Es posible, adicionalmente, utilizar transformaciones numéricas de las fuentes de información adicionales citadas, ya sean transformaciones de orden, transformaciones no lineales, categorías arbitrarias basadas en rangos de valores, probabilidades o densidades de probabilidad calculadas a partir de estas fuentes de información ad icionales, sustituyendo a éstas o en combinación con éstas, utilizando dichas transformaciones también como fuentes de información adicionales.

Una vez determinadas cuáles son las fuentes de información empleadas, se define Ia puntuación extendida del /-ésimo candidato proporcionado para el y-ésimo espectro por el /c-ésimo motor como:

s_IJk = GLD(1 - p_IJk, 0, 0.2142, 0.1488, 0.1488) + β₁x_1lJk + ... + β_nx_nιJk + ₇A_IJk ) (9) donde, p_J/f se calcula como se ha descrito anteriormente para todos los candidatos de cada motor a partir de Ia puntuación proporcionada por dicho motor, los coeficientes /3i,.../3_n y / se optimizan mediante cualquier método matemático de optimización en varias dimensiones, por ejemplo maximizando el número de espectros o péptidos recuperados fijando un determinado umbral de DHR. En cada iteración del método de optimización se reordenan de mayor a menor valor de s,^ los / mejores candidatos de los K motores y se les reasigna el índice / con el objetivo de recalcular los valores A_jk- Finalmente, se define Ia meta-puntuación del j- ésimo espectro como:

S^ arg max^) (10) donde ij, y k son número enteros, tomando como péptido candidato para el y-ésimo espectro el /-ésimo candidato del /c-ésimo motor, tal que los valores de / y k maximicen el valor de S_j.

En una tercera realización preferente de Ia invención, se define el parámetro de concordancia en su forma ponderada de Ia siguiente manera:

k

A,_Jk = ∑w_kla_IJkl , (1 1 )

1=1 , l≠k

donde a es Ia matriz de variables binarias de tamaño KxK que indica cuáles de entre los K motores proporcionan el mismo péptido candidato que el /c-ésimo motor, y w una matriz con coeficientes de peso de las concordancias entre motores. Nótese que fijando a 1 todos los valores de

Ia matriz w se obtiene Ia meta-puntuación de Ia ecuación 9, y fijando /=1 además, se obtiene Ia meta-puntuación de Ia ecuación 8. El valor de estos coeficientes podría calcularse, por ejemplo, a partir de las frecuencias de concordancia entre motores observadas en los péptidos señuelo, o bien

1 asumiendo un mismo valor inicial para todos ellos (p.ej., — _; r ), y

K(K - 1 ) optimizando a continuación dichos valores según Io descrito para Ia ecuación 9.

En una cuarta realización preferente de Ia invención, se asigna un coeficiente de peso distinto a cada motor durante Ia fase de meta- puntuación, siendo éste establecido a priori o calculado, de modo que se pueda incorporar Ia posibilidad de favorecer los resultados obtenidos por unos motores sobre otros, si las particularidades del experimento analizado lo requiriesen. El valor de estos coeficientes podría calcularse de modo análogo a los descritos anteriormente.

En una quinta realización preferente de Ia invención, tras haber generado meta-puntuaciones a partir de cada motor, se establece un orden de integración de las fuentes de información adicionales, de modo que, para un determinado motor, se incorpora una sola fuente de información adicional a Ia meta-puntuación, ignorando Ia información de concordancia con otros motores de Ia ecuación 9, y se optimiza su coeficiente β mediante un método numérico de optimización en una sola dimensión. Tras obtener una nueva meta-puntuación mediante este proceso, se toma una nueva fuente de información. Se repite este proceso hasta que todas las fuentes de información adicionales han sido incorporadas a Ia meta-puntuación. La ventaja de este proceso de meta- puntuación incorporando fuentes adicionales de información por etapas es que goza de las propiedades teóricas necesarias para eliminar posibles correlaciones entre fuentes adicionales de información. Tras actualizar las meta-puntuaciones de todos los motores, se incorpora Ia información de concordancia, utilizando los métodos descritos en las ecuaciones 8 o 9, y a continuación el método descrito en Ia ecuación 10.

En una sexta realización preferente de Ia invención, se establece un orden de integración de los distintos motores de búsqueda, de modo que el proceso empieza con dos motores (preferentemente aquellos dos que proporcionan Ia mayor sensibilidad, por ejemplo definida como el número de identificaciones a una determinada tasa de error) y se aplican las ecuaciones 8 o 9 y Ia ecuación 10. El resultado de este proceso se trata como si fuese un nuevo motor 'consenso'; se toma entonces este resultado junto con el tercer motor y se aplican las ecuaciones 8 o 9 y Ia ecuación 10. El proceso se repite hasta que han sido incorporados al 'consenso' todos Io motores, preferentemente por orden decreciente de sensibilidad de éstos. La ventaja de este proceso de meta-puntuación por etapas es que goza de las propiedades teóricas necesarias para eliminar posibles correlaciones entre motores. Después de que las secuencias de los péptidos candidatos han sido asignadas a todos los espectros MS/MS, se elimina Ia redundancia, manteniendo, para cada combinación de secuencia de péptido, carga eléctrica y patrón de estructura química, aquélla que posee Ia mayor meta-puntuación. Posteriormente, se obtiene una distribución única de meta-puntuación para cada conjunto de datos, ya que las meta- puntuaciones son independientes del estado de carga del ion precursor. A partir de los valores-p obtenidos del modo descrito en los puntos anteriores, se pueden calcular tanto las tasas de error FDR y DHR (en los dos niveles, péptido y proteína), como los valores-p para proteínas.

Entre las ventajas del método de meta-búsqueda descrito por Ia presente invención respecto a otros métodos de búsqueda de secuencias conocidos, cabe señalar los siguientes:

- Es un método completamente generalizable para su aplicación a cualquier número de motores de búsqueda.

- Emplea un método estándar para obtener las funciones de distribución estadística, aplicable a los resultados de cualquier motor de búsqueda.

- Emplea una modelización estadística robusta que permite Ia elección de una única combinación secuencia de péptidos, estado de carga y patrón de estructura química por espectro.

- Integra en su formulación el empleo de parámetros de concordancia, definidos como el número de otros motores de búsqueda que han proporcionado el mismo péptido candidato que un motor dado.

- En cuanto a Ia detección de proteínas, se emplea un método estadístico riguroso, no sesgado, que emplea un filtrado FDR.

- Adicionalmente, el método reivindicado permite incorporar otras fuentes de información adicionales a Ia concordancia del motor, tales como el error de masa del péptido precursor, el error en el tiempo de retención, Ia especificidad de Ia digestión enzimática o Ia concordancia con Ia secuenciación de novo de Ia información. Esta flexibilidad permite al método de meta-búsqueda Ia integración de datos empleando diferentes preparaciones de muestras, métodos de digestión de proteínas y mecanismos de fragmentación de iones.

- A modo de ejemplo, se incluyen aquí los resultados de los ensayos realizados mediante el método reivindicado por Ia presente invención (ver Tabla 1 a-1f) y Tabla 2a-2d)), para las muestras de datos de acceso público RaftFIow (disponible en el repositorio de internet SourceForge), PAe000038-39 (disponible en Ia página web PeptideAtlas), PAe000114 (también en PeptideAtlas), ¡PRG2008 (del Association of Biomolecular Resource Facilities Proteome Informatics Research Group), evaluado para dos conjuntos de parámetros de búsqueda distintos (y distinguidos por los nombres ¡PRG2008 e ¡PRG2008-NE). La descripción detallada de estos conjuntos de datos y de sus experimentos asociados puede consultarse en Ia Referencia [6]. Adicionalmente, se incluyen los resultados a nivel péptido de los siguientes experimentos llevados a cabo en el Laboratorio de Proteómica del Centro Nacional de Biotecnología, Consejo Superior de Investigaciones Científicas: El experimento SKHep- LA-I se basa en el enriquecimiento de péptidos que son ligandos naturales de las moléculas del complejo mayor de histocompatibilidad de tipo I (MHC-I). En dicho experimento se purifican los péptidos a partir de células de Ia línea Sk-Hep, que expresan los alelos de clase I HLA- A^*0201 , HLA-A^*2402, HLA-B^*3502 y HLA-BM403. Estos péptidos son generados por un proceso de digestión natural en el interior de Ia célula, unidos a moléculas de MHC y transportados a Ia superficie celular, donde son presentados a las células del sistema inmunitario. Los distintos alelos de los genes que codifican las proteínas MHC pueden tener un repertorio de péptidos ligandos distintos, con propiedades estructurales ligeramente diferentes. Se cree que algunos de estos alelos están asociados a enfermedades autoinmunes, por Io que disponer de herramientas automatizadas para Ia caracterización a gran escala de repertorios de moléculas MHC (ya sean de tipo I o II) es de notable interés biomédico. El experimento HLA CID-ETD es una réplica del experimento anterior, a diferencia de que se adquirieron espectros MS/MS utilizando dos mecanismos de fragmentación distintos conocidos por sus siglas en inglés como CID (collision-induced dissociation) y ETD (electrón transfer dissociation). El experimento fosfopéptidos ABRF2010 corresponde al análisis, también generando tanto espectros CID como ETD, de fosfopéptidos enriquecidos mediante cromatografía IMAC (immobilized metal affinity chromatography), a partir de una muestra de proteínas humanas proporcionada por Ia Association of Biomolecular Research Facilites (ABRF). La fosforilación es una modificación post-traduccional de gran importancia en procesos de señalización intracelular, por Io que los resultados de identificación de fosfopéptidos mediante espectrometría de masas aquí mostrados son de gran relevancia en el ámbito de Ia investigación biomédica y biotecnológica tanto básica como aplicada. El experimento Ecoli SILE-SILAC corresponde al análisis de una muestra proveniente de dos poblaciones de bacterias Escheήchia coli marcadas en cultivo con distintas formas isotópicas del aminoácido lisina (forma nativa o forma pesada 13Cx6, 15Nx2, +8 Da) mediante Ia técnica SILAC (Stable Isotopic Labelling by Amino acids in cell Culture), cuyos extractos proteicos se fraccionaron mediante electroforesis en gel de poliacrilamida antes de su digestión con tripsina. El experimento "Suero Frac. RP-pH básico" corresponde al análisis de una muestra de suero humano para Ia que, tras Ia digestión con tripsina del extracto proteico, se fraccionaron los péptidos obtenidos mediante cromatografía de fase reversa a pH básico (aproximadamente 10,9).

El tratamiento de los datos de los diferentes experimentos se ha realizado mediante el uso conjunto de los cuatro motores de búsqueda InsPect, MASCOT, XITANDEM (utilizado este último en dos versiones de puntuación, clásica y "k-score") y OMSSA. Los resultados obtenidos por medio del método de meta-búsqueda reivindicado por Ia presente invención se resumen en las Tablas 1 y 2. Para Ia mayoría de los conjuntos de datos empleados, el sistema de meta-puntuación combinada de todos los motores de búsqueda, empleando los valores-p obtenidos mediante modelización GLD, proporciona un incremento sustancial del número de péptidos identificados, comparado con el resultado obtenido individualmente en cualquiera de los motores considerados. Para el caso del experimento PAe000114, dado que está claramente dominado por el resultado del motor InsPect, se incluyen también, a modo de comparación, los resultados de Ia meta-búsqueda excluyendo dicho motor. La combinación del resto de los motores, incluyendo Ia información de concordancia, proporcionó una eficiencia 19% superior a Ia obtenida por OMSSA individualmente, y una eficiencia aún mayor en el resto de motores. En general, el empleo de Ia información de concordancia mejora Ia sensibilidad de todos los experimentos, incrementando entre un 9% y un 26% el número de péptidos correctamente identificados (con una FDR < 0.05 sobre un conjunto no redundante). Respecto a Ia detección de proteínas, el número de identificaciones con dicho umbral de error, aumenta entre un 6% y un 60% después de su clasificación mediante meta-puntuación. En Ia Tabla 2(a-d) se muestran los resultados del proceso de meta puntuación incorporando ninguna, una o varias fuentes de información adicional por etapas, así como utilizando datos de un solo motor o de varios motores por etapas y utilizando información de concordancia. Como puede observarse, todas las fuentes de información adicionales descritas contribuyen a incrementar Ia eficacia del proceso de meta-puntuación, a juzgar por el notable incremento en el número de asignaciones espectro-secuencia recuperadas a un determinado valor de tasa de error, especialmente cuando se utilizan varias de éstas fuentes de información adicionales en combinación. Nótese que algunas de estas fuentes de información adicional se basan en peculiaridades referentes al diseño experimental que ningún motor de búsqueda es capaz de incorporar a sus sistema de puntuación, como desviaciones en los valores esperados de tiempo de retención, tiempo de retención durante el fraccionamiento de péptidos previo al análisis mediante espectrometría de masas (experimento Suero frac. pH básico), fraccionamiento previo de proteína (experimento SILE-SILAC), formas alternativas de carga, marcas isotópicas (experimento SILE-SILAC) o mecanismos de fragmentación (experimentos HLA CID-ETD y fosfopéptidos ABRF2010.), etc. Además, el método descrito permite utilizar de forma óptima y seguir extrayendo información de dichas fuentes incluso en casos en los que el motor ya utiliza dichas fuentes en su sistema de puntuación, como es el caso de MASCOT, que internamente utiliza el error en el valor m/z del ion precursor para calcular sus puntuaciones (ver datos referentes al experimento Suero frac. pH básico), así como incorporar fácilmente puntuaciones delta y puntuaciones suplementarias proporcionadas por Ie motor además de Ia puntuación principal (ver experimento fosfopéptidos ABRF2010, datos del motor Inspect, y experimento Suero frac. pH básico, datos del motor MASCOT). En estas condiciones, Ia eficacia del proceso es aún mayor cuando se utiliza información de varios motores en lugar de un solo motor, tal y como se observa claramente para los experimentos HLA CID-ETD y fosfopéptidos ABRF2010.

TABLAS DE RESULTADOS:

Tabla 1 (a continuación): Comparación entre resultados de modelización mediante el uso de un único motor para diferentes experimentos y los resultados empleando el método de meta búsqueda. Los índices empleados son: I, InsPect; K, X-TANDEM con "k-score"; M, MASCOT; O, OMSSA; T, XITANDEM clásico. Las listas entre comas corresponden al uso de múltiples motores. "Concord." indica si se ha tenido en cuenta Ia información de concordancia. "N⁰ Pépt." indica el número de correspondencias de péptidos no redundantes obtenidas para el filtro FDR (o DHR, en su caso) dado. "N⁰ Prot." indica el numero de grupos de agregación de proteínas obtenidos para el filtro FDR (o DHR, en su caso) dado, "n/a" indica "no aplicable".

Tabla 2 (a continuación): Comparación entre resultados de modelización mediante el uso de un único motor o una combinación por etapas de varios motores (utilizando información de concordancia), a partir de datos generados mediante único mecanismo de fragmentación o mediante varios mecanismos, incorporando por etapas una, ninguna o varias fuentes de información adicionales al proceso de meta-puntuación. Los índices empleados son los mismos que en Ia tabla 1 , a los que se añade P (PHENYX). El rendimiento del proceso se indica como el número de asignaciones espectro-secuencia recuperadas in superar una determinada tasa de error medida como DHR (0,01 , 0,05 y 0,1 ). Para las fuentes de información adicionales, TODAS' indica que se incorporaron todas las fuentes de información descritas que se encontraban disponibles en esos datos; 'NINGUNA' indica que no se utilizaron fuentes de información adicionales.

Claims

REIVINDICACIONES

1.- Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas y búsqueda en bases de datos de secuencias empleando, al menos, dos motores diferentes de búsqueda, en el que se obtienen modelos de distribución de puntuaciones asignadas por cada uno de dichos motores y se asigna un valor de probabilidad y/o una tasa de error a partir de estos modelos a cada puntuación, caracterizado porque:

a) Se modelizan las puntuaciones calculadas en cada motor por medio de funciones de distribución, calculando los valores de probabilidad de las asignaciones espectro-péptido.

b) Se calcula el grado de coincidencia entre los distintos motores utilizados, mediante parámetros de concordancia de las identificaciones péptido-secuencia.

c) Se modeliza Ia distribución de meta-puntuaciones mediante funciones de distribución que incluyen Ia presencia de los parámetros de concordancia, obteniendo los valores de probabilidad, tasas de error o cualesquiera otras medidas mediante las cuales se obtenga una clasificación estadística de las asignaciones péptido-secuencia, para el conjunto de todos los motores de búsqueda utilizados.

d) Opcionalmente, se construyen las puntuaciones del péptido y de Ia proteína precursora a partir de las probabilidades obtenidas en el punto c).

2.- Método según Ia reivindicación 1 , caracterizado porque las bases de datos de secuencias utilizadas son bases de datos híbridas diana/señuelo y donde, opcionalmente, las funciones de distribución empleadas para obtener las probabilidades y las puntuaciones de cada motor por separado, son distribuciones Lambda generalizadas (GLD's).

3.- Método según cualquiera de las reivindicaciones 1 -2, caracterizado porque Ia tasa de error empleada viene dada por Ia tasa de falsa detección (FDR).

4.- Método según cualquiera de las reivindicaciones 1 -2, caracterizado porque Ia tasa de error empleada viene dada por Ia tasa de impacto en señuelo (DHR), por Ia probabilidad de obtener al menos un falso positivo (FWER) o por cualesquiera otras cantidades estadísticas que den una medida del error de precisión en las asignaciones obtenidas.

5.- Método según cualquiera de las reivindicaciones 1 -4, caracterizado porque se asume que las meta-puntuaciones, calculadas para el conjunto de los motores de búsqueda, siguen una distribución Lambda generalizada (GLD) a partir de Ia cual se obtiene una probabilidad.

6.- Método seg ú n cualq u iera de l as reivind icaciones 1 -4, caracterizado porque se asume que las meta-puntuaciones, calculadas para el conjunto de los motores de búsqueda, siguen una distribución diferente a una función Lambda generalizada (GLD), ya sea representada mediante una función analítica o calculada numéricamente.

7.- Método segú n cualq u iera de las reivind icaciones 1 -6, caracterizado porque se asigna un coeficiente de peso distinto a cada motor durante Ia fase de meta-puntuación, siendo éste establecido a priori o calculado en función de cualquier característica de los motores y/o las bases de datos de secuencias empleados, por Ia cual se desee favorecer los resultados de unos motores frente a otros.

8.- Método según cualquiera de las reivindicaciones 1 -7, caracterizado porque se establece una relación entre Ia meta-puntuación calculada para una asignación espectro-péptido y las características de Ia secuencia del péptido candidato, tales como su longitud, presencia o ausencia de sub-secuencias o motivos estructurales, o concordancia de Ia secuencia del péptido con Io esperado a partir del mecanismo de corte del agente químico utilizado en Ia digestión de las proteínas.

9.- Método segú n cualq u iera de las reivindicaciones 1 -8, caracterizado porque se establece una relación entre Ia meta-puntuación calculada para una asignación espectro-péptido y otras variables medibles, como el error observado en Ia medición de Ia masa del precursor, Ia movilidad iónica, Ia predicción del tiempo de retención durante Ia separación cromatográfica, Ia predicción del punto isoeléctrico en una posible separación por isoelectroenfoque, o medidas similares obtenidas a partir de variantes de estas técnicas, o transformaciones de dichas medidas.

10.- Método según Ia reivindicación 9, caracterizado porque se obtiene, para cada espectro, las mejores puntuaciones de cada uno de los motores, se somete a dichas puntuaciones a meta-puntuación, utilizando una o más de las siguientes fuentes de información adicionales:

- relacionadas con las características fisicoquímicas de las secuencias de péptidos candidato, tales como el error del valor m/z del ion precursor, el error del tiempo de retención o el error del tiempo retención del fraccionamiento;

- relacionadas con el comportamiento esperado del agente químico u enzima que ha generado los péptidos analizados mediante espectrometría de masas, tales como el número de dianas internas o el número de extremos específicos;

- relacionadas con Ia generación de múltiples espectros por parte de un mismo péptido, tales como las formas alternativas de carga eléctrica, las marcas isotópicas, las modificaciones químicas o los mecanismos de fragmentación; - relacionadas con características específicas de los motores o del rendimiento de éstos en función del tipo de datos, tales como Ia carga eléctrica del ion precursor, el mecanismo de fragmentación, las puntuaciones delta o las puntuaciones suplementarias;

- relacionadas con Ia proteína precursora de los péptidos candidatos, tales como Ia proteína precursora en un experimento completo, Ia proteína precursora en una fracción de experimento o Ia proteína precursora por agrupamiento;

y se reordenan las meta-puntuaciones de cada motor, tomando Ia mejor meta-puntuación de cada motor para completar Ia fase de meta- puntuación.

11.- Método según Ia reivindicación 10, caracterizado porque se utilizan transformaciones numéricas de las fuentes de información adicionales, ya sean transformaciones de orden, transformaciones no lineales o densidades de probabilidad calculadas a partir de estas fuentes de información adicionales, ya sea sustituyendo a éstas o en combinación con éstas, utilizando dichas transformaciones como fuentes de información adicionales.

12.- Método según cualquiera de las reivindicaciones 1 -11 , caracterizado porque se hace uso de parámetros de concordancia extendidos, definidos como el número de otros motores que proporcionan, como mejor candidato, el mismo péptido que uno de los candidatos dados proporcionado por un motor.

13.- Método según cualquiera de las reivindicaciones 1 -12, caracterizado porque se define el parámetro de concordancia en su forma ponderada mediante el uso de coeficientes de peso.

14.- Método según cualquiera de las reivindicaciones 1 -13, caracterizado porque distintas búsquedas efectuadas sobre Ia misma colección de espectros utilizando distintas combinaciones de parámetros configurables del mismo motor se tratan como búsquedas efectuadas por motores distintos.

15.- Método según cualqu iera de las reivind icaciones 1 -14, caracterizado porque se establece una relación entre Ia meta-puntuación calculada para una asignación espectro-péptido e información estructural obtenida mediante interpretación de novo del espectro MS/MS.

16.- Método según cualquiera de las reivindicaciones 10-11 , caracterizado porque las fuentes de información adicionales para cada motor se integran por etapas en el proceso de meta-puntuación, generando meta-puntuaciones a partir de cada motor y estableciendo un orden de integración de dichas fuentes de información adicionales, de modo que para un determinado motor se incorpora una sola fuente de información adicional a Ia meta-puntuación, ignorando Ia información de concordancia con otros motores, y se obtiene una nueva meta- puntuación, repitiendo este proceso hasta que todas las fuentes de información adicionales han sido incorporadas a Ia meta-puntuación e incorporando posteriormente Ia información de concordancia.

17.- Método seg ú n cualq u iera de las reivindicaciones 1 -16, caracterizado porque los distintos motores se integran por etapas en el proceso de meta-puntuación, estableciendo un orden de integración de los distintos motores de búsqueda, comenzando con Ia integración de dos motores, y tratando Ia meta-puntuación de este proceso como un nuevo motor 'consenso'; posteriormente se toma este resultado y se integra con un tercer motor, repitiendo el proceso sucesivamente hasta que han sido incorporados al 'consenso' todos los motores empleados.

18.- Dispositivo destinado al análisis de resultados de espectrometría de masas en tándem, comprendiendo dicho dispositivo medios mecánicos, electromagnéticos, electrónicos e informáticos realizados en forma de hardware y/o software, y estando dichos medios orientados a conformar un sistema de análisis de datos para Ia identificación de péptidos y proteínas, caracterizado porque implementa un método según cualquiera de las reivindicaciones 1 -17.