ES2334011T3

ES2334011T3 - Metodo para predecir la resistencia a los agentes terapeuticos utilizando redes neurales.

Info

Publication number: ES2334011T3
Application number: ES01945251T
Authority: ES
Inventors: Brendan Larder; Dechao Wang
Original assignee: Virco BVBA
Current assignee: Virco BVBA
Priority date: 2000-06-08
Filing date: 2001-06-01
Publication date: 2010-03-04
Anticipated expiration: 2021-06-01
Also published as: CA2415832A1; JP4726177B2; CA2415832C; JP2004523725A; AU6752001A; AU785353B2; WO2001095230A2; EP1352356A2; EP1352356B1; ATE445883T1; DE60140211D1; US20030190603A1; WO2001095230A3

Abstract

Un método para predecir la resistencia del virus de la inmunodeficiencia humana tipo 1 (HIV-1) a un agente terapéutico, que comprende: (a) proporcionar una red neural adiestrada, en donde dicha red es una red neural de alimentación directa de tres capas, que comprende (1) una serie de nodos de entrada (en donde cada miembro de la serie de nodos de entrada corresponde a una mutación en el genoma de HIV-1); (2) una pluralidad de nodos ocultos; y (3) una serie de nodos de salida, en donde cada miembro de la serie de nodos de salida corresponde a un agente terapéutico utilizado para tratar HIV-1; (b) proporcionar al menos una secuencia genética determinada de HIV-1; y (c) predecir la resistencia de HIV-1 al agente terapéutico utilizando la al menos una secuencia genética determinada y la red neural adiestrada, en donde la resistencia predicha se expresa como una multiplicidad de cambio en CI50.

Description

Método para predecir la resistencia a los agentes terapéuticos utilizando redes neurales.

La presente invención se refiere a métodos y sistemas para predecir la resistencia de una enfermedad a un agente terapéutico por aplicación de información de resistencia al genotipo y fenotipo en una red neural. La presente invención se refiere adicionalmente a métodos y sistemas para diseñar un régimen de tratamiento terapéutico para un paciente basado en el genotipo de la enfermedad que aflige al paciente. Se proporcionan métodos y sistemas para predecir la probabilidad de que un paciente desarrolle una enfermedad genética. Se proporcionan métodos y sistemas para utilizar redes neurales a fin de definir la base genética de la resistencia a los agentes terapéuticos. Más específicamente, la presente invención se refiere al uso de herramientas bioinformáticas, de biología molecular, y de bioquímica en tales métodos y sistemas.

Desde la publicación del primer informe que sugería una correlación entre la aparición de resistencia viral y el progreso clínico, han venido incorporándose crecientemente técnicas para determinar la resistencia de un patógeno o célula maligna a un agente terapéutico en los estudios clínicos de regímenes terapéuticos. Brendan Larder et al., HIV Resistance and Implications for Therapy (1998). Sin embargo, la complejidad de la resistencia a los agentes terapéuticos hace difícil determinar o predecir exactamente la resistencia a los agentes terapéuticos. A medida que están poniéndose a disposición más fármacos y opciones terapéuticas, se espera que el ensayo de la resistencia a los agentes terapéuticos llegue a jugar un papel importante en la gestión y el tratamiento de la infección por patógenos o el cáncer.

Todos estos métodos emplean dos enfoques generales para medir la resistencia a los agentes terapéuticos, a saber ensayo fenotípico y ensayo genotípico. El ensayo fenotípico mide directamente la sensibilidad real de un patógeno o célula maligna de un paciente a agentes terapéuticos particulares, en tanto que el ensayo de la resistencia genotípica examina la presencia de mutaciones o patrones genéticos específicos en el patógeno o la célula maligna que confieren resistencia a uno o varios agentes terapéuticos determinados. Aunque se cree que el ensayo fenotípico es una evaluación más completa y exacta de la resistencia a los agentes terapéuticos que el ensayo genotípico, el ensayo fenotípico puede llevar más tiempo y generalmente es más caro que el ensayo genotípico. Comparado con el ensayo fenotípico, el ensayo genotípico presenta ventajas, que incluyen la simplicidad relativa, el bajo coste, y la velocidad con la que puede realizarse el test. Sin embargo, en el momento actual, sigue siendo difícil interpretar los resultados de un test genotípico para proporcionar conclusiones significativas acerca de la resistencia a los agentes terapéuticos. Véase, v.g., Tim Horn y Spencer Cox, A No-Nonsense Guide to HIV Drug Resistance Testing, (Ed. Douglas Richman, M.D., University of California, San Diego.

Cierto número de enfoques diferentes están disponibles actualmente para ayudar en la interpretación de los tests genotípicos, que incluyen:

A. Interpretación por el Médico

Un médico puede interpretar y emitir un juicio en cuanto al tratamiento óptimo basado en el conocimiento de las mutaciones primarias de resistencia asociadas con cada agente terapéutico y con la historia del tratamiento reciente del paciente. Para ayudar a los médicos a emitir estos juicios, se han convocado diversos paneles de opinión de expertos y se han publicado líneas orientativas. Por ejemplo, el Resistance Collaborative Group ha publicado dichas líneas orientativas para HIV-1. Véase, v.g., Carpenter, et al., JAMA 283(3): 381-390 (2000). Evidentemente, este tipo de método es muy subjetivo.

B. Algoritmos basados en Reglas

Los algoritmos basados en reglas son esencialmente una visión formalizada del método de interpretación arriba identificado con tablas que dan las mutaciones que están asociadas con la resistencia a cada uno de los agentes terapéuticos. Éstos pueden ser tablas impresas simples, o la información puede utilizarse para desarrollar un algoritmo de computadora basado en reglas. Un ejemplo de un sistema de interpretación de este tipo es el sistema VircoGEN^{TM} I (disponible de Virco) y las técnicas descritas en WO 97/27480.

C. Análisis Estadístico

Se han utilizado análisis estadísticos para comparar y relacionar fenotipos y genotipos. Harrigan et al., "Drug resistance and short term virological response in patients prescribed multidrug rescue therapy"; Hammer et al., "Relationship of phenotypic and genotypic resistance profiles to virological outcome in a trial of abacavir, nelfinavir, efavirenz and adefovir dipivoxil in patients with virological failure receiving indinavir (ACTG 372)"; Zolopa et al., "A comparison of phenotypic, genotypic and clinical/treatment history predictors of virological response to saquinavir/ritonavir salvage therapy in a clinic-based cohort"; Vingerhotes et al., "The accuracy and reproducibility of high throughput genotypic and phenotypic HIV-1 resistance testing under EN45001 and CL1A accreditation labels"; Anton et al., "Comparative paterns of HIV-1 genotypic and phenotypic resistance profiles in gut and plasma"; Hertogs et al., "A blinded comparative analysis of two genotyping service laboratories: full sequence analysis of HIV-1 protease and reverse transcriptase", presentados todos ellos en el 3^{er} International Worldshop on HIV Drug Resistance & Treatment Strategies, San Diego, EE.UU., 23-26 junio 1999. Estos métodos proporcionan información acerca de si los datos fenotípicos están correlacionados con los genotipos correspondientes. Las dificultades a que hay que hacer frente residen, sin embargo, en relacionar cuantitativamente el genotipo de cualquier muestra específica con su fenotipo. La interpretación de los patrones de mutación de la resistencia a los fármacos de HIV-1 se ha mejorado por predicción del fenotipo utilizando una base de datos fenotipo-genotipo de gran extensión. Para relacionar un "test" de información de resistencia de genotipo a fenotipo, se relacionaron una serie de patrones genotípicos con fármacos específicos. Estos patrones están unidos a todas las muestras genotípicas en la base de datos, permitiendo así la realización de búsquedas rápidas. Los fenotipos de las muestras en la base de datos que coinciden con un genotipo particular pueden recuperarse luego y presentarse como la proporción resistente o sensible a cada fármaco. Larder et al., Predicting IHV-1 phenotypic resistance from genotype using a large phenotype-genotype relational database, 3rd International Workshop on HIV Drug Resistance & Treatment Strategies, San Diego, USA, 23-26 de junio 1999. Este sistema hace posible obtener una indicación rápida del fenotipo probable de una muestra cuyo genotipo ha sido determinado haciendo coincidir los datos fenotípicos sustanciales archivados con un patrón de mutación.

Sin embargo, se conoce poco acerca de la forma funcional de la relación entre genotipo y fenotipo; por esta razón resulta difícil utilizar enfoques de modelización paramétricos. Adicionalmente, pueden estar implicadas mutaciones no independientes en los patrones de mutación genotípicos. Esto hace difícil aplicar métodos convencionales para realizar un mapeado de funciones entre patrones de mutación y el grado de resistencia a los fármacos.

Actualmente, sin embargo, existen bases de datos mejoradas de relaciones que utilizan reconocimiento de patrones y adaptación de fenotipos, que han demostrado una exactitud mayor que 90% en la predicción de la resistencia fenotípica. El reconocimiento de patrones y los sistemas de adaptación de fenotipos están implementados mediante software y uso de las mutaciones encontradas en la muestra del paciente para buscar coincidencias en una base de datos de genotipos y fenotipos de miles de muestras. Se utiliza un motor de búsqueda para escanear una base de datos fenotipo-genotipo. Los fenotipos de muestras en la base de datos que coinciden con un genotipo particular pueden recuperarse luego y presentarse como la proporción resistente o sensible a cada agente terapéutico. Este tipo de sistema hace posible obtener una indicación rápida del fenotipo probable de una muestra cuyo genotipo se conoce por adaptación de los datos fenotípicos sustanciales archivados a un patrón de mutación. Un ejemplo de un sistema de software de este tipo es el Virtual-Phenotype^{TM} (PCT/EP 01/04445).

La presente invención proporciona la generación siguiente de sistemas de reconocimiento y adaptación de fenotipos de patrones implementados por software y emplea una red neural para predecir exactamente la resistencia de HIV-1 a un agente terapéutico basándose en información genotípica y fenotípica. Se han utilizado con éxito redes neurales como clasificadores patrón en muchas aplicaciones. Véase, v.g., Christopher M. Bishop, "Neural Networks for Pattern Recognition", Clarendon Press, Oxford (1995); Sbirrazzuoli and Brunel, Neural Comput & Applic, 5:20-32 (1997); Chow and Cho, Neural Comput & Applic. 5:66-75 (1997). Hasta ahora, sin embargo, no se han utilizado redes neurales para predecir la resistencia o sensibilidad a los agentes terapéuticos. Con respecto a bases de datos de relaciones y enfoques como determinación virtual del fenotipo, las redes neurales pueden proporcionar ventajas en cuanto al número de muestras requerido para un análisis exacto, ventajas en cuanto al tiempo de cálculo y ventajas en la predicción de los perfiles de resistencia de los fármacos que no tienen mutaciones de configuración
particular.

Para conseguir estas y otras ventajas, y de acuerdo con los principios de la presente invención como se materializan y se describen ampliamente en esta memoria, la presente invención proporciona un método para predecir la resistencia de HIV-1 a un agente terapéutico utilizando una red neural, que comprende:

(a) Proporcionar una red neural adiestrada, en donde dicha red neural es una red neural de alimentación directa de tres capas que comprende

(1): una serie de nodos de entrada, en donde cada miembro de la serie de nodos de entrada corresponde a una mutación en el genoma de HIV-1;

(2): una pluralidad de nodos ocultos; y

(3): una serie de nodos de salida, en donde cada miembro de la serie de nodos de salida corresponde a un agente terapéutico utilizado para tratar HIV-1

(b) proporcionar al menos una secuencia genética determinada de HIV-1; y

(c) predecir la resistencia de HIV al agente terapéutico utilizando la al menos una secuencia genética determinada y la red neural adiestrada en donde la resistencia predicha se expresa como un multiplicación de cambio en CI50.

Se proporciona adicionalmente un método para predecir la resistencia de una enfermedad a un agente terapéutico, que comprende: (a) proporcionar una red neural adiestrada; (b) proporcionar una secuencia genética determinada de la enfermedad; y (c) predecir la resistencia de la enfermedad al agente terapéutico utilizando la secuencia genética determinada y la red neural adiestrada.

Se proporciona adicionalmente un método para predecir la resistencia de un patógeno a un agente terapéutico, que comprende: (a) proporcionar una red neural; (b) adiestrar la red neural sobre una serie de datos de adiestramiento, en donde cada miembro de la serie de datos de adiestramiento corresponde a una mutación genética que está correlacionada con un cambio en la resistencia a los agentes terapéuticos; (c) proporcionar una secuencia genética determinada del patógeno; y (d) predecir la resistencia del patógeno al agente terapéutico utilizando la secuencia genética determinada del patógeno y la red neural adiestrada.

Se proporciona también una red neural adiestrada capaz de predecir la resistencia de una enfermedad a un agente terapéutico, en donde la red neural adiestrada comprende: (a) una serie de nodos de entrada, en donde cada miembro de la serie de nodos de entrada corresponde a una mutación en el genoma de la enfermedad; y (b) una serie de nodos de salida, en donde cada miembro de la serie de nodos de salida corresponde a un agente terapéutico utilizado para tratar la enfermedad.

Se proporciona adicionalmente un método de diseño de un régimen de tratamiento con un agente terapéutico para un paciente afligido con una enfermedad, que comprende: (a) proporcionar una secuencia genética determinada de la enfermedad; (b) introducir la secuencia genética determinada en una red neural adiestrada; (c) predecir la resistencia de la enfermedad a un agente terapéutico utilizando la secuencia genética determinada y la red neural adiestrada; y (d) utilizar la resistencia al fármaco predicha para diseñar un régimen de tratamiento con un fármaco terapéutico para tratar al paciente afligido con la enfermedad.

Se proporciona adicionalmente un método de predicción de la probabilidad de que un paciente desarrolle una enfermedad genética, que comprende: (a) proporcionar una red neural adiestrada; (b) proporcionar una secuencia genética determinada de una muestra de un paciente; y (c) determinar la probabilidad de que el paciente desarrolle la enfermedad genética utilizando la secuencia genética determinada y la red neural adiestrada.

Se proporciona adicionalmente un método para identificación de una nueva mutación que confiere resistencia a un agente terapéutico, que comprende: (a) proporcionar una primera red neural adiestrada, en donde el número de nodos de entrada para la primera red neural adiestrada es igual al número de mutaciones conocidas que confieren resistencia terapéutica a un agente terapéutico; (b) proporcionar una segunda red neural adiestrada, en donde el número de nodos de entrada de la segunda red neural adiestrada comprende el número de mutaciones conocidas que confieren resistencia terapéutica a un agente terapéutico más al menos 1; (c) proporcionar una serie de datos de test; (d) introducir la serie de datos de test en las redes neurales adiestradas primera y segunda; (e) comparar la salida de las redes neurales adiestradas primera y segunda para determinar si la mutación adicional confiere a una enfermedad resistencia a los fármacos terapéuticos. La realización anterior sirve como ejemplo, debiendo apreciarse que la arquitectura de las redes no requiere necesariamente dos redes neurales diferentes para la identificación de las nuevas mutaciones o perfiles de mutación.

Se proporciona adicionalmente un método para estudiar la resistencia a los agentes terapéuticos que comprende: (a) mutar un gen de tipo salvaje para crear un mutante que contiene una mutación identificada utilizando las redes neurales; (b) cultivar el gen mutante en presencia de un agente terapéutico; (c) cultivar un gen de tipo salvaje en presencia del agente terapéutico; (d) comparar el crecimiento del gen mutante con el crecimiento del gen de tipo salvaje.

Se proporciona adicionalmente un método para estudiar la resistencia a los agentes terapéuticos que comprende: (a) mutar un virus o bacteria de tipo salvaje para crear un virus o bacteria mutante que contiene una mutación identificada utilizando las redes neurales; (b) cultivar el virus o bacteria mutante en presencia de un agente terapéutico; (c) cultivar un virus o bacteria de tipo salvaje en presencia del agente terapéutico; (d) comparar el crecimiento del virus o bacteria mutante con el crecimiento del virus o bacteria de tipo salvaje.

Se proporciona adicionalmente un medio legible por computadora que contiene instrucciones para hacer que una computadora elabore un método para predecir la resistencia de una enfermedad a un agente terapéutico utilizando una red neural adiestrada, comprendiendo el método: recibir al menos una secuencia genética determinada de la enfermedad; y predecir la resistencia de la enfermedad al agente terapéutico utilizando la al menos una secuencia genética determinada y la red neural adiestrada.

Se proporciona un medio legible por computadora que contiene una serie de instrucciones programadas para hacer que una computadora proporcione una red neural para realizar un método para predecir la resistencia de una enfermedad a un agente terapéutico, comprendiendo la serie de instrucciones programadas: medios para recibir al menos una secuencia genética determinada de la enfermedad; y medios para predecir la resistencia de la enfermedad al agente terapéutico utilizando la al menos una secuencia genética determinada y la red neural adiestrada.

Debe entenderse que tanto la descripción general que antecede como la descripción detallada que seguirá son únicamente ilustrativas y explicativas y no son restrictivas de la invención, de acuerdo con las reivindicaciones. Pueden proporcionarse características y/o variaciones adicionales además de las indicadas en esta memoria. Por ejemplo, la presente invención puede dirigirse a diversas combinaciones y subcombinaciones de las características descritas y/o combinaciones y subcombinaciones de varias otras características descritas más adelante en la descripción
detallada.

Breve descripción de los dibujos

Los dibujos que se acompañan, que están incorporados en y constituyen una parte de esta memoria descriptiva, ilustran diversas realizaciones y/o características de la invención y, junto con la descripción, sirven para explicar los principios de la invención. En los dibujos:

La Figura 1 representa un marco ilustrativo para capturar la relación entre resistencia genotípica y fenotípica;

la Figura 2 representa un diagrama de flujo ilustrativo para predecir la resistencia fenotípica basado en información genotípica utilizando una red neural de acuerdo con la presente invención;

la Figura 3 representa un marco ilustrativo para una red neural de tres capas. Esta red neural ilustrativa tiene I entradas, J unidades ocultas y K unidades de salida, y dos unidades de sesgo, las dos cuales tienen una señal de entrada de 1 (es decir, x_{0} y z_{0}). Esta red neural ilustrativa de tres capas tiene también dos capas de pesos adaptativos (w_{ji} y w_{jk}), que son el peso de la unidad oculta j-ésima asociada con la señal de entrada x_{i}, y el peso de la unidad de salida k-ésima asociada con la señal oculta z_{j}, respectivamente;

la Figura 4(a) es una comparación ilustrativa entre los errores de adiestramiento y de test contra el número de nodos ocultos;

la Figura 4(b) es una comparación ilustrativa entre los números de errores de adiestramiento y de test contra el índice de tolerancia de error;

la Figura 5 es una gráfica ilustrativa de la magnitud de resistencia para doce patrones de mutación;

la Figura 6 es un gráfico ilustrativo de la tasa de concordancia entre los genotipos PI y los fenotipos de un red neural con datos de ruido implicados en la serie de adiestramiento; y

la Figura 7 es un gráfico ilustrativo de la tasa de concordancia de una red neural sin datos de ruido implicados en la serie de adiestramiento.

la Figura 8 proporciona un análisis por regresión entre los fenotipos predichos y los fenotipos reales utilizando 30 mutaciones.

la Figura 9 proporciona un análisis por regresión entre los fenotipos predichos y los fenotipos reales utilizando 90 mutaciones/polimorfismos.

la Figura 10 proporciona un marco ilustrativo para identificar las nuevas mutaciones del genotipo (genos) que confieren resistencia fenotípica (fenos) del agente terapéutico. En este marco, x e y se refieren al número de mutaciones que son estudiadas por la red neural, x-VP se refiere al fenotipo "virtual" para el modelo de mutación x, y x-DPVP se refiere a la diferencia entre el fenotipo "real" y el fenotipo "virtual".

la Figura 11 es un gráfico de barras ilustrativo de las mutaciones que mejoraban la predicción de la red neural desde el modelo 9 al modelo 26.

la Figura 12 es un gráfico de barras ilustrativo de las mutaciones que mejoraban la predicción de la red neural desde el modelo 9 al modelo 60.

Descripción detallada de la invención

A lo largo del tiempo, muchos pacientes experimentan fallos del tratamiento o eficacia reducida. En muchos casos, esto se debe a mutaciones en el genoma del patógeno o la célula enferma tal como una célula maligna o inflamatoria, que da como resultado el desarrollo de resistencia a un agente terapéutico. En otros casos, la selección por el agente terapéutico da como resultado la acumulación o propagación de variantes del patógeno o célula maligna que tenían resistencia pre-existente al agente terapéutico. De acuerdo con ello, existe necesidad de monitorizar el estado de enfermedad de un paciente y alterar el régimen de tratamiento cuando se produce fallo en el tratamiento o eficacia reducida. Como se utiliza en esta memoria, el término "enfermedad" y "agente causante de enfermedad" se refieren ambos a un ácido nucleico, una proteína, un patógeno, o célula enferma tal como, por ejemplo, una célula maligna, célula proliferativa, célula inflamatoria, o cualquier célula mutada, tal como una célula neural mutada, que causa, por ejemplo, una condición patológica en un organismo por la infección del patógeno o replicación de la célula maligna.

Se describe un marco genérico para predecir la resistencia de un patógeno o célula maligna a un agente terapéutico. El marco genérico puede utilizarse ulteriormente para identificar una o más mutaciones o patrones de mutación, con inclusión de inserciones y deleciones, que confieren resistencia a un agente terapéutico. Se entiende que el uso del término mutación incluye también polimorfismos genéticos. Por el empleo de herramientas bioinformáticas en las metodologías de determinación del genotipo y el fenotipo, se predice exactamente la resistencia del patógeno o célula maligna de un paciente a un agente terapéutico basada en mutaciones genotípicas en el patógeno o la célula maligna. En primer lugar, se selecciona la enfermedad para la cual debe predecirse la resistencia terapéutica. Una vez seleccionada la enfermedad, se localiza o se crea una base de datos genotipo-fenotipo de resistencia terapéutica. Utilizando esta información, se configura y adiestra la red neural. Con la red adiestrada, es posible predecir la resistencia de los agentes terapéuticos basada en información genética de la enfermedad del paciente.

Pueden utilizarse niveles de expresión de proteínas o ácidos nucleicos.

Teniendo en cuenta la amplitud de la aplicación y el posible uso de la misma para ensayos de resistencia, determinación de perfiles de fármacos y diagnóstico, debe-rían describirse formas diferentes de mutaciones. Dichos tipos de mutaciones deberían abarcar mutaciones tanto genéticas como epigenéticas. Los cambios genéticos abarcan, (i) sustituciones de bases tales como polimorfismos de un solo nucleótido, transiciones, transversiones, sustituciones y (ii) mutaciones de desplazamiento de marco tales como inserciones, repeticiones y deleciones. Además de esto, son útiles también microsatélites. La influencia de las mutaciones en la etiología del cáncer puede ilustrarse por las mutaciones que influyen en el efecto del gen supresor de tumores p53 (otros genes supresores de tumores son TGF-beta, NF-1, WT-1, Rb). Alternativamente, las mutaciones presentes en oncogenes (un ejemplo de un oncogén es Ras, siendo otros oncogenes c-myc, c-raf, neu, IL-2), genes reparadores (v.g. la metilguanosil-metiltransferasa puede causar cambios en el fenotipo y/o el efecto del fármaco.

Los cambios epigenéticos abarcan alteraciones de ácidos nucleicos, v.g. metilación de los ácidos nucleicos. El papel de la metilación en la enfermedad y la salud ha sido demostrado recientemente por la influencia de la metilación en diferentes síndromes tales como el síndrome Frágil X y el síndrome de Rett. Debe entenderse que la metilación no sólo tiene impacto sobre el estado de enfermedad, sino también sobre la determinación de los perfiles de fármaco (Esteller M. et al. New England Journal of Medicine, 2000, Vol 343:19, p. 1350-1354. "Inactivation of the DNA repair gene MGMT and the clinical response of gliomas to alkylating drugs").

El marco genérico puede utilizarse para predecir el desarrollo de una enfermedad genética en un paciente. Como se utiliza en esta memoria, el término "enfermedad genética" hace referencia a cualquier condición patológica que esté correlacionada directa o indirectamente con una mutación genética. Se localiza o se genera una base de datos fenotipo-genotipo de mutaciones genéticas correlacionadas con el desarrollo de una enfermedad genética. Utilizando los datos de esta base de datos, se adiestra una red neural. Una muestra de la información genética del paciente se utiliza para determinar el genotipo. Una vez introducida la información genética determinada del paciente en la red neural adiestrada, puede hacerse una predicción en cuanto a probabilidad de que el paciente desarrolle una enfermedad dada. La probabilidad de desarrollar cualquier enfermedad genética asociada con una mutación genética puede determinarse.

De acuerdo con ello, la presente invención representa un cambio de paradigma en la capacidad del clínico para monitorizar un estado de enfermedad de un paciente y prescribir exactamente un agente terapéutico o combinación de agentes terapéuticos basada en la resistencia al agente terapéutico existente o desarrollado del patógeno o las células malignas, y tratar con ello más eficazmente el estado de enfermedad del paciente.

La resistencia al agente terapéutico de cualquier patógeno o célula maligna puede predecirse con tal que se conozca la secuencia diana. Un patógeno, como se utiliza en esta memoria, hace referencia a cualquier microorganismo productor de una enfermedad, con inclusión de bacterias, virus, algas, hongos, levaduras y protozoos. Una célula maligna, como se utiliza en esta memoria, hace referencia a una célula que tiene las propiedades de anaplasia, invasión y metástasis.

Una aplicación particular es la predicción de la resistencia a los agentes terapéuticos de un virus causante de enfermedad. Específicamente, la presente invención puede predecir la resistencia del virus de la inmunodeficiencia humana (HIV) tipo 1. Otros virus son HIV tipo 2, virus del herpes símplex (HSV) tipos 1 y 2, virus del papilomavirus humano, virus de la hepatitis B (HBV), virus de la hepatitis C (HCV), citomegalovirus (CMV), virus del sarcoma de Rous (RSV) y virus Epstein-Barr (EBV). Adicionalmente, puede predecirse la resistencia al agente terapéutico en tales bacterias productoras de enfermedades como Mycobacterium sp., Salmonella sp., Escherichia sp. y Streptococcus sp.

Aunque algunos regímenes de tratamiento emplean un solo agente terapéutico, es más típico hoy en día emplear una combinación de agentes terapéuticos para tratar cualquier estado de enfermedad dado. Un agente terapéutico, como se utiliza en esta memoria, se refiere a cualquier animal, vegetal, mineral o sustancia farmacéutica utilizada para tratar un patógeno o célula maligna. Se entiende que el término "sustancia farmacéutica" se refiere a compuestos farmacéuticos, proteínas, DNAs (con inclusión de DNA antisentido), y RNAs. Debe entenderse que los compuestos nucleicos y peptídicos pueden contener aminoácidos o bases no naturales, conocidos por los expertos en la técnica. Adicionalmente, los compuestos nucleicos y peptídicos pueden contener enlaces de bases no naturales o uniones peptídicas conocidas en la técnica. Cuando se emplea una combinación de agentes terapéuticos y se desarrolla resistencia, el clínico a menudo no sabe cuál de los agentes terapéuticos ya no es eficaz para tratar el estado de enfermedad. La resistencia a los agentes terapéuticos puede ser pre-existente o desarrollada por exposición prolongada a uno o más agentes terapéuticos. Por esta razón, debe entenderse que un agente terapéutico comprende también combinaciones de diferentes compuestos.

El desarrollo de resistencia a los agentes terapéuticos es especialmente causante de problemas debido a que, incluso hoy en día, un clínico tiene solamente un número limitado de agentes terapéuticos disponibles para tratar cualquier patógeno o célula maligna dados. Así, el clínico no puede simplemente reemplazar la totalidad de los agentes terapéuticos que se administran actualmente por una nueva serie de agentes terapéuticos. Por ejemplo, por reemplazamiento del régimen de tratamiento actual con un régimen de tratamiento completamente nuevo, el clínico puede desechar un agente terapéutico eficaz. El clínico no puede tampoco reemplazar secuencialmente cada agente terapéutico que se administra en una terapia de combinación. Además, no es extraño que un patógeno o célula maligna, que exhibe resistencia a un agente terapéutico particular exhiba también grados variables de resistencia cruzada a otros agentes terapéuticos.

Adicionalmente, no toda mutación causa resistencia. Por ejemplo, una mutación puede ser la causa de que un patógeno o célula maligna se vuelva más sensible a un agente terapéutico dado. Asimismo, una mutación puede restablecer la sensibilidad de los fármacos a un patógeno o célula maligna que era previamente resistente a dicho agente terapéutico.

Por monitorización continua del estado de enfermedad, el clínico será capaz también de evaluar si puede prescribirse un agente terapéutico más eficaz para tratar al paciente. Debe entenderse que se puede detectar el desarrollo de la sensibilidad a un agente terapéutico en un patógeno o célula maligna. Por el uso del término resistencia al agente terapéutico, se entiende que este término incluye tanto el aumento como la disminución en la sensibilidad del patógeno o célula maligna a un agente terapéutico.

Así pues, la eficacia de los regímenes de tratamiento con agentes terapéuticos de combinación puede monitorizarse. Por monitorización de la información genotípica del patógeno o célula maligna, el clínico puede evaluar más exactamente la eficacia del presente régimen de tratamiento y prescribir el o los agentes terapéuticos de reemplazamiento apropiados a medida que se desarrolla resistencia o sensibilidad.

Aunque la presente invención se establece en muchos casos en términos de tratamiento de un paciente humano, debe entenderse que la presente invención puede aplicarse también para medir la resistencia al agente terapéutico de un patógeno o célula maligna que causa un estado de enfermedad en cualquier animal.

Una vez que se han identificado nuevas mutaciones o patrones de mutación utilizando las redes neurales, un técnico experimentado puede construir formas mutantes de la enfermedad de tipo salvaje. El técnico experto puede utilizar luego la forma mutante de la enfermedad de tipo salvaje para estudiar la resistencia a agentes terapéuticos. Como ejemplo, el técnico experto puede realizar mutagénesis orientada sobre una cepa de tipo salvaje de un virus o bacteria que es normalmente sensible a un agente terapéutico para estudiar el efecto de dicha mutación sobre la resistencia al agente terapéutico. La mutagénesis orientada podía utilizarse para crear al menos una de las mutaciones identificadas utilizando las redes neurales en un virus o bacteria de tipo salvaje. El virus o bacteria mutante podría cultivarse luego en presencia de un agente terapéutico y el crecimiento de dicho virus o bacteria mutante podría medirse contra el desarrollo del virus de tipo salvaje o bacteria en presencia del agente terapéutico. Cualquier diferencia en las tasas de crecimiento podría atribuirse entonces a la mutación identificada por la red neural.

\vskip1.000000\baselineskip

A. Metodologías de Determinación del Genotipo

Las metodologías de determinación del genotipo detectan cambios o mutaciones genéticos específicos, con inclusión de inserciones y deleciones, en la información genética de la muestra. Las metodologías de determinación del genotipo se utilizan para detectar cambios o mutaciones genéticas específicas, con inclusión de inserciones y deleciones, en un genoma de patógeno o célula maligna que se sabe están asociados con la resistencia a agentes terapéuticos. Como se utiliza en esta memoria, debe entenderse que el término "genoma" hace referencia a cualquier DNA o RNA aislado del patógeno o célula maligna. Así, el término genoma incluye, por ejemplo, DNA cromosómico, DNA extra-cromosómico (con inclusión de DNA plasmídico, DNA microsatélite, y DNA mitocondrial), RNA mensajero (mRNA), DNA o RNA codificados por virus, y análogos. Estas mutaciones pueden hacer que el patógeno o célula maligna se vuelva más sensible o más resistente a un agente terapéutico.

Las metodologías de determinación del genotipo pueden utilizarse para detectar cambios o mutaciones genéticos específicos, con inclusión de inserciones y deleciones, en el genoma de un paciente. Preferiblemente, las metodologías de determinación del genotipo se utilizan para detectar mutaciones correlacionadas con el desarrollo de una enfermedad genética. Debe entenderse que no todas las mutaciones están correlacionadas directamente con una enfermedad genética. La anemia de células falciformes es un ejemplo de una mutación genética que está correlacionada directamente con una enfermedad genética. La mayoría de las mutaciones, sin embargo, están correlacionadas indirectamente con una enfermedad genética. Estas mutaciones aumentan generalmente la prevalencia de que un paciente desarrolle la enfermedad genética asociada con la mutación, pero la presencia de la mutación, en y por sí misma, no es determinante del desarrollo de la enfermedad genética. Puede predecirse el desarrollo de una enfermedad genética que está correlacionada indirectamente con una o más mutaciones.

La determinación del genotipo es más simple de realizar que la determinación del fenotipo, y menos costosa. Una desventaja es que los resultados son difíciles de interpretar. Es importante indicar que la determinación del genotipo no es una medida de resistencia por sí misma - puede inferirse resistencia de la información genotípica, pero esto requiere interpretación compleja utilizando métodos tales como los que se describen en la presente invención.

La interpretación de la información del genotipo es difícil y requiere un método complejo. Los modelos estadísticos adolecen de exactitud decreciente si el problema a resolver, es decir la relación entre una o más mutaciones y la eficacia de los fármacos, se hace más complejo. Un problema de este tipo se encuentra a menudo cuando patrones de genotipo complejos están ligados a monoterapias o terapias de combinación como sucede durante el tratamiento de enfermedades infecciosas y malignas, por ejemplo. Las relaciones complejas entre los perfiles genotípicos encontrados en el agente causante de la enfermedad, sea después del tratamiento o incluso en condiciones naíf de tratamiento, y las posibles terapias pueden abordarse por redes neurales. Una red neural permite el cálculo de resistencia más exactamente que los análisis estadísticos convencionales.

Debe entenderse que cualquier método capaz de detectar cambios genéticos puede utilizarse en la presente invención. Además, estos cambios genéticos pueden ser detectados en cualquier DNA o RNA aislado de la muestra. Adicionalmente, los cambios genéticos pueden ser detectados en cDNA preparado a partir de la muestra.

Debe entenderse que la muestra puede obtenerse a partir de un individuo de la especie que va a ser analizada utilizando cualquiera de cierto número de medios de toma de muestra "invasivos" o "no invasivos". Se dice que un medio de toma de muestra es "invasivo" si el mismo implica la recogida de la muestra del interior de la piel u órganos de un paciente tal como recogida de sangre, recogida de semen, biopsia con aguja, aspiración pleural, etc. En contraste, un método de toma de muestras "muy invasivo" quiere decir que es uno en el cual la muestra se recupera de una superficie interna o externa del paciente tal como frotis, recogida de lágrimas, saliva, orina, material fecal, sudor o transpiración, lavado de conductos, etc.

El DNA o RNA del patógeno o célula maligna contenido en la muestra se aísla después que la muestra ha sido recogida. Las técnicas para aislamiento de DNA o RNA a partir de una muestra de un paciente son conocidas por las personas expertas en la técnica y se describen detalladamente en Sambrook et al., Molecular Cloning: A Laboratory Manual, vols. 1-3, 2ª Edición, Cold Spring Harbor Laboratory Press (1989). La información genotípica se determina luego a partir del DNA o RNA aislado. Alternativamente, la información genotípica puede determinarse directamente a partir del patógeno o célula maligna contenido en la muestra. Una secuencia genética determinada como se utiliza en esta memoria hace referencia a cualquier DNA o RNA de la muestra cuya secuencia ha sido determinada, en su totalidad o en parte, utilizando preferiblemente una de las metodologías de determinación del genotipo descritas. Dos metodologías preferidas adecuadas para determinación de la secuencia genética son los ensayos de mutación puntual basados en hibridación y la secuenciación del DNA.

Los ensayos de mutación puntual basados en hibridación buscan mutaciones conocidas individuales. Si bien estos métodos son muy específicos, se ha informado que los ensayos de mutación puntual detectan únicamente una fracción de estas mutaciones conocidas. Véase, v.g., Stuyver et al., Antimicrob. Agents Chemotherap. 41: 284-291 (1997) y pueden, por tanto, proporcionar solamente una pequeña parte seleccionada del cuadro de resistencias. Los ensayos comunes de mutación puntual adecuados para uso en la presente invención incluyen, pero sin carácter limitante, reacción en cadena de polimerasa (PCR) específica de iniciadores (véase, v.g. Larder et al., SIDA 5: 137-144 (1991); hibridación diferencial (véase, v.g. Eastman et al., J. Acquir. Immune Defic. Syndr. Human Retrovirol. 9: 264-273 (1995); Line Probe Assay (LiPA^{TM}, Innogenetics) (Larder et al., AIDS 5: 137-144 (1991); Stuyver et al., Antimicrob. Agents Chemother. 41(2):284-91(1997), y secuenciación de chips de genes (véase, v.g., Fodor, Nature 227:393-395 (1997); Patentes U.S. Núms. 5,925,525, 5,861,242, y 5,834,758). Otros ensayos para determinar mutaciones han llegado a estar disponibles, v.g. ensayo Invader® (Third Wave Technologies, Inc.), ensayo de DNA WAVE® (Transgenomic, Inc.), espectrometría de masas (Jackson P., et al. Molecular Medicine Today 6, 271-276, (2000)) y la resonancia de superficie de plasmones (Nakatani, K. et al. Nature Biotechnology 19(1), 18-19, (2001). Una revisión de las técnicas de mutación utilizadas actualmente, que comprenden análisis basados en gel y no basados en gel se recoge en Shi, M. Clin. Chem. 2001, (47:2) 164-172.

La secuenciación del DNA proporciona información acerca de la totalidad de los nucleótidos en la región del RNA o DNA secuenciada. Existen dos tipos principales de métodos de secuenciación de DNA, el denominado método de terminación de cadenas y la secuenciación química (véase, v.g., Sanger y Coulson, J. Mol. Bio. 94: 441-448 (1975), Maxam y Gilbert, Methods Enzymol. 65: 499-560 (1980). Estrategias de secuenciación alternativas han sido desarrolladas, v.g. análisis espectrométrico de masas. Preferiblemente, sólo un segmento o una porción de la información genética de la muestra se utiliza para detectar una mutación. No obstante, debe entenderse que el genoma completo de una muestra puede utilizarse para detectar una mutación. Como se utiliza en esta memoria, la frase "mutación" hace referencia a un cambio genético específico en la secuencia de nucleótidos de la muestra en comparación con la secuencia genética en la misma posición o localización en la muestra de tipo salvaje, con inclusión pero sin carácter limitante de inserciones y deleciones. La mutación genética se describe normalmente como en la referencia al tipo salvaje, es decir, K101N hace referencia al reemplazamiento de una lisina en el codón 101 con una asparagina. Sin embargo, las mutaciones no dependen del ejemplo de tipo salvaje listado para estar dentro de la práctica de la invención. Por ejemplo, la mutación 101N se refiere a una asparagina en el codón 101 con indiferencia de si había una lisina en 101 antes de la mutación.

En una realización de la presente invención, se prefiere seleccionar un segmento o porción de la información genética que se sabe o se cree acumula mutaciones que afectan a la resistencia a los fármacos. Puede detectarse también un segmento o porción de la información genética de la muestra del paciente que se sabe o se cree acumula mutaciones correlacionadas con el desarrollo de una enfermedad. Generalmente, estos segmentos son genes o fragmentos de genes que codifican enzimas o proteínas. Generalmente, estas proteínas están asociadas con la membrana celular. Por ejemplo, en HIV, genes que se sabe acumulan mutaciones que afectan a la resistencia a los fármacos incluyen, por ejemplo, el gen de polimerasa, el gen de proteasa, la proteína de la cubierta y el gen de transcriptasa inversa. Genes de HIV adicionales de interés para la práctica de la presente invención son v.g. TAT, ref, nef, la integrasa gp41, gp120, gp160. De la hepatitis B, los genes siguientes tales como el núcleo de DNA-polimerasa. De la hepatitis C genes como el núcleo, E1, E2, p7, NS2, NS3, NS4A, NS4B, NS5A, NS5B. De biología de tumores han sido ya identificados diferentes genes ligados a estados de enfermedad, tales como HER2, el receptor EGF, raf, p53, Bcr-Abl, Bcl2 y APC. El efecto de mutaciones en los genes se describe para, v.g., raf, p53, Bcl2 y APC.

Dependiendo del método que se utilice, se identificarán algunas o todas las mutaciones que se han producido. Sin embargo, la predicción de cuál podría ser el efecto neto de estas mutaciones sobre la sensibilidad de la población de patógeno o células malignas a los diversos agentes terapéuticos requiere una interpretación compleja. Por ejemplo, el análisis genético extenso de los materiales aislados virales resistentes generados durante selección in vivo o in vitro ha revelado que la resistencia está causada generalmente por mutaciones que alteran la secuencia de nucleótidos en algún o algunos sitios específicos del genoma. Por tanto, depende del médico combinar esta información con toda la información restante relativa al paciente y decidir qué significa todo esto en términos de selección de fármacos para el tratamiento de su paciente individual.

Los patrones de mutación que se han observado y consignado para HIV-1 y que están correlacionados con resistencia a los fármacos son muy diversos: algunos agentes antirretrovirales requieren únicamente un solo cambio genético, mientras que otros requieren mutaciones múltiples para que aparezca resistencia. En HIV-1 existen en la actualidad aproximadamente 100 mutaciones que se cree están implicadas en el desarrollo de resistencia de HIV-1 a los agentes terapéuticos. Un ejemplo de este tipo es N88S, que causa hipersensibilidad in vitro a amprenavir. Véase, v.g. Ziermann et al., J. Virol. 74(9): 4414-9 (2000). Se ha publicado un sumario de mutaciones en el genoma de HIV correlacionadas con resistencia a los fármacos. Schinazi et al., Int. Antiviral News. 5: 129-142 (1997). Adicionalmente, un listado electrónico con mutaciones está también a disposición en http://hiv-web.lanl.gov, http://hivdb.stanford.edu/hiv/; o http://www.viral-resistance.com.

La relación entre estas mutaciones, deleciones e inserciones puntuales y la susceptibilidad actual de HIV-1 a los agentes terapéuticos es extremadamente compleja e interactiva. Por ejemplo, la mutación M184V en HIV-1 confiere resistencia a 3TC e invierte la resistencia a AZT. Véase, v.g., Larder et al., Science 269: 696-699 (1995). La mutación 333D/E, en cambio, invierte este efecto y puede conducir a resistencia dual a AZT/3TC. Véase, v.g. Kemp et al., J. Virol. 72(6): 5093-5098 (1998).

Cuando se determina el genotipo de HIV-1, el método preferido para la determinación del genotipo es el test genotípico VircoGEN^{TM} (Virco). El VircoGEN^{TM} es un ensayo de determinación del genotipo que utiliza tecnología de secuenciación para identificar todas las mutaciones de resistencia conocidas que se han producido en los genes de proteasa-transcriptasa inversa (PR-RT) de una población de virus de HIV-1 de un paciente. Esta es una medida indirecta basada en indicadores genéticos de resistencia a agentes terapéuticos.

La interpretación de datos genotípicos es a la vez compleja y críticamente importante. A medida que se desarrollen más agentes terapéuticos y se correlacionen más mutaciones con el desarrollo de resistencia a los agentes terapéuticos, esta complejidad aumentará.

B. Metodologías de Determinación del Fenotipo

Las metodologías de determinación del fenotipo miden la capacidad de un patógeno o célula maligna para crecer en presencia de uno o más agentes terapéuticos diferentes en el laboratorio. Esto se expresa usualmente como la multiplicidad de cambio en los valores CI_{50} o CI_{90} (siendo el valor CI_{50} o CI_{90} la concentración de agente terapéutico para la cual el 50% o el 90% respectivamente de la población se ve inhibida en cuanto a su replicación). Un patógeno o célula maligna muy resistente podría exhibir un aumento de 50 ó 100 veces en el CI50, por ejemplo.

La determinación del fenotipo es una medida directa de la sensibilidad, reflejando los efectos e interacciones de todas las mutaciones, conocidas o desconocidas, sobre el comportamiento de la población de patógeno o células malignas en presencia de uno o más agentes terapéuticos. Cualquier método capaz de medir los cambios en la capacidad de un patógeno o célula maligna para crecer en presencia de uno o más agentes terapéuticos puede utilizarse en la presente invención. Tales métodos de determinación del fenotipo de un patógeno o célula maligna son conocidos por las personas expertas en la técnica.

Por ejemplo, métodos para determinación del fenotipo de bacterias se describen en Guoming et al., Sex. Transm. Dis. 27(2): 115-8 (2000), Lozano-Chiu et al., Diagn. Microbiol. Infect. Dis. 31(3):417-24 (1998), Iwen et al., J. Clin. Microbiol. 34(7):1779-83 (1996).

Como ejemplo ilustrativo adicional, métodos para determinación del fenotipo de virus incluyen, pero sin carácter limitante, ensayos de reducción de calvas, ensayos de inhibición del crecimiento de p24 en PBMC (véase, v.g., Japour et al., Antimicrob. Agents Chemother. 37:1095-1101 (1993); Kusumi et al., J. Virol. 66:875-885 (1992), ensayos de virus recombinantes (véase, v.g., Kellam & Larder, Antimicrob. Agents Chemother. 38:23-30 (1994); Hertogs et al., Antimicrob. Agents Chemother. 42:269-276 (1998); el uso de GFP como marcador para evaluar la susceptibilidad de los inhibidores anti-virales (Marschall et al., Institute of Clin. and Mol. Virol., University of Erlanger-Nuremberg, Schlobgarten, Alemania); y ensayos en células de cultivo (Hayden et al., N. Eng. J. Med. 321:1696-702 (1989).

Como otro ejemplo ilustrativo adicional, métodos para determinación del fenotipo de células malignas incluyen, pero sin carácter limitante, ensayos de citometría de flujo (véase, v.g. Pallis et al., Br. J. Haematol. 104(2):307-12 (1999); Huet et al., Cytometry 34(6):248-56 (1998), microscopía de fluorescencia (véase, v.g., Nelson et al., Cancer Chemother. Pharmacol. 42(4):292-9 (1998), método de acumulación de calceína (véase, v.g., Homolya et al., Br. J. Cancer. 73(7):849-55 (1996), y el ensayo de luminiscencia de ATP (véase, v.g., Andreotti et al., Cancer Res. 55(22):5276-82 (1995).

La metodología de determinación del fenotipo empleada utiliza un intensificador de la detección. Como se utiliza en esta memoria, un intensificador de la detección, o dominio, puede ser una sonda resonante, coloreada, generadora de color, inmunógena, fluorescente, luminiscente, o radiactiva. Una parte de detección puede comprender un regulador de la transcripción, tal como el sistema informador heterólogo descrito en la patente U.S. No. 5,776,675.

En una realización de la invención, el intensificador de la detección puede comprender uno o más componentes de un sistema de transferencia de energía por resonancia de fluorescencia (FRET). Tales aspectos pueden utilizarse también para diseñar ensayos de cribado de alta potencia. FRET es un proceso en el cual un fluoróforo excitado (un donante de resonancia) transfiere su energía de estado excitado a una molécula fotoabsorbedora (un aceptor de resonancia). Los intensificadores de detección han sido utilizados con éxito en la determinación del fenotipo de HIV-1. Pauwels el al., J. Virol. Methods 20:309-321 (1998); Paulous et al., International Workshop on HIV Drug Resistance, Treatment Strategies and Eradication, St. Petersburg, Florida, EE.UU. Abstr. 46 (1997); y Deeks et al., 2nd International Workshop on HIV Drug Resistance and Treatment Strategies, Lake Maggiore, Italia. Abstr. 53 (1998).

En una realización preferida, se genera una base de datos fenotipo-genotipo para correlacionar cada una de las mutaciones de genotipo conocidas con cambios en la resistencia fenotípica a los fármacos de dicho patógeno o célula maligna. Por generación de una base de datos de este tipo, el tiempo de preparación inicial para la red neural se reduce sustancialmente para la información de bases de datos (sic) de este tipo que se utilizan para adiestrar y testar las redes neurales de la presente invención. En ciertas circunstancias, dichas bases de datos fenotipo-genotipo han sido ya generadas. Se entenderá, sin embargo, que la presente invención puede practicarse por establecimiento de una base de datos fenotipo-genotipo simultáneamente con el establecimiento y adiestramiento de la red neural.

Puede desarrollarse una base de datos fenotipo-genotipo que correlacione mutaciones conocidas de genotipo con el desarrollo de una enfermedad genética. Preferiblemente, las mutaciones de genotipo están correlacionadas indirectamente con el desarrollo de una enfermedad genética. Las mutaciones genéticas correlacionadas con el desarrollo de una enfermedad genética son conocidas generalmente por una persona con experiencia en la técnica. Por ejemplo, las mutaciones en el gen p53 están correlacionadas con el desarrollo de cierto número de enfermedades genéticas (Gallagher et al., Ann. Oncol. 10:139-50 (1999); Lenz et al., Clin. Cancer Res. 4:1243-50 (1998); Trepel et al., Leukemia 11:1842-1849 (1997); Iwadate et al., Int. J. Cancer 69:236-40 (1996). Análogamente, y a modo de ilustración, muchas enfermedades se han ligado a mutaciones genéticas, con inclusión de enfermedades del tiroides (Finke, Exp. Clin. Endocrinol. Diabetes 104 Suppl. 4:92-97 (1996); enfermedad de Alzheimer (Roses, Neurogenetics 1:3-11 (1997); endometriosis (Bischoff et al., Hum. Reprod. Update 6:37-44 (2000); tumores óseos hereditarios (McCormick el al., Mol. Med. Today 5:481-486 (1999); cáncer de mama (Chen et al., J. Cell Physiol. 181:385-92 (1999); Beckmann et al., J. Mol. Med. 75:429-39 (1997); y carcinoma cervical (Lazo, Br. J. Cancer 80:2008-18 (1999).

Nuevas mutaciones o patrones de mutación se añaden a la base de datos fenotipo-genotipo. Así, es posible añadir a la base de datos fenotipo-genotipo, expandiendo adicionalmente con ello el conocimiento y las capacidades de las redes neurales. Adicionalmente, se entiende que la o las nuevas mutaciones o patrones de mutación identificados por las redes neurales pueden imprimirse en un informe. Tales informes pueden ser utilizados por los técnicos expertos para cribar el perfil genético de un paciente a fin de determinar el patrón de resistencia de la enfermedad.

Debido al tiempo y los costes asociados con los tests fenotípicos, estos ensayos no son generalmente adecuados para cribado clínico de rutina. Análogamente, debido a las dificultades en la traducción de la información genómica en datos significativos, el cribado del genotipo por sí mismo no es adecuado para cribado clínico de rutina. La presente invención, sin embargo, puentea la laguna entre los datos más significativos obtenidos en los ensayos fenotípicos y los datos alcanzables más fácilmente obtenidos por el test genotípico mediante el uso de una red neural.

C. Redes Neurales

Las redes neurales no dan por sentado el número de salidas que dependen de las entradas ni que las entradas sean independientes. En lugar de ello, las redes neurales ofrecen un marco muy potente y general para representar el mapeado no lineal de una serie de variables de entrada para otra serie de variables de salida. Además, las redes neurales representan funciones no lineales de muchas variables en términos de superposición de funciones no lineales de variables simples. Estas funciones no lineales de variables simples están adaptadas en sí mismas a los datos como parte del proceso de adiestramiento de tal modo que el número de tales funciones precisa únicamente crecer a medida que aumenta en sí misma la complejidad del problema, y no simplemente a medida que aumenta la dimensionalidad. Debe apreciarse que aparte de funciones no lineales, pueden utilizarse también funciones lineales que conciernen únicamente a una capa de entrada y de salida. La adición de capas ocultas al último sistema requiere una función no lineal para resolución del problema.

La red neural de la presente invención se caracteriza por: (1) su patrón de conexiones entre las neuronas (denominada su arquitectura); y (2) y el conocimiento que se representa por pesos en la conexión. La Figura 3 representa un marco ilustrativo para una red neural de tres capas.

1. Arquitectura de las Redes Neurales

Una red neural puede emplearse para modelizar la relación entre el genotipo y el fenotipo para ensayos de resistencia a los agentes terapéuticos. Adicionalmente, una red neural puede emplearse para identificar una o más mutaciones o patrones de mutación, con inclusión de inserciones y deleciones, que confieren resistencia a un agente terapéutico. Adicionalmente, una red neural puede emplearse para definir la base genética de la resistencia a los agentes terapéuticos. En una realización de este aspecto, puede emplearse una red neural para identificar nuevas mutaciones asociadas con la resistencia a agentes terapéuticos.

Preferiblemente, la red neural de la presente invención emplea una retro-propagación y un algoritmo de aprendizaje de términos momentáneos implementado con arquitectura de percepción multicapa (MLP). Debe entenderse, sin embargo, que pueden emplearse otras formas de redes neurales en la presente invención. Por ejemplo, pueden utilizarse redes Adaline, redes de teoría de resonancia adaptativa, redes de memoria bi-direccional asociativa, redes de retro-propagación, redes de contra-propagación, redes Hamming, redes Hopfield, redes Madaline, redes neurales probabilísticas, redes de recirculación, redes de reconocimiento de patrones espacio-temporales, y otros tipos de redes neurales para alcanzar los objetos de la presente invención.

Una red neural consiste en un gran número de elementos de procesamiento simple denominados neuronas (a los que se hace referencia también como nodos). La disposición de las neuronas en capas y los patrones de conexión dentro y entre las capas se conoce como la arquitectura de la red, o simplemente arquitectura. Cada neurona está conectada con otras neuronas por medio de enlaces de comunicación directos con un peso asociado. Cada neurona tiene un estado interno, denominado su nivel de activación, que es función de las entradas que ha recibido. En una realización de la presente invención, el nivel de activación está limitado entre 0 y 1. En otra realización, el nivel de activación está limitado entre -1 y 1.

La red neural de la presente invención es una red de alimentación directa en la que las señales fluyen desde las unidades de entrada a las unidades de salida en dirección hacia delante. La red de alimentación directa de la presente invención es una red de alimentación directa de niveles múltiples, con una o más capas ocultas. En una realización, la red neural de la presente invención emplea una sola capa oculta.

En una realización, la red de alimentación directa de la presente invención está conectada totalmente, donde cada nodo en cada capa de la red está conectado a uno de cada dos otros nodos en la capa adyacente de delante. Sin embargo, debe entenderse que pueden emplearse también en la presente invención redes conectadas parcialmente. Las redes conectadas parcialmente pueden emplearse cuando se aplica a la red un número excesivo de datos de entrada de mutaciones o polimorfismos. Alternativamente, pueden aplicarse técnicas de poda. Debe entenderse que en una red conectada parcialmente, algunos de los enlaces de comunicación están ausentes de la red.

La acción de la red de alimentación directa está determinada por dos factores - la arquitectura y el valor de los pesos. Los números de nodos de entrada y salida están determinados por el número de mutaciones implicadas y el número de agentes terapéuticos contemplados, y por tanto deben considerarse fijos. Inicialmente, el valor de los pesos y sesgos son aleatorios. A medida que se produce adiestramiento, lo que se describe con mayor detalle más adelante, los pesos se ajustan para reducir la función de error.

La Figura 3 representa un marco ilustrativo para una red neural de tres capas. La red tiene entradas I, unidades ocultas J y unidades de salida K, y dos unidades de sesgo, las dos cuales tienen una señal de entrada de 1 (es decir, x_{0} y z_{0}). Preferiblemente, el número de entradas, I, es igual al número de mutaciones que se sabe están correlacionadas con la resistencia fenotípica al agente terapéutico para la enfermedad que se evalúa. Sin embargo, en otra realización, el número de unidades de entrada, I, es igual al número de mutaciones que se sabe están correlacionadas con la resistencia fenotípica al agente terapéutico para un gen que existe en la enfermedad que se evalúa. Por ejemplo, en el HIV-1, la entrada, I, podría ser igual a la totalidad de las mutaciones conocidas que se sabe confieren resistencia a los agentes terapéuticos al HIV o podría ser igual a la totalidad de las mutaciones conocidas que se sabe confieren resistencia a los agentes terapéuticos en el gen de proteasa. En una sub-realización adicional, únicamente un subconjunto de mutaciones conocidas se alimenta como entrada a la red neural de la presente invención.

Cada capa oculta, J, contiene una pluralidad de nodos ocultos. El número de nodos ocultos, j, se considera que es una variable que puede ajustarse para conseguir una eficiencia satisfactoria. En la práctica, el número óptimo de nodos ocultos se determina empíricamente. El medio para determinar el número óptimo de nodos es bien conocido por los expertos en la técnica y depende de la complejidad de la información genotipo/fenotipo y la enfermedad de que se trate. Al igual que el número de capas ocultas, el número de unidades ocultas afecta también a la complejidad de la red neural. El número de unidades ocultas se determina por evaluación de la eficiencia de la red neural en cuanto a las series de validación y de test.

El número de unidades de salida, K, puede ser igual al número de agentes terapéuticos con mutaciones conocidas que confieren resistencia a los agentes terapéuticos. Sin embargo, debe entenderse que el número de unidades de salida, K, puede ser un subconjunto de agentes terapéuticos con mutaciones conocidas que confieren resistencia. Por ejemplo, el número de unidades de salida puede estar restringido a una clase particular de agentes terapéuticos, tales como inhibidores de proteasas, etc.

La red neural ilustrativa de tres capas de la Figura 3 tiene dos capas de pesos adaptativos (w_{ji} y w_{jk}), que son el peso de la unidad oculta j-ésima asociada con la señal de entrada x_{i}, y el peso de la unidad de salida k-ésima asociado con la señal oculta z_{j}, respectivamente. Los valores de estos pesos se optimizan durante el paso de adiestramiento de la red neural, que se describe más adelante.

Cuando se identifican una o más mutaciones y/o patrones de mutación que confieren resistencia a un agente terapéutico, se prefiere que el número de entradas sea igual al número de mutaciones que se sabe están correlacionadas con el hecho de conferir resistencia a dicho agente terapéutico. El número de salidas es igual al número de agentes terapéuticos estudiados por la presente red neural para identificación de mutaciones.

Cuando se trata de la predicción de la probabilidad de desarrollo de una enfermedad, se prefiere que el número de entradas sea igual al número de mutaciones conocidas que se sabe están correlacionadas con el desarrollo de la o las enfermedades genéticas. En otra realización, el número de entradas es igual al número de mutaciones se sabe están correlacionadas con el desarrollo de una enfermedad genética dada. Preferiblemente, el número de salidas es igual al número de enfermedades genéticas que son evaluadas por la red neural.

En una realización de la presente invención, la red neural emplea una curva sigmoide como la función de activación. La curva sigmoide puede ser binaria (0, 1) o bipolar (-1, 1). Otras funciones de activación que pueden emplearse son funciones lineales, hiperbólico-tangentes, logísticas, umbral y Gaussiana.

2. Adiestramiento de la Red Neural

Antes de introducir datos en un nodo de entrada, el mismo tiene que pre-procesarse. El pre-procesamiento hace referencia al proceso de convertir los datos moleculares en un vector de entrada capaz de ser introducido en la red neural. En una realización de la presente invención, el patrón de mutación x para una muestra dada se expresa por x = (x_{1}, x_{2}, ..., x_{n}), donde x_{i} (i = 1, 2, ..., n) tiene un valor de 0 ó 1, representando 1 la mutación existente en la posición i, y representando 0 la ausencia de mutación en la posición i, y n es el número de mutaciones en la muestra de test. Asimismo, los datos de salida precisan ser pre-procesados para convertir los datos de la red neural en datos significativos. En una realización de la presente invención, se considera que una multiplicidad de resistencia inferior o igual a 4 veces el punto de corte (el mismo puede diferir de fármaco a fármaco) es "sensible", mayor que 4 veces el punto de corte y menor que el punto de corte resistente (sic) (puede diferir de fármaco a fármaco) se considera que es "intermedia", y si el valor es mayor que 10 veces el punto de corte se considera que es "resistente". Los puntos de corte biológicos se determinan utilizando la tecnología descrita en Larder BA & Harrigan PR. AIDS, 2000, 14 (suplemento 4): S111, Abstract P327 y póster. Por ejemplo (punto de corte de fármaco):

Zidovudina 4,0, Nevirapina 8,0, Delavirdina 10,0, Efavirenz 6,0, Lamivudina 4,5, Didanosina 2,0, Zalcitabina 2,0, Stavudina 1,75, Abacavir 3,0, Indinavir 3,0, Ritonavir 3,5, Nelfinavir 4,0, Saquinavir 2,5, Amprenavir 2,0, Lopinavir 2,5.

En una realización, la red neural de la presente invención emplea una regla de aprendizaje de retro-propagación y término de momento (BPM). Las reglas de aprendizaje BPM han sido revisadas por, v.g., Chauvin y Rumelhart, Backpropagation: Theory, Architectures and Applications, Lawrence Erlbaum Assoc., Hillsdale, N.J. (1995). Los algoritmos BPM proporcionan un método eficiente de computación para cambio de los pesos en una red de alimentación directa con diferentes funciones de activación.

El adiestramiento BPM implica tres etapas: alimentación directa del patrón de adiestramiento de entrada; cálculo y retro-propagación del error asociado; y ajuste de los pesos. En la fase de alimentación directa, los pesos se mantienen inalterados a todo lo largo de la red, y las señales de función se estiman sobre una base de neurona por neurona. En la fase de retro-propagación, las señales de error se computan recurrentemente para cada neurona a partir de la capa de salida, y se hacen retroceder a través de la red, capa por capa para deducir el error de las unidades ocultas. Los pesos se ajustan correspondientemente para reducir la diferencia entre la salida de la red y la salida de la diana. Después del adiestramiento, la red neural calcula únicamente en la fase de alimentación directa.

Debe entenderse que los valores de los parámetros libres (los pesos y los sesgos) pueden determinarse por minimización de la función de error. Una función de error preferida que puede emplearse en la presente invención es la función de error de la raíz cuadrática media, que es la raíz cuadrada de la suma de los cuadrados de los errores calculada para todos los patrones a través del archivo de adiestramiento. Otras funciones de error son conocidas por las personas expertas en la técnica.

En otra realización, la red neural de la presente invención emplea un programa de contra-propagación (CP). Véase, v.g., Wu y Shivakumar, Nucleic Acids Res. 22:4291-4299 (1994). Un programa CP se aproxima al adiestramiento de pares de vectores de entrada por construcción adaptativa de una tabla de consulta. De esta manera, un gran número de puntos de datos de adiestramiento pueden comprimirse para dar un número más manejable de entradas en la tabla de consulta. La exactitud de aproximación se determina por el número de entradas en la tabla de consulta.

En una realización de la presente invención, se utilizan en combinación algoritmos BP y CP. Se ha comunicado que una red que emplea una combinación de los dos algoritmos predecía más exactamente las clasificaciones filogenéticas que una red que empleaba cualquiera de los algoritmos individualmente. Véase, v.g., Wu y Shivakumar, Nucleic Acids Res. 22: 4221-4299 (1994).

Además del adiestramiento BP, pueden emplearse en la presente invención otros algoritmos de adiestramiento. Por ejemplo, puede utilizarse el algoritmo de bolsillo, la regla delta, la regla de Hebb, la regla de Hopfield, la regla de Windrow-Hoff, la regla Adaline, y la regla de Kohonen para adiestrar la red neural de la presente invención.

Con objeto de crear una red que tenga la eficiencia óptima en datos nuevos, el enfoque más simple consiste en comparar la función de error de diferentes redes utilizando datos que son independientes del utilizado para el adiestramiento. Por comparación de las diferentes redes, puede medirse fácilmente el efecto de las modificaciones de los parámetros de red.

Los parámetros de las redes neurales se determinan investigando la eficiencia óptima en la serie de datos de test. Con estos parámetros, puede alcanzarse una tasa de concordancia mayor que 75% entre genotipo y fenotipo. En una realización, se alcanza una tasa de concordancia mayor que 85% tal como una tasa de concordancia mayor que 90%. Debe entenderse, sin embargo, que pueden alcanzarse por la presente invención tasas de concordancia mayores que 95%.

Varios parámetros internos de la red de la presente invención pueden ajustarse finamente con ayuda de los resultados experimentales y la experiencia. Por ejemplo, puede optimizarse la tasa de aprendizaje \eta (el paso de tamaño del proceso de minimización). La velocidad de convergencia de la red neural está relacionada directamente con el parámetro de aprendizaje. Un parámetro de aprendizaje demasiado pequeño hará lento el proceso de adiestramiento, en tanto que una tasa de aprendizaje demasiado grande puede producir oscilaciones entre soluciones pobres. En general, se pueden emplear pasos grandes cuando el punto de búsqueda está lejos del mínimo, disminuyendo el tamaño del paso a medida que la búsqueda se acerca a su mínimo. Enfoques adecuados para seleccionar la tasa de aprendizaje apropiada se proporcionan por, v.g., Hassoun, Fundamentals of Artificial Neural Networks, MIT Press, Cambridge, MA (1995). La tasa de aprendizaje \eta se ajusta entre 0 y 1, preferiblemente 0,1 a 0,9. Debe entenderse que la tasa de aprendizaje depende de la información genotipo-fenotipo que es analizada por la red neural.

Otro parámetro interno que puede optimizarse en la presente invención es el término momento \alpha. El momento permite que la red realice ajustes de peso razonablemente grandes con tal que las correcciones estén en la misma dirección general para varios patrones, mientras que se utiliza una tasa de aprendizaje menor para prevenir una respuesta grande al error de un patrón de adiestramiento cualquiera. El mismo reduce también la probabilidad de que la red neural encuentre pesos que representen un mínimo local. El término de momento se selecciona normalmente entre 0 y 1. Preferiblemente, el momento \alpha se ajusta a 0,9.

En una realización, se recoge una serie de datos de datos genotípicos y fenotípicos. Por ejemplo, la serie de datos puede recogerse de una base de datos fenotipo-genotipo. En una realización de la presente invención, cada miembro de la serie de datos corresponde a una mutación genética que está correlacionada con un cambio fenotípico en la resistencia a los agentes terapéuticos. Preferiblemente, la serie de datos se divide en una serie de datos de adiestramiento y una serie de datos de test. No es necesario tener una gran serie de datos de adiestramiento. Si las muestras en la serie de datos de adiestramiento representan todos los casos posibles con significación estadística adecuada, la adición de nuevas muestras no aumenta por regla general la cantidad de información en las muestras de adiestramiento. En lugar de ello, puede reducir la cantidad útil de relación de información a ruido en las muestras. Por otra parte, una serie de datos de adiestramiento demasiado pequeña no cubrirá generalmente todas las variaciones posibles en la población. La red resultante memoriza simplemente a menudo los datos en la serie de datos de adiestramiento y no generaliza adecuadamente.

Durante el adiestramiento, cada miembro de la serie de datos de adiestramiento se presenta preferiblemente a la red neural de uno en uno. Para cada miembro de la serie de datos de adiestramiento, la red utiliza los valores preprocesados para estimar una predicción, la cual se compara luego con la resistencia real de la mutación. Si la predicción de la red es correcta, las fuerzas y umbrales de conexión dentro de la red no cambian y se presenta el dato siguiente. Si la estimación de la predicción no es correcta, los pesos y umbrales de conexión tanto en la capa oculta como en la capa exterior se ajustan para reducir el tamaño de la función de error. Después que se han hecho los ajustes, se presenta el dato siguiente. No es necesario continuar el adiestramiento hasta que el error alcance realmente su mínimo. El adiestramiento puede detenerse una vez que se ha alcanzado un valor umbral para la función de error (denominado tolerancia), o se ha alcanzado un límite superior fijo en el número de iteraciones de adiestramiento (denominadas épocas). En los casos en que se utiliza la tolerancia de error para determinar el punto final de adiestramiento, se prefiere que la tolerancia de error j tenga un valor comprendido entre 0,1 y 0,0001. En otra realización, el adiestramiento se para una vez que han ocurrido aproximadamente 10.000 épocas.

En una realización de la presente invención, el paso de adiestramiento se realiza de una manera iterativa. Dicho de otro modo, se selecciona una primera serie de datos de adiestramiento de una base de datos fenotipo-genotipo para adiestramiento. Esta serie de datos se utiliza luego para adiestrar la red neural. Después que la red ha sido adiestrada, se determina la tasa de predicción o tasa de concordancia de la red a partir de una serie de datos de test. Las muestras que dan una predicción incorrecta se retiran de la serie de datos de test y se introducen en una segunda serie de datos de adiestramiento. La segunda serie de datos de adiestramiento comprende la primera serie de datos de adiestramiento más cualesquiera muestras que dieran una predicción incorrecta a partir de la serie de datos de test. La segunda serie de datos de adiestramiento se utiliza luego para re-adiestrar la red neural. En caso necesario, este proceso puede repetirse hasta que se alcanza el nivel de eficiencia deseado. Por re-adiestramiento de la red neural de esta manera, es posible aumentar la eficiencia de la red neural.

Ocasionalmente, después que la red ha sido adiestrada y se ha iniciado el test, se determina que el número de unidades de entrada es excesivo. Cuando el número de unidades de entrada es excesivo, el adiestramiento de la red puede ralentizarse y puede producirse una generalización pobre. La determinación de cuál es un número excesivo de entradas puede ser una determinación subjetiva y depende de la red específica. No obstante, si se determina que el número de unidades de entrada es excesivo, es preferible reducir el número de unidades de entrada. Por esta razón, en una realización, se utilizan recortes de entrada para reducir la dimensionalidad de los datos de entrada.

En una realización de la presente invención, se emplea un detector de características que extrae características notables de los datos de entrada antes de presentarlas a la red neural. Por ejemplo, puede emplearse un algoritmo de repartición de datos para clasificar datos no sobrantes, a partir de los cuales puede seleccionarse aleatoriamente una serie de test. Un algoritmo de repartición de datos de este tipo se define como sigue:

1

Este algoritmo calcula la distancia (d) entre dos patrones de mutación cualesquiera (x y z), y hace posible clasificar datos sobrantes y datos de ruido y evitar seleccionarlos como miembros de test. La variable - n - es igual al número de unidades de entrada. Si la red neural continúa fallando para clasificar correctamente grandes porciones de las muestras en la serie de datos de adiestramiento, incluso después de ajustes repetidos en los parámetros del algoritmo de adiestramiento, debería aumentarse la complejidad de la red neural. Por el contrario, si la red neural alcanza un alto grado de clasificación correcta de la serie de adiestramiento, pero falla en clasificar exactamente un gran número de muestras en la serie de datos de test, la estructura de la red es probablemente demasiado compleja para el problema que se trata de resolver. Si sucede esto, el número de nodos en la o las capas ocultas debería reducirse gradualmente o, si existen capas ocultas múltiples, debería reducirse el número de capas ocultas.

Una vez que la red neural ha sido adiestrada, la red está lista y es capaz de predecir la resistencia de una enfermedad a un agente terapéutico basada en la secuencia genética determinada de la enfermedad. Para hacer esta predicción, se aísla una muestra del paciente que contiene una muestra de la enfermedad y se determina la información genética de la enfermedad. Esta información genética determinada se pre-procesa luego y se carga en la red neural adiestrada. La red neural adiestrada computa luego la resistencia predicha de la enfermedad a un agente terapéutico. Las redes neurales pueden utilizarse para identificar una o más mutaciones y/o patrones de mutación adicionales, con inclusión de inserciones y deleciones, que confieren resistencia a un agente terapéutico. De acuerdo con esta realización, se identifica una primera serie de mutaciones genéticas. La primera serie de mutaciones genéticas se compone de mutaciones genéticas que se sabe confieren resistencia a agentes terapéuticos. Tales mutaciones son conocidas a menudo por las personas expertas en la técnica y pueden obtenerse tanto de Internet como de revistas revisadas escudriñadas cuidadosamente. Por ejemplo, la base de datos de Stanford <http://hivb.stanford.edu/hiv/>> proporciona una base de datos de mutaciones que se sabe confieren a HIV-1 resistencia a los agentes terapéuticos. Sin embargo, en la medida en que no esté disponible una base de datos adecuada, puede ser generada una fácilmente por una persona con experiencia en la técnica.

Ulteriormente, se identifica una segunda serie de mutaciones genéticas que se compone de mutaciones genéticas presentes con frecuencia relativamente alta en una enfermedad que es resistente a un agente terapéutico. La segunda serie de mutaciones genéticas contiene todas las mutaciones genéticas de la primera serie más al menos una o más mutaciones adicionales. Estas mutaciones adicionales pueden ser cualquier mutación y/o polimorfismo que estén relacionados con una enfermedad. A menudo, se sabe que estas mutaciones están asociadas con resistencia a agentes terapéuticos, pero no se sabe si las mutaciones confieren realmente resistencia. En una realización, las mutaciones adicionales se seleccionan de entre aquéllas que están presentes con frecuencia relativamente alta en una enfermedad que es resistente a un agente terapéutico. El nivel umbral de frecuencia con que se encuentran las mutaciones en la enfermedad es establecido por el usuario para inclusión en la segunda serie. Generalmente, el nivel umbral de frecuencia puede estar comprendido entre 1% y 85%. Sin embargo, en una realización preferida, el nivel umbral se establece entre 5 y 50%, tal como 5 a 25%. En otra realización, la segunda serie de mutaciones genéticas está constituida por la primera serie de mutaciones genéticas y las 5 a 100 mutaciones más frecuentes siguientes asociadas con resistencia. Sin embargo, cualquier número de mutaciones adicionales puede incluirse en la segunda serie con tal que la mutación se produzca con una tasa estadísticamente significativa.

Se crean una primera red neural y una segunda red neural, en las cuales el número de entradas para cada red neural es igual al número de mutaciones genéticas estudiadas. Así, el número de entradas para la primera red neural es igual al número de mutaciones en la primera serie de mutaciones genéticas. Las salidas para cada red neural son iguales a la multiplicidad de resistencias que se evalúan. Por ejemplo, la primera y la segunda redes neurales se adiestran utilizando la misma serie de datos de adiestramiento.

Después que las dos redes están bien adiestradas, las redes neurales pueden realizar una predicción en cuanto al impacto fenotípico de una mutación sobre la resistencia de la enfermedad a un agente terapéutico. En una realización, se pasa una serie de datos de test a lo largo de la primera y segunda redes neurales adiestradas. Para cada una de las redes neurales, la salida, el fenotipo "virtual", para cada miembro de la serie de datos de test, se compara con el fenotipo "real" para determinar la diferencia entre los fenotipos "real" y "virtual". Dado que cada miembro de la serie de datos de test procede de una base de datos, el fenotipo "real" (la multiplicidad de resistencias al agente terapéutico que se estudia) es conocido. Por comparación de la diferencia entre la predicción fenotípica de las redes neurales adiestradas primera y segunda, se identifican nuevas mutaciones genéticas que se predice conferirán resistencia de los agentes terapéuticos a la enfermedad. Las muestras en que ha mejorado la predicción (menor diferencia entre el fenotipo "virtual" y el "real"), se observan y se designan muestras mejoradas. Todas las mutaciones adicionales contenidas en estas muestras mejoradas se someten a cribado. La frecuencia de una mutación que se encuentra en la muestra mejorada se compara con la de la mutación que se encuentra en el total de muestras evaluadas en la red neural. Se considera que una mutación contenida en las muestras mejoradas confiere resistencia al agente terapéutico dado cuando se observa una diferencia mucho mayor entre las dos frecuencias. El umbral de diferencia de frecuencia es especificado por el usuario. Generalmente, el umbral de diferencia puede estar comprendido entre 1 y 50%, siendo preferiblemente al menos 5%. En una realización preferida, el umbral de diferencia es al menos 9%. En otra realización preferida, el nivel umbral de diferencia es al menos 12%. El usuario puede realizar luego experimentación adicional, tal como mutagénesis orientada, para confirmar que la mutación confiere de hecho resistencia fenotípica al fármaco.

Las redes neurales adiestradas pueden identificar también que una mutación asociada previamente con resistencia a un agente terapéutico confiere adicionalmente resistencia a otro agente terapéutico.

Las salidas del sistema son variables continuas que proporcionan originalmente multiplicidad de cambio en CI50, por lo que, de acuerdo con los puntos de corte utilizados, las muestras pueden clasificarse ulteriormente en sensibles, intermedias o resistentes a fármacos específicos.

Cuando se predice la aparición de una enfermedad genética en un paciente, la red neural se adiestra de acuerdo con estos métodos utilizando una serie de datos de adiestramiento obtenidos de una base de datos fenotipo-genotipo de mutaciones conocidas que están correlacionadas con el desarrollo de una enfermedad genética. Una vez que la red ha sido adiestrada, se determina la información genética de la muestra del paciente. Las mutaciones genéticas se identifican a partir de esta muestra y estas mutaciones genéticas se introducen en la red neural adiestrada. La red neural adiestrada es capaz luego de realizar una predicción en cuanto a la probabilidad de que estas mutaciones genéticas conduzcan al desarrollo de una enfermedad genética en el paciente.

Los ejemplos que siguen se proporcionan a modo de ilustración y no deben interpretarse como limitantes de la presente invención.

Ejemplo 1 Modelización de la relación entre genotipo y fenotipo para la resistencia de HIV (Virus de la Inmunodeficiencia Humana) tipo 1 a los fármacos A. Experimentos de Determinación del Genotipo

Se extrajo RNA de HIV-1 a partir de 200 \mul de plasma de un paciente utilizando el kit de extracción de RNA viral QIAamp^{TM} (Qiagen, Santa Clarita, CA), de acuerdo con las instrucciones del fabricante. Se produjo cDNA que abarcaba parte del gen pol utilizando Expand RT^{TM}. Se amplificó luego un fragmento de 2,2 kb que codificaba las regiones de proteasa y transcriptasa inversa (RT) por TCR anidada. Este material genético se utilizó subsiguientemente en experimentos de determinación tanto del fenotipo como del genotipo. Véase, v.g., Larder et al., Antimicrob. Agents Chemother. 43 (8): 1961-1967 (1999). Los productos PCR obtenidos de las muestras de plasma del paciente se utilizaron para determinación del genotipo por análisis de la secuencia basado en didesoxinucleótidos, utilizando terminadores Big Dye^{TM} (Applied Biosystems) y se resolvieron en un secuenciador de DNA ABI377. Véase, v.g., Larder et al., Antimicrob. Agents Chemother. 43 (8): 1961-1967 (1999).

B. Experimentos de Determinación del Fenotipo

La susceptibilidad fenotípica se determinó utilizando un ensayo de protección del efecto citopático viral con células MT-4. Véase, v.g., Kashiwase et al., Chemotherapy 45 (1): 48-55 (1999); Larder et al., Antimicrob. Agents Chemother. 43 (8): 1961-1967 (1999). Los valores de multiplicidad de resistencia se deducen dividiendo la concentración inhibidora media del 50% (CI_{50}) para un virus recombinante del paciente por el valor medio CI_{50} para el virus de control de tipo salvaje. El procedimiento se describe también en WO 97/27480.

C. Pre-Procesamiento de los Datos

Los datos genotípicos y fenotípicos de un total de 172 muestras se recogieron de una base de datos fenotipo-genotipo. Cada miembro de la serie de datos corresponde a una mutación genética que está correlacionada con un cambio fenotípico en resistencia a los agentes terapéuticos. Entre estas muestras, se seleccionan aleatoriamente 20 como los miembros de la serie de datos de test, seleccionándose las 152 muestras restantes como los miembros de la serie de datos de adiestramiento. Se identificaron un total de 90 posiciones de mutación, 30 en la región codificante de la proteasa, y 60 en la transcriptasa inversa, como se muestra en la Tabla 1 y la Tabla 2.

2

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

3

Para una muestra dada, su patrón de mutación x se expresa por x = (x_{1}, x_{2}, ..., x_{90}), donde x_{i} (i = 1, 2, ..., 90) tiene un valor de 0 ó 1, representando 1 la mutación existente en la posición i, y representando 0 la ausencia de mutación de la posición i.

Las variables de salida y se representan por y = (y_{1}, y_{2}, ..., y_{15}), designando y_{k} (k = 1, 2, ..., 15) la multiplicidad de resistencias al fármaco k. Las mismas tienen valores que pueden diferir en varias órdenes de magnitud. Por el pre-procesamiento, se dispusieron aquéllas de modo que todas las salidas fueran de orden unidad. Para cada variable, se calcularon su máximo y^{I}_{max} y mínimo (y^{i}_{min}) con respecto a ambas series de datos de adiestramiento y de test. Una serie de variables re-escaladas viene dada por:

4

De acuerdo con esta fórmula, y_{i} denota la multiplicidad de resistencia al fármaco i, y^{i}_{min} denota el mínimo de y_{i} en las muestras totales, y^{i}_{max} denota el máximo de y_{i} en las muestras totales, n denota el índice de una muestra específica, y^{n}_{i} denota la multiplicidad de resistencia de la muestra específica antes del pre-procesamiento, y^{-n}_{i} denota la multiplicidad de resistencia de la muestra específica después del pre-procesamiento, [b, a] es un intervalo para el cual se normalizan los valores de multiplicidad de resistencia, tomado usualmente como [0, 1].

D. Implementación de las Redes Neurales

En este ejemplo, se empleó una arquitectura de red neural de alimentación directa de tres capas, con interconexiones plenas desde las unidades de entrada a las unidades ocultas e interconexiones plenas desde las unidades ocultas a las unidades de salida. Los nodos de entrada se utilizaron para representar las mutaciones genotípicas, y los nodos de salida para los grados de resistencia a los agentes terapéuticos, denotando sus valores la multiplicidad de resistencia a cada agente terapéutico. Los nodos ocultos se utilizaron para determinar un orden de modelo adecuado y alcanzar una eficiencia satisfactoria. Se utilizó también un algoritmo de momento de retro-propagación (algoritmo BP). El algoritmo BP implica un procedimiento iterativo para minimizar una función de error, computando la retro-propagación recurrentemente el gradiente o cambio en error con respecto a cada peso en la red, y utilizándose dichos valores para modificar los pesos entre las unidades de red.

Se adiestraron y testaron estimadores de redes neurales de tres capas, que comprendían 90 unidades de entrada, 15 unidades de salida, y una sola capa oculta, variando el número de unidades desde 8 a 26,. La tasa de aprendizaje \eta se ajustó a 0,1-0,9, el momento \alpha se ajustó a 0,9, y la tolerancia de error j, 0,1-0,0001. El adiestramiento se dio por terminado cuando se alcanzó la tolerancia de error o cuando ocurrieron 10.000 épocas, lo que sucediera más pronto.

Los resultados de adiestramiento y test demuestran que los estimadores de redes neurales con unidades ocultas inadecuadas daban predicciones pobres para los datos nuevos, y aquéllos que tenían muchas unidades ocultas exhibían también una generalización pobre como se muestra en la Figura 4 (a). Los resultados demuestran también que la eficiencia no mejoraba cuando disminuía la tolerancia de error, como se muestra en la Figura 4 (b). En la Figura 4 (b), el índice de tolerancia de error era 0,1 para Índice 1, 0,05 para Índice 2, 0,01 para Índice 3, 0,005 para Índice 4, 0,001 para Índice 5, 0,0005 para Índice 6, y 0,0001 para Índice 7. Esto significa que se alcanzaba una generalización satisfactoria por detención del adiestramiento en una etapa anterior. En estos estimadores de redes neurales de tres capas, los parámetros de red relevantes eran h (el número de unidades ocultas), \eta, \alpha, y j. Una búsqueda en el espacio paramétrico demostró que los valores óptimos de h, \eta, \alpha, y j son 12, 0,45, 0,9 y 0,01, respectivamente. Con estos parámetros de red neural, se evaluó la eficiencia de la red neural basándose en 20 muestras de test (cada una con 15 fármacos), que se seleccionaron aleatoriamente de la misma base de datos que las muestras de adiestramiento. Los resultados de las muestras de test se resumen en la Tabla 3.

\vskip1.000000\baselineskip

TABLA 3 Nivel de resistencia a los fármacos y su predicción

5

En la Tabla 3, R significa resistente, S, sensible, e I, intermedio. Una multiplicidad de resistencia inferior o igual a 4 se considera "sensible", mayor que 4 y menor que 10 se considera "intermedio", y si el valor es mayor que 10, se considera "resistente". El símbolo "R/I" en la Tabla 4 significa que una muestra es resistente a un fármaco por los datos fenotípicos y se predijo que sería intermedia por el modelo de la red neural.

AZT (3'-azido-3'-desoxitimidina), ddI (2',3'-didesoxi-inosina), PMEA (conocido también como Adefovir, y 9-(2-fosfonilmetoxietil)adenina), VX-478 (conocido también como Amprenavir, Agenerase, y 141-W94) son inhibidores potentes aprobados de varios virus.

Se condujeron también experimentos de simulación por combinación de diferentes patrones de mutación. Se añadieron a las series de datos de test un total de 12 patrones de mutación, como se muestra en la Tabla 4. Las magnitudes de resistencia que se simularon se muestran en la Tabla 4, y se representan gráficamente en la Figura 5. Puede verse a partir de los resultados de la simulación que el desarrollo de una mutación 184V puede re-sensibilizar un virus resistente a AZT si las mutaciones 41L y 215Y están ya presentes en la RT de HIV-1. Esto confirma la observación biológica de que los virus recombinantes que contienen la mutación 184V en el entorno de la resistencia a AZT, tales como 41L, 67N, 70R, 215Y, y 219Q, causan un efecto supresor que da como resultado la reversión a sensibilidad a AZT. Los resultados demuestran también que la mutación 184V tiene un efecto potente en cuanto a conferir resistencia a 3TC con indiferencia de qué otras mutaciones estén implicadas.

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

TABLA 4 Simulación de la multiplicidad de resistencia conferida por una o más mutaciones

6

Ejemplo 2 Predicción de la resistencia fenotípica al Inhibidor de Proteasa (PI) de HIV-1 del genotipo PI

En este ejemplo, se recogieron los datos genotípicos y fenotípicos de 1162 muestras HIV-1 PI de una base de datos genotipo-fenotipo. Un genotipo PI se refiere a un genotipo con una mutación o polimorfismo en la región codificante de la proteasa que se considera confiere resistencia a un inhibidor de proteasas. Se identificaron un total de 30 mutaciones en la región codificante de proteasa, como se muestra en la Tabla 1. Para una muestra dada, su patrón de mutación x se expresaba por x = (x_{1}, x_{2}, ..., x_{30}), donde x_{i} (i = 1, 2, ..., 30) tiene un valor de 0 ó 1, representando 1 que la mutación ocurre en la posición i, y representando 0 que no existe mutación alguna en la posición i.

TABLA 5 Nivel de resistencia a los fármacos y su predicción

7

La distancia d entre el patrón de mutación x y el patrón de mutación z se definió como sigue:

8

Por cálculo de la distancia entre dos patrones de mutación cualesquiera, se estimó la distribución de las muestras en un espacio. Esto hizo posible clasificar los datos sobrantes y los datos de ruido, y evitar seleccionar los mismos como miembros de test.

Se adiestraron y testaron tres estimadores de redes neurales de tres capas, que comprendían 30 unidades de entrada, 5 unidades de salida (correspondientes a 5 fármacos PI) y una sola capa oculta variando el número de unidades. La eficiencia de las redes neurales, que se adiestraron con o sin datos de ruido implicados en la serie de adiestramiento, se muestra en la Figura 6 y la Figura 7. Las tasas de concordancia eran desde 76% para Amprenavir (APV) a 93% para Ritonavir (RTV) con un valor medio de 82% para la red adiestrada con datos de ruido. Las tasas de concordancia sin datos de ruido eran desde 79% con Amprenavir a 91% para Nelfinavir (NFV) con un valor medio de 86%. Así pues, se alcanzaba mejor eficiencia cuando se excluían los datos de ruido tanto de la serie de adiestramiento como de la serie de test.

TABLA 6 Nivel de resistencia a los fármacos y su predicción

9

\vskip1.000000\baselineskip

Para la última red neural, los resultados de los tests se muestran en las Tablas 5 y 6. Con la misma red, se condujeron experimentos de simulación por combinación de diferentes patrones de mutación. Las magnitudes de resistencia que se simularon se muestran en la Tabla 7. Los resultados de la simulación demuestran que Nelfinavir exhibe resistencia incluso con una sola mutación 30N o dobles mutaciones implicadas. Esto lo diferencia de otros inhibidores PI. La resistencia a Indinavir (IDV), Ritonavir y Saquinavir (SQV) implican mutaciones múltiples, usualmente mayores que 3 mutaciones, en tanto que la resistencia a Amprenavir requiere al menos 4 mutaciones.

TABLA 7 Magnitud de la resistencia deducida del modelo

10

Ejemplo 3 La aplicación de redes neurales en la predicción de resistencia fenotípica de los genotipos para los inhibidores de la proteasa de HIV-1

En este ejemplo, se construyó un modelo de red neural de tres capas con 30 nodos de entrada, correspondientes a 30 mutaciones en la región codificante de la proteasa y 5 nodos de salida, que representaban los valores de multiplicidad de resistencia para 5 inhibidores de proteasa. Se seleccionaron un total de 1068 muestras de una base de datos fenotipo-genotipo de HIV-1. Entre estas muestras, se seleccionaron 210 como la serie de datos de test, y las muestras restantes como la serie de datos de adiestramiento. La eficiencia de los modelos de redes neurales se evaluó por cálculo de la tasa de predicción (tasa de concordancia) en la serie de datos de test. Para estas series de datos se alcanzó una tasa media de predicción de 76% para 5 inhibidores de proteasa. Con objeto de mejorar esta tasa de predicción, se retiraron de la serie de datos de test las muestras que daban una predicción incorrecta a la serie de datos de adiestramiento y se re-adiestraron los modelos de red neural (con una serie de datos de adiestramiento de 1015 muestras y una serie de datos de test de 53 muestras). Con la red neural re-adiestrada, se obtuvieron una tasa media de predicción de 87% en la serie de datos de test nueva y una tasa media de concordancia de 88% en la serie de datos completa.

A continuación, se añadieron un número adicional de 60 polimorfismos de genes de proteasa a la capa de entrada del modelo de red neural utilizando las mismas series de datos de adiestramiento y de test. Después del adiestramiento, la red neural dio una tasa media de predicción de 91% utilizando la misma serie de datos de test y una tasa media de concordancia de 92% y una serie de datos completa. El análisis por regresión lineal de la multiplicidad de resistencia predicha frente a la real dio un valor r^{2} de 0,85 para la serie de datos de test. El análisis de esta serie de datos indica que la mejora en la predicción era debida a los polimorfismos adicionales añadidos al modelo, tales como 13V, 55R, 57K y 93L.

Ejemplo 4 Modelización de la relación entre genotipo y fenotipo para Stavudina (d4T) utilizando redes neurales

En este ejemplo, se seleccionaron un total de 1182 muestras, con una resistencia a d4T de multiplicidad mayor que 4 de una base de datos fenotipo-genotipo para análisis. Se seleccionaron aleatoriamente 105 muestras como serie de datos de test, utilizándose el resto como serie de datos de adiestramiento. Por búsqueda de las mutaciones RT más frecuentes en la base de datos que están asociadas con resistencia a Stavudina, se identificaron 57 mutaciones RT y se utilizaron como las variables de entrada para los modelos de red neural. Después de adiestramiento, se alcanzó una tasa de predicción de 72% en la serie de test. Con objeto de mejorar esta tasa de predicción, se retiraron de la serie de datos de test las muestras que daban una predicción incorrecta a la serie de datos de adiestramiento, y se readiestraron los modelos de red neural con una serie de datos de adiestramiento de 1041 muestras y una serie de datos de test de 41 muestras. Como resultado, se alcanzó una tasa media de predicción de 85% en esta nueva serie de test. Entre estas predicciones, 84% daban la predicción correcta de intermedio/intermedio (multiplicidad > 4 y < 10 en sensibilidad a Stavudina) y 89% daban la predicción correcta de resistente/resistente (multiplicidad de resistencia > 10 ). El 16% de las muestras daban la predicción incorrecta intermedia/resistente y 11% daban una predicción resistente/intermedia. El análisis por regresión lineal de la multiplicidad de resistencia predicha frente a la real daba un valor r^{2} de 0,67 para la serie de datos de test. Estos resultados demuestran que la eficiencia del modelo de red neural puede mejorarse a medida que aumenta el tamaño de la serie de datos de adiestramiento.

La red neural preparada de acuerdo con este ejemplo era capaz también de identificar patrones de mutación que contienen resistencia a Stavudina. Mutaciones previamente conocidas que confieren resistencia a Stavudina, tales como 151M y la familia "inserción 69" se acentuaban por este análisis. Patrones de mutación adicionales que incluían mutaciones de resistencia a AZT eran identificados también por la red neural como casos que conferían resistencia a Stavudina. Por estos resultados, parece ser que caminos distintos de multi-resistencia a nucleósidos pueden conferir resistencia a Stavudina.

Ejemplo 5 Otra aplicación de redes neurales en la predicción de resistencia fenotípica de los genotipos para inhibidores de la proteasa de HIV-1

En este ejemplo, la interpretación de los patrones de mutación de resistencia a los fármacos de HIV-1 se ha mejorado por predicción del fenotipo utilizando una gran base de datos fenotipo-genotipo. Para predecir el fenotipo a partir de un genotipo, se investiga la base de datos y se recuperan los fenotipos de las muestras que coinciden en el genotipo. El "fenotipo virtual" se obtiene por cálculo del aumento medio en la multiplicidad de resistencia para cada fármaco en el grupo coincidente. Para determinar nuevos patrones de mutación, se adoptaron técnicas de redes neurales para determinar la relación entre genotipos y fenotipos para los 5 inhibidores de la proteasa de HIV-1. Se construyeron modelos de redes neurales de tres capas con 30 nodos de entrada, correspondientes a 30 mutaciones en la región codificante de la proteasa y 5 nodos de salida, que representaban los valores de multiplicidad de resistencia para 5 inhibidores de proteasa. Se seleccionó un total de 1068 muestras a partir de una base de datos fenotipo-genotipo para HIV-1. Entre estas muestras, se seleccionaron 210 como la serie de datos de test, y las muestras restantes como la serie de datos de adiestramiento. Se evaluó la eficiencia de los modelos de red neural por cálculo de la tasa de predicción en la serie de datos de test. A partir de estas series de datos se alcanzó una tasa media de predicción de 76% para 5 inhibidores de proteasa. Con objeto de mejorar esta tasa de predicción, se retiraron las muestras que daban una predicción incorrecta de la serie de datos de test a la serie de datos de adiestramiento, y se re-adiestraron los modelos de redes neurales (con una serie de datos de adiestramiento de 1015 muestras de una serie de datos de test de 53 muestras). En estas condiciones, se obtuvieron una tasa media de predicción de 87% en la serie nueva de datos de test y una tasa media de concordancia de 88% en la serie de datos completa. A continuación, se añadieron 60 polimorfismos adicionales de genes de proteasa a la capa de entrada del modelo de red neural utilizando las mismas series de datos de adiestramiento y de test. Después del adiestramiento, la red neural daba una tasa media de predicción de 92% utilizando la misma serie nueva de datos de test y una tasa media de concordancia de 93% en la serie de datos completa. El análisis por regresión lineal de la multiplicidad de resistencia predicha frente a la real daba un valor r^{2} de 0,85 para la serie de datos de test. El análisis de esta serie de datos indicaba que la mejora (significativa con p = 0,036) se debía a los polimorfismos adicionales añadidos al modelo, tales como 13V, 55R, 57K y 93L.

En este ejemplo, se ha desarrollado un marco genérico de modelización de la relación entre genotipo y fenotipo para la resistencia a los fármacos de HIV-1. Se adiestraron y testaron modelos de redes neurales con 30 mutaciones identificadas y 90 mutaciones/polimorfismos. Se observó la mejora de la tasa de predicción y se clasificaron los polimorfismos adicionales correspondientes que conducían a la mejora. Se hicieron comparaciones de predicción en ambas series de datos de test y en la serie de datos completa estudiada. El análisis de esta serie de datos indicaba que la mejora en la predicción era debida a los polimorfismos adicionales añadidos al modelo, tales como 13V, 55R, 57K y 93L.

A. Modelo de Red Neural

Se ensayó un marco genérico para modelizar la reacción entre genotipos y fenotipos de resistencia a los fármacos de HIV-1 como se muestra en la Figura 1. El mismo está constituido por las fases siguientes: determinación de la arquitectura de la NN, recogida de los datos, selección de mutaciones/polimorfismos y fármacos, distribución de los datos, adiestramiento y test de la NN, y análisis estadístico.

Arquitectura de la Red Neural

El primer paso consiste en diseñar una arquitectura específica de la red neural, incluyendo un número específico de "capas", cada una de las cuales está constituida por cierto número de "neuronas". El tamaño y la estructura de una red neural precisa adaptarse a la naturaleza de la resistencia a los fármacos de HIV-1. Sin embargo, la naturaleza no se conoce muy bien obviamente en esta etapa inicial. Con objeto de determinar una arquitectura adecuada de la red, se adiestraron diversas redes, con número fijo de capas ocultas y un número diferente de unidades ocultas, utilizando una serie de datos de adiestramiento. La eficiencia de las redes neurales se evaluó luego y se comparó utilizando una serie de test. La arquitectura de la red neural se determinó finalmente por selección de la red que tenía la eficiencia óptima con respecto a la serie de test.

Recogida de datos para redes neurales

Las redes neurales aprenden de los datos existentes. Con objeto de investigar la relación entre genotipos y fenotipos de resistencia de HIV-a a los fármacos utilizando una NN, los datos precisan ser recogidos para propósitos de adiestramiento y test. Tanto genotipos como fenotipos de muestras se exportaron de una base de datos en archivos Excel. Se diseñaron programas para extraer estos datos genotípicos y datos fenotípicos para cada muestra individual. Los datos fenotípicos consisten en multiplicidad de resistencia a todos los fármacos testados. Los datos genotípicos contienen todos los polimorfismos en las regiones codificantes de gag, transcriptasa inversa, y proteasa.

Variables de entrada y salida

La serie de adiestramiento y serie de test incluyen numerosos casos, cada uno de los cuales contiene valores para una gama de variables de entrada y salida. La elección de las variables de salida es directa, dependiendo de cuántos y cuáles fármacos se consideran en los modelos de red neural. La vía más fácil para seleccionar las variables de entrada consiste en considerar todos los polimorfismos, incluso todas las cadenas de secuencia, como variables de entrada. Sin embargo, esto puede conducir a un problema que se conoce como "el curso de la dimensionalidad". A medida que aumenta el número de variables de entrada, el número de casos requeridos aumenta de manera no lineal. En este ejemplo, la determinación de las variables de entrada se guió inicialmente por intuición. La experiencia en resistencia a los fármacos de HIV-1 proporcionó cierta idea acerca de qué variables son probablemente influyentes. Por ejemplo, es razonable seleccionar las mutaciones identificadas y los polimorfismos de mayor frecuencia como variables de entrada.

Selección y repartición de los datos

La selección de los datos y la determinación del número de casos requeridos para adiestramiento de la red neural presentaban dificultades. Las tecnologías de redes neurales están basadas en la suposición fundamental de que los datos de adiestramiento y test tienen que ser representativos del sistema subyacente. Una red neural puede aprender únicamente de los casos que se presentan. Si no se incluyeran casos de fenotipos sensibles en la serie de adiestramiento, no sería de esperar que la red neural tomara una decisión correcta cuando encontrara genotipos que están asociados a fenotipos sensibles. Es decir, los tipos de casos que se espera predecir tienen que estar cubiertos en la serie de adiestramiento. Dado que una red neural minimiza un error global, la proporción de tipos de datos en la serie es también crítica. Una red adiestrada sobre una serie de datos descompensada, sesgará su decisión hacia una proporción mayor de tipos. Si la representación de la proporción de tipos es diferente en la población real, la red no puede proporcionar una decisión satisfactoria. Hablando en términos generales, el mejor enfoque para la selección de datos consiste en asegurar una representación uniforme de casos diferentes, e interpretar de acuerdo con ello las decisiones de la red. En este ejemplo, se seleccionaron 1162 casos a partir de la base de datos, teniendo cada caso una resistencia de multiplicidad > 10 a al menos uno de los fármacos. El análisis de los datos demostró que existían casos conflictivos en las muestras exportadas. Estos casos hacían difícil mejorar la eficiencia de las redes neurales, y se retiraron luego de las muestras. El análisis de los datos demostró también que los datos no están distribuidos uniformemente en las muestras. Comparado con la cuestión de mayor dimensionalidad, el tamaño de la serie de adiestramiento parece todavía pequeño. En este caso, ello no es adecuado si los casos dispersos se seleccionan como serie de test. Para abordar esta cuestión, se diseñó un algoritmo de repartición de datos para clasificar los datos no-dispersos, a partir de los cuales se seleccionó aleatoriamente una serie de test. Los casos restantes se tomaron como serie de adiestramiento.

Análisis estadístico

Con objeto de interpretar razonablemente los resultados, se aplicaron análisis estadísticos a la evaluación de la correlación entre los fenotipos predichos y los fenotipos reales, y el testado de diversas significaciones estadísticas. El coeficiente de correlación que está lejos de cero proporcionaba cuatro posibles explicaciones acerca de la relación entre los fenotipos predichos y los reales. La conclusión puede ser: que los fenotipos predichos ayuden a determinar los valores de los fenotipos reales; que otra variable puede influir también en los fenotipos reales además de los fenotipos predichos; que los fenotipos predichos y los fenotipos reales no estén correlacionados en absoluto; o que se observara una correlación fuerte, como ocurre en este caso. El valor p determina la frecuencia con que podría suceder esto. El valor p de un resultado es la probabilidad de que la relación observada en una muestra ocurriera por mera casualidad, y que en la población de la que se extrajo la muestra, no exista dicha relación. El valor r cuadrado proporciona información acerca de cuánto porcentaje de varianza está compartido entre los fenotipos predichos y los reales.

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

TABLA 8 Predicción de fenotipos frente a fenotipos reales

11

Los resultados de predicción en la serie de datos de test se resumen en las Tablas 8 y 9, donde R representa resistente, S sensible, e I intermedio. Una multiplicidad de resistencia menor que o igual a 4 se considera "sensible", mayor que 4 y menor que 10 se considera "intermedia", y si el valor es mayor que 10, se considera "resistente". Conviene entender que puede definirse cualquier valor de punto de corte, por ejemplo el punto de corte biológico, como se describe en Larder BA & Harrigan PR. AIDS, 2000, 14 (suplemento 4): S111, Abstract P327.

El símbolo "R/I" en las Tablas 8 y 9 significa que la muestra es resistente a un fármaco a partir de datos fenotípicos y el modelo predice que será intermedia.

TABLA 9 Predicción de fenotipos frente a fenotipos reales

12

Se obtuvo una tasa media de predicción de 87% para 5 inhibidores de proteasas en la nueva serie de datos de test. Cuando se añadieron 60 polimorfismos adicionales de genes de proteasa, como se muestra en la Tabla 10, a la capa de entrada del modelo de red neural, el modelo de red neural re-adiestrado daba una tasa media de predicción de 92% en la misma serie de datos de test. Los resultados de predicción utilizando 90 mutaciones/polimorfismos se resumen en las Tablas 11 y 12.

TABLA 10 60 Polimorfismos en la región codificante de la proteasa

13

Por comparación de las Tablas 8, 9 y las Tablas 11, 12, se encontró que la mejora de la predicción del fenotipo en la serie de datos de test tenía lugar en 23 de 53 muestras, como se enumeran en la Tabla 13, donde la primera letra denota el fenotipo real, la segunda el fenotipo predicho utilizando 30 mutaciones, y la tercera, el fenotipo predicho utilizando 90 mutaciones/polimorfismos. Las diferencias genotípicas correspondientes se resumen en la Tabla 14.

Los análisis de regresión de los Predicción de fenotipos y los fenotipos reales se muestran en las Figuras 8 y 9. Con objeto de testar si la mejora es significativa o no, las distribuciones predichas en la serie de datos de test en ambos casos se resumen en las Tablas 15 y 16, y los valores p se calculan como sigue, S/S (0,187), I/I (0,382), y R/R (0,036). Puede verse que la mejora de los Predicción de fenotipos de R a R es significativa, aunque no existe evidencia alguna de mejora significativa de S a S y de I a I. Se realizaron también análisis similares en las muestras completas utilizadas en este trabajo. Los resultados indicaban que los polimorfismos adicionales añadidos al modelo, tales como 13V, 55R, 57K y 93L, conducen a la mejora en la predicción.

\vskip1.000000\baselineskip

TABLA 11 Predicción de fenotipos utilizando 90 mutaciones/polimorfismos contra los fenotipos reales

14

TABLA 12 Predicción de fenotipos utilizando 90 mutaciones/polimorfismos contra los fenotipos reales

15

TABLA 13 Mejora de la predicción de fenotipos desde la utilización de 30 mutaciones a la utilización de 90 polimorfismos

16

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

TABLA 14 Diferencias genotípicas que conducen a la mejora de la predicción de fenotipos

17

TABLA 14 (continuación)

18

TABLA 15 Nivel predicho de resistencia a los fármacos contra los reales utilizando 30 mutaciones

19

\vskip1.000000\baselineskip

TABLA 16 Nivel predicho de resistencia a los fármacos contra los reales utilizando 90 mutaciones/polimorfismos

20

La mejora en la predicción por la adición de nuevos polimorfismos indicaba que el modelo NN tiene capacidad para identificar nuevas mutaciones. El análisis estadístico demostró que los Predicción de fenotipos están correlacionados con los fenotipos reales y los resultados de este ejemplo demostraban también la exactitud de las NNs en la predicción de la magnitud de resistencia a los inhibidores de la proteasa basadas en mutaciones fenotípicas. Se espera que la eficiencia del modelo de redes neurales mejore, dado que el tamaño de las muestras de adiestramiento utilizadas era más bien pequeño y dado que una NN se hace más "experta" a medida que aumenta el número de muestras de adiestramiento.

Ejemplo 6 Uso de redes neurales para definir la base genética de la resistencia de HIV-1 a d4T

Este ejemplo describe un método sistemático que se utilizó para investigar la relación entre patrones de mutación y resistencia fenotípica correspondiente utilizando redes neurales. En primer lugar, se seleccionó un agente terapéutico para estudio, en este caso d4T. Se desarrollaron tres modelos de red neural (los modelos 9RT, 26RT y 60RT) para investigar de qué modo influyen los patrones de mutación en la resistencia a d4T. El modelo 9RT estaba basado en las nueve mutaciones listadas en la base de datos de secuencias de Stanford (http://www.hivb.stanford.edu) asociada con la resistencia a d4T (62V, 69D, 69N, 69SXX, 75I, 75T, 77L, 116Y y 151M). Los otros modelos estaban basados en la adición de las siguientes 17 ó 51 mutaciones RT más frecuentes presentes en muestras resistentes a d4T. Así, el modelo de mutación 26RT incluía el modelo de mutación 9RT más las 17 mutaciones más frecuentes en las muestras resistentes a d4T. Estas 17 mutaciones eran 4 IL, 44D, 67N, 70R, 75A, 75M, 115F, 118I, 184V, 208Y, 210W, 214F, 215F, 215Y, 219E, 219N, y 219Q. El modelo de mutación 60RT estaba constituido por el modelo de mutación 26RT más las 34 mutaciones más frecuentes siguientes en las muestras resistentes a d4T. Estas 34 mutaciones eran 20R, 35I, 39A, 43E, 60I, 65R, 122K, 123E, 135T, 162C, 177E, 196E, 200A, 207E, 211K, 228H, 272A, 277K, 286A, 293V, 297K, 329L, 356K, 357T, 358K, 359S, 360T, 371V, 375V, 376A, 386I, 390R, 399D, y 400A.

En este ejemplo, se empleó una red neural de tres capas. Los nodos de entrada se utilizaron para representar las mutaciones genotípicas. Así, el modelo 9RT tenía 9 nodos de entrada, el modelo 26RT tenía 26 nodos de entrada y el modelo 60RT tenía 60 nodos de entrada. Los nodos de salida se utilizaron para representar el grado de resistencia a d4T. Los nodos ocultos se utilizaron para determinar un orden de modelo adecuado y conseguir eficiencia satisfactoria. La arquitectura óptima para cada modelo estaba determinada por el número de nodos ocultos con los cuales se alcanzó la eficiencia óptima en la serie de datos de test independiente. Se empleó también un algoritmo de momento retro-propagación. La tasa de aprendizaje se ajusta a 0,01, 0,01, y 0,03 para el modelo 9, el modelo 26, y el modelo 60, respectivamente. Las épocas se ajustan a 10.000, la tolerancia de error se ajusta a 0,0001, y el término de momento se ajusta a 0,1 para los tres modelos.

Para adiestrar y testar estos modelos de red neural, se utilizó un total de 2286 muestras, 188 de las cuales se seleccionaron aleatoriamente como serie de datos de test. De las 2286 muestras, 1040 de ellas tenían multiplicidad para d4T CI50 < 3 (valor medio = 1,2), y 1246 de ellas tenían multiplicidad para d4T CI50 > 3 (valor medio = 9,0). De las 188 muestras de test (seleccionadas aleatoriamente de las 2286), 92 de ellas tenían multiplicidad para d4T CI50 > 3 (valor medio = 1,1) y 96 de ellas tenían multiplicidad para d4T CI50 > 3 (valor medio = 7,7). Se obtuvo una solución óptima para cada uno de los modelos utilizando las mismas series de datos de adiestramiento y de test. Sin embargo, la complejidad de cada modelo era diferente debido al diferente número de mutaciones utilizado, que se veía afectado por la arquitectura del modelo de red neural. Después de adiestrar cada una de las redes neurales, se ejecutó la serie de datos de test en cada una de las redes. Los resultados demostraron que el modelo de nuevas mutaciones tenía una tasa de predicción de resistencia baja (46%) utilizando la serie de datos de test independientes y una tasa de concordancia baja en la serie de adiestramiento (42%). En cambio, los modelos de 26 y 60 mutaciones pudieron adiestrarse bien y proporcionaron también una mayor tasa de predicción (80% y 72%, respectivamente) para la resistencia (definida como un aumento de multiplicidad > 3 con relación a un control sensible) utilizando la serie de datos de test.

Con objeto de descubrir qué mutaciones habían contribuido a esta predicción mejorada, se identificaron las muestras mejoradas 1S9-26 e IS9-60 por comparación de las salidas fenotípicas del modelo 9 y el modelo 26, y el modelo 9 y el modelo 60 en la serie de test. Se recogieron y se analizaron los genotipos correspondientes de las muestras mejoradas, se cribaron todas las mutaciones adicionales contenidas en las muestras mejoradas, y se calculó y comparó la frecuencia de cada mutación encontrada en IS9-26 e IS9-60 con la de la mutación que se encontraba en las muestras completas. Todas las mutaciones con diferencia mayor que dos frecuencias se identificaron y se consideró que jugaban un papel en cuanto a conferir resistencia a d4T.

En este ejemplo, la frecuencia umbral se ajustó a 9%. Se identificaron las mutaciones siguientes a partir de los modelos 9 y 26: 41L (44%-79%), 44D (13%-26%), 67N (36%-56%), 70R (21%-30%), 181I (21%-36%), 210W (34%-65%), y 215Y (44%-73%) (Figura 11). Las mutaciones siguientes se identificaron a partir de los modelos 9 y 60: 41L (44%- 73%), 67N (36%-56%), 118I (21%-32%), 210W (34%-62%), 211K (49%-59%), y 215Y (44%-74%) (Figura 12). En conclusión, estos resultados muestran que al menos 17 mutaciones RT (las 8 aquí identificadas más las 9 identificadas anteriormente a partir de la base de datos Stanford) pueden conferir resistencia a d4T, con inclusión de mutaciones resistentes a AZT. Los resultados identificaron también otras 10 mutaciones que pueden conferir adicionalmente resistencia: 184V(36%-42%), 214F(88%-94%), 75A(0,7%-0,6%), 75M(4%-8%), 115F(1%-0,2%), 208Y(13%-21%), 215F(9%-11%), 219E(5%-4%), 219N(4%-11%), y 219Q(12%- 16%).

Ejemplo 7 Un modelo de red neural de 28 mutaciones que predice exactamente la resistencia fenotípica a Lopinavir (LPV)

Se ha comunicado que las mutaciones en 11 codones en la proteasa de HIV-1 (10, 20, 24, 46, 53, 54, 63, 71, 82, 84 y 90) pueden estar implicadas en resistencia a LPV, y el fracaso clínico de las terapias que contienen Lopinavir. Una serie óptima de mutaciones para la predicción cuantitativa de la resistencia a LPV se ha establecido utilizando los métodos de la presente invención y se ha comparado con las predicciones hechas por la serie de 11 codones.

Se construyeron modelos de redes neurales (NN) utilizando 1322 muestras cuyos genotipo y fenotipo habían sido determinados. 80% de éstas eran sensibles a LPV (multiplicidad < 2,5) y 11% tenían resistencia de "nivel alto" (multiplicidad > 10). Se seleccionaron aleatoriamente 117/1322 muestras como serie de validación y se utilizaron las 1205 muestras restantes para adiestramiento. Se construyeron dos modelos NN; uno basado en los 11 codones previamente consignados (un total de 54 polimorfismos) y un segundo modelo basado en 28 mutaciones seleccionadas por una combinación de análisis de prevalencia de mutación y técnicas de poda de NN.

El modelo de 28 mutaciones daba una correlación alta entre la multiplicidad de resistencia predicha y los valores de sensibilidad reales (r^{2} = 0,88 en las series de validación y adiestramiento). El modelo de 11 codones daba un coeficiente de corrección similar para la serie de validación (r^{2} = 0,84). Sin embargo, cuando los valores predichos se compararon directamente con la multiplicidad de resistencia real, el modelo de 28 mutaciones era significativamente mejor para predecir la resistencia a LPV comparado con el modelo de 11 codones (p < 0,001). La proporción de casos sensibles, con bajo nivel de resistencia y alto nivel de resistencia con relación al número de mutaciones por muestra se simuló utilizando un modelo de 28 mutaciones (n = 11 x 1000). Este modelo demostró que las muestras con un número de mutaciones tan pequeño como 3-4 PI podían tener resistencia de alto nivel a LPV.

Estos resultados demuestran que la resistencia a LPV puede describirse por una serie de 28 mutaciones en la proteasa de HIV-1 (10I, 18V, 24I, 32I, 33F/M, 43T, 45T, 46I/L, 48V, 53L, 54A/S/V, 55R, 58E, 71V, 72Y, 73S/T, 74S, 82A, 84V, 85V, 90M, 95F/L) y que los modelos de red neural pueden utilizarse para cuantificar exactamente la resistencia a LPV basada en el genotipo.

Ejemplo 8 Validación y adiestramiento de una red neural Desarrollo y Adiestramiento de las Redes Neurales

Se desarrolló un marco genérico para modelización de la relación entre genotipo y fenotipo de la resistencia a los fármacos de HIV-1. Éste se componía de varias fases: establecimiento de una arquitectura de red neural; recogida de los datos; selección de mutaciones que se sabe están correlacionadas con la resistencia a PI, repartición de los datos; adiestramiento y ensayo del sistema; y análisis estadístico. La arquitectura de redes neurales comprendía 3 "capas": una capa de entrada (datos de resistencia genotípica); una capa oculta (procesamiento de los datos); y una capa de salida (resistencia fenotípica predicha). La red tenía I entradas, J unidades ocultas, K unidades de salida, y dos unidades de sesgo, las dos cuales tenían una señal de entrada de 1 (es decir, x_{0} y z_{0}) y una sola unidad de sesgo en la capa de entrada que tenía una señal de entrada de 1 (es decir, x_{0}). El modelo estaba basado en 39 mutaciones asociadas con resistencia PI. Estas mutaciones se seleccionaron debido a que eran los polimorfismos genéticos más frecuentemente observados en las muestras resistentes a PI de la base de datos de los inventores con relación a muestras sensibles a PI (datos no presentados). Se utilizaron un total de 1015 muestras (seleccionadas aleatoriamente de la base de datos) para adiestrar el modelo de red neural y se utilizaron 53 muestras independientes, seleccionadas aleatoriamente, como la serie de datos de test; se obtuvo una solución óptima para el modelo por evaluación de la eficiencia del modelo de red neural con las series de datos de adiestramiento y test. El número de entradas, I, para el modelo era igual a 39. Cada capa oculta, J, contenía una pluralidad de nodos ocultos que se ajustaron para conseguir una eficiencia predictiva alta de la red. El número óptimo de nodos ocultos era 27 para este modelo. Este número se determinó empíricamente. La red tenía dos capas de pesos adaptativos (w_{ji} y w_{jk}) que son el peso de la unidad oculta j-ésima asociada con la señal de entrada x_{i}, y el peso de la unidad de salida k-ésima asociado con la señal oculta z_{j}, respectivamente. Los valores de estos pesos se optimizaron durante el paso de adiestramiento. La unidad de salida, K, para el modelo era la resistencia fenotípica predicha a los inhibidores de proteasas siguientes: indinavir, ritonavir, nelfinavir, saquinavir y amprenavir (definida como un aumento de multiplicidad > 4 en CI_{50} con relación a un control sensible).

Se utilizaron en el procedimiento de búsqueda un total de 108 cambios de aminoácidos individuales diferentes (en un total de 56 posiciones singulares). Este número se descomponía en 39 cambios en la proteasa y 69 en la RT (32 para los inhibidores de RT no nucleosídicos y 37 para los análogos nucleosídicos). Las mutaciones siguientes, agrupadas por clase de fármaco, se incluyeron en el motor de búsqueda. Inhibidores de proteasas: 10F/I/R/V, 20I/M/R/T, 24I, 30N, 32I, 33F/I/M/V, 36I, 46I/L, 47L, 48V, 50V, 54L/M/V, 71T/V, 73A/C/S, 77I, 82A/F/S/T, 84A/V, 88D/S, 90M. Análogos de nucleósidos: 41L, 44A/D, 62A, 65R, 67N, 69D/N, inserción 69, 70R, 74V/I, 75A/I/M/T, 77L, 100I, 115F, 116Y, 118I, 151M, 181C, 184I/T/V, 208Y, 210W, 211K/Q, 215F/Y, 219E/N/Q, 333D/E. NNRTIs: 98G/S, 100I, 101E/I/P/Q, 103N/Q/R/S/T, 106A/I/L, 108I, 179D/E, 181C/I/V, 188C/H/L, 189I, 190A/E/S, 225H, 233V, 236L, 238T.

\vskip1.000000\baselineskip

Validación de las mutaciones de resistencia utilizando redes neurales

Los criterios de búsqueda de mutaciones utilizados para reconocimiento de patrones son muy completos y se actualizan constantemente para incluir nuevas mutaciones y polimorfismos que influyen en la resistencia fenotípica a los fármacos. Aunque la influencia de algunas mutaciones sobre el fenotipo de resistencia es relativamente clara, en muchos casos (por ejemplo la resistencia al inhibidor de proteasas (PI)) existe una relación muy compleja entre las mutaciones genéticas y el fenotipo resultante, o falta de información publicada acerca de esta relación. Para abordar esto, los autores de esta invención han adiestrado redes neurales a fin de facilitar la identificación de nuevas mutaciones y combinaciones de mutaciones que afectan a la sensibilidad a los fármacos. Se adiestró una red neural utilizando un algoritmo de aprendizaje por retropropagación utilizando 39 mutaciones que aparecen frecuentemente en cepas resistentes a PI como la capa de entrada. Se utilizaron como la serie de adiestramiento 1015 muestras clínicas con una gama extensa de resistencia fenotípica a PI y se utilizaron 53 muestras independientes como la serie de test. La red neural tenía una tasa correcta para predecir la resistencia a 5 PIs aprobados clínicamente de 87%. Adicionalmente, había una correlación excelente entre la magnitud de resistencia predicha y la resistencia real como se determinó por ensayo fenotípico. El coeficiente de correlación global (valor r) para este análisis era 0,91. Por consiguiente, se utilizó este grupo de 39 mutaciones en el motor de búsqueda para identificar muestras clínicas con resistencia a PI. Adicionalmente, los inventores han adiestrado también redes neurales a fin de hacer posible la identificación de mutaciones de resistencia a Stavudina (d4T), dado que frecuentemente ha sido difícil asociar las mutaciones RT específicas con la resistencia a d4T.

Claims

1. Un método para predecir la resistencia del virus de la inmunodeficiencia humana tipo 1 (HIV-1) a un agente terapéutico, que comprende:

(a) proporcionar una red neural adiestrada, en donde dicha red es una red neural de alimentación directa de tres capas, que comprende

(1): una serie de nodos de entrada (en donde cada miembro de la serie de nodos de entrada corresponde a una mutación en el genoma de HIV-1);

(2): una pluralidad de nodos ocultos; y

(3): una serie de nodos de salida, en donde cada miembro de la serie de nodos de salida corresponde a un agente terapéutico utilizado para tratar HIV-1;

(b) proporcionar al menos una secuencia genética determinada de HIV-1; y

(c) predecir la resistencia de HIV-1 al agente terapéutico utilizando la al menos una secuencia genética determinada y la red neural adiestrada, en donde la resistencia predicha se expresa como una multiplicidad de cambio en CI50.