ES2334011T3 - Metodo para predecir la resistencia a los agentes terapeuticos utilizando redes neurales. - Google Patents
Metodo para predecir la resistencia a los agentes terapeuticos utilizando redes neurales. Download PDFInfo
- Publication number
- ES2334011T3 ES2334011T3 ES01945251T ES01945251T ES2334011T3 ES 2334011 T3 ES2334011 T3 ES 2334011T3 ES 01945251 T ES01945251 T ES 01945251T ES 01945251 T ES01945251 T ES 01945251T ES 2334011 T3 ES2334011 T3 ES 2334011T3
- Authority
- ES
- Spain
- Prior art keywords
- resistance
- mutations
- series
- neural network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- WTUOHRMPCUIFLW-UHFFFAOYSA-N I[IH]C1CCCC1 Chemical compound I[IH]C1CCCC1 WTUOHRMPCUIFLW-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Bioethics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medicinal Chemistry (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Electrotherapy Devices (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
Un método para predecir la resistencia del virus de la inmunodeficiencia humana tipo 1 (HIV-1) a un agente terapéutico, que comprende: (a) proporcionar una red neural adiestrada, en donde dicha red es una red neural de alimentación directa de tres capas, que comprende (1) una serie de nodos de entrada (en donde cada miembro de la serie de nodos de entrada corresponde a una mutación en el genoma de HIV-1); (2) una pluralidad de nodos ocultos; y (3) una serie de nodos de salida, en donde cada miembro de la serie de nodos de salida corresponde a un agente terapéutico utilizado para tratar HIV-1; (b) proporcionar al menos una secuencia genética determinada de HIV-1; y (c) predecir la resistencia de HIV-1 al agente terapéutico utilizando la al menos una secuencia genética determinada y la red neural adiestrada, en donde la resistencia predicha se expresa como una multiplicidad de cambio en CI50.
Description
Método para predecir la resistencia a los
agentes terapéuticos utilizando redes neurales.
La presente invención se refiere a métodos y
sistemas para predecir la resistencia de una enfermedad a un agente
terapéutico por aplicación de información de resistencia al genotipo
y fenotipo en una red neural. La presente invención se refiere
adicionalmente a métodos y sistemas para diseñar un régimen de
tratamiento terapéutico para un paciente basado en el genotipo de
la enfermedad que aflige al paciente. Se proporcionan métodos y
sistemas para predecir la probabilidad de que un paciente desarrolle
una enfermedad genética. Se proporcionan métodos y sistemas para
utilizar redes neurales a fin de definir la base genética de la
resistencia a los agentes terapéuticos. Más específicamente, la
presente invención se refiere al uso de herramientas
bioinformáticas, de biología molecular, y de bioquímica en tales
métodos y sistemas.
Desde la publicación del primer informe que
sugería una correlación entre la aparición de resistencia viral y
el progreso clínico, han venido incorporándose crecientemente
técnicas para determinar la resistencia de un patógeno o célula
maligna a un agente terapéutico en los estudios clínicos de
regímenes terapéuticos. Brendan Larder et al., HIV
Resistance and Implications for Therapy (1998). Sin embargo, la
complejidad de la resistencia a los agentes terapéuticos hace
difícil determinar o predecir exactamente la resistencia a los
agentes terapéuticos. A medida que están poniéndose a disposición
más fármacos y opciones terapéuticas, se espera que el ensayo de la
resistencia a los agentes terapéuticos llegue a jugar un papel
importante en la gestión y el tratamiento de la infección por
patógenos o el cáncer.
Todos estos métodos emplean dos enfoques
generales para medir la resistencia a los agentes terapéuticos, a
saber ensayo fenotípico y ensayo genotípico. El ensayo fenotípico
mide directamente la sensibilidad real de un patógeno o célula
maligna de un paciente a agentes terapéuticos particulares, en tanto
que el ensayo de la resistencia genotípica examina la presencia de
mutaciones o patrones genéticos específicos en el patógeno o la
célula maligna que confieren resistencia a uno o varios agentes
terapéuticos determinados. Aunque se cree que el ensayo fenotípico
es una evaluación más completa y exacta de la resistencia a los
agentes terapéuticos que el ensayo genotípico, el ensayo fenotípico
puede llevar más tiempo y generalmente es más caro que el ensayo
genotípico. Comparado con el ensayo fenotípico, el ensayo genotípico
presenta ventajas, que incluyen la simplicidad relativa, el bajo
coste, y la velocidad con la que puede realizarse el test. Sin
embargo, en el momento actual, sigue siendo difícil interpretar los
resultados de un test genotípico para proporcionar conclusiones
significativas acerca de la resistencia a los agentes terapéuticos.
Véase, v.g., Tim Horn y Spencer Cox, A
No-Nonsense Guide to HIV Drug Resistance
Testing, (Ed. Douglas Richman, M.D., University of California,
San Diego.
Cierto número de enfoques diferentes están
disponibles actualmente para ayudar en la interpretación de los
tests genotípicos, que incluyen:
Un médico puede interpretar y emitir un juicio
en cuanto al tratamiento óptimo basado en el conocimiento de las
mutaciones primarias de resistencia asociadas con cada agente
terapéutico y con la historia del tratamiento reciente del
paciente. Para ayudar a los médicos a emitir estos juicios, se han
convocado diversos paneles de opinión de expertos y se han
publicado líneas orientativas. Por ejemplo, el Resistance
Collaborative Group ha publicado dichas líneas orientativas para
HIV-1. Véase, v.g., Carpenter, et al., JAMA
283(3): 381-390 (2000). Evidentemente,
este tipo de método es muy subjetivo.
Los algoritmos basados en reglas son
esencialmente una visión formalizada del método de interpretación
arriba identificado con tablas que dan las mutaciones que están
asociadas con la resistencia a cada uno de los agentes
terapéuticos. Éstos pueden ser tablas impresas simples, o la
información puede utilizarse para desarrollar un algoritmo de
computadora basado en reglas. Un ejemplo de un sistema de
interpretación de este tipo es el sistema VircoGEN^{TM} I
(disponible de Virco) y las técnicas descritas en WO 97/27480.
Se han utilizado análisis estadísticos para
comparar y relacionar fenotipos y genotipos. Harrigan et
al., "Drug resistance and short term virological response in
patients prescribed multidrug rescue therapy"; Hammer et
al., "Relationship of phenotypic and genotypic resistance
profiles to virological outcome in a trial of abacavir, nelfinavir,
efavirenz and adefovir dipivoxil in patients with virological
failure receiving indinavir (ACTG 372)"; Zolopa et al.,
"A comparison of phenotypic, genotypic and clinical/treatment
history predictors of virological response to saquinavir/ritonavir
salvage therapy in a clinic-based cohort";
Vingerhotes et al., "The accuracy and reproducibility of
high throughput genotypic and phenotypic HIV-1
resistance testing under EN45001 and CL1A accreditation labels";
Anton et al., "Comparative paterns of HIV-1
genotypic and phenotypic resistance profiles in gut and plasma";
Hertogs et al., "A blinded comparative analysis of two
genotyping service laboratories: full sequence analysis of
HIV-1 protease and reverse transcriptase",
presentados todos ellos en el 3^{er} International Worldshop on
HIV Drug Resistance & Treatment Strategies, San Diego, EE.UU.,
23-26 junio 1999. Estos métodos proporcionan
información acerca de si los datos fenotípicos están
correlacionados con los genotipos correspondientes. Las dificultades
a que hay que hacer frente residen, sin embargo, en relacionar
cuantitativamente el genotipo de cualquier muestra específica con su
fenotipo. La interpretación de los patrones de mutación de la
resistencia a los fármacos de HIV-1 se ha mejorado
por predicción del fenotipo utilizando una base de datos
fenotipo-genotipo de gran extensión. Para relacionar
un "test" de información de resistencia de genotipo a
fenotipo, se relacionaron una serie de patrones genotípicos con
fármacos específicos. Estos patrones están unidos a todas las
muestras genotípicas en la base de datos, permitiendo así la
realización de búsquedas rápidas. Los fenotipos de las muestras en
la base de datos que coinciden con un genotipo particular pueden
recuperarse luego y presentarse como la proporción resistente o
sensible a cada fármaco. Larder et al., Predicting
IHV-1 phenotypic resistance from genotype using a
large phenotype-genotype relational database, 3rd
International Workshop on HIV Drug Resistance & Treatment
Strategies, San Diego, USA, 23-26 de junio 1999.
Este sistema hace posible obtener una indicación rápida del
fenotipo probable de una muestra cuyo genotipo ha sido determinado
haciendo coincidir los datos fenotípicos sustanciales archivados
con un patrón de mutación.
Sin embargo, se conoce poco acerca de la forma
funcional de la relación entre genotipo y fenotipo; por esta razón
resulta difícil utilizar enfoques de modelización paramétricos.
Adicionalmente, pueden estar implicadas mutaciones no
independientes en los patrones de mutación genotípicos. Esto hace
difícil aplicar métodos convencionales para realizar un mapeado de
funciones entre patrones de mutación y el grado de resistencia a los
fármacos.
Actualmente, sin embargo, existen bases de datos
mejoradas de relaciones que utilizan reconocimiento de patrones y
adaptación de fenotipos, que han demostrado una exactitud mayor que
90% en la predicción de la resistencia fenotípica. El
reconocimiento de patrones y los sistemas de adaptación de fenotipos
están implementados mediante software y uso de las mutaciones
encontradas en la muestra del paciente para buscar coincidencias en
una base de datos de genotipos y fenotipos de miles de muestras. Se
utiliza un motor de búsqueda para escanear una base de datos
fenotipo-genotipo. Los fenotipos de muestras en la
base de datos que coinciden con un genotipo particular pueden
recuperarse luego y presentarse como la proporción resistente o
sensible a cada agente terapéutico. Este tipo de sistema hace
posible obtener una indicación rápida del fenotipo probable de una
muestra cuyo genotipo se conoce por adaptación de los datos
fenotípicos sustanciales archivados a un patrón de mutación. Un
ejemplo de un sistema de software de este tipo es el
Virtual-Phenotype^{TM} (PCT/EP 01/04445).
La presente invención proporciona la generación
siguiente de sistemas de reconocimiento y adaptación de fenotipos
de patrones implementados por software y emplea una red neural para
predecir exactamente la resistencia de HIV-1 a un
agente terapéutico basándose en información genotípica y fenotípica.
Se han utilizado con éxito redes neurales como clasificadores
patrón en muchas aplicaciones. Véase, v.g., Christopher M.
Bishop, "Neural Networks for Pattern Recognition",
Clarendon Press, Oxford (1995); Sbirrazzuoli and Brunel, Neural
Comput & Applic, 5:20-32 (1997); Chow and
Cho, Neural Comput & Applic. 5:66-75
(1997). Hasta ahora, sin embargo, no se han utilizado redes
neurales para predecir la resistencia o sensibilidad a los agentes
terapéuticos. Con respecto a bases de datos de relaciones y enfoques
como determinación virtual del fenotipo, las redes neurales pueden
proporcionar ventajas en cuanto al número de muestras requerido para
un análisis exacto, ventajas en cuanto al tiempo de cálculo y
ventajas en la predicción de los perfiles de resistencia de los
fármacos que no tienen mutaciones de configuración
particular.
particular.
Para conseguir estas y otras ventajas, y de
acuerdo con los principios de la presente invención como se
materializan y se describen ampliamente en esta memoria, la presente
invención proporciona un método para predecir la resistencia de
HIV-1 a un agente terapéutico utilizando una red
neural, que comprende:
(a) Proporcionar una red neural adiestrada, en
donde dicha red neural es una red neural de alimentación directa de
tres capas que comprende
- (1)
- una serie de nodos de entrada, en donde cada miembro de la serie de nodos de entrada corresponde a una mutación en el genoma de HIV-1;
- (2)
- una pluralidad de nodos ocultos; y
- (3)
- una serie de nodos de salida, en donde cada miembro de la serie de nodos de salida corresponde a un agente terapéutico utilizado para tratar HIV-1
(b) proporcionar al menos una secuencia genética
determinada de HIV-1; y
(c) predecir la resistencia de HIV al agente
terapéutico utilizando la al menos una secuencia genética
determinada y la red neural adiestrada en donde la resistencia
predicha se expresa como un multiplicación de cambio en CI50.
Se proporciona adicionalmente un método para
predecir la resistencia de una enfermedad a un agente terapéutico,
que comprende: (a) proporcionar una red neural adiestrada; (b)
proporcionar una secuencia genética determinada de la enfermedad; y
(c) predecir la resistencia de la enfermedad al agente terapéutico
utilizando la secuencia genética determinada y la red neural
adiestrada.
Se proporciona adicionalmente un método para
predecir la resistencia de un patógeno a un agente terapéutico, que
comprende: (a) proporcionar una red neural; (b) adiestrar la red
neural sobre una serie de datos de adiestramiento, en donde cada
miembro de la serie de datos de adiestramiento corresponde a una
mutación genética que está correlacionada con un cambio en la
resistencia a los agentes terapéuticos; (c) proporcionar una
secuencia genética determinada del patógeno; y (d) predecir la
resistencia del patógeno al agente terapéutico utilizando la
secuencia genética determinada del patógeno y la red neural
adiestrada.
Se proporciona también una red neural adiestrada
capaz de predecir la resistencia de una enfermedad a un agente
terapéutico, en donde la red neural adiestrada comprende: (a) una
serie de nodos de entrada, en donde cada miembro de la serie de
nodos de entrada corresponde a una mutación en el genoma de la
enfermedad; y (b) una serie de nodos de salida, en donde cada
miembro de la serie de nodos de salida corresponde a un agente
terapéutico utilizado para tratar la enfermedad.
Se proporciona adicionalmente un método de
diseño de un régimen de tratamiento con un agente terapéutico para
un paciente afligido con una enfermedad, que comprende: (a)
proporcionar una secuencia genética determinada de la enfermedad;
(b) introducir la secuencia genética determinada en una red neural
adiestrada; (c) predecir la resistencia de la enfermedad a un
agente terapéutico utilizando la secuencia genética determinada y la
red neural adiestrada; y (d) utilizar la resistencia al fármaco
predicha para diseñar un régimen de tratamiento con un fármaco
terapéutico para tratar al paciente afligido con la enfermedad.
Se proporciona adicionalmente un método de
predicción de la probabilidad de que un paciente desarrolle una
enfermedad genética, que comprende: (a) proporcionar una red neural
adiestrada; (b) proporcionar una secuencia genética determinada de
una muestra de un paciente; y (c) determinar la probabilidad de que
el paciente desarrolle la enfermedad genética utilizando la
secuencia genética determinada y la red neural adiestrada.
Se proporciona adicionalmente un método para
identificación de una nueva mutación que confiere resistencia a un
agente terapéutico, que comprende: (a) proporcionar una primera red
neural adiestrada, en donde el número de nodos de entrada para la
primera red neural adiestrada es igual al número de mutaciones
conocidas que confieren resistencia terapéutica a un agente
terapéutico; (b) proporcionar una segunda red neural adiestrada, en
donde el número de nodos de entrada de la segunda red neural
adiestrada comprende el número de mutaciones conocidas que
confieren resistencia terapéutica a un agente terapéutico más al
menos 1; (c) proporcionar una serie de datos de test; (d)
introducir la serie de datos de test en las redes neurales
adiestradas primera y segunda; (e) comparar la salida de las redes
neurales adiestradas primera y segunda para determinar si la
mutación adicional confiere a una enfermedad resistencia a los
fármacos terapéuticos. La realización anterior sirve como ejemplo,
debiendo apreciarse que la arquitectura de las redes no requiere
necesariamente dos redes neurales diferentes para la identificación
de las nuevas mutaciones o perfiles de mutación.
Se proporciona adicionalmente un método para
estudiar la resistencia a los agentes terapéuticos que comprende:
(a) mutar un gen de tipo salvaje para crear un mutante que contiene
una mutación identificada utilizando las redes neurales; (b)
cultivar el gen mutante en presencia de un agente terapéutico; (c)
cultivar un gen de tipo salvaje en presencia del agente
terapéutico; (d) comparar el crecimiento del gen mutante con el
crecimiento del gen de tipo salvaje.
Se proporciona adicionalmente un método para
estudiar la resistencia a los agentes terapéuticos que comprende:
(a) mutar un virus o bacteria de tipo salvaje para crear un virus o
bacteria mutante que contiene una mutación identificada utilizando
las redes neurales; (b) cultivar el virus o bacteria mutante en
presencia de un agente terapéutico; (c) cultivar un virus o
bacteria de tipo salvaje en presencia del agente terapéutico; (d)
comparar el crecimiento del virus o bacteria mutante con el
crecimiento del virus o bacteria de tipo salvaje.
Se proporciona adicionalmente un medio legible
por computadora que contiene instrucciones para hacer que una
computadora elabore un método para predecir la resistencia de una
enfermedad a un agente terapéutico utilizando una red neural
adiestrada, comprendiendo el método: recibir al menos una secuencia
genética determinada de la enfermedad; y predecir la resistencia de
la enfermedad al agente terapéutico utilizando la al menos una
secuencia genética determinada y la red neural adiestrada.
Se proporciona un medio legible por computadora
que contiene una serie de instrucciones programadas para hacer que
una computadora proporcione una red neural para realizar un método
para predecir la resistencia de una enfermedad a un agente
terapéutico, comprendiendo la serie de instrucciones programadas:
medios para recibir al menos una secuencia genética determinada de
la enfermedad; y medios para predecir la resistencia de la
enfermedad al agente terapéutico utilizando la al menos una
secuencia genética determinada y la red neural adiestrada.
Debe entenderse que tanto la descripción general
que antecede como la descripción detallada que seguirá son
únicamente ilustrativas y explicativas y no son restrictivas de la
invención, de acuerdo con las reivindicaciones. Pueden
proporcionarse características y/o variaciones adicionales además de
las indicadas en esta memoria. Por ejemplo, la presente invención
puede dirigirse a diversas combinaciones y subcombinaciones de las
características descritas y/o combinaciones y subcombinaciones de
varias otras características descritas más adelante en la
descripción
detallada.
detallada.
Los dibujos que se acompañan, que están
incorporados en y constituyen una parte de esta memoria descriptiva,
ilustran diversas realizaciones y/o características de la invención
y, junto con la descripción, sirven para explicar los principios de
la invención. En los dibujos:
La Figura 1 representa un marco ilustrativo para
capturar la relación entre resistencia genotípica y fenotípica;
la Figura 2 representa un diagrama de flujo
ilustrativo para predecir la resistencia fenotípica basado en
información genotípica utilizando una red neural de acuerdo con la
presente invención;
la Figura 3 representa un marco ilustrativo para
una red neural de tres capas. Esta red neural ilustrativa tiene I
entradas, J unidades ocultas y K unidades de salida, y dos unidades
de sesgo, las dos cuales tienen una señal de entrada de 1 (es decir,
x_{0} y z_{0}). Esta red neural ilustrativa de
tres capas tiene también dos capas de pesos adaptativos
(w_{ji} y w_{jk}), que son el peso de la unidad
oculta j-ésima asociada con la señal de entrada
x_{i}, y el peso de la unidad de salida k-ésima
asociada con la señal oculta z_{j}, respectivamente;
la Figura 4(a) es una comparación
ilustrativa entre los errores de adiestramiento y de test contra el
número de nodos ocultos;
la Figura 4(b) es una comparación
ilustrativa entre los números de errores de adiestramiento y de test
contra el índice de tolerancia de error;
la Figura 5 es una gráfica ilustrativa de la
magnitud de resistencia para doce patrones de mutación;
la Figura 6 es un gráfico ilustrativo de la tasa
de concordancia entre los genotipos PI y los fenotipos de un red
neural con datos de ruido implicados en la serie de adiestramiento;
y
la Figura 7 es un gráfico ilustrativo de la tasa
de concordancia de una red neural sin datos de ruido implicados en
la serie de adiestramiento.
la Figura 8 proporciona un análisis por
regresión entre los fenotipos predichos y los fenotipos reales
utilizando 30 mutaciones.
la Figura 9 proporciona un análisis por
regresión entre los fenotipos predichos y los fenotipos reales
utilizando 90 mutaciones/polimorfismos.
la Figura 10 proporciona un marco ilustrativo
para identificar las nuevas mutaciones del genotipo (genos) que
confieren resistencia fenotípica (fenos) del agente terapéutico. En
este marco, x e y se refieren al número de mutaciones que son
estudiadas por la red neural, x-VP se refiere al
fenotipo "virtual" para el modelo de mutación x, y
x-DPVP se refiere a la diferencia entre el fenotipo
"real" y el fenotipo "virtual".
la Figura 11 es un gráfico de barras ilustrativo
de las mutaciones que mejoraban la predicción de la red neural desde
el modelo 9 al modelo 26.
la Figura 12 es un gráfico de barras ilustrativo
de las mutaciones que mejoraban la predicción de la red neural desde
el modelo 9 al modelo 60.
A lo largo del tiempo, muchos pacientes
experimentan fallos del tratamiento o eficacia reducida. En muchos
casos, esto se debe a mutaciones en el genoma del patógeno o la
célula enferma tal como una célula maligna o inflamatoria, que da
como resultado el desarrollo de resistencia a un agente terapéutico.
En otros casos, la selección por el agente terapéutico da como
resultado la acumulación o propagación de variantes del patógeno o
célula maligna que tenían resistencia pre-existente
al agente terapéutico. De acuerdo con ello, existe necesidad de
monitorizar el estado de enfermedad de un paciente y alterar el
régimen de tratamiento cuando se produce fallo en el tratamiento o
eficacia reducida. Como se utiliza en esta memoria, el término
"enfermedad" y "agente causante de enfermedad" se refieren
ambos a un ácido nucleico, una proteína, un patógeno, o célula
enferma tal como, por ejemplo, una célula maligna, célula
proliferativa, célula inflamatoria, o cualquier célula mutada, tal
como una célula neural mutada, que causa, por ejemplo, una condición
patológica en un organismo por la infección del patógeno o
replicación de la célula maligna.
Se describe un marco genérico para predecir la
resistencia de un patógeno o célula maligna a un agente terapéutico.
El marco genérico puede utilizarse ulteriormente para identificar
una o más mutaciones o patrones de mutación, con inclusión de
inserciones y deleciones, que confieren resistencia a un agente
terapéutico. Se entiende que el uso del término mutación incluye
también polimorfismos genéticos. Por el empleo de herramientas
bioinformáticas en las metodologías de determinación del genotipo y
el fenotipo, se predice exactamente la resistencia del patógeno o
célula maligna de un paciente a un agente terapéutico basada en
mutaciones genotípicas en el patógeno o la célula maligna. En
primer lugar, se selecciona la enfermedad para la cual debe
predecirse la resistencia terapéutica. Una vez seleccionada la
enfermedad, se localiza o se crea una base de datos
genotipo-fenotipo de resistencia terapéutica.
Utilizando esta información, se configura y adiestra la red neural.
Con la red adiestrada, es posible predecir la resistencia de los
agentes terapéuticos basada en información genética de la
enfermedad del paciente.
Pueden utilizarse niveles de expresión de
proteínas o ácidos nucleicos.
Teniendo en cuenta la amplitud de la aplicación
y el posible uso de la misma para ensayos de resistencia,
determinación de perfiles de fármacos y diagnóstico,
debe-rían describirse formas diferentes de
mutaciones. Dichos tipos de mutaciones deberían abarcar mutaciones
tanto genéticas como epigenéticas. Los cambios genéticos abarcan,
(i) sustituciones de bases tales como polimorfismos de un solo
nucleótido, transiciones, transversiones, sustituciones y (ii)
mutaciones de desplazamiento de marco tales como inserciones,
repeticiones y deleciones. Además de esto, son útiles también
microsatélites. La influencia de las mutaciones en la etiología del
cáncer puede ilustrarse por las mutaciones que influyen en el
efecto del gen supresor de tumores p53 (otros genes supresores de
tumores son TGF-beta, NF-1,
WT-1, Rb). Alternativamente, las mutaciones
presentes en oncogenes (un ejemplo de un oncogén es Ras, siendo
otros oncogenes c-myc, c-raf, neu,
IL-2), genes reparadores (v.g. la
metilguanosil-metiltransferasa puede causar cambios
en el fenotipo y/o el efecto del fármaco.
Los cambios epigenéticos abarcan alteraciones de
ácidos nucleicos, v.g. metilación de los ácidos nucleicos.
El papel de la metilación en la enfermedad y la salud ha sido
demostrado recientemente por la influencia de la metilación en
diferentes síndromes tales como el síndrome Frágil X y el síndrome
de Rett. Debe entenderse que la metilación no sólo tiene impacto
sobre el estado de enfermedad, sino también sobre la determinación
de los perfiles de fármaco (Esteller M. et al. New England
Journal of Medicine, 2000, Vol 343:19, p. 1350-1354.
"Inactivation of the DNA repair gene MGMT and the clinical
response of gliomas to alkylating drugs").
El marco genérico puede utilizarse para predecir
el desarrollo de una enfermedad genética en un paciente. Como se
utiliza en esta memoria, el término "enfermedad genética" hace
referencia a cualquier condición patológica que esté correlacionada
directa o indirectamente con una mutación genética. Se localiza o se
genera una base de datos fenotipo-genotipo de
mutaciones genéticas correlacionadas con el desarrollo de una
enfermedad genética. Utilizando los datos de esta base de datos, se
adiestra una red neural. Una muestra de la información genética del
paciente se utiliza para determinar el genotipo. Una vez introducida
la información genética determinada del paciente en la red neural
adiestrada, puede hacerse una predicción en cuanto a probabilidad de
que el paciente desarrolle una enfermedad dada. La probabilidad de
desarrollar cualquier enfermedad genética asociada con una mutación
genética puede determinarse.
De acuerdo con ello, la presente invención
representa un cambio de paradigma en la capacidad del clínico para
monitorizar un estado de enfermedad de un paciente y prescribir
exactamente un agente terapéutico o combinación de agentes
terapéuticos basada en la resistencia al agente terapéutico
existente o desarrollado del patógeno o las células malignas, y
tratar con ello más eficazmente el estado de enfermedad del
paciente.
La resistencia al agente terapéutico de
cualquier patógeno o célula maligna puede predecirse con tal que se
conozca la secuencia diana. Un patógeno, como se utiliza en esta
memoria, hace referencia a cualquier microorganismo productor de
una enfermedad, con inclusión de bacterias, virus, algas, hongos,
levaduras y protozoos. Una célula maligna, como se utiliza en esta
memoria, hace referencia a una célula que tiene las propiedades de
anaplasia, invasión y metástasis.
Una aplicación particular es la predicción de la
resistencia a los agentes terapéuticos de un virus causante de
enfermedad. Específicamente, la presente invención puede predecir la
resistencia del virus de la inmunodeficiencia humana (HIV) tipo 1.
Otros virus son HIV tipo 2, virus del herpes símplex (HSV) tipos 1 y
2, virus del papilomavirus humano, virus de la hepatitis B (HBV),
virus de la hepatitis C (HCV), citomegalovirus (CMV), virus del
sarcoma de Rous (RSV) y virus Epstein-Barr (EBV).
Adicionalmente, puede predecirse la resistencia al agente
terapéutico en tales bacterias productoras de enfermedades como
Mycobacterium sp., Salmonella sp., Escherichia sp. y Streptococcus
sp.
Aunque algunos regímenes de tratamiento emplean
un solo agente terapéutico, es más típico hoy en día emplear una
combinación de agentes terapéuticos para tratar cualquier estado de
enfermedad dado. Un agente terapéutico, como se utiliza en esta
memoria, se refiere a cualquier animal, vegetal, mineral o sustancia
farmacéutica utilizada para tratar un patógeno o célula maligna. Se
entiende que el término "sustancia farmacéutica" se refiere a
compuestos farmacéuticos, proteínas, DNAs (con inclusión de DNA
antisentido), y RNAs. Debe entenderse que los compuestos nucleicos
y peptídicos pueden contener aminoácidos o bases no naturales,
conocidos por los expertos en la técnica. Adicionalmente, los
compuestos nucleicos y peptídicos pueden contener enlaces de bases
no naturales o uniones peptídicas conocidas en la técnica. Cuando se
emplea una combinación de agentes terapéuticos y se desarrolla
resistencia, el clínico a menudo no sabe cuál de los agentes
terapéuticos ya no es eficaz para tratar el estado de enfermedad.
La resistencia a los agentes terapéuticos puede ser
pre-existente o desarrollada por exposición
prolongada a uno o más agentes terapéuticos. Por esta razón, debe
entenderse que un agente terapéutico comprende también
combinaciones de diferentes compuestos.
El desarrollo de resistencia a los agentes
terapéuticos es especialmente causante de problemas debido a que,
incluso hoy en día, un clínico tiene solamente un número limitado de
agentes terapéuticos disponibles para tratar cualquier patógeno o
célula maligna dados. Así, el clínico no puede simplemente
reemplazar la totalidad de los agentes terapéuticos que se
administran actualmente por una nueva serie de agentes terapéuticos.
Por ejemplo, por reemplazamiento del régimen de tratamiento actual
con un régimen de tratamiento completamente nuevo, el clínico puede
desechar un agente terapéutico eficaz. El clínico no puede tampoco
reemplazar secuencialmente cada agente terapéutico que se
administra en una terapia de combinación. Además, no es extraño que
un patógeno o célula maligna, que exhibe resistencia a un agente
terapéutico particular exhiba también grados variables de
resistencia cruzada a otros agentes terapéuticos.
Adicionalmente, no toda mutación causa
resistencia. Por ejemplo, una mutación puede ser la causa de que un
patógeno o célula maligna se vuelva más sensible a un agente
terapéutico dado. Asimismo, una mutación puede restablecer la
sensibilidad de los fármacos a un patógeno o célula maligna que era
previamente resistente a dicho agente terapéutico.
Por monitorización continua del estado de
enfermedad, el clínico será capaz también de evaluar si puede
prescribirse un agente terapéutico más eficaz para tratar al
paciente. Debe entenderse que se puede detectar el desarrollo de la
sensibilidad a un agente terapéutico en un patógeno o célula
maligna. Por el uso del término resistencia al agente terapéutico,
se entiende que este término incluye tanto el aumento como la
disminución en la sensibilidad del patógeno o célula maligna a un
agente terapéutico.
Así pues, la eficacia de los regímenes de
tratamiento con agentes terapéuticos de combinación puede
monitorizarse. Por monitorización de la información genotípica del
patógeno o célula maligna, el clínico puede evaluar más exactamente
la eficacia del presente régimen de tratamiento y prescribir el o
los agentes terapéuticos de reemplazamiento apropiados a medida que
se desarrolla resistencia o sensibilidad.
Aunque la presente invención se establece en
muchos casos en términos de tratamiento de un paciente humano, debe
entenderse que la presente invención puede aplicarse también para
medir la resistencia al agente terapéutico de un patógeno o célula
maligna que causa un estado de enfermedad en cualquier animal.
Una vez que se han identificado nuevas
mutaciones o patrones de mutación utilizando las redes neurales, un
técnico experimentado puede construir formas mutantes de la
enfermedad de tipo salvaje. El técnico experto puede utilizar luego
la forma mutante de la enfermedad de tipo salvaje para estudiar la
resistencia a agentes terapéuticos. Como ejemplo, el técnico
experto puede realizar mutagénesis orientada sobre una cepa de tipo
salvaje de un virus o bacteria que es normalmente sensible a un
agente terapéutico para estudiar el efecto de dicha mutación sobre
la resistencia al agente terapéutico. La mutagénesis orientada podía
utilizarse para crear al menos una de las mutaciones identificadas
utilizando las redes neurales en un virus o bacteria de tipo
salvaje. El virus o bacteria mutante podría cultivarse luego en
presencia de un agente terapéutico y el crecimiento de dicho virus
o bacteria mutante podría medirse contra el desarrollo del virus de
tipo salvaje o bacteria en presencia del agente terapéutico.
Cualquier diferencia en las tasas de crecimiento podría atribuirse
entonces a la mutación identificada por la red neural.
\vskip1.000000\baselineskip
Las metodologías de determinación del genotipo
detectan cambios o mutaciones genéticos específicos, con inclusión
de inserciones y deleciones, en la información genética de la
muestra. Las metodologías de determinación del genotipo se utilizan
para detectar cambios o mutaciones genéticas específicas, con
inclusión de inserciones y deleciones, en un genoma de patógeno o
célula maligna que se sabe están asociados con la resistencia a
agentes terapéuticos. Como se utiliza en esta memoria, debe
entenderse que el término "genoma" hace referencia a cualquier
DNA o RNA aislado del patógeno o célula maligna. Así, el término
genoma incluye, por ejemplo, DNA cromosómico, DNA
extra-cromosómico (con inclusión de DNA plasmídico,
DNA microsatélite, y DNA mitocondrial), RNA mensajero (mRNA), DNA o
RNA codificados por virus, y análogos. Estas mutaciones pueden hacer
que el patógeno o célula maligna se vuelva más sensible o más
resistente a un agente terapéutico.
Las metodologías de determinación del genotipo
pueden utilizarse para detectar cambios o mutaciones genéticos
específicos, con inclusión de inserciones y deleciones, en el genoma
de un paciente. Preferiblemente, las metodologías de determinación
del genotipo se utilizan para detectar mutaciones correlacionadas
con el desarrollo de una enfermedad genética. Debe entenderse que
no todas las mutaciones están correlacionadas directamente con una
enfermedad genética. La anemia de células falciformes es un ejemplo
de una mutación genética que está correlacionada directamente con
una enfermedad genética. La mayoría de las mutaciones, sin embargo,
están correlacionadas indirectamente con una enfermedad genética.
Estas mutaciones aumentan generalmente la prevalencia de que un
paciente desarrolle la enfermedad genética asociada con la mutación,
pero la presencia de la mutación, en y por sí misma, no es
determinante del desarrollo de la enfermedad genética. Puede
predecirse el desarrollo de una enfermedad genética que está
correlacionada indirectamente con una o más mutaciones.
La determinación del genotipo es más simple de
realizar que la determinación del fenotipo, y menos costosa. Una
desventaja es que los resultados son difíciles de interpretar. Es
importante indicar que la determinación del genotipo no es una
medida de resistencia por sí misma - puede inferirse resistencia de
la información genotípica, pero esto requiere interpretación
compleja utilizando métodos tales como los que se describen en la
presente invención.
La interpretación de la información del genotipo
es difícil y requiere un método complejo. Los modelos estadísticos
adolecen de exactitud decreciente si el problema a resolver, es
decir la relación entre una o más mutaciones y la eficacia de los
fármacos, se hace más complejo. Un problema de este tipo se
encuentra a menudo cuando patrones de genotipo complejos están
ligados a monoterapias o terapias de combinación como sucede durante
el tratamiento de enfermedades infecciosas y malignas, por ejemplo.
Las relaciones complejas entre los perfiles genotípicos encontrados
en el agente causante de la enfermedad, sea después del tratamiento
o incluso en condiciones naíf de tratamiento, y las posibles
terapias pueden abordarse por redes neurales. Una red neural permite
el cálculo de resistencia más exactamente que los análisis
estadísticos convencionales.
Debe entenderse que cualquier método capaz de
detectar cambios genéticos puede utilizarse en la presente
invención. Además, estos cambios genéticos pueden ser detectados en
cualquier DNA o RNA aislado de la muestra. Adicionalmente, los
cambios genéticos pueden ser detectados en cDNA preparado a partir
de la muestra.
Debe entenderse que la muestra puede obtenerse a
partir de un individuo de la especie que va a ser analizada
utilizando cualquiera de cierto número de medios de toma de muestra
"invasivos" o "no invasivos". Se dice que un medio de
toma de muestra es "invasivo" si el mismo implica la recogida
de la muestra del interior de la piel u órganos de un paciente tal
como recogida de sangre, recogida de semen, biopsia con aguja,
aspiración pleural, etc. En contraste, un método de toma de
muestras "muy invasivo" quiere decir que es uno en el cual la
muestra se recupera de una superficie interna o externa del paciente
tal como frotis, recogida de lágrimas, saliva, orina, material
fecal, sudor o transpiración, lavado de conductos, etc.
El DNA o RNA del patógeno o célula maligna
contenido en la muestra se aísla después que la muestra ha sido
recogida. Las técnicas para aislamiento de DNA o RNA a partir de una
muestra de un paciente son conocidas por las personas expertas en
la técnica y se describen detalladamente en Sambrook et al.,
Molecular Cloning: A Laboratory Manual, vols.
1-3, 2ª Edición, Cold Spring Harbor Laboratory Press
(1989). La información genotípica se determina luego a partir del
DNA o RNA aislado. Alternativamente, la información genotípica puede
determinarse directamente a partir del patógeno o célula maligna
contenido en la muestra. Una secuencia genética determinada como se
utiliza en esta memoria hace referencia a cualquier DNA o RNA de la
muestra cuya secuencia ha sido determinada, en su totalidad o en
parte, utilizando preferiblemente una de las metodologías de
determinación del genotipo descritas. Dos metodologías preferidas
adecuadas para determinación de la secuencia genética son los
ensayos de mutación puntual basados en hibridación y la
secuenciación del DNA.
Los ensayos de mutación puntual basados en
hibridación buscan mutaciones conocidas individuales. Si bien estos
métodos son muy específicos, se ha informado que los ensayos de
mutación puntual detectan únicamente una fracción de estas
mutaciones conocidas. Véase, v.g., Stuyver et al.,
Antimicrob. Agents Chemotherap. 41: 284-291
(1997) y pueden, por tanto, proporcionar solamente una pequeña parte
seleccionada del cuadro de resistencias. Los ensayos comunes de
mutación puntual adecuados para uso en la presente invención
incluyen, pero sin carácter limitante, reacción en cadena de
polimerasa (PCR) específica de iniciadores (véase, v.g. Larder et
al., SIDA 5: 137-144 (1991); hibridación
diferencial (véase, v.g. Eastman et al., J. Acquir. Immune Defic.
Syndr. Human Retrovirol. 9: 264-273 (1995);
Line Probe Assay (LiPA^{TM}, Innogenetics) (Larder et al., AIDS
5: 137-144 (1991); Stuyver et al.,
Antimicrob. Agents Chemother.
41(2):284-91(1997), y secuenciación
de chips de genes (véase, v.g., Fodor, Nature
227:393-395 (1997); Patentes U.S. Núms. 5,925,525,
5,861,242, y 5,834,758). Otros ensayos para determinar mutaciones
han llegado a estar disponibles, v.g. ensayo Invader® (Third
Wave Technologies, Inc.), ensayo de DNA WAVE® (Transgenomic, Inc.),
espectrometría de masas (Jackson P., et al. Molecular
Medicine Today 6, 271-276, (2000)) y la
resonancia de superficie de plasmones (Nakatani, K. et al.
Nature Biotechnology 19(1), 18-19,
(2001). Una revisión de las técnicas de mutación utilizadas
actualmente, que comprenden análisis basados en gel y no basados en
gel se recoge en Shi, M. Clin. Chem. 2001, (47:2)
164-172.
La secuenciación del DNA proporciona información
acerca de la totalidad de los nucleótidos en la región del RNA o
DNA secuenciada. Existen dos tipos principales de métodos de
secuenciación de DNA, el denominado método de terminación de
cadenas y la secuenciación química (véase, v.g., Sanger y Coulson,
J. Mol. Bio. 94: 441-448 (1975), Maxam y
Gilbert, Methods Enzymol. 65: 499-560 (1980).
Estrategias de secuenciación alternativas han sido desarrolladas,
v.g. análisis espectrométrico de masas. Preferiblemente, sólo un
segmento o una porción de la información genética de la muestra se
utiliza para detectar una mutación. No obstante, debe entenderse
que el genoma completo de una muestra puede utilizarse para detectar
una mutación. Como se utiliza en esta memoria, la frase
"mutación" hace referencia a un cambio genético específico en
la secuencia de nucleótidos de la muestra en comparación con la
secuencia genética en la misma posición o localización en la muestra
de tipo salvaje, con inclusión pero sin carácter limitante de
inserciones y deleciones. La mutación genética se describe
normalmente como en la referencia al tipo salvaje, es decir,
K101N hace referencia al reemplazamiento de una lisina en el codón
101 con una asparagina. Sin embargo, las mutaciones no dependen del
ejemplo de tipo salvaje listado para estar dentro de la práctica de
la invención. Por ejemplo, la mutación 101N se refiere a una
asparagina en el codón 101 con indiferencia de si había una lisina
en 101 antes de la mutación.
En una realización de la presente invención, se
prefiere seleccionar un segmento o porción de la información
genética que se sabe o se cree acumula mutaciones que afectan a la
resistencia a los fármacos. Puede detectarse también un segmento o
porción de la información genética de la muestra del paciente que se
sabe o se cree acumula mutaciones correlacionadas con el desarrollo
de una enfermedad. Generalmente, estos segmentos son genes o
fragmentos de genes que codifican enzimas o proteínas. Generalmente,
estas proteínas están asociadas con la membrana celular. Por
ejemplo, en HIV, genes que se sabe acumulan mutaciones que afectan a
la resistencia a los fármacos incluyen, por ejemplo, el gen de
polimerasa, el gen de proteasa, la proteína de la cubierta y el gen
de transcriptasa inversa. Genes de HIV adicionales de interés para
la práctica de la presente invención son v.g. TAT, ref, nef, la
integrasa gp41, gp120, gp160. De la hepatitis B, los genes
siguientes tales como el núcleo de DNA-polimerasa.
De la hepatitis C genes como el núcleo, E1, E2, p7, NS2, NS3, NS4A,
NS4B, NS5A, NS5B. De biología de tumores han sido ya identificados
diferentes genes ligados a estados de enfermedad, tales como HER2,
el receptor EGF, raf, p53, Bcr-Abl, Bcl2 y APC. El
efecto de mutaciones en los genes se describe para, v.g., raf, p53,
Bcl2 y APC.
Dependiendo del método que se utilice, se
identificarán algunas o todas las mutaciones que se han producido.
Sin embargo, la predicción de cuál podría ser el efecto neto de
estas mutaciones sobre la sensibilidad de la población de patógeno
o células malignas a los diversos agentes terapéuticos requiere una
interpretación compleja. Por ejemplo, el análisis genético extenso
de los materiales aislados virales resistentes generados durante
selección in vivo o in vitro ha revelado que la
resistencia está causada generalmente por mutaciones que alteran la
secuencia de nucleótidos en algún o algunos sitios específicos del
genoma. Por tanto, depende del médico combinar esta información con
toda la información restante relativa al paciente y decidir qué
significa todo esto en términos de selección de fármacos para el
tratamiento de su paciente individual.
Los patrones de mutación que se han observado y
consignado para HIV-1 y que están correlacionados
con resistencia a los fármacos son muy diversos: algunos agentes
antirretrovirales requieren únicamente un solo cambio genético,
mientras que otros requieren mutaciones múltiples para que aparezca
resistencia. En HIV-1 existen en la actualidad
aproximadamente 100 mutaciones que se cree están implicadas en el
desarrollo de resistencia de HIV-1 a los agentes
terapéuticos. Un ejemplo de este tipo es N88S, que causa
hipersensibilidad in vitro a amprenavir. Véase, v.g.
Ziermann et al., J. Virol. 74(9):
4414-9 (2000). Se ha publicado un sumario de
mutaciones en el genoma de HIV correlacionadas con resistencia a
los fármacos. Schinazi et al., Int. Antiviral News. 5:
129-142 (1997). Adicionalmente, un listado
electrónico con mutaciones está también a disposición en
http://hiv-web.lanl.gov,
http://hivdb.stanford.edu/hiv/; o
http://www.viral-resistance.com.
La relación entre estas mutaciones, deleciones e
inserciones puntuales y la susceptibilidad actual de
HIV-1 a los agentes terapéuticos es extremadamente
compleja e interactiva. Por ejemplo, la mutación M184V en
HIV-1 confiere resistencia a 3TC e invierte la
resistencia a AZT. Véase, v.g., Larder et al., Science 269:
696-699 (1995). La mutación 333D/E, en cambio,
invierte este efecto y puede conducir a resistencia dual a AZT/3TC.
Véase, v.g. Kemp et al., J. Virol. 72(6):
5093-5098 (1998).
Cuando se determina el genotipo de
HIV-1, el método preferido para la determinación del
genotipo es el test genotípico VircoGEN^{TM} (Virco). El
VircoGEN^{TM} es un ensayo de determinación del genotipo que
utiliza tecnología de secuenciación para identificar todas las
mutaciones de resistencia conocidas que se han producido en los
genes de proteasa-transcriptasa inversa
(PR-RT) de una población de virus de
HIV-1 de un paciente. Esta es una medida indirecta
basada en indicadores genéticos de resistencia a agentes
terapéuticos.
La interpretación de datos genotípicos es a la
vez compleja y críticamente importante. A medida que se desarrollen
más agentes terapéuticos y se correlacionen más mutaciones con el
desarrollo de resistencia a los agentes terapéuticos, esta
complejidad aumentará.
Las metodologías de determinación del fenotipo
miden la capacidad de un patógeno o célula maligna para crecer en
presencia de uno o más agentes terapéuticos diferentes en el
laboratorio. Esto se expresa usualmente como la multiplicidad de
cambio en los valores CI_{50} o CI_{90} (siendo el valor
CI_{50} o CI_{90} la concentración de agente terapéutico para
la cual el 50% o el 90% respectivamente de la población se ve
inhibida en cuanto a su replicación). Un patógeno o célula maligna
muy resistente podría exhibir un aumento de 50 ó 100 veces en el
CI50, por ejemplo.
La determinación del fenotipo es una medida
directa de la sensibilidad, reflejando los efectos e interacciones
de todas las mutaciones, conocidas o desconocidas, sobre el
comportamiento de la población de patógeno o células malignas en
presencia de uno o más agentes terapéuticos. Cualquier método capaz
de medir los cambios en la capacidad de un patógeno o célula
maligna para crecer en presencia de uno o más agentes terapéuticos
puede utilizarse en la presente invención. Tales métodos de
determinación del fenotipo de un patógeno o célula maligna son
conocidos por las personas expertas en la técnica.
Por ejemplo, métodos para determinación del
fenotipo de bacterias se describen en Guoming et al., Sex.
Transm. Dis. 27(2): 115-8 (2000),
Lozano-Chiu et al., Diagn. Microbiol. Infect.
Dis. 31(3):417-24 (1998), Iwen et al.,
J. Clin. Microbiol. 34(7):1779-83
(1996).
Como ejemplo ilustrativo adicional, métodos para
determinación del fenotipo de virus incluyen, pero sin carácter
limitante, ensayos de reducción de calvas, ensayos de inhibición del
crecimiento de p24 en PBMC (véase, v.g., Japour et al.,
Antimicrob. Agents Chemother. 37:1095-1101
(1993); Kusumi et al., J. Virol. 66:875-885
(1992), ensayos de virus recombinantes (véase, v.g., Kellam &
Larder, Antimicrob. Agents Chemother.
38:23-30 (1994); Hertogs et al., Antimicrob.
Agents Chemother. 42:269-276 (1998); el uso de
GFP como marcador para evaluar la susceptibilidad de los
inhibidores anti-virales (Marschall et al.,
Institute of Clin. and Mol. Virol., University of
Erlanger-Nuremberg, Schlobgarten, Alemania); y
ensayos en células de cultivo (Hayden et al., N. Eng. J.
Med. 321:1696-702 (1989).
Como otro ejemplo ilustrativo adicional, métodos
para determinación del fenotipo de células malignas incluyen, pero
sin carácter limitante, ensayos de citometría de flujo (véase, v.g.
Pallis et al., Br. J. Haematol.
104(2):307-12 (1999); Huet et al.,
Cytometry 34(6):248-56 (1998),
microscopía de fluorescencia (véase, v.g., Nelson et al., Cancer
Chemother. Pharmacol. 42(4):292-9 (1998),
método de acumulación de calceína (véase, v.g., Homolya et al.,
Br. J. Cancer. 73(7):849-55 (1996), y el
ensayo de luminiscencia de ATP (véase, v.g., Andreotti et al.,
Cancer Res. 55(22):5276-82 (1995).
La metodología de determinación del fenotipo
empleada utiliza un intensificador de la detección. Como se utiliza
en esta memoria, un intensificador de la detección, o dominio, puede
ser una sonda resonante, coloreada, generadora de color,
inmunógena, fluorescente, luminiscente, o radiactiva. Una parte de
detección puede comprender un regulador de la transcripción, tal
como el sistema informador heterólogo descrito en la patente U.S.
No. 5,776,675.
En una realización de la invención, el
intensificador de la detección puede comprender uno o más
componentes de un sistema de transferencia de energía por
resonancia de fluorescencia (FRET). Tales aspectos pueden utilizarse
también para diseñar ensayos de cribado de alta potencia. FRET es
un proceso en el cual un fluoróforo excitado (un donante de
resonancia) transfiere su energía de estado excitado a una molécula
fotoabsorbedora (un aceptor de resonancia). Los intensificadores de
detección han sido utilizados con éxito en la determinación del
fenotipo de HIV-1. Pauwels el al., J. Virol.
Methods 20:309-321 (1998); Paulous et
al., International Workshop on HIV Drug Resistance, Treatment
Strategies and Eradication, St. Petersburg, Florida, EE.UU.
Abstr. 46 (1997); y Deeks et al., 2nd International
Workshop on HIV Drug Resistance and Treatment Strategies, Lake
Maggiore, Italia. Abstr. 53 (1998).
En una realización preferida, se genera una base
de datos fenotipo-genotipo para correlacionar cada
una de las mutaciones de genotipo conocidas con cambios en la
resistencia fenotípica a los fármacos de dicho patógeno o célula
maligna. Por generación de una base de datos de este tipo, el tiempo
de preparación inicial para la red neural se reduce sustancialmente
para la información de bases de datos (sic) de este tipo que se
utilizan para adiestrar y testar las redes neurales de la presente
invención. En ciertas circunstancias, dichas bases de datos
fenotipo-genotipo han sido ya generadas. Se
entenderá, sin embargo, que la presente invención puede practicarse
por establecimiento de una base de datos
fenotipo-genotipo simultáneamente con el
establecimiento y adiestramiento de la red neural.
Puede desarrollarse una base de datos
fenotipo-genotipo que correlacione mutaciones
conocidas de genotipo con el desarrollo de una enfermedad genética.
Preferiblemente, las mutaciones de genotipo están correlacionadas
indirectamente con el desarrollo de una enfermedad genética. Las
mutaciones genéticas correlacionadas con el desarrollo de una
enfermedad genética son conocidas generalmente por una persona con
experiencia en la técnica. Por ejemplo, las mutaciones en el gen
p53 están correlacionadas con el desarrollo de cierto número de
enfermedades genéticas (Gallagher et al., Ann. Oncol.
10:139-50 (1999); Lenz et al., Clin. Cancer
Res. 4:1243-50 (1998); Trepel et al.,
Leukemia 11:1842-1849 (1997); Iwadate
et al., Int. J. Cancer
69:236-40 (1996). Análogamente, y a modo de
ilustración, muchas enfermedades se han ligado a mutaciones
genéticas, con inclusión de enfermedades del tiroides (Finke,
Exp. Clin. Endocrinol. Diabetes 104 Suppl.
4:92-97 (1996); enfermedad de Alzheimer (Roses,
Neurogenetics 1:3-11 (1997); endometriosis
(Bischoff et al., Hum. Reprod. Update
6:37-44 (2000); tumores óseos hereditarios
(McCormick el al., Mol. Med. Today 5:481-486
(1999); cáncer de mama (Chen et al., J. Cell Physiol.
181:385-92 (1999); Beckmann et al., J. Mol.
Med. 75:429-39 (1997); y carcinoma cervical
(Lazo, Br. J. Cancer 80:2008-18 (1999).
Nuevas mutaciones o patrones de mutación se
añaden a la base de datos fenotipo-genotipo. Así, es
posible añadir a la base de datos
fenotipo-genotipo, expandiendo adicionalmente con
ello el conocimiento y las capacidades de las redes neurales.
Adicionalmente, se entiende que la o las nuevas mutaciones o
patrones de mutación identificados por las redes neurales pueden
imprimirse en un informe. Tales informes pueden ser utilizados por
los técnicos expertos para cribar el perfil genético de un paciente
a fin de determinar el patrón de resistencia de la enfermedad.
Debido al tiempo y los costes asociados con los
tests fenotípicos, estos ensayos no son generalmente adecuados para
cribado clínico de rutina. Análogamente, debido a las dificultades
en la traducción de la información genómica en datos
significativos, el cribado del genotipo por sí mismo no es adecuado
para cribado clínico de rutina. La presente invención, sin embargo,
puentea la laguna entre los datos más significativos obtenidos en
los ensayos fenotípicos y los datos alcanzables más fácilmente
obtenidos por el test genotípico mediante el uso de una red
neural.
Las redes neurales no dan por sentado el número
de salidas que dependen de las entradas ni que las entradas sean
independientes. En lugar de ello, las redes neurales ofrecen un
marco muy potente y general para representar el mapeado no lineal
de una serie de variables de entrada para otra serie de variables de
salida. Además, las redes neurales representan funciones no
lineales de muchas variables en términos de superposición de
funciones no lineales de variables simples. Estas funciones no
lineales de variables simples están adaptadas en sí mismas a los
datos como parte del proceso de adiestramiento de tal modo que el
número de tales funciones precisa únicamente crecer a medida que
aumenta en sí misma la complejidad del problema, y no simplemente a
medida que aumenta la dimensionalidad. Debe apreciarse que aparte
de funciones no lineales, pueden utilizarse también funciones
lineales que conciernen únicamente a una capa de entrada y de
salida. La adición de capas ocultas al último sistema requiere una
función no lineal para resolución del problema.
La red neural de la presente invención se
caracteriza por: (1) su patrón de conexiones entre las neuronas
(denominada su arquitectura); y (2) y el conocimiento que se
representa por pesos en la conexión. La Figura 3 representa un marco
ilustrativo para una red neural de tres capas.
Una red neural puede emplearse para modelizar la
relación entre el genotipo y el fenotipo para ensayos de
resistencia a los agentes terapéuticos. Adicionalmente, una red
neural puede emplearse para identificar una o más mutaciones o
patrones de mutación, con inclusión de inserciones y deleciones, que
confieren resistencia a un agente terapéutico. Adicionalmente, una
red neural puede emplearse para definir la base genética de la
resistencia a los agentes terapéuticos. En una realización de este
aspecto, puede emplearse una red neural para identificar nuevas
mutaciones asociadas con la resistencia a agentes terapéuticos.
Preferiblemente, la red neural de la presente
invención emplea una retro-propagación y un
algoritmo de aprendizaje de términos momentáneos implementado con
arquitectura de percepción multicapa (MLP). Debe entenderse, sin
embargo, que pueden emplearse otras formas de redes neurales en la
presente invención. Por ejemplo, pueden utilizarse redes Adaline,
redes de teoría de resonancia adaptativa, redes de memoria
bi-direccional asociativa, redes de
retro-propagación, redes de
contra-propagación, redes Hamming, redes Hopfield,
redes Madaline, redes neurales probabilísticas, redes de
recirculación, redes de reconocimiento de patrones
espacio-temporales, y otros tipos de redes neurales
para alcanzar los objetos de la presente invención.
Una red neural consiste en un gran número de
elementos de procesamiento simple denominados neuronas (a los que
se hace referencia también como nodos). La disposición de las
neuronas en capas y los patrones de conexión dentro y entre las
capas se conoce como la arquitectura de la red, o simplemente
arquitectura. Cada neurona está conectada con otras neuronas por
medio de enlaces de comunicación directos con un peso asociado. Cada
neurona tiene un estado interno, denominado su nivel de activación,
que es función de las entradas que ha recibido. En una realización
de la presente invención, el nivel de activación está limitado entre
0 y 1. En otra realización, el nivel de activación está limitado
entre -1 y 1.
La red neural de la presente invención es una
red de alimentación directa en la que las señales fluyen desde las
unidades de entrada a las unidades de salida en dirección hacia
delante. La red de alimentación directa de la presente invención es
una red de alimentación directa de niveles múltiples, con una o más
capas ocultas. En una realización, la red neural de la presente
invención emplea una sola capa oculta.
En una realización, la red de alimentación
directa de la presente invención está conectada totalmente, donde
cada nodo en cada capa de la red está conectado a uno de cada dos
otros nodos en la capa adyacente de delante. Sin embargo, debe
entenderse que pueden emplearse también en la presente invención
redes conectadas parcialmente. Las redes conectadas parcialmente
pueden emplearse cuando se aplica a la red un número excesivo de
datos de entrada de mutaciones o polimorfismos. Alternativamente,
pueden aplicarse técnicas de poda. Debe entenderse que en una red
conectada parcialmente, algunos de los enlaces de comunicación están
ausentes de la red.
La acción de la red de alimentación directa está
determinada por dos factores - la arquitectura y el valor de los
pesos. Los números de nodos de entrada y salida están determinados
por el número de mutaciones implicadas y el número de agentes
terapéuticos contemplados, y por tanto deben considerarse fijos.
Inicialmente, el valor de los pesos y sesgos son aleatorios. A
medida que se produce adiestramiento, lo que se describe con mayor
detalle más adelante, los pesos se ajustan para reducir la función
de error.
La Figura 3 representa un marco ilustrativo para
una red neural de tres capas. La red tiene entradas I, unidades
ocultas J y unidades de salida K, y dos unidades de sesgo, las dos
cuales tienen una señal de entrada de 1 (es decir, x_{0} y
z_{0}). Preferiblemente, el número de entradas, I, es igual
al número de mutaciones que se sabe están correlacionadas con la
resistencia fenotípica al agente terapéutico para la enfermedad que
se evalúa. Sin embargo, en otra realización, el número de unidades
de entrada, I, es igual al número de mutaciones que se sabe están
correlacionadas con la resistencia fenotípica al agente terapéutico
para un gen que existe en la enfermedad que se evalúa. Por ejemplo,
en el HIV-1, la entrada, I, podría ser igual a la
totalidad de las mutaciones conocidas que se sabe confieren
resistencia a los agentes terapéuticos al HIV o podría ser igual a
la totalidad de las mutaciones conocidas que se sabe confieren
resistencia a los agentes terapéuticos en el gen de proteasa. En
una sub-realización adicional, únicamente un
subconjunto de mutaciones conocidas se alimenta como entrada a la
red neural de la presente invención.
Cada capa oculta, J, contiene una pluralidad de
nodos ocultos. El número de nodos ocultos, j, se considera
que es una variable que puede ajustarse para conseguir una
eficiencia satisfactoria. En la práctica, el número óptimo de nodos
ocultos se determina empíricamente. El medio para determinar el
número óptimo de nodos es bien conocido por los expertos en la
técnica y depende de la complejidad de la información
genotipo/fenotipo y la enfermedad de que se trate. Al igual que el
número de capas ocultas, el número de unidades ocultas afecta
también a la complejidad de la red neural. El número de unidades
ocultas se determina por evaluación de la eficiencia de la red
neural en cuanto a las series de validación y de test.
El número de unidades de salida, K, puede ser
igual al número de agentes terapéuticos con mutaciones conocidas
que confieren resistencia a los agentes terapéuticos. Sin embargo,
debe entenderse que el número de unidades de salida, K, puede ser
un subconjunto de agentes terapéuticos con mutaciones conocidas que
confieren resistencia. Por ejemplo, el número de unidades de salida
puede estar restringido a una clase particular de agentes
terapéuticos, tales como inhibidores de proteasas, etc.
La red neural ilustrativa de tres capas de la
Figura 3 tiene dos capas de pesos adaptativos (w_{ji} y
w_{jk}), que son el peso de la unidad oculta j-ésima
asociada con la señal de entrada x_{i}, y el peso de la
unidad de salida k-ésima asociado con la señal oculta
z_{j}, respectivamente. Los valores de estos pesos se
optimizan durante el paso de adiestramiento de la red neural, que se
describe más adelante.
Cuando se identifican una o más mutaciones y/o
patrones de mutación que confieren resistencia a un agente
terapéutico, se prefiere que el número de entradas sea igual al
número de mutaciones que se sabe están correlacionadas con el hecho
de conferir resistencia a dicho agente terapéutico. El número de
salidas es igual al número de agentes terapéuticos estudiados por
la presente red neural para identificación de mutaciones.
Cuando se trata de la predicción de la
probabilidad de desarrollo de una enfermedad, se prefiere que el
número de entradas sea igual al número de mutaciones conocidas que
se sabe están correlacionadas con el desarrollo de la o las
enfermedades genéticas. En otra realización, el número de entradas
es igual al número de mutaciones se sabe están correlacionadas con
el desarrollo de una enfermedad genética dada. Preferiblemente, el
número de salidas es igual al número de enfermedades genéticas que
son evaluadas por la red neural.
En una realización de la presente invención, la
red neural emplea una curva sigmoide como la función de activación.
La curva sigmoide puede ser binaria (0, 1) o bipolar (-1, 1). Otras
funciones de activación que pueden emplearse son funciones
lineales, hiperbólico-tangentes, logísticas, umbral
y Gaussiana.
Antes de introducir datos en un nodo de entrada,
el mismo tiene que pre-procesarse. El
pre-procesamiento hace referencia al proceso de
convertir los datos moleculares en un vector de entrada capaz de ser
introducido en la red neural. En una realización de la presente
invención, el patrón de mutación x para una muestra dada se
expresa por x = (x_{1}, x_{2}, ...,
x_{n}), donde x_{i} (i = 1, 2, ..., n)
tiene un valor de 0 ó 1, representando 1 la mutación existente en
la posición i, y representando 0 la ausencia de mutación en
la posición i, y n es el número de mutaciones en la muestra
de test. Asimismo, los datos de salida precisan ser
pre-procesados para convertir los datos de la red
neural en datos significativos. En una realización de la presente
invención, se considera que una multiplicidad de resistencia
inferior o igual a 4 veces el punto de corte (el mismo puede
diferir de fármaco a fármaco) es "sensible", mayor que 4 veces
el punto de corte y menor que el punto de corte resistente (sic)
(puede diferir de fármaco a fármaco) se considera que es
"intermedia", y si el valor es mayor que 10 veces el punto de
corte se considera que es "resistente". Los puntos de corte
biológicos se determinan utilizando la tecnología descrita en Larder
BA & Harrigan PR. AIDS, 2000, 14 (suplemento 4): S111, Abstract
P327 y póster. Por ejemplo (punto de corte de fármaco):
Zidovudina 4,0, Nevirapina 8,0, Delavirdina
10,0, Efavirenz 6,0, Lamivudina 4,5, Didanosina 2,0, Zalcitabina
2,0, Stavudina 1,75, Abacavir 3,0, Indinavir 3,0, Ritonavir 3,5,
Nelfinavir 4,0, Saquinavir 2,5, Amprenavir 2,0, Lopinavir 2,5.
En una realización, la red neural de la presente
invención emplea una regla de aprendizaje de
retro-propagación y término de momento (BPM). Las
reglas de aprendizaje BPM han sido revisadas por, v.g., Chauvin y
Rumelhart, Backpropagation: Theory, Architectures and Applications,
Lawrence Erlbaum Assoc., Hillsdale, N.J. (1995). Los algoritmos BPM
proporcionan un método eficiente de computación para cambio de los
pesos en una red de alimentación directa con diferentes funciones
de activación.
El adiestramiento BPM implica tres etapas:
alimentación directa del patrón de adiestramiento de entrada;
cálculo y retro-propagación del error asociado; y
ajuste de los pesos. En la fase de alimentación directa, los pesos
se mantienen inalterados a todo lo largo de la red, y las señales de
función se estiman sobre una base de neurona por neurona. En la
fase de retro-propagación, las señales de error se
computan recurrentemente para cada neurona a partir de la capa de
salida, y se hacen retroceder a través de la red, capa por capa para
deducir el error de las unidades ocultas. Los pesos se ajustan
correspondientemente para reducir la diferencia entre la salida de
la red y la salida de la diana. Después del adiestramiento, la red
neural calcula únicamente en la fase de alimentación directa.
Debe entenderse que los valores de los
parámetros libres (los pesos y los sesgos) pueden determinarse por
minimización de la función de error. Una función de error preferida
que puede emplearse en la presente invención es la función de error
de la raíz cuadrática media, que es la raíz cuadrada de la suma de
los cuadrados de los errores calculada para todos los patrones a
través del archivo de adiestramiento. Otras funciones de error son
conocidas por las personas expertas en la técnica.
En otra realización, la red neural de la
presente invención emplea un programa de
contra-propagación (CP). Véase, v.g., Wu y
Shivakumar, Nucleic Acids Res. 22:4291-4299
(1994). Un programa CP se aproxima al adiestramiento de pares de
vectores de entrada por construcción adaptativa de una tabla de
consulta. De esta manera, un gran número de puntos de datos de
adiestramiento pueden comprimirse para dar un número más manejable
de entradas en la tabla de consulta. La exactitud de aproximación
se determina por el número de entradas en la tabla de consulta.
En una realización de la presente invención, se
utilizan en combinación algoritmos BP y CP. Se ha comunicado que
una red que emplea una combinación de los dos algoritmos predecía
más exactamente las clasificaciones filogenéticas que una red que
empleaba cualquiera de los algoritmos individualmente. Véase, v.g.,
Wu y Shivakumar, Nucleic Acids Res. 22:
4221-4299 (1994).
Además del adiestramiento BP, pueden emplearse
en la presente invención otros algoritmos de adiestramiento. Por
ejemplo, puede utilizarse el algoritmo de bolsillo, la regla delta,
la regla de Hebb, la regla de Hopfield, la regla de
Windrow-Hoff, la regla Adaline, y la regla de
Kohonen para adiestrar la red neural de la presente invención.
Con objeto de crear una red que tenga la
eficiencia óptima en datos nuevos, el enfoque más simple consiste
en comparar la función de error de diferentes redes utilizando datos
que son independientes del utilizado para el adiestramiento. Por
comparación de las diferentes redes, puede medirse fácilmente el
efecto de las modificaciones de los parámetros de red.
Los parámetros de las redes neurales se
determinan investigando la eficiencia óptima en la serie de datos
de test. Con estos parámetros, puede alcanzarse una tasa de
concordancia mayor que 75% entre genotipo y fenotipo. En una
realización, se alcanza una tasa de concordancia mayor que 85% tal
como una tasa de concordancia mayor que 90%. Debe entenderse, sin
embargo, que pueden alcanzarse por la presente invención tasas de
concordancia mayores que 95%.
Varios parámetros internos de la red de la
presente invención pueden ajustarse finamente con ayuda de los
resultados experimentales y la experiencia. Por ejemplo, puede
optimizarse la tasa de aprendizaje \eta (el paso de tamaño del
proceso de minimización). La velocidad de convergencia de la red
neural está relacionada directamente con el parámetro de
aprendizaje. Un parámetro de aprendizaje demasiado pequeño hará
lento el proceso de adiestramiento, en tanto que una tasa de
aprendizaje demasiado grande puede producir oscilaciones entre
soluciones pobres. En general, se pueden emplear pasos grandes
cuando el punto de búsqueda está lejos del mínimo, disminuyendo el
tamaño del paso a medida que la búsqueda se acerca a su mínimo.
Enfoques adecuados para seleccionar la tasa de aprendizaje
apropiada se proporcionan por, v.g., Hassoun, Fundamentals of
Artificial Neural Networks, MIT Press, Cambridge, MA (1995). La
tasa de aprendizaje \eta se ajusta entre 0 y 1, preferiblemente
0,1 a 0,9. Debe entenderse que la tasa de aprendizaje depende de la
información genotipo-fenotipo que es analizada por
la red neural.
Otro parámetro interno que puede optimizarse en
la presente invención es el término momento \alpha. El momento
permite que la red realice ajustes de peso razonablemente grandes
con tal que las correcciones estén en la misma dirección general
para varios patrones, mientras que se utiliza una tasa de
aprendizaje menor para prevenir una respuesta grande al error de un
patrón de adiestramiento cualquiera. El mismo reduce también la
probabilidad de que la red neural encuentre pesos que representen
un mínimo local. El término de momento se selecciona normalmente
entre 0 y 1. Preferiblemente, el momento \alpha se ajusta a
0,9.
En una realización, se recoge una serie de datos
de datos genotípicos y fenotípicos. Por ejemplo, la serie de datos
puede recogerse de una base de datos
fenotipo-genotipo. En una realización de la presente
invención, cada miembro de la serie de datos corresponde a una
mutación genética que está correlacionada con un cambio fenotípico
en la resistencia a los agentes terapéuticos. Preferiblemente, la
serie de datos se divide en una serie de datos de adiestramiento y
una serie de datos de test. No es necesario tener una gran serie de
datos de adiestramiento. Si las muestras en la serie de datos de
adiestramiento representan todos los casos posibles con
significación estadística adecuada, la adición de nuevas muestras no
aumenta por regla general la cantidad de información en las
muestras de adiestramiento. En lugar de ello, puede reducir la
cantidad útil de relación de información a ruido en las muestras.
Por otra parte, una serie de datos de adiestramiento demasiado
pequeña no cubrirá generalmente todas las variaciones posibles en
la población. La red resultante memoriza simplemente a menudo los
datos en la serie de datos de adiestramiento y no generaliza
adecuadamente.
Durante el adiestramiento, cada miembro de la
serie de datos de adiestramiento se presenta preferiblemente a la
red neural de uno en uno. Para cada miembro de la serie de datos de
adiestramiento, la red utiliza los valores preprocesados para
estimar una predicción, la cual se compara luego con la resistencia
real de la mutación. Si la predicción de la red es correcta, las
fuerzas y umbrales de conexión dentro de la red no cambian y se
presenta el dato siguiente. Si la estimación de la predicción no es
correcta, los pesos y umbrales de conexión tanto en la capa oculta
como en la capa exterior se ajustan para reducir el tamaño de la
función de error. Después que se han hecho los ajustes, se presenta
el dato siguiente. No es necesario continuar el adiestramiento
hasta que el error alcance realmente su mínimo. El adiestramiento
puede detenerse una vez que se ha alcanzado un valor umbral para la
función de error (denominado tolerancia), o se ha alcanzado un
límite superior fijo en el número de iteraciones de adiestramiento
(denominadas épocas). En los casos en que se utiliza la tolerancia
de error para determinar el punto final de adiestramiento, se
prefiere que la tolerancia de error j tenga un valor
comprendido entre 0,1 y 0,0001. En otra realización, el
adiestramiento se para una vez que han ocurrido aproximadamente
10.000 épocas.
En una realización de la presente invención, el
paso de adiestramiento se realiza de una manera iterativa. Dicho de
otro modo, se selecciona una primera serie de datos de
adiestramiento de una base de datos
fenotipo-genotipo para adiestramiento. Esta serie
de datos se utiliza luego para adiestrar la red neural. Después que
la red ha sido adiestrada, se determina la tasa de predicción o
tasa de concordancia de la red a partir de una serie de datos de
test. Las muestras que dan una predicción incorrecta se retiran de
la serie de datos de test y se introducen en una segunda serie de
datos de adiestramiento. La segunda serie de datos de adiestramiento
comprende la primera serie de datos de adiestramiento más
cualesquiera muestras que dieran una predicción incorrecta a partir
de la serie de datos de test. La segunda serie de datos de
adiestramiento se utiliza luego para re-adiestrar
la red neural. En caso necesario, este proceso puede repetirse hasta
que se alcanza el nivel de eficiencia deseado. Por
re-adiestramiento de la red neural de esta manera,
es posible aumentar la eficiencia de la red neural.
Ocasionalmente, después que la red ha sido
adiestrada y se ha iniciado el test, se determina que el número de
unidades de entrada es excesivo. Cuando el número de unidades de
entrada es excesivo, el adiestramiento de la red puede ralentizarse
y puede producirse una generalización pobre. La determinación de
cuál es un número excesivo de entradas puede ser una determinación
subjetiva y depende de la red específica. No obstante, si se
determina que el número de unidades de entrada es excesivo, es
preferible reducir el número de unidades de entrada. Por esta
razón, en una realización, se utilizan recortes de entrada para
reducir la dimensionalidad de los datos de entrada.
En una realización de la presente invención, se
emplea un detector de características que extrae características
notables de los datos de entrada antes de presentarlas a la red
neural. Por ejemplo, puede emplearse un algoritmo de repartición de
datos para clasificar datos no sobrantes, a partir de los cuales
puede seleccionarse aleatoriamente una serie de test. Un algoritmo
de repartición de datos de este tipo se define como sigue:
Este algoritmo calcula la distancia (d)
entre dos patrones de mutación cualesquiera (x y z), y
hace posible clasificar datos sobrantes y datos de ruido y evitar
seleccionarlos como miembros de test. La variable - n - es
igual al número de unidades de entrada. Si la red neural continúa
fallando para clasificar correctamente grandes porciones de las
muestras en la serie de datos de adiestramiento, incluso después de
ajustes repetidos en los parámetros del algoritmo de adiestramiento,
debería aumentarse la complejidad de la red neural. Por el
contrario, si la red neural alcanza un alto grado de clasificación
correcta de la serie de adiestramiento, pero falla en clasificar
exactamente un gran número de muestras en la serie de datos de
test, la estructura de la red es probablemente demasiado compleja
para el problema que se trata de resolver. Si sucede esto, el
número de nodos en la o las capas ocultas debería reducirse
gradualmente o, si existen capas ocultas múltiples, debería
reducirse el número de capas ocultas.
Una vez que la red neural ha sido adiestrada, la
red está lista y es capaz de predecir la resistencia de una
enfermedad a un agente terapéutico basada en la secuencia genética
determinada de la enfermedad. Para hacer esta predicción, se aísla
una muestra del paciente que contiene una muestra de la enfermedad y
se determina la información genética de la enfermedad. Esta
información genética determinada se pre-procesa
luego y se carga en la red neural adiestrada. La red neural
adiestrada computa luego la resistencia predicha de la enfermedad a
un agente terapéutico. Las redes neurales pueden utilizarse para
identificar una o más mutaciones y/o patrones de mutación
adicionales, con inclusión de inserciones y deleciones, que
confieren resistencia a un agente terapéutico. De acuerdo con esta
realización, se identifica una primera serie de mutaciones
genéticas. La primera serie de mutaciones genéticas se compone de
mutaciones genéticas que se sabe confieren resistencia a agentes
terapéuticos. Tales mutaciones son conocidas a menudo por las
personas expertas en la técnica y pueden obtenerse tanto de
Internet como de revistas revisadas escudriñadas cuidadosamente. Por
ejemplo, la base de datos de Stanford
<http://hivb.stanford.edu/hiv/>> proporciona una
base de datos de mutaciones que se sabe confieren a
HIV-1 resistencia a los agentes terapéuticos. Sin
embargo, en la medida en que no esté disponible una base de datos
adecuada, puede ser generada una fácilmente por una persona con
experiencia en la técnica.
Ulteriormente, se identifica una segunda serie
de mutaciones genéticas que se compone de mutaciones genéticas
presentes con frecuencia relativamente alta en una enfermedad que es
resistente a un agente terapéutico. La segunda serie de mutaciones
genéticas contiene todas las mutaciones genéticas de la primera
serie más al menos una o más mutaciones adicionales. Estas
mutaciones adicionales pueden ser cualquier mutación y/o
polimorfismo que estén relacionados con una enfermedad. A menudo,
se sabe que estas mutaciones están asociadas con resistencia a
agentes terapéuticos, pero no se sabe si las mutaciones confieren
realmente resistencia. En una realización, las mutaciones
adicionales se seleccionan de entre aquéllas que están presentes con
frecuencia relativamente alta en una enfermedad que es resistente a
un agente terapéutico. El nivel umbral de frecuencia con que se
encuentran las mutaciones en la enfermedad es establecido por el
usuario para inclusión en la segunda serie. Generalmente, el nivel
umbral de frecuencia puede estar comprendido entre 1% y 85%. Sin
embargo, en una realización preferida, el nivel umbral se establece
entre 5 y 50%, tal como 5 a 25%. En otra realización, la segunda
serie de mutaciones genéticas está constituida por la primera serie
de mutaciones genéticas y las 5 a 100 mutaciones más frecuentes
siguientes asociadas con resistencia. Sin embargo, cualquier número
de mutaciones adicionales puede incluirse en la segunda serie con
tal que la mutación se produzca con una tasa estadísticamente
significativa.
Se crean una primera red neural y una segunda
red neural, en las cuales el número de entradas para cada red
neural es igual al número de mutaciones genéticas estudiadas. Así,
el número de entradas para la primera red neural es igual al número
de mutaciones en la primera serie de mutaciones genéticas. Las
salidas para cada red neural son iguales a la multiplicidad de
resistencias que se evalúan. Por ejemplo, la primera y la segunda
redes neurales se adiestran utilizando la misma serie de datos de
adiestramiento.
Después que las dos redes están bien
adiestradas, las redes neurales pueden realizar una predicción en
cuanto al impacto fenotípico de una mutación sobre la resistencia
de la enfermedad a un agente terapéutico. En una realización, se
pasa una serie de datos de test a lo largo de la primera y segunda
redes neurales adiestradas. Para cada una de las redes neurales, la
salida, el fenotipo "virtual", para cada miembro de la serie de
datos de test, se compara con el fenotipo "real" para
determinar la diferencia entre los fenotipos "real" y
"virtual". Dado que cada miembro de la serie de datos de test
procede de una base de datos, el fenotipo "real" (la
multiplicidad de resistencias al agente terapéutico que se estudia)
es conocido. Por comparación de la diferencia entre la predicción
fenotípica de las redes neurales adiestradas primera y segunda, se
identifican nuevas mutaciones genéticas que se predice conferirán
resistencia de los agentes terapéuticos a la enfermedad. Las
muestras en que ha mejorado la predicción (menor diferencia entre
el fenotipo "virtual" y el "real"), se observan y se
designan muestras mejoradas. Todas las mutaciones adicionales
contenidas en estas muestras mejoradas se someten a cribado. La
frecuencia de una mutación que se encuentra en la muestra mejorada
se compara con la de la mutación que se encuentra en el total de
muestras evaluadas en la red neural. Se considera que una mutación
contenida en las muestras mejoradas confiere resistencia al agente
terapéutico dado cuando se observa una diferencia mucho mayor entre
las dos frecuencias. El umbral de diferencia de frecuencia es
especificado por el usuario. Generalmente, el umbral de diferencia
puede estar comprendido entre 1 y 50%, siendo preferiblemente al
menos 5%. En una realización preferida, el umbral de diferencia es
al menos 9%. En otra realización preferida, el nivel umbral de
diferencia es al menos 12%. El usuario puede realizar luego
experimentación adicional, tal como mutagénesis orientada, para
confirmar que la mutación confiere de hecho resistencia fenotípica
al fármaco.
Las redes neurales adiestradas pueden
identificar también que una mutación asociada previamente con
resistencia a un agente terapéutico confiere adicionalmente
resistencia a otro agente terapéutico.
Las salidas del sistema son variables continuas
que proporcionan originalmente multiplicidad de cambio en CI50, por
lo que, de acuerdo con los puntos de corte utilizados, las muestras
pueden clasificarse ulteriormente en sensibles, intermedias o
resistentes a fármacos específicos.
Cuando se predice la aparición de una enfermedad
genética en un paciente, la red neural se adiestra de acuerdo con
estos métodos utilizando una serie de datos de adiestramiento
obtenidos de una base de datos fenotipo-genotipo de
mutaciones conocidas que están correlacionadas con el desarrollo de
una enfermedad genética. Una vez que la red ha sido adiestrada, se
determina la información genética de la muestra del paciente. Las
mutaciones genéticas se identifican a partir de esta muestra y
estas mutaciones genéticas se introducen en la red neural
adiestrada. La red neural adiestrada es capaz luego de realizar una
predicción en cuanto a la probabilidad de que estas mutaciones
genéticas conduzcan al desarrollo de una enfermedad genética en el
paciente.
Los ejemplos que siguen se proporcionan a modo
de ilustración y no deben interpretarse como limitantes de la
presente invención.
Se extrajo RNA de HIV-1 a partir
de 200 \mul de plasma de un paciente utilizando el kit de
extracción de RNA viral QIAamp^{TM} (Qiagen, Santa Clarita, CA),
de acuerdo con las instrucciones del fabricante. Se produjo cDNA
que abarcaba parte del gen pol utilizando Expand RT^{TM}.
Se amplificó luego un fragmento de 2,2 kb que codificaba las
regiones de proteasa y transcriptasa inversa (RT) por TCR anidada.
Este material genético se utilizó subsiguientemente en experimentos
de determinación tanto del fenotipo como del genotipo. Véase, v.g.,
Larder et al., Antimicrob. Agents Chemother. 43 (8):
1961-1967 (1999). Los productos PCR obtenidos de
las muestras de plasma del paciente se utilizaron para determinación
del genotipo por análisis de la secuencia basado en
didesoxinucleótidos, utilizando terminadores Big Dye^{TM} (Applied
Biosystems) y se resolvieron en un secuenciador de DNA ABI377.
Véase, v.g., Larder et al., Antimicrob. Agents Chemother.
43 (8): 1961-1967 (1999).
La susceptibilidad fenotípica se determinó
utilizando un ensayo de protección del efecto citopático viral con
células MT-4. Véase, v.g., Kashiwase et al.,
Chemotherapy 45 (1): 48-55 (1999); Larder et
al., Antimicrob. Agents Chemother. 43 (8):
1961-1967 (1999). Los valores de multiplicidad de
resistencia se deducen dividiendo la concentración inhibidora media
del 50% (CI_{50}) para un virus recombinante del paciente por el
valor medio CI_{50} para el virus de control de tipo salvaje. El
procedimiento se describe también en WO 97/27480.
Los datos genotípicos y fenotípicos de un total
de 172 muestras se recogieron de una base de datos
fenotipo-genotipo. Cada miembro de la serie de
datos corresponde a una mutación genética que está correlacionada
con un cambio fenotípico en resistencia a los agentes terapéuticos.
Entre estas muestras, se seleccionan aleatoriamente 20 como los
miembros de la serie de datos de test, seleccionándose las 152
muestras restantes como los miembros de la serie de datos de
adiestramiento. Se identificaron un total de 90 posiciones de
mutación, 30 en la región codificante de la proteasa, y 60 en la
transcriptasa inversa, como se muestra en la Tabla 1 y la Tabla
2.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Para una muestra dada, su patrón de mutación x
se expresa por x = (x_{1}, x_{2}, ...,
x_{90}), donde x_{i} (i = 1, 2, ..., 90)
tiene un valor de 0 ó 1, representando 1 la mutación existente en la
posición i, y representando 0 la ausencia de mutación de la
posición i.
Las variables de salida y se representan por y =
(y_{1}, y_{2}, ..., y_{15}), designando
y_{k} (k = 1, 2, ..., 15) la multiplicidad de
resistencias al fármaco k. Las mismas tienen valores que
pueden diferir en varias órdenes de magnitud. Por el
pre-procesamiento, se dispusieron aquéllas de modo
que todas las salidas fueran de orden unidad. Para cada variable, se
calcularon su máximo y^{I}_{max} y mínimo
(y^{i}_{min}) con respecto a ambas series de datos de
adiestramiento y de test. Una serie de variables
re-escaladas viene dada por:
De acuerdo con esta fórmula, y_{i}
denota la multiplicidad de resistencia al fármaco i,
y^{i}_{min} denota el mínimo de y_{i} en las
muestras totales, y^{i}_{max} denota el máximo de
y_{i} en las muestras totales, n denota el índice
de una muestra específica, y^{n}_{i} denota la
multiplicidad de resistencia de la muestra específica antes del
pre-procesamiento, y^{-n}_{i} denota la
multiplicidad de resistencia de la muestra específica después del
pre-procesamiento, [b, a] es un intervalo para el
cual se normalizan los valores de multiplicidad de resistencia,
tomado usualmente como [0, 1].
En este ejemplo, se empleó una arquitectura de
red neural de alimentación directa de tres capas, con
interconexiones plenas desde las unidades de entrada a las unidades
ocultas e interconexiones plenas desde las unidades ocultas a las
unidades de salida. Los nodos de entrada se utilizaron para
representar las mutaciones genotípicas, y los nodos de salida para
los grados de resistencia a los agentes terapéuticos, denotando sus
valores la multiplicidad de resistencia a cada agente terapéutico.
Los nodos ocultos se utilizaron para determinar un orden de modelo
adecuado y alcanzar una eficiencia satisfactoria. Se utilizó también
un algoritmo de momento de retro-propagación
(algoritmo BP). El algoritmo BP implica un procedimiento iterativo
para minimizar una función de error, computando la
retro-propagación recurrentemente el gradiente o
cambio en error con respecto a cada peso en la red, y utilizándose
dichos valores para modificar los pesos entre las unidades de
red.
Se adiestraron y testaron estimadores de redes
neurales de tres capas, que comprendían 90 unidades de entrada, 15
unidades de salida, y una sola capa oculta, variando el número de
unidades desde 8 a 26,. La tasa de aprendizaje \eta se ajustó a
0,1-0,9, el momento \alpha se ajustó a 0,9, y la
tolerancia de error j, 0,1-0,0001. El
adiestramiento se dio por terminado cuando se alcanzó la tolerancia
de error o cuando ocurrieron 10.000 épocas, lo que sucediera más
pronto.
Los resultados de adiestramiento y test
demuestran que los estimadores de redes neurales con unidades
ocultas inadecuadas daban predicciones pobres para los datos
nuevos, y aquéllos que tenían muchas unidades ocultas exhibían
también una generalización pobre como se muestra en la Figura 4 (a).
Los resultados demuestran también que la eficiencia no mejoraba
cuando disminuía la tolerancia de error, como se muestra en la
Figura 4 (b). En la Figura 4 (b), el índice de tolerancia de error
era 0,1 para Índice 1, 0,05 para Índice 2, 0,01 para Índice 3,
0,005 para Índice 4, 0,001 para Índice 5, 0,0005 para Índice 6, y
0,0001 para Índice 7. Esto significa que se alcanzaba una
generalización satisfactoria por detención del adiestramiento en una
etapa anterior. En estos estimadores de redes neurales de tres
capas, los parámetros de red relevantes eran h (el número de
unidades ocultas), \eta, \alpha, y j. Una búsqueda en el
espacio paramétrico demostró que los valores óptimos de h,
\eta, \alpha, y j son 12, 0,45, 0,9 y 0,01,
respectivamente. Con estos parámetros de red neural, se evaluó la
eficiencia de la red neural basándose en 20 muestras de test (cada
una con 15 fármacos), que se seleccionaron aleatoriamente de la
misma base de datos que las muestras de adiestramiento. Los
resultados de las muestras de test se resumen en la Tabla 3.
\vskip1.000000\baselineskip
En la Tabla 3, R significa resistente, S,
sensible, e I, intermedio. Una multiplicidad de resistencia inferior
o igual a 4 se considera "sensible", mayor que 4 y menor que 10
se considera "intermedio", y si el valor es mayor que 10, se
considera "resistente". El símbolo "R/I" en la Tabla 4
significa que una muestra es resistente a un fármaco por los datos
fenotípicos y se predijo que sería intermedia por el modelo de la
red neural.
AZT
(3'-azido-3'-desoxitimidina),
ddI (2',3'-didesoxi-inosina), PMEA
(conocido también como Adefovir, y
9-(2-fosfonilmetoxietil)adenina),
VX-478 (conocido también como Amprenavir, Agenerase,
y 141-W94) son inhibidores potentes aprobados de
varios virus.
Se condujeron también experimentos de simulación
por combinación de diferentes patrones de mutación. Se añadieron a
las series de datos de test un total de 12 patrones de mutación,
como se muestra en la Tabla 4. Las magnitudes de resistencia que se
simularon se muestran en la Tabla 4, y se representan gráficamente
en la Figura 5. Puede verse a partir de los resultados de la
simulación que el desarrollo de una mutación 184V puede
re-sensibilizar un virus resistente a AZT si las
mutaciones 41L y 215Y están ya presentes en la RT de
HIV-1. Esto confirma la observación biológica de
que los virus recombinantes que contienen la mutación 184V en el
entorno de la resistencia a AZT, tales como 41L, 67N, 70R, 215Y, y
219Q, causan un efecto supresor que da como resultado la reversión
a sensibilidad a AZT. Los resultados demuestran también que la
mutación 184V tiene un efecto potente en cuanto a conferir
resistencia a 3TC con indiferencia de qué otras mutaciones estén
implicadas.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
En este ejemplo, se recogieron los datos
genotípicos y fenotípicos de 1162 muestras HIV-1 PI
de una base de datos genotipo-fenotipo. Un genotipo
PI se refiere a un genotipo con una mutación o polimorfismo en la
región codificante de la proteasa que se considera confiere
resistencia a un inhibidor de proteasas. Se identificaron un total
de 30 mutaciones en la región codificante de proteasa, como se
muestra en la Tabla 1. Para una muestra dada, su patrón de mutación
x se expresaba por x = (x_{1}, x_{2}, ...,
x_{30}), donde x_{i} (i = 1, 2, ..., 30)
tiene un valor de 0 ó 1, representando 1 que la mutación ocurre en
la posición i, y representando 0 que no existe mutación
alguna en la posición i.
La distancia d entre el patrón de
mutación x y el patrón de mutación z se definió como sigue:
Por cálculo de la distancia entre dos patrones
de mutación cualesquiera, se estimó la distribución de las muestras
en un espacio. Esto hizo posible clasificar los datos sobrantes y
los datos de ruido, y evitar seleccionar los mismos como miembros de
test.
Se adiestraron y testaron tres estimadores de
redes neurales de tres capas, que comprendían 30 unidades de
entrada, 5 unidades de salida (correspondientes a 5 fármacos PI) y
una sola capa oculta variando el número de unidades. La eficiencia
de las redes neurales, que se adiestraron con o sin datos de ruido
implicados en la serie de adiestramiento, se muestra en la Figura 6
y la Figura 7. Las tasas de concordancia eran desde 76% para
Amprenavir (APV) a 93% para Ritonavir (RTV) con un valor medio de
82% para la red adiestrada con datos de ruido. Las tasas de
concordancia sin datos de ruido eran desde 79% con Amprenavir a 91%
para Nelfinavir (NFV) con un valor medio de 86%. Así pues, se
alcanzaba mejor eficiencia cuando se excluían los datos de ruido
tanto de la serie de adiestramiento como de la serie de test.
\vskip1.000000\baselineskip
Para la última red neural, los resultados de los
tests se muestran en las Tablas 5 y 6. Con la misma red, se
condujeron experimentos de simulación por combinación de diferentes
patrones de mutación. Las magnitudes de resistencia que se
simularon se muestran en la Tabla 7. Los resultados de la simulación
demuestran que Nelfinavir exhibe resistencia incluso con una sola
mutación 30N o dobles mutaciones implicadas. Esto lo diferencia de
otros inhibidores PI. La resistencia a Indinavir (IDV), Ritonavir y
Saquinavir (SQV) implican mutaciones múltiples, usualmente mayores
que 3 mutaciones, en tanto que la resistencia a Amprenavir requiere
al menos 4 mutaciones.
En este ejemplo, se construyó un modelo de red
neural de tres capas con 30 nodos de entrada, correspondientes a 30
mutaciones en la región codificante de la proteasa y 5 nodos de
salida, que representaban los valores de multiplicidad de
resistencia para 5 inhibidores de proteasa. Se seleccionaron un
total de 1068 muestras de una base de datos
fenotipo-genotipo de HIV-1. Entre
estas muestras, se seleccionaron 210 como la serie de datos de
test, y las muestras restantes como la serie de datos de
adiestramiento. La eficiencia de los modelos de redes neurales se
evaluó por cálculo de la tasa de predicción (tasa de concordancia)
en la serie de datos de test. Para estas series de datos se alcanzó
una tasa media de predicción de 76% para 5 inhibidores de proteasa.
Con objeto de mejorar esta tasa de predicción, se retiraron de la
serie de datos de test las muestras que daban una predicción
incorrecta a la serie de datos de adiestramiento y se
re-adiestraron los modelos de red neural (con una
serie de datos de adiestramiento de 1015 muestras y una serie de
datos de test de 53 muestras). Con la red neural
re-adiestrada, se obtuvieron una tasa media de
predicción de 87% en la serie de datos de test nueva y una tasa
media de concordancia de 88% en la serie de datos completa.
A continuación, se añadieron un número adicional
de 60 polimorfismos de genes de proteasa a la capa de entrada del
modelo de red neural utilizando las mismas series de datos de
adiestramiento y de test. Después del adiestramiento, la red neural
dio una tasa media de predicción de 91% utilizando la misma serie de
datos de test y una tasa media de concordancia de 92% y una serie
de datos completa. El análisis por regresión lineal de la
multiplicidad de resistencia predicha frente a la real dio un valor
r^{2} de 0,85 para la serie de datos de test. El análisis de esta
serie de datos indica que la mejora en la predicción era debida a
los polimorfismos adicionales añadidos al modelo, tales como 13V,
55R, 57K y 93L.
En este ejemplo, se seleccionaron un total de
1182 muestras, con una resistencia a d4T de multiplicidad mayor que
4 de una base de datos fenotipo-genotipo para
análisis. Se seleccionaron aleatoriamente 105 muestras como serie
de datos de test, utilizándose el resto como serie de datos de
adiestramiento. Por búsqueda de las mutaciones RT más frecuentes en
la base de datos que están asociadas con resistencia a Stavudina, se
identificaron 57 mutaciones RT y se utilizaron como las variables
de entrada para los modelos de red neural. Después de
adiestramiento, se alcanzó una tasa de predicción de 72% en la
serie de test. Con objeto de mejorar esta tasa de predicción, se
retiraron de la serie de datos de test las muestras que daban una
predicción incorrecta a la serie de datos de adiestramiento, y se
readiestraron los modelos de red neural con una serie de datos de
adiestramiento de 1041 muestras y una serie de datos de test de 41
muestras. Como resultado, se alcanzó una tasa media de predicción
de 85% en esta nueva serie de test. Entre estas predicciones, 84%
daban la predicción correcta de intermedio/intermedio
(multiplicidad > 4 y < 10 en sensibilidad a Stavudina) y 89%
daban la predicción correcta de resistente/resistente
(multiplicidad de resistencia > 10 ). El 16% de las muestras
daban la predicción incorrecta intermedia/resistente y 11% daban
una predicción resistente/intermedia. El análisis por regresión
lineal de la multiplicidad de resistencia predicha frente a la real
daba un valor r^{2} de 0,67 para la serie de datos de test. Estos
resultados demuestran que la eficiencia del modelo de red neural
puede mejorarse a medida que aumenta el tamaño de la serie de datos
de adiestramiento.
La red neural preparada de acuerdo con este
ejemplo era capaz también de identificar patrones de mutación que
contienen resistencia a Stavudina. Mutaciones previamente conocidas
que confieren resistencia a Stavudina, tales como 151M y la familia
"inserción 69" se acentuaban por este análisis. Patrones de
mutación adicionales que incluían mutaciones de resistencia a AZT
eran identificados también por la red neural como casos que
conferían resistencia a Stavudina. Por estos resultados, parece ser
que caminos distintos de multi-resistencia a
nucleósidos pueden conferir resistencia a Stavudina.
En este ejemplo, la interpretación de los
patrones de mutación de resistencia a los fármacos de
HIV-1 se ha mejorado por predicción del fenotipo
utilizando una gran base de datos fenotipo-genotipo.
Para predecir el fenotipo a partir de un genotipo, se investiga la
base de datos y se recuperan los fenotipos de las muestras que
coinciden en el genotipo. El "fenotipo virtual" se obtiene por
cálculo del aumento medio en la multiplicidad de resistencia para
cada fármaco en el grupo coincidente. Para determinar nuevos
patrones de mutación, se adoptaron técnicas de redes neurales para
determinar la relación entre genotipos y fenotipos para los 5
inhibidores de la proteasa de HIV-1. Se
construyeron modelos de redes neurales de tres capas con 30 nodos de
entrada, correspondientes a 30 mutaciones en la región codificante
de la proteasa y 5 nodos de salida, que representaban los valores
de multiplicidad de resistencia para 5 inhibidores de proteasa. Se
seleccionó un total de 1068 muestras a partir de una base de datos
fenotipo-genotipo para HIV-1. Entre
estas muestras, se seleccionaron 210 como la serie de datos de
test, y las muestras restantes como la serie de datos de
adiestramiento. Se evaluó la eficiencia de los modelos de red
neural por cálculo de la tasa de predicción en la serie de datos de
test. A partir de estas series de datos se alcanzó una tasa media de
predicción de 76% para 5 inhibidores de proteasa. Con objeto de
mejorar esta tasa de predicción, se retiraron las muestras que daban
una predicción incorrecta de la serie de datos de test a la serie
de datos de adiestramiento, y se re-adiestraron los
modelos de redes neurales (con una serie de datos de adiestramiento
de 1015 muestras de una serie de datos de test de 53 muestras). En
estas condiciones, se obtuvieron una tasa media de predicción de 87%
en la serie nueva de datos de test y una tasa media de concordancia
de 88% en la serie de datos completa. A continuación, se añadieron
60 polimorfismos adicionales de genes de proteasa a la capa de
entrada del modelo de red neural utilizando las mismas series de
datos de adiestramiento y de test. Después del adiestramiento, la
red neural daba una tasa media de predicción de 92% utilizando la
misma serie nueva de datos de test y una tasa media de concordancia
de 93% en la serie de datos completa. El análisis por regresión
lineal de la multiplicidad de resistencia predicha frente a la real
daba un valor r^{2} de 0,85 para la serie de datos de test. El
análisis de esta serie de datos indicaba que la mejora
(significativa con p = 0,036) se debía a los polimorfismos
adicionales añadidos al modelo, tales como 13V, 55R, 57K y 93L.
En este ejemplo, se ha desarrollado un marco
genérico de modelización de la relación entre genotipo y fenotipo
para la resistencia a los fármacos de HIV-1. Se
adiestraron y testaron modelos de redes neurales con 30 mutaciones
identificadas y 90 mutaciones/polimorfismos. Se observó la mejora de
la tasa de predicción y se clasificaron los polimorfismos
adicionales correspondientes que conducían a la mejora. Se hicieron
comparaciones de predicción en ambas series de datos de test y en
la serie de datos completa estudiada. El análisis de esta serie de
datos indicaba que la mejora en la predicción era debida a los
polimorfismos adicionales añadidos al modelo, tales como 13V, 55R,
57K y 93L.
Se ensayó un marco genérico para modelizar la
reacción entre genotipos y fenotipos de resistencia a los fármacos
de HIV-1 como se muestra en la Figura 1. El mismo
está constituido por las fases siguientes: determinación de la
arquitectura de la NN, recogida de los datos, selección de
mutaciones/polimorfismos y fármacos, distribución de los datos,
adiestramiento y test de la NN, y análisis estadístico.
El primer paso consiste en diseñar una
arquitectura específica de la red neural, incluyendo un número
específico de "capas", cada una de las cuales está constituida
por cierto número de "neuronas". El tamaño y la estructura de
una red neural precisa adaptarse a la naturaleza de la resistencia a
los fármacos de HIV-1. Sin embargo, la naturaleza
no se conoce muy bien obviamente en esta etapa inicial. Con objeto
de determinar una arquitectura adecuada de la red, se adiestraron
diversas redes, con número fijo de capas ocultas y un número
diferente de unidades ocultas, utilizando una serie de datos de
adiestramiento. La eficiencia de las redes neurales se evaluó luego
y se comparó utilizando una serie de test. La arquitectura de la red
neural se determinó finalmente por selección de la red que tenía la
eficiencia óptima con respecto a la serie de test.
Las redes neurales aprenden de los datos
existentes. Con objeto de investigar la relación entre genotipos y
fenotipos de resistencia de HIV-a a los fármacos
utilizando una NN, los datos precisan ser recogidos para propósitos
de adiestramiento y test. Tanto genotipos como fenotipos de muestras
se exportaron de una base de datos en archivos Excel. Se diseñaron
programas para extraer estos datos genotípicos y datos fenotípicos
para cada muestra individual. Los datos fenotípicos consisten en
multiplicidad de resistencia a todos los fármacos testados. Los
datos genotípicos contienen todos los polimorfismos en las regiones
codificantes de gag, transcriptasa inversa, y proteasa.
La serie de adiestramiento y serie de test
incluyen numerosos casos, cada uno de los cuales contiene valores
para una gama de variables de entrada y salida. La elección de las
variables de salida es directa, dependiendo de cuántos y cuáles
fármacos se consideran en los modelos de red neural. La vía más
fácil para seleccionar las variables de entrada consiste en
considerar todos los polimorfismos, incluso todas las cadenas de
secuencia, como variables de entrada. Sin embargo, esto puede
conducir a un problema que se conoce como "el curso de la
dimensionalidad". A medida que aumenta el número de variables de
entrada, el número de casos requeridos aumenta de manera no lineal.
En este ejemplo, la determinación de las variables de entrada se
guió inicialmente por intuición. La experiencia en resistencia a
los fármacos de HIV-1 proporcionó cierta idea
acerca de qué variables son probablemente influyentes. Por ejemplo,
es razonable seleccionar las mutaciones identificadas y los
polimorfismos de mayor frecuencia como variables de entrada.
La selección de los datos y la determinación del
número de casos requeridos para adiestramiento de la red neural
presentaban dificultades. Las tecnologías de redes neurales están
basadas en la suposición fundamental de que los datos de
adiestramiento y test tienen que ser representativos del sistema
subyacente. Una red neural puede aprender únicamente de los casos
que se presentan. Si no se incluyeran casos de fenotipos sensibles
en la serie de adiestramiento, no sería de esperar que la red neural
tomara una decisión correcta cuando encontrara genotipos que están
asociados a fenotipos sensibles. Es decir, los tipos de casos que se
espera predecir tienen que estar cubiertos en la serie de
adiestramiento. Dado que una red neural minimiza un error global, la
proporción de tipos de datos en la serie es también crítica. Una
red adiestrada sobre una serie de datos descompensada, sesgará su
decisión hacia una proporción mayor de tipos. Si la representación
de la proporción de tipos es diferente en la población real, la red
no puede proporcionar una decisión satisfactoria. Hablando en
términos generales, el mejor enfoque para la selección de datos
consiste en asegurar una representación uniforme de casos
diferentes, e interpretar de acuerdo con ello las decisiones de la
red. En este ejemplo, se seleccionaron 1162 casos a partir de la
base de datos, teniendo cada caso una resistencia de multiplicidad
> 10 a al menos uno de los fármacos. El análisis de los datos
demostró que existían casos conflictivos en las muestras
exportadas. Estos casos hacían difícil mejorar la eficiencia de las
redes neurales, y se retiraron luego de las muestras. El análisis
de los datos demostró también que los datos no están distribuidos
uniformemente en las muestras. Comparado con la cuestión de mayor
dimensionalidad, el tamaño de la serie de adiestramiento parece
todavía pequeño. En este caso, ello no es adecuado si los casos
dispersos se seleccionan como serie de test. Para abordar esta
cuestión, se diseñó un algoritmo de repartición de datos para
clasificar los datos no-dispersos, a partir de los
cuales se seleccionó aleatoriamente una serie de test. Los casos
restantes se tomaron como serie de adiestramiento.
Con objeto de interpretar razonablemente los
resultados, se aplicaron análisis estadísticos a la evaluación de
la correlación entre los fenotipos predichos y los fenotipos reales,
y el testado de diversas significaciones estadísticas. El
coeficiente de correlación que está lejos de cero proporcionaba
cuatro posibles explicaciones acerca de la relación entre los
fenotipos predichos y los reales. La conclusión puede ser: que los
fenotipos predichos ayuden a determinar los valores de los
fenotipos reales; que otra variable puede influir también en los
fenotipos reales además de los fenotipos predichos; que los
fenotipos predichos y los fenotipos reales no estén correlacionados
en absoluto; o que se observara una correlación fuerte, como ocurre
en este caso. El valor p determina la frecuencia con que podría
suceder esto. El valor p de un resultado es la probabilidad de que
la relación observada en una muestra ocurriera por mera casualidad,
y que en la población de la que se extrajo la muestra, no exista
dicha relación. El valor r cuadrado proporciona información acerca
de cuánto porcentaje de varianza está compartido entre los
fenotipos predichos y los reales.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Los resultados de predicción en la serie de
datos de test se resumen en las Tablas 8 y 9, donde R representa
resistente, S sensible, e I intermedio. Una multiplicidad de
resistencia menor que o igual a 4 se considera "sensible",
mayor que 4 y menor que 10 se considera "intermedia", y si el
valor es mayor que 10, se considera "resistente". Conviene
entender que puede definirse cualquier valor de punto de corte, por
ejemplo el punto de corte biológico, como se describe en Larder BA
& Harrigan PR. AIDS, 2000, 14 (suplemento 4): S111, Abstract
P327.
El símbolo "R/I" en las Tablas 8 y 9
significa que la muestra es resistente a un fármaco a partir de
datos fenotípicos y el modelo predice que será intermedia.
Se obtuvo una tasa media de predicción de 87%
para 5 inhibidores de proteasas en la nueva serie de datos de test.
Cuando se añadieron 60 polimorfismos adicionales de genes de
proteasa, como se muestra en la Tabla 10, a la capa de entrada del
modelo de red neural, el modelo de red neural
re-adiestrado daba una tasa media de predicción de
92% en la misma serie de datos de test. Los resultados de predicción
utilizando 90 mutaciones/polimorfismos se resumen en las Tablas 11
y 12.
Por comparación de las Tablas 8, 9 y las Tablas
11, 12, se encontró que la mejora de la predicción del fenotipo en
la serie de datos de test tenía lugar en 23 de 53 muestras, como se
enumeran en la Tabla 13, donde la primera letra denota el fenotipo
real, la segunda el fenotipo predicho utilizando 30 mutaciones, y la
tercera, el fenotipo predicho utilizando 90
mutaciones/polimorfismos. Las diferencias genotípicas
correspondientes se resumen en la Tabla 14.
Los análisis de regresión de los Predicción de
fenotipos y los fenotipos reales se muestran en las Figuras 8 y 9.
Con objeto de testar si la mejora es significativa o no, las
distribuciones predichas en la serie de datos de test en ambos
casos se resumen en las Tablas 15 y 16, y los valores p se calculan
como sigue, S/S (0,187), I/I (0,382), y R/R (0,036). Puede verse
que la mejora de los Predicción de fenotipos de R a R es
significativa, aunque no existe evidencia alguna de mejora
significativa de S a S y de I a I. Se realizaron también análisis
similares en las muestras completas utilizadas en este trabajo. Los
resultados indicaban que los polimorfismos adicionales añadidos al
modelo, tales como 13V, 55R, 57K y 93L, conducen a la mejora en la
predicción.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
TABLA 14
(continuación)
\vskip1.000000\baselineskip
La mejora en la predicción por la adición de
nuevos polimorfismos indicaba que el modelo NN tiene capacidad para
identificar nuevas mutaciones. El análisis estadístico demostró que
los Predicción de fenotipos están correlacionados con los fenotipos
reales y los resultados de este ejemplo demostraban también la
exactitud de las NNs en la predicción de la magnitud de resistencia
a los inhibidores de la proteasa basadas en mutaciones fenotípicas.
Se espera que la eficiencia del modelo de redes neurales mejore,
dado que el tamaño de las muestras de adiestramiento utilizadas era
más bien pequeño y dado que una NN se hace más "experta" a
medida que aumenta el número de muestras de adiestramiento.
Este ejemplo describe un método sistemático que
se utilizó para investigar la relación entre patrones de mutación y
resistencia fenotípica correspondiente utilizando redes neurales. En
primer lugar, se seleccionó un agente terapéutico para estudio, en
este caso d4T. Se desarrollaron tres modelos de red neural (los
modelos 9RT, 26RT y 60RT) para investigar de qué modo influyen los
patrones de mutación en la resistencia a d4T. El modelo 9RT estaba
basado en las nueve mutaciones listadas en la base de datos de
secuencias de Stanford (http://www.hivb.stanford.edu)
asociada con la resistencia a d4T (62V, 69D, 69N, 69SXX, 75I, 75T,
77L, 116Y y 151M). Los otros modelos estaban basados en la adición
de las siguientes 17 ó 51 mutaciones RT más frecuentes presentes en
muestras resistentes a d4T. Así, el modelo de mutación 26RT incluía
el modelo de mutación 9RT más las 17 mutaciones más frecuentes en
las muestras resistentes a d4T. Estas 17 mutaciones eran 4 IL, 44D,
67N, 70R, 75A, 75M, 115F, 118I, 184V, 208Y, 210W, 214F, 215F, 215Y,
219E, 219N, y 219Q. El modelo de mutación 60RT estaba constituido
por el modelo de mutación 26RT más las 34 mutaciones más frecuentes
siguientes en las muestras resistentes a d4T. Estas 34 mutaciones
eran 20R, 35I, 39A, 43E, 60I, 65R, 122K, 123E, 135T, 162C, 177E,
196E, 200A, 207E, 211K, 228H, 272A, 277K, 286A, 293V, 297K, 329L,
356K, 357T, 358K, 359S, 360T, 371V, 375V, 376A, 386I, 390R, 399D, y
400A.
En este ejemplo, se empleó una red neural de
tres capas. Los nodos de entrada se utilizaron para representar las
mutaciones genotípicas. Así, el modelo 9RT tenía 9 nodos de entrada,
el modelo 26RT tenía 26 nodos de entrada y el modelo 60RT tenía 60
nodos de entrada. Los nodos de salida se utilizaron para representar
el grado de resistencia a d4T. Los nodos ocultos se utilizaron para
determinar un orden de modelo adecuado y conseguir eficiencia
satisfactoria. La arquitectura óptima para cada modelo estaba
determinada por el número de nodos ocultos con los cuales se
alcanzó la eficiencia óptima en la serie de datos de test
independiente. Se empleó también un algoritmo de momento
retro-propagación. La tasa de aprendizaje se ajusta
a 0,01, 0,01, y 0,03 para el modelo 9, el modelo 26, y el modelo
60, respectivamente. Las épocas se ajustan a 10.000, la tolerancia
de error se ajusta a 0,0001, y el término de momento se ajusta a 0,1
para los tres modelos.
Para adiestrar y testar estos modelos de red
neural, se utilizó un total de 2286 muestras, 188 de las cuales se
seleccionaron aleatoriamente como serie de datos de test. De las
2286 muestras, 1040 de ellas tenían multiplicidad para d4T CI50
< 3 (valor medio = 1,2), y 1246 de ellas tenían multiplicidad
para d4T CI50 > 3 (valor medio = 9,0). De las 188 muestras de
test (seleccionadas aleatoriamente de las 2286), 92 de ellas tenían
multiplicidad para d4T CI50 > 3 (valor medio = 1,1) y 96 de
ellas tenían multiplicidad para d4T CI50 > 3 (valor medio = 7,7).
Se obtuvo una solución óptima para cada uno de los modelos
utilizando las mismas series de datos de adiestramiento y de test.
Sin embargo, la complejidad de cada modelo era diferente debido al
diferente número de mutaciones utilizado, que se veía afectado por
la arquitectura del modelo de red neural. Después de adiestrar cada
una de las redes neurales, se ejecutó la serie de datos de test en
cada una de las redes. Los resultados demostraron que el modelo de
nuevas mutaciones tenía una tasa de predicción de resistencia baja
(46%) utilizando la serie de datos de test independientes y una
tasa de concordancia baja en la serie de adiestramiento (42%). En
cambio, los modelos de 26 y 60 mutaciones pudieron adiestrarse bien
y proporcionaron también una mayor tasa de predicción (80% y 72%,
respectivamente) para la resistencia (definida como un aumento de
multiplicidad > 3 con relación a un control sensible) utilizando
la serie de datos de test.
Con objeto de descubrir qué mutaciones habían
contribuido a esta predicción mejorada, se identificaron las
muestras mejoradas 1S9-26 e IS9-60
por comparación de las salidas fenotípicas del modelo 9 y el modelo
26, y el modelo 9 y el modelo 60 en la serie de test. Se recogieron
y se analizaron los genotipos correspondientes de las muestras
mejoradas, se cribaron todas las mutaciones adicionales contenidas
en las muestras mejoradas, y se calculó y comparó la frecuencia de
cada mutación encontrada en IS9-26 e
IS9-60 con la de la mutación que se encontraba en
las muestras completas. Todas las mutaciones con diferencia mayor
que dos frecuencias se identificaron y se consideró que jugaban un
papel en cuanto a conferir resistencia a d4T.
En este ejemplo, la frecuencia umbral se ajustó
a 9%. Se identificaron las mutaciones siguientes a partir de los
modelos 9 y 26: 41L (44%-79%), 44D (13%-26%), 67N (36%-56%), 70R
(21%-30%), 181I (21%-36%), 210W (34%-65%), y 215Y (44%-73%) (Figura
11). Las mutaciones siguientes se identificaron a partir de los
modelos 9 y 60: 41L (44%- 73%), 67N (36%-56%), 118I (21%-32%), 210W
(34%-62%), 211K (49%-59%), y 215Y (44%-74%) (Figura 12). En
conclusión, estos resultados muestran que al menos 17 mutaciones RT
(las 8 aquí identificadas más las 9 identificadas anteriormente a
partir de la base de datos Stanford) pueden conferir resistencia a
d4T, con inclusión de mutaciones resistentes a AZT. Los resultados
identificaron también otras 10 mutaciones que pueden conferir
adicionalmente resistencia: 184V(36%-42%),
214F(88%-94%), 75A(0,7%-0,6%), 75M(4%-8%),
115F(1%-0,2%), 208Y(13%-21%), 215F(9%-11%),
219E(5%-4%), 219N(4%-11%), y 219Q(12%-
16%).
Se ha comunicado que las mutaciones en 11
codones en la proteasa de HIV-1 (10, 20, 24, 46, 53,
54, 63, 71, 82, 84 y 90) pueden estar implicadas en resistencia a
LPV, y el fracaso clínico de las terapias que contienen Lopinavir.
Una serie óptima de mutaciones para la predicción cuantitativa de la
resistencia a LPV se ha establecido utilizando los métodos de la
presente invención y se ha comparado con las predicciones hechas por
la serie de 11 codones.
Se construyeron modelos de redes neurales (NN)
utilizando 1322 muestras cuyos genotipo y fenotipo habían sido
determinados. 80% de éstas eran sensibles a LPV (multiplicidad <
2,5) y 11% tenían resistencia de "nivel alto" (multiplicidad
> 10). Se seleccionaron aleatoriamente 117/1322 muestras como
serie de validación y se utilizaron las 1205 muestras restantes
para adiestramiento. Se construyeron dos modelos NN; uno basado en
los 11 codones previamente consignados (un total de 54
polimorfismos) y un segundo modelo basado en 28 mutaciones
seleccionadas por una combinación de análisis de prevalencia de
mutación y técnicas de poda de NN.
El modelo de 28 mutaciones daba una correlación
alta entre la multiplicidad de resistencia predicha y los valores
de sensibilidad reales (r^{2} = 0,88 en las series de validación y
adiestramiento). El modelo de 11 codones daba un coeficiente de
corrección similar para la serie de validación (r^{2} = 0,84). Sin
embargo, cuando los valores predichos se compararon directamente
con la multiplicidad de resistencia real, el modelo de 28
mutaciones era significativamente mejor para predecir la resistencia
a LPV comparado con el modelo de 11 codones (p < 0,001). La
proporción de casos sensibles, con bajo nivel de resistencia y alto
nivel de resistencia con relación al número de mutaciones por
muestra se simuló utilizando un modelo de 28 mutaciones (n = 11 x
1000). Este modelo demostró que las muestras con un número de
mutaciones tan pequeño como 3-4 PI podían tener
resistencia de alto nivel a LPV.
Estos resultados demuestran que la resistencia a
LPV puede describirse por una serie de 28 mutaciones en la proteasa
de HIV-1 (10I, 18V, 24I, 32I, 33F/M, 43T, 45T,
46I/L, 48V, 53L, 54A/S/V, 55R, 58E, 71V, 72Y, 73S/T, 74S, 82A, 84V,
85V, 90M, 95F/L) y que los modelos de red neural pueden utilizarse
para cuantificar exactamente la resistencia a LPV basada en el
genotipo.
Se desarrolló un marco genérico para
modelización de la relación entre genotipo y fenotipo de la
resistencia a los fármacos de HIV-1. Éste se
componía de varias fases: establecimiento de una arquitectura de red
neural; recogida de los datos; selección de mutaciones que se sabe
están correlacionadas con la resistencia a PI, repartición de los
datos; adiestramiento y ensayo del sistema; y análisis estadístico.
La arquitectura de redes neurales comprendía 3 "capas": una
capa de entrada (datos de resistencia genotípica); una capa oculta
(procesamiento de los datos); y una capa de salida (resistencia
fenotípica predicha). La red tenía I entradas, J unidades ocultas,
K unidades de salida, y dos unidades de sesgo, las dos cuales tenían
una señal de entrada de 1 (es decir, x_{0} y
z_{0}) y una sola unidad de sesgo en la capa de entrada que
tenía una señal de entrada de 1 (es decir, x_{0}). El
modelo estaba basado en 39 mutaciones asociadas con resistencia PI.
Estas mutaciones se seleccionaron debido a que eran los
polimorfismos genéticos más frecuentemente observados en las
muestras resistentes a PI de la base de datos de los inventores con
relación a muestras sensibles a PI (datos no presentados). Se
utilizaron un total de 1015 muestras (seleccionadas aleatoriamente
de la base de datos) para adiestrar el modelo de red neural y se
utilizaron 53 muestras independientes, seleccionadas
aleatoriamente, como la serie de datos de test; se obtuvo una
solución óptima para el modelo por evaluación de la eficiencia del
modelo de red neural con las series de datos de adiestramiento y
test. El número de entradas, I, para el modelo era igual a 39. Cada
capa oculta, J, contenía una pluralidad de nodos ocultos que se
ajustaron para conseguir una eficiencia predictiva alta de la red.
El número óptimo de nodos ocultos era 27 para este modelo. Este
número se determinó empíricamente. La red tenía dos capas de pesos
adaptativos (w_{ji} y w_{jk}) que son el peso de
la unidad oculta j-ésima asociada con la señal de entrada
x_{i}, y el peso de la unidad de salida k-ésima
asociado con la señal oculta z_{j}, respectivamente. Los
valores de estos pesos se optimizaron durante el paso de
adiestramiento. La unidad de salida, K, para el modelo era la
resistencia fenotípica predicha a los inhibidores de proteasas
siguientes: indinavir, ritonavir, nelfinavir, saquinavir y
amprenavir (definida como un aumento de multiplicidad > 4 en
CI_{50} con relación a un control sensible).
Se utilizaron en el procedimiento de búsqueda un
total de 108 cambios de aminoácidos individuales diferentes (en un
total de 56 posiciones singulares). Este número se descomponía en 39
cambios en la proteasa y 69 en la RT (32 para los inhibidores de RT
no nucleosídicos y 37 para los análogos nucleosídicos). Las
mutaciones siguientes, agrupadas por clase de fármaco, se
incluyeron en el motor de búsqueda. Inhibidores de proteasas:
10F/I/R/V, 20I/M/R/T, 24I, 30N, 32I, 33F/I/M/V, 36I, 46I/L, 47L,
48V, 50V, 54L/M/V, 71T/V, 73A/C/S, 77I, 82A/F/S/T, 84A/V, 88D/S,
90M. Análogos de nucleósidos: 41L, 44A/D, 62A, 65R, 67N, 69D/N,
inserción 69, 70R, 74V/I, 75A/I/M/T, 77L, 100I, 115F, 116Y, 118I,
151M, 181C, 184I/T/V, 208Y, 210W, 211K/Q, 215F/Y, 219E/N/Q, 333D/E.
NNRTIs: 98G/S, 100I, 101E/I/P/Q, 103N/Q/R/S/T, 106A/I/L, 108I,
179D/E, 181C/I/V, 188C/H/L, 189I, 190A/E/S, 225H, 233V, 236L,
238T.
\vskip1.000000\baselineskip
Los criterios de búsqueda de mutaciones
utilizados para reconocimiento de patrones son muy completos y se
actualizan constantemente para incluir nuevas mutaciones y
polimorfismos que influyen en la resistencia fenotípica a los
fármacos. Aunque la influencia de algunas mutaciones sobre el
fenotipo de resistencia es relativamente clara, en muchos casos
(por ejemplo la resistencia al inhibidor de proteasas (PI)) existe
una relación muy compleja entre las mutaciones genéticas y el
fenotipo resultante, o falta de información publicada acerca de
esta relación. Para abordar esto, los autores de esta invención han
adiestrado redes neurales a fin de facilitar la identificación de
nuevas mutaciones y combinaciones de mutaciones que afectan a la
sensibilidad a los fármacos. Se adiestró una red neural utilizando
un algoritmo de aprendizaje por retropropagación utilizando 39
mutaciones que aparecen frecuentemente en cepas resistentes a PI
como la capa de entrada. Se utilizaron como la serie de
adiestramiento 1015 muestras clínicas con una gama extensa de
resistencia fenotípica a PI y se utilizaron 53 muestras
independientes como la serie de test. La red neural tenía una tasa
correcta para predecir la resistencia a 5 PIs aprobados
clínicamente de 87%. Adicionalmente, había una correlación excelente
entre la magnitud de resistencia predicha y la resistencia real
como se determinó por ensayo fenotípico. El coeficiente de
correlación global (valor r) para este análisis era 0,91. Por
consiguiente, se utilizó este grupo de 39 mutaciones en el motor de
búsqueda para identificar muestras clínicas con resistencia a PI.
Adicionalmente, los inventores han adiestrado también redes
neurales a fin de hacer posible la identificación de mutaciones de
resistencia a Stavudina (d4T), dado que frecuentemente ha sido
difícil asociar las mutaciones RT específicas con la resistencia a
d4T.
Claims (1)
1. Un método para predecir la resistencia del
virus de la inmunodeficiencia humana tipo 1 (HIV-1)
a un agente terapéutico, que comprende:
(a) proporcionar una red neural adiestrada, en
donde dicha red es una red neural de alimentación directa de tres
capas, que comprende
- (1)
- una serie de nodos de entrada (en donde cada miembro de la serie de nodos de entrada corresponde a una mutación en el genoma de HIV-1);
- (2)
- una pluralidad de nodos ocultos; y
- (3)
- una serie de nodos de salida, en donde cada miembro de la serie de nodos de salida corresponde a un agente terapéutico utilizado para tratar HIV-1;
(b) proporcionar al menos una secuencia genética
determinada de HIV-1; y
(c) predecir la resistencia de
HIV-1 al agente terapéutico utilizando la al menos
una secuencia genética determinada y la red neural adiestrada, en
donde la resistencia predicha se expresa como una multiplicidad de
cambio en CI50.
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/589,167 US7058616B1 (en) | 2000-06-08 | 2000-06-08 | Method and system for predicting resistance of a disease to a therapeutic agent using a neural network |
US589167 | 2000-06-08 | ||
US24180100P | 2000-10-20 | 2000-10-20 | |
US24184400P | 2000-10-20 | 2000-10-20 | |
US241844P | 2000-10-20 | ||
US241801P | 2000-10-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2334011T3 true ES2334011T3 (es) | 2010-03-04 |
Family
ID=27399520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01945251T Expired - Lifetime ES2334011T3 (es) | 2000-06-08 | 2001-06-01 | Metodo para predecir la resistencia a los agentes terapeuticos utilizando redes neurales. |
Country Status (9)
Country | Link |
---|---|
US (1) | US20030190603A1 (es) |
EP (1) | EP1352356B1 (es) |
JP (1) | JP4726177B2 (es) |
AT (1) | ATE445883T1 (es) |
AU (1) | AU785353B2 (es) |
CA (1) | CA2415832C (es) |
DE (1) | DE60140211D1 (es) |
ES (1) | ES2334011T3 (es) |
WO (1) | WO2001095230A2 (es) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2374215C (en) * | 1999-05-28 | 2011-05-24 | Virco N.V. | New mutational profiles in hiv-1 reverse transcriptase correlated with phenotypic drug resistance |
ATE422049T1 (de) * | 2000-10-20 | 2009-02-15 | Virco Bvba | Festlegen von kritischen biologischen werten zur voraussage einer therapieresistenz |
JP2004512032A (ja) * | 2000-10-20 | 2004-04-22 | ビルコ・ビーブイビーエイ | 表現型薬物耐性と相互に関連付けられるhiv−1逆転写酵素中の新たな突然変異の特徴 |
FI20021031A (fi) * | 2001-12-28 | 2003-06-29 | Pertti Laehteenmaeki | Ravintoautomaatti |
FI20012593A0 (fi) | 2001-12-28 | 2001-12-28 | Pertti Laehteenmaeki | Menetelmä ja järjestelmä ravitsemustietopalvelun järjestämiseksi |
EP1522039B1 (en) * | 2002-07-01 | 2008-06-04 | Tibotec Pharmaceuticals Ltd. | New mutational profiles in hiv-1 reverse transcriptase correlated with phenotypic drug resistance |
US20050214744A1 (en) * | 2002-07-01 | 2005-09-29 | Hilde Azjin | New mutational profiles in hiv-1 reverse transcriptase correlated with phenotypic drug resistance |
AU2003254500B2 (en) | 2002-07-01 | 2009-11-19 | Tibotec Pharmaceuticals Ltd. | Mutational profiles in HIV-1 protease correlated with phenotypic drug resistance |
US7194320B2 (en) * | 2003-06-05 | 2007-03-20 | Neuco, Inc. | Method for implementing indirect controller |
JP2007513399A (ja) * | 2003-10-10 | 2007-05-24 | バイオフィジカル コーポレーション | 生化学画像の生成及びその使用方法 |
CN1914630A (zh) * | 2004-01-05 | 2007-02-14 | 迪迪尔·蒂加德 | 作为数据类型的基于行为的多代理*** |
US8214271B2 (en) | 2004-02-04 | 2012-07-03 | Neuco, Inc. | System and method for assigning credit to process inputs |
CA2557790A1 (en) | 2004-03-02 | 2005-09-15 | Virco Bvba | Estimation of clinical cut-offs |
WO2006047623A2 (en) * | 2004-10-25 | 2006-05-04 | Neuco, Inc. | Method and system for calculating marginal cost curves using plant control models |
WO2007035719A2 (en) * | 2005-09-19 | 2007-03-29 | University Of Houston | High throughput screening for antimicrobial dosing regimens |
US20140011762A1 (en) * | 2005-09-19 | 2014-01-09 | Vincent H. Tam | High Throughput Screening for Antimicrobial Dosing Regimens |
SG10201505644PA (en) * | 2010-07-28 | 2015-09-29 | Herbminers Informatics Ltd | Artificial intelligence and methods for relating herbal ingredients with illnesses in traditional chinese medicine |
US8918352B2 (en) * | 2011-05-23 | 2014-12-23 | Microsoft Corporation | Learning processes for single hidden layer neural networks with linear output units |
US9336483B1 (en) * | 2015-04-03 | 2016-05-10 | Pearson Education, Inc. | Dynamically updated neural network structures for content distribution networks |
US10762982B1 (en) * | 2015-10-07 | 2020-09-01 | Trace Genomics, Inc. | System and method for nucleotide analysis |
US10629291B2 (en) * | 2016-03-10 | 2020-04-21 | Koninklijke Philips N.V. | Antibiotic resistance causation identification |
JP7071976B2 (ja) * | 2016-11-28 | 2022-05-19 | コーニンクレッカ フィリップス エヌ ヴェ | 抗生物質感受性の分析的予測 |
CN106640066B (zh) * | 2016-12-28 | 2019-08-30 | 贵州大学 | 一种确定薄煤层滚筒采煤机综采工艺模式的方法 |
US10235622B2 (en) * | 2017-01-24 | 2019-03-19 | Sas Institute Inc. | Pattern identifier system |
CN110300979A (zh) * | 2017-02-07 | 2019-10-01 | 卡塔尔大学 | 广义操作感知:新生人工神经网络 |
US20180330059A1 (en) | 2017-05-09 | 2018-11-15 | James Stewart Bates | Patient treatment systems and methods |
US9922285B1 (en) * | 2017-07-13 | 2018-03-20 | HumanCode, Inc. | Predictive assignments that relate to genetic information and leverage machine learning models |
CN107742151A (zh) * | 2017-08-30 | 2018-02-27 | 电子科技大学 | 一种中医脉象的神经网络模型训练方法 |
US20210065844A1 (en) * | 2017-09-05 | 2021-03-04 | Adaptive Phage Therapeutics, Inc. | Methods to determine the sensitivity profile of a bacterial strain to a therapeutic composition |
JP7453988B2 (ja) | 2019-03-01 | 2024-03-21 | サノフイ | 治療の有効性を推定する方法 |
CN114429800A (zh) * | 2020-10-15 | 2022-05-03 | 中国石油化工股份有限公司 | 基于模型融合的甲烷水合物生成速率预测方法及*** |
WO2022087540A1 (en) * | 2020-10-23 | 2022-04-28 | The Regents Of The University Of California | Visible neural network framework |
CN113077849B (zh) * | 2021-03-16 | 2023-03-31 | 华南农业大学 | 一种大肠杆菌β-内酰胺类获得性耐药表型预测复合方法 |
CN113966999A (zh) * | 2021-10-28 | 2022-01-25 | 中山大学 | 一种索拉非尼耐药性预测方法、装置及可存储介质 |
CN114726419A (zh) * | 2022-04-07 | 2022-07-08 | 重庆邮电大学 | 基于深度学习的共轭梯度大规模mimo检测方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5862304A (en) * | 1990-05-21 | 1999-01-19 | Board Of Regents, The University Of Texas System | Method for predicting the future occurrence of clinically occult or non-existent medical conditions |
SE504769C2 (sv) * | 1994-03-17 | 1997-04-21 | Agrovision Ab | Sätt och anordning för automatisk bedömning av spannmål |
JPH08110896A (ja) * | 1994-10-10 | 1996-04-30 | Nippondenso Co Ltd | フィードフォワード型ニューラルネットワーク |
AU1837495A (en) * | 1994-10-13 | 1996-05-06 | Horus Therapeutics, Inc. | Computer assisted methods for diagnosing diseases |
US5930154A (en) * | 1995-01-17 | 1999-07-27 | Intertech Ventures, Ltd. | Computer-based system and methods for information storage, modeling and simulation of complex systems organized in discrete compartments in time and space |
JP3786442B2 (ja) * | 1995-01-23 | 2006-06-14 | 帝人株式会社 | 薬剤感受性予測方法 |
EP0879449A2 (en) * | 1996-02-09 | 1998-11-25 | Adeza Biomedical Corporation | Method for selecting medical and biochemical diagnostic tests using neural network-related applications |
US5845049A (en) * | 1996-03-27 | 1998-12-01 | Board Of Regents, The University Of Texas System | Neural network system with N-gram term weighting method for molecular sequence classification and motif identification |
US5953727A (en) * | 1996-10-10 | 1999-09-14 | Incyte Pharmaceuticals, Inc. | Project-based full-length biomolecular sequence database |
US5945289A (en) * | 1996-12-20 | 1999-08-31 | Lehrer; Steven | Method for detecting prostate cancer by apolipoprotein E (Apo-E) genotyping |
US5860917A (en) * | 1997-01-15 | 1999-01-19 | Chiron Corporation | Method and apparatus for predicting therapeutic outcomes |
DE69835360T2 (de) * | 1997-01-17 | 2007-08-16 | Maxygen, Inc., Redwood City | EVOLUTION Prokaryotischer GANZER ZELLEN DURCH REKURSIVE SEQUENZREKOMBINATION |
SE9702008D0 (sv) * | 1997-05-28 | 1997-05-28 | Pharmacia Biotech Ab | A method and a system for nucleic acid seouence analysis |
EP1012334A4 (en) * | 1997-07-30 | 2004-12-29 | Virologic Inc | COMPOSITIONS AND METHODS FOR DETERMINING SENSITIVITY AND RESISTANCE TO ANTIVIRAL DRUGS, AND SCREENING FOR ANTIVIRAL DRUGS |
WO1999066302A2 (en) * | 1998-06-17 | 1999-12-23 | Musc Foundation For Research Development | Recognition of protein coding regions in genomic dna sequences |
-
2001
- 2001-06-01 EP EP01945251A patent/EP1352356B1/en not_active Expired - Lifetime
- 2001-06-01 AU AU67520/01A patent/AU785353B2/en not_active Ceased
- 2001-06-01 ES ES01945251T patent/ES2334011T3/es not_active Expired - Lifetime
- 2001-06-01 US US10/297,338 patent/US20030190603A1/en not_active Abandoned
- 2001-06-01 CA CA2415832A patent/CA2415832C/en not_active Expired - Fee Related
- 2001-06-01 JP JP2002502695A patent/JP4726177B2/ja not_active Expired - Fee Related
- 2001-06-01 AT AT01945251T patent/ATE445883T1/de not_active IP Right Cessation
- 2001-06-01 DE DE60140211T patent/DE60140211D1/de not_active Expired - Lifetime
- 2001-06-01 WO PCT/EP2001/006360 patent/WO2001095230A2/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CA2415832A1 (en) | 2001-12-13 |
JP4726177B2 (ja) | 2011-07-20 |
CA2415832C (en) | 2012-07-24 |
JP2004523725A (ja) | 2004-08-05 |
AU6752001A (en) | 2001-12-17 |
AU785353B2 (en) | 2007-02-01 |
WO2001095230A2 (en) | 2001-12-13 |
EP1352356A2 (en) | 2003-10-15 |
EP1352356B1 (en) | 2009-10-14 |
ATE445883T1 (de) | 2009-10-15 |
DE60140211D1 (de) | 2009-11-26 |
US20030190603A1 (en) | 2003-10-09 |
WO2001095230A3 (en) | 2003-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2334011T3 (es) | Metodo para predecir la resistencia a los agentes terapeuticos utilizando redes neurales. | |
US7058616B1 (en) | Method and system for predicting resistance of a disease to a therapeutic agent using a neural network | |
ES2373488T3 (es) | Métodos para medir la resistencia a los fármacos frente a hcv. | |
US20100161239A1 (en) | Quantitative prediction method | |
Chen | Overlapping codon model, phylogenetic clustering, and alternative partial expectation conditional maximization algorithm | |
Wang et al. | Simple linear model provides highly accurate genotypic predictions of HIV-1 drug resistance | |
Lengauer et al. | Personalized HIV therapy to control drug resistance | |
Huang et al. | Computational analysis of HIV-1 resistance based on gene expression profiles and the virus-host interaction network | |
CA2824533A1 (en) | Methods and systems for predictive modeling of hiv-1 replication capacity | |
Pathania et al. | Identifying potential entry inhibitors for emerging Nipah virus by molecular docking and chemical-protein interaction network | |
AU2005218183B2 (en) | Estimation of clinical cut-offs | |
WO2011000851A1 (en) | Method for determining the efficacy of a combination therapy | |
ES2428563T3 (es) | Método para determinar la resistencia de VIH a tratamiento con inhibidor de proteasa | |
Lengauer et al. | Chasing the AIDS virus | |
Kitchen et al. | HIV‐1 viral fitness estimation using exchangeable on subsets priors and prior model selection | |
Carvajal-Rodríguez | The importance of Bio-computational tools for predicting HIV drug resistance | |
Arumugam et al. | Mystery of HIV Drug Resistance: A Machine Learning Perspective | |
Gebremariam | An integrated framework modelling susceptibility to tuberculosis in homogeneous and admixed populations | |
Schwender et al. | Imputing missing genotypes with weighted k nearest neighbors | |
Butler et al. | Fitness-based prediction of sites of drug resistance mutations using sequence data from HIV protease inhibitor-naıve patients | |
Lengauer et al. | Chasing the AIDS Virus With no HIV vaccine in sight, virologists need to know how the virus will react to a given combination drug therapy. | |
Ickstadt | Imputing missing genotypes with weighted k nearest neighbors | |
Ray | Statistical Modeling and Testing for Joint Association in Genome-Wide Association Studies | |
Sah et al. | Classification and Alignment of SARS-Coronavirus Sequences: A Machine Learning and Bioinformatics Approach for Drug Discovery | |
Brodie et al. | Evolutionary Indicators of Human |