MX2011004588A - Clasificacion genomica de carcinoma de pulmon de celulas no pequeñas basadas en patrones de alteraciones de numero de copias de gene. - Google Patents

Clasificacion genomica de carcinoma de pulmon de celulas no pequeñas basadas en patrones de alteraciones de numero de copias de gene.

Info

Publication number
MX2011004588A
MX2011004588A MX2011004588A MX2011004588A MX2011004588A MX 2011004588 A MX2011004588 A MX 2011004588A MX 2011004588 A MX2011004588 A MX 2011004588A MX 2011004588 A MX2011004588 A MX 2011004588A MX 2011004588 A MX2011004588 A MX 2011004588A
Authority
MX
Mexico
Prior art keywords
nci
algorithm
data set
samples
matrix
Prior art date
Application number
MX2011004588A
Other languages
English (en)
Inventor
Dimitri Semizarov
Xin Lu
Ke Zhang
Rick R Lesniewski
Original Assignee
Abbott Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Abbott Lab filed Critical Abbott Lab
Publication of MX2011004588A publication Critical patent/MX2011004588A/es

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Immunology (AREA)
  • Bioethics (AREA)
  • Zoology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Oncology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

La invención se dirige a métodos y kits que permiten la clasificación de líneas de células y tumores de carcinoma de pulmón de células no pequeñas de acuerdo con perfiles genómicos, y métodos para diagnosticar, predecir resultados clínicos y estratificar poblaciones de pacientes para prueba clínica y tratamiento usando los mismos.

Description

CLASIFICACIÓN GENQMICA DE CARCINOMA DE PULMÓN DE CÉLULAS NO PEQUEÑAS BASADAS EN PATRONES DE ALTERACIONES DE NÚMERO DE COPIAS DE GENE Referencia cruzada a solicitudes relacionadas Esta solicitud reclama la prioridad de la solicitud estadounidense no. 61 /1 10,317 presentada el 31 de octubre de 2008, cuyos contenidos son incorporados en la presente por referencia.
Esta solicitud también incorpora por referencia la solicitud titulada MÉTODOS PARA ENSAMBLAR PANELES DE LÍNEAS DE CÉLULAS DE CÁNCER PARA USO PARA PROBAR LA EFICACIA DE UNA O MAS COMPOSICIONES FARMACÉUTICAS, (Dimitri Semizarov, Xin Lu, Ke Zhang, y Rick Lesniewski, inventores; presentada el 28 de octubre de 2009; la cual reclama prioridad a la solicitud estadounidense no. 61 /1 10,281 presentada el 31 de octubre de 2008).
Declaración con respecto a investigación o desarrollo federalmente patrocinada No aplicable.
Referencia a material en un disco compacto No aplicable.
Listado de secuencias La presente solicitud contiene un Listado de secuencias que ha sido sometido vía EFS-Web y es incorporada en la presente por referencia en su totalidad. Dicha copia ASCI I, creada el 27 de octubre de 2009, es llamada 9670WOO1 .txt y es de 1 , 1 1 0 bytes de tamaño.
Antecedentes de la invención Campo de la invención La presente invención se refiere a métodos para definir subgrupos genómicos de tumores, líneas de células de cáncer y muestras presentes relacionadas a carcinoma de pulmón de células no pequeñas (NSCLC). La presente invención también se refiere a métodos para ensamblar paneles de tumores, líneas de células de cáncer y muestras presentes de acuerdo con subgrupos genómicos para usarse para probar la eficacia de una o más intervenciones terapéuticas para administrar a un sujeto.
Descripción de técnica relacionada El cáncer es una enfermedad del genoma caracterizado por variabilidad substancial en el curso clínico, resultado y respuesta a terapias. El factor principal subyacente a esta variabilidad es la heterogeneidad genética de cánceres humanos. Tumores individuales del mismo subtipo histopatológico portan diferentes aberraciones en su DNA celular.
NSCLC es la causa más común de mortalidad inducida por cáncer alrededor del mundo (Parkin, 2001 ). Actualmente, NSCLC es caracterizado por histología - inspección visual de anatomía celular bajo un microscopio, frecuentemente acoplado con varios procedimientos de manchado para resaltar características físicas específicas de las células. Los principales subtipos histológicos de NSCLC son adenocarcinomas (la forma más común de cáncer de pulmón), carcinomas de pulmón de células escamosas (SQ) y carcinomas de pulmón de células grandes (LCLC) (Travis y Sobin, 1999). Aproximadamente 40% de los pacientes con recaída de NSCL de etapa temprana dentro de cinco años después de remoción quirúrgica del tumor {Hoffman, 2000 #39}. Terapéuticos actuales para tratar NSCLC son eficaces solamente en una fracción de pacientes, resaltando el hecho de que NSCLCs difieren unos de otros. Los tumores dentro de los mismos grupos histopatológicos siguen cursos clínicos significativamente diferentes y responden de manera diferente a la terapia. Las etapas basadas en histología actual de NSCLC es por lo tanto inadecuada para predecir el curso clínico de la resultado de enfermedad o tratamiento.
La diversidad fenotípica de tumores de pulmón es acompañada mediante una diversidad correspondiente en patrones de aberración de número de copias de gene. Las aberraciones cromosómicas son eventos perjudiciales asociados con una variedad de enfermedades en desarrollo y cáncer. Las amplificaciones y supresiones de regiones cromosómicas en células somáticas se creen uno de los principales factores que conducen a cáncer. El examen sistemático de patrones de número de copias en cáncer de pulmón pudiera servir entonces como una base para una taxonomía molecular con base de genómica de cánceres de pulmón. La aberración cromosómica recurrente de significancia pronostica puede ser detectada individualmente mediante análisis citogenético clásico o hibridación in situ fluorescente (FISH) (Levsky y Singer, 2003). Sin embargo, el análisis de FISH no puede detectar el espectro completo de anormalidades genéticas ya que solo interroga un conjunto limitado de lugares cromosómicos definidos por el panel de sonda aplicado. Una herramienta diagnóstica más ventajosa se basaría en una clasificación refinada de la enfermedad. Permitiría la selección de paciente racional para tratamiento con base en el estado genético de un NSCLC del sujeto.
Breve descripción de la invención En un aspecto, la presente invención se refiere a métodos para obtener una base de datos de subgrupos genómicos de carcinoma de pulmón de células no pequeñas, comprendiendo el método los pasos de: (a) obtener una pluralidad de muestras m comprendiendo al menos una célula de NSCLC, en donde las muestras comprenden líneas de células o tumores; (b) adquirir un conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (a); (c) identificar en las muestras de conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (d) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (e) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 1 00 pasos de actualización multiplicativa usando la fórmula (1 1 ): ^ " v D(V WH) =??(V¡J log~-¿~-V¡jH ) (11) en donde Vu es la iesima fila y la j'es,ma columna de matriz V, (WH)¡j es la /és'ma fila y la jiéslma columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos. (2) detener el algoritmo si la divergencia calculada en el paso (e) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula (12): en donde C es la matriz de correlación, Cu es la iési a fila y la j6sima columna en la matriz C, H,¡ y HtJ son el ¡ési o y jésimo vector de columna en la matriz H, p(Hi H ) es el coeficiente de correlación de Pearson entre H ,· y Hj, i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (d); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (e)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (e)(4) y cortar un dendrograma en agrupamientos r; (f) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (g) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (f) usando una prueba de estabilidad de diez veces.
En un segundo aspecto, la invención se dirige a métodos para clasificar un tumor o línea de células de NSCLC, que comprende: (a) proporcionar una base de datos, desarrollada a través de un método que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de célula o NSCLC; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: ( 1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a ios datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada m uestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNM F) modificada, en donde el algoritmo de g N MF modificado comprende: ( 1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización m ultiplicativa usando la fórmula ( 1 1 ): D(V ¡l WH) =??(Vy log-JL- - F, + (WH)y) (11) en donde V¡¡ es la iésima fila y la y"ésíma columna de matriz V, {WH)¡¡ es la iésima fila y la jiésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos. (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula (12): en donde C es la matriz de correlación, Cu es la iesima fila y la jesiwa columna en la matriz C, H y ,¡ son el iésimo y jésim° vector de columna en la matriz H, p(Hih HJ es el coeficiente de correlación de Pearson entre H,¡ y H , i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (b) proporcionar una muestra que se sospecha contiene células de NSCLC, (c) adquirir un segundo conjunto de datos, muestra V, comprendiendo información de alteración de número de copias a partir del mismo al menos un sitio del paso (¡i); y (d) clasificar la muestra de muestra V, al comparar la muestra V con los agrupamientos determinados en los pasos (i)-(vii).
En un tercer aspecto, la invención se dirige a métodos para clasificar una intervención terapéutica para detener o matar células de carcinoma de pulmón de células no pequeñas (NSCLC), comprendiendo: (a) a partir de un panel de células NSCLC clasificadas de acuerdo con subgrupos genómicos, seleccionado al menos una línea de células de NSCLS de cada subgrupo, en donde el panel es ensamblado a partir de un método que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de célula o NSCLC; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula (1 1 ): en donde VtJ es la iésima fila y la jiésima columna de matriz V, (WH)U es la iéslma fila y la jiésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula (12): Cu = (12) en donde C es la matriz de correlación, C¡j es la ¡ésima fila y la j6sima columna en la matriz C, H y HiS son el iési o y jésimo vector de columna en la matriz H, p(H , HJ es el coeficiente de correlación de Pearson entre H ,· y H y, / y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (viii) seleccionar al menos una célula de NSCLC de cada agrupamiento seleccionado en el paso (vi) y ensamblar en paneles definidos de acuerdo con subgrupos genómicos. (b) contactar la al menos una célula de NSCLC de cada subgrupo con la intervención terapéutica; (c) ensayar la efectividad de la intervención terapéutica para detener o matar la al menos una célula de NSCLC de cada subgrupo; (d) clasificar la intervención terapéutica de acuerdo con la efectividad de la intervención terapéutica para detener o matar la al menos una célula de NSCLC de cada subgrupo, en donde detener o matar la al menos una célula de NSCLC de un subgrupo, pero no otra indica especificidad de la intervención terapéutica para detener o matar células de NSCLC de ese subgrupo. La intervención terapéutica puede ser terapia de radiación, quimioterapia, terapia de láser, fotodinámica y terapia biológica. Si la intervención terapéutica es quimioterapia, la quimioterapia puede comprender administrar al menos una composición farmacéutica comprendiendo un agente activo seleccionado del grupo que consiste de alimta, erlotinib, gefitinib, cisplatina, gemcitabina, paclitaxel, vinorelbina, epirubicina, vindesina, lonidamina, ifosfamida, carboplatina y docetaxel e ifosfamida. La quimioterapia puede comprender administrar dos o más agentes activos.
En un cuarto aspecto, la invención se dirige a métodos para ensamblar un panel de sonda para clasificar una célula de NSCLC de una muestra, que comprende: (a) ensamblar una base de datos, que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de célula o NSCLC; (¡i) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 1 00 pasos de actualización multiplicativa usando la fórmula (1 1 ): ¡t jn (11) en donde V¡¡ es la ies,ma fila y la j'eslma columna de matriz V, (WH)¡¡ es la iésima fila y la jiésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula (12): en donde C es la matriz de correlación, C¡ es la ¡es'ma fila y la jes,ma columna en la matriz C, H y H son el iésimo y jésimo vector de columna en la matriz H, p(Hih HJ es el coeficiente de correlación de Pearson entre /-/ ,· y H,¡, i y j corren desde 1 hasta m y m es el número de m uestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subg rupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en ag rupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (viii) seleccionar al menos una muestra de cada agrupamiento seleccionado en el paso (vi) y ensamblar en paneles definidos de acuerdo con subgrupos genómicos; (b) analizar la base de datos del paso (a) para determinar anormalidades de número de copias características para cada subgrupo; (c) diseñar una pluralidad de sondas con base en las anormalidades de número de copias características determinadas para cada subgrupos y asignar cada sonda a un subgrupo genómico.
En un quinto aspecto, la invención se dirige a kits comprendiendo un panel de sonda para clasificar una m uestra de tumor de NSCLC. Las sondas en el panel de sonda pueden ser, por ejemplo, sondas de FISH .
En un sexto aspecto, la invención es dirigida a kits para clasificar una m uestra de tumor de NSCLC, comprendiendo: (a) instrucciones para ensamblar una base de datos, comprendiendo instrucciones para: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de cél ula o NSCLC; (¡i) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i) ; (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una cal ificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula (1 1 ): en donde Vu es la ¡é5ima fila y la jiésima columna de matriz V, (WH)¡¡ es la /ésíma fila y la jíésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula (12): en donde C es la matriz de correlación, C, es la iésima fila y la jés!ma columna en la matriz C, H.¡ y H son el iésimo y jésimo vector de columna en la matriz H, p(Hr¡, HJ es el coeficiente de correlación de Pearson entre H,¡ y H¿, i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; y (b) opcionalmente, una primera, segunda y tercera línea celular, o DNA genómico aislado del mismo, en donde la primera línea de células es seleccionada del grupo que consiste de HCC827, NCI-H 1437, NCI-H 1563, NCI-H1568, NCI-H 1623, NCI-H 1651 , NCI-H 1693, NCI-H 1755, NCI-H 1793, NCI-H1838, NCI-H 1944, NCI-H 1975, NCI-H1993, NCI-H2023, NCI-H2073, NCI-H2085, NCI-H2087, NCI-H2122, NCI-H2126, NCI-H2228, NCI-H2291 , NCI-H23, NCI-H2342, NCI-H2347, NCI-H647, NCI-H920, NCI-H969, CLS-54, LX-289, SK-LU-1 , H2882, Calu-6, H358 y H460; la segunda línea de células es seleccionada del grupo que consiste de NCI-H2405, NCI-H522, SK-MES-1 , H 157, H 1819, H2009, H2887, HCC1 171 , HCC1359, HCC15, HCC193, HCC366, HCC461 , HCC515, HCC78, HOP-62, HOP-92 y NCI-H266; y la tercera línea de células es seleccionada del grupo que consiste de A549, Calu-3, NCI-H 1734, NCI-H838 y HCC95.
En todos los aspectos de la invención, el algoritmo de agrupamiento no supervisado puede ser agrupamiento jerárquico, correlación Cofenética o Criterio de información bayesiano pueden ser usados, independientemente o juntos para proporcionar un número final de agrupamientos a partir del conjunto de datos.
En todos los aspectos de la invención, la pluralidad de muestras, m, puede comprender una primera, segunda y tercera línea de células, en donde la primera línea de células es seleccionada del grupo que consiste de HCC827, NCI-H 1437, NCI-H 1563, NCI-H1568, NCI-H1623, NC1-H 1651 , NCI-H 1693, NCI-H1755, NCI-H 1793, NCI-H1838, NCI-H 1944, NCI-H 1975, NCI-H1993, NCI-H2023, NCI-H2073, NCI-H2085, NCI-H2087, NCI-H2122, NCI-H2126, NCI-H2228, NCI-H2291 , NCI-H23, NCI-H2342, NCI-H2347, NCI-H647, NCI-H920, NCI-H969, CLS-54, LX-289, SK-LU-1 , H2882, Calu-6, H358 y H460; ia segunda línea de células es seleccionada del grupo que consiste de NCI-H2405, NCI-H522, SK-MES-1 , H 157, H 1819, H2009, H2887, HCC1 171 , HCC1359, HCC15, HCC193, HCC366, HCC461 , HCC51 5, HCC78, HOP-62, HOP-92 y NCI-H266; y la tercera línea de células es seleccionada del grupo que consiste de A549, Calu-3, NCI-H 1734, NCI-H838 y HCC95. En algunos aspectos, m comprende todas las líneas de células antes mencionadas.
Breve descripción de las figuras La FIG. 1 muestra un esquema de los pasos involucrados en los métodos de la presente invención. De manera específica, esta figura muestra los pasos involucrados para clasificar tumores y líneas de células de cáncer con base en su patrón de número de copias, asignando los tumores y líneas de células de cáncer a subgrupos genómicos con base en sus patrones de alteraciones de número de copias y entonces ensamblar paneles de células para representar los subgrupos genómicos para un tipo de cáncer específico.
La FIG. 2 muestra el agrupamiento jerárquico usado para generar un dendrograma de un conjunto de datos de carcinoma de pulmón de células no pequeñas (NSCLC) con el fin de derivar el número posible de agrupamientos como se describe en el Ejemplo 3.
La FIG. 3 muestra un mapa de calor de datos de CGH de línea celular y tumor de NSCLC como se clasifica en 4 agrupamientos mediante Factorización de matriz no negativa genómica (gNMF). Cada fila representa una muestra y cada columna representa un sitio de SNPs; colores rojo, blanco y azul indican números de copias alto, normal y bajo, respectivamente; líneas negras horizontales separan agrupamientos diferentes; espacios verticales separan cromosomas 1 a 22; las líneas celulares son resaltadas por círculos verdes.
La FIG. 4 muestra una curva de aplan-Meier de tiempo para recurrencia (TTR) para muestras de validación asignadas en cuatro agrupamientos de NSCLC: (a) cuatro agrupamientos considerados por separado; y (b) agrupamientos 1 y 2 combinados.
La FIG. 5 muestra una curva de Kaplan-Meier del TTR para las muestras de validación asignadas en los cuatro agrupamientos: (a) cuatro agrupamientos considerados por separado; y (b) agrupamiento 1 comparado con los tres agrupamientos restantes.
La FIG. 6 muestra una curva de Kaplan-Meier de la Supervivencia global (OS) entre las muestras de validación asignadas en los cuatro agrupamientos: (a) cuatro agrupamientos considerados por separado; y (b) agrupamiento 1 comparado con los tres agrupamientos restantes.
La FIG. 7 muestra una curva de Kaplan-Meier de TTR y OS entre las muestras de validación asignadas en los cuatro agrupamientos usando todos los tumores y líneas de células existentes para representar los agrupamiento: (a) TTR; y (b) OS.
Descripción detallada La invención proporciona valoración, clasificación y estratificación de tumores de NSCLC, así como evaluación de eficacia de intervención terapéutica para tumores de NSCLC. La invención explora técnicas de hibridación genómica comparativa basada en microarreglo para detectar anormalidades de número de copias de gene en una escala amplia de genoma, proporcionando así una vista de genoma entero de aberraciones cromosómicas acompañadas por un cambio en el número de copias de DNA. A diferencia de esquemas de clasificación basados en histopatología, los métodos de la invención indagan la heterogeneidad de células NSCLC, el principal factor detrás de la variabilidad observada en intervenciones clínicas.
Los métodos de la invención permiten el sub-agrupamiento genómico de NSCLC para facilitar el descubrimiento y desarrollo de terapias enfocadas contra NSCLC, así como para definir poblaciones de pacientes discretas quienes alojan NSCLCs que serían susceptibles a estas terapias. Esta estratificación de grupos de pacientes también es extraordinariamente útil en diseño de ensayo clínico.
Los subgrupos definidos por el procedimiento de agrupamiento de la invención portaron distintos patrones de aberraciones genómicas, implicando diferentes orígenes y mecanismos tumorigénicos. Esta observación sugiere que los diferentes subgrupos manifestarán distintos comportamientos clínicos y sensibilidades a intervenciones terapéuticas, característicos de cada subgrupo. Tal ha sido observado previamente con otras aberraciones de número de copias, tal como, por ejemplo, amplificación de HER2 en cáncer de pecho, amplificación de EGFR en cáncer de pulmón y amplificación de MYCN en neuroblastoma. (Ver, por ejemplo Anand et al. , 2003; Hirsch et al. , 2006; Seeger et al. , 1985; Vogel et al., 2002).
Los métodos de la presente invención, hechos posibles mediante un novedoso algoritmo computacional, se basan en el análisis de patrones de genoma amplio complejos de alteraciones de número de copias. Los métodos de la invención proporcionan caracterización completa de subtipos genómicos de NSCLC y generan correlaciones más precisas de comportamiento clínico e intervenciones terapéuticas.
La taxonomía genómica propuesta es válida para la población entera de sujetos de NSCLC debido a que (i) el conjunto de muestras fue suficientemente grande (~300 muestras), y (ii) las muestras fueron adquiridas a partir de una variedad de fuentes, eliminando así la posibilidad de desviación.
En un aspecto, entonces, la invención proporciona métodos para perfilar muestras de NSCLC usando hibridación genómica comparativa (CGH) de alta resolución y métodos para clasificar los perfiles de número de copias usando algoritmos estadísticos acostumbrados. La clasificación resultante de NSCLCs puede ser usada para predecir la respuesta de pacientes a medicamentos y seleccionar modelos pre-clínicos.
Los métodos de la invención permiten la clasificación de NSCLC con base en patrones de anormalidades genómicas, determinando así subgrupos moleculares de la enfermedad.
En otro aspecto, la presente invención explota un algoritmo computacional único que puede ser usado para definir o clasificar subgrupos genómicos de células de NSCLC. En general, el algoritmo computacional comprende los siguientes pasos: 1 . Aplicar un algoritmo de aprendizaje de máquina (tal como Bosques Aleatorios) para identificar y eliminar muestras con contaminación significativa por células normales; 2. Usar agrupamiento no supervisado (tal como agrupamiento jerárquico) para estimar los números posibles de agrupamientos antes de ajustar los datos con un modelo de Factorización de matriz no negativa genómica (gN F); 3. Usar inicios aleatorios múltiples de gNMF seguido por la aplicación de la correlación de matriz H resultando de gNMF como la matriz de distancia para clasificar muestras; 4. Clasificar tumores y líneas de células de cáncer en varios números posibles de agrupamiento usando el algoritmo de gN F, seguido por el uso del coeficiente de correlación Cofenética y Criterio de información Bayesiano (BIC) para seleccionar el mejor modelo y determinar el número final de agrupamientos; y 5. Opcionalmente, aplicar una prueba de estabilidad de 10 veces para evaluar la estabilidad de los agrupamientos.
En una modalidad, la invención clasifica células de NSCLC, comprendiendo los pasos de (1 ) extraer DNA genómico (gDNA) a partir de muestras de células de NSCLC; (2) hibridar el gDNA a microarreglos, y analizar los microarreglos para adquirir la señal cruda para cada sonda manchada sobre el microarreglo; (3) determinar el número de copias de cada sitio y detectar las regiones de alteración de número de copias; (4) realizar el control de calidad de datos; (5) suavizar los datos de número de copias y reducir la dimensionalidad usando un algoritmo de segmentación; (6) clasificar los datos suavizados usando gNMF con un número estimado de agrupamientos estimado mediante agrupamiento jerárquico; (7) seleccionar el mejor modelo de clasificación usando correlación Cofenética y/o Criterio de información bayesiano; y (8) opcionalmente, probar la estabilidad de la clasificación de gNMF.
Los métodos de la presente invención facilitan la selección racional de modelos de prueba pre-clínica y mejoran la previsibilidad de pruebas pre-clínicas al proporcionar una representación más completa de tumores padres en los paneles de modelos de prueba pre-clínica. Aunque no se desea ligar a una teoría, el principio fundamental de la presente invención es como sigue. Los patrones de alteraciones de número de copias (CNAs) han mostrado determinar los fenotipos de tumores humanos. Así, si los subgrupos de poblaciones de tumor son definidos por patrones de CNAs y entonces al menos una línea celular es seleccionada para igualar cada subgrupo, un panel de líneas celulares puede ser desarrollado que representa la diversidad de la población de células de NSCLC de manera más adecuada que los conjuntos actualmente disponibles de modelos de tumor. Estos paneles de líneas de células pueden usarse para probar intervenciones terapéuticas. Adicionalmente, estas bases de datos permiten que los tumores de NSCLC de pacientes sean clasificados de manera más fina, permitiendo la prescripción refinada de intervenciones terapéuticas que tienen una mayor probabilidad de tratar de manera efectiva el cáncer.
Los métodos de la presente invención facilitan la selección racional de intervenciones terapéuticas y modelos de prueba preclínicos.
Definiciones Un perfil de número de copias de genoma amplio, o "número de copias", es una medición de número de copias de DNA de más de un sitio genético. Un perfil de número de copias puede valorar si una célula es esencialmente de tipo natural, en donde cada sitio genético está presente en dos copias (debido a que es diploide, excepto por cromosomas sexuales) , o desviación del tipo natural, es decir, conteniendo amplificaciones y supresiones de sitios genéticos. Las amplificaciones y supresiones pueden afectar una parte de un elemento, y elemento entero, o muchos elementos de manera simultánea. U n perfil de número de copias no determina necesariamente el número exacto de amplificaciones o supresiones, pero identifica esas regiones que contienen las anormalidades genéticas, y si la anormalidad es una supresión o amplificación.
En algunas modalidades, un genoma "tipo natural", cuando se usa en el contexto de la determinación de genotipo de una muestra, no necesariamente significa que la muestra de tipo natural es estrictamente dipolide. En el contexto de la presente invención, un genoma de "tipo natural" es uno que es tomado de una célula que no expresa, o no va a expresar, un estado de enfermedad particular, tal como NSCLC. Por ejemplo, un genoma de tipo natural puede ser provisto por un sujeto a partir de células normales, saludables, y comparado con las mismas células de NSCLC del sujeto.
"Criterio de información Bayesiano" o "BIC" se refiere a un método paramétrico, el cual es usado como un criterio estadístico para selección de modelo. BIC fue descrito por Schwarz, G. en "Estimating the dimensión of a model", en los Annals of Statistics 6(2):461 -464 (1978) . B IC es definido por la siguiente fórmula (1 ): BIC = -2*ln(L)+ k \n(n) (1 ) en donde L es la probabilidad la cual mide q ué tan bien se aproxima a los datos el modelo, k es el número de parámetros usados en el modelo y n es el número de muestras. El segundo término, k*\n(n), sirve como una penalidad sobre el número de parámetros usado en el modelo para evitar sobreaj uste.
"Coeficiente de correlación Cofenética" o "Correlación cofenética", usado de manera intercambiable en la presente, se refiere a algoritmos que son usados para medir q ué tan fielmente un dendrograma usado para derivar el resultado de agrupamiento final conserva las distancias por parejas entre los puntos de datos no modelados originales. Para usarse en la presente invención, si se supone que los datos originales X¡ han sido modelados por un dendrograma T¡, las medidas de distancia son definidas por la fórmula (2): x(U) = I x> - XJ I (2) la distancia entre las muestras iésima y j sima y t(i,j) = la distancia dendrogramática entre los puntos de modelo T, y 7}, donde la distancia es la altura del nodulo en el cual estos dos puntos se unen primero.
Entonces, si x es el promedio de x(i ') , y t es el promedio de t(i,j) , el coeficiente de correlación Cofenética c es definido por la fórmula (3): Conforme r aumenta, la correlación Cofenética disminuirá dramática a un cierto punto, correspondiendo así al mejor número de agrupamientos (Carrasco et al. , 2006; aher et al. , 2006).
"Análisis de agrupamiento", también conocido como "segmentación de datos", se refiere al agrupamiento o segmentación de una colección de objetos (también llamados observaciones, individuos, casos o filas de datos) , en subconjuntos, subgrupos o "agrupamientos" , de manera que aquéllos dentro de cada agrupamiento están relacionados más estrechamente unos a otros que objetos asignados a diferentes agrupamientos. Fundamental para todos los objetivos de análisis de agrupamiento es la noción de grado de similitud (o disimilitud) entre los objetos individuales siendo agrupados. Ejemplos de tipos de agrupamiento son agrupamiento jerárquico y agrupam iento de k promedio.
"Ag rupamiento jerárquico" se refiere a la construcción (aglomerativa) o ruptura (divisiva), de una jerarquía de agrupamientos. La representación tradicional de esta jerarquía es un dendrograma, con elementos individuales en un extremo o un agrupamiento simple conteniendo cada elemento al otro. Los algoritmos aglomerativos comienzan en las hojas del árbol, mientras que los algoritmos divisivos comienzan en la raíz. Los métodos para realizar agrupamiénto jerárquico son bien conocidos en la técnica.
Los métodos de agrupamiénto jerárquico han sido ampliamente usados para agrupar muestras biológicas con base en sus patrones genómicos y derivan estructuras de subgrupo en poblaciones de muestras en investigación biomédica (Ver, Bhattacharjee et al., 2001 ; Hedenfalk et al. , 2003; Sotiriou et al. , 2003; Wilhelm et al. , 2002). Por ejemplo, el agrupamiénto jerárquico fue usado para agrupar 64 líneas de células de tumor humanas en varios agrupamientos basados en el patrón de expresión de 1 161 genes seleccionados y derivar las firmas moleculares de diferentes agrupamientos (Ross et al. , 2000).
"Aprendizaje de máquina" se refiere a sub-campo de inteligencia artificial que se refiere al diseño y desarrollo de algoritmos y técnicas que permite que computadoras "enseñar". En general, existen dos tipos de aprendizaje: inductivo y deductivo. Los métodos de enseñanza de máquina inductiva extraen reglas y patrones de conjuntos de datos. El foco principal de investigación de aprendizaje de máquina es extraer información a partir de datos automáticamente, mediante métodos computacionales y estadísticos. Una variedad de algoritmos de aprendizaje de máquina, los cuales son organizados en taxonomías, con base en el resultado deseado del algoritmo, es conocida para expertos en la técnica. Estos incluyen: (1 ) aprendizaje supervisado (por ejemplo, Bosques aleatorios); (2) aprendizaje no supervisado (por ejemplo, análisis componentes principales, cuantificación de vectores, etc.); (3) aprendizaje semi-supervisado; (4) aprendizaje de refuerzo; (5) transducción; y (6) aprendizaje para aprender.
"Factorización de matriz no negativa" (N F) se refiere a un algoritmo para encontrar representaciones lineales, basadas en partes, de datos no negativos. Factorización de matriz no negativa fue desarrollada originalmente como una herramienta matemática para uso en análisis de imágenes (Lee y Seung, 1999; Lee y Seung, 2001 ). NMF fue adoptada en genómica para análisis de datos de expresión de gene (Brunet et al. , 2004). De manera específica, NMF fue adaptada para usarse en el análisis de datos de números de copias de genes, la variación del método usado para análisis de número de copias de genes es referido como Factorización de matriz no negativa genómica (gNMF) (Carrasco et al. , 2006; Maher et al. , 2006). Dada una matriz V de n x m de datos de números de copias suavizados para un conjunto de muestras, donde n es el número de segmentos y m es el número de muestras, el algoritmo de gNMF factoriza la matriz V en una matriz W de n x r y una matriz H de r x m como se muestra en la siguiente fórmula (4): V = W*H + e (4) en donde W puede observarse como el modelo estándar para cada subgrupo; H como pesos relativos de cada muestra perteneciente a cada subgrupo; e representa los residuos de ajuste de modelo, y r es el número de subgrupos a ser agrupados (el cual es usualmente mucho más pequeño que m). Dados r y V como entradas, el algoritmo de g NMF fija primero aleatoriamente el valor inicial de W y H y entonces actualiza iterativamente W y H usando reglas de actualización multiplicativas de conformidad con las fórmulas a continuación (5 y 6): ?W¡aVu¡ WH) H„. *~ H. (5) k Wia - Wla " (6) en donde a corre desde 1 hasta r, µ corre desde 1 hasta m e / corre desde 1 hasta n.
"Disimilitud lineal de Pearson" se refiere a la fórmula (7): (7) en donde x y son dos vectores con longitud n, P(x ) es la correlación lineal de Pearson la cual tiene la fórmula (8): ( 5y) =J ¿(Í )^iZ ) (8) n- l f sx. sv ' en donde la desviación estándar de muestra sx y sy tienen la fórmula (9): y en donde el promedio de muestra promedio tiene la fórmula (10): "Bosques aleatorios" se refiere a un algoritmo de aprendizaje supervisado que usa una combinación de tres predictores de manera que cada árbol depende de los valores de un vector aleatorio muestreado de manera independiente y con la misma distribución para todos los árboles en el bosque (Breiman, 2001 ).
Los bosques aleatorios cultivan muchos árboles de clasificación. Para clasificar un nuevo objetivo de un vector de entrada, ponen el vector de entrada abajo de cada uno de los árboles en el árbol. Cada árbol da una clasificación y se dice que el árbol "vota" para esa clase. El bosque elige la clasificación teniendo la mayoría de los votos (sobre todos los árboles en el bosque). Cada árbol es cultivado como sigue: 1 . Si el número de casos en el conjunto de entrenamiento es N, la muestra N casos en aleatorio - pero con reemplazo, de los datos originales. Esta muestra será el conjunto de entrenamiento para cultivar el árbol. 2. Si existen variable de entrada N, un número m«M es especificado de manera que en cada nodulo, m variables sean seleccionadas de manera aleatoria de y las mejores divididas en estas variables m son usadas para dividir el nodulo. El valor de m es sostenido constante durante el cultivo de bosque. 3. Cada árbol es cultivado al grado más grande posible. No existe poda.
La tasa de error de bosque depende de dos factores: 1 . La correlación entre cualquiera de dos árboles en bosque. Incrementar la correlación aumenta la tasa de error del bosque. 2. La fuerza de cada árbol individual en el bosque. Un árbol con una tasa de error baja es un clasificador más fuerte. Aumentar la fuerza de los árboles individuales disminuye la tasa de error de bosque.
Un oligonucleótido o polinucleótido es un ácido nucleico que varía desde al menos 2, de preferencia al menos 8, y más preferiblemente al menos 20 nucleótidos de longitud o un compuesto que híbrida específicamente a un polinucleótido. Los polinucleótidos incluyen ácido desoxiribonucleico (DNA) o ácido ribonucleico (RNA). Un ejemplo adicional de un polinucleótido es ácido nucleico de péptido (PNA).
Una sonda es una molécula inmovilizada en superficie que puede ser reconocida por un objetivo particular.
Soporte sólido, soporte y substrato son usados de manera intercambiable y se refieren a un material o grupo de materiales teniendo superficie o superficies rígidas o semi-rígidas.
"Hibridación" se refiere a la formación de complejos entre secuencias de ácido nucleico, las cuales son suficientemente complementarias para formar complejos vía emparejado de base de Watson-Crick o emparejado de base no canónica. Por ejemplo, cuando un iniciador "híbrida" con una secuencia objetivo (plantilla), tales complejos (o híbridos) son suficientemente estables para servir la función de iniciación requerida mediante, por ejemplo, la DNA polimerasa, para iniciar la síntesis de DNA. Las secuencias de hibridación no necesitan tener complementariedad perfecta para proporcionar híbridos estables. En muchas situaciones, híbridos estables se forman donde menos de aproximadamente 10% de las bases son desajustes. Como se usa en la presente, el término "complementario" se refiere a un oligonucleótido que forma un duplo estable con su complemento bajo condiciones de ensayo, generalmente donde existe aproximadamente 80%, aproximadamente 81 %, aproximadamente 82%, aproximadamente 83%, aproximadamente 84%, aproximadamente 85%, aproximadamente 86%, aproximadamente 87%, aproximadamente 88%, aproximadamente 89%, aproximadamente 90%, aproximadamente 91 %, aproximadamente 92%, aproximadamente 93%, aproximadamente 94%, aproximadamente 95%, aproximadamente 96%, aproximadamente 97%, aproximadamente 98% o aproximadamente 99% de homología mayor. Aquéllos expertos en la técnica entienden cómo estimar y ajustar la severidad de condiciones de hibridación, de manera que las secuencias teniendo al menos un nivel deseado de complementariedad hibridarán establemente, mientras que aquéllas teniendo menor complementariedad no. Ejemplos de condiciones de hibridación y parámetros son bien conocidos (Ausubel , 1987; Sambrook y Russell, 2001 ).
U n arreglo de ácido nucleico ("arreg lo") comprende sondas de ácido n úcleo unidas a un soporte sólido. Los arreglos normalmente comprenden una pluralidad de diferentes sondas de ácido nucleico que son acopladas a una superficie de un substrato en diferentes ubicaciones conocidas. Estos arreglos, también descritos como microarreglos, "chips" han sido descritos de manera general en la técnica, por ejemplo, las patentes estadounidenses nos. 5, 143,854, 5,445,934, 5, 744, 305, 5,667, 195, 6, 040, 1 93, 5,424, 1 86 y (Fodor et al. , 1 991 ). Estos arreglos pueden ser producidos de manera general usando métodos de síntesis mecánica o métodos de síntesis dirigida por luz que incorporan una combinación de métodos fotolitográficos y métodos de síntesis de fase sólida. Técnicas para la síntesis de arreglos usando síntesis mecánica son descritas en, por ejemplo, la patente estadounidense no. 5,384,261 . Aunque se prefiere una superficie de arreglo plana, el arreglo puede ser fabricado sobre una superficie de virtualmente cualquier forma o incluso una multiplicidad de superficies. Los arreg los pueden ser ácidos n ucleicos en perlas, geles, superficies poliméricas, fibras tales como fibra óptica, vid rio o cualquier otro substrato apropiado; por ejemplo, como se describe en las patentes estadounidenses nos. 5, 770, 358, 5, 789, 162, 5,708, 1 53, 6, 040, 1 93 y 5,800, 992. Los arreglos pueden ser empacados en una manera tal para permitir el diagnóstico u otra manipulación de un dispositivo inclusive, ver por ejemplo, las patentes estadounidenses nos. 5,856, 174 y 5, 922,591 .
Los arreglos pueden ser diseñados para cubrir un genoma usando polimorfismos de nucleótidos simples (SNPs). Por ejemplo, un arreglo puede cubrir 1 16,204 sitios de polimorfismo de nucleótidos simples (SNP) en el genoma humano con una distancia inter-marcadora promedio de sitios de SNP de 23.6 kb.
"Etiquetado" y "etiquetado con etiqueta detectable (o agente o porción)" son usados de manera intercambiable y especifican que una entidad (por ejemplo, un fragmento de DNA, un iniciador o una sonda) pueden ser visualizados, por ejemplo, siguiendo la unión a otra entidad (por ejemplo, un producto de amplificación). La etiqueta detectable puede ser seleccionada de manera que genera una señal la cual puede ser medida y cuya intensidad está relacionada con (por ejemplo, proporcional a) la cantidad de entidad unida. Una amplia variedad de sistemas para etiquetar y/o detectar moléculas de ácido nucleico, tal como iniciador y sondas, son bien conocidos en la técnica. Los ácidos nucleicos etiquetados pueden ser preparados al incorporar o conjugar una etiqueta que es directa o indirectamente detectable mediante medios espectroscópicos, fotoquímicos, bioquímicos, inmunoquímicos, eléctricos, ópticos, químicos u otros medios. Agentes detectables adecuados incluyen radionúclidos, fluoróforos, agentes quimioluminiscentes, micropartículas, enzimas, etiquetas colorimétricas, etiquetas magnéticas, haptenos y similares.
"Sonda" se refiere a un oligonucleótido diseñado para usarse en conexión con un microarreglo de CGH, un microarreglo de SNPs o cualquier otro microarreglo conocido en la técnica que son capaces de hibridar selectivamente a al menos una porción de una secuencia objetivo bajo condiciones apropiadas. En general, una secuencia de sonda es identificada como que es ya sea "complementaria" (es decir, complementaria al filamento de codificación o sentido (+))" o "complementaria inversa" (es decir complementaria al filamento de anti-sentido (-)). Las sondas pueden tener una longitud de aproximadamente 10-1 00 nucleótidos, de preferencia aproximadamente 15-75 nucleótidos, muy preferiblemente desde aproximadamente 15-50 nucleótidos.
"Composición farmacéutica" o "medicamento", usado de manera intercambiable, se refiere a cualquier agente, ya sea una molécula pequeña (por ejemplo, un medicamento conteniendo un agente activo, normalmente uno no peptídico) o biológico (por ejemplo, un medicamento basado en péptido, proteína o anticuerpo, incluyendo cualquier modificación, tal como PEGilación) que puede usarse para tratar un sujeto o paciente que sufre de al menos un tipo de cáncer.
Una "célula" puede venir de un tumor, línea de células o un sujeto.
Una "terapia" o "régimen terapéutico" se refiere a un curso de tratamiento pretendido para reducir o eliminar las afecciones o síntomas de una enfermedad o para prevenir la progresión de una enfermedad de un estado a un segundo estado más perjudicial. Un régimen terapéutico puede comprender un medicamento prescrito, cirugía o tratamiento de radiación. El perfil de número de copias de un tumor de sujeto también puede impactar efectos laterales y eficacia de una terapia seleccionada. En la presente invención, el perfil de número de copias de un tumor de sujeto puede usarse para determinar una terapia o régimen terapéutico que es probable que sea más efectivo.
"Sujeto" o "paciente" abarca mamíferos y no mamíferos. Ejemplos de mamífros incluyen: humanos, otros primates, tales como chimpancés y otros simios y especies de mono; animales de granja, tales como ganado, caballos, borregos, cabras, cerdos; animales domésticos tales como conejos, perros y gatos; animales de laboratorio incluyendo roedores, tales como ratas, ratones y conejillos de Indias. Ejemplos de no mamíferos incluyen aves y peces.
"Tratar, "tratando" y "tratamiento" significan aliviar, abatir o mejorar una enfermedad o síntomas de condición, prevenir síntomas adicionales, mejorar o prevenir las causas metabólicas subyacentes de síntomas, inhibir la enfermedad o condición, por ejemplo, detener el desarrollo de la enfermedad o condición, aliviar la enfermedad o condición, provocar la regresión de la enfermedad o condición, aliviar una condición provocada por la enfermedad o condición, o detener los síntomas de la enfermedad o condición ya sea de manera profiláctica y/o terapéutica.
Práctica de la invención En los métodos de la invención, una base de datos de referencia de perfiles de número de copias es creada, en donde el número de copias genómico en una pluralidad (m) de muestras comprendiendo células de NSCLC es determinada (donde m es un entero desde 1 hasta 5, 000,000. Por ejemplo, una pluralidad de muestras puede ser dos (2) , cinco (5) , diez (1 0), quince (15), veinte (20) , veinticinco (25), cincuenta (50) , cien (1 00) , doscientos (200) , quinientos (500) , mil ( 1 ,000), diez mil (1 0, 000), cincuenta mil (50, 000), cien mil muestras (1 00, 000) , doscientos cincuenta mil muestras (250,000), quinientos mil (500,000) , un millón (1 , 000,000) de muestras, etc. ). Las células de NSCLC son clasificadas entonces en subgrupos genómicos de acuerdo con los patrones de número de copias, el perfil de número de copias. Cada uno de estos subgrupos representa no solo una clasificación basada en genotipo, sino que se espera que muestre respuesta característica a varias intervenciones terapéuticas. Por ejemplo, un subg rupo puede ser más susceptible a radiación , mientras que otro es más susceptible a intervenciones farmacéuticas, tal como quimioterapia.
Las alteraciones de número de copias son detectadas en células de NSCLC que pueden ser obtenidas de sujetos que sufren de, o están en riesgo de sufrir de, NSCLC. Tales células pueden ser obtenidas usando técnicas de rutina. Por ejemplo, los tumores pueden ser disecados quirúrgicamente a partir de un sujeto que sufre o que se sospecha que sufre de cáncer y entonces congelarse inmediatamente, tal como a -80°C.
Para desarrollar una base de datos de diferentes subgrupos que permita la clasificación de un sujeto, tumores de NSCLC y líneas de células de cáncer pueden obtenerse comercialmente o de fuentes públicas. Un conjunto útil de líneas de células es mostrado en la Tabla 1 . La Tabla 1 también lista aquéllas muestras de tumor usadas en los Ejemplos (ver más adelante). En la tabla, ATTC American Type Culture Collection, (Manassus, VA); DSMZ, Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH (Braunschweig, Alemania); CLS, Cell Line Service (Alemania).
Información de número de copias y alteración de número de copias adicional de células NSCLC y líneas de células de cáncer puede ser obtenida de una variedad de fuentes comercial o públicamente disponibles, tales como del Gene Expression Omnibus (GEO), el cual está disponible del National Center for Biotechnology Information (NCBI), en línea del Broad Institute/Dana Farber Cáncer Institute Melanoma Portal, en línea del Dana Farber Cáncer Institute web site, etc.
Tabla 1 Líneas de células, muestras de tumor y fuentes Línea Fuente Número de celular catálogo (ATCC, DSMZ y CLS solamente) CLS-54 CLS CLS-54 LX-289 CLS LX-289 SK-LU-1 ATCC, CLS HTB-57 (ATCC); SK- LU-1 (CLS) SK-MES-1 ATCC, DSMZ, CLS HTB-58 (ATCC); ACC 353 (DSMZ); SK-MES-1 (CLS) H157 (Zhao et al., 2005) H1819 (Zhao et al., 2005) CRL-5897 H2009 (Zhaoetal., 2005) CRL-59 1 H2882 (Zhao et al., 2005) H2887 (Zhao et al., 2005) HCC1171 (Zhaoetal., 2005) HCC1359 (Zhao etal., 2005) HCC15 (Zhaoetal., 2005) HCC193 (Zhao et al., 2005) HCC366 (Zhao et al., 2005) HCC461 (Zhaoetal., 2005) HCC515 (Zhao et al., 2005) HCC78 (Zhao et al., 2005) HCC95 (Zhao et al., 2005) HOP-62 (Zhaoetal., 2005) HOP-92 (Zhao et al., 2005) NCI-H266 (Zhao et al., 2005) NCI-H1437 ATCC CRL-5872 NCI-H1563 ATCC CRL-5875 NCI-H1568 ATCC CRL-5876 NCI-H1623 ATCC CRL-5881 NC1-H1651 ATCC CRL-5884 NCI-H1693 ATCC CRL-5887 NC1-H1734 ATCC CRL-5891 NC1-H1755 ATCC CRL-5892 NCI-H1793 ATCC CRL-5896 NCI-H1838 ATCC CRL-5899 NCI-H1944 ATCC CRL-5907 NCI-H1975 ATCC CRL-5908 NCI-H1993 ATCC CRL-5909 NCI-H2023 ATCC CRL-5912 NCI-H2073 ATCC CRL-5918 NCI-H2085 ATCC CRL-5921 NCI-H2087 ATCC CRL-5922 CNI-H2122 ATCC CRL-5985 NCÍ-H2126 ATCC CCL-256 NCI-H2228 ATCC CRL-5935 NCI-H2291 ATCC CRL-5939 NCI-H23 ATCC CRL-5800 NCI-H2342 ATCC CRL-5941 NCI-H2347 ATCC CRL-5942 NCI-H2405 ATCC CRL-5944 NCI-H522 ATCC CRL-5810 NCI-H647 ATCC CRL-5834 NCI-H838 ATCC CRL-5844 NCI-H920 ATCC CRL-5850 NCI-H969 ATCC CRL-5852 A549 ATCC CCL-185 Calu-3 ATCC HTB-55 HCC827 ATCC CRL-2868 Calu-6 ATCC HTB-56 H358 ATCC CRL-5807 H460 ATCC HTB-177 NSCLC21 Caprion Proteomics, Montreal, Quebec n/a NSCLC22 Caprion Proteomics, Montreal, Quebec n/a NSCLC23 Caprion Proteomics, Montreal, Quebec n/a NSCLC24 Caprion Proteomics, Montreal, Quebec n/a NSCLC25 Caprion Proteomics, Montreal, Quebec n/a NSCLC26 Caprion Proteomics, Montreal, Quebec n/a NSCLC27 Caprion Proteomics, Montreal, Quebec n/a NSCLC28 Caprion Proteomics, Montreal, Quebec n/a NSCLC29 Caprion Proteomics, Montreal, Quebec n/a NSCLC30 Caprion Proteomics, Montreal, Quebec n/a NSCLC31 Caprion Proteomics, Montreal, Quebec n/a NSCLC33 Caprion Proteomics, Montreal, Quebec n/a NCSLC34 Caprion Proteomics, Montreal, Quebec n/a NSCLC35 Caprion Proteomics, Montreal, Quebec n/a NSCLC36 Caprion Proteomics, Montreal, Quebec n/a CSCLC37 Caprion Proteomics, Montreal, Quebec n/a NSCLC38 Caprion Proteomics, Montreal, Quebec n/a NSCLC41 Caprion Proteomics, Montreal, Quebec n/a NSCLC42 Caprion Proteomics, Montreal, Quebec n/a NSCLC43 Caprion Proteomics, Montreal, Quebec n/a NSCLC44 Caprion Proteomics, Montreal, Quebec n/a NSCLC45 Caprion Proteomics, Montreal, Quebec n/a NSCLC46 Caprion Proteomics, Montreal, Quebec n/a NSCLC47 Caprion Proteomics, Montreal, Quebec n/a NSCLC49 Caprion Proteomics, Montreal, Quebec n/a NSCLC50 Caprion Proteomics, Montreal, Quebec n/a NSCLC52 Caprion Proteomics, Montreal, Quebec n/a NSCLC53 Caprion Proteomics, Montreal, Quebec n/a NSCLC55 Caprion Proteomics, Montreal, Quebec n/a NSCLC58 Caprion Proteomics, Montreal, Quebec n/a NSCLC60 Caprion Proteomics, Montreal, Quebec n/a NSCLC65 Caprion Proteomics, Montreal, Quebec n/a NSCLC66 Caprion Proteomics, Montreal, Quebec n/a NSCLC67 Caprion Proteomics, Montreal, Quebec n/a NSCLC69 Caprion Proteomics, Montreal, Quebec n/a NSCLC70 Caprion Proteomics, Montreal, Quebec n/a NSCLC71 Caprion Proteomics, Montreal, Quebec n/a NSCLC72 Caprion Proteomics, Montreal, Quebec n/a NSCLC75 Caprion Proteomics, Montreal, Quebec n/a NSCLC76 Caprion Proteomics, Montreal, Quebec n/a NSCLC79 Caprion Proteomics, Montreal, Quebec n/a NSCLC82 Caprion Proteomics, Montreal, Quebec n/a NSCLC85 Caprion Proteomics, Montreal, Quebec n/a NSCLC299 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC300 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC301 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC303 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC305 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC307 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC308 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC309 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC311 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC312 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC314 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC315 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC316 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC317 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC318 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC319 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC320 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC322 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC323 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC325 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC327 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC328 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC330 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC332 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC333 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC334 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC335 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC336 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC337 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC338 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC339 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC340 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC341 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC342 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC344 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC345 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC346 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC347 Datos obtenidos del Dana-Farber Cáncer Institute n/a NSCLC1 ProteoGenex, Culver City, CA n/a NSCLC10 ProteoGenex, Culver City, CA n/a NSCLC11 ProteoGenex, Culver City, CA n/a NSCLC12 ProteoGenex, Culver City, CA n/a NSCLC13 ProteoGenex, Culver City, CA n/a NSCLC14 ProteoGenex, Culver City, CA n/a NSCLC15 ProteoGenex, Culver City, CA n/a NSCLC17 ProteoGenex, Culver City, CA n/a NSCLC18 ProteoGenex, Culver City, CA n/a NSCLC19 ProteoGenex, Culver City, CA n/a NSCLC2 ProteoGenex, Culver City, CA n/a NSCLC20 ProteoGenex, Culver City, CA n/a NSCLC4 ProteoGenex, Culver City, CA n/a NSCLC5 ProteoGenex, Culver City, CA n/a NSCLC7 ProteoGenex, Culver City, CA n/a NSCLC8 ProteoGenex, Culver City, CA n/a NSCLC9 ProteoGenex, Culver City, CA n/a NSCLC100 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC101 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC103 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC104 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC105 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC106 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC108 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC109 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC110 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC111 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC113 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC115 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC116 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC117 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC118 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC119 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC120 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC121 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC122 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC123 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC125 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC126 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC127 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC128 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC129 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC130 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC132 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC133 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC134 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC135 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC136 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC137 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC138 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC139 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC143 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC144 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC145 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC146 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC150 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC151 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC153 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC155 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC156 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC157 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC158 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC159 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC160 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC162 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC164 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC165 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC166 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC167 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC168 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC171 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC172 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC173 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC174 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC175 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC176 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC177 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC178 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC179 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC180 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC1h81 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC182 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC184 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC185 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC187 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC188 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC189 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC191 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC192 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC194 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC195 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC196 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC198 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC199 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC201 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC203 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC206 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC208 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC209 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC210 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC214 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC215 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC216 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC217 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC218 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC221 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC222 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC223 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC225 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC227 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC228 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC230 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC231 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC232 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC233 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC234 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC236 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC237 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC238 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC239 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC242 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC243 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC246 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC249 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC250 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC251 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC252 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC253 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC254 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC255 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC256 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC258 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC259 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC260 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC261 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC265 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC266 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC269 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC270 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC271 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC272 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC273 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC274 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC275 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC276 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC277 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC278 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC280 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC282 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC283 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC284 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC286 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC288 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC290 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC291 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC292 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC294 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC295 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC296 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC298 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC96 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC97 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC98 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a NSCLC99 Rush Presbyterian, Chicago, IL (Dr. Coon) n/a Una vez que las líneas de células de cáncer y tumores requeridas son obtenidas, el DNA genómico (gDNA) es extraído a partir de cada uno de los tumores o líneas de células usando técnicas de rutina, tales como, extracción con fenol-cloroformo, desalado, extracción libre de digestión o mediante el uso de kits comercialmente disponibles, tales como los kits DNEasy o QlAamp disponibles de (Qiagen, Valencia, CA). El gDNA obtenido de cada uno de los tumores o líneas de células puede ser modificado o alterado entonces para facilitar el resto del análisis. Por ejemplo, las secuencias de iniciador o adaptador pueden ligarse al DNA genómico usando técnicas de rutina. Por ejemplo, el gDNA puede ser digerido primero con la endonucleasa de restricción, tal como, Hind III o Xbal . Una vez digerido, una o más secuencias de iniciador o adaptador pueden ser ligadas al gDNA digerido. De preferencia, los adaptadores usados son aquéllos que reconocen cuatro pares de bases cohesivas sobresalientes.
El DNA aislado es amplificado usando métodos de rutina. Los métodos de amplificación de ácido nucleico útiles incluyen la Reacción en cadena de polimerasa (PCR). PCR es descrita en una variedad de referencias (Innis, 1990; Innis et al. , 1995; McPherson et al. , 1991 ; Saiki et al. , 1986; Sninsky et al. , 1999); y patentes estadounidenses nos. 4,683, 195, 4,683,202 y 4,889,818, cada una de las cuales es incorporada en la presente por referencia. Variaciones de PCR incluyendo ensayos basados en TAQMAN® (Holland et al. , 1 991 ) y reacción en cadena de polimerasa de transcriptasa inversa (RT-PCR; descrita en, por ejemplo, patentes estadounidenses nos. 5,322,770 y 5,310,652, cada una de las cuales es incorporada por referencia).
En general, un par de iniciadores es adicionado al gDNA aislado para hibridar a los filamentos complementaros del ácido nucleico objetivo. Si el gDNA obtenido de los tumores o líneas de células de cáncer es digerido y ligado a secuencias de iniciador o adaptador, entonces se prefiere que uno de los iniciadores usados en el método de amplificación reconozca las secuencias de adaptador. También se prefiere que los iniciadores usados en el método de amplificación amplifiquen fragmentos en el rango de tamaño de pares de bases de 250 hasta 2000.
Sobre la terminación de la amplificación, el DNA amplificado resultante puede ser purificado, usando técnicas de rutina, tal como sistema I NELUTE® 96 UF PCR Purification (Qiagen). Después de la purificación, el DNA amplificado es fragmentado entonces usando técnicas de rutina, tal como mediante sonicación o digestión enzimática, tal como DNase I. Después de la fragmentación, el DNA es etiquetado con una etiqueta detectable. Los métodos para etiquetar DNA y fragmentos de DNA son bien conocidos.
Cualquiera de una variedad de etiquetas detectables puede ser usada. Etiquetas detectables adecuadas incluyen, pero no están limitadas a, varios ligandos, radionúclidos (por ejemplo, 32P, 35S, 3H, 1 C, 25l , 131 l y similares); tintes fluorescentes; agentes quimioluminiscentes (por ejemplo, ésteres de acridinio, dioxetanos estabilizados y similares); nanocristales de semiconductores fluorescentes inorgánicos espectralmente resolvibles (por ejemplo, puntos de quantum), nanopartículas de metal (por ejemplo, oro, plata, cobre y platino) o nanoagrupamientos; enzimas (por ejemplo, peroxidasa de rábano picante, beta-galactosidasa, luciferasa, fosfatasa alcalina); etiquetas colorimétricas (por ejemplo, tintes, oro coloidal y similares); etiquetas magnéticas (por ejemplo, DynabeadsMR); y biotina, dioxigenina y otros haptenos y proteínas.
Una vez amplificado, el DNA fragmentado es etiquetado con una etiqueta detectable, es hibridado a un microarreglo usando técnicas de rutina conocidas. El microarreglo puede contener oligonucleótidos, genes o clones genómicos que pueden ser usados en Hibridación genómica comparativa (CGH) para buscar ganancias y pérdidas genómicas. De manera alternativa, el microarreglo puede contener oligonucleótidos o clones genómicos que detectan mutaciones o polimorfismos, tales como polimorfismos de nucleótidos simples (SNPs). Los microarreglos pueden hacerse usando técnicas de rutina conocidas en la técnica. De manera alternativa, pueden usarse microarreglos comercialmente disponibles. Ejemplos de microarreglos que pueden ser usados son el arreglo de SNP de AFFYMETRIX GENECH IP® Mapping 100K Set (Matsuzaki et al. , 2004) (Affimetrix, INc , Santa Clara, CA), el Agilent Human Genome aCGH Microarray 44B (Agilent Technologies, Inc. , Santa Clara, CA), microarreglos lllumina (lllumina, Inc., San Diego, CA), microarreglos Nimblegen aCGH (Nimblegen, Inc. , Madison, Wl), etc.
Después de la hibridación, el microarreglo es lavado usando técnicas de rutina para remover ácidos nucleicos no hibridados. Después del lavado, el microarreglo es analizado en un lector o explorador. Ejemplos de lectores o exploradores incluyen GENECHIP® Scanner 3000 G7 (Affymetrix, Inc.), el Agilent DNA icroarray Scanner (Agilent Technologies, Inc.), GENEPIX® 4000B (Molecular Devices, Sunnyvale, CA), etc. Señales reunidas de las sondas contenidas en el microarreglo pueden ser analizadas usando programa de cómputo comercialmente disponible, tal como aquéllas provistas por Affymetrix o Agilent Technologies. Por ejemplo, si el GENECHIP® Scanner 3000 G7 de Affymetrix es usado, puede usarse el AFFYMETRIX GENECHIP® Operating Software. El AFFYMETRIX GENECHIP® Operating Software recolecta y extrae los datos crudos o de característica (señales) de los Affymetrix GeneChip® Scanners, los cuales detectan las señales de todas las sondas. Los datos crudos o característicos pueden ser almacenados electrónicamente en uno de cualquiera de los formatos de archivo adecuados, tales como pero no limitados a, como un archivo CEL (el formato del archivo CEL es un archivo de texto ASCII similar al formato Windows INI), un archivo CHP, un archivo CNT, un archivo de ajuste de metasonda o incluso como un archivo de texto simple.
Los datos recolectados y extraídos del microarreglo son procesados para determinar el número de copias en cada sitio en cada cromosoma y para definir regiones de alteraciones de número de copias. Tal procesamiento puede hacerse usando algoritmos conocidos, tales como Segmentación circular binaria (Olshen et al. 2004), Análisis de ganancia y pérdida de DNA (GLAD) (Hupe et al. , 2004), aproximaciones basadas en modelo escondido de Markov (Fridlyand et al. , 2004; Zhao et al. , 2004), o métodos basados en agrupamiento (Wang et al. , 2005), etc. De manera alternativa, puede usarse un programa de cómputo comercialmente disponible, tal como el programa de cómputo PARTEK® GENOMIC SU ITE R, tal como versión 6.08.0103 (disponible de Partek, St. Louis, MO), GenePattern (disponible en línea; (Reich et al. , 2006)), y dChip (disponible en línea; (Li et al, 2001 ).
Por ejemplo, si el programa de cómputo PARTEK® GENOMIC SUITEMR, tal como versión 6.08.0103 es usado, archivos CEL conteniendo las señales de todas las sondas en el microarreglo detectadas por los exploradores pueden ser cargadas en el programa de cómputo. Los números de copias son calculados al comparar las intensidades de señal para las muestras de línea de células de cáncer o tumor determinadas a partir del microarreglo a aquéllas en una referencia o control después de la corrección a una línea de base prefijada (el número usado para establecer la línea de base prefijada no es crítico y es un entero (n), donde n es 1 a 100. Por ejemplo, la línea de base prefijada puede ser 2). La referencia o control usada puede ser un conjunto de muestras de tejido normal o tejidos normales emparejados de los mismos pacientes como las muestras de tumor medidas mediante la misma plataforma de de microarreglo. La referencia o control puede comprender al menos 5 muestras, al menos 10 muestras, al menos 15 muestras, al menos 20 muestras, al menos 25 muestras, a I menos 30 muestras, al menos 35 muestras, al menos 40 muestras, al menos 45 muestras, al menos 50 muestras, al menos 75 muestras, al menos 100 muestras, al menos 150 muestras, al menos 200 muestras, etc.
Los datos de números de copias resultantes son segmentados entonces y regiones de alteración de números de copias son detectadas en cada muestra. La segmentación y detección de regiones de alteración de número de copias puede ser obtenida usando los siguientes parámetros de control: (i) una región de número de copias debe contener al menos 100 sondas; (ii) el valor p comparando el número de copias promedio de la región de número de copias versus las regiones de número de copias adyacentes deben ser menores que 0.00001 , y (iii) la proporción de señal/ruido de la transición debe ser mayor que 0. .
Las regiones de alteración de número de copias pueden ser detectadas cuando los números de copias promedio en estas regiones son estadísticamente menores que 1 .65 (supresión) o mayores que 2.65 (ganancia) con valores P por debajo de 0.01 .
Debido a que las muestras de tumor pueden contener un porcentaje significativo de células normales las cuales pueden diluir la señal de una alteración de número de copias, un algoritmo de aprendizaje de máquina puede ser usado para capturar la diferencia entre los patrones de número de copias de muestras de líneas de células de cáncer y tumor y aquéllas de muestras normales. Tal algoritmo puede ser usado para identificar y eliminar muestras de tumor contaminadas por células normales de análisis adicional. De esta manera, el algoritmo de aprendizaje de máquina sirve como un control de calidad de datos para el conjunto de datos es referido en la presente como un "algoritmo de control de calidad de datos".
El algoritmo de control de calidad de datos involucra seleccionar un subconjunto de muestras con el número de regiones de alteración de número de copias más alto a partir de las muestras de líneas de células de cáncer y tumor como se describe previamente en la presente (de aquí en adelante el "primer conjunto de muestras"). Un conjunto normal de muestras también es seleccionado (de aquí en adelante "el segundo conjunto de muestras"). Estos conjuntos de muestra primera y segunda son usados como un conjunto de entrenamiento para desarrollar un algoritmo de aprendizaje de máquina para clasificar muestras como ya sea muestras "normales" o "tumor" al sintonizar los parámetros del algoritmo para representar mejor la diferencia entre el primer y segundo conjunto de muestras. El clasificador entrenado es aplicado a las muestras de líneas de células de cáncer o tumor restantes para asignar una calificación a cada muestra. Esta calificación de probabilidad representa la probabilidad de cada muestra que está contaminada por células normales. Las muestras teniendo una probabilidad de contaminación sobre 50% son excluidas del análisis de agrupamiento subsecuente. Algoritmos de aprendizaje de máquina que pueden usarse para este fin, incluyen Bosques aleatorios (RF) (Breiman, 2001 ), Máquina de vector de soporte (SVM) (Vapinik, 1 995), Recursive-SVM (Zhang et al. , 2006), Regresión de ángulos mínimos (LARS) (Efron et al. , 2004), etc.
Debido a que los datos de número de copias obtenidos a partir de los microarreglos tienden a ser altamente densos y ruidosos, los datos de números de copias pueden ser suavizados para disminuir el nivel de ruido y reducir la dimensionalidad (también referidos como "reducción de dimensión") y la complejidad de datos. El suavizado de datos puede hacerse al detectar primero regiones de números de copias significativamente ganadas o suprimidos en cada muestra usando técnicas de rutina. Una vez que tales regiones son identificadas, regiones adyacentes pueden ser fusionadas si tienen cambios de números de copias similares y si las distancias entre estas regiones son menores que 500 kilobases. Entonces el genoma entero puede ser segmentado entonces usando la unión de puntos de ruptura de todas las muestras en un conjunto de datos y el número de copias de cada segmento puede ser calculado al promediar el número de copias de sondas de SNPs dentro de cada segmento (Carrasco et al. , 2006). El suavizamiento de datos puede dar mejor resolución de las ganancias y supresiones de número de copias de cada muestra.
Después del suavizamiento de datos y reducción de dimensión, el conjunto de datos es sometido a un método de agrupamiento no supervisado para obtener una revisión de la similitud relativa entre cada una de las muestras de líneas de células de cáncer y tumor y obtener un estimado (por ejemplo, un estimado aproximado) del número de subgrupos (el cual también es referido en la presente como r subgrupos) que existen en los datos hasta ahora. Después del suavizamiento de datos y reducción de dimensión, los métodos de agrupamiento no supervisado usando el algoritmo de disimilitud lineal personal son aplicados al conjunto de datos de número de copias de líneas de células y tumor suavizados, los cuales son referidos como el "Conjunto de datos" o V. Los patrones de agrupamiento pueden ser graficados y visualmente inspeccionados para derivar un rango de posibles números de subgrupos, r, en el Conjunto de datos (el rango de posible números de subgrupos en el Conjunto de datos será un entero (n) desde 1 hasta 100). Ejemplos de métodos de agrupamiento no supervisados que pueden usarse incluyen, pero no están limitados a, agrupamiento jerárquico, Análisis de componentes principales (PCA) (Pearson, 1901 ) o Multidimensional Scaling (MDS) (Borg y Groenen, 2005). Los números de subgrupos (los cuales son referidos cada uno como "valor r", donde cada valor r es un entero desde 1 hasta 100) son usados entonces como entrada en el análisis de agrupamiento usando factorización de matriz no negativa genómica ("gNMF").
En aplicaciones previas de gNMF para agrupar datos de CGH (Carrasco et al. , 2006; aher et al. , 2006), el algoritmo fue detenido cuando las asignaciones de subgrupo de muestras de líneas de células de cáncer y tumores no cambian después de un número predefinido de pasos (por ejemplo, 100). Con base en las pruebas con datos simulados así como datos de CGH reales, se cree que este criterio detiene (por ejemplo, termina) el algoritmo de gNMF demasiado pronto. Por io tanto, el algoritmo de gNMF puede ser modificado de manera que después de una variedad seleccionada de pasos (donde el número seleccionado de pasos no es crítico y es un entero (n) desde 1 hasta 1 000, tales como, por ejemplo, 5 pasos, 1 0 pasos, 25 pasos, 50 pasos, 1 00 pasos, 200 pasos, etc.) de actualización m ultiplicativa, la divergencia del algoritmo del Conjunto de datos es calculado usando la fórmula anterior ( 1 1 ): " « y D(V ¡| WH) =??(Vy log^-JL- - V, + (WH)(i) (11) en donde V,} es la iésima fila y la jlésima columna de matriz V, (WH)¡¡ es la iésima fila y la 'és,ma col umna de matriz (W*H), i corre desde 1 hasta n y n es el n úmero de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos.
Usando la fórmula anterior, el algoritmo iterativo detiene (también referido en la presente como el "criterio de paro") si la divergencia calculada antes no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para el número de pasos seleccionado previo o anterior (por ejemplo, 1 00) de actualización multiplicativa para el algoritmo. Esta modificación al algoritmo de gNMF ha sido encontrada por mejorar significativamente la precisión del agrupam iento.
Debido a que g N MF es un procedimiento estocástico, el algoritmo puede generar diferentes resultados cuando se inicia a partir de diferentes valores iniciales. Para mejorar adicionalmente el desempeño del algoritmo de agrupamiento, se desarrolló una nueva estrategia de iniciación múltiple. Para cada Conjunto de datos, la estrategia involucra usar el criterio de paro descrito antes de iniciar o repetir aleatoriamente el algoritmo de gN F para un número seleccionado de corridas (el número de corridas seleccionado que el algoritmo puede ser iniciado o repetido aleatoriamente y es un entero (n) desde 1 hasta 1 000, tal como por ejemplo, 1 , 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 1 75, 200, 225, 250, 275, 300, 350, etc.). Una vez que el algoritmo ha completado su número de corridas aleatoriamente seleccionado, la matriz de coeficiente de correlación de Pearson de H para cada una de estas corridas es calculada usando la siguiente fórmula (12): en donde C es la matriz de correlación, C¡ es la i sima fila y la jésl a columna en la matriz C, H,¡ y H son el /és/mo y jésimo vector de columna en la matriz H, p(Ht¡, H es el coeficiente de correlación de Pearson entre H,¡ y H,¡, i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos (determinado previamente en la presente). Una vez que la matriz de coeficiente de correlación de Pearson de H para cada corrida es determinada, las matrices de correlación son promediadas. El resultado de agrupamiento final puede ser derivado al correr un método de agrupamiento no supervisado (por ejemplo, tal como un algoritmo de agrupamiento jerárquico) usando 1 menos la matriz de correlación promedio como la matriz de distancia y cortar el dendrograma en r subgrupos.
Por ejemplo, si el algoritmo de gNMF es corrido aleatoriamente 200 veces, después de las 200 corridas, la matriz de coeficiente de correlación de Pearson de H de la salida de cada una de las 200 corridas de gNMF aleatorias es calculada usando la fórmula descrita antes. Entonces, las matrices de correlación sobre las 200 corridas son promediadas entonces. El resultado de agrupamiento final puede ser derivado al correr un algoritmo de agrupamiento jerárquico usando 1 menos la matriz de correlación promedio como la matriz de distancia y cortar el dendrograma en r subgrupos.
Una vez que el resultado de agrupamiento final es obtenido, el coeficiente de correlación Cofenética, Criterio de información Bayesiano (BIC) o una combinación de la correlación Cofenética y BIC se usa entonces para seleccionar el mejor modelo (a saber, el mejor número de agrupamientos y la mejor asignación de cada muestra hacia uno de los agrupamiento) que refleja más la distribución de los patrones genéticos de estas muestras de línea de células y tumor. La distribución de logaritmo normal puede ser usada en este análisis conforme es usada ampliamente para ajusfar los números de copias de DNA (Hodgson et al. , 2001 ). Para calcular la probabilidad, puede asumirse que muestras en cada agrupamiento viene de la misma distribución multi-logarítmica normal, donde el número de copias promedio de cada segmento siguió una distribución de logaritmo normal. Si la correlación entre segmentos es débil, puede asumirse independencia entre segmentos en el cálculo. En este caso, la fórmula de probabilidad logarítmica resultante es mostrada a continuación en la fórmula (13): en donde r es el número de agrupamientos, n¡ es el número de muestras en el agrupamiento /, m es el número de muestras de los segmentos, yut es el logaritmo de número de copias transformadas del segmento fés mo de la muestra jésima en el agrupamiento iésimot µ? es el promedio de logaritmo de números de copia transformadas del segmento tési o en el agrupamiento ¡ésimoi y s es la desviación estádnar de logaritmo de números de copias transformadas del segmento tésimo en el agrupamiento iésimo. Entonces el número de parámetros, k, en el modelo especificado sería 2xrxm.
Muchas veces, cuando se usa tanto coeficiente de correlación Cofenética y BIC como un criterio para seleccionar el mejor modelo en agrupamiento no supervisado, estos dos algoritmos frecuentemente seleccionarán el mismo modelo.
Un procedimiento de prueba de estabilidad de 10 veces puede ser usado para valorar la estabilidad de los resultados de agrupamiento. La prueba de estabilidad de 10 veces puede ser realizada como sigue. Después de correr gNMF sobre el conjunto de datos y asignar las muestras a agrupamientos, al menos aproximadamente 1 0% de las muestras de línea de células de cáncer y tumor son dejadas fuera y el algoritmo de gNMF modificado descrito antes es corrido una segunda vez sobre el 90% restante de las muestras de líneas de células de cáncer y tumor (si al menos aproximadamente 15% de las muestras de líneas de células de cáncer y tumor son dejadas fuera entonces del algoritmo de gNMF descrito antes serían corridas una segunda vez sobre el 85% restante de las muestras de línea de células de cáncer y tumor, etc.). El número de muestras asignadas a un diferente agrupamiento como un resultado de esta permutación es calculado entonces. La prueba es repetida un número seleccionado de veces (la prueba puede ser repetida de 1 a 1 000 veces. Por ejemplo, la prueba puede ser repetida, 1 vez, 20 veces, 25 veces, 50 veces, 100 veces, 200 veces, 500 veces, 750 veces, 1000 veces, etc.) para derivar una velocidad de error usando técnicas de rutina conocidas en la técnica. Esta tasa de error representa la estabilidad del resultado de agrupamiento con respecto a la permutación de las muestras de líneas de células de cáncer y tumor. Esta prueba de estabilidad de 1 0 veces puede ser usada sobre métodos de agrupamiento no supervisados (por ejemplo, agrupamiento jerárquico) usando los mismos conjuntos de datos (las muestras de líneas de células de cáncer y tumor).
Usando estos métodos, los tumores que alojan células NSCLC y líneas de células de NSCLC pueden ser clasificadas en subgrupos genómicos. Primero, un número suficiente de tumores de NSCLC y líneas de células de NSCLC son agrupados en distintos subgrupos usando la metodología descrita antes. A partir de cada uno de estos subgrupos, al menos una línea celular para cada uno de los subgrupos es seleccionada y adicionada al panel, con cada panel comprendiendo así un subgrupo genómico. El panel resultante representa así de manera adecuada todos los subtipos genómicos de NSCLC. Este panel puede ser usado como modelos pre-clínicos para composición farmacéutica o prueba de medicamento para NSCLC, proporcionando así cobertura extensa de la diversidad genómica del tipo de tumor bajo consideración.
Aplicaciones Tener un panel diagnóstico ensamblado permite sensibilidad incrementada para diagnóstico de NSCLC. No solo puede un sujeto ser diagnosticado ahora para NSCLC, sino que el sujeto también puede ser diagnosticado para un "tipo genómico" de NSCLC con base en la clasificación del genotipo de NSCLC del sujeto en el panel de clasificación. En esta forma, las intervenciones terapéuticas enfocadas pueden ser administradas aumentando el éxito de tratamiento y mejorando la calidad de vida de un sujeto.
En métodos diagnósticos de la invención, una muestra que se sospecha contiene al menos una célula de NSCLC es obtenida. Las células en la muestra son sometidas entonces a análisis de microarreglo, usando las mismas sondas y parámetros que son usados para establecer el panel diagnóstico original, o cualquier otro conjunto de sondas y parámetros que pueden detectar alteraciones de número de copias y el conjunto de datos de los análisis de microarreglo es procesado con el fin de determinar cual subgrupo se asemeja al genotipo de NSCLC del sujeto. El genotipo de NSCLC del sujeto es asignado entonces a ese subgrupo.
A partir de la información del subgrupo, la intervención terapéutica y ensayos pueden ser diseñados. Por ejemplo, conforme los datos se vuelven disponibles sobre éxito de tratamiento como se refiere a genotipos de NSCLC, un sujeto puede ser administrado a aquéllos tratamientos que tienen la más alta probabilidad de tratar NSCLC con base en el genotipo de NSCLC del sujeto y clasificación de subgrupo. En esta forma, el tratamiento de prueba-y-error es enormemente disminuido, ya que la dependencia de los tratamientos más invasivos (cirugías), y el sujeto tiene una mejor probabilidad tanto de remisión como de mayor calidad de vida durante el tratamiento. La calidad de vida del sujeto mejora debido a que los periodos de tratamiento y el número de intervenciones terapéuticas son disminuidos.
Si los tratamientos no son establecidos, pueden determinarse intervenciones terapéuticas al usar los datos de panel de células. Por ejemplo, si las líneas de células, L, U, N, G y S caen en un solo subgrupo, pueden ser sometidas a pruebas in vitro de varias opciones terapéuticas para potencial eficacia. Esas intervenciones terapéuticas que son efectivas para tener un efecto adverso en la mayoría de líneas de células en un agrupamiento representan esas intervenciones más probablemente para tratar de manera efectiva al sujeto.
Las intervenciones terapéuticas para NSCLC incluyen cirugías invasivas (resección de cuña, lobectomía, pneumonectomía y resección de manga), terapia de radiación (incluyendo radiocirugía), quimioterapia, terapia con láser, terapia fotodinámica (administración de composiciones farmacéuticas que sean localmente activadas entonces por luz), terapia biológica (refuerzo del sistema inmune de un sujeto para combatir NSCLC), y "espera vigilante" simple. Las intervenciones quimioterapéuticas incluyen administrar erlotinib, gefitinib, alimta, cisplatina, gemcitamina, paclitaxel, vinorelbina, epirubicina, vindosina, lonidamina, ifosfamida, carboplatina y docetaxel, o combinaciones de los mismos. Combinaciones incluyen cisplatina y epirubicina, vindesina y lonidamina, vindesina y cisplatina, gemcitabina, cisplatina y vinorelbina, paclitaxel e ifosfamida, vinorelbina e ifosfamida, gemcitabina y vineorelbina, paclitaxel y carboplatina; y finalmente, paclitaxel y gemcitabina (Clegg et al. , 2002).
Muestras de tumor y líneas de células representativas pueden ser sometidas a una prueba in vitro que valora la capacidad de una intervención terapéutica para tratar NSCLC. Por ejemplo, las líneas de células pueden ser ensayadas por su susceptibilidad a los diversos agentes de quimioterapia, solos y en combinaciones. Cuando una pluralidad de líneas de células responde de manera similar a una o más intervenciones, entonces aquéllas son seleccionadas para administración al sujeto. Así, los paneles de células pueden ser aumentados mediante datos de tratamiento in vitro, y eventualmente del mundo real, proporcionando una matriz terapéutica basada en los perfiles de número de copias de NSCLC.
En otra modalidad, los métodos de la invención son dirigidos para ensamblar un panel de sonda para clasificar células de NSCLC. La base de datos de sub-grupos genómicos es analizada para la mayoría de anormalidades de número de copias características para cada subgrupo y las sondas son diseñadas para detectar aquellas regiones. Las sondas pueden ser un subconjunto de las sondas usadas en el procedimiento de análisis de microarreglo original, o diseñadas y optimizadas para características particulares. En una modalidad, tales sondas son sondas de FISH. En otra modalidad, tales paneles de sonda son provistos en kits.
En otras modalidades, los kits son provistos para clasificar una célula de NSCLC que contiene, por ejemplo, instrucciones para ensamblar una base de datos que clasifica células de NSCLC mediante subgrupo genómico y al menos una primera, segunda y tercera línea de células, o DNA genómico aislado de la misma, en donde cada línea de células o gDNA representa un subgrupo genómico. Por ejemplo, la primera línea de células o gDNA puede ser HCC827, NCI-H 1437, NCI-H 1563, NCI-H1568, NCI-H1623, NCI-H 1651 , NCI-H1693, NCI-H 1755, NCI-H 1793, NCI-H 1 838, NCI-H 1944, NCI-H 1975, NCI-H 1993, NCI-H2023, NCI-H2073, NCI-H2085, NCI-H2087, NCI-H2122, NCI-H2126, NCI-H2228, NCI-H2291 , NCI-H23, NCI-H2342, NCI-H2347, NCI-H647, NCI-H920, NCI-H969, CLS-54, LX-289, SK-LU-1 , H2882, Calu-6, H358 y H460; la segunda línea de células o gDNA puede ser NCI-H2405, NCI-H522, SK-MES-1 , H 157, H1819, H2009, H2887, HCC1 171 , HCC1359, HCC15, HCC193, HCC366, HCC461 , HCC515, HCC78, HOP-62, HOP-92 y NC1-H266; y la tercera línea de células o gDNA puede ser A549, Calu-3, NIC-H 1 734, NCI-H838 y HCC95. Los kits pueden incluir paneles de sonda, así como líneas de células de control o gDNA que son células de NSCLC normales o no.
Ejemplos Los siguientes ejemplos son para fines ilustrativos solamente y no deberían ser interpretados como limitaciones de la invención reclamada. Existe una variedad de técnicas y procedimientos alternativos disponibles para aquellos de habilidad en la técnica, los cuales le permitirían a uno de manera similar realizar la invención pretendida.
Los métodos de la invención dirigidos a clasificación de NSCLC son resumidos en la FIG. 1 .
Ejemplo 1 : Muestras de tejido y líneas de células Los inventores usaron 57 líneas de células y 245 muestras de tumor para establecer un modelo de clasificación de NSCLC. Las fuentes de líneas de células y tumores usadas en este estudio son listadas en la Tabla 1 anterior. Las muestras de tumor fueron procuradas a partir de u na variedad de fuentes.
Ejem plo 2: Paso 1 : Extracción de DNA e hibridación a arreglos de S NPs El arreglo AFFY ETRIX GENECH IP® Mapping 1 00K Set SNP (Matsuzaki et al. , 2004); (Affymetrix, Inc. , Santa Clara, CA) cubre 1 1 6,204 sitios de polimorfismo de nucleótido simple (SNP) en el genoma humano con una distancia intermarcadora promedio de 23.6 kb. El conjunto de arreglo incluye dos chips, Xba240 y Hind240. Los ensayos fueron realizados de acuerdo con las instrucciones del fabricante. Brevemente, DNA genómico, de alto peso molecular, fue extraído de 30 mg de tejido a partir de cada tumor o 5 x106 células de cada línea celular usando un kit QIAGE N®DNEASY® (Qiagen, Valencia, CA) . Doscientos cincuenta nanogramos de DNA genómico fueron digeridos con ya sea Hindl ll o Xbal. Adaptores (Xbal, 5' tctagagatc aggcgtctgt cgtgctcata a 3' ; SEQ I D NO:2; y Hind\ \\ (5' acgtagatca ggcgtctgtc gtgctcataa 3'; SEQ I D NO:3) fueron ligados entonces a los fragmentos digeridos que reconocen los cuatro pares de bases (bp) sobresalientes. U n iniciador genérico que reconoce la secuencia de adaptador (5' attatgagca cgacagacgc ctgatct 3' SEQ ID NO: 1 ) se usó para amplificar los fragmentos de DNA ligados a adaptador con condiciones de PCR optimizadas para amplificar preferencialmente fragmentos en el rango de tamaño de 250-2,000 bp en un sistema G EN EAMP® PCR 9700 (Applied Biosystems, Foster City, CA) . Después de la purificación con un sistema M I N ELUTE® 96 UF PR purification system (Qiagen), el producto de PCR fue fragmentado, etiquetado con biotina e hibridado al GENECHIP® Mapping 1 00K Set durante 16 horas. Los arreglos fueron lavados usando la Fluidics Station F-450 (Affymetrix) y explorado usando un GENECHIP® Scanner 3000 G7 (Affymetrix). El programa de cómputo de operación GENECHIP® (GCOS) recolectó y extrajo datos característicos de los exploradores GENECHIP®.
Los datos de número de copias también pueden ser adquiridos usando otras plataformas de microarreglo de SNPs o CGH, tales como otras versiones de microarreglos de AFFYMETRIX® SNPs, microarreglos Agilent aCGH (Agilent, Inc. , Santa Clara, CA), microarreglos I LLUMINA® (lllumina, INc , San Diego, CA) y microarreglos N IMBLEGEN® aCHG (Nimblegen, Inc. , Madison, Wl).
Ejemplo 3: Paso 2: Determinación de número de copias y detección de alteraciones de número de copias El programa de cómputo Partek® Genomic SuiteMR (versión 6.08.01 03) (Partek; St. Louis, MO) fue usado para procesamiento de bajo nivel de los datos para determinar los números de copias de cada sitio y definir regiones de alteración de número de copias. Los archivos CEL conteniendo señales para todas las sondas de SNPs fueron cargadas en el programa de cómputo y los números de copias fueron calculados al comparar las intensidades de señales para muestras de líneas de células o tumor a aquéllas para un conjunto de referencia de 48 muestras de tejido femenino normal, corregidos a una línea de base de 2. El conjunto de referencia también puede consistir de otros conjuntos de muestras normales, o tejidos normales emparejados de los mismos pacientes de las muestras de tumor, medidas mediante la misma plataforma de microarreglo.
Los datos de números de copias de nivel de sonda resultante fueron segmentados y las regiones de alteración de número de copias fueron detectadas en cada muestra. De manera específica, los números de copias de nivel de sonda fueron segmentados en regiones usando los siguientes parámetros de control: (i) una región debe contener al menos 100 sondas, (ii) el valor p comparando el número de copias promedio de la región versus las regiones adyacentes debe ser menor que 0.00001 , y (iii) la proporción de señal/ruido de la transición debe ser mayor que 0.1 . Las regiones de alteración de número de copias fueron detectadas cuando los números de copias promedio en estas regiones fueron estadísticamente menores que 1 .65 (supresión) o mayores que 2.65 (ganancia) con valores P por debajo de 0.01 .
La segmentación de número de copias y detección de alteraciones de número de copias también puede ser logrado por otros algoritmos, tal como la segmentación circular binaria (OIshen et al. , 2004), Análisis de ganancia y pérdida de DNA (GLAD) (Hupe et al, 2004), aproximaciones basadas en modelo escondido de Markov (Fridlyand et al., 2004) (Zhao et al., 2004) o métodos de agrupamiento (Wang et al. , 2005), etc. Estos métodos han sido implementados en varios paquetes de programa de cómputo tal como GenePattern (Reich et al . , 2006) y dChip (L¡ y Hung Wong , 2001 ; L¡ y Wong , 2001 ) .
Ejemplo 4: Paso 3: Control de calidad de datos Las muestras de tumor pueden contener un porcentaje significativo de células normales, que diluyen la señal de alteración de número de copias presente en las células de tumor. U n algoritmo de aprend izaje de máquina para captu rar la diferencia entre los patrones de número de copias de muestras normales y de tumor fue desarrollado y entonces se usó para identificar y eliminar muestras contaminadas normales de análisis adicionales. Primero, un subconjunto de muestras con el número más alto de regiones de alteración de número de copias y un conjunto de muestras normales fue seleccionado. Estos dos grupos de muestras fueron usados como un conj unto de entrenamiento para entrenar un algoritmo de aprendizaje de máquina (Random Forest: RF (Breiman, 2001 )) para clasificar m uestras de tumor y normales al sintonizar los parámetros para representar mejor la diferencia entre muestras normales y de tumor. Segundo, el algoritmo clasificador entrenado fue aplicado al resto de las muestras; el clasificador asignó una calificación a cada muestra, donde la calificación representó la probabilidad de la muestra de ser contaminada por células normales. Las muestras que tuvieron calificación de probabilidad sobre 50% de contaminación de células normales fueron excluidas del análisis de agrupamiento.
Ejemplo 5: Paso 4: Suavizado de datos y reducción de dimensiones La densidad de datos de número de copias obtenida mediante microarreg los de S N Ps fue alta y hubo una cantidad significativa de ruido. En consecuencia, los datos de número de copia fueron suavizados para reducir el ruido, dimensionalidad y complejidad del análisis de agrupamiento. Después de detectar regiones significativamente ganadas y suprimidas en cada muestra, las regiones adyacentes fueron fusionadas si tuvieron cambios de número de copias similares y la distancia entre ellas fue menor que 500 kb. Los segmentos de DNA fueron formados al usar la unión de puntos de ruptura de todas las muestras en un conjunto de datos. El número de copias promedio de sondas dentro de cada segmento fue usado para análisis adicional. Este paso permitió una resolución más clara de ganancias y supresiones de DNA en un análisis de alto rendimiento.
Ejem plo 6: Paso 5. Análisis de agrupamiento piloto usando agrupamiento jerárquico para determ inar el número posible de subgrupos Para cada conjunto de datos, los inventores agruparon jerárquicamente los datos de CGH de líneas de células y tumor usando disimilitud de Pearson (definida como ( 1 - r)/2, donde r es la correlación de Pearson). Los patrones de agrupamiento jerárquico fueron graficados e inspeccionados visualmente para derivar un rango de posibles números de subgrupos en el conj unto de datos.
Estos números fueron usados entonces como entrada en el análisis de agrupamiento usando Factorización de matriz no negativa.
Ejemplo 7: Paso 6: Agrupamiento de gNMF de los datos de CGH de línea de células y tumor El algoritmo de gNMF fue usado para clasificar los datos de CGH de línea de células de tumor, usando el rango de números de agrupamiento determinado en el paso 5. Con cada número de agrupamiento, el algoritmo de gNMF fue corrido 200 veces usando el criterio de paro que desarrollamos. Los modelos de clasificación fueron derivados entonces mediante agrupamiento jerárquico en 1 menos el promedio de matriz de correlación de H.
Ejemplo 8: Paso 7: Selección usando correlación Cofenética y Criterio de información bayesiano (BIC) El procedimiento de gNMF anterior fue corrido con varios valores r posibles (número de subgrupos) elegidos en el análisis de agrupamiento jerárquico inicial y varios modelos con diferentes números de subgrupos fueron construidos. El coeficiente de correlación Cofenética y Criterio de información bayesiano (BIC) fueron usados entonces para seleccionar el mejor modelo (el número de subgrupos y la asignación de cada muestra en uno de los subgrupos) que reflejó mejor la distribución de los patrones genéticos de las muestras de línea de célula y tumor.
Tanto el coeficiente de correlación Cofenética como BIC fueron usados como un criterio para seleccionar el modelo que mejor reflejó la distribución de los patrones genéticos de las muestras de línea de célula y tumor en el agrupamiento no supervisado. Se encontró que estos dos criterios frecuentemente señalan al mismo modelo. Después de elegir el mejor modelo, cada una de las muestras de tumor de NSCLC y líneas de células fueron asignadas a uno de los subgrupos genómicos con base en el modelo seleccionado. Muestras de tumor de NSCLC adicionales perfiladas en el futuro también pueden ser asignadas a uno de los subgrupos con base en su patrón genómico.
Ejemplo 9: Paso 8: Prueba de estabilidad de diez veces de estabilidad de agrupamiento Un procedimiento de prueba de estabilidad de 10 veces fue desarrollado para valorar la estabilidad de los resultados de clasificación. Después de correr gNMF en un conjunto de datos y asignar muestras de línea de célula y tumor a subgrupos, 10% de muestras fueron dejadas aleatoriamente afuera y el mismo procedimiento fue aplicado al 90% restante de las muestras. El número de muestras que fue asignado a un diferente subgrupo mediante esta permutación fue calculado. Esta prueba de dejar fuera fue repetida 200 veces para derivar una tasa de error, la cual representa la estabilidad del resultado de agrupamiento con respecto a la permutación de muestras. La estabilidad de agrupamiento jerárquico usando el mismo procedimiento para los mismos conjuntos de datos también fue valorada y se encontró que era siempre mucho mayor que aquélla de agrupamiento de g NMF.
Ejemplo 10: Resultados Pasos 1 -2. Las 302 muestras de línea de célula y tumor de NSCLC fueron preparadas, y los datos fueron procesados como se describe en los Ejemplos 2 y 3. Un total de 1 141 9 segmentos con un número de copia significativamente alterado fueron detectados.
Paso 3. El procedimiento de control de calidad de datos fue aplicado a los datos de NSCLC CHG. N inguna muestra de tumor fue encontrada significativamente contaminada por células normales. Todas las muestras fueron usadas en el análisis.
Paso 4. La dimensionalidad de los datos de CGH fue reducida a 81 72 segmentos.
Paso 5. El agrupamiento jerárquico fue usado como un análisis inicial sobre el conjunto de datos de NSCLC para estimar el n úmero de agrupamientos. El dendrograma del agrupamiento es mostrado en la FIG. 2. I nspección visual del dendrograma sugirió la existencia de 3-8 agrupamientos principales en los datos.
Paso 6. El algoritmo de gNMF fue usado para clasificar los datos de CGH de línea de células y tumores, usando los números de agrupamiento en el rango de 3-8. Con cada número de agrupamiento, el algoritmo de gNMF fue corrido 200 veces usando el criterio de paro que desarrollamos. Los modelos de clasificación fueron derivados entonces mediante agrupamiento jerárquico en 1 menos el promedio de la matriz de correlación de H.
Paso 7. La correlación Cofenética y BIC fueron calculados para los modelos de gNMF equipados en el paso 6. Los resultados son listados en la Tabla 2, donde r denota el número de agrupamientos en cada modelo. A partir de los resultados mostrados en la Tabla 2, los inventores encontraron que el modelo con 4 agrupamientos tuvo el BIC más pequeño, y que entre los números de agrupamiento 4 y 5, la correlación Cofenética mostró la mayor disminución. Por lo tanto, 4 agrupamientos fue la mejor elección para este conjunto de datos. El mapa de calor de la salida de gNMF con 4 agrupamientos es mostrado en la FIG. 3.
Tabla 2 Correlación Cofenética y BIC para modelos usando diferentes números de agrupamiento Las 245 muestras de tumor de NSCLC fueron clasificadas en 4 subgrupos con base en su patrón de alteraciones de número de copias y las líneas de células fueron asignadas a subgrupos apropiados. Los números de muestras de tumor y las identidades de líneas de células para cada agrupamiento son listados en la Tabla 3.
Tabla 3 Números de tumores de NSCLC y las identidades de líneas de células en cada subgrupo de NSCLC Agrupamientos Números de Líneas de células tumores Agrupamiento A 19 HCC827, NCI-H1437, NCI-H1563, NCI-H1568, NCI-H1623, NCI-H1651, NCI-H1693, NCI-H1755, NCI-H1793, NCI-H1838, NCI-H1944, NCI-H1975, NCI-H1993, NCI-H2023, NCI-H2073, NCI-H2085, NCI-H2087, NCI-H2122, NCI-H2126, NCI-H2228, NCI-H2291, NCI-H23, NCI-H2342, NCI-H2347, NCI-H647, NCI-H920, NCI-H969, CLS-54, LX-289, S -LU-1, H2882, Calu-6, H358, H460 Agrupamiento B 60 NCI-H2405, NCI-H522, SK- ES- , H157, H1819, H2009, H2887, HCC1171, HCC1359, HCC15, HCC193, HCC366, HCC461, HCC515, HCC78, HOP-62, HOP-92, NCI-H266 Agrupamiento C A549, Calu-3, NCI-H1734, NCI- H838, HCC95 Agrupamiento D Paso 8. La prueba de estabilidad de 10 veces fue aplicada al modelo de gNMF con 4 agrupamientos. La tasa de error fue 14.24%. Como una comparación, el dendrograma de agrupamiento jerárquico derivado usando los datos de número de copias suavizados en el paso 5 en 3-8 agrupamientos fue cortado, y la estabilidad de los agrupamientos usando la misma prueba de 10 veces fue probada. Las tasas de error fueron 19.45% - 25.65%, mucho mayores que aquéllas del modelo de gNMF.
Los cuatro subgrupos definidos por el procedimiento de agrupamiento realizaron patrones distintos de aberraciones genómicas, implicando diferentes orígenes y mecanismos tumorigénicos. Esta observación sugiere que los diferentes subgrupos manifestarán comportamientos clínicos y sensibilidades distintas a intervenciones terapéuticas, característicos de cada sub grupo.
Ejemplo 11 : Validación de los resultados de agrupamiento genómico usando muestras de tumor de resultado anotado Para determinar si los agrupamientos genómicos de NSCLC identificados tienen diferencias biológicamente significativas, dos conjuntos de muestras de tumor fueron usados con anotación de resultado de enfermedad. Dos parámetros de resultado fueron usados, tiempo para recurrencia (TTR) y supervivencia global (OS).
Entre las 245 de muestras de tumor de NSCLC usadas en la clasificación de NSCLC (Ver, Ejemplo 1 ), información de resultado de enfermedad (supervivencia global y tiempo para recurrencia) estuvo disponible de 1 1 1 muestras recolectadas en el Rush University Medical Center, Chicago, Illinois. Los números de muestras de resultado anotado en los agrupamientos 1 , 2, 3 y 4 fueron 9, 3, 21 y 78, respectivamente. Una prueba de rango logarítmico comprendiendo sus TTRs mostró un valor P significativo de 0.0006. Debido a que solo tres muestras en el agrupamiento 2, se hace un esfuerzo para combinar muestras en el agrupamiento 1 y agrupamiento 2 juntos. Las muestras combinadas tuvieron TTR significativamente menores que los otros 2 agrupamientos con valor P de 0.0397. Las curvas de Kaplan-Meier son mostradas en la FIG. 4.
Para validar adicionalmente el algoritmo de agrupamiento no supervisado para clasificación de cáncer con base en las alteraciones de número de copias y los modelos de líneas de células seleccionados para representar diferentes subgrupos de pacientes de cáncer, un estudio adicional usando 71 muestras de tumor de NSCLC (Tabla 4, a continuación) fue usado con información de resultado asociada.
Tabla 4 Muestras de validación y fuentes ID de muestra Fuente SML-007 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-008 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-012 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-013 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-014 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-019 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-047 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-048 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-053 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-070 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-071 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-083 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-086 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-093 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-094 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-095 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-096 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-103 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-107 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-1 10 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-1 1 1 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-1 18 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-1 19 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-120 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-122 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-123 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-137 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-138 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-141 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-142 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-143 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-144 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-176 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-192 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-198 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-209 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-231 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-232 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-237 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-239 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-244 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-055 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-088 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-01 8 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-021 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-024 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-028 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-029 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-030 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-031 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-033 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-035 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-037 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-039 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-040 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-041 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-044 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-062 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-064 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-067 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-068 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-079 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-080 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-091 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-092 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-099 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-100 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-105 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-1 16 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-147 Samsung Medical Center, Seúl, Corea (Dr. Kim) SML-203 Samsung Medical Center, Seúl, Corea (Dr. Kim) Las muestras fueron procesadas, El DNA fue extraído, amplificado e hibridado a arreglos Affymetrix SNP 6.0 siguiendo protocolos experimentales Affymetrix (Ver, Ejemplo 2-3). El número de copias de estos tumores fue calculado al comparar con un conjunto HapMap de 270 controles normales. El número de copias fue segmentado usando el programa de cómputo Partek 6.09.0310 (Ver, Ejemplo 3).
Para asignar las muestras de validación a los cuatro agrupamientos de NSCLC, los coeficientes de correlación de Pearson de las muestras de tumor de resultado anotado fueron calculados para cada una de las líneas de células representativas de los primeros tres agrupamiento (Ver los Ejemplos 4-9), Debido a que el cuarto agrupamiento no tuvo línea de células representativa, todas las muestras de tumor en el 4o agrupamiento fueron usadas como sus representantes y se calculó su coeficiente de correlación de Pearson a las muestras de validación. Las muestras de validación fueron asignadas entonces al agrupamiento que contenía la línea de células o tumor representativo que tiene el coeficiente de correlación más alto con la muestra de validación. Finalmente, las diferentes en TT y OS de las muestras de validación asignadas en agrupamientos diferentes fueron comparados usando una prueba de rango logarítmico y se graficaron sus curvas de Kaplan-Meier (Ver, Ejemplos 4-9).
La diferencia en TTR entre los cuatro agrupamientos es significativa con un valor P de 0.0454 para las muestras de validación. Adicionalmente, la curva de Kaplan- eier mostró un TTR significativamente menor para las muestras en el agrupamiento 1 en relación a los otros agrupamientos (Ver, FIG. 5). Si las muestras en los agrupamientos 2, 3 y 4 son combinadas y comparadas con las muestras en el agrupamiento 1 , el valor P es 0.0094.
La diferencia en OS entre los 4 agrupamientos no fue significativa (valor P - 0.25) para las muestras de validación, pero la curva de Kaplan-Meier mostró una tendencia de OS menor para muestras en agrupamiento 1 en relación a los demás agrupamientos (Ver, FIG. 6). Si las muestras en agrupamientos 2, 3 y 4 se combinan y comparan con muestras en el agrupamiento 1 , el valor P es marginalmente significativo (valor P = 0.1 16).
De manera alternativa, todos los tumores y líneas de células en nuestros agrupamientos ya definidos se usaron para representar los agrupamientos y se asignaron las muestras de validación a los cuatro agrupamientos mediante el coeficiente de correlación de Pearson más alto entre las muestras de validación y las muestras existentes. En este análisis, tanto TTR y OS mostraron diferencias significativas entre los cuatro agrupamientos con valores P de 4.7E-5 y 0.0024, respectivamente. Las muestras asignadas al agrupamiento 1 tuvieron un TTR y OS significativamente menores que muestras asignadas a otros agrupamientos (Ver, FIG. 7).
Para concluir, las muestras de resultado anotado fueron usadas en el conjunto de datos así como muestras independientes para determinar si los agrupamientos genómicos de NSCLC identificados tienen diferentes biológicamente significativas. Los resultados muestran que los agrupamientos difieren significativamente en tiempo de recurrencia y supervivencia global de pacientes, indicando que la clasificación genómica se correlaciona con diferentes en el curso de la enfermedad, y las líneas de células representando agrupamientos diferentes pueden usarse como modelos para predecir diferentes resultados clínicos.
Referencias Anand, S. , S. Penrhyn-Lowe, y A. R. Venkitaraman. 2003. AURORA-A amplification overrides the mitotic spindle assembly checkpoint, inducing resistance to Taxol. Cáncer Cell 3:51 -62.
Ausubel, F. M. 1987. Current protocols in molecular biology.
Greene Publishing Associates; J. Wiley, order fulfillment, Brooklyn, N Y Media, Pa 2 v (loose-leaf) pp.
Bhattacharjee, A. , W. G. Richards, J. Staunton, C. Li, S. Monti, P. Vasa, C. Ladd, J. Beheshti, R. Bueno, M. Gillette, M. Loda, G. Weber, E.J. ark, E.S. Lander, W. Wong, B.E. Johnson, T.R. Golub, D.J. Sugarbaker, y M. Meyerson. 2001 Classification of human lung carcinomas by mRNA expression profiling reveáis distinct adenocarcinoma subclasses. Proc Nati Acad Sci USA 98: 13790-5.
Borg, I, and P. Groenen, 2005. Modern Multidimensional Scaling: theory and applications. Springer, New York.
Breiman, L. 2001 . Random Forests. Machine learning. 45:5-32.
Brunet, J. P. , P. Tamayo, T.R. Golub, y J. P. Mesirov. 2004. Metagenes and molecular pattern discovery using matrix factorization. Proc Nati Acad Sci US. 101 :4164-9.
Carrasco, D.R., G. Tonon, Y. Huang, Y. Zhang, R Sinha, B. Feng, J.P. Stewart, F. Zhan, D. Khatry, M. Protopopova, A. Protopopov, K. Sukhdeo, I. Hanamura, O. Stephens, B. Barlogie, K. C. Anderson, L. Chin, J.D. Shaughnessy, Jr., C. Brennan, y R.A. Depinho. 2006 High-resolution genomic profiles define distinct clinico-pathogenetic subgroups of múltiple myeloma patients. Cáncer Cell. 9:313-25.
Clegg, A, D.A. Scott, P. Hewitson, M. Sidhu, y N. Waugh. 2002. Clinical and cost effectiveness of paclitaxel, docetaxel, gemcitabine, and vinorelbine in non-small cell lung cáncer: a systematic review. Thorax. 57-20-8.
Efron, B. , T Hastie, I. Johnstone, and R. Tibshirani. 2004. Least angle regression. Annals of Statistics. 32:407-499.
Fodor, S.P. , J.L. Read, M.C. Pirrung, L. Stryer, A.T. Lu, y D.
Solas. 1991 . Light-directed, spatially addressable parallel chemica! synthesis. Science. 251 :767-73.
Fridlyand, J. , A.M. Smjders, D. Pinkel, D.G. Albertson, y A.N. Jain. 2004. Hidden Markov models approach to the analysis of array CGH data. Journal of Multivariate Analysis 90: 132-153.
Hedenfalk, I., M. Ringner, A. Ben-Dor, Z. Yakhini, Y. Chen, G.
Chebil, R. Ach, N. Loman, H. Olsson, P. Meltzer, A. Borg, y J. Trent. 2003. Molecular classification of familial non-BRCAI/BRCA2 breast cáncer. Proc Nati Acad Sci US. 100:2532-7.
Hirsch, F. R., M Varella-Garcia, P.A. Bunn, Jr. , W.A. Franklin, R. Dziadziuszko, N. Thatcher, A. Chang, P. Parikh, J.R. Pereira, T. Ciuleanu, J. von Pawel, C. Watkins, A. Flannery, G. Ellison, E. Donald, L. Knight, D. Parums, N. Botwood, y B. Holloway. 2006. Molecular predictors of outcome with gefitinib in a phase III placebo-controlled study in advanced non-smali-cell lung cáncer. J Clin Oncol. 24:5034-42.
Hodgson, G., J.H. Hager, S. Volik, S. Hariono, M. Wernick, D. Moore, N. Nowak, D.G. Albertson, D. Pinkel, C. Collins, D. Hanahan, y J.W. Gray. 2001 . Genome scanning with array CGH delineates regional alterations in mouse islet carcinomas. Nat Genet 29:459-64 Hoffman, P.C., A.M. Mauer, y E.E. Vokes. 2000. Lung cáncer. Lancet. 355:479-85.
Holland, P.M. , R.D. Abramson, R. atson, y D.H. Gelfand. 1991. Detection of specific polymerase chain reaction product by utilizing the 5' — 3' exonuclease activity of Thermus aquaticus DNA polymerase. Proc Nati Acad Sci US 88:7276-80.
Hupe, P., N. Stransky, J.P. Thiery, F. Radvanyi, y E. Barillot. 2004 Analysis of array CGH data: from signal ratio to gain and loss of DNA regions. Bioinformatics. 20:34 3-22.
Innis, M.A. 1990. PCR protocols: a guide to methods and applications Academic Press, San Diego, xviii, 482 p. pp.
Innis, .A. , D.H. Gelfand, y J.J. Sninsky. 1995. PCR strategies. Academic Press, San Diego, xv, 373 p. pp.
Lee, D.D. , y H.S. Seung. 1999. Learning the parts of objects by non-negative matrix factorization. Nature 401 :788-91 .
Lee, D.D., y H.S. Seung. 2001 . Aigorithms for Non-negative Matrix Factorization Advances In Neural Information Processing Systems. 14:556-562.
Levsky, J.M. , y R.H. Singer. 2003. Fluorescence in situ hybridization: past, present and future. J Cel! Sci. 1 16:2833-8.
Li, C, y W. Hung Wong 2001 Model-based analysis of oligonucleotide arrays: model validation, design issues and standard error application. Genome Biol. 2:RESEARCH0032.
Li, C, y W. H. Wong. 2001 . Modei-based analysis of oligonucleotide arrays: expression index computation and outlier detection. Proc Nati Acad Sci US 98:31 -6.
Maher, E.A. , C. Brennan, P.Y. Wen, L. Durso, K.L. Ligón, A. Ríchardson, D. Khatry, B. Feng, R Sinha, D. N. Louis, J Quackenbush, P.M. Black, L. Chin, y R.A. DePinho. 2006. Marked genomic differences characterize primary and secondary glioblastoma subtypes and identify two distinct molecular and clinical secondary glioblastoma entities. Cáncer Res. 66:1 1502-13.
Matsuzaki, H., S. Dong, H. Loi, X. Di, G. Liu, E. Hubbell, J. Law, T. Berntsen, M. Chadha, H. Hin, G. Yang, G.C. Kennedy, T.A. Webster, S. Cawley, P.S. Walsh, K.W. Jones, S.P. Fodor, and R. Mei. 2004. Genotyping over 100,000 SNPs on a pair of oligonucleotide arrays. Nat Methods. 1 : 109-1 1 .
McPherson, M.J., G.R. Taylor, y P. Quirke. 1991. PCR, a practical approach. IRL Press en Oxford University Press, Oxford; Nueva York. xxi, 253 p. pp.
Olshen, A.B., E.S. Venkatraman, R. Lucito, y M. Wigler. 2004. Circular binary segmentation for the analysis of array-based DNA copy number data. Biostatistics. 5:557-72.
Parkin, D. . 2001. Global cáncer statistics in the year 2000.
Lancet Oncol. 2:533-43.
Pearson, K. 1901 . On Lines and Planes of Closest Fit to Systems of Points in Space. Philosophical Magazine. 2:559-572.
Reich, M., T. Liefeld, J. Gould, J. Lerner, P. Tamayo, y J.P. Mesirov. 2006. GenePattern 2.0 Nat Genet. 38:500-1 .
Ross, D.T., U. Scherf, . B. Eisen, C. . Perou, C. Rees, P. Spellman, V. lyer, S.S. Jeffrey, M. Van de Rijn, M. Waltham, A. Pergamenschikov, J.C. Lee, D. Lashkari, D. Shalon, T.G. Myers, J.N. Weinstein, D. Botstem, y P.O. Brown. 2000. Systematic variation in gene expression patterns in human cáncer cell lines. Nat Genet. 24:227-35.
Saiki, R.K., T.L. Bugawan, G.T. Horn, .B. Mullís, y H.A. Erlich. 1986 Analysis of enzymatically amplified beta-globin and HLA-DQ alpha DNA with allele-specific oligonucleotide probes. Nature. 324:163-6.
Sambrook, J., y D.W. Russell. 2001 . Molecular cloning: a laboratory manual. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.
Seeger, R.C., G.M. Brodeur, H. Sather, A. Dalton, S.E. Siegel, K.Y. Wong, y D. Hammond. 1985. Association of múltiple copies of the N-myc oncogene with rapid progression of neuroblastomas. N Engl J Med. 313:1 1 1 1 -6.
Sninsky, J.J. , M.A. Inm's, y D.H. Gelfand. 1999. PCR applications: protocols for functional genomics. Academic Press, San Diego, xviii, 566 p, [3] p. of plates pp.
Sotiriou, C, S.Y. Neo, L.M. McShane, E.L. Korn, P.M. Long, A. Jazaeri, P. artiat, S.B. Fox, A.L. Harris, y E.T. Liu. 2003. Breast cáncer classification and prognosis based on gene expression profiles from a population-based study. Proc Nati Acad Sci US. 100: 10393-8.
Travis, W.D. , y L. H. Sobin. 1999. Histological typing of lung and pleural tumours Springer-Verlag, Berlín; New York, xii, 156 p. pp.
Vapnik, V. 1995. The nature of statistical learning theory.
Springer-Verlag, Nueva York.
Vogel, C L , M A Cobleigh, D. Tripathy, J.C. Gutheil, L.N. Harris, L. Fehrenbacher, D.J . Slamon, M. urphy, .F. Novotny, M. Burchmore, S. Shak, S.J. Stewart, y M. Press. 2002. Efficacy and safety of trastuzumab as a single agent in first-line treatment of HER2-overexpressing metastatic breast cáncer. J Clin Oncol. 20: 1 9-26.
Wang, P., Y. Kim, J. Pollack, B. Narasimhan, y R. Tibshirani. 2005. A method for calling gains and losses in array CGH data. Biostatistics. 6:45-58.
Wilhelm, M., J .A. Veltman, A.B. Olshen, A.N. Jain, D.H. oore, J.C. Prestí, Jr., G. Kovacs, y F.M. Waldman. 2002. Array-based comparative genomic hybridization for the differential diagnosis of renal cell cáncer Cáncer Res. 62:957-60.
Zhang, X., X. Lu, Q. Shi, X.Q. Xu, H.C. Leung, L.N. Harris, J.D. Iglehart, A. Mirón, J.S. Liu, y W.H. Wong. 2006. Recursive SVM feature selection and sample classification for mass-spectrometry and microarray data. BMC Bioinformatics. 7: 197.
Zhao, X., C. Li, J.G. Paez, K. Chin, P.A. Janne, T.H. Chen, L. Girard, J. Minna, D. Christiani, C. Leo, J.W. Gray, W.R. Seliers, y M. Meyerson. 2004. An integrated view of copy number and allelic alterations in the cáncer genome using single nucleotide polymorphism arrays. Cáncer Res. 64:3060-71 .
Zhao, X., B.A. Weir, T. LaFramboise, M. Lin, R. Beroukhim, L. Garraway, J. Beheshti, J.C. Lee, K. Naoki, W.G. Richards, D. Sugarbaker, F. Chen, M.A. Rubín, P.A. Janne, L. Girard, J. Minna, D. Christiani, C. Li, W. R. Seliers, y M. Meyerson. 2005. Homozygous deletions and chromosome amplifications in human lung carcinomas revealed by single nucleotide polymorphism array analysis. Cáncer Res. 65:5561 -70.

Claims (23)

REIVINDICACIONES
1 . Un método para obtener una base de datos de subgrupos genómicos de carcinoma de pulmón de células no pequeñas, comprendiendo el método los pasos de: (a) obtener una pluralidad de muestras m comprendiendo al menos una célula de NSCLC, en donde las muestras comprenden líneas de células o tumores; (b) adquirir un conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (a); (c) identificar en las muestras de conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (d) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (e) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gN F) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 1 00 pasos de actualización multiplicativa usando la fórmula (1 1 ): en donde Vu es la iesima fila y la s,ma columna de matriz V, (WH)¡¡ es la ¡ésima fila y la jiésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (e) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula (12): en donde C es la matriz de correlación, C(J es la iésima fila y la jésima columna en la matriz C, H,¡ y HtJ son el iésim° y yé ? /no vector de columna en la matriz H, p(H¡¡ H ) es el coeficiente de correlación de Pearson entre Ht¡ y H , i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r r es el número de subgrupos del paso (d); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (e)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (e)(4) y cortar un dendrograma en agrupamientos r; (f) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (g) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (f) usando una prueba de estabilidad de diez veces.
2. Un método para clasificar una línea de células o tumor de NSCLC, comprendiendo: (a) proporcionar una base de datos, desarrollada a través de un método que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de célula o NSCLC; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula (1 1 ): en donde Vu es la iesima fila y la j'és""a columna de matriz V, (WH)¡¡ es la iésima fila y la jiésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula (12): en donde C es la matriz de correlación, C, es la iésima fila y la jés!ma columna en la matriz C, H,, y H son el /ésímo y jésimo vector de columna en la matriz H, p(H¡ HJ es el coeficiente de correlación de Pearson entre ? ,· y H y, /' y / corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar m uestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupam iento final define un subgrupo genómico para cada m uestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (b) proporcionar una muestra que se sospecha contiene células de NSCLC, (c) adquirir un segundo conjunto de datos, muestra V, comprendiendo información de alteración de número de copias a partir del mismo al menos un sitio del paso (ii); y (d) clasificar la muestra de muestra V, al comparar la muestra V con los agrupamientos determinados en los pasos (i)-(vii).
3. El método de la reivindicación 1 o 2, en donde el algoritmo de agrupamiento no supervisado es un agrupamiento jerárquico.
4. El método de la reivindicación 1 o 2, en donde la correlación Cofenética es usada para proporcionar un número final de agrupamientos a partir del conjunto de datos.
5. El método de la reivindicación 1 o 2, en donde el Criterio de información bayesiano es usado para proporcionar un número final de agrupamientos a partir del conjunto de datos.
6. El método de la reivindicación 1 o 2, en donde la correlación Cofenética y Criterio de información bayesiano se usan para proporcionar un número final de agrupamientos a partir del conjunto de datos.
7. El método de la reivindicación 1 o 2, en donde la pluralidad de muestras, m, comprende una primera, segunda y tercera línea de células, en donde la primera línea de células es seleccionada del grupo que consiste de HCC827, NCI-H 1437, NCI-H 1563, NCI-H1568, NCI-H 1623, NCI-H 1651 , NCI-H 1693, NCI-H 1755, NCI-H 1793, NCI-H1838, NCI-H1944, NCI-H 1 975, NCI-H1993, NCI-H2023, NCI-H2073, NCI-H2085, NCI-H2087, NCI-H2122, NCI-H2126, NCI-H2228, NCI-H2291 , NCI-H23, NCI-H2342, NCI-H2347, NCI-H647, NCI-H920, NCI-H969, CLS-54, LX-289, SK-LU-1 , H2882, Calu-6, H358 y H460; la segunda línea de células es seleccionada del grupo que consiste de NCI-H2405, NCI-H522, SK-MES-1 , H157, H 1819, H2009, H2887, HCC1 171 , HCC1359, HCC15, HCC193, HCC366, HCC461 , HCC515, HCC78, HOP-62, HOP-92 y NCI-H266; y la tercera línea de células es seleccionada del grupo que consiste de A549, Calu-3, NCI-H 1734, NCI-H838 y HGC95.
8. El método de la reivindicación 1 o 2, en donde la pluralidad de muestras, m, consiste de líneas de células CLS-54, LX-289, SK-LU-1 , SK-MES-1 -H157, H1819, H2009, H2882, H2887, HCC1 171 , HCC1359, HCC15, HCC193, HCC366, HCC461 , HCC515, HCC78, HCC95, HOP-62, HOP-92, NCI-H266, NCI-H 1437, NCI-H1563, NCI-H 1568, NCI-H 1623, NCI-H 1651 , NCI-H 1693, NCI-H1734, NCI-H1755, NCI-H 1793, NCI-H 1838, NCI-H 1944, NCI-H 1975, NCI-H1993, NCI-H2023, NCI-H2073, NCI-H2085, NCI-H2087, NCI-H2122, NCI-H2126, NCI-H2228, NCI-H2291 , NCI-H23, NCI-H2342, NCI-H2347, NCI-H2405, NCI-H522, NCI-H647, NCI-H838, NC1-H920, NCI-H969, A549, Calu-3, HCC827, Calu-6, H358 y H460.
9. Un método para clasificar una intervención terapéutica para detener o matar células de carcinoma de pulmón de células no pequeñas (NSCLC), que comprende: (a) a partir de un panel de células NSCLC clasificadas de acuerdo con subgrupos genómicos, seleccionado al menos una línea de células de NSCLS de cada subgrupo, en donde el panel es ensamblado a partir de un método que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de célula o NSCLC; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula (1 1 ): en donde V¡¡ es la iésima fila y la jiésima columna de matriz V, (WH) es la iés!ma fila y la j'ésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula (12):
CLJ = p(fít¡,Hj) = 1 , (12) %,¾, en donde C es la matriz de correlación, Cu es la ies,ma fila y la jés'wa columna en la matriz C, Ht¡ y H son el /ósímo y jésimo vector de columna en la matriz H, p(Hih H ) es el coeficiente de correlación de Pearson entre H ,· y H,¡, i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (viii) seleccionar al menos una célula de NSCLC de cada agrupamiento seleccionado en el paso (vi) y ensamblar en paneles definidos de acuerdo con subgrupos genómicos. (b) contactar la al menos una célula de NSCLC de cada subgrupo con la intervención terapéutica; (c) ensayar la efectividad de la intervención terapéutica para detener o matar la al menos una célula de NSCLC de cada subgrupo; (d) clasificar la intervención terapéutica de acuerdo con la efectividad de la intervención terapéutica para detener o matar la al menos una célula de NSCLC de cada subgrupo, en donde detener o matar la al menos una célula de NSCLC de un subgrupo, pero no otra indica especificidad de la intervención terapéutica para detener o matar células de NSCLC de ese subgrupo. 10. El método de la reivindicación 9, en donde el algoritmo de agrupamiento no supervisado es un agrupamiento jerárquico.
1 1 . El método de la reivindicación 9, en donde la correlación Cofenética es usada para proporcionar un número final de agrupamientos a partir del conjunto de datos.
12. El método de la reivindicación 9, en donde el Criterio de información bayesiano es usado para proporcionar un número final de agrupamientos a partir del conjunto de datos.
13. El método de la reivindicación 9, en donde la correlación Cofenética y Criterio de información bayesiano se usan para proporcionar un número final de agrupamientos a partir del conjunto de datos.
14. El método de la reivindicación 9, en donde las células de NSCLC son a partir de una línea de células.
15. El método de la reivindicación 9, en donde la pluralidad de muestras, m, comprende una primera, segunda y tercera línea de células, en donde la primera línea de células es seleccionada del grupo que consiste de HCC827, NCI-H1437, NCI-H1563, NCI-H1568, NCI-H1623, NCI-H1651, NCI-H1693, NCI-H1755, NCI-H1793, NCI-H1838, NCI-H1944, NCI-H1975, NCI-H1993, NCI-H2023, NCI-H2073, NCI-H2085, NCI-H2087, NCI-H2122, NCI-H2126, NCI-H2228, NCI-H2291, NCI-H23, NCI-H2342, NCI-H2347, NCI-H647, NCI-H920, NCI-H969, CLS-54, LX-289, SK-LU-1, H2882, Calu-6, H358 y H460; la segunda línea de células es seleccionada del grupo que consiste de NCI-H2405, NCI-H522, SK-MES-1, H157, H1819, H2009, H2887, HCC1171, HCC1359, HCC15, HCC193, HCC366, HCC461, HCC515, HCC78, HOP-62, HOP-92 y NCI-H266; y la tercera línea de células es seleccionada del grupo que consiste de A549, Calu-3, NCI-H1734, NCI-H838 y HCC95.
16. El método de la reivindicación 9, en donde la pluralidad de muestras, m, consiste de líneas de células CLS-54, LX-289, SK-LU-1, SK-MES-1-H157, H1819, H2009, H2882, H2887, HCC1171, HCC1359, HCC15, HCC193, HCC366, HCC461, HCC515, HCC78, HCC95, HOP-62, HOP-92, NCI-H266, NCI-H1437, NCI-H1563, NCl-H1568, NCI-H1623, NCI-H1651, NCI-H1693, NCI-H1734, NCI-H1755, NCI-H1793, NCI-H1838, NCI-H1944, NCI-H1975, NCI-H1993, NCI-H2023, NCI-H2073, NCI-H2085, NCI-H2087, NCI-H2122, NCI-H2126, NCI-H2228, NCI-H2291, NCI-H23, NCI-H2342, NCI-H2347, NCI-H2405, NCI-H522, NCI-H647, NCI-H838, NCI-H920, NCI-H969, A549, Calu-3, HCC827, Calu-6, H358 y H460.
17. El método de la reivindicación 9, en donde la invención terapéutica comprende al menos una seleccionada del grupo que consiste de terapia de radiación, quimioterapia, terapia de láser, fotodinámica y terapia biológica.
18. El método de la reivindicación 1 7, en donde la intervención terapéutica es quimioterapia, y la quimioterapia comprende administrar al menos una composición farmacéutica comprendiendo un agente activo seleccionado del grupo que consiste de erlotinib, geftinib, alimta, cisplatina, gemcitabina, paclitaxel, vinorelbina, epirubicina, vindesina, lonidamina, ifosfamida, carboplatina y docetaxel e ifosfamida.
19. El método de la reivindicación 18, en donde la quimioterapia comprende administrar dos o más agentes activos.
20. Un método para ensamblar un panel de sonda para clasificar una célula de NSCLC a partir de una muestra, comprendiendo: (a) ensamblar una base de datos, que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de célula o NSCLC; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula (1 1 ): en donde Vu es la ié5ima fila y la jiésima columna de matriz V, (WH)¡j es la /ds/ma fila y la jiési a columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de m uestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no dismin uye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 1 00 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórm ula (12): en donde C es la matriz de correlación, Cu es la iésiwa fila y la jésima columna en la matriz C, H y H:j son el /ésímo y jésimo vector de columna en la matriz H, p{ ¡ HJ es el coeficiente de correlación de Pearson entre H y H , i y j corren desde 1 hasta m y m es el n úmero de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento fina! define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (viii) seleccionar al menos una muestra de cada agrupamiento seleccionado en el paso (vi) y ensamblar en paneles definidos de acuerdo con subgrupos genómicos; (b) analizar la base de datos del paso (a) para determinar anormalidades de número de copias características para cada subgrupo; (c) diseñar una pluralidad de sondas con base en las anormalidades de número de copias características determinadas para cada subgrupos y asignar cada sonda a un subgrupo genómico.
21 . Un kit comprendiendo el panel de sonda de la reivindicación 20.
22. El kit de la reivindicación 21 , en donde cada sonda es una sonda de FISH.
23. Un kit para clasificar una muestra de tumor de NSCLC o una línea de células, comprendiendo: (a) instrucciones para ensamblar una base de datos, comprendiendo instrucciones para: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de célula o NSCLC; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula (1 1 ): n m ? D(V |) WH) =?¾. hg^-V, HWR),) en donde V¡¡ es la iesima fila y la s'ma columna de matriz V, (WH) es la iésima fila y la jiésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula (12): p(HJ )HJ) = r ] SN.;SH t en donde C es la matriz de correlación, C(J es la ies,ma fila y la jés'ma columna en la matriz C, H y Hj son el ¡ésimo y jésimo vector de columna en la matriz H, p(Hi HJ es el coeficiente de correlación de Pearson entre H,¡ y Hj, i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; y (b) opcionalmente, una primera, segunda y tercera línea celular, o DNA genómico aislado del mismo, en donde la primera línea de células es seleccionada del grupo que consiste de HCC827, NCI-H1437, NCI-H 1563, NCI-H1568, NCI- H1623, NCI-H1651, NCI-H1693, NCI-H1755, NCI-H1793, NCI-H1838, NCI-H1944, NCI-H1975, NCI-H1993, NCI-H2023, NCI-H2073, NCI-H2085, NCI-H2087, NCI-H2122, NCI-H2126, NCI-H2228, NCI-H2291, NCI-H23, NCI-H2342, NCI-H2347, NCI-H647, NCI-H920, NCI-H969, CLS-54, LX-289, SK-LU-1, H2882, Calu-6, H358 y H460; la segunda línea de células es seleccionada del grupo que consiste de NCI-H2405, NCI-H522, SK- ES-1, H157, H1819, H2009, H2887, HCC1171, HCC1359, HCC15, HCC193, HCC366, HCC461, HCC515, HCC78, HOP-62, HOP-92 y NCI-H266; y la tercera línea de células es seleccionada del grupo que consiste de A549, Calu-3, NCI-H1734, NCI-H838 y HCC95.
MX2011004588A 2008-10-31 2009-10-28 Clasificacion genomica de carcinoma de pulmon de celulas no pequeñas basadas en patrones de alteraciones de numero de copias de gene. MX2011004588A (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11031708P 2008-10-31 2008-10-31
US11028108P 2008-10-31 2008-10-31
PCT/US2009/062388 WO2010051314A2 (en) 2008-10-31 2009-10-28 Genomic classification of non-small cell lung carcinoma based on patterns of gene copy number alterations

Publications (1)

Publication Number Publication Date
MX2011004588A true MX2011004588A (es) 2011-08-03

Family

ID=42129537

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2011004588A MX2011004588A (es) 2008-10-31 2009-10-28 Clasificacion genomica de carcinoma de pulmon de celulas no pequeñas basadas en patrones de alteraciones de numero de copias de gene.

Country Status (7)

Country Link
US (1) US8498820B2 (es)
EP (1) EP2362958A2 (es)
JP (1) JP5632382B2 (es)
CN (1) CN102696034B (es)
CA (1) CA2739457A1 (es)
MX (1) MX2011004588A (es)
WO (1) WO2010051314A2 (es)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053159B2 (en) * 2009-02-09 2015-06-09 The Boeing Company Non-conformance analysis using an associative memory learning agent
WO2014007859A1 (en) * 2012-07-05 2014-01-09 Biodesix, Inc. Method for predicting whether a cancer patient will not benefit from platinum-based chemotherapy agents
US9449143B2 (en) 2012-08-28 2016-09-20 Inova Health System Ancestral-specific reference genomes and uses thereof
JP6469033B2 (ja) * 2016-02-18 2019-02-13 日本電信電話株式会社 分布推定装置、分布推定方法、及び分布推定プログラム
CN106055923A (zh) * 2016-05-13 2016-10-26 万康源(天津)基因科技有限公司 一种基因拷贝数变异分析方法
EP3465502B1 (en) 2016-05-26 2024-04-10 Becton, Dickinson and Company Molecular label counting adjustment methods
EP3539035B1 (en) * 2016-11-08 2024-04-17 Becton, Dickinson and Company Methods for expression profile classification
JP7228510B2 (ja) 2016-11-08 2023-02-24 ベクトン・ディキンソン・アンド・カンパニー 細胞標識分類の方法
US20200224277A1 (en) * 2017-07-17 2020-07-16 Mao Ying Genetech Inc. Cell type identification method and system thereof
ES2711163B2 (es) * 2017-10-23 2021-04-14 Health In Code S L Sistema y método de detección de variantes genéticas estructurales.
CN109192246B (zh) * 2018-06-22 2020-10-16 深圳市达仁基因科技有限公司 检测染色体拷贝数异常的方法、装置和存储介质
CN109887544B (zh) * 2019-01-22 2022-07-05 广西大学 基于非负矩阵分解的rna序列并行分类方法
WO2020167471A1 (en) * 2019-02-15 2020-08-20 Biodesix, Inc. Predictive test for identification of early stage nsclc patients at high risk of recurrence after surgery
CN111863159B (zh) * 2020-06-01 2022-02-25 中山大学孙逸仙纪念医院 一种肿瘤免疫治疗疗效预测的列线图模型的建立方法
KR102665023B1 (ko) * 2021-12-20 2024-05-13 부산대학교 산학협력단 타겟 시스템을 위한 관측 변수를 결정하는 방법 및 장치

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) * 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) * 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4889818A (en) * 1986-08-22 1989-12-26 Cetus Corporation Purified thermostable enzyme
US5310652A (en) * 1986-08-22 1994-05-10 Hoffman-La Roche Inc. Reverse transcription with thermostable DNA polymerase-high temperature reverse transcription
US5322770A (en) * 1989-12-22 1994-06-21 Hoffman-Laroche Inc. Reverse transcription with thermostable DNA polymerases - high temperature reverse transcription
US5800992A (en) * 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US5744101A (en) * 1989-06-07 1998-04-28 Affymax Technologies N.V. Photolabile nucleoside protecting groups
US5143854A (en) * 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5424186A (en) * 1989-06-07 1995-06-13 Affymax Technologies N.V. Very large scale immobilized polymer synthesis
CA2118806A1 (en) * 1991-09-18 1993-04-01 William J. Dower Method of synthesizing diverse collections of oligomers
DE69233087T2 (de) * 1991-11-22 2003-12-24 Affymetrix Inc N D Ges D Staat Verfahren zur Herstellung von Polymerarrays
US5384261A (en) * 1991-11-22 1995-01-24 Affymax Technologies N.V. Very large scale immobilized polymer synthesis using mechanically directed flow paths
US5856174A (en) * 1995-06-29 1999-01-05 Affymetrix, Inc. Integrated nucleic acid diagnostic device
AU2001259062A1 (en) * 2000-04-11 2001-10-23 Corixa Corporation Compositions and methods for the therapy and diagnosis of lung cancer
US20030104426A1 (en) * 2001-06-18 2003-06-05 Linsley Peter S. Signature genes in chronic myelogenous leukemia
WO2003082078A2 (en) * 2002-03-28 2003-10-09 Medical College Of Ohio Method and compositions for the diagnosis and treatment of non-small cell lung cancer using gene expression profiles
US20060195266A1 (en) * 2005-02-25 2006-08-31 Yeatman Timothy J Methods for predicting cancer outcome and gene signatures for use therein
KR20080104113A (ko) * 2005-06-03 2008-12-01 아비아라디엑스, 인코포레이티드 종양 및 조직의 동정방법

Also Published As

Publication number Publication date
US8498820B2 (en) 2013-07-30
WO2010051314A2 (en) 2010-05-06
US20100145893A1 (en) 2010-06-10
JP5632382B2 (ja) 2014-11-26
WO2010051314A3 (en) 2012-04-05
EP2362958A2 (en) 2011-09-07
JP2012513048A (ja) 2012-06-07
CN102696034B (zh) 2016-01-20
CN102696034A (zh) 2012-09-26
CA2739457A1 (en) 2010-05-06

Similar Documents

Publication Publication Date Title
US8498820B2 (en) Genomic classification of non-small cell lung carcinoma based on patterns of gene copy number alterations
US8498822B2 (en) Genomic classification of colorectal cancer based on patterns of gene copy number alterations
TWI636255B (zh) 癌症檢測之血漿dna突變分析
JP5391279B2 (ja) 1種以上の医薬組成物の有効性を試験することに使用する癌細胞系のパネルを構築するための方法
Ylipää et al. Integrative genomic characterization and a genomic staging system for gastrointestinal stromal tumors
WO2013086352A1 (en) Prostate cancer associated circulating nucleic acid biomarkers
US8498821B2 (en) Genomic classification of malignant melanoma based on patterns of gene copy number alterations
EP2419540B1 (en) Methods and gene expression signature for assessing ras pathway activity
CN115418401A (zh) 用于膀胱癌的尿监测的诊断测定
US20230018079A1 (en) Genomic scarring assays and related methods
Choi et al. A Comparison of Methods for Meta-Analysis of Gene Expression Data

Legal Events

Date Code Title Description
GB Transfer or rights

Owner name: ABBVIE INC.

FG Grant or registration