ES2792904T3 - Genotipificación de alta capacidad de procesamiento mediante la secuenciación de cantidades bajas de material genético - Google Patents

Genotipificación de alta capacidad de procesamiento mediante la secuenciación de cantidades bajas de material genético Download PDF

Info

Publication number
ES2792904T3
ES2792904T3 ES13780321T ES13780321T ES2792904T3 ES 2792904 T3 ES2792904 T3 ES 2792904T3 ES 13780321 T ES13780321 T ES 13780321T ES 13780321 T ES13780321 T ES 13780321T ES 2792904 T3 ES2792904 T3 ES 2792904T3
Authority
ES
Spain
Prior art keywords
sequencing
nucleic acids
target nucleic
cell
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13780321T
Other languages
English (en)
Inventor
Joris Vermeesch
Thierry Voet
Femke Hannes
Houdt Jeroen Van
Gregory Maes
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Katholieke Universiteit Leuven
Original Assignee
Katholieke Universiteit Leuven
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=47294342&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2792904(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Katholieke Universiteit Leuven filed Critical Katholieke Universiteit Leuven
Application granted granted Critical
Publication of ES2792904T3 publication Critical patent/ES2792904T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Un método para el análisis de ácidos nucleicos diana, comprendiendo dicho método las siguientes etapas: i. proporcionar una muestra en la que están presentes ácidos nucleicos diana en una cantidad de 100 pg o menos, en los que dichos ácidos nucleicos diana se originan de un embrión o de un feto o proceden de una célula de cáncer o tumor, ii. generar un banco representativo reducido de dichos ácidos nucleicos diana mediante un método que comprende: - fragmentar dichos ácidos nucleicos diana usando una o más enzimas de restricción; - acoplar adaptadores a dichos fragmentos; y - seleccionar un subconjunto de dichos fragmentos con adaptadores acoplados basándose en el tamaño de dichos fragmentos, iii. realizar una secuenciación masiva paralela de dicho banco representativo reducido, y iv. identificar variantes en dichos ácidos nucleicos diana mediante el análisis de los resultados obtenidos mediante dicha secuenciación.

Description

DESCRIPCIÓN
Genotipificación de alta capacidad de procesamiento mediante la secuenciación de cantidades bajas de material genético
Campo técnico
La presente descripción se refiere a un método y a un sistema que proporciona un descubrimiento, una validación y una evaluación rápidas de variaciones genéticas o trastornos cromosómicos en el genoma completo, incluyendo ambos cromosomas sexuales y/o los genomas mitocondriales, en muestras que contienen cantidades bajas de ácidos nucleicos diana, tales como analitos relativamente pequeños, tales como unas pocas células o células individuales o ácidos nucleicos fetales o de tumores fluidos.
Antecedentes técnicos
La forma más común de variación genética en el genoma humano es una clase de variación genética conocida como polimorfismo de un solo nucleótido ("single nucleotide polymorphism", SNP). Los SNP son importantes marcadores en muchos estudios que conectan variaciones en la secuencia con cambios fenotípicos. Por tanto, la identificación de SNP, también conocida como tipificación de SNP, es una herramienta importante en el diagnóstico molecular y se dirige a determinar las posiciones en las que al menos una de las bases es distinta con respecto a la secuencia de referencia. La genotipificación es el proceso de discriminación de alelos para un individuo. Los genotipos generalmente se identifican usando ADN extraído de miles de células.
Por contraste a la utilización de ADN extraído de un gran número de células, en fechas más recientes se ha desarrollado una tecnología que permite la genotipificación de alta capacidad y bajo coste, a nivel genómico, de analitos pequeños, tales como células individuales o un número limitado de células. La tipificación de SNP y la genotipificación de una célula individual o de un número limitado de células son tareas desalentadoras, debido a la pequeña cantidad de ADN disponible (aproximadamente 7 pg para una célula humana diploide normal, o aproximadamente 3,3 pg para una célula haploide). Para superar esta pequeña cantidad de material de entrada, habitualmente se realiza una extensa amplificación del genoma completo ("whole genome amplification", WGA) antes de posteriores análisis corriente abajo. Se han descrito diferentes métodos de WGA y estos se basan en la amplificación de desplazamiento múltiple ("Multiple Displacement Amplification", MDA) (por ejemplo, los kits Genomiphi y Repli-G) o en un método de amplificación a nivel genómico basado en PCR (por ejemplo, GenomePlex). Después de esta amplificación, se logra una genotipificación con éxito a través de plataformas basadas en micromatrices de "chips de SNP", tal como se conoce en la técnica. Estas plataformas requieren un conocimiento sustancial previo de la secuencia y la variabilidad del genoma y, tras haber sido diseñadas, son adecuadas solo para los sitios de nucleótidos variables diana. Este método introduce un sustancial sesgo de comprobación y evita, de modo inherente, la detección de variantes raros o específicos de población o su uso en especies muy diversas.
Las nuevas tecnologías de secuenciación permiten evaluar la variación de varias decenas de miles de dianas a nivel genómico mediante la secuenciación masiva paralela de alta capacidad de procesamiento (concretamente, la secuenciación de siguiente generación, "next-generation sequencing", o NGS) que permite una secuenciación rápida a nivel genómico. La NGS generalmente produce más datos, en varios órdenes de magnitud, que la secuenciación de Sanger tradicional. Para extraer los datos de SNP y/o de genotipo a partir de los estudios de NGS, es necesaria una amplia interpretación bioinformática/estadística de los datos, que incluyen algoritmos para el llamado de bases y el alineamiento del genoma, seguidos del uso de herramientas para la identificación de los SNP y/o la determinación del genotipo. Además de la amplificación del genoma completo, a veces se prefiere la amplificación parcial del genoma ("partial genome amplification", PGA) para estimular el enriquecimiento en ciertos fragmentos de ADN de interés (por ejemplo, una colección de genes o exones, el genoma mitocondrial, etc.). Ambas estrategias de amplificación dirigida y del genoma completo se han mencionado en relación con los esfuerzos de secuenciación masiva paralela de alta capacidad de procesamiento.
En fechas recientes, se ha logrado la secuenciación de una célula individual para bancos de exomas de captura y de genomas completos y, como resultado, se ha adquirido mayor conocimiento en diferentes campos, tales como la biología de tumores y la gametogénesis. Navin y sus colaboradores han desarrollado un método basado en FACS para aislar núcleos individuales a partir de diferentes secciones de una muestra de cáncer de mama y han realizado la amplificación del genoma completo, seguida de la secuenciación masiva paralela. Los productos de la WGA se secuenciaron con una baja cobertura (aproximadamente 0,2X), suficiente para calcular las variaciones del número de copias. Sin embargo, su estrategia no permite, de modo desventajoso, detectar mutaciones somáticas de bases en células individuales. Xu et al. (Cell, 2012, 148(5):886-895), y Hou et al. (Cell, 2012, 148(5):873-885) usaron un pipeteado de boca para aislar células individuales a partir de un tumor sólido y hematopoyético. Después de la amplificación, se realizó la captura del exoma antes de la secuenciación de alta capacidad de procesamiento de una célula individual, que permitió a ambos grupos analizar la topografía genética de mutaciones de bases somáticas en tumores complejos. Pueden obtenerse unas profundidades de secuenciación de entre 30X y 40X, pero la mayoría de los exomas de las células individuales se secuenciaron hasta una profundidad mínima de 5X. Para evaluar las mutaciones somáticas verdaderas dentro de las regiones codificadoras, la variación putativa se filtró según múltiples criterios, que incluyen la presencia de la mutación en al menos 3 a 5 muestras de células individuales diferentes. Por contraste, Wang y sus colaboradores usaron un revolucionario sistema microfluídico para separar células de esperma individuales y realizar un procesamiento de las muestras en paralelo que incluye la amplificación del genoma completo para mejorar la actuación de la amplificación. Después de la WGA, se realizó un análisis de secuenciación del genoma completo de alta capacidad de procesamiento para determinar la recombinación homóloga y los acontecimientos de conversión de genes, así como las tasas de mutación de novo de sustituciones de bases y aneuploidías de cromosomas. Solo fue representado del 30 al 50% del genoma debido a un sesgo de la amplificación a una cobertura de secuencia de 6 a 8 veces. Además, Wang et al. secuenciaron células de esperma individuales MDAed a una cobertura de genoma más baja en una reacción de múltiplex para realizar la detección de aneuploidías. El documento WO2012108920 proporciona métodos para el llamado de ploidía prenatal no invasivo. El ADN procedente de una célula individual o de ADN fetal procedente de muestras de plasma obtenidas de mujeres embarazadas se amplificó con una amplificación específica de diana ("Specific Target Amplification", STA) usando de cientos a miles de parejas de cebadores en una PCR de múltiples semianidada. Se secuenciaron los amplicones para determinar el estado de ploidía de tres cromosomas. El documento WO2007073165 A1 describe un método para preparar bancos de ácidos nucleicos para la secuenciación de alta capacidad de procesamiento. Chiu R.W.K. et al. (PNAS, vol. 105, n.° 51, pp. 20458-20463, 2008) describen un método para preparar un banco de ácidos nucleicos a partir de bajas cantidades de ácidos nucleicos fetales. De modo global, el análisis del genoma completo de la información de recuento leída permite la detección a nivel genómico de aberraciones en el número de copias a gran escala en el genoma, y la multiplexación de la secuenciación de exomas individuales permite detectar mutaciones individuales. Sin embargo, hasta la fecha no se ha logrado un llamado de SNP preciso para los datos de secuenciación masiva de alta capacidad de procesamiento procedentes de una célula individual.
Además de la falta de un método que pueda lograr la secuenciación masiva de alta capacidad de procesamiento a partir de analitos pequeños de muestras que contienen una cantidad limitada de ADN, los métodos de la técnica anterior también acarrean varias desventajas. Por ejemplo, los métodos de la técnica anterior requieren el desarrollo y el diseño de matrices de SNP o conjuntos de cebadores de múltiplex. En cada caso, estos métodos requieren de un conocimiento detallado del genoma, de mucho tiempo y mucho esfuerzo computacional, y de varias pruebas de ensayo y error y de optimización para aplicar el método a un nuevo genoma. Además, los usuarios deben obtener matrices y sondas/cebadores caros, y los métodos son más largos de realizar, y a menudo se necesitan múltiples días desde la toma de la muestra hasta la obtención del resultado. Además, los métodos de la técnica anterior no permiten un análisis de alta capacidad de procesamiento de varias muestras al mismo tiempo, puesto que las matrices no permiten detectar grandes cantidades de muestras al mismo tiempo, y el análisis de PCR de múltiplex, tal como se describe en el documento WO2012108920, no permite aumentar el número de ensayos que se pueden realizar al mismo tiempo. Por contraste, la presente invención proporciona un método directo para secuenciar muestras que contienen una cantidad pequeña de ADN diana, que puede trasladarse con facilidad para su aplicación a otros genomas (por ejemplo, genomas no secuenciados o parcialmente secuenciados), que permite un análisis de alta capacidad de procesamiento y la secuenciación de múltiples muestras a la vez, que no requiere de mucho coste ni de mucho tiempo por parte del operario, y que no necesita consumibles caros (tales como matrices o miles de conjuntos de cebadores específicos). La generación de un banco representativo reducido según los métodos de la invención puede realizarse en aproximadamente 3-6 h, mientras que la secuenciación de siguiente generación permite realizar la secuenciación en aproximadamente 2-4 h (por ejemplo, usando la plataforma de torrente de iones). Así, pueden obtenerse resultados en aproximadamente 5-10 h, lo cual es mucho más rápido que los métodos de la técnica anterior, que a menudo necesitan de múltiples días. En especial en el diagnóstico de preimplantación, esta reducción del tiempo es una ventaja crucial.
Considerando el coste y la complejidad relativamente altos para secuenciar y ensamblar un genoma completo, se han desarrollado varias estrategias que permiten el descubrimiento y la genotipificación rápidos y baratos de variantes genéticos (SNP, INDEL, CNV) a nivel genómico a partir de genomas secuenciados solo parcialmente. Hasta la fecha, se han desarrollado varios métodos nuevos para reducir el esfuerzo de secuenciación y para restringir la selección a unos pocos de miles de polimorfismos de un solo nucleótido (SNP) a un coste muy reducido, comparado con la secuenciación del genoma completo o los análisis con chips de SNP sesgados. Estos métodos se han dirigido a construir bancos representativos reducidos ("reduced representation libraries", o RRL) para reducir la complejidad del genoma antes de la secuenciación, mediante (1 ) el enriquecimiento en subconjuntos del genoma capturando/dirigiéndose a fragmentos conocidos, o (2) la eliminación de fragmentos complejos grandes muy repetitivos mediante una digestión con enzimas de restricción. Los ejemplos de este último método incluyen la reducción de la complejidad de secuencias polimórficas ("complexity reduction of polymorphic sequences", cRoPS), la genotipificación de pistola multiplexada, la secuenciación de ADN asociada a sitio de restricción (RAD-seq) y la genotipificación mediante secuenciación o GBS. Todos los métodos se basan en una digestión con enzimas de restricción directa y flexible y el acoplamiento de adaptadores, seguida de una secuenciación profunda, en especial para el uso de estas especies sin el genoma de referencia.
La estrategia de genotipificación mediante secuenciación (GBS) es directa, rápida, muy específica y reproducible, y permite acceder a regiones genómicas que son inaccesibles a las estrategias de captura de secuencias. En las especies que carecen de una secuencia completa del genoma, la GBS permite construir un mapa de referencia durante el proceso de la genotipificación de la muestra, mientras que las especies con genoma conocido pueden beneficiarse mucho de la información de secuencia adicional para mejorar el descubrimiento de nuevos polimorfismos fuera de los exones. La GBS es particularmente útil, puesto que permite reducir las regiones genómicas problema a un número escalable de loci, generalmente de unos pocos miles a 100.000, dependiendo de las aplicaciones previstas.
La secuenciación de RAD-marcador también se describe, por ejemplo, en el documento EP 1885882, y la tecnología CROPS se describe en van Orsouw et al. (Plos One, 2(11):e1172. doi:10.1371/journal.pone.0001172).
Sumario de la invención
Siguen siendo necesarios un sistema y un método mejorados para la genotipificación mediante secuenciación de analitos pequeños, tales como, por ejemplo, una célula individual, un número limitado de células o una muestra que contiene material genético de interés que solo está disponible en cantidades limitadas.
Un objeto general de la presente invención consiste en proporcionar un sistema y un método alternativos para el ensayo genético mediante la secuenciación de analitos pequeños, tales como células individuales, células duales, unas pocas células o muestras que contienen una cantidad limitada de material genético de interés.
Un objeto de la presente invención consiste en proporcionar un sistema y un método alternativos para la genotipificación y/o el ensayo genético mediante la secuenciación de una célula individual.
Otro objeto de la presente invención consiste en proporcionar un sistema y un método alternativos para la genotipificación y/o el ensayo genético mediante la secuenciación de unas pocas células. Tal como se detalla más a fondo a continuación, unas pocas células se corresponden con una muestra que contiene hasta 30 células diana, en particular una o dos células diana. Como alternativa, el número de células puede basarse en la cantidad de material genético de interés presente en la muestra y, dentro del contexto de la presente invención, se corresponde con una muestra en la que el material genético de interés está presente en una cantidad de 100 pg o menos.
Otro objeto de la presente invención consiste en proporcionar un sistema y un método alternativos para la genotipificación y/o el ensayo genético mediante la secuenciación de muestras que comprenden bajas cantidades de ácidos nucleicos diana, también denominados el material genético de interés.
Este objeto se logra mediante el método y los medios según las reivindicaciones independientes de la presente invención. Las reivindicaciones dependientes se refieren a las realizaciones preferidas.
En un aspecto, la presente invención proporciona métodos para el ensayo genético de analitos pequeños, comprendiendo dicho método las siguientes etapas:
i. aislar al menos un analito pequeño,
ii. realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) mediante la secuenciación de un banco representativo reducido del material genético de interés presente dentro de dicho analito pequeño, iii. aplicarlo para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
Los métodos de la invención son particularmente ventajosos en procedimientos que requieren de precisión y eficacia y de la obtención de un resultado en un corto espacio de tiempo, tales como, por ejemplo, en el diagnóstico genético de preimplantación. Preferiblemente, el analito pequeño es una materia física, tal como material genético o células que contienen material genético. Más preferiblemente, el analito es un analito usado en la selección o el diagnóstico genético de preimplantación. El analito puede ser una célula individual, una célula dual, unas pocas células o, simplemente, cantidades bajas de ácidos nucleicos. Debido a que la cantidad de ADN genético que puede obtenerse a partir de una célula individual o de unas pocas células es limitado, en algunas realizaciones, la etapa de obtener material genético del analito puede requerir de una amplificación antes de la secuenciación.
Por consiguiente, la descripción también proporciona métodos para el ensayo genético de analitos pequeños, comprendiendo dicho método las siguientes etapas:
i. aislar al menos un analito pequeño,
ii. amplificar fragmentos de ADN del material genético presente dentro de dicho analito pequeño para formar un producto de la amplificación,
iv. realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) mediante la secuenciación de un banco representativo reducido de dicho producto de la amplificación,
v. aplicarlo para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
En el caso de que el analito sea una célula (individual o más), los métodos de la invención comprenden la etapa adicional de lisar la célula aislada para la liberación del ácido nucleico (por ejemplo, ADN o ARN).
Por consiguiente, la descripción también proporciona métodos para el ensayo genético de analitos pequeños, comprendiendo dicho método las siguientes etapas:
i. aislar y lisar al menos un analito pequeño,
ii. amplificar fragmentos de ADN de dicho material genético para formar un producto de la amplificación, iv. realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) mediante la secuenciación de un banco representativo reducido de dicho producto de la amplificación,
v. aplicarlo para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
En lugar de una célula, el analito puede ser simplemente pequeñas cantidades de material genético, tal como, ADN fetal en un líquido materno (por ejemplo, sangre).
Por tanto, en un aspecto relacionado, la descripción proporciona métodos para la genotipificación y/o la haplotipificación de pequeñas cantidades de material genético, comprendiendo dicho método las siguientes etapas: i. proporcionar cantidades pequeñas de material genético,
ii. amplificar fragmentos de ADN del material genético,
iii. realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) mediante la secuenciación de un banco representativo reducido de dicho producto de la amplificación,
iv. aplicarlo para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
En realizaciones concretas, la descripción proporciona métodos para la genotipificación y/o la haplotipificación de una célula individual, comprendiendo dicho método las siguientes etapas:
i. aislar y lisar la célula individual,
ii. amplificar fragmentos de ADN de la célula individual,
iii. realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) (genotipificación) mediante la secuenciación profunda de un banco representativo reducido de dicho producto de la amplificación,
iv. aplicarlo a un algoritmo bioinformático (“pipeline”) para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
En otra realización concreta, la descripción proporciona métodos para la genotipificación y/o la haplotipificación de células duales, comprendiendo dicho método las siguientes etapas:
i. aislar y lisar dos células,
ii. para cada célula, amplificar los fragmentos de ADN de las células individuales,
iii. para cada célula, realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) (genotipificación) mediante la secuenciación profunda de un banco representativo reducido de dicho producto de la amplificación de las células individuales,
iv. generar un genotipo virtual que consiste en llamados de polimorfismos genéticos concordantes entre las dos células individuales genotipificadas por separado,
v. reconstituir el haplotipo de dicho genotipo virtual o una selección de dicho genotipo virtual,
iv. aplicarlo a un algoritmo bioinformático para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
En una realización alternativa, la descripción proporciona métodos para la genotipificación y/o la haplotipificación de al menos una célula, comprendiendo dicho método las siguientes etapas:
i. aislar y lisar dicha al menos una célula,
ii. amplificar fragmentos de ADN de dicha al menos una célula,
iii. realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) (genotipificación) mediante la secuenciación profunda de un banco representativo reducido de dicho producto de la amplificación,
iv. aplicarlo a un algoritmo bioinformático para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
En otra realización concreta, la presente invención proporciona métodos para el análisis de ácidos nucleicos diana, comprendiendo dicho método las siguientes etapas:
i. proporcionar una muestra en la que los ácidos nucleicos diana están presentes en una cantidad baja, ii. generar un banco representativo reducido de dichos ácidos nucleicos diana,
iii. realizar una secuenciación masiva paralela de dicho banco representativo reducido, y
iv. identificar variantes en dichos ácidos nucleicos diana mediante el análisis de los resultados obtenidos mediante dicha secuenciación.
En una realización concreta, la generación de un banco representativo reducido comprende además la amplificación del genoma completo. Por tanto, en una realización concreta, la presente invención proporciona un método para el análisis de ácidos nucleicos diana, comprendiendo dicho método las siguientes etapas:
i. proporcionar una muestra en la que los ácidos nucleicos diana están presentes en una cantidad baja, ii. opcionalmente, amplificar dichos ácidos nucleicos diana,
iii. generar un banco representativo reducido de dichos ácidos nucleicos diana,
iv. realizar una secuenciación masiva paralela de dicho banco representativo reducido, y
v. identificar variantes en dichos ácidos nucleicos diana mediante el análisis de los resultados obtenidos mediante dicha secuenciación.
En una realización preferida, los métodos de la presente invención son aplicables a una escala genómica. Por tanto, en una realización concreta, la presente invención proporciona un método para el análisis a nivel genómico de ácidos nucleicos diana, comprendiendo dicho método las siguientes etapas:
i. proporcionar una muestra en la que los ácidos nucleicos diana están presentes en una cantidad baja, ii. opcionalmente, amplificar dichos ácidos nucleicos diana,
iii. generar un banco representativo reducido a nivel genómico de dichos ácidos nucleicos diana,
iv. realizar una secuenciación masiva paralela de dicho banco representativo reducido, y
v. identificar a nivel genómico variantes en dichos ácidos nucleicos diana mediante el análisis de los resultados obtenidos mediante dicha secuenciación.
En una realización concreta, dichos ácidos nucleicos diana se amplifican antes de la generación de un banco representativo reducido. En otra realización concreta, la generación de un banco representativo reducido comprende amplificar un subconjunto de dichos ácidos nucleicos diana.
En realizaciones preferidas, la amplificación se realiza en el genoma completo. La amplificación del genoma completo (WGA) amplifica polimorfismos de un solo nucleótido (SNP), mutaciones y variaciones en el número de copias a través del genoma completo para el análisis.
Se han descrito varias técnicas de WGA, que incluyen PCR mediada por acoplamiento ("ligation-mediated PCR", LM-PCR), PCR de cebadores oligonucleotídicos degenerados ("degenerate oligonucleotide primer PCR", DOP-PCR), y amplificación de desplazamiento múltiple ("multiple displacement amplification", MDA). En una realización concreta, los métodos de la invención comprenden la amplificación del genoma completo (WGA) de ácidos nucleicos diana.
En otras realizaciones preferidas de la descripción, la amplificación puede realizarse usando la amplificación de desplazamiento múltiple del genoma completo o cualquier otro método de amplificación del genoma completo. En realizaciones preferidas de la invención, el método puede comprender además construir un banco representativo reducido del producto de la amplificación para la secuenciación masiva paralela y la posterior aplicación para el descubrimiento de variantes, la genotipificación y/o la haplotipificación usando medios bioinformáticos y estadísticos. En una realización concreta, el banco representativo reducido se produce mediante un método que comprende fragmentar dichos ácidos nucleicos diana, acoplar adaptadores a dichos fragmentos, y seleccionar un subconjunto de dichos fragmentos con adaptadores acoplados. En otra realización concreta, la fragmentación de dichos ácidos nucleicos diana comprende digerir dichos ácidos nucleicos diana con una o más enzimas de restricción. En otra realización, la fragmentación de dichos ácidos nucleicos diana comprende el cizallamiento físico, por ejemplo, usando ultrasonidos. Pueden usarse uno o más adaptadores diferentes para el acoplamiento a dichos fragmentos. En una realización concreta, dichos fragmentos con adaptadores acoplados después se amplifican usando cebadores que se asocian a dichos adaptadores. En otra realización concreta, la selección de un subconjunto de fragmentos con adaptadores acoplados se basa en el tamaño de dichos fragmentos. En otra realización concreta, la selección de un subconjunto de fragmentos con adaptadores acoplados comprende la selección por tamaño mediante una amplificación con PCR. En otra realización, la selección por tamaño se realiza durante el aislamiento del banco representativo reducido, por ejemplo, usando métodos de purificación con PCR.
Por tanto, en una realización concreta, la presente invención proporciona un método para el análisis de ácidos nucleicos diana, comprendiendo dicho método las siguientes etapas:
i. proporcionar una muestra en la que los ácidos nucleicos diana están presentes en una cantidad baja, ii. generar un banco representativo reducido de dichos ácidos nucleicos diana mediante un método que comprende: - fragmentar dichos ácidos nucleicos diana;
- acoplar adaptadores a dichos fragmentos; y
- seleccionar un subconjunto de dichos fragmentos con adaptadores acoplados,
iii. realizar una secuenciación masiva paralela de dicho banco representativo reducido, y
iv. identificar variantes en dichos ácidos nucleicos diana mediante el análisis de los resultados obtenidos mediante dicha secuenciación.
En una realización concreta, los métodos de la presente invención comprenden además construir un genotipo y/o un haplotipo basándose en variantes identificados en dichos ácidos nucleicos diana. En otra realización concreta, los métodos de la presente invención comprenden además identificar una aberración genética en dicha muestra basándose en variantes identificados en dichos ácidos nucleicos diana.
En otra realización concreta, la selección de un subconjunto de fragmentos con adaptadores acoplados comprende una reacción de amplificación usando un cebador selectivo. En concreto, dicho cebador selectivo contiene de 1 a 5 nucleótidos selectivos en su extremo 3'. La amplificación usando el cebador selectivo solo amplifica un subconjunto de dichos fragmentos con adaptadores acoplados, concretamente aquellos cuyo cebador selectivo se hibrida con la suficiente rigurosidad como para permitir su alargamiento. En otra realización concreta, dicho cebador selectivo contiene de 1 a 3, más en concreto 2 nucleótidos selectivos en el extremo 3'. En otra realización concreta, dicho cebador selectivo contiene una región de adaptador y una región selectiva. Dicha región de adaptador se hibrida con el adaptador en fragmentos monocatenarios con adaptadores acoplados, mientras que dicha región selectiva consiste en nucleótidos selectivos. Dichos nucleótidos selectivos se hibridan con nucleótidos presentes en el fragmento entre los adaptadores. En una realización concreta, dicho cebador selectivo comprende, de 5' a 3', una región de adaptador, una región de conector opcional y una región selectiva, en el que dicha región de adaptador y dicha región selectiva son como se describió anteriormente. Dicha región de conector comprende de 1 a 50, en concreto 1 -25, más en concreto 1-10 nucleótidos.
Preferiblemente, el banco representativo reducido del producto de la amplificación del material genético o del producto de la amplificación de dicha al menos una célula se produce mediante una digestión de restricción empleando al menos una o una combinación de enzimas de restricción y el posterior acoplamiento del adaptador y la selección por tamaño mediante una amplificación con PCR, o cualquier método de reducción de bancos de secuencias conocido en la técnica. Se prefiere especialmente la generación de un banco representativo reducido usando la fragmentación o una digestión de restricción, puesto que es un método directo que no requiere el diseño y el uso de cebadores y/o sondas específicos. El método de representación reducida puede aplicarse con facilidad a diferentes genomas, incluso cuando se cuenta con una información limitada sobre estos genomas, sin que sean necesarias consideraciones de diseño complejas (cebador/sonda/matriz), y se reduce el sesgo inherente en los métodos de la técnica anterior.
En otra realización concreta de la descripción, el método de reducción de un banco de secuencias puede comprender además la captura de exones. Preferiblemente, la captura de exones puede realizarse usando cualquier método de secuenciación de exomas conocido en la técnica o cualquier método dirigido de captura de exomas de la técnica. Este último puede ser una estrategia eficaz para secuenciar selectivamente las regiones codificadoras del genoma, como alternativa barata, pero eficaz, frente a la secuenciación del genoma completo. Los exones son secuencias de ADN cortas e importantes desde el punto de vista funcional que representan las regiones en los genes que son traducidas en proteínas y las regiones no traducidas ("untranslated region", UTR) que las flanquean. Las UTR no se incluyen habitualmente en los estudios de exomas. En el genoma humano, existen aproximadamente 180.000 exones: estos constituyen aproximadamente 1% del genoma humano, que se traduce en una longitud de aproximadamente 30 megabases (Mb). Se calcula que las regiones codificadoras de proteínas del genoma humano constituyen aproximadamente 85% de las mutaciones que provocan enfermedades. En una realización preferida, los métodos de la invención no comprenden la captura de exones.
En otra realización concreta, los métodos de la descripción no comprenden la conversión de bisulfito.
Se ha descubierto que la generación de un banco representativo reducido, en combinación con la secuenciación, permite unas mayores profundidades de secuenciación, al mismo tiempo que se mantiene la información a nivel genómico. Los expertos en la técnica pueden elegir la cantidad de reducción del banco dependiendo del número de variantes que se quiera identificar, la profundidad de secuenciación que se quiera obtener para estos variantes, la infraestructura de secuenciación disponible y los costes de la secuenciación. Por ejemplo, pueden obtenerse reducciones muy grandes usando la selección rigurosa de fragmentos. Este banco representativo muy reducido puede secuenciarse con alta profundidad y mínimo esfuerzo. No obstante, proporciona un retrato de los variantes a nivel genómico, que puede usarse, por ejemplo, para el llamado de ploidía o la determinación del haplotipo. En los casos en que esté disponible información a nivel genómico a una mayor resolución, los expertos en la técnica pueden aplicar una reducción menos rigurosa del banco de secuenciación. En una realización concreta, la reducción del banco reduce la complejidad al menos 5 veces, en otra realización, al menos 10 veces, en particular al menos 50 veces, y más en particular al menos 100 veces. En otra realización concreta, la complejidad se reduce al menos 200 veces, en particular al menos 500 veces, y más en particular al menos 1000 veces. Por ejemplo, una reducción de la complejidad de 100 veces significa que el banco representativo reducido proporciona fragmentos que cubren aproximadamente 1% del genoma, reduciendo mucho, con ello, los esfuerzos de secuenciación y permitiendo unas mayores profundidades de secuenciación del resto de los fragmentos. No obstante, puesto que estos fragmentos están dispersos a través del genoma, los métodos de la presente invención proporcionan información de variantes a nivel genómico.
En otras realizaciones preferidas, el método puede comprender además la etapa de una secuenciación profunda del banco representativo reducido. Esto último asegura, de forma ventajosa, que cada posición de variante se muestrea con una alta redundancia. La robusta estrategia para secuenciar el banco representativo reducido tiene el potencial, de modo ventajoso, de ser clínicamente pertinente en el diagnóstico genético debido a la comprensión actual de las consecuencias funcionales en la variación de la secuencia. El objetivo de esta estrategia es identificar la variación funcional que es responsable de enfermedades mendelianas y comunes, por ejemplo, tales como el síndrome de Miller y la enfermedad de Alzheimer, sin los elevados costes asociados con la secuenciación del genoma completo, al mismo tiempo que se mantiene una alta cobertura en la profundidad de secuencia.
En otras realizaciones preferidas, el algoritmo bioinformático ("pipeline") para el llamado de variantes o la aplicación para el descubrimiento de variantes, la genotipificación y/o la haplotipificación puede basarse en la detección de frecuencias de alelos variantes, en las lecturas de las secuencias, que son discriminados de las incongruencias de la secuenciación y/o la amplificación usando un algoritmo bioinformático de alineamiento de secuencias, la bioinformática y la estadística.
En realizaciones preferidas, las frecuencias de los alelos variantes pueden ser frecuencias de alelos variantes raros. Preferiblemente, la utilización de un algoritmo bioinformático de alineamiento de secuencias se lleva a cabo usando un genoma de referencia. En una realización concreta, los métodos de la presente invención comprenden además comparar los variantes identificados con una secuencia de referencia, en particular un genoma de referencia.
En otras realizaciones preferidas, el método puede comprender además la etapa de inferir llamados de genotipo a partir de las frecuencias de alelos variantes detectadas.
En realizaciones preferidas, el método puede comprender además la evaluación del haplotipo y/o la predicción del genotipo de dicha al menos una célula, preferiblemente del genotipo de una célula individual o de células duales. Preferiblemente, la amplificación amplifica solo parte del genoma.
En otras realizaciones preferidas, la amplificación parcial del genoma (PGA) se realiza usando la amplificación de desplazamiento múltiple o cualquier método de amplificación de ADN, preferiblemente, cualquiera de PicoPlex, GenomePlex, SurePlex y/o AmpliOne. Las alternativas que pueden usarse pueden incluir cualquiera de los métodos de amplificación del genoma completo de DOP-PCR, PEP-PCR, PCR mediada por acoplamiento y/o alu-PCR conocidos en la técnica.
En otras realizaciones preferidas, el método puede comprender además la construcción de un banco del producto de la PGA para la secuenciación masiva paralela y la posterior genotipificación y/o haplotipificación usando medios bioinformáticos y estadísticos. Preferiblemente, dicho banco es un banco representativo reducido.
Preferiblemente, el banco representativo reducido del producto de la PGA del analito pequeño se produce mediante una digestión de restricción empleando una o una combinación de enzimas de restricción y el posterior acoplamiento del adaptador y la selección por tamaño mediante una amplificación con PCR, o cualquier método de producción de bancos de secuencias con o sin otro método de reducción de la representación.
En otras realizaciones preferidas, el método puede comprender además la etapa de una secuenciación profunda del banco representativo reducido para asegurarse de que cada posición de variante se muestrea con alta redundancia. En realizaciones preferidas de la invención, el algoritmo bioinformático para el llamado de variantes se basa en la detección de frecuencias de alelos variantes, en las lecturas de las secuencias, que pueden ser discriminados de los artefactos de la secuenciación y/o la amplificación usando un algoritmo bioinformático de alineamiento de secuencias, la bioinformática y la estadística.
Preferiblemente, las frecuencias de los alelos variantes son frecuencias de alelos variantes raros.
En realizaciones preferidas de la descripción, la utilización de un algoritmo bioinformático de alineamiento de secuencias se lleva a cabo usando un genoma de referencia.
En otras realizaciones preferidas de la invención, el método puede comprender además la etapa de inferir llamados de genotipo a partir de las frecuencias de alelos variantes detectadas.
En realizaciones preferidas de la invención, el método puede comprender además la evaluación del haplotipo o la predicción del genotipo de dicha al menos una célula, preferiblemente del genotipo de un célula individual.
En otras realizaciones preferidas de la descripción, la amplificación puede implicar la producción inmediata de un banco de secuencias representativo reducido a partir del ADN presente en el lisado de dicha al menos una célula, preferiblemente en el lisado de un célula individual. En consecuencia, en realizaciones concretas proporcionadas en la presente, el analito pequeño es una célula individual o el ADN presente dentro de dicha célula individual o su lisado.
En realizaciones preferidas de la invención, después de la lisis, el ADN de dicha al menos una célula, preferiblemente una célula individual, preferiblemente se digiere inmediatamente mediante una o una combinación de enzimas de restricción y después se realiza el posterior acoplamiento del adaptador y la selección por tamaño mediante una amplificación con PCR, o cualquier método de producción de bancos de secuencias y/u otro método de reducción.
Con relación a ello, en una realización preferida, la presente invención proporciona un método para el análisis de ácidos nucleicos diana, comprendiendo dicho método las siguientes etapas:
i. proporcionar una muestra en la que los ácidos nucleicos diana están presentes en una cantidad baja, ii. generar un banco representativo reducido de dichos ácidos nucleicos diana, usando las etapas de:
- fragmentar dichos ácidos nucleicos diana;
- acoplar adaptadores a dichos fragmentos;
- seleccionar un subconjunto de dichos fragmentos con adaptadores acoplados;
- al mismo tiempo o después de seleccionar un subconjunto, amplificar dicho subconjunto;
iii. realizar una secuenciación masiva paralela de dicho banco representativo reducido; y
iv. identificar variantes en dichos ácidos nucleicos diana mediante el análisis de los resultados obtenidos mediante dicha secuenciación.
En una realización preferida, no se realiza una amplificación entre el suministro de dicha muestra y la fragmentación de dichos ácidos nucleicos diana. En otra realización concreta, la selección y la amplificación de dicho subconjunto se realiza simultáneamente, por ejemplo, mediante una amplificación con PCR. En otra realización preferida, la generación de un banco representativo reducido comprende amplificar un subconjunto de fragmentos que, cuando se combinan, comprenden solo una parte de los ácidos nucleicos diana.
Puede usarse cualquier método conocido por los expertos en la técnica para la selección (y la amplificación opcional) de un subconjunto de fragmentos con adaptadores acoplados. En una realización concreta, dicha selección se realiza mediante una amplificación con PCR usando un cebador selectivo, como se describió anteriormente en la presente. En otra realización concreta, dicha amplificación con PCR comprende el uso de un perfil de temperatura para amplificar preferentemente fragmentos de un cierto tamaño, por ejemplo, la amplificación con PCR puede amplificar preferentemente fragmentos de pequeño tamaño.
En otras realizaciones preferidas de la invención, cualquier producción de un banco de secuencias y/o posterior método de reducción puede utilizar bancos de secuenciación de amplicones producidos a partir de ADN obtenido tras la lisis de una célula individual.
En otras realizaciones preferidas de la invención, el método puede comprender además la etapa de una secuenciación profunda del banco representativo reducido para asegurarse de que cada posición de variante se muestrea con alta redundancia.
En realizaciones preferidas de la invención, un algoritmo bioinformático para el llamado de variantes puede basarse en la detección de frecuencias de alelos variantes, en las lecturas de las secuencias, que pueden discriminarse de los artefactos de la secuenciación y/o la amplificación usando, por ejemplo, un algoritmo bioinformático de alineamiento de secuencias, la bioinformática y la estadística.
En otras realizaciones preferidas de la invención, las frecuencias de los alelos variantes pueden ser frecuencias de alelos variantes raros.
En realizaciones preferidas de la invención, la utilización de un algoritmo bioinformático de alineamiento de secuencias puede llevarse a cabo usando un genoma de referencia.
En otras realizaciones preferidas de la invención, el método puede comprender además la etapa de inferir llamados de genotipo a partir de las frecuencias de alelos variantes detectadas.
En realizaciones preferidas de la invención, el método puede comprender además la evaluación del haplotipo o la predicción del genotipo de dicha al menos una célula, preferiblemente del genotipo de una célula individual.
En realizaciones preferidas de la invención, la amplificación puede realizarse en cualquier parte deseada del genoma mediante amplificación de círculo rodante. Preferiblemente, puede realizarse una amplificación de círculo rodante en el ADN mitocondrial circular.
Los métodos descritos en esta solicitud pueden usarse/aplicarse a células humanos y animales para fines de selección de embriones, para estudios genéticos de tejidos heterogéneos que consisten en células con diferentes constituciones alélicas (por ejemplo, tumores) o para la investigación forense. Los métodos genéticos desarrollados tienen un valor de aplicación inmediato, por ejemplo, para el diagnóstico genético de preimplantación ("preimplantation genetic diagnosis", PGD) de embriones humanos fertilizados in vitro en una clínica o para programas de cría de animales, permitiendo la selección de embriones para loci múltiples (rasgo cuantitativo) en un único experimento, o para estudios genéticos de tejidos heterogéneos que consisten en células con diferentes constituciones alélicas (por ejemplo, tumores), así como para los estudios genéticos que requieren la tipificación de polimorfismos genéticos (tales como la tipificación de SNP o la detección de variantes genéticos mediante secuenciación de ADN) o de datos de haplotipificación en general.
Además, las realizaciones del método de genotipificación/haplotipificación de la presente invención permiten la caracterización posterior de conductores de la diversidad de haplotipos, principalmente la recombinación homóloga meiótica, pero también los procesos de recombinación mitótica que pueden aparecer a frecuencias elevadas durante la tumorigénesis. Las redisposiciones inter- e intracromosómicas en células somáticas alteran la secuencia de alelos sintéticos que conducen a la activación potencial de protooncogenes y a la inactivación de genes supresores de tumor. Por tanto, estas recombinaciones pueden iniciar la tumorigénesis, pero también pueden contribuir al avance del tumor. Debido a esta inestabilidad de los cromosomas, las células dentro de un tumor son heterogéneas y, además, las biopsias de los tumores están contaminadas con células somáticas normales. Los métodos de la presente invención permiten, de modo ventajoso, lograr mayor conocimiento del desarrollo de los tumores y los procesos de recombinación.
Así, los métodos de la invención pueden aplicarse a cualquier tipo de célula. Las células preferidas son cuerpos polares, blastómeros, células del trofectodermo procedentes de blastocitos o muestras de vello coriónico. El material genético preferido comprende ADN, más en concreto ADN sin células. Preferiblemente, el ADN fetal sin células procede de la sangre, el plasma o el suero maternos. En la sangre materna pueden identificarse células fetales intactas y ácidos nucleicos (ADN, ARN) fetales sin células. Se cree que la fuente principal de la mayoría de los ácidos nucleicos fetales sin células en la circulación materna es la apoptosis de células placentarias. Tal como se mencionó anteriormente en la presente, los métodos se aplican a un pequeño número de estos tipos de células, es decir, a unas pocas células, en particular, a una o dos células. Cuando se aplican al trofectodermo, dichas pocas células pueden seleccionarse de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más células, en particular, hasta 50 células del trofectodermo.
Para la retirada de dicha al menos una célula apropiada, la zona pelúcida en los estadios de escisión y de blastocistos puede traspasarse mediante un taladramiento mecánico de la zona, una disolución de Tyrode acidificada o con láser. En realizaciones preferidas de la invención, dicha al menos una célula, preferiblemente una célula individual, es un blastómero humano o animal.
En realizaciones concretas, el ensayo genético se aplica al ensayo de diagnóstico, el ensayo de vehículos, el ensayo prenatal, el ensayo de preimplantación, o el ensayo predictivo y presintomático. En estas realizaciones concretas, el ensayo genético ayuda a que los pacientes que se someten a reproducción asistida alcancen el éxito. En otra realización concreta, los métodos de la invención se aplican a la selección en recién nacidos. En otra realización concreta, los métodos de la invención se aplican al ensayo forense.
En otra realización concreta, los métodos de la invención pueden aplicarse para determinar la presencia de una célula tumoral o para determinar una enfermedad residual mínima o el avance de una enfermedad. En otra realización concreta, dichos métodos pueden aplicarse para determinar el riesgo de desarrollar un tumor o un cáncer. En una realización concreta, los métodos de la invención se aplican a una o más células sospechosas de ser células tumorales o de cáncer. En otra realización concreta, los métodos de la invención se aplican a una muestra de fluido procedente de un sujeto sospechoso de padecer un tumor o un cáncer. Preferiblemente, dicha muestra de fluido es una muestra de sangre, plasma o suero. En otra realización, los métodos de la presente invención se aplican a ADN tumoral sin células. En otra realización preferida, los métodos de la se aplican a ADN tumoral en la circulación.
En realizaciones concretas, los métodos de la invención se aplican a la secuenciación representativa reducida, respondiendo a preguntas sobre la variación genética mediante la secuenciación de un pequeño conjunto de regiones a nivel genómico sin secuenciar el genoma completo. Los métodos de reducción de bancos genómicos que aplican la digestión del material genómico pueden usar una, dos, tres, cuatro o más enzimas de restricción. La elección de la enzima puede venir determinada por la densidad del marcador requerida. Lo más a menudo, el ADN genómico se digiere con una o más enzimas de restricción elegidas que suelen realizar cortes con frecuencia. Los fragmentos de restricción resultantes se seleccionan según su tamaño y después se secuencian para obtener una cobertura parcial pero a nivel genómico.
La secuenciación también puede emplear la secuenciación de disparo o la secuenciación dirigida. En particular, la secuenciación se refiere a la secuenciación masiva paralela, también denominada secuenciación de siguiente generación. Los métodos de secuenciación preferidos incluyen pirosecuenciación (454), secuenciación de torrente de iones, secuenciación con tinte lllumina, etcétera.
Los métodos según las realizaciones de la descripción pueden ejecutarse en un ordenador como un método ejecutado por ordenador, o en un hardware dedicado, o en una combinación de estos. El código ejecutable para un método según la invención puede almacenarse en un producto de programa informático. Los ejemplos de productos de programas informáticos incluyen dispositivos de memoria, dispositivos de almacenamiento óptico, circuitos integrados, servidores, programas informáticos en línea, etc. El hardware puede comprender un microcontrolador o un procesador, etc.
En un segundo aspecto, la presente descripción proporciona un portador de datos que almacena un producto de programa informático según las realizaciones de los métodos de la presente invención. La expresión "portador de datos" es equivalente las expresiones "medio portador" o "medio de lectura por ordenador", y se refiere a cualquier medio que participa en proporcionar instrucciones a un procesador para su ejecución. Este medio puede tomar muchas formas que incluyen, pero no se limitan a medios no volátiles, medios volátiles y medios de transmisión. Los medios no volátiles incluyen, por ejemplo, discos ópticos o magnéticos, tales como un dispositivo de almacenamiento que es parte de un almacenamiento en masa. Los medios volátiles incluyen una memoria dinámica, tal como RAM. Las formas habituales de medios de lectura por ordenador incluyen, por ejemplo, un disco blando, un disco flexible, un disco duro, una cinta magnética o cualquier otro medio magnético, un CD-ROM, cualquier otro medio óptico, tarjetas perforadas, cintas de papel, cualquier otro medio físico con un patrón de orificios, una RAM, PROM, EPROM, FLASH-EPROM, cualquier otro chip o cartucho de memoria, una onda portadora, como se describe a continuación, o cualquier otro medio que pueda leer un ordenador. Pueden estar implicadas diversas formas de medios de lectura por ordenador en el transporte de una o más secuencias de una o más instrucciones hasta un procesador para su ejecución. Por ejemplo, las instrucciones pueden ser transportadas inicialmente en un disco magnético de un ordenador remoto. El ordenador remoto puede cargar las instrucciones en su memoria dinámica y enviar las instrucciones a través de una línea telefónica usando un módem. Un módem local al sistema informático puede recibir los datos de la línea telefónica y usar un transmisor de infrarrojos para convertir los datos en una señal de infrarrojos. Un detector de infrarrojos acoplado a una vía de transmisión puede recibir los datos que porta la señal de infrarrojos e introducir los datos en la vía de transmisión. La vía de transmisión traslada los datos a la memoria principal, de la cual un procesador extrae y ejecuta las instrucciones. Las instrucciones recibidas por la memoria principal pueden almacenarse opcionalmente en un dispositivo de almacenamiento antes o después de la ejecución por un procesador. Las instrucciones también pueden transmitirse a través de una onda portadora en una red, tal como LAN, WAN o internet. Los medios de transmisión pueden tener la forma de ondas acústicas o luminosas, tales como las generadas durante las comunicaciones de datos con infrarrojos y ondas de radio. Los medios de transmisión incluyen cables coaxiales, cables de cobre y fibra óptica, e incluyen los cables que forman una vía de transmisión dentro de un ordenador.
En un tercer aspecto, la presente descripción proporciona la transmisión de un producto de programa informático según el segundo aspecto de la presente invención a través de una red.
En un cuarto aspecto, la descripción proporciona sistemas para la haplotipificación de al menos una célula, por los que el sistema puede comprender una unidad de control, y dicha unidad de control está adaptada para:
- aislar y lisar dicha al menos una célula,
- amplificar fragmentos de ADN de dicha al menos una célula,
- realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) (genotipificación) mediante la secuenciación profunda de un banco representativo reducido de dicho producto de la amplificación,
- proporcionar un algoritmo bioinformático para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
En un aspecto alternativo, la descripción proporciona sistemas para la haplotipificación de una célula individual, por los que el sistema puede comprender una unidad de control, y dicha unidad de control está adaptada para:
- aislar y lisar la célula individual,
- amplificar fragmentos de ADN de la célula individual,
- realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) (genotipificación) mediante la secuenciación profunda de un banco representativo reducido de dicho producto de la amplificación,
- proporcionar un algoritmo bioinformático para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
En otro aspecto, la descripción proporciona sistemas para la haplotipificación de células duales, por los que el sistema puede comprender una unidad de control, y dicha unidad de control está adaptada para:
- aislar y lisar las dos células,
- amplificar fragmentos de ADN de cada célula individual,
- para cada célula, realizar una tipificación de polimorfismos genéticos masiva paralela (a nivel genómico) (genotipificación) mediante la secuenciación profunda de un banco representativo reducido de dicho producto de la amplificación,
- generar un genotipo virtual que consiste en un llamado de polimorfismo genético concordante entre las dos células individuales genotipificadas por separado,
- reconstruir el haplotipo de dicho genotipo virtual (o una selección de dicho genotipo virtual),
- proporcionar un algoritmo bioinformático para el descubrimiento de variantes, la genotipificación y/o la haplotipificación.
En una realización concreta, la presente descripción proporciona un sistema o un dispositivo adaptado para realizar las realizaciones de la invención. Dicho sistema o dispositivo puede comprender una o más unidades de control para controlar las etapas del método de la invención. Además, la presente invención proporciona una combinación de dispositivos, cada uno adaptado para realizar una o más etapas del método de la invención.
En otra realización concreta, la presente descripción proporciona un sistema para generar un banco de secuenciación, y dicho sistema está adaptado para recibir una muestra en la que están presentes ácidos nucleicos diana en una cantidad baja, y dicho sistema comprende una unidad de control que controla la generación de un banco de secuenciación representativo reducido de dichos ácidos nucleicos diana mediante el control de:
- la fragmentación de dichos ácidos nucleicos diana;
- el acoplamiento de adaptadores a dichos fragmentos; y
- la selección de un subconjunto de dichos fragmentos con adaptadores acoplados.
En otra realización, la presente descripción proporciona un sistema para generar un banco de secuenciación, comprendiendo dicho sistema una o más unidades de control que controlan:
- el aislamiento de una muestra que comprende cantidades bajas de los ácidos nucleicos diana, en particular el aislamiento de unas pocas células;
- la generación de un banco de secuenciación representativo reducido según los métodos de la invención, en particular:
■ fragmentando dichos ácidos nucleicos diana,
■ acoplando adaptadores a dichos fragmentos, y
■ seleccionando un subconjunto de dichos fragmentos con adaptadores acoplados.
En otra realización, dichas una o más unidades de control también se adaptan a la secuenciación de control, en particular a la secuenciación profunda, de dicho banco de secuenciación representativo reducido.
En otra realización concreta, la presente descripción proporciona un sistema para el análisis de ácidos nucleicos diana, y dicho sistema está adaptado para recibir una muestra en la que están presentes ácidos nucleicos diana en una cantidad baja, y dicho sistema comprende una o más unidades de control que controlan:
- la generación de un banco representativo reducido de dichos ácidos nucleicos diana según los métodos de la invención, y
- la secuenciación de dicho banco representativo reducido.
En una realización concreta, la presente descripción proporciona una combinación de dispositivos que comprende: - un dispositivo de aislamiento de células adaptado para aislar unas pocas células, en particular de una a veinte células; y
- un dispositivo de procesamiento de muestras adaptado para:
■ generar un banco representativo reducido, según se describe en la presente, y
■ realizar una secuenciación masiva paralela de dicho banco representativo reducido.
Además, la presente descripción proporciona una combinación de dispositivos que comprende:
- un dispositivo de aislamiento de células para aislar unas pocas células, en particular de una a veinte células;
- un dispositivo de procesamiento de muestras adaptado para generar un banco representativo reducido según los métodos de la invención; y
- un dispositivo para la secuenciación masiva paralela.
En realizaciones preferidas, la presente descripción proporciona, de modo ventajoso, métodos para la genotipificación de alta capacidad de procesamiento mediante la secuenciación de una célula individual (Sc GBS). Las realizaciones de la presente invención proporcionan una estrategia genérica que puede usarse para identificar directamente variaciones genéticas derivadas de genomas diferentes, de modo ventajoso no relacionadas con su tamaño y/o contenido en GC, e inferir genotipos y/o haplotipos independientemente de la tecnología de secuenciación masiva paralela de alta capacidad de procesamiento utilizada. Además, las realizaciones de la presente invención pueden tener, de modo ventajoso, diversos valores de aplicación, por ejemplo:
(1 ) en clínicas de fertilidad humana o no humana que realizan ensayos genéticos de preimplantación en embriones de preimplantación producidos in vitro o in vivo,
(2) en programas de cría de animales para aplicaciones de selección genómica,
(3) en centros de ensayos genéticos que analizan tejidos heterogéneos que consisten en células con diferentes constituciones alélicas (por ejemplo, tumores), y
(4) en todos los estudios genéticos que requieren la detección de la variación genética a nivel genómico para reconstrucciones de genotipos y/o haplotipos.
Las realizaciones de la presente invención proporcionan el descubrimiento de variaciones a nivel genómico y/o la tipificación en al menos una célula, preferiblemente una célula individual o unas pocas células, para inferir genotipos y/o haplotipos preferiblemente derivados de datos de secuenciación representativa reducida, por ejemplo, usando la actuales tecnologías de secuenciación masiva paralela de alta capacidad de procesamiento conocidas en la técnica. Independientemente del diseño de la plataforma de secuenciación y de la química, la variación en la población o la constitución del genoma (por ejemplo, matrices de SNP), las realizaciones de la presente invención proporcionan, de modo ventajoso, una estrategia barata, rápida y genérica. Las muestras pueden reunirse antes de la secuenciación usando diferentes códigos de barras relacionados con adaptadores, lo cual hace que esta estrategia sea, de modo beneficioso, muy escalable (desde una secuenciación baja a ultraprofunda) y barata para aplicarla en el diagnóstico. La secuenciación ultraprofunda o la secuenciación de amplicones usadas en las realizaciones de la invención preferiblemente permite detectar mutaciones a niveles extremadamente bajos y amplificar con PCR regiones diana específicas del ADN. Este método preferiblemente se usa para identificar mutaciones somáticas de baja frecuencia en muestras de cáncer o el descubrimiento de variantes raros.
El método, según las realizaciones preferidas de la invención, puede comprender al menos una de las siguientes etapas con respecto a dicha al menos una célula, preferiblemente una célula individual, unas pocas células o material genético:
1. en el caso de la preparación de una célula, dicha preparación de una célula preferiblemente comprende: a. aislar al menos una célula o células, preferiblemente, una célula individual o unas pocas células, por ejemplo, procedentes de embriones de preimplantación generados in vitro o in vivo,
b. lisar las células.
En el caso de material genético, no se requiere la preparación de células, y el material genético se obtiene a partir de un fluido apropiado, tal como sangre, plasma o suero.
2. Amplificar el genoma completo, preferiblemente usando la amplificación de desplazamiento múltiple o cualquier método de amplificación (a nivel genómico) que puede estar basado, por ejemplo, en una PCR, usando, por ejemplo, cebadores (semi)aleatorios; o el acoplamiento de adaptadores a fragmentos de ADN de una célula individual y/o cebadores universales para la amplificación.
a. En una etapa opcional, la amplificación del genoma completo puede omitirse y amplificar solo fracciones deseadas del genoma de la célula individual, por ejemplo, la amplificación de secuencias mitocondriales usando específicamente, por ejemplo, un cebador y un principio de amplificación de círculo rodante. La amplificación de círculo rodante ("rolling circle amplification", RCA) es un método de amplificación molecular con la propiedad exclusiva de formar un ADN concatamérico que está compuesto de miles de copias repetidas en tándem de la secuencia inicial. De modo ventajoso, puede detectarse una cantidad tan pequeña como de 150 moléculas unidas a la superficie de micromatrices usando la RCA. Debido a la cinética lineal de la RCA, las moléculas de ácido nucleico diana pueden medirse con un rango dinámico de cuatro órdenes de magnitud. Dichos métodos de amplificación parcial del genoma (PGA), de modo ventajoso, ya reducen significativamente la complejidad del genoma de una célula individual antes de la secuenciación masiva paralela de los productos de la PGA.
b. En una etapa opcional, puede omitirse la amplificación del genoma completo (WGA) y la amplificación parcial del genoma (PGA) y, preferiblemente, un ADN de una célula individual naciente puede ser inmediatamente procesado para la GBS.
3. Construir un banco representativo reducido (RRL), por ejemplo, eliminando estructuras genómicas complejas (por ejemplo, digestión de restricción) o, por ejemplo, mediante el enriquecimiento en el ADN de interés mediante amplificación parcial del genoma o captura de los exomas que incluyen la secuencia diana para asegurar un buen tamaño del banco y una reducción en la complejidad de los fragmentos amplificados.
a. En una etapa opcional, la preparación del RRL preferiblemente se omite, y el producto total de la amplificación de la célula individual puede analizarse a través de secuenciación masiva paralela (por ejemplo, amplificación de las secuencias mitocondriales usando un cebador específico).
b. En una etapa opcional, el acoplamiento de secuencias de adaptadores con código de barras puede realizarse inmediatamente en fragmentos de ADN de una célula individual no amplificados y, preferiblemente, después se reúnen con diferentes muestras en proporción equimolar.
c. Amplificar el banco con una reacción en cadena con polimerasa ("Polymerase Chain Reaction", PCR), preferiblemente para seleccionar fragmentos según su tamaño, por ejemplo, de 200-300 pb, preferiblemente evitando el uso de etapas de selección por tamaño (por ejemplo, Caliper Labchip XT, basados en geles). El control de calidad del banco debe realizarse preferiblemente en esta etapa.
4. Realizar la secuenciación masiva paralela del ADN del banco (independientemente de la plataforma o la química).
5. Identificar SNP y/o descubrir variaciones, preferiblemente como sigue según las realizaciones de la invención: cartografiado de una secuencia de referencia o ensamblaje local de novo de lecturas, preferiblemente seguido de la genotipificación de marcadores genéticos usando una herramienta/algoritmo de llamado de variantes específicos, lo cual permite, de modo ventajoso, calcular el sesgo de amplificación y calcular la probabilidad del genotipo.
6. Reconstruir los genotipos, preferiblemente, con ID individual y localización del genoma. En una etapa opcional, la reconstrucción o la imputación del haplotipo preferiblemente se basan en conocimientos previos o datos de referencia.
En una realización concreta, la presente invención proporciona métodos para el análisis de ácidos nucleicos diana en dos o más muestras, comprendiendo dicho método las siguientes etapas:
- proporcionar una primera muestra en la que los ácidos nucleicos diana están presentes en una cantidad baja, - proporcionar una segunda muestra en la que los ácidos nucleicos diana están presentes en una cantidad baja, - generar un primer banco representativo reducido de los ácidos nucleicos diana en dicha primera muestra, que comprende la incorporación de un primer marcador en los fragmentos de dicho primer banco representativo reducido,
- generar un segundo banco representativo reducido de los ácidos nucleicos diana en dicha segunda muestra, que comprende la incorporación de un segundo marcador en los fragmentos de dicho segundo banco representativo reducido,
- opcionalmente, reunir dicho primer y segundo banco representativo reducido,
- realizar una secuenciación masiva paralela de dicho primer y segundo banco representativo reducido, e
- identificar variantes en dichos ácidos nucleicos diana mediante el análisis de los resultados obtenidos mediante dicha secuenciación, en los que dichos variantes se identifican como presentes en dicha primera o segunda muestra usando dicho primer o segundo marcador.
De forma ventajosa, la incorporación de un primer o un segundo marcador puede realizarse con facilidad usando adaptadores marcados ("con código de barras").
Definiciones
El término "GBS", tal como se emplea en la presente, se refiere a la "genotipificación mediante secuenciación de un banco representativo reducido".
La expresión "GBS directa", tal como se emplea en la presente, se refiere a la "genotipificación mediante secuenciación de un banco representativo reducido producido a partir de ADN inmediatamente después de la lisis celular sin una etapa intermedia de amplificación parcial o completa del genoma".
La expresión "analito pequeño", tal como se emplea en la presente, se refiere a una cantidad muy pequeña del analito. Los analitos preferidos son al menos una célula, preferiblemente unas pocas células, una célula dual, una célula individual, o ADN sin células, tal como ADN fetal sin células en un fluido materno.
La expresión "fluido materno", tal como se emplea en la presente, se refiere a una muestra de fluido materno, tal como una muestra de sangre, plasma o suero.
La expresión "ensayo genético", tal como se emplea en la presente, se refiere al ensayo para identificar variaciones (trastornos, cambios) en los cromosomas, en regiones subcromosómicas, en genes o en proteínas. Las variaciones cromosómicas (por ejemplo, aneuploidía), las variaciones en el número de copias ("copy number variations", CNV), las inserciones y las deleciones (INDEL) y los polimorfismos de un solo nucleótido (SNP) son formas de variación genética. El descubrimiento de variantes, que incluyen la aneuploidía o el llamado de ploidía, el llamado de variaciones en el número de copias, la genotipificación y/o la haplotipificación pueden ayudar a confirmar o descartar un trastorno genético sospechado o ayudar a determinar la probabilidad de una persona de desarrollar o transmitir un trastorno genético. Estos ensayos genéticos pueden ser útiles, por ejemplo, en la selección en recién nacidos, ensayos de diagnóstico, ensayos de portadores, ensayos prenatales, ensayos de preimplantación, ensayos predictivos y presintomáticos o en ensayos forenses.
Tal como se emplea en la presente, el descubrimiento de variantes, el llamado de variantes y la identificación de variantes se usan de modo intercambiable. Un "variante" se refiere a cualquier polimorfismo genético, tal como, pero sin limitarse a SNP, INDEL o CNV. La "genotipificación", tal como se emplea en la presente, se aplica a la tipificación de la variación de SNP, INDEL o CNV.
El "material genético" o "muestra genética", tal como se emplean en la presente, se refieren a cromosomas, ADN, ARN o sus subunidades.
La "aneuploidía" se refiere a pérdidas y/o ganancias de cromosomas individuales con respecto al conjunto de cromosomas normal. En el caso de una célula somática humana, se refiere al caso en que una célula no contiene 22 pares de cromosomas autosómicos y un par de cromosomas sexuales.
El término "aislar", tal como se emplea en la presente, se refiere a obtener.
La "secuenciación profunda", tal como se emplea en la presente, se refiere a una secuenciación a una alta redundancia. En una realización preferida, la secuenciación profunda se refiere a una secuenciación con una profundidad (es decir, número promedio de lecturas que representan a un nucleótido concreto en el banco de secuenciación) de al menos 1x. En una realización preferida, la secuenciación profunda se refiere a una secuenciación con una profundidad de al menos 5x, en particular al menos 10x, más en particular al menos 50x . En otra realización preferida, los fragmentos en el banco de secuenciación se secuencian con una profundidad de al menos 100x, en particular al menos 200x, más en particular al menos 300x. En otra realización, se realiza la denominada secuenciación ultraprofunda, que indica unas profundidades de secuenciación de al menos 500x, en particular al menos 750x, más en particular al menos 100x.
Como resulta evidente a partir de la descripción de la invención en la presente, los métodos de la presente invención preferiblemente se aplican a muestras que contienen cantidades bajas de ácidos nucleicos diana, también denominados material genético. En particular, dicho material genético de interés está presente dentro de una célula diana o de unas pocas células diana, o como un material libre en circulación en la muestra. Así, en una realización concreta, cada muestra contiene una célula diana o unas pocas células diana. En otra realización, dicha muestra contiene una célula diana. En otra realización, dicha muestra contiene unas pocas células diana, en particular de 1 a 30, más en particular de 1 a 20 células diana, por ejemplo, 1-15, 1 -10, 1 -8, 1 -7, 1 -6, 1 -5, 1 -4, 1 -3, una o dos células diana. En otra realización concreta, los ácidos nucleicos diana están presentes en una cantidad de 2 ng o menor en dicha muestra, en particular de 1 ng o menor, más en particular de 0,5 ng o menor. En otra realización concreta, los ácidos nucleicos diana están presentes en una cantidad de 250 pg o menor en dicha muestra, en particular de 200 pg o menor, más en particular de 150 pg o menor. En otra realización concreta, los ácidos nucleicos diana están presentes en una cantidad de 100 pg o menor, en una cantidad de 50 pg o menor, más en particular de 30 pg o menor. En otra realización concreta, dichos ácidos nucleicos diana son ácidos nucleicos sin células en circulación, por ejemplo, ADN fetal sin células en circulación procedente de una muestra materna, o ADN de tumor en circulación procedente de una muestra de un paciente. Aunque el material genético (por ejemplo, ADN materno) puede ser abundante en dichas muestras, el ADN diana (por ejemplo, ADN fetal) está presente solo en cantidades muy limitadas. En una realización concreta, los ácidos nucleicos diana están presentes como ácidos nucleicos sin células en una muestra de fluido. En particular, dichos ácidos nucleicos sin células están presentes en una muestra de fluido que comprende otros ácidos nucleicos (no diana). En una realización concreta, dicha muestra comprende una mezcla de ácidos nucleicos diana y no diana. Preferiblemente, dichos ácidos nucleicos diana están presentes en una cantidad entre 0,1 y 20% de dichos ácidos nucleicos no diana. En otra realización concreta, dicha muestra comprende una mezcla de ácidos nucleicos diana y no diana, en la que dichos ácidos nucleicos diana están presentes en una cantidad de 700 ng o menor, en particular de 500 ng o menor, más en particular de 300 ng o menor, y en otra realización, de 200 ng o menor, en particular de 100 ng o menor, más en particular de 50 ng o menor. En otra realización, dicha muestra comprende ácidos nucleicos sin células, en la que dichos ácidos nucleicos sin células están presentes en una cantidad como se definió anteriormente en la presente.
En una realización concreta, el suministro de una muestra que comprende cantidades bajas de los ácidos nucleicos diana comprende aislar una célula diana o unas pocas células diana. Los métodos de la invención pueden comprender además lisar una célula diana o unas pocas células diana.
La muestra se obtiene preferiblemente de un organismo eucariota, más en particular de un mamífero. En otra realización preferida, dicha muestra tiene un origen de un animal no humano (también denominado en lo sucesivo un animal) o un origen humano. En una realización concreta, dicho animal es un animal domesticado o un animal usado en la agricultura, tal como un caballo o una vaca. En otra realización concreta, dicho animal es un caballo. En otra realización concreta, dicha muestra es de origen humano. En otra realización concreta, dicha muestra se obtiene de una mujer embarazada. En otra realización, dicha muestra se obtiene de un paciente sospechoso de padecer un tumor o un cáncer. En otra realización concreta, dicha célula es una célula eucariota, en particular una célula de mamífero. En una realización más concreta, el origen de dicha célula es como se describe según las realizaciones preferidas con respecto al origen de la muestra, como se describió anteriormente. En otra realización concreta, dichos ácidos nucleicos diana tienen un origen eucariota, en particular un origen de mamífero. En una realización más concreta, dichos ácidos nucleicos diana son como se describió según la realización preferida con respecto al origen de la muestra. Con relación a esto, en una realización preferida, dichos ácidos nucleicos diana se originan de un embrión o un feto. En otra realización preferida, dichos ácidos nucleicos diana se originan de una célula de cáncer o tumor (sospechoso).
"A nivel genómico'', tal como se emplea en la presente, significa que los métodos se aplican a secuencias a través del genoma y proporcionan información sobre ellas. En particular, los métodos de la presente invención proporcionan información con respecto a todos los cromosomas presentes en la muestra, o al menos sus fragmentos. En una realización concreta, "a nivel genómico" se refiere a la información con respecto a al menos un variante por 100 Mb, en particular al menos un variante por 10 Mb, en particular al menos un variante por 1 Mb a través del genoma. En otra realización, significa al menos un variante por ventana de 100 Mb, en particular al menos un variante por ventana de 50 Mb, más en particular al menos un variante por ventana de 10 Mb a través del genoma. En otra realización concreta, a nivel genómico se refiere a la información con respecto a al menos un variante por ventana de 1 Mb.
Breve descripción de los dibujos
A partir de los ejemplos y las figuras, serán evidentes otras características de la presente invención, en los que: La figura 1 ilustra la precisión del método de copiado de nucleótidos de WGA usado en las realizaciones de la presente invención.
Figura 2: Distribución por tamaño del banco genómico de un caballo después de una digestión de restricción con Apekl. El eje de abscisas muestra la longitud del fragmento en pares de bases, y el eje de ordenadas muestra las unidades de fluorescencia. Los dos picos a 35 pb y 10380 pb se refieren al marcador inferior y superior, respectivamente.
Figura 3: Distribución por tamaño del banco genómico de un caballo después de la secuenciación, con un pico en aproximadamente 110 pb. El eje de abscisas muestra la longitud del fragmento en pares de bases, y el eje de ordenadas muestra el número de fragmentos llamados a esta longitud concreta.
Figura 4: Esta figura muestra una mejora de la reducción de la complejidad del genoma de caballo cuando se emplea el método convencional frente al método selectivo. Las barras negras indican la muestra promedio (que significa el promedio de 56 muestras) secuenciada con el método convencional. Las barras blancas indican la muestra promedio secuenciada con el método selectivo. El eje de ordenadas muestra el número de lecturas.
Figura 5: Esta captura del navegador IGV se centra en una región concreta de 288 pb en el cromosoma 31. El recuadro superior indica la localización cromosómica y el tamaño genómico de la ventana. El carril 1 muestra los datos reunidos de las 56 muestras secuenciadas a través del método convencional, mientras que el carril 2 visualiza los datos reunidos de las 56 muestras secuenciadas a través del método selectivo. El carril 3 muestra la localización de los sitios de reconocimiento de la enzima Apekl. Las barras negras en el carril 1 y 2 indican la presencia de una diferencia de un nucleótido con respecto a la secuencia de referencia (EquCab2). Cada barra/punto horizontal en los carriles 1 y 2 se refiere a una diferencia de secuencia en una muestra individual.
Descripción detallada de las realizaciones preferidas
La presente invención se describirá a continuación con respecto a realizaciones concretas y remitiéndose a ciertas figuras, pero estas no limitan la invención, sino que la invención solo se ve limitada por las reivindicaciones. Las figuras descritas son solo esquemáticas y no limitantes. En las figuras, el tamaño de algunos elementos puede estar exagerado y no dibujado a escala con fines ilustrativos. Cuando se emplea el término "comprende" en la presente descripción y las reivindicaciones, este no excluye otros elementos o etapas. Cuando se emplea un artículo indefinido o definido cuando se menciona un sustantivo singular, por ejemplo, "un/una" o "e/la", este incluye el plural de ese sustantivo, a menos que se indique específicamente lo contrario.
El término "comprende", usado en las reivindicaciones, no debe interpretarse como restringido a los medios listados allí; este no excluye otros elementos o etapas. Por tanto, el alcance de la expresión "un sistema que comprende los medios A y B" no se limita a los sistemas que consisten solo en los componentes A y B. Significa que, con respecto a la presente invención, los componentes pertinentes del sistema son A y B.
Además, los términos, primero, segundo, tercero y similares en la descripción y en las reivindicaciones se emplean para distinguir entre elementos similares y no necesariamente para describir un orden secuencial o cronológico. Debe entenderse que los términos usados de esta manera son intercambiables bajo circunstancias apropiadas, y que las realizaciones de la invención descritas en la presente son capaces de llevarse a cabo en otras secuencias distintas de las descritas o ilustradas en la presente.
En las figuras, las referencias numéricas similares indican características similares, y cuando una referencia numérica aparece en más de una figura, aquella se refiere al mismo elemento. Las figuras y las siguientes descripciones detalladas muestran realizaciones específicas del sistema y del método para la genotipificación de alta capacidad de procesamiento mediante la secuenciación de células individuales.
Las realizaciones de la invención proporcionan, de modo ventajoso, un método por el que el aislamiento del ADN de al menos una célula individual, con o sin amplificación (ADNn/ADNmt), puede combinarse con una reducción de la complejidad de la diana, por ejemplo, una célula individual, un producto de ADN, una amplificación basada en PCR y una secuenciación de siguiente generación para producir un conjunto de marcadores para genotipificar y haplotipificar genomas completos, o partes de estos, de una a múltiples células. Además de la nueva combinación de estas etapas, otras realizaciones de la presente invención proporcionan, de modo ventajoso, un nuevo método para filtrar, por ejemplo, mediante medios bioinformáticos/estadísticos, los artefactos generados por cualquier amplificación completa o parcial del genoma (WGA o PGA, respectivamente) o PCR de un banco de secuenciación (representativo reducido), así como un método de secuenciación.
El advenimiento de las tecnologías de secuenciación de siguiente generación (NGS) ha revolucionado el modo en que los biólogos producen, analizan e interpretan datos. Aunque las plataformas de NGS proporcionan una manera barata de descubrir variantes a nivel genómico a partir de un único experimento, los variantes descubiertos por NGS necesitan de una validación de seguimiento debido a las elevadas tasas de error asociadas con diversas químicas de secuenciación, además de que el análisis molecular de una célula individual es difícil debido a las bajas cantidades de ADN disponibles. De forma ventajosa, se ha propuesto la secuenciación del exoma completo como una opción asequible comparada con los ensayos del genoma completo, pero sigue siendo necesaria la validación de seguimiento de todos los variantes exómicos nuevos. Habitualmente se emplea una estrategia de consenso para superar los errores sistemáticos inherentes a la tecnología de la secuenciación y los algoritmos de detección de variantes de alineamiento y postalineamiento. Sin embargo, las estrategias mencionadas anteriormente garantizan el uso de múltiples químicas de secuenciación, múltiples herramientas de alineamiento, múltiples llamados de variantes que pueden no ser viables en términos de tiempo y dinero para investigadores individuales con conocimientos limitados en informática. Los biólogos a menudo carecen de la formación requerida para manejar la enorme cantidad de datos producidos por las pruebas de NGS y les resulta difícil escoger de la lista de herramientas analíticas de uso libre para el análisis de los datos de NGS. Por tanto, es necesario adaptar el algoritmo bioinformático de análisis de datos de NGS para conservar preferentemente los variantes verdaderos minimizando la incidencia de falsos positivos y facilitando la elección de las herramientas analíticas correctas. Para este fin, las realizaciones de la presente invención proporcionan, de modo ventajoso, métodos que pueden superar estos inconvenientes proporcionando métodos avanzados de corrección de datos que producen unos resultados eficaces y robustos.
Además, los actuales problemas de genotipificación de una célula individual, principalmente debidos a pérdida y ganancia alélica y/o sesgo de amplificación preferente de alelos tras realizar los métodos de amplificación del ADN de una célula individual pueden superarse en gran medida mediante la secuenciación profunda según las realizaciones preferidas de la presente invención para asegurarse de que cada par de bases se muestree con alta redundancia. Las realizaciones del método y los medios bioinformáticos relacionados permiten, de forma ventajosa, identificar estos variantes (raros).
Un método según las realizaciones de la invención puede comprender al menos una de las siguientes etapas:
(i) Aislamiento de células individuales, extracción del ADN y amplificación del genoma completo (WGA). Brevemente, cuando una o más células se aíslan mediante su selección por FACS, después sus núcleos que contienen el ADN y el ADN mitocondrial pueden amplificarse tras la lisis celular a través de métodos de amplificación a nivel genómico basados en la amplificación de desplazamiento múltiple (MDA) o la amplificación a nivel genómico basada en PCR. El resultado es una colección de fragmentos (grandes o pequeños dependiendo del método de WGA usado). Esta colección después se procesa para la genotipificación mediante secuenciación (GBS) usando enzimas de restricción para construir un banco representativo reducido (RRL) para la secuenciación masiva paralela de alta capacidad de procesamiento. En una etapa opcional, se omite la WGA del ADN de la célula individual y solo se amplifican fracciones concretas o deseadas del genoma de la célula individual. Estos métodos de amplificación parcial del genoma (PGA) ya reducen significativamente la complejidad del genoma de la célula individual antes de la secuenciación masiva paralela/GBS. En otra etapa opcional, se omiten la WGA y la PGA del ADN de la célula individual, y el ADN de la célula individual después de la lisis se procesa inmediatamente para la GBS (concretamente, GBS directa).
(ii) Digestión y selección de enzimas in silico.
Las enzimas de restricción pueden seleccionarse preferiblemente basándose en los siguientes criterios:
(1) la longitud de los fragmentos predichos/número de sitios de restricción,
(2) la proporción de solapamiento con elementos repetitivos/sitios de metilación,
(3) el contenido en SNP putativos,
(4) la frecuencia de corte de la enzima,
(5) las coberturas predichas de los métodos de amplificación a nivel genómico de una célula individual. Las realizaciones de la presente invención proporcionan, de modo ventajoso, medios para construir e integrar mapas de "cero cobertura" de un genoma, es decir, mapas que destacan las bases que son recurrentemente pasadas por alto por los productos de la amplificación de una célula individual.
Cada banco de WGA de una célula individual secuenciado para una cantidad concreta de bases preferiblemente produce un patrón característico de WGA de anchura y profundidad de cobertura de secuencia a través del genoma de referencia. Por ejemplo, las secuencias basadas en PCR de una célula individual recurrentemente pasan por alto más partes del genoma que las secuencias de células amplificadas mediante desplazamiento múltiple (MDAed), pero los loci cubiertos por las secuencias basadas en PCR de una célula individual a menudo son cubiertos más profundamente cuando se compara con las secuencias de células de MDAed, aunque ambas hayan sido secuenciadas para la misma cantidad de bases.
Las realizaciones preferidas de la invención proporcionan una combinación de enzimas de restricción que preferiblemente pueden elegirse para que realicen digestiones dobles o más para aumentar las tasas de descubrimiento de SNP y, por tanto, aumentar la sensibilidad global de los ensayos de genotipificación. Tras haber elegido las enzimas, preferiblemente se prepara un digerido de las muestras de WGA, seguido de una selección de fragmentos basándose en su tamaño.
(iii) Construcción del banco y secuenciación del ADN.
Después se realiza preferiblemente una purificación de los fragmentos elegidos, seguido de la adición de adaptadores con una proyección de un solo nucleótido (preferiblemente).
(iv) Llamado de SNP (por ejemplo, identificación y/o tipificación) y manejo de datos.
Los resultados de usar un método según las realizaciones de la invención demuestran, de modo ventajoso, que la secuenciación de los productos de WGA de una célula individual permite determinar las frecuencias digitales de ambos alelos de un marcador genético (SNP, Indel...) en el ADN de WGA. Esto tiene la ventaja de que, por ejemplo, los SNP en células individuales pueden tipificarse con más precisión cuando se comparan con métodos convencionales que emplean, por ejemplo, matrices de SNP. En efecto, la amplificación preferente de un alelo de un SNP heterocigótico produciría, por ejemplo, un llamado de SNP homocigótico cuando se analiza en una matriz de SNP debido a la intensísima señal de este alelo amplificado preferentemente en la sondas de SNP de la matriz. Por contraste, en la estrategia de secuenciación, el SNP heterocigótico puede llamarse con mucha más precisión y confianza, porque, por ejemplo, de cientos a miles de lecturas de secuencias indican el alelo amplificado preferentemente, pero también una minoría de lecturas indicarán el otro alelo del SNP. Por tanto, este conocimiento permite que un algoritmo de genotipificación según las realizaciones de la invención (véase a continuación) incline, con confianza estadística, el llamado de SNP de una célula individual hacia una heterocigosidad correcta, en lugar de un llamado homocigótico falso. Se aplican reglas similares cuando el ADN de una célula individual se procesa a través de PGA o GBS directa sin que intervengan WGA/PGA. Aunque pueden identificarse sustituciones de nucleótidos en secuencias de WGA de una célula individual, las polimerasas de WGA no copian cada base correctamente durante la amplificación. Estos errores pueden ser confundidos por sustituciones de nucleótidos genuinas en el genoma de la célula. Para investigar la fidelidad de bases de las polimerasas de WGA, se ha realizado un gráfica de la frecuencia de desapareamiento de bases (que tiene una calidad de llamado de bases de >30) con respecto al genoma de referencia a lo largo de la longitud completa de las lecturas (que tienen una calidad de cartografiado de >30). De modo sorprendente, la frecuencia de desapareamiento fue significativamente mayor después de la secuenciación de WGA basada en PCR de una célula individual que después de una secuenciación de ADN no WGA o basada en MDA de una célula individual (tal como se ilustra en la figura 2, que muestra un ensayo de Kolmogorov-Smirnov de dos colas, con unos valores de p < 2,2e-16), lo cual sugiere que cierta polimerasa o polimerasas basadas en PCR provocan significativamente más errores de copia de nucleótidos. La polimerasa phi29 de MDA aplica una actividad exonucleasa de corrección 3'->5', y los resultados preliminares indican que la tasa de errores de secuencia de MDA es muy baja y casi comparable a la secuenciación de ADN no WGA convencional cuando se aplica una calidad de cartografiado y llamado de bases de 30 o más, tal como se muestra en la figura 2.
Además, la figura 1 ilustra la frecuencia de desapareamiento de nucleótidos con hg19-genoma de referencia en cada base de la lectura. Solo se consideraron las bases con una calidad de llamado de bases de 30 o más en las lecturas que tienen una calidad de cartografiado mínima de 30. Es evidente que el método de WGA basado en PCR de una célula individual introduce significativamente más errores de nucleótido de WGA que la secuenciación del ADN de no WGA y MDA-WGA de una célula individual.
Además de la fidelidad de las polimerasas de WGA de una célula individual, también hay que tomar en cuenta la precisión de las polimerasas de GBS-PCR y las reacciones de la química de secuencia (por ejemplo, polimerasas de PCR de puente) en los métodos para la genotipificación tras (WGA PGA-)GBS de una célula individual.
Existen dos estrategias principales para interpretar las lecturas de secuencia que surgen del método de (WGA/PGA-)GBS de una célula individual según las realizaciones preferidas de la invención:
(1) La genotipificación de las células para un conjunto conocido de marcadores polimórficos (SNP, Indels,...) o mutaciones del ADN cubiertas por las lecturas de (WGA PGA-)GBS de una célula individual. Aunque el flujo de trabajo puede aplicarse a cualquier variante genético de nucleótidos que se desee genotipificar en las secuencias de células individuales resultantes, las posiciones de SNP que se conocen en la actualidad en el genoma humano hg19 puede extraerse, preferiblemente, de bases de datos, tales como dbSNP o del proyecto 1000 Genomes. Existen bases de datos similares para otras especies. Las posiciones físicas de los variantes genéticos de nucleótidos preferiblemente se aplican a la generación de apilamientos de las bases que cubren una posición concreta. Aunque existen diversos métodos algorítmicos para lograrlo, las realizaciones más preferidas de la invención proporcionan un algoritmo bioinformático basado, por ejemplo, en el alineamiento de Burrows Wheeler ("Burrows Wheeler Alignment", BWA), SAMtools, Perl y R-scripts. Brevemente, para cada posición que es interrogada por el algoritmo según las realizaciones de la invención, preferiblemente se genera una lista de las cantidades de bases A, C, G y T que cubren esta posición, y preferiblemente el alelo de referencia, así como todos los alelos (variantes) alternativos putativos para esa posición. Los umbrales de la calidad de cartografiado de lectura, la calidad del llamado de bases, el inicio y el fin de las lecturas (por ejemplo, la figura 2 indica que la primera y la última base de las lecturas de secuencia debe omitirse del análisis, puesto que contienen más errores de desapareamiento con el genoma de referencia) pueden aplicarse para aumentar la precisión a costa de la cobertura. Si el alelo de referencia y alternativo del SNP son conocidos (por ejemplo, las bases de citosina y timidina para el alelo principal y minoritario del SNP en la población general, respectivamente), el algoritmo según las realizaciones preferidas de la invención, de forma ventajosa, devolverá la cantidad de lecturas de secuencia que portan el alelo de referencia (por ejemplo, 20 lecturas que indican una base C en esa posición en la secuencia WGA) y, de forma similar, para el alelo alternativo (por ejemplo, 980 lectura que indican una base T en esa posición en la secuencia de WGA). Posteriormente, por ejemplo, mediante el empleo de ensayos estadísticos, estos recuentos alélicos digitales pueden evaluarse para que sean significativamente diferentes de una situación en la que el error de secuencia y/o el error de copias de nucleótidos de WGA putativo conduciría a una observación similar si el SNP subyacente fuese homocigótico. Basándose en posteriores umbrales del valor de P, pueden establecerse llamados heterocigóticos, homocigóticos y no SNP. Considerando que la pérdida alélica de WGA y los artefactos de amplificación preferente a menudo incluyen múltiples kilobases, SNP o variantes genéticos de nucleótido, se espera que en el haplotipo de un variante cercano aparezcan frecuencias de variantes alélicos similares en el producto de WGA-GBS de una célula individual. Mediante la aplicación de este principio, según realizaciones preferidas de la invención, de modo ventajoso, la precisión en los llamados de genotipo final aumenta aún más. Se aplican reglas similares cuando el ADN de una célula individual se somete a PGA-GBS o a GBS directa sin WGA interviniente. Para la GBS directa, el ADN de una célula individual se digiere inmediatamente después de la lisis, los adaptadores se acoplan, los fragmentos de ADN se amplifican mediante PCR, se seleccionan según su tamaño, y los amplicones se someten a una secuenciación masiva paralela. En este proceso, también se introducirá un sesgo de amplificación de alelos, así como errores de copia de nucleótidos, cuando se comienza a partir de una célula individual. Por tanto, pueden aplicarse los mismos algoritmos bioinformáticos, según las realizaciones de la invención. Puesto que los algoritmos, según las realizaciones de la invención, permiten detectar alelos variantes con frecuencias (ultra) bajas en las secuencias, este algoritmo bioinformático tiene un valor tremendo para la detección de mosaicismo genético de grado (ultra) bajo en muestras con secuenciación profunda también.
(2) Descubrimiento de novo de variantes genéticos en la célula.
Los principios presentados anteriormente pueden aplicarse, según las realizaciones de la invención, a todas las bases cubiertas por la (WGA/PGA-)GBS de una célula individual para el descubrimiento de novo de SNP en productos de (WGA PGA-)GBS de una célula individual. Además, estos algoritmos, según realizaciones preferidas de la invención, pueden suplementarse con llamadores de variantes genéticos convencionales (por ejemplo, SAMtools con BCFtools, SOAPsnp, GATK...), pero debido a las discrepancias en las frecuencias de ambos alelos de un SNP en las secuencias de amplificación de células individuales, así como los errores de secuencia de WGA/PGA-GBS, los llamadores de variantes disponibles fuera de plataforma pueden producir genotipos de células individuales menos precisos.
Ejemplos
Ejemplo 1: Identificación de SNP a través de genotipificación mediante secuenciación (GBS) en un caballo de raza árabe
El objetivo es determinar la diversidad genética dentro de caballos de pura sangre de raza árabe basándose en la identificación de SNP a gran escala usando GBS. Para ello, se recolectaron 56 muestras de sangre. Las extracciones de ADN se realizaron con el kit Puregene (Qiagen). Se comprobaron las concentraciones de las muestras con un NanoDrop y se comprobó la fragmentación en un gel de agarosa.
Se realizó una digestión in silico basándose en la secuencia de referencia EquCab2 usando Apekl, empleando secuencias de instrucciones Perl/BioPerl adaptadas y se predicen 2.937.656 fragmentos <=500 pb o 3.766.233 fragmentos <=1000 pb. Este número refleja la eficacia de la reducción de la complejidad del genoma. Sin embargo, esto no toma en cuenta los patrones de metilación.
Se prepararon bancos de ADN como se ha describo previamente (Elshire et al., PLoS One, 2011, 6(5):e19379. doi: 10.1371/journal.pone.0019379) con pequeñas modificaciones. Se usó la enzima de restricción Apekl para reducir la complejidad del genoma por muestra. Apekl es una endonucleasa de restricción de tipo II que reconoce la secuencia diana de ADN 5'-GACWGC-3' (en la que W = A o T) y que realiza la ruptura después de la primera G para producir fragmentos con proyecciones 5' de tres bases. Los adaptadores comprenden un conjunto de 56 adaptadores diferentes que contienen código de barras y un adaptado común, y tiene una concentración de 0,3 ng/gl en lugar de 0,6 ng/gl. El control de calidad se realizó para 4 muestras, los caballos 1, 2, 9 y 10. Se determinó el tamaño de los fragmentos y la presencia de dímeros de adaptador a través del bioanalizador Agilent 2100 (figura 2). Después de determinar la concentración de las muestras a través de un ensayo PicoGreen, el banco se sometió a una secuenciación de lectura apareada en un carril del lllumina HiSeq2000.
Las secuencias de ADN de FASTQ lllumina se procesaron a través del algoritmo bioinformático de análisis de datos de los inventores. Con las secuencias de instrucciones adaptadas, los datos se clasificaron por muestra basándose en el código de barra en línea (primeras 6-8 pb de la lectura 1). Después de recortar, las lecturas se alinearon usando BWA v0.6.2 con EquCab2, y las regiones con un máximo de cobertura de >5 X se identificaron con SNIFER y secuencias de instrucciones adaptadas.
Los resultados de las secuencias muestran un promedio de 1,8 millones de lecturas por muestra y, en promedio, 1 X de cobertura por muestra. La tabla 1 proporciona un resumen de los datos generados después de la secuenciación del banco patrón de 56 caballos de raza árabe. El número de la muestra se indica en la columna 1. La columna 2 muestra el número de lecturas brutas por muestra, la columna 3 muestra las lecturas procesadas por muestra, y se cuentan todas las regiones por muestra que sean mayores que 80 pb.
Las distribuciones del tamaño de los fragmentos en las muestras con Apekl muestran un patrón similar en todas las muestras (figura 3). Los archivos BAM de las 56 muestras se reunieron y se cargaron en el Integrative Genomic Viewer (IGV). Los SNP se analizaron mediante inspección visual (figura 5).
Tabla 1
Figure imgf000021_0002
2858394 1799838
2610522 1651114
2658906 1661994
2321770 1496646
3229270 2047758
1760285 1109438
1392134 878969
3270777 2154840
3354984 2199428
2742378 1759003
1167670 729718
1507787 910192
799647 533114
1373434 884782
1113017 708423
765382 470352
154144 96367
334883 200191
2831872 1780018
2856180 1813744
Figure imgf000021_0001
1889402 1141160 487088 294142
1381170 909013
3267380 2118613
897341 585076 611723 389776
2758005 1806251
3654815 2487642
2299255 1565585
2640480 1765888
531810 349391
1740781 1165509
1172703 778117
153333 100180
2368131 1580705
1582386 1048634
3178144 2162268
Figure imgf000022_0001
1911276 1253344
Figure imgf000023_0001
Ejemplo 2: Mayor mejora en la reducción de la complejidad del genoma usando un cebador selectivo
Además de la generación del anterior banco representativo reducido (denominado en lo sucesivo banco "patrón") usando la enzima de restricción Apekl y el mismo conjunto de 56 caballos de raza árabe, los inventores redujeron aún más la complejidad del genoma empleando un cebador selectivo. Este cebador selectivo cubre el adaptador común completo, el sitio de restricción 3' y se extiende 2 bases hacia la región de inserción. Debido a las 2 bases selectivas en el extremo 3' del cebador, solo se amplifica un subconjunto de fragmentos con adaptadores acoplados. Cebador inverso selectivo (5'-3'):
CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCT TCCGATCTCAGCAC
Cebador inverso patrón (5'-3'):
CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCT TCCGATCT
Cebador directo común (5'-3'):
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCG ATCT
Además, la preparación del banco se sometió a secuenciación de lectura sencilla en un solo carril de un lllumina HiSeq2500. Las lecturas de secuencia brutas se procesaron de modo similar al anterior algoritmo bioinformático. Se realizó el adecuado control de calidad para comprobar la organización correcta del código de barras y el sitio de restricción. Se rechazaron las lecturas de mala calidad, no conformes a los estándares de los inventores. De modo global, los resultados muestran una reducción a la mitad de la complejidad genómica en el banco selectivo, comparado con el banco patrón (figura 4), y una mejora del promedio de cobertura de hasta 7X de profundidad de secuenciación.
La identificación de SNP se realizó de modo similar al ejemplo anterior y posteriormente se visualizó en el Integrative Genomic Viewer (IGV) (figura 5). Se demuestra la eficacia del cebador, puesto que son llamadas menos regiones en el banco selectivo que en el banco patrón.
Ejemplo 3: Genotipificación mediante secuenciación de múltiples células y de una célula individual
Se tomó una biopsia de piel de un caballo macho y se cultivó en un incubador convencional a 37 °C y 5% de CO2. Se cultivaron fibroblasto en matraces Falcon T175 grandes, se lavaron y se extrajo el ADN usando el kit de sangre y tejido (Qiagen). Se comprobó la concentración a través del NanoDrop y se comprobó la fragmentación del ADN en un gel de agarosa.
Procedente de la misma línea celular, se usó un único fibroblasto para el posterior procesamiento corriente abajo. La células se lisó y el ADN se amplificó según el documento WO2011/157846. Se llevaron a cabo las preparaciones de los bancos usando la enzima de restricción Pstl y se siguió procesando de una manera similar al procedimiento del ejemplo 1. Se predijo que Pstl generaría 968.569 fragmentos en el genoma de caballo (la secuencia de referencia EquCab2), mientras que con ApeKI se generarían 4461178 fragmentos en total. Puesto que se quería maximizar la potencia de secuenciación, se decidió ensayar la digestión con Pstl en el genoma de caballo. La enzima Pstl reconoce la siguiente secuencia CTGCAAG y es sensible a la metilación. Otras predicciones in silico calcularon 238405 fragmentos y 388822 fragmentos más pequeños que 500 pb y 1000 pb, respectivamente.
La secuenciación se realizó en múltiples células y en una célula individual en un lllumina HiSeq2000. Esto produjo 52K de lecturas de 100 pb pareadas para la muestra de múltiples células y de 144K para la muestra de la célula individual. Los datos de la secuencia se procesaron como se describe en el ejemplo 1. Los análisis de cobertura revelaron regiones 15K y 19K con una profundidad de al menos 5x en la muestra de múltiples células y de una célula individual, respectivamente, de las cuales 2585 regiones se solapan entre ambas muestras. Esto último está dentro de lo esperado, puesto que el número total de regiones predichas estaría en la escala de 250K, de las cuales los inventores solo observaron menos del 10% debido a la baja cantidad de bases secuenciadas por muestra. A pesar de que se secuencia un número bajo de bases por muestra, esto puede conducir a una cobertura de secuenciación profunda local (por ejemplo, > 5x en este ejemplo) aplicando el RRL. Se emplea Samtools v 0.1.17 para el llamado de SNP en ambas muestras. Las posiciones en que se observa un llamado de SNP en ambas muestras fueron concordantes al 99%.

Claims (12)

REIVINDICACIONES1 Un método para el análisis de ácidos nucleicos diana, comprendiendo dicho método las siguientes etapas:
1. proporcionar una muestra en la que están presentes ácidos nucleicos diana en una cantidad de 100 pg o menos, en los que dichos ácidos nucleicos diana se originan de un embrión o de un feto o proceden de una célula de cáncer o tumor,
ii. generar un banco representativo reducido de dichos ácidos nucleicos diana mediante un método que comprende: - fragmentar dichos ácidos nucleicos diana usando una o más enzimas de restricción;
- acoplar adaptadores a dichos fragmentos; y
- seleccionar un subconjunto de dichos fragmentos con adaptadores acoplados basándose en el tamaño de dichos fragmentos,
iii. realizar una secuenciación masiva paralela de dicho banco representativo reducido, y
iv. identificar variantes en dichos ácidos nucleicos diana mediante el análisis de los resultados obtenidos mediante dicha secuenciación.
2. - El método de una cualquiera de las reivindicaciones anteriores, en el que dicha selección de un subconjunto se realiza usando una amplificación con PCR.
3. - El método de una cualquiera de las reivindicaciones anteriores, en el que dicha selección de un subconjunto incluye la amplificación con PCR usando un cebador selectivo.
4. - El método de la reivindicación 1, en el que la generación de un banco representativo reducido comprende amplificar un subconjunto de fragmentos que, cuando se combinan, comprenden solo una parte de los ácidos nucleicos diana.
5. - El método de la reivindicación 1, que comprende además:
v. construir un genotipo y/o un haplotipo basándose en variantes identificados en dichos ácidos nucleicos diana.
6. - El método de la reivindicación 1, que comprende además:
v. identificar una aberración genética en dicha muestra basándose en variantes identificados en dichos ácidos nucleicos diana.
7. - El método de la reivindicación 1, en el que el suministro de una muestra comprende aislar una célula diana o unas pocas células diana.
8. - El método de la reivindicación 7, en el que el suministro de una muestra comprende además lisar dicha una célula diana o dichas unas pocas células diana.
9. - El método de la reivindicación 1, que comprende además la amplificación del genoma completo (WGA) de dichos ácidos nucleicos diana.
10. - El método de la reivindicación 1, en el que la secuenciación de dicho banco representativo reducido asegura que cada posición de variante en dicho banco se muestrea con alta redundancia.
11. - El método de una cualquiera de las reivindicaciones anteriores, en el que dicha generación de un banco de representación reducida reduce la complejidad al menos 5 veces.
12. - El método de una cualquiera de las reivindicaciones anteriores, en el que dicha secuenciación se realiza con una profundidad de al menos 5x.
ES13780321T 2012-10-05 2013-10-07 Genotipificación de alta capacidad de procesamiento mediante la secuenciación de cantidades bajas de material genético Active ES2792904T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB1217888.5A GB201217888D0 (en) 2012-10-05 2012-10-05 High-throughput genotyping by sequencing of single cell
PCT/EP2013/070858 WO2014053664A1 (en) 2012-10-05 2013-10-07 High-throughput genotyping by sequencing low amounts of genetic material

Publications (1)

Publication Number Publication Date
ES2792904T3 true ES2792904T3 (es) 2020-11-12

Family

ID=47294342

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13780321T Active ES2792904T3 (es) 2012-10-05 2013-10-07 Genotipificación de alta capacidad de procesamiento mediante la secuenciación de cantidades bajas de material genético

Country Status (10)

Country Link
US (3) US20150247184A1 (es)
EP (2) EP3699292A1 (es)
CN (1) CN104884633B (es)
AU (1) AU2013326406B2 (es)
BR (1) BR112015007333A2 (es)
CA (1) CA2886835A1 (es)
DK (1) DK2904113T3 (es)
ES (1) ES2792904T3 (es)
GB (1) GB201217888D0 (es)
WO (1) WO2014053664A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201319779D0 (en) * 2013-11-08 2013-12-25 Cartagenia N V Genetic analysis method
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CN105177160B (zh) * 2015-10-16 2018-10-16 浙江大学 检测多种新生儿遗传代谢病致病基因的引物及试剂盒
CN105256379A (zh) * 2015-11-23 2016-01-20 武汉大学 一种新的基因组简化甲基化测序文库的制备方法
CA3033521A1 (en) 2016-08-10 2018-02-15 New York Genome Center, Inc. Ultra-low coverage genome sequencing and uses thereof
US11342047B2 (en) * 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
CN109161587A (zh) * 2018-09-26 2019-01-08 上海交通大学医学院附属上海儿童医学中心 一种检测染色体重复片段断裂位点和定位信息的方法
CN109628566A (zh) * 2018-12-28 2019-04-16 北京中仪康卫医疗器械有限公司 利用RAD-seq对胚胎进行PGS分析的方法
CN109629009B (zh) * 2019-01-10 2022-02-22 北京中科遗传与生殖医学研究院有限责任公司 一种基于RAD-seq对胚胎进行无创PGS的方法
CN113215230B (zh) * 2021-06-22 2024-02-09 艾康健(武汉)基因技术有限公司 一种非疾病诊断目的的snp核酸质谱分型检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6395887B1 (en) * 1995-08-01 2002-05-28 Yale University Analysis of gene expression by display of 3'-end fragments of CDNAS
EP1606417A2 (en) 2003-03-07 2005-12-21 Rubicon Genomics Inc. In vitro dna immortalization and whole genome amplification using libraries generated from randomly fragmented dna
CN101641449B (zh) 2005-06-23 2014-01-29 科因股份有限公司 用于多态性的高通量鉴定和检测的策略
DK3404114T3 (da) * 2005-12-22 2021-06-28 Keygene Nv Fremgangsmåde til detektering af AFLP-baseret polymorfisme med højt gennemløb
EP2789694A1 (en) * 2009-04-02 2014-10-15 Fluidigm Corporation Microfluidic device with reaction product recovery system
GB201010232D0 (en) 2010-06-18 2010-07-21 Univ Leuven Kath Methods for haplotyping single cells
WO2013078019A1 (en) * 2011-11-22 2013-05-30 Dow Agrosciences Llc Three dimensional matrix analyses for high throughput sequencing
EP3434789A1 (en) * 2012-01-13 2019-01-30 Data2Bio Genotyping by next-generation sequencing

Also Published As

Publication number Publication date
US20200291456A1 (en) 2020-09-17
EP2904113B1 (en) 2020-02-26
AU2013326406A1 (en) 2015-05-14
CN104884633A (zh) 2015-09-02
AU2013326406B2 (en) 2019-01-03
US20220186291A1 (en) 2022-06-16
EP3699292A1 (en) 2020-08-26
GB201217888D0 (en) 2012-11-21
EP2904113A1 (en) 2015-08-12
BR112015007333A2 (pt) 2017-07-04
CN104884633B (zh) 2018-10-26
CA2886835A1 (en) 2014-04-10
WO2014053664A1 (en) 2014-04-10
US20150247184A1 (en) 2015-09-03
DK2904113T3 (da) 2020-05-25

Similar Documents

Publication Publication Date Title
ES2792904T3 (es) Genotipificación de alta capacidad de procesamiento mediante la secuenciación de cantidades bajas de material genético
US20220139495A1 (en) Methods for nested pcr amplification
KR102505122B1 (ko) Dna 샘플 중 게놈 카피 변화의 검출을 위한 방법
KR102210852B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US20140206552A1 (en) Methods for preimplantation genetic diagnosis by sequencing
RU2650790C2 (ru) Способы и композиции для высокомультиплексной пцр
Varshney et al. A large-scale zebrafish gene knockout resource for the genome-wide study of gene function
AU2011358564B9 (en) Methods for non-invasive prenatal ploidy calling
Galluzzi et al. Extracellular embryo genomic DNA and its potential for genotyping applications
US20140051585A1 (en) Methods and compositions for reducing genetic library contamination
Precone et al. Cracking the code of human diseases using next‐generation sequencing: Applications, challenges, and perspectives
WO2013052557A2 (en) Methods for preimplantation genetic diagnosis by sequencing
WO2013130848A1 (en) Informatics enhanced analysis of fetal samples subject to maternal contamination
Chen et al. DNA methylome reveals cellular origin of cell-free DNA in spent medium of human preimplantation embryos
JP2022505050A (ja) プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬
EP3784806A1 (en) Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
WO2014028778A1 (en) Methods and compositions for reducing genetic library contamination
Yin et al. Revisiting chromatin packaging in mouse sperm
ES2738176B2 (es) Metodo para el estudio de mutaciones en embriones en procesos de reproduccion in vitro
Zhou et al. Massively parallel sequencing on human cleavage-stage embryos to detect chromosomal abnormality
Karami et al. Comparing the advantages, disadvantages and diagnostic power of different non-invasive pre-implantation genetic testing: A literature review
Penedo et al. Molecular genetic testing and karyotyping in the horse
WO2024033411A1 (en) Methods for determining the location of a target sequence and uses