ES2873723T3 - Colecciones de genoma completo de células individuales y métodos de indexación combinatoria para prepararlas - Google Patents

Colecciones de genoma completo de células individuales y métodos de indexación combinatoria para prepararlas Download PDF

Info

Publication number
ES2873723T3
ES2873723T3 ES17755575T ES17755575T ES2873723T3 ES 2873723 T3 ES2873723 T3 ES 2873723T3 ES 17755575 T ES17755575 T ES 17755575T ES 17755575 T ES17755575 T ES 17755575T ES 2873723 T3 ES2873723 T3 ES 2873723T3
Authority
ES
Spain
Prior art keywords
indexed
nuclei
nucleic acid
sequence
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17755575T
Other languages
English (en)
Inventor
Andrew Adey
Sarah Vitak
Frank Steemers
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oregon Health Science University
Illumina Inc
Original Assignee
Oregon Health Science University
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oregon Health Science University, Illumina Inc filed Critical Oregon Health Science University
Application granted granted Critical
Publication of ES2873723T3 publication Critical patent/ES2873723T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

Un método para preparar una colección de secuenciación que comprende ácidos nucleicos procedentes de una pluralidad de células individuales, comprendiendo el método: (a) proporcionar núcleos aislados a partir de una pluralidad de células; (b) someter los núcleos aislados a un tratamiento químico para generar núcleos con reducción de nucleosomas, mientras se mantiene la integridad de los núcleos aislados; (c) distribuir subconjuntos de los núcleos con reducción de nucleosomas en una primera pluralidad de compartimentos y poner en contacto cada subconjunto con un complejo de transposoma, en donde el complejo de transposoma en cada compartimento comprende una transposasa y una primera secuencia indexada que es diferente de las primeras secuencias indexadas en los otros compartimentos; (d) fragmentar los ácidos nucleicos en los subconjuntos de núcleos con reducción de nucleosomas en una pluralidad de fragmentos de ácido nucleico e incorporar las primeras secuencias indexadas en al menos una hebra de los fragmentos de ácido nucleico para generar núcleos indexados que comprenden fragmentos de ácido nucleico indexados, en donde los fragmentos de ácido nucleico indexados permanecen fijados a las transposasas; (e) combinar los núcleos indexados para generar núcleos indexados agrupados; (f) distribuir subconjuntos de los núcleos indexados agrupados en una segunda pluralidad de compartimentos; (g) incorporar en los fragmentos de ácido nucleico indexados en cada compartimento una segunda secuencia indexada para generar fragmentos doblemente indexados, en donde la segunda secuencia indexada en cada compartimento es diferente de las segundas secuencias indexadas en los otros compartimentos; (h) combinar los fragmentos doblemente indexados, produciendo de este modo una colección de secuenciación que comprende ácidos nucleicos del genoma completo procedentes de la pluralidad de células individuales.

Description

DESCRIPCIÓN
Colecciones de genoma completo de células individuales y métodos de indexación combinatoria para prepararlas
Campo
Las realizaciones de la presente descripción se refieren a la secuenciación de ácidos nucleicos. En particular, las realizaciones de los métodos y composiciones proporcionados en este documento se refieren a la producción de colecciones de secuenciación de células individuales indexadas y la obtención de datos de la secuencia a partir de las mismas.
Antecedentes
La secuenciación de células individuales ha revelado la amplitud de la heterogeneidad genómica entre las células en una variedad de contextos, incluida la aneuploidía somática en el cerebro de los mamíferos (McConnell, M. J. et al. Science (80). 342, 632-637 (2013), Cai, X. et al. Cell Rep. 8, 1280-1289 (2014), Knouse, K. A. et al., Proc Natl Acad Sci USA 111, 13409-13414 (2014), Rehen, S. K. et al. Proc. Natl. Acad. Sci. USA, 98, 13361-6 (2001)) y la heterogeneidad intratumoral (Navin, N. et al. Nature 472, 90-94 (2011), Eirew, P. et al. Nature 518, 422-6 (2014)), Gawad, C. et al. Proc. Natl. Acad. Sci. USA 111, 17947-52 (2014), Gao, R. et al. Nat. Genet. 1-15 (2016).
Unos estudios han adoptado uno de dos enfoques: profundidad elevada de la secuenciación por célula para la detección de variantes de un nucleótido individual (Cai, X. et al. Cell Rep. 8, 1280-1289 (2014), Zong, C. et al. Science (80) 338, 1622-1626 (2012)), o la secuenciación de paso bajo para identificar variantes del número de copias (CNVs) y aneuploidía (McConnell, M. J. et al. Science (80) 342, 632-637 (2013), Baslan, T. et al. Genome Res. 125, 714-724 (2015), Knouse, K. A. et al. Genome Res. gr.198937.115-(2016). doi: 10.1101/gr. 198937.115). En el último enfoque, la falta de un método eficaz y rentable para producir un gran número de colecciones de células individuales ha dificultado la cuantificación de la frecuencia de células portadoras de CNVs a escala de población, o para proporcionar un análisis sólido de la heterogeneidad en el contexto del cáncer (Gawad, C. et al. Nat. Rev. Genet. 17, 175-88 (2016)).
Recientemente, se ha establecido la transposición que preserva la contigüidad (CPT-seq), un método para producir miles de colecciones con códigos de barras individuales de lecturas de secuencias ligadas, utilizando una estrategia de indexación combinatoria basada en transposasas (Adey, A. et al. Genome Biol. 11, R119 (2010), Amini, S. et al. Nat. Genet. 46, 1343-9 (2014), Adey, A. et al. Genome Res. 24, 2041-2049 (2014)). Aplicamos CPT-seq al problema de la resolución del haplotipo genómico (Amini, S. et al. Nat. Genet. 46, 1343-9 (2014)) y al ensamblaje de novo del genoma (Adey, A. et al. Genome Res. 24, 2041-2049 (2014)). Este concepto se integró luego en el ensayo de accesibilidad a la cromatina, ATAC-seq (Buenrostro, J. D. et al. Nat. Methods 10, 1213-8 (2013)), para producir perfiles de elementos reguladores activos en miles de células individuales (Cusanovich, D. a et al. Science 348, 910-4 (2015)) (sciATAC-seq, Fig. 4a). En la indexación combinatoria, en primer lugar los núcleos se codifican con barras mediante la incorporación de uno de los 96 adaptadores de secuenciación indexados mediante una transposasa. A continuación, se combinan las 96 reacciones y se depositan 15-25 de estos núcleos indexados aleatoriamente en cada pocillo de una placa de PCR mediante clasificación de núcleos activados por fluorescencia (FANS, Fig. 5). De este modo, la probabilidad de que dos núcleos cualesquiera tengan el mismo código de barras de la transposasa es baja (6-11%) (Cusanovich, D. a et al. Science 348, 910-4 (2015)). A continuación, cada pocillo de la PCR se codifica con barras de forma única usando cebadores indexados. Al final de este procedimiento, cada lectura de secuencia contiene dos indicadores: el indicador 1 procedente de la placa de transposasa y el indicador 2 procedente de la placa de PCR, los cuales facilitan la discriminación de células individuales. Como prueba de principio, Cusanovich y sus colegas produjeron más de 15.000 perfiles sciATAC-seq y los utilizaron para separar una mezcla de dos tipos de células por sus configuraciones de cromatina accesible (Cusanovich, D. a et al. Science 348, 910-4 (2015)).
Sasan Amini et al: "Haplotype-resolved whole genome sequencing by contiguity-preserving transposition and combinatorial indexing", NATURE GENETICS, vol 46, n° 12, 19 de octubre de 2014, páginas 1343-1349, analizan un enfoque para el haplotipado de todo el genoma, basado en la transposición que conserva la contigüidad (CPT-seq) y la indexación combinatoria. Mirkovitch J et al: "Organization of the higher order chromatin loop: specific DNA attachment sites on nuclear scaffold", CELL, vol. 39, n° 1, 1 de noviembre de 1984, páginas 223-232, describen la organización del bucle de cromatina de secuencia específica en núcleos con reducción de histonas procedentes de células Kc de Drosophilia melanogaster. Aunque la secuenciación de células individuales con recuento elevado de células ha mostrado su eficacia en la separación de poblaciones dentro de tejidos complejos a través de transcriptomas, accesibilidad a la cromatina y diferencias mutacionales, hasta ahora no ha sido posible obtener una información de secuencias que incluya el genoma completo de células individuales.
Compendio de la solicitud
En el presente documento se proporcionan métodos para preparar una colección de secuenciación que incluye ácidos nucleicos procedentes de una pluralidad de células individuales. Por consiguiente, la presente invención es como se describe en las reivindicaciones. En una realización, el método incluye proporcionar núcleos aislados procedentes de una pluralidad de células; someter los núcleos aislados a un tratamiento químico para generar núcleos con reducción de nucleosomas mientras se mantiene la integridad de los núcleos aislados; distribuir subconjuntos de núcleos con reducción de nucleosomas en una primera pluralidad de compartimentos y poner en contacto cada subconjunto con un complejo de transposoma, en donde el complejo de transposoma en cada compartimento incluye una transposasa y una primera secuencia de indexación que es diferente de las primeras secuencias de indexación en los otros compartimentos; fragmentar los ácidos nucleicos en los subconjuntos de núcleos con reducción de nucleosomas en una pluralidad de fragmentos de ácido nucleico e incorporar las primeras secuencias de indexación en al menos una hebra de los fragmentos de ácido nucleico para generar núcleos indexados que incluyen fragmentos de ácido nucleico indexados, en donde los fragmentos de ácido nucleico indexado permanecen fijados a las transposasas; combinar los núcleos indexados para generar núcleos indexados agrupados; distribuir subconjuntos de los núcleos indexados agrupados en una segunda pluralidad de compartimentos; incorporar en los fragmentos de ácido nucleico indexados en cada compartimento una segunda secuencia indexada para generar fragmentos doblemente indexados, en donde la segunda secuencia indexada en cada compartimento es diferente de las segundas secuencias indexadas en los otros compartimentos; y combinar los fragmentos doblemente indexados, produciendo de este modo una colección de secuenciación que incluye ácidos nucleicos del genoma completo procedentes de la pluralidad de células individuales. En una realización, el tratamiento químico incluye un tratamiento con un agente caotrópico capaz de alterar las interacciones ácido nucleico-proteína, tal como la sal de litio de ácido 3,5-diyodosalicílico. En una realización, el tratamiento químico incluye un tratamiento con un detergente capaz de alterar las interacciones ácido nucleicoproteína, tal como dodecilsulfato de sodio (SDS). En una realización, los núcleos se tratan con un agente de reticulación antes de someter los núcleos aislados al tratamiento químico, tal como formaldehído. El agente de reticulación puede estar en una concentración desde aproximadamente 0,2% a aproximadamente 2%, y en una realización es de aproximadamente 1,5%. En una realización, la reticulación con formaldehído se revierte después de distribuir los subconjuntos de los núcleos indexados agrupados y antes de incorporar en los fragmentos de ácido nucleico indexados en cada compartimento, una segunda secuencia indexada. En una realización, la reversión de la reticulación incluye una incubación a aproximadamente 55°C hasta aproximadamente 72°C. En una realización, las transposasas se disocian de los fragmentos de ácido nucleico indexados antes de la reversión de la reticulación. En una realización, las transposasas se disocian de los fragmentos de ácido nucleico indexados usando dodecil sulfato sódico (SDS). En una realización, los núcleos se tratan con una enzima de restricción antes de fragmentar los ácidos nucleicos en los subconjuntos de núcleos con reducción de nucleosomas, en una pluralidad de fragmentos de ácidos nucleicos e incorporar las primeras secuencias indexadas. En una realización, los núcleos se tratan con una ligasa después del tratamiento con la enzima de restricción. En una realización, los subconjuntos de distribución de los núcleos con reducción de nucleosomas, los subconjuntos de distribución de los núcleos indexados agrupados, o la combinación de los mismos, se realiza mediante una clasificación de núcleos activada por fluorescencia. En una realización, los subconjuntos de los núcleos con reducción de nucleosomas incluyen aproximadamente el mismo número de núcleos, y en una realización, los subconjuntos de los núcleos con reducción de nucleosomas incluyen desde 1 a aproximadamente 2000 núcleos. En una realización, los subconjuntos de núcleos indexados agrupados incluyen aproximadamente el mismo número de núcleos, y en una realización, los subconjuntos de núcleos indexados agrupados incluyen desde 1 a aproximadamente 25 núcleos. En una realización, los subconjuntos de núcleos indexados agrupados incluyen al menos 10 veces menos núcleos que los subconjuntos de núcleos con reducción de nucleosomas, o al menos 100 veces menos núcleos que los subconjuntos de núcleos con reducción de nucleosomas. En una realización, la primera pluralidad de compartimentos, la segunda pluralidad de compartimentos, o la combinación de los mismos, es una placa de múltiples pocillos, tal como una placa de 96 pocillos o una placa de 384 pocillos.
En una realización, el complejo de transposomas se añade a los compartimentos después de que los subconjuntos de núcleos con reducción de nucleosomas se distribuyan en los compartimentos. En una realización, cada uno de los complejos de transposomas incluye un transposón y cada uno de los transposones incluye una hebra transferida. En una realización, la hebra transferida incluye la primera secuencia indexada y una primera secuencia universal.
En una realización, la incorporación de la segunda secuencia indexada en los fragmentos de ácido nucleico indexados, incluye poner en contacto los fragmentos de ácido nucleico indexados en cada compartimento con un primer cebador universal y un segundo cebador universal, en donde cada uno incluye una secuencia indexada y cada uno incluye una secuencia idéntica o complementaria a una porción de la primera secuencia universal, y en donde se realiza una reacción de amplificación exponencial. En una realización, la reacción de amplificación exponencial puede ser una reacción en cadena de la polimerasa (PCR), y en una realización, la PCR puede incluir de 15 a 30 ciclos. En una realización, la secuencia indexada del primer cebador universal es el complemento inverso de la secuencia indexada del segundo cebador universal, y en otra realización, la secuencia indexada del primer cebador universal es diferente del complemento inverso de la secuencia indexada del segundo cebador universal. En una realización, el primer cebador universal incluye además una primera secuencia de captura y una primera secuencia de anclaje complementaria a una secuencia universal en el extremo 3’ de los fragmentos doblemente indexados, y en una realización, la primera secuencia de captura incluye la secuencia del cebador P5. En una realización, el segundo cebador universal incluye además una segunda secuencia de captura y una segunda secuencia de anclaje complementaria a una secuencia universal en el extremo 5’ de los fragmentos doblemente indexados, y en una realización, la segunda secuencia de captura incluye el complemento inverso de la secuencia del cebador P7.
El método también puede incluir un enriquecimiento de fragmentos doblemente indexados, usando una pluralidad de oligonucleótidos de captura que tienen especificidad hacia los fragmentos doblemente indexados. En una realización, los oligonucleótidos de captura se inmovilizan sobre una superficie de un sustrato sólido y, en una realización, los oligonucleótidos de captura incluyen un primer miembro de una pareja de unión universal y un segundo miembro de la pareja de unión se inmoviliza sobre una superficie de un sustrato sólido.
El método también puede incluir la secuenciación de los fragmentos doblemente indexados para determinar la secuencia de nucleótidos de los ácidos nucleicos procedentes de la pluralidad de células individuales. En una realización, el método puede incluir proporcionar una superficie que incluye una pluralidad de sitios de amplificación, en donde los sitios de amplificación incluyen al menos dos poblaciones de oligonucleótidos de captura monocatenarios fijados que tienen un extremo 3’ libre, y poner en contacto la superficie que incluye sitios de amplificación con los fragmentos doblemente indexados en condiciones adecuadas para producir una pluralidad de sitios de amplificación, en donde cada uno de los cuales incluye una población clonal de amplicones procedentes de un fragmento individual doblemente indexado. En una realización, el número de fragmentos doblemente indexados excede al número de sitios de amplificación, en donde los fragmentos doblemente indexados tienen un acceso fluido a los sitios de amplificación, y en donde cada uno de los sitios de amplificación incluye una capacidad para varios fragmentos doblemente indexados en la colección de secuenciación. En una realización, la puesta en contacto incluye simultáneamente (i) transportar los fragmentos doblemente indexados a los sitios de amplificación con una tasa de transporte promedio, y (ii) amplificar los fragmentos doblemente indexados que están en los sitios de amplificación con una tasa de amplificación promedio, en donde la tasa de amplificación promedio excede a la tasa de transporte promedio.
También se proporcionan en este documento composiciones. En una realización, una composición incluye núcleos aislados con reducción de nucleosomas tratados químicamente, en donde los núcleos aislados incluyen fragmentos de ácido nucleico indexados. En una realización, los núcleos aislados incluyen reticulaciones no naturales. En una realización, la composición incluye fragmentos de ácido nucleico indexados que terminan en un sitio de restricción escindido que incluye un extremo saliente. En una realización, los núcleos aislados incluyen ADN genómico reordenado. En otra realización, una composición incluye una placa con múltiples pocillos, en donde un pocillo de la placa con múltiples pocillos incluye núcleos aislados con reducción de nucleosomas tratados químicamente, en donde los núcleos aislados incluyen fragmentos de ácido nucleico indexados.
Breve descripción de las figuras
La siguiente descripción detallada de realizaciones ilustrativas de la presente descripción, puede entenderse mejor cuando se lee junto con los siguientes dibujos.
La Fig. 1 muestra un diagrama de bloques general de un método ilustrativo general para la indexación combinatoria de una célula individual de acuerdo con la presente descripción.
La Fig. 2 muestra un dibujo esquemático de una realización ilustrativa de un fragmento de ácido nucleico indexado.
La Fig. 3 muestra un dibujo esquemático de una realización ilustrativa de un fragmento doblemente indexado.
La Fig. 4 muestra una indexación combinatoria de una célula individual con reducción de nucleosomas. (Fig. 4a) Flujo de trabajo de la indexación combinatoria de una célula individual. (Fig. 4b) Imágenes de contraste de fase de núcleos intactos generados mediante un aislamiento convencional seguido de reducción de nucleosomas usando reducción de nucleosomas asistida por litio (LAND) o entrecruzamiento y tratamiento con SDS (xSDS). Barra de escala: 100 gm. (Fig. 4c) La reducción de nucleosomas produce una cobertura uniforme en todo el genoma que no está restringida a los sitios con accesibilidad a la cromatina.
La Fig. 5 muestra una clasificación de núcleos activada por fluorescencia (FANS). Gráficos representativos de la clasificación FANS de núcleos individuales. Todos los gráficos proceden de la clasificación de la segunda placa (PCR) a menos que se indique lo contrario. (Fig. 5a) Núcleos de ATAC-seq (Fig. 5b) LAND (Fig. 5c) HeLa S3 y 3T3 (Fig. 5d) xSDS (Fig. 5e) placa de transposasa de clasificación 1 de PDAC (Fig. 5f) placa de PCR de clasificación 2 de PDAC.
La Fig. 6 muestra la determinación de células individuales con SCI-seq utilizando un modelo mixto. Se muestra HeLa.LAND3. normalmixEM del envase R mixtools se utilizó para identificar cada distribución: combinaciones indexadas de ruido (pico izquierdo) y colecciones de células individuales (pico derecho). El umbral de recuento de lecturas para considerar una combinación indexada como una colección de células individuales, es el mayor entre una desviación estándar (en el espacio en log 10) por debajo de la media de la distribución de células individuales, o superior a 2 (en el espacio en log10, por lo tanto, 100 veces mayor) que la media de la distribución del ruido y un mínimo de 1.000. Para la colección mostrada, una desviación estándar por debajo de la media del componente de células individuales es mayor y, por lo tanto, se usa como umbral de recuento de lecturas.
La Fig. 7 muestra una comparación de los métodos de reducción de nucleosomas LAND y xSDS con SCI-seq. (Figura 7a) Complejidad para una de las seis preparaciones LAND SCI-seq en GM12878. Derecha, histograma que muestra la distribución de los recuentos de lecturas. La línea discontinua representa el límite de lectura de células individuales. (Fig. 7b) Como en la Fig. 7a pero para la reducción del nucleosoma con xSDS para una de las tres placas de PCR. (Fig. 7c) Izquierda, modelo construido sobre lecturas de muestreo descendente para la preparación GM12878 xSDS y utilizado para predecir la profundidad total de la cobertura. Derecha, proyecciones para una de las preparaciones LAND y la preparación completa con xSDS. El sombreado representa la d.e. sobre múltiples modelos. Los puntos representan la profundidad real de la secuenciación. (Figura 7d) Puntuaciones de la uniformidad de la cobertura para SCI-seq usando LAND o xSDS y para un cebado cuasi-aleatorio (QRP) y PCR de oligonucleótidos degenerados (DOP). (Figura 7e) Resumen del porcentaje de células que muestran aneuploidía a nivel del brazo del cromosoma en todas las preparaciones con y sin la imposición de un filtro de varianza. (Figura 7f) Resultados del cariotipado de 50 células GM12878. (Figura 7g, Figura 7h) Resumen de las designaciones de números de copia en la ventana y de agrupamiento de células GM12878 individuales producidas usando LAND (Figura 7g) o xSDS (Figura 7h). En la parte superior de cada panel se representa un resumen a escala de brazo de cromosoma de la frecuencia de la ganancia o pérdida para todas las células; la parte inferior es el perfil agrupado para las células que contienen al menos una designación de CNV.
La Fig. 8 muestra la complejidad de la colección SCI-seq y las distribuciones del recuento de lecturas indexadas para todas las preparaciones. Para cada preparación se muestran dos gráficos. Izquierda: cada punto representa una combinación indexada única, el eje x es la fracción de lecturas individuales asignadas a esa combinación indexada, el eje y es el recuento de lecturas individuales en log 10 para la combinación indexada. Las líneas de contorno representan la densidad de puntos. Derecha: un histograma de los recuentos de lecturas únicas en log 10 para cada una de las combinaciones indexadas. Se espera que la mayoría de las posibles combinaciones indexadas no representen una colección de células individuales y, por lo tanto, contengan muy pocas lecturas únicas (distribución más a la izquierda), en donde las colecciones de células individuales tienen recuentos de lectura mucho mayores (distribución derecha o en cola en colecciones de menor rendimiento). Dado que el gráfico está en una escala en log10, la distribución del ruido en realidad solo ocupa una minoría de los recuentos totales de lecturas.
La Fig. 9 muestra SCI-seq sobre una mezcla de células humanas y de ratón. Para todos los paneles, el número de lecturas para cada componente indexado se representa en función de la alineación del recuento con el genoma de referencia humano o el genoma de referencia de ratón. (Fig. 9a, b) Reducción de nucleosomas por LAND en células humanas (GM12878) y de ratón (3T3), (Fig. 9c, d) reducción de nucleosomas por LAND en células humanas (HeLa S3) y de ratón (3T3), (Fig. 9e) reducción de nucleosomas por xSDS en células humanas (HeLa S3) y de ratón (3T3).
La Fig. 10 muestra la complejidad de una colección SCI-seq y las distribuciones de recuento de lecturas indexadas después de una secuenciación más a fondo. Para cada preparación se muestran dos gráficos como en S2, el gráfico de la izquierda muestra la fracción de lecturas únicas frente al recuento de lecturas únicas para cada combinación indexada. Mientras que el gráfico de la derecha muestra un histograma de recuentos de lecturas para cada combinación indexada. Las células de los pocillos secuenciados más a fondo se muestran junto con el resto de la placa a la que pertenecen esos pocillos. La población de células con menor complejidad (más a la izquierda) es la población que se ha secuenciado más a fondo.
La Fig. 11 muestra solapamientos de lecturas de 9 pb observadas a partir de la secuenciación de eventos de transposición adyacentes en la misma célula individual. (Figura 11 a) Diagrama de cómo se produce la copia de 9 pb a partir del evento de transposición. (Figura 11b) Células individuales representativas que muestran el tamaño de todos los solapamientos de amplicones con una línea discontinua a 9 pb.
La Fig. 12 muestra el flujo de trabajo computacional para la designación de número de copias para HMM y CBS. Después de designar, los conjuntos de designaciones para CBS y HMM se cruzaron junto con Ginkgo y solo las designaciones presentes en los tres conjuntos se conservaron como conjunto de designaciones final.
La Fig. 13 muestra una evaluación de CNV usando métodos estándar de secuenciación de células individuales en GM12878. Parte superior: Resumen de las ampliaciones y deleciones del brazo cromosómico, parte inferior: agrupamiento jerárquico de las células.
La Fig. 14 muestra la variación por tamaño de ventana y el punto de corte del recuento de lecturas en todos los métodos. Gráficos que muestran el cambio en la puntuación MAD o MAPD en función del tamaño de la ventana y los recuentos de lecturas por célula.
La Fig. 15 muestra las tasas de aneuploidía de GM12878 a través de los puntos de corte de la varianza. Cada punto es la tasa de aneuploidía para la población de células (eje y), normalizada por el número de células incluidas en un punto de corte dado (eje x).
La Fig. 16 muestra los perfiles de CNV para la corteza frontal de Rhesus, Individuo 1 usando cebado cuasi-aleatorio (QRP). (Fig. 16a) Designaciones Ginkgo, (Fig. 16b) Designaciones CBS, (Fig. 16c) Designaciones HMM, (Fig. 16d) Intersección de las tres, y (Fig. 16e) Intersección de solo CBS y HMM.
La Fig. 17 muestra perfiles de CNV para la corteza frontal de Rhesus, Individuo 1 usando PCR cebada con oligonucleótidos degenerados (DOP). (Fig. 17a) Designaciones Ginkgo, (Fig. 17b) Designaciones CBS, (Fig. 17c) Designaciones HMM, (Fig. 17d) Intersección de las tres, y (Fig. 17e) Intersección de solo CBS y HMM.
La Fig. 18 muestra perfiles de CNV para la corteza frontal de Rhesus, Individuo 1 usando SCI-seq con reducción de nucleosomas por LAND. (Fig. 18a) Designaciones Ginkgo, (Fig. 18b) Designaciones CBS, (Fig. 18c) Designaciones HMM, (Fig. 18d) Intersección de las tres, y (Fig. 18e) Intersección de solo CBS y HMM.
La Fig. 19 muestra perfiles de CNV para la corteza frontal de Rhesus, Individuo 1 usando SCI-seq con reducción de nucleosomas por xSDS. (Fig. 19a) Designaciones Ginkgo, (Fig. 19b) Designaciones CBS, (Fig. 19c) Designaciones HMM, (Fig. 19d) Intersección de las tres, y (Fig. 19e) Intersección de solo CBS y HMM.
La Fig. 20 muestra CNVs somáticas en el cerebro de Rhesus. (Fig. 20a) Tres ejemplos de una sola célula que muestran variantes del número de copias y una célula euploide representativa para la preparación de SCI-seq (HMM). (Figura 20b) Frecuencia de la aneuploidía determinada por cada uno de los métodos con y sin filtrado.
La Fig. 21 muestra una comparación de la uniformidad de la cobertura para la corteza frontal de Rhesus del individuo 1. Las mediciones de la uniformidad son muy similares a las de las preparaciones de GM12878 (Fig. 7b).
La Fig. 22 muestra las tasas de aneuploidía de Rhesus a través de los puntos de corte de la puntuación de la varianza. Cada punto es la tasa de aneuploidía para la población de células (eje y), normalizada por el número de células incluidas en un punto de corte dado (eje x).
La Fig. 23 muestra perfiles de CNV para la corteza frontal de Rhesus, Individuo 2 usando SCI-seq con reducción de nucleosomas por xSDS. (Fig. 23a) Designaciones Ginkgo, (Fig. 23b) Designaciones CBS, (Fig. 23c) Designaciones HMM, (Fig. 23d) Intersección de las tres, y (Fig. 23e) Intersección de solo CBS y HMM.
La Fig. 24 muestra un análisis SCI-seq de un adenocarcinoma ductal pancreático humano en estadio III (PDAC). (Fig. 24a) Complejidad de la colección de SCI-seq. Panel derecho, histograma que muestra la distribución de los recuentos de lecturas. La línea discontinua representa el punto de corte de las lecturas de células individuales. (Fig. 24b) Designaciones del punto de ruptura (arriba) y matriz de la ventana del punto de ruptura de la relación de la profundidad de secuencia en log2. (Fig. 24c) Análisis de componentes principales y agrupamiento de medias k en una matriz de puntos de ruptura. (Fig. 24d) Designación de CNV con resolución de 100 kpb en células agregadas a partir de cada agrupación. (Fig. 24e) CNVs específicas de la agrupación y amplificación CEBPA presentes en todas las agrupaciones (se muestra en k4).
La Fig. 25 muestra SCI-seq usando reducción de nucleosomas basada en xSDS en adenocarcinoma ductal pancreático. Resumen de la designación del número de copias para ventanas de 2,5 Mbp para los tres métodos de designación del número de copias usados en el análisis: (Fig. 25a) Ginkgo, (Fig. 25b) CBS y (Fig. 25c) HMM.
La Fig. 26 muestra las designaciones de CNV de células individuales en PDAC primario usando xSDS SCI-seq. Gráficos representativos de señales de células individuales.
La Fig. 27 muestra el esquema del flujo de trabajo del análisis de puntos de ruptura. Primero, las células individuales se analizan en busca de puntos de ruptura. Los puntos de ruptura de todas las células se combinan y se suman localmente cuando están por encima del umbral. Los intervalos se definen entre los puntos de ruptura compartidos locales y las puntuaciones de la razón promedio se encuentran dentro de cada intervalo.
La Fig. 28 muestra SCI-seq usando la reducción de nucleosomas basada en LAND en HeLavS3 usando el método del modelo de Markov oculto para la designación de variantes del número de copia. Resumen de las designaciones de ventana (2,5 Mbp) y agrupación jerárquica de células. La designación del número de copias CBC daba como resultado un fuerte sesgo frente a las designaciones subcromosómicas y Ginkgo no podía identificar correctamente la ploidía en una cantidad de células, lo que daba lugar a una mayoría de células designadas como amplificadas completamente.
La Fig. 29 muestra SCI-seq usando la reducción de nucleosomas basada en LAND en la designación de la variante del número de copias HeLa S3 en células individuales usando el método del modelo de Markov oculto. Gráficos representativos de señales de células individuales. Una señal de 1 corresponde a la ploidía media de 2,98.
La Fig. 30 muestra un análisis del punto de ruptura de HeLa. (Fig. 30a) Puntos de ruptura identificados en la línea celular HeLa procedente de un análisis HMM usando ventanas de 2,5 Mbp. (Fig. 30b) Matriz en log2 de las ventanas de puntos de ruptura de HeLa para células normalizadas para GM12878.
La Fig. 31 muestra PCA en ventanas de puntos de ruptura de HeLa. HeLa produce una sola población como se esperaba basada en la estabilidad de la línea celular. Los puntos rojos y azules indican diferentes preparaciones.
La Fig. 32 muestra SCI-seq usando reducción de nucleosomas basada en xSDS en una muestra de un banco de cáncer de recto en estadio II. Resumen de la designación del número de copias intersecado para ventanas de 2,5 Mbp.
La Fig. 33 muestra el esquema de activación utilizado para aislar núcleos individuales después del tratamiento con transposasa utilizando dispersión directa, dispersión lateral y parámetros de intensidad con DAPI.
La Fig. 34 muestra un diagrama de bloques general de una realización de un método ilustrativo general para la indexación combinatoria de células individuales y la conformación genómica y cromosómica de acuerdo con la presente descripción.
La Fig. 35 muestra la complejidad de la colección y los recuentos de lecturas únicas obtenidas a partir del método, utilizando varias concentraciones de formaldehído y tiempo de reversión de la reticulación.
La Fig. 36 muestra un ejemplo de una colección de células individuales que usa sci-GCC en HeLa. La señal producida a partir de lecturas de unión por ligación quimérica se muestra entre las regiones distales del genoma en ventanas de 10 Mbp, con la primera ventana en el eje x y la ventana ligada en el eje y. Se destaca una translocación conocida presente en HeLa, en donde la señal transcromosómica 3C está aumentada.
Los dibujos esquemáticos no están necesariamente a escala. Números similares utilizados en las figuras se refieren a componentes, etapas y análogos similares. Sin embargo, se entenderá que el uso de un número para referirse a un componente en una figura dada, no pretende limitar el componente en otra figura marcada con el mismo número. Además, el uso de diferentes números para referirse a componentes no pretende indicar que los diferentes componentes numerados no pueden ser iguales o similares a otros componentes numerados.
Descripción detallada de realizaciones ilustrativas
Tal y como se usa en el presente documento, los términos "organismo", "sujeto" se usan indistintamente y se refieren a animales y plantas. Un ejemplo de animal es un mamífero, tal como un ser humano.
Tal y como se usa en el presente documento, la expresión "tipo de célula" se entiende que identifica células basándose en la morfología, el fenotipo, el origen del desarrollo u otra característica celular distintiva conocida o reconocible. Se puede obtener una variedad de diferentes tipos de células a partir de un solo organismo (o a partir de la misma especie de organismo). Los tipos de células ejemplares incluyen, pero no se limitan a, vejiga urinaria, epitelio pancreático, alfa pancreático, beta pancreático, endotelial pancreático, linfoblasto de médula ósea, linfoblasto B de médula ósea, macrófago de médula ósea, eritroblasto de médula ósea, dendrita de médula ósea, adipocito de médula ósea, osteocito de la médula ósea, condrocito de la médula ósea, promieloblasto, megacarioblasto de la médula ósea, vejiga, linfocito B del cerebro, glía del cerebro, neurona, astrocito del cerebro, neuroectodermo, macrófago del cerebro, microglía del cerebro, epitelio del cerebro, neurona cortical, fibroblasto del cerebro, epitelio de la mama, epitelio del colon, linfocito B del colon, epitelio mamario, mioepitelio mamario, fibroblasto mamario, enterocito del colon, epitelio de la cérvix, epitelio del ovario, fibroblasto del ovario, epitelio del conducto mamario, epitelio de la lengua, dendritas de las amígdalas, linfocito B de las amígdalas, linfoblasto de sangre periférica, linfoblasto T de sangre periférica, linfocito T cutáneo de sangre periférica, linfocito citolítico de sangre periférica, linfocito B de sangre periférica, monocito de sangre periférica, mieloblasto de sangre periférica, monoblasto de sangre periférica, promieloblasto de sangre periférica, macrófago de sangre periférica, basófilo de sangre periférica, endotelio del hígado, mastocito del hígado, epitelio del hígado, linfocito B del hígado, endotelio del bazo, epitelio del bazo, linfocito B del bazo, hepatocito del hígado, fibroblasto hepático, epitelio pulmonar, epitelio bronquial, fibroblasto pulmonar, linfocito B pulmonar, célula Schwann pulmonar, célula escamosa pulmonar, macrófago pulmonar, osteoblasto pulmonar, célula neuroendocrina, alveolar pulmonar, epitelio del estómago y fibroblasto del estómago.
Tal y como se usa en este documento, el término "tejido" se entiende que significa una colección o agrupación de células que actúan juntas para realizar una o varias funciones específicas en un organismo. Opcionalmente, las células pueden ser morfológicamente similares. Los tejidos ejemplares incluyen, pero no se limitan a, ojo, músculo, piel, tendón, vena, arteria, sangre, corazón, bazo, ganglio linfático, hueso, médula ósea, pulmón, bronquios, tráquea, intestino, intestino delgado, intestino grueso, colon, recto, glándula salival, lengua, vesícula biliar, apéndice, hígado, páncreas, cerebro, estómago, piel, riñón, uréter, vejiga, uretra, gónada, testículo, ovario, útero, trompa de Falopio, timo, pituitaria, tiroides, glándula suprarrenal o paratiroides. El tejido se puede obtener a partir de cualquiera entre una variedad de órganos de un organismo humano o de otro organismo. Un tejido puede ser un tejido sano o un tejido no sano. Los ejemplos de tejidos no sanos incluyen, pero no se limitan a, tumores malignos en pulmón, mama, colorrectal, próstata, nasofaringe, estómago, testículos, piel, sistema nervioso, hueso, ovario, hígado, tejidos hematológicos, páncreas, útero, riñón, tejidos linfoides, etc. Los tumores malignos pueden ser de una variedad de subtipos histológicos, por ejemplo, carcinoma, adenocarcinoma, sarcoma, fibroadenocarcinoma, neuroendocrino o indiferenciado.
Tal y como se usa en este documento, el término "nucleosoma" se refiere a la unidad básica repetitiva de la cromatina. El genoma humano consiste en varios metros de ADN compactado dentro del núcleo de una célula que tiene un diámetro promedio de ~10 pm. En el núcleo eucariota, el ADN se empaqueta en un complejo de nucleoproteínas conocido como cromatina. El nucleosoma (la unidad de repetición básica de la cromatina) incluye normalmente ~ 146 pares de bases de ADN envueltos aproximadamente 1,7 veces alrededor de un octámero de histonas centrales. El octámero de histonas consiste en dos copias de cada una de las histonas H2A, H2B, H3 y H4. Los nucleosomas están espaciados regularmente a lo largo del ADN en forma de cuentas en una hebra.
Tal y como se usa en el presente documento, el término "compartimento" se entiende que significa un área o volumen que separa o aísla una cosa de otras. Los compartimentos ejemplares incluyen, pero no se limitan a, viales, tubos, pocillos, gotitas, bolos, perlas, recipientes, características superficiales o áreas o volúmenes separados por fuerzas físicas tales como flujo de fluido, magnetismo, corriente eléctrica o similares. En una realización, un compartimento es un pocillo de una placa de múltiples pocillos, tal como una placa de 96 o 384 pocillos.
Tal y como se usa en este documento, un "complejo de transposoma" se refiere a una enzima de integración y un ácido nucleico que incluye un sitio de reconocimiento de integración. Un "complejo de transposoma" es un complejo funcional formado por una transposasa y un sitio de reconocimiento de la transposasa que es capaz de catalizar una reacción de transposición (véase, por ejemplo, Gunderson et al., documento WO 2016/130704). Los ejemplos de enzimas de integración incluyen, pero no se limitan a, una integrasa o una transposasa. Los ejemplos de sitios de reconocimiento de integración incluyen, pero no se limitan a, un sitio de reconocimiento de transposasa.
Tal y como se usa en este documento, la expresión "ácido nucleico" se entiende que es coherente con su uso en la técnica e incluye ácidos nucleicos de origen natural o análogos funcionales de los mismos. Los análogos funcionales particularmente útiles son capaces de hibridarse con un ácido nucleico de una manera específica de secuencia o pueden usarse como molde para la replicación de una secuencia de nucleótidos particular. Los ácidos nucleicos de origen natural generalmente tienen una estructura principal que contiene enlaces fosfodiéster. Una estructura análoga puede tener un enlace principal alternativo que incluye cualquiera de los conocidos en la técnica. Los ácidos nucleicos de origen natural generalmente tienen un azúcar desoxirribosa (por ejemplo, que se encuentra en el ácido desoxirribonucleico (ADN)) o un azúcar ribosa (por ejemplo, que se encuentra en el ácido ribonucleico (ARN)). Un ácido nucleico puede contener cualquiera entre una variedad de análogos de esos restos de azúcar que se conocen en la técnica. Un ácido nucleico puede incluir bases naturales o no naturales. A este respecto, un ácido desoxirribonucleico natural puede tener una o varias bases seleccionadas a partir del grupo que consiste en adenina, timina, citosina o guanina y un ácido ribonucleico puede tener una o varias bases seleccionadas a partir del grupo que consiste en adenina, uracilo, citosina o guanina. Las bases no naturales útiles que se pueden incluir en un ácido nucleico se conocen en la técnica. Ejemplos de bases no naturales incluyen un ácido nucleico bloqueado (LNA) y un ácido nucleico con puente (BNA). Las bases de LNA y BNA pueden incorporarse en un oligonucleótido de ADN y aumentar la fuerza y la especificidad de la hibridación de oligonucleótidos. Las bases de LNA y BNA y los usos de tales bases son conocidos por el experto en la técnica y son rutinarios.
Tal y como se usa en este documento, "nucleasa" se refiere a cualquier enzima que escinde ácidos nucleicos. Las nucleasas pertenecen a una clase de enzimas denominadas hidrolasas y normalmente tienen una acción específica, las ribonucleasas actúan preferentemente sobre los ácidos ribonucleicos (ARN) y las desoxirribonucleasas actúan preferentemente sobre los ácidos desoxirribonucleicos (ADN).
Tal y como se usa en este documento, el término "diana", cuando se usa haciendo referencia a un ácido nucleico, se entiende que es un identificador semántico para el ácido nucleico en el contexto de un método o una composición establecidos en este documento y no limita necesariamente la estructura o la función del ácido nucleico más allá de lo que se indica explícitamente de otro modo. Un ácido nucleico diana puede ser esencialmente cualquier ácido nucleico de una secuencia conocida o desconocida. Puede ser, por ejemplo, un fragmento de ADN genómico o de ADNc. La secuenciación puede dar como resultado la determinación de la secuencia de la totalidad o una parte de la molécula diana. Las dianas se pueden obtener a partir de una muestra de ácido nucleico primario, tal como un núcleo. Las dianas también se pueden obtener a partir de una muestra de ARN primario mediante transcripción inversa en ADNc. En una realización, las dianas se pueden procesar en moldes adecuados para una amplificación mediante la colocación de secuencias universales en los extremos de cada fragmento de la diana.
Tal y como se usa en este documento, el término "universal", cuando se usa para describir una secuencia de nucleótidos, se refiere a una región de una secuencia que es común a dos o más moléculas de ácido nucleico, en donde las moléculas también tienen regiones de la secuencia que difieren entre sí. Una secuencia universal que está presente en diferentes miembros de una colección de moléculas puede permitir la captura de múltiples ácidos nucleicos diferentes usando una población de ácidos nucleicos de captura universal, p. ej., oligonucleótidos de captura que son complementarios a una porción de la secuencia universal, p. ej., una secuencia de captura universal. Ejemplos no limitantes de secuencias de captura universales incluyen secuencias que son idénticas o complementarias a los cebadores P5 y P7. De manera similar, una secuencia universal presente en diferentes miembros de una colección de moléculas puede permitir la amplificación o replicación (por ejemplo, secuenciación) de múltiples ácidos nucleicos diferentes, utilizando una población de cebadores universales que son complementarios a una porción de la secuencia universal, por ejemplo, una secuencia de anclaje universal. Por tanto, un oligonucleótido de captura o un cebador universal incluye una secuencia que se puede hibridar específicamente con una secuencia universal. Dos secuencias universales que se hibridan se denominan pareja de unión universal. Por ejemplo, un oligonucleótido de captura y una secuencia de captura universal que se hibridan son una pareja de unión universal.
Los términos "P5" y "P7" pueden usarse cuando se hace referencia a una secuencia de captura universal o a un oligonucleótido de captura. Los términos "P5’ " (cebador de P5) y "P 7 '" (cebador de P7) se refieren al complemento de P5 y P7, respectivamente. Se entenderá que se puede usar cualquier secuencia de captura universal adecuada o un oligonucleótido de captura en los métodos presentados en este documento, y que el uso de P5 y P7 son únicamente realizaciones ejemplares. Los usos de oligonucleótidos de captura tales como P5 y P7 o sus complementos en celdas de flujo son conocidos en la técnica, tal y como se ejemplifica en los documentos de las descripciones de WO 2007/010251, WO 2006/064199, WO 2005/065814, WO 2015/106941, WO 1998/044151 y WO 2000/018957. Por ejemplo, cualquier cebador directo de la amplificación que sea adecuado, ya sea inmovilizado o en solución, puede ser útil en los métodos presentados en este documento para la hibridación con una secuencia complementaria y la amplificación de una secuencia. De manera similar, cualquier cebador inverso de la amplificación que sea adecuado, ya sea inmovilizado o en solución, puede ser útil en los métodos presentados en este documento para la hibridación con una secuencia complementaria y la amplificación de una secuencia. Un experto en la técnica sabrá cómo diseñar y usar secuencias de cebadores que sean adecuadas para la captura y/o la amplificación de ácidos nucleicos tal y como se presenta en este documento.
Tal y como se usa en este documento, el término "cebador" y sus derivados se refieren generalmente a cualquier ácido nucleico que se pueda hibridar con una secuencia diana de interés. Normalmente, el cebador funciona como un sustrato sobre el que se pueden polimerizar nucleótidos mediante una polimerasa; en algunas realizaciones, sin embargo, el cebador puede incorporarse en la hebra de ácido nucleico sintetizada y proporcionar un sitio en el que otro cebador se puede hibridar para cebar la síntesis de una nueva hebra que es complementaria a la molécula de ácido nucleico sintetizada. El cebador puede incluir cualquier combinación de nucleótidos o análogos de los mismos. En algunas realizaciones, el cebador es un oligonucleótido o polinucleótido monocatenario. Los términos "polinucleótido" y "oligonucleótido" se usan indistintamente en este documento para referirse a una forma polimérica de nucleótidos de cualquier longitud y pueden incluir ribonucleótidos, desoxirribonucleótidos, análogos de los mismos o mezclas de los mismos. Debe entenderse que los términos incluyen, como equivalentes, análogos de ADN o ARN preparados a partir de análogos de nucleótidos y que son aplicables a polinucleótidos monocatenarios (tales como sentido o antisentido) y bicatenarios. El término, tal y como se usa en este documento, también incluye ADNc, que es ADN complementario o una copia producida a partir de un molde de ARN, por ejemplo, mediante la acción de la transcriptasa inversa. Este término se refiere solo a la estructura primaria de la molécula. Por tanto, el término incluye ácido desoxirribonucleico ("ADN") de cadena triple, doble y sencilla, así como ácido ribonucleico ("ARN") de cadena triple, doble y sencilla.
Tal y como se usa en este documento, el término "adaptador" y sus derivados, por ejemplo, adaptador universal, se refiere generalmente a cualquier oligonucleótido lineal que pueda ligarse a una molécula de ácido nucleico de la descripción. En algunas realizaciones, el adaptador es sustancialmente no complementario al extremo 3’ o al extremo 5' de cualquier secuencia diana presente en la muestra. En algunas realizaciones, las longitudes adecuadas del adaptador están en el intervalo de aproximadamente 10-100 nucleótidos, aproximadamente 12-60 nucleótidos o aproximadamente 15-50 nucleótidos de longitud. Generalmente, el adaptador puede incluir cualquier combinación de nucleótidos y/o de ácidos nucleicos. En algunos aspectos, el adaptador puede incluir uno o varios grupos escindibles en una o varias ubicaciones. En otro aspecto, el adaptador puede incluir una secuencia que sea sustancialmente idéntica, o sustancialmente complementaria, a al menos una porción de un cebador, por ejemplo, un cebador universal. En algunas realizaciones, el adaptador puede incluir un código de barras (también denominado en el presente documento etiqueta o indicador) para ayudar a la corrección, identificación o secuenciación de errores aguas abajo. Los términos "adaptador" y "conector" se utilizan indistintamente.
Tal y como se usa en este documento, la expresión "cada uno", cuando se usa haciendo referencia a una colección de artículos, se entiende que identifica un artículo individual en la colección pero no se refiere necesariamente a cada artículo en la colección, a menos que el contexto indique claramente lo contrario.
Tal y como se usa en este documento, el término "transporte" se refiere al movimiento de una molécula a través de un fluido. El término puede incluir un transporte pasivo, como el movimiento de las moléculas junto con su gradiente de concentración (por ejemplo, difusión pasiva). El término también puede incluir un transporte activo mediante el cual las moléculas pueden moverse junto con su gradiente de concentración o contra su gradiente de concentración. Por tanto, el transporte puede incluir la aplicación de energía para mover una o varias moléculas en la dirección deseada o en una ubicación deseada, como un sitio de amplificación.
Tal y como se usa en este documento, "amplificar", "amplificado" o "reacción de amplificación" y sus derivados, se refieren generalmente a cualquier acción o procedimiento mediante el cual al menos una porción de una molécula de ácido nucleico se replica o se copia en al menos una molécula de ácido nucleico adicional. La molécula de ácido nucleico adicional incluye opcionalmente una secuencia que es sustancialmente idéntica o sustancialmente complementaria a al menos una porción de la molécula de ácido nucleico molde. La molécula de ácido nucleico molde puede ser monocatenaria o bicatenaria y la molécula de ácido nucleico adicional puede ser independientemente monocatenaria o bicatenaria. La amplificación incluye opcionalmente una replicación lineal o exponencial de una molécula de ácido nucleico. En algunas realizaciones, dicha amplificación se puede realizar usando condiciones isotérmicas; en otras realizaciones, esa amplificación puede incluir un termociclado. En algunas realizaciones, la amplificación es una amplificación múltiple que incluye la amplificación simultánea de una pluralidad de secuencias diana en una única reacción de amplificación. En algunas realizaciones, "amplificación" incluye la amplificación de al menos alguna porción de ácidos nucleicos basados en ADN y ARN solos o en combinación. La reacción de amplificación puede incluir cualquiera de los procedimientos de amplificación conocidos por un experto en la técnica. En algunas realizaciones, la reacción de amplificación incluye la reacción en cadena de la polimerasa (PCR).
Tal y como se usa en este documento, "condiciones de amplificación" y sus derivados, generalmente se refiere a condiciones adecuadas para amplificar una o varias secuencias de ácido nucleico. Tal amplificación puede ser lineal o exponencial. En algunas realizaciones, las condiciones de amplificación pueden incluir condiciones isotérmicas o, alternativamente, pueden incluir condiciones de termociclado, o una combinación de condiciones isotérmicas y de termociclado. En algunas realizaciones, las condiciones adecuadas para amplificar una o varias secuencias de ácido nucleico incluyen condiciones de la reacción en cadena de la polimerasa (PCR). Normalmente, las condiciones de amplificación se refieren a una mezcla de reacción que es suficiente para amplificar ácidos nucleicos tales como una o varias secuencias diana flanqueadas por una secuencia universal, o para amplificar una secuencia diana amplificada ligada a uno o varios adaptadores. Generalmente, las condiciones de amplificación incluyen un catalizador para la amplificación o para la síntesis de ácidos nucleicos, por ejemplo una polimerasa; un cebador que posee algún grado de complementariedad con el ácido nucleico que se va a amplificar; y nucleótidos, tales como desoxirribonucleótidos trifosfatos (dNTPs) para promover la extensión del cebador una vez que se hibrida con el ácido nucleico. Las condiciones de amplificación pueden requerir una hibridación o apareamiento de un cebador con un ácido nucleico, extensión del cebador y una etapa de desnaturalización en la que el cebador extendido se separa de la secuencia de ácido nucleico que está experimentando una amplificación. Normalmente, pero no necesariamente, las condiciones de amplificación pueden incluir termociclado; en algunas realizaciones, las condiciones de amplificación incluyen una pluralidad de ciclos en los que se repiten las etapas de apareamiento, extensión y separación. Normalmente, las condiciones de amplificación incluyen cationes como Mg2+ o Mn2+ y también puede incluir varios modificadores de la fuerza iónica.
Tal y como se usa en este documento, "reamplificación" y sus derivados se refieren generalmente a cualquier procedimiento mediante el cual al menos una parte de una molécula de ácido nucleico amplificada se amplifica adicionalmente mediante cualquier procedimiento de amplificación adecuado (denominado en algunas realizaciones amplificación "secundaria"), produciendo así una molécula de ácido nucleico reamplificada. No es necesario que la amplificación secundaria sea idéntica al procedimiento de amplificación original mediante el cual se produjo la molécula de ácido nucleico amplificada; tampoco es necesario que la molécula de ácido nucleico reamplificada sea completamente idéntica o completamente complementaria a la molécula de ácido nucleico amplificada; todo lo que se requiere es que la molécula de ácido nucleico reamplificada incluya al menos una porción de la molécula de ácido nucleico amplificada o su complemento. Por ejemplo, la reamplificación puede implicar el uso de diferentes condiciones de amplificación y/o diferentes cebadores, incluidos diferentes cebadores específicos de la diana, que los de la amplificación primaria.
Tal y como se usa en este documento, la expresión "reacción en cadena de la polimerasa" ("PCR") se refiere al método de Mullis, documentos de patente de EE.UU. n° 4.683.195 y 4.683.202, que describen un método para aumentar la concentración de un segmento de un polinucleótido de interés en una mezcla de ADN genómico, sin clonación ni purificación. Este procedimiento de amplificación de un polinucleótido de interés consiste en introducir un gran exceso de dos cebadores oligonucleotídicos en la mezcla de ADN que contiene el polinucleótido de interés deseado, seguido de una serie de ciclos térmicos en presencia de una ADN polimerasa. Los dos cebadores son complementarios a sus respectivas hebras del polinucleótido bicatenario de interés. La mezcla se desnaturaliza primero a una temperatura más alta y luego los cebadores se aparean con secuencias complementarias dentro de la molécula del polinucleótido de interés. Después de la hibridación, los cebadores se extienden con una polimerasa para formar un nuevo par de hebras complementarias. Las etapas de desnaturalización, apareamiento del cebador y extensión de la polimerasa se pueden repetir muchas veces (denominado termociclado) para obtener una alta concentración de un segmento amplificado del polinucleótido de interés deseado. La longitud del segmento amplificado del polinucleótido de interés deseado (amplicón) se determina por las posiciones relativas de los cebadores entre sí y, por lo tanto, esa longitud es un parámetro controlable. En virtud de la repetición del procedimiento, el método se denomina "reacción en cadena de la polimerasa" (en adelante, "PCR"). Debido a que los segmentos amplificados deseados del polinucleótido de interés se convierten en las secuencias de ácido nucleico predominantes (en términos de concentración) en la mezcla, se dice que están "amplificados por PCR". En una modificación del método descrito anteriormente, las moléculas de ácido nucleico diana se pueden amplificar por PCR usando una pluralidad de pares de cebadores diferentes, en algunos casos, uno o varios pares de cebadores por molécula de ácido nucleico diana de interés, formando así una reacción PCR múltiple.
Tal y como se define en el presente documento, "amplificación múltiple" se refiere a una amplificación selectiva y no aleatoria de dos o más secuencias diana dentro de una muestra, usando al menos un cebador específico de una diana. En algunas realizaciones, la amplificación múltiple se realiza de manera que algunas o todas las secuencias diana se amplifican dentro de un único recipiente de reacción. El "ple" o "veces" de una amplificación múltiple dada, se refiere generalmente al número de diferentes secuencias específicas de la diana que se amplifican durante esa amplificación múltiple única. En algunas realizaciones, el ple puede ser de aproximadamente 12 veces, 24 veces, 48 veces, 96 veces, 192 veces, 384 veces, 768 veces, 1536 veces, 3072 veces, 6144 veces o superior. También es posible detectar las secuencias diana amplificadas mediante varias metodologías diferentes (por ejemplo, electroforesis en gel seguida de densitometría, cuantificación con un bioanalizador o PCR cuantitativa, hibridación con una sonda marcada; incorporación de cebadores biotinilados seguida de detección de un conjugado de avidinaenzima; incorporación de trifosfatos de desoxinucleótidos marcados con 32P en la secuencia diana amplificada).
Tal y como se usa en este documento, "secuencias diana amplificadas" y sus derivados, se refiere generalmente a una secuencia de ácido nucleico producida amplificando las secuencias diana usando cebadores específicos de la diana y los métodos proporcionados en este documento. Las secuencias diana amplificadas pueden tener el mismo sentido (es decir, la hebra positiva) o antisentido (es decir, la hebra negativa) con respecto a las secuencias diana.
Tal y como se usa en este documento, los términos "ligando", "ligación" y sus derivados se refieren generalmente al procedimiento para unir covalentemente dos o más moléculas entre sí, por ejemplo, unir covalentemente dos o más moléculas de ácido nucleico entre sí. En algunas realizaciones, la ligación incluye mellas de unión entre nucleótidos adyacentes de ácidos nucleicos. En algunas realizaciones, la ligación incluye formar un enlace covalente entre un extremo de una primera molécula de ácido nucleico y un extremo de una segunda molécula. En algunas realizaciones, la ligación puede incluir la formación de un enlace covalente entre un grupo fosfato 5’ de un ácido nucleico y un grupo hidroxilo 3' de un segundo ácido nucleico, formando así una molécula de ácido nucleico ligada. Generalmente, para los fines de esta descripción, una secuencia diana amplificada se puede ligar a un adaptador para generar una secuencia diana amplificada ligada a un adaptador.
Tal y como se usa en este documento, "ligasa" y sus derivados, se refieren generalmente a cualquier agente capaz de catalizar la unión de dos moléculas de sustrato. En algunas realizaciones, la ligasa incluye una enzima capaz de catalizar la unión de mellas entre nucleótidos adyacentes de un ácido nucleico. En algunas realizaciones, la ligasa incluye una enzima capaz de catalizar la formación de un enlace covalente entre un fosfato 5’ de una molécula de ácido nucleico y un hidroxilo 3' de otra molécula de ácido nucleico, formando así una molécula de ácido nucleico ligada. Las ligasas adecuadas pueden incluir, pero no se limitan a, ADN ligasa de T4, ARN ligasa de T4 y ADN ligasa de E. coli.
Tal y como se usa en este documento, "condiciones de ligación" y sus derivados, generalmente se refieren a condiciones adecuadas para ligar dos moléculas entre sí. En algunas realizaciones, las condiciones de ligación son adecuadas para sellar mellas o huecos entre ácidos nucleicos. Tal y como se usa en este documento, el término mella o hueco es consistente con el uso del término en la técnica. Normalmente, se puede ligar una mella o un hueco en presencia de una enzima, tal como una ligasa, a una temperatura y un pH adecuados. En algunas realizaciones, la ADN ligasa de T4 puede unirse a una mella entre ácidos nucleicos a una temperatura de aproximadamente 70-72°C.
El término "celda de flujo", tal y como se usa en este documento, se refiere a una cámara que comprende una superficie sólida a través de la cual pueden fluir uno o varios reactivos fluidos. Ejemplos de celdas de flujo y sistemas fluidos relacionados y plataformas de detección que pueden usarse fácilmente en los métodos de la presente descripción se describen, por ejemplo, en Bentley et al., Nature 456: 53-59 (2008), los documentos WO 04/018497; US 7.057.026; WO 91/06678; WO 07/123744; US 7.329.492; US 7.211.414; US 7.315.019; US 7.405.281 y US 2008/0108082.
Tal y como se usa en este documento, el término "amplicón", cuando se usa haciendo referencia a un ácido nucleico, significa el producto de copiar el ácido nucleico, en donde el producto tiene una secuencia de nucleótidos que es igual o complementaria a al menos una porción de la secuencia de nucleótidos del ácido nucleico. Un amplicón se puede producir mediante cualquiera entre una variedad de métodos de amplificación que usan el ácido nucleico, o un amplicón del mismo, como molde, incluyendo, por ejemplo, extensión de polimerasa, reacción en cadena de la polimerasa (PCR), amplificación de círculo rodante (RCA), extensión de ligación o reacción en cadena de ligación. Un amplicón puede ser una molécula de ácido nucleico que tiene una única copia de una secuencia de nucleótidos particular (por ejemplo, un producto de la PCR) o múltiples copias de la secuencia de nucleótidos (por ejemplo, un producto concatamérico de RCA). Un primer amplicón de un ácido nucleico diana es normalmente una copia complementaria. Los amplicones posteriores son copias que se crean, después de la generación del primer amplicón, a partir del ácido nucleico diana o del primer amplicón. Un amplicón posterior puede tener una secuencia que sea sustancialmente complementaria al ácido nucleico diana o sustancialmente idéntica al ácido nucleico diana.
Tal y como se usa en este documento, la expresión "sitio de amplificación" se refiere a un sitio en o sobre una matriz en donde se pueden generar uno o varios amplicones. Un sitio de amplificación puede configurarse además para contener, retener o fijar al menos un amplicón que se genera en el sitio.
Tal y como se usa en este documento, el término "matriz" se refiere a una población de sitios que pueden diferenciarse entre sí según la ubicación relativa. Las diferentes moléculas que se encuentran en diferentes sitios de una matriz se pueden diferenciar entre sí según las ubicaciones de los sitios en la matriz. Un sitio individual de una matriz puede incluir una o varias moléculas de un tipo particular. Por ejemplo, un sitio puede incluir una única molécula de ácido nucleico diana que tiene una secuencia particular o un sitio puede incluir varias moléculas de ácido nucleico que tienen la misma secuencia (y/o una secuencia complementaria, de la misma). Los sitios de una matriz pueden ser características diferentes, ubicadas sobre el mismo sustrato. Las características ejemplares incluyen, sin limitación, pocillos en un sustrato, perlas (u otras partículas) en o sobre un sustrato, proyecciones de un sustrato, crestas sobre un sustrato o canales en un sustrato. Los sitios de una matriz pueden ser sustratos distintos, cada uno con una molécula diferente. Se pueden identificar diferentes moléculas fijadas a sustratos distintos, según las ubicaciones de los sustratos sobre una superficie a la que están asociados los sustratos o según las ubicaciones de los sustratos en un líquido o gel. Las matrices ejemplares en las que se ubican sustratos distintos sobre una superficie incluyen, sin limitación, aquellas que tienen perlas en los pocillos.
Tal y como se usa en este documento, el término "capacidad", cuando se usa haciendo referencia a un sitio y un material de ácido nucleico, significa la cantidad máxima de material de ácido nucleico que puede ocupar el sitio. Por ejemplo, el término puede referirse al número total de moléculas de ácido nucleico que pueden ocupar el sitio en una condición particular. También se pueden usar otras medidas que incluyen, por ejemplo, la masa total de material de ácido nucleico o el número total de copias de una secuencia de nucleótidos particular que puede ocupar el sitio en una condición particular. Normalmente, la capacidad de un sitio para un ácido nucleico diana será sustancialmente equivalente a la capacidad del sitio para amplicones del ácido nucleico diana.
Tal y como se usa en este documento, la expresión "agente de captura" se refiere a un material, producto químico, molécula o resto de la misma que es capaz de fijarse, retener o unirse a una molécula diana (por ejemplo, un ácido nucleico diana). Los agentes de captura ejemplares incluyen, sin limitación, un ácido nucleico de captura (también denominado en el presente documento oligonucleótido de captura) que es complementario al menos a una porción de un ácido nucleico diana, un miembro de un pareja de unión receptor-ligando (por ejemplo, avidina, estreptavidina, biotina, lectina, carbohidrato, proteína que se une a ácido nucleico, epítopo, anticuerpo, etc.) capaz de unirse a un ácido nucleico diana (o a un resto de unión fijado al mismo), o a un reactivo químico capaz de formar un enlace covalente con un ácido nucleico diana (o un resto de unión fijado al mismo).
Tal y como se usa en este documento, la expresión "población clonal" se refiere a una población de ácidos nucleicos que es homogénea con respecto a una secuencia de nucleótidos particular. La secuencia homogénea tiene normalmente una longitud de al menos 10 nucleótidos, pero puede ser incluso más larga, incluyendo, por ejemplo, una longitud de al menos 50, 100, 250, 500 o 1000 nucleótidos. Una población clonal se puede obtener a partir de un único ácido nucleico diana o un ácido nucleico molde. Normalmente, todos los ácidos nucleicos de una población clonal tendrán la misma secuencia de nucleótidos. Se entenderá que puede tener lugar un pequeño número de mutaciones (por ejemplo, debido a artefactos de la amplificación) en una población clonal sin apartarse de la clonalidad.
Tal y como se usa en este documento, "proporcionar" en el contexto de una composición, un artículo, un ácido nucleico o un núcleo, significa preparar la composición, artículo, ácido nucleico o núcleo, adquirir la composición, artículo, ácido nucleico o núcleo, u obtener de otro modo el compuesto, la composición, el artículo o el núcleo.
El término "y/o" significa uno o todos los elementos enumerados o una combinación de dos o más de los elementos enumerados.
Las palabras "preferido" y "preferiblemente" se refieren a realizaciones de la descripción que pueden proporcionar ciertos beneficios, en ciertas circunstancias. Sin embargo, también se pueden preferir otras realizaciones, en las mismas circunstancias o en otras. Además, la enumeración de una o varias realizaciones preferidas no implica que otras realizaciones no sean útiles y no pretende excluir otras realizaciones del alcance de la descripción.
El término "comprende" y variaciones del mismo no tienen un significado limitante cuando estos términos aparecen en la descripción y las reivindicaciones.
Se entiende que siempre que se describen realizaciones en el presente documento con el lenguaje "incluir", "incluye" o "que incluye" y similares, también se proporcionan realizaciones análogas descritas en términos de "que consiste en" y/o "que consiste esencialmente en".
A menos que se especifique lo contrario, "un", "una", "el, la" y "al menos uno" se usan indistintamente y significan uno o más de uno.
También en el presente documento, las descripciones de intervalos numéricos por los extremos, incluyen todos los números incluidos dentro de ese intervalo (por ejemplo, 1 a 5 incluye 1, 1,5, 2, 2,75, 3, 3,80, 4, 5, etc.).
Para cualquier método descrito en este documento que incluya etapas discretas, las etapas pueden realizarse en cualquier orden factible. Y, según sea apropiado, cualquier combinación de dos o más etapas puede realizarse simultáneamente.
Una referencia a lo largo de esta memoria descriptiva a "1 realización", "una realización", "ciertas realizaciones" o "algunas realizaciones", etc., significa que un atributo, configuración, composición o característica particular descrita en relación con la realización, se incluye en al menos una realización de la descripción. Por tanto, las apariciones de tales expresiones en varios lugares a lo largo de esta memoria descriptiva no se refieren necesariamente a la misma realización de la descripción. Además, los atributos, configuraciones, composiciones o características particulares pueden combinarse de cualquier manera adecuada en una o varias realizaciones.
El método proporcionado en este documento puede usarse para producir colecciones de secuenciación que incluyen los genomas completos de una pluralidad de células individuales. En una realización, el método puede usarse para detectar variantes del número de copias (CNV, por ejemplo, el número de copias de una secuencia particular, tal como un gen, en el genotipo de una célula). Por ejemplo, el método puede usarse para cuantificar la frecuencia de núcleos que albergan CNVs en una muestra de células somáticas de un organismo, o proporcionar información sobre la heterogeneidad en el contexto de ciertas afecciones, como el cáncer.
El método proporcionado en este documento incluye proporcionar núcleos aislados a partir de una pluralidad de células (Fig. 1, bloque 12; Fig. 34, bloque 12). Las células pueden proceder de cualquier organismo u organismos y de cualquier tipo de célula o cualquier tejido del organismo u organismos. El método puede incluir además disociar las células y/o aislar los núcleos. Los métodos para aislar núcleos a partir de células son conocidos por el experto en la técnica y son rutinarios. El número de núcleos puede ser de al menos dos. El límite superior depende de las limitaciones prácticas del equipamiento (por ejemplo, placas de pocillos múltiples) utilizado en otras etapas del método, tal y como se describe en este documento. Por ejemplo, en una realización, el número de núcleos no puede ser superior a 1.000.000.000, no superior a 100.000.000, no superior a 10.000.000, no superior a 1.000.000, no superior a 100.000, no superior a 10.000 o no superior a 1.000. El experto reconocerá que las moléculas de ácido nucleico en cada núcleo representan el complemento genético completo de un organismo (también denominado el genoma completo de un organismo), y son moléculas de ADN genómico que incluyen secuencias de intrones y exones, así como secuencias reguladoras no codificantes, tales como secuencias promotoras y potenciadoras.
Los núcleos aislados pueden estar exentos de nucleosomas, o pueden estar sometidos a condiciones que reducen los nucleosomas de los núcleos, generando núcleos empobrecidos en nucleosomas (Fig. 1, bloque 13; Fig. 34, bloque 13). Los núcleos con reducción de nucleosomas son útiles en métodos para determinar la secuencia de ADN del genoma completo de una célula.
En una realización, las condiciones utilizadas para la reducción de nucleosomas conservan la integridad de los núcleos aislados. Por lo general, los métodos de reducción de nucleosomas se utilizan sobre un sedimento o una suspensión de células individuales, por lo que en aquellas realizaciones en las que se usa un tejido o un cultivo celular adherente como fuente de las células, la fuente se trata para obtener un sedimento o suspensión de células individuales.
En una realización, las condiciones para la reducción de los nucleosomas incluyen un tratamiento químico con un agente caotrópico capaz de alterar las interacciones ácido nucleico-proteína. Un ejemplo de un agente caotrópico útil incluye, pero no se limita a, sal de litio de ácido 3,5-diyodosalicílico. Las condiciones para usar sal de litio de ácido 3,5-diyodosalicílico incluyen añadirlo a un sedimento de células e incubar sobre hielo.
En otra realización, las condiciones incluyen un tratamiento químico con un detergente capaz de alterar las interacciones ácido nucleico-proteína. Un ejemplo de un detergente útil incluye, pero no se limita a, dodecilsulfato de sodio (SDS). Las condiciones para usar SDS incluyen añadirlo a un sedimento de células e incubar a una temperatura elevada tal como 42°C, y luego añadir un detergente no iónico tal como Triton™ X-100 e incubar a una temperatura elevada tal como 42°C.
En algunas realizaciones, cuando se usa un detergente tal como SDS, los núcleos se exponen a un agente de reticulación antes de la reducción de los nucleosomas. En una realización, los núcleos se exponen al agente de reticulación mientras están dentro de las células (Fig. 34, bloque 11), y en otra realización, los núcleos aislados se exponen al agente de reticulación. Un ejemplo útil de un agente de reticulación incluye, pero no se limita a, formaldehído (Hoffman et al., 2015, J. Biol. Chem. 290: 26404-26411). El tratamiento de las células con formaldehído puede incluir la adición de formaldehído a una suspensión de células y la incubación a temperatura ambiente. En una realización, la concentración de formaldehído puede ser desde 0,2% a 2%, tal como superior a 0,2% y no superior a 1,5%. Después del tratamiento con formaldehído, los núcleos pueden exponerse a glicina y un detergente no iónico, no desnaturalizante, no iónico, tal como Igepal®. Si las células se reticulan antes de aislar los núcleos, la reticulación puede revertirse, y normalmente se revierte mediante una incubación a 55°C hasta 72°C, tal como 68°C, durante 30 minutos a 16 horas, tal como 1 hora (Fig. 34, bloque 19). La reversión se produce normalmente más tarde, después de distribuir los subconjuntos de núcleos indexados agrupados en una segunda pluralidad de compartimentos (Fig. 34, bloque 18) y antes de generar fragmentos doblemente indexados (Fig. 34, bloque 20). Los subconjuntos de distribución y la generación de fragmentos doblemente indexados se describen en este documento.
En algunas realizaciones en las que se usa un agente de reticulación, el método también puede incluir manipulaciones que proporcionan información sobre la estructura cromosómica dentro de un núcleo, tales como análisis del plegamiento de la cromatina y detección de reordenamientos genómicos tales como, pero sin limitarse a, translocaciones. Tales tipos de análisis se conocen en la técnica como captura de la conformación cromosómica (3C) y métodos relacionados (4C, 5C y Hi-C). Las manipulaciones normalmente incluyen la digestión de ADN genómico dentro de un núcleo (Fig. 34, bloque 14) seguida de ligación de los extremos de fragmentos genómicos que están muy próximos (Fig. 34, bloque 15). Esas etapas dan como resultado fragmentos quiméricos, en donde los fragmentos quiméricos probablemente están cerca con proximidad física dentro del núcleo, los cuales también están normalmente cerca en el espacio de la secuencia (Nagano et al., 2013, Nature, 502:59-64). Normalmente, después de que los núcleos se exponen a un agente de reticulación y antes de fragmentar los ácidos nucleicos, el ADN genómico presente en los núcleos se digiere con una nucleasa, tal como una endonucleasa de restricción (Fig. 34, bloque 14). Puede usarse cualquier endonucleasa de restricción y, en una realización, la endonucleasa de restricción escinde un ácido nucleico para dar como resultado dos extremos salientes, también conocidos por los expertos como extremos cohesivos. Después de la digestión del ADN genómico con una endonucleasa de restricción, los núcleos se exponen a una ligasa para unir los fragmentos de ADN genómico (Fig. 34, bloque 15).
Durante el procedimiento de reducción de nucleosomas en los núcleos aislados (Fig. 1, bloque 13; Fig. 34, bloque 13), se conserva la integridad de los núcleos aislados. Si los núcleos permanecen intactos después de la exposición a las condiciones para la reducción de nucleosomas, se puede determinar visualizando el estado de los núcleos mediante métodos de rutina, tales como la formación de imágenes de contraste de fase. En una realización, al menos 100.000 núcleos están intactos después de la reducción de nucleosomas.
El método proporcionado en este documento incluye distribuir subconjuntos de núcleos con reducción de nucleosomas en una primera pluralidad de compartimentos (Fig. 1, bloque 14; Fig. 34, bloque 16). El número de núcleos presentes en un subconjunto, y por lo tanto en cada compartimento, puede ser al menos 1. En una realización, el número de núcleos presentes en un subconjunto no es superior a 1.000.000, no superior a 100.000, no superior a 10.000, no superior a 4.000, no superior a 3.000, no superior a 2.000 o no superior a 1.000. En una realización, el número de núcleos presentes en un subconjunto puede ser de 1 a 1.000, de 1.000 a 10.000, de 10.000 a 100.000 o de 100.000 a 1.000.000. En una realización, el número de núcleos presentes en cada subconjunto es aproximadamente igual. Los métodos para distribuir núcleos en subconjuntos son conocidos por el experto en la técnica y son rutinarios. Los ejemplos incluyen, pero no se limitan a, clasificación de núcleos activados por fluorescencia (FANS).
Cada compartimento incluye un complejo de transposoma. El complejo de transposoma se puede añadir a cada compartimento antes, después o al mismo tiempo que se añade un subconjunto de núcleos al compartimento. El complejo de transposoma, una transposasa unida a un sitio de reconocimiento de transposasa, puede insertar el sitio de reconocimiento de la transposasa en un ácido nucleico diana dentro de un núcleo, en un procedimiento que a veces se denomina "etiquetado". En algunos de esos eventos de inserción, una hebra del sitio de reconocimiento de la transposasa puede transferirse al ácido nucleico diana. Esa hebra se denomina "hebra transferida". En una realización, un complejo de transposoma incluye una transposasa dimérica que tiene dos subunidades y dos secuencias de transposón no contiguas. En otra realización, una transposasa incluye una transposasa dimérica que tiene dos subunidades y una secuencia de transposón contigua.
Algunas realizaciones pueden incluir el uso de una transposasa Tn5 hiperactiva y un sitio de reconocimiento de la transposasa de tipo Tn5 (Goryshin y Reznikoff, J. Biol. Chem, 273: 7367 (1998)), o una transposasa MuA y un sitio de reconocimiento de la transposasa Mu que comprende las secuencias terminales R1 y R2 (Mizuuchi, K., Cell, 35: 785, 1983; Savilahti, H et al., EMBO J , 14: 4893, 1995). Las secuencias Tn5 Mosaic End (ME) también se pueden utilizar optimizadas por un experto en la materia.
Más ejemplos de sistemas de transposición que se pueden usar en ciertas realizaciones de las composiciones y métodos proporcionados en este documento, incluyen Staphylococcus aureus Tn552 (Colegio et al., J. Bacteriol, 183: 2384-8, 2001; Kirby C et al., Mol. Microbiol., 43: 173-86, 2002), Ty1 (Devine y Boeke, Nucleic Acids Res., 22: 3765­ 72, 1994 y el documento de publicación internacional WO 95/23875), el transposón Tn7 (Craig, N L, Science. 271: 1512, 1996; Craig, N L, revisión en: Curr Top Microbiol Immunol., 204: 27-48, 1996), Tn/O e IS10 (Kleckner N, et al., Curr Top Microbiol Immunol., 204: 49-82, 1996), la transposasa Mariner (Lampe D J, et al., EMBO J., 15: 5470-9, 1996), Tc1 (Plasterk R H, Curr. Topics Microbiol. Immunol., 204: 125-43, 1996), elemento P (Gloor, G B, Methods Mol. Biol., 260: 97-114, 2004), Tn3 (Ichikawa y Ohtsubo, J Biol. Chem. 265: 18829-32, 1990), secuencias de inserción bacteriana (Ohtsubo y Sekine, Curr. Top. Microbiol. Immunol. 204: 1-26, 1996), retrovirus (Brown et al., Proc NatlAcad Sci USA, 86: 2525-9, 1989) y el retrotransposón de levadura (Boeke y Corces, Annu RevMicrobiol. 43: 403-34, 1989). Más ejemplos incluyen IS5, Tn10, Tn903, IS911 y versiones modificadas genéticamente de enzimas de la familia de las transposasas (Zhang et al., (2009) PLoS Genet. 5: e1000689. Publicación electrónica del 16 de octubre de 2009; Wilson C. et al. (2007) J. Microbiol. Methods 71: 332-5).
Otros ejemplos de integrasas que pueden usarse con los métodos y composiciones proporcionados en este documento, incluyen integrasas retrovíricas y secuencias de reconocimiento de la integrasa para tales integrasas retrovíricas, tales como integrasas procedentes de VIH-1, VIH-2, SIV, PFV-1, RSV.
Las secuencias de transposones útiles con los métodos y composiciones descritos en este documento se proporcionan en los documentos de publicación de solicitud de patente de EE.UU. n° 2012/0208705, publicación de solicitud de patente de EE.UU. n° 2012/0208724 y publicación de solicitud de patente internacional n° WO 2012/061832. En algunas realizaciones, una secuencia de transposón incluye un primer sitio de reconocimiento de la transposasa, un segundo sitio de reconocimiento de la transposasa y una secuencia indexada presente entre los dos sitios de reconocimiento de la transposasa.
Algunos complejos de transposoma útiles en este documento incluyen una transposasa que tiene dos secuencias de transposones. En algunas de tales realizaciones, las dos secuencias de transposones no están unidas entre sí, en otras palabras, las secuencias de transposones no son contiguas entre sí. Se conocen en la técnica ejemplos de tales transposomas (véase, por ejemplo, el documento de publicación de solicitud de patente de EE.UU. n° 2010/0120098).
En algunas realizaciones, un complejo de transposoma incluye un ácido nucleico con la secuencia de un transposón que se une a dos subunidades de transposasa para formar un "complejo en bucle" o un "transposoma en bucle". En un ejemplo, un transposoma incluye una transposasa dimérica y una secuencia de transposón. Los complejos en bucle pueden garantizar que los transposones se inserten en el ADN diana mientras se conserva la información del orden del ADN diana original y sin fragmentar el ADN diana. Como se apreciará, las estructuras en bucle pueden insertar secuencias de ácido nucleico deseadas, tales como indicadores, en un ácido nucleico diana, mientras se conserva la conectividad física del ácido nucleico diana. En algunas realizaciones, la secuencia de transposones de un complejo de transposomas en bucle puede incluir un sitio de fragmentación de modo que la secuencia del transposón se pueda fragmentar para crear un complejo de transposoma que comprende dos secuencias de transposón. Dichos complejos de transposoma son útiles para asegurar que los fragmentos de ADN diana vecinos, en los que se insertan los transposones, reciben combinaciones de códigos que se pueden ensamblar sin ambigüedades en una etapa posterior del ensayo.
Un complejo de transposoma también incluye al menos una secuencia indexada, también denominada indicador de transposasa. La secuencia indexada está presente como parte de la secuencia del transposón. En una realización, la secuencia indexada puede estar presente en una hebra transferida, la hebra del sitio de reconocimiento de la transposasa que se transfiere al ácido nucleico diana. Una secuencia indexada, también denominada etiqueta o código de barras, es útil como una característica marcadora del compartimento en el que estaba presente un ácido nucleico diana particular. La secuencia indexada de un complejo de transposoma es diferente para cada compartimento. En consecuencia, en esta realización, un indicador es una etiqueta de la secuencia de ácido nucleico que se fija a cada uno de los ácidos nucleicos diana presentes en un compartimento particular, cuya presencia es indicativa, o se usa para identificar, el compartimento en el que una población de núcleos estaban presentes en esa etapa del método.
Una secuencia indexada puede tener hasta 20 nucleótidos de longitud, por ejemplo, 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. Una etiqueta de cuatro nucleótidos ofrece la posibilidad de aumentar 256 muestras sobre la misma matriz, y una etiqueta de seis bases permite procesar 4096 muestras en la misma matriz.
En una realización, la hebra transferida también puede incluir una secuencia universal. Las secuencias universales se describen en este documento. Por tanto, en algunas realizaciones en las que la hebra transferida se transfiere a ácidos nucleicos diana, los ácidos nucleicos diana incluyen un indicador de transposasa, una secuencia universal o una combinación de los mismos.
El método también incluye generar núcleos indexados (Fig. 1, bloque 15; Fig. 34, bloque 17). En una realización, generar núcleos indexados incluye fragmentar ácidos nucleicos presentes en los subconjuntos de núcleos con reducción de nucleosomas (por ejemplo, los ácidos nucleicos presentes en cada compartimento) en una pluralidad de fragmentos de ácido nucleico. Una vez que se fragmentan los ácidos nucleicos, la transposasa permanece fijada a los fragmentos de ácido nucleico, de modo que los fragmentos de ácido nucleico derivados de la misma molécula de ADN genómico, permanecen unidos físicamente (Adey et al., 2014, Genome Res., 24: 2041-2049).
En una realización, la fragmentación de ácidos nucleicos se logra utilizando un sitio de fragmentación presente en los ácidos nucleicos. Normalmente, los sitios de fragmentación se introducen en los ácidos nucleicos diana mediante el uso de un complejo de transposoma. Por ejemplo, un complejo de transposoma en bucle puede incluir un sitio de fragmentación. Se puede usar un sitio de fragmentación para escindir la asociación física, pero no la informativa, entre las secuencias indexadas que se han insertado en un ácido nucleico diana. La escisión puede realizarse por medios bioquímicos, químicos u otros. En algunas realizaciones, un sitio de fragmentación puede incluir una secuencia de nucleótidos o nucleótidos que pueden fragmentarse por diversos medios. Ejemplos de sitios de fragmentación incluyen, pero no se limitan a, un sitio de endonucleasa de restricción, al menos un ribonucleótido escindible con una ARNasa, análogos de nucleótidos escindibles en presencia de un determinado agente químico, un enlace diol escindible mediante tratamiento con peryodato, un grupo disulfuro escindible con un agente reductor químico, un resto escindible que puede estar sujeto a escisión fotoquímica y un péptido escindible con una enzima peptidasa u otros medios adecuados (véanse, por ejemplo, los documentos de publicación de solicitud de patente de EE.UU. n° 2012/0208705, publicación de solicitud de patente de EE.UU. n° 2012/0208724 y WO 2012/061832). El resultado de la fragmentación es una población de núcleos indexados, en donde cada núcleo contiene fragmentos de ácido nucleico indexados. Los fragmentos de ácido nucleico indexados pueden incluir, y normalmente lo hacen, en al menos una hebra la secuencia indexada indicativa del compartimento particular. Un ejemplo de un fragmento de ácido nucleico indexado se muestra en la Fig. 2. La hebra individual del fragmento 20 de ácido nucleico indexado, incluye los nucleótidos 21 y 22 que se originan a partir de la hebra transferida del complejo de transposoma, que incluye un indicador de transposasa y una secuencia universal que puede usarse para una amplificación y/o secuenciación. El fragmento de ácido nucleico indexado también incluye los nucleótidos que se originan en el ADN genómico de un núcleo 23.
Los núcleos indexados procedentes de múltiples compartimentos pueden combinarse (Fig. 1, bloque 16; Fig. 34, bloque 18). Por ejemplo, los núcleos indexados procedentes de 2 a 96 compartimentos (cuando se usa una placa de 96 pocillos), o de 2 a 384 compartimentos (cuando se usa una placa de 384 pocillos) se combinan. Los subconjuntos de esos núcleos indexados combinados, denominados en el presente documento núcleos indexados agrupados, se distribuyen luego en una segunda pluralidad de compartimentos. El número de núcleos presentes en un subconjunto, y por lo tanto en cada compartimento, se basa en parte en el deseo de reducir las colisiones de indicadores, que es la presencia de dos núcleos que tienen el mismo indicador de transposasa que terminan en el mismo compartimento en esa etapa del método. El número de núcleos presentes en un subconjunto en esta realización puede ser de 2 a 30, tal como 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29 o 30. En una realización, el número de núcleos presentes en un subconjunto es de 20 a 24, tal como 22. En una realización, el número de núcleos presentes en cada subconjunto es aproximadamente igual. En una realización, el número de núcleos presentes en cada subconjunto es de al menos 10 veces menos núcleos que en los subconjuntos de núcleos con reducción de nucleosomas (Fig. 1, bloque 14; Fig. 34, bloque 16). En una realización, el número de núcleos presentes en cada subconjunto es de al menos 100 veces menos núcleos que los subconjuntos de núcleos con reducción de nucleosomas (Fig. 1, bloque 14; Fig. 34, bloque 16). Los métodos para distribuir núcleos en subconjuntos son conocidos por el experto en la técnica y son rutinarios. Los ejemplos incluyen, pero no se limitan a, clasificación de núcleos activados por fluorescencia (FANS).
La distribución de los núcleos en subconjuntos viene seguida por la incorporación en los fragmentos de ácido nucleico indexados en cada compartimento una segunda secuencia indexada para generar fragmentos doblemente indexados, en donde la segunda secuencia indexada en cada compartimento es diferente de la segunda secuencia indexada en los otros compartimentos. Esto da como resultado la indexación adicional de los fragmentos de ácido nucleico indexados (Fig. 1, bloque 17; Fig. 34, bloque 20) antes de la inmovilización y la secuenciación. En aquellas realizaciones en las que las células se reticulan mediante un agente de reticulación, las transposasas fijadas a los fragmentos de ácido nucleico indexados, se disocian de los fragmentos de ácido nucleico indexados. En una realización, las transposasas fijadas se disocian antes de que se revierta la reticulación (Fig. 34, bloque 19). Puede usarse un detergente para disociar las transposasas y, en una realización, el detergente es dodecilsulfato de sodio (SDS).
En una realización, la incorporación se realiza normalmente mediante una reacción de amplificación exponencial, tal como una PCR. Las secuencias universales presentes en los extremos del fragmento de ácido nucleico indexado pueden usarse para la unión de secuencias universales de anclaje que pueden servir como cebadores y extenderse en una reacción de amplificación. Normalmente, se utilizan dos cebadores universales diferentes. Un cebador se hibrida con secuencias universales en el extremo 3’ de una hebra de los fragmentos de ácido nucleico indexados, y un segundo cebador se hibrida con secuencias universales en el extremo 3' de la otra hebra de los fragmentos de ácido nucleico indexados. Por tanto, la secuencia de anclaje de cada cebador puede ser diferente. Cada uno de los cebadores adecuados puede incluir secuencias universales adicionales, tales como una secuencia de captura universal y otra secuencia indexada. Debido a que cada cebador puede incluir un indicador, esta etapa da como resultado la adición de una o dos secuencias indexadas, por ejemplo, un segundo y un tercer indicador opcional. Los fragmentos de ácido nucleico indexados que tienen el segundo y el tercer indicador opcional, se denominan fragmentos doblemente indexados. El segundo y el tercer indicador pueden ser complementos inversos entre sí, o el segundo y el tercer indicador pueden tener secuencias que no son complementos inversos entre sí. Esta segunda secuencia indexada y el tercer indicador opcional son únicos para cada compartimento en el que se colocaron los núcleos indexados distribuidos (Fig. 1, bloque 16; Fig. 34, bloque 18).
En una realización, la incorporación de la segunda secuencia indexada incluye poner en contacto los fragmentos de ácido nucleico indexados en cada compartimento con un primer cebador universal y un segundo cebador universal. El primer cebador universal incluye una secuencia idéntica a una porción de la primera secuencia universal, y el segundo cebador universal incluye una secuencia complementaria a una porción de la primera secuencia universal. Cada cebador incluye una secuencia indexada. En una realización, la secuencia indexada del primer cebador universal es el complemento inverso de la secuencia indexada del segundo cebador universal. En otra realización, la secuencia indexada del primer cebador universal es diferente del complemento inverso de la secuencia indexada del segundo cebador universal.
En una realización, el primer cebador universal también incluye una primera secuencia de captura y una primera secuencia de anclaje complementaria a una secuencia universal en el extremo 3’ de los fragmentos doblemente indexados. En una realización, la primera secuencia de captura incluye la secuencia del cebador P5. En una realización, el segundo cebador universal también incluye una segunda secuencia de captura y una segunda secuencia de anclaje complementaria a una secuencia universal en el extremo 5’ de los fragmentos doblemente indexados. En una realización, la segunda secuencia de captura incluye el complemento inverso de la secuencia del cebador P7.
En otra realización, la incorporación incluye someter los fragmentos de ácido nucleico indexados a condiciones que dan como resultado la ligación de secuencias adicionales a ambos extremos de los fragmentos. En una realización, se puede utilizar la ligación de extremos romos. En otra realización, los fragmentos se preparan con nucleótidos terminales sobresalientes únicos mediante, por ejemplo, la actividad de ciertos tipos de ADN polimerasa tal como la polimerasa Taq o la polimerasa exo minus de Klenow que tiene una actividad transferasa terminal no dependiente del molde que añade un solo desoxinucleótido, por ejemplo, desoxiadenosina (A) en los extremos 3’ de los fragmentos de ácido nucleico indexados. Tales enzimas se pueden usar para añadir un solo nucleótido 'A' al extremo 3’ terminal romo de cada hebra de los fragmentos. Por lo tanto, se podría añadir una 'A' al extremo 3’ de cada hebra de los fragmentos diana de doble hebra mediante una reacción con la polimerasa Taq o exo minus de Klenow, mientras que las secuencias adicionales que se añadirán a cada extremo del fragmento pueden incluir una 'T' sobresaliente compatible presente en el extremo 3’ de cada región de ácido nucleico bicatenario que se va a añadir. Esta modificación del extremo también evita una autoligación de los ácidos nucleicos, de manera que existe un sesgo hacia la formación de los fragmentos de ácido nucleico indexados flanqueados por las secuencias que se añaden en esta realización.
La fragmentación de moléculas de ácido nucleico mediante los métodos descritos en el presente documento puede dar como resultado fragmentos con una mezcla heterogénea de extremos romos y sobresalientes en 3’ y 5'. En algunas realizaciones, por lo tanto, es deseable reparar los extremos de los fragmentos utilizando métodos o kits (como el kit de reparación de extremos de terminación de ADN de Lucigen) conocidos en la técnica por generar extremos que son óptimos para la inserción, por ejemplo, en sitios romos de vectores de clonación. En una realización particular, los extremos de los fragmentos de la población de ácidos nucleicos tienen extremos romos. Más particularmente, los extremos de los fragmentos tienen extremos romos y fosforilados. El resto fosfato se puede introducir mediante un tratamiento enzimático, por ejemplo, usando polinucleótido cinasa.
En una realización, los fragmentos de ácido nucleico indexados se tratan ligando primero los adaptadores universales idénticos (también denominados "adaptadores desemparejados", cuyas características generales se describen en Gormley et al., documento US 7.741.463, y Bignell et al., documento US 8.053.192,) a los extremos 5’ y 3' de los fragmentos de ácido nucleico indexados para formar fragmentos doblemente indexados. En una realización, el adaptador universal incluye todas las secuencias necesarias para la secuenciación, incluidas una o dos secuencias indexadas y secuencias para inmovilizar los fragmentos doblemente indexados sobre una matriz. Debido a que los ácidos nucleicos que se van a secuenciar proceden de células individuales, una amplificación adicional de los fragmentos doblemente indexados es útil para lograr una cantidad suficiente de fragmentos doblemente indexados para la secuenciación.
En una realización, la incorporación de la segunda secuencia indexada incluye ligar un adaptador universal a los fragmentos de ácido nucleico indexados en cada compartimento. El adaptador universal incluye dos hebras de ácido nucleico, en donde cada hebra incluye la segunda secuencia indexada. En una realización, la segunda secuencia indexada de una hebra del adaptador universal es el complemento inverso de la segunda secuencia indexada de la segunda hebra del adaptador universal. En otra realización, la segunda secuencia indexada de una hebra del adaptador universal es diferente del complemento inverso de la segunda secuencia indexada de la segunda hebra del adaptador universal.
En una realización, el adaptador universal también incluye una primera secuencia de captura y una primera secuencia de anclaje. En una realización, la primera secuencia de captura incluye la secuencia del cebador P5. En una realización, el adaptador universal también incluye una segunda secuencia de captura y una segunda secuencia de anclaje. En una realización, la segunda secuencia de captura incluye el complemento inverso de la secuencia del cebador P7.
En otra realización, cuando el adaptador universal ligado a los fragmentos de ácido nucleico indexados no incluye todas las secuencias necesarias para la secuenciación, entonces se puede usar una etapa de amplificación exponencial, como la PCR, para modificar aún más los adaptadores universales presentes en cada fragmento de ácido nucleico indexado antes de inmovilizar y secuenciar. Por ejemplo, se lleva a cabo una reacción de extensión de cebador inicial usando una secuencia de anclaje universal complementaria a una secuencia universal presente en el fragmento de ácido nucleico indexado, en la que se forman productos de extensión complementarios a ambas cadenas de cada fragmento de ácido nucleico indexado individual. Normalmente, la PCR añade secuencias universales adicionales, como una secuencia de captura universal y otra secuencia indexada. Debido a que cada cebador puede incluir un indicador, esta etapa da como resultado la adición de una o dos secuencias indexadas, por ejemplo, un segundo y un tercer indicador opcional, y la indexación del fragmento de ácido nucleico indexado mediante ligación del adaptador (Fig. 1, bloque 17; Fig. 34 bloque 20).
Después de añadir los adaptadores universales, ya sea mediante un método de una sola etapa para ligar un adaptador universal que incluye todas las secuencias necesarias para la secuenciación, o mediante un método de dos etapas para ligar un adaptador universal y luego una amplificación exponencial para modificar aún más el adaptador universal, los fragmentos finales doblemente indexados incluirán una secuencia de captura universal, una segunda secuencia indexada y una tercera secuencia indexada opcional. El segundo y el tercer indicador pueden ser complementos inversos entre sí, o el segundo y tercer indicador pueden tener secuencias que no son complementos inversos entre sí. Estas segundas y terceras secuencias indexadas opcionales son individuales para cada compartimento en el que se colocaron los núcleos indexados distribuidos (Fig. 1, bloque 17; Fig. 34, bloque 20) después de añadir el primer indicador mediante etiquetado. El resultado de añadir adaptadores universales a cada extremo es una pluralidad o un banco de fragmentos doblemente indexados que tienen una estructura similar o idéntica al fragmento 30 doblemente indexado, mostrado en la Fig. 3. Una sola hebra del fragmento 30 doblemente indexado incluye una secuencia de captura 31 y 38, también conocida como un adaptador de celda de flujo en 3’ (por ejemplo, P5) y un adaptador de celda de flujo en 5' (por ejemplo, P7'), respectivamente, y un indicador 32 y 37, tal como i5 e i7. El fragmento 30 de doblemente indexado también incluye nucleótidos que se originan en la hebra transferida del complejo de transposoma 33, que incluye un indicador de transposasa 34 y una secuencia universal 35 que puede usarse para una amplificación y/o secuenciación. El fragmento doblemente indexado también incluye los nucleótidos que se originan en el ADN genómico de un núcleo 36.
Los fragmentos doblemente indexados resultantes proporcionan colectivamente una colección de ácidos nucleicos que pueden inmovilizarse y luego secuenciarse. El término colección, también denominado en el presente documento colección de secuenciación, se refiere a la colección de fragmentos de ácido nucleico de células individuales que contienen secuencias universales conocidas en sus extremos 3’ y 5'. La colección incluye ácidos nucleicos del genoma completo de uno o varios de los núcleos aislados.
Los fragmentos doblemente indexados pueden someterse a condiciones que seleccionan un intervalo de tamaño predeterminado, como de 150 a 400 nucleótidos de longitud, como de 150 a 300 nucleótidos. Los fragmentos doblemente indexados resultantes se agrupan y, opcionalmente, se pueden someter a un proceso de purificación para mejorar la pureza de las moléculas de ADN, eliminando al menos una parte de los adaptadores o cebadores universales no incorporados. Puede usarse cualquier procedimiento de purificación adecuado, tal como electroforesis, cromatografía de exclusión por tamaño o similares. En algunas realizaciones, se pueden emplear perlas paramagnéticas de inmovilización reversible en fase sólida para separar las moléculas de ADN deseadas de los adaptadores o cebadores universales no fijados, y para seleccionar ácidos nucleicos basándose en el tamaño. Las perlas paramagnéticas de inmovilización reversible en fase sólida están disponibles comercialmente en Beckman Coulter (Agencourt AMPure XP), Thermofisher (MagJet), Omega Biotek (Mag-Bind), Promega Beads (Promega) y Kapa Biosystems (Kapa Pure Beads).
La pluralidad de fragmentos doblemente indexados se puede preparar para secuenciar. Una vez agrupados los fragmentos doblemente indexados, se enriquecen, normalmente mediante inmovilización y/o amplificación, antes de la secuenciación (Fig. 1, bloque 18; Fig. 34, bloque 21). Se conocen en la técnica métodos para fijar fragmentos doblemente indexados procedentes de una o varias fuentes, a un sustrato. En una realización, los fragmentos doblemente indexados se enriquecen usando una pluralidad de oligonucleótidos de captura que tienen especificidad hacia los fragmentos doblemente indexados, y los oligonucleótidos de captura se pueden inmovilizar sobre una superficie de un sustrato sólido. Por ejemplo, los oligonucleótidos de captura pueden incluir un primer miembro de una pareja de unión universal, y en donde un segundo miembro de la pareja de unión está inmovilizado sobre una superficie de un sustrato sólido. Asimismo, los métodos para amplificar fragmentos doblemente indexados inmovilizados incluyen, pero no se limitan a, amplificación en puente y exclusión cinética. Los métodos para inmovilizar y amplificar antes de la secuenciación se describen, por ejemplo, en Bignell et al. (documento US 8.053.192), Gunderson et al. (documento WO2016/130704), Shen et al. (documento US 8.895.249) y Pipenburg et al. (documento US 9.309.502).
Se puede inmovilizar una muestra agrupada como preparación para la secuenciación. La secuenciación se puede realizar como una matriz de moléculas individuales o se puede amplificar antes de la secuenciación. La amplificación se puede llevar a cabo utilizando uno o varios cebadores inmovilizados. El o los cebadores inmovilizados pueden ser, por ejemplo, una tela de algodón sobre una superficie plana o un conjunto de perlas. El conjunto de perlas se puede aislar en una emulsión con una sola perla en cada "compartimento" de la emulsión. Con una concentración de solo un molde por cada "compartimento", solo se amplifica un único molde sobre cada perla.
La expresión "amplificación en fase sólida" tal y como se usa en este documento se refiere a cualquier reacción de amplificación de ácido nucleico llevada a cabo sobre o en asociación con un soporte sólido, de manera que todos o una porción de los productos amplificados se inmovilizan sobre el soporte sólido a medida que se forman. En particular, la expresión incluye la reacción en cadena de la polimerasa en fase sólida (PCR en fase sólida) y la amplificación isotérmica en fase sólida, que son reacciones análogas a la amplificación en fase de solución estándar, excepto que uno o ambos cebadores directos e inversos de la amplificación están inmovilizados sobre el soporte sólido. La PCR en fase sólida abarca sistemas como las emulsiones, en donde un cebador está anclado a una perla y el otro está en solución libre, y la formación de colonias en matrices en gel de fase sólida, en donde un cebador está anclado a la superficie y el otro en solución libre.
En algunas realizaciones, el soporte sólido comprende una superficie con patrón. Una "superficie con patrón" se refiere a una disposición de diferentes regiones en o sobre una capa expuesta de un soporte sólido. Por ejemplo, una o varias de las regiones pueden ser características en las que están presentes uno o varios cebadores de la amplificación. Las características pueden estar separadas por regiones intersticiales en donde no están presentes cebadores de la amplificación. En algunas realizaciones, el patrón puede tener un formato x-y de características que están en filas y columnas. En algunas realizaciones, el patrón puede ser una disposición que se repite de características y/o regiones intersticiales. En algunas realizaciones, el patrón puede ser una disposición aleatoria de características y/o regiones intersticiales. Superficies con patrón ejemplares que se pueden usar en los métodos y composiciones establecidos en este documento, se describen en los documentos de patente de EE.UU. n° 8.778.848, 8.778.849 y 9.079.148, y la publicación de patente de EE.UU. n° 2014/0243224.
En algunas realizaciones, el soporte sólido incluye una serie de pocillos o depresiones en una superficie. Esto se puede producir como se conoce generalmente en la técnica, usando una variedad de técnicas, que incluyen, pero no se limitan a, fotolitografía, técnicas de estampación, técnicas de moldeo y técnicas de micrograbado. Como apreciarán los expertos en la técnica, la técnica utilizada dependerá de la composición y la forma del sustrato de la matriz.
Las características en una superficie con patrón pueden ser pocillos en una matriz de pocillos (por ejemplo, micropocillos o nanopocillos) sobre vidrio, silicio, plástico u otros soportes sólidos adecuados con un gel con patrón, unido covalentemente, tal como poli(N-(5-azidoacetamidilpentil)acrilamida-coacrilamida) (PAZAM, véanse, por ejemplo, los documentos de publicación de EE.UU. n° 2013/184796, WO 2016/066586 y WO 2015/002813). El procedimiento crea almohadillas de gel que se utilizan para la secuenciación que pueden ser estables en los ciclos de secuenciación con una gran cantidad de ciclos. La unión covalente del polímero a los pocillos es útil para mantener el gel en las características estructuradas a lo largo de la vida útil del sustrato estructurado, durante una variedad de usos. Sin embargo, en muchas realizaciones, no es necesario que el gel esté unido covalentemente a los pocillos. Por ejemplo, en algunas condiciones, acrilamida sin silano (SFA, véase, por ejemplo, el documento de patente de EE.UU. n° 8.563.477) que no está unida covalentemente a ninguna parte del sustrato estructurado, se puede utilizar como material del gel.
En realizaciones particulares, se puede preparar un sustrato estructurado diseñando un material de soporte sólido con pocillos (por ejemplo, micropocillos o nanopocillos), recubriendo el soporte con patrón con un material de gel (por ejemplo, PAZAm , SFA o variantes modificadas químicamente de los mismos, como la versión azidolizada de SFA (azido-SFA)) y puliendo el soporte recubierto de gel, por ejemplo, mediante un pulido químico o mecánico, conservando así el gel en los pocillos pero eliminando o inactivando sustancialmente todo el gel de las regiones intersticiales en la superficie del sustrato estructurado entre los pocillos. Los ácidos nucleicos cebadores se pueden fijar al material del gel. A continuación, se puede poner en contacto una solución de fragmentos doblemente indexados con el sustrato pulido, de manera que los fragmentos individuales doblemente indexados se sembrarán en pocillos individuales mediante interacciones con cebadores fijados al material del gel; sin embargo, los ácidos nucleicos diana no ocuparán las regiones intersticiales debido a la ausencia o inactividad del material del gel. La amplificación de los fragmentos doblemente indexados se limitará a los pocillos, ya que la ausencia o inactividad del gel en las regiones intersticiales evita una migración hacia el exterior de la colonia de ácidos nucleicos en crecimiento. El procedimiento se puede producir convenientemente, pudiéndose expandir y utilizar métodos convencionales de micro o nanofabricación.
Aunque la descripción incluye métodos de amplificación en "fase sólida" en los que solo se inmoviliza un cebador de la amplificación (el otro cebador suele estar presente en solución libre), en una realización se prefiere que el soporte sólido se proporcione tanto con los cebadores directos como inversos inmovilizados. En la práctica, habrá una "pluralidad" de cebadores directos idénticos y/o una "pluralidad" de cebadores inversos idénticos, inmovilizados sobre el soporte sólido, ya que el proceso de amplificación requiere un exceso de cebadores para mantener la amplificación. Las referencias en el presente documento a cebadores directos e inversos deben interpretarse en consecuencia como que incluyen una "pluralidad" de dichos cebadores, a menos que el contexto indique lo contrario.
Como apreciará el lector experto, cualquier reacción de amplificación dada requiere al menos un tipo de cebador directo y al menos un tipo de cebador inverso, específicos para el molde que se va a amplificar. Sin embargo, en ciertas realizaciones, los cebadores directos e inversos pueden incluir porciones específicas del molde con una secuencia idéntica, y pueden tener una secuencia y estructura de nucleótidos completamente idéntica (incluyendo cualquier modificación que no sea de nucleótidos). En otras palabras, es posible llevar a cabo una amplificación en fase sólida usando solo un tipo de cebador, y tales métodos de cebador único están incluidos dentro del alcance de la descripción. Otras realizaciones pueden usar cebadores directos e inversos que contienen secuencias específicas de un molde idénticas, pero que difieren en algunas otras características estructurales. Por ejemplo, un tipo de cebador puede contener una modificación no nucleotídica que no está presente en el otro.
En todas las realizaciones de la descripción, los cebadores para la amplificación en fase sólida se inmovilizan preferiblemente mediante una fijación covalente de un solo punto sobre el soporte sólido, en o cerca del extremo 5’ del cebador, dejando la porción específica del molde del cebador libre para asociarse con su molde afín y el grupo hidroxilo 3’ libre para la extensión del cebador. Cualquier medio de fijación covalente adecuado conocido en la técnica puede usarse para este fin. La química de fijación elegida dependerá de la naturaleza del soporte sólido y de cualquier derivatización o funcionalización que se le aplique. El cebador en sí mismo puede incluir un resto, que puede ser una modificación química no nucleotídica, para facilitar la fijación. En una realización particular, el cebador puede incluir un nucleófilo que contiene azufre, tal como fosforotioato o tiofosfato, en el extremo 5’. En el caso de hidrogeles de poliacrilamida con soporte sólido, ese nucleófilo se unirá a un grupo bromoacetamida presente en el hidrogel. Un medio más particular de fijar cebadores y moldes a un soporte sólido es mediante la unión de fosforotioato 5’ a un hidrogel compuesto de acrilamida polimerizada y N-(5-bromoacetamidilpentil)acrilamida (BRAPA), como se describe en el documento WO 05/065814.
Ciertas realizaciones de la descripción pueden hacer uso de soportes sólidos que incluyen un sustrato o matriz inerte (por ejemplo, portaobjetos de vidrio, perlas de polímero, etc.) que se ha "funcionalizado", por ejemplo, mediante la aplicación de una capa o revestimiento de un material intermedio que incluye grupos reactivos que permiten la fijación covalente a biomoléculas, como polinucleótidos. Ejemplos de tales soportes incluyen, pero no se limitan a, hidrogeles de poliacrilamida sostenidos sobre un sustrato inerte tal como vidrio. En tales realizaciones, las biomoléculas (por ejemplo, polinucleótidos) se pueden fijar covalentemente de forma directa al material intermedio (por ejemplo, el hidrogel), pero el material intermedio en sí mismo puede estar fijado de forma no covalente al sustrato o la matriz (por ejemplo, el sustrato de vidrio). La expresión " fijación covalente a un soporte sólido" debe interpretarse en consecuencia como que incluye ese tipo de disposición.
Las muestras reunidas se pueden amplificar sobre perlas en donde cada perla contiene un cebador directo e inverso de la amplificación. En una realización particular, la colección de fragmentos doblemente indexados se usa para preparar matrices agrupadas de colonias de ácido nucleico, análogas a las descritas en los documentos de publicación de EE.UU. n22005/0100900, solicitud de patente de EE.UU. n27.115.400, WO 00/18957 y WO 98/44151 mediante amplificación en fase sólida y más particularmente amplificación isotérmica en fase sólida. Los términos "agrupación" y "colonia" se utilizan indistintamente en el presente documento para hacer referencia a un sitio discreto sobre un soporte sólido que incluye una pluralidad de hebras de ácido nucleico inmovilizadas, idénticas y una pluralidad de hebras de ácido nucleico complementarias inmovilizadas, idénticas. La expresión "matriz agrupada" se refiere a una matriz formada a partir de tales agrupaciones o colonias. En este contexto, no debe entenderse que el término "matriz" requiera una disposición ordenada de las agrupaciones.
La expresión "fase sólida" o "superficie" se entiende que significa una matriz plana en la que los cebadores están fijados a una superficie plana, por ejemplo, portaobjetos de microscopio de vidrio, sílice o plástico o dispositivos de celda de flujo similares; perlas, en donde uno o dos cebadores se fijan a las perlas y las perlas se amplifican; o una matriz de perlas sobre una superficie después de que las perlas se hayan amplificado.
Las matrices agrupadas se pueden preparar mediante un procedimiento de termociclado, como se describe en el documento WO 98/44151, o un procedimiento mediante el cual la temperatura se mantiene constante, y los ciclos de extensión y desnaturalización se realizan mediante cambios de reactivos. Esos métodos de amplificación isotérmica se describen en los documentos de publicación de solicitud de patente n° WO 02/46456 y de publicación de EE.UU. n° 2008/0009420. Debido a las temperaturas más bajas útiles en el proceso isotérmico, esto es particularmente preferido en algunas realizaciones.
Se apreciará que cualquiera de las metodologías de amplificación descritas en este documento o generalmente conocidas en la técnica, puede usarse con cebadores universales o específicos de la diana para amplificar fragmentos de ADN inmovilizados. Los métodos adecuados para la amplificación incluyen, entre otros, la reacción en cadena de la polimerasa (PCR), la amplificación por desplazamiento de cadena (SDA), la amplificación mediada por transcripción (TMA) y la amplificación basada en la secuencia de ácidos nucleicos (NASBA), como se describe en el documento de patente de EE.UU. n° 8.003.354. Los métodos de amplificación anteriores se pueden emplear para amplificar uno o varios ácidos nucleicos de interés. Por ejemplo, se puede utilizar PCR, que incluye PCR múltiple, SDA, TMA, NASBA y similares para amplificar fragmentos de ADN inmovilizados. En algunas realizaciones, los cebadores dirigidos específicamente al polinucleótido de interés se incluyen en la reacción de amplificación.
Otros métodos adecuados para la amplificación de polinucleótidos pueden incluir tecnologías de extensión y ligación de oligonucleótidos, amplificación con círculo rodante (RCA) (Lizardi et al., Nat. Genet. 19: 225-232 (1998)) y ensayo de ligación de oligonucleótidos (OLA) (véanse en general los documentos de patente de EE.UU. n° 7.582.420, 5.185.243, 5.679.524 y 5.573.907; EP 0320308 B1; EP 0336731 B1; EP 0439182 B1; WO 90/01069; WO 89/12696; y WO 89/09835). Se apreciará que estas metodologías de amplificación pueden diseñarse para amplificar fragmentos de ADN inmovilizados. Por ejemplo, en algunas realizaciones, el método de amplificación puede incluir reacciones de amplificación con sonda de ligación o de ensayo de ligación de oligonucleótidos (OLA) que contienen cebadores dirigidos específicamente al ácido nucleico de interés. En algunas realizaciones, el método de amplificación puede incluir una reacción de ligación-extensión de cebadores que contiene cebadores dirigidos específicamente al ácido nucleico de interés. Como ejemplo no limitante de cebadores de extensión y ligación de cebadores que pueden diseñarse específicamente para amplificar un ácido nucleico de interés, la amplificación puede incluir cebadores usados para el ensayo GoldenGate (Illumina, Inc., San Diego, CA) como se ejemplifica por los documentos de patente de EE.UU. n° 7.582.420 y 7.611.869.
Los métodos de amplificación isotérmica ejemplares que pueden usarse en un método de la presente descripción incluyen, pero no se limitan a, amplificación por desplazamiento múltiple (MDA) como se ejemplifica, por ejemplo, Dean et al., Proc. Natl. Acad. Sci. USA 99: 5261-66 (2002) o amplificación de ácido nucleico por desplazamiento de cadena isotérmica, ejemplificada, por ejemplo en el documento de patente de EE.UU. n° 6.214.587. Otros métodos no basados en PCR que pueden usarse en la presente descripción incluyen, por ejemplo, amplificación por desplazamiento de cadena (SDA) que se describe, por ejemplo, en Walker et al., Molecular Methods for Virus Detection, Academic Press, Inc., 1995; documentos de patente de Ee .Uu . n° 5.455.166, y 5.130.238, y Walker et al., Nucl. Acids Res. 20: 1691-96 (1992)) o amplificación por desplazamiento de cadena hiper-ramificada que se describe, por ejemplo, en Lage et al., Genome Res.
13: 294-307 (2003). Pueden usarse métodos de amplificación isotérmica, por ejemplo, con la polimerasa Phi 29 de desplazamiento de cadena o el fragmento grande de la ADN polimerasa Bst, 5’ -> 3' exo- para una amplificación de cebadores aleatorios de ADN genómico. El uso de esas polimerasas aprovecha su alta procesividad y actividad de desplazamiento de cadena. La alta procesividad permite que las polimerasas produzcan fragmentos de 10 a 20 kb de longitud. Como se ha expuesto anteriormente, se pueden producir fragmentos más pequeños en condiciones isotérmicas usando polimerasas que tienen baja procesividad y actividad de desplazamiento de cadena, como la polimerasa Klenow. Una descripción adicional de las reacciones, condiciones y componentes de la amplificación se establece en detalle en la descripción de documento de patente de EE.UU. n° 7.670.810.
Otro método de amplificación de polinucleótidos que es útil en la presente descripción es la PCR etiquetada que usa una población de cebadores con dos dominios que tienen una región 5’ constante seguida de una región 3' aleatoria como se describe, por ejemplo, en Grothues et al. Nucleic Acid Res. 21(5): 1321-2 (1993). Las primeras rondas de amplificación se llevan a cabo para permitir una multitud de iniciaciones sobre ADN desnaturalizado térmicamente, basándose en una hibridación individual de la región 3’ sintetizada aleatoriamente. Debido a la naturaleza de la región 3’, se contempla que los sitios de iniciación sean aleatorios en todo el genoma. A partir de entonces, los cebadores no unidos pueden eliminarse y puede tener lugar una replicación adicional utilizando cebadores complementarios a la región 5’ constante.
En algunas realizaciones, la amplificación isotérmica se puede realizar usando una amplificación por exclusión cinética (KEA), también denominada amplificación por exclusión (ExAmp). Se puede preparar una colección de ácidos nucleicos de la presente descripción usando un método que incluye una etapa de hacer reaccionar un reactivo de amplificación para producir una pluralidad de sitios de amplificación, en donde cada uno incluye una población sustancialmente clonal de amplicones de un ácido nucleico diana individual que se ha sembrado en el sitio. En algunas realizaciones, la reacción de amplificación continúa hasta que se genera un número suficiente de amplicones para llenar por completo el sitio de amplificación respectivo. Llenar por completo un sitio ya sembrado de esta manera inhibe que los ácidos nucleicos diana lleguen y amplifiquen el sitio, produciendo así una población clonal de amplicones en el sitio. En algunas realizaciones, se puede lograr una clonalidad aparente incluso si un sitio de amplificación no está lleno por completo antes de que llegue un segundo ácido nucleico diana al sitio. En algunas condiciones, la amplificación de un primer ácido nucleico diana puede llevarse a cabo hasta un punto en el que se realice un número suficiente de copias para competir eficazmente o superar la producción de copias de un segundo ácido nucleico diana que es transportado al sitio. Por ejemplo, en una realización que usa un procedimiento de amplificación puente sobre una característica circular que es menor de 500 nm de diámetro, se ha determinado que después de 14 ciclos de amplificación exponencial para un primer ácido nucleico diana, una contaminación con un segundo ácido nucleico diana en el mismo sitio producirá un número insuficiente de amplicones contaminantes como para afectar negativamente al análisis de secuenciación por síntesis en una plataforma de secuenciación de Illumina.
En algunas realizaciones, los sitios de amplificación en una matriz pueden ser, pero no tienen que ser, completamente clonales. Más bien, para algunas aplicaciones, un sitio de amplificación individual puede estar poblado predominantemente por amplicones de un primer fragmento doblemente indexado y también puede tener un nivel bajo de amplicones contaminantes procedentes de un segundo ácido nucleico diana. Una matriz puede tener uno o varios sitios de amplificación que tengan un nivel bajo de amplicones contaminantes siempre que el nivel de contaminación no tenga un impacto inaceptable en un uso posterior de la matriz. Por ejemplo, cuando la matriz se va a utilizar en una aplicación de detección, un nivel aceptable de contaminación sería un nivel que no afecta a la señal del ruido o a la resolución de la técnica de detección de una manera inaceptable. Por consiguiente, la clonalidad aparente será generalmente relevante para un uso o aplicación particular de una matriz producida mediante los métodos expuestos en este documento. Los niveles de contaminación ejemplares que pueden ser aceptables en un sitio de amplificación individual para aplicaciones particulares incluyen, pero no se limitan a, como máximo 0,1%, 0,5%, 1%, 5%, 10% o 25% de amplicones contaminantes. Una matriz puede incluir uno o varios sitios de amplificación que tengan esos niveles ejemplares de amplicones contaminantes. Por ejemplo, hasta el 5%, 10%, 25%, 50%, 75% o incluso 100% de los sitios de amplificación en una matriz pueden tener algunos amplicones contaminantes. Se entenderá que en una matriz u otra colección de sitios, al menos el 50%, 75%, 80%, 85%, 90%, 95% o 99% o más de los sitios pueden ser clonales o aparentemente clonales.
En algunas realizaciones, la exclusión cinética puede ocurrir cuando un procedimiento ocurre a una tasa suficientemente rápida para excluir de manera efectiva que ocurra otro evento o procedimiento. Tomemos, por ejemplo, la creación de una matriz de ácido nucleico en donde los sitios de la matriz se siembran aleatoriamente con fragmentos doblemente indexados de una solución y se generan copias de los fragmentos doblemente indexados en un procedimiento de amplificación para llenar por completo cada uno de los sitios sembrados. De acuerdo con los métodos de exclusión cinética de la presente descripción, los procedimientos de siembra y amplificación pueden proceder simultáneamente en condiciones en las que la tasa de amplificación excede la tasa de siembra. Como tal, la tasa relativamente rápida a la que se hacen las copias en un sitio que ha sido sembrado por un primer ácido nucleico diana, excluirá eficazmente que un segundo ácido nucleico siembre el sitio para una amplificación. Los métodos de amplificación por exclusión cinética se pueden realizar tal y como se describe en detalle en la descripción de publicación de solicitud de EE.UU. n° 2013/0338042.
La exclusión cinética puede aprovechar una tasa relativamente lenta para iniciar la amplificación (por ejemplo, una tasa lenta para hacer una primera copia de un fragmento doblemente indexado) frente a una tasa relativamente rápida para hacer copias posteriores del fragmento doblemente indexado (o de la primera copia del fragmento doblemente indexado). En el ejemplo del párrafo anterior, la exclusión cinética se produce debido a la tasa relativamente lenta de siembra de fragmentos doblemente indexados (por ejemplo, difusión o transporte relativamente lentos) frente a la tasa relativamente rápida a la que se produce la amplificación para llenar el sitio con copias de la semilla de fragmentos doblemente indexados. En otra realización ejemplar, la exclusión cinética puede ocurrir debido a un retraso en la formación de una primera copia de un fragmento doblemente indexado que se ha sembrado en un sitio (por ejemplo, activación retardada o lenta) frente a la tasa relativamente rápida a la que se realizan las copias posteriores para llenar el sitio. En este ejemplo, un sitio individual puede haberse sembrado con varios fragmentos doblemente indexados diferentes (por ejemplo, varios fragmentos doblemente indexados pueden estar presentes en cada sitio antes de la amplificación). Sin embargo, la formación de la primera copia para cualquier fragmento doblemente indexado dado, se puede activar aleatoriamente de modo que la tasa media de formación de la primera copia sea relativamente lenta en comparación con la tasa a la que se generan las copias posteriores. En ese caso, aunque un sitio individual puede haberse sembrado con varios fragmentos doblemente indexados diferentes, la exclusión cinética permitirá que solo se amplifique uno de esos fragmentos doblemente indexados. Más específicamente, una vez que se ha activado un primer fragmento doblemente indexado para la amplificación, el sitio se llenará rápidamente por completo con sus copias, evitando así que se hagan copias de un segundo fragmento doblemente indexado en el sitio.
En una realización, el método se lleva a cabo para transportar (i) simultáneamente fragmentos doblemente indexados a los sitios de amplificación con una tasa de transporte promedio, y (ii) amplificar los fragmentos doblemente indexados que están en los sitios de amplificación con una tasa de amplificación promedio, en donde la tasa de amplificación promedio excede a la tasa de transporte promedio (documento de patente de EE.UU. n° 9.169.513). Por consiguiente, la exclusión cinética se puede lograr en tales realizaciones usando una tasa de transporte relativamente lenta. Por ejemplo, se puede seleccionar una concentración suficientemente baja de fragmentos doblemente indexados para lograr una tasa de transporte promedio deseada, dando como resultado concentraciones más bajas en tasas de transporte promedio más lentas. Alternativa o adicionalmente, se puede usar una solución de viscosidad elevada y/o la presencia de reactivos de aglomeración molecular en la solución para reducir las tasas de transporte. Ejemplos de reactivos de agrupamiento molecular útiles incluyen, pero no se limitan a, polietilenglicol (PEG), ficol, dextrano o poli(alcohol vinílico). Reactivos y formulaciones de aglomeración molecular ejemplares se exponen en documento de patente de EE.UU. n° 7.399.590. Otro factor que se puede ajustar para lograr una tasa de transporte deseada, es el tamaño promedio de los ácidos nucleicos diana.
Un reactivo de amplificación puede incluir componentes adicionales que faciliten la formación de amplicones y, en algunos casos, aumenten la tasa de formación de amplicones. Un ejemplo es una recombinasa. La recombinasa puede facilitar la formación de amplicones al permitir una invasión/extensión repetidas. Más específicamente, la recombinasa puede facilitar la invasión de un fragmento doblemente indexado por la polimerasa y la extensión de un cebador con la polimerasa utilizando el fragmento doblemente indexado como molde para la formación de amplicones. Este procedimiento se puede repetir como una reacción en cadena en la que los amplicones producidos en cada ronda de invasión/extensión sirven como moldes en una ronda posterior. El procedimiento puede ocurrir más rápidamente que una PCR estándar ya que no se requiere un ciclo de desnaturalización (por ejemplo, mediante calentamiento o desnaturalización química). Como tal, la amplificación facilitada por una recombinasa se puede llevar a cabo de forma isotérmica. Generalmente es deseable incluir ATP u otros nucleótidos (o en algunos casos análogos no hidrolizables de los mismos) en un reactivo de amplificación facilitado por una recombinasa, para facilitar la amplificación. Una mezcla de recombinasa y proteína de unión monocatenaria (SSB) es particularmente útil ya que la SSB puede facilitar aún más la amplificación. Las formulaciones ejemplares para una amplificación facilitada por recombinasa incluyen las vendidas comercialmente como kits TwistAmp por TwistDx (Cambridge, Reino Unido). Los componentes útiles del reactivo de amplificación facilitado por recombinasa y las condiciones de reacción se establecen en los documentos de patente de EE.UU. n25.223.414 y 7.399.590.
Otro ejemplo de un componente que puede incluirse en un reactivo de amplificación para facilitar la formación de amplicones y en algunos casos para aumentar la tasa de formación de amplicones, es una helicasa. La helicasa puede facilitar la formación de amplicones al permitir una reacción en cadena de formación de amplicones. El procedimiento puede ocurrir más rápidamente que la PCR estándar ya que no se requiere un ciclo de desnaturalización (por ejemplo, mediante calentamiento o desnaturalización química). Como tal, la amplificación facilitada por una helicasa se puede llevar a cabo de forma isotérmica. Una mezcla de helicasa y proteína de unión monocatenaria (SSB) es particularmente útil ya que la SSB puede facilitar aún más la amplificación. Las formulaciones ejemplares para la amplificación facilitada por helicasa incluyen las que se venden comercialmente como kits IsoAmp de Biohelix (Beverly, MA). Además, se describen ejemplos de formulaciones útiles que incluyen una proteína helicasa en los documentos de patente de EE.UU. n27.399.590 y US 7.829.284.
Otro ejemplo más de un componente que puede incluirse en un reactivo de amplificación para facilitar la formación de amplicones y, en algunos casos, aumentar la tasa de formación de amplicones, es una proteína de unión en el origen.
Después de la fijación de fragmentos doblemente indexados sobre una superficie, se determina la secuencia de los fragmentos doblemente indexados inmovilizados y amplificados. La secuenciación se puede llevar a cabo usando cualquier técnica de secuenciación adecuada, y los métodos para determinar la secuencia de fragmentos doblemente indexados inmovilizados y amplificados, incluida la resíntesis de una cadena, son conocidos en la técnica y se describen, por ejemplo, en Bignell et al. (documento US 8.053.192), Gunderson et al. (documento WO2016/130704), Shen et al. (documento US 8.895.249) y Pipenburg et al. (documento US 9.309.502).
Los métodos descritos en el presente documento se pueden usar junto con una variedad de técnicas de secuenciación de ácidos nucleicos. Las técnicas particularmente aplicables son aquellas en las que los ácidos nucleicos se fijan en ubicaciones fijas en una matriz, de modo que sus posiciones relativas no cambian y en donde se forman imágenes repetidamente de la matriz. Son particularmente aplicables las realizaciones en las que se obtienen imágenes en diferentes canales de color, por ejemplo, coincidiendo con diferentes etiquetas utilizadas para distinguir un tipo de base de nucleótidos de otro. En algunas realizaciones, el procedimiento para determinar la secuencia de nucleótidos de un fragmento doblemente indexado puede ser un procedimiento automatizado. Las realizaciones preferidas incluyen técnicas de secuenciación por síntesis ("SBS").
Las técnicas de SBS generalmente implican la extensión enzimática de una hebra de ácido nucleico naciente mediante la adición iterativa de nucleótidos frente a una hebra molde. En los métodos tradicionales de SBS, se puede proporcionar un monómero de un solo nucleótido para un nucleótido diana en presencia de una polimerasa en cada entrega. Sin embargo, en los métodos descritos en el presente documento, se puede proporcionar más de un tipo de monómero nucleotídico a un ácido nucleico diana en presencia de una polimerasa en una entrega.
En una realización, un monómero de nucleótidos incluye ácidos nucleicos bloqueados (LNAs) o ácidos nucleicos con puente (BNAs). El uso de LNAs o BNAs en un monómero de nucleótidos aumenta la fuerza de hibridación entre un monómero de nucleótidos y una secuencia de cebador de secuenciación presente en un fragmento doblemente indexado inmovilizado.
La SBS puede usar monómeros de nucleótidos que tienen un resto terminador o aquellos que carecen de restos terminadores. Los métodos que utilizan monómeros de nucleótidos que carecen de terminadores incluyen, por ejemplo, la pirosecuenciación y la secuenciación que utiliza nucleótidos marcados con Y-fosfato, como se expone con más detalle en el presente documento. En los métodos que utilizan monómeros de nucleótidos que carecen de terminadores, el número de nucleótidos añadidos en cada ciclo es generalmente variable y depende de la secuencia del molde y del modo de entrega de los nucleótidos. Para las técnicas de SBS que utilizan monómeros de nucleótidos que tienen un resto terminador, el terminador puede ser efectivamente irreversible en las condiciones de secuenciación utilizadas, como es el caso de la secuenciación tradicional de Sanger que utiliza didesoxinucleótidos, o el terminador puede ser reversible, como es el caso de los métodos de secuenciación desarrollados por Solexa (ahora Illumina, Inc.).
Las técnicas de SBS pueden usar monómeros de nucleótidos que tienen un resto marcador o aquellos que carecen de un resto marcador. Por consiguiente, los eventos de incorporación pueden detectarse basándose en una característica del marcador, como la fluorescencia del marcador; una característica del monómero nucleotídico, como el peso molecular o la carga; un subproducto de la incorporación del nucleótido, como la liberación de pirofosfato; o similares. En realizaciones en las que dos o más nucleótidos diferentes están presentes en un reactivo de secuenciación, los diferentes nucleótidos pueden distinguirse entre sí o, alternativamente, los dos o más marcadores diferentes pueden ser indistinguibles, según las técnicas de detección que se utilizan. Por ejemplo, los diferentes nucleótidos presentes en un reactivo de secuenciación pueden tener diferentes marcadores y se pueden distinguir usando ópticas apropiadas, tal y como se ejemplifica mediante los métodos de secuenciación desarrollados por Solexa (ahora Illumina, Inc.).
Las realizaciones preferidas incluyen técnicas de pirosecuenciación. La pirosecuenciación detecta la liberación de pirofosfato inorgánico (PPi) a medida que se incorporan nucleótidos particulares en la hebra naciente (Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. y Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release" Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing" Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M. y Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate" Science 281 (5375), 363; documentos de patente de Ee .UU. n° 6.210.891; 6.258.568 y 6.274.320). En la pirosecuenciación, el PPi liberado puede detectarse convirtiéndolo inmediatamente en trifosfato de adenosina (ATP) por la ATP sulfurasa, y el nivel de ATP generado se detecta mediante fotones producidos por luciferasa. Los ácidos nucleicos que se van a secuenciar se pueden fijar a características en una matriz y se pueden obtener imágenes de la matriz para capturar las señales quimioluminiscentes que se producen debido a la incorporación de nucleótidos en las características de la matriz. Se puede obtener una imagen después de que la matriz se trata con un tipo de nucleótido particular (por ejemplo, A, T, C o G). Las imágenes obtenidas después de la adición de cada tipo de nucleótido diferirán con respecto a qué características de la matriz se detectan. Esas diferencias en la imagen reflejan el contenido de una secuencia diferente de las características sobre la matriz. Sin embargo, las ubicaciones relativas de cada característica permanecerán sin cambios en las imágenes. Las imágenes pueden almacenarse, procesarse y analizarse utilizando los métodos establecidos en este documento. Por ejemplo, las imágenes obtenidas después del tratamiento de la matriz con cada tipo de nucleótido diferente, se pueden manejar de la misma manera que como se ejemplifica en el presente documento para las imágenes obtenidas a partir de diferentes canales de detección para los métodos de secuenciación basados en terminadores reversibles.
En otro tipo ejemplar de SBS, la secuenciación del ciclo se logra mediante la adición escalonada de nucleótidos terminadores reversibles que contienen, por ejemplo, un marcador a base de un colorante escindible o fotoblanqueable, como se describe, por ejemplo, en el documento WO 04/018497 y el documento de patente de EE.UU. n° 7.057.026. Este enfoque está siendo comercializado por Solexa (ahora Illumina Inc.), y también se describe en los documentos WO 91/06678 y WO 07/123.744. La disponibilidad de terminadores marcados con fluorescencia en los que tanto la terminación puede invertirse como escindir el marcador fluorescente, facilita la secuenciación de terminación cíclica reversible (CRT) eficiente. Las polimerasas también pueden diseñarse conjuntamente para incorporarlas y extenderlas eficazmente a partir de estos nucleótidos modificados.
En algunas realizaciones de secuenciación basadas en terminadores reversibles, los marcadores no inhiben sustancialmente la extensión en las condiciones de reacción de SBS. Sin embargo, los marcadores de detección pueden eliminarse, por ejemplo, mediante escisión o degradación. Las imágenes pueden capturarse tras la incorporación de marcadores en características de ácidos nucleicos en la matriz. En realizaciones particulares, cada ciclo implica la entrega simultánea de cuatro tipos de nucleótidos diferentes a la matriz y cada tipo de nucleótido tiene un marcador espectralmente distinto. A continuación, se pueden obtener cuatro imágenes, cada una de las cuales utiliza un canal de detección que es selectivo para uno de los cuatro marcadores diferentes. Alternativamente, se pueden añadir secuencialmente diferentes tipos de nucleótidos y se puede obtener una imagen de la matriz entre cada etapa de adición. En tales realizaciones, cada imagen mostrará características de ácidos nucleicos que han incorporado nucleótidos de un tipo particular. Diferentes características estarán presentes o ausentes en las diferentes imágenes, debido al diferente contenido en secuencia de cada característica. Sin embargo, la posición relativa de las características permanecerá sin cambios en las imágenes. Las imágenes obtenidas a partir de esos métodos de terminación reversible-SBS, pueden almacenarse, procesarse y analizarse como se establece en el presente documento. Después de la etapa de captura de imágenes, los marcadores se pueden eliminar y los restos terminadores reversibles se pueden eliminar para los ciclos posteriores de adición y detección de nucleótidos. La eliminación de los marcadores después de que se hayan detectado en un ciclo particular y antes de un ciclo posterior, puede proporcionar la ventaja de reducir la señal de fondo y la diafonía entre los ciclos. En este documento se exponen ejemplos de marcadores útiles y de métodos de eliminación.
En realizaciones particulares, algunos o todos los monómeros de nucleótidos pueden incluir terminadores reversibles. En tales realizaciones, los terminadores reversibles/fluoróforos escindibles pueden incluir fluoróforos unidos al resto ribosa a través de un enlace éster 3’ (Metzker, Genome Res. 15: 1767-1776 (2005)). Otros enfoques han separado la química del terminador de la escisión del marcador de fluorescencia (Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7 (2005)). Ruparel et al. han descrito el desarrollo de terminadores reversibles que usaban un pequeño grupo alilo en 3’ para bloquear la extensión, pero que podían desbloquearse fácilmente mediante un tratamiento corto con un catalizador de paladio. El fluoróforo se fijaba a la base mediante un enlazador fotoescindible que podía escindirse fácilmente mediante una exposición de 30 segundos a luz UV de longitud de onda larga. Por tanto, se puede utilizar la reducción con disulfuro o la fotoescisión como enlazador escindible. Otro enfoque para la terminación reversible es el uso de una terminación natural que se produce después de la colocación de un colorante voluminoso en un dNTP. La presencia de un colorante voluminoso cargado en el dNTP, puede actuar como un terminador eficaz a través de un impedimento estérico y/o electrostático. La presencia de un evento de incorporación evita otras incorporaciones, a menos que se elimine el colorante. La escisión del colorante elimina el fluoróforo e invierte eficazmente la terminación. También se describen ejemplos de nucleótidos modificados en los documentos de patente de EE.UU. n° 7.427.673 y 7.057.026.
Los sistemas y métodos de SBS ejemplares adicionales que se pueden utilizar con los métodos y sistemas descritos en este documento, se describen en los documentos publicación de patente de EE.UU. n° 2007/0166705, 2006/0188901,2006/0240439, 2006/0281109, 2012/0270305 y 2013/0260372, los documentos de patente de EE.UU. n° 7.057.026, publicación PCT n° WO 05/065814, publicación de solicitud de patente de EE.UU. n° 2005/0100900 y publicaciones PCT n2 WO 06/064199 y WO 07/010.251.
Algunas realizaciones pueden usar la detección de cuatro nucleótidos diferentes usando menos de cuatro marcadores diferentes. Por ejemplo, la SBS se puede realizar usando métodos y sistemas descritos en los materiales incorporados de documento de patente de EE.UU. n° 2013/0079232. Como primer ejemplo, se puede detectar un par de tipos de nucleótidos en la misma longitud de onda, pero distinguirlos en función de la diferencia de intensidad de un miembro del par en comparación con el otro, o en función de un cambio en un miembro del par (p. ej., mediante modificación química, modificación fotoquímica o modificación física) lo que hace que la señal aparente aparezca o desaparezca en comparación con la señal detectada para el otro miembro del par. Como segundo ejemplo, se pueden detectar tres de los cuatro tipos de nucleótidos diferentes en condiciones particulares, mientras que un cuarto tipo de nucleótido carece de un marcador que sea detectable en esas condiciones, o se detecta mínimamente en esas condiciones (p. ej., detección mínima debido a la fluorescencia de fondo, etc.). Una incorporación de los primeros tres tipos de nucleótidos en un ácido nucleico se puede determinar basándose en la presencia de sus respectivas señales y la incorporación del cuarto tipo de nucleótido en el ácido nucleico se puede determinar basándose en la ausencia o detección mínima de cualquier señal. Como tercer ejemplo, un tipo de nucleótido puede incluir marcador(es) que se detectan en dos canales diferentes, mientras que otros tipos de nucleótidos se detectan en no más de uno de los canales. Las tres configuraciones ejemplares mencionadas anteriormente no se consideran mutuamente excluyentes y pueden usarse en varias combinaciones. Una realización ejemplar que combina los tres ejemplos es un método de SBS basado en la fluorescencia que utiliza un primer tipo de nucleótido que se detecta en un primer canal (por ejemplo, dATP que tiene un marcador que se detecta en el primer canal cuando se excita con una primera longitud de onda de excitación), un segundo tipo de nucleótido que se detecta en un segundo canal (por ejemplo, dCTP que tiene un marcador que se detecta en el segundo canal cuando es excitado por una segunda longitud de onda de excitación), un tercer tipo de nucleótido que se detecta tanto en el primer como en el segundo canal (por ejemplo, dTTP que tiene al menos un marcador que se detecta en ambos canales cuando se excita con la primera y/o la segunda longitud de onda de excitación) y un cuarto tipo de nucleótido que carece de marcador y que no se detecta, o solo mínimamente, en ninguno de los canales (por ejemplo, dGTP que no tiene marcador).
Además, tal y como se describe en los materiales incorporados de documento de patente de EE.UU. n° 2013/0079232, los datos de secuenciación se pueden obtener utilizando un solo canal. En los llamados enfoques de secuenciación de un colorante, el primer tipo de nucleótido se marca pero el marcador se elimina después de que se genera la primera imagen, y el segundo tipo de nucleótido se marca solo después de que se genera una primera imagen. El tercer tipo de nucleótido conserva su marcador tanto en la primera como en la segunda imagen, y el cuarto tipo de nucleótido permanece sin marcar en ambas imágenes.
Algunas realizaciones pueden usar una secuenciación mediante técnicas de ligación. Tales técnicas usan ADN ligasa para incorporar oligonucleótidos e identificar la incorporación de tales oligonucleótidos. Los oligonucleótidos tienen normalmente diferentes marcadores que se correlacionan con la identidad de un nucleótido particular en una secuencia con la que se hibridan los oligonucleótidos. Al igual que con otros métodos de SBS, se pueden obtener imágenes tras el tratamiento de una serie de características de ácidos nucleicos con los reactivos de secuenciación marcados. Cada imagen mostrará características de ácidos nucleicos que han incorporado marcadores de un tipo particular. Diferentes características estarán presentes o ausentes en las diferentes imágenes debido al diferente contenido en secuencia de cada característica, pero la posición relativa de las características permanecerá sin cambios en las imágenes. Las imágenes obtenidas a partir de métodos de secuenciación basados en la ligación, pueden almacenarse, procesarse y analizarse como se establece en el presente documento. Los sistemas y métodos de SBS ejemplares que se pueden utilizar con los métodos y sistemas descritos en este documento, se describen en los documentos de patente de EE.UU. n° 6.969.488, 6.172.218 y 6.306.597.
Algunas realizaciones pueden usar una secuenciación con nanoporos (Deamer, D. W. & Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing" Trends Biotechnol. 18, 147-151 (2000); Deamer, D. y D. Branton, "Characterization of nucleic acids by nanopore analysis", Acc. Chem. Res. 35:817-825 (2002); Li, J., M. Gershow, D. Stein, E. Brandin, y J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003)). En tales realizaciones, el fragmento doblemente indexado pasa a través de un nanoporo. El nanoporo puede ser un poro sintético o una proteína de una membrana biológica, como la a-hemolisina. A medida que el fragmento doblemente indexado pasa a través del nanoporo, cada par de bases se puede identificar midiendo las fluctuaciones en la conductancia eléctrica del poro (documento de patente de EE.UU. n° 7.001.792; Soni, G. V. & Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores" Clin. Chem. 53, 1996-2001 (2007); Healy, K. "Nanopore-based single-molecule DNA analysis" Nanomed. 2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution" J. Am. Chem. Soc. 130, 818-820 (2008)). Los datos obtenidos a partir de la secuenciación de nanoporos se pueden almacenar, procesar y analizar tal y como se establece en este documento. En particular, los datos se pueden tratar como una imagen de acuerdo con el tratamiento ejemplar de imágenes ópticas y otras imágenes que se expone en este documento.
Algunas realizaciones pueden utilizar métodos que implican la monitorización en tiempo real de la actividad de la ADN polimerasa. Las incorporaciones de nucleótidos se pueden detectar a través de interacciones de transferencia de energía por resonancia de fluorescencia (FRET) entre una polimerasa que es portadora de un fluoróforo y nucleótidos marcados con Y-fosfato, tal y como se describe, por ejemplo, en los documentos de patente de EE.UU. n° 7.329.492 y 7.211.414, o las incorporaciones de nucleótidos se pueden detectar con guías de onda de modo cero como se describe, por ejemplo, en el documento de patente de EE.UU. n° 7.315.019, y usando análogos de nucleótidos fluorescentes y polimerasas modificadas como se describe, por ejemplo, en el documento de patente de EE.UU. n° 7.405.281 y la publicación de EE.UU. n° 2008/0108082. La iluminación se puede restringir a un volumen de escala de zeptolitros alrededor de una polimerasa unida a la superficie, de modo que se puede observar la incorporación de nucleótidos marcados con fluorescencia con un fondo bajo (Levene, M. J. et al. "Zero-mode waveguides for singlemolecule analysis at high concentrations" Science 299, 682-686 (2003); Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time" Opt. Lett. 33, 1026-1028 (2008); Korlach, J. et al. "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures" Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)). Las imágenes obtenidas a partir de dichos métodos pueden almacenarse, procesarse y analizarse como se establece en este documento.
Algunas realizaciones de SBS incluyen la detección de un protón liberado tras la incorporación de un nucleótido en un producto de extensión. Por ejemplo, la secuenciación basada en la detección de protones liberados puede utilizar un detector eléctrico y técnicas asociadas que están disponibles comercialmente en Ion Torrent (Guilford, CT, una empresa subsidiaria de Life Technologies) o métodos y sistemas de secuenciación descritos en los documentos de publicación de patente de EE.UU. n22009/0026082; 2009/0127589; 2010/0137143; y 2010/0282617. Los métodos expuestos en este documento para amplificar ácidos nucleicos diana usando exclusión cinética pueden aplicarse fácilmente a sustratos usados para detectar protones. Más específicamente, los métodos establecidos en el presente documento pueden usarse para producir poblaciones clonales de amplicones que se usan para detectar protones.
Los métodos SBS anteriores se pueden llevar a cabo ventajosamente en formatos múltiples, de modo que se manipulan simultáneamente múltiples fragmentos doblemente indexados diferentes. En realizaciones particulares, se pueden tratar diferentes fragmentos doblemente indexados en un recipiente de reacción común o sobre una superficie de un sustrato particular. Esto permite entregar convenientemente reactivos de secuenciación, la eliminación de reactivos que no han reaccionado y la detección de eventos de incorporación de una manera múltiple. En realizaciones que utilizan ácidos nucleicos diana unidos a la superficie, los fragmentos doblemente indexados pueden estar en un formato de matriz. En un formato de matriz, los fragmentos doblemente indexados se pueden unir normalmente a una superficie de una manera espacialmente distinguible. Los fragmentos doblemente indexados pueden unirse mediante unión covalente directa, fijación a una perla u otra partícula o unión a una polimerasa u otra molécula que esté fijada a la superficie. La matriz puede incluir una sola copia de un fragmento doblemente indexado en cada sitio (también denominado característica) o pueden estar presentes múltiples copias que tienen la misma secuencia en cada sitio o característica. Pueden producirse múltiples copias mediante métodos de amplificación tales como amplificación en puente o PCR en emulsión, tal y como se describe con más detalle en este documento.
Los métodos establecidos en este documento pueden usar matrices que tengan características con cualquiera entre una variedad de densidades que incluyen, por ejemplo, al menos aproximadamente 10 características/cm2, 100 características/cm2, 500 características/cm2, 1.000 características/cm2, 5.000 características/cm2, 10.000 características/cm2, 50.000 características/cm2, 100.000 características/cm2, 1.000.000 características/cm2, 5.000.000 características/cm2, o superiores.
Una ventaja de los métodos expuestos en este documento es que proporcionan una detección rápida y eficaz de una pluralidad de cm2, en paralelo. Por consiguiente, la presente descripción proporciona sistemas integrados capaces de preparar y detectar ácidos nucleicos usando técnicas conocidas en la técnica, tales como las ejemplificadas en el presente documento. Por tanto, un sistema integrado de la presente descripción puede incluir componentes fluidos capaces de suministrar reactivos de amplificación y/o reactivos de secuenciación a uno o varios fragmentos doblemente indexados inmovilizados, incluyendo el sistema componentes tales como bombas, válvulas, depósitos, líneas fluidas y similares. Una celda de flujo puede configurarse y/o usarse en un sistema integrado para la detección de ácidos nucleicos diana. Las celdas de flujo ejemplares se describen, por ejemplo, en los documentos de publicación de patente de EE.UU. n° 2010/0111768 y n° de serie de EE.UU. 13/273.666. Como se ejemplifica para las celdas de flujo, uno o varios de los componentes fluidos de un sistema integrado pueden usarse para un método de amplificación y para un método de detección. Tomando una realización de secuenciación de ácidos nucleicos como ejemplo, se pueden usar uno o varios de los componentes fluidos de un sistema integrado para un método de amplificación establecido en este documento y para la administración de reactivos de secuenciación en un método de secuenciación como los ejemplificados anteriormente. Alternativamente, un sistema integrado puede incluir sistemas fluidos separados para llevar a cabo métodos de amplificación y para llevar a cabo métodos de detección. Ejemplos de sistemas de secuenciación integrados que son capaces de crear ácidos nucleicos amplificados y también de determinar la secuencia de los ácidos nucleicos incluyen, sin limitación, la plataforma MiSeqTM (Illumina, Inc., San Diego, CA) y los dispositivos descritos en el documento con n° de serie de EE.UU. 13/273.666.
En este documento también se proporcionan composiciones. Durante la puesta en práctica de los métodos descritos en este documento pueden se puede dar lugar a varias composiciones. Por ejemplo, se puede dar lugar a una composición que incluye núcleos aislados con reducción de nucleosomas tratados químicamente, en donde los núcleos aislados incluyen fragmentos de ácido nucleico indexados. También se proporciona una placa de múltiples pocillos, en la que un pocillo de la placa de múltiples pocillos incluye núcleos aislados que tienen fragmentos de ácido nucleico indexados. En una realización, los núcleos aislados pueden incluir reticulaciones no naturales, como el tipo de reticulación formada por un agente de reticulación, por ejemplo, formaldehído. En una realización, los fragmentos de ácido nucleico indexados terminan en un sitio de restricción escindido que tiene un extremo saliente. En una realización, los núcleos aislados comprenden ADN genómico reordenado.
La presente descripción se ilustra mediante los siguientes ejemplos.
Ejemplo 1
Generación y secuenciación de miles de genomas unicelulares con indexación combinatoria
La secuenciación de un genoma unicelular ha demostrado ser valiosa para la detección de una variación somática, particularmente en el contexto de la evolución tumoral. Las tecnologías actuales adolecen de elevados costes de construcción de colecciones que restringen el número de células que pueden evaluarse y, por tanto, imponen limitaciones a la capacidad de medir una heterogeneidad dentro de un tejido. En este documento, la secuenciación combinatoria indexada de células individuales (SCI-seq) se presenta como una forma de generar simultáneamente miles de colecciones de células individuales de paso bajo para la detección de variantes del número de copias somáticas. Se construyeron colecciones para 16.698 células individuales a partir de una combinación de líneas celulares cultivadas, tejido de la corteza frontal de primates y dos adenocarcinomas humanos, incluyendo una evaluación detallada de la variación subclonal dentro de un tumor pancreático. Este ejemplo también está disponible como Vitak et al. (2017, Nature Methods, 14, 302-308, doi. 10.1038/nmeth.4154)
Métodos
Preparación de muestras y aislamiento de núcleos
Las líneas celulares de cultivo de tejidos se tripsinizaron y luego se sedimentaron si eran adherentes (HeLa S3, ATCC CCL-2.2; NIH/3T3, ATCC CRL-1658) o se sedimentaron si se cultivaban en suspensión (GM12878, Coriell; cariotipadas en el Laboratorio de Investigación Citogenética de OHSU), seguido de un lavado con PBS helado. A continuación, se llevó a cabo una reticulación (para el método xSDS) o se pasó directamente a la preparación de núcleos, utilizando el tampón de aislamiento de núcleos (NIB, TrisHCl 10 mM pH 7,4, NaCl 10 mM, MgCl2 3 mM, Igepal® al 0,1%, inhibidores de proteasa 1x (Roche, Cat. 11873580001)) con o sin reducción del nucleosoma. Las muestras de tejido (RhesusFcx1, RhesusFcx2, PDAC, CRC) se homogeneizaron con Dounce en NIB y luego se pasaron a través de un tamiz de células de 35 gm antes de la reducción de nucleosomas. Las muestras congeladas procedentes de la corteza frontal de Rhesus, RhesusFcx1 (hembra de 4 años) y RhesusFcx2 (hembra de 9 años), se obtuvieron en el Centro Nacional de Investigación de Primates de Oregón como parte de sus bienes en primates no humanos envejecidos.
Construcción de las colecciones de células individuales estándar
Se prepararon colecciones de células individuales construidas con un cebado cuasi-aleatorio (QRP) y PCR cebada con oligonucleótidos degenerados (DOP) a partir de núcleos aislados sin reducción de nucleosomas y se aumentó hasta 1 mL de NIB, se tiñeron con 5 gL de 5 mg/ml de DAPI (Thermo Fisher, Cat. D1306) y luego se clasificaron con FANS en un aparato Sony SH800 en modo de célula individual. Se depositó un núcleo en cada pocillo que contenía los respectivos tampones de muestra. Las colecciones de QRP se prepararon utilizando el kit PicoPlex DNA-seq (Rubicon Genomics, Cat. R300381) de acuerdo con el protocolo del fabricante y utilizando los cebadores de PCR indexados proporcionados en el kit. Las colecciones de DOP se prepararon usando el kit de amplificación de ADN SeqPlex (Sigma, Cat. SEQXE-50RXN) de acuerdo con el protocolo del fabricante, pero con el uso de cebadores de indexación de PCR personalizados que contenían secuencias indexadas de 10 pb. Para evitar una sobreamplificación, todas las colecciones de QRP y DOP se amplificaron con la adición de 0,5 gL de SYBR Green 100X (FMC BioProducts, Cat. 50513) en un termociclador BioRad CFX para controlar la amplificación y arrancar las reacciones que habían alcanzado una amplificación exponencial media.
Reducción de nucleosomas
Reducción de nucleosomas asistida por litio (LAND): Los núcleos preparados se sedimentaron y resuspendieron en NIB complementado con 200 gL de sal de litio de ácido 3,5-diyodosalicílico 12,5 mM (denominado diyodosalicilato de litio en el texto principal, Sigma, Cat. D3635) durante 5 minutos en hielo antes de la adición de 800 gL de NIB y luego se llevó directamente a la clasificación por flujo.
Reticulación y reducción de nucleosomas con SDS (xSDS): La reticulación se logró incubando células en 10 mL de medio (cultivo celular) o núcleos en 10 mL de HEPES NIB (HEPES 20 mM, NaCl 10 mM, MgCl23 mM, igepal al 0,1%, inhibidores de proteasa 1 x (Roche, Cat. 11873580001)) (muestras de tejido) que contenían 1,5% de formaldehído a temperatura ambiente durante 10 minutos. La reacción de reticulación se neutralizó produciendo la reacción con glicina 200 mM (Sigma, Cat. G8898-500G) e incubando en hielo durante 5 minutos. Las muestras del cultivo celular se reticularon y luego se lavaron una vez con 10 mL de PBS 1x enfriado en hielo y se aislaron los núcleos incubando en tampón NIB sobre hielo durante 20 minutos y se sedimentaron una vez más. A continuación, los núcleos se resuspendieron en 800 gL de NEBuffer 1x 2.1 (NEB, Cat. B7202S) con SDS al 0,3% (Sigma, Cat. L3771) y se incubaron a 42°C con agitación vigorosa durante 30 minutos en un termomezclador (Eppendorf). A continuación, el SDS se inactivó mediante la adición de 200 gL de T riton-X100 al 10% (Sigma, Cat. 9002-93-1) y se incubó a 42°C con agitación vigorosa durante 30 minutos.
Indexación combinatoria mediante etiquetado y PCR
Los núcleos se tiñeron con 5 gL de 5 mg/ml de DAPI (Thermo Fisher, Cat. D1306) y se pasaron a través de un tamiz de células de 35 gm. Se preparó una placa de 96 pocilios con 10 gL de tampón 1x Nextera® Tagment DNA (TD) del kit de preparación de muestras de a Dn Nextera® (Illumina, Cat. FC-121-1031) diluido con NIB en cada pocillo. Se utilizó un clasificador de flujo Sony SH800 para clasificar 2.000 núcleos individuales en cada pocillo de la placa de etiquetado de 96 pocillos en el modo de clasificación rápida. A continuación, se añadió a cada pocillo 1 gL de un complejo adaptador de transposasa 2,5 gM indexado de forma única (transposoma). Estos complejos y las secuencias asociadas se describen en Amini et. al. (Amini, S. et al. Nat. Genet. 46, 1343-9, 2014). Las reacciones se incubaron a 55°C durante 15 minutos. Después de enfriar a temperatura ambiente, todos los pocillos se combinaron y se tiñeron con DAPI como se ha descrito anteriormente. Se preparó una segunda placa de 96 pocillos, o un conjunto de placas de 96 pocillos, en donde cada pocillo contenía 8,5 gL de SDS al 0,058%, solución de BSA 8,9 nM y 2,5 gL de 2 cebadores con códigos de barras únicos 10 gM. Luego se clasificaron por flujo 22 núcleos de post-etiquetado del conjunto de 96 reacciones en el mismo instrumento, pero en el modo de clasificación de células individuales en cada pocillo de la segunda placa y luego se incubaron en la solución de SDS a 55°C durante 5 minutos para destruir la estructura nuclear y disociar la enzima transposasa. La reticulación se revirtió incubando a 68°C durante una hora (xSDS). Después, el SDS se diluyó mediante la adición de 7,5 gL de mezcla maestra para PCR Nextera® (Illumina, Cat. FC-121 -1031) así como 0,5 gL de 100X SYBR Green (FMC BioProducts, Cat. 50513) y 4 gL de agua. Luego se realizó la PCR en tiempo real en un termociclador BioRad CFX incubando primero las reacciones a 72°C durante 5 minutos, antes de 3 minutos a 98°C y 15-20 ciclos de [20 s a 98°C, 15 s a 63°C y 25 s a 72°C]. Las reacciones se controlaron y se detuvieron una vez que se observó una amplificación exponencial en la mayoría de los pocillos. A continuación, se combinaron y purificaron 5 gL de cada pocillo usando una columna de purificación de PCR Qiaquick (Qiagen, Cat. 28104) y eluyeron en 30 gL de EB.
Cuantificación y secuenciación de las colecciones
Las colecciones se cuantificaron entre el intervalo de 200 pb y 1 kpb en un kit de un bioanalizador de alta sensibilidad (Agilent, Cat. 5067-4626). Las colecciones se secuenciaron en un Illumina NextSeq® 500 cargado con 0,8 pM con un protocolo químico de secuenciación personalizado (lectura 1: 50 ciclos con imágenes; lectura indexada 1: 8 ciclos con imágenes, 27 ciclos en oscuridad, 10 ciclos con imágenes; lectura indexada 2: 8 ciclos con imágenes, 21 ciclos en oscuridad, 10 ciclos con imágenes; lectura 2: 50 ciclos con imágenes) usando cebadores de secuenciación personalizados descritos en Amini et. al. (Amini, S. et al. Nat. Genet. 46, 1343-9, 2014). Las colecciones de QRP y DOP se secuenciaron utilizando cebadores estándar en NextSeq® 500 utilizando kits de 75 ciclos de alta capacidad con indexación doble. Para QRP, existe un desafío adicional: las primeras 15 pb de la lectura están altamente enriquecidas en bases "G", que no son fluorescentes con la química de dos colores de NextSeq® y, por lo tanto, falla la identificación de grupos en el aparato. Por lo tanto, las colecciones se secuenciaron utilizando un protocolo de secuenciación personalizado que omite esta región (lectura 1: 15 ciclos en oscuridad, 50 ciclos con imágenes; lectura indexada 1: 10 ciclos con imágenes; lectura indexada 2: 10 ciclos con imágenes).
Procesamiento de la lectura de secuencias
El programa informático para procesar lecturas sin procesar SCI-seq está disponible en la World Wide Web en sciseq.sourceforge.net. Las ejecuciones de secuencias se procesaron utilizando bcl2fastq (Illumina Inc., versión 2.15.0) con las opciones --create-fastq-for-index-reads y --with-failed-reads para producir archivos fastq. Las lecturas indexadas se concatenaron (36 pb en total) y se utilizaron como nombre de la lectura con un número de lectura único añadido al final. Luego, estos indicadores se compararon con los conjuntos de referencia de indicadores correspondientes, lo que permitía una distancia de Hamming de dos para cada uno de los cuatro componentes del indicador (i7-T ransposasa (8 pb), i7-PCR (10 pb), i5-T ransposasa (8 pb) e i5-PCR (10 pb)), las lecturas que coincidían con una combinación de cuatro indicadores se rebautizaron luego con el indicador exacto (y se retuvo el número de lectura único) que se utilizó posteriormente como identificador de la célula. A continuación, las lecturas se recortaron con el adaptador, luego las lecturas emparejadas y no emparejadas se alinearon con los genomas de referencia mediante Bowtie2 y se fusionaron. Las preparaciones humanas se alinearon con GRCh37, las preparaciones de Rhesus se alinearon con RheMac8 y las preparaciones de mezcla de ser humano/ratón se alinearon con una referencia combinada de ser humano (GRCh37) y ratón (mm10). Los archivos bam alineados se sometieron a una eliminación de duplicados mediante PCR, utilizando una secuencia de comandos personalizada que eliminaba las lecturas con coordenadas de alineación idénticas basándose en cada código de barras junto con las lecturas con una puntuación de la alineación inferior a 10, según lo informado por Bowtie2.
Discriminación de células individuales
Para cada placa de PCR, es posible un total de 9.216 combinaciones indexadas únicas (12 indicadores i7-T ransposasa x 8 indicadores i5-Transposasa x 12 indicadores i7-PCR x 8 indicadores i5-PCR), para las cuales solo una minoría debería tener un recuento de lecturas sustancial, ya que la mayoría de las combinaciones indexadas deberían estar ausentes, es decir, combinaciones indexadas de transposasa de núcleos que no se habían clasificado en un pocillo de PCR dado. Esos indicadores "vacíos" suelen contener muy pocas lecturas (1-3% de una ejecución) y la mayoría de las lecturas se encuentran en combinaciones indexadas de células individuales auténticas (97-99% de una ejecución). El histograma resultante de recuentos de lecturas individuales en log 10 para combinaciones indexadas (Fig. 6) produce una mezcla de dos distribuciones normales: un componente de ruido y un componente de célula individual. A continuación, se utilizó el paquete R "mixtools" para ajustar un modelo mixto (normalmixEM) para identificar la proporción (A) media (g) y la desviación estándar (a) de cada componente. El umbral de recuento de lecturas para calificar como una colección de células individuales, se tomó como el mayor de una desviación estándar por debajo de la media del componente de células individuales en el espacio en logi0, o 100 veces mayor que la media del componente de ruido (+2 en espacio en logiü), y tenía que tener un mínimo de 1000 lecturas únicas.
Experimentos de mezclas ser humano-ratón
Se adoptó uno de dos enfoques para mezclar células humanas (GM12878 o HeLa S3) y de ratón (3T3): i) mezclar en el estadio celular (HumMus.LAND 1 y HumMus.LAND2) o ii) mezclar en la etapa de núcleos (HumMus.LAND3, HumMus.LAND4 y HumMus.xSDS). Este último se empleó para controlar la reticulación o aglomeración de núcleos que podía dar como resultado dobletes. Se construyeron colecciones como se describe en el presente documento, para los casos en los que se observaron dos poblaciones positivas para DAPI distintas durante la clasificación por flujo, se incluyeron ambas poblaciones en la misma puerta para no sesgar las proporciones. Las lecturas se procesaron como en otros experimentos, excepto que las lecturas se alinearon en su lugar con una referencia compuesta por GRCh37 (hg19) y mm10. El filtro de calidad de cartografiado 10 eliminaba efectivamente las lecturas que se alineaban con las regiones conservadas en ambos genomas y luego, para cada célula individual identificada, las lecturas de cada especie se contabilizaron y se utilizaron para estimar la frecuencia de colisión. Para las primeras preparaciones de LAND, se clasificaron 25 núcleos indexados por pocillo de PCR y se produjeron tasas de colisión totales (es decir, dos veces la tasa de colisión ser humano-ratón) del 28,1% y el 10,4%. Para las segundas dos preparaciones de LAND, clasificamos 22 núcleos por pocillo de PCR, lo que produjo una tasa de colisión total del 4,3% para una preparación y ninguna colisión detectable en otra. También sometimos a ensayo dos condiciones de clasificación FANS para nuestra preparación con xSDS, una era permisiva y permitía un intervalo más amplio de fluorescencia con DAPI, y la otra más restrictiva, y llevamos a cabo ambas preparaciones en lados separados de la misma placa de PCR. Para la puerta permisiva, observamos una tasa de colisión total del 23,6% con una reducción sustancial para la puerta más restrictiva del 8,1%. En base a estos resultados, decidimos continuar clasificando 22 núcleos por pocillo de PCR utilizando FANS más restrictivas.
Proyecciones de la profundidad de la colección
Para estimar el rendimiento de un conjunto de colecciones si, o cuando, se secuenciaban con una mayor profundidad, las lecturas aleatorias se muestrearon de forma incrementada a partir de cada preparación SCI-seq en todas las combinaciones indexadas, incluidas las lecturas no alineadas y de baja calidad sin reemplazamiento en cada uno por ciento del total de lecturas sin procesar. Para cada punto, identificamos el número total de lecturas que están alineadas con alta calidad (MQ > 10) asignadas a cada indicador de célula individual y la fracción de esas lecturas que son duplicados únicos que no son de PCR, así como la fracción correspondiente de lecturas totales muestreadas que fueron asignadas a ese indicador. Usando esos puntos, ajustamos un modelo no lineal y un modelo transformado de Hanes-Woolfe para predecir una secuenciación adicional para cada colección de células individuales dentro del grupo y proyectada a un porcentaje de lectura único promedio en las células del 5%. Para determinar la precisión de los modelos, determinamos la cantidad de lecturas sin procesar con muestreo reducido de cada colección que alcanzaría el punto en el que la mediana del porcentaje de lectura única por célula fuera del 90%, que es algo menor que lo que se logró para las colecciones secuenciadas con baja cobertura. Luego hicimos un submuestreo del número predeterminado de lecturas para 30 iteraciones y construimos un nuevo modelo para cada célula en cada iteración y luego predijimos los recuentos de lectura únicos para cada célula hasta la profundidad de secuenciación real que se logró. A continuación, se calculó la desviación estándar del recuento de lecturas reales en todas las iteraciones para todas las células.
Ventana del genoma
Las ventanas genómicas se determinaron en base a cada colección, utilizando herramientas personalizadas. Para cada cromosoma, el tamaño de todo el cromosoma se dividió por el tamaño de la ventana diana para producir el número de ventanas por cromosoma. El recuento total de lecturas para el cromosoma resumido sobre el conjunto de todas las células individuales (GM12878 para todas las muestras humanas en donde se determinó el número absoluto de copias, así como para cada muestra agrupada en donde se determinaron las amplificaciones o deleciones en relación con el número medio de copias) se dividió después por el recuento de ventanas para determinar el recuento medio de lecturas por ventana. A continuación, se recorrió el cromosoma y se contaron las lecturas alineadas del conjunto y se realizó una ruptura de ventana una vez que se alcanzó el recuento de lecturas diana por ventana. Las ventanas en los límites de los cromosomas solo se incluyeron si contenían más del 75% de las lecturas promedio por límite de ventana para ese cromosoma. Al usar ventanas dinámicas, tomamos en cuenta los sesgos, como regiones altamente repetitivas, centrómeros y otras regiones complejas que pueden conducir a la pérdida de lecturas en el caso de contenedores de tamaño fijo.22.
Corrección del sesgo de GC
Las lecturas se colocaron en contenedores de tamaño variable y GC se corrigió en función del contenido en GC de una lectura individual en lugar del contenido en GC de las ventanas dinámicas. Postulamos que los grandes tamaños de contenedores necesarios para el análisis de una sola célula promedian los cambios de contenido en GC a menor escala. Además, SCI-seq no implica una amplificación previa en la que se amplifican grandes regiones del genoma, por lo que el sesgo de GC se origina únicamente en la PCR y es específico del amplicón. Para calcular los pesos de corrección para las lecturas, comparamos la fracción de todas las lecturas con GC determinada con la fracción del total de lecturas simuladas con el tamaño de inserción promedio en la misma fracción de GC. Este peso se usó luego en lugar de los recuentos de lecturas y se sumó en todas las lecturas en una ventana determinada. Todas las regiones presentes en las regiones de la lista negra de DAC fueron excluidas del análisis para los análisis de muestras humanas (http://genome.ucsc.edu/cgi-bin/hgFileUi?db=hg19&g=wgEncodeMapability)19. Después de la corrección de GC, todas las lecturas se normalizaron mediante el número promedio de lecturas por contenedor en todo el genoma. Finalmente, para cada ventana, tomamos el recuento de lecturas normalizadas de cada célula y lo dividimos por la línea de base de la muestra combinada para producir una puntuación en proporción.
Mediciones de la variación de datos
Para medir la calidad de los datos, calculamos dos mediciones diferentes de la dispersión de la cobertura: la mediana de la desviación absoluta (MAD), la mediana de la diferencia absoluta por pares (MAPD). Para cada puntuación, calculamos la mediana de los valores absolutos de todas las diferencias por pares entre los contenedores vecinos que se habían normalizado mediante el recuento medio de contenedores dentro de la célula (relaciones normalizadas en log2 para las puntuaciones de MAPD). Esas puntuaciones miden la dispersión de las lecturas agrupadas normalizadas debido al ruido técnico, en lugar de debido a los cambios de estado del número de copias, que son menos frecuentes222.
Designación de la variante del número de copias
La designación de CNV se realizó en las lecturas con ventana, con corrección de GC y en muestras normalizadas de muestra general con dos paquetes R disponibles que emplean dos estrategias de segmentación diferentes: un enfoque del modelo de Markov oculto (HMMcopy, versión 3.3.0, Ha, G. et al., Genome Res. 22, 1995-2007, 2012) y segmentación binaria circular (DNAcopy, versión 1.44.0, Olshen et al. Biostatistics 5, 557-572, 2004). Los valores se transformaron en log2 para la entrada (2*log2 para CBS) y las designaciones de números de copia se realizaron basándose en los parámetros optimizados procedentes de Knouse et al. 2016, Knouse et al., Genome Res. gr.198937.115, 2016, doi: 10.1101/gr.198937.115). Para una sensibilidad y especificidad óptimas para detectar las designaciones de números de copia con tamaños >5 Mb, establecimos la probabilidad de extensión de segmento (E) en 0,995 para HMM y para CBS elegimos el nivel de significancia para aceptar un cambio de número de copia (a) en 0,0001. Los límites en log2 para las pérdidas o ganancias de designaciones eran 0,4 y -0,35 para HMM y 1,32 y 0,6 para CBS. Como herramienta adicional para las designaciones de CNV usamos Ginkgo22, que utiliza un método alternativo para la normalización de datos. Cargamos archivos de base para cada célula y un archivo de base de muestra masiva, que creamos con Picard Tools (utilizamos una probabilidad de muestra descendente de 0,1). Para el análisis, elegimos segmentar células individuales con el archivo de base de muestra masiva hacia abajo y cuando se conocía la ploidía para las muestras, creamos archivos FACS para obligar a Ginkgo a normalizar esa ploidía. Las designaciones para los tres métodos se cruzaron basándose en las ventanas o se filtraron para incluir solo las designaciones que incluían > 80% de un brazo cromosómico y luego se cruzaron para el análisis de aneuploidía.
Análisis del punto de ruptura tumoral
A diferencia de la evaluación de la aneuploidía esporádica, la variación estructural del tumor es mucho más compleja con una gran parte de los puntos de ruptura dentro de los cromosomas. Además, la aneuploidía esporádica dentro de cualquier subclón dado de un tumor es menos pertinente que un perfil preciso de las subpoblaciones que están presentes. Por lo tanto, utilizamos las matrices de puntuación de proporción segmentada de HMM y CBS para identificar puntos de ruptura al hacer un recuento de los límites de las regiones segmentadas a través de las células. Luego usamos la distribución resultante de puntos de ruptura cromosómicos compartidos en todo el genoma para identificar los máximos locales para tener en cuenta la variabilidad en la ventana específica en la que se realizó la designación, y luego retenemos los que están presentes en al menos el 5% de las células. A continuación, fusionamos todas las ventanas dentro de cada intervalo de punto de ruptura y calculamos la nueva relación en log2 de cada célula aneuploide sobre los valores medios de la población euploide. A continuación, llevamos a cabo el análisis de los componentes principales antes de la agrupación de k-medias con un valor de k determinado por el análisis de Silhouette. Para minimizar el efecto de los dobletes que pueden representar el ~10% de las supuestas células individuales y también para excluir las células de bajo rendimiento, retenemos solo aquellas en las proximidades de sus respectivos centroides. A continuación, fusionamos las lecturas de secuencias para todas las células dentro de cada grupo y luego llevamos a cabo un análisis de CNV de mayor resolución (tamaño de la ventana diana de 100 kbp) usando una estrategia HMM, seguida de una identificación del estado del número de copias absoluto y la identificación de las amplificaciones y deleciones focales usando una estrategia atípica de ventana deslizante20. Las relaciones clonales intratumorales se capturan con mayor precisión mediante puntos de ruptura compartidos en lugar de la deriva del número de copias de un segmento basado en la suposición de que los cambios estructurales que implican rupturas en el ADN son más impactantes en la célula. Por lo tanto, comparamos las células evaluando la proporción de segmentos entre los puntos de ruptura que se identificaron utilizando el análisis de CNV de alta resolución (100 kbp) que se solapaba con al menos un 90% (para tener en cuenta el ruido en la ventana exacta que denominamos el cambio de número de copias) del número total de segmentos.
Resultados
Reducción de nucleosomas para una cobertura uniforme del genoma
Un obstáculo para adaptar la indexación combinatoria para producir lecturas de secuencias distribuidas uniformemente, es la eliminación de nucleosomas unidos al ADN genómico sin comprometer la integridad nuclear. El método sciATAC-seq se lleva a cabo sobre cromatina natural, lo que permite la conversión del ADN en moléculas de una colección solo dentro de las regiones de cromatina abierta (1 -4% del genoma)18. Esta restricción es deseable para la caracterización epigenética; sin embargo, para la detección de CNVs, da como resultado un sesgo biológico y recuentos de lecturas muy limitados (~3.000 por célula)17. Por lo tanto, desarrollamos dos estrategias para desunir los nucleosomas del ADN genómico, manteniendo la integridad nuclear para la construcción de la colección SCI-seq. La primera, reducción de nucleosomas asistida por litio (LAND), utiliza el agente caotrópico, diyodosalicilato de litio, para alterar las interacciones ADN-proteína en la célula, liberando así el ADN de las histonas. La segunda, la reticulación con SDS (xSDS), utiliza el detergente SDS para desnaturalizar las proteínas de las histonas y hacerlas incapaces de unirse al ADN. Sin embargo, el SDS tiene un efecto disruptivo sobre la integridad nuclear, por lo que necesita una etapa de reticulación antes de la desnaturalización para mantener los núcleos intactos.
Para analizar la viabilidad de estas estrategias, realizamos preparaciones masivas (30.000 núcleos) con la línea celular HeLa S3, para la cual la accesibilidad de la cromatina y la estructura del genoma se han definido ampliamente1920, y realizamos tratamientos LAND o xSDS junto con un control estándar. En los tres casos, los núcleos permanecieron intactos, un requisito clave para el flujo de trabajo de SCI-seq (Fig. 4b). A continuación, los núcleos preparados se emplearon para la construcción de la colección ATAC-seq estándar16. La colección preparada a partir de núcleos no tratados producía la señal ATAC-seq esperada con un enriquecimiento de 10,8 veces de las lecturas de secuencias que se alineaban con los sitios de accesibilidad HeLa S3 anotados. Tanto las preparaciones LAND como xSDS tenían enriquecimientos sustancialmente menores de 2,8 y 2,2 veces, respectivamente, cerca de las 1,4 veces observadas para la secuenciación de tipo escopeta (Fig. 4c, Tabla 1). Además, el número proyectado de lecturas de secuencias individuales presentes en las preparaciones LAND y xSDS era de 1.700 millones y 798 millones respectivamente, mucho mayor que para la colección estándar de 170 millones, lo que sugiere que una mayor proporción del genoma se convirtió en moléculas viables para la secuenciación.
Tabla 1. Estadísticas de colecciones masivas. Información sobre colecciones de células masivas construidas para evaluar la reducción de nucleosomas. *La colección SHOT es un muestreo aleatorio de 60 millones de lecturas obtenidas a partir del repositorio HeLa dbGaP con el registro: phs000640.v4.p1 (The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57-74 (2012). Las estimaciones del tamaño de la colección se generaron utilizando la función de herramientas de Picard "EstimateLibraryComplexity". Para la secuenciación de tipo escopeta, las lecturas utilizadas se eliminaron por duplicado y, por lo tanto, no se determinaron las estimaciones de la tasa de duplicación y el tamaño de la colección.
Figure imgf000030_0001
SCI-seq con reducción de nucleosomas
Para evaluar el rendimiento de la reducción de nucleosomas con nuestro flujo de trabajo de indexación combinatoria de células individuales, primero nos centramos en la línea celular linfoblastoide euploide, profundamente perfilada GM1287814-11’11. Producimos un total de seis colecciones SCI-seq con una variedad de condiciones LAND, empleando con cada una, una sola placa de 96 pocillos en la etapa de indexación de PCR y una sola colección xSDS con 3 placas de PCR de 96 pocillos. Para servir como comparación con los métodos existentes, preparamos 42 colecciones de células individuales utilizando un cebado cuasi-aleatorio (QRP, 40 pases QC) y 51 usando PCR cebada con oligonucleótidos degenerados (DOP, 45 pases QC). Finalmente, cariotipamos 50 células para servir como un medio de medición de aneuploidía sin secuenciación (Tabla 2).
Figure imgf000031_0001
Figure imgf000032_0001
Para cada preparación de SCI-seq, el número de posibles combinaciones indexadas es 96 (indexación con transposasa) x N (indexación con PCR, 96 por placa); sin embargo, no todas las combinaciones indexadas representan una colección de células individuales, ya que cada pocillo de PCR contiene solo 15-25 núcleos indexados con transposasa. Para identificar combinaciones indexadas no vacías, generamos un histograma transformado en logio de lecturas individuales (es decir, no duplicados de PCR), alineadas de alta calidad (MQ > 10) para cada combinación indexada potencial. Esto dio como resultado una distribución bimodal compuesta por un componente de ruido de recuento bajo de lecturas centrado entre 50 y 200 lecturas, y un componente de célula individual de recuento alto de lecturas centrado entre 10.000 y 100.000 lecturas (Fig.7a, b, Fig.8). Luego usamos un modelo mixto para identificar indicadores que entran dentro de este componente de alto recuento de lecturas (Fig.6), lo que dio lugar a 4.643 colecciones de células individuales en las seis preparaciones de SCI-seq que usaron LAND para la reducción de nucleosomas y 3.123 para la preparación xSDS.
Para confirmar que la mayoría de las supuestas colecciones de células individuales contienen células individuales verdaderas, completamos cuatro preparaciones de colecciones SCI-seq en una mezcla de células humanas y de ratón, utilizando LAND (2369 células en total) con 22 o 25 núcleos por pocillo de PCR, y una preparación que empleaba xSDS dividida entre dos condiciones FANS (1367 células en total; Fig. 9). Para cada experimento, analizamos la proporción de células individuales putativas con >90% de sus lecturas que se alineaban exclusivamente con el genoma humano o de ratón. Las células restantes representan colisiones entre humano y ratón (es decir, dobletes) y constituyen aproximadamente la mitad de la tasa total de colisión (la mitad restante es humano-humano o ratón-ratón). Las tasas de colisión totales variaron entre 0-23,6% y se utilizaron para decidir sobre 22 núcleos por pocillo con condiciones de clasificación restrictivas para una frecuencia de doblete diana de <10%, comparable a sciATAC-seq17 o tecnologías de secuenciación de ARN de células individuales de alto rendimiento21.
El recuento de lecturas individuales producido para cada colección en una preparación SCI-seq es una función de la complejidad de la colección y la profundidad de la secuenciación. Debido a los costes elevados de secuenciar profundamente cada preparación durante el desarrollo, implementamos un modelo para proyectar el recuento de lecturas anticipadas y el porcentaje de duplicados de PCR que se lograría con una mayor profundidad de la secuenciación (Fig. 7c, Métodos). Como medio de evaluación de la calidad, identificamos la profundidad a la que una mediana del 50% de las lecturas en las células, son duplicados de PCR (M50), lo que representa el punto en el que una secuenciación adicional se vuelve excesiva (es decir, más del 50% de las lecturas adicionales no proporcionan una información nueva), junto con varias otras medidas (Tabla 3). Las proyecciones del modelo procedente de un subconjunto de las lecturas secuenciadas, predijeron con precisión la mediana real del recuento de lecturas individuales dentro de una mediana de 0,02% (máximo 2,25%, media 0,41%) en todas las colecciones. Como confirmación adicional, una secuenciación adicional de un subconjunto de pocillos de PCR de varias preparaciones, produjo recuentos de lecturas individuales para cada célula que estaban dentro de una mediana de 0,13% (máximo 3,56%, media 0,72%) de lo que había previsto nuestro modelo (Fig. 10).
Figure imgf000034_0001
"
Figure imgf000035_0001
La uniformidad de la cobertura se evaluó usando la desviación absoluta media (MAD)22 y la desviación media absoluta por pares (MAPD)2, que indicaba una uniformidad sustancialmente mejor utilizando xSDS que con LAND (MAD: mejora media de 1,57 veces, p = <1x10-15; MAPD: mejora de 1,70 veces, p = <1x10-15, prueba t de Welch). La desviación usando xSDS es similar a los métodos de amplificación de desplazamiento múltiple, aunque aún mayor que para QRP y DOP (Fig. 7d)22. Si bien las preparaciones de LAND tenían un sesgo de cobertura más alto, también producían recuentos de lecturas individuales más altos por célula (p. ej., M50 de 763.813 para una de las tres preparaciones de HeLa LAND) en comparación con xSDS (p. ej., M50 de 63.223 para la preparación de GM12878). Para todas las colecciones, observamos la característica de superposición de 9 pares de bases de pares de lectura adyacentes, debido al mecanismo de transposición13’23, lo que indica que somos capaces de secuenciar moléculas a ambos lados de un evento de inserción de transposasa (Fig. 11).
Designación de la variante del número de copias usando SCI-seq
Para cualquier estudio de secuenciación del genoma de células individuales, determinar cómo descartar por filtración las colecciones fallidas sin eliminar las células aneuploides verdaderas es un desafío importante. Inicialmente procedimos con la designación de CNV en nuestras preparaciones SCI-seq sin ningún filtrado para comparar directamente con otros métodos. Para todas las preparaciones, usamos células con un mínimo de 50.000 lecturas alineadas individuales y de alta calidad (868 en todas las colecciones LAND, 1.056 para la colección xSDS), aplicamos Ginkgo22, segmentación binaria circular (CBS)24 y un modelo de Markov oculto (HMM)25, con ventanas genómicas de tamaño variable (mediana diana de 2,5 millones de pb) para la designación de CNV (Fig. 12) y conservamos de forma conservadora la intersección de los tres métodos. Para comparar nuestras designaciones basadas en la secuenciación con células cariotipadas, nos centramos en eventos a nivel de brazo cromosómico (Fig. 7e, f). De acuerdo con las diferencias de la uniformidad de la cobertura, nuestras preparaciones LAND SCI-seq producían una alta tasa de aneuploidía (61,9%), lo que sugiere una abundancia de falsos positivos debido a la falta de uniformidad de la cobertura (Fig. 7e, g). Sin embargo, la estrategia de reducción del nucleosoma mediante xSDS con SCI-seq daba como resultado una frecuencia de aneuploidía del 22,6%, mucho más cercana a los resultados del cariotipado (Fig.7e, h), así como DOP y QRP (15,0% y 13,5%, respectivamente) (Fig. 13).
A continuación, determinamos los criterios de filtración basados en las puntuaciones de MAD y MAPD a través de una variedad de resoluciones y umbrales de recuento de lecturas (Fig. 14). Este análisis reveló un mayor intervalo de variabilidad en la resolución de nuestras preparaciones SCI-seq, que se debe en gran medida al intervalo más amplio de lecturas individuales por célula, en comparación con los métodos estándar. Al aplicar un filtro de varianza MAD de 0,2 en todos los métodos, las tasas de aneuploidía para xSDS, DOP y QRP se redujeron a 12,2%, 9,7% y 10,5% respectivamente, todas por debajo de la tasa determinada por el cariotipado, pero más cercanas entre sí que antes del filtrado (Fig. 15).
Variación del número de copias en el cerebro de Rhesus
Las estimaciones de aneuploidía y frecuencias de CNV a gran escala en el cerebro de los mamíferos varían ampliamente, desde <5% a 33%1-4. Esta incertidumbre se debe en gran parte a la incapacidad de establecer un perfil con un número suficiente de células individuales para producir mediciones cuantitativas. El macaco Rhesus es un modelo ideal para cuantificar la abundancia de aneuploidía en el cerebro, ya que las muestras humanas son difíciles de adquirir y se complican por la alta variabilidad de las exposiciones ambientales de por vida. Además, el cerebro de Rhesus es filogenética, estructural y fisiológicamente más similar a los humanos que a los roedores26.
Para demostrar la versatilidad de nuestra plataforma, aplicamos LAND y xSDS SCI-seq al tejido de la corteza frontal archivado (Individual 1), junto con 38 células usando QRP (35 pases QC) y 35 células usando DOP (30 pases QC). Nuestra preparación LAND de baja capacidad (16 indicadores de PCR) produjo 340 colecciones de células individuales con un recuento de lecturas individuales promedio de 141.449 (248 células > 50.000 lecturas individuales), y nuestra preparación xSDS generó 171 colecciones de células individuales con un recuento de lecturas individuales promedio de 55.142 (92 células > 50.000 lecturas individuales). El número de células producidas en nuestra preparación xSDS era menor de lo esperado, en gran parte debido a los agregados de núcleos durante la clasificación que pueden remediarse mediante etapas adicionales de desagregación celular.
En todos los métodos de construcción de colecciones, observamos mayores discrepancias entre los tres enfoques de designación de CNVs que en los análisis en humanos (Fig. 16-19), probablemente debido a la menor calidad del genoma de referencia de Rhesus (284.705 contigs <1 Mbp), enfatizando la necesidad de genomas de referencia de calidad "platino"27. Por lo tanto, nos centramos en los resultados de HMM para las designaciones subcromosómicas (Fig. 20a) y realizamos un análisis de aneuploidía utilizando la intersección de las designaciones CBS y HMM. De acuerdo con nuestros resultados de línea celular, la preparación LAND producía una tasa de aneuploidía mucho más alta (95,1%), lo que sugiere falsos positivos derivados de la falta de uniformidad de la cobertura (Fig. 21-22). La tasa de aneuploidía sin filtrar de xSDS SCI-seq (25,0%) era cercana a la de la preparación DOP (18,5%), produciendo QRP una tasa mucho más baja (3,1%; Fig. 20b). Después de imponer un filtro de varianza para las células con una puntuación MAD de 0,2 o menor, las tasas de aneuploidía cayeron al 12,0% para la preparación xSDS, al 8,7% para la DOP, y se mantuvieron iguales para la preparación QRP en 3,1%. Estas tasas eran similares a las producidas por xSDS SCI-seq sobre una sección de 200 mm3 de la corteza frontal de un segundo individuo (381 células individuales, mediana del recuento de lecturas de 62.731, 213 células > 50.000 lecturas individuales) que producía tasas de aneuploidía filtradas y sin filtrar del 12,1% y 10,3% respectivamente (Fig. 23).
SCI-seq en muestras de tumores primarios revela poblaciones clonales
Una de las principales aplicaciones de la secuenciación del genoma de células individuales es la determinación del perfil de heterogeneidad tumoral y la comprensión de la evolución clonal en el cáncer, en relación con la resistencia a un tratamiento5-8. Llevamos a cabo una única preparación xSDS SCI-seq sobre una muestra de adenocarcinoma ductal pancreático (PDAC) en estadio III, recién adquirida que medía aproximadamente 250 mm3, lo que dio como resultado 1.715 colecciones de células individuales secuenciadas con una mediana de recuento de lecturas individuales de 49.272 por célula (M50 de 71.378; 846 células > 50.000 lecturas individuales con la profundidad en la que se secuenció la colección; Fig. 24a). Primero realizamos designaciones de CNVs usando nuestra colección GM12878 como línea base euploide para comparar, para identificar un conjunto de células euploides de alta confianza (298, 35,2%) que luego se usaron como una nueva línea base específica para el individuo y la preparación (Fig.23, 25, 26). Suponiendo que las alteraciones en el número de copias subcromosómicas (causadas por la inestabilidad del genoma) son más informativas para identificar poblaciones subclonales que la aneuploidía del cromosoma completo (debido a errores durante la división celular), desarrollamos una estrategia para identificar los puntos de ruptura del número de copias putativo con baja resolución para ser utilizados como nuevos límites de ventana (Métodos, Fig.27) seguida de una estratificación mediante análisis de componentes principales (PCA) y agrupamiento de k-medias. Inicialmente aplicamos este método a nuestras colecciones de HeLa (2361 células individuales en total), que no revelaban una heterogeneidad distintiva y respaldando aún más la estabilidad de la línea celular HeLa20 (Fig. 28-31), y luego en nuestra muestra primaria de PDAC, que reveló un recuento óptimo de agrupaciones de 4 por análisis Silhouette (Fig. 24b, c).
La primera de estas agrupaciones (k3) es una población de células euploides que no se consideraron euploides de alta confianza en el análisis inicial y, por lo tanto, no se eliminaron. Cuando éstas se incluyen, la población euploide aumenta a 389 para tener una pureza final de células tumorales del 46,0%, dentro del intervalo esperado para PDAC28. Para las agrupaciones restantes k1 (199 células), k2 (115 células) y k4 (91 células), añadimos todas las lecturas de las células próximas a cada centroide (Métodos) y llevamos a cabo designaciones de CNV usando ventanas de 100 kbp, una resolución 25 veces mayor que el análisis inicial, y luego se determinaron los estados del número de copias absoluto20 (Fig. 24d).
En las tres agrupaciones de tumores, se compartía una porción sustancial de los segmentos del número de copias (44,8%), lo que sugiere que surgieron a partir de una población progenitora común. Esto incluye un cromosoma 19 muy reordenado que alberga una amplificación focal de CEBPA, que codifica una proteína que se une a un potenciador, en la copia número 7, que con frecuencia está mutada en AML29, y recientemente se ha mostrado que se ha alterado la regulación epigenética en tumores pancreáticos30 (Fig. 24e). Una comparación por pares de todos por todos, reveló que las agrupaciones k2 y k4 eran las más similares, compartiendo el 65,9% de los segmentos del número de copias, seguidas de k1 y k4 con un 58,3% y k1 y k2 con un 55,0%. Varias CNVs específicas de agrupaciones contienen genes con potencial relevancia funcional (Fig. 24e). Estos incluyen una amplificación focal para la copia número 6 de IKBKB en la agrupación k1, que codifica una serina cinasa importante en la vía de señalización de NF-kB31; otra amplificación focal para la copia número 5 en la agrupación k1 que contiene los genes DSC1,2,3 y DSG1,2,3,4, en donde todos ellos codifican proteínas involucradas en la adhesión célula a célula y el posicionamiento celular y, a menudo, están mal reguladas en el cáncer32; y la eliminación de una región que contiene PDGRFB específico de la agrupación k2, que codifica un receptor de la superficie celular de tirosina cinasa involucrado en la señalización de la proliferación celular, y con frecuencia está mutado en cáncer33.
Por último, aplicamos xSDS SCI-seq a un adenocarcinoma de recto en estadio II congelado de 500 mm3. Durante la preparación, observamos una gran abundancia de desechos nucleares y núcleos rotos que probablemente se atribuye a una disminución del rendimiento de la preparación (16 indicadores de PCR) de 146 colecciones de células individuales (mediana del recuento de lecturas individuales de 71.378; M50 de 352.168; 111 células > 50.000 lecturas individuales). Llevamos a cabo el mismo enfoque de designaciones de CNVs que con la muestra PDAC; sin embargo, no se observaron puntos de ruptura de alta frecuencia y no se pudieron identificar poblaciones subclonales (Fig. 32). Esto puede ser el resultado de un deterioro nuclear debido a la radiación, un tratamiento común para los cánceres de recto, lo que subraya el desafío de producir suspensiones unicelulares o de núcleos de alta calidad, compartidas por todos los métodos de células individuales12.
Discusión
Desarrollamos SCI-seq, un método que utiliza la reducción de nucleosomas en un flujo de trabajo de indexación combinatoria para producir miles de colecciones de secuenciación del genoma de células individuales. Utilizando SCI-seq, produjimos 16.698 colecciones de células individuales (de las cuales 5.395 se secuenciaron con una profundidad suficiente para la designación de CNVs) a partir de una miríada de muestras, incluyendo los aislados de tejido primario representativos de las dos áreas principales de investigación del genoma de células individuales: aneuploidía somática y cáncer. Además de las ventajas del rendimiento, la plataforma no requiere un equipamiento de microfluidos especializados ni técnicas de emulsificación de gotas. Usando nuestra estrategia de reducción de nucleosomas más uniforme, xSDS, pudimos lograr una resolución del orden de 250 kbp, aunque sospechamos una mayor optimización, tal como agentes de reticulación alternativos, puede proporcionar una profundidad suficiente para mejorar la resolución. También demostramos la capacidad de identificar poblaciones clonales que se pueden añadir para facilitar la designación de CNVs de alta resolución, aplicando esta estrategia a un adenocarcinoma ductal pancreático que reveló CNVs específicas de subclones que pueden afectar a la proliferación, la migración o posiblemente impulsar otros subtipos moleculares34.
Es posible utilizar esa tecnología para incluir una preamplificación in situ dentro de la estructura nuclear antes de SCI-seq o la incorporación de transcripción de T4 in vitro, como en THS-seq35, una variante de ATAC-seq, para aumentar la cobertura resultante y facilitar la detección de variantes de un solo nucleótido. Si bien la optimización es posible, como con cualquier método nuevo, creemos que el rendimiento proporcionado por SCI-seq abrirá una puerta a la cuantificación profunda de la estabilidad del genoma somático de mamíferos y servirá como una plataforma para evaluar otras propiedades de células individuales, incluyendo la metilación del ADN y la estructura de la cromatina. Códigos de registro
Identificación de BioProyecto del NCBI: PRJNA326698
Registro de HeLa dbGaP: phs000640
Disponibilidad de datos
Se puede acceder a los datos de la secuencia de GM12878 y Rhesus a través del archivo de lectura de secuencia de NCBI (SRA) con la ID de BioProyecto: PRJNA326698 para un acceso sin restricciones. Los datos de la secuencia de HeLa son accesibles a través de la base de datos de genotipos y fenotipos (dbGaP), como un subestudio con el número de registro phs000640. Las muestras de tumores humanos se están sometiendo a dbGaP y están a la espera de la asignación de un registro del estudio. El programa informático desarrollado específicamente para este proyecto está disponible en la World Wide Web en sci-seq.sourceforge.net.
Referencias citadas en el Ejemplo 1
1. McConnell, M. J. et al. Mosaic Copy Number Variation in Human Neurons. Science (80). 342, 632-637 (2013).
2. Cai, X. et al. Single-Cell, Genome-wide Sequencing Identifies Clonal Somatic Copy-Number Variation in the Human Brain. Cell Rep. 8, 1280-1289 (2014).
3. Knouse, K. A., Wu, J., Whittaker, C. A. & Amon, A. Single cell sequencing reveals low levels of aneuploidy across mammalian tissues. Proc Natl Acad Sci USA 111, 13409-13414 (2014).
4. Rehen, S. K. et al. Chromosomal variation in neurons of the developing and adult mammalian nervous system. Proc. Natl. Acad. Sci. U. S. A. 98, 13361-6 (2001).
5. Navin, N. et al. Tumour evolution inferred by single-cell sequencing. Nature 472, 90-94 (2011).
6. Eirew, P. et al. Dynamics of genomic clones in breast cancer patient xenografts at single-cell resolution. Nature 518, 422-6 (2014).
7. Gawad, C., Koh, W. & Quake, S. R. Dissecting the clonal origins of childhood acute lymphoblastic leukemia by single-cell genomics. Proc. Natl. Acad. Sci. U. S. A. 111, 17947-52 (2014).
8. Gao, R. et al. Punctuated copy number evolution and clonal stasis in triple-negative breast cancer. Nat. Genet. 1­ 15 (2016). doi:10.1038/ng.3641
9. Zong, C., Lu, S., Chapman, A. R. & Xie, X. S. Genome-Wide Detection of Single Nucleotide and Copy Number Variations of a Single Human Cell. Science (80-.). 338, 1622-1626 (2012).
10. Baslan, T. et al. Optimizing sparse sequencing of single cells for highly multiplex copy number profiling. Genome Res. 125, 714-724 (2015).
11. Knouse, K. A., Wu, J. & Amon, A. Assessment of megabase-scale somatic copy number variation using single cell sequencing. Genome Res. gr.198937.115-(2016). doi: 10.1101/gr.198937.115
12. Gawad, C., Koh, W. & Quake, S. R. Single-cell genome sequencing: current state of the science. Nat. Rev. Genet.
17, 175-88 (2016).
13. Adey, A. et al. Rapid, low-input, low-bias construction of shotgun fragment libraries by high-density in vitro transposition. Genome Biol. 11, R119 (2010).
14. Amini, S. et al. Haplotype-resolved whole-genome sequencing by contiguity-preserving transposition and combinatorial indexing. Nat. Genet. 46, 1343-9 (2014).
15. Adey, A. et al. In vitro, long-range sequence information for de novo genome assembly via transposase contiguity. Genome Res. 24, 2041-2049 (2014).
16. Buenrostro, J. D., Giresi, P. G., Zaba, L. C., Chang, H. Y. & Greenleaf, W. J. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat. Methods 10, 1213-8 (2013).
17. Cusanovich, D. a et al. Epigenetics. Multiplex single-cell profiling of chromatin accessibility by combinatorial cellular indexing. Science 348, 910-4 (2015).
18. Stergachis, A. B. et al. Developmental fate and cellular maturity encoded in human regulatory DNA landscapes.
Cell 154, 888-903 (2013).
19. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57-74 (2012).
20. Adey, A. et al. The haplotype-resolved genome and epigenome of the aneuploid HeLa cancer cell line. Nature 500, 207-211 (2013).
21. Macosko, E. Z. et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets. Cell 161, 1202-1214 (2015).
22. Garvin, T. et al. Interactive analysis and quality assessment of single-cell copy-number variations. bioRxiv 11346 (2014) . doi:10.1101/011346
23. GORYSHIN, I. Y., MILLER, J. A., KIL, Y. V., LANZOV, V. A. & REZNIKOFF, W. S. Tn5/IS50 target recognition. Proc. Natl. Acad. Sci. USA 95, 10716-10721 (1998).
24. Olshen, A. B., Venkatraman, E. S., Lucito, R. & Wigler, M. Circular binary segmentation for the analysis of arraybased DNA copy number data. Biostatistics 5, 557-572 (2004).
25. Ha, G. et al. Integrative analysis of genome-wide loss of heterozygosity and monoallelic expression at nucleotide resolution reveals disrupted pathways in triple-negative breast cancer. Genome Res. 22, 1995-2007 (2012).
26. Rosenkrantz, J. & Carbone, L. Investigating somatic aneuploidy in the brain: why we need a new model. Chromosoma (2016).
27. Callaway, E. 'Platinum' genome takes on disease. Nat. News 515, 323 (2014).
28. Waddell, N. et al. Whole genomes redefine the mutational landscape of pancreatic cancer. Nature 518, 495-501 (2015) .
29. De Kouchkovsky, I. & Abdul-Hay, M. 'Acute myeloid leukemia: a comprehensive review and 2016 update'. Blood Cancer J. 6, e441 (2016).
30. Kumagai, T. et al. Epigenetic regulation and molecular characterization of C/EBPalpha in pancreatic cancer cells. Int J Cancer 124, 827-833 (2009).
31. Perkins, N. D. Integrating cell-signalling pathways with NF-kappaB and IKK function. Nat. Rev. Mol. Cell Biol. 8, 49-62 (2007).
32. Stahley, S. N. & Kowalczyk, A. P. Desmosomes in acquired disease. Cell Tissue Res. 360, 439-56 (2015). 33. Forbes, S. A. et al. COSMIC: Exploring the world's knowledge of somatic mutations in human cancer. Nucleic Acids Res. 43, D805-D811 (2015).
34. Bailey, P. et al. Genomic analyses identify molecular subtypes of pancreatic cancer. Nature 531,47-52 (2016).
35. Sos, B. et al. Characterization of chromatin accessibility with a transposome hypersensitive sites sequencing (THS-seq) assay. Genome Biol 17, 20 (2016).
Ejemplo 2
Reactivos usados en el Ejemplo 2
Solución salina tamponada con fosfato (PBS, Thermo Fisher, Cat. 10010023)
Tripsina al 0,25% (Thermo Fisher, Cat. 15050057)
Tris (Fisher, Cat. T1503)
HCl (Fisher, Cat. A144)
NaCl (Fisher, Cat. M-11624)
MgCl2 (Sigma, Cat. M8226)
Igepal® CA-630 (Sigma, 18896)
Inhibidores de proteasa (Roche, Cat. 11873580001)
• Sal de litio de ácido 3,5-diyodosalicílico (Sigma, Cat. D3635) - Solo LAND
• Formaldehído (Sigma, Cat. F8775) - Solo xSDS
• Glicina (Sigma, Cat. G8898) - Solo xSDS
• HEPES (Fisher, Cat. BP310) - Solo xSDS
• NEBuffer 2.1 (NEB, Cat. B7202) - Solo xSDS
• SDS (Sigma, Cat. L3771) - Solo xSDS
• Triton™ -X100 (Sigma, Cat. 9002-93-1) - Solo xSDS
• DAPI (Thermo Fisher, Cat. D1306)
• Tampón TD y NPM del kit Nextera® (Illumina, Cat. FC-121-1031)
• 96 T ransposomas indexados (ensamblados utilizando métodos publicados u obtenidos a partir de Illumina, oligos que se muestran en la Tabla 4)
• Cebadores de PCR indexados i5 e i7 (Tabla 5)
• SYBR Green (FMC BioProducts, Cat. 50513)
• Kit de purificación de PCR Qiaquick® (Qiagen, Cat. 28104)
• Qubit de alta sensibilidad para dsDNA (Thermo Fisher, Cat. Q32851)
• Kit de bioanalizador de alta sensibilidad (Agilent, Cat. 5067-4626)
• Kit de secuenciación NextSeq (alto o medio 150-ciclos)
• Cebadores de secuenciación (Tabla 6)
Equipamiento utilizado en los Ejemplos
• Homogeneizador Dounce
• Tamiz celular de 35 gM (BD Biosciences, Cat. 352235)
• Clasificador de células Sony SH800 (Sony Biotechnology, Cat. SH800) u otro instrumento de FACS capaz de clasificar un solo núcleo basado en DAPI
• Termociclador CFX Connect RT (Bio-Rad, Cat. 1855200) u otro termociclador de tiempo real
• Fluorómetro Qubit® 2.0 (Thermo Fisher, Cat. Q32866)
• Bioanalizador 2100 (Agilent, Cat. G2939A)
• NextSeq® 500 (Illumina, Cat. SY-415-1001)
Figure imgf000041_0001
Tabla 5: Cebadores de PCR
Figure imgf000042_0001
Figure imgf000043_0001
Figure imgf000044_0001
Tabla 6: Cebadores de secuenciación
Figure imgf000044_0002
I. Preparación de núcleos usando sal de litio de ácido 3,5-diyodosalicílico (LAND) o SDS (xSDS)
A. Método LAND de preparación de núcleos y reducción de nucleosomas
Si las células estaban en un cultivo celular en suspensión, el cultivo se trituró suavemente para romper las agrupaciones de células, las células se sedimentaron mediante centrifugación a 500 x g durante 5 minutos a 4°C y se lavaron con 500 pL de PBS enfriado con hielo.
Si las células estaban en un cultivo celular adherente, se aspiró el medio y las células se lavaron con 10 mL de PBS a 37°C, y luego se añadió suficiente tripsina al 0,25% a 37°C para cubrir la monocapa. Después de incubar a 37°C durante 5 minutos o hasta que el 90% de las células ya no se adherían a la superficie, se añadió medio a 37°C en una proporción de 1:1 para desactivar la tripsina. Las células se sedimentaron mediante centrifugación a 500 x g durante 5 minutos a 4°C y luego se lavaron con 500 pL de PBS enfriado con hielo.
Si se utilizó un tejido, la muestra de tejido se colocó en un homogeneizador Dounce de 2 mL en hielo. Dos mL de tampón NIB (TrisHCl 10 mM pH 7,4, NaCl 10 mm, MgCl2 3 mM, Igepal® al 0,1%, inhibidores de proteasa 1 x) se añadieron a la muestra y se incubaron en hielo durante 5 minutos. La muestra se homogeneizó 5 veces con una mano de mortero holgada seguido de 15 golpes con una mano de mortero apretada, y luego se pasó a través de un tamiz de células de 35 pM, y se usaron tamices adicionales cuando era necesario.
Las células procedentes de un cultivo celular en suspensión, un cultivo celular adherente o una muestra de tejido, se sedimentaron mediante centrifugación a 500 x g durante 5 minutos y luego se resuspendieron en 200 pL de LIS 12,5 mM en tampón NIB (2,5 pL de LIS 1 M 197,5 pL de tampón NIB). Después de incubar en hielo durante 5 minutos, se añadieron 800 pL de tampón NIB y 5 pL de DAPI (5 mg/ml). Las células se pasaron suavemente a través de un tamiz de células de 35 pM.
B. Método xSDS de preparación de núcleos y reducción de nucleosomas
Si las células estaban en un cultivo celular en suspensión, el medio se trituró suavemente para romper las agrupaciones de células. A 10 mL de células en medio se añadieron 406 pL de formaldehído al 37% y se incubaron a temperatura ambiente durante 10 minutos con agitación suave. Se añadieron ochocientos microlitros de glicina 2,5 M a las células y se incubaron en hielo durante 5 minutos y luego se centrifugaron a 550 x g durante 8 minutos a 4°C. Después de lavar con 10 mL de PBS helado, las células se resuspendieron en 5 mL de NIB helado (TrisHCl 10 mM pH 7,4, NaCl 10 mM, MgCh 3 mM, Igepal® al 0,1%, inhibidores de proteasa 1x), y se incubaron sobre hielo durante 20 minutos mezclando suavemente.
Si las células estaban en un cultivo celular adherente, se aspiró el medio y las células se lavaron con 10 mL de PBS a 37°C, y luego se añadió suficiente tripsina al 0,25% a 37°C para cubrir la monocapa. Después de incubar a 37°C durante 5 minutos o hasta que el 90% de las células ya no se adherían a la superficie, se añadió medio a 37°C en una proporción de 1:1 para inactivar la tripsina y el volumen se incrementó hasta 10 mL con medio. Las células se resuspendieron en 10 mL de medio y se añadieron 406 pL de formaldehído al 37% y se incubaron a temperatura ambiente durante 10 minutos con agitación suave. Se añadieron ochocientos microlitros de glicina 2,5 M a las células y se incubaron en hielo durante 5 minutos. Las células se centrifugaron a 550 x g durante 8 minutos a 4°C y se lavaron con 10 mL de PBS enfriado con hielo. Después de resuspender las células en 5 mL de NIB enfriado con hielo, se incubaron sobre hielo durante 20 minutos mezclando suavemente.
Si se utilizó un tejido, la muestra de tejido se colocó en un homogeneizador Dounce de 2 mL en hielo. Se añadieron dos mL de tampón HEPES NIB (HEPES 20 mM, NaCl 10 MM, MgCl2 3 mM, Igepal al 0,1%, inhibidores de proteasa 1x) a la muestra y se incubaron sobre hielo durante 5 minutos. La muestra se trituró 5 veces con una mano de mortero holgada seguido de 15 golpes con una mano de mortero apretada, y luego se pasó a través de un tamiz de células de 35 pM, y se usaron tamices adicionales si era necesario. El volumen se incrementó hasta 10 mL con HEPES-NIB y se añadieron 406 pL de formaldehído al 37% al volumen de 10 mL. Se añadieron 800 microlitros de glicina 2,5 M y se incubaron sobre hielo durante 5 minutos.
Las células o los núcleos del cultivo celular en suspensión o del cultivo celular adherente se sedimentaron mediante centrifugación a 500 x g durante 5 minutos y se lavaron con 900 pL de 1x NEBuffer 2.1. Después de centrifugar a 500 x g durante 5 minutos, el sedimento se resuspendió en 800 pL de 1x NEBuffer 2.1 con 12 pL de SDS al 20% y se incubó a 42°C con agitación vigorosa durante 30 minutos, y luego se añadieron 200 pL de Triton™ X-100 al 10% y se incubó a 42°C con agitación vigorosa durante 30 minutos. Las células se hicieron pasar suavemente a través de un tamiz de células de 35 pM y se añadieron 5 pL de DAPI (5 mg/ml).
II. Clasificación y etiquetado de los núcleos
Se preparó una placa de etiquetado con 10 pL de tampón TD 1x (para 1 placa: 500 pL de tampón NIB 500 pL de tampón TD) y se clasificaron 2000 núcleos individuales en cada pocillo de la placa de etiquetado. En esta etapa, el número de núcleos por pocillo puede variar ligeramente siempre que el número de núcleos por pocillo sea constante para toda la placa. También es posible multiplicar diferentes muestras en diferentes pocillos de la placa, ya que se conservará el indicador de transposasa. Las células se seleccionaron de acuerdo con la Fig. 33. Después de centrifugar la placa, se añadió a cada pocillo 1 pL 2,5 nM de transposoma indexado de forma única. Después del sellado, la placa se incubó a 55°C durante 15 minutos con agitación suave. A continuación, la placa se volvió a poner a temperatura ambiente y luego se colocó sobre hielo. Se reunieron todos los pocillos, se añadieron 5 pL de DAPI (5 mg/ml) y luego las células se hicieron pasar a través de un tamiz de células de 35 pM.
III. Segunda clasificación e indexación por PCR
Se preparó una mezcla maestra para cada pocillo con 0,25 pL de 20 mg/ml de BSA, 0,5 pL de SDS al 1% y 7,75 pi­ de H2O. Se añadió mezcla maestra (8,5 pL) y 2,5 pL de cada cebador (i5 e i7) 10 pM a cada pocillo de una placa de 96 pocillos. Los núcleos individuales (15-22) se clasificaron en cada pocillo utilizando los ajustes de clasificación más estrictos. A continuación, se centrifugó la placa. Los núcleos preparados mediante el método LAND se incubaron durante 5 minutos a 55° para desnaturalizar la transposasa. Los núcleos preparados utilizando el método xSDS se incubaron a 68° durante 45 minutos para desnaturalizar la transposasa y revertir los entrecruzamientos.
Se preparó un tampón (para 1 placa: 750 pL de NPM, 400 pL de H2O y 50 pL de 100x SYBR Green), y se añadieron 12 pL del tampón a cada pocillo de la tira de tubos. Se realizaron los siguientes ciclos de PCR: 72°C durante 5 minutos, 98°C durante 30 segundos, luego ciclos continuos de (98°C durante 10 segundos, 63°C durante 30 segundos, 72°C durante un minuto seguido de una lectura de placa y 10 segundos adicionales a 72°C). Estos ciclos se repitieron hasta que la mayoría de los pocillos mostraron una amplificación exponencial determinada por fluorescencia con SYBR Green.
IV. Purificación y cuantificación de las colecciones
Las colecciones se combinaron usando 5 pL de cada pocillo de la placa de PCR, luego se purificaron usando una columna de purificación de PCR Qiaquick® y se eluyeron en 30 pL de Tris-Cl 10 mM, pH 8,5 (EB). Se utilizaron dos microlitros para cuantificar la concentración de ADN con el fluorómetro Qubit® 2.0 de alta sensibilidad hacia ADNds, siguiendo el protocolo del fabricante. La lectura de Qubit® se usó para diluir la colección hasta ~4 ng/uL, y 1 uL se ejecutó en un bioanalizador de alta sensibilidad 2100, siguiendo el protocolo del fabricante. A continuación, se cuantificó la colección para el intervalo de 200 pb - 1 kpb para diluir el conjunto a 1 nM para la secuenciación de Illumina.
V. Secuenciación
Se configuró NextSeq® 500 para una ejecución según las instrucciones del fabricante para una muestra 1 nM, excepto para los siguientes cambios. El conjunto de colecciones se cargó con una concentración de 0,8 pM y un volumen total de 1,5 mL y se depositó en la posición 10 del cartucho; los cebadores personalizados se prepararon diluyendo 9 pL de cebador de secuenciación de reserva 1100 pM en un total de 1,5 mL de tampón HT1 en la posición 7 del cartucho; el cebador de secuenciación se configuró diluyendo 9 pL de cebador de secuenciación de reserva 2 100 pM en un total de 1,5 mL de tampón HT1 en la posición 8 del cartucho; y los cebadores de secuenciación indexados de forma personalizada, se configuraron diluyendo 18 pL de cada cebador de secuenciación indexado de forma personalizada hasta concentraciones de reserva de 100 pM en un total de 3 mL de tampón HT1 en la posición 9 del cartucho (véase la Tabla 7). NextSeq® 500 se hizo funcionar en modo autónomo; se seleccionó la receta química personalizada de SCIseq (Amini et al., 2014, Nat. Genet. 46, 1343-1349); se seleccionó el indicador doble; se introdujo el número apropiado de ciclos de lectura (se recomiendan 50) y 18 ciclos para cada indicador; se seleccionó la casilla de verificación personalizada para todas las lecturas e indicadores.
Tabla 7:
Figure imgf000046_0001
Ejemplo 3
Indexación combinatoria de células individuales y conformación del genoma y cromosoma
La digestión con endonucleasas de restricción de los núcleos aislados seguida de ligación se puede utilizar para adquirir información sobre la estructura cromosómica dentro de un núcleo, tal como un análisis del plegamiento de la cromatina y la detección de reordenamientos genómicos. Esos tipos de análisis se conocen en la técnica como captura de conformación cromosómica (3C) y métodos relacionados (4C, 5C y Hi-C).
El método de indexación combinatoria de células individuales y la conformación del genoma y cromosoma (sci-GCC) que se pueden usar junto con el método descrito en los Ejemplos 1 y 2, se describe en la Fig. 34. Específicamente, el método de indexación combinatoria de células individuales y la conformación del genoma y cromosoma incluye los bloques 12, 13, 14 y 19 como se muestra en la Fig. 34. A diferencia de otros métodos de análisis de conformación del genoma y cromosoma de células individuales (Nagano et al., 2013, Nature, 502: 59-64), el método descrito en el presente documento no requiere el relleno de biotina o la extracción de biotina para obtener datos de la secuencia de

Claims (17)

REIVINDICACIONES
1. Un método para preparar una colección de secuenciación que comprende ácidos nucleicos procedentes de una pluralidad de células individuales, comprendiendo el método:
(a) proporcionar núcleos aislados a partir de una pluralidad de células;
(b) someter los núcleos aislados a un tratamiento químico para generar núcleos con reducción de nucleosomas, mientras se mantiene la integridad de los núcleos aislados;
(c) distribuir subconjuntos de los núcleos con reducción de nucleosomas en una primera pluralidad de compartimentos y poner en contacto cada subconjunto con un complejo de transposoma, en donde el complejo de transposoma en cada compartimento comprende una transposasa y una primera secuencia indexada que es diferente de las primeras secuencias indexadas en los otros compartimentos;
(d) fragmentar los ácidos nucleicos en los subconjuntos de núcleos con reducción de nucleosomas en una pluralidad de fragmentos de ácido nucleico e incorporar las primeras secuencias indexadas en al menos una hebra de los fragmentos de ácido nucleico para generar núcleos indexados que comprenden fragmentos de ácido nucleico indexados, en donde los fragmentos de ácido nucleico indexados permanecen fijados a las transposasas;
(e) combinar los núcleos indexados para generar núcleos indexados agrupados;
(f) distribuir subconjuntos de los núcleos indexados agrupados en una segunda pluralidad de compartimentos; (g) incorporar en los fragmentos de ácido nucleico indexados en cada compartimento una segunda secuencia indexada para generar fragmentos doblemente indexados, en donde la segunda secuencia indexada en cada compartimento es diferente de las segundas secuencias indexadas en los otros compartimentos;
(h) combinar los fragmentos doblemente indexados, produciendo de este modo una colección de secuenciación que comprende ácidos nucleicos del genoma completo procedentes de la pluralidad de células individuales.
2. El método según la reivindicación 1, en donde el tratamiento químico comprende un tratamiento con un agente caotrópico capaz de alterar las interacciones ácido nucleico-proteína.
3. El método según la reivindicación 2, en donde el agente caotrópico comprende la sal de litio de ácido 3,5-diyodosalicílico.
4. El método según la reivindicación 3, en donde el tratamiento químico comprende un tratamiento con un detergente capaz de alterar las interacciones ácido nucleico-proteína.
5. El método según la reivindicación 4, en donde el detergente comprende dodecilsulfato de sodio (SDS), opcionalmente en donde los núcleos se tratan con un agente de reticulación antes de la etapa (b) en donde el agente de reticulación es formaldehído.
6. El método según la reivindicación 5, en donde la reticulación mediante formaldehído se revierte después de la etapa (f) y antes de la etapa (g), opcionalmente
en donde las transposasas se disocian de los fragmentos de ácido nucleico indexados antes de revertir la reticulación.
7. El método según la reivindicación 1, en donde a) los núcleos se tratan con una enzima de restricción antes de la etapa (d), o
b) la distribución en las etapas (c) y (f) se realiza mediante una clasificación de los núcleos activados por fluorescencia, o c) los subconjuntos de los núcleos con reducción de nucleosomas comprenden aproximadamente el mismo número de núcleos.
8. El método según la reivindicación 1, en donde la primera pluralidad de compartimentos es una placa de pocillos múltiples.
9. El método según la reivindicación 1, en donde los subconjuntos de los núcleos indexados agrupados comprenden números aproximadamente iguales de núcleos, opcionalmente, en donde los subconjuntos de los núcleos indexados agrupados comprenden de 1 a aproximadamente 25 núcleos.
10. El método según la reivindicación 1, en donde (i) los subconjuntos de los núcleos indexados agrupados incluyen al menos 10 veces menos núcleos que los subconjuntos de núcleos con reducción de nucleosomas, o
(ii) los subconjuntos de los núcleos indexados agrupados incluyen al menos 100 veces menos núcleos que los subconjuntos de núcleos con reducción de nucleosomas.
11. El método según la reivindicación 1, en donde la etapa (c) comprende añadir el complejo de transposoma a los compartimentos después de que se distribuyen los subconjuntos de núcleos con reducción de nucleosomas.
12. El método según la reivindicación 1, en donde cada uno de los complejos de transposomas comprende un transposón, comprendiendo cada uno de los transposones una hebra transferida.
13. El método según la reivindicación 1, que comprende además un enriquecimiento de fragmentos doblemente indexados usando una pluralidad de oligonucleótidos de captura que tienen especificidad hacia los fragmentos doblemente indexados, opcionalmente en donde los oligonucleótidos de captura se inmovilizan sobre una superficie de un sustrato sólido.
14. El método según la reivindicación 1, que comprende además la secuenciación de los fragmentos doblemente indexados para determinar la secuencia de nucleótidos de los ácidos nucleicos de la pluralidad de células individuales.
15. El método según la reivindicación 14, que comprende además:
proporcionar una superficie que comprende una pluralidad de sitios de amplificación, en donde los sitios de amplificación comprenden al menos dos poblaciones de oligonucleótidos de captura monocatenarios fijados que tienen un extremo 3’ libre, y
poner en contacto la superficie que comprende los sitios de amplificación con los fragmentos doblemente indexados en condiciones adecuadas para producir una pluralidad de sitios de amplificación en donde cada uno comprende una población clonal de amplicones procedentes de un fragmento individual doblemente indexado.
16. Una composición que comprende núcleos aislados con reducción de nucleosomas tratados químicamente, en donde los núcleos aislados comprenden fragmentos de ácido nucleico indexados, opcionalmente en donde los núcleos aislados comprenden reticulaciones no naturales.
17. Una placa de múltiples pocillos, en donde un pocillo de la placa de múltiples pocillos comprende la composición según la reivindicación 16.
ES17755575T 2016-07-22 2017-07-21 Colecciones de genoma completo de células individuales y métodos de indexación combinatoria para prepararlas Active ES2873723T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662365916P 2016-07-22 2016-07-22
US201762451305P 2017-01-27 2017-01-27
PCT/US2017/043381 WO2018018008A1 (en) 2016-07-22 2017-07-21 Single cell whole genome libraries and combinatorial indexing methods of making thereof

Publications (1)

Publication Number Publication Date
ES2873723T3 true ES2873723T3 (es) 2021-11-03

Family

ID=60988232

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17755575T Active ES2873723T3 (es) 2016-07-22 2017-07-21 Colecciones de genoma completo de células individuales y métodos de indexación combinatoria para prepararlas

Country Status (12)

Country Link
US (2) US11535883B2 (es)
EP (2) EP3488002B1 (es)
JP (2) JP7155021B2 (es)
KR (2) KR102475710B1 (es)
CN (2) CN110268059B (es)
AU (2) AU2017299803B2 (es)
CA (1) CA3026773C (es)
DK (1) DK3488002T3 (es)
ES (1) ES2873723T3 (es)
IL (1) IL263920B2 (es)
SG (1) SG11201811504PA (es)
WO (1) WO2018018008A1 (es)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US9476095B2 (en) 2011-04-15 2016-10-25 The Johns Hopkins University Safe sequencing system
EP3447495B2 (en) 2012-10-29 2024-03-13 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
DK3596216T3 (da) 2017-03-13 2022-07-25 Gigagen Inc Systemer og fremgangsmåder til massiv parallel kombinatorisk analyse af enkeltceller
EP3665308A1 (en) 2017-08-07 2020-06-17 The Johns Hopkins University Methods and materials for assessing and treating cancer
US11639928B2 (en) 2018-02-22 2023-05-02 10X Genomics, Inc. Methods and systems for characterizing analytes from individual cells or cell populations
CN112272710A (zh) 2018-05-03 2021-01-26 贝克顿迪金森公司 高通量多组学样品分析
CA3067435C (en) * 2018-05-17 2023-09-12 Illumina, Inc. High-throughput single-cell sequencing with reduced amplification bias
SG11202000905PA (en) * 2018-06-04 2020-02-27 Illumina Inc High-throughput single-cell transcriptome libraries and methods of making and of using
JP7413351B2 (ja) * 2018-08-03 2024-01-15 ベクトン・ディキンソン・アンド・カンパニー 単一細胞における核バーコード化および捕捉
WO2020041702A1 (en) * 2018-08-24 2020-02-27 Swift Biosciences, Inc. Asymmetric targeted amplification methods
US10704094B1 (en) 2018-11-14 2020-07-07 Element Biosciences, Inc. Multipart reagents having increased avidity for polymerase binding
US10876148B2 (en) * 2018-11-14 2020-12-29 Element Biosciences, Inc. De novo surface preparation and uses thereof
GB2598656B (en) * 2018-11-15 2023-10-04 Element Biosciences Inc Methods for generating circular nucleic acid molecules
WO2020114918A1 (en) 2018-12-05 2020-06-11 Illumina Cambridge Limited Methods and compositions for cluster generation by bridge amplification
AU2019411272A1 (en) 2018-12-18 2021-01-07 Illumina Cambridge Limited Methods and compositions for paired end sequencing using a single surface primer
FI3899037T3 (fi) 2018-12-19 2023-11-21 Illumina Inc Menetelmiä polynukleotidiklusterin klonaalisuusprioriteetin parantamiseksi
KR20210134598A (ko) 2019-03-01 2021-11-10 일루미나, 인코포레이티드 고-처리량 단일-핵 및 단일-세포 라이브러리 및 이의 제조 및 사용 방법
EP3947727A4 (en) * 2019-04-05 2023-01-04 Board of Regents, The University of Texas System METHODS AND APPLICATIONS OF CELL BARCODING
EP3963087A1 (en) 2019-04-29 2022-03-09 Illumina Inc Identification and analysis of microbial samples by rapid incubation and nucleic acid enrichment
US11535891B2 (en) 2019-05-03 2022-12-27 The Regents Of The University Of California Barcoded solid supports and methods of making and using same
US20220267759A1 (en) * 2019-07-12 2022-08-25 New York Genome Center, Inc. Methods and compositions for scalable pooled rna screens with single cell chromatin accessibility profiling
EP4004231A1 (en) 2019-07-22 2022-06-01 Becton, Dickinson and Company Single cell chromatin immunoprecipitation sequencing assay
CN110952147B (zh) * 2019-12-18 2023-05-05 南方科技大学 单细胞基因组测序用的dna文库的构建方法
CA3134746A1 (en) * 2019-12-19 2021-06-24 Illumina, Inc. High-throughput single-cell libraries and methods of making and of using
EP4107286A4 (en) * 2020-02-19 2024-04-24 Sequencing Health, Inc. METHODS AND SYSTEMS FOR NUCLEIC ACID PROCESSING
WO2021188889A1 (en) * 2020-03-20 2021-09-23 Mission Bio, Inc. Single cell workflow for whole genome amplification
WO2021252617A1 (en) 2020-06-09 2021-12-16 Illumina, Inc. Methods for increasing yield of sequencing libraries
US11932901B2 (en) 2020-07-13 2024-03-19 Becton, Dickinson And Company Target enrichment using nucleic acid probes for scRNAseq
CN111996598A (zh) * 2020-08-11 2020-11-27 杭州瀚因生命科技有限公司 一种单细胞染色质可及性的建库方法
EP4196600A1 (en) * 2020-08-14 2023-06-21 Factorial Diagnostics, Inc. In situ library preparation for sequencing
CN112280828A (zh) * 2020-10-22 2021-01-29 上海交通大学医学院 一种降低单细胞扩增偏倚性的离体组织细胞核分离方法
CN112309500A (zh) * 2020-10-30 2021-02-02 广州序科码生物技术有限责任公司 一种基于单细胞测序数据唯一片段序列捕获方法
US20230374592A1 (en) 2020-11-19 2023-11-23 The Usa, As Represented By The Secretary, Dept. Of Health And Human Services Massively paralleled multi-patient assay for pathogenic infection diagnosis and host physiology surveillance using nucleic acid sequencing
CN114686564B (zh) * 2020-12-31 2023-10-24 深圳华大生命科学研究院 一种适用于微量样本的dna样本制备方法
CN114836838A (zh) * 2021-02-01 2022-08-02 南方医科大学 一种中通量单细胞拷贝数文库构建的方法及其应用
EP4298244A1 (en) 2021-02-23 2024-01-03 10X Genomics, Inc. Probe-based analysis of nucleic acids and proteins
WO2022188054A1 (en) * 2021-03-10 2022-09-15 Nanjing University Methods and reagents for sample multiplexing for high throughput single-cell rna sequencing
US20220333178A1 (en) 2021-03-22 2022-10-20 Illumina Cambridge Limited Methods for improving nucleic acid cluster clonality
EP4328362A1 (en) * 2021-04-22 2024-02-28 BGI Shenzhen Construction method for rna sequencing library, sequencing method, and kit
KR20240024835A (ko) * 2021-06-24 2024-02-26 일루미나, 인코포레이티드 비이드-기반 핵산의 조합 인덱싱을 위한 방법 및 조성물
CN114277093B (zh) * 2021-12-24 2024-02-27 中国农业科学院生物技术研究所 一种提取植物细胞核的方法
CN114277094B (zh) * 2021-12-24 2024-02-27 中国农业科学院生物技术研究所 提取植物细胞核的裂解液
CA3223722A1 (en) 2022-04-07 2023-10-12 Illumina, Inc. Altered cytidine deaminases and methods of use
WO2024069581A1 (en) 2022-09-30 2024-04-04 Illumina Singapore Pte. Ltd. Helicase-cytidine deaminase complexes and methods of use
WO2024073043A1 (en) 2022-09-30 2024-04-04 Illumina, Inc. Methods of using cpg binding proteins in mapping modified cytosine nucleotides
WO2024073047A1 (en) 2022-09-30 2024-04-04 Illumina, Inc. Cytidine deaminases and methods of use in mapping modified cytosine nucleotides
WO2024118903A1 (en) 2022-11-30 2024-06-06 Illumina, Inc. Chemoenzymatic correction of false positive uracil transformations

Family Cites Families (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4882268A (en) 1985-12-24 1989-11-21 Massachusetts Institute Of Technology Method for determining tissue of origin and degree of malignancy of tumor cells
CA1323293C (en) 1987-12-11 1993-10-19 Keith C. Backman Assay using template-dependent nucleic acid probe reorganization
CA1341584C (en) 1988-04-06 2008-11-18 Bruce Wallace Method of amplifying and detecting nucleic acid sequences
WO1989009835A1 (en) 1988-04-08 1989-10-19 The Salk Institute For Biological Studies Ligase-based amplification method
US5130238A (en) 1988-06-24 1992-07-14 Cangene Corporation Enhanced nucleic acid amplification process
JP2801051B2 (ja) 1988-06-24 1998-09-21 アムジエン・インコーポレーテツド 核酸塩基配列を検出するための方法及び試薬
WO1990001069A1 (en) 1988-07-20 1990-02-08 Segev Diagnostics, Inc. Process for amplifying and detecting nucleic acid sequences
US5185243A (en) 1988-08-25 1993-02-09 Syntex (U.S.A.) Inc. Method for detection of specific nucleic acid sequences
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
AU635105B2 (en) 1990-01-26 1993-03-11 Abbott Laboratories Improved method of amplifying target nucleic acids applicable to both polymerase and ligase chain reactions
US5573907A (en) 1990-01-26 1996-11-12 Abbott Laboratories Detecting and amplifying target nucleic acids using exonucleolytic activity
US5223414A (en) 1990-05-07 1993-06-29 Sri International Process for nucleic acid hybridization and amplification
US5455166A (en) 1991-01-31 1995-10-03 Becton, Dickinson And Company Strand displacement amplification
JP3175110B2 (ja) 1994-02-07 2001-06-11 オーキッド・バイオサイエンシーズ・インコーポレイテッド リガーゼ/ポリメラーゼ媒体された単一ヌクレオチド多型のジェネティックビットアナリシスおよび遺伝子解析におけるその使用
US5677170A (en) 1994-03-02 1997-10-14 The Johns Hopkins University In vitro transposition of artificial transposons
AU687535B2 (en) 1994-03-16 1998-02-26 Gen-Probe Incorporated Isothermal strand displacement nucleic acid amplification
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6245974B1 (en) * 1997-08-06 2001-06-12 North Carolina State University Matrix attachment regions
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7955794B2 (en) 2000-09-21 2011-06-07 Illumina, Inc. Multiplex nucleic acid reactions
US7611869B2 (en) 2000-02-07 2009-11-03 Illumina, Inc. Multiplexed methylation detection methods
US7582420B2 (en) 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
CA2415897A1 (en) 2000-07-07 2002-01-17 Susan H. Hardin Real-time sequence determination
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US8030000B2 (en) 2002-02-21 2011-10-04 Alere San Diego, Inc. Recombinase polymerase amplification
US7399590B2 (en) 2002-02-21 2008-07-15 Asm Scientific, Inc. Recombinase polymerase amplification
DK3363809T3 (da) 2002-08-23 2020-05-04 Illumina Cambridge Ltd Modificerede nukleotider til polynukleotidsekvensering
CA2498764C (en) 2002-09-20 2015-11-10 New England Biolabs, Inc. Helicase dependent amplification of nucleic acids
EP1633879A1 (en) 2003-06-06 2006-03-15 The Board Of Trustees Of The University Of Illinois Methods for assessing the invasive potential of a cell employing chromatin analysis
WO2005003304A2 (en) 2003-06-20 2005-01-13 Illumina, Inc. Methods and compositions for whole genome amplification and genotyping
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP1701785A1 (en) 2004-01-07 2006-09-20 Solexa Ltd. Modified molecular arrays
CN101914620B (zh) 2004-09-17 2014-02-12 加利福尼亚太平洋生命科学公司 核酸测序的方法
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
CN104673903B (zh) * 2005-06-20 2018-11-13 领先细胞医疗诊断有限公司 检测单个细胞中的核酸和鉴定异质大细胞群中罕见细胞的方法
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
EP2021503A1 (en) 2006-03-17 2009-02-11 Solexa Ltd. Isothermal methods for creating clonal single molecule arrays
US8241573B2 (en) 2006-03-31 2012-08-14 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
ES2923759T3 (es) 2006-12-14 2022-09-30 Life Technologies Corp Aparato para medir analitos utilizando matrices de FET
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP2121983A2 (en) 2007-02-02 2009-11-25 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
WO2010003132A1 (en) 2008-07-02 2010-01-07 Illumina Cambridge Ltd. Using populations of beads for the fabrication of arrays on surfaces
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US9080211B2 (en) 2008-10-24 2015-07-14 Epicentre Technologies Corporation Transposon end compositions and methods for modifying nucleic acids
US8829171B2 (en) 2011-02-10 2014-09-09 Illumina, Inc. Linking sequence reads using paired code tags
WO2012061832A1 (en) 2010-11-05 2012-05-10 Illumina, Inc. Linking sequence reads using paired code tags
US9074251B2 (en) 2011-02-10 2015-07-07 Illumina, Inc. Linking sequence reads using paired code tags
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
US9617598B2 (en) * 2011-05-27 2017-04-11 President And Fellows Of Harvard College Methods of amplifying whole genome of a single cell
WO2012170560A2 (en) * 2011-06-06 2012-12-13 Cornell University Microfluidic device for extracting, isolating, and analyzing dna from cells
WO2012170936A2 (en) 2011-06-09 2012-12-13 Illumina, Inc. Patterned flow-cells useful for nucleic acid analysis
WO2013044018A1 (en) 2011-09-23 2013-03-28 Illumina, Inc. Methods and compositions for nucleic acid sequencing
CA3003082C (en) 2011-10-28 2020-12-15 Illumina, Inc. Microarray fabrication system and method
US8938309B2 (en) 2012-01-16 2015-01-20 Greatbatch Ltd. Elevated hermetic feedthrough insulator adapted for side attachment of electrical conductors on the body fluid side of an active implantable medical device
EP4219012A1 (en) 2012-04-03 2023-08-02 Illumina, Inc. Method of imaging a substrate comprising fluorescent features and use of the method in nucleic acid sequencing
US8895249B2 (en) * 2012-06-15 2014-11-25 Illumina, Inc. Kinetic exclusion amplification of nucleic acid libraries
SG11201500313YA (en) * 2012-07-24 2015-02-27 Sequenta Inc Single cell analysis using sequence tags
US9683230B2 (en) * 2013-01-09 2017-06-20 Illumina Cambridge Limited Sample preparation on a solid support
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
ES2724824T3 (es) 2013-03-13 2019-09-16 Illumina Inc Métodos para la secuenciación de ácidos nucleicos
AU2014233373B2 (en) * 2013-03-15 2019-10-24 Verinata Health, Inc. Generating cell-free DNA libraries directly from blood
WO2014151554A1 (en) * 2013-03-15 2014-09-25 The Trustees Of The University Of Pennsylvania Phi29 method for library preparation
CN105339503B (zh) * 2013-05-23 2020-04-10 斯坦福大学托管董事会 用于个人表观基因组学的至天然染色质的转座
DK3017065T3 (en) 2013-07-01 2018-11-26 Illumina Inc Catalyst-free Surface functionalization and polymer grafting
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
SG11201610910QA (en) 2014-06-30 2017-01-27 Illumina Inc Methods and compositions using one-sided transposition
JP6808617B2 (ja) * 2014-10-17 2021-01-06 イルミナ ケンブリッジ リミテッド 連続性を維持した転位
PL3212684T3 (pl) 2014-10-31 2020-10-19 Illumina Cambridge Limited Polimery i powłoki z kopolimeru DNA
GB2532790B (en) 2014-11-28 2017-10-04 Porvair Filtration Group Ltd Modified pipette tips for chromatin immunoprecipitation assay
EP3725893A1 (en) 2015-02-10 2020-10-21 Illumina, Inc. Compositions for analyzing cellular components
SG11201807444PA (en) * 2016-03-10 2018-09-27 Univ Leland Stanford Junior Transposase-mediated imaging of the accessible genome

Also Published As

Publication number Publication date
CA3026773C (en) 2022-10-18
US20230323426A1 (en) 2023-10-12
CN110268059A (zh) 2019-09-20
WO2018018008A1 (en) 2018-01-25
IL263920B (en) 2022-10-01
SG11201811504PA (en) 2019-01-30
AU2017299803B2 (en) 2023-06-29
CN117822128A (zh) 2024-04-05
JP2019520828A (ja) 2019-07-25
NZ749719A (en) 2021-06-25
JP7155021B2 (ja) 2022-10-18
AU2023222858A1 (en) 2023-09-28
IL263920A (en) 2019-01-31
CA3026773A1 (en) 2018-01-25
IL263920B2 (en) 2023-02-01
EP3488002A1 (en) 2019-05-29
US11535883B2 (en) 2022-12-27
EP3904514A1 (en) 2021-11-03
AU2017299803A1 (en) 2019-01-24
KR20230003255A (ko) 2023-01-05
JP2022169578A (ja) 2022-11-09
KR20190034164A (ko) 2019-04-01
EP3488002B1 (en) 2021-03-31
CN110268059B (zh) 2024-01-12
US20180023119A1 (en) 2018-01-25
KR102475710B1 (ko) 2022-12-08
DK3488002T3 (da) 2021-06-21

Similar Documents

Publication Publication Date Title
ES2873723T3 (es) Colecciones de genoma completo de células individuales y métodos de indexación combinatoria para prepararlas
ES2960890T3 (es) Análisis de múltiples analitos utilizando un solo ensayo
JP7234146B2 (ja) 低減した増幅バイアスによるハイスループット単一細胞シークエンシング
US11299765B2 (en) Methods and compositions for preparing sequencing libraries
ES2898250T3 (es) Bibliotecas de genoma completo de células individuales para secuenciación de la metilación
AU2019248635B2 (en) Compositions and methods for making controls for sequence-based genetic testing
NZ749719B2 (en) Single cell whole genome libraries and combinatorial indexing methods of making thereof