ES2971348T3

ES2971348T3 - Métodos de reparación de salientes 3'

Info

Publication number: ES2971348T3
Application number: ES20807975T
Authority: ES
Inventors: Eleen Shum
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2019-10-25
Filing date: 2020-10-23
Publication date: 2024-06-04
Anticipated expiration: 2040-10-23
Also published as: EP4345171A2; US20210123097A1; WO2021081423A1; EP4048812A1; US11447819B2; EP4048812B1; JP2022553164A; US20230212663A1; EP4345171A3

Abstract

Se proporcionan métodos para reparar un fragmento de ADN parcialmente bicatenario. En algunas realizaciones, los métodos comprenden (a) poner en contacto el fragmento de ADN parcialmente bicatenario con uno o más cebadores de una población de cebadores, en donde el fragmento de ADN parcialmente bicatenario comprende un saliente 3' y la población de cebadores comprende una diana aleatoria. secuencia de hibridación; (b) extender uno o más cebadores de la población de cebadores a lo largo del fragmento de ADN usando una ADN polimerasa, produciendo de este modo uno o más cebadores extendidos hibridados con el fragmento de ADN; y (c) ligar el extremo 3' de uno o más cebadores extendidos al extremo 5' de un cebador extendido o una hebra del fragmento de ADN parcialmente bicatenario, proporcionando así un fragmento de ADN reparado. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Métodos de reparación de salientes 3'

LISTADO DE SECUENCIAS

La presente solicitud contiene un Listado de Secuencias que ha sido presentado electrónicamente en formato ASCII y que se incorpora por referencia en su totalidad. Dicha copia ASCII, creada el 21 de octubre de 2020, se llama 2020-10-23_GH0054WO_Sequence_Listing_ST25.txt y tiene un tamaño de 970 bytes.

2. ANTECEDENTES

Srinivasan Yegnasubramanian: Preparation of Fragment Libraries for Next-Generation Sequencing on the Applied Biosystems SOLiD Platform, Methods Enzymol. 2013; 529: 185-200 y la US 2012/172258 A1 divulgan la reparación de extremos de ADN parcialmente de cadena doble para su posterior análisis/procesamiento. Mientras que los salientes 5' se rellenan extendiendo los extremos 3' empotrados, los salientes 3' se eliminan mediante la actividad de exonucleasa.

INTRODUCCIÓN Y SUMARIO

La reparación de los salientes que se producen en ciertos tipos de moléculas de ADN es un paso importante en la preparación de las moléculas para su posterior análisis, como la secuenciación y/o amplificación. Por ejemplo, los salientes 3', en los que un número de nucleótidos cerca del extremo 3' de una molécula son de cadena sencilla, pueden producirse en ADN cizallado y ADN libre de células, por ejemplo, obtenido de muestras de sangre. Puede ser deseable convertir los salientes 3' en extremos romos o en un saliente de una sola base para que sean compatibles con pasos posteriores como la ligación de una etiqueta, código de barras o un adaptador.

Los métodos existentes para la reparación de salientes usan una exonucleasa de 3' a 5' para resecar el saliente 3'. Este enfoque da como resultado una pérdida de información, ya que se eliminan nucleótidos y no puede determinarse la ubicación del extremo de la molécula original. Por tanto, la reparación del saliente 3' mediante exonucleólisis puede impedir la obtención de información relativa, por ejemplo, a la secuencia de las bases entre los extremos 5' y 3', así como a la posición del nucleosoma. Por consiguiente, hay una necesidad de métodos mejorados de reparación de salientes 3'. La presente divulgación está dirigida a satisfacer esta necesidad, proporcionar otros beneficios, o por lo menos proporcionar al público una opción útil.

La invención se define en las reivindicaciones.

En algunas realizaciones de todos y cada uno de los aspectos de la invención, los resultados de los sistemas y/o métodos divulgados en la presente se usan como entrada para generar un informe. El informe puede presentarse en papel o en formato electrónico. Por ejemplo, en dicho informe puede mostrarse la información sobre la presencia o ausencia de cáncer, determinada por los métodos o sistemas divulgados en la presente. Alternativa o adicionalmente, el informe puede comprender información relativa o derivada de la identidad de nucleobases en la muestra. Los métodos o sistemas divulgados en la presente pueden comprender además un paso de comunicación del informe a un tercero, como el sujeto del que se deriva la muestra o un profesional sanitario.

Los varios pasos de los métodos divulgados en la presente, o los pasos realizados por los sistemas divulgados en la presente, pueden llevarse a cabo al mismo tiempo o en momentos diferentes, y/o en la misma ubicación geográfica o en diferentes ubicaciones geográficas, por ejemplo, países. Los varios pasos de los métodos divulgados en la presente pueden ser realizados por la misma persona o por personas diferentes.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

La Fig. 1 ilustra salientes 5', salientes 3' y métodos existentes para la reparación de los extremos.

La Fig. 2 ilustra una realización de la reparación de los salientes 3' de acuerdo con esta divulgación, en la que los cebadores que comprenden una secuencia aleatoria 3' y una secuencia de cadena doble 5' (por ejemplo, que comprende un código de barras, un adaptador o una etiqueta) se aparean a un fragmento de ADN parcialmente de cadena doble. La extensión, por ejemplo con Klenow exo-, y la ligación proporcionan una molécula reparada que conserva la secuencia de los salientes 3'.

La Fig. 3 ilustra una realización de la reparación de los salientes 3' de acuerdo con esta divulgación en la que los cebadores que tienen una secuencia aleatoria se aparean a un fragmento de ADN parcialmente de cadena doble. La extensión, por ejemplo con Klenow exo-, y la ligación proporcionan una molécula reparada que conserva la secuencia de los salientes 3'.

DESCRIPCIÓN DETALLADA DE CIERTAS REALIZACIONES

Los encabezados de las secciones que se usan en la presente tienen únicamente propósitos organizativos y no deben interpretarse como una limitación de la materia descrita.

DEFINICIONES

A menos que se defina lo contrario, los términos científicos y técnicos usados en relación con la presente divulgación tendrán el significado comúnmente entendido por los expertos en la técnica. Además, salvo que el contexto requiera lo contrario o se indique expresamente, los términos en singular incluirán los plurales y los términos en plural incluirán los singulares. En caso de conflicto en las definiciones entre varias fuentes o referencias, prevalecerá la definición proporcionada en la presente.

Antes de describir con detalle las enseñanzas de la presente, debe entenderse que la divulgación no se limita a composiciones o pasos de proceso específicos, ya que éstos pueden variar. Debe tenerse en cuenta que, como se usa en esta memoria descriptiva y en las reivindicaciones adjuntas, las formas singulares "un", "uno" y "el" incluyen referencias plurales a menos que el contexto indique claramente lo contrario. Así, por ejemplo, la referencia a "un oligómero" incluye una pluralidad de oligómeros y similares. En esta solicitud, el uso de "o" significa "y/o" a menos que se indique expresamente o sea entendido de otro modo por un experto en la técnica. En el contexto de una reivindicación dependiente múltiple, el uso de "o" remite a más de una reivindicación independiente o dependiente precedente.

Se apreciará que hay un "aproximadamente" implícito antes de las temperaturas, concentraciones, tiempos, etc. analizados en la presente divulgación, de manera que las desviaciones leves e insustanciales están dentro del alcance de las presentes enseñanzas. En general, el término "aproximadamente" indica una variación insustancial en la cantidad de un componente de una composición que no tiene ningún efecto significativo sobre la actividad o estabilidad de la composición. Además, no se pretende que el uso de "comprender", "comprende", "que comprende", "contener", "contiene", "que contiene", "incluir", "incluye" y "que incluye" sea limitativo. Debe entenderse que tanto la descripción general anterior como la descripción detallada son sólo ejemplares y explicativas y no son restrictivas de las enseñanzas.

A menos que se indique específicamente, las realizaciones de la memoria descriptiva que enumeran "que comprenden" varios componentes también se contemplan como "que consisten en" o "que consisten esencialmente en" los componentes enumerados; las realizaciones de la memoria descriptiva que enumeran "que consisten en" varios componentes también se contemplan como "que comprenden" o "que consisten esencialmente en" los componentes enumerados; y las realizaciones de la memoria descriptiva que enumeran "que consistente esencialmente en" varios componentes también se contemplan como que "consisten en" o "que comprenden" los componentes enumerados (esta intercambiabilidad no se aplica al uso de estos términos en las reivindicaciones).

Un sujeto se refiere a un animal, como una especie de mamífero (preferiblemente humano) o aviar (por ejemplo, un ave), u otro organismo, como una planta. Más concretamente, un sujeto puede ser un vertebrado, por ejemplo, un mamífero como un ratón, un primate, un simio o un humano. Los animales incluyen animales de granja, animales de deporte y mascotas. Un sujeto puede ser un individuo sano, un individuo que tiene o se sospecha que tiene una enfermedad o una predisposición a la enfermedad, o un individuo que necesita terapia o se sospecha que necesita terapia.

Una variante genética se refiere a una alteración, variante o polimorfismo en una muestra de ácido nucleico o genoma de un sujeto. Dicha alteración, variante o polimorfismo puede ser con respecto a un genoma de referencia, que puede ser un genoma de referencia del sujeto u otro individuo. Las variaciones incluyen una o más variaciones de un solo nucleótido (SNV), inserciones, deleciones, repeticiones, inserciones pequeñas, deleciones pequeñas, repeticiones pequeñas, uniones de variantes estructurales, repeticiones en tándem de longitud variable y/o secuencias flanqueantes, variantes en el número de copias (CNV), transversiones y otros reordenamientos también son formas de variación genética. Una variación puede ser un cambio de base, una inserción, una deleción, una repetición, una variación del número de copias, una transversión o una combinación de las mismas.

Un marcador de cáncer es una variante genética asociada con la presencia o el riesgo de desarrollar un cáncer. Un marcador de cáncer puede proporcionar indicación de que un sujeto tiene cáncer o un mayor riesgo de desarrollar cáncer que un sujeto de la misma edad y sexo de la misma especie. Un marcador de cáncer puede o no ser causante de cáncer.

Una etiqueta de ácido nucleico es un ácido nucleico corto (por ejemplo, de menos de 100, 50 o 10 nucleótidos de longitud), habitualmente de secuencia artificial y habitualmente ADN, que se usa para marcar fragmentos de ADN reparados para distinguir ácidos nucleicos que son (i) de muestras diferentes (por ejemplo, que representan un índice de muestra), (ii) de tipos diferentes, o (iii) que se han sometido a un procesamiento diferente. Las etiquetas pueden ser de cadena sencilla o doble. Las etiquetas nucleicas pueden descodificarse para revelar información como la muestra de origen, la forma o el procesamiento de un ácido nucleico. Las etiquetas pueden usarse para permitir la agrupación y el procesamiento en paralelo de múltiples ácidos nucleicos que lleven etiquetas diferentes, de tal manera que los ácidos nucleicos puedan deconvolucionarse posteriormente mediante la lectura de las etiquetas. Las etiquetas también pueden denominarse identificadores moleculares o códigos de barras.

Los adaptadores son ácidos nucleicos cortos (por ejemplo, de menos de 500, 100 o 50 nucleótidos de longitud y típicamente<a>D<n>) para ligarse a uno o ambos extremos de una molécula de fragmento de ADN reparado. Un adaptador puede proporcionarse, aunque no necesariamente, en forma de cadena doble para la ligación. Un adaptador también puede proporcionarse, por ejemplo, como un elemento 5' en un cebador (como un miembro de una población de cebadores con secuencia de hibridación de diana aleatorizada) donde puede ser, por ejemplo, de cadena sencilla, una horquilla o de cadena doble. Los adaptadores pueden incluir sitios de unión de cebadores para permitir la amplificación de una molécula de fragmento de ADN reparado flanqueada por adaptadores en ambos extremos, y/o un sitio de unión de cebadores de secuenciación, incluyendo sitios de unión de cebadores para un procedimiento de secuenciación de próxima generación. Los adaptadores también pueden incluir sitios de unión para sondas de captura, como un oligonucleótido unido a un soporte de celda de flujo. Los adaptadores también pueden incluir una etiqueta como se describe en la presente. Las etiquetas pueden colocarse con respecto a los sitios de unión del cebador y del cebador de secuenciación, de manera que la etiqueta se incluya en los amplicones y las lecturas de secuenciación de un fragmento de ADN reparado. A los extremos respectivos de una molécula de muestra pueden enlazarse adaptadores iguales o diferentes. A veces, el mismo adaptador se une a los extremos respectivos, excepto que la etiqueta es diferente. Un tipo ejemplar de adaptador es un adaptador en forma de Y en el que uno de los extremos tiene un extremo romo o una cola como se describe en la presente, para unirse a un ácido nucleico (por ejemplo, un fragmento de ADN reparado), que también tiene un extremo romo o una cola con un nucleótido complementario. Otro tipo ejemplar de adaptador es un adaptador en forma de campana, también con un extremo romo o con cola para unirse a un ácido nucleico que se va a analizar.

Un "fragmento de ADN parcialmente de cadena doble" se refiere a un ADN lineal que es parcialmente de cadena doble y parcialmente de cadena sencilla.

Un "saliente 3' " se refiere a uno o más nucleótidos consecutivos en el extremo 3' de un fragmento de ADN parcialmente de cadena doble que no están apareados con nucleótidos complementarios.

Los términos intercambiables "oligómero", "oligo" y "oligonucleótido" se refieren a un ácido nucleico que tiene generalmente menos de 1.000 residuos de nucleótidos (nt), incluyendo polímeros en un intervalo que tiene un límite inferior de aproximadamente 5 residuos de nt y un límite superior de aproximadamente 500 a 900 residuos de nt. En algunas realizaciones, los oligonucleótidos están en un intervalo de tamaño que tiene un límite inferior de aproximadamente 12 a 15 nt y un límite superior de aproximadamente 50 a 600 nt, y otras realizaciones están en un intervalo que tiene un límite inferior de aproximadamente 15 a 20 nt y un límite superior de aproximadamente 22 a 100 nt. Los oligonucleótidos pueden purificarse a partir de fuentes naturales o pueden sintetizarse usando cualquiera de una variedad de métodos enzimáticos o químicos bien conocidos. El término oligonucleótido no denota ninguna función particular del reactivo, sino que se usa genéricamente para cubrir todos los reactivos descritos en la presente. Un oligonucleótido puede desempeñar varias funciones diferentes. Por ejemplo, puede funcionar como cebador si es capaz de hibridar con una cadena complementaria y además puede extenderse en presencia de una polimerasa de ácido nucleico; y puede funcionar para detectar un ácido nucleico diana si es capaz de hibridar con el ácido nucleico diana, o un amplicón del mismo, y proporciona además una fracción detectable (por ejemplo, un fluoróforo).

Un "cebador" es un oligonucleótido con un extremo 3' capaz de ser extendido por una polimerasa.

Una población de cebadores que "comprende una secuencia de hibridación con la diana aleatoria" es una pluralidad de cebadores en los que la secuencia de hibridación con la diana es variable en lugar de constante. Por ejemplo, una secuencia de hibridación con la diana aleatoria puede comprender por lo menos cuatro posiciones que varían a lo largo de la población, como se explica en detalle en otras partes de la presente.

Una "ADN polimerasa" es una enzima capaz de extender un cebador apareado a una plantilla añadiendo nucleótidos al extremo 3' del cebador que son complementarios a la plantilla (entendiendo que las polimerasas generalmente tienen una tasa de error, como se conoce en la técnica).

"Actividad de exonucleasa de 3' a 5' " se refiere a una actividad enzimática que elimina nucleótidos del extremo 3' de un ácido nucleico.

"Actividad de exonucleasa de 5' a 3' " se refiere a una actividad enzimática que elimina nucleótidos del extremo 5' de un ácido nucleico.

Una enzima o polipéptido "carece" de actividad enzimática si la actividad no puede detectarse en un ensayo estándar para dicha actividad. Por ejemplo, una actividad de exonucleasa puede evaluarse proporcionando un sustrato de ácido nucleico adecuado en el que el nucleótido terminal 3' o 5', según sea el caso, esté marcado, y determinando si la enzima elimina el marcador detectablemente. En la presente, la designación "exo" se usa como abreviatura de una polimerasa que carece de actividad de exonucleasa.

Una "etiqueta" se refiere a cualquier secuencia añadida a una molécula de ácido nucleico, por ejemplo, mediante la incorporación de un elemento 5' de un cebador o mediante ligación. Las etiquetas pueden tener varias funciones, como servir de sitios de unión para cebadores en reacciones posteriores o servir como código de barras o índice que proporcione información sobre la muestra o el procesamiento de una molécula o identifique la molécula (independientemente o en combinación con la secuencia endógena de la molécula) y los productos de replicación o amplificación de la misma.

Por "ADN libre de células" ("ADNcf") se entiende el ADN no contenido en una célula en el momento de su aislamiento de un sujeto.

"Purificar" se refiere a separar un analito de interés, como una molécula de ADN reparada, de por lo menos otro componente de una composición, por ejemplo, cebadores, enzimas, sales, nucleótidos y similares. La "purificación" abarca cualquier procedimiento en el que la separación da como resultado una composición que comprende el analito de interés en una proporción de concentración relativa al otro componente o componentes que es mayor que en la composición de partida.

El ADN "modificado epigenéticamente" comprende una o más modificaciones de sus nucleótidos originadas in vivo. La 5-metilación y la 5-hidroximetilación de la citosina son ejemplos de ADN modificado epigenéticamente.

DESCRIPCIÓN DETALLADA

1. Visión general

Las muestras de ácido nucleico a menudo contienen fragmentos de ácido nucleico parcialmente de cadena doble con salientes de cadena sencilla que requieren procesamiento para prepararlos para la secuenciación, como la secuenciación de alto rendimiento o la secuenciación de próxima generación. Mientras que los salientes 5' pueden repararse mediante una simple reacción de extensión (consultar la Fig. 1), que no da como resultado la pérdida de información de la secuencia, la reparación convencional de los salientes 3' se ha basado en la exonucleólisis, que sí elimina la secuencia del fragmento.

La invención proporciona métodos mejorados de reparación de salientes 3', por ejemplo, que pueden retener la secuencia de todo o una parte sustancial de un saliente 3'. En algunas realizaciones, los métodos comprenden poner en contacto el fragmento de ADN parcialmente de cadena doble que comprende un saliente 3' con uno o más cebadores de una población de cebadores, en donde la población de cebadores comprende una secuencia de hibridación con la diana aleatoria. Uno o más miembros de la población de cebadores pueden aparearse con el fragmento de ADN parcialmente de cadena doble y experimentar extensión, produciendo de este modo uno o más cebadores extendidos apareados con el fragmento de a Dn . Un cebador extendido apareado con el fragmento de ADN junto con el extremo 5' de otro cebador extendido o una cadena del fragmento de<a>D<n>parcialmente de cadena doble puede formar un sustrato para la ligación. La ligación proporciona entonces el fragmento de ADN reparado. Los expertos en la técnica estarán familiarizados con las condiciones apropiadas para cada una de las manipulaciones individuales de tales métodos, por ejemplo, el apareamiento de cebadores con una secuencia de hibridación con la diana aleatoria a una molécula de ADN, la extensión de los cebadores al extremo 5' de otro segmento de ADN y la ligación de los cebadores extendidos a ese extremo 5'.

En algunas realizaciones, un cebador se extiende hasta el extremo 5' de una cadena del fragmento de ADN parcialmente de cadena doble y luego se liga al extremo 5' de la cadena del fragmento de ADN parcialmente de cadena doble. En algunas realizaciones, un primer cebador se extiende hasta el extremo 5' de una cadena del fragmento de ADN parcialmente de cadena doble; un segundo cebador se extiende hasta el extremo 5' del primer cebador; y a continuación el primer cebador se liga al extremo 5' de la cadena del fragmento de ADN parcialmente de cadena doble y el segundo cebador se liga al extremo 5' del primer cebador.

En algunas realizaciones, por lo menos los pasos (a)-(c) de los métodos descritos en la presente se llevan a cabo en un único tubo.

En algunas realizaciones, el fragmento de ADN de cadena doble se encuentra en una composición y para por lo menos los pasos (a)-(c) no se elimina ningún componente de la composición.

2. Fragmentos de ADN parcialmente de cadena doble

En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble tiene salientes 3' en cada extremo. En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble tiene un saliente 3' y (i) un extremo romo o (ii) un saliente 5'. En algunas realizaciones, el saliente 5' se repara extendiendo el extremo 3' a lo largo del saliente 5'.

En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble es un fragmento de ADNcf. En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble es de mamífero. En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble es humano. En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble procede de una muestra de fluido corporal. En realizaciones adicionales, el fluido corporal es sangre entera, suero o plasma.

En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble forma parte de una población de fragmentos de ADN en una composición. En otras realizaciones, la población de fragmentos de ADN comprende ADN cizallado. En realizaciones adicionales, la población de fragmentos de ADN comprende ADN modificado epigenéticamente. En algunas realizaciones, la población de fragmentos de ADN comprende fragmentos de una pluralidad de loci genómicos, por ejemplo, por lo menos 10, 100, 1000 o 10000 loci genómicos. En algunas realizaciones, la población de fragmentos de ADN no está enriquecida. Una población no está enriquecida cuando no ha sido sometida a un procedimiento que aumente la prevalencia de algunos fragmentos con respecto a otros, como la amplificación con cebadores específicos de secuencia o la captura de diana con sondas de captura específicas de secuencia. En algunas realizaciones, la población de fragmentos de ADN no está amplificada, lo que significa que no ha sido sometida a ningún procedimiento de amplificación. El ADN no amplificado puede usarse para conservar información epigenética como la metilación del ADN.

En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble está contenido o se obtiene de una muestra. Una muestra puede ser cualquier muestra biológica aislada de un sujeto. Las muestras pueden incluir tejidos corporales, como tumores sólidos conocidos o sospechosos, sangre completa, plaquetas, suero, plasma, heces, glóbulos rojos, glóbulos blancos o leucocitos, células endoteliales, biopsias de tejidos, líquido cefalorraquídeo, líquido sinovial, líquido linfático, líquido de ascitis, líquido intersticial o extracelular, el líquido de los espacios entre células, incluido el líquido crevicular gingival, médula ósea, derrames pleurales, líquido cefalorraquídeo, saliva, mucosa, esputo, semen, sudor, orina. Las muestras son preferentemente fluidos corporales, en particular sangre y fracciones de los mismos, y orina. Una muestra puede estar en la forma originalmente aislada de un sujeto o puede haber sido sometida a un procesamiento posterior para eliminar o añadir componentes, como células, o enriquecer para un componente con respecto a otro. En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble procede de una muestra de fluido corporal. En otras realizaciones, el fluido corporal es sangre completa, suero o plasma.

En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble procede de una muestra de plasma. El volumen de plasma puede depender de la profundidad de lectura deseada para las regiones secuenciadas. Los volúmenes ejemplares son 0,4-40 ml, 5-20 ml, 10-20 ml. Por ejemplo, el volumen puede ser de 0,5 ml, 1 ml, 5 ml 10 ml, 20 ml, 30 ml o 40 ml. Un volumen de plasma muestreado puede ser, por ejemplo, de 5 a 20 ml.

Una muestra puede comprender varias cantidades de ADN que contengan equivalentes genómicos. Por ejemplo, una muestra de aproximadamente 30 ng de ADN puede contener aproximadamente 10.000 equivalentes de genoma humano haploide y, en el caso de ADN libre de células (ADNcf), aproximadamente 200 mil millones de moléculas individuales de ácido nucleico. De manera similar, una muestra de aproximadamente 100 ng de ADN puede contener aproximadamente 30.000 equivalentes de genoma humano haploide y, en el caso del ADN libre de células (ADNcf), aproximadamente 600 mil millones de moléculas individuales. Algunas muestras contienen 1-500, 2-100, 5 150 ng de ADN libre de células, por ejemplo, 5-30 ng, o 10-150 ng de ADN libre de células.

Una muestra puede comprender ADN de diferentes fuentes. Por ejemplo, una muestra puede comprender ADN de la línea germinal o ADN somático. Una muestra puede comprender ADN portador de mutaciones. Por ejemplo, una muestra puede comprender ADN portador de mutaciones de la línea germinal y/o mutaciones somáticas. Una muestra también puede comprender ADN portador de mutaciones asociadas al cáncer (por ejemplo, mutaciones somáticas asociadas al cáncer).

Las cantidades ejemplares de ADN libre de células (ADNcf) en una muestra antes de la amplificación varían entre aproximadamente 1 fg y aproximadamente 1 ug, por ejemplo, de 1 pg a 200 ng, de 1 ng a 100 ng, de 10 ng a 1000 ng. Por ejemplo, la cantidad puede ser de hasta aproximadamente 600 ng, hasta aproximadamente 500 ng, hasta aproximadamente 400 ng, hasta aproximadamente 300 ng, hasta aproximadamente 200 ng, hasta aproximadamente 100 ng, hasta aproximadamente 50 ng, o hasta aproximadamente 20 ng de moléculas de ácido nucleico libres de células. La cantidad puede ser de por lo menos 1 fg, por lo menos 10 fg, por lo menos 100 fg, por lo menos 1 pg, por lo menos 10 pg, por lo menos 100 pg, por lo menos 1 ng, por lo menos 10 ng, por lo menos 100 ng, por lo menos 150 ng, o por lo menos 200 ng de moléculas de ácido nucleico libres de células. La cantidad puede ser de hasta 1 femtogramo (fg), 10 fg, 100 fg, 1 picogramo (pg), 10 pg, 100 pg, 1 ng, 10 ng, 100 ng, 150 ng o 200 ng de moléculas de ADN libre de células. El método puede comprender la obtención de 1 femtogramo (fg) a 200 ng.

En algunas realizaciones, la muestra de fluido corporal es de 5-10 ml de sangre completa, plasma o suero, que incluye aproximadamente 30 ng de ADN o aproximadamente 10.000 equivalentes de genoma haploide.

En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble forma parte de una población de fragmentos de ADN en una composición. En realizaciones adicionales, la población de fragmentos de ADN comprende ADN cizallado. En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble es un fragmento de ADNcf.

El ADN libre de células es el ADN que no está contenido dentro ni unido de otro modo a una célula o, en otras palabras, los ácidos nucleicos que quedan en una muestra después de eliminar las células intactas. El ADN libre de células puede ser de cadena doble, de cadena sencilla o un híbrido de los mismos. En algunas realizaciones, el fragmento de ADNcf comprende moléculas de ADN de cadena doble, por lo menos algunas de las cuales tienen salientes de cadena sencilla. Un ADN libre de células puede liberarse al fluido corporal a través de procesos de secreción o muerte celular, por ejemplo, necrosis celular y apoptosis. Algunos ADN libres de células se liberan en el fluido corporal desde células cancerosas, por ejemplo, el ADN tumoral circulante (ADNtc). Otros son liberados por células sanas.

Un ADN libre de células puede tener una o más modificaciones epigenéticas, por ejemplo, un ácido nucleico libre de células puede estar acetilado, metilado, ubiquitinilado, fosforilado, sumoilado, ribosilado y/o citrulinado. En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble forma parte de una población de fragmentos de ADN en una composición, donde la población de fragmentos de ADN comprende ADN modificado epigenéticamente. El ADN libre de células tiene una distribución de tamaños de aproximadamente 100-500 nucleótidos, en particular de 110 a aproximadamente 230 nucleótidos, con una moda de aproximadamente 168 nucleótidos y un segundo pico menor en un intervalo entre 240 y 440 nucleótidos.

El ADN libre de células puede aislarse de fluidos corporales mediante un paso de partición en el que el ADN libre de células, tal y como se encuentra en la solución, se separa de las células intactas y de otros componentes no solubles del fluido corporal. La separación puede incluir técnicas como centrifugación o filtración. Alternativamente, las células de los fluidos corporales pueden lisarse y los ácidos nucleicos celulares y libres de células procesarse conjuntamente. Generalmente, tras la adición de tampones y pasos de lavado, los ácidos nucleicos pueden precipitarse con un alcohol. Pueden usarse pasos de limpieza adicionales, como columnas a base de sílice para eliminar contaminantes o sales. A lo largo de la reacción pueden añadirse, por ejemplo, ácidos nucleicos portadores a granel no específicos para optimizar ciertos aspectos del procedimiento, como el rendimiento.

Tras dicho procesamiento, las muestras pueden incluir varias formas de ADN, incluyendo ADN de cadena doble y ADN de cadena sencilla. Opcionalmente, el ADN de cadena sencilla puede convertirse en formas de cadena doble para que se incluyan en los pasos posteriores de procesamiento y análisis.

3. ADN polimerasas

En algunas realizaciones, la ADN polimerasa carece de actividad de exonucleasa 3' a 5'. En algunas realizaciones, la ADN polimerasa carece de actividad de exonucleasa 5' a 3'. En algunas realizaciones, la ADN polimerasa carece de actividad de desplazamiento de cadena. Para el paso (b) de los métodos descritos en la presente puede usarse como ADN polimerasa cualquier ADN polimerasa conocida en la técnica que sea capaz de actividad 5'-3' polimerasa y que carezca de actividad 3' a 5' exonucleasa, actividad 5' a 3' exonucleasa y actividad de desplazamiento de cadena. En algunas realizaciones, la ADN polimerasa es un fragmento de Klenow. En algunas realizaciones, la ADN polimerasa es un fragmento exo-Klenow.

4. Cebadores

En algunas realizaciones, los cebadores de la población de cebadores son de cadena sencilla.

En algunas realizaciones, los cebadores de la población de cebadores comprenden una horquilla o una región de cadena doble. En algunas realizaciones, los cebadores de la población de cebadores son de cadena doble con un saliente 3' y la secuencia de hibridación con la diana aleatoria se encuentra en el saliente 3'. En algunas realizaciones, los cebadores de la población de cebadores son horquillas con un saliente de 3' y la secuencia de hibridación con la diana aleatoria se encuentra en el saliente de 3'.

En algunas realizaciones, los cebadores de la población de cebadores comprenden un adaptador. En algunas realizaciones, la horquilla o la región de cadena doble de los cebadores comprende un adaptador.

En algunas realizaciones, el adaptador incluye una etiqueta como la descrita en la presente. En algunas realizaciones, el adaptador incluye una etiqueta. En realizaciones adicionales, la etiqueta comprende un código de barras. En realizaciones adicionales, la población de cebadores comprende una pluralidad de códigos de barras diferentes.

Pueden enlazarse adaptadores iguales o diferentes a los extremos respectivos de un fragmento de ADN reparado. A veces, el mismo adaptador se enlaza a los extremos respectivos, excepto que la etiqueta es diferente. En algunas realizaciones, el adaptador es un adaptador con forma de Y. En algunas realizaciones, el adaptador es un adaptador con forma de campana. Los adaptadores usados en la presente se describen con más detalle a continuación (Sección 6 ).

En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de por lo menos 4, 5, 6 , 7, 8 , 9 o 10 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de por lo menos 4 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de por lo menos 5 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de por lo menos 6 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de por lo menos 7 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de por lo menos 8 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de por lo menos 9 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de por lo menos 10 nucleótidos.

En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de aproximadamente 4, 5, 6 , 7, 8 , 9, 10, 11 o 12 nucleótidos. En algunas realizaciones, la secuencia de hibridación de diana aleatoria tiene una longitud de aproximadamente 4 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de aproximadamente 5 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de aproximadamente 6 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de aproximadamente 7 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de aproximadamente 8 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de aproximadamente 9 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de aproximadamente 10 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de aproximadamente 11 nucleótidos. En algunas realizaciones, la secuencia de hibridación con la diana aleatoria tiene una longitud de aproximadamente 12 nucleótidos.

En cualquier realización descrita en la presente, la población de cebadores puede comprender miembros en donde aparecen cada una de las cuatro bases diferentes (por ejemplo, A, C, T y G) en cada posición de la secuencia de hibridación de diana aleatoria. Dicho de otro modo, en diferentes miembros de la población de cebadores, cada una de las cuatro bases puede aparecer en cada posición de la secuencia de hibridación de diana aleatoria. Un experto en la técnica reconocerá que puede usarse U en lugar de T, y/o bases modificadas (por ejemplo, citosina metilada, pseudouridina, etc.) con la misma preferencia de emparejamiento de bases que una base no modificada; como tal, T abarca U y A, C, T y G abarcan, cada una, formas modificadas de las mismas que conservan la misma preferencia de emparejamiento de bases que la base no modificada.

En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble comprende dos salientes 3' que se reparan cada uno como se divulga en la presente.

En algunas realizaciones, el fragmento de ADN parcialmente de cadena doble comprende un saliente 3' y un saliente 5'. El saliente 5' puede repararse, por ejemplo, extendiendo el extremo 3' rebajado a lo largo del saliente 5'. En algunas realizaciones, esta extensión se realiza por la misma polimerasa que extiende uno o más cebadores a lo largo del saliente 3'.

En algunas realizaciones, el fragmento de ADN reparado comprende uno o dos extremos romos. En algunas realizaciones, tras la reacción de ligación descrita en la presente, cualquier saliente restante se repara adicionalmente, por ejemplo, usando una exonucleasa adecuada (por ejemplo, una exonucleasa de 3' a 5'). Esto puede dar como resultado la pérdida de una pequeña cantidad de secuencia pero, no obstante, conserva una cantidad sustancial de secuencia que originalmente formaba parte de un saliente 3', a la vez que proporciona una molécula con extremos romos que puede someterse a manipulación adicional.

En algunas realizaciones, el fragmento de ADN reparado se somete a una prolongación de extremos, por ejemplo, usando una polimerasa que realiza una adición no dirigida por plantilla de un nucleótido a los extremos 3' de los ácidos nucleicos con extremos romos, opcionalmente en donde A se añade preferencialmente a G preferencialmente a C o T. Esta polimerasa puede carecer de una función de lectura de prueba y/o puede ser termoestable para permanecer activa a temperatura elevada. Las polimerasas Taq, Bst de fragmento grande y Tth son ejemplos de tales polimerasas. Aunque la mezcla de reacción contiene típicamente cantidades molares iguales de cada uno de los cuatro tipos de nucleótidos estándar del paso anterior, los cuatro tipos de nucleótidos no se añaden a los extremos 3' en proporciones iguales. Más bien, la A es la que se añade con más frecuencia, seguido de G, seguido de C y de T.

Cuando sea aplicable, la terminación roma y la prolongación de los fragmentos de ADN reparados pueden realizarse en un único tubo. No es necesario separar los ácidos nucleicos con extremos romos de la enzima o enzimas que realizan la adición de extremos romos antes de que se produzca la reacción de prolongación. Opcionalmente, todas las enzimas, nucleótidos y otros reactivos se suministran juntos antes de que se produzca la reacción de adición de extremos romos. El suministro conjunto significa que todos se introducen en la muestra lo suficientemente cerca en el tiempo como para que todos estén presentes cuando se produce la incubación de la muestra para que tenga lugar la adición de extremoso romos. Opcionalmente, no se retira nada de las muestras después de suministrar las enzimas, nucleótidos y otros reactivos, por lo menos hasta que se hayan completado las incubaciones de adición de extremos romos y de prolongación. A menudo, la reacción de prolongación se realiza a una temperatura más alta que la reacción de adición de extremos romos. Por ejemplo, la reacción de adición de extremos romos puede realizarse a temperatura ambiente en la que la 5'-3' polimerasa y la 3'-5' exonucleasa están activas y la polimerasa termoestable está inactiva o mínimamente activa, y la reacción de prolongación de extremos se realiza a una temperatura elevada, como más de 60° C, cuando la 5'-3' polimerasa y la 3'-5' exonucleasa están inactivas y la polimerasa termoestable está activa.

En algunas realizaciones, después de la reparación y/o después de cualquier otro paso de procesamiento, la enzima o enzimas (por ejemplo, polimerasa, ligasa, y/o exonucleasa) se desnaturalizan, por ejemplo, por desnaturalización térmica. Por ejemplo, la desnaturalización puede efectuarse elevando la temperatura a, por ejemplo, 75°-80° C.

5. Enlazar fragmentos de ADN reparados a adaptadores

En algunas realizaciones, después de la reparación, con o sin purificación posterior de las moléculas de muestra con cola, las moléculas de muestra con cola se ponen en contacto con adaptadores. Por ejemplo, después de la prolongación de los fragmentos de ADN reparados, las moléculas de muestra con cola pueden ponerse en contacto con adaptadores con cola con nucleótidos T y C complementarios en un extremo de los adaptadores. En otro ejemplo, los fragmentos de ADN reparados con extremos romos pueden ponerse en contacto con adaptadores que tengan extremos romos.

Los adaptadores pueden formarse por síntesis y apareamiento separados de sus respectivas cadenas. Las colas T y C adicionales, cuando se usan, pueden añadirse como un nucleótido más en la síntesis de una de las cadenas. Típicamente, los adaptadores con colas G y A no se incluyen porque, aunque estos adaptadores podrían aparearse con moléculas de muestra con colas C y T respectivamente, también se aparearían con otros adaptadores. Las moléculas adaptadoras y las moléculas de muestra que llevan nucleótidos complementarios (es decir, T-A y C-G) en sus extremos 3' se aparean y pueden ligarse entre sí. El porcentaje de adaptadores con cola C con respecto a los adaptadores con cola T puede variar entre el 5-40% en moles, por ejemplo, 10-35%, 15-25%, 20-35%, 25-35% o aproximadamente el 30%. Debido a que la adición no dirigida por plantilla de un solo nucleótido a los extremos 3' de las moléculas de muestra no continua hasta la finalización, la muestra también puede contener algunas moléculas de muestra con extremos romos sin cola. Estas moléculas pueden recuperarse suministrando también a la muestra adaptadores que tengan uno y, preferiblemente, sólo un extremo romo. Los adaptadores de extremo romo pueden suministrarse en una proporción molar del 0,2-20%, o del 0,5-15% o del 1-10% de adaptadores con adaptadores con cola T y C. Los adaptadores con extremos romos pueden suministrarse al mismo tiempo, antes o después de los adaptadores con cola T y C. Los adaptadores de extremo romo se ligan con moléculas de muestra de extremo romo, dando lugar a moléculas de muestra flanqueadas a ambos lados por adaptadores. Estas moléculas carecen de los pares de nucleótidos A-T o C-G entre la muestra y los adaptadores presentes cuando las moléculas de muestra con cola se ligan a adaptadores con cola.

Los adaptadores usados en estas reacciones tienen preferiblemente uno y sólo un extremo con cola T o C o uno y sólo un extremo romo de manera que puedan ligarse con moléculas de muestra en una única orientación. Los adaptadores pueden ser, por ejemplo, adaptadores con forma de Y en los que un extremo tiene cola o es romo y el otro extremo tiene dos cadenas sencillas. Los adaptadores con forma de Y ejemplares tienen secuencias como las siguientes con (6 bases) indicando una etiqueta. El oligonucleótido superior incluye una cola T de una sola base.

Adaptador universal:

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGAT

CT (SEQ ID NO 1).

Adaptador, Índice 1-12: 5' GATCGGAAGAGCACACGTCTGAACTCCAGTCAC (6 bases) ATCTCGTATGCCGTCT-TCTGCTTG (SEQ ID NO. 2)

Otro adaptador con forma de Y con una cola C tiene las secuencias 5'AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTT CCGATCC (SEQ ID NO. 3) y Adaptador, Índice 1-12: 5'

GATCGGAAGCACCACGTCTGAACTCCAGTCAC

(6 bases) ATCTCGTATGCCGTCTTCTGCTTG (SEQ ID NO. 2)

Pueden sintetizarse combinaciones personalizadas de dichos oligonucleótidos, incluyendo oligonucleótidos con colas tanto T como C, para su uso en los presentes métodos.

Una versión truncada de estas secuencias adaptadoras ha sido descrita por Rohland et al., Genome Res. Mayo 2012; 22(5): 939-946.

Los adaptadores también pueden tener forma de campana con un solo extremo en forma de cola o romo. Los adaptadores pueden incluir un sitio de unión del cebador para la amplificación, un sitio de unión para un cebador de secuenciación y/o una etiqueta de ácido nucleico para propósitos de identificación. En una única reacción pueden usarse el mismo adaptador o adaptadores diferentes.

Cuando los adaptadores incluyen una etiqueta de identificación y los ácidos nucleicos de una muestra se unen a los adaptadores en cada extremo, el número de combinaciones potenciales de identificadores aumenta exponencialmente con el número de etiquetas únicas suministradas (es decir, nn combinaciones, donde n es el número de etiquetas de identificación únicas). En algunos métodos, el número de combinaciones de etiquetas únicas es suficiente para que sea estadísticamente probable que todas o sustancialmente todas (por ejemplo, por lo menos el 90%) de las diferentes moléculas de ADN de cadena doble de la muestra reciban una combinación diferente de etiquetas. En algunos métodos, el número de combinaciones únicas de etiquetas identificadoras es inferior al número de moléculas de ADN de cadena doble únicas de la muestra (por ejemplo, 5-10.000 combinaciones diferentes de etiquetas).

Un kit que proporciona enzimas adecuadas para realizar los métodos anteriores es el NEBNext® Ultra™ II DNA Library Prep Kit para Illumina®. El kit proporciona los siguientes reactivos: NEBNext Ultra II End Prep Enzyme Mix, NEBNext Ultra II End Prep Reaction Buffer, NEBNext Ligation Enhancer, NEBNext Ultra II Ligation Master Mix -20, NEBNext® Ultra II Q5® Master Mix.

La unión de adaptadores con cola T y C como se ha descrito puede dar como resultado una población de ácidos nucleicos adaptados, la población comprendiendo una pluralidad de moléculas de ácido nucleico, cada una de las cuales comprende un fragmento de ácido nucleico flanqueado a ambos lados por un adaptador que incluye un código de barras con un par de bases A/T o G/C entre el fragmento de ácido nucleico y el adaptador. La pluralidad de moléculas de ácido nucleico puede ser de por lo menos, 10.000, 100.000 o 1.000.000 moléculas. La mayoría de los ácidos nucleicos de la población pueden estar flanqueados por adaptadores con diferentes códigos de barras (por ejemplo, por lo menos el 99%). Si también se incluyen adaptadores de extremos romos, entonces la población que incluye moléculas de ácido nucleico en un fragmento de ácido nucleico se une directamente en uno o ambos extremos a un adaptador (es decir, no interviene ningún par A/T o G/C).

6. Amplificación

Los fragmentos de ADN reparados flanqueados por adaptadores pueden amplificarse mediante PCR u otro método de amplificación, por ejemplo, cebarse a partir de cebadores que se unen a sitios de unión de cebadores en adaptadores que flanquean un ácido nucleico a amplificar. Los métodos de amplificación pueden implicar ciclos de extensión, desnaturalización y apareamiento resultantes de termociclado o pueden ser isotérmicos como en la amplificación mediada por transcripción. Otros métodos de amplificación incluyen la reacción en cadena de la ligasa, la amplificación por desplazamiento de cadena, la amplificación basada en la secuencia del ácido nucleico y la replicación autosostenida basada en la secuencia.

En algunas realizaciones, los métodos descritos en la presente comprenden además, después del paso (a)-(c), amplificar los fragmentos de ADN reparados. En realizaciones adicionales, el fragmento de ADN reparado comprende uno o más adaptadores (por ejemplo, dos adaptadores) y la amplificación del fragmento de ADN reparado usa uno o más (por ejemplo, dos) oligómeros de amplificación que se unen a uno o más adaptadores.

Cuando se realiza un paso de enriquecimiento (como se analiza en otras partes de la presente), la amplificación puede preceder y/o seguir al paso de enriquecimiento. En algunas realizaciones, los métodos comprenden amplificar los fragmentos reparados, la realización de un paso de enriquecimiento para proporcionar fragmentos enriquecidos y, a continuación, la amplificación adicional de los fragmentos reparados enriquecidos.

7. Etiquetas

En algunas realizaciones, las moléculas de ácido nucleico (de la muestra de polinucleótidos) pueden etiquetarse con índices de muestra y/o códigos de barras moleculares (denominados generalmente "etiquetas"). Las etiquetas pueden incorporarse o unirse de otro modo a los adaptadores mediante síntesis química, ligación (por ejemplo, ligación de extremo romo o ligación de extremo pegajoso) o reacción en cadena de la polimerasa (PCR) de extensión solapada, entre otros métodos. Tales adaptadores pueden unirse finalmente a la molécula de ácido nucleico diana. En otras realizaciones, generalmente se aplican una o más rondas de ciclos de amplificación (por ejemplo, amplificación por PCR) para introducir índices de muestra en una molécula de ácido nucleico usando métodos convencionales de amplificación de ácidos nucleicos. Las amplificaciones pueden llevarse a cabo en una o más mezclas de reacción (por ejemplo, una pluralidad de micropocillos en una matriz). Los códigos de barras moleculares y/o los índices de muestra pueden introducirse simultáneamente o en cualquier orden secuencial. En algunas realizaciones, los códigos de barras moleculares y/o los índices de muestra se introducen antes y/o después de realizar los pasos de captura de secuencia. En algunas realizaciones, sólo se introducen los códigos de barras moleculares antes de la captura de la sonda y los índices de la muestra se introducen después de realizar los pasos de captura de la secuencia. En algunas realizaciones, tanto los códigos de barras moleculares como los índices de muestra se introducen antes de realizar los pasos de captura basados en la sonda. En algunas realizaciones, los índices de muestra se introducen después de realizar los pasos de captura de la secuencia. En algunas realizaciones, los códigos de barras moleculares se incorporan a las moléculas de ácido nucleico (por ejemplo, moléculas de ADNcf) en una muestra a través de adaptadores mediante ligación (por ejemplo, ligación de extremo romo o ligación de extremo pegajoso). En algunas realizaciones, los índices de muestra se incorporan a las moléculas de ácido nucleico (por ejemplo, moléculas de ADNcf) de una muestra mediante la reacción en cadena de la polimerasa (PCR) de extensión solapada. Típicamente, los protocolos de captura de secuencias implican la introducción de una molécula de ácido nucleico de cadena sencilla complementaria a una secuencia de ácido nucleico diana, por ejemplo, una secuencia codificante de una región genómica y la mutación de dicha región se asocia a un tipo de cáncer.

En algunas realizaciones, las etiquetas pueden estar situadas en un extremo o en ambos extremos de la molécula de ácido nucleico de la muestra. En algunas realizaciones, las etiquetas son oligonucleótidos de secuencia predeterminada, aleatoria o semialeatoria. En algunas realizaciones, las etiquetas pueden tener menos de 500, 200, 100, 50, 20, 10, 9, 8 , 7, 6 , 5, 4, 3, 2 o 1 nucleótidos de longitud. Las etiquetas pueden unirse a los ácidos nucleicos de la muestra aleatoria o no aleatoriamente.

En algunas realizaciones, cada muestra se etiqueta de manera única con un índice de muestra o una combinación de índices de muestra. En algunas realizaciones, cada molécula de ácido nucleico de una muestra o submuestra se etiqueta de manera única con un código de barras molecular o una combinación de códigos de barras moleculares. En otras realizaciones, puede usarse una pluralidad de códigos de barras moleculares de tal manera que los códigos de barras moleculares no sean necesariamente únicos entre sí en la pluralidad (por ejemplo, códigos de barras moleculares no únicos). En estas realizaciones, los códigos de barras moleculares se unen generalmente (por ejemplo, por ligación) a moléculas individuales de tal manera que la combinación del código de barras molecular y la secuencia a la que puede estar unido crea una secuencia única que puede rastrearse individualmente. La detección de códigos de barras moleculares no marcados de manera única en combinación con la información de la secuencia endógena (por ejemplo, las posiciones inicial (inicio) y/o final (parada) correspondientes a la secuencia de la molécula de ácido nucleico original de la muestra, las subsecuencias de las lecturas de la secuencia en uno o ambos extremos, la longitud de las lecturas de la secuencia y/o la longitud de la molécula de ácido nucleico original de la muestra) permite típicamente la asignación de una identidad única a una molécula particular. La longitud, o el número de pares de bases, de una lectura de secuencia individual también se usan opcionalmente para asignar una identidad única a una molécula determinada. Como se describe en la presente, los fragmentos de una única cadena de ácido nucleico a los que se ha asignado una identidad única pueden permitir la identificación posterior de fragmentos de la cadena original y/o de una cadena complementaria.

En algunas realizaciones, los códigos de barras moleculares se introducen en una proporción esperada de un conjunto de identificadores (por ejemplo, una combinación de códigos de barras moleculares únicos o no únicos) con respecto a las moléculas de una muestra. Un formato de ejemplo usa de aproximadamente 2 a aproximadamente 1.000.000 de códigos de barras moleculares diferentes, o de aproximadamente 5 a aproximadamente 150 códigos de barras moleculares diferentes, o de aproximadamente 20 a aproximadamente 50 códigos de barras moleculares diferentes. Alternativamente, pueden usarse de aproximadamente 25 a aproximadamente 1.000.000 códigos de barras moleculares diferentes. Los códigos de barras moleculares pueden ligarse a ambos extremos de una molécula diana. Por ejemplo, pueden usarse 20-50 x 20-50 códigos de barras moleculares. En algunas realizaciones, pueden usarse 20-50 códigos de barras moleculares diferentes. En algunas realizaciones, pueden usarse 5-100 códigos de barras moleculares diferentes, En algunas realizaciones, pueden usarse 5-150 códigos de barras moleculares. En algunas realizaciones, pueden usarse 5-200 códigos de barras moleculares diferentes. Tales números de identificadores son típicamente suficientes para que diferentes moléculas que tienen los mismos puntos de inicio y parada tengan una alta probabilidad (por ejemplo, por lo menos un 94%, 99,5%, 99,99% o 99,999%) de recibir diferentes combinaciones de identificadores. En algunas realizaciones, aproximadamente el 80%, aproximadamente el 90%, aproximadamente el 95% o aproximadamente el 99% de las moléculas tienen las mismas combinaciones de códigos de barras moleculares.

En algunas realizaciones, la asignación de códigos de barras moleculares únicos o no únicos en las reacciones se lleva a cabo usando métodos y sistemas descritos en, por ejemplo, las Solicitudes de Patente de Estados Unidos N° 20010053519, 20030152490, y 20110160078, y las Patentes de Estados Unidos N° 6.582.908, 7.537.898, 9.598.731, y 9.902.992. Alternativamente, en algunas realizaciones, pueden identificarse diferentes moléculas de ácido nucleico de una muestra usando únicamente información de secuencia endógena (por ejemplo, posiciones de inicio y/o parada, subsecuencias de uno o ambos extremos de una secuencia, y/o longitudes).

Por consiguiente, la presente divulgación también proporciona composiciones de fragmentos de ADN reparados y etiquetados producidos por un método descrito en la presente. Los polinucleótidos pueden comprender ADN fragmentado, por ejemplo, ADNcf. Un conjunto de polinucleótidos en la composición que se mapean a una posición de base mapeable en un genoma puede ser etiquetado de manera no única, es decir, el número de identificadores diferentes puede ser por lo menos 2 y menor que el número de polinucleótidos que se mapean a la posición de base mapeable. Una composición de entre aproximadamente 10 ng a aproximadamente l0 pg (por ejemplo, cualquiera de entre aproximadamente 10 ng-1 pg, aproximadamente 10 ng-100 ng, aproximadamente 100 ng-l0 pg, aproximadamente 100 ng-1 pg, aproximadamente 1 pg-10 pg) puede llevar entre 2 , 5, 10, 50 o 100 a cualquiera de 100, 1000, 10.000 o 100.000 identificadores diferentes. Por ejemplo, pueden usarse entre 5 y 100 o entre 100 y 4000 identificadores diferentes para etiquetar los polinucleótidos en dicha composición.

Se denominan "colisiones moleculares" los sucesos en los que diferentes moléculas que mapean la misma coordenada (en este caso, tienen las mismas posiciones de inicio/parada) y llevan las mismas etiquetas, en lugar de diferentes. En ciertos casos, el número real de colisiones moleculares puede ser mayor que el número de colisiones teóricas, calculadas, por ejemplo, como se ha indicado anteriormente. Esto puede ser una función de una distribución desigual de las moléculas entre coordenadas, diferencias en la eficacia de la ligación entre los códigos de barras y a otros factores. En este caso, pueden usarse métodos empíricos para determinar el número de códigos de barras necesarios para aproximarse al número teórico de colisiones. En una realización, se proporciona en la presente un método para determinar un número de códigos de barras necesario para disminuir las colisiones de códigos de barras para un equivalente de genoma haploide dado sobre la base de la distribución de longitud de las moléculas secuenciadas y la uniformidad de la secuencia. El método comprende crear una pluralidad de agrupaciones de moléculas de ácidos nucleicos; etiquetar cada agrupación con números crecientes de códigos de barras; y determinar un número óptimo de códigos de barras que reduzca el número de colisiones de códigos de barras a un nivel teórico, por ejemplo, que podría deberse a diferencias en las concentraciones afectivas de códigos de barras debido a diferencias es agrupación y eficiencia de ligación.

En una realización, puede determinarse empíricamente el número de identificadores necesarios para etiquetar de manera sustancialmente única los polinucleótidos que corresponden a una región. Por ejemplo, puede fijarse un número seleccionado de identificadores diferentes a las moléculas de una muestra y contar el número de identificadores diferentes de las moléculas que corresponden a la región. Si se usa un número insuficiente de identificadores, algunos polinucleótidos que mapean la región llevarán el mismo identificador. En ese caso, el número de identificadores contados será inferior al número de moléculas originales de la muestra. El número de identificadores diferentes usados puede incrementarse iterativamente para un tipo de muestra hasta que no se detecten identificadores adicionales, que representen nuevas moléculas originales. Por ejemplo, en una primera iteración, pueden contarse cinco identificadores diferentes, que representen por lo menos cinco moléculas originales diferentes. En una segunda iteración, usando más códigos de barras, se cuentan siete identificadores diferentes, que representan por lo menos siete moléculas originales diferentes. En una tercera iteración, usando más códigos de barras, se cuentan 10 identificadores diferentes, que representan por lo menos diez moléculas originales diferentes. En una cuarta iteración, usando más códigos de barras, se cuentan de nuevo 10 identificadores diferentes. En este punto, no es probable que la adición de más códigos de barras aumente el número de moléculas originales detectadas.

8. Enriquecimiento

En algunas realizaciones, se enriquece una muestra que comprende fragmentos de ADN para fragmentos de interés. Por ejemplo, el enriquecimiento puede realizarse después de ligar cebadores extendidos al extremo 5' de una cadena del fragmento de ADN parcialmente de cadena doble, o después de un paso de amplificación posterior a dicha ligación y la unión de adaptadores (ya sea como parte de la ligación o en un paso posterior). El enriquecimiento se refiere a cualquier procedimiento que aumente la abundancia relativa de fragmentos de interés frente a otros fragmentos, e incluye procedimientos que retienen preferiblemente los fragmentos de interés en la muestra mientras eliminan otros fragmentos. El enriquecimiento puede ser un paso de captura, por ejemplo, usando un conjunto de sondas de captura que tienen secuencias de hibridación específicas para las dianas de interés. Las dianas de interés pueden comprender una o más, o todas, variantes de nucleótido único, regiones variables en el número de copias, fusiones e indeles. En algunas realizaciones, una o más, o todas, las variantes de nucleótido único, regiones variables de número de copias, fusiones e indeles están asociadas con una enfermedad o trastorno, por ejemplo, un cáncer, como cualquiera de los cánceres tratados en la presente.

Como se ha analizado anteriormente, los ácidos nucleicos de una muestra pueden someterse a un paso de captura, en el que se capturan moléculas con secuencias diana para su posterior análisis. La captura de la diana puede implicar el uso de un conjunto de cebos que comprenda cebos de oligonucleótidos marcados con una fracción de captura, como biotina u otros ejemplos indicados a continuación. Las sondas pueden tener secuencias seleccionadas para que se organicen a través de un panel de regiones, como genes. En algunas realizaciones, un conjunto de cebos puede tener rendimientos de captura más altos y más bajos para conjuntos de regiones diana como los del conjunto de regiones diana de secuencia variable y el conjunto de regiones diana epigenéticas, respectivamente, como se analiza en otras partes de la presente. Tales conjuntos de cebos se combinan con una muestra en condiciones que permiten la hibridación de las moléculas diana con los cebos. A continuación, las moléculas capturadas se aíslan usando la fracción de captura. Por ejemplo, una fracción de captura de biotina mediante estreptavidina a base de perlas. Tales métodos se describen con más detalle en, por ejemplo, la Patente de Estados Unidos 9,850,523, concedida el 26 de diciembre de 2017.

Las fracciones de captura incluyen, sin limitación, biotina, avidina, estreptavidina, un ácido nucleico que comprende una secuencia de nucleótidos particular, un hapteno reconocido por un anticuerpo y partículas magnéticamente atractivas. La fracción de extracción puede ser miembro de un par de unión, como biotina/estreptavidina o hapteno/anticuerpo. En algunas realizaciones, una fracción de captura que está unida a un analito es capturada por su par de unión que está unido a una fracción aislable, como una partícula atraíble magnéticamente o una partícula grande que puede sedimentarse mediante centrifugación. La fracción de captura puede ser cualquier tipo de molécula que permita la separación por afinidad de los ácidos nucleicos que llevan la fracción de captura de los ácidos nucleicos que carecen de la fracción de captura. Algunas fracciones de captura ejemplares son la biotina, que permite la separación por afinidad mediante la unión a estreptavidina enlazada o enlazable a una fase sólida, o un oligonucleótido, que permite la separación por afinidad mediante la unión a un oligonucleótido complementario enlazado o enlazable a una fase sólida.

9. Flujos de trabajo ejemplares para preparar una muestra para secuenciación

En algunas realizaciones, los métodos descritos en la presente comprenden la producción de fragmentos de ADN reparados de acuerdo con cualquiera de las realizaciones descritas anteriormente, en donde los adaptadores se incorporan a través del paso de ligación o un paso posterior. Los adaptadores comprenden sitios de unión de cebadores y, opcionalmente, códigos de barras. Los fragmentos de ADN reparados que comprenden adaptadores se someten a una reacción de amplificación. La reacción de amplificación puede ir seguida de un paso de enriquecimiento, como se describe en la presente. Opcionalmente, el paso de enriquecimiento puede ir seguido de un paso de amplificación adicional. En algunas realizaciones, se añade una etiqueta adicional (por ejemplo, un índice de muestra) durante la reacción de amplificación o el paso de amplificación adicional. Estos flujos de trabajo pueden preparar una muestra para secuenciación incluyendo uno o ambos códigos de barras y un índice de muestra en los fragmentos reparados, y también enriqueciendo los fragmentos reparados para fragmentos de interés.

10. Secuenciación

En algunas realizaciones, los métodos descritos en la presente comprenden además la secuenciación del fragmento de ADN reparado. En realizaciones adicionales, la secuenciación secuencia un nucleótido que formó un saliente 3' en el fragmento de ADN parcialmente de cadena doble.

Los fragmentos de ADN reparados flanqueados por adaptadores con o sin amplificación previa pueden someterse a secuenciación. Los métodos de secuenciación incluyen, por ejemplo, la secuenciación Sanger, la secuenciación de alto rendimiento, la pirosecuenciación, la secuenciación por síntesis, la secuenciación de moléculas individuales, la secuenciación por nanoporos, la secuenciación por semiconductores, la secuenciación por ligación, la secuenciación por hibridación, RNA-Seq (Illumina), Digital Gene Expression (Helicos), secuenciación de próxima generación, secuenciación de moléculas individuales por síntesis (SMSS) (Helicos), secuenciación masivamente paralela, matriz de molécula única clonal (Solexa), secuenciación de escopeta, Torrente de iones, Oxford Nanopore, Roche Genia, secuenciación Maxim-Gilbert, caminata de cebadores, secuenciación usando las plataformas PacBio, SOLiD, Ion Torrent o Nanopore. Las reacciones de secuenciación pueden realizarse en una variedad de unidades de procesamiento de muestras, que pueden tener múltiples carriles, múltiples canales, múltiples pocillos u otros medios para procesar múltiples conjuntos de muestras de manera sustancialmente simultánea. La unidad de procesamiento de muestras también puede incluir múltiples cámaras de muestras para permitir el procesamiento de múltiples series simultáneamente. En algunas realizaciones, se genera una pluralidad de fragmentos de ADN reparados y por lo menos una parte de los fragmentos de ADN reparados comprenden etiquetas, y la secuenciación genera una pluralidad de lecturas de secuencia a partir de una pluralidad de fragmentos de ADN reparados. En algunas realizaciones, las lecturas de secuencia comprenden la secuencia de nucleótidos que formaron un saliente 3' en el fragmento de ADN parcialmente de cadena doble y la secuencia de una etiqueta.

Las reacciones de secuenciación pueden realizarse con uno o más tipos de fragmentos conocidos por contener marcadores de cáncer u otra enfermedad. Las reacciones de secuenciación también pueden realizarse en cualquier fragmento de ácido nucleico presente en la muestra. Las reacciones de secuenciación pueden proporcionar una cobertura de secuencia del genoma de por lo menos el 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99,9% o 100%. En otros casos, la cobertura del genoma puede ser menor del 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99,9% o 100%.

Las reacciones de secuenciación simultánea pueden realizarse mediante secuenciación multiplex. En algunos casos, los ácidos nucleicos libres de células pueden secuenciarse con por lo menos 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100.000 reacciones de secuenciación. En otros casos, los polinucleótidos libres de células pueden secuenciarse con menos de 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100.000 reacciones de secuenciación. Las reacciones de secuenciación pueden realizarse secuencial o simultáneamente. El análisis posterior de los datos puede realizarse en todas o en parte de las reacciones de secuenciación. En algunos casos, el análisis de datos puede realizarse en por lo menos 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100.000 reacciones de secuenciación. En otros casos, el análisis de datos puede realizarse en menos de 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100.000 reacciones de secuenciación.

El método de secuenciación puede ser una secuenciación masivamente paralela, es decir, secuenciar simultáneamente (o en rápida sucesión) cualquiera de por lo menos 100, 1000, 10.000, 100.000, 1 millón, 10 millones, 100 millones o 1.000 millones de moléculas de ácidos nucleicos.

11. Análisis

Los presentes métodos pueden usarse para diagnosticar la presencia o ausencia de afecciones, en particular cáncer, en un sujeto, para caracterizar afecciones (por ejemplo, estadificar el cáncer o determinar la heterogeneidad de un cáncer), monitorizar la respuesta al tratamiento de una afección o determinar el riesgo de recurrencia de una afección en un sujeto.

Usando los presentes métodos pueden detectarse varios cánceres. Las células cancerosas, como la mayoría de las células, pueden caracterizarse por una tasa de renovación, en la que las células viejas mueren y son sustituidas por células más nuevas. Por lo general, las células muertas, en contacto con la vasculatura de un sujeto dado, pueden liberar ADN o fragmentos de ADN en el torrente sanguíneo. Lo mismo se produce con las células cancerosas durante las distintas etapas de la enfermedad. Las células cancerosas también pueden caracterizarse, en función del estadio de la enfermedad, por varias aberraciones genéticas, como la variación del número de copias, así como por mutaciones raras. Este fenómeno puede usarse para detectar la presencia o ausencia de cánceres en individuos usando los métodos y sistemas descritos en la presente.

Los tipos y el número de cánceres que pueden detectarse pueden incluir cánceres de sangre, cánceres de cerebro, cánceres de pulmón, cánceres de piel, cánceres de nariz, cánceres de garganta, cánceres de hígado, cánceres de hueso, linfomas, cánceres de páncreas, cánceres de piel, cánceres de intestino, cánceres de recto, cánceres de tiroides, cánceres de vejiga, cánceres de riñón, cánceres de boca, cánceres de estómago, tumores en estado sólido, tumores heterogéneos, tumores homogéneos y similares.

Los cánceres pueden detectarse a partir de variaciones genéticas que incluyen mutaciones, mutaciones raras, indeles, variaciones del número de copias, transversiones, translocaciones, inversiones, deleciones, aneuploidía, aneuploidía parcial, poliploidía, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas fusiones cromosómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones del ADN, cambios anormales en las modificaciones químicas de los ácidos nucleicos, cambios anormales en los patrones epigenéticos, cambios anormales en la metilación de los ácidos nucleicos infección y cáncer.

Los datos genéticos también pueden usarse para caracterizar una forma específica de cáncer. Los cánceres son a menudo heterogéneos tanto en su composición como en su estadificación. Los datos del perfil genético pueden permitir la caracterización de subtipos específicos de cáncer que pueden ser importantes en el diagnóstico o tratamiento de ese subtipo específico. Esta información también puede proporcionar a un sujeto o profesional pistas sobre el pronóstico de un tipo específico de cáncer y permitir a un sujeto o profesional adaptar las opciones de tratamiento de acuerdo con el progreso de la enfermedad. Algunos cánceres progresan, volviéndose más agresivos y genéticamente inestables. Otros cánceres pueden permanecer benignos, inactivos o latentes. El sistema y los métodos de la presente divulgación pueden ser útiles para determinar la progresión de la enfermedad.

El presente análisis también es útil para determinar la eficacia de una opción de tratamiento particular. Las opciones de tratamiento con éxito pueden aumentar la cantidad de variación del número de copias o mutaciones raras detectadas en la sangre del sujeto si el tratamiento tiene éxito, ya que más cánceres pueden morir y desprenderse de ADN. En otros ejemplos, esto puede no producirse. En otro ejemplo, quizás puedan correlacionarse ciertas opciones de tratamiento con los perfiles genéticos de los cánceres a lo largo del tiempo. Esta correlación puede ser útil para seleccionar una terapia. Además, si se observa que un cáncer está en remisión después del tratamiento, los presentes métodos pueden usarse para monitorizar la enfermedad residual o la recurrencia de la enfermedad.

Los presentes métodos también pueden usarse para detectar variaciones genéticas en afecciones distintas del cáncer. Las células inmunitarias, como las células B, pueden experimentar una rápida expansión clonal en presencia de ciertas enfermedades. Las expansiones clonales pueden monitorizarse usando la detección de variaciones en el número de copias y pueden monitorizarse ciertos estados inmunitarios. En este ejemplo, puede realizarse a lo largo del tiempo el análisis de la variación del número de copias para obtener un perfil de la evolución de una enfermedad particular. Puede usarse la variación del número de copias o incluso la detección de mutaciones raras para determinar cómo cambia una población de patógenos durante el curso de la infección. Esto puede ser particularmente importante durante las infecciones crónicas, como las infecciones por VIH/SIDA o hepatitis, en las que los virus pueden cambiar el estado del ciclo vital y/o mutar a formas más virulentas durante el curso de la infección. Los presentes métodos pueden usarse para determinar o perfilar las actividades de rechazo del organismo huésped, ya que las células inmunitarias intentan destruir el tejido trasplantado para controlar el estado del tejido trasplantado, así como para alterar el curso del tratamiento o la prevención del rechazo.

Además, los métodos de la divulgación pueden usarse para caracterizar la heterogeneidad de una afección anormal en un sujeto, el método comprendiendo la generación de un perfil genético de polinucleótidos extracelulares en el sujeto, en donde el perfil genético comprende una pluralidad de datos resultantes de la variación del número de copias y análisis de mutaciones raras. En algunos casos, que incluyen pero no se limitan al cáncer, una enfermedad puede ser heterogénea. Las células de la enfermedad pueden no ser idénticas. En el ejemplo del cáncer, se sabe que algunos tumores comprenden diferentes tipos de células tumorales, algunas células en diferentes estadios del cáncer. En otros ejemplos, la heterogeneidad puede comprender múltiples focos de enfermedad. De nuevo, en el ejemplo del cáncer, puede haber múltiples focos tumorales, quizás cuando uno o más focos son el resultado de metástasis que se han extendido desde un sitio primario.

Los presentes métodos pueden usarse para generar un perfil, huella digital o conjunto de datos que sea una suma de información genética derivada de diferentes células en una enfermedad heterogénea. Este conjunto de datos puede comprender la variación del número de copias y análisis de mutaciones raras solos o en combinación.

Los presentes métodos pueden emplearse para diagnosticar, pronosticar, monitorizar u observar cánceres u otras enfermedades de origen fetal. Es decir, estas metodologías pueden emplearse en un sujeto embarazado para diagnosticar, pronosticar, monitorizar u observar cánceres u otras enfermedades en un sujeto no nacido cuyo ADN y otros ácidos nucleicos pueden cocircular con moléculas maternas.

Cualquier característica, paso, elemento, realización o aspecto de la invención puede usarse en combinación con cualquier otro, a menos que se indique específicamente lo contrario. Aunque la presente invención se ha descrito con cierto detalle a modo de ilustración y ejemplo con propósitos de claridad y comprensión, será evidente que pueden practicarse ciertos cambios y modificaciones dentro del alcance de las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1. Un método de reparación de un fragmento de ADN parcialmente de cadena doble, el método comprendiendo:

(a) poner en contacto el fragmento de ADN parcialmente de cadena doble con uno o más cebadores de una población de cebadores, en donde el fragmento de ADN parcialmente de cadena doble comprende un saliente 3' y la población de cebadores comprende una secuencia de hibridación con la diana aleatoria;

(b) extender uno o más cebadores de la población de cebadores a lo largo del fragmento de ADN usando una ADN polimerasa, produciendo de este modo uno o más cebadores extendidos apareados con el fragmento de ADN; y (c) ligar el extremo 3' de uno o más cebadores extendidos al extremo 5' de un cebador extendido o de una cadena del fragmento de ADN parcialmente de cadena doble, proporcionando de este modo un fragmento de ADN reparado.

2. El método de la reivindicación 1, en donde la ADN polimerasa

a) carece de actividad de exonucleasa de 3' a 5';

b) carece de actividad de exonucleasa de 5' a 3';

c) carece de actividad de desplazamiento de cadena; y/o

d) es un fragmento de Klenow, por ejemplo, en donde la ADN polimerasa es un fragmento exo-Klenow.

3. El método de la reivindicación 1 o de la reivindicación 2, en donde el fragmento de ADN parcialmente de cadena doble

a) tiene salientes 3' en cada extremo;

b) tiene un saliente de 3' y (i) un extremo romo o (ii) un saliente 5', por ejemplo en donde el saliente 5' se repara extendiendo el extremo 3' a lo largo del saliente 5';

c) procede de una muestra de fluido corporal, por ejemplo, en donde el fluido corporal es sangre, suero, plasma u orina;

d) es un fragmento de ADNcf;

e) es mamífero;

f) es humano; y/o

g) forma parte de una población de fragmentos de ADN en una composición, por ejemplo en donde la población de fragmentos de ADN

i) comprende ADN cizallado;

ii) comprende ADN modificado epigenéticamente;

iii) comprende fragmentos de una pluralidad de loci genómicos;

iv) no está enriquecido; y/o

v) no está amplificado.

4. El método de cualquiera de las reivindicaciones anteriores, en donde la secuencia de hibridación con la diana aleatoria

a) tiene una longitud de por lo menos 4, 5, 6 , 7, 8 , 9 o 10 nucleótidos; y/o

b) tiene una longitud de aproximadamente 4, 5, 6 , 7, 8 , 9, 10, 11 o 12 nucleótidos.

5. El método de cualquiera de las reivindicaciones anteriores, en donde los cebadores de la población de cebadores son

a) de cadena sencilla;

b) de cadena doble con un saliente 3' y la secuencia de hibridación con la diana aleatoria se encuentra en el saliente 3'; o

c) horquillas con un saliente 3' y la secuencia de hibridación con la diana aleatoria se encuentra en el saliente de 3'.

6. El método de la reivindicación 5, en donde la horquilla o la región de cadena doble de los cebadores

a) comprende un adaptador; y/o

b) comprende una etiqueta, opcionalmente en donde la etiqueta comprende un código de barras, por ejemplo en donde la población de cebadores comprende una pluralidad de códigos de barras diferentes.

7. El método de cualquiera de las reivindicaciones anteriores, en donde por lo menos los pasos (a)-(c) se realizan en un solo tubo.

8. El método de cualquiera de las reivindicaciones anteriores, en donde el fragmento de ADN de cadena doble está en una composición y para por lo menos los pasos (a)-(c) no se elimina ningún componente de la composición.

9. El método de cualquiera de las reivindicaciones anteriores, en donde el fragmento de ADN reparado comprende uno o dos extremos romos, o el método comprende además hacer romos uno o dos extremos del fragmento de ADN reparado; opcionalmente comprende además prolongar con colas los extremos del fragmento de ADN reparado usando una polimerasa que realiza una adición no dirigida por plantilla de un nucleótido a los extremos 3' de los ácidos nucleicos con extremos romos, opcionalmente en donde A se añade preferentemente a G preferentemente a C o T.

10. El método de cualquiera de las reivindicaciones anteriores, que comprende además

a) ligar una etiqueta al fragmento de ADN reparado (opcionalmente en ambos extremos), opcionalmente en donde la etiqueta comprende un código de barras y/o un adaptador;

b) purificar el fragmento de ADN reparado;

c) desnaturalizar una o más enzimas usadas en el paso b) y/o c) después del paso b) y/o c);

y/o

d) amplificar el fragmento de ADN reparado; por ejemplo, en donde el fragmento de ADN reparado comprende uno o más adaptadores (por ejemplo, dos adaptadores) y la amplificación del fragmento de a Dn reparado usa uno o más (por ejemplo, dos) oligómeros de amplificación que se unen a uno o más adaptadores.

11. El método de cualquiera de las reivindicaciones anteriores, que comprende además enriquecer los fragmentos de ADN reparados para fragmentos de interés, proporcionando de este modo fragmentos de ADN enriquecidos, opcionalmente en donde el paso de enriquecimiento se realiza después de un paso de amplificación.

12. El método de la reivindicación 11, en donde

a) los fragmentos de interés comprenden loci que varían de manera asociada a la enfermedad o trastorno, opcionalmente en donde la enfermedad o trastorno es un cáncer; opcionalmente en donde la variación es una o más de variación de un solo nucleótido, variación del número de copias, fusión de genes o indeles; y/o b) en donde los fragmentos de interés comprenden uno, dos, tres o cuatro fragmentos que muestran una variación de un solo nucleótido asociada a una enfermedad o trastorno; una variación del número de copias asociada a una enfermedad o trastorno; una fusión génica asociada a una enfermedad o trastorno; o indeles asociados a una enfermedad o trastorno, opcionalmente en donde la enfermedad o trastorno es cáncer.

13. El método de la reivindicación 11 o de la reivindicación 12, que comprende además amplificar los fragmentos de ADN enriquecidos.

14. El método de cualquiera de las reivindicaciones anteriores, que comprende además secuenciar el fragmento de ADN reparado; opcionalmente, en donde

a) la secuenciación secuencia un nucleótido que formó un saliente 3' en el fragmento de ADN parcialmente de cadena doble;

b) la secuenciación es secuenciación de alto rendimiento; y/o

c) se genera una pluralidad de fragmentos de ADN reparados y por lo menos una parte de los fragmentos de ADN reparados comprende etiquetas, y la secuenciación genera una pluralidad de lecturas de secuencia a partir de una pluralidad de fragmentos de ADN reparados; por ejemplo, en donde las lecturas de secuencia comprenden la secuencia de nucleótidos que formaron un saliente 3' en el fragmento de ADN parcialmente de cadena doble y la secuencia de una etiqueta.