ES2960184T3

ES2960184T3 - Códigos de barras de secuencias combinatorias para el cribado de alto rendimiento

Info

Publication number: ES2960184T3
Application number: ES18189888T
Authority: ES
Inventors: Eijk Michael Josephus Theresia Van; Der Poel Henricus Johannes Adam Van
Original assignee: Keygene NV
Current assignee: Keygene NV
Priority date: 2010-06-09
Filing date: 2011-06-08
Publication date: 2024-03-01
Anticipated expiration: 2031-06-08
Also published as: CN102933721B; DK3425062T3; US9080210B2; CN102933721A; WO2011155833A2; JP2013528058A; WO2011155833A3; EP4242327A2; EP2580351B1; EP2580351A2; DK2580351T3; EP4242327A3; EP3425062A1; FI3425062T3; JP6110297B2; EP3425062B1; US20130137587A1; ES2697974T3

Abstract

La invención implica métodos y usos de una combinación de al menos dos identificadores de secuencia de nucleótidos en la preparación de una muestra de ADN para secuenciación de alto rendimiento. Por consiguiente, en la secuenciación de alto rendimiento de una pluralidad de ADN de muestra preparados, cada preparación de una muestra de ADN comprende una combinación única de al menos dos identificadores de secuencia de nucleótidos en donde un primer identificador de secuencia de nucleótidos se selecciona de un grupo de identificadores de secuencia de nucleótidos y un segundo El identificador de secuencia de nucleótidos se selecciona del grupo de identificadores de secuencia de nucleótidos. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Códigos de barras de secuencias combinatorias para el cribado de alto rendimiento

Campo de la invención

[0001] La presente invención se refiere al campo de la biología molecular, en particular a la preparación de ADN de muestra para métodos de secuenciación. Más específicamente, la presente invención se refiere al uso de identificadores de secuencia de nucleótidos para secuenciación de alto rendimiento.

Antecedentes de la invención

[0002] La gran demanda de secuenciación de bajo costo ha impulsado el desarrollo de tecnologías de secuenciación de alto rendimiento. En dichas tecnologías se producen millones de secuencias en paralelo. Por ejemplo, 454 Life Sciences, ahora Roche Applied Sciences, desarrolló una tecnología de secuenciación de alto rendimiento de un ADN de muestra que conlleva los pasos de fragmentar ADN, ligar adaptadores a los fragmentos de ADN, capturar fragmentos de ADN individuales con una perla recubierta con cebadores, amplificar cada fragmento de ADN en una perla dentro de gotas de agua en aceite (PCR en emulsión) y, posteriormente, cargar cada perla en un pocillo de picolitro y secuenciar cada fragmento de ADN amplificado con pirosecuenciación. En general, las tecnologías de secuenciación de alto rendimiento implican la ligación de adaptadores a fragmentos de ADN, estos adaptadores pueden comprender sitios de unión del cebador utilizados para la captura, amplificación y/o secuenciación de los fragmentos de ADN. Debido a que se pueden producir grandes cantidades de secuencias, a menudo se combinan muestras de diferentes orígenes en una única ejecución de secuenciación de alto rendimiento. Para rastrear el origen de cada muestra a partir de un conjunto de muestras, las aplicaciones actuales de secuenciación de alto rendimiento se basan en el uso de identificadores de secuencia de nucleótidos. El término identificador de secuencia de nucleótidos (NSI), código de barras basado en secuencias o índice de secuencia) son términos que son intercambiables y tienen el mismo sentido. Un identificador de secuencia de nucleótidos es una secuencia de nucleótidos particular que se utiliza como identificador. Se incluye un identificador de secuencia de nucleótidos en el adaptador aguas abajo del sitio de unión del cebador, de manera que, cuando se secuencia desde el sitio de unión del cebador, se determina la secuencia de nucleótidos de la secuencia identificadora. Se ligan diferentes adaptadores que comprenden diferentes identificadores de secuencia de nucleótidos a diferentes muestras, después de lo cual las muestras se pueden agrupar. Cuando las secuencias se determinan de las muestras agrupadas, el identificador de secuencia de nucleótidos se secuencia junto con parte de la secuencia del fragmento al que está ligado el adaptador. La presencia o ausencia del identificador de secuencia de nucleótidos determina, por tanto, la presencia o ausencia de un ADN de muestra en el conjunto. La secuencia de la secuencia interna que se secuencia junto con el identificador de secuencia de nucleótidos permite, además, asignar esa secuencia a una muestra particular de la que se originó, ya que el identificador de secuencia de nucleótidos sirve para identificar el origen del ADN de la muestra.

[0003] Por ejemplo, en el sistema de secuencia de alto rendimiento desarrollado por Roche, el sistema Genome Sequencer FLX, se utilizan secuencias identificadoras multiplexadas (MIDs). Las MIDs son secuencias de 10 unidades que se incorporan a los adaptadores para asignar lecturas de secuencia a muestras individuales. Actualmente se utilizan más de 100 MIDs diferentes (454 Life Science Corp (2009) Boletín Técnico n.° 005 2009). Hay identificadores de secuencia de nucleótidos similares disponibles para otros sistemas de secuenciación.

[0004] Los métodos, donde los identificadores de secuencia de nucleótidos se incorporan en el extremo 5' de un cebador, se describen, por ejemplo, en Rigolaet al.PLoS ONE. 2009, 4(3): e4761 y en la WO 2007/037678. Normalmente, los identificadores de secuencia de nucleótidos no tienen una complementariedad significativa con la secuencia objetivo. Por lo tanto, un cebador comprende en el extremo 5' una sección que comprende un identificador de secuencia de nucleótidos y en el extremo 3' la secuencia que es complementaria a la secuencia objetivo. Cuando una muestra se amplifica con un par de cebadores, cuyo cebador comprende un identificador de secuencia de nucleótidos, el amplicón incluirá el identificador de secuencia de nucleótidos. Cuando, posteriormente, las muestras se agrupan y se someten a métodos de secuenciación de alto rendimiento, el identificador de secuencia de nucleótidos servirá para identificar el origen del amplicón secuenciado. Por lo tanto, el origen del amplicón se determina determinando el identificador de secuencia de nucleótidos. Al mismo tiempo, la secuencia interna que se ha amplificado y también se secuencia junto con el identificador de secuencia de nucleótidos también se puede rastrear hasta las muestras de las que proceden.

[0005] En ambos escenarios, un adaptador o cebador que comprende un identificador de secuencia de nucleótidos, el concepto es el mismo, a saber, determinar el origen de la muestra de secuencias producidas utilizando plataformas de secuenciación de alto rendimiento a partir de una pluralidad de muestras de ADN que se han multiplexado, por ejemplo, combinado o agrupado, en algún lugar en el proceso de preparación de muestras.

Resumen de la invención

[0006] La capacidad de las tecnologías de secuenciación de alto rendimiento ha aumentado en un orden de magnitud cada periodo de dos años desde su introducción. Dado que la secuenciación de alto rendimiento permite la multiplexación de un número cada vez mayor de muestras, también está aumentando el número de adaptadores o cebadores únicos que se requieren para identificar el origen de las muestras. Aunque el uso de 100 cebadores o adaptadores diferentes ya puede ser un desafío, cuando el número aumentaría a 1000, puede convertirse en un cuello de botella. Por lo tanto, es deseable que se puede reducir el número de cebadores y/o adaptadores que deben utilizarse porque esto puede simplificar la preparación de muestras, puede reducir la carga de trabajo, puede optimizar el rendimiento técnico y puede reducir los costos. La presente invención, tal y como se define en las reivindicaciones, permite para reducir el número de cebadores y/o adaptadores diferentes necesarios. El número podría reducirse mediante el uso de los llamados "códigos de barras divididos". Los códigos de barras de división según la invención, tal y como se definen en las reivindicaciones, son identificadores de secuencia de nucleótidos que están presentes en al menos dos adaptadores y/o cebadores. Se prepara un ADN de muestra (o combinación de ADNs de muestra) utilizando, por ejemplo, un par de cebadores y/o un par de adaptadores, donde cada cebador o adaptador del par comprende un identificador de secuencia de nucleótidos. El fragmento de ADN ligado al amplicón o adaptador que se produce comprende los al menos dos identificadores de secuencia de nucleótidos. Para cada muestra diferente se puede utilizar una única combinación de identificadores de nucleótidos. La combinación de identificadores de secuencia de nucleótidos, indicados juntos también como código de barras dividido, sirve como identificador.

Breves descripciones de los dibujos

[0007]

Figura 1. Método de preparación de un amplicón a partir de un ADN de muestra con dos identificadores de secuencia de nucleótidos. Se proporciona un ADN de muestra (1), que comprende una secuencia interna (IS) flanqueada por dos sitios de unión del cebador (P1 y P2), así como un par de cebadores de amplificación (2) que comprenden secuencias complementarias a un sitio de unión del cebador en el extremo 3' e identificadores de secuencia de nucleótidos (NSI1 y NSI2) en 5' del mismo. El ADN de muestra se amplifica con los cebadores de amplificación (3), lo que da como resultado un amplicón con dos identificadores de secuencia de nucleótidos en cada lado. (5' indica el extremo 5' de una hebra de nucleótidos, el extremo 3' no tiene anotaciones).

Figura 2. Método de preparación de un fragmento de ADN ligado a un adaptador a partir de un ADN de muestra con dos identificadores de secuencia de nucleótidos.

Se proporciona un ADN de muestra (1), que se fragmenta proporcionando fragmentos de ADN (2), se proporciona un par de adaptadores que comprenden un primer y un segundo NSI (NSI1 y NSI2) (3) que se ligan a ambos extremos de un fragmento de ADN, lo que da como resultado un fragmento de ADN ligado al adaptador (4). (5' indica el extremo 5' de una hebra de nucleótidos).

Figura 3. Método de preparación de un fragmento de ADN ligado a un adaptador amplificado a partir de un ADN de muestra con 2, 3 o 4 identificadores de secuencia de nucleótidos.

Se proporciona un ADN de muestra (1), que se fragmenta proporcionando fragmentos de ADN (2), se proporciona un par de adaptadores, de los cuales al menos uno comprende un NSI (NS1 y opcionalmente (NS2)) y ambos comprenden un sitio de unión del cebador (P1 y P2), que se ligan con un fragmento de ADN (3) , es decir, una secuencia interna (IS), lo que da como resultado un fragmento de ADN ligado al adaptador (4) , que comprende las secuencias de unión del cebador en ambos extremos de los fragmentos de ADN ligados al adaptador. Se proporciona un par de cebadores de amplificación (5), donde cada uno de los cuales comprende en el extremo 3' una secuencia complementaria a un sitio de unión del cebador de secuencia, y al menos un cebador de amplificación comprende en el extremo 5' un identificador de secuencia de nucleótidos (NSI3 u opcionalmente (NSI4)). El fragmento de ADN ligado al adaptador se amplifica con el par de cebadores de amplificación (6). El resultado (7) es un fragmento de ADN ligado a un adaptador amplificado que comprende al menos dos NSIs. Los al menos dos NSls pueden estar flanqueando el IS, y/o los al menos dos NSls pueden estar en el mismo lado del IDS. (5' indica el extremo 5' de una hebra de nucleótidos; los paréntesis indican que la inclusión del segundo y/o cuarto NSI puede ser opcional en ese método).

Figura 4. Método para una preparación de un amplicón ligado a un adaptador a partir de un ADN de muestra con dos, tres o cuatro identificadores de secuencia de nucleótidos. Se proporciona un ADN de muestra (1), que comprende una secuencia interna (IS) flanqueada por dos sitios de unión del cebador (P1 y P2), así como un par de cebadores de amplificación (2), que comprenden en el extremo 3' secuencias complementarias a un sitio de unión del cebador y al menos uno de los cebadores que comprende un identificador de secuencia de nucleótidos (NSI1 y (NSI2) opcional) en el extremo 5'. El ADN de muestra se amplifica con los cebadores de amplificación (3), lo que da como resultado un amplicón con al menos un identificador de secuencia de nucleótidos (4). Se proporciona un par de adaptadores que comprenden un tercer y un cuarto nucleótido opcional NSI (NSI3 y (NSI4) opcional) que se ligan a cualquiera de los extremos del amplicón, lo que proporciona un amplicón ligado al adaptador (6). Los al menos dos NSls pueden estar flanqueando el IS, y/o los al menos dos NSls pueden estar en el mismo lado del IS. (5' indica el extremo 5' de una hebra de nucleótidos; los paréntesis indican que la inclusión del segundo y/o cuarto NSI puede ser opcional en este método).

Figura 5. Método para determinar las dos secuencias identificadoras de nucleótidos de un fragmento de ADN ligado a un adaptador.

Se proporciona un ADN de muestra (1), que se fragmenta proporcionando fragmentos de ADN (2), se proporciona un par de adaptadores que comprenden un primer y un segundo NSI (NSI1 y NSI2) (3) que se ligan a cualquier extremo de un fragmento de ADN, lo que da como resultado un fragmento de ADN ligado al adaptador (4). Los adaptadores comprenden cada uno un sitio de unión del cebador de secuenciación (SEQ1 y SEQ2), y opcionalmente comprenden cada uno un sitio de unión del cebador de amplificación ((P1) y (P2)). El orden de los sitios presentes en un adaptador es: (P)- SEQ - NSI, por ejemplo, (P1)-SEQ1-NSI1. El lado del adaptador que se liga al fragmento de ADN es el lado que comprende el NSI. El fragmento de ADN ligado al adaptador puede amplificarse opcionalmente con cebadores dirigidos a los sitios de unión del cebador (4). Cada hebra del fragmento de a Dn ligado al adaptador puede servir como plantilla para una reacción de secuenciación. Una hebra de plantilla utilizada se representa de la siguiente manera: 3'-(P1)-SEQ1-NSI1-IS-NSI2(P2)-SEQ2-5', para la cual se utiliza un cebador de secuenciación contra SEQ1. Los cebadores de secuenciación se proporcionan de manera que, a partir de cada plantilla de SEQ1 o SEQ2, se determina(n) la(s) secuencia(s) de NSI. Las secuencias se pueden determinar por separado. Las secuencias se pueden determinar consecutivamente, por ejemplo, como en la secuenciación de extremos emparejados. (5' indica el extremo 5' de una hebra de nucleótidos).

Figura 6. Método para determinar las dos secuencias identificadoras de secuencia de nucleótidos de un fragmento de ADN ligado a un adaptador: doble etiquetado de lectura única.

Se proporciona un ADN de muestra (1), que se fragmenta proporcionando fragmentos de ADN (2), se proporciona un par de adaptadores que comprenden un primer y un segundo NSI (NSI1 y NSI2) que se ligan a cualquiera de los extremos de un fragmento de ADN (3), lo que da como resultado un fragmento de ADN ligado al adaptador (4). Los adaptadores comprenden cada uno un sitio de unión del cebador de secuenciación (SEQ1 o SEQ2) y, opcionalmente, cada uno comprende un sitio de unión del cebador de amplificación ((P1) o (P2)). El orden de los sitios presentes en los dos adaptadores es (P1)-SEQ1-NSI1 y SEQ2-NSI2-(P2). Los adaptadores se ligan al fragmento de ADN de manera que los sitios (P1) y (P2) sean los sitios exteriores del fragmento de ADN ligado al adaptador (4), que opcionalmente pueden amplificarse con cebadores dirigidos a ellos (5). Una hebra del fragmento de ADN ligado al adaptador puede servir como plantilla para la secuenciación utilizando los sitios de unión del cebador de secuenciación SEQ1 y SEQ2 en dos reacciones de secuenciación diferentes, es decir, utilizando los cebadores de secuenciación diferentes correspondientes. La hebra de plantilla utilizada se representa de la siguiente manera: 3'-(P1)-SEQ1-NSI1-IS -SEQ2-NSI2-(P2)-5'. (5' indica el extremo 5' de una hebra de nucleótidos).

Figura 7. Método para determinar la secuencia de dos identificadores de secuencia de nucleótidos de un amplicón a partir de un ADN de muestra. Se proporciona un ADN de muestra (1), que comprende una secuencia interna (IS) flanqueada por dos sitios de unión del cebador (P1 y P2), así como un par de cebadores de amplificación (2) que comprenden en el extremo 3' secuencias complementarias a un sitio de unión del cebador y sitios de unión del cebador de secuenciación (SEQ) en los extremos 5'. En el medio, en los cebadores de amplificación se encuentran identificadores de secuencia de nucleótidos. El ADN de muestra se amplifica con los cebadores de amplificación (3), lo que da como resultado un amplicón con dos identificadores de secuencia de nucleótidos en cada lado, con las dos SEQs (SEQ1 y SEQ2) en los extremos externos del amplicón. Cada hebra del amplicón puede servir como plantilla para una reacción de secuenciación. Una hebra de plantilla utilizada se representa de la siguiente manera: 3-SEQ1-NSI1-P1-IS-P2-NSI2-SEQ2-5', para la cual se utiliza un cebador de secuenciación contra SEQ1. Los cebadores de secuenciación se proporcionan de manera que, a partir de cada plantilla, se determinan la(s) secuencia(s) de NSI. Las secuencias se pueden determinar por separado. Las secuencias se pueden determinar consecutivamente, por ejemplo, como en la secuenciación de extremos emparejados. (5' indica el extremo 5' de una hebra de nucleótidos).

Figura 8. Método para determinar la secuencia de dos identificadores de secuencia de nucleótidos de un amplicón a partir de un ADN de muestra: doble etiquetado de lectura única. Se proporciona un ADN de muestra (1), que comprende una secuencia interna (IS) flanqueada por dos sitios de unión del cebador (P1 y P2), así como un par de cebadores de amplificación (2) que comprenden secuencias complementarias a un sitio de unión del cebador en el extremo 3' (C1 o C2). Los cebadores comprenden, además, NSIs y sitios de unión del cebador de secuenciación, donde los diferentes cebadores que comprenden los/las diferentes sitios/secuencias se representan de la siguiente manera: 5-SEQ1-NSI1-C1 y C2-SEQ2-NSI2-5'. El ADN de muestra se amplifica con los cebadores de amplificación (3), lo que da como resultado un amplicón con un identificador de secuencia de nucleótidos en cada lado, con NSI2 (4) sobre un extremo externo del amplicón SEQ1 y sobre el otro extremo externo. Una hebra del amplicón puede servir como plantilla para la secuenciación de los sitios de unión del cebador de secuenciación SEQ1 y SEQ2 en dos reacciones de secuenciación diferentes, es decir, utilizando los correspondientes cebadores de secuenciación diferentes. La hebra de plantilla utilizada se representa de la siguiente manera: 3-SEQ1-NSI1-P1-IS-P2-SEQ2-NSI2-5'. (5' indica el extremo 5' de una hebra de nucleótidos).

Figura 9. Método para determinar la secuencia de cuatro identificadores de secuencia de nucleótidos de un amplicón a partir de un ADN de muestra: doble etiquetado de lectura única.

Se proporciona un ADN de muestra (1), que comprende una secuencia interna (IS) flanqueada por dos sitios de unión del cebador (P1 y P2), así como un par de cebadores de amplificación (2) que comprenden secuencias complementarias a un sitio de unión del cebador en el extremo 3' (C1 o C2). Los cebadores comprenden, además, NSIs y uno de los cebadores comprende un sitio de unión del cebador de secuenciación. Los diferentes cebadores que comprenden las diferentes secciones se representan e la siguiente manera: 5'- NSI1-C1 y C2-SEQ2-NSI2-5'. El ADN de muestra se amplifica con los cebadores de amplificación (3), lo que da como resultado un amplicón con dos identificadores de secuencia de nucleótidos sobre uno de los extremos externos del amplicón. A continuación se proporciona un par de adaptadores (4). Un adaptador comprende un sitio de unión del cebador de secuenciación (SEQ1) y un NSI (NSI3), el otro cebador comprende un NSI (NSI4). Los adaptadores se ligan a cualquiera de los extremos del amplicón, lo que da como resultado un amplicón ligado a un adaptador, donde la sección de SEQ1 se encuentra sobre el extremo externo del amplicón ligado al adaptador (5), y SEQ1 y SEQ2 flanquean el IS. Una hebra del fragmento de ADN ligado al adaptador puede servir como plantilla para la secuenciación utilizando los sitios de unión del cebador de secuenciación SEQ1 y SEQ2 en dos reacciones de secuenciación diferentes, es decir utilizando los correspondientes cebadores de secuenciación diferentes. La hebra de plantilla utilizada se representa de la siguiente manera: 3'-SEQ1-NSI3-NSI1-IS -SEQ2-NSI2-NSI4-5'. (5' indica el extremo 5' de una hebra de nucleótidos).

Figura 10. Método para determinar la secuencia de cuatro identificadores de secuencia de nucleótidos de un amplicón a partir de un ADN de muestra.

Se proporciona un ADN de muestra (1), que comprende una secuencia interna (IS) flanqueada por dos sitios de unión del cebador (P1 y P2), así como un par de cebadores de amplificación (2) que comprenden secuencias complementarias a un sitio de unión del cebador en el extremo 3' (C1 o C2). Los cebadores comprenden, además, NSIs. Los diferentes cebadores que comprenden las diferentes secciones se representan de la siguiente manera: 5'- NSI1-C1 y C2 -NSI2-5'. El ADN de muestra se amplifica con los cebadores de amplificación (3), lo que da como resultado un amplicón con los dos identificadores de secuencia de nucleótidos sobre uno de los extremos externos del amplicón. A continuación, se proporciona un par de adaptadores (4). Cada adaptador comprende un sitio de unión del cebador de secuenciación (SEQ1 o SEQ2) y un NSI (NSI3 o NSI4). Los adaptadores se ligan a cualquiera de los extremos del amplicón, lo que da como resultado un amplicón ligado al adaptador, donde las secciones de SEQ1 y SEQ2 están sobre los extremos externos del amplicón ligado al adaptador (5). Cada hebra del amplicón ligado al adaptador puede servir como plantilla para una reacción de secuenciación. Los cebadores de secuenciación se proporcionan de manera que, a partir de cada plantilla, se determinan la(s) secuencia(s) de NSI. Las secuencias se pueden determinar por separado. Las secuencias se pueden determinar consecutivamente, por ejemplo, como en la secuenciación de extremos emparejados. Una de las hebras de plantilla utilizadas se representa de la siguiente manera: 3'-SEQ1-NSI3-NSI-1-P1-IS-P2- NSI2-NSI4-SEQ2-5', para la cual se utiliza un cebador de secuenciación contra SEQ1. (5' indica el extremo 5' de una hebra de nucleótidos).

Figura 11. Amplificación con par de cebadores. (UT1, cola universal 1, BC1, parte 1 del código de barras, UT2 cola universal 2, BCP2, parte 2 del código de barras)

A. La cola universal 1 puede ser el sitio del cebador de secuencia 1 (flecha negra gruesa) y la cola universal 2 puede ser el sitio del cebador de secuencia 2 (flecha punteada), por ejemplo, P5 y P7 en el caso de secuenciación de extremos emparejados de Illumina GA.

B. La cola universal 1 puede ser el sitio del cebador de secuencia 1 (flecha negra gruesa) y la cola universal 2 puede ser el sitio del cebador de secuencia 2 (flecha discontinua), por ejemplo, P5 y P7 en el caso de secuenciación de Illumina GA con dos eventos de cebador de la misma hebra

Figura 12. Ligación de un par de adaptadores con código de barras (P5, P5seq.pr.site(sit. ceb. sec.); BC1, parte 1 del código de barras, BC2, parte 2 del código de barras, P7, B, adaptador de extremo romo).

A. Ligación de adaptadores con código de barras EcoRland Msel al ADN digerido con EcoRI/Msel, donde la combinación de las partes 1 (lado EcoRI) y 2 (lado Msel) del código de barras definen la muestra de forma única.

B. Ligación de adaptadores con código de barras EcoRI y de extremo romo a la muestra que se digerió primero con EcoRl, seguido de la ligación del adaptador con código de barras EcoRI (código de barras 1), seguido de la fragmentación de los fragmentos ligados al adaptador, pulido final opcional y seguido de ligación del adaptador del extremo romo (parte 2 del código de barras), donde la combinación de la parte 1 del código de barras (lado EcoRI) y la parte 2 del código de barras (lado del extremo romo) definen la muestra de forma única.

Definiciones

[0008] En la siguiente descripción y ejemplos, se utilizan varios términos. Para proporcionar una comprensión clara y coherente de la especificación y las reivindicaciones, incluido el alcance que se les dará a dichos términos, se proporcionan las siguientes definiciones. A menos que se defina lo contrario en este caso, todos los términos técnicos y científicos utilizados tienen el mismo significado que entiende comúnmente un experto en la técnica a la que pertenece esta invención.

[0009] Los métodos para llevar a cabo las técnicas convencionales utilizadas en los métodos de la invención, tal y como se definen en las reivindicaciones, serán evidentes para el trabajador experto. La práctica de técnicas convencionales en biología molecular, bioquímica, química computacional, cultivo celular, ADN recombinante, bioinformática, genómica, secuenciación y campos relativos son bien conocidas por los expertos en la técnica y se analizan, por ejemplo, en las siguientes referencias de bibliografía: Sambrooket al., Molecular Cloning. A Laboratory Manual,2a edición, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N. Y., 1989; Ausubelet al., Current Protocols in Molecular Biology,John Wiley y Sons, Nueva York, 1987 y actualizaciones periódicas; y la serieMethods in Enzymology,Academic Press, San Diego.

[0010] Como se utiliza en este caso, las formas singulares "un", "una", "el" y "la" incluyen referentes plurales, a menos que el contexto indique claramente lo contrario. Por ejemplo, aislar ADN incluye aislar una pluralidad de moléculas de ADN (por ejemplo, decenas, centenas, miles, decenas de miles, centenas de miles, millones o más moléculas).

[0011] Una "secuencia de nucleótidos" según la presente invención puede incluir cualquier polímero u oligómero de nucleótidos, tales como bases de pirimidina y purina, preferiblemente citosina, timina, y uracilo, y adenina y guanina, respectivamente y combinaciones de las mismas (véase Albert L. Lehninger,Principles of Biochemistry,en 793-800 (Worth Pub. 1982). La presente invención contempla cualquier componente de desoxirribonucleótido, ribonucleótido o ácido nucleico peptídico, y cualquier variante química de los mismos, tales como las formas metiladas, hidroximetiladas o glicosiladas de estas bases, y similares. Los polímeros u oligómeros pueden tener una composición heterogénea u homogénea y se puede aislar de fuentes naturales o se pueden producir artificial o sintéticamente. Además, una secuencia de nucleótidos puede ser ADN o de ARN, o una mezcla de los mismos, y puede existir de forma permanente o transicional en forma monocatenaria o bicatenaria, incluidos los estados homodúplex, heteroduplex e híbridos.

[0012] Un "ADN de muestra" según la invención es una muestra que se deriva de un organismo y que comprende ADN. Un "ADN de muestra" puede comprender células de un organismo que comprende ADN, pero también ADN aislado de las células de un organismo. Siempre que el "ADN de muestra" comprenda ADN que se pueda utilizar en el método de la invención, dicho ADN de muestra se puede utilizar en la invención. Los organismos en los que se puede obtener ADN de muestra son, por ejemplo, plantas, mamíferos, hongos y microorganismos. El ADN de muestra también puede comprender etiquetas de secuencia expresadas o ADNc, donde ARN, como se expresa en células de organismos, se convierte en ADN bicatenario mediante transcripción inversa. El ADN de muestra también puede comprender ADNs de muestra agrupados obtenidos de diferentes sitios de un organismo, y/o de diferentes organismos. Los ADNs de muestra agrupados se pueden agrupar, por ejemplo, en un esquema de agrupación 3-D, de manera que se pueda determinar el origen de cada muestra que está comprendida en un ADN de muestra (por ejemplo, como se describe en la WO2007/037678).

[0013] "Fragmentar ADN" incluye cualquier técnica que, cuando se aplica a un ADN de muestra, da como resultado fragmentos de ADN. Las técnicas bien conocidas en la técnica son la sonicación, el cizallamiento y/o la restricción enzimática, pero también se pueden considerar otras técnicas.

[0014] Una "endonucleasa de restricción" o "enzima de restricción" es una enzima que reconoce una secuencia de nucleótidos específica (sitio de reconocimiento), por ejemplo, en una molécula de ADN bicatenaria, y escindirá ambas hebras de la molécula de ADN en o cerca de cada sitio de reconocimiento, lo que deja un extremo romo o sobresaliente 3' o 5'. La secuencia de nucleótidos específica que se reconoce puede determinar la frecuencia de escisión, por ejemplo, una secuencia de nucleótidos de 6 nucleótidos ocurre en promedio cada 4096 nucleótidos, mientras que una secuencia de nucleótidos de 4 nucleótidos ocurre mucho más frecuentemente, en promedio cada 256 nucleótidos. Las enzimas de restricción de tipo I cortan en un sitio que difiere y está a cierta distancia (al menos 1000 pb) de su sitio de reconocimiento. El sitio de reconocimiento es asimétrico y está compuesto por dos porciones (una que contiene 3-4 nucleótidos y otra que contiene 4-5 nucleótidos) separadas por un separador de aproximadamente 6-8 nucleótidos. Las enzimas de restricción de tipo II tienen sitios de reconocimiento que generalmente no están divididos y son palindrómicos y tienen 4-8 nucleótidos de longitud. Reconocen y escinden el ADN en el mismo sitio. Los de tipo II cortan fuera de su secuencia de reconocimiento y los de tipo IIB escinden el ADN en ambos lados de su sitio de reconocimiento para cortar el sitio de reconocimiento. Las enzimas de restricción de tipo III (por ejemplo, EcoP15) reconocen dos secuencias no palindrómicas separadas que están orientadas inversamente. Cortaron el ADN aproximadamente 20-30 pares de bases después del sitio de reconocimiento. Las enzimas de restricción de tipo IV cortaron el ADN metilado.

[0015] "Pulido" incluye cualquier técnica utilizada para crear secuencias de nucleótidos bicatenarios que pueden tener salientes con extremos romos 3' o 5'. Por ejemplo, en caso de que un ADN de muestra se fragmente utilizando la sonificación o utilizando enzimas que dan como resultado extremos escalonados (sobresalientes). Se puede utilizar ADN polimerasa I, fragmento grande (Klenow) para rellenar los salientes 5' (también llamados extremos recesados 3') y masticar los salientes 3' o se puede utilizar Mung Bean Nuclease para masticar salientes 3' o 5'.

[0016] La "ligación", tal y como se define en las reivindicaciones, implica la unión de secuencias de nucleótidos bicatenarios separadas. Las moléculas de ADN bicatenarias pueden tener extremos romos o pueden tener salientes compatibles (salientes rígidos), de modo que los salientes puedan hibridarse entre sí. La unión de los fragmentos de ADN puede ser enzimática, con una enzima ligasa, la ADN ligasa. Sin embargo, también se puede utilizar una ligación no enzimática, siempre que los fragmentos de ADN estén unidos, es decir formando un enlace covalente. Normalmente, en una reacción de ligación se forma un enlace fosfodiéster entre el grupo hidroxilo y fosfato de las hebras separadas. Es posible que sea necesario fosforilar las secuencias de nucleótidos bicatenarias antes de la ligación.

[0017] Los "cebadores de amplificación" se refieren a secuencias de nucleótidos monocatenarios que pueden cebar la síntesis de ADN. La ADN polimerasa no puede sintetizar ADN de novo sin cebadores. Un cebador de amplificación se hibrida con el ADN, es decir, se forman pares de bases. Los nucleótidos que pueden formar pares de bases, que son complementarias entre sí, son, por ejemplo, citosina y guanina, timina y adenina, adenina y uracilo, guanina y uracilo. La complementariedad entre el primer cebador de amplificación y la hebra de ADN existente no tiene que ser del 100 %, es decir, no todas las bases de un cebador necesitan emparejarse con la hebra de ADN existente. La secuencia de la hebra de ADN existente, por ejemplo, el ADN de muestra o un fragmento de ADN ligado al adaptador, con el que se hibrida (parcialmente) un cebador de amplificación, a menudo se denomina sitio de unión del cebador (PBS). A partir del extremo 3' de un cebador hibridado con la hebra de ADN existente, se incorporan nucleótidos utilizando la hebra existente como plantilla (síntesis de ADN dirigida con plantilla). También podemos referirnos a las moléculas de oligonucleótidos sintéticos que se utilizan en una reacción de amplificación como "cebadores". Las secuencias de nucleótidos recién sintetizadas en la reacción de amplificación se pueden denominar como secuencia interna. En caso de que se realice una reacción de PCR, la secuencia interna normalmente es la secuencia entre los dos sitios de unión del cebador. Según la invención, tal y como se define en las reivindicaciones, se puede utilizar un cebador en un paso de amplificación para introducir secuencias adicionales en el ADN. Esto se puede lograr proporcionando a cebadores secuencias adicionales, como un identificador, un adaptador de secuenciación o un ligando de captura, como un resto de biotina. Se pueden introducir modificaciones disponiéndolas en el extremo 5' del cebador, aguas arriba de la parte del cebador que sirve para cebar la síntesis de ADN.

[0018] "Amplificación" o "amplificar" se refiere a una reacción de amplificación de polinucleótidos, es decir, una población de polinucleótidos que se replican a partir de una o más secuencias iniciales. Amplificar puede referirse a una variedad de reacciones de amplificación, que incluyen, pero de forma no limitada, reacción en cadena de la polimerasa (PCR), reacciones de polimerasa lineal, amplificación basada en secuencias de ácidos nucleicos, amplificación por círculo rodante y reacciones similares. Normalmente, para la amplificación se utilizan cebadores de amplificación, donde el resultado de la reacción de amplificación es un amplicón.

[0019] Los "cebadores de secuenciación" se refieren a secuencias de nucleótidos monocatenarios que pueden preparar la síntesis de ADN y se utilizan para secuenciar el ADN. También se puede utilizar un cebador de amplificación como cebador de secuenciación. Se puede utilizar un cebador de secuenciación como cebador de amplificación. La ADN polimerasa no puede sintetizar ADN de novo sin cebadores. Un cebador de secuenciación se hibrida con el ADN, es decir, se forman pares de bases. Los nucleótidos que pueden formar pares de bases, que son complementarias entre sí, por ejemplo, citosina y guanina, timina y adenina, adenina y uracilo, guanina y uracilo. La complementariedad entre el cebador de amplificación y la hebra de ADN existente no tiene que ser del 100 %, es decir, no todas las bases de un cebador necesitan emparejarse con la hebra de ADN existente. La secuencia de la hebra de ADN existente, por ejemplo, ADN de muestra o un fragmento de ADN ligado a un adaptador, con el que se hibrida (parcialmente) un cebador de secuenciación, a menudo se denomina sitio de unión del cebador de secuenciación (SEQ). A partir del extremo 3' de un cebador de secuenciación hibridado con la hebra de ADN existente, se incorporan nucleótidos utilizando la hebra existente como plantilla (síntesis de ADN dirigida por plantilla). La incorporación de un nucleótido particular (A, T, C, o G) se puede detectar durante la síntesis, por ejemplo, en pirosecuenciación o cuando se utilizan nucleótidos marcados con fluorescencia. Alternativamente, se puede utilizar un método de terminación de cadena, por ejemplo, secuenciación de Sanger o secuenciación de terminación de Dye. En cualquier caso, se pueden contemplar estos y otros métodos, siempre que el orden de los nucleótidos de una plantilla de ADN se pueda determinar sintetizando ADN con un cebador de secuenciación y detectando los nucleótidos incorporados y/o los fragmentos sintetizados.

[0020] La "secuenciación" se refiere a determinar el orden de los nucleótidos (secuencias de bases) en una muestra de ácido nucleico, por ejemplo, ADN o ARN. Hay muchas técnicas disponibles, como la secuenciación de Sanger y las tecnologías de secuenciación de alto rendimiento (HTS). La secuenciación de Sanger puede implicar la secuenciación mediante detección a través de electroforesis (capilar), en la que se pueden analizar hasta 384 capilares en una sola ejecución. La secuenciación de alto rendimiento implica la secuenciación paralela de miles, millones o más secuencias a la vez. HTS se puede definir como secuenciación de próxima generación, es decir, técnicas basadas en pirosecuenciación en fase sólida o como secuenciación de próxima generación basada en secuenciación en tiempo real de un solo nucleótido (SMRT). Hay tecnologías HTS disponibles, como las que ofrecen Roche, Illumina y Applied Biosystems (Life Technologies). Otras tecnologías de secuenciación de alto rendimiento están descritas y/o disponibles en Helicos, Pacific Biosciences, Complete Genomics, Ion Torrent Systems, Oxford Nanopore Technologies, Nabsys, ZS Genetics, GnuBio. Cada una de estas tecnologías de secuenciación tienen su propia forma de preparar muestras antes del paso de secuenciación real. Estos pasos se pueden incluir en el método de secuenciación de alto rendimiento. En ciertos casos, los pasos que son particulares para el paso de secuenciación se pueden integrar en el protocolo de preparación de muestras antes del paso de secuenciación real por razones de eficiencia o economía. Por ejemplo, los adaptadores que están ligados a fragmentos pueden contener secciones que se pueden utilizar en pasos de secuenciación posteriores (los denominados adaptadores de secuenciación). O los cebadores que se utilizan para amplificar un subconjunto de fragmentos antes de la secuenciación pueden contener partes dentro de su secuencia que introducen secciones que pueden utilizarse posteriormente en el paso de secuenciación, por ejemplo, introduciendo a través de un paso de amplificación un adaptador de secuenciación o un resto de captura en un amplicón que se puede utilizar en un paso de secuenciación posterior. Dependiendo también de la tecnología de secuenciación utilizada, se pueden omitir pasos de amplificación.

[0021] Un "adaptador" es una molécula corta de ADN bicatenario con un número limitado de pares de bases, por ejemplo, de aproximadamente 10 a aproximadamente 100 pares de bases de longitud, que están diseñados de manera que se puedan ligar a los extremos de fragmentos o amplicones de ADN. Los adaptadores están compuestos generalmente por dos oligonucleótidos sintéticos que tienen secuencias de nucleótidos que son al menos parcialmente complementarias entre sí. Un adaptador puede tener extremos romos, extremos escalonados o un extremo romo y un extremo escalonado. Un extremo escalonado es un saliente 3' o 5'. Al mezclar los dos oligonucleótidos sintéticos en solución en condiciones apropiadas, se fusionarán entre sí formando una estructura bicatenaria. Después de la hibridación, un extremo de la molécula adaptadora se puede diseñar de modo que sea compatible con el extremo de un fragmento de restricción y se pueda ligar al mismo; el otro extremo del adaptador se puede diseñar de modo que no pueda ligarse, pero no es necesario que este sea el caso, por ejemplo, cuando se va a ligar un adaptador entre fragmentos de ADN. En ciertos casos, se pueden ligar adaptadores a fragmentos para proporcionar un punto inicial para la manipulación posterior del fragmento ligado al adaptador, por ejemplo, para la amplificación o secuenciación. En este último caso, a los fragmentos se les puede ligar los denominados adaptadores de secuenciación

Descripción detallada de la invención

[0022] La invención está definida por las reivindicaciones. En un primer aspecto, se proporciona un método, tal y como se define en las reivindicaciones, que comprende un paso en el que se utiliza una combinación de al menos dos identificadores de secuencia de nucleótidos en la preparación de un ADN de muestra para secuenciación de alto rendimiento. Con la preparación de un ADN de muestra según esto se entiende que se prepara un ADN de muestra, de manera que al menos dos NSls estén incluidos en el ADN de muestra, es decir, los al menos dos NSls están incluidos, por ejemplo, en un amplicón y/o un fragmento de ADN ligado a un adaptador o amplicón del mismo. Por lo tanto, los al menos dos NSIs están incluidas en una secuencia de nucleótidos del ADN de muestra de manera que una molécula de polinucleótido única comprende los al menos dos NSIs. La combinación los NSls sirve como identificadores únicos ("código de barras dividido") para el ADN de muestra.

[0023] Desde una perspectiva de diseño, no existe ninguna limitación práctica en cuanto al número de identificadores de secuencia de nucleótidos que se pueden utilizar. Por ejemplo, un nucleótido puede servir ya como identificador de secuencia de nucleótidos. Por lo tanto, se pueden diseñar 4 identificadores de secuencia de nucleótidos diferentes: A, G, C o T. Las secuencias que flanquean dicho identificador de nucleótido único pueden servir para guiar la identificación del NSI. Al aumentar el tamaño de un código de barras, aumenta el número de posibilidades. Tres bases de ADN permiten 64 posibles secuencias de 3 meros (43), 256 posibles 4 meros (=44), 1024 posibles 5 meros (=45) y 4096 posibles 7 meros (= 46), etc. Sin embargo, en la práctica, se puede preferir seleccionar un subconjunto de estas secuencias para evitar el uso en el mismo experimento de identificadores de secuencia de nucleótidos que difieren en una sola base (como, por ejemplo, GATC y GATT en el caso de 4 meros), ya que esto podría dar como resultado una asignación incorrecta en el caso de un error de amplificación o de secuenciación de una base. De forma similar, puede ser preferible evitar el uso de identificadores de secuencia de nucleótidos que tengan dos bases consecutivas idénticas (por ejemplo, AATGC que tenga dos A consecutivas en el caso de 5 meros) porque ciertas plataformas de NGS tienen tasas de error más altas para las secuencias denominadas "homopolímeros". A pesar de dichos criterios de selección, en general no faltan identificadores de secuencia de nucleótidos adecuados, ya que el incremento de su longitud con una base crea un número inicial cuatro veces mayor para seleccionar.

[0024] Por lo tanto, cuando, por ejemplo, en un método de secuenciación de alto rendimiento de un ADN de muestra preparado se determinan las dos secuencias de NSI, la combinación de los dos NSIs determina el origen del ADN de muestra preparado. De esta manera, el número de NSIs y, por lo tanto, por ejemplo, el número de diferentes cebadores y/o adaptadores que deben utilizarse se puede reducir considerablemente. Por ejemplo, para 100 muestras, actualmente se utilizan 100 NSIs, por ejemplo, se combinan 100 cebadores directos diferentes que comprenden los NSIs con un cebador inverso. Según la invención, tal y como se define en las reivindicaciones, utilizando un código de barras dividido, serían suficientes 10 NSls y, por lo tanto, se pueden utilizar 10 cebadores directos diferentes con 10 cebadores inversos diferentes, de los cuales se pueden hacer 100 combinaciones únicas. De este modo, se reduce considerablemente el número total de cebadores que se han de utilizar, donde el número se reduce de 101 cebadores a 20 cebadores. Por lo tanto, se reduce la complejidad del flujo de trabajo de la preparación de muestras, se aumenta la probabilidad de una representación equitativa de muestras, se reduce la carga de trabajo y la capacidad de almacenamiento requerida y se reducen los costos experimentales.

[0025] En otra forma de realización, se proporciona el uso de una combinación de al menos dos NSls en la preparación de un ADN de muestra para secuenciación de alto rendimiento, donde en la secuenciación de alto rendimiento se utiliza una pluralidad de ADNs de muestra preparados, donde cada preparación de un ADN de muestra comprende una combinación única de los al menos dos NSls, donde un primer NSI se selecciona de un grupo de NSls y un segundo NSI se selecciona del grupo de NSIs.

[0026] El grupo de NSls utilizado comprende todos los NSIs. Para cada ADN de muestra, se selecciona un identificador de secuencia de nucleótidos del grupo. Esto significa que, para un ADN de muestra para los al menos dos NSIs, se puede seleccionar el mismo NSI en la combinación de NSIs. Además, para un ADN de muestra para los al menos dos NSIs, se puede seleccionar diferentes NSIs en la combinación de NSIs. Siempre que la combinación de los NSIs sea única para cada ADN de muestra, se podrá utilizar dicha combinación. El grupo de NSls también puede comprender al menos dos subgrupos de NSIs, donde cada primer y segundo NSI se pueden seleccionar de un subgrupo diferente. Además del primer y segundo NSIs, se puede utilizar otros NSls seleccionados del grupo de NSIs. Un grupo de NSls puede comprender al menos 4, 10, 100 o 1000 NSIs.

[0027] Se entiende que, cuando se proporciona un grupo de NSls, el grupo puede proporcionarse virtualmente, es decir, no físico. El grupo puede proporcionarse, por ejemplo,in silicoy/oin physico.Por ejemplo, se puede proporcionar un grupo de NSls como una lista de secuencias. Los NSIs pueden seleccionarse de esa lista y utilizarse para diseñarin silicoun cebador y/o adaptador. Por lo tanto, se entiende que los pasos posteriores de proporcionar un grupo de NSIs y proporcionar un adaptador pueden comprender proporcionar un grupo de NSlsin silico,seleccionar de ese grupo un NSIin silico,diseñar un adaptadorin silicoy luego proporcionarin physicoel adaptador que comprende el NSI. Alternativamente, los NSIs también pueden proporcionarsein physicoy utilizarse directamente, por ejemplo, en un escenario en el que se utiliza un adaptador que consta de un identificador de secuencia de nucleótidos. O, por ejemplo, los NSIs pueden proporcionarsein physicoy unirse (por ejemplo, ligarse o de otro modo) a otras hebras de nucleótidos, de manera que se genere un adaptador y/o cebador de amplificación, por lo que se proporciona un adaptador y/o cebador de amplificación que comprende un NSI.

[0028] La razón fundamental de la invención, tal y como se define en las reivindicaciones, es que se crea un gran número de combinaciones únicas utilizando al menos dos identificadores de secuencia de nucleótidos diferentes que se incorporan en cada muestra y aprovechando el poder de multiplicación para reducir los costos iniciales de reactivos. Esto se muestra en la tabla 1 para una serie de situaciones matemáticamente óptimas para dos NSIs.

Tabla 1. Combinaciones ó timas de NSIs con dos NSIs.

[0029] Como se dijo, el concepto no se limita a los ejemplos mostrados en la tabla 2, sino que también se pueden considerar otras combinaciones. Por ejemplo, se pueden seleccionar combinaciones menos óptimas. También se pueden seleccionar combinaciones que puedan involucrar a más de dos NSIs. Por ejemplo, con 10 NSIs, y combinando cuatro NSIs, son posibles 10 x 10 x 10 x 10 = 10.000 combinaciones únicas. En la estrategia de diseño y/o combinación utilizada, también se tienen en cuenta consideraciones prácticas, por ejemplo, consideraciones prácticas relacionadas con la preparación del ADN de muestra.

[0030] El ADN de muestra preparado es un ADN de muestra que se ha sometido a un procesamiento mediante el cual los al menos dos identificadores de secuencia de nucleótidos se incluyen en el ADN, es decir, los al menos dos NSls se incluyen en una molécula de ADN que comprende los dos NSls y una secuencia de ADN del ADN de muestra. La molécula de ADN puede ser una molécula de ADN bicatenaria o una molécula de ADN monocatenaria. Se entiende que el ADN de muestra preparado puede comprender una pluralidad de diferentes moléculas de ADN, donde cada molécula de ADN comprende la combinación única de NSls, de manera que cada molécula de ADN se pueda asignar a un ADN de muestra del que se origina. En el método de secuenciación de alto rendimiento, de cada una de las moléculas de ADN de la pluralidad de moléculas de ADN se puede determinar una secuencia con secuenciación de alto rendimiento.

[0031] En una forma de realización, el ADN de muestra preparado comprende un amplicón. Por ejemplo, se incluyen al menos dos NSls en cebadores utilizados para preparar un amplicón. Por lo tanto, el amplicón comprende al menos dos NSls de los al menos dos cebadores diferentes utilizados. Los amplicones se pueden preparar, por ejemplo, en una reacción de PCR. También se puede preparar un amplicón a partir de una PCR anidada, es decir, preparar un primer amplicón con un primer conjunto de cebadores en una primera reacción de PCR seguida de una segunda reacción de PCR con un segundo conjunto de cebadores, cuyos cebadores son diferentes del primer conjunto de cebadores y qué cebadores amplifican el amplicón de la primera reacción de PCR. Se puede realizar una PCR anidada, por ejemplo, para amplificar secuencias de ADN que tienen una concentración muy baja o puede servir, por ejemplo, para proporcionar un identificador adicional o identificadores adicionales.

[0032] En una forma de realización, el ADN de muestra preparado comprende un fragmento de ADN ligado a un adaptador, el ADN de muestra se fragmenta y los adaptadores se ligan a los fragmentos de ADN. Al menos dos adaptadores están ligados a un fragmento de ADN, y cada uno de los al menos dos adaptadores comprende un NSI.

[0033] En una forma de realización, el ADN de muestra preparado comprende un amplicón y un fragmento ligado a un adaptador.

[0034] En una forma de realización, el ADN de muestra preparado comprende un fragmento ligado a un adaptador amplificado y/o un amplicón ligado a un adaptador. Por ejemplo, un ADN de muestra se puede someter posteriormente a fragmentación, ligación de adaptador y amplificación. Por el contrario, un ADN de muestra puede someterse, por ejemplo, posteriormente a amplificación, fragmentación y ligación de adaptador. En esta forma de realización, al menos dos de todos los cebadores de amplificación y/o adaptadores utilizados en la preparación del ADN de muestra comprenden un NSI.

[0035] En una forma de realización, el método según la invención, tal y como se define en las reivindicaciones, comprende:

a) proporcionar múltiples pares de adaptadores y/o cebadores de amplificación, tal y como se define en las reivindicaciones, donde se proporciona al menos un primer adaptador o cebador de amplificación que comprende un primer identificador de secuencia de nucleótidos seleccionado del grupo de identificadores de secuencia de nucleótidos y un segundo adaptador o cebador de amplificación que comprende un segundo identificador de secuencia de nucleótidos seleccionado del grupo de identificadores de secuencia de nucleótidos, y donde, opcionalmente, se proporcionan adaptadores o cebadores de amplificación adicionales que comprenden un identificador de secuencia de nucleótidos adicional seleccionado del grupo de identificadores de secuencia de nucleótidos;

b) proporcionar una pluralidad de ADNs de muestra;

c) realizar reacciones de ligación y/o amplificación sobre los ADNs de muestra utilizando los adaptadores y/o cebadores de amplificación para proporcionar ADN de muestra ligado y/o amplificado que comprende el primer, segundo y opcionalmente identificadores de secuencia de nucleótidos adicionales;

d) determinar al menos la secuencia del primer, segundo y otros identificadores de secuencia de nucleótidos utilizando secuenciación de alto rendimiento;

e) determinar el origen de la muestra de los ADNs de muestra ligados y/o amplificados.

[0036] Siempre que en la preparación de un ADN de muestra, utilizando los múltiples pares de adaptadores y/o cebadores de amplificación, tal y como se define en las reivindicaciones, se utilicen al menos dos NSIs que terminan en una única molécula de ADN que comprende los dos NSIs y una secuencia de ADN a partir del ADN de muestra, dicho método de preparación de muestras se puede contemplar según la invención, tal y como se define en las reivindicaciones. Por lo tanto, se pueden combinar diferentes pasos de ligación de adaptadores y/o pasos de amplificación separados para incorporar al menos dos NSls en un ADN de muestra preparado. La preparación de un ADN de muestra también puede comprender pasos que no implican la adición de NSIs.

[0037] Se entiende que, en la preparación del ADN de muestra, también se pueden incluir pasos que se pueden realizar en el paso de secuenciación posterior y viceversa. Los pasos necesarios para el paso de secuenciación posterior también se pueden incluir en la preparación del ADN de muestra. Por ejemplo, en una reacción de secuenciación, se pueden utilizar cebadores de secuenciación que se unen a sitios de unión del cebador de secuenciación presentes en una plantilla. Por lo tanto, los adaptadores y/o cebadores de amplificación utilizados en la preparación de un ADN de muestra pueden comprender sitios de unión del cebador de secuenciación. Alternativamente, se pueden añadir sitios de unión del cebador de secuenciación en el método de secuenciación de alto rendimiento proporcionando estas secuencias adicionales en una etapa posterior.

[0038] Además de la secuenciación de los al menos dos NSls en el método de secuenciación de alto rendimiento, también se pueden secuenciar secuencias del ADN de muestra. Dichas secuencias también se pueden denominar secuencias internas, ya que son secuencias que se capturan y/o amplifican con el método de preparación de ADN de muestra y pueden representar secuencias desconocidas de ADNs de muestra que son de interés. Estas secuencias internas también se pueden secuenciar junto con los NSIs y, por lo tanto, el origen de la muestra que comprende estas secuencias internas se puede determinar mediante la combinación de los NSls. De esta manera, por ejemplo, se pueden detectar polimorfismos entre diferentes muestras, tales como pequeños polimorfismos de nucleótidos, deleciones, inserciones, etc. comparando las secuencias internas y/o comparando las secuencias internas con una secuencia de referencia. Además, estas secuencias internas también pueden ayudar en la asignación de diferentes lecturas a un ADN de muestra preparado, por ejemplo, en el escenario que se describe a continuación en el que se utilizan diferentes lecturas de secuenciación para construir un cóntigo.

[0039] La secuenciación de alto rendimiento implica la secuenciación paralela de miles o millones o más secuencias a la vez. Cualquiera que sea el método de secuenciación de alto rendimiento utilizado, los NSIs de los ADNs de muestra preparados se determinan de manera que cada combinación de NSls se pueda asignar a un ADN de muestra preparado. Por ejemplo, se pueden construir cóntigos alineando y combinando diferentes lecturas de secuenciación mediante las cuales se pueden acoplar los al menos dos NSIs y, por lo tanto, se pueden asignar a una única molécula de ADN que comprende los al menos dos NSIs. Además, se pueden realizar dos reacciones de secuenciación en las hebras complementarias de un ADN de muestra preparado, lo cual se prefiere en caso de que se requieran secuencias internas del fragmento desde ambos extremos, cuando, por ejemplo, la secuencia interna es relativamente grande. Cuando las dos lecturas de secuenciación se pueden asignar al ADN de muestra preparado, que comprende los al menos dos NSIs y una secuencia de ADN del ADN de muestra, se pueden contemplar dichos métodos de secuenciación de alto rendimiento. Además, los al menos dos NSls se pueden determinar a partir de una única lectura de secuenciación en un método de secuenciación de alto rendimiento.

[0040] Por ejemplo, en un denominado método de secuenciación de extremos emparejados, en una primera reacción de secuenciación se puede determinar una primera secuencia que incluye un NSI utilizando una de las hebras como plantilla. Después de la primera reacción de secuenciación, se puede generar una hebra complementaria a partir de la hebra utilizada por primera vez como plantilla. Posteriormente se puede realizar una segunda reacción de secuenciación utilizando esta hebra recién generada como segunda plantilla. Por lo tanto, en este método se utilizan dos hebras de plantilla de ADN. Por ejemplo, la estructura de una primera hebra de plantilla de secuenciación puede ser 3'- sitio de unión del cebador de secuencia 1 - NSI 1 - secuencia interna -complemento inverso NSI 2 - sitio de unión del cebador de secuencia del complemento inverso 2-5'. Después de la primera reacción de secuenciación, se puede generar un complemento inverso de la primera hebra de plantilla de secuenciación, que se puede utilizar posteriormente en una segunda reacción de secuenciación. Por lo tanto, la segunda reacción de secuenciación tiene la siguiente plantilla: 3'- sitio de unión del cebador de secuencia 2 -NSI 2 - secuencia interna del complemento inverso - complemento inverso NSI 1 - sitio de unión del cebador de secuencia del complemento inverso 1-5'. Debido a que ambas lecturas de secuencia se colocalizan (por ejemplo, en el mismo pocillo, la misma perla, las dos lecturas de secuencia que comprenden NSI 1 y NSI 2 pueden asignarse al mismo ADN de muestra preparado y utilizarse para identificar el ADN de muestra preparado. Dichos escenarios de preparación de muestras y secuenciación posterior están representados en las figuras 5, 7 y 10.

[0041] En una forma de realización, en el método de secuenciación de alto rendimiento, se utiliza una plantilla de ADN única del ADN de muestra preparado. Por plantilla de ADN única según la invención, tal y como se define en las reivindicaciones, se entiende una molécula de ADN monocatenaria que comprende los al menos dos identificadores de secuencia de nucleótidos. Se entiende que una plantilla de ADN única de una plantilla de ADN preparada puede comprender una pluralidad de moléculas de plantilla de ADN únicas, por ejemplo, que comprende diferentes secuencias internas derivadas de una muestra de ADN y cada secuencia interna diferente está unida a la combinación única de NSI. Cuando, por ejemplo, el ADN de muestra preparado es un amplicón (o una pluralidad de amplicones), el amplicón comprende dos hebras de ADN. En esta forma de realización, solo se utiliza uno de los hilos de un amplicón en la reacción de secuenciación para determinar las secuencias de NSI. De esta manera, se puede determinar el origen de un ADN de muestra preparado sin necesidad de construir un cóntigo y/o sin requerir una secuencia derivada de otra plantilla de ADN. Los NSIs pueden flanquear la secuencia interna del ADN de muestra preparado. Los NSIs también puede estar en un lado de (una secuencia interna de) un ADN de muestra preparado. En estos escenarios, una única molécula de plantilla de ADN de un ADN de muestra preparado puede tener la siguiente estructura: 3'- sitio de unión del cebador de secuencia - NSI 1 -secuencia interna - NSI 2 -5 o 3'-sitio de unión del cebador de secuencia - NSI 1 - NSI 2 - secuencia interna -5'. El ADN de muestra preparado puede comprender secuencias adicionales. El orden del sitio de unión del cebador de secuencia, los NSIs y la secuencia interna es lo que interesa en esta representación estructural. El sitio de unión del cebador de secuencia se puede incorporar durante la preparación de un ADN de muestra y/o se puede incorporar en el método de secuenciación de alto rendimiento. La longitud y/o calidad de las secuencias generadas en la secuenciación de alto rendimiento pueden ser limitadas. Por otro lado, la longitud de la secuencia se puede restringir de manera que no se puedan determinar ambos NSIs que flanquean la secuencia interna. Puede resultar ventajoso tener los NSIs en un lado de la secuencia interna, es decir, la parte de la plantilla de ADN única que se secuencia primero, de manera que ambas secuencias se pueden determinar en una sola lectura. Los NSls también pueden estar en ambos lados de la secuencia interna.

[0042] En una forma de realización, la plantilla de ADN única utilizada puede comprender dos sitios de unión del cebador de secuenciación, donde cada sitio de unión del cebador de secuenciación está situado en 3' de un identificador de secuencia de nucleótidos diferente. En general, una plantilla de ADN única puede comprender una primera sección y una segunda sección, con una secuencia interna derivada del ADN de muestra en el medio. La primera sección comprende un sitio de unión del cebador de secuenciación con un NSI situado en 5' del mismo y NSI adicionales opcionales, y la segunda sección comprende un segundo sitio de unión del cebador de secuenciación con un NSI situado en 5' del mismo y NSI adicionales opcionales. En este escenario, una plantilla de ADN única de un ADN de muestra preparado puede tener la siguiente estructura: 3'- sitio de unión del cebador de secuencia 1 - NSI 1 - secuencia interna - sitio de unión del cebador de secuencia 1 NSI 2 -5'. El ADN de muestra preparado puede comprender secuencias adicionales. El orden de los sitios de unión del cebador de secuencia, los NSIs y la secuencia interna es lo que interesa en esta representación estructural. Por lo tanto, el sitio de unión del cebador de secuenciación se puede situar directamente en 3' de un identificador de secuencia de nucleótidos, pero también pueden estar presentes secuencias adicionales entre un sitio de unión del cebador de secuenciación y un identificador de secuencia de nucleótidos. En este escenario, a partir de una plantilla única, se pueden realizar dos reacciones de secuenciación diferentes consecutivamente en el método de secuenciación de alto rendimiento. Una reacción de secuenciación determinará uno (o más) NSI, y una segunda reacción de secuenciación determinará un segundo NSI (o más). Las dos reacciones de secuenciación de esta forma de realización realizada en un método de secuenciación de alto rendimiento utilizando la misma plantilla pueden denominarse en lo sucesivo secuenciación "de doble etiquetado de lectura única". Dichos escenarios de doble etiquetado de lectura única están representados en las figuras 6, 8 y 9.

[0043] Durante la preparación de muestras y/o durante el método de secuenciación de alto rendimiento, las diferentes muestras o parte de las muestras diferentes se pueden agrupar de manera que los pasos que se pueden realizar simultáneamente se puedan realizar simultáneamente. El origen de la muestra aun puede determinarse, ya que no se agrupan muestras o parte de diferentes muestras, por lo que ya no se puede rastrear el origen de la muestra. Por ejemplo, en un escenario en el que, en la preparación de un ADN de muestra, se añaden NSIs en diferentes pasos, puede ser beneficioso agrupar al menos parte de las muestras en preparación después de dicho paso. Por ejemplo, en un escenario en el que se utilizan 6 NSIs para 36 muestras, cada ADN de muestra se somete primero a un paso que añade uno de los 6 NSIs diferentes (A-F). Se pueden combinar muestras que comprenden identificadores únicos (A1, B1, C1, D1, E1, F1) y ahora a cada grupo se le puede añadir uno de los 6 identificadores, donde cada grupo de seis tiene un segundo identificador único (A2, B2, C2, D2, E2 o F2), por lo que A1 y A2, etc. pueden ser idénticos o no. Finalmente, una vez que se han preparado todos los ADNs de muestra, los ADNs de muestra preparados se pueden agrupar (parcialmente o en su totalidad) de cualquiera forma posible, porque ahora se incorporan al menos dos identificadores únicos.

[0044] Son posibles diferentes métodos para identificar el origen de la muestra de un ADN de muestra preparado que comprende una combinación única de los al menos dos NSIs.

[0045] En una forma de realización de la invención, se proporciona un método que utiliza múltiples pares de adaptadores y/o cebadores de amplificación, tal y como se define en las reivindicaciones para identificar el origen de la muestra de amplicones a partir de una pluralidad de ADNs de muestra, que comprende los pasos de:

a) proporcionar una pluralidad de ADNs de muestra;

b) proporcionar un primer y un segundo grupo de identificadores de secuencia de nucleótidos, donde el primer y segundo grupo pueden ser iguales o diferentes;

c) proporcionar primeros cebadores de amplificación, tal y como se define en las reivindicaciones, donde cada primer cebador comprende un primer identificador de secuencia de nucleótidos seleccionado del primer grupo de identificadores de secuencia de nucleótidos;

d) proporcionar segundos cebadores de amplificación, tal y como se define en las reivindicaciones, donde cada segundo cebador comprende un segundo identificador de secuencia de nucleótidos seleccionado del segundo grupo de identificadores de secuencia de nucleótidos;

e) amplificar cada ADN de muestra con un par único de un primer y un segundo cebador de amplificación para dar amplicones;

f) opcionalmente, agrupar al menos parte de los amplicones;

g) determinar la secuencia de la primera secuencia identificadora y la segunda secuencia identificadora de los amplicones utilizando secuenciación de alto rendimiento;

h) determinar el origen de la muestra de los amplicones.

[0046] Un esquema de la preparación de muestras de este método de esta forma de realización se muestra en la figura 1. En este método, se incluyen dos NSls en un primer y un segundo cebador de amplificación. El amplicón comprende los dos NSIs. Los cebadores de amplificación se pueden diseñar para amplificar una secuencia interna particular que sea de interés. Al secuenciar al menos parte de la secuencia interna y los dos NSIs del amplicón, cada secuencia interna (parcial) secuenciada se puede asignar a un ADN de muestra del que se origina. Alternativamente, los cebadores de amplificación se pueden diseñar de manera que sean selectivos hacia un sitio de unión del cebador particular. Determinando solo la secuencia de los dos NSls se determina la presencia o ausencia de un amplicón para un ADN de muestra particular. Los cebadores de amplificación utilizados pueden tener extremos 5' fosforados que son adecuados para la ligación de adaptadores que pueden utilizarse en un método de secuenciación de alto rendimiento posterior. Alternativamente, los amplicones se pueden fosforilar si es necesario.

[0047] En una forma de realización, se proporciona un método que utiliza múltiples pares de adaptadores y/o cebadores de amplificación, tal y como se define en las reivindicaciones, para identificar el origen de la muestra de fragmentos de ADN ligados a un adaptador a partir de una pluralidad de ADNs de muestra, que comprende los pasos de:

a) proporcionar una pluralidad de ADNs de muestra;

c) proporcionar primeros adaptadores, tal y como se define en las reivindicaciones, donde cada primer adaptador comprende un primer identificador de secuencia de nucleótidos seleccionado del primer grupo de identificadores de secuencia de nucleótidos;

d) proporcionar segundos adaptadores, tal y como se define en las reivindicaciones, donde cada segundo adaptador comprende un segundo identificador de secuencia de nucleótidos seleccionado del segundo grupo de identificadores de secuencia de nucleótidos;

e) fragmentar cada ADN de muestra;

f) ligar un par único de un primer y un segundo adaptador a cada ADN de muestra fragmentado para dar fragmentos de ADN ligados al adaptador;

g) opcionalmente, agrupar al menos parte de los fragmentos de ADN ligados al adaptador;

h) determinar la secuencia de la primera secuencia identificadora y la segunda secuencia identificadora de los fragmentos de ADN ligados al adaptador utilizando la secuenciación de alto rendimiento;

i) determinar el origen de la muestra de los fragmentos de ADN ligados al adaptador.

[0048] Un esquema que muestra la preparación de muestras de un método de esta forma de realización se muestra en la figura 2. En este método, se ligan dos adaptadores a un fragmento de ADN. Como se muestra en la figura 2, los adaptadores se pueden ligar a cualquier sitio de un fragmento. Esto es, en particular, adecuado para métodos de secuenciación de alto rendimiento, en los que se utilizan dichas estrategias de ligación de adaptadores. Son posibles muchas estrategias para ligar dos adaptadores diferentes a fragmentos. Por ejemplo, primero se puede fragmentar el ADN con dos enzimas de restricción con dos sitios de reconocimiento diferentes. Esto da como resultado fragmentos de ADN que tienen extremos que son el resultado de una enzima de restricción, pero también fragmentos que tienen extremos que son el resultado de las dos enzimas de restricción. Cuando se diseñan dos adaptadores diferentes que se pueden ligar a los extremos de restricción específicos de cada extremo, se pueden formar fragmentos ligados al adaptador que comprenden los dos adaptadores diferentes. Además, se forman fragmentos ligados al adaptador, que comprenden dos del mismo adaptador. Alternativamente, el ADN puede fragmentarse, por ejemplo, con una enzima de restricción única seguido de la ligación de adaptadores compatibles a la misma. A continuación, el fragmento ligado al adaptador se puede fragmentar nuevamente, pero ahora con, por ejemplo, sonificación. A continuación, se pulen los extremos del fragmento y se ligan a los extremos pulidos de los adaptadores con extremos romos. El resultado es una mezcla de fragmentos ligados al adaptador, incluidos fragmentos ligados al adaptador que comprenden el adaptador compatible con enzimas de restricción y el adaptador compatible con extremo romo. En ambos escenarios, se forman fragmentos ligados al adaptador que pueden comprender los dos NSIs. Solamente de los fragmentos ligados al adaptador que comprenden los dos adaptadores diferentes se puede determinar el origen de la muestra, ya que es la combinación de los dos NSls que se requiere para determinar el origen de la muestra.

[0049] En una forma de realización, se proporciona un método que utiliza múltiples pares de adaptadores y/o cebadores de amplificación, tal y como se define en las reivindicaciones, para identificar el origen de la muestra de amplicones ligados a un adaptador, que comprende los pasos de:

a) proporcionar una pluralidad de ADNs de muestra;

e) amplificar un ADN de muestra con un par de un primer y un segundo cebador de amplificación para dar amplicones;

f) opcionalmente, agrupar al menos parte de los amplicones de ADNs de muestra, cada uno amplificado con un par de cebadores diferentes;

g) opcionalmente, fragmentar los amplicones;

h) proporcionar primeros adaptadores, donde cada primer adaptador comprende un primer identificador de secuencia de nucleótidos seleccionado del grupo de identificadores de secuencia de nucleótidos;

i) proporcionar segundos adaptadores, donde cada segundo adaptador comprende un segundo identificador de secuencia de nucleótidos seleccionado del grupo de identificadores de secuencia de nucleótidos;

j) opcionalmente, proporcionar adaptadores adicionales, donde cada adaptador comprende identificadores de secuencia de nucleótidos adicionales seleccionados del grupo de identificadores de secuencia de nucleótidos;

k) ligar el primer adaptador, a los amplicones (fragmentados);

l) opcionalmente, agrupar al menos parte de los amplicones ligados al adaptador del paso k);

m) repetir el paso de ligación con el segundo y los otros adaptadores, cada paso de ligación seguido, opcionalmente, por el agrupamiento de al menos parte de los amplicones obtenidos ligados al adaptador; n) determinar la secuencia de la primera, segunda y secuencias identificadoras adicionales opcionales de los amplicones ligados al adaptador obtenidos en el paso m) utilizando secuenciación de alto rendimiento; o) determinar el origen de la muestra de los amplicones ligados al adaptador.

[0050] En esta forma de realización, cada ADN de muestra se somete a al menos una reacción de amplificación por PCR. Se pueden realizar múltiples reacciones de PCR en cada muestra, por ejemplo, para diferentes secuencias objetivo. Opcionalmente, estos amplicones diferentes de cada muestra pueden combinarse. Los NSIs en esta forma de realización se puede añadir en pasos separados y después de cada paso, se pueden agrupar al menos parte de los amplicones ligados al adaptador.

[0051] En otras formas de realización, se combinan adaptadores de ligación y amplificación, donde el origen de la muestra de un ADN de muestra preparado se puede determinar determinando 2-4 NSIs de un ADN de muestra preparado.

[0052] En una forma de realización, se proporciona un método que utiliza múltiples pares de adaptadores y/o cebadores de amplificación, tal y como se define en las reivindicaciones, para identificar el origen de la muestra de fragmentos de ADN ligados a un adaptador amplificados a partir de una pluralidad de ADNs de muestra, que comprende los pasos de:

a) proporcionar una pluralidad de ADNs de muestra;

e) fragmentar cada ADN de muestra;

f) ligar al menos un primer adaptador y, opcionalmente, un segundo adaptador al ADN de muestra fragmentado para dar fragmentos de ADN ligados al adaptador;

h) proporcionar primeros cebadores de amplificación, donde cada primer cebador comprende un tercer identificador de secuencia de nucleótidos seleccionado del grupo de identificadores de secuencia de nucleótidos;

i) opcionalmente, proporcionar segundos cebadores de amplificación, donde cada segundo cebador comprende opcionalmente un cuarto identificador de secuencia de nucleótidos seleccionado del grupo de identificadores de secuencia de nucleótidos;

j) amplificar los fragmentos de ADN ligados al adaptador con un primer cebador de amplificación y, opcionalmente, un segundo cebador de amplificación, donde la combinación de un primer, opcional segundo, tercero y opcional cuarto NSI es única para cada muestra, para dar fragmentos de ADN amplificados ligados al adaptador;

k) opcionalmente, agrupar al menos parte de los fragmentos de ADN amplificados ligados al adaptador; l) determinar la secuencia de la primera, opcional segunda, tercera y opcional cuarta secuencia identificadora de los fragmentos de ADN amplificados ligados al adaptador utilizando secuenciación de alto rendimiento; m) determinar el origen de la muestra de los fragmentos de ADN amplificados ligados al adaptador.

[0053] Un esquema de la preparación de muestras de un método de esta forma de realización se muestra en la figura 3. En este escenario, los fragmentos ligados al adaptador se pueden preparar como se ha descrito anteriormente. Alternativamente, es posible que solo se haya ligado un adaptador a los fragmentos. El(Los) adaptador(es) puede(n) comprender, además de un NSI, un sitio de unión del cebador que se puede utilizar en una amplificación posterior y preferiblemente un sitio de unión al cebador de secuenciación. En el escenario donde se utiliza el mismo adaptador en cada lado de un fragmento, el mismo cebador de amplificación se puede utilizar para amplificar el fragmento ligado al adaptador. El sitio de unión del cebador también puede incluir (parte de) el NSI. Alternativamente, se pueden utilizar cebadores (más) selectivos que requieran nucleótidos complementarios (diferentes) adicionales a la secuencia interna del fragmento de ADN más allá de la secuencia de sitio de reconocimiento de restricción de la secuencia interna. El concepto de cebadores selectivos se describe bien, por ejemplo, en la WO2006/137733, y el método de esta forma de realización puede implicar la preparación de ADN de muestra que utiliza dichos cebadores selectivos. Por ejemplo, se diseña un cebador, de manera que sea complementario a (parte de) la secuencia del adaptador y la secuencia interna del ADN de muestra al que está ligado el adaptador que comprende el sitio de reconocimiento de restricción, y un nucleótido adicional. El nucleótido adicional es el nucleótido selectivo que hace que el cebador sea selectivo. En promedio, a uno de cada cuatro fragmentos de restricción ligados al adaptador, el cebador selectivo puede unirse y tener el extremo 3' extendido. El concepto de cebadores selectivos es bien conocido por AFLP (EP 534858) como método de reducción de complejidad.

[0054] En cualquier caso, el resultado final es un fragmento ligado al adaptador amplificado, que puede comprender al menos dos NSIs, o incluso 3 o 4 NSI. Incluir más NSIs puede ser ventajoso, ya que esto puede reducir aun más el número de NSls. Por ejemplo, donde para 10.000 muestras se requieren 100 NSls en una combinación de dos NSIs (100 x 100), se requieren 10 NSIs en una combinación de cuatro NSIs (10 x 10 x 10 x 10).

[0055] En una forma de realización, se proporciona un método que utiliza múltiples pares de adaptadores y/o cebadores de amplificación, tal y como se define en las reivindicaciones, para identificar el origen de la muestra de amplicones ligados a un adaptador, que comprende los pasos de:

a) proporcionar una pluralidad de ADNs de muestra;

d) proporcionar segundos cebadores de amplificación, tal y como se define en las reivindicaciones, donde cada segundo cebador comprende opcionalmente un segundo identificador de secuencia de nucleótidos seleccionado del segundo grupo de identificadores de secuencia de nucleótidos;

e) amplificar cada ADN de muestra con un par de un primer y un segundo cebador de amplificación para dar amplicones;

f) opcionalmente, agrupar al menos parte de los amplicones de ADNs de muestra, cada uno amplificado con un par de cebadores diferente;

g) opcionalmente, fragmentar los amplicones;

h) proporcionar primeros adaptadores, donde cada primer adaptador comprende un tercer identificador de secuencia de nucleótidos seleccionado del grupo de identificadores de secuencia de nucleótidos;

i) opcionalmente, proporcionar segundos adaptadores, donde cada segundo adaptador comprende opcionalmente un cuarto identificador de secuencia de nucleótidos seleccionado del grupo de identificadores de secuencia de nucleótidos;

j) ligar al menos un primer adaptador y, opcionalmente, un segundo adaptador a los amplicones (fragmentados), donde la combinación de un primer, opcional segundo, tercer y opcional cuarto identificador de secuencia de nucleótidos es única para cada muestra, para dar amplicones ligados al adaptador;

k) opcionalmente, agrupar al menos parte de los amplicones ligados al adaptador;

l) determinar la secuencia de la primera, opcional segunda, tercero y opcional cuarta secuencia identificadora de los amplicones ligados al adaptador utilizando secuenciación de alto rendimiento;

m) determinar el origen de la muestra de los amplicones ligados al adaptador.

[0056] Un esquema de la preparación de muestras de un método de esta forma de realización se muestra en la figura 4. En este escenario, un ADN de muestra se puede someter a amplificación, como se ha descrito anteriormente, donde ahora al menos uno de los cebadores comprende un NSI. El amplicón se puede utilizar directamente (con o sin pulido) y se puede ligar un adaptador al amplicón. En este escenario, el amplicón ligado al adaptador comprenderá en ambos extremos el mismo adaptador. Este amplicón ligado al adaptador se puede someter a fragmentación adicional y ligación de adaptador a un segundo adaptador para obtener amplicones ligados al adaptador que tienen dos adaptadores diferentes. Alternativamente, un amplicón se puede someter a un paso de fragmentación que de como resultado fragmentos con dos extremos diferentes que sean compatibles con dos adaptadores diferentes. En cualquier caso, se forma un amplicón ligado al adaptador que comprende 2-4 NSIs.

[0057] En una forma de realización de la invención, tal y como se define en las reivindicaciones, en un método según cualquiera de los métodos, como se ha descrito anteriormente, en el paso de determinar la secuencia de las secuencias identificadoras utilizando secuenciación de alto rendimiento, la secuencia de las secuencias identificadoras se determina a partir de una plantilla de ADN única del ADN de muestra preparado. Se entiende que el ADN de muestra preparado en los métodos anteriores comprende amplicones, fragmentos ligados al adaptador, amplicones ligados al adaptador y/o fragmentos amplificados ligados al adaptador.

[0058] En una forma de realización de la invención, tal y como se define en las reivindicaciones, en la plantilla de ADN única, la primera, la segunda y secuencias identificadoras opcionales adicionales son al menos 3' o 5' de una secuencia interna. Del ADN de muestra preparado, a partir del cual se determinan las secuencias identificadoras de secuencia a partir de una plantilla de ADN única del ADN de muestra preparado, la combinación de secuencias identificadoras requeridas para identificar de forma única el origen de la muestra es al menos 3' o 5' de la secuencia interna. De este modo se puede preparar una plantilla de secuenciación de ADN que tendrá las secuencias identificadoras flanqueadas por el sitio de unión del cebador de secuencia y la secuencia interna. Por ejemplo, el extremo 3' de dicha plantilla de secuenciación de ADN se puede representar mediante el siguiente esquema: '3-SEQ1- NSI4-NSI3-NSI2-NS1I-IS - (etc.). De esta manera, cuando se determina la secuencia de la plantilla, primero se determinan todos los identificadores de secuencia. Dichas plantillas de ADN se pueden generar añadiendo solamente identificadores de secuencia en un extremo de la secuencia interna. Por ejemplo, añadiendo adaptadores a solo un extremo de un fragmento de ADN, y/o utilizando adaptadores asimétricos, o utilizando conjuntos de cebadores de amplificación en los que solo un cebador comprende un identificador de secuencia. Alternativamente, se pueden añadir adaptadores y/o cebadores de amplificación tanto al extremo 5' como al 3' del fragmento de ADN, de manera que en ambos extremos están situados todos los identificadores de secuencia. Dicha plantilla de ADN se puede representar mediante el siguiente esquema "'3-SEQ1- NSI4-NSI3-NSI2-NS1I-IS -NSI1-NSI2-NSI3-NSI4-5'. También son posibles combinaciones de estas diferentes estrategias, añadiendo en uno o más pasos separados un NSI a ambos extremos del IS y solo a un extremo. Dicha plantilla de ADN puede representarse mediante el siguiente esquema "'3-SEQ1-NSI2-NSI1-IS-NSM-5'. Siempre que se utilice una estrategia en la que se genere una plantilla de ADN en la que una combinación única de identificadores de secuencia esté flanqueada por el sitio de unión del cebador de secuencia y la secuencia interna, dicha plantilla de ADN será suficiente. Por lo tanto, se pueden utilizar diferentes combinaciones de cebadores de amplificación y/o adaptadores con y sin identificadores de secuencia de nucleótidos. Por ejemplo, como se muestra en los ejemplos 3 y 4, cuando NSI2 y NSI4, que son opcionales, corresponderían a NSI1 y NS3, se generan plantillas de ADN adecuadas (es decir, todavía se necesitaría un sitio de unión del cebador de secuencia, que se puede añadir en una preparación de muestras para secuenciación de alto rendimiento). De forma similar, es posible que no se incluyan las secuencias de NSI2 y NSI4. Además, NSI2 puede no estar incluido y el NSI4 corresponde a NS3, o NS12 puede corresponder a NSI1 y NSI4 no está incluido. En este escenario, solo un extremo de la plantilla de ADN puede comprender todos los NSIs. En otra forma de realización, cuando la secuencia de las secuencias identificadoras se determina a partir de una plantilla de ADN única del ADN de muestra preparado, la plantilla de ADN única puede comprender dos sitios de unión del cebador de secuenciación, donde cada sitio de unión del cebador de secuenciación está situado en 3' de un identificador de secuencia de nucleótidos diferente, y donde en el método de secuenciación de alto rendimiento se realizan dos reacciones de secuenciación diferentes con dos cebadores de secuenciación de dos sitios de unión del cebador de secuenciación de la plantilla de ADN única. Los dos sitios de unión diferentes del cebador de secuenciación y los 5' NSI o NSIs correspondiente pueden estar flanqueando una secuencia interna de un ADN de muestra preparado. Un ADN de muestra preparado puede ser un amplicón, un fragmento ligado a un adaptador, amplicones ligados a un adaptador y/o un fragmento ligado a un adaptador amplificado, como se ha descrito anteriormente.

[0059] En una forma de realización de la invención, tal y como se define en las reivindicaciones, la plantilla de ADN única comprende dos sitios de unión del cebador de secuenciación, donde al menos un sitio de unión de cebador del secuenciación está situado en 3' de los al menos dos identificadores de secuencia de nucleótidos, y donde en el método de secuenciación de alto rendimiento se realizan dos reacciones de secuenciación diferentes con dos cebadores de secuenciación de dos sitios de unión del cebador de secuenciación de la plantilla de ADN única.

[0060] En una forma de realización de la invención, tal y como se define en las reivindicaciones, cuando la secuencia de las secuencias identificadoras se determina a partir de una plantilla de ADN única del ADN de muestra preparado, la plantilla de ADN única puede comprender dos sitios de unión del cebador de secuenciación, donde cada sitio de unión del cebador de secuenciación está situado en 3' de uno o más identificadores de secuencia de nucleótidos, y donde en el método de secuenciación de alto rendimiento se realizan dos reacciones de secuenciación diferentes con dos cebadores de secuenciación de dos sitios de unión del cebador de secuenciación de la plantilla de ADN única. Los dos sitios de unión diferentes del cebador de secuenciación y los 5' NSI o NSIs correspondientes pueden estar flanqueando una secuencia interna de un ADN de muestra preparado. Cada uno de los uno o más identificadores de secuencia de nucleótidos puede ser el mismo. Dicha configuración se puede representar de la siguiente manera: '-3'-SEQ1-NS1-NS2-IS-SEQ2-NS1-NS2-5'. De esta manera, al secuenciar a partir de una plantilla única, ambas combinaciones únicas de identificadores únicos se secuencian dos veces. Dicho ADN de muestra preparado puede ser un amplicón, un fragmento ligado a un adaptador, amplicones ligados a un adaptador y/o un fragmento ligado a un adaptador amplificado, como se ha descrito anteriormente.

[0061] En una forma de realización de la invención, tal y como se define en las reivindicaciones, cuando la secuencia de las secuencias identificadoras se determina a partir de una plantilla de ADN única del ADN de muestra preparado, la plantilla de ADN única puede comprender dos sitios de unión del cebador de secuenciación, donde un sitio de unión del cebador de secuenciación está situado en 3' de dos o más identificadores de secuencia de nucleótidos, y donde el otro sitio de unión del cebador de secuenciación puede estar situado adyacente a la secuencia interna. En el método de secuenciación de alto rendimiento se realizan dos reacciones de secuenciación diferentes con dos cebadores de secuenciación de dos sitios de unión del cebador de secuenciación de la plantilla de ADN única. Los dos sitios de unión diferentes y correspondientes del cebador de secuenciación pueden estar flanqueando una secuencia interna de un ADN de muestra preparado. Dicha configuración se puede representar esquemáticamente de la siguiente manera: '-3-SEQ1-IS-SEQ2-NS1-NS2-5'. De esta manera, mediante la secuenciación a partir de una plantilla única en una ejecución de secuenciación se puede determinar la secuencia interna y en la otra ejecución de secuenciación se puede determinar la combinación única de identificadores de secuencia.

Ejemplos

Ejemplo 1

[0062] A continuación, se ejemplifican dos aplicaciones diferentes para la preparación de muestras con códigos de barras divididos:

1) Amplificación por PCR con dos cebadores con código de barras;

2) Ligación del adaptador a una muestra digerida con dos enzimas de restricción o una muestra digerida con una enzima única, seguida de la ligación del adaptador 1, seguida de la fragmentación y el despuntado de los extremos fragmentados, seguido de la ligación del adaptador 2.

Amplificación por PCR

[0063] Se proporciona una descripción de los elementos funcionales de un par de cebadores que alebergan códigos de barras divididos (código de barras 1 y código de barras 2), que se determinan mediante secuenciación de extremos emparejados (A) o secuenciación de la misma hebra con dos eventos de cebado (B). Una vista esquemática se proporciona en la figura 11. Se observa en la figura 11A que la cola universal 1 (flecha en negrita) puede ser el sitio 1 del cebador de secuencia (es decir, el sitio del cebador que se utiliza en la secuenciación) y la cola universal 2 (flecha rayada) puede ser el sitio 1 del cebador de secuencia (es decir, el sitio del cebador que se utiliza en la secuenciación), los ejemplos son los cebadores P5 y P7 respectivamente, como se utilizan en la secuenciación de extremos emparejados de Illumina GA. En la figura 11B, la cola universal 1 (flecha en negrita) puede ser el sitio 1 del cebador de secuencia (es decir, el sitio del cebador que se utiliza en la secuenciación) y la cola universal 2 (flecha rayada) puede ser el sitio 2 del cebador de secuencia (es decir, el sitio del cebador que se utiliza en la secuenciación), los ejemplos son los cebadores P5 y P7 respectivamente, como se utilizan en Illumina GA con dos eventos de cebador de la misma hebra. El concepto se puede utilizar con cualquier método que implique amplificación con un par de cebadores. Los ejemplos del mismo son la secuenciación de amplicones (por ejemplo, detección de mutaciones, polimorfismos naturales), genotipado de SNP multiplexado que implica cebadores de PCR, tales como los cebadores KASP, cebadores Scorpions, etc. Ligación del adaptador

[0064] En un experimento de mapeo físico del genoma completo, se combinaron 480 muestras diferentes de BAC. Esto requeriría 480 adaptadores de códigos de barras EcoRI diferentes. Esta cantidad de adaptadores se han evitado utilizando 80 adaptadores EcoRI con códigos de barras de 5 nt en combinación con 6 adaptadores Msel con códigos de barras de 3 nt, que en combinación generan 480 códigos de barras de 8 unidades que son únicos. En este caso, la secuenciación se realizó llevando a cabo dos eventos de cebadores de secuencia, como se describe en la amplificación por PCR anterior y en la figura 11B. En la figura 12, se describe el esquema general para el uso de dos adaptadores con código de barras en el contexto de la secuenciación de Illumina GA (utilizando amplificación P5 y P7 y regiones del cebador de secuencia). La parte A describe la preparación de muestras utilizando dos enzimas de restricción para digerir el ADN, mientras que la parte B describe la preparación de muestras utilizando una combinación de una enzima de restricción y una ligación con adaptador de extremo romo. El concepto se puede utilizar en cualquier método que implique la ligación de dos adaptadores, como la secuenciación de fragmentos de restricción, AFLP, RAD, WGP, secuenciación del genoma completo, secuenciación de extremos emparejados, secuenciación de representaciones reducidas, etc.

Claims

REIVINDICACIONES

1. Múltiples pares de:

(i) un primer adaptador o un primer cebador de amplificación que comprende un primer identificador de secuencia de nucleótidos (NSI) y un primer sitio de unión del cebador de secuenciación; y

(ii) un segundo adaptador o un segundo cebador de amplificación que comprende un segundo NSI y un segundo sitio de unión del cebador de secuenciación,

donde el primer y segundo adaptador comprenden una estructura bicatenaria,

donde cada par comprende el primer y segundo sitio de unión del cebador de secuenciación, y donde cada par está destinado a preparar un ADN de muestra que comprende una plantilla de ADN monocatenaria para una secuenciación de doble etiquetado de lectura única y donde la plantilla de ADN preparada comprende, en una dirección 3' a 5',

- el primer sitio de unión del cebador de secuenciación;

- el primer NSI;

- una secuencia capturada por ligación de al menos uno del primer y segundo adaptador y/o una secuencia amplificada por al menos uno del primer y segundo cebador de amplificación a partir del ADN de muestra;

- el segundo sitio de unión del cebador de secuenciación; y

el segundo NSI,

donde el primer NSI se selecciona del primer grupo de NSIs y el segundo NSI se selecciona de un segundo grupo de NSIs, donde el primer y segundo grupo pueden ser iguales o diferentes,

donde cada par de los múltiples pares tiene una combinación única del primer NSI y del segundo NSI, y donde el número de múltiples pares es el número de NSIs del primer grupo multiplicado por el número de NSIs del segundo grupo.

2. Pares según la reivindicación 1, donde dicho primer y segundo adaptador están compuestos por dos oligonucleótidos sintéticos que tienen secuencias de nucleótidos que son al menos parcialmente complementarias entre sí.

3. Pares según la reivindicación 1 o 2, donde dicho par comprende un primer adaptador que comprende el primer NSI y un segundo adaptador que comprende el segundo NSI.

4. Pares según la reivindicación 1, donde dicho par comprende un primer cebador de amplificación que comprende el primer NSI y un segundo cebador de amplificación que comprende el segundo NSI.

5. Pares según la reivindicación 1 o 2, donde dicho par comprende un adaptador que comprende el primer NSI y un cebador de amplificación que comprende el segundo NSI.

6. Pares según la reivindicación 3, donde el primer y segundo adaptador comprenden, además, respectivamente un sitio de unión del cebador de amplificación, de manera que la hebra de plantilla de ADN preparada comprende un sitio de unión del cebador de amplificación en ambos sitios exteriores.

7. Pares según cualquiera de las reivindicaciones 1-6, donde los NSls no contienen dos bases idénticas consecutivas.

8. Pares según cualquiera de las reivindicaciones 1-7, donde el primer y segundo NSI difieren en más de un nucleótido.

9. Pares según cualquiera de las reivindicaciones 1-8, que comprenden identificadores de secuencia de nucleótidos adicionales.

10. Método para preparar una pluralidad de hebras de plantilla de ADN para una secuenciación de alto rendimiento de doble etiquetado de lectura única, que comprende los pasos de:

a) proporcionar una pluralidad de ADNs de muestra;

b) proporcionar múltiples pares de adaptadores y/o cebadores de amplificación según cualquiera de las reivindicaciones anteriores;

c) opcionalmente, fragmentar el ADN de muestra; y

d) realizar reacciones de ligación y/o amplificación en el ADN de muestra utilizando los adaptadores y/o cebadores de amplificación del paso b) para proporcionar una hebra de plantilla de ADN ligada y/o amplificada para una secuenciación de alto rendimiento.

11. Método según la reivindicación 10, que comprende, además, un paso de:

e) determinar al menos la secuencia del primer y segundo NSI utilizando una secuenciación de alto rendimiento de doble etiquetado y de lectura única; y

f) determinar el origen de la muestra de la hebra de plantilla de ADN ligada y/o amplificada.

12. Método según la reivindicación 11, donde la secuenciación de alto rendimiento comprende al menos dos reacciones de secuenciación, donde la primera reacción de secuenciación utiliza un primer cebador de secuenciación que se hibrida con el primer sitio de unión del cebador de secuenciación y determina el primer NSI y la segunda reacción de secuenciación utiliza un segundo cebador de secuenciación que se hibrida con el segundo sitio de unión del cebador de secuenciación y determina el segundo NSI.