ES2692333T3

ES2692333T3 - Resolución de fracciones de genoma usando recuento de polimorfismos

Info

Publication number: ES2692333T3
Application number: ES16158103.8T
Authority: ES
Inventors: Richard P. Rava; Brian K. Rhees; John P. Burke
Original assignee: Verinata Health Inc
Current assignee: Verinata Health Inc
Priority date: 2011-04-12
Filing date: 2012-04-12
Publication date: 2018-12-03
Anticipated expiration: 2032-04-12
Also published as: JP6760917B2; LT3456844T; TR201816062T4; DK3078752T3; CN103797129B; HUE050032T2; DK3567124T3; PL2697392T3; JP5863946B2; RS60710B1; DK2697392T3; CN103797129A; SI3456844T1; EP3567124B1; HK1195103A1; HRP20181770T1; PL3456844T3; AU2012242698B2; CN106319047A; JP2016101168A

Abstract

Un método para estimar una fracción del ADN fetal en ADN obtenido de un fluido corporal de un individuo embarazado, el método comprendiendo: (a) mapear segmentos de ADN obtenidos del fluido corporal del individuo embarazado a una pluralidad de secuencias de polimorfismos, en donde el ADN se secuenció bajo condiciones que identifican la pluralidad de secuencias de polimorfismos; (b) determinar una frecuencia alélica de los ácidos nucleicos mapeados para cada una de la pluralidad de las secuencias de polimorfismos; y (c) aplicar las frecuencias alélicas a un modelo de mezcla para obtener una estimación de la fracción de ADN fetal en el ADN obtenido de la sangre del individuo que lleva el feto, en donde (b)-(c) se realizan en uno o más procesadores ejecutando bajo instrucciones de programas para la determinación y la aplicación.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Resolucion de fracciones de genoma usando recuento de polimorfismos ANTECEDENTES

El descubrimiento de ADN fetal circulante (a veces denominado "ADN libre" o "cfADN") en la sangre materna permite la posibilidad de detectar anomalfas cromosomicas, aneuploid^a y aberraciones a partir de muestras de sangre. La abundancia fraccional de ADN fetal en el plasma sangumeo materno no es constante y vana en funcion de diversos factores, incluidos la manipulacion de la muestra y la edad gestacional.

Cuando se utiliza la secuenciacion del ADN para identificar aberraciones cromosomicas o defectos geneticos, es importante conocer la abundancia relativa de ADN fetal en la poblacion total de ADN. Por ejemplo, cuando se conoce la fraccion fetal, la potencia estadfstica (la probabilidad de identificar casos anomalos, o la sensibilidad) puede calcularse mediante metodos de permutacion o mediante integracion de las combinaciones lineales o convoluciones de distribuciones F no centrales desde alfa hasta infinito, donde el punto cntico alfa para la significacion (maxima probabilidad de asignar equivocadamente una anomalfa) de la poblacion de puntuaciones bajo la hipotesis nula de ninguna aberracion.

En el documento US 7332277 se ilustra un metodo para detectar la presencia o ausencia de una anomalfa cromosomica fetal cuantificando la relacion de la cantidad relativa de alelos en un locus heterocigoto de interes.

Un inconveniente de los metodos existentes para la deteccion de la fraccion fetal es que dependen de medidas de la abundancia de los cromosomas sexuales (que solo puede utilizarse para medir de manera fiable la abundancia relativa de ADN embrionario de varon) o la secuencia de ARNm de genes conocidos que se expresan de manera diferencial entre el tejido de la embarazada y el embrionario (que esta sujeto a la variabilidad de expresion debido a la edad gestacional u otros factores).

La estimacion de la fraccion fetal puede ser diffcil debido a varios factores perturbadores, incluidos: parametros de la genetica de poblaciones diferenciales etnicos parentales y errores de secuenciacion. Por lo tanto, es deseable disponer de metodos robustos en presencia de estos y otros factores de confusion que se producen comunmente.

RESUMEN

La invencion proporciona un metodo de estimacion de la fraccion de ADN fetal en el ADN obtenido a partir de un fluido corporal de una embarazada, el metodo comprendiendo:

(a) mapear segmentos de ADN obtenidos del fluido corporal del individuo embarazado a una pluralidad de secuencias de polimorfismos, en donde el ADN se secuencio bajo condiciones que identifican la pluralidad de secuencias de polimorfismos;

(b) determinar una frecuencia alelica de los acidos nucleicos mapeados para cada uno de la pluralidad de las secuencias de polimorfismos; y

(c) aplicar las frecuencias alelicas a un modelo de mezcla para obtener una estimacion de la fraccion de ADN fetal en el ADN obtenido de la sangre del individuo que lleva el feto,

en donde (b)-(c) se realizan en uno o mas procesadores ejecutando bajo instrucciones de programas para la determinacion y la aplicacion.

Determinadas formas de realizacion descritas se refieren a metodos computacionales para medir de manera fiable la abundancia relativa de ADN fetal circulante mediante secuenciacion de una muestra de sangre materna.

En formas de realizacion espedficas, la invencion proporciona metodos para estimar de manera fiable la fraccion fetal a partir de polimorfismos tales como pequenas variaciones de bases o inserciones-deleciones que son robustos con respecto a la etnicidad de los progenitores, el sexo del embrion, la edad gestacional y otros factores ambientales. Muchos ejemplos descritos en el presente documento emplean SNPs como polimorfismo pertinente. La invencion puede aplicarse como parte de un estudio de resecuenciacion predisenado intencional dirigido contra polimorfismos conocidos o puede utilizarse en un analisis retrospectivo de las variaciones encontradas por casualidad en secuencias solapantes generadas a partir de plasma materno (o cualquier otro entorno en el que haya una mezcla de ADN de varias personas).

En el presente documento se presentan tecnicas para la estimacion de la abundancia fraccional de ADN

5

10

15

20

25

30

35

40

45

50

55

60

65

fetal en muestras de sangre materna. Determinadas tecnicas descritas utilizan las frecuencias alelicas de SNPs observadas encontradas por casualidad o que se encuentran en paneles de SNPs previamente conocidos disenados con el fin de estimar la fraccion fetal.

Aunque gran parte de descripcion tiene que ver con la estimacion de la fraccion de acido nucleico fetal en una muestra, la descripcion no se limita a ello. Las tecnicas y los aparatos descritos en el presente documento pueden emplearse en muchos casos para estimar la fraccion de acido nucleico a partir de un genoma en una mezcla de dos genomas, que pueden estar relacionados, o no, como genomas de los progenitores y del nino/a.

Determinados aspectos de la descripcion se refieren a metodos de estimacion de la fraccion de ADN fetal en el ADN obtenido a partir de un fluido corporal de una embarazada. Tales metodos pueden caracterizarse por las siguientes operaciones: (a) recibir una muestra del fluido corporal; (b) extraer ADN de la muestra en condiciones que extraen el ADN tanto de un genoma materno como de un genoma fetal presente en el fluido corporal; (c) secuenciar el ADN extrafdo con un secuenciador de acidos nucleicos en condiciones que producen secuencias de segmentos de ADN que contienen uno o mas polimorfismos; (d) mapear las secuencias de segmentos de ADN derivadas de la secuenciacion del ADN en el fluido corporal contra uno o mas polimorfismos designados en una secuencia de referencia; (e) determinar las frecuencias alelicas de las secuencias de segmentos de ADN mapeadas para al menos uno de los polimorfismos designados; (f) clasificar el al menos un polimorfismo designado basandose en una combinacion de la cigosidad de la embarazada y la cigosidad del feto; y (g) estimar la fraccion de ADN fetal en el ADN obtenido de la embarazada utilizando las frecuencias alelicas determinadas en (e) y la combinacion de cigosidades de (f).

El mapeo puede realizarse utilizando un aparato computacional programado para mapear secuencias de acidos nucleicos contra el uno o mas polimorfismos designados. En general, cualquiera de las operaciones (d)-(g) puede realizarse en uno o mas procesadores que ejecutan las instrucciones de un programa.

En determinadas formas de realizacion, el ADN obtenido a partir de un fluido corporal de una embarazada es el ADN libre obtenido del plasma de la embarazada. Por lo general, la secuenciacion se lleva a cabo sin amplificar selectivamente ninguno del uno o mas polimorfismos designados.

En determinadas formas de realizacion, el mapeo de los segmentos de ADN obtenidos a partir de la sangre de la portadora del feto comprende mapear computacionalmente los segmentos contra una base de datos de polimorfismos. En determinadas formas de realizacion, la clasificacion en (f) clasifica el al menos un polimorfismo designado en una de las siguientes combinaciones: (i) la embarazada es homocigoto y el feto es homocigoto, (ii) la embarazada es homocigoto y el feto es heterocigoto, (iii) la embarazada es heterocigoto y el feto es homocigoto, y (iv) la embarazada es heterocigoto y el feto es heterocigoto.

Pueden emplearse diversas operaciones de filtrado. Estas incluyen, por ejemplo, no tener en cuenta ningun polimorfismo clasificado en la combinacion (i) o en la combinacion (iv). En otro ejemplo, los metodos incluyen adicionalmente filtrar el al menos un polimorfismo designado para no tener en cuenta ningun polimorfismo con una frecuencia del alelo minoritario superior a un umbral definido. En otro ejemplo, los metodos incluyen una operacion de filtrado del al menos un polimorfismo designado para no tener en cuenta ningun polimorfismo con una frecuencia del alelo minoritario inferior a un umbral definido.

La operacion de clasificacion puede implementarse de diversas maneras. Por ejemplo, puede implicar la aplicacion de un umbral a la frecuencia alelica determinada en (e). En otro ejemplo, la operacion de clasificacion implica la aplicacion de los datos de frecuencia alelica de (e), obtenidos para una pluralidad de polimorfismos, a un modelo de mezcla. En una implementacion, el modelo de mezcla emplea momentos factoriales.

La fraccion fetal determinada como se describe en el presente documento puede utilizarse para diversas aplicaciones. En algunos ejemplos, los metodos descritos en el presente documento incluyen una operacion de ejecucion de instrucciones de programa en el uno o mas procesadores que registren automaticamente la fraccion de ADN fetal como se determina en (g) en un expediente clmico del paciente, almacenado en un medio legible por ordenador, para la embarazada. El expediente clmico del paciente puede mantenerse en un sitio web de expedientes clmicos personal, un laboratorio, consultorio medico, un hospital, una organizacion de mantenimiento de la salud o una comparua de seguros. En otra aplicacion, la estimacion de la fraccion de ADN fetal se utiliza para prescribir, iniciar y/o modificar el tratamiento de una paciente humana de la que se obtuvo la muestra de ensayo materna. En otra aplicacion, la estimacion de la fraccion de ADN fetal se utiliza para ordenar y/o realizar uno o mas ensayos adicionales.

Otro aspecto de la descripcion tiene que ver con un aparato para estimar la fraccion de ADN fetal en el ADN obtenido a partir de un fluido corporal de una embarazada. Tal aparato puede caracterizarse por los siguientes elementos: (a) un secuenciador configurado para (i) recibir el ADN extrafdo de una muestra del fluido corporal que comprende ADN tanto de un genoma materno como de un genoma fetal, y (ii) secuenciar el ADN extrafdo en condiciones que producen secuencias de segmentos de ADN que contienen uno o mas polimorfismos designados; y

5

10

15

20

25

30

35

40

45

50

55

60

65

(b) un aparato computacional configurado para (por ejemplo, programado para) ordenar a uno o mas procesadores que realicen diversas operaciones tales como las descritas, con dos o mas de las operaciones del metodo descritas en el presente documento. En algunas formas de realizacion, el aparato computacional esta configurado para (i) mapear secuencias de acidos nucleicos contra el uno o mas polimorfismos designados en una secuencia de referencia, (ii) determinar las frecuencias alelicas de las secuencias de segmentos de ADN mapeadas para al menos uno de los polimorfismos designados, (iii) clasificar el al menos un polimorfismo designado basandose en una combinacion de la cigosidad de la embarazada y la cigosidad del feto, y (iv) estimar la fraccion de ADN fetal en el ADN obtenido de la embarazada utilizando las frecuencias alelicas y la combinacion de cigosidades.

En determinadas formas de realizacion, el aparato incluye tambien una herramienta para extraer ADN de la muestra en condiciones que extraen el ADN tanto del genoma materno como del genoma fetal. En algunas implementaciones, el aparato incluye un modulo configurado para extraer ADN libre obtenido a partir de plasma de la embarazada para la secuenciacion en el secuenciador.

En algunos ejemplos, el aparato incluye una base de datos de polimorfismos. El aparato computacional puede estar configurado adicionalmente para que ordene al uno o mas procesadores que mapeen los segmentos de ADN obtenidos a partir de la sangre de la portadora del feto mapeando computacionalmente los segmentos contra la base de datos de polimorfismos. Las secuencias en la base de datos son un ejemplo de secuencia de referencia. Mas adelante se presentan otros ejemplos de secuencias de referencia.

En determinadas formas de realizacion, el aparato computacional esta configurado adicionalmente para que ordene al uno o mas procesadores que clasifiquen el al menos un polimorfismo designado en una de las siguientes combinaciones: (i) la embarazada es homocigoto y el feto es homocigoto, (ii) la embarazada es homocigoto y el feto es heterocigoto, (iii) la embarazada es heterocigoto y el feto es homocigoto, y (iv) la embarazada es heterocigoto y el feto es heterocigoto. En algunas formas de realizacion, el aparato computacional esta configurado adicionalmente para que ordene al uno o mas procesadores que no tengan en cuenta ningun polimorfismo clasificado en la combinacion (i) o en la combinacion (iv).

En determinadas formas de realizacion, el aparato computacional esta configurado adicionalmente para que ordene al uno o mas procesadores que no tengan en cuenta ningun polimorfismo con una frecuencia del alelo minoritario superior a un umbral definido. En algunas formas de realizacion, el aparato computacional esta configurado adicionalmente para que ordene al uno o mas procesadores que filtren el uno o mas polimorfismos designados para que no tengan en cuenta ningun polimorfismo con una frecuencia del alelo minoritario inferior a un umbral definido. En determinadas formas de realizacion, el aparato computacional esta configurado adicionalmente para que ordene al uno o mas procesadores que clasifiquen el al menos un polimorfismo designado aplicando un umbral a la frecuencia alelica.

En determinadas formas de realizacion, el aparato computacional esta configurado adicionalmente para que ordene al uno o mas procesadores que clasifiquen el al menos un polimorfismo designado aplicando los datos de frecuencia alelica obtenidos para una pluralidad de polimorfismos, a un modelo de mezcla. El modelo de mezcla puede emplear momentos factoriales.

En determinadas formas de realizacion, el aparato computacional esta configurado adicionalmente para que ordene al uno o mas procesadores que registren automaticamente la fraccion de ADN fetal en un expediente clmico del paciente, almacenado en un medio legible por ordenador, para la embarazada. El expediente clmico del paciente puede mantenerse en un sitio web de expedientes clmicos personal, un laboratorio, consultorio medico, un hospital, una organizacion de mantenimiento de la salud o una compama de seguros.

Otro aspecto de la descripcion tiene que ver con metodos de estimacion de una fraccion de ADN fetal en el ADN obtenido a partir de un fluido corporal de una embarazada segun las siguientes operaciones: (a) mapear segmentos de ADN obtenido a partir del fluido corporal de la embarazada contra una pluralidad de secuencias de polimorfismos, en el que el aDn se secuencio en condiciones que identifican la pluralidad de secuencias de polimorfismos; (b) determinar una frecuencia alelica de los acidos nucleicos mapeados para cada una de la pluralidad de secuencias de polimorfismos; y (c) aplicar las frecuencias alelicas a un modelo de mezcla para obtener una estimacion de la fraccion de ADN fetal en el ADN obtenido de la sangre de la portadora del feto. Puede realizarse una cualquiera o mas de las operaciones (a)-(c) en uno o mas procesadores que ejecutan las instrucciones de un programa. En determinadas formas de realizacion, la operacion (c) implica ejecutar las instrucciones en el uno o mas procesadores para resolver una serie de ecuaciones para los momentos factoriales de los datos de frecuencia alelica para cada una de la pluralidad de secuencias de polimorfismos. En algunas formas de realizacion, el modelo de mezcla tiene en cuenta el error de secuenciacion.

En determinadas formas de realizacion, los metodos incluyen adicionalmente eliminar computacionalmente las frecuencias alelicas para los polimorfismos identificados como heterocigotos tanto en el feto como en la embarazada. En algunas implementaciones, antes de (c), los metodos incluyen una operacion de eliminar computacionalmente las frecuencias alelicas para los polimorfismos identificados como homocigotos tanto en el feto

5

10

15

20

25

30

35

40

45

50

55

60

65

como en la embarazada. En algunas implementaciones, antes de (c), los metodos incluyen una operacion de eliminar computacionalmente las frecuencias alelicas para los polimorfismos identificados como heterocigotos en la embarazada.

El ADN obtenido a partir de un fluido corporal de una embarazada puede ser ADN libre obtenido del plasma de la embarazada. El mapeo de los acidos nucleicos obtenidos a partir del fluido corporal puede implementarse mapeando los segmentos contra una base de datos de polimorfismos.

Los metodos de este aspecto de la descripcion pueden incluir adicionalmente la secuenciacion del ADN a partir del fluido corporal de una embarazada con un secuenciador de acidos nucleicos en condiciones que producen secuencias de segmentos de ADN que contienen las secuencias de polimorfismos.

En algunas implementaciones, el mapeo en (a) comprende identificar una pluralidad de secuencias de polimorfismos bialelicos. En otras formas de realizacion, el mapeo en (a) comprende mapear los segmentos de ADN contra una pluralidad de secuencias de polimorfismos predefinidos.

En algunas formas de realizacion, los metodos de este aspecto incluyen adicionalmente ejecutar instrucciones de programa en el uno o mas procesadores para que registren automaticamente la fraccion de ADN fetal tal como se determina en (c) en un expediente clmico del paciente, almacenado en un medio legible por ordenador, para la embarazada. El expediente clmico del paciente puede mantenerse en un sitio web de expedientes clmicos personal, un laboratorio, consultorio medico, un hospital, una organizacion de mantenimiento de la salud o una compama de seguros.

Basandose en la estimacion de la fraccion de ADN fetal, los metodos de este aspecto pueden incluir adicionalmente prescribir, iniciar y/o modificar el tratamiento de una paciente humana de la que se obtuvo la muestra de ensayo materna. Basandose en la estimacion de la fraccion de ADN fetal, los metodos de este aspecto pueden incluir adicionalmente ordenar y/o realizar uno o mas ensayos adicionales.

Segun aun otro aspecto de la descripcion, se proporcionan metodos para estimar la fraccion de ADN fetal en el ADN obtenido a partir de un fluido corporal de una embarazada mediante las siguientes operaciones: (a) recibir una muestra del fluido corporal; (b) extraer ADN de la muestra en condiciones que extraen el ADN tanto de un genoma materno como de un genoma fetal presente en el fluido corporal; (c) secuenciar el ADN extrafdo con un secuenciador de acidos nucleicos en condiciones que producen secuencias de segmentos de ADN; (d) comparar las secuencias de segmentos de ADN derivadas del fluido corporal y, a partir de la comparacion, identificar uno o mas polimorfismos bialelicos; (e) determinar las frecuencias alelicas de las secuencias de segmentos de ADN para al menos uno de los polimorfismos identificados; (f) clasificar el al menos un polimorfismo identificado basandose en una combinacion de la cigosidad de la embarazada y la cigosidad del feto; y (g) estimar la fraccion de ADN fetal en el ADN obtenido de la embarazada utilizando las frecuencias alelicas determinadas en (e) y la combinacion de cigosidades de (f).

En determinadas implementaciones de este aspecto, las secuencias de segmentos de ADN tienen una longitud de entre aproximadamente 20 pares de bases y aproximadamente 300 pares de bases.

En determinadas formas de realizacion de este aspecto, la clasificacion en (f) clasifica el al menos un polimorfismo identificado en una de las siguientes combinaciones: (i) la embarazada es homocigoto y el feto es homocigoto, (ii) la embarazada es homocigoto y el feto es heterocigoto, (iii) la embarazada es heterocigoto y el feto es homocigoto, y (iv) la embarazada es heterocigoto y el feto es heterocigoto. Los metodos pueden incluir adicionalmente no tener en cuenta ningun polimorfismo clasificado en la combinacion (i) o en la combinacion (iv).

Segun diversas formas de realizacion, los metodos de este aspecto pueden incluir el filtrado y/o las operaciones de clasificacion que se describen en el presente documento en relacion a otros aspectos. Por ejemplo, los metodos de este aspecto pueden incluir el filtrado del uno o mas polimorfismos identificados para no tener en cuenta ningun polimorfismo con una frecuencia del alelo minoritario superior a un umbral definido. En algunos casos, la clasificacion del al menos un polimorfismo identificado incluye aplicar un umbral a la frecuencia alelica determinada en (e). Tal como se describe en el presente documento, puede emplearse el uso de modelos de mezcla para clasificar los polimorfismos identificados.

Otro aspecto de la descripcion tiene que ver con un aparato para estimar una fraccion de ADN fetal y que incluye los siguientes elementos: (a) un secuenciador configurado para (i) recibir el ADN extrafdo de una muestra del fluido corporal que comprende ADN tanto de un genoma materno como de un genoma fetal, y (ii) secuenciar el ADN extrafdo para producir segmentos de secuencias de ADN; y (b) un aparato computacional configurado para ordenar

5

10

15

20

25

30

35

40

45

50

55

60

65

a uno o mas procesadores que (i) mapeen los segmentos de secuencias del ADN obtenido a partir del fluido corporal de la embarazada contra una pluralidad de secuencias de polimorfismos, (ii) determinen una frecuencia alelica para cada una de la pluralidad de secuencias de polimorfismos de los segmentos de secuencias de ADN mapeados, y (iii) apliquen las frecuencias alelicas a un modelo de mezcla para obtener una estimacion de la fraccion de ADN fetal en el aDn obtenido de la sangre de la portadora del feto.

Otro aparato para estimar la fraccion de ADN fetal incluye los siguientes elementos: (a) un secuenciador configurado para (i) recibir el ADN extrafdo de una muestra del fluido corporal que comprende ADN tanto de un genoma materno como de un genoma fetal, y (ii) secuenciar el ADN extrafdo en condiciones que producen secuencias de segmentos de ADN; y (b) un aparato computacional configurado para ordenar a uno o mas procesadores que (i) comparen las secuencias de segmentos de ADN derivadas del fluido corporal y, a partir de la comparacion, identifiquen uno o mas polimorfismos bialelicos, (ii) determinen las frecuencias alelicas de las secuencias de segmentos de ADN para al menos uno de los polimorfismos identificados, (iii) clasifiquen el al menos un polimorfismo identificado basandose en una combinacion de la cigosidad de la embarazada y la cigosidad del feto, y (iii) estimen la fraccion de ADN fetal en el ADN obtenido de la embarazada utilizando las frecuencias alelicas y la combinacion de cigosidades.

Las instrucciones y/o el hardware empleados en los aspectos del aparato descritos en el presente documento pueden proporcionar la ejecucion de una cualquiera o mas de las operaciones algontmicas o computacionales de los aspectos del metodo descritos en el presente documento, independientemente de si tales operaciones se han enumerado explfcitamente anteriormente.

Estas y otras caractensticas y ventajas de las formas de realizacion descritas se describiran con mas detalle mas adelante con referencia a los dibujos asociados.

BREVE DESCRIPCION DE LOS DIBUJOS

La Figura 1 es un diagrama de bloques que representa la clasificacion de los estados de cigosidad fetal y materna para una determinada posicion genomica.

La Figura 2 es un flujo de procesos de ejemplo para implementar algunas de las formas de realizacion descritas.

La Figura 3 presenta las estimaciones de error mediante la posicion de las bases secuenciadas sobre 30 calles de datos de Illumina GA2 alineados con el genoma humano HG18 utilizando Eland con los parametros por defecto.

La figura 4 es un grafico del recuento del alelo minoritario A frente a la cobertura D (suponiendo que no hay error) para los casos de heterocigosidad 1 a 4.

La figura 5 representa la transformacion de los datos del caso 3 en caso 2.

La Figura 6 presenta los datos despues de la rotacion, en la que D1 se selecciono de manera que el caso 1 y los casos 2, 3 no se solapasen. E1 representa un lfmite superior del intervalo de confianza superior del 99 por ciento de los datos del caso 1.

La Figura 7 muestra una comparacion de los resultados utilizando un modelo de mezcla y la fraccion fetal conocida y la fraccion fetal estimada.

La Figura 8 muestra que el uso de la tasa de error de la maquina como parametro conocido reduce en un punto el sesgo por exceso.

En la Figura 9 se muestra que los datos simulados utilizando la tasa de error de la maquina como parametro conocido, que mejora los modelos de error del caso 1 y 2, reduce en gran medida el sesgo por exceso a menos de un punto para la fraccion fetal por debajo de 0,2.

La Figura 10 es una representacion esquematica de un sistema informatico que, cuando esta debidamente configurado (por ejemplo, programado) o disenado, puede servir de aparato de analisis para las formas de realizacion descritas.

Las Figuras 11A y B muestran un histograma del numero de observaciones de variantes (frecuencia) en el porcentaje del alelo minoritario (A/D) para el cromosoma cromosomas 1(A) y el cromosoma 7 tal como se produce en un ejemplo.

Las Figuras 12A y B muestran la distribucion de la frecuencia alelica en los cromosomas 1 (A) y el cromosoma 7.

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION DETALLADA Introduccion y vision de conjunto

Determinadas formas de realizacion descritas implican analizar el ADN obtenido de la sangre de una mujer embarazada y utilizar el analisis para estimar la fraccion de ese ADN que proviene del feto. A continuacion, puede utilizarse la fraccion de ADN fetal para atribuir un cierto nivel de confianza a otra metrica o caracterizacion del feto basandose en el analisis independiente del ADN obtenido de la sangre de la madre. Por ejemplo, puede analizarse por separado una muestra de ADN fetal obtenida de la sangre materna para detectar aneuploidfa en el feto que lleva mujer embarazada. La determinacion de aneuploidfa hecha mediante este analisis por separado puede ser proporcionada por un nivel de confianza fundamentado estadfsticamente basandose en la cantidad fraccional de ADN fetal presente en el ADN obtenido de la sangre de la madre. Fracciones de ADN fetal relativamente bajas en el complemento total de ADN sugieren una baja confianza en cualquier caracterizacion basada en el ADN fetal.

Por lo general, aunque no necesariamente, el ADN analizado en la sangre de la madre es ADN libre, aunque en algunas formas de realizacion, puede ser ADN celular. El ADN libre se obtiene a partir del plasma de la madre. La cantidad de ADN fetal en el contenido de ADN libre obtenido de mujeres embarazadas vana mucho dependiendo de diversos factores, incluida la edad gestacional del feto. Para las mujeres humanas embarazadas tfpicas, actualmente se cree que aproximadamente el 5%-20% del ADN libre es ADN fetal. Sin embargo, no es infrecuente que la fraccion fetal sea significativamente inferior (por ejemplo, aproximadamente un 1% o inferior). En tales casos, cualquier caracterizacion separada del ADN fetal puede ser intrmsecamente sospechosa. Por otro lado, algunos investigadores han informado acerca de muestras de ADN libre maternas con fracciones de ADN fetal tan altas como un 40% o un 50%.

En determinadas implementaciones descritas en el presente documento, la determinacion de la fraccion fetal de ADN materno se basa en multiples lecturas de secuencias de ADN en los sitios de secuencia que se sabe albergan uno o mas polimorfismos. Por lo general, aunque no necesariamente, tales polimorfismos son polimorfismos de un solo nucleotido (SNP). Otros tipos de polimorfismos adecuados incluyen deleciones, STRs (repeticiones cortas en tandem), inserciones, indels (incluidos microindels), etc. Mas adelante se presentan ejemplos adicionales. En determinadas formas de realizacion, los sitios de polimorfismo se encuentran en una "secuencia de referenda" como se describe mas adelante. En algunas formas de realizacion, los sitios de polimorfismo se descubren mientras se alinean marcadores de secuencia entre sf y/o con una secuencia de referencia.

Determinados metodos descritos se valen del hecho de que las secuencias de ADN de un feto en los sitios de polimorfismo en cuestion pueden no corresponder a los de su madre. Por ejemplo, el ADN de la madre en el sitio de un SNP particular puede ser homocigoto, mientras que la version del feto del SNP sera heterocigoto. Por lo tanto, un grupo de muestras de secuencias obtenidas para el SNP en cuestion sera heterogeneo con la mayona de las secuencias que contienen el alelo mayoritario y la fraccion restante que contiene el alelo minoritario. Las cantidades relativas de los alelos mayoritario y minoritario estan determinadas por la fraccion de ADN fetal en la muestra.

Cabe mencionar que en una muestra homocigoto ambas copias de un determinado SNP u otro polimorfismo contienen el mismo alelo, mientras que un SNP heterocigoto u otro polimorfismo contiene una copia del alelo mayoritario y una copia del alelo minoritario. Por lo tanto, se sabe que el aDn obtenido exclusivamente a partir de un individuo heterocigoto debe contener un 50% del alelo mayoritario y un 50% del alelo minoritario. Este conocimiento puede utilizarse para dilucidar la fraccion de ADN fetal como se resume mas adelante. Como se explica mas detalladamente mas adelante, los diversos metodos descritos en el presente documento consideran solo los polimorfismos en los que solo hay dos alelos en el ADN materno y fetal, de manera colectiva.

En algunas implementaciones, el ADN obtenido de sangre de la madre se lee muchas veces, considerandose el numero total de lecturas que se mapean contra un sitio particular de un polimorfismo la "cobertura" del polimorfismo, y considerandose el numero de lecturas que se mapean contra el alelo minoritario para ese polimorfismo el recuento del alelo minoritario. La relacion entre el recuento del alelo minoritario y la cobertura es importante en varias implementaciones.

Algunos de los metodos descritos en el presente documento identifican y caracterizan cuatro casos de polimorfismos en las muestras de ADN que comprenden ADN tanto de la madre como del feto. La Figura 1 que se presenta mas adelante representa estos cuatro casos. En concreto, en un primer caso, que es bastante poco interesante, tanto la madre como el feto son homocigotos en el polimorfismo particular que se esta considerando. En tal caso, cada secuencia en la muestra de ADN que contiene el polimorfismo en cuestion contendra el mismo alelo y no puede recogerse informacion sobre las cantidades relativas de ADN de la madre y del feto. Sin embargo, cabe senalar que este caso podna ser interesante en el sentido de que permite que el investigador o el tecnico se haga una idea de la tasa de error relativo del aparato de secuenciacion de ADN utilizado para generar los datos de secuencia en cuestion.

El segundo caso que encontrara el analisis es un polimorfismo para el que la mujer embarazada es

5

10

15

20

25

30

35

40

45

50

55

60

65

homocigoto y el feto es heterocigoto. En este caso, una fraccion relativamente pequena, pero significativa, de las secuencias detectadas contendra el alelo minoritario. En concreto, en este segundo caso, la frecuencia del alelo minoritario viene dada concretamente por la fraccion de ADN fetal en el torrente sangumeo de la madre dividido por dos.

En un tercer caso, el polimorfismo en cuestion es heterocigoto en el ADN de la madre y homocigoto en el ADN del feto. En esta situacion, la frecuencia del alelo minoritario viene dada concretamente por 0,5 menos la mitad de la fraccion de ADN fetal en la muestra de ADN.

Por ultimo, en el cuarto caso, el polimorfismo en cuestion es heterocigoto tanto en la madre como en el feto. En este caso, se espera que la frecuencia de los alelos mayoritario y minoritario sea 0,5 para ambos. Al igual que en el primer caso, el cuarto caso es relativamente poco interesante para determinar la fraccion de ADN fetal.

Si el investigador, el tecnico o el software encargado de determinar la fraccion de ADN fetal en una muestra supiera para un determinado polimorfismo a cual de los cuatro casos pertenece ese polimorfismo, podna entonces estimarse directamente la fraccion de ADN fetal, suponiendo que el polimorfismo en cuestion se encontrase dentro de cualquiera de los casos dos o tres. Sin embargo, en la practica, nunca se tiene este conocimiento a priori. Por lo tanto, resulta necesario un aparato computacional para realizar las operaciones descritas en el presente documento.

En determinadas formas de realizacion, descritas en otra parte del presente documento, se emplea una tecnica de umbralizacion para clasificar un solo polimorfismo en uno de los cuatro casos. Una vez asf clasificado el polimorfismo, y descubierto que se encuentra en cualquiera de los casos 2 o 3, puede estimarse la fraccion fetal. En otras formas de realizacion, la tecnica considera polimorfismos multiples distribuidos a traves de todo el genoma o una parte del mismo. Como se ilustra en los ejemplos espedficos, pueden utilizarse multiples SNPs diferentes en todo el genoma con este fin.

En formas de realizacion concretas, se determina la frecuencia alelica para varios polimorfismos diferentes en una muestra de ADN obtenida de la muestra de sangre de la madre. Para esta pluralidad de polimorfismos, una fraccion corresponded al caso de cigosidad 1, otra fraccion corresponded al caso 2, una tercera fraccion corresponded al caso 3, y una fraccion final corresponded al caso 4. La suma de estas fracciones dara un valor de

1. Puede emplearse un modelo de mezcla o una tecnica relacionada para evidenciar una o mas propiedades estadfsticas de los polimorfismos en cada una de estas cuatro categonas. En concreto, puede emplearse un modelo de mezcla para determinar una media y, opcionalmente, la varianza para cada uno de los cuatro casos encontrados en una muestra de ADN obtenida de la sangre de una mujer embarazada. En formas de realizacion espedficas, esta es la media y la varianza asociada con la frecuencia del alelo minoritario con relacion al numero total de recuentos para un polimorfismo en cuestion (cobertura). Como se desarrolla en otra parte del presente documento, los valores medios para cada una de estas cuatro categonas, o al menos las categonas segunda y tercera, estan directamente relacionados con la fraccion fetal en el ADN obtenido de la sangre de la madre.

En una implementacion que emplea modelos de mezcla, se calculan uno o mas momentos factoriales para cada posicion en la que se esta considerando un polimorfismo. Por ejemplo, se calcula un momento factorial (o un grupo de momentos factoriales) utilizando multiples posiciones de SNP consideradas en la secuencia de ADN. Como se muestra en la ecuacion 4 que se presenta mas adelante, cada uno de los diversos momentos factoriales es un sumatorio sobre todas las diferentes posiciones de SNP en cuestion para la relacion entre la frecuencia del alelo minoritario y la cobertura de una determinada posicion. Como se muestra en la ecuacion 5 que se presenta mas adelante, estos momentos factoriales tambien estan relacionados con los parametros asociados con cada uno de los cuatro casos de cigosidad descritos anteriormente. En concreto, se relacionan con la probabilidad para cada uno de los casos, asf como las cantidades relativas de cada uno de los cuatro casos en el grupo de polimorfismos en cuestion. Como se ha explicado, la probabilidad esta en funcion de la fraccion de ADN fetal en el ADN libre en la sangre de la madre. Como se explica mas detalladamente mas adelante, mediante el calculo de un numero suficiente de estos momentos factoriales (que se muestran en la ecuacion 4), el metodo proporciona un numero suficiente de expresiones para calcular el valor de todas las incognitas. Las incognitas en este caso senan las cantidades relativas de cada uno de los cuatro casos en la poblacion de polimorfismos en cuestion, asf como las probabilidades (y por tanto las fracciones de ADN fetal) asociadas con cada uno de estos cuatro casos. Vease la ecuacion 5. Pueden obtenerse resultados similares utilizando otras versiones de modelos de mezcla tal como se representa en las ecuaciones 7-12 que se presentan mas adelante. Estas versiones particulares se valen solo de polimorfismos que se encuentran en los casos 1 y 2, filtrandose los polimorfismos de los casos 3 y 4 mediante una tecnica de umbralizacion.

Por lo tanto, los momentos factoriales pueden utilizarse como parte de un modelo de mezcla para identificar las probabilidades de cualquier combinacion de los cuatro casos de cigosidad. Y, como se ha mencionado, estas probabilidades, o al menos aquellas para los casos segundo y tercero, estan directamente relacionadas con la fraccion de ADN fetal en el ADN libre total en la sangre de la madre.

Debe mencionarse tambien que puede emplearse el error de secuenciacion para reducir la complejidad del

5

10

15

20

25

30

35

40

45

50

55

60

65

sistema de ecuaciones de los momentos factoriales que deben resolverse. En este sentido, debe reconocerse que el error de secuenciacion puede tener en realidad uno cualquiera de entre cuatro resultados (que corresponden a cada una de las cuatro bases posibles en cualquier posicion de polimorfismo determinada).

En determinadas formas de realizacion, los marcadores se alinean con un cromosoma o genoma de referencia, y se identifican los polimorfismos bialelicos. Estos polimorfismos no estan predefinidos ni identificados de otra manera antes del alineamiento. Se identifican simplemente durante el alineamiento y, a continuacion, se caracterizan basandose en sus cigosidades y recuentos de alelos minoritarios, como se describe en el presente documento. Esta informacion se utiliza para estimar las fracciones genomicas tal como se describe en el presente documento.

Las longitudes de los marcadores utilizadas en las formas de realizacion descritas en el presente documento se determinaran generalmente mediante el metodo de secuenciacion empleado para generar los marcadores. Los metodos son robustos en un amplio intervalo de longitudes de marcador. En determinadas implementaciones, los marcadores tienen una longitud de aproximadamente 20 a 300 pares de bases (o una longitud de aproximadamente 30 a 100 pares de bases).

En la Figura 2 se muestra un flujo de procesos de ejemplo para implementar algunas de las formas de realizacion descritas. Como ah se representa, el proceso comienza en 201 con la recogida de ADN (libre o celular) a partir de sangre materna u otro fluido corporal. De este ADN se mapean multiples secuencias contra uno o mas polimorfismos en una secuencia de referencia. Este mapeo proporciona una frecuencia alelica para cada uno de los polimorfismos. Vease el bloque 203.

Mas concretamente, el proceso del bloque 203 puede implicar la lectura de las secuencias del ADN recogido en ubicaciones de polimorfismos multiples. En algunos casos, estos pueden generarse como parte del proceso para determinaciones de ploidfa u otra determinacion hecha con respecto al ADN fetal. Por lo tanto, en algunas formas de realizacion, no es necesario generar secuencias separadas. Las secuencias lefdas se alinean con una secuencia de referencia para maximizar el alineamiento utilizando BLAST o una herramienta similar.

La secuencia de referencia puede proporcionarse como una base de datos de polimorfismos. En algunos casos, se trata de un conjunto de referencia de busqueda de alelos producido a partir de una expansion combinatoria de todas las definiciones de polimorfismo (por ejemplo, cuando los polimorfismos son SNPs, todas las secuencias SNP). Vease el Anexo, por ejemplo. En un ejemplo especffico, las secuencias tienen una longitud de aproximadamente 100 a 150 pares de bases.

Volviendo a la Figura 2, el metodo determina la combinacion de cigosidad materna/fetal para uno o mas de los polimorfismos considerados en la operacion del bloque 203. Vease el bloque 205. En determinadas formas de realizacion puede emplearse un modelo de mezcla con este fin. Como se ha mencionado, las combinaciones son del siguiente modo: M y F homocigotos, M homocigoto y F heterocigoto, M heterocigoto y F homocigoto, y M y F heterocigotos.

Por ultimo, como se ilustra en el bloque 207, el metodo utiliza la combinacion de frecuencia alelica del caso de cigosidad en uno o mas de los polimorfismos para estimar la cantidad fraccional de componente fetal en el ADN de la muestra materna.

Definiciones

El siguiente analisis se proporciona como ayuda para comprender determinados aspectos y ventajas de las formas de realizacion descritas.

El termino "lectura" se refiere a una lectura de secuencia de una porcion de una muestra de acido nucleico. Por lo general, aunque no necesariamente, una lectura representa una secuencia corta de pares de bases contiguas de la muestra. La lectura puede representarse simbolicamente mediante la secuencia de pares de bases (en ATCG) de la porcion de la muestra. Puede almacenarse en un dispositivo de memoria y procesarse segun corresponda para determinar si coincide con una secuencia de referencia o cumple con otros criterios. Una lectura puede obtenerse directamente de un aparato de secuenciacion o indirectamente de informacion almacenada de la secuencia acerca de la muestra.

El termino "marcador" tambien se refiere a secuencias cortas de una muestra de acido nucleico. Por lo general, un marcador contiene informacion asociada tal como la ubicacion de la secuencia en el genoma. Para algunos fines, los terminos “lectura” y “marcador” son intercambiables en el presente documento. Sin embargo, por lo general, las lecturas de secuencias se alinean con una secuencia de referencia, y las lecturas que se mapean en un solo sitio en el genoma de referencia se denominan marcadores. En el presente documento, a veces se utiliza "secuencia de segmento" de manera intercambiable con "marcador".

5

10

15

20

25

30

35

40

45

50

55

60

65

Con frecuencia en el presente documento las "lecturas" se describen como secuencias de acidos nucleicos que tienen una longitud de 36 pares de bases (36-meros). Por supuesto, las formas de realizacion descritas no se limitan a este tamano. En muchas aplicaciones resultan adecuadas lecturas menores y mayores. Para las aplicaciones que alinean lecturas con el genoma humano, se considera generalmente suficiente una lectura de un tamano de 30 pares de bases o mayor para mapear una muestra contra un solo cromosoma. Para algunas aplicaciones resultan adecuados marcadores/lecturas mucho mayores. Con la secuenciacion del genoma completo, pueden utilizarse lecturas del orden de 1.000 pares de bases o mayores. En determinadas formas de realizacion, una lectura puede tener una longitud de entre aproximadamente 20 y 10.000 pares de bases, o entre aproximadamente 30 y 1.000 pares de bases, o entre aproximadamente 30 y 50 pares de bases.

Una "secuencia de referenda" es una secuencia de una molecula biologica, que con frecuencia es un acido nucleico tal como un cromosoma o genoma. Por lo general, multiples lecturas son miembros de una determinada secuencia de referencia. En determinadas formas de realizacion, se compara una lectura o marcador con una secuencia de referencia para determinar si la secuencia de referencia contiene la secuencia lefda. Este proceso se denomina a veces alineamiento.

En diversas formas de realizacion, la secuencia de referencia es significativamente mayor que las lecturas que se alinean con la misma. Por ejemplo, puede ser al menos aproximadamente 100 veces mayor, o al menos aproximadamente 1.000 veces mayor, o al menos aproximadamente 10.000 veces mayor, o al menos aproximadamente 105 veces mayor, o al menos aproximadamente 106 veces mayor, o al menos aproximadamente 107 veces mayor.

En un ejemplo, la secuencia de referencia es la de un genoma humano de longitud completa. Tales secuencias pueden denominarse secuencias de referencia genomicas. En otro ejemplo, la secuencia de referencia se limita a un cromosoma humano espedfico, tal como el cromosoma 13. Tales secuencias pueden denominarse secuencias de referencia cromosomicas. Otros ejemplos de secuencias de referencia incluyen genomas de otras especies, asf como cromosomas, regiones subcromosomicas (por ejemplo, cadenas), etc., de cualquier especie.

En diversas formas de realizacion, la secuencia de referencia es una secuencia consenso u otra combinacion procedente de multiples individuos. Sin embargo, en determinadas aplicaciones, la secuencia de referencia puede obtenerse de un individuo concreto.

El termino "alineamiento" se refiere al proceso de comparar una lectura o marcador con una secuencia de referencia y determinar de este modo si la secuencia de referencia contiene la secuencia lefda. Si la secuencia de referencia contiene la lectura, la lectura puede mapearse contra la secuencia de referencia o, en determinadas formas de realizacion, contra una ubicacion particular de la secuencia de referencia. En algunos casos, el alineamiento simplemente indica si una lectura es miembro, o no, de una secuencia de referencia particular (es decir, si la lectura esta presente o ausente en la secuencia de referencia). Por ejemplo, el alineamiento de una lectura con la secuencia de referencia para el cromosoma 13 humano indicara si la lectura esta presente en la secuencia de referencia para el cromosoma 13. Una herramienta que proporciona esta informacion puede denominarse verificador de pertenencia al conjunto. En algunos casos, un alineamiento indica ademas una ubicacion en la secuencia de referencia contra la que se mapea la lectura o el marcador. Por ejemplo, si la secuencia de referencia es la secuencia del genoma humano completo, un alineamiento puede indicar que hay una lectura en el cromosoma 13, y puede indicar adicionalmente que la lectura esta en una cadena concreta del cromosoma 13.

Un "sitio" es una posicion unica en una secuencia de referencia correspondiente a una lectura o marcador. En determinadas formas de realizacion, este especifica la identidad de un cromosoma (por ejemplo, el cromosoma 13), una cadena del cromosoma, y una posicion exacta en el cromosoma.

Un "sitio polimorfico" es un locus en el que se produce una divergencia de la secuencia nucleotfdica. El locus puede tener tan solo un par de bases. Los marcadores ilustrativos tienen al menos dos alelos, dandose cada uno con una frecuencia superior al 1%, y, mas generalmente, superior al 10% o 20% de una poblacion seleccionada. Un sitio polimorfico puede tener tan solo un par de bases. Las expresiones "locus polimorfico" y "sitio polimorfico" se utilizan indistintamente en el presente documento.

En el presente documento, "secuencia polimorfica" se refiere a una secuencia de acido nucleico, por ejemplo, una secuencia de ADN, que comprende uno o mas sitios polimorficos, por ejemplo un SNP o un SNP en tandem. Las secuencias polimorficas segun la presente tecnologfa pueden utilizarse para diferenciar espedficamente entre los alelos maternos y no maternos en la muestra materna que comprende una mezcla de acidos nucleicos fetales y maternos.

Formas de realizacion detalladas

Por lo general, los procesos descritos en el presente documento emplean una secuencia de referencia que abarca uno o mas polimorfismos y esta asociada con el ADN que se esta muestreando. Una secuencia de referencia

5

10

15

20

25

30

35

40

45

50

55

60

65

puede ser, por ejemplo, el genoma humano, un cromosoma, o una region de un cromosoma. Pueden designarse uno o mas de los polimorfismos con el fin de estimar la fraccion de ADN fetal. Los polimorfismos que se designan para su uso en la determinacion de la fraccion fetal son polimorfismos previamente conocidos. Por ejemplo, se ha recopilado un listado completo de referencias, hechos e informacion de secuencias sobre STRs previamente conocidas, y de datos de poblacion relacionados en la STRBase, al que puede accederse a traves de la web en ibm4.carb.nist.gov:8800/dna/home.htm. Tambien puede accederse a la informacion de secuencias del GenBank® (
http://www2.ncbi.nlm.nih.gov/cgibin/genbank) para los loci STR comunmente utilizados a traves de la STRBase. La informacion de SNPs previamente conocidos esta disponible en bases de datos de acceso publico, incluidas pero no limitadas a Human SNP Database en la direccion web wi.mit.edu, la pagina inicial de dbSNP del NCBI en la direccion web ncbi.nlm.nih.gov, la direccion web lifesciences.perkinelmer.com, Applied Biosystems by Life Technologies™ (Carlsbad, CA) en la direccion web appliedbiosystems.com, la base de datos de SNP de Celera Human en la direccion web celera.com, la base de datos de SNP del Genome Analysis Group (GAN) en la direccion web gan.iarc.fr. En una forma de realizacion, los SNPs designados para determinar la fraccion fetal se seleccionan del grupo de 92 SNPs de identificacion individuales (IISNPs) descrito por el Pakstis et al. (Pakstis et al. Hum. Genet. 127:315-324 [2010]), que han demostrado tener una variacion de frecuencia muy pequena entre las poblaciones (Fst < 0,06), y ser muy reveladores en todo el mundo con una heterocigosidad media > 0,4. Los SNPs abarcados por el metodo de la invencion incluyen SNPs unidos y no unidos. Para designar las secuencias SNP en tandem adecuadas, pueden buscarse en la base de datos del International HapMap Consortium (The International HapMap Project, Nature 426:789-796 [2003]). La base de datos esta disponible en la web en hapmap.org.

Los polimorfismos asf empleados pueden ser paneles de polimorfismos previamente conocidos designados para determinar la fraccion de ADN fetal o pueden encontrarse por casualidad en un analisis de ADN materno para otros fines, tal como el mapeo de marcadores de ADN de la muestra contra los cromosomas.

En determinadas formas de realizacion, el metodo comprende secuenciar el ADN en una muestra utilizando una mezcla de genomas, por ejemplo, una muestra materna que comprende ADN libre fetal y materno, para proporcionar una pluralidad de marcadores de secuencia que se mapean contra secuencias que comprenden sitios polimorficos previamente conocidos en un genoma de referencia, y utilizar los marcadores mapeados en los sitios previamente conocidos para determinar la fraccion fetal como se describe detalladamente mas adelante. Como alternativa, despues de la secuenciacion del ADN, los marcadores de secuencia que se obtienen mediante la tecnologfa de secuenciacion, por ejemplo, NGS, se mapean contra un genoma de referencia, por ejemplo, hg19, y los marcadores de secuencia que se mapean contra los sitios en los que los polimorfismos se producen por casualidad, es decir, no conocidos previamente, se utilizan para determinar la fraccion fetal.

La secuencia de referencia contra la que se mapean los marcadores de secuencia a sitios polimorficos previamente conocidos, puede ser un genoma de referencia publicado o puede ser una base de datos artificial u otro grupo predefinido de secuencias para los polimorfismos en cuestion. Cada una de las secuencias de la base de datos abarcara el uno o mas nucleotidos asociados con el polimorfismo. Como ejemplo, vease la lista de secuencias de polimorfismos que se presenta mas adelante en el "Anexo 1".

En diversas formas de realizacion, el numero de polimorfismos empleados para estimar la fraccion de ADN fetal es de al menos 2 polimorfismos, y mas particularmente para cada uno de al menos aproximadamente 10 polimorfismos, y mas preferentemente para cada uno de al menos aproximadamente 100 polimorfismos.

En un ejemplo, la cobertura de SNP y la frecuencia alelica se determinan alineando las secuencias generadas con un genoma de referencia construido a partir de la expansion combinatoria de las definiciones de SNP. La base de datos de amplicones contiene informacion de variacion bialelica rodeada, por ejemplo, por al menos aproximadamente 50 bases de secuencia flanqueante. Por ejemplo, un amplicon con una cadena de informacion de variacion "[g/c]" (que representa los alelos alternos "g" y "c") puede parecerse a:

atcg....accg[g/c]ccgt....

En algunos casos, el procedimiento para introducir la base de datos de amplicones y las secuencias generadas y devolver los recuentos de SNP/alelo es del siguiente modo.

1. Crear un conjunto de referencia de busqueda de alelos a partir de la expansion combinatoria de las definiciones de SNP. Para cada secuencia en la base de datos de amplicones, para cada alelo en la cadena de informacion de variacion, crear una secuencia alelica, sustituyendose la cadena de informacion de variacion por el alelo.

a. Por ejemplo, teniendo en cuenta la secuencia de amplicon del ejemplo anterior, se creanan dos

secuencias: 1) atcg....accgGccgt.... y 2) atcg....accgCccgt....

b. Puede encontrarse un ejemplo de un conjunto de referencia de busqueda de alelos completo en el Allele Search Database Sequence Listing.

5

10

15

20

25

30

35

40

45

50

55

60

65

2. Mapear las secuencias contra el conjunto de referencia de busqueda de alelos manteniendo solo los mapeos que coincidan con solo una secuencia en el conjunto de busqueda.

3. El recuento de alelos se determina contando el numero de secuencias que coinciden con su secuencia alelica.

Los metodos descritos en el presente documento suponen un embarazo "normal", es decir, un embarazo en el que la madre lleva un solo feto, y no gemelos, trillizos, etc. Los expertos comprenderan las modificaciones que tienen en cuenta embarazos no normales, particularmente aquellos en los que se conoce el numero de fetos.

Como se ha indicado, al determinar la fraccion fetal, el metodo secuencia el ADN en la muestra de sangre materna y realiza el recuento de los marcadores de secuencia que se mapean contra cada secuencia de polimorfismo(s) en cuestion. Para cada polimorfismo, el metodo hace recuento del numero total de lecturas que se mapean contra el mismo (la cobertura) y el numero de marcadores de secuencia asociados a cada alelo (los recuentos de alelos). En un ejemplo sencillo, un polimorfismo con una cobertura de 5, pueden tener 3 lecturas del alelo B y 2 lecturas del alelo A. En este ejemplo, el alelo A se considera el alelo minoritario y el alelo B se considera el alelo mayoritario.

En algunas formas de realizacion, esta operacion se vale de herramientas de secuenciacion muy rapidas tales como las herramientas de secuenciacion masiva en paralelo de ADN. Mas adelante se describen con mas detalle ejemplos de tales herramientas. En algunos casos, se leen para una sola muestra muchos miles o millones de secuencias marcadoras. Preferentemente, la secuenciacion se realiza de manera que permita una asignacion rapida y directa del ADN secuenciado a secuencias predefinidas particulares que albergan los polimorfismos en cuestion. En general, hay informacion suficiente para ello en los marcadores con un tamano de 30 pares de bases o mayores. Los marcadores de este tamano pueden mapearse de modo inequvoco contra las secuencias de interes. En una forma de realizacion espedfica, las secuencias marcadoras empleadas en el proceso tienen una longitud de 36 pares de bases.

Los marcadores se mapean contra un genoma de referencia o contra las secuencias de una base de datos de secuencias alelicas (por ejemplo, vease el Anexo 1 como se ha mencionado anteriormente) y se determina el numero de marcadores asf mapeados. Esto proporcionara tanto la cobertura como el recuento del alelo minoritario para cada polimorfismo en cuestion. En algunos casos, esto puede hacerse simultaneamente al mapeo de cada marcador contra uno de los 23 cromosomas humanos y la determinacion del numero de marcadores mapeados por cromosoma.

Como se ha mencionado, la cobertura es el numero total de secuencias lefdas que se mapean contra un determinado polimorfismo en una secuencia de referencia. El recuento de alelos es el numero total de secuencias lefdas que se mapean contra tal polimorfismo que tiene un alelo. La suma de todos los recuentos de alelos debe ser igual a la cobertura. El alelo con el recuento mas alto es el alelo mayoritario, y el alelo con el recuento mas bajo es el alelo minoritario. En determinadas formas de realizacion, la unica informacion necesaria para estimar la fraccion de ADN fetal es la cobertura y el recuento del alelo minoritario para cada uno de una pluralidad de polimorfismos. En algunas formas de realizacion, tambien se utiliza una tasa de error de asignacion de bases del aparato de secuenciacion del ADN.

Resulta util tener en cuenta los fundamentos matematicos o simbolicos de determinados metodos descritos en el presente documento. Como se ha mencionado, en diversos ejemplos, las secuencias generadas a partir de la sangre materna se alinean (se superponen de manera que se maximicen las bases identicas) con un genoma de referencia u otra secuencia de acido nucleico. Dada una posicion genomica, j, y un conjunto de secuencias alineadas con la referencia, dejese que el numero de apariciones de cada una de las cuatro bases del ADN ("a", "t", "g" y "c", tambien denominadas "alelos"), entre las secuencias alineadas sea w(j,1), w(j,2), w(j,3), y w(j,4), respectivamente. Para los fines de este analisis, puede suponerse sin perdida de generalidad que todas las variaciones son bialelicas. Por lo tanto, pueden utilizarse las siguientes notaciones:

Recuento del alelo mayoritario en la posicion genomica j como B = B = {/>,} = n'1! max... jiv;j j

como estadfstico de primer orden de los recuentos en la posicion j. (El alelo mayoritario, b, es el argmax correspondiente. Los subrndices se utilizan cuando se esta considerando mas de un sNp).

Recuento del alelo minoritario en la posicion j como A — A. - 1a .- I i i ‘ / como estadfstico de segundo

orden de los recuentos (es decir, el segundo recuento mas alto de alelo) en la posicion j,

Cobertura en la posicion j como D = Dj = {di} = Aj + Bj, y

5

10

15

20

25

30

35

40

45

50

55

60

65

Tasa de error de la maquina de secuenciacion se indica como e.

Cuando el contexto esta claro, por razones de conveniencia las notaciones se utilizan indistintamente; por ejemplo, pueden utilizarse indistintamente A, Ai, o {ai} para el alelo minoritario o el recuento del alelo minoritario. Pueden utilizarse subrndices, o no, dependiendo de si se esta considerando mas de un SNP. (Los SNPs se utilizan solo a efectos de ejemplo. Pueden utilizarse otros tipos de polimorfismos como se analiza en otra parte del presente documento).

En la Figura 1, se representa la base para los cuatro estados de cigosidad para el polimorfismo. Como se ilustra, la madre puede ser homocigoto o heterocigoto en un determinado polimorfismo. Del mismo modo, el bebe puede ser heterocigoto u homocigoto en la misma posicion. Como se ilustra, los casos 1 y 2 son los casos de polimorfismo en los que la madre es homocigoto. Si el bebe y la madre son ambos homocigotos, el polimorfismo es un polimorfismo de caso 1. Como se ha indicado anteriormente, esta situacion no es por lo general particularmente interesante. Si la madre es homocigoto y el bebe es heterocigoto, la fraccion fetal, f, viene dada concretamente por dos veces la relacion entre el alelo minoritario y la cobertura. En el caso de polimorfismo en el que la madre es heterocigoto y el bebe es homocigoto (caso 3 de la Figura 1), la fraccion fetal es concretamente uno menos dos veces la relacion entre el alelo minoritario y la cobertura. Por ultimo, en el caso en el que tanto la madre como el feto son heterocigotos, la fraccion del alelo minoritario siempre debena ser 0,5, salvo error. La fraccion fetal no puede obtenerse para polimorfismos que se encuentran en el caso 4.

A continuacion se desarrollaran adicionalmente los cuatro casos.

Caso 1: Madre y bebe homocigotos

• En este caso, exceptuando errores de secuenciacion o contaminacion, no debena observarse ninguna diferencia.

• E (frecuencia del alelo min) = E(A) = 0.

• En la practica, A ~ (se distribuye como) una distribucion Binomial que se aproxima bien mediante la distribucion de Poisson para una np baja. El parametro tasa de distribucion para la Binomial o de Poisson esta relacionado con la tasa de error de secuenciacion, e y la cobertura D. La Figura 3 muestra las frecuencias de desapareamiento de las secuencias 36-mero generadas alineadas con un genoma humano de referencia. •

• Este caso no contiene informacion sobre la fraccion fetal.

La Figura 3 presenta las estimaciones de error mediante la posicion de la base secuenciada en 30 calles de datos de Illumina GA2 alineados con el genoma humano HG18 utilizando Eland con los parametros por defecto.

Caso 2: Madre homocigoto y bebe heterocigoto

• En este caso, para una pequena fraccion fetal (f), las frecuencias alelicas observadas seran notablemente diferentes. Apareciendo el alelo mayoritario por lo general con una frecuencia varias veces mayor que el alelo minoritario.

• Salvo error, dada una sola posicion de SNP (D,A), E(A) = Df/2 y una estimacion no sesgada para f es 2A/D.

• Salvo error, A ~ Binomial (f/2,D). Media Df/2, Varianza (1-f/2)Df/2. [Dist. aproximadamente normal si D > 15].

Caso 3: Madre heterocigoto y bebe homocigoto

• En este caso, las frecuencias observadas para los alelos mayoritario y minoritario estan proximas y A/D es ligeramente inferior a 0,5.

• Salvo error, E(A) = D(1-f)/2, y E(1 - (2A/D)) = f

• Salvo error, A ~ Binomial ((1-f)/2, D). Media D((1-f)/2). Varianza D/4(1-fA2).

Caso 4: Madre heterocigoto y bebe heterocigoto

Adviertase que, salvo error, hay dos subcasos para este.

Caso 4.1: El alelo del padre es diferente de los alelos de la madre. Esto introducina un tercer alelo que sena el alelo minoritario, siendo E(A) = Df/2. Estos casos no debenan tener efecto sobre las estimaciones para f

5

10

15

20

25

30

35

40

45

50

55

60

65

porque el procedimiento para asignar secuencias a los amplicones eliminara por filtracion estos casos cuando los SNPs de referencia sean bialelicos.

Caso 4.2: El alelo del padre coincide con uno de los alelos de la madre

• En este caso, salvo error, los dos alelos aparecenan con una proporcion 1:1 por lo que este caso no resulta util para la estimacion de la fraccion fetal.

• Salvo error, E(A) = 0,5, y A ~ Binomial (0,5,D) truncado en 0,5.

La Figura 4 presenta un grafico del recuento del alelo minoritario A frente a la cobertura D (suponiendo que no hay error) para los casos de heterocigosidad 1 a 4.

En diversas formas de realizacion, el metodo tiene que ver en terminos generales con el analisis de la frecuencia alelica en uno o mas SNPs (u otros polimorfismos) para clasificar los polimorfismos dentro del caso 2 y/o del caso 3. Utilizando la frecuencia alelica junto con la clasificacion, el metodo puede estimar la fraccion fetal.

En algunos casos, dado el recuento del alelo minoritario A y la cobertura D, es decir, un solo punto (D,A), para una posicion de SNP individual permite que los metodos realicen una unica estimacion puntual. Por ejemplo, determinados metodos clasifican un SNP con el recuento de alelo (D,A) en un solo caso y obtienen una estimacion de la fraccion fetal del siguiente modo:

ES1.1 Umbrales simples para decidir el caso Dada una posicion individual (SNP),

1. Decidir sobre el caso 1 con una funcion de decision como 2A/D < e o un valor cntico definido de la Binomial(e,D) o de Poisson(De). Tambien puede utilizarse una distribucion alternativa dentro del alcance de la presente invencion. Sin estimacion de la fraccion fetal (f).

2. Decidir sobre el caso 4 si 2A/D > (0,5-e) o algun valor cntico de la Binomial(0,5,D), (u otra distribucion de aproximacion adecuada). No utilizar la posicion para una estimacion de f.

3. De lo contrario, decidir sobre el caso 2 si 2A/D < 0,25 (o algun otro umbral establecido manualmente o estimado automaticamente). La fraccion fetal f se estimo como 2A/D.

4. De lo contrario, caso 3. Utilizar una estimacion de la fraccion fetal f = (1-2A/D).

Puede ganarse precision combinando la informacion de recuento de alelos de varios SNPs para estimar la fraccion fetal.

Metodo EM1: combinar multiples SNPs calculando la media.

Tomense la media, la mediana, otra medicion de centro (por ejemplo: biponderada de Turkey, estimadores M, etc.). Tambien pueden utilizarse promedios ponderados. Para un ejemplo de como pueden definirse las ponderaciones, vease EM2.4 que se presenta mas adelante. Ademas, pueden utilizarse medidas de centro robustas.

Metodo EM2: estimacion simultanea a partir del caso 2 y del caso 3 mediante transformacion

Para las ocasiones en las que f es inferior al X% de los puntos del caso 3 (D,A) puede transformarse para que coincida con los puntos del caso 2. A partir de esta lmea, puede calcularse una pendiente comun mediante regresion por el origen (vease la Figura 5).

Una desventaja teorica de los metodos basados en la transformacion es que las distribuciones binomiales del caso 2 y 3 tendran una forma diferente. A niveles tfpicos de fraccion fetal (<10%) los datos del caso 2 tendran una distribucion proxima a Poisson sesgada hacia la derecha y el caso 3 tendra una distribucion cercana a la normal.

La Figura 5 representa la transformacion de datos del caso 3 en caso 2. A continuacion, una sola regresion puede estimar f a partir de ambos casos simultaneamente.

Metodo para calcular EM2.3:

Etapa 1: Desestimar los datos del caso 4.

Para cada punto de datos (D,A) si A > (0,5D-T1), excluir (D,A) del posterior analisis. T1(D,A) una funcion real.

Etapa 2: Transformar los datos del caso 3.

Vease la Figura 6. Para cada punto de datos (D,A) que no se dictamina que sea 4, si A > T2*D, transformar los puntos a nuevas coordenadas (D1,A1). T2(D,A) una funcion real.

5

10

15

20

25

30

35

40

45

50

55

60

65

a = 2A/D

AX =-1(0,50-A)

D\ = D

Etapa 3: Establecer un umbral DT para reducir la contaminacion debida a los datos del caso 1.

Ignorartodos los puntos de datos por debajo de T2(D,A) una funcion real.

Etapa 4: Realizar la estimacion de la regresion para los restantes datos transformados del caso 2 y 3.

Aplicar la regresion por el origen hasta los puntos restantes. La estimacion de la fraccion fetal es dos veces la pendiente de la lmea de regresion.

Adviertase que hay muchas clases de transformaciones que pueden construirse para lograr la misma coincidencia de los datos del caso 2 y 3. Los ejemplos incluyen la trigonometrica, la transformacion o el uso de matrices de rotacion. Se entiende que estas desviaciones quedan incluidas en el alcance de la presente descripcion. Ademas, pueden utilizarse muchas clases de regresion (L2, L1,...) u optimizacion. Intercambiar el algoritmo de optimizacion es un cambio trivial y queda dentro del alcance de la presente descripcion.

La Figura 6 presenta los datos despues de la rotacion, seleccionando D1 de manera que el caso 1 y los casos 2 y 3 no se solapen. E1 representa un Kmite superior del intervalo de confianza superior del 99 por ciento de los datos del caso 1.

Metodo EM3: mrnimos cuadrados ponderados

El metodo de regresion de EM2.3 supone que todos los puntos de datos traducidos tienen igual varianza. Es mas adecuado tener en cuenta la heterocedasticidad de las diferentes fuentes de datos e incluso de los puntos de un mismo patron de heterocigosidad.

Las etapas 1 a 3 son identicas a EM2.3.

Etapa 4: Regresion

En la regresion a partir de EM2.3, los puntos de los datos del caso 2 tendran una varianza v2(f,D) = [0,5*Df- 0,25*DfA2] y los puntos de los datos del caso 3 tendran una varianza v3(f,D)=[0,25D(1 - fA2)]. Suponiendo que se da a cada punto una ponderacion diferente, w, como en EM2.3, se busca minimizar

r,

Q^W'ia^sd.f

i=i

Ecuacion 1

Ajuste de las primeras derivadas a cero y calculo del valor de s:

5

10

15

20

25

30

35

40

45

50

55

60

65

imagen1

Este metodo se pondera con la inversa de la varianza de cada punto, que se estima como v2(2A/D,D), o v3(2A/D,D), segun corresponda. La estimacion de la fraccion fetal es 2*s.

En determinadas formas de realizacion, puede emplearse un modelo de mezcla para clasificar un grupo de polimorfismos en dos o mas de los casos de cigosidad y, al mismo tiempo, estimar la fraccion de ADN fetal a partir de las frecuencias alelicas medias para cada uno de estos casos. En general, un modelo de mezcla supone que un conjunto de datos particular se compone de una mezcla de diferentes tipos de datos, cada uno de los cuales tiene su propia distribucion esperada (por ejemplo, una distribucion normal). El proceso intenta encontrar la media y, posiblemente, otras caractensticas para cada tipo de datos. En las formas de realizacion descritas en el presente documento, hay hasta cuatro tipos de datos diferentes (los casos de cigosidad) que constituyen los datos de frecuencia del alelo minoritario para los polimorfismos en cuestion.

En la siguiente seccion se presenta una implementacion de un modelo de mezcla. En esta forma de realizacion, la frecuencia del alelo minoritario A es una suma de cuatro terminos como se muestra en la ecuacion 3. Cada uno de los terminos corresponde a uno de los cuatro casos de cigosidad. Cada termino es el producto de una fraccion de polimorfismo a y una distribucion binomial de la frecuencia del alelo minoritario. Los a son las fracciones de los polimorfismos que se encuentran en cada uno de los cuatro casos. Cada distribucion binomial tiene una probabilidad asociada, p, y una cobertura, d. La probabilidad del alelo minoritario para el caso 2, por ejemplo, viene dada por f/2.

Las formas de realizacion descritas se valen de "momentos factoriales" para los datos de frecuencia alelica en cuestion. Como es bien sabido, la media de la distribucion es el primer momento. Es el valor esperado de la frecuencia del alelo minoritario. La varianza es el segundo momento. Se calcula a partir del valor esperado de la frecuencia alelica al cuadrado.

Los datos de frecuencia alelica en todos los polimorfismos pueden utilizarse para calcular los momentos factoriales (un primer momento factorial, un segundo momento factorial, etc.) como se muestra en la ecuacion 4. Como indican estas ecuaciones, los momentos factoriales son los sumatorios de terminos sobre i, los polimorfismos individuales en el conjunto de datos, en los que hay n de tales polimorfismos en el conjunto de datos. Los terminos que se suman son funciones de los recuentos de alelos minoritarios, ai, y las coberturas di.

De manera provechosa, los momentos factoriales tienen relaciones con los valores de ai y pi como se ilustra en la ecuacion 5. A partir de las probabilidades, pi, puede determinarse la fraccion fetal, f. Por ejemplo, p2 = f/2 y p3 es 1 - f/2. Por lo tanto, la logica responsable puede resolver un sistema de ecuaciones que relacionan los as y ps desconocidos con las expresiones de momento factorial para las fracciones del alelo minoritario en los polimorfismos multiples en cuestion. Por supuesto, hay otras tecnicas para resolver los modelos de mezcla dentro del alcance de la presente invencion.

5

10

15

20

25

30

35

40

45

50

55

60

65

Resulta util tener en cuenta ademas los fundamentos matematicos o simbolicos de las formas de realizacion de modelo de mezcla descritas en el presente documento. Los cuatro casos de heterocigosidad descritos anteriormente sugieren el siguiente modelo de mezcla Binomial para la distribucion de ai en los puntos (ai,di):

imagen2

donde

1 = a, +a2 +a3 +a4

m = 4

Ecuacion 3

Mas adelante se describen varios modelos para relacionar el pi con la fraccion fetal y secuenciar las tasas de error. Los parametros ai se relacionan con los parametros espedficos de la poblacion y la capacidad para dejar que estos valores "floten" da a estos metodos robustez adicional con respecto a factores como la etnia y la descendencia de los progenitores.

Para diversos casos de heterocigosidad puede resolverse la ecuacion anterior para la fraccion fetal. Quizas el metodo mas facil de calcular el valor de la fraccion fetal es mediante el metodo de los momentos factoriales en el que los parametros de la mezcla pueden expresarse en terminos de momentos que puede estimarse facilmente a partir de los datos observados.

Dadas n posiciones de SNP, los momentos factoriales se definen de la siguiente manera:

1 a(

Fi =-Lt

n M d,

p _ 1 aM: ~ 0

2 t' did I)

J n tr didi-\)(d: -j +1)

Ecuacion 4

Los momentos factoriales pueden relacionarse con el {a, pi} con

5

10

15

20

25

30

35

40

45

50

55

60

65

m

Fi~'ZaiPl>

1=1

m

F ~ YuaiP1i

i=1

m

fj * YuaiPi

?=i

m

Fs~HaiPf

j=l

Ecuacion 5

Puede identificarse una solucion calculando el valor de {a,, pi} en un sistema de ecuaciones derivado de la anterior relacion Ecuacion 5 cuando n > 2* (numero de parametros a estimar). Obviamente, el problema se vuelve mucho mas dificil matematicamente para una g, ya que es necesario estimar mas {0, pi}.

Por lo general no es posible discriminar con precision entre los datos del caso 1 y 2 (o del caso 3 y 4) mediante umbrales simples en fracciones fetales mas bajas. Afortunadamente para el uso de modelos de casos reducidos, los datos de los casos 1/2 se separan facilmente de los datos de los casos 3/4 mediante la discriminacion en el punto (2A/D)=T. Se ha descubierto que el uso de T=0,5 se comporta satisfactoriamente.

Adviertase que el metodo de modelo de mezcla que emplea las ecuaciones 4 y 5 se vale de los datos para todos los polimorfismos pero no tiene en cuenta por separado el error de secuenciacion. Los metodos apropiados que separan los datos para los casos primero y segundo de los datos para los casos tercero y cuarto pueden tener en cuenta el error de secuenciacion.

En otros ejemplos, el conjunto de datos proporcionado a un modelo de mezcla contiene datos solo para polimorfismos del caso 1 y del caso 2. Estos son los polimorfismos para los que la madre es homocigoto. Puede emplearse una tecnica de umbralizacion para eliminar los polimorfismos del caso 3 y 4. Por ejemplo, los polimorfismos con frecuencias del alelo minoritario superiores a un umbral particular se eliminan antes de emplear el modelo de mezcla. Utilizando los datos debidamente filtrados y los momentos factoriales como reducidos a las ecuaciones 7 y 8, puede calcularse la fraccion fetal, f, como se muestra en la ecuacion 9. Observese que la ecuacion 7 es una reformulacion de la ecuacion 3 para esta implementacion de un modelo de mezcla. Adviertase tambien que en este ejemplo concreto, no se conoce el error de secuenciacion asociado con la lectura de la maquina. Como consecuencia, el sistema de ecuaciones debe calcular el valor del error por separado, e.

La Figura 7 muestra una comparacion de los resultados utilizando este modelo de mezcla y la fraccion fetal conocida (eje x) y la fraccion fetal estimada. Si el modelo de mezcla predijo perfectamente la fraccion fetal, los resultados representados graficamente seguinan la lmea discontinua. Sin embargo, las fracciones estimadas son muy buenas, sobre todo teniendo en cuenta que muchos de los datos se eliminaron antes de aplicar el modelo de mezcla.

Para dar mas detalles, se dispone de otros varios metodos para la estimacion de parametros del modelo a partir de la Ecuacion 3. En algunos casos puede encontrarse una solucion manejable estableciendo las derivadas en cero del estadfstico chi-cuadrado. En los casos en que no pueda encontrarse una solucion facil mediante diferenciacion directa, puede resultar eficaz el desarrollo en serie de Taylor de la PDF binomial u otros polinomios de aproximacion. Se sabe que los estimadores chi-cuadrado mmimo son eficaces.

5

10

15

20

25

30

35

40

45

50

55

60

65

imagen3

donde Pi es el numero de puntos del recuento i. Un metodo alternativo de Le Cam ["On the Asymptotic Theory of Estimation and Testing Hypotheses". Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, volumen 1, Berkeley CA: University of CA Press, 1956, pags. 129-156] utiliza la iteracion de Ralph-Newton de la funcion de verosimilitud. Puede utilizarse el metodo de soluciones de momentos de la Ecuacion 5 como punto de partida para la iteracion.

En otra aplicacion, se analiza un metodo de resolucion de modelos de mezcla que implica metodos de maximizacion de la expectativa que operan en mezclas de distribuciones Beta de aproximacion.

Casos (1+2) modelo, error de secuenciacion desconocido

Considerese un modelo reducido que solo tiene en cuenta los casos de heterocigosidad 1 y 2. En este caso, la distribucion de mezcla puede escribirse como

donde

Y el sistema

A = [a{} ~ a, Bin{e, clt ) + a, Bin{f / 2, d{)

1 = a, + a 2

m = 4

Ecuacion 7

Fl=ale + (l-alXf/2)

F2 = aye2 +(l-a,)(//2)2 F3 =«te3 +(1 -«,)(//2)3

Ecuacion 8

se resuelve para el e (tasa de error de secuenciacion), alfa (proporcion de puntos del caso 1), y f (fraccion fetal). Donde la Fi se define como en la Ecuacion 4 anterior. Se elige que una solucion de forma cerrada para la fraccion fetal sea la verdadera solucion de

(FI - l)F2 ± J~F2 yl4F\3 +F2- 3F1(2 + F\)F2 + 4F22

F «---------------------------------;----------------------------------

2(F12 - F2)

Ecuacion 9

5

10

15

20

25

30

35

40

45

50

55

60

65

que se encuentra entre 0 y 1.

Para medir el comportamiento de los estimadores se construyo un conjunto de datos simulado de puntos de Equilibrio de Hardy-Weinberg (ai,di) disenandose la fraccion fetal para que fuese {1%, 3%, 5%, 10%, 15%, 20 % y 25%} y una tasa de error de secuenciacion constante del 1%. La tasa de error del 1% es la tasa actualmente aceptada para los protocolos y las maquinas de secuenciacion que se estan utilizando y es coherente con la grafica de datos del analizador Illumina Genome Analyzer II que se muestran en la Figura 3 anterior. Se aplico la Ecuacion 9 a los datos y se encontro, a excepcion de un sesgo por exceso de cuatro puntos, una concordancia general con la fraccion fetal "conocida". Curiosamente, se estima que la tasa de error de secuenciacion, e, es ligeramente superior al 1%.

En el siguiente ejemplo de modelo de mezcla, se emplea de nuevo la umbralizacion u otra tecnica de filtrado para eliminar los datos de los polimorfismos que se encuentran en los casos 3 y 4. Sin embargo, en este caso, se conoce el error de secuenciacion. Esto simplifica la expresion resultante para la fraccion de ADN fetal, f, como se muestra en las ecuaciones 10. La Figura 8 muestra que esta version de un modelo de mezcla proporcionaba mejores resultados en comparacion con el enfoque empleado con la ecuacion 9.

En las ecuaciones 11 y 12 se muestra un enfoque similar. Este enfoque reconoce que solo algunos errores de secuenciacion se suman al recuento del alelo minoritario. Mas bien solo uno de cada cuatro errores de secuenciacion debena aumentar el recuento del alelo minoritario. La figura 9 muestra una concordancia muy buena entre las fracciones fetales real y estimada utilizando esta tecnica.

Casos (1+2) modelo, error de secuenciacion conocido

Dado que se conoce en gran medida la tasa de error de secuenciacion de las maquinas utilizadas, puede reducirse el sesgo y la complejidad de los calculos eliminando e como variable a resolver. Por lo tanto, se obtiene el sistema de ecuaciones

F{ =«le + (l-alX//2)

F, =a{e- +(l-cr1X// 2)2

Ecuacion 10

para la fraccion fetal f, para obtener la solucion:

^ _ 2(eFl -F2)

* (e-Fl)

Casos (1+2) modelo, error de secuenciacion conocido, modelos de error mejorados

Para mejorar el sesgo en el modelo se amplio el modelo de error de las ecuaciones anteriores para tener en cuenta el hecho de que no todos los eventos de error de secuenciacion se sumaran al recuento del alelo minoritario A=ai en el caso de heterocigosidad 1. Ademas, se tienen en cuenta el hecho de que los eventos de error de secuenciacion puedan contribuir a los recuentos del caso de heterocigosidad 2. Por lo tanto, se determino la fraccion fetal F resolviendo el siguiente sistema de relaciones de momentos factoriales:

F =a1e/4 + (\-al)(e + f! 2)

F=a](y+0-a])(e + f/2y

4

Ecuacion 11

que da la solucion

5

10

15

20

25

30

35

40

45

50

55

60

65

^ - 2(e2 - 5eFl + 4F2)

---------

Ecuacion 12

Opciones de implementacion

MUESTRAS

Las muestras que se utilizan en las formas de realizacion descritas en el presente documento comprenden ADN genomico celular o libre. El ADN celular se deriva de celulas enteras mediante la extraccion manual o mecanica del ADN genomico a partir de celulas enteras de la misma o de diferentes composiciones geneticas. El ADN celular puede derivarse, por ejemplo, de celulas enteras de la misma composicion genetica procedentes de un sujeto, de una mezcla de celulas enteras de diferentes sujetos, o de una mezcla de celulas enteras que difieren en composicion genetica que proceden de un sujeto. Los metodos para extraer ADN genomico de celulas enteras son conocidos en la tecnica, y difieren en funcion de la naturaleza de la fuente.

En algunos casos, puede ser ventajoso fragmentar el ADN genomico celular. La fragmentacion puede ser aleatoria, o puede ser espedfica, tal como se consigue, por ejemplo, mediante digestion con endonucleasas de restriccion. Los metodos para la fragmentacion aleatoria son conocidos en la tecnica, e incluyen, por ejemplo, la digestion limitada con ADNasa, el tratamiento alcalino y el fraccionamiento ffsico. En determinadas formas de realizacion, los acidos nucleicos de la muestra se someten a fragmentacion en fragmentos de aproximadamente 500 o mas pares de bases, y a los que pueden aplicarse facilmente los metodos de secuenciacion de nueva generacion (NGS). En una forma de realizacion, los acidos nucleicos de la muestra se obtienen a partir de cfADN, que no se somete a fragmentacion.

El ADN libre es el ADN genomico que se produce de forma natural como una mezcla de fragmentos genomicos que se encuentran por lo general en los fluidos biologicos, por ejemplo la sangre, de un sujeto. La mezcla genomica puede derivarse de celulas que se rompen de forma natural para liberar su contenido genomico mediante procesos biologicos, por ejemplo, la apoptosis. Una muestra de cfADN puede comprender cfADN derivado de una mezcla de celulas de diferentes sujetos de la misma especie, de una mezcla de celulas de un sujeto que difieren en composicion genetica, o de una mezcla de celulas de diferentes especies, por ejemplo, un sujeto.

Los acidos nucleicos libres, incluido el ADN libre, pueden obtenerse mediante diversos metodos conocidos en la tecnica a partir de muestras biologicas, incluidas pero no limitadas a plasma, suero y orina (Fan et al., Proc. Natl. Acad. Sci. 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997.]; Botezatu et al., Clin. Chem. 46: 1078-1084, 2000; y Su et al., J. Mol. Diagn. 6: 101-107 [2004]). Para separar el cfADN de las celulas, pueden utilizarse el fraccionamiento, la centrifugacion (por ejemplo, centrifugacion en gradiente de densidad), la precipitacion espedfica de ADN, o la separacion de celulas de alto rendimiento y/o metodos de separacion. Se dispone en el mercado de kits para la separacion manual y automatizada de cfADN (Roche Diagnostics, Indianapolis, IN, Qiagen, Valencia, CA, Macherey-Nagel, Duren, Alemania).

La muestra que comprende la mezcla de acidos nucleicos a la que se aplican los metodos descritos en el presente documento puede ser una muestra biologica tal como una muestra de tejido, una muestra de fluido biologico o una muestra de celulas. En algunas formas de realizacion, la mezcla de acidos nucleicos se purifica o afsla a partir de la muestra biologica mediante cualquiera de los metodos conocidos. Una muestra puede ser un polinucleotido purificado o aislado. Un fluido biologico incluye, como ejemplos no limitativos, sangre, plasma, suero, sudor, lagrimas, esputo, orina, secrecion del ofdo, linfa, saliva, lfquido cefalorraqrndeo, lavados, suspension de medula osea, flujo vaginal, lavado transcervical, lfquido cerebral, lfquido asdtico, leche, secreciones de los tractos respiratorio, intestinal y genitourinario, lfquido amniotico y muestras de leucoforesis. En algunas formas de realizacion, la muestra es una muestra que se obtiene facilmente mediante procedimientos no invasivos, por ejemplo sangre, plasma, suero, sudor, lagrimas, esputo, orina, secrecion del ofdo, saliva o heces. Preferentemente, la muestra biologica es una muestra de sangre periferica, o las fracciones de plasma y suero. En otras formas de realizacion, la muestra biologica es un hisopo o un frotis, una muestra de biopsia, o un cultivo celular. En otra forma de realizacion, la muestra es una mezcla de dos o mas muestras biologicas, por ejemplo, una muestra biologica puede comprender dos o mas de entre una muestra de fluido biologico, una muestra de tejido, y una muestra de

5

10

15

20

25

30

35

40

45

50

55

60

65

cultivo celular. Tal como se utilizan en el presente documento, los terminos "sangre", "plasma" y "suero" incluyen expresamente fracciones o porciones procesadas de los mismos. Del mismo modo, cuando se toma una muestra de una biopsia, un hisopo, un frotis, etc., el termino "muestra" incluye expresamente una fraccion procesada o porcion obtenida de la biopsia, el hisopo, el frotis, etc.

En algunas formas de realizacion, las muestras pueden obtenerse de fuentes, incluidas, pero no limitadas a, muestras de diferentes individuos, diferentes etapas de desarrollo del mismo o de diferentes individuos, diferentes individuos enfermos (por ejemplo, individuos con cancer o que se sospecha tienen un trastorno genetico), individuos normales, muestras obtenidas en diferentes etapas de una enfermedad en un individuo, muestras obtenidas de un individuo sometido a diferentes tratamientos para una enfermedad, muestras de individuos sometidos a diferentes factores ambientales, o individuos con predisposicion a una patologfa, o individuos con exposicion a un agente de una enfermedad infecciosa (por ejemplo, VIH).

En una forma de realizacion, la muestra es una muestra materna que se obtiene de una hembra embarazada, por ejemplo, una mujer embarazada. En este caso, la muestra puede analizarse utilizando los metodos descritos en el presente documento para proporcionar un diagnostico prenatal de posibles anomalfas cromosomicas en el feto. La muestra materna puede ser una muestra de tejido, una muestra de fluido biologico o una muestra de celulas. Un fluido biologico incluye, como ejemplos no limitativos, sangre, plasma, suero, sudor, lagrimas, esputo, orina, secrecion del ofdo, linfa, saliva, lfquido cefalorraqmdeo, lavados, suspension de medula osea, flujo vaginal, lavado transcervical, lfquido cerebral, lfquido asdtico, leche, secreciones de los tractos respiratorio, intestinal y genitourinario, y muestras de leucoforesis. En otra forma de realizacion, la muestra materna es una mezcla de dos o mas muestras biologicas, por ejemplo, una muestra biologica puede comprender dos o mas de entre una muestra de fluido biologico, una muestra de tejido, y una muestra de cultivo celular. En algunas formas de realizacion, la muestra es una muestra que puede obtenerse facilmente mediante procedimientos no invasivos, por ejemplo sangre, plasma, suero, sudor, lagrimas, esputo, orina, secrecion del ofdo, saliva y heces. En algunas formas de realizacion, la muestra biologica es una muestra de sangre periferica, o las fracciones de plasma y suero. En otras formas de realizacion, la muestra biologica es un hisopo o un frotis, una muestra de biopsia, o un cultivo celular.

Las muestras tambien pueden obtenerse a partir de celulas, tejidos cultivados in vitro, u otras fuentes que contienen polinucleotidos. Las muestras cultivadas pueden tomarse de fuentes que incluyen, pero no se limitan a, cultivos (por ejemplo, tejido o celulas) que se mantienen en diferentes medios y condiciones (por ejemplo, pH, presion o temperatura), cultivos (por ejemplo, tejido o celulas) que se mantienen durante diferentes penodos de duracion, cultivos (por ejemplo, tejido o celulas) tratados con diferentes factores o reactivos (por ejemplo, un farmaco potencial o un modulador), o cultivos de diferentes tipos de tejido o celulas. Los metodos de aislamiento de acidos nucleicos a partir de fuentes biologicas son conocidos y diferiran dependiendo de la naturaleza de la fuente como se ha explicado anteriormente.

POLIMORFISMOS PARA SU USO EN LA IDENTIFICACION DE LA FRACCION GENOMICA

Como se ha explicado, los polimorfismos pueden utilizarse para evaluar la fraccion fetal. En la evaluacion se utiliza la fraccion alelica y la cigosidad de uno o mas polimorfismos. Los ejemplos de polimorfismos utiles incluyen, sin limitacion, polimorfismos de un solo nucleotido (SNP), SNPs en tandem, deleciones o inserciones de multiples bases a pequena escala, denominadas indels (tambien denominadas polimorfismos insercion/delecion o DIPs), polimorfismos de multiples nucleotidos (MNP), repeticiones cortas en tandem (STR), polimorfismos en la longitud de los fragmentos de restriccion (RFLPs), deleciones, incluidas microdeleciones, inserciones, incluidas microinserciones, duplicaciones, inversiones, translocaciones, multiplicaciones, variantes complejas multisitio, variaciones en el numero de copias (CNV), y polimorfismos que comprenden cualquier otro cambio de secuencia en un cromosoma.

En algunas formas de realizacion, los polimorfismos que se utilizan en los metodos descritos incluyen SNPs y/o STRs. Los polimorfismos SNP pueden ser SNP unicos, SNPs en tandem. Los SNPs unicos incluyen SNPs individuales y SNPs marcadores, es decir SNPs presentes en un haplotipo, y/o un bloque de haplotipos. En algunas formas de realizacion, se utilizan combinaciones de polimorfismos. Por ejemplo, pueden detectarse diferencias en el numero de copias comparando una combinacion de secuencias polimorficas que comprenden uno o mas SNPs y una o mas STRs.

En general, puede utilizarse cualquier sitio polimorfico que pueda quedar abarcado por las lecturas generadas mediante los metodos de secuenciacion descritos en el presente documento para identificar la fraccion genomica en las muestras que comprenden ADN de diferentes genomas. Las secuencias polimorficas utiles para poner en practica los metodos de la invencion estan disponibles en diversas bases de datos de acceso publico, que estan en continua expansion. Por ejemplo, las bases de datos utiles incluyen, sin limitacion, la Human SNP Database en la direccion web wi.mit.edu, la pagina inicial de dbSNP del NCBI en la direccion web ncbi.nlm.nih.gov, la direccion web lifesciences.perkinelmer.com, la base de datos de SNP de Celera Human en la direccion web celera.com, la base de datos de SNP del Genome Analysis Group (GAN) en la direccion web gan.iarc.fr., la base de datos de repeticiones cortas en tandem (STR) de la ATCC en la direccion web atcc.org, y la base de datos HapMap

5

10

15

20

25

30

35

40

45

50

55

60

65

en la direccion web hapmap.org.

El numero de polimorfismos que pueden utilizarse en una evaluacion de la fraccion fetal puede ser al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1.000 o mas. Por ejemplo, se estima que el genoma humano comprende al menos aproximadamente 10 millones de SNPs. Por lo tanto, el numero de polimorfismos disponibles que pueden genotiparse en una muestra de un paciente humano puede ser al menos aproximadamente 10 millones de SNPs, asf como muchos otros tipos de polimorfismos que estan presentes en cualquier genoma humano. En algunas formas de realizacion, la identificacion de uno o mas polimorfismos en un primer genoma de una muestra que comprende una mezcla de ADN, por ejemplo, cfADN, de un primer y un segundo genoma se realiza mediante secuenciacion del genoma completo utilizando un metodo de nGs como se describe en el presente documento. En algunas formas de realizacion, el metodo de secuenciacion del genoma completo es un metodo de NGS que identifica las secuencias polimorficas mediante secuenciacion masiva en paralelo de moleculas de acido nucleico amplificadas por clonacion o mediante secuenciacion masiva en paralelo de moleculas individuales de acido nucleico, es decir, secuenciacion de una sola molecula.

APLICACIONES

La fraccion de acido nucleico procedente de cada una de las dos fuentes genomicas distintas en una muestra puede utilizarse con diversos fines. En diversas formas de realizacion descritas en el presente documento, se utiliza la fraccion de ADN fetal en el ADN libre de una muestra de material para facilitar diagnosticos prenatales y para ayudar en la toma de decisiones sobre el tratamiento de los embarazos. En otras formas de realizacion, los genomas en cuestion no son maternos ni fetales. Mas adelante se presentan diversos ejemplos de fuentes genomicas para determinar la presencia del genoma fraccional.

Puede utilizarse ARN y ADN fetal libre que circula en la sangre materna para el diagnostico prenatal no invasivo (NIPD) precoz de un numero cada vez mayor de afecciones geneticas, tanto para la gestion del embarazo como para facilitar la toma de decisiones sobre la reproduccion. Durante el embarazo, hay pequenas cantidades de ADN fetal circulante en el torrente sangumeo materno (Lo et al., Lancet 350: 485-487 [1997]). Se ha demostrado que el ADN fetal libre, que se cree se deriva de celulas moribundas de la placenta, consiste en fragmentos cortos por lo general de menos de 200 pb de longitud (Chan et al., Clin. Chem. 50:88-92 [2004]), que pueden distinguirse ya a las 4 semanas de gestacion (Illanes et al., Early Human Dev. 83:563-566 [2007]), y se sabe se eliminan de la circulacion materna pocas horas despues del parto (lo et al., Am. J. Hum. Genet. 64:218-224 [1999]). Ademas del cfADN, tambien pueden distinguirse fragmentos de ARN fetal libre (cfRNA) en el torrente sangumeo materno, procedentes de genes que se transcriben en el feto o la placenta. La extraccion y el analisis posterior de estos elementos geneticos fetales a partir de una muestra de sangre materna ofrecen nuevas oportunidades para el NIPD.

Como se ha explicado, los metodos descritos determinan la fraccion de un segundo genoma en una muestra biologica. Los metodos determinan opcionalmente la presencia o ausencia de varios trastornos en una muestra de sangre que comprende una mezcla de ADN (tal como cfADN) de un primer y un segundo genoma. En algunas formas de realizacion, la determinacion de la fraccion fetal puede comprender (a) secuenciar el genoma de al menos una porcion de la mezcla de cfADN para obtener una pluralidad de marcadores de secuencia; (b) determinar en la pluralidad de marcadores de secuencia la presencia o ausencia de polimorfismos multiples, y (c) asociar los polimorfismos multiples con el primer y/o el segundo genoma en la mezcla. En formas de realizacion preferentes, la mezcla no esta enriquecida en polimorfismos multiples. La identificacion de los polimorfismos multiples en la mezcla de ADN se realiza comparando la secuencia de los marcadores mapeados obtenidos mediante el metodo de secuenciacion del genoma completo con polimorfismos multiples de referencia, como se describe en el presente documento.

En la forma de realizacion descrita anteriormente, el primer genoma es un genoma fetal, y un segundo genoma es un genoma materno. En otra forma de realizacion, el primer genoma es un genoma de una celula no afectada y el segundo genoma es un genoma de una celula afectada, por ejemplo, una celula cancerosa. En algunas formas de realizacion, las celulas afectadas y no afectadas proceden del mismo sujeto. Por ejemplo, la celula afectada puede ser una celula cuyo genoma ha sido modificado por un trastorno. En algunas formas de realizacion, el trastorno es un trastorno monogenico. En otras formas de realizacion, el trastorno es un trastorno poligenico. Los trastornos pueden identificarse mediante un solo polimorfismo, por ejemplo, un SNP marcador, o mediante polimorfismos multiples presentes en un haplotipo. En algunas formas de realizacion, los polimorfismos multiples identificados segun el metodo de la presente invencion estan presentes en un bloque de haplotipos.

Los trastornos que pueden identificarse con ayuda del metodo de la presente invencion son trastornos geneticos, que son enfermedades debidas al menos en parte a anomalfas en los genes o cromosomas. El conocimiento de una fraccion fetal en una muestra puede ayudar a identificar tales trastornos en un contexto prenatal. Los trastornos identificados mediante el metodo de la presente invencion incluyen trastornos monogenicos, es decir, de un solo gen, y trastornos poligenicos, es decir, complejos. Los trastornos de un solo gen incluyen autosomicos dominantes, autosomicos recesivos, dominantes ligados al cromosoma X, recesivos ligados al

5

10

15

20

25

30

35

40

45

50

55

60

65

cromosoma X, y ligados al cromosoma Y.

En los trastornos autosomicos dominantes, sera necesaria solo una copia mutada del gen para que una persona se vea afectada por el trastorno. Por lo general, un sujeto afectado tiene un padre afectado, y hay una probabilidad del 50% de que la descendencia herede el gen mutado. Las afecciones que son autosomicas dominantes tienen a veces una penetrancia reducida, lo que significa que aunque solo se necesita una copia mutada, no todos los individuos que heredan la mutacion llegan a desarrollar la enfermedad. Los ejemplos de trastornos autosomicos dominantes que pueden identificarse mediante el metodo de la presente invencion incluyen, sin limitacion, la hipercolesterolemia familiar, la esferocitosis hereditaria, el smdrome de Marfan, la neurofibromatosis de tipo 1, el cancer colorrectal hereditario sin poliposis, y la exostosis multiple hereditaria, y la enfermedad de Huntington.

Los trastornos autosomicos recesivos detectados utilizando el metodo de la presente invencion incluyen la drepanocitemia, la fibrosis qrnstica, la enfermedad de Tay-Sachs, la mucopolisacaridosis, las enfermedades de almacenamiento de glucogeno, y la galactosemia. Los trastornos ligados al cromosoma X detectados mediante el metodo de la presente invencion incluyen la distrofia muscular de Duchenne y la hemofilia. En los trastornos autosomicos recesivos, deben estar mutadas dos copias del gen para que un sujeto que se vea afectado por un trastorno autosomico recesivo. Un sujeto afectado suele tener progenitores no afectados que portan cada uno una sola copia del gen mutado (y se conocen como portadores). Dos personas no afectadas que portan cada una copia del gen mutado tienen una probabilidad del 25% en cada embarazo de tener un/a hijo/a afectado/a por el trastorno. Los ejemplos de este tipo de trastorno que pueden identificarse mediante el metodo de la presente invencion incluyen la fibrosis qrnstica, la drepanocitemia, la enfermedad de Tay-Sachs, la enfermedad de Niemann-Pick, la atrofia muscular espinal, y el smdrome de Roberts. Otros determinados fenotipos, tal como el cerumen humedo frente al seco, tambien se determinan de forma autosomica recesiva. Los trastornos dominantes ligados al cromosoma X se deben a mutaciones en los genes del cromosoma X. Solo unos pocos trastornos tienen este patron de herencia, siendo un exponente el raquitismo hipofosfatemico ligado al cromosoma X. Tanto varones como mujeres se ven afectados en estos trastornos, siendo por lo general los varones mas gravemente afectados que las mujeres. Algunas afecciones dominantes ligadas al cromosoma X, tal como el smdrome de Rett, la incontinencia pigmentaria de tipo 2 y el smdrome de Aicardi suelen ser mortales en los varones, y por lo tanto se observa de manera predominante en las mujeres. Las excepciones a este hallazgo son casos extremadamente raros en los que los ninos con smdrome de Klinefelter (47, XXY) tambien heredan una afeccion dominante ligada al cromosoma X y presentan smtomas mas similares a los de una mujer en terminos de gravedad de la enfermedad. La probabilidad de transmitir un trastorno dominante ligado al cromosoma X difiere entre hombres y mujeres. Ninguno de los hijos de un hombre con un trastorno dominante ligado al cromosoma X se vera afectado (ya que reciben el cromosoma Y de su padre), y todas sus hijas heredaran la afeccion. Una mujer con un trastorno dominante ligado al cromosoma X tiene una probabilidad del 50% de tener un feto afectado en cada embarazo, aunque cabe senalar que en casos como el de la incontinencia pigmentaria solo la descendencia femenina es generalmente viable. Ademas, aunque estas afecciones no modifican la fertilidad per se, los individuos con el smdrome de Rett o el smdrome de Aicardi rara vez se reproducen.

El metodo de la presente invencion tambien puede facilitar la identificacion de polimorfismos asociados con trastornos ligados al cromosoma X. Las afecciones recesivas ligadas al cromosoma X tambien se deben a mutaciones en genes del cromosoma X. Los varones se ven mas frecuentemente afectados que las mujeres, y la probabilidad de transmitir el trastorno difiere entre hombres y mujeres. Los hijos de un hombre con un trastorno recesivo ligado al cromosoma X no se veran afectados, y sus hijas portaran una copia del gen mutado. Una mujer que es portadora de un trastorno recesivo ligado al cromosoma X (XRXr) tiene una probabilidad del 50% de tener hijos que se vean afectados y una probabilidad del 50% de tener hijas que porten una copia del gen mutado y que, por lo tanto, sean portadoras. Las afecciones recesivas ligadas al cromosoma X incluyen, sin limitacion, las graves enfermedades hemofilia A, distrofia muscular de Duchenne y smdrome de Lesch-Nyhan, asf como afecciones comunes y menos graves tales como la calvicie de patron masculino y la ceguera para el rojo-verde. Las afecciones recesivas ligadas al cromosoma X pueden manifestarse a veces en las mujeres debido a una inactivacion sesgada del cromosoma X o una monosoirna X (smdrome de Turner).

Los trastornos ligados al cromosoma Y se deben a mutaciones en el cromosoma Y. Debido a que los varones heredan un cromosoma Y del padre, cada hijo de un padre afectado se vera afectado. Debido a que las mujeres heredan un cromosoma X de su padre, la descendencia femenina de padres afectados nunca se ve afectada. Puesto que el cromosoma Y es relativamente pequeno y contiene muy pocos genes, existen relativamente pocos trastornos ligados al cromosoma Y. Con frecuencia, los smtomas incluyen la infertilidad, que puede salvarse con ayuda de algunos tratamientos de fertilidad. Los ejemplos son la infertilidad masculina y la hipertricosis auricular.

Como se ha explicado, los metodos descritos para detectar fracciones genomicas en una muestra pueden utilizarse para facilitar la deteccion de una aneuploidfa a partir de muestras de material. En algunas formas de realizacion, la aneuploidfa es una monosomna o trisomfa cromosomica completa, o una monosomfa o trisomfa parcial. Las aneuploidfas parciales se deben a la perdida o ganancia de una parte de un cromosoma, y abarcan desequilibrios cromosomicos resultado de translocaciones desequilibradas, inversiones desequilibradas, deleciones

5

10

15

20

25

30

35

40

45

50

55

60

65

e inserciones. Con diferencia, la aneuploid^a conocida mas comun compatible con la vida es la trisoirna 21 es dedr, el smdrome de Down (DS), que se debe a la presencia de parte o la totalidad del cromosoma 21. En raras ocasiones, el DS puede deberse a un defecto hereditario o esporadico mediante el cual una copia adicional de parte o la totalidad del cromosoma 21 se une a otro cromosoma (por lo general el cromosoma 14) para formar un unico cromosoma aberrante. El DS se asocia con la deficiencia intelectual, dificultades de aprendizaje graves y el exceso de mortalidad debida a problemas de salud a largo plazo tales como las cardiopatias. Otras aneuploidfas con importancia clmica conocida incluyen el smdrome de Edward (trisomfa 18) y el smdrome de Patau (trisomfa 13), que resultan frecuentemente fatales en los primeros meses de vida. Tambien se conocen anomalfas asociadas con el numero de cromosomas sexuales e incluyen la monosomfa X, por ejemplo, el smdrome de Turner (XO), y el smdrome de triple X (XXX) en los nacimientos de mujeres y el smdrome de Kleinefelter (XXY) y el smdrome XYY en nacimientos de varones, todos los cuales estan asociados con diversos fenotipos, incluidos la esterilidad y la reduccion de las habilidades intelectuales. La monosomfa X [45,X] es una causa comun de aborto espontaneo precoz que representa aproximadamente el 7% de los abortos espontaneos. Basandose en la frecuencia en nacidos vivos de 45,X (tambien llamado smdrome de Turner) de 1-2/10.000, se estima que menos del 1% de conceptos 45,X llegara a termino. Aproximadamente el 30% de los pacientes con smdrome de Turner son mosaicos, con una estirpe celular 45,X y una estirpe celular 46,XX o una que contiene un cromosoma X reordenado (Hook y Warburton, 1983). El fenotipo en un recien nacido vivo es relativamente leve teniendo en cuenta la alta letalidad embrionaria, y se ha planteado la hipotesis de que, posiblemente, todas las mujeres nacidas vivas con smdrome de Turner portan una estirpe celular que contiene dos cromosomas sexuales. La monosomfa X puede darse en las mujeres como 45,X o como 45,X/46,XX, y en los varones como 45,X/46,XY. Generalmente se ha senalado que las monosomfas autosomicas en seres humanos son incompatibles con la vida; sin embargo, existe un numero considerable de informes citogeneticos que describen la monosomfa completa de un cromosoma 21 en bebes nacidos vivos (Vosranovalet et al., Molecular Cytogen. 1:13 [2008]; Joosten et al., Prenatal Diagn. 17:271-5. [1997]. El metodo de la invencion puede utilizarse para diagnosticar estas y otras anomalfas cromosomicas en penodo prenatal.

Segun algunas formas de realizacion, la fraccion fetal puede ser util para determinar la presencia o ausencia de trisornfas cromosomicas de cualquiera de los cromosomas 1-22, X e Y. Los ejemplos de trisomfas cromosomicas que pueden detectarse segun el metodo de la presente invencion incluyen, sin limitacion, la trisomfa 21 (T21; smdrome de Down), la trisomfa 18 (T18, smdrome de Edward), la trisomfa 16 (T16), la trisomfa 20 (T20), la trisomfa 22 (T22, smdrome del ojo de gato), la trisomfa 15 (T15; smdrome de Prader-Willi), la trisomfa 13 (T13, smdrome de Patau), la trisomfa 8 (T8; smdrome de Warkany), la trisomfa 9, y las trisomfas XXY (smdrome de Kleinefelter), XYY o XXX. Las trisomfas completas de los otros autosomas existentes en un estado no mosaico son letales, pero pueden ser compatibles con la vida cuando estan presentes en un estado de mosaico. Se entendera que diversas trisomfas completas, existan en un estado de mosaico o no mosaico, y las trisomfas parciales pueden determinarse en el cfADN fetal segun las ensenanzas de la presente invencion.

Los ejemplos no limitativos de trisomfas parciales que pueden determinarse mediante el metodo de la presente invencion incluyen, pero no se limitan a, trisomfa parcial 1q32-44, trisomfa 9p, mosaicismo de trisomfa 4, irisomfa 17p, trisomfa parcial 4q26-qter, trisomfa parcial 2p, trisomfa parcial 1q, y/o trisomfa parcial 6p/monosomfa 6q.

Los metodos descritos en el presente documento tambien pueden utilizarse para ayudar a determinar una monosomfa del cromosoma X, una monosomfa del cromosoma 21, y monosomfas parciales tales como, la monosomfa 13, monosomfa 15, monosomfa 16, monosomfa 21 y monosomfa 22, que se sabe estan involucradas en el aborto espontaneo. La monosomfa parcial de cromosomas implicados por lo general en la aneuploidfa completa tambien puede determinarse mediante el metodo de la invencion. Los ejemplos no limitativos de smdromes de delecion que pueden determinarse segun el metodo de la presente invencion incluyen smdromes debidos a deleciones parciales de cromosomas. Los ejemplos de deleciones parciales que pueden determinarse segun el metodo de la invencion incluyen, sin limitacion, deleciones parciales de los cromosomas 1, 4, 5, 7, 11, 18, 15, 13, 17, 22 y 10, que se describen a continuacion.

El smdrome de delecion 1q21.1 o microdelecion 1q21.1 (recurrente) es una aberracion poco frecuente del cromosoma 1. Junto al smdrome de delecion, tambien hay un smdrome de duplicacion 1q21.1. Aunque hay una parte del ADN que falta con el smdrome de delecion en un sitio concreto, hay dos o tres copias de una parte similar del ADN en el mismo sitio con el smdrome de la duplicacion. La literatura se refiere a la delecion y a la duplicacion como las variaciones en el numero de copias (CNV) 1q21.1. La delecion 1q21.1 puede estar asociada con el smdrome de TAR (trombocitopenia con aplasia de radio).

El smdrome de Wolf-Hirschhorn (WHS) (OMIN #194190) es un smdrome de delecion de genes contiguos asociado con una delecion hemicigota del cromosoma 4p16.3. El smdrome de Wolf-Hirschhorn es un smdrome de malformacion congenita caracterizado por la deficiencia del crecimiento pre y postnatal, discapacidad del desarrollo de grado variable, rasgos craneofaciales caractensticos (aspecto de la nariz de “casco de guerrero griego”, frente alta, glabela prominente, hipertelorismo, cejas muy arqueadas, ojos saltones, pliegues epicanticos, surco nasolabial corto, boca definida con comisuras hacia abajo, y micrognatia), y un trastorno convulsivo.

5

10

15

20

25

30

35

40

45

50

55

60

65

La delecion parcial del cromosoma 5, tambien conocida como 5p- o 5p menos, y denominado smdrome del maullido del gato (OMIN#123450), se debe a una delecion del brazo corto (brazo p) del cromosoma 5 (Sp15.3- p15.2). Los bebes con esta afeccion tienen con frecuencia un llanto agudo que suena como el de un gato. El trastorno se caracteriza por la discapacidad intelectual y el retraso del desarrollo, cabeza pequena (microcefalia), bajo peso al nacer y tono muscular debil (hipotoma) en la infancia, rasgos faciales caractensticos y, posiblemente, defectos cardfacos.

El smdrome de Williams-Beuren, tambien conocido como smdrome de delecion del cromosoma 7q11.23 (OMIN 194050), es un smdrome de delecion de genes contiguos que da como resultado un trastorno multisistemico debido a la delecion hemicigota de 1,5 Mb a 1,8 Mb en el cromosoma 7q11.23, que contiene aproximadamente 28 genes.

El smdrome de Jacobsen, tambien conocido como trastorno de delecion 11q, es un trastorno congenito poco frecuente resultado de la delecion de una region terminal del cromosoma 11 que incluye la banda 11q24.1. Puede producir discapacidades intelectuales, un aspecto facial caractenstico, y diversos problemas ffsicos, incluidos los defectos cardfacos y un trastorno de la coagulacion.

La monosomfa parcial del cromosoma 18, conocida como monosomfa 18p, es un trastorno cromosomico poco frecuente en el que parte o la totalidad del brazo corto (p) del cromosoma 18 esta delecionado (monosomico). El trastorno se caracteriza por lo general por una baja estatura, grados variables de retraso mental, retraso en el habla, malformaciones del craneo y la region facial (craneofacial), y/u otras anomaffas ffsicas adicionales. Los defectos craneofaciales asociados pueden variar mucho en alcance y gravedad de un caso a otro.

Las afecciones debidas a cambios en la estructura o el numero de copias del cromosoma 15 incluyen el smdrome de Angelman y el smdrome de Prader-Willi, que implican una perdida de actividad genica en la misma parte del cromosoma 15, la region 15q11-q13. Se entendera que varias translocaciones y microdeleciones pueden ser asintomaticas en el progenitor portador, y que sin embargo, pueden generar una enfermedad genetica importante en la descendencia. Por ejemplo, una madre sana portadora de la microdelecion 15q11-q13 puede dar a luz a un bebe con smdrome de Angelman, un trastorno neurodegenerativo grave. Por lo tanto, la presente invencion puede utilizarse para identificar una delecion parcial de este tipo y otras deleciones en el feto.

La monosomffa parcial 13q es un trastorno cromosomico poco frecuente que se produce cuando falta una parte del brazo largo (q) del cromosoma 13 (monosomico). Los bebes que nacen con monosomffa parcial 13q pueden presentar bajo peso al nacer, malformaciones de la cabeza y la cara (region craneofacial), anomaffas esqueleticas (especialmente de las manos y los pies), y otras anomaffas ffsicas. El retraso mental es caractenstico de esta afeccion. La tasa de mortalidad durante la infancia es alta entre los individuos que nacen con este trastorno. Casi todos los casos de monosoirffa parcial 13q se producen al azar, sin razon aparente (esporadicos).

El smdrome de Smith-Magenis (SMS - OMIM#182290) se debe a una delecion, o perdida de material genetico, en una copia del cromosoma 17. Este smdrome bien conocido se asocia con retraso del desarrollo, retraso mental, anomaffas congenitas tales como defectos cardfacos y renales, y anomaffas neuroconductuales tales como trastornos del sueno graves y conducta autolesiva. El smdrome de Smith-Magenis (SMS) se debe, en la mayona de los casos (90%), a una delecion intersticial de 3,7 Mb en el cromosoma 17p11.2.

El smdrome de delecion 22q11.2, tambien conocido como smdrome de DiGeorge, es un smdrome debido a la delecion de una pequena parte del cromosoma 22. La delecion (22q11.2) se produce cerca de la mitad del cromosoma en el brazo largo de uno del par de cromosomas. Las caractensticas de este smdrome vanan mucho, incluso entre miembros de una misma familia, y afectan a muchas partes del cuerpo. Los signos y smtomas caractensticos pueden incluir defectos de nacimiento tales como una cardiopaffa congenita, defectos en el paladar, mas comunmente relacionados con problemas neuromusculares con la oclusion (insuficiencia velofanngea), problemas de aprendizaje, leves diferencias en los rasgos faciales, e infecciones recurrentes. Las microdeleciones en la region cromosomica 22q11.2 estan asociadas con un riesgo de esquizofrenia 20 a 30 veces mayor.

Las deleciones en el brazo corto del cromosoma 10 estan asociadas con un fenotipo similar al smdrome de DiGeorge. La monosomffa parcial del cromosoma 10p es poco frecuente, pero se ha observado en una parte de los pacientes que muestran caractensticas del smdrome de DiGeorge.

En una forma de realizacion, se utiliza el metodo de la invencion para determinar las monosomffas parciales, incluidas pero no limitadas a la monosomffa parcial de los cromosomas 1, 4, 5, 7, 11, 18, 15, 13, 17, 22 y 10, por ejemplo, la monosomffa parcial 1q21.11, la monosomffa parcial 4p16.3, la monosomffa parcial 5p15,3-p15.2, la monosomffa parcial 7q11.23, la monosomffa parcial 11q24.1, la monosomffa parcial 18p, la monosomffa parcial del cromosoma 15 (15q11-q13), la monosomffa parcial 13q, la monosomffa parcial 17p 11.2, la monosomffa parcial del cromosoma 22 (22q11.2), y la monosomffa parcial 10p tambien pueden determinarse mediante el metodo.

Otras monosomffas parciales que pueden determinarse segun el metodo de la invencion incluyen la

5

10

15

20

25

30

35

40

45

50

55

60

65

translocacion desequilibrada t(8;11)(p23.2;p15.5); la microdelecion 11q23; la delecion 17p11.2; la delecion 22q13.3; la microdelecion Xp22.3; la delecion 10p14; la microdelecion 20p, las deleciones [del(22)(q11.2q11.23)], 7q11.23 y 7q36; la delecion 1p36; la microdelecion 2p; la neurofibromatosis de tipo 1 (microdelecion 17q11.2), la delecion Yq; la microdelecion 4p16.3; la microdelecion 1p36.2; la delecion 11q14; la microdelecion 19q13.2; Rubinstein-Taybi (microdelecion 16p13.3); la microdelecion 7p21; el smdrome de Miller-Dicker (17p 13.3); y la microdelecion 2q37. Las deleciones parciales pueden ser pequenas deleciones de parte de un cromosoma, o pueden ser microdeleciones de un cromosoma en el que puede producirse la delecion de un solo gen.

Se han identificado varios smdromes de duplicacion debidos a la duplicacion de parte de los brazos del cromosoma (vease OMIN [Online Mendelian Inheritance in Man visto en lmea en ncbi.nlm.nih.gov/omim]). En una forma de realizacion, puede utilizarse el metodo de la presente invencion para determinar la presencia o ausencia de duplicaciones y/o multiplicaciones de segmentos de cualquiera de los cromosomas 1-22, X e Y. Los ejemplos no limitativos de smdromes de duplicaciones que pueden determinarse segun el metodo de la presente invencion incluyen duplicaciones de parte de los cromosomas 8, 15, 12 y 17, que se describen a continuacion.

El smdrome de duplicacion 8p23.1 es un trastorno genetico poco frecuente debido a una duplicacion de una region del cromosoma humano 8. Este smdrome de duplicacion tiene una prevalencia estimada de 1 de cada 64.000 nacimientos y es el redproco del smdrome de delecion 8p23.1. La duplicacion 8p23.1 esta asociada con un fenotipo variable que incluye uno o mas de entre retraso en el habla, retraso del desarrollo, dismorfismo leve, con frente prominente y cejas arqueadas, y la cardiopatfa congenita (CHD).

El smdrome de duplicacion del cromosoma 15q (Dup15q) es un smdrome clmicamente identificable resultado de duplicaciones del cromosoma 15q11-13.1. Los bebes con Dup15q suelen tener hipotoma (escaso tono muscular), retraso del crecimiento; pueden nacer con labio leporino y/o paladar hendido o malformaciones del corazon, los rinones u otros organos; muestran cierto grado de retraso/discapacidad cognitiva (retraso mental), retraso en el habla y el lenguaje, y trastornos de procesamiento sensorial.

El smdrome de Pallister-Killian es el resultado de material cromosomico adicional del cromosoma 12. Suele haber una mezcla de celulas (mosaicismo), algunas con material adicional del cromosoma 12, y algunas que son normales (46 cromosomas sin el material adicional del cromosoma 12). Los bebes con este smdrome tienen muchos problemas, incluidos retraso mental grave, escaso tono muscular, rasgos faciales “toscos”, y una frente prominente. Tienden a tener un labio superior muy fino con un labio inferior mas grueso y una nariz corta. Otros problemas de salud incluyen convulsiones, falta de apetito, rigidez en las articulaciones, cataratas en la edad adulta, perdida de audicion, y defectos cardfacos. Las personas con smdrome de Pallister-Killian tienen un menor tiempo de vida.

Los individuos con la afeccion genetica denominada dup(17)(p11.211.2) o dup 17p portan informacion genetica adicional (conocida como duplicacion) en el brazo corto del cromosoma 17. La duplicacion del cromosoma 17p11.2 subyace al smdrome de Potocki-Lupski (PTLS), que es una afeccion genetica recientemente reconocida con solo unas pocas docenas de casos descritos en la literatura medica. Los pacientes que tienen esta duplicacion tienen con frecuencia bajo tono muscular, falta de apetito, y retraso estaturo-ponderal durante la infancia, y tambien presentan retraso del desarrollo de los hitos motores y del lenguaje. Muchos individuos con PTLS tienen dificultades con la articulacion y el procesamiento del lenguaje. Ademas, los pacientes pueden tener caractensticas de comportamiento similares a las observadas en personas con autismo o trastornos del espectro autista. Los individuos con PTLS pueden tener defectos cardfacos y apnea del sueno. Se sabe que una duplicacion de una gran region en el cromosoma 17p12 que incluye el gen PMP22 provoca la enfermedad de Charcot-Marie-Tooth.

Las CNV se han asociado con la mortinatalidad. Sin embargo, debido a las limitaciones inherentes de la citogenetica convencional, se cree que la contribucion de las CNV a la mortinatalidad esta poco representada (Harris et al., Prenatal Diagn. 31:932-944 [2011]). Los metodos de la presente invencion son utiles para ayudar a determinar la presencia de aneuploidfas parciales, por ejemplo, deleciones y multiplicaciones de segmentos cromosomicos, y pueden utilizarse para ayudar a identificar y determinar la presencia o ausencia de CNV que estan asociadas con la mortinatalidad.

El metodo de la presente invencion tambien puede ayudar a identificar polimorfismos asociados con trastornos geneticos que son complejos, multifactoriales o poligenicos, lo que significa que es probable que esten asociados con los efectos de multiples genes en combinacion con el estilo de vida y los factores ambientales. Los trastornos multifactoriales incluyen, por ejemplo, la cardiopatfa y la diabetes. Aunque los trastornos complejos se agrupan con frecuencia en familias, no tienen un patron de herencia bien definido. En una genealogfa, las enfermedades poligenicas tienden a "ser hereditarias", pero la herencia no es tan simple como en las enfermedades mendelianas. Hay fuertes componentes ambientales asociados con muchos trastornos complejos, por ejemplo, la presion arterial. El metodo de la presente invencion puede utilizarse para identificar polimorfismos que estan asociados con trastornos poligenicos, incluidos pero no limitados al asma, enfermedades autoinmunitarias tales como la esclerosis multiple, los canceres, las ciliopatfas, el paladar hendido, la diabetes, la cardiopatfa, la hipertension, la enfermedad inflamatoria intestinal, el retraso mental, los trastornos del estado de animo, la obesidad, el error de refraccion, y la infertilidad. En algunas formas de realizacion, los polimorfismos son SNPs. En otras

5

10

15

20

25

30

35

40

45

50

55

60

65

formas de realizacion, los polimorfismos son STRs. En otras formas de realizacion mas, los polimorfismos son una combinacion de SNPs y STRs.

En una forma de realizacion, la identificacion de las secuencias polimorficas asociadas con los trastornos comprende la secuenciacion de al menos una porcion del genoma celular que corresponde al segundo genoma en la mezcla de cfADN. La identificacion de las secuencias polimorficas aportadas por un primer genoma se realiza determinando la secuencia en multiples sitios polimorficos en una primera muestra que contiene moleculas de ADN derivadas basicamente de solo un segundo genoma, determinando la secuencia en los correspondientes sitios polimorficos multiples en una segunda muestra que contiene una mezcla de moleculas de ADN derivadas de un primer y un segundo genoma, y comparando las secuencias polimorficas determinadas en ambas muestras, identificando asf polimorfismos multiples en un primer genoma de una muestra que comprende una mezcla de dos genomas. Por ejemplo, la identificacion de secuencias polimorficas aportadas por un genoma fetal, es decir, un primer genoma, se realiza determinando la secuencia en multiples sitios polimorficos en una muestra de la capa leucocitaria materna, es decir, una muestra que contiene moleculas de ADN derivadas basicamente de solo un segundo genoma, determinando la secuencia en los correspondientes sitios polimorficos multiples en una muestra de plasma purificada, es decir, una segunda muestra que contiene una mezcla de moleculas de cfADN derivadas de los genomas materno y fetal, y comparando las secuencias polimorficas determinadas en ambas muestras para identificar polimorfismos fetales multiples. En una forma de realizacion, el primer genoma es un genoma fetal, y un segundo genoma es un genoma materno. En otra forma de realizacion, el primer genoma es un genoma de una celula no afectada y el segundo genoma es un genoma de una celula afectada. En algunas formas de realizacion, las celulas afectadas y no afectadas proceden del mismo sujeto. Por ejemplo, la celula afectada puede ser una celula cuyo genoma ha sido modificado por un trastorno.

En una forma de realizacion, los metodos de estimacion de la fraccion genomica descritos ayudan a detectar un cancer en un paciente. En diversos ejemplos, un cancer se detecta mediante un metodo que comprende: proporcionar una muestra de un paciente que comprende una mezcla de genomas derivados de celulas normales, es decir, no afectadas, y de celulas cancerosas, es decir, afectadas; e identificar los polimorfismos multiples asociados con el cancer. En algunas formas de realizacion, la muestra se selecciona a partir de sangre, plasma, suero y orina. En algunas formas de realizacion, la muestra es una muestra de plasma. En otras formas de realizacion, la muestra es una muestra de orina.

En una forma de realizacion, la identificacion de polimorfismos multiples asociados con el cancer comprende enriquecer el ADN de la muestra en secuencias diana polimorficas. En otras formas de realizacion, no se realiza el enriquecimiento de la muestra en secuencias diana polimorficas. En algunas formas de realizacion, la identificacion de polimorfismos multiples asociados con el cancer comprende cuantificar el numero de copias de la secuencia polimorfica.

Los canceres que pueden identificarse y/o vigilarse segun el metodo de la descripcion incluyen tumores solidos, asf como tumores hematologicos y/o tumores malignos. Los diversos tipos de cancer a tratar incluyen sarcomas, carcinomas y adenocarcinomas no limitados al cancer de mama, cancer de pulmon, cancer colorrectal, cancer de pancreas, cancer de ovario, cancer de prostata, carcinoma renal, hepatoma, cancer cerebral, melanoma, mieloma multiple, linfoma, linfoma de Hodgkin, linfoma no Hodgkin, linfomas infantiles, y linfomas de linfocitos y de origen cutaneo, leucemia, leucemia infantil, leucemia de celulas pilosas, leucemia linfodtica aguda, leucemia mieloide aguda, leucemia linfodtica cronica, leucemia mieloide cronica, leucemia mielogena cronica, y leucemia de mastocitos, neoplasias mieloides, neoplasias de mastocitos, tumor hematologico y tumor linfoide, incluidas las lesiones metastasicas en otros tejidos u organos distantes del sitio del tumor primario.

Los metodos de la presente invencion son utiles, por ejemplo, para diagnosticar o determinar un pronostico de un estado patologico que se sabe esta asociado con un(os) haplotipo(s) espedfico(s), para determinar nuevos haplotipos, y para detectar asociaciones de haplotipos con capacidad de respuesta a productos farmaceuticos. La asociacion de multiples secuencias polimorficas con multiples trastornos puede determinarse a partir de la identidad de una sola secuencia polimorfica para cada uno de los multiples trastornos. Como alternativa, la asociacion de multiples secuencias polimorficas con multiples trastornos puede determinarse a partir de la identidad de multiples secuencias polimorficas para cada uno de los multiples trastornos.

Las tecnicas convencionales de genotipado se han limitado a la identificacion de polimorfismos en regiones genomicas cortas de unas pocas kilobases, y la identificacion de haplotipos se ha basado en los datos familiares y la estimacion estadfstica utilizando algoritmos computacionales. La secuenciacion del genoma completo posibilita la identificacion de haplotipos identificando directamente los polimorfismos en un genoma. La identificacion de los haplotipos segun las diversas formas de realizacion no esta limitada por la distancia que media entre los polimorfismos. En algunas formas de realizacion, un metodo comprende la secuenciacion del genoma completo del ADN celular materno. El ADN celular materno puede obtenerse de una muestra biologica desprovista de ADN genomico fetal. Por ejemplo, el ADN materno puede obtenerse de la capa leucocitaria de la sangre materna. Pueden determinarse los haplotipos que comprenden una pluralidad de secuencias polimorficas que abarcan la totalidad de los cromosomas. En una forma de realizacion, los haplotipos fetales se comparan con los haplotipos asociados a

5

10

15

20

25

30

35

40

45

50

55

60

65

trastornos conocidos, y sobre la base de una coincidencia del haplotipo fetal con cualquiera de los haplotipos asociados a trastornos conocidos, indica que el feto tiene el trastorno o que el feto presenta predisposicion al trastorno. Los haplotipos fetales tambien pueden compararse con los haplotipos asociados con una capacidad de respuesta o falta de respuesta al tratamiento del polimorfismo espedfico. La comparacion de los haplotipos fetales identificados con bases de datos de haplotipos conocidos permite el diagnostico y/o pronostico de un trastorno. Puede utilizarse cualquier muestra biologica que comprenda una mezcla de cfADN fetal y materno para determinar la presencia o ausencia del trastorno fetal. Preferentemente, la muestra biologica se selecciona de entre sangre, o fracciones de la misma, incluido el plasma, u orina. En una forma de realizacion, la muestra biologica es una muestra de sangre. En otra forma de realizacion, la muestra biologica es una muestra de plasma. En otra forma de realizacion mas, la muestra biologica es una muestra de orina.

En una forma de realizacion, la invencion proporciona un metodo para determinar la presencia o ausencia de trastornos fetales multiples, que comprende (a) obtener una muestra de sangre materna que comprende una mezcla de ADN fetal y materno libre, (b) secuenciar el genoma completo de al menos una porcion de la mezcla de ADN fetal y materno libre, obteniendo asf una pluralidad de marcadores de secuencia; (c) determinar los polimorfismos fetales multiples en los marcadores de secuencia, y (d) determinar la presencia o ausencia de trastornos fetales multiples. Los ejemplos de trastornos fetales multiples que pueden identificarse segun el metodo de la presente invencion incluyen los trastornos monogenicos y poligenicos descritos en el presente documento.

En una forma de realizacion, la invencion proporciona un metodo para determinar la presencia o ausencia de trastornos fetales multiples que comprende identificar los polimorfismos fetales multiples asociados con los haplotipos relacionados con trastornos multiples. En algunas formas de realizacion, cada uno de los haplotipos comprende al menos dos, al menos tres, al menos cuatro, al menos cinco, al menos diez o al menos quince polimorfismos marcadores diferentes. Los polimorfismos marcadores presentes en el haplotipo pueden ser del mismo tipo de polimorfismo, por ejemplo, todos ellos polimorfismos SNP marcadores, o pueden ser una combinacion de polimorfismos, por ejemplo, SNPs marcadores y deleciones marcadoras. En una forma de realizacion, los polimorfismos son SNPs marcadores. En otra forma de realizacion, los polimorfismos son STRs marcadoras. En otra forma de realizacion mas, los polimorfismos son una combinacion de SNPs marcadores y STRs marcadoras. Los polimorfismos marcadores pueden estar en las regiones codificantes y/o no codificantes del genoma. La identificacion de los polimorfismos se realiza mediante secuenciacion del genoma completo utilizando tecnologfas de NGS como se describe en el presente documento.

La invencion proporciona un metodo para identificar las variaciones en el numero de copias (CNV) como polimorfismos de una secuencia de interes en una muestra de ensayo que comprende una mezcla de acidos nucleicos derivados de dos genomas diferentes, y que se sabe o se sospecha difieren en la cantidad de una o mas secuencias de interes. Las variaciones en el numero de copias determinadas mediante el metodo de la invencion incluyen ganancias o perdidas de cromosomas enteros, modificaciones que implican segmentos cromosomicos muy grandes que son visibles al microscopio, y una gran cantidad de variacion submicroscopica en el numero de copias de segmentos de ADN con un tamano que va de las kilobases (kb) a las megabases (Mb).

La CNV en el genoma humano influye significativamente en la diversidad humana y la predisposicion a la enfermedad (Redon et al., Nature. 23:444-454 [2006], Shaikh et al., Genome Res. 19:1682-1690 [2009]). Se sabe que las CNVs contribuyen a la enfermedad genetica a traves de diferentes mecanismos, lo que da como resultado el desequilibrio de la dosis genica o la interrupcion genica en la mayona de los casos. Ademas de su correlacion directa con los trastornos geneticos, se sabe que las CNVs intervienen en cambios fenotfpicos que pueden ser perjudiciales. Recientemente, varios estudios han informado acerca de un aumento de la carga de CNVs de novo o poco frecuentes en trastornos complejos tales como el autismo, el TDAH, y la esquizofrenia en comparacion con los controles normales, destacando la posible patogenicidad de CNVs unicas o poco frecuentes (Sebat et al., 316:445449 [2007]; Walsh et al., Science 320:539-543 [2008]). Las CNV surgen de reordenamientos genomicos, debidos principalmente a eventos de delecion, duplicacion, insercion y translocacion desequilibrada.

Las formas de realizacion de la invencion proporcionan un metodo para evaluar la variacion en el numero de copias de una secuencia de interes, por ejemplo, una secuencia clmicamente pertinente, en una muestra de ensayo que comprende una mezcla de acidos nucleicos derivados de dos genomas diferentes, y que se sabe o se sospecha difieren en la cantidad de una o mas secuencias de interes. La mezcla de acidos nucleicos se deriva de dos o mas tipos de celulas. En una forma de realizacion, la mezcla de acidos nucleicos se deriva de celulas normales y cancerosas procedentes de un sujeto que padece una enfermedad, por ejemplo, un cancer.

Se cree que muchos tumores solidos, tal como el cancer de mama, evolucionan desde el inicio hasta la metastasis mediante la acumulacion de varias aberraciones geneticas. [Sato et al., Cancer Res., 50:7184-7189 [1990]; Jongsma et al., J Clin. Pathol.: Mol. Path. 55:305-309 [2002])]. Tales aberraciones geneticas, a medida que se acumulan, pueden conferir ventajas proliferativas, inestabilidad genetica y la consiguiente capacidad de desarrollar rapidamente farmacorresistencia, y potenciacion de la angiogenesis, proteolisis y metastasis. Las aberraciones geneticas pueden afectar tanto a "genes supresores de tumores" recesivos como a oncogenes que actuan de manera dominante. Se cree que las deleciones y la recombinacion que conducen a la perdida de

5

10

15

20

25

30

35

40

45

50

55

60

65

heterocigosidad (LOH) desempenan un papel importante en la progresion tumoral al dejar al descubierto alelos supresores de tumores mutados.

Se ha encontrado cfADN en la circulacion de pacientes con diagnostico de tumores malignos, incluidos pero no limitados al cancer de pulmon (Pathak et al., Clin. Chem. 52:1833-1842 [2006]), el cancer de prostata (Schwartzenbach et al., Clin. Cancer Res. 15:1032-8 [2009]), y el cancer de mama (Schwartzenbach et al., disponible en lmea en breast-cancer-research.com/content/11/5/R71 [2009]). La identificacion de inestabilidades genomicas asociadas con canceres que pueden determinarse en el cfADN circulante en pacientes con cancer es una posible herramienta de diagnostico y de pronostico. En una forma de realizacion, el metodo de la invencion evalua la CNV de una secuencia de interes en una muestra que comprende una mezcla de acidos nucleicos procedente de un sujeto que se sospecha o se sabe tiene cancer, por ejemplo, un carcinoma, sarcoma, linfoma, leucemia, tumores de celulas germinales y un blastoma. En una forma de realizacion, la muestra es una muestra de plasma derivada (procesada) de la sangre periferica y que comprende una mezcla de cfADN derivado de celulas normales y cancerosas. En otra forma de realizacion, la muestra biologica que se necesita para determinar si una CNV esta presente se deriva de una mezcla de celulas cancerosas y no cancerosas de otros fluidos biologicos, incluidos pero no limitados a suero, sudor, lagrimas, esputo, orina, secrecion del ofdo, linfa, saliva, lfquido cefalorraqmdeo, lavados, suspension de medula osea, flujo vaginal, lavado transcervical, lfquido cerebral, lfquido ascftico, leche, secreciones de los tractos respiratorio, intestinal y genitourinario, y muestras de leucoforesis, o en biopsias de tejido, hisopos o frotis.

La secuencia de interes es una secuencia de acido nucleico que se sabe o se sospecha es importante para el desarrollo y/o la evolucion del cancer. Los ejemplos de una secuencia de interes incluyen secuencias de acidos nucleicos que estan amplificadas o delecionadas en las celulas cancerosas como se describe a continuacion.

Los genes que actuan de manera dominante asociados con tumores solidos humanos ejercen por lo general su efecto mediante la sobreexpresion o la expresion modificada. La amplificacion genica es un mecanismo comun que conduce a la regulacion positiva de la expresion genica. Hay estudios citogeneticos que indican que se produce una amplificacion significativa en mas del 50% de los canceres de mama humanos. Muy en particular, la amplificacion del protooncogen receptor del factor de crecimiento epidermico 2 (HER2) humano que se encuentra en el cromosoma 17 (17(17q21-q22)), da como resultado la sobreexpresion de los receptores HER2 en la superficie celular que conduce a una senalizacion excesiva y mal regulada en el cancer de mama y otros tumores malignos (Park et al., Clinical Breast Cancer 8:392-401 [2008]). Se ha descubierto que diversos oncogenes estan amplificados en otros tumores malignos humanos. Los ejemplos de la amplificacion de oncogenes celulares en tumores humanos incluyen amplificaciones de: c-myc en la estirpe celular de leucemia promielocftica HL60, y estirpes celulares de carcinoma pulmonar de celulas pequenas, N-myc en neuroblastomas primarios (fases III y IV), estirpes celulares de neuroblastoma, tumores primarios y estirpe celular de retinoblastoma, y tumores y estirpes celulares de carcinoma pulmonar de celulas pequenas, L-myc en tumores y estirpes celulares de carcinoma pulmonar de celulas pequenas, c-myb en la leucemia mieloide aguda y en estirpes celulares de carcinoma de colon, c-erbb en estirpes celulares de carcinoma epidermoide, y gliomas primarios, c-K-ras-2 en carcinomas primarios de pulmon, colon, vejiga y recto, N- ras en la estirpe celular de carcinoma de mama (Varmus H., Ann. Rev. Genetics 18:553-612 (1984) [citado en Watson et al., Molecular Biology of the Gene (4a ed.; Benjamin/Cummings Publishing Co. 1987)].

Las deleciones cromosomicas que implican genes supresores de tumores pueden desempenar un papel importante en el desarrollo y la progresion de los tumores solidos. El gen supresor del tumor retinoblastoma (Rb-1), que se encuentra en el cromosoma 13q14, es el gen supresor de tumores mas ampliamente caracterizado. El producto del gen Rb-1, una fosfoprotema nuclear de 105 kDa, desempena al parecer un papel importante en la regulacion del ciclo celular (Howe et al., Proc. Natl. Acad. Sci. (EE.UU.) 87:5883-5887 [1990]). La expresion modificada o perdida de la protema Rb se debe a la inactivacion de ambos alelos del gen, ya sea por una mutacion puntual o una delecion cromosomica. Se ha descubierto que hay modificaciones del gen Rb-1 no solo en los retinoblastomas, sino tambien en otros tumores malignos tales como los osteosarcomas, el cancer de pulmon de celulas pequenas (Rygaard et al., Cancer Res. 50: 5312-5317 [1990)]) y el cancer de mama. Los estudios de polimorfismo en la longitud de los fragmentos de restriccion (RFLp) han indicado que tales tipos de tumores han perdido con frecuencia heterocigosidad en 13q, lo que sugiere que uno de los alelos del gen Rb-1 se ha perdido debido a una gran delecion cromosomica (Bowcock et al., Am. J. Hum. Genet., 46: 12 [1990]). Las anomalfas en el cromosoma 1, incluidas las duplicaciones, deleciones y translocaciones desequilibradas que implican al cromosoma 6 y otros cromosomas companeros (“partner”) indican que las regiones del cromosoma 1, en particular 1q21-1q32 y 1p11-13, podnan albergar oncogenes o genes supresores de tumores que son patogeneticamente pertinentes para las fases cronica y avanzada de las neoplasias mieloproliferativas (Caramazza et al., Eur. J. Hemato. 184:191-200 [2010]). Las neoplasias mieloproliferativas tambien estan asociadas con deleciones del cromosoma 5. La perdida completa o las deleciones intersticiales del cromosoma 5 son la anomalfa del cariotipo mas comun en los smdromes mielodisplasicos (MDSs). Los pacientes con MDS con del(5q) aislada/5q- tienen un pronostico mas favorable que aquellos con defectos del cariotipo adicionales, que tienden a desarrollar neoplasias mieloproliferativas (MPNs) y leucemia mieloide aguda. La frecuencia de deleciones del cromosoma 5 desequilibradas ha llevado a la idea de que 5q alberga uno o mas genes supresores de tumores que tienen funciones fundamentales en el control del crecimiento de las celulas madre/progenitoras hematopoyeticas (HSCs/HPC). El mapeo citogenetico de las regiones

5

10

15

20

25

30

35

40

45

50

55

60

65

comunmente delecionadas (CDRs) centrado en 5q31 y 5q32 identifico genes supresores de tumores candidates, incluida la subunidad ribosomica RPS14, el factor de transcripcion Egr1/Krox20 y la protema remodeladora del citoesqueleto, alfa-catenina (Eisenmann et al., Oncogene 28:3429-3441 [2009]). Los estudios citogeneticos y de alelotipado de tumores frescos y estirpes celulares de tumor han demostrado que la perdida alelica de varias regiones distintas en el cromosoma 3p, incluidas 3p25, 3p21-22, 3p21.3, 3p12-13 y 3p14, son las anomalfas genomicas mas precoces y frecuentes implicadas en un amplio espectro de los principales canceres epiteliales de pulmon, mama, rinon, cabeza y cuello, ovario, cuello del utero, colon, pancreas, esofago, vejiga y otros organos. Se han mapeado varios genes supresores de tumores en la region del cromosoma 3p, y se cree que las deleciones intersticiales o la hipermetilacion del promotor preceden a la perdida del 3p o de todo el cromosoma 3 en el desarrollo de carcinomas (Angeloni D., Briefings Functional Genomics 6:19-39 [2007]).

Los recien nacidos y los/las ninos/as con smdrome de Down (DS) presentan con frecuencia leucemia transitoria congenita y tienen un mayor riesgo de leucemia mieloide aguda y leucemia linfoblastica aguda. El cromosoma 21, que alberga aproximadamente 300 genes, puede estar implicado en numerosas aberraciones estructurales, por ejemplo, translocaciones, deleciones y amplificaciones, en leucemias, linfomas y tumores solidos. Ademas, se han identificado genes que se encuentran en el cromosoma 21 que desempenan un papel importante en la tumorigenesis. Las aberraciones del cromosoma 21 numericas somaticas, asf como las estructurales, estan asociadas con las leucemias, y son importantes en la tumorigenesis genes espedficos, incluidos RUNX1, TMPRSS2 y TFF, que se encuentran en 21q (Fonatsch C Gene Chromosomes Cancer 49:497-508 [2010]).

En una forma de realizacion, la descripcion proporciona un medio para evaluar la asociacion entre la amplificacion del gen y el grado de evolucion del tumor. La correlacion entre la amplificacion y/o delecion y la fase o grado de un cancer puede ser importante para el pronostico ya que tal informacion puede contribuir a definir el grado de diferenciacion de un tumor basado en la genetica que podna predecir mejor el futuro curso de la enfermedad, teniendo los tumores mas avanzados el peor pronostico. Ademas, la informacion sobre eventos de amplificacion y/o delecion tempranos puede ser util a la hora de asociar estos eventos como factores predictivos de la progresion de la enfermedad subsiguiente. Las deleciones y la amplificacion de genes identificadas mediante el metodo pueden asociarse con otros parametros conocidos tales como el grado de diferenciacion del tumor, la histologfa, el mdice de marcado con Brd/Urd, el estado hormonal, la afectacion ganglionar, el tamano del tumor, la duracion de la supervivencia y otras propiedades tumorales disponibles a partir de estudios epidemiologicos y bioestadfsticos. Por ejemplo, el ADN tumoral a ensayar mediante el metodo podna incluir la hiperplasia atfpica, el carcinoma ductal in situ, el cancer en fase I-III y ganglios linfaticos metastasicos con el fin de permitir la identificacion de asociaciones entre las amplificaciones y deleciones y la fase. Las asociaciones realizadas pueden hacer posible una intervencion terapeutica eficaz. Por ejemplo, las regiones sistematicamente amplificadas pueden contener un gen sobreexpresado, cuyo producto puede combatirse terapeuticamente (por ejemplo, tirosina quinasa del receptor del factor de crecimiento, p185HER2).

El metodo puede utilizarse para identificar eventos de amplificacion y/o delecion que estan asociados con la farmacorresistencia, determinando la variacion en el numero de copias de los acidos nucleicos a partir de canceres primarios frente a la de las celulas que han metastatizado a otros sitios. Si la amplificacion y/o delecion de genes es una manifestacion de la inestabilidad cariotfpica que permite un rapido desarrollo de la farmacorresistencia, se esperana una mayor amplificacion y/o delecion en los tumores primarios de pacientes quimiorresistentes que en los tumores de pacientes sensibles a la quimioterapia. Por ejemplo, si la amplificacion de genes espedficos es responsable del desarrollo de farmacorresistencia, se esperana que las regiones que rodean a esos genes estuvieran sistematicamente amplificadas en las celulas tumorales de derrames pleurales de pacientes quimiorresistentes pero no en los tumores primarios. El descubrimiento de las asociaciones entre la amplificacion y/o delecion de genes y el desarrollo de farmacorresistencia puede permitir identificar a los pacientes que se beneficiaran o no de un tratamiento complementario.

En otras formas de realizacion, el metodo de la presente invencion puede utilizarse para identificar polimorfismos asociados con trastornos por repeticion de trinucleotidos, que son un conjunto de trastornos geneticos debidos a la expansion de repeticiones de trinucleotidos. Las expansiones de trinucleotidos son un subconjunto de repeticiones de microsatelites inestables que se producen a lo largo de todas las secuencias genomicas. Si la repeticion esta presente en un gen sano, una mutacion dinamica puede aumentar el numero de repeticiones y dar como resultado un gen defectuoso. En una forma de realizacion, el metodo puede utilizarse para identificar repeticiones de trinucleotidos asociadas con el smdrome de X fragil. El brazo largo del cromosoma X de los pacientes que padecen el smdrome de X fragil puede contener de 230 a 4.000 CGG, en comparacion con las 60 a 230 repeticiones en los portadores y las 5 a 54 repeticiones en individuos no afectados. La inestabilidad cromosomica resultado de esta expansion de trinucleotidos se presenta clmicamente como retraso mental, rasgos faciales caractensticos y macroorquidismo en los hombres. La segunda enfermedad de repeticion de tripletes de ADN relacionada, el smdrome de X fragil-E, tambien se identifico en el cromosoma X, pero se descubrio que era el resultado de una repeticion expandida de CCG. El metodo de la presente invencion puede identificar repeticiones de trinucleotidos asociadas con otros trastornos por expansion de repeticiones, incluidas las categonas I, II y III. Los trastornos de la categona I incluyen la enfermedad de Huntington (HD) y las ataxias espinocerebelosas que se deben a una expansion de repeticiones CAG en porciones codificantes de protemas de genes espedficos. Las

5

10

15

20

25

30

35

40

45

50

55

60

65

expansiones de la categona II tienden a ser mas diversas fenotipicamente, con expansiones heterogeneas que son generalmente de pequena magnitud, pero que tambien se encuentran en los exones de los genes. La categona III incluye el smdrome de X fragil, la distrofia miotonica, dos de las ataxias espinocerebelosas, la epilepsia mioclonica juvenil y la ataxia de Friereich. Estas enfermedades se caracterizan por expansiones de repeticiones por lo general mucho mayores que los dos primeros grupos, y las repeticiones se encuentran fuera de las regiones codificantes de protemas de los genes.

En otras formas de realizacion, el metodo de la presente invencion puede identificar repeticiones del trinucleotido CAG asociadas con al menos diez trastornos neurologicos que se sabe se deben a un aumento del numero de repeticiones de CAG, por lo general en regiones codificantes de protemas por lo demas no relacionadas. Durante la smtesis de protemas, las repeticiones expandidas de CAG se traducen en una serie de residuos de glutamina ininterrumpidos que forman lo que se conoce como tramos de poliglutamina ("polyQ"). Tales tramos de poliglutamina pueden estar sujetos a una mayor agregacion. Estos trastornos se caracterizan por un modo de herencia autosomica dominante (a excepcion de la atrofia muscular espinobulbar que muestra una herencia ligada al cromosoma X), el inicio de la madurez, un curso progresivo, y una correlacion del numero de repeticiones de CAG con la gravedad de la enfermedad y la edad de inicio. Los genes causales se expresan ampliamente en todas las enfermedades por poliglutamina conocidas. Un smtoma comun de las enfermedades polyQ se caracteriza por una degeneracion progresiva de las celulas nerviosas que por lo general afecta a personas mas adelante en la vida. Aunque estas enfermedades comparten el mismo codon repetido (CAG) y algunos de los smtomas, las repeticiones para las diferentes enfermedades por poliglutamina se producen en diferentes cromosomas. Los ejemplos de trastornos polyQ que pueden identificarse mediante el metodo de la presente invencion incluyen, sin limitacion, la DRPLA (atrofia dentatorubro palidoluisiana), la HD (enfermedad de Huntington), la SBMa (atrofia muscular espinobulbar o enfermedad de Kennedy), la SCA1 (ataxia espinocerebelosa tipo 1), la SCA2 (ataxia espinocerebelosa tipo 2), la SCA3 (ataxia espinocerebelosa tipo 3 o enfermedad de Machado-Joseph), la SCA6 (ataxia espinocerebelosa tipo 6), la SCA7 (ataxia espinocerebelosa tipo 7), la SCA17 (ataxia espinocerebelosa tipo 17). Los ejemplos de trastornos no polyQ que pueden identificarse mediante el metodo de la presente invencion incluyen el FRAXA (smdrome de X fragil), el FXTAS (smdrome de temblor/ataxia asociado a X fragil), el FRAXE (retraso mental por X fragil tipo E), la FRDA (ataxia de Friedreich), la DM (distrofia miotonica), la SCA8 (ataxia espinocerebelosa tipo 8), la SCA12 (ataxia espinocerebelosa tipo 12).

Ademas de la funcion de la CNV en el cancer, las CNVs se han asociado con un numero creciente de enfermedades complejas comunes, incluido el virus de la inmunodeficiencia humana (VIH), enfermedades autoinmunitarias y un espectro de trastornos neuropsiquiatricos.

Hasta la fecha, varios estudios han informado acerca de la asociacion entre la CNV en los genes implicados en la inflamacion y la respuesta inmunitaria y el VIH, el asma, la enfermedad de Crohn y otros trastornos autoinmunitarios (Fanciulli et al., Clin. Genet. 77:201-213 [2010]). Por ejemplo, se ha atribuido a la CNV en CCL3L1 la susceptibilidad al VIH/SIDA (CCL3L1, delecion 17q11.2), la artritis reumatoide (CCL3L1, delecion 17q11.2), y la enfermedad de Kawasaki (CCL3L1, duplicacion 17q11.2); se ha informado que la CNV en HBD-2 predispone a la enfermedad de Crohn colonica (HDB-2, delecion 8p23.1) y a la psoriasis (HDB-2, delecion 8p23.1); se demostro que la CNV en FCGR3B predispoma a la glomerulonefritis en el lupus eritematoso sistemico (FCGR3B, delecion 1q23, duplicacion 1q23), la vasculitis asociada a anticuerpos anticitoplasma de neutrofilos (ANCA) (FCGR3B, delecion 1q23), y el aumento del riesgo de desarrollar artritis reumatoide. Hay al menos dos enfermedades inflamatorias o autoinmunitarias que han demostrado estar asociadas con la CNV en diferentes loci de los genes. Por ejemplo, la enfermedad de Crohn se asocia con un bajo numero de copias en HDB-2, pero tambien con un polimorfismo por delecion comun aguas arriba del gen IGRM que codifica un miembro de la familia de GTPasas relacionada con la inmunidad p47. Ademas de la asociacion con el numero de copias de FCGR3B, tambien se ha informado que la susceptibilidad al SLE esta significativamente aumentada entre los sujetos con un menor numero de copias del componente del complemento C4.

Se ha informado acerca de asociaciones entre las deleciones genomicas en los loci GSTM1 (GSTM1, delecion 1q23) y GSTT1 (GSTT1, delecion 22q11.2) y un mayor riesgo de asma atopica en varios estudios independientes. En algunas formas de realizacion, el metodo de la presente invencion puede utilizarse para determinar la presencia o ausencia de una CNV asociada con la inflamacion y/o enfermedades autoinmunitarias. Por ejemplo, el metodo de la presente invencion puede utilizarse para determinar la presencia de una CNV en un paciente que se sospecha padece VIH, asma, o enfermedad de Crohn. Los ejemplos de CNV asociada con tales enfermedades incluyen, sin limitacion, deleciones en 17q11.2, 8p23.1, 1q23 y 22q11.2, y duplicaciones en 17q11.2 y 1q23. En algunas formas de realizacion, el metodo de la presente invencion puede utilizarse para determinar la presencia de CNV en los genes, incluidos pero no limitados a CCL3L1, HBD-2, FCGR3B, GSTM, GSTT1, C4 s IRGM.

Se ha informado acerca de asociaciones entre CNV de novo y heredadas, y varias enfermedades neurologicas y psiquiatricas comunes en el autismo, la esquizofrenia y la epilepsia, y algunos casos de enfermedades neurodegenerativas tales como la enfermedad de Parkinson, la esclerosis lateral amiotrofica (ALS) y la enfermedad de Alzheimer autosomica dominante (Fanciulli et al., Clin. Genet. 77:201-213 [2010]). Se han

5

10

15

20

25

30

35

40

45

50

55

60

observado anomaKas citogeneticas en pacientes con autismo y trastornos del espectro autista (ASD) con duplicaciones en 15q11-q13. Segun el Autism Genome Project Consortium, 154 CNV incluidas varias CNV recurrentes, ya sea en el cromosoma 15q11-q13 o en nuevas localizaciones genomicas que incluyen el cromosoma 2p16, 1q21 y en 17p12 en una region asociada con el smdrome de Smith-Magenis que se solapa con los ASD. Las microdeleciones o microduplicaciones recurrentes en el cromosoma 16p 11.2 han destacado la observacion de que las CNVs de novo se detectan en los loci de genes tales como SHANK3 (delecion 22q13.3), neurexina 1 (NRXNl, delecion 2p16.3) y las neuroglinas (NLGN4, delecion Xp22.33) que se sabe regulan la diferenciacion sinaptica y regulan la liberacion del neurotransmisor glutaminergico. La esquizofrenia tambien se ha asociado con multiples CNVs de novo. Las microdeleciones y microduplicaciones asociadas con la esquizofrenia contienen una sobrerrepresentacion de genes que pertenecen a las vfas del desarrollo neurologico y glutaminergica, lo que sugiere que multiples CNVs que afectan a estos genes pueden contribuir directamente a la patogenesis de la esquizofrenia, por ejemplo, ERBB4, delecion 2q34, SLC1A3, delecion 5p13.3; RAPEGF4, delecion 2q31.1; CIT, delecion 12.24; y multiples genes con CNV de novo. Las CNVs tambien se han asociado con otros trastornos neurologicos incluidas la epilepsia (CHRNA7, delecion 15q13.3), la enfermedad de Parkinson (SNCA, duplicacion 4q22) y la ALS (SMN1, delecion 5q12.2.-q13.3; y delecion SMN2). En algunas formas de realizacion, el metodo de la presente invencion puede utilizarse para determinar la presencia o ausencia de una CNV asociada con enfermedades del sistema nervioso. Por ejemplo, el metodo de la presente invencion puede utilizarse para determinar la presencia de una CNV en un paciente que se sospecha padece autismo, esquizofrenia, epilepsia, enfermedades neurodegenerativas tales como la enfermedad de Parkinson, la esclerosis lateral amiotrofica (ALS) o la enfermedad de Alzheimer autosomica dominante. El metodo de la presente invencion puede utilizarse para determinar la CNV de genes asociados con enfermedades del sistema nervioso, incluidas sin limitacion, cualquiera de entre trastornos del espectro autista (ASD), esquizofrenia y epilepsia, y la CNV de genes asociados con trastornos neurodegenerativos tal como la enfermedad de Parkinson. Los ejemplos de CNV asociada con tales enfermedades incluyen, sin limitacion, duplicaciones en 15q11-q13, 2p16, 1q21, 17p12, 16pa11.2 y 4q22, y deleciones en 22q13.3, 2p16.3, Xp22.33, 2q34, 5p13.3, 2q31.1, 12,24, 15q13.3 y 5q12.2. En algunas formas de realizacion, el metodo de la presente invencion puede utilizarse para determinar la presencia de CNV en genes que incluyen, pero no se limitan a, SHANK3, NLGN4, NRXN1, ERBB4, SLC1A3, RAPGEF4, CIT, CHRNA7, SNCA, SMN1 y SMN2.

Se ha informado acerca de la asociacion entre rasgos metabolicos y cardiovasculares, tales como la hipercolesterolemia familiar (FH), la aterosclerosis y la enfermedad arterial coronaria, y las CNVs en varios estudios (Fanciulli et al., Clin. Genet. 77:201-213 [2010]). Por ejemplo, se han observado reordenamientos de la lmea germinal, principalmente deleciones, en el gen LDLR (LDLR, delecion/duplicacion 19p13.2) en algunos pacientes con FH que no portan ninguna otra mutacion LDLR. Otro ejemplo es el gen LPA que codifica la apolipoprotema (a) (apo(a)) cuya concentracion plasmatica se asocia con el riesgo de enfermedad arterial coronaria, infarto de miocardio (Ml) e ictus. Las concentraciones plasmaticas de lipoprotema Lp(a) que contiene la apo(a) pueden variar en mas de 1.000 veces entre individuos y el 90% de esta variabilidad esta determinada geneticamente en el locus LPA, siendo proporcionales la concentracion plasmatica y el tamano de la isoforma de Lp(a) a un numero muy variable de secuencias de repeticion “kringle 4” (intervalo de 5-50). Estos datos indican que la CNV en al menos dos genes puede estar asociada con riesgo cardiovascular. El metodo de la presente invencion puede utilizarse en estudios grandes para buscar espedficamente las asociaciones de la CNV con trastornos cardiovasculares. En algunas formas de realizacion, el metodo de la presente invencion puede utilizarse para determinar la presencia o ausencia de una CNV asociada con una enfermedad metabolica o cardiovascular. Por ejemplo, el metodo de la presente invencion puede utilizarse para determinar la presencia de una CNV en un paciente que se sospecha padece hipercolesterolemia familiar. El metodo de la presente invencion puede utilizarse para determinar la CNV de los genes asociados con una enfermedad metabolica o cardiovascular, por ejemplo, la hipercolesterolemia. Los ejemplos de CNV asociada con tales enfermedades incluyen, sin limitacion, la delecion/duplicacion 19p13.2 del gen LDLR, y multiplicaciones en el gen LPA.

SECUENCIACION

En diversas formas de realizacion, el metodo descrito en el presente documento emplea la tecnologfa de secuenciacion de nueva generacion (NGS) en la que se secuencian moleculas de ADN individuales o moldes de ADN amplificados por clonacion de forma masiva en paralelo dentro de una celula de flujo (por ejemplo, como se describe en Volkerding et al., Clin. Chem. 55:641-658 [2009]; Metzker M., Nature Rev. 11:31-46 [2010]). Ademas de informacion de secuencias de alto rendimiento, la NGS proporciona informacion digital cuantitativa, en el sentido de que cada lectura de secuencia es un "marcador de secuencia" contable que representa un molde de ADN clonal individual o una molecula de ADN individual. Las tecnologfas de secuenciacion de NGS incluyen pirosecuenciacion, secuenciacion por smtesis con terminadores con colorante reversibles, secuenciacion por ligacion de sondas oligonucleotidicas y secuenciacion en tiempo real.

En diversas formas de realizacion, pueden analizarse las muestras que no estan amplificadas, o que estan amplificadas solo parcialmente (amplificacion de la diana). En algunos casos, los metodos de determinacion de la fraccion fetal pueden lograrse sin necesidad de ningun tipo de amplificacion selectiva.

5

10

15

20

25

30

35

40

45

50

55

60

65

La amplificacion del genoma completo que se produce como parte del proceso de secuenciacion proporciona suficientes copias que pueden cubrirse aumentando el numero de ciclos de secuenciacion para proporcionar una cobertura cada vez mejor.

En formas de realizacion preferentes, la muestra que comprende la mezcla de moleculas de ADN derivadas de dos genomas diferentes esta enriquecida no espedficamente en las secuencias del genoma completo antes de la secuenciacion del genoma completo, es decir, la amplificacion del genoma completo se realiza antes de la secuenciacion.

Enriquecimiento no espedfico del ADN de la muestra puede referirse a la amplificacion del genoma completo de los fragmentos de ADN genomico de la muestra que pueden utilizarse para aumentar el nivel del ADN de la muestra antes de identificar los polimorfismos mediante la secuenciacion. El enriquecimiento no espedfico puede ser un enriquecimiento selectivo de uno de los dos genomas presentes en la muestra. Por ejemplo, el enriquecimiento no espedfico puede ser selectivo del genoma fetal en una muestra materna, que puede obtenerse mediante metodos conocidos para aumentar la proporcion relativa de ADN fetal respecto al materno en una muestra. Como alternativa, el enriquecimiento no espedfico puede ser la amplificacion no selectiva de ambos genomas presentes en la muestra. Por ejemplo, la amplificacion no espedfica puede ser del ADN fetal y materno en una muestra que comprende una mezcla de ADN de los genomas fetal y materno. En la tecnica se conocen metodos para amplificar el genoma completo. La PCR con oligonucleotidos degenerados (DOP), la tecnica de PCR con extension de cebador (PEP) y la amplificacion por desplazamiento multiple (MDA), son ejemplos de metodos de amplificacion del genoma completo. En algunas formas de realizacion, la muestra que comprende la mezcla de cfADN de diferentes genomas no esta enriquecida en el cfADN de los genomas presentes en la mezcla. En otras formas de realizacion, la muestra que comprende la mezcla de cfADN de diferentes genomas esta enriquecida no espedficamente en cualquiera de los genomas presentes en la muestra.

En otras formas de realizacion, el cfADN de la muestra esta enriquecido espedficamente. Enriquecimiento espedfico se refiere al enriquecimiento de una muestra genomica en secuencias espedficas, por ejemplo, una secuencia diana polimorfica, que se seleccionan para la amplificacion antes de la secuenciacion de la muestra de ADN. Sin embargo, una ventaja de las formas de realizacion descritas es que no es necesaria la amplificacion selectiva.

Algunas de las tecnologfas de secuenciacion estan disponibles en el mercado, tales como la plataforma de secuenciacion por hibridacion de Affymetrix Inc. (Sunnyvale, CA) y las plataformas de secuenciacion por smtesis de 454 Life Sciences (Bradford, CT), Illumina/Solexa (Hayward, CA) y Helicos Biosciences (Cambridge, MA), y la plataforma de secuenciacion por ligacion de Applied Biosystems (Foster City, CA), como se describe mas adelante. Ademas de la secuenciacion de una sola molecula realizada mediante la secuenciacion por smtesis de Helicos Biosciences, quedan abarcadas por el metodo descrito otras tecnologfas de secuenciacion de una sola molecula e incluyen la tecnologfa SMRT™ de Pacific Biosciences, la tecnologfa Ion Torrent™, y la secuenciacion por nanoporos que esta desarrollando por ejemplo, Oxford Nanopore Technologies.

Aunque el metodo de Sanger automatizado se considera una tecnologfa de "primera generacion", el metodo descrito tambien puede emplear la secuenciacion de Sanger, incluida la secuenciacion de Sanger automatizada. Los metodos de secuenciacion adicionales que comprenden el uso de tecnologfas en desarrollo de formacion de imagenes de acidos nucleicos, por ejemplo, la microscopfa de fuerza atomica (AFM) o la microscopfa electronica de transmision (TEM), tambien quedan abarcadas por el metodo descrito. Mas adelante se describen tecnologfas de secuenciacion ejemplares.

En una forma de realizacion, la tecnologfa de secuenciacion de ADN que se utiliza en los metodos descritos es la Helicos True Single Molecule Sequencing (tSMS) (por ejemplo, como se describe en Harris T.D. et al., Science 320:106-109 [2008]). En la tecnica tSMS, una muestra de aDn se escinde en cadenas de aproximadamente 100 a 200 nucleotidos, y se anade una secuencia poliA al extremo 3' de cada cadena de ADN. Cada cadena se marca anadiendo un nucleotido adenosina marcado con fluorescencia. A continuacion, las cadenas de ADN se hibridan con una celula de flujo, que contiene millones de sitios de captura oligo-T que estan inmovilizados en la superficie de la celula de flujo. Los moldes pueden estar a una densidad de aproximadamente 100 millones de moldes/cm2. A continuacion, se carga la celula de flujo en un instrumento, por ejemplo, un secuenciador HeliScope™, y un laser ilumina la superficie de la celula de flujo, lo que pone de manifiesto la posicion de cada molde. Una camara CCD puede mapear la posicion de los moldes en la superficie de la celula de flujo. A continuacion, se escinde y se quita el marcador fluorescente del molde. La reaccion de secuenciacion se inicia introduciendo una ADN polimerasa y un nucleotido marcado con fluorescencia. El acido nucleico oligo-T hace de cebador. La polimerasa incorpora los nucleotidos marcados al cebador de manera dirigida por molde. La polimerasa y los nucleotidos no incorporados se eliminan. Los moldes que han dirigido la incorporacion del nucleotido marcado con fluorescencia se distinguen mediante formacion de imagenes de la superficie de la celula de flujo. Despues de la formacion de imagenes, una etapa de escision elimina el marcador fluorescente, y el proceso se repite con otros nucleotidos marcados con fluorescencia hasta que se consigue la longitud de lectura deseada. Se recoge informacion de secuencias con cada etapa de adicion de nucleotidos. La secuenciacion del genoma completo mediante tecnologfas de secuenciacion de

5

10

15

20

25

30

35

40

45

50

55

60

65

una sola molecula excluye la amplificacion basada en PCR en la preparacion de las bibliotecas de secuenciacion, y la manera directa de preparacion de muestras permite la medicion directa de la muestra, mas que la medicion de copias de esa muestra.

En una forma de realizacion, la tecnologfa de secuenciacion de ADN que se utiliza en los metodos descritos es la secuenciacion 454 (Roche) (por ejemplo, como se describe en Margulies, M. et al., Nature 437:376-380 (2005)). La secuenciacion 454 implica dos etapas. En la primera etapa, el ADN se corta en fragmentos de aproximadamente 300-800 pares de bases, y se producen fragmentos de extremos romos. A continuacion, se ligan adaptadores oligonucleotidicos a los extremos de los fragmentos. Los adaptadores hacen de cebadores para la amplificacion y secuenciacion de los fragmentos. Los fragmentos pueden fijarse a perlas de captura de aDn, por ejemplo, perlas recubiertas con estreptavidina utilizando, por ejemplo, Adaptador B, que contiene el marcador 5'- biotina. Los fragmentos fijados a las perlas se amplifican por PCR dentro de gotitas de una emulsion de aceite-agua. El resultado es varias copias de fragmentos de aDn amplificados por clonacion en cada perla. En la segunda etapa, las perlas se capturan en pocillos (del tamano del picolitro). Se realiza la pirosecuenciacion en cada fragmento de ADN en paralelo. La adicion de uno o mas nucleotidos genera una senal luminosa que es registrada por una camara CCD en un instrumento de secuenciacion. La intensidad de la senal es proporcional al numero de nucleotidos incorporados. La pirosecuenciacion se vale de pirofosfato (PPi) que se libera tras la adicion de nucleotidos. El PPi es convertido en ATP por la ATP sulfurilasa en presencia de adenosina 5' fosfosulfato. La luciferasa utiliza ATP para convertir la luciferina en oxiluciferina, y esta reaccion genera luz que se distingue y se analiza.

En una forma de realizacion, la tecnologfa de secuenciacion de ADN que se utiliza en los metodos descritos es la tecnologfa SOLiD™ (Applied Biosystems). En la secuenciacion por ligacion SOLiD™, el ADN genomico se corta en fragmentos, y se fijan adaptadores a los extremos 5' y 3' de los fragmentos para generar una biblioteca de fragmentos. Como alternativa, pueden introducirse adaptadores internos ligando los adaptadores a los extremos 5' y 3' de los fragmentos, circularizando los fragmentos, digiriendo el fragmento circularizado para generar un adaptador interno, y fijando los adaptadores a los extremos 5' y 3' de los fragmentos resultantes para generar una biblioteca de pares emparejados. A continuacion, se preparan poblaciones de perlas clonales en microrreactores que contienen las perlas, los cebadores, el molde y los componentes de la PCR. Despues de la PCR, los moldes se desnaturalizan y las perlas se enriquecen para separar las perlas con moldes extendidos. Los moldes en las perlas seleccionadas se someten a una modificacion 3' que permite la union a un portaobjetos de vidrio. La secuencia puede determinarse mediante hibridacion y ligacion secuencial de oligonucleotidos parcialmente aleatorios con una base (o un par de bases) determinada central que se identifica mediante un fluoroforo espedfico. Despues de registrarse un color, el oligonucleotido ligado se escinde y elimina y, a continuacion, se repite el proceso.

En una forma de realizacion, la tecnologfa de secuenciacion de ADN que se utiliza en los metodos descritos es la tecnologfa de secuenciacion de una sola molecula en tiempo real (SMRT™) de Pacific Biosciences. En la secuenciacion SMRT, se forman imagenes de la continua incorporacion de nucleotidos marcados con colorante durante la smtesis de ADN. Se fijan moleculas de ADN polimerasa individuales a la superficie inferior de identificadores de grna de ondas en modo cero (identificadores ZMW) individuales que obtienen informacion de secuencias, mientras se estan incorporando nucleotidos marcados en la cadena de cebador en crecimiento. Un ZMW es una estructura de confinamiento que permite observar la incorporacion de un solo nucleotido por la ADN polimerasa contra el fondo de nucleotidos fluorescentes que se difunden rapidamente dentro y fuera del ZMW (en microsegundos). Se necesitan varios milisegundos para incorporar un nucleotido en una cadena en crecimiento. Durante este tiempo, el marcador fluorescente es excitado y produce una senal fluorescente, y el marcador fluorescente se escinde. La identificacion de la correspondiente fluorescencia del colorante indica que base se incorporo. El proceso se repite.

En una forma de realizacion, la tecnologfa de secuenciacion de ADN que se utiliza en los metodos descritos es la secuenciacion por nanoporos (por ejemplo, como se describe en Soni GV y Meller A. Clin. Chem. 53: 19962001 [2007]). Varias comparnas, incluida Oxford Nanopore Technologies (Oxford, Reino Unido), estan desarrollando industrialmente tecnicas de analisis de ADN de secuenciacion por nanoporos. La secuenciacion por nanoporos es una tecnologfa de secuenciacion de una sola molecula mediante la que una sola molecula de ADN se secuencia directamente a medida que pasa por un nanoporo. Un nanoporo es un pequeno agujero, del orden de 1 nanometro de diametro. La inmersion de un nanoporo en un fluido conductor y la aplicacion de un potencial (voltaje) a traves del mismo dan como resultado una ligera corriente electrica debida a la conduccion de iones a traves del nanoporo. La cantidad de corriente que fluye es sensible al tamano y la forma del nanoporo. A medida que una molecula de ADN pasa por un nanoporo, cada nucleotido de la molecula de ADN obstruye el nanoporo en un grado diferente, cambiando la magnitud de la corriente a traves del nanoporo en diferentes grados. Por lo tanto, este cambio en la corriente a medida que la molecula de ADN pasa por el nanoporo representa una lectura de la secuencia de ADN.

En una forma de realizacion, la tecnologfa de secuenciacion de ADN que se utiliza en los metodos descritos es la matriz de transistor de efecto de campo sensible a qrnmicos (chemFET) (por ejemplo, como se describe en la publicacion de patente de EE.UU. n° 2009/0026082 presentada el 17 de diciembre de 2007). En un ejemplo de la tecnica, las moleculas de ADN pueden colocarse en camaras de reaccion, y las moleculas de molde pueden hibridarse con un cebador de secuenciacion unido a una polimerasa. La incorporacion de uno o mas trifosfatos en

5

10

15

20

25

30

35

40

45

50

55

60

65

una nueva cadena de acido nucleico en el extremo 3' del cebador de secuenciacion puede distinguirse por un cambio en la corriente mediante un chemFET. Una matriz puede tener multiples sensores chemFET. En otro ejemplo, pueden fijarse acidos nucleicos individuales a perlas, y los acidos nucleicos pueden amplificarse en la perla, y las perlas individuales pueden transferirse a camaras de reaccion individuales en una matriz e chemFET, teniendo cada camara un sensor chemFET, y pueden secuenciarse los acidos nucleicos.

En una forma de realizacion, la tecnologfa de secuenciacion de ADN que se utiliza en los metodos descritos es el metodo de Halcyon Molecular que utiliza microscopfa electronica de transmision (TEM). El metodo, denominado Individual Molecule Placement Rapid Nano Transfer (IMPRNT), comprende utilizar la formacion de imagenes de microscopio electronico de transmision de resolucion de un solo atomo de ADN de alto peso molecular (150 kb o superior) marcado selectivamente con marcadores de atomos pesados y disponer estas moleculas en pelfculas ultrafinas en matrices paralelas ultradensas (3 nm entre las cadenas) con una separacion constante entre las bases. Se utiliza el microscopio electronico para formar imagenes de las moleculas en las pelfculas para determinar la posicion de los marcadores de atomos pesados y para extraer informacion de secuencias de bases del ADN. El metodo se describe adicionalmente en la publicacion de patente PCT WO 2009/046445. El metodo permite secuenciar genomas humanos completos en menos de diez minutos.

En una forma de realizacion, la tecnologfa de secuenciacion de ADN es la secuenciacion de una sola molecula Ion Torrent, que empareja la tecnologfa de semiconductores con una qmmica de secuenciacion simple para traducir directamente la informacion codificada qmmicamente (A, C, G, T) a informacion digital (0, 1) en un chip semiconductor. En la naturaleza, cuando un nucleotido es incorporado en una cadena de ADN por una polimerasa, se libera como subproducto un ion de hidrogeno. Ion Torrent utiliza una matriz de alta densidad de pocillos micromecanizados para realizar este proceso bioqmmico de manera masiva en paralelo. Cada pocillo contiene una molecula de ADN diferente. Por debajo de los pocillos hay una capa sensible a los iones y por debajo de eso, un detector ionico. Cuando se anade un nucleotido, por ejemplo una C, a un molde de aDN y a continuacion se incorpora en una cadena de ADN, se liberara un ion de hidrogeno. La carga de ese ion cambiara el pH de la solucion, que puede ser identificado por el detector ionico del Ion Torrent. El secuenciador - esencialmente el medidor de pH de estado solido mas pequeno del mundo - asigna la base, pasando directamente de la informacion qmmica a la informacion digital. A continuacion, el secuenciador Ion Personal Genome Machine (PGM™) satura el chip secuencialmente con un nucleotido tras otro. Si el siguiente nucleotido que satura el chip no es una coincidencia, no se registrara ningun cambio de voltaje y no se asignara ninguna base. Si hay dos bases identicas en la cadena de ADN, el voltaje sera doble, y el chip registrara dos bases identicas asignadas. La identificacion directa permite registrar la incorporacion de nucleotidos en cuestion de segundos.

En algunas formas de realizacion, los metodos emplean la PCR o una tecnica relacionada para amplificar secuencias nucleotidicas de la muestra antes de identificarlas o mapearlas. Sin embargo, las tecnicas algorftmicas descritas en el presente documento no requieren generalmente la amplificacion, en particular la amplificacion selectiva de polimorfismos utilizados para estimar la fraccion del genoma.

Determinadas formas de realizacion emplean la PCR digital y la secuenciacion por hibridacion. Puede utilizarse la reaccion en cadena de la polimerasa digital (PCR digital o dPCR) para identificar y cuantificar directamente los acidos nucleicos en una muestra. La PCR digital puede realizarse en una emulsion. Se separan acidos nucleicos individuales, por ejemplo, en un dispositivo de camara microflmdica, y cada acido nucleico se amplifica individualmente mediante PCR. Los acidos nucleicos pueden separarse de manera que haya un promedio de aproximadamente 0,5 acidos nucleicos/pocillo, o no mas de un acido nucleico/pocillo. Pueden utilizarse diferentes sondas para distinguir los alelos fetales y los alelos maternos. Los alelos pueden enumerarse para determinar el numero de copias. En la secuenciacion por hibridacion, la hibridacion comprende poner en contacto la pluralidad de secuencias polinucleotfdicas con una pluralidad de sondas polinucleotfdicas, en la que cada una de la pluralidad de sondas polinucleotfdicas puede estar opcionalmente anclada a un sustrato. El sustrato puede ser una superficie plana que comprende una matriz de secuencias nucleotfdicas conocidas. El patron de hibridacion a la matriz puede utilizarse para determinar las secuencias polinucleotfdicas presentes en la muestra. En otras formas de realizacion, cada sonda esta anclada a una perla, por ejemplo, una perla magnetica o similar. Puede identificarse y utilizarse la hibridacion a las perlas para identificar la pluralidad de secuencias polinucleotfdicas dentro de la muestra.

En una forma de realizacion, el metodo emplea la secuenciacion masiva en paralelo de millones de fragmentos de ADN utilizando la secuenciacion por smtesis de Illumina y la qmmica de secuenciacion basada en terminadores reversibles (por ejemplo, como se describe en Bentley et al., Nature 6:53-59 [2009]). El ADN molde puede ser ADN genomico, por ejemplo, cfADN. En algunas formas de realizacion, se utiliza como molde ADN genomico de celulas aisladas, y se fragmenta en longitudes de varios cientos de pares de bases. En otras formas de realizacion, se utiliza como molde cfADN, y no resulta necesaria la fragmentacion ya que el cfADN existe en forma de fragmentos cortos. Por ejemplo, el cfADN fetal circula en el torrente sangmneo en forma de fragmentos de < 300 pb, y se ha estimado que el cfADN materno circula en forma de fragmentos de entre aproximadamente 0,5 kb y 1 kb (Li et al., Clin. Chem., 50: 1002-1011 (2004)). La tecnologfa de secuenciacion de Illumina se basa en la fijacion del ADN genomico fragmentado a una superficie plana opticamente transparente sobre la que estan unidos los anclajes oligonucleotidicos. El ADN molde se somete a reparacion de extremos para generar extremos romos

5

10

15

20

25

30

35

40

45

50

55

60

65

fosforilados en 5', y se utiliza la actividad polimerasa del fragmento Klenow para anadir una sola base A al extremo 3' de los fragmentos de ADN fosforilados romos. Esta adicion prepara los fragmentos de ADN para la ligacion a adaptadores oligonucleotfdicos, que tienen una protuberancia de una sola base T en su extremo 3' para aumentar la eficacia de ligacion. Los oligonucleotidos del adaptador son complementarios a los anclajes de las celulas de flujo. En condiciones de dilucion limitante, se anade ADN molde monocatenario modificado con adaptador a la celula de flujo y se inmoviliza mediante hibridacion a los anclajes. Los fragmentos de ADN fijados se prolongan y someten a amplificacion en puente para crear una celula de flujo de secuenciacion de densidad ultra alta con cientos de millones de clusteres, conteniendo cada uno ~ 1.000 copias del mismo molde. En una forma de realizacion, el ADN genomico fragmentado al azar, por ejemplo, cfADN, se amplifica utilizando PCR antes de someterlo a amplificacion de clusteres. Como alternativa, se utiliza una preparacion de biblioteca genomica sin amplificacion, y el ADN genomico fragmentado al azar, por ejemplo, cfADN se enriquece mediante la amplificacion de clusteres solo (Kozarewa et al., Nature Methods 6:291-295 [2009]). Los moldes se secuenciaron utilizando una tecnologfa robusta de secuenciacion por smtesis de ADN de cuatro colores que emplea terminadores reversibles con colorantes fluorescentes eliminables. La identificacion de fluorescencia de alta sensibilidad se consigue utilizando la optica de reflexion interna total y excitacion laser. Se alinean lecturas de secuencias cortas de aproximadamente 20 pb-40 pb, por ejemplo, 36 pb, contra de un genoma de referencia con enmascaramiento de repeticiones y las diferencias geneticas se asignan utilizando un software de pipelines de analisis de datos especialmente desarrollado. Una vez terminada la primera lectura, los moldes pueden regenerarse in situ para posibilitar una segunda lectura desde el extremo opuesto de los fragmentos. Por lo tanto, se utiliza la secuenciacion de un unico extremo o de extremos emparejados de los fragmentos de ADN segun el metodo. Se realiza la secuenciacion parcial de fragmentos de ADN presentes en la muestra, y se realiza el recuento de los marcadores de secuencia que comprenden lecturas de una longitud predeterminada, por ejemplo, 36 pb, que se mapean contra un genoma de referencia conocido.

La longitud de la lectura de secuencia esta asociada con la tecnologfa de secuenciacion concreta. Los metodos NGS proporcionan lecturas de secuencias que vanan en tamano desde decenas a cientos de pares de bases. En algunas formas de realizacion del metodo descrito en el presente documento, las lecturas de secuencias tienen aproximadamente 20 pb, aproximadamente 25 pb, aproximadamente 30 pb, aproximadamente 35 pb,

aproximadamente 40 pb, aproximadamente 60 pb, aproximadamente 80 pb, aproximadamente 100 pb, aproximadamente 140 pb, aproximadamente 300 pb,

aproximadamente 45 pb, aproximadamente 65 pb, aproximadamente 85 pb, aproximadamente 110 pb, aproximadamente 150 pb, aproximadamente 350 pb,

aproximadamente 50 pb, aproximadamente 70 pb, aproximadamente 90 pb, aproximadamente 120 pb, aproximadamente 200 pb,

aproximadamente 55 pb, aproximadamente 75 pb, aproximadamente 95 pb, aproximadamente 130 pb, aproximadamente 250 pb,

aproximadamente 400 pb, aproximadamente 450 pb, o

aproximadamente 500 pb. Se espera que los avances tecnologicos posibiliten lecturas de un unico extremo de mas de 500 pb que posibiliten lecturas de mas de aproximadamente 1.000 pb cuando se generen lecturas de extremos emparejados. En una forma de realizacion, las lecturas de secuencias tienen 36 pb. Otros metodos de secuenciacion que pueden emplearse mediante los metodos descritos incluyen los metodos de secuenciacion de una sola molecula que pueden secuenciar moleculas de acidos nucleicos > 5.000 pb. La cantidad masiva de salida de secuencias se transfiere mediante un pipeline de analisis que transforma la salida de imagenes primarias del secuenciador en cadenas de bases. Un paquete de algoritmos integrados realiza las etapas principales de transformacion de datos primarios: analisis de imagenes, puntuacion de la intensidad, asignacion de bases y alineamiento.

MAPEO

Pueden utilizarse diversos metodos computacionales para mapear cada secuencia identificada contra un bin, por ejemplo, identificando todas las secuencias en la muestra que se mapean contra un gen, cromosoma, alelo concretos, u otra estructura. Existen varios algoritmos informaticos para alinear secuencias, incluidos sin limitacion BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock y Collins, 1993), FASTA (Person y Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]), o ELAND (Illumina, Inc., San Diego, CA, EE.UU.). En algunas formas de realizacion, las secuencias de los bins se encuentran en bases de datos de acidos nucleicos conocidas por los expertos en la materia, incluidas sin limitacion GenBank, dbEST, dbSTS, EMBL (el Laboratorio Europeo de Biologfa Molecular), y el DDBJ (el Banco de Datos de ADN de Japon). Puede utilizarse BLAST o herramientas similares para buscar las secuencias identificadas contra las bases de datos de secuencias, y puede utilizarse la busqueda de aciertos para clasificar las secuencias identificadas en los bins apropiados.

APARATO

El analisis de los datos de secuenciacion y los diagnosticos derivados de los mismos se realizan por lo general utilizando un hardware informatico, que opera segun algoritmos y programas definidos. Por lo tanto, determinadas formas de realizacion emplean procesos que implican los datos almacenados en o transferidos a traves de uno o mas sistemas informaticos u otros sistemas de procesamiento. Las formas de realizacion de la invencion tambien se refieren a un aparato para realizar estas operaciones. Este aparato puede construirse especialmente para los fines necesarios, o puede ser un ordenador (o un grupo de ordenadores) de uso general selectivamente activado o reconfigurado por un programa informatico y/o estructura de datos almacenada en el ordenador. En algunas formas de realizacion, un grupo de procesadores realiza algunas o todas las operaciones

5

10

15

20

25

30

35

40

45

50

55

60

65

analtticas mencionadas conjuntamente (por ejemplo, a traves de una red o computacion en nube) y/o en paralelo. Un procesador o grupo de procesadores para realizar los metodos descritos en el presente documento puede ser de diversos tipos, incluidos microcontroladores y microprocesadores tales como dispositivos programables (por ejemplo, CPLDs y FPGAs) y otros dispositivos tales como ASIC basados en matriz de puertas, procesadores de senales digitales, y/o microprocesadores de uso general.

Ademas, determinadas formas de realizacion se refieren a productos de programa informatico o medios legibles por ordenador tangibles y/o no transitorios que incluyen datos y/o instrucciones de programa (incluidas estructuras de datos) para realizar diversas operaciones implementadas por ordenador. Los ejemplos de medios legibles por ordenador incluyen, pero no se limitan a, dispositivos de memoria semiconductora, medios magneticos tales como unidades de disco, cinta magnetica, medios opticos tales como CDs, medios magneto-opticos, y dispositivos de hardware que estan especialmente configurados para almacenar y ejecutar instrucciones de programa, tal como dispositivos de memoria de solo lectura (ROM) y memoria de acceso aleatorio (RAM). Los medios legibles por ordenador pueden ser controlados directamente por un usuario final o los medios pueden ser controlados indirectamente por el usuario final. Los ejemplos de medios directamente controlados incluyen los medios ubicados en un equipo del usuario y/o medios que no son compartidos con otras entidades. Los ejemplos de medios controlados indirectamente incluyen medios que son accesibles para el usuario indirectamente a traves de una red externa y/o a traves de un servicio que proporciona recursos compartidos tales como la "nube". Los ejemplos de instrucciones de programa incluyen tanto codigo maquina, tal como es producido por un compilador y archivos que contienen un codigo de nivel superior que puede ser ejecutado por el ordenador utilizando un interprete.

En una forma de realizacion, se describe un producto de programa informatico para generar una salida que indica la fraccion de acido nucleico derivada de un genoma definido (tal como el de un feto) y, opcionalmente, otra informacion tal como la presencia o ausencia de una aneuploidfa fetal en una muestra de ensayo. El producto informatico puede contener instrucciones para realizar uno cualquiera o mas de los metodos anteriormente descritos para determinar una fraccion de acidos nucleicos a partir de un organismo concreto. Como se ha explicado, el producto informatico puede incluir un medio legible por ordenador no transitorio y/o tangible que tiene una logica compilable o ejecutable por ordenador (por ejemplo, instrucciones) grabada en el mismo para permitir que un procesador determine la fraccion del genoma y, en algunos casos, si esta presente o ausente en el genoma una aneuploidfa u otra afeccion. En un ejemplo, el producto informatico comprende un medio legible por ordenador que tiene una logica compilable o ejecutable por ordenador (por ejemplo, instrucciones) grabada en el mismo para permitir que un procesador determine la fraccion fetal y diagnostique una aneuploidfa fetal que comprende: un procedimiento de recepcion para recibir datos de secuenciacion de al menos una porcion de las moleculas de acido nucleico de una muestra biologica materna, en el que dichos datos de secuenciacion comprenden secuencias en los loci de uno o mas polimorfismos; logica asistida por ordenador para analizar secuencias para determinar los recuentos de alelos para el uno o mas polimorfismos, y determinar la fraccion fetal de los acidos nucleicos en la muestra biologica materna; y un procedimiento de salida para generar una salida que indica la fraccion fetal de acidos nucleicos en la muestra.

La informacion de secuencias de la muestra en cuestion puede mapearse contra las secuencias de referencia de polimorfismo como se ha descrito. Ademas, la informacion de secuencias mapeada puede utilizarse para generar recuentos de alelos y/o determinar los casos de cigosidad para los polimorfismos. Tal informacion puede utilizarse para determinar la fraccion fetal. En diversas formas de realizacion, las secuencias de referencia de polimorfismo se almacenan en una base de datos tal como una base de datos relacional u orientada a objetos, por ejemplo. Debe entenderse que no es practico, ni incluso posible en la mayona de los casos, que un ser humano sin ayuda realice cualquiera de estas operaciones computacionales o todas ellas. Por ejemplo, el mapeo de una unica lectura de 30 pb de una muestra contra una base de datos de secuencias de referencia de polimorfismo llevana un penodo prohibitivamente largo sin la ayuda de un aparato computacional. Por supuesto, el problema se agrava porque las asignaciones fiables con frecuencia requieren mapear miles (por ejemplo, al menos aproximadamente 10.000) o incluso millones de lecturas contra uno o mas cromosomas.

En determinadas formas de realizacion, los metodos descritos se valen de una lista almacenada u otro conjunto de datos organizado acerca de los polimorfismos de referencia para el organismo que produce las secuencias de acidos nucleicos a analizar. Como se ha explicado anteriormente, las secuencias de la muestra en cuestion pueden alinearse o mapearse de otro modo contra los polimorfismos almacenados. Los polimorfismos individuales son por lo general secuencias de una longitud suficiente para mapearse de modo inequvoco contra las secuencias identificadas a partir de la muestra de acido nucleico. Por lo general, los polimorfismos vienen en grupos, uno para cada alelo. En diversas formas de realizacion, los polimorfismos de referencia se almacenan en una base de datos que contiene las caractensticas de los polimorfismos, ademas de sus secuencias. Esta recopilacion de informacion acerca de los polimorfismos puede almacenarse en una base de datos relacional u orientada a objetos, por ejemplo.

La Figura 10 ilustra un sistema informatico tfpico que, cuando esta debidamente configurado o disenado, puede hacer de aparato de analisis de la presente invencion. El sistema informatico 200 incluye cualquier numero de

5

10

15

20

25

30

35

40

45

50

55

60

65

procesadores 202 (tambien denominados unidades centrales de procesamiento, o CPUs) que estan acoplados a dispositivos de almacenamiento, incluido el almacenamiento primario 206 (por lo general una memoria de acceso aleatorio, o RAM), un almacenamiento primario 204 (por lo general una memoria de solo lectura, o ROM). La CPU 202 puede ser de diversos tipos, incluidos microcontroladores y microprocesadores tales como dispositivos programables (por ejemplo, CPLDs y FPGAs) y dispositivos no programables tal como ASIC basados en matriz de puertas o microprocesadores de uso general. Como es conocido en la tecnica, el almacenamiento primario 204 funciona para transferir datos e instrucciones a la CPU y el almacenamiento primario 206 se utiliza por lo general para transferir datos e instrucciones de manera bidireccional. Ambos de estos dispositivos de almacenamiento primario pueden incluir cualquier medio legible por ordenador adecuado tal como los descritos anteriormente. Tambien hay un dispositivo de almacenamiento masivo 208 acoplado bidireccionalmente a la CPU 202 y proporciona capacidad de almacenamiento de datos adicional y puede incluir cualquiera de los medios legibles por ordenador descritos anteriormente. El dispositivo de almacenamiento masivo 208 puede utilizarse para almacenar programas, datos y similares, y es por lo general un medio de almacenamiento secundario tal como un disco duro. Se entendera que la informacion guardada en del dispositivo de almacenamiento masivo 208, puede, en los casos apropiados, incorporarse de manera convencional como parte del almacenamiento primario 206 como memoria virtual. Un dispositivo de almacenamiento masivo espedfico tal como un CD-ROM 214 tambien puede pasar datos unidireccionalmente a la CPU.

La CPU 202 tambien esta acoplada a una interfaz 210 que se conecta a uno o mas dispositivos de entrada/salida tales como monitores de video, ratones, teclados, microfonos, pantallas sensibles al tacto, lectores de tarjetas transductores, tabletas, lapices digitales, reconocedores de voz o de escritura manuscrita, u otros dispositivos de entrada conocidos tales como, por supuesto, otros ordenadores. Por ultimo, la CPU 202 puede estar acoplada opcionalmente a un dispositivo externo tal como una base de datos o una red de ordenadores o de telecomunicaciones utilizando una conexion externa como se muestra en general en 212. Con una conexion de este tipo, se contempla que la CPU pueda recibir informacion de la red, o pueda devolver informacion a la red durante la realizacion de las etapas del metodo descritas en el presente documento.

Un usuario puede introducir una secuencia u otros datos en un ordenador, ya sea directa o indirectamente. En una forma de realizacion, el sistema informatico 200 esta directamente acoplado a una herramienta de secuenciacion que lee y/o analiza secuencias de acidos nucleicos amplificados. Las secuencias u otra informacion de tales herramientas se proporcionan a traves de la interfaz 212 para su analisis por el sistema 200. Como alternativa, las secuencias procesadas por el sistema 200 se proporcionan a partir de una fuente de almacenamiento de secuencias tal como una base de datos u otro deposito. Una vez en el aparato de procesamiento 200, un dispositivo de memoria tal como el almacenamiento primario 206 o el almacenamiento masivo 208 almacena en bufer o almacena, al menos temporalmente, secuencias de acidos nucleicos. Ademas, el dispositivo de memoria puede almacenar numeros de marcadores para diversos cromosomas o genes, recuentos de copias calculados, etc. La memoria tambien puede almacenar diversas rutinas y/o programas para analizar la presentacion de la secuencia o los datos mapeados. Tales programas/rutinas pueden incluir programas para realizar analisis estadfsticos, etc.

En un ejemplo, un usuario proporciona una muestra a un aparato de secuenciacion. Los datos son recogidos y/o analizados por el aparato de secuenciacion que esta conectado a un ordenador. El software del ordenador permite la recogida y/o el analisis de los datos. Los datos pueden almacenarse, presentarse (a traves de un monitor u otro dispositivo similar) y/o enviarse a otro lugar. Como se ha indicado, el ordenador puede estar conectado a Internet, que se utiliza para transmitir los datos a un dispositivo portatil utilizado por un usuario remoto (por ejemplo, un medico, cientffico o analista). Se entiende que los datos pueden almacenarse y/o analizarse antes de la transmision. En algunas formas de realizacion, los datos sin procesar se recogen y envfan a un usuario remoto (o aparato) que analizara y/o almacenara los datos. La transmision puede producirse via Internet, pero tambien puede producirse via satelite u otra conexion. Como alternativa, los datos pueden almacenarse en un medio legible por ordenador (por ejemplo, un CD o un dispositivo de almacenamiento de memoria semiconductora) y el medio puede enviarse a un usuario final (por ejemplo, por correo). El usuario remoto puede estar en la misma ubicacion geografica o en una diferente, incluida pero no limitada a un edificio, ciudad, estado, pafs o continente.

En algunas formas de realizacion, los metodos de la invencion comprenden adicionalmente recoger datos referentes a una pluralidad de secuencias polinucleotidicas y enviar los datos a un ordenador. Por ejemplo, el ordenador puede estar conectado a equipos de laboratorio, por ejemplo, un aparato de recogida de muestras, un aparato de amplificacion de nucleotidos, un aparato de secuenciacion de nucleotidos, o un aparato de hibridacion. A continuacion, el ordenador puede recoger los datos aplicables recopilados por el dispositivo de laboratorio. Los datos pueden almacenarse en un ordenador en cualquier etapa, por ejemplo, mientras se recogen en tiempo real, antes del envfo, durante o juntamente con el envfo, o despues del envfo. Los datos pueden almacenarse en un medio legible por ordenador que puede extraerse del equipo. Los datos recogidos o almacenados pueden transmitirse desde el ordenador a un lugar remoto, por ejemplo, a traves de una red local o una red de area amplia tal como Internet.

En un aspecto, la descripcion proporciona adicionalmente un sistema capaz de realizar el analisis cuantitativo de la secuenciacion de nucleotidos con una precision de al menos un 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, o al menos un 99%. La secuenciacion de nucleotidos puede

5

10

15

20

25

30

35

40

45

50

55

60

65

comprender la secuenciacion de Sanger, la secuenciacion masiva en paralelo, la hibridacion u otras tecnicas como se han descrito en el presente documento. El aparato puede comprender diversos componentes, por ejemplo, equipos de laboratorio y sistemas informaticos, y puede configurarse para llevar a cabo los metodos de la invencion descritos en el presente documento.

En algunas formas de realizacion, el aparato y/o las instrucciones de programacion pueden incluir adicionalmente instrucciones para registrar automaticamente la informacion pertinente al metodo tal como la fraccion de ADN fetal y, opcionalmente, la presencia o ausencia de una aneuploidfa cromosomica fetal en el expediente clmico de un paciente para una paciente humana que proporciona la muestra de ensayo materna. El expediente clmico del paciente puede mantenerse en un sitio web de expedientes clmicos personal, un laboratorio, consultorio medico, un hospital, una organizacion de mantenimiento de la salud o una comparua de seguros. Ademas, basandose en los resultados del analisis implementado por procesador, el metodo puede implicar adicionalmente prescribir, iniciar y/o modificar el tratamiento de una paciente humana de la que se obtuvo la muestra de ensayo materna. Esto puede implicar realizar uno o mas ensayos o analisis adicionales de otras muestras tomadas del sujeto.

Ejemplo

Fraccion fetal predicha a partir de las variaciones secuenciadas: Caso 2

Para demostrar que el metodo de la presente invencion puede utilizarse para estimar con fiabilidad la fraccion fetal en una muestra materna, se creo una muestra “materna” artificial, y se identificaron las variaciones de bases en todos los loci de los cromosomas 1 y 7 para predecir la fraccion de genoma de contribucion minoritaria.

El cfADN que se afsla de una mujer embarazada es una mezcla de cfADN materno y fetal, correspondiendo el nivel de cfADN fetal a una mediana de ~ 10% del cfADN total (Lo et al., 2010, "Maternal Plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus", Prenatal Diagnosis, 2, 1-12). Para crear la muestra materna artificial, se utilizo ADN genomico (ADNg) obtenido de una madre y su hijo (ADNs de madre e hijo NA10924 y NA10925; The Coriell Institute for Medical Research, Camden, NJ) para crear la muestra de genomas mixtos. Se cortaron cinco microgramos del ADNg de la madre y del ADNg del hijo, en fragmentos de aproximadamente 200 pb, y se determino la concentracion de cada uno. Se creo una muestra artificial que contema un 10% de ADN del hijo y un 90% de ADN de la madre para imitar una muestra de sangre materna, que se cree contiene por lo general del 2%-40% de cfADN fetal, dependiendo de la edad gestacional [Lun et al., 2008 "Microfluidics digital PCR reveals a higher than expected fraction of fetal DNA in maternal plasma", Clinical Chemistry, 54, 1664-1672]. Se preparo una biblioteca de secuenciacion a partir del ADN de la muestra artificial, y se sometio a 50 ciclos de secuenciacion en 4 calles de la celula de flujo utilizando el IlluminaHiSeq 2000. Se generaron aproximadamente 800 millones de lecturas de secuencias 49-mero.

Los ~ 800 millones de lecturas se alinearon contra el Genoma de Referencia Humano con Enmascaramiento de Repeticiones (construccion hg19) utilizando el algoritmo GSNAP (
http://research- pub.gene.com/gmap/), lo que permite un desapareamiento y ninguna insercion y ninguna delecion. Se ignoraron las secuencias que se mapearon contra multiples ubicaciones en el genoma. Todas las demas lecturas mapeadas se contaron como marcadores de secuencia, y solo los loci contra los que se mapearon 40 y 100 marcadores de secuencia se tuvieron en cuenta para su posterior analisis, es decir, solo se tuvieron en cuenta las bases con una cobertura de 40 y 100 marcadores.

Para cada locus de bases, se hizo el recuento del numero de marcadores que se mapearon contra cada una de las cuatro bases. Se eliminaron los loci con mas de dos bases posibles, y solo los marcadores que se mapearon contra loci monoalelicos y bialelicos se utilizaron para predecir la fraccion fetal artificial. El numero total de marcadores que se mapearon en cada locus de bases represento la cobertura (D) en ese locus. En esta muestra materna simulada, se espera que la contribucion del alelo mayoritario de la madre (B) refleje la porcion del 90% de los marcadores, y la contribucion del alelo minoritario del hijo (A) refleje la porcion del 10% de los marcadores.

Las Figuras 11A y B muestran los histogramas del numero de observaciones de bases variantes (Frecuencia) en los cromosomas 1 y 7, respectivamente para los porcentajes de alelos minoritarios (A/D) para los cromosomas 1 y 7. El porcentaje del alelo minoritario es el porcentaje del numero total de alelos en un determinado locus. Por ejemplo, para un determinado locus en el que hay 8 apariciones del alelo minoritario A y 56 apariciones del alelo mayoritario B, el porcentaje del alelo minoritario es 8%. Los datos muestran que el mayor numero de apariciones (Frecuencia) para el alelo minoritario se observa cuando el alelo minoritario esta presente en un 5%, lo que representa la mitad de la fraccion fetal. Por consiguiente, los datos predijeron que la muestra contema una fraccion fetal del 10%, que se corresponde con la utilizada para crear la muestra materna artificial.

Las Figuras 12A y B muestran la distribucion de la frecuencia alelica en los cromosomas 1 y 7, respectivamente. Ambos graficos muestran que el numero maximo de alelos variantes en los cromosomas se producen a una frecuencia del alelo minoritario del 5% y una frecuencia del alelo mayoritario del 95%. Algunos de los

5

10

15

20

25

30

35

40

45

50

55

60

65

puntos de datos restantes representan loci bialelicos presentes en el genoma de la madre, mientras que otros representan el ruido de la metodolog^a de secuenciacion. La porcion central de cada grafico donde los alelos variantes no estan representados coincide con los centromeros del cromosoma, que se sabe son regiones ricas en repeticiones de los cromosomas, contra las que se mapean los marcadores en mas de un locus y que, por lo tanto, se excluyen del analisis. En otras regiones, por ejemplo las regiones que flanquean el centromero y las regiones correspondientes a los telomeros, los alelos variantes estan sobrerrepresentados. La sobrerrepresentacion de estas regiones puede atribuirse a la metodologfa de secuenciacion por la cual algunas regiones se secuencian a mayores niveles que otras.

Por lo tanto, el metodo de la presente invencion puede utilizarse para predecir la fraccion fetal. El metodo es particularmente util, ya que no requiere la identificacion de secuencias diana, por ejemplo, SNPs, y cualquier variacion en cualquier posicion de cualquier cromosoma pueden servir para predecir el porcentaje de fraccion fetal.

Otras formas de realizacion

Aunque lo anteriormente indicado ha descrito en general la presente invencion segun procesos y aparatos espedficos, la presente descripcion tiene un abanico de aplicabilidad mucho mas amplio. En particular, la presente descripcion se ha descrito en terminos de deteccion de la fraccion de ADN fetal en una muestra de ADN obtenida de una embarazada, pero no se limita a ello, ya que los conceptos y metodos presentados en el presente documento tambien pueden aplicarse en otros contextos, tales como la deteccion de las cantidades relativas de los tipos de ADN en una muestra que tiene ADN procedente de dos o mas genomas diferentes. Por supuesto, los expertos en la materia reconoceran otras variaciones, modificaciones y alternativas.

Por ejemplo, aunque la mayona de los ejemplos y aplicaciones descritos en el presente documento tienen que ver con la estimacion de la fraccion fetal de ADN en una muestra de ADN obtenida de un individuo que lleva un feto, la descripcion no se limita a ello. De manera mas general, diversas formas de realizacion describen metodos para evaluar las cantidades relativas de acidos nucleicos de dos genomas diferentes en una muestra de ensayo que contiene una mezcla de acidos nucleicos de los dos genomas diferentes, y que se sabe o se sospecha difieren en la cantidad de una o mas secuencias de interes. La mezcla de acidos nucleicos se deriva de dos o mas tipos de celulas.

Ademas, aunque la mayona de los ejemplos presentados en el presente documento tienen que ver con muestras tomadas de una embarazada humana, la descripcion no se limita a ello. Por ejemplo, el individuo que proporciona una muestra a ensayar puede ser un organismo que comprende secuencias polinucleotfdicas, por ejemplo, una planta, un insecto tal como una mosca, o un animal. En algunas formas de realizacion, el sujeto es un mairnfero, por ejemplo, un raton, rata, perro, mono o ser humano. Como se indica, el sujeto puede ser una paciente embarazada. El sujeto podna ser un paciente con una enfermedad tal como un cancer, o podna estar infectado con un cuerpo extrano tal como un microorganismo, por ejemplo, un virus. La muestra puede comprender un fluido corporal del sujeto, por ejemplo, sangre, plasma, suero, esputo, saliva, orina, excrementos, pus, linfa, moco o similares. Por ejemplo, la muestra puede ser una muestra de plasma materno que contiene una mezcla de ADN libre materno y fetal. En general, los metodos descritos pueden implicar secuenciar el ADN de una muestra; mapear las lecturas de secuencias contra los polimorfismos; clasificar los polimorfismos en base a la cigosidad; y estimar la fraccion de ADN de una fuente secundaria en la muestra.

Anexo 1. Listado de secuencias de la base de datos de busqueda de alelos

>rs560681.1|Cr. 1|longitud=111|alelo=A

CACA7GcACA GCCAGCAACC CTGTCAGCAG GAGTTCCCAC CAGT77CTTT CTGAGAACAT CTGTTCAGGT TTCTCTCCAT CTCTATTTAC TCAGGTCACA GGACCTTGGG G

>rs560681.2|Cr. 1|longitud=111|alelo=G

C A C A T G C A C A G C C A G C A A C C C T G T C A G C A G CTGAGAACAT CTGTTCAGGT TTCTCTCCAT

GAGTTCCCAC

CTCTGTTTAC

CAGTTTCTTT

TCAGGTCACA

GGACCTTGGG G

>rs1109037.1|Cr.2|longitud=126|alelo=A

TGAGGAAGTG AGGCTCAGAG GGTAAGAAAC TTTGTCACAG AGCTGGTGGT GAGGGTGGAG ATTTTACACT CCCTGCCTCC CACACCAGTT TCTCCAGAGT GGAAAGACTT TCATCTCGCA CTGGCA

5

10

15

20

25

30

35

40

45

50

55

60

65

T GAGGAAGTG AGGCTCAGAG GGTAAGAAAC GAGGGTGGAG ATTTTACACT CCCTGCCTCC GGAAAGACTT TCATCTCGCA CTGGCA

>rs9866013.1|Cr.3|longitud=121|alelo=C

G7GCCTTCAG AACCTTTGAG ATCTGATTCT GAGAGATTGC AAAGTGGGTT GTTTCTCTAG G G G G T G G 0 T G G T G G GAT G G G A

>rs9866013.2|Cr.3|longitud=121|alelo=T

GTGCCTTCAG AACC7TTGAG ATCTGATTCT GAGAGATTGC AAAGTGGGTT GTTTCTCTAG GGGGTGGCTG GTGGGATGGGA

>rs13182883.1|Cr.5|longitud=111|alelo=A

AGGTGTGTCT CTCTTTTGTG AGGGGAGGGG GGC CTGGC CT GC AGT GA GG A T'T CAAA T C CT TGGGACAAAG G

>rs13182883.2|Cr.5|longitud=111|alelo=G

AGGTGTGTCT CTCTTTTGTG AGGGGAGGGG GGCCTGGCCT GCAGTGAGCA TTCAAATCCT TGGGACAAAG G

>rs13218440.1|Cr.6|longitud=139|alelo=A

CCTCGCCTAC TGTGCTGTTT CTAACGA7CA GAGTCTTTTT CTGCTGTGGA CTGAAACTTG T0CCTCTGAG CAGG01CGTG GAATAC TCAG

>rs13218440.2|Cr.6|longitud=139|alelo=G

CC T CGCCTAC T GT GC TGTTT CTAACGAT CA GAGTCTTTTT CTGCTGTGGA CTGAAACTTG TCCCTCTGGG CAGGCTCCTG GAATACTCAG

TTTGTCACAG

CACACCAGTT

ATTTTTAAAG

CCAGACAGGG

ATTTTTAAAG

CCAGACAGGG

TCCCTTCTGG CAA GGAA CA G

TCCCTTCTGG

CGAGGAACAG

TGCTTTTCCC

ATCCTGAGAT

CTGGGATGG

TGCTTTTCCC

ATCCTGAGAT

CTGGGATGG

AGCTGGTGGT

TCTCCGGAGT

CTTCTTAGAA

CAGGCAAATA

CTTCTTAGAA

CAGGTAAATA

CCTAGTAGAG

GGTGGGGAGG

CCTAGTAGAG

GGTGGGGAGG

TGAATCTCTT

TCACCTCTAG

TGAATCTCTT

TCACCTCTAG

5

10

15

20

25

30

35

40

45

50

55

60

65

GCA A CT CC CT C AA CT CCA A G TTTGTAGTTC TAGTGTGGGA GGAACTCCTC ACTG

>rs4606077.2|Cr.8|longitud=114|alelo=T

GCAA CT CCCT CAACTCCAA G TTTGTAGTTC TAGTGTGGGA GGAACTCCTC ACTG

>rs7041158.1|Cr.9|longitud=117|alelo=C

>rs7041158.2|¥r:9]10ngitQJ=^l9[aielO=TGC-rnT

TGTCATTCTG A T C- C A C T G C, A

A A T T GCAA T G GTGA GAGGTT TGTCATTCTG ATGGACTGGA AA GA0ACT TC TCACTGG

>rs740598.1|Cr. 10|longitud=114|alelo=A

GA A A TGCC TT CTCAGGT AA T TTTCAAATAG CAATGGCTCG GAACTGCTCA AAOO

>rs740598.2|Cr. 10|longitud=114|alelo=G

G A A A T G C C T T C T C A G G T A A T TTTCAAATAG CAATGGCTCG GAACTGCTCA AAOO

>rs10773760.1|Cr.12|longitud=128|alelo=A

A C C C A A A A C A C T G G A G G G G C TAGCCGTCGG GACCAGCTTC TCCAAGTATG CCACATAGGA

>rs10773760.2|Cr.12|longitud=128|alelo=G

ACCCAAAA CA CTGGAGGGGC TAGCCGTCGG GACCAGCTTC T C G A AG 'I A T C C C AC A T A G G A

GCAGAGACCA TCTGACTCCC

GATGGTAAAA ACTGA G GATT GATGGTAAAA

ACTGAGGATT

GGAAGGTTAT

TCTATGGTTA

GGAAGGTTAT

TCTATGGTTA

CTCTTCTCAT TGTCTGGAAG GATAAGGG

AAGCCCTCCC

CACAGCCCAC

AAGCCCTCCC

C A C AG C CT A C

TCAAACGGAA

TTCAATTTCC

TCAAACGGAA

TTCAATTTCC

CCAAATATTT

GTCTCACAGC

CCAAATATTT

GTCTCGCAGC

TTTCGGTAGA

TTCGTCAAAT

TTTCGGTAGA

TTCGTCAAAT

TGCCTGTGGC

CCAAAGCCGG

TGCCTGTGGC

CCAAAGCCGG

CTTGTTATTT

Tr.Tnr.flflr.nr.

CTTGTTATTT

TTTCCAACCC

TTCGTAAGTA

CACATTCTCA

TTCGTAAGTA

CACATTCTCA

CTGCAAGTGT

TGCAGTTAAG

CTGCAAGTGT

TGCAGTTAGG

5

10

15

20

25

30

35

40

45

50

55

60

65

GCACCAGAAT T TAAACAACG T C C C a G A G C T C C A G A A G C A A TGTCAGGTGC

>rs4530059.2|Cr.14|longitud=110|alelo=G

GC ACCAGAAT T TAAACAACG TCCCAGAG CT C CAGAAGCAA TGTCAGGTGC

>rs1821380.1|Cr. 15|longitud=139|alelo=C

GCCCAGATTA GATGGAACCT T CAAAGAAGT GGATGTGTTA GTGCAAAAAT GCAGTAAGGC

>rs1821380.2|Cr.15|longitud=139|alelo=G

GCCCAGATTA GATGGAACCT TGA AAGAAGT GGATGTG7TA GTGCAAAAAT GCAGTAAGGG

>rs7205345.1|Cr.16|longitud=116|alelo=C

T G A C T G T A T A G C C C A G G T G C TCTCACAGAG TATAAGAGCT TCCACATCCT TAGTGC

>rs7205345.2|Cr.16|longitud=116|alelo=G

TGAC7G7ATA GCCCAGG7GC TCTCACAGAG TATAAGAGCT TCCACAT0CT TAGTGC

>rs8078417.1|Cr. 17|longitud=110|alelo=C

TGT ACGTG GT CAGCAGGGGA TGGTGG CCCC GTGAAGG TTC

>rs8078417.2|Cr.17|longitud=110|alelo=T

TGT ACGTGGT CAGCAGGGGA TCGTGCCCCC GTGAAGCTTC TTCTCACACT

CTGACAATAA

CTCCAGCACA

CTGAGAATAA CTCCAGCACA

TTTCCTCTTT

TTGCGGGCAC

ATACAGATAG

TTTCCTCTTT

TTGCGGGCAC

ATACAGATAG

ACCCTTGGGT

GATTTCTGTG

ACCCTTGGGT

GATTTCTGTG

CGCCTGGCGC

AGCTCCCCTC

TTCTCACACT

CGCCTGGCGC

AGCTCCCCTC

ATATGCAGTC

CAGAGAGGCG

ATATGCAGTC C GGAGAG GC G

TCCAGTGCAA AAGGGAGCCA AAGAAGGAG

TCCAGTGCAA

AATGGAGCCA

AAGAAGGAG

CATCTCTATC

TCTGCCTCTC

CATCTCTATC

TCTGCCTCTC

TGCGAGGGAG

CCCGGCTGTC

TGCGAGGGAG

CCTGGCTGTC

GA7GATGACT

CTGATGTGCC

GATGATGACT

CTGATGTGCC

GACAAGCGAT

CTGAACTGCA

GACAAGCGAT

CTGAACTGCA

ATAGAACTTA

ACACTAGACT

ATAGAACTTA

ACACTAGACT

GCCCCGAGCC

CTTGAGGCTC

GCCCCGAGCC

CTTGAGGCTC

5

10

15

20

25

30

35

40

45

50

55

60

65

C A G T G G A C C C T G C T G C A C C T 'T'T C C T C C C C T C C C A T C A A C C TCTTTT G T G C CTCCCCCTCC GTGTACCACC TTCTCTGTCA CCAACCCTGG CCTCACAACT CTCTCCTTTG CCAC >rs576261.2|Cr. 19|longitud=114|alelo=C

CAGTGGACCC TGCTGCACCT CCCCTCCCCG CCCATCAACC TCGTTTGTGC CTCCCCCTCC GTGTACCACC TTCTCTGTCA CCACCCCTGG CCTCACAACT CTCTCCTTTG CCAC >rs2567608.1|Cr.20|longitud=110|alelo=A

CAGT GGCA TA GTAGT CCAGG GG C T C C T CC T CAGCA CC T C C AG CACC T T CC AGGAGGCAGC AGCGCAGGCA GAGAACCCGC TGGAAGAATC GGCGGAAGTT GTCGGAGAGG

>rs2567608.2|Cr.20|longitud=110|alelo=A

imagen4

>rs2073383.1|Cr.22|longitud=140|alelo=C

GC T G C A G A A T C C A C A GA G C C A G A C G C C C C C T G G GC C C C C A GC G C C C C C C T GCACAAGTGG GGAAACTAGG TCATGGGGCC CAGGCAGTGT GGAAGGCGTT G C AG GA G T T G C G C AG G G C G T G G G G T C C T C G A G C C T CA G T G

>rs2073383.2|Cr.22|longitud=140|alelo=T

GCTGCAGAAT G CACAGAGGC A GACGCCCCC T GGGC GCCG A GCGCCCCCCT GCACAAGTGG GGAAACTAGG TCATGGGGCC CAGGCAGTGT GGAAGGCGTT G C AG G A G T T G C 0 C A G G G T G T C G G G T C C T CC A G C G T G A GT G

LISTADO DE SECUENCIAS

<110> Verinata Health, Inc.

<120> RESOLUCION DE FRACCIONES DE GENOMA USANDO RECUENTO DE POLIMORFISMOS

<130> P067682EP

<140> EP 12716939.9 <141> 2012-04-12

<140> PCT/US2012/033391 <141> 2012-04-12

<150> 61/474,362 <151> 2011-04-12

5

10

15

20

25

30

35

40

45

50

55

60

65

<160> 32

<170> PatentIn version 3.5

<210> 1 <211> 111 <212> ADN <213> Homo sapiens

<400> 1

cacatgcaca gccagcaacc ctgtcagcag gagttcccac cagtttcttt ctgagaacat 60

ctgttcaggt ttctctccat ctctatttac tcaggtcaca ggaccttggg g 111

<210>2 <211> 111 <212> ADN <213> Homo sapiens

<400> 2

cacatgcaca gccagcaacc ctgtcagcag gagttcccac cagtttcttt ctgagaacat 60

ctgttcaggt ttctctccat ctctgtttac tcaggtcaca ggaccttggg g 111

<210>3 <211> 126 <212> ADN <213> Homo sapiens

<400> 3

tgaggaagtg aggctcagag ggtaagaaac tttgtcacag agctggtggt gagggtggag 60

attttacact ccctgcctcc cacaccagtt tctccagagt ggaaagactt tcatctcgca 120

ctggca 126

<210>4 <211> 126 <212> ADN <213> Homo sapiens

<400> 4

tgaggaagtg aggctcagag ggtaagaaac tttgtcacag agctggtggt gagggtggag 60

attttacact ccctgcctcc cacaccagtt tctccggagt ggaaagactt tcatctcgca 120

ctggca 126

<210>5 <211> 121 <212> ADN <213> Homo sapiens

5

10

15

20

25

30

35

40

45

50

55

60

65

gtgccttcag aacctttgag atctgattct atttttaaag cttcttagaa gagagattgc aaagtgggtt gtttctctag ccagacaggg caggcaaata ggggtggctg gtgggatggg a

<210>6 <211> 121 <212>ADN <213> Homo sapiens

<400> 6

gtgccttcag aacctttgag atctgattct atttttaaag cttcttagaa gagagattgc aaagtgggtt gtttctctag ccagacaggg caggtaaata ggggtggctg gtgggatggg a

<210>7 <211> 111 <212> ADN <213> Homo sapiens

<400> 7

aggtgtgtct ctcttttgtg aggggagggg tcccttctgg cctagtagag ggcctggcct

gcagtgagca ttcaaatcct caaggaacag ggtggggagg tgggacaaag g

<210>8 <211> 111 <212> ADN <213> Homo sapiens

<400> 8

aggtgtgtct ctcttttgtg aggggagggg tcccttctgg cctagtagag ggcctggcct gcagtgagca ttcaaatcct cgaggaacag ggtggggagg tgggacaaag g

60

120

121

60

120

121

60

111

60

111

<210>9 <211> 139 <212> ADN <213> Homo sapiens

<400> 9

cctcgcctac tgtgctgttt ctaaccatca tgcttttccc tgaatctctt gagtcttttt 60

ctgctgtgga ctgaaacttg atcctgagat tcacctctag tccctctgag cagcctcctg 120

gaatactcag ctgggatgg 139

<210> 10 <211>139 <212> ADN <213> Homo sapiens

5

10

15

20

25

30

35

40

45

50

55

60

65

cctcgcctac tgtgctgttt ctaaccatca tgcttttccc tgaatctctt gagtcttttt 60

ctgctgtgga ctgaaacttg atcctgagat tcacctctag tccctctggg cagcctcctg 120

gaatactcag ctgggatgg 139

<210> 11 <211> 114 <212> ADN <213> Homo sapiens

<400> 11

gcaactccct caactccaag gcagacacca aagccctccc tgcctgtggc tttgtagttc 60

tagtgtggga tctgactccc cacagcccac ccaaagccgg ggaactcctc actg 114

<210> 12 <211> 114 <212> ADN <213> Homo sapiens

<400> 12

gcaactccct caactccaag gcagacacca aagccctccc tgcctgtggc tttgtagttc 60

tagtgtggga tctgactccc cacagcctac ccaaagccgg ggaactcctc actg 114

<210> 13 <211> 117 <212> ADN <213> Homo sapiens

<400> 13

aattgcaatg gtgagaggtt gatggtaaaa tcaaacggaa cttgttattt tgtcattctg 60

atggactgga actgaggatt ttcaatttcc tctccaaccc aagacacttc tcactgg 117

<210> 14 <211> 117 <212> ADN <213> Homo sapiens

<400> 14

aattgcaatg gtgagaggtt gatggtaaaa tcaaacggaa cttgttattt tgtcattctg 60

atggactgga actgaggatt ttcaatttcc tttccaaccc aagacacttc tcactgg 117

<210> 15 <211> 114 <212> ADN <213> Homo sapiens

<400> 15

gaaatgcctt ctcaggtaat ggaaggttat ccaaatattt ttcgtaagta tttcaaatag 60

caatggctcg tctatggtta gtctcacagc cacattctca gaactgctca aacc 114

5

10

15

20

25

30

35

40

45

50

55

60

65

<210> 16 <211> 114 <212> ADN <213> Homo sapiens

<400> 16

gaaatgcctt ctcaggtaat ggaaggttat ccaaatattt ttcgtaagta tttcaaatag 60

caatggctcg tctatggtta gtctcgcagc cacattctca gaactgctca aacc 114

<210> 17 <211>128 <212> ADN <213> Homo sapiens

<400> 17

acccaaaaca ctggaggggc ctcttctcat tttcggtaga ctgcaagtgt tagccgtcgg 60 gaccagcttc tgtctggaag ttcgtcaaat tgcagttaag tccaagtatg ccacatagca 120 gataaggg 128

<210> 18 <211>128 <212> ADN <213> Homo sapiens

<400> 18

acccaaaaca ctggaggggc ctcttctcat tttcggtaga ctgcaagtgt tagccgtcgg 60

gaccagcttc tgtctggaag ttcgtcaaat tgcagttagg tccaagtatg ccacatagca 120

gataaggg 128

<210> 19 <211> 110 <212> ADN <213> Homo sapiens

<400> 19

gcaccagaat ttaaacaacg ctgacaataa atatgcagtc gatgatgact tcccagagct 60

ccagaagcaa ctccagcaca cagagaggcg ctgatgtgcc tgtcaggtgc 110

<210> 20 <211> 110 <212> ADN <213> Homo sapiens

<400> 20

gcaccagaat ttaaacaacg ctgacaataa atatgcagtc gatgatgact tcccagagct 60

ccagaagcaa ctccagcaca cggagaggcg ctgatgtgcc tgtcaggtgc 110

<210> 21 <211> 139 <212> ADN <213> Homo sapiens

5

10

15

20

25

30

35

40

45

50

55

60

65

<400> 21

gcccagatta gatggaacct tttcctcttt tccagtgcaa gacaagcgat tgaaagaagt 60

ggatgtgtta ttgcgggcac aatggagcca ctgaactgca gtgcaaaaat gcagtaaggc 120

atacagatag aagaaggag 139

<210> 22 <211> 139 <212>ADN <213> Homo sapiens

<400> 22

gcccagatta gatggaacct tttcctcttt tccagtgcaa gacaagcgat tgaaagaagt 60

ggatgtgtta ttgcgggcac aatggagcca ctgaactgca gtgcaaaaat gcagtaaggg 120

atacagatag aagaaggag 139

<210> 23 <211> 116 <212> ADN <213> Homo sapiens

<400> 23

tgactgtata ccccaggtgc acccttgggt catctctatc atagaactta tctcacagag 60

tataagagct gatttctgtg tctgcctctc acactagact tccacatcct tagtgc 116

<210> 24 <211> 116 <212> ADN <213> Homo sapiens

<400> 24

tgactgtata ccccaggtgc acccttgggt catctctatc atagaactta tctcacagag 60

tataagagct gatttctgtg tctgcctgtc acactagact tccacatcct tagtgc 116

<210> 25 <211> 110 <212> ADN <213> Homo sapiens

<400> 25

tgtacgtggt caccagggga cgcctggcgc tgcgagggag gccccgagcc tcgtgccccc 60

gtgaagcttc agctcccctc cccggctgtc cttgaggctc ttctcacact 110

<210> 26 <211> 110 <212> ADN <213> Homo sapiens

5

10

15

20

25

30

35

40

45

50

55

60

65

tgtacgtggt caccagggga cgcctggcgc tgcgagggag gccccgagcc tcgtgccccc 60

gtgaagcttc agctcccctc cctggctgtc cttgaggctc ttctcacact 110

<210> 27 <211> 114 <212>ADN <213> Homo sapiens

<400> 27

cagtggaccc tgctgcacct ttcctcccct cccatcaacc tcttttgtgc ctccccctcc 60

gtgtaccacc ttctctgtca ccaaccctgg cctcacaact ctctcctttg ccac 114

<210> 28 <211> 114 <212> ADN <213> Homo sapiens

<400> 28

cagtggaccc tgctgcacct ttcctcccct cccatcaacc tcttttgtgc ctccccctcc 60

gtgtaccacc ttctctgtca ccacccctgg cctcacaact ctctcctttg ccac 114

<210> 29 <211> 110 <212> ADN <213> Homo sapiens

<400> 29

cagtggcata gtagtccagg ggctcctcct cagcacctcc agcaccttcc aggaggcagc 60

agcgcaggca gagaacccgc tggaagaatc ggcggaagtt gtcggagagg 110

<210> 30 <211> 110 <212> ADN <213> Homo sapiens

<400> 30

cagtggcata gtagtccagg ggctcctcct cagcacctcc agcaccttcc aggaggcagc 60

agcgcaggca gagaacccgc tggaaggatc ggcggaagtt gtcggagagg 110

<210> 31 <211> 140 <212> ADN <213> Homo sapiens

<400> 31

gctgcagaat ccacagagcc agacgccccc tgggccccca gcgcccccct gcacaagtgg 60

ggaaactagg tcatggggcc caggcagtgt ggaaggcgtt gcaggagttg cccagggcgt 120

ggggtcctcc agcctcagtg 140

<210> 32 <211> 140

5

10

15

20

25

30

35

40

45

50

55

60

65

<212> ADN <213> Homo sapiens

<400> 32

gctgcagaat ccacagagcc agacgccccc tgggccccca gcgcccccct gcacaagtgg 60

ggaaactagg tcatggggcc caggcagtgt ggaaggcgtt gcaggagttg cccagggtgt 120

ggggtcctcc agcctcagtg 140

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Un metodo para estimar una fraccion del ADN fetal en ADN obtenido de un fluido corporal de un individuo embarazado, el metodo comprendiendo:

(a) mapear segmentos de ADN obtenidos del fluido corporal del individuo embarazado a una pluralidad de secuencias de polimorfismos, en donde el ADN se secuencio bajo condiciones que identifican la pluralidad de secuencias de polimorfismos;

(b) determinar una frecuencia alelica de los acidos nucleicos mapeados para cada una de la pluralidad de las secuencias de polimorfismos; y

(c) aplicar las frecuencias alelicas a un modelo de mezcla para obtener una estimacion de la fraccion de ADN fetal en el ADN obtenido de la sangre del individuo que lleva el feto,

en donde (b)-(c) se realizan en uno o mas procesadores ejecutando bajo instrucciones de programas para la determinacion y la aplicacion.
2. El metodo de la reivindicacion 1, en el que (c) comprende ejecutar instrucciones en uno o mas procesadores para resolver una serie de ecuaciones para momentos factoriales de datos de frecuencia alelicas para cada una de la pluralidad de secuencias de polimorfismo.
3. El metodo de la reivindicacion 1, que comprende ademas, antes de (c), eliminar computacionalmente las frecuencias alelicas para polimorfismos identificados como heterocigotos tanto en el feto como en el individuo embarazado.
4. El metodo de la reivindicacion 1, que comprende ademas, antes de (c), eliminar computacionalmente las frecuencias alelicas para polimorfismos identificados como homocigotos tanto en el feto como en el individuo embarazado.
5. El metodo de la reivindicacion 1, que comprende ademas, antes de (c), eliminar computacionalmente las frecuencias alelicas para polimorfismos identificados como heterocigotos en el individuo embarazado.
6. El metodo de la reivindicacion 1, en el que el modelo de mezcla tiene en cuenta del error de secuenciacion.
7. El metodo de la reivindicacion 1, en el que el ADN obtenido de un fluido corporal de un individuo embarazado es ADN libre de celulas obtenido del plasma del individuo embarazado.
8. El metodo de la reivindicacion 1, en el que el mapeo de los acidos nucleicos obtenidos del fluido corporal de un individuo embarazado comprende mapear dichos segmentos a una base de datos de polimorfismos.
9. El metodo de la reivindicacion 1, que comprende ademas obtener una muestra del fluido corporal del individuo embarazado.
10. El metodo de la reivindicacion 1, que comprende ademas secuenciar el ADN del fluido corporal de un individuo embarazado con un secuenciador de acido nucleico bajo condiciones que producen secuencias de segmentos de ADN que contienen las secuencias de polimorfismo.
11. El metodo de la reivindicacion 1, en el que el mapeo en (a) comprende identificar una pluralidad de secuencias de polimorfismo bialelico.
12. El metodo de la reivindicacion 1, en el que el mapeo en (a) comprende mapear los segmentos de ADN a una pluralidad de secuencias de polimorfismo predefinidas.
13. El metodo de la reivindicacion 1, que comprende ademas ejecutar instrucciones de programa en uno o mas procesadores para registrar automaticamente la fraccion de ADN fetal como se estima en (c) en un registro medico del paciente, almacenado en un medio legible por ordenador, para el individuo embarazado.
14. El metodo de la reivindicacion 13, en el que dicho registro medico del paciente es mantenido por un laboratorio, consultorio medico, un hospital, una organizacion de mantenimiento de la salud, una comparMa de seguros, o un sitio web de registro medico personal.
15. El metodo de la reivindicacion 1, que comprende ademas, en base a la estimacion de la fraccion de ADN fetal, ordenar y/o realizar una o mas pruebas adicionales.